CN114792246A

CN114792246A - 一种基于主题集成聚类的产品典型性特质挖掘方法及系统

Info

Publication number: CN114792246A
Application number: CN202210205214.7A
Authority: CN
Inventors: 孙晶涛; 陈彦萍; 张秋余; 王忠民; 李敬明; 孙韩林
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-07-26
Anticipated expiration: 2042-03-02
Also published as: CN114792246B

Abstract

本发明公开了一种基于主题集成聚类的产品典型性特质挖掘方法及系统，构造融入词性信息的LDA主题模型，并将多个LDA主题模型获取的聚类结果作为原始数据的新增属性，计算原始数据在基聚类空间内的相关性，构建最大相关系数矩阵；获取最大相关系数矩阵的相应划分，实现主题聚类集成；构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在该词的词性属性矩阵中引入文本的主题概率，利用集成学习方法对同一个词的多个词性属性矩阵进行集成，获取词的词性标记序列向量；利用词对相似度排序方法获取产品短评文本的典型性特质。本发明解决了对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足等问题。

Description

一种基于主题集成聚类的产品典型性特质挖掘方法及系统

技术领域

本发明属于自然语言处理中的产品评论分析与挖掘技术领域，具体涉及一种基于主题集成聚类的产品典型性特质挖掘方法及系统。

背景技术

在电子商务和网络购物应用快速发展的今天，人们总是习惯性的浏览商品描述与用户评论，这使得用户评论所包含的众多意见乃至购物导向，将直接影响着人们的购买行为。随着越来越多的用户乐于在互联网上分享自己的观点或体验，产品评论信息呈现爆炸式增长，也使得潜在用户及商家难以阅读所有评论，难以直观地获取评论所蕴含的内容，更难以了解其他用户对某一产品各方面特质所进行的情感描述，而这些问题单纯依靠人力已无法真正有效解决。因此，迫切需要一种无监督的产品评论挖掘方法来帮助用户快速整理海量评论，获取评论中某个(类)产品的典型性特质。

目前短评文本的无监督挖掘任务主要包含两个关键问题：

一是评论文本的聚类分析；

二是评论文本的特征抽取。

以隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)为代表的主题模型具有较好的无监督聚类能力，其通过词在文档集中的共现性，实现了词间隐含语义关系的描述。利用这一特点对用户评论内容进行事先聚类，能够克服在产品典型性特质挖掘过程中需要海量训练语料的缺陷，将评论信息的使用大大“轻量化”，使的特征抽取的整个过程能在较小规模的语料库上完成。但在线产品评论数据与普通文本数据又存在着诸多差异：高噪声、特征稀疏、主题分散等，这些特点使得一些适合于传统文档数据的主题模型，应用于在线产品评论数据的特征提取时往往效果不佳。

存在的主要问题为：

1)主题个数难以准确判断；

2)单一的主题模型无法在全部数据集上获得较好的主题聚类效果；

3)一些通用观点词(“好”、“不错”、“不如……”等)的频繁出现，导致主题模型将特征聚类到错误的主题类别中；

4)难以解释每个主题所代表的产品及特征。

近年来，集成学习技术在机器学习领域获得了极大的关注，其通过组合多个精确度一般的机器学习模型，利用单个模型之间的差异性，获得比单个模型更好的学习结果。在文本分类、数据挖掘、模式识别等众多领域的最新研究成果表明，大多数通过集成学习得到的模型要明显优于单个模型。因此，对于同一文档集数据，当设置不同的主题个数、使用不同的参数，乃至引入不同的词性，甚至每次运行之间，均会生成不同的主题模型。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于主题集成聚类的产品典型性特质挖掘方法及系统，将多个主题模型引入集成学习中，以解决对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足的问题。

本发明采用以下技术方案：

一种基于主题集成聚类的产品典型性特质挖掘方法，包括以下步骤：

S1、对评论文本数据进行预处理，保留分词结果中的词性信息，再利用文本不同的词性筛选，构建融入词性信息的LDA主题模型；

S2、利用步骤S1构建的多个融入词性信息的LDA主题模型，将LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性；通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，完成原始评论文本数据主题聚类集成；

S3、利用步骤S2得到的原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在词性属性矩阵中引入文本的主题概率，利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，采用 Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质，实现对产品的特性描述。

具体的，步骤S1具体为：

S101、对给定的某产品原始评论语料库A＝{a₁,a₂,...,a_m}进行预处理，得到分句集合D＝{d₁,d₂,...,d_N}，标识每条分句d_i,i∈{1,2,...,N}为一个独立的新文档，集合 D定义为一个新语料库，包含|W^e|个词，e为单词性或词性组合，N篇文档，每篇文档d_i中含有

个词，

令语料库D中的主题数量为K；

S102、利用Gibbs采样算法对词性LDA模型进行主题提取，每轮只遍历步骤S101所获取语料库D中的文档一次，在经过对所有文档中词的多轮迭代Gibbs 采样后，得到文档--主题分布θ，以及主题--词项分布

获取一组基聚类结果。

进一步的，LDA主题模型生成文档的过程如下：

为每个主题k选择一个分布

为每个文档d_i选择一个分布

对于文档d_i中的每个词

选择主题

选择词

表示文档d_i中第j个词的主题分配情况，α和β为狄利克雷参数。

具体的，步骤S2具体为：

S201、在步骤S101获取的语料库D上，重复运算S次词性LDA模型，获得语料库D的聚类结果Q；

S202、根据MIC方法，计算步骤S201得到的聚类结果Q的相似性矩阵X；

S203、使用SyNMF对步骤S202得到的相似性矩阵X进行聚类，得到主题聚类集成结果。

进一步的，步骤S202构建相似性矩阵X具体为：

S2021、通过步骤S201获取N*S的基聚类结果矩阵Q，其中，N为语料库 D中的文档数，S为不同聚类算法计算的结果数；

S2022、对步骤S2021基聚类结果矩阵Q中的每个行向量，计算向量之间的互信息值I(T_i；T_j)；再次，归一化I(T_i；T_j)值，将I(T_i；T_j)值转化到(0，1)区间之内；

S2023、重复步骤S2021和步骤S2022，得到所有向量间的归一化互信息值，构建N*N维的相似性矩阵X。

进一步的，步骤S203对相似性矩阵X进行聚类具体为：

构造相似性矩阵X的SyNMF分解模型；利用拉格朗日乘子方法及KKT条件求解SyNMF分解模型中的H_ij；对SyNMF分解模型中的过程矩阵H进行二值化处理；获得语料库D的集成聚类标签H*。

具体的，步骤S3具体为：

S301、在步骤S2获得的任意聚类评论集

中，构造每个词w_i的词性属性矩阵

S302、在步骤S301构造的每个词w_i的词性属性矩阵

中引入所属文本的主题概率信息，并对同一个词w_i的多个词性属性矩阵进行集成，利用词性位置权重信息，构建词性标记序列向量Pos(w_i)；

S303、利用实词两两组合的策略，构建步骤S301中聚类评论集

的无序词对；

S304、通过步骤S302构建的词性标记序列向量Pos(w_i)，计算步骤S303所获得词对中对应词的词性标记序列向量差，构建无序词对的向量集合P_t；

S305、在步骤S304获得集合P_t未被标记的数据点中任选一个点p作为中心点；

S306、将距离中心点p，半径为h范围内的所有点记为集合G，指定集合G 属于簇R，把簇R对集合G内点的访问频率加1；

S307、以p为中心点，计算p点到步骤S306的集合G中每个点的向量，并将向量相加，得到的结果为Mean-Shift向量；

S308、中心点p沿Mean-Shift方向移动，移动距离为||Mean-Shift||；重复步骤S306～S308，直到||Mean-Shift||<t，t为阈值，此时中心点p迭代收敛，将迭代过程中遇到的所有数据点都归类为簇R；

S309、当中心点p收敛时，如果簇R的中心点与其他已经存在的簇中心点距离小于阈值，将这两个簇合并，否则，把簇R作为新的聚类，增加1类；重复步骤S305～S309直到所有的数据点都已被标记访问；

S3010、根据每个类，对每个点的访问频率，取访问频率最大的类作为当前点集的所属类；

S3011、对每个簇中的词对进行自身相似度排序，各自选取绝对值最高的L 个词对，构建产品典型性特质的可解释性描述集Y。

进一步的，步骤S301中，词性属性矩阵

的构造方法为：

选取每个词前后各2个相邻词组成其词性序列，考虑相邻的实词形式，词性标注按顺序依次为n，v，a，m，q，r，b；词性属性矩阵V的元素v_i,j为：

其中，1≤i≤5，1≤j≤7。

进一步的，步骤S302中，将词性位置权重设置为

词性标记序列向量为词性位置权重Z与词性属性矩阵V的乘积，即Pos＝V*Z

第二方面，本发明实施例提供了基于主题集成聚类的产品典型性特质挖掘系统，包括：

LDA模块，对评论文本数据进行预处理，构建融入词性信息的LDA主题模型；

聚类模块，利用LDA模块构建的多个融入词性信息的LDA主题模型，将 LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性；通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，完成原始评论文本数据主题聚类集成；

挖掘模块，利用聚类模块得到的原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在词性属性矩阵中引入文本的主题概率，利用集成学习方法对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，利用词对相似度排序方法，获取产品短评文本的典型性特质，实现对产品的特性描述。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于主题集成聚类的产品典型性特质挖掘方法，将集成学习技术应用于LDA主题模型中，借助词性多样性的筛选，在保证LDA主题模型局部差异性前提下，获得了较高的整体集成性能；同时，提出了基于词性标记序列向量的词对表示方法，从词性角度赋予了词对向量新的可解释性；并且利用 Mean-Shift算法发现词对的团聚类特征，并使用词对自身语义相似性的排序策略，获取产品典型性特质的可解释性集合；该发明能够使短评文本分析效率和准确率得到一定的提高、有效且实用；另外，产品典型性特质识别及可解释性集合的获取对于评论意见的细粒度挖掘至关重要，并能对产品销售方的销售决策及经营改善产生巨大影响。

进一步的，步骤S1通过保留分词结果中的词性信息，提升了词的语义表述性，以此增强了多义词在不同词性下的区分度；并在LDA主题模型上，利用不同词性的特征筛选，精简原始数据，降低文本空间的维数，最终提升主题聚类性能。

进一步的，LDA主题模型具有较好的无监督聚类能力，其通过词在文档集中的共现性，实现了词间隐含语义关系的描述。利用这一特点对用户评论内容进行事先聚类，能够克服在产品典型性特质挖掘过程中需要海量训练语料的缺陷，将评论信息的使用大大“轻量化”，使的特征抽取的整个过程能在较小规模的语料库上完成。

进一步的，步骤S2采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，实现主题聚类集成，解决了单一主题模型难以精准判定主题个数，更难以有效获取主题所代表的产品特征的问题。

进一步的，步骤S202构建相似性矩阵X，不仅能够有效处理离散型数据，还能够通过对连续型数据进行离散处理，真正实现对混合类型数据的处理；通过构建互信息特征矩阵来寻找变量之间的最大信息系数，可以更精确地表示出数据属性间关联性的大小。

进一步的，步骤S203对相似性矩阵X进行聚类，具有较好的鲁棒性，通过采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，解决了单一主题模型难以精准判定主题个数，更难以有效获取主题所代表的产品特征的问题。

进一步的，步骤S3利用词的词性标注向量差，构建局部词对(Word-pair) 向量矩阵，利用Mean-Shift算法发现词对的团聚类特征，并通过全局范围的词对语义相似性排序，获取产品典型性特质的解释集合。解决了由于产品评论篇幅短小、数据稀疏，句法难以分析所出现的产品典型性特质识别难、可解释性集合获取难等方面的问题。

进一步的，步骤S301中构造词性属性矩阵

从词性角度赋予了词对向量新的可解释，通过以词性信息替代更为复杂的句法分析，以此提高产品典型性特质挖掘方法性能。

进一步的，在步骤S302中，将词性标记序列向量表示为词性位置权重Z与词性属性矩阵V的乘积，即Pos＝V*Z。其目的是在特定大小的滑动窗口下，从词性角度赋予词向量新的可解释性，使得复杂的句法分析，能够以词性信息替代，以此提高产品典型性特质挖掘方法性能。

综上所述，本发明通过在各类已有聚类集成算法和模型研究的基础上，尝试利用非负矩阵分解算法对单一的主题模型进行相应聚类集成，以此改善模型的泛化性能，提高聚类结果的准确性、稳定性和鲁棒性，实现数据集的并行处理。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明基于主题集成聚类的产品典型性特质挖掘方法整体流程图；

图2为融入词性信息的LDA主题模型构建过程流程图；

图3为基于非负矩阵分解的主题集成聚类算法过程流程图；

图4为基于Mean-Shift算法的产品典型性特质解释性方法过程流程图；

图5为本发明一实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域 /层。

本发明提供了一种基于主题集成聚类的产品典型性特质挖掘方法，通过在预处理阶段，保留分词结果中的词性信息，并利用文本不同的词性筛选，构造融入词性信息的LDA主题模型；将多个LDA主题模型获取的聚类结果，看成为原始数据的新增属性，以此定义原始数据在基聚类空间上的表达；通过最大互信息系数方法(Maximal informationcoefficient，MIC)计算原始数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，实现主题聚类集成；构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在该词的词性属性矩阵中引入文本的主题概率，以此区分不同文本对目标词的影响；利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量；采用Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质。本发明将多个主题模型引入集成学习中，解决了对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足等问题。

请参阅图1，本发明一种基于主题集成聚类的产品典型性特质挖掘方法，包括以下步骤：

S1、通过在文本预处理阶段，保留分词结果中的词性信息，再利用文本不同的词性筛选，构造融入词性信息的LDA主题模型；

在文本预处理阶段采用中国科学院计算技术研究所的ICTCLAS分词系统，对短评语料信息进行分词处理，并使用ICTCLAS提供的词性标注功能来保留词性信息。经观察发现，评价对象所用特征词一般使用意义比较具体，且在文本中能够表示实在意义的实词形式(名词、动词、形容词、数词、量词、代词、区别词)。因此，本发明以词性信息替代更为复杂的句法分析，通过将不同词性筛选或词性组合，应用于词性LDA主题模型中，在不严重损害分类结果与性能的前提下，降低了特征空间维度，并获取到了多个有效的聚类结果。本发明采用自然标注信息(标点符号)进行分句的切分，并假设以此能够无监督的获得具有单一主题特质的单句。

请参阅图2，词性LDA主题模型构建方法为：

S101、对给定的某产品原始评论语料库A＝{a₁,a₂,...,a_m}进行预处理，得到分句集合D＝{d₁,d₂,...,d_N}，标识每条分句d_i,i∈{1,2,...,N}为一个独立的新文档，那么集合D做为一个新语料库，包含|W^e|个词(e为单词性或词性组合)，N篇文档，每篇文档d_i中含有

个词，则

令语料库D中的主题数量为K。那么LDA生成文档的过程如下所示：

为每个主题k选择一个分布

为每个文档d_i选择一个分布

对于文档d_i中的每个词

--选择主题

--选择词

其中，

S102、为了获取θ和

本发明采用Gibbs采样算法对词性LDA模型进行主题提取，该算法每轮只需对语料库D中的文档遍历一次，在经过对所有文档中词的多轮迭代Gibbs采样后，得到“文档—主题”分布θ，以及“主题—词项”分布

以此实现了将具有相同或相关主题信息的不同分句聚集到一起，获取到一组基聚类结果。

S2、通过步骤S1构建多个融入词性信息的LDA主题模型，并将LDA主题模型获取的聚类结果，看成为原始数据的新增属性；通过最大互信息系数方法计算原始数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，实现主题聚类集成；

请参阅图3，利用不同词性筛选及词性组合获取候选产品特征词，重复使用 LDA主题模型计算，最终获得S个不同的基聚类结果Q＝[Q₁,Q₂,……Q_s]，Q为 N*S维的矩阵，矩阵的每一行代表一个文档在S种不同聚类算法中被分配的类别标签，而矩阵的每一列则代表一次基聚类计算的结果；获取所有基聚类结果具体为：

S201、在步骤S101获取的语料库D上，重复运算S次词性LDA模型获得语料库D的聚类结果Q；

S202、根据MIC方法计算Q的相似性矩阵X；

构建相似性矩阵X具体为：

S2022、对Q中的每个行向量(对应于语料库D中的一个文档)，计算向量之间的互信息值I(T_i；T_j)；再次，归一化I(T_i；T_j)值，将I(T_i；T_j)值转化到(0，1)区间之内；

向量之间的互信息值计算方法为：

I(T_i；T_j)＝H(T_i)+H(T_j)-H(T_i,T_j) (2)

其中，两个离散随机样本点T_i与T_j，i,j∈{1,2,…,N}，i≠j，I(T_i；T_j)为样本点 T_i与T_j的之间互信息，H(T_i；T_j)为样本点T_i与T_j的联合信息熵。

归一化I(T_i；T_j)值的计算方法为：

其中，H(T_i)、H(T_j)分别表示样本点T_i和T_j的信息熵。

S2023、重复上述过程得到所有向量间的归一化互信息值，以此构建N*N维的相似性矩阵X，该相似性矩阵X为一个对称阵，主对角线上的值是向量自身的互信息值为1，其余为两两向量间的互信息值，即NMI(T_i；T_j)。

S203、使用SyNMF对相似性矩阵X进行聚类。

S2031、构造相似性矩阵X的SyNMF分解模型；

其中，H_ij为文档i属于聚类j的强度，J为拉格朗日函数，HH^T为非负矩阵分解矩阵，F为范数。

最小化J的求解可以采用拉格朗日乘子方法，通过将有约束的原始问题转化为无约束的对偶问题，利用梯度下降法求解。

S2032、利用拉格朗日乘子方法及KKT条件求得H_ij；再次，对矩阵H进行二值化处理；

S2033、获得语料库D的集成聚类标签H*。

S3、步骤S2完成后，构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在该词的词性属性矩阵中引入文本的主题概率，以此区分不同文本对目标词的影响，利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，采用Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质。

请参阅图4，具体步骤如下：

S301、在任意聚类评论集

中，构造每个词w_i的词性属性矩阵

词性属性矩阵的构造方法为：

选取每个词前后各2个相邻词组成其词性序列，仅考虑相邻的实词形式(名词、动词、形容词、数词、量词、代词、区别词)，其词性标注按顺序依次为n， v，a，m，q，r，b；那么，词性属性矩阵V，其元素为：

其中，1≤i≤5，1≤j≤7。

S302、在每个词w_i的词性属性矩阵

中引入其所属文本的主题概率信息，并对同一个词w_i的多个词性属性矩阵进行集成，利用词性位置权重信息，构建其词性标记序列向量Pos(w_i)；

词性标记序列向量Pos(w_i)的构造方法为：

本发明将词性位置权重设置为

那么，词性标记序列向量就是词性位置权重Z与词性属性矩阵V的乘积，即Pos＝V*Z。

S303、利用实词两两组合的策略，构建聚类评论集

的无序词对；

S304、通过词对中对应词的词性标记序列向量差，构建无序词对的向量集合 P_t；

S305、在集合P_t未被标记的数据点中任选一个点p作为中心点；

S306、将距离中心点p，半径为h范围内的所有点，记为集合G，指定其属于簇R。同时，把簇R对这些点的访问频率加1；

S307、以p为中心点，计算该点到集合G中每个点的向量，并将这些向量相加，得到的结果为Mean-Shift向量；

S308、p＝p+Mean-Shift，即p沿着Mean-Shift方向移动，移动距离为||Mean-Shift||；重复步骤S306～S308，直到||Mean-Shift||<t(阈值)，则此时p迭代收敛，将迭代过程中遇到的所有数据点都归类为簇R；

S309、当p收敛时，如果簇R的中心点与其他已经存在的簇中心点距离小于阈值，那么将这两个簇合并，否则，把簇R作为新的聚类，增加1类；重复步骤S305～S309直到所有的数据点都已被标记访问；

S3010、根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类；

本发明最终得到的产品短评文本的典型性特质，能够帮助用户快速整理海量评论，获取评论中所代表的产品及特征，其获取到的可解释性集合对于评论意见的细粒度挖掘至关重要，并能对产品销售方的销售决策及经营改善产生巨大影响。

本发明重点研究主题模型的集成学习方法，通过在各类已有聚类集成算法和模型研究的基础上，尝试利用非负矩阵分解算法对单一的主题模型进行相应聚类集成，以此改善模型的泛化性能，提高聚类结果的准确性、稳定性和鲁棒性，实现数据集的并行处理。

本发明再一个实施例中，提供一种基于主题集成聚类的产品典型性特质挖掘系统，该系统能够用于实现上述基于主题集成聚类的产品典型性特质挖掘方法，具体的，该基于主题集成聚类的产品典型性特质挖掘系统包括LDA模块、聚类模块以及挖掘模块。

其中，LDA模块，对评论文本数据进行预处理，保留分词结果中的词性信息，再利用文本不同的词性筛选，构建融入词性信息的LDA主题模型；

挖掘模块，利用聚类模块得到的原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在词性属性矩阵中引入文本的主题概率，利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，采用Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质，实现对产品的特性描述。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于主题集成聚类的产品典型性特质挖掘方法的操作，包括：

对评论文本数据进行预处理，保留分词结果中的词性信息，再利用文本不同的词性筛选，构建融入词性信息的LDA主题模型；利用构建的多个融入词性信息的LDA主题模型，将LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性；通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，完成原始评论文本数据主题聚类集成；利用原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在词性属性矩阵中引入文本的主题概率，利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，采用Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质，实现对产品的特性描述。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于主题集成聚类的产品典型性特质挖掘方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

请参阅图5，该实施例的计算机设备60包括：处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63，该计算机程序63 被处理器61执行时实现实施例中的心率测量方法，为避免重复，此处不一一赘述。或者，该计算机程序63被处理器61执行时实现实施例基于主题集成聚类的产品典型性特质挖掘系统中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备60可包括，但不仅限于，处理器61、存储器62。本领域技术人员可以理解，图5仅仅是计算机设备60的示例，并不构成对计算机设备 60的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器61可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器62可以是计算机设备60的内部存储单元，例如计算机设备60的硬盘或内存。存储器62也可以是计算机设备60的外部存储设备，例如计算机设备60上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

进一步地，存储器62还可以既包括计算机设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了验证本发明对短评文本中产品典型性特质可解释性描述集挖掘的有效性，选取从JD、Amazon、大众点评等在线平台获取的部分产品用户评论信息，对比本发明与标准LDA模型、K-means算法、基于特征聚类的特征选择方法 (FSFC)之间的特征抽取结果。为了描述方便，我们仅列举一类产品(手机) 的其中3个聚类结果集，并采取人工方式指定标签，其标签可解释性描述集的选取，采用各算法相对应的排序策略，仅保留前10个词或5个词对。具体实验结果如表1所示。

表1产品(手机)部分典型性特质的可解释性描述集

从表1中看出，每一个标签可解释性描述集下的词较好的与产品某一个典型性特质相关联，且词内部具有较好的一致性。

例如：表1的第1列大概率描述的是手机外观这一典型性特质。

然而，在有些标签可解释性描述集下也存在着一些无关的“噪声词”，表1 中加黑的这些词就与当前标签集无关，即无法准确解释产品典型性特质的错误词。从整体角度来看，无词性的特征集要比有词性的特征集，词的集中度更高，但可解释性减弱。

通过定性分析，进一步证明本发明对于构建产品典型性特质的可解释性描述集是可行的。

综上所述，本发明一种基于主题集成聚类的产品典型性特质挖掘方法及系统，具有以下特点：

(1)实现了无监督的短评文本产品典型性特质挖掘模型构建。提高了短评文本主题类聚性及特征选择能力，提升了对产品典型性特质识别及可解释性。

(2)将集成学习技术应用于LDA主题模型中，借助词性多样性的筛选，在保证LDA主题模型局部差异性前提下，获得了较高的整体集成性能；

(3)提出了一种利用词对的词性标记序列向量差代替传统意义上的词向量，进行产品典型性特质分析的方法，这进一步压缩了向量空间的维数，以词性信息取代了复杂的句法分析；

(4)利用Mean-Shift算法，在不借助任何先验知识的前提下，实现了任意形状词对集合的密度估计及簇划分，有效克服了特征空间需服从已知概率密度函数结构的前置要求。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，包括以下步骤：

S2、利用步骤S1构建的多个融入词性信息的LDA主题模型，将LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性；通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性，构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，完成原始评论文本数据主题聚类集成；

S3、利用步骤S2得到的原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在词性属性矩阵中引入文本的主题概率，利用集成学习方法对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量，利用词对相似度排序方法，获取产品短评文本的典型性特质，实现对产品的特性描述。

2.根据权利要求1所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S1具体为：

S101、对给定的某产品原始评论语料库A＝{a₁,a₂,...,a_m}进行预处理，得到分句集合D＝{d₁,d₂,...,d_N}，标识每条分句d_i,i∈{1,2,...,N}为一个独立的新文档，集合D定义为一个新语料库，包含|W^e|个词，e为单词性或词性组合，N篇文档，每篇文档d_i中含有

个词，

令语料库D中的主题数量为K；

S102、利用Gibbs采样算法对词性LDA模型进行主题提取，每轮只遍历步骤S101所获取语料库D中的文档一次，在经过对所有文档中词的多轮迭代Gibbs采样后，得到文档--主题分布θ，以及主题--词项分布

获取一组基聚类结果。

3.根据权利要求2所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，LDA主题模型生成文档的过程如下：

为每个主题k选择一个分布

为每个文档d_i选择一个分布

对于文档d_i中的每个词

选择主题

选择词

4.根据权利要求1所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S2具体为：

5.根据权利要求4所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S202构建相似性矩阵X具体为：

S2021、通过步骤S201获取N*S的基聚类结果矩阵Q，其中，N为语料库D中的文档数，S为不同聚类算法计算的结果数；

6.根据权利要求4所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S203对相似性矩阵X进行聚类具体为：

7.根据权利要求1所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S3具体为：

S301、在步骤S2获得的任意聚类评论集

中，构造每个词w_i的词性属性矩阵

S302、在步骤S301构造的每个词w_i的词性属性矩阵

S303、利用实词两两组合的策略，构建步骤S301中聚类评论集

的无序词对；

S306、将距离中心点p，半径为h范围内的所有点记为集合G，指定集合G属于簇R，把簇R对集合G内点的访问频率加1；

S3011、对每个簇中的词对进行自身相似度排序，各自选取绝对值最高的L个词对，构建产品典型性特质的可解释性描述集Y。

8.根据权利要求7所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S301中，词性属性矩阵

的构造方法为：

其中，1≤i≤5，1≤j≤7。

9.根据权利要求7所述的基于主题集成聚类的产品典型性特质挖掘方法，其特征在于，步骤S302中，将词性位置权重设置为

词性标记序列向量为词性位置权重Z与词性属性矩阵V的乘积，即Pos＝V*Z。

10.一种基于主题集成聚类的产品典型性特质挖掘系统，其特征在于，包括：

LDA模块，对评论文本数据进行预处理，保留分词结果中的词性信息，再利用文本不同的词性筛选，构建融入词性信息的LDA主题模型；

聚类模块，利用LDA模块构建的多个融入词性信息的LDA主题模型，将LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性；通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，完成原始评论文本数据主题聚类集成；