CN109241275B

CN109241275B - 一种基于自然语言处理的文本主题聚类算法

Info

Publication number: CN109241275B
Application number: CN201810741538.6A
Authority: CN
Inventors: 梁天恺; 曾碧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2022-02-11
Anticipated expiration: 2038-07-05
Also published as: CN109241275A

Abstract

本发明公开了一种基于自然语言处理的文本主题聚类算法，首先形成针对本发明的中文语料库；其次，针对该中文语料库中文本进行数据预处理以降低后续算法的计算成本；接着，实现新颖的中文分词以及文本词项的特征向量化算法，实现评论文本的词项从词项文本空间到向量空间的转化；然后，将针对生成的文本词项向量空间进行降维压缩，实现文本词项向量空间到文本主题空间的转换；最后，将根据生成的文本主题模型进行文本主题聚类，以得到进行评论的用户对某商品的关注点，并最终给出针对某商品的一些改进方向，以求产品愈来愈接近大部分用户的需求，如质量方面或价格方面需要进行改进等类似的建议。

Description

一种基于自然语言处理的文本主题聚类算法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于自然语言处理的文本主题聚类算法。

背景技术

目前，在传统的文本聚类算法中主要有以下缺点：

(1)目前的中文文本分词算法的准确性不高；

(2)目前的文本主题模型构建算法的准确性不高；

(3)目前的文本主题聚类算法无法很好地去除历史记录对当前决策的影响，即无法与人类一样慢慢遗忘掉过于陈旧的评价文本，从而造成所挖掘到的用户关注点偏离用户最新的关注点，进而造成商家、如智能家居设备经营商改进思路的错误，造成严重的经济损失。

与本发明最相近的方法有张万山等人(张万山,肖瑶,梁俊杰,等.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3140-3143.)在上述已完成的研究中针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。

发明内容

本发明为克服上述现有技术所述的若干缺陷，针对中文文本，研究如何对中文文本进行文本主题分析，并最终实现文本主题聚类，提供一种基于自然语言处理的文本主题聚类算法。

为解决上述技术问题，本发明的技术方案如下：

一种基于自然语言处理的文本主题聚类算法，包括以下步骤：

S1.获取用户评论文本；

S2.对用户评论文本进行数据预处理，得到用户评论文本语料库；

S3.对用户评论文本语料库进行中文分词，得到用户评论文本词项库；

S4.对用户评论文本词项库进行建模，得到评论文本的主题模型；

S5.采用文本主题聚类算法，得到用户关注点。

上述算法的思路如下：首先获取用户评论文本，实现一个稳定可靠的网络爬虫以收集网上商城里有关智能家居方面的设备评价文本并形成针对本发明的中文语料库，如智能点灯、智能空调等；针对该中文语料库中文本进行数据预处理(如文本格式统一化、去除无意义符号、无意义高频虚词以及低频词等)以降低后续算法的计算成本；实现新颖的中文分词以及文本词项的特征向量化算法，实现评论文本的词项从词项文本空间到向量空间的转化；将针对生成的文本词项向量空间进行创新性的降维压缩，实现文本词项向量空间到文本主题空间的转换，即提取构建文本的主题模型；最后，将根据生成的文本主题模型进行文本主题聚类，以得到进行评论的用户对某商品的关注点，并最终给出针对某商品的一些改进方向，以求网商智能家居产品愈来愈接近大部分用户的需求，如质量方面或价格方面需要进行改进等类似的建议。

进一步地，所述步骤S2中的数据预处理具体过程如下：

为了清除因格式问题存在的算法错误的可能性，对用户评论文本语料库进行格式规范化处理；同时还对规范化后的文本去除标点符号、高频虚词和低频词，以降低噪声对算法的干扰并适当降低了计算成本，得到经过预处理的用户评论文本语料库。

进一步地，所述步骤S3的中文分词采用基于Attention、BiLSTM网络和CRF条件随机场的中文分词算法，具体包括以下步骤：

S301.通过Attention注意力机制，得到若干个候选词项；

S302.将所述步骤301中的候选词项均作为LSTM单元代入BiLSTM网络中，经过CRF条件随机场进行筛选出具有有效信息的词项，完成分词操作。

进一步地，为了将字符串形式的文本数据转化为特征向量，以便于后续算法进行处理，所述步骤S4中的建模具体包括以下步骤：

S401.对所述用户评论文本词项库中的词项进行向量化，得到每个词项的词向量，形成文本的词项空间；

S402.将所述步骤402中的词向量映射到所述用户评论文本词项库的文本向量中，使文本从词项空间转换到主题空间中。

进一步地，所述步骤S5中的文本主题聚类算法为具有遗忘学习能力的K-Means聚类算法，其具体包括以下步骤：

S501.向数据点分配类标；

S502.更新类型向量。

进一步地，所述步骤S401通过n-Skip算法将词项进行向量化，n-Skip算法采用伪神经网络训练任务得到词的特征向量，当采用特定词作为n-Skip输入时，输出是特定词对应的上下文词向量，但是n-Skip算法关注的不是神经网络的输出而是中间的权重矩阵，最终通过one-hot向量点乘最终的权重矩阵以得到某一个词的词向量。

进一步地，所述步骤S402通过GRU神经网络和text-CNN神经网络结合的算法将词向量映射到所述用户评论文本词项库。

进一步地，所述步骤S501中分配类标的具体过程如下：

将每个数据点分配给其质心向量与该记录具有最小欧几里德距离的类别中并分配类标，具体公式如下：

其中，r_p代表一个数据点即一条句子主题向量；

表示第j个类别的质心向量；

表示类别

的质心向量；在以上公式中，数据点r_p被分配给符合公式(3)定义的类别

进一步地，所述步骤S502中更新类型向量具体为，使用基于遗忘规律的遗忘因子降低陈旧评价记录的权重并提高最近的评价记录的权重，遗忘因子通过以下公式得到：

其中，r_i表示对目标的评价记录；d(r_i)表示所述目标的评价记录的产生日期；d₀表示所述目标的最新评价记录的产生日期；

将所述遗忘因子代入以下公式，得到用户关注点：

与现有技术相比，本发明技术方案的有益效果是：

本发明融合了Attention注意力机制以及BiLSTM深度神经网络的优点，提出了一种准确率高的中文分词算法；

在步骤S4中，为了对用户评论文本词项库建模，本发明还结合循环递归神经网络RNN、卷积神经网络text-CNN深度神经网络以及数理统计学原理，给出一种新颖且有效的文本主题模型构建算法，更好地基于本发明的中文语料库构建文本主题模型；

为了计算用户关注点，本发明结合遗忘规律和K-Means聚类算法，提出具有遗忘学习功能的聚类算法，能够很好降低过于陈旧的历史记录等噪声对当前聚类过程的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于自然语言处理的文本主题聚类算法的整体流程框图；

图2为数据预处理流程图；

图3为Attention+BiLSTM+CRF的中文分词算法体系结构图；

图4为构建主题模型的的流程框图；

图5为文本向量化的体系结构图；

图6为GRU神经层结构图；

图7为GRU神经网络结构图；

图8-13为实验示例结果图，具体说明请参照说明书实验说明部分。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于自然语言处理的文本主题聚类算法，其过程如图1所示，包括以下步骤：

S1.获取用户评论文本；

S5.采用文本主题聚类算法，得到用户关注点。

在一种实施方式中，步骤S2中的数据预处理的具体过程如图2所示，包括以下操作：

对用户评论文本语料库进行格式规范化处理，去除标点符号、高频虚词和低频词，得到经过预处理的用户评论文本语料库。

在一种实施方式中，步骤S3的中文分词采用基于Attention、BiLSTM网络和CRF条件随机场的中文分词算法，其具体流程如图3所示，包括以下步骤：

S301.通过Attention注意力机制，得到若干个候选词项；

S302.将步骤301中的候选词项均作为LSTM单元代入BiLSTM网络中，经过CRF条件随机场进行筛选出具有有效信息的词项，完成分词操作。

其中，CRF条件随机场被用于标注或分析序列资料，是一种无向性之图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场当中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X；CRF条件随机场使用一种概率图模型而具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注偏置等问题的优点，而且所有特征可以进行全局归一化，能够求得全局的最优解。

其次，在BiLSTM双向的长短期记忆网络中，LSTM作为BiLSTM的基本组成单元，与普通的循环递归神经网络RNN(Recurrent Neural Networks)的区别是包括一个判断信息有用与否的“处理器”，所述处理器作用的结构被称为cell。Cell设有三扇门，分别为输入门、遗忘门和输出门。信息进入LSTM的网络当中，根据规则来判断是否有用；只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。而Attention机制是按照“高分辨率”聚焦在文本的某个特定区域并以“低分辨率”感知文本的周边区域的模式，然后不断地调整聚焦点。因此，三者的有机融合理论上可以提高中文分词算法的分词精度，具体的Attention+BiLSTM+CRF的中文分词算法体系结构图如图3所示。

在一种实施方式中，步骤S4中的建模如图4的向量化过程所示，具体包括以下步骤：

S401.对用户评论文本词项库中的词项进行向量化，得到每个词项的词向量，形成文本的词项空间；

S402.将步骤402中的词向量映射到用户评论文本词项库的文本向量中，使文本从词项空间转换到主题空间中。

在一种实施方式中，步骤S5中的文本主题聚类算法为具有遗忘学习能力的K-Means聚类算法，其具体包括以下步骤：

S501.向数据点分配类标；

S502.更新类型向量。

在一种实施方式中，步骤S401通过n-Skip算法将词项进行向量化，具体的，n-Skip算法采用伪神经网络训练任务得到词的特征向量，n-Skip输入是特定词，而输出是特定词对应的上下文词向量；n-Skip算法关注的不是神经网络的输出而是中间的权重矩阵，最终通过one-hot向量点乘最终的权重矩阵以得到某一个词的词向量。

在一种实施方式中，步骤S402通过GRU神经网络和text-CNN神经网络结合的算法将词向量映射到用户评论文本词项库，其具体过程如图5所示，包括以下步骤：

S4021.卷积层：输入经过预处理的评价文本，通过步骤S401生成的对应的句子向量维度为7个5维的空间(其中维度可自由调节)，即每个词用维度为5的词向量表示；在卷积层中，分别使用高度为4,3,2的卷积核，且每种卷积核有2个；卷积之后得到6个对应的特征向量；

S4022.最大池化层：对步骤S4021得到的特征向量分别通过从上往下大小为4,4,5,5,6,6的局部视野域，然后对每个向量进行1-Max-pooling最大池化层，再两两进行拼接，得到3个句子分部向量；

S4023.通过GRU神经网络，对句子分部向量进行遗忘学习，得到最终的句子主题向量，GRU得到句子主题向量如图6-7所示；

GRU神经网用于处理具有时序遗忘性要求的任务，因此，将按某一评论的N个词语项的先后顺序的特征词向量依次输入到GRU神经网络中，以得到该评论的句子主题向量，以挖掘出该评论文本潜在的用户主题关注点；本实施例所使用的GRU神经网络的每一层有4个基本运算，具体体系结构图如图5所示：

(1)更新门：更新信号会通过公式1决定本神经层得到的潜在的用户主题关注点以多大程度影响并更新上一个神经层已得到的潜在的用户主题关注点，并给出一个合理的权重。

(2)重置门：重置信号会通过公式2判定新输入的句子分部向量(x)的重要程度，并给出一个合理的权重。

(3)新记忆产生：在本发明中，GRU神经网络中的新记忆指的就是本神经层得到的句子主题向量。也就是说，这个阶段能够对新观察到的句子分部向量和上一个神经层已得到的句子主题向量进行合理合并，即通过公式3根据将二者融合以得到本神经层的句子主题向量。

(4)隐层状态：在本发明中，GRU神经网络中的隐层状态指的就是经过本神经层处理后得到的新的潜在的用户主题关注点。在本运算中，GRU将根据(1)得到结合权重将本神经层得到的句子主题向量与上一个神经层已得到的句子主题向量进行合理结合并得到新的句子主题向量传递给下一个神经层进行处理，当隐层状态传递到最后一个神经层时，最后一个神经层的输出即整个GRU神经网络的输出则可认为是根据所有句子分部向量所得到的最终的句子主题向量，以此达到构建句子主题模型的目标。

上述体系结构可通过图6-7所示的GRU神经层各分层的结构和以下公式配合，更进一步地阐述：

Z_t＝σ(W^(z)X_t+U^(z)h_t-1) (1)

r_t＝σ(W^(r)X_t+U^(r)h_t-1) (2)

其中U、W代表不同的神经网络权重矩阵；x代表句子分部向量；h代表某一神经层的隐含状态。

在一种实施方式中，步骤S501中分配类标的具体过程如下：

其中，r_p代表一个数据点即一条句子主题向量；

表示第j个类别的质心向量；

表示类别

在一种实施方式中，步骤S502中更新类型向量具体为，使用基于遗忘规律的遗忘因子降低陈旧评价记录的权重并提高最近的评价记录的权重，遗忘因子通过以下公式得到：

其中，r_i表示对目标的评价记录；d(r_i)表示目标的评价记录的产生日期；d₀表示目标的最新评价记录的产生日期；

将遗忘因子代入以下公式，得到用户关注点：

下面为一个采用本发明方案所进行的前期预备实验：

结合现有的英文测试文本，采用本发明提出的算法进行了简单的文本主题相似度度量的预备实验，证明本发明的算法可以实现文本主题聚类。实验的展示为三部分：原始文本数据与数据预处理后的语料库的展示，将文本映射到词项空间实现词向量化、将文本从词项空间转换到主题空间实现文本向量化以及最终对新输入的文本句子与语料库中文本进行相似度度量并输出具有最相近主题意思的文本，具体如图8-13所示。

其中，图8展示了本次预备实验的测试文本。图9展示了经过数据预处理后的到的文本语料库。

图10展示了将文本映射到词项空间后的词项空间模型，完成了文本词项的向量化工作。图11展示了将文本从词项空间转换到主题空间的词项主题模型，完成了文本向量化工作。

图12展示了新输入的文本句子以及其对应的句子向量以及其与语料库中文本的相似度矩阵。图13展示了文本主题相似度评估后输出的语料库中与新输入的文本之间具有最相近的主体意思的文本。

经过本预备实验，证明本发明可以针对文本构建文本主题模型并践行文本主题模型相似度度量工作，此工作与文本主题聚类工作原理显示相似，因此推断本发明具有可行性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。