CN113779246A

CN113779246A - 基于句子向量的文本聚类分析方法及系统

Info

Publication number: CN113779246A
Application number: CN202110983716.8A
Authority: CN
Inventors: 朱天宁; 王盼盼; 李德启
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-10

Abstract

本发明提供了一种基于句子向量的文本聚类分析方法，包括如下步骤：步骤S1：句子嵌入程序，得到句子向量；步骤S2：将句子向量作为文本聚类程序的输入，得到文本聚类程序的输出类别标签；步骤S3：运行文本聚类程序。本发明让计算机具备文字阅读能力，帮助客户自动化处理海量文本数据，提升文字处理效率和文本挖掘深度，降低人工成本；本发明在研究文本向量的生成方法的基础上，深入研究了文本向量化后的聚类方法和相关理论，结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析，能够从海量文本中总结出需求文档的撰写规律，对需求文档实现自动解析并从内部文档资料等长篇幅的文件进行分析，从大量的文本数据中提炼出有价值的信息。

Description

基于句子向量的文本聚类分析方法及系统

技术领域

本发明涉及机器学习和自然语言处理的技术领域，具体地，涉及基于句子向量的文本聚类分析方法及系统。

背景技术

机器学习是对能通过经验自动改进的计算机算法的研究。

自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理，使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作，但简单而言，自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词，形成以最小词性为单位，且富含语义的词项单元。

文本聚类主要依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。

词向量又叫Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

参数估计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。

根据聚类中心个数和距离平方和所画出来的图，而因为拐点处相似人的手肘，因此成为肘部法则。

在公告号为CN108197111B的专利文献中公开了一种基于融合语义聚类的文本自动摘要方法，包括：文本预处理步骤，对原始文档进行预处理，并统计关键词在文本中的词频信息；权重计算步骤，融合局部权重，全局权重和引入相关权重来确定关键词在句子中的贡献度；语义分析步骤，将文本矩阵进行奇异值分解，得到语义分析模型，以此计算每个句子的语义向量；聚类步骤，对计算的句子语义向量在语义空间中通过聚类算法得到K个句子簇；句子选择步骤，在每一个句子簇中计算句子权重，根据排名来挑选前n个句子组成摘要，并去除冗余。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于句子向量的文本聚类分析方法及系统。

根据本发明提供的一种基于句子向量的文本聚类分析方法，所述方法包括如下步骤：

步骤S1：句子嵌入程序，得到句子向量；

步骤S2：将句子向量作为文本聚类程序的输入，得到文本聚类程序的输出类别标签；

步骤S3：运行文本聚类程序。

优选地，所述步骤S1包括计算词向量的加权平均值，使用如下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

优选地，所述步骤S1还包括去除平均向量在第一个分量上的投影，句子向量被定义为向量Cs的极大似然估计，使用如下公式：

其中：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

Cs代表生成的句子向量；

∝，数学符号，表示与某个量成正比例。∑是一个求和符号；

W表示单词；S表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数；

为了估计Cs，通过计算一组句子中的第一主成分来估计方向C₀，通过将Cs的投影减去它们的第一主成分得到最后的句子嵌入。

优选地，所述步骤S3包括如下步骤：

步骤S3.1：设X＝{a1,a2,a3,...,an}是数据点的集合，‘c’是集群的数量；

步骤S3.2：随机初始化c集群中心；

步骤S3.3：计算变换空间中每个数据点与聚类中心的距离，使用如下公式：

当

时，

其中：

X＝{a1,a2,a3,...,an}表示数据点的集合，集合内a1、a2、a3分别代表每个数据点；

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

优选地，所述步骤S3还包括：

步骤S3.4：指定数据点到距离最小的聚类中心；

步骤S3.5：直到数据点重新分配，重复步骤S3。

本发明还提供一种基于句子向量的文本聚类分析系统，所述系统包括如下模块：

模块M1：句子嵌入程序，得到句子向量；

模块M2：将句子向量作为文本聚类程序的输入，得到文本聚类程序的输出类别标签；

模块M3：运行文本聚类程序。

优选地，所述模块M1包括计算词向量的加权平均值，使用如下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

优选地，所述模块M1还包括去除平均向量在第一个分量上的投影，句子向量被定义为向量CM的极大似然估计，使用如下公式：

其中：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

CM代表生成的句子向量；

W表示单词；M表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数；

优选地，所述模块M3包括如下模块：

模块M3.1：设X＝{a1,a2,a3,...,an}是数据点的集合，‘c’是集群的数量；

模块M3.2：随机初始化c集群中心；

模块M3.3：计算变换空间中每个数据点与聚类中心的距离，使用如下公式：

当

时，

其中：

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

优选地，所述模块M3还包括：

模块M3.4：指定数据点到距离最小的聚类中心；

模块M3.5：直到数据点重新分配，重复模块M3。

与现有技术相比，本发明具有如下的有益效果：

1、本发明让计算机具备文字阅读能力，帮助客户自动化处理海量文本数据，提升文字处理效率和文本挖掘深度，降低人工成本；

2、本发明在研究文本向量的生成方法的基础上，深入研究了文本向量化后的聚类方法和相关理论，结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析，能够从海量文本中总结出需求文档的撰写规律，对需求文档实现自动解析并从内部文档资料等长篇幅的文件进行分析，从大量的文本数据中提炼出有价值的信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图；

图2为本发明文本聚类算法实现图；

图3位本发明文本聚类流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供一种基于句子向量的文本聚类分析方法及系统，一般文本聚类流程为：

数据清洗：对于爬虫爬取的HTML原始文本，需要进行数据清洗过滤掉标签文本。网页中存在很多不必要的信息，比如说一些广告，导航栏，html、js代码，注释等等，我们并不感兴趣的信息,可删除掉。如果是需要正文提取，可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

分词：对于中文文本数据，比如一条中文的句子，词语词之间是连续的，而数据分析的最小单位粒度我们希望是词语，所以我们需要进行分词工作，这样就给下一步的工作做准备。而对于英文文本句子，就不存在分词这一说法了，应为英文的句子的最小单位就是词语，词语之间是有空格隔开的。

去停用词：停用词stopword是指那些对文本特征没有任何贡献作用的词语，比如：啊、的、是的、你、我、…………还有一些标点符号，这些我们不想在文本分析的时候引入，因此需要去掉，这些词就是停用词。因为这些词在所有的文章中都大量存在，并不能反应出文本的意思，可以处理掉。当然针对不同的应用还有很多其他词性也是可以去掉的，比如形容词等。

词袋模型：词袋表示(bag of word,BOW),即不考虑词语的原本在句子中的顺序，直接将每一个词语或者符号按照计数的方式，即出现的次数来进行统计。当然了，统计词频这只是最基本的方式。还有很多的处理，具体如下：

先将关键的keywords作为文本特征，然后再用此最直接的方式进行句子表示，就是直接统计词频，然后将每一个句子或者文本篇章按照每一个特征出现的频率进行统计，这样处理后将得到句子或者文档对应的一个特征向量，向量的每个元素便是对应特征词的出现频数。

TF-IDF赋值权重：与count类似，不过对其进行了改进。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF词频(TermFrequency)，IDF反文档频率(Inverse DocumentFrequency)。TF表示词条，在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。同样的，处理后将得到一个句子的特征向量，不过每个元素应该是一个[0，1]的实数，表示一个概率。一个好的tf-idf需要进行很多的处理，比如进行平滑处理。

生成文档向量矩阵：将文档用高维的一维数组表示。

PCA降维：通过做预处理，从而缩减数据维度，提升处理效率和训练效果

数据从原来的坐标系转换到新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向(即数据差异性最大的方向)，第二个新坐标轴选择与第一个新坐标轴正交且具有最大方差的方向，以此类推，共建立与原始数据特征数目相等的新坐标轴。

我们会发现，大部分方差都包含在最前面的几个新坐标轴中，因此我们可以忽略余下的坐标轴，从而实现降维。(方差大代表不同数据之间的差异大，即，包含的可区分信息量大。

聚类：聚类分析又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

计算轮廓系数：是聚类效果好坏的一种评价方式，最佳值为1，最差值为-1。接近0的值表示重叠的群集。负值通常表示样本已分配给错误的聚类，因为不同的聚类更为相似。

画图：通过绘图的方式，配合计算SSE和肘部法则找到最佳聚类数。

句子向量生成：对未标记的语料库计算词嵌入，通过词向量的加权平均值表示句子，然后使用奇异值分解与主成分分析对其进行一定的修改。这种方法尤其适用于带有标签的训练数据稀缺或不存在的情况下。这种加权可将文本相似性任务的性能提高约10％到30％，并且优于包括RNN和LSTM在内的监督方法。

文本聚类分析：本方法采用Kernel Kmeans(核空间聚类)算法对生成的句子向量进行聚类，并且通过计算轮廓系数和肘部法则找到最佳聚类数，把具有相似特征的文本划分到一组，具备不同特征的文本尽可能划分在不同的组。

聚类是一种非监督学习，也就是说聚成几类，怎么聚，都不清楚，只能一点点尝试。有时候机器认为这两堆点可以认为是两个簇，但人理解可能是一个簇，文本聚类就就难在了这里，机器与人的理解不太一样。拿k-means为例，簇心的选取是个非常随机的过程，导致k值相同的情况下聚类的结果每次都不一样，又不好取平均，所以聚类的好坏很难被评价出来。同时面对线性不可分的情况，kmeans也存在诸多的缺陷。综上所述，本发明方法不仅在文本向量的表示方法上区别于传统方法，具有适用领域性广，鲁棒性好的特点；同时在聚类方法上采取了更适合于文本文档类型数据的聚类方法。

具体步骤如下：

步骤S1：句子嵌入算法，计算词向量的加权平均值。使用以下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

去除平均向量在第一个分量上的投影。句子向量被定义为的最大似然估计向量，使用公式如下：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

Cs代表生成的句子向量；

W表示单词；S表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数。

步骤S2：文本聚类算法实现，该算法运用了与k-means相同的技巧，但有一点不同的是，在计算距离时使用了核方法而不是欧式距离。具体步骤如下:

步骤S2.1：设X＝{a1,a2,a3,...,an}是数据点的集合，‘c’是集群的数量；

步骤S2.2：随机初始化c集群中心；

步骤S2.3：计算变换空间中每个数据点与聚类中心的距离，使用以下公式：

其中，

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

步骤S2.4：指定数据点到距离最小的聚类中心。

步骤S2.5：直到数据点重新分配，重复步骤S2.2。

模块M1：句子嵌入程序，得到句子向量；计算词向量的加权平均值，使用如下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

去除平均向量在第一个分量上的投影，句子向量被定义为向量CM的极大似然估计，使用如下公式：

其中：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

CM代表生成的句子向量；

W表示单词；M表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数；

模块M3：运行文本聚类程序；模块M3.1：设X＝{a1,a2,a3,...,an}是数据点的集合，‘c’是集群的数量；模块M3.2：随机初始化c集群中心；模块M3.3：计算变换空间中每个数据点与聚类中心的距离，使用如下公式：

当

时，

其中：

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

模块M3.4：指定数据点到距离最小的聚类中心；

模块M3.5：直到数据点重新分配，重复模块M3。

本发明让计算机具备文字阅读能力，帮助客户自动化处理海量文本数据，提升文字处理效率和文本挖掘深度，降低人工成本。本发明在研究文本向量的生成方法的基础上，深入研究了文本向量化后的聚类方法和相关理论，结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析，能够从海量文本中总结出需求文档的撰写规律，对需求文档实现自动解析并从内部文档资料等长篇幅的文件进行分析，从大量的文本数据中提炼出有价值的信息。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于句子向量的文本聚类分析方法，其特征在于，所述方法包括如下步骤：

步骤S1：句子嵌入程序，得到句子向量；

步骤S3：运行文本聚类程序。

2.根据权利要求1所述的基于句子向量的文本聚类分析方法，其特征在于，所述步骤S1包括计算词向量的加权平均值，使用如下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

3.根据权利要求1所述的基于句子向量的文本聚类分析方法，其特征在于，所述步骤S1还包括去除平均向量在第一个分量上的投影，句子向量被定义为向量Cs的极大似然估计，使用如下公式：

其中：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

Cs代表生成的句子向量；

W表示单词；S表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数；

4.根据权利要求1所述的基于句子向量的文本聚类分析方法，其特征在于，所述步骤S3包括如下步骤：

步骤S3.2：随机初始化c集群中心；

当

时，

其中：

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

5.根据权利要求1所述的基于句子向量的文本聚类分析方法，其特征在于，所述步骤S3还包括：

步骤S3.4：指定数据点到距离最小的聚类中心；

步骤S3.5：直到数据点重新分配，重复步骤S3。

6.一种基于句子向量的文本聚类分析系统，其特征在于，所述系统包括如下模块：

模块M1：句子嵌入程序，得到句子向量；

模块M3：运行文本聚类程序。

7.根据权利要求6所述的基于句子向量的文本聚类分析系统，其特征在于，所述模块M1包括计算词向量的加权平均值，使用如下公式：

其中：

w表示一个单词word；

Weight(w)表示一个单词的加权平均值；

a表示一个超参数；

p(w)是词频。

8.根据权利要求6所述的基于句子向量的文本聚类分析系统，其特征在于，所述模块M1还包括去除平均向量在第一个分量上的投影，句子向量被定义为向量CM的极大似然估计，使用如下公式：

其中：

其中：

arg是变元argument的英文缩写；

Fw表示frequency of word即词语出现的频率；

CM代表生成的句子向量；

W表示单词；M表示句子；

a表示一个超参数；P(w)是词频；

V_w表示词嵌入；Z表示配分函数；

9.根据权利要求6所述的基于句子向量的文本聚类分析系统，其特征在于，所述模块M3包括如下模块：

模块M3.2：随机初始化c集群中心；

当

时，

其中：

D表示可微符号；

数学符号∈表示属于，元素和集合之间的关系；

∑是一个求和符号；

||为绝对值符号；

C^th集合簇用π_c表示；

m_c表示聚类平均值π_c；

Ф(a_i)表示变换空间中的数据点a_i；

Ф(a_i)·Ф(a_j)＝exp-(||ai-aj||)*q对于高斯核而言；

Ф(a_i)·Ф(a_j)＝(c+a_ia_j)^d对于多项式核而言。

10.根据权利要求6所述的基于句子向量的文本聚类分析系统，其特征在于，所述模块M3还包括：

模块M3.4：指定数据点到距离最小的聚类中心；

模块M3.5：直到数据点重新分配，重复模块M3。