CN108959453B

CN108959453B - 基于文本聚类的信息提取方法、装置及可读存储介质

Info

Publication number: CN108959453B
Application number: CN201810618205.4A
Authority: CN
Inventors: 尹帆; 张广凯; 孙翀; 宋中山; 莫海芳; 夏梦
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2021-08-27
Anticipated expiration: 2038-06-14
Also published as: CN108959453A

Abstract

本发明公开了一种基于文本聚类的信息提取方法、装置以及可读存储介质，本发明将待处理的商品评论信息作为待处理样文本，并设定好频繁词筛选权重值，按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理，进而能够提高待处理的商品评论信息的文本聚类精度，在面对复杂繁多的商品评论信息量时得到更加精确、更有价值的信息，能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题，对于在解决文本长尾现象聚类的问题中起到了很好的作用，提高了聚类的精确度。

Description

基于文本聚类的信息提取方法、装置及可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种基于文本聚类的信息提取方法、装置以及可读存储介质。

背景技术

目前在商业信息检索方面或者信息提取方面存在一些不足，目前在信息检索方面大多都是通过文本聚类的方法实现的，但是由于目前一些常规的文本聚类方法存在一定的局限性，即聚类精度不够高，正由于聚类精度不够高会导致商业信息检索方面或者信息提取方面不能有效地找到处理中的文本信息的长尾信息。

例如，现在网店越来越多，一些店家为了能够迎合消费者的兴趣爱好，一般会根据消费者对商品的评论量来参考进货的数量。在评论中，被评论次数最多的前三个商品肯定是卖家首要进货的商品，但是评论量排名位于第四位、第五位、第六位、第七位…第十位的商品呢？而这些商品的被评论信息就是属于“长尾”部分的信息，虽然他们单个商品的评论量不是很多，可能单个商品的盈利不是很多，但是他们评论信息总量和盈利总和加起来，是远远超多前三的商品的。如何挖掘评论量排名位于第四位、第五位、第六位、第七位…第十位的商品的评论信息，来给卖家提供信息指导，使卖家能做出更加准确地商品进货方案，提高店家利润，目前还没有很好的研究。针对上述现象，虽然目前已有的很大一部分的聚类算法，但都不能很好的解决短文本聚类的长尾问题；并且，文本集当中长尾部分文本的信息在传统的文本聚类当中被忽视，但是往往这一部分所蕴含的信息大,是很有价值，这对于信息的提取是一个很大的损失。

发明内容

本发明的主要目的在于提供了一种基于文本聚类的信息提取方法、装置以及可读存储介质，旨在解决目前在面对复杂繁多的商品评论信息量时，如何通过提高文本聚类精度得到更加精确更有价值的信息的问题。

为实现上述目的，本发明提供了一种基于文本聚类的信息提取方法，所述方法包括以下步骤：

S1，将待处理的商品评论信息作为待处理样文本，并设定频繁词筛选权重值；将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值；

S2，分别对各个待处理样本文本d_j进行分词和词性标注操作，获得指定待处理样本文本d_j对应的具有词性标注的特征词集合{T_i}；

S3，对所述指定待处理样本文本d_j的特征词集合{T_i}中的每个特征词T_i分别进行词频计算和逆文档频率计算，以获得每个特征词T_i的词频和逆文档频率；

S4，分别根据各特征词T_i对应的词频和所述逆文档频率计算对应的特征词T_i在所述指定待处理样本文本d_j中的权重值；

S5，从所述指定待处理样本文本d_j的特征词集合{T_i}中选取权重值大于第一预设频繁词筛选权重值的目标特征词T_j，将所述目标特征词T_j作为所述指定待处理样本文本d_j的频繁词f_i；

S6，结合所述指定待处理样本文本构建所述频繁词的文本矩阵M，其中，M[i][j]表示矩阵M对应的待处理样本文本d_j中频繁词f_i的值，每个待处理样本文本d_j的表现形式为由0、1构成的n维向量表示；

S7，通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点，并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ；

S8，在所述夹角θ小于预设夹角阈值时，将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中，并得到k个聚类之后的簇；

S9，分别从得到k个聚类之后的簇中提取数量为m的目标频繁词，将提取到的各目标频繁词进行展示。

优选地，所述步骤S3具体包括：

对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算，以获得每个特征词Ti的词频；

其中，tf_ij表示指定待处理样本文本dj的特征词集合{Ti}中的个特征词T_i的词频；

对所述指定待处理样本文本d_j的特征词集合{T_i}中的每个特征词T_i分别通过以下公式(2)进行逆文档频率计算，以获得每个特征词T_i的逆文档频率。

其中，idf_j表示指定待处理样本文本dj的特征词集合{Ti}中的个特征词T_i的逆文档频率。

优选地，所述步骤S7中所述利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ，具体包括：

利用预设余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ。

优选地，所述步骤S9之前，还包括：

设定聚类结束阈值；

相应地，所述步骤S9具体包括：

分别从得到k个聚类之后的簇中提取数量为m的目标频繁词；

分别剔除各待处理样本文本中包含所述目标频繁词的文档，以实现对各待处理样本文本的剪枝处理；

返回并重新执行所述步骤S3和步骤S4，在经剪枝处理后的样本文本的每个特征词的权重值小于所述聚类结束阈值时，将提取到的各目标频繁词进行展示；

或

在经剪枝处理后的样本文本的每个特征词的权重值不小于所述聚类结束阈值时，返回并执行所述步骤S5。

此外，为实现上述目的，本发明提供一种基于文本聚类的信息提取装置，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于文本聚类的信息提取程序，所述基于文本聚类的信息提取程序配置为实现如上所述的基于文本聚类的信息提取方法的步骤。

此外，为实现上述目的，本发明还提出一种可读存储介质，所述可读存储介质存储有基于文本聚类的信息提取程序，所述基于文本聚类的信息提取程序配置为实现如上所述的基于文本聚类的信息提取方法的步骤。

本发明将待处理的商品评论信息作为待处理样文本，并设定好频繁词筛选权重值；并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理，进而能够提高待处理的商品评论信息的文本聚类精度，在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息，能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题，对于在解决文本长尾现象聚类的问题中起到了很好的作用，提高了聚类的精确度。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的基于文本聚类的信息提取装置结构示意图；

图2为本发明一种基于文本聚类的信息提取方法一实施例的流程示意图；

图3为本发明一种基于文本聚类的信息提取方法中文本聚类算法的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于文本聚类的信息提取装置结构示意图。

如图1所示，该基于文本聚类的信息提取装置可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于文本聚类的信息提取装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接收模块以及基于文本聚类的信息提取程序。

在图1所示的应用服务器中，网络接口1004主要用于与服务器的后台数据库进行数据通信；本发明的基于文本聚类的信息提取装置通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序，并执行以下操作：

相应地，终端设备通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序还执行以下操作：

对所述指定待处理样本文本d_j的特征词集合{T_i}中的每个特征词T_i分别通过以下公式(2)进行逆文档频率计算，以获得每个特征词T_i的逆文档频率；

分别从得到k个聚类之后的簇中提取数量为m的目标频繁词；

或

本实施例将待处理的商品评论信息作为待处理样文本，并设定好频繁词筛选权重值；并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理，进而能够提高待处理的商品评论信息的文本聚类精度，在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息，能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题，对于在解决文本长尾现象聚类的问题中起到了很好的作用，提高了聚类的精确度。

参照图2图2本发明一种基于文本聚类的信息提取方法实施例的流程示意图。

本实施例中，所述基于文本聚类的信息提取方法包括以下步骤：

例如本实施例中某商家有的多种类型的商品，假设该商家的全部类型的商品总共有几千条评论信息，这总共的几千条评论信息就是所述待处理样文本。本实施例会得到一个不同类型商品评论量的排名，使用者想要观看某个指定连续排名范围区间(比如总共排名有50位商品，而使用者只想确定连续排名范围区间为第四为到第十位的商品)内的商品评论信息；不同的连续排名范围区间由预先设定的频繁词筛选权重值所决定，因此本实施例需要预先设定频繁词筛选权重值Y₁；与此同时，还需要设置一个聚类结束阈值Y₂；(聚类结束阈值Y₂会在步骤9中的具体实施方式中用到)。

需要说明的是，本实施中定义参数含义如下：d_j表示样本文本，{d_j}表示样本文本集，N表示样本文本集的总数，n表示样本文本的向量维度；T_i表示特征词，f_i表示频繁词，d_ij表示样本文本d_j中出现的特征词T_i，f_i表示样本文本d_j中特征词T_i的词频；W_i表示特征词T_i的权重；W_ij表示样本文本d_j中特征词T_i的权重；V表示样本文本集的词汇表。本实施例的基于文本聚类的信息提取方法所基于的文本聚类算法流程，可分为三个阶段，参考图3，即文本预处理阶段(对应步骤S1到S4，相当于对整个待处理样文本按照设定好的频繁词筛选权重值按照Y₁进行筛选)，文本聚类阶段(对应步骤S5到S8)，样本数据剪枝处理阶段(对应步骤S9)。

具体地，本实施例首先利用FNLP(基于机器学习的中文自然语言文本处理的开发工具包)对于样本文本集进行分词和词性标注操作，得到具有词性标注的特征词集合{T_i}。

在具体实现中，获取到分词和词性标注的特征词集合{T_i}之后，利用TF-IDF算法(term frequency–inverse document freque，信息检索数据挖掘的常用加权技术)进行计算每一个特征词的词频TF和逆文档频率IDF；

具体地，对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算，以获得每个特征词Ti的词频；

可理解的是，对于特征词的词性按照重要性为名词、动词、形容词，分别赋予三种词性α₁、α₂、α₃百分比的权重占比，计算TF、IDF之后结合特征词词性，最后计算每个特征词的最后权值W_i，设定聚类结束阈值Y₂第一预设频繁词筛选权重值。

其中，权重值的计算公式如下：w_i＝tf_ij·idf_i·α_i

可理解的是，从特征词集合{T_i}选取权值W_i值大于事先设定的阈值Y₁(即所述第一预设频繁词筛选权重值)的目标特征词T_j，作为最终表示文本的频繁词，结合样本文本集构建频繁词-文本矩阵M。其中，M为0-1矩阵，M的表现形式为：通过衡量文本中是否含有频繁词来赋值：其中M[i][j]表示矩阵M文本d_j频繁词f_i的值，若文本d_j中含有频繁词f_i，则M[i][j]＝1,否则M[i][j]＝0。这里需要说明的是，if频繁词f_i∈文本d_j，则M[i][j]＝1；else[i][j]＝0；

其中，构建频繁词-文本矩阵M，使得每一个文本d_j的表现形式为由0、1构成的n维向量表示，表现形式如下：d_j＝{1,0,…..,n}。

在具体实现中，利用k-mediods算法，随机从N个向量当选取k个具有代表性的n维向量做为类簇的中心点，利用余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ，并且设置预设夹角阈值Y₃，余弦相似度公式如下：

具体地，当两个向量之间的夹角θ值小于阈值Y₃，则将该向量所表示的文本聚类到该中心点所代表的簇当中。得到k个聚类之后的簇。

具体地，步骤S9在具体实现过程中，首先分别从得到k个聚类之后的簇中提取数量为m的目标频繁词；即从这K个簇中的每一个簇分别提取m个主题词，也就是能表现文本的频繁词。

然后，分别剔除各待处理样本文本中包含所述目标频繁词的文档，以实现对各待处理样本文本的剪枝处理；即对于原始样本文本集剔除掉包含这m个主题的文档，实现对样本文本集进行剪枝，得到下一步操作的样本文本集；

紧接着返回并重新执行所述步骤S3和步骤S4，在经剪枝处理后的样本文本的每个特征词的权重值小于聚类结束阈值时，将提取到的各目标频繁词进行展示；即跳转到S3和S4，如果每一个特征词的权重值w_i小于所述聚类结束阈值Y₂，则本次操作结束，输出聚类之后的簇；否则返回继续并执行所述步骤S5，并且可以重新设定频繁词筛选权重值Y₁的值，继续进行操作(即对其他连续排名范围区间的商品评论信息进行聚类挖掘)，

可理解的是，每设置一次频繁词筛选权重值，步骤S3至S9是会执行一遍，每执行一次之后再对样本文本集进行剪枝处理，在下一次重新设置频繁词筛选权重值时可以持续利用上一次方案执行后的结果，设置不同的频繁词筛选权重值(本实施例依次将下一次的频繁词筛选权重值的数值降低)就能够对不同连续排名范围区间的商品评论信息进行展示，直至对各个连续排名范围区间的商品评论信息都进行了展示，整个方案才结束；各个连续排名范围区间的商品评论信息都进行展示之后，用户自然能够很清楚地知道整个样本文本集(即该商家全部类型的商品的所有评论信息)的长尾评论信息是哪个排名范围内的商品评论信息。商品评论信息当中长尾部分的文本的信息所占价值比较大，往往传统的聚类算法提取有效信息的时候忽略了此部分的文本，导致信息偏差比较大，本实施例能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题，对于在解决文本长尾现象聚类的问题中起到了很好的作用，提高了聚类的精确度。

此外，本发明还提供一种可读存储介质，其特征在于，所述可读存储介质上存储有基于文本聚类的信息提取程序，所述基于文本聚类的信息提取程序被处理器执行时实现如下操作：

相应地，所述基于文本聚类的信息提取程序被处理器执行时还实现如下操作：

分别从得到k个聚类之后的簇中提取数量为m的目标频繁词；

或

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于文本聚类的信息提取方法，其特征在于，所述方法包括：

S9，分别从得到k个聚类之后的簇中提取数量为m的目标频繁词，将提取到的各目标频繁词进行展示；

其中，所述步骤S9具体包括：

分别从得到k个聚类之后的簇中提取数量为m的目标频繁词；

或

2.如权利要求1所述的方法，其特征在于，所述步骤S3具体包括：

其中，tf_ij表示指定待处理样本文本dj的特征词集合{Ti}中的每个特征词T_i的词频；

其中，idf_j表示指定待处理样本文本dj的特征词集合{Ti}中的每个特征词T_i的逆文档频率。

3.如权利要求2所述的方法，其特征在于，所述步骤S7中所述利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ，具体包括：

4.如权利要求3所述的方法，其特征在于，所述步骤S9之前，还包括：

设定聚类结束阈值。

5.一种基于文本聚类的信息提取装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于文本聚类的信息提取程序，所述基于文本聚类的信息提取程序配置为实现如权利要求1至4中任一项所述的基于文本聚类的信息提取方法的步骤。

6.一种可读存储介质，其特征在于，所述可读存储介质存储有基于文本聚类的信息提取程序，所述基于文本聚类的信息提取程序配置为实现如权利要求1至4中任一项所述的基于文本聚类的信息提取方法的步骤。