CN108959453B - 基于文本聚类的信息提取方法、装置及可读存储介质 - Google Patents

基于文本聚类的信息提取方法、装置及可读存储介质 Download PDF

Info

Publication number
CN108959453B
CN108959453B CN201810618205.4A CN201810618205A CN108959453B CN 108959453 B CN108959453 B CN 108959453B CN 201810618205 A CN201810618205 A CN 201810618205A CN 108959453 B CN108959453 B CN 108959453B
Authority
CN
China
Prior art keywords
word
text
processed
clustering
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810618205.4A
Other languages
English (en)
Other versions
CN108959453A (zh
Inventor
尹帆
张广凯
孙翀
宋中山
莫海芳
夏梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201810618205.4A priority Critical patent/CN108959453B/zh
Publication of CN108959453A publication Critical patent/CN108959453A/zh
Application granted granted Critical
Publication of CN108959453B publication Critical patent/CN108959453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本聚类的信息提取方法、装置以及可读存储介质,本发明将待处理的商品评论信息作为待处理样文本,并设定好频繁词筛选权重值,按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理,进而能够提高待处理的商品评论信息的文本聚类精度,在面对复杂繁多的商品评论信息量时得到更加精确、更有价值的信息,能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。

Description

基于文本聚类的信息提取方法、装置及可读存储介质
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种基于文本聚类的信息提取方法、装置以及可读存储介质。
背景技术
目前在商业信息检索方面或者信息提取方面存在一些不足,目前在信息检索方面大多都是通过文本聚类的方法实现的,但是由于目前一些常规的文本聚类方法存在一定的局限性,即聚类精度不够高,正由于聚类精度不够高会导致商业信息检索方面或者信息提取方面不能有效地找到处理中的文本信息的长尾信息。
例如,现在网店越来越多,一些店家为了能够迎合消费者的兴趣爱好,一般会根据消费者对商品的评论量来参考进货的数量。在评论中,被评论次数最多的前三个商品肯定是卖家首要进货的商品,但是评论量排名位于第四位、第五位、第六位、第七位…第十位的商品呢?而这些商品的被评论信息就是属于“长尾”部分的信息,虽然他们单个商品的评论量不是很多,可能单个商品的盈利不是很多,但是他们评论信息总量和盈利总和加起来,是远远超多前三的商品的。如何挖掘评论量排名位于第四位、第五位、第六位、第七位…第十位的商品的评论信息,来给卖家提供信息指导,使卖家能做出更加准确地商品进货方案,提高店家利润,目前还没有很好的研究。针对上述现象,虽然目前已有的很大一部分的聚类算法,但都不能很好的解决短文本聚类的长尾问题;并且,文本集当中长尾部分文本的信息在传统的文本聚类当中被忽视,但是往往这一部分所蕴含的信息大,是很有价值,这对于信息的提取是一个很大的损失。
发明内容
本发明的主要目的在于提供了一种基于文本聚类的信息提取方法、装置以及可读存储介质,旨在解决目前在面对复杂繁多的商品评论信息量时,如何通过提高文本聚类精度得到更加精确更有价值的信息的问题。
为实现上述目的,本发明提供了一种基于文本聚类的信息提取方法,所述方法包括以下步骤:
S1,将待处理的商品评论信息作为待处理样文本,并设定频繁词筛选权重值;将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值;
S2,分别对各个待处理样本文本dj进行分词和词性标注操作,获得指定待处理样本文本dj对应的具有词性标注的特征词集合{Ti};
S3,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别进行词频计算和逆文档频率计算,以获得每个特征词Ti的词频和逆文档频率;
S4,分别根据各特征词Ti对应的词频和所述逆文档频率计算对应的特征词Ti在所述指定待处理样本文本dj中的权重值;
S5,从所述指定待处理样本文本dj的特征词集合{Ti}中选取权重值大于第一预设频繁词筛选权重值的目标特征词Tj,将所述目标特征词Tj作为所述指定待处理样本文本dj的频繁词fi
S6,结合所述指定待处理样本文本构建所述频繁词的文本矩阵M,其中,M[i][j]表示矩阵M对应的待处理样本文本dj中频繁词fi的值,每个待处理样本文本dj的表现形式为由0、1构成的n维向量表示;
S7,通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点,并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ;
S8,在所述夹角θ小于预设夹角阈值时,将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中,并得到k个聚类之后的簇;
S9,分别从得到k个聚类之后的簇中提取数量为m的目标频繁词,将提取到的各目标频繁词进行展示。
优选地,所述步骤S3具体包括:
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算,以获得每个特征词Ti的词频;
Figure GDA0001781827650000021
其中,tfij表示指定待处理样本文本dj的特征词集合{Ti}中的个特征词Ti的词频;
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(2)进行逆文档频率计算,以获得每个特征词Ti的逆文档频率。
Figure GDA0001781827650000031
其中,idfj表示指定待处理样本文本dj的特征词集合{Ti}中的个特征词Ti的逆文档频率。
优选地,所述步骤S7中所述利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ,具体包括:
利用预设余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ。
优选地,所述步骤S9之前,还包括:
设定聚类结束阈值;
相应地,所述步骤S9具体包括:
分别从得到k个聚类之后的簇中提取数量为m的目标频繁词;
分别剔除各待处理样本文本中包含所述目标频繁词的文档,以实现对各待处理样本文本的剪枝处理;
返回并重新执行所述步骤S3和步骤S4,在经剪枝处理后的样本文本的每个特征词的权重值小于所述聚类结束阈值时,将提取到的各目标频繁词进行展示;
在经剪枝处理后的样本文本的每个特征词的权重值不小于所述聚类结束阈值时,返回并执行所述步骤S5。
此外,为实现上述目的,本发明提供一种基于文本聚类的信息提取装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于文本聚类的信息提取程序,所述基于文本聚类的信息提取程序配置为实现如上所述的基于文本聚类的信息提取方法的步骤。
此外,为实现上述目的,本发明还提出一种可读存储介质,所述可读存储介质存储有基于文本聚类的信息提取程序,所述基于文本聚类的信息提取程序配置为实现如上所述的基于文本聚类的信息提取方法的步骤。
本发明将待处理的商品评论信息作为待处理样文本,并设定好频繁词筛选权重值;并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理,进而能够提高待处理的商品评论信息的文本聚类精度,在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息,能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的基于文本聚类的信息提取装置结构示意图;
图2为本发明一种基于文本聚类的信息提取方法一实施例的流程示意图;
图3为本发明一种基于文本聚类的信息提取方法中文本聚类算法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于文本聚类的信息提取装置结构示意图。
如图1所示,该基于文本聚类的信息提取装置可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于文本聚类的信息提取装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接收模块以及基于文本聚类的信息提取程序。
在图1所示的应用服务器中,网络接口1004主要用于与服务器的后台数据库进行数据通信;本发明的基于文本聚类的信息提取装置通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序,并执行以下操作:
S1,将待处理的商品评论信息作为待处理样文本,并设定频繁词筛选权重值;将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值;
S2,分别对各个待处理样本文本dj进行分词和词性标注操作,获得指定待处理样本文本dj对应的具有词性标注的特征词集合{Ti};
S3,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别进行词频计算和逆文档频率计算,以获得每个特征词Ti的词频和逆文档频率;
S4,分别根据各特征词Ti对应的词频和所述逆文档频率计算对应的特征词Ti在所述指定待处理样本文本dj中的权重值;
S5,从所述指定待处理样本文本dj的特征词集合{Ti}中选取权重值大于第一预设频繁词筛选权重值的目标特征词Tj,将所述目标特征词Tj作为所述指定待处理样本文本dj的频繁词fi
S6,结合所述指定待处理样本文本构建所述频繁词的文本矩阵M,其中,M[i][j]表示矩阵M对应的待处理样本文本dj中频繁词fi的值,每个待处理样本文本dj的表现形式为由0、1构成的n维向量表示;
S7,通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点,并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ;
S8,在所述夹角θ小于预设夹角阈值时,将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中,并得到k个聚类之后的簇;
S9,分别从得到k个聚类之后的簇中提取数量为m的目标频繁词,将提取到的各目标频繁词进行展示。
相应地,终端设备通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序还执行以下操作:
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算,以获得每个特征词Ti的词频;
Figure GDA0001781827650000061
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(2)进行逆文档频率计算,以获得每个特征词Ti的逆文档频率;
Figure GDA0001781827650000062
相应地,终端设备通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序还执行以下操作:
利用预设余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ。
相应地,终端设备通过处理器1001调用存储器1005中存储的基于文本聚类的信息提取程序还执行以下操作:
分别从得到k个聚类之后的簇中提取数量为m的目标频繁词;
分别剔除各待处理样本文本中包含所述目标频繁词的文档,以实现对各待处理样本文本的剪枝处理;
返回并重新执行所述步骤S3和步骤S4,在经剪枝处理后的样本文本的每个特征词的权重值小于所述聚类结束阈值时,将提取到的各目标频繁词进行展示;
在经剪枝处理后的样本文本的每个特征词的权重值不小于所述聚类结束阈值时,返回并执行所述步骤S5。
本实施例将待处理的商品评论信息作为待处理样文本,并设定好频繁词筛选权重值;并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理,进而能够提高待处理的商品评论信息的文本聚类精度,在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息,能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。
参照图2图2本发明一种基于文本聚类的信息提取方法实施例的流程示意图。
本实施例中,所述基于文本聚类的信息提取方法包括以下步骤:
S1,将待处理的商品评论信息作为待处理样文本,并设定频繁词筛选权重值;将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值;
例如本实施例中某商家有的多种类型的商品,假设该商家的全部类型的商品总共有几千条评论信息,这总共的几千条评论信息就是所述待处理样文本。本实施例会得到一个不同类型商品评论量的排名,使用者想要观看某个指定连续排名范围区间(比如总共排名有50位商品,而使用者只想确定连续排名范围区间为第四为到第十位的商品)内的商品评论信息;不同的连续排名范围区间由预先设定的频繁词筛选权重值所决定,因此本实施例需要预先设定频繁词筛选权重值Y1;与此同时,还需要设置一个聚类结束阈值Y2;(聚类结束阈值Y2会在步骤9中的具体实施方式中用到)。
S2,分别对各个待处理样本文本dj进行分词和词性标注操作,获得指定待处理样本文本dj对应的具有词性标注的特征词集合{Ti};
需要说明的是,本实施中定义参数含义如下:dj表示样本文本,{dj}表示样本文本集,N表示样本文本集的总数,n表示样本文本的向量维度;Ti表示特征词,fi表示频繁词,dij表示样本文本dj中出现的特征词Ti,fi表示样本文本dj中特征词Ti的词频;Wi表示特征词Ti的权重;Wij表示样本文本dj中特征词Ti的权重;V表示样本文本集的词汇表。本实施例的基于文本聚类的信息提取方法所基于的文本聚类算法流程,可分为三个阶段,参考图3,即文本预处理阶段(对应步骤S1到S4,相当于对整个待处理样文本按照设定好的频繁词筛选权重值按照Y1进行筛选),文本聚类阶段(对应步骤S5到S8),样本数据剪枝处理阶段(对应步骤S9)。
具体地,本实施例首先利用FNLP(基于机器学习的中文自然语言文本处理的开发工具包)对于样本文本集进行分词和词性标注操作,得到具有词性标注的特征词集合{Ti}。
S3,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别进行词频计算和逆文档频率计算,以获得每个特征词Ti的词频和逆文档频率;
在具体实现中,获取到分词和词性标注的特征词集合{Ti}之后,利用TF-IDF算法(term frequency–inverse document freque,信息检索数据挖掘的常用加权技术)进行计算每一个特征词的词频TF和逆文档频率IDF;
具体地,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算,以获得每个特征词Ti的词频;
Figure GDA0001781827650000081
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(2)进行逆文档频率计算,以获得每个特征词Ti的逆文档频率。
Figure GDA0001781827650000082
S4,分别根据各特征词Ti对应的词频和所述逆文档频率计算对应的特征词Ti在所述指定待处理样本文本dj中的权重值;
可理解的是,对于特征词的词性按照重要性为名词、动词、形容词,分别赋予三种词性α1、α2、α3百分比的权重占比,计算TF、IDF之后结合特征词词性,最后计算每个特征词的最后权值Wi,设定聚类结束阈值Y2第一预设频繁词筛选权重值。
其中,权重值的计算公式如下:wi=tfij·idfi·αi
S5,从所述指定待处理样本文本dj的特征词集合{Ti}中选取权重值大于第一预设频繁词筛选权重值的目标特征词Tj,将所述目标特征词Tj作为所述指定待处理样本文本dj的频繁词fi
S6,结合所述指定待处理样本文本构建所述频繁词的文本矩阵M,其中,M[i][j]表示矩阵M对应的待处理样本文本dj中频繁词fi的值,每个待处理样本文本dj的表现形式为由0、1构成的n维向量表示;
可理解的是,从特征词集合{Ti}选取权值Wi值大于事先设定的阈值Y1(即所述第一预设频繁词筛选权重值)的目标特征词Tj,作为最终表示文本的频繁词,结合样本文本集构建频繁词-文本矩阵M。其中,M为0-1矩阵,M的表现形式为:通过衡量文本中是否含有频繁词来赋值:其中M[i][j]表示矩阵M文本dj频繁词fi的值,若文本dj中含有频繁词fi,则M[i][j]=1,否则M[i][j]=0。这里需要说明的是,if频繁词fi∈文本dj,则M[i][j]=1;else[i][j]=0;
其中,构建频繁词-文本矩阵M,使得每一个文本dj的表现形式为由0、1构成的n维向量表示,表现形式如下:dj={1,0,…..,n}。
S7,通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点,并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ;
在具体实现中,利用k-mediods算法,随机从N个向量当选取k个具有代表性的n维向量做为类簇的中心点,利用余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ,并且设置预设夹角阈值Y3,余弦相似度公式如下:
Figure GDA0001781827650000091
S8,在所述夹角θ小于预设夹角阈值时,将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中,并得到k个聚类之后的簇;
具体地,当两个向量之间的夹角θ值小于阈值Y3,则将该向量所表示的文本聚类到该中心点所代表的簇当中。得到k个聚类之后的簇。
S9,分别从得到k个聚类之后的簇中提取数量为m的目标频繁词,将提取到的各目标频繁词进行展示。
具体地,步骤S9在具体实现过程中,首先分别从得到k个聚类之后的簇中提取数量为m的目标频繁词;即从这K个簇中的每一个簇分别提取m个主题词,也就是能表现文本的频繁词。
然后,分别剔除各待处理样本文本中包含所述目标频繁词的文档,以实现对各待处理样本文本的剪枝处理;即对于原始样本文本集剔除掉包含这m个主题的文档,实现对样本文本集进行剪枝,得到下一步操作的样本文本集;
紧接着返回并重新执行所述步骤S3和步骤S4,在经剪枝处理后的样本文本的每个特征词的权重值小于聚类结束阈值时,将提取到的各目标频繁词进行展示;即跳转到S3和S4,如果每一个特征词的权重值wi小于所述聚类结束阈值Y2,则本次操作结束,输出聚类之后的簇;否则返回继续并执行所述步骤S5,并且可以重新设定频繁词筛选权重值Y1的值,继续进行操作(即对其他连续排名范围区间的商品评论信息进行聚类挖掘),
可理解的是,每设置一次频繁词筛选权重值,步骤S3至S9是会执行一遍,每执行一次之后再对样本文本集进行剪枝处理,在下一次重新设置频繁词筛选权重值时可以持续利用上一次方案执行后的结果,设置不同的频繁词筛选权重值(本实施例依次将下一次的频繁词筛选权重值的数值降低)就能够对不同连续排名范围区间的商品评论信息进行展示,直至对各个连续排名范围区间的商品评论信息都进行了展示,整个方案才结束;各个连续排名范围区间的商品评论信息都进行展示之后,用户自然能够很清楚地知道整个样本文本集(即该商家全部类型的商品的所有评论信息)的长尾评论信息是哪个排名范围内的商品评论信息。商品评论信息当中长尾部分的文本的信息所占价值比较大,往往传统的聚类算法提取有效信息的时候忽略了此部分的文本,导致信息偏差比较大,本实施例能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。
本实施例将待处理的商品评论信息作为待处理样文本,并设定好频繁词筛选权重值;并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理,进而能够提高待处理的商品评论信息的文本聚类精度,在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息,能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。
此外,本发明还提供一种可读存储介质,其特征在于,所述可读存储介质上存储有基于文本聚类的信息提取程序,所述基于文本聚类的信息提取程序被处理器执行时实现如下操作:
S1,将待处理的商品评论信息作为待处理样文本,并设定频繁词筛选权重值;将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值;
S2,分别对各个待处理样本文本dj进行分词和词性标注操作,获得指定待处理样本文本dj对应的具有词性标注的特征词集合{Ti};
S3,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别进行词频计算和逆文档频率计算,以获得每个特征词Ti的词频和逆文档频率;
S4,分别根据各特征词Ti对应的词频和所述逆文档频率计算对应的特征词Ti在所述指定待处理样本文本dj中的权重值;
S5,从所述指定待处理样本文本dj的特征词集合{Ti}中选取权重值大于第一预设频繁词筛选权重值的目标特征词Tj,将所述目标特征词Tj作为所述指定待处理样本文本dj的频繁词fi
S6,结合所述指定待处理样本文本构建所述频繁词的文本矩阵M,其中,M[i][j]表示矩阵M对应的待处理样本文本dj中频繁词fi的值,每个待处理样本文本dj的表现形式为由0、1构成的n维向量表示;
S7,通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点,并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ;
S8,在所述夹角θ小于预设夹角阈值时,将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中,并得到k个聚类之后的簇;
S9,分别从得到k个聚类之后的簇中提取数量为m的目标频繁词,将提取到的各目标频繁词进行展示。
相应地,所述基于文本聚类的信息提取程序被处理器执行时还实现如下操作:
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算,以获得每个特征词Ti的词频;
Figure GDA0001781827650000111
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(2)进行逆文档频率计算,以获得每个特征词Ti的逆文档频率;
Figure GDA0001781827650000121
相应地,所述基于文本聚类的信息提取程序被处理器执行时还实现如下操作:
利用预设余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ。
相应地,所述基于文本聚类的信息提取程序被处理器执行时还实现如下操作:
分别从得到k个聚类之后的簇中提取数量为m的目标频繁词;
分别剔除各待处理样本文本中包含所述目标频繁词的文档,以实现对各待处理样本文本的剪枝处理;
返回并重新执行所述步骤S3和步骤S4,在经剪枝处理后的样本文本的每个特征词的权重值小于所述聚类结束阈值时,将提取到的各目标频繁词进行展示;
在经剪枝处理后的样本文本的每个特征词的权重值不小于所述聚类结束阈值时,返回并执行所述步骤S5。
本实施例将待处理的商品评论信息作为待处理样文本,并设定好频繁词筛选权重值;并按照频繁词筛选权重值对待处理样本文本进行文本预处理、文本聚类以及样本数据剪枝这三个阶段的处理,进而能够提高待处理的商品评论信息的文本聚类精度,在面对复杂繁多的商品评论信息量时得到更加精确更有价值的信息,能够解决目前传统的文本聚类法在面对存在的文本长尾现象无法有效进行文本聚类的问题,对于在解决文本长尾现象聚类的问题中起到了很好的作用,提高了聚类的精确度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于文本聚类的信息提取方法,其特征在于,所述方法包括:
S1,将待处理的商品评论信息作为待处理样文本,并设定频繁词筛选权重值;将设定好的频繁词筛选权重值作为第一预设频繁词筛选权重值;
S2,分别对各个待处理样本文本dj进行分词和词性标注操作,获得指定待处理样本文本dj对应的具有词性标注的特征词集合{Ti};
S3,对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别进行词频计算和逆文档频率计算,以获得每个特征词Ti的词频和逆文档频率;
S4,分别根据各特征词Ti对应的词频和所述逆文档频率计算对应的特征词Ti在所述指定待处理样本文本dj中的权重值;
S5,从所述指定待处理样本文本dj的特征词集合{Ti}中选取权重值大于第一预设频繁词筛选权重值的目标特征词Tj,将所述目标特征词Tj作为所述指定待处理样本文本dj的频繁词fi
S6,结合所述指定待处理样本文本构建所述频繁词的文本矩阵M,其中,M[i][j]表示矩阵M对应的待处理样本文本dj中频繁词fi的值,每个待处理样本文本dj的表现形式为由0、1构成的n维向量表示;
S7,通过预设聚类算法随机从各待处理样本文本对应的n维向量中选取k个具有代表性的n维向量作为类簇的中心点,并利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ;
S8,在所述夹角θ小于预设夹角阈值时,将所述夹角对应的向量所表示的待处理样本文本聚类到该中心点所代表的簇当中,并得到k个聚类之后的簇;
S9,分别从得到k个聚类之后的簇中提取数量为m的目标频繁词,将提取到的各目标频繁词进行展示;
其中,所述步骤S9具体包括:
分别从得到k个聚类之后的簇中提取数量为m的目标频繁词;
分别剔除各待处理样本文本中包含所述目标频繁词的文档,以实现对各待处理样本文本的剪枝处理;
返回并重新执行所述步骤S3和步骤S4,在经剪枝处理后的样本文本的每个特征词的权重值小于所述聚类结束阈值时,将提取到的各目标频繁词进行展示;
在经剪枝处理后的样本文本的每个特征词的权重值不小于所述聚类结束阈值时,返回并执行所述步骤S5。
2.如权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(1)进行词频计算,以获得每个特征词Ti的词频;
Figure FDA0003163783200000021
其中,tfij表示指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti的词频;
对所述指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti分别通过以下公式(2)进行逆文档频率计算,以获得每个特征词Ti的逆文档频率;
Figure FDA0003163783200000022
其中,idfj表示指定待处理样本文本dj的特征词集合{Ti}中的每个特征词Ti的逆文档频率。
3.如权利要求2所述的方法,其特征在于,所述步骤S7中所述利用预设相似度定理计算每一个n维向量与这k个向量之间夹角θ,具体包括:
利用预设余弦相似度定理计算每一个n维向量与这k个向量之间夹角θ。
4.如权利要求3所述的方法,其特征在于,所述步骤S9之前,还包括:
设定聚类结束阈值。
5.一种基于文本聚类的信息提取装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于文本聚类的信息提取程序,所述基于文本聚类的信息提取程序配置为实现如权利要求1至4中任一项所述的基于文本聚类的信息提取方法的步骤。
6.一种可读存储介质,其特征在于,所述可读存储介质存储有基于文本聚类的信息提取程序,所述基于文本聚类的信息提取程序配置为实现如权利要求1至4中任一项所述的基于文本聚类的信息提取方法的步骤。
CN201810618205.4A 2018-06-14 2018-06-14 基于文本聚类的信息提取方法、装置及可读存储介质 Active CN108959453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810618205.4A CN108959453B (zh) 2018-06-14 2018-06-14 基于文本聚类的信息提取方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810618205.4A CN108959453B (zh) 2018-06-14 2018-06-14 基于文本聚类的信息提取方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN108959453A CN108959453A (zh) 2018-12-07
CN108959453B true CN108959453B (zh) 2021-08-27

Family

ID=64489319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810618205.4A Active CN108959453B (zh) 2018-06-14 2018-06-14 基于文本聚类的信息提取方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN108959453B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110295B (zh) * 2019-04-04 2023-10-20 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质
CN110442674B (zh) * 2019-06-11 2021-09-14 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN111221916A (zh) * 2019-10-08 2020-06-02 上海逸迅信息科技有限公司 一种实体联系图erd图生成方法及设备
CN111026866B (zh) * 2019-10-24 2020-10-23 北京中科闻歌科技股份有限公司 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN111159404B (zh) * 2019-12-27 2023-09-19 海尔优家智能科技(北京)有限公司 文本的分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194149A (zh) * 2010-03-01 2011-09-21 中国人民解放军国防科学技术大学 社区发现方法
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
US9342491B2 (en) * 2012-07-31 2016-05-17 International Business Machines Corporation Enriching website content with extracted feature multi-dimensional vector comparison
CN105630970A (zh) * 2015-12-24 2016-06-01 哈尔滨工业大学 社会媒体数据处理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194149A (zh) * 2010-03-01 2011-09-21 中国人民解放军国防科学技术大学 社区发现方法
US9342491B2 (en) * 2012-07-31 2016-05-17 International Business Machines Corporation Enriching website content with extracted feature multi-dimensional vector comparison
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN105630970A (zh) * 2015-12-24 2016-06-01 哈尔滨工业大学 社会媒体数据处理系统及方法

Also Published As

Publication number Publication date
CN108959453A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN109190044B (zh) 个性化推荐方法、装置、服务器和介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US9767144B2 (en) Search system with query refinement
CN108885624B (zh) 信息推荐系统及方法
US20160306800A1 (en) Reply recommendation apparatus and system and method for text construction
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
CN109635077A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN110276382B (zh) 基于谱聚类的人群分类方法、装置及介质
US9772991B2 (en) Text extraction
US20160140634A1 (en) System, method and non-transitory computer readable medium for e-commerce reputation analysis
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN107885888A (zh) 信息处理方法及装置、终端设备以及计算机可读存储介质
CN108133357A (zh) 一种人才推荐方法及计算设备
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
Bhatia et al. Machine Learning with R Cookbook: Analyze data and build predictive models
CN109451347A (zh) 一种特效制作方法、装置、终端及计算机可读存储介质
CN110837559B (zh) 语句样本集的生成方法、电子装置及存储介质
CN115373697A (zh) 数据处理方法和数据处理装置
CN108804491A (zh) 项目推荐方法、装置、计算设备及存储介质
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN116012855A (zh) 文本内容审查方法、装置、计算机设备和存储介质
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant