CN111414479A - 基于短文本聚类技术的标签抽取方法 - Google Patents
基于短文本聚类技术的标签抽取方法 Download PDFInfo
- Publication number
- CN111414479A CN111414479A CN202010182533.1A CN202010182533A CN111414479A CN 111414479 A CN111414479 A CN 111414479A CN 202010182533 A CN202010182533 A CN 202010182533A CN 111414479 A CN111414479 A CN 111414479A
- Authority
- CN
- China
- Prior art keywords
- cluster
- clusters
- similarity
- short
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000013138 pruning Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000009966 trimming Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 206010006326 Breath odour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于短文本聚类的标签抽取方法,包括:S1、提取并获得短文本的所有有用词汇;S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度;S3、假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;S4、对S3中形成的各簇进行第一次修剪;S5、对第一次修剪后的所有簇进行合并操作;S6、对S5合并完的各簇进行第二次修剪;S7、提取第二次修剪后的各个簇的簇心作为各簇标签。其在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖中心点选取和现有标签抽取技术语义不完善以及不符合逻辑等的问题。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于短文本聚类的标签抽取方法。
背景技术
随着互联网和信息技术的发展各种网络信息呈现指数增长的趋势,尤其是微博等网络平台的兴起让短文本信息再次爆炸式增长。短文本数据信息稀少但却重点鲜明,无法被当成垃圾信息剔除。如何从大量短文本数据中获取有效的信息,这就需要一种有效的方法提升对短文本的聚类和热点发现的效果。目前网上很多平台对于标签的规划都采用人工的方式,不仅费时费力而且还有很大的局限性,例如,人工自定义出来的标签覆盖范围有限,只能包含固定含义的文本,若出现新含义的文本则需要重新人工定义标签。而在文本标签自动生成领域,主流的文本标签推荐方法是文本关键词抽取方法,其基本方法是假设标签为文本中的关键词,即将标签以关键词的方式抽取出来,优点很明显,替代了人工,节省时间,方便处理大批量数据。但是缺点也不可忽略,首先,分词可能出现误分等情况,即容易将正确的词切分成没有任何含义的字符串,错误字符串也可能被选成关键字作为标签呈现;其次,单个字词表达的语义太少,不能作为标签代表一个甚至几个句子文本的含义;最后,多关键字拼接又容易出现不符合逻辑等句子级的错误。
通常短文本聚类采用K-Means算法,K-means算法首先随机选取K个对象作为初始聚类中心,然后计算n个样本与各个聚类中心之间的距离,并将各个样本分配给离其最近的聚类中心。每次分配一个样本聚类中心会根据现有对象重新计算,这个过程将不断重复直到满足终止条件,即直到聚类中心不再变化且没有样本对象再分配给各个簇。
传统的K-Means存在两个问题:首先是对于K值大小的确定,不同的短文本语料包含的类别数量存在偏差,K值偏小会导致不同含义的句子聚集在一起,偏大则导致聚类过于分散,聚类效果不佳。其次对于K个聚类中心的选取,初始聚类中心可能是噪声点,这样会导致聚类结果出现巨大偏差。
另外,文本聚类也可以采用Single-Pass,Single-Pass又称单通道法或单遍法,该算法属于流式聚类。对于依次到达的文本样本数据流,该方法按输入顺序依次处理数据,第一个样本被当做第一个聚类中心点,后续的样本依次和所有聚类中心点比对,相似度超过阈值 e,则该样本归为相似度最大的聚类中心,如果相似度没有超过阈值e,则该样本作为新的聚类中心加入计算,重复以上过程直到所有样本计算完毕。
传统的Single-Pass也存在一定的问题,比如两个作为聚类中心的句子相聚很远(相似度小于阈值),但是两个簇的其他组成句子却相聚很近,导致同一含义被分成两簇,还有种可能,因为Single-Pass是流式聚类,所以聚类中心是依次确定的,某一个样本和已经存在的某一个聚类中心相似度超过阈值被归为该类,但是该样本和之后生成的新的聚类中心相似度更高,而自身类别已经确定却无法更改。
另外由于短文本的词汇过少,所以用tf-idf词袋模型的办法生成句向量会导致句向量大范围数值为0,映射到空间上,导致各短文本间相似度过低,不好进行聚类判断。利用word2vec词向量相加生成句向量的办法同样效果不佳,单纯的向量相加和语义叠加还是有很大区别的,所以最终聚类结果只能单纯的将特别形似的句子聚集起来,而语义相同外形差异较大的短文本则有很大概率被抛弃。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于短文本聚类的标签抽取方法,在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖中心点选取和现有标签抽取技术语义不完善以及不符合逻辑等的问题。
为实现上述目的和一些其他的目的,本发明采用如下技术方案:
一种基于短文本聚类的标签抽取方法,包括:
S1、提取并获得短文本的所有有用词汇;
S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;
S3、对S2中形成的各簇进行第一次修剪;
S4、对第一次修剪后的所有簇进行合并操作;
S5、对S4合并完的各簇进行第二次修剪;
S6、提取第二次修剪后的各个簇的簇心作为各簇标签。
优选的是,所述的基于短文本聚类的标签抽取方法中,提取并获得短文本的所有有用词汇包括:流式读取短文本的数据,删除因词汇量过少而无任何意义的句子,然后提取剩余短文本中的业务关键词与预设的相应语料领域的业务关键词词典中保存的业务关键词进行比对,并将提取的业务关键词未包含在所述业务关键词词典中的句子删除。
优选的是,所述的基于短文本聚类的标签抽取方法中,所述有用词汇指除预定的停用词以外的所有词汇。
优选的是,所述的基于短文本聚类的标签抽取方法中,根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度包括:利用通过Word2vec训练提供的短文本的有用词汇的单词向量代表所述短文本的文本向量后,利用平均余弦相似度表示各个短文本间的相似度。
优选的是,所述的基于短文本聚类的标签抽取方法中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度前,还需按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,并假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似。
优选的是,所述的基于短文本聚类的标签抽取方法中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,包括:计算未假设为簇心的短文本的句子与各个假设的作为簇心的短文本的句子间的相似度,并把句子相似度大于T1的归为相应簇心的簇内。
优选的是,所述的基于短文本聚类的标签抽取方法中,第一次修剪包括:
将S2形成的各簇按照簇的规模从大到小进行排序;
将完全相同的簇归并;
将完全包含在另一个簇内的簇删除;以及
当排名靠后的类簇的簇心出现在排名靠前的簇中时,计算两簇的交集,并将所述交集从排名靠后的簇中删除。
优选的是,所述的基于短文本聚类的标签抽取方法中,对第一次修剪后的所有簇进行合并操作包括:计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替。
优选的是,所述的基于短文本聚类的标签抽取方法中,计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替,包括:
将经第一次修剪后的各簇的短文本分别制作成文档,利用TextRank提取每一篇文档的关键词,并取前n个关键词组成一句话作为相应簇的代表句;
将经第一次修剪后的各簇按照规模从大到小进行排序,依次计算各簇的代表句间的句相似度,若相似度大于T2则将两个簇合并成一个新簇;
其中,将两个簇合并成一个新簇具体指:将相似度大于T2的两个簇求并集后删除计算前的两个簇,将求得的并集作为新簇取代原先排名靠前位置的簇重新加入运算,新簇的标签采用原先排名靠前的簇的标签。
优选的是,所述的基于短文本聚类的标签抽取方法中,第二次修剪包括:
对S4合并完的各簇按照规模从大到小进行排序后,若排名靠后的簇的簇心出现在排名靠前的簇中,则判断排名靠后的簇的簇心长度是否大于预设的长度阈值L;是,则将排名靠后的簇直接放弃;否,则计算两簇的交集,并将交集从排名靠后的簇中删除;
将经剩余的簇与预设的簇的规模阈值C进行比较,并将规模小于C的簇作为噪声点直接舍弃。
本发明至少包括以下有益效果:
本发明的基于短文本聚类的标签抽取方法中,首先提取并获得短文本的所有有用词汇,并根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心,而后对形成的各簇进行第一次修剪后合并,再进行第二次修剪,最后提取第二次修剪后的各个簇的簇心作为各簇标签,通过word2vec 计算所述短文本间的相似度,即利用短文本句子之间的相似度替代用词向量间的相似度,防止词向量相加带来的语义失真的情况。
通过计算各个短文本与其他所有文本的相似度在第一时间就确定了所有的聚类中心点,所以短文本聚类不再受初始指定中心点影响,避免了噪声点成为中心点的可能,使聚类更加准确和稳定。同时抽取各类的中心点作为标签,避免了分词抽取导致的语义不全等情况。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明提供的基于短文本聚类的标签抽取方法的流程图。
具体实施方式
下面结合附图对本发明做详细说明,以令本领域普通技术人员参阅本说明书后能够据以实施。
如图1所示,一种基于短文本聚类的标签抽取方法,包括:S1、提取并获得短文本的所有有用词汇;
S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;
S3、对S2中形成的各簇进行第一次修剪;
S4、对第一次修剪后的所有簇进行合并操作;
S5、对S4合并完的各簇进行第二次修剪;
S6、提取第二次修剪后的各个簇的簇心作为各簇标签。
在上述方案中,标签的作用是概括一个或多个句子的含义,按照各个短文本的含义聚类,然后根据不同的类别概括出标签来,根据标签就可以快速知道这些大批量短文本中主要的信息是什么。因而,首先提取并获得短文本的所有有用词汇,并根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心,而后对形成的各簇进行第一次修剪后合并,再进行第二次修剪,最后提取第二次修剪后的各个簇的簇心作为各簇标签,即提供一种了在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖初始中心点的选取和流式聚类无法回头的问题,以及传统标签生成时产生语义不完善甚至无语义的情况。
通过word2vec计算所述短文本间的相似度,即利用短文本句子之间的相似度替代用词向量间的相似度,防止词向量相加带来的语义失真的情况。
通过计算各个短文本与其他所有文本的相似度在第一时间就确定了所有的聚类中心点,所以短文本聚类不再受初始指定中心点影响,避免了噪声点成为中心点的可能,使聚类更加准确和稳定。同时因为簇是以簇心短文本为中心然后再围绕着该簇心短文本进行聚类,因此该簇心短文本高度概括了该类簇的真实含义,所以将各个簇的簇心提取出来作为各簇标签进行展示,即通过抽取各类的中心点作为标签,有效的避免了分词抽取导致的语义不全等情况。
一个优选方案中,提取并获得短文本的所有有用词汇包括:流式读取短文本的数据,删除因词汇量过少而无任何意义的句子,然后提取剩余短文本中的业务关键词与预设的相应语料领域的业务关键词词典中保存的业务关键词进行比对,并将提取的业务关键词未包含在所述业务关键词词典中的句子删除。
在上述方案中,首先获得该语料领域的业务关键词词典,流式读取短文本数据,为了减少计算量统计所有完全相同的短文本,即多个相同短文本只需一遍计算即可。完成后删除因词汇量过少而完全无任何意义的句子,还要提取文本的业务关键词通过业务关键词比对删除因不包含业务关键词而无意义的句子。
一个优选方案中,所述有用词汇指除预定的停用词以外的所有词汇。
在上述方案中,停用词为预先收集的停用词,具体可以包括:不好意思、不客气、不用谢、中午好、久等、亲、你们好、你好、再见、初次见面、午安、告辞了、在?、在么、天气不好、天气不错、天气差、天真冷、天真好、天真热、客气、对不起、很高兴、忙?、忙么?、您好、感谢、打扰一下、打扰了、打搅了、抱歉、拜拜、早上好、早安、晚上好、晚安、来了、欢迎、欢迎光临、真高兴、稍等、等等、让您久等了、请多关照、请稍等、请问、谢谢、辛苦了、问一下、非常感谢、非常抱歉、问下、请问、想问一下,以及我想问一下,等等。
一个优选方案中,根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度包括:利用通过Word2vec训练提供的短文本的有用词汇的单词向量代表所述短文本的文本向量后,利用平均余弦相似度表示各个短文本间的相似度。
在上述方案中,对现有的句向量相似度的计算方式进行了改进,通过在两个有意义的短文本中获得S1得到的有用词汇,根据单词向量代表文本向量,利用平均余弦相似度表示短文本间的相似性。单词向量用Word2vec训练提供,Word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,通过训练将单词映射到高维空间上,空间上的距离可以用来反应单词语义上的相关性,从而将对单词语义的研究转向了更为简单的空间距离的研究。
具体操作为:假设两个短文本完全相似,对比两个短文本长度,利用较短文本中的词汇去匹配较长文本中的词汇,如果匹配到完全相同的词汇则句子相似度加1,并且去除匹配成功的词汇,然后进行下一个词汇的匹配循环。如果较短的文本遍历一遍后还有词汇没有匹配上则继续遍历较短文本的剩余词汇,依次去和较长文本的剩余词汇进行余弦相似度计算,之后经过排序取最大值作为该词汇的相似度Sim(wordi)加入句子的相似度中。如果该相似度大于阈值T1则将较长文本中的与之对应的词去掉,然后再进行下一个较短文本的剩余词汇相似度计算,直到所有词汇计算完成。最后将句子相似度除以较短文本的词汇数量求得平均值,即两个短文本的句子相似度,如果句子相似度大于阈值T1则表示两个句子属于同一个簇。句子相似度,具体表达式如下:
Sim(wordi)=Max(Sim(wordi,word1),...,Sim(wordi,wordn)) 公式1;
其中,公式1中wordi表示较短文本中的某个词汇,word1到wordn表示较长文本中的所有词汇,Sim(wordi,word1)表示两个词汇的余弦相似度,n代表较长文本中的词汇数量。公式2中Sim(sentencei,sentencej)表示两个句子的平均相似度,N代表较短文本中的词汇数量。
一个优选方案中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度前,还需按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,并假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似。
在上述方案中,按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,能够实现选取适当长度的短文本作为标签,因为文本长度过长一方面不适合作为标签进行展示,另一方面也是最重要的一方面文本过长的话描述内容也会相应的变得复杂,含义多样化。以该文本为聚类中心聚集出来的类簇含义同样也会多样化,类簇描述重心难以确认,因此该种类簇存在意义不大。另外直接排除文本长度过长的句子而不需要通过计算来判定该文本是否为中心点,这样极大程度上也节省了计算资源,使得标签抽取的效率更高。
通过假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似,即假设一个短文本中每个词汇都有另一个短文本中和它完全对应的词汇,这样就能保证同一个词汇不会与其他句子中的不同词汇重复计算。
一个优选方案中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,包括:计算未假设为簇心的短文本的句子与各个假设的作为簇心的短文本的句子间的相似度,并把句子相似度大于T1的归为相应簇心的簇内。
在上述方案中,计算中心点短文本与其他所有短文本的句子相似度,如果句子相似度大于阈值T1则暂定把该短文本归为指定簇心的一类,遍历所有簇心后能够得到m个簇,同时会拥有m个簇心。
一个优选方案中,第一次修剪包括:
将S2形成的各簇按照簇的规模从大到小进行排序;
将完全相同的簇归并;
将完全包含在另一个簇内的簇删除;以及
当排名靠后的类簇的簇心出现在排名靠前的簇中时,计算两簇的交集,并将所述交集从排名靠后的簇中删除。
在上述方案中,经过S2后,因为每个长度适当的短文本都是簇心所以围绕簇心会产生一个个簇其中会存在大簇包含小簇等多种情况,我们需要将被大簇包含的小簇剪掉,相当于并入大簇中,第一次修剪的方案重点在于将简单重复的簇进行轻微修剪,目的一方面是为了减小接下来簇合并时的计算量,另一方面是为了减少S4合并类簇时提取关键词的干扰。原因:如果不进行修剪需要将所有簇都计算一遍包括重复的簇,而且许多簇间存在短文本重叠的问题,所以在关键词提取时会有很大几率提取到重合部分的词汇,这样在利用这些关键词合并类簇时就会将一些本不该合并的类簇合并到一起,即通过第一次修剪能够有效的为后续簇的合并减少干扰项。
一个优选方案中,对第一次修剪后的所有簇进行合并操作包括:计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替。
在上述方案中,经过第一次修剪后,各个簇已经将有大规模重合部分的短文本进行去除,剩下部分各簇间依然存在一定问题,即为了追求聚类的正确性,我们将阈值T1设置的比较大,如此会造成聚类过于分散,即使得本来表达同一个意思应该聚到同一个簇中的几个短文本,由于描述手法的不同,结果分成了多个簇。合并操作的目的在于通过调整阈值T2,利用各簇的关键词相似度将意义相同的簇合并到同一簇中,且标签选择大簇的标签代替。
一个优选方案中,计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替,包括:
将经第一次修剪后的各簇的短文本分别制作成文档,利用TextRank提取每一篇文档的关键词,并取前n个关键词组成一句话作为相应簇的代表句;
将经第一次修剪后的各簇按照规模从大到小进行排序,依次计算各簇的代表句间的句相似度,若相似度大于T2则将两个簇合并成一个新簇;
其中,将两个簇合并成一个新簇具体指:将相似度大于T2的两个簇求并集后删除计算前的两个簇,将求得的并集作为新簇取代原先排名靠前位置的簇重新加入运算,新簇的标签采用原先排名靠前的簇的标签。
在上述方案中,通过将每个簇的短文本制作成一篇文档,利用TextRank将每一篇生成的文档提取出各自的关键词,取前n个关键词组成一句话作为该类簇的代表,该步操作使得从计算各类簇的相似度又回到了计算句子的相似度,其中,TextRank算法是一种文本的基于图的排序算法,利用投票机制对文本中的重要成分进行排序,具体原理如果一个单词出现在很多单词后面则表示该单词很重要,重要的单词后面跟着的单词相应的也会重要。TextRank不需要事先对多篇文档进行学习训练,仅单篇文档就可以直接使用,因其简洁有效而得到广泛应用。将经第一次修剪后的各簇按照规模从大到小进行排序,依次计算各簇的代表句间的句相似度,若相似度大于T2则表示两个簇在很大程度表达同一个意义,因而需要将两个簇求得的并集作为一个新簇,新簇取代原先排名靠前位置的簇重新加入运算,该簇的标签同时也是簇心,同样也是取原先排名靠前的簇的标签。完成以上工作后将新簇的短文本重新整合成文档,再次调用TextRank算法计算新簇的关键词,从原先排名靠后位置的簇的下一个簇重新开始计算各簇的相似度。
一个优选方案中,第二次修剪包括:
对S4合并完的各簇按照规模从大到小进行排序后,若排名靠后的簇的簇心出现在排名靠前的簇中,则判断排名靠后的簇的簇心长度是否大于预设的长度阈值L;是,则将排名靠后的簇直接放弃;否,则计算两簇的交集,并将交集从排名靠后的簇中删除;
将经剩余的簇与预设的簇的规模阈值C进行比较,并将规模小于C的簇作为噪声点直接舍弃。
在上述方案中,经第一次修剪后重复的簇已基本不存在,但是重叠的簇还是部分存在的。因为经过合并操作后部分簇的簇心存在变动,这样又会将部分重叠簇暴露出来,因此需要对这些重叠的簇进行再次修剪,另外短文本往往会存在大量的噪声点,噪声点的产生一部分原因是短文本本身就无意义或短文本描述内容与事件无关也可理解为不包含用户关心的业务词,虽然这部分噪声在语料预处理时已经做了处理,但是还有一部分噪声点虽然有意义也包含业务词,但与其他短文本描述内容差异较大也就成了噪声点。因而第二次修剪主要在于去除重叠簇和噪声点,以保证保留的簇准确且标签能够高度概括该簇的真实含义。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。
Claims (10)
1.一种基于短文本聚类的标签抽取方法,其中,包括:
S1、提取并获得短文本的所有有用词汇;
S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;
S3、对S2中形成的各簇进行第一次修剪;
S4、对第一次修剪后的所有簇进行合并操作;
S5、对S4合并完的各簇进行第二次修剪;
S6、提取第二次修剪后的各个簇的簇心作为各簇标签。
2.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,提取并获得短文本的所有有用词汇包括:流式读取短文本的数据,删除因词汇量过少而无任何意义的句子,然后提取剩余短文本中的业务关键词与预设的相应语料领域的业务关键词词典中保存的业务关键词进行比对,并将提取的业务关键词未包含在所述业务关键词词典中的句子删除。
3.如权利要求2所述的基于短文本聚类的标签抽取方法,其中,所述有用词汇指除预定的停用词以外的所有词汇。
4.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度包括:利用通过Word2vec训练提供的短文本的有用词汇的单词向量代表所述短文本的文本向量后,利用平均余弦相似度表示各个短文本间的相似度。
5.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度前,还需按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,并假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似。
6.如权利要求5所述的基于短文本聚类的标签抽取方法,其中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,包括:计算未假设为簇心的短文本的句子与各个假设的作为簇心的短文本的句子间的相似度,并把句子相似度大于T1的归为相应簇心的簇内。
7.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,第一次修剪包括:
将S2形成的各簇按照簇的规模从大到小进行排序;
将完全相同的簇归并;
将完全包含在另一个簇内的簇删除;以及
当排名靠后的类簇的簇心出现在排名靠前的簇中时,计算两簇的交集,并将所述交集从排名靠后的簇中删除。
8.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,对第一次修剪后的所有簇进行合并操作包括:计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替。
9.如权利要求8所述的基于短文本聚类的标签抽取方法,其中,计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替,包括:
将经第一次修剪后的各簇的短文本分别制作成文档,利用TextRank提取每一篇文档的关键词,并取前n个关键词组成一句话作为相应簇的代表句;
将经第一次修剪后的各簇按照规模从大到小进行排序,依次计算各簇的代表句间的句相似度,若相似度大于T2则将两个簇合并成一个新簇;
其中,将两个簇合并成一个新簇具体指:将相似度大于T2的两个簇求并集后删除计算前的两个簇,将求得的并集作为新簇取代原先排名靠前位置的簇重新加入运算,新簇的标签采用原先排名靠前的簇的标签。
10.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,第二次修剪包括:
对S4合并完的各簇按照规模从大到小进行排序后,若排名靠后的簇的簇心出现在排名靠前的簇中,则判断排名靠后的簇的簇心长度是否大于预设的长度阈值L;是,则将排名靠后的簇直接放弃;否,则计算两簇的交集,并将交集从排名靠后的簇中删除;
将经剩余的簇与预设的簇的规模阈值C进行比较,并将规模小于C的簇作为噪声点直接舍弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182533.1A CN111414479B (zh) | 2020-03-16 | 2020-03-16 | 基于短文本聚类技术的标签抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182533.1A CN111414479B (zh) | 2020-03-16 | 2020-03-16 | 基于短文本聚类技术的标签抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414479A true CN111414479A (zh) | 2020-07-14 |
CN111414479B CN111414479B (zh) | 2023-03-21 |
Family
ID=71491214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182533.1A Active CN111414479B (zh) | 2020-03-16 | 2020-03-16 | 基于短文本聚类技术的标签抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414479B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859894A (zh) * | 2020-07-24 | 2020-10-30 | 北京奇艺世纪科技有限公司 | 一种情节文本确定方法及装置 |
CN112100986A (zh) * | 2020-11-10 | 2020-12-18 | 北京捷通华声科技股份有限公司 | 语音文本聚类方法和装置 |
CN112115711A (zh) * | 2020-07-30 | 2020-12-22 | 中国民用航空上海航空器适航审定中心 | 基于自然语言的适航指令问题特征的提取 |
CN112184323A (zh) * | 2020-10-13 | 2021-01-05 | 上海风秩科技有限公司 | 评价标签生成方法和装置、存储介质及电子设备 |
CN112597313A (zh) * | 2021-03-03 | 2021-04-02 | 北京沃丰时代数据科技有限公司 | 短文本聚类方法、装置、电子设备及存储介质 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112732914A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市网联安瑞网络科技有限公司 | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 |
CN113065341A (zh) * | 2021-03-14 | 2021-07-02 | 北京工业大学 | 一种环境类投诉举报文本自动标注和分类方法 |
CN113159802A (zh) * | 2021-04-15 | 2021-07-23 | 武汉白虹软件科技有限公司 | 一种实现涉诈应用收集和特征提取聚类的算法模型及系统 |
CN113704436A (zh) * | 2021-09-02 | 2021-11-26 | 宁波深擎信息科技有限公司 | 基于会话场景的用户画像标签挖掘方法及装置 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN114969348A (zh) * | 2022-07-27 | 2022-08-30 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
WO2023174431A1 (zh) * | 2022-03-18 | 2023-09-21 | 三峡智控科技有限公司 | 一种kpi曲线数据处理方法 |
US12056437B2 (en) * | 2020-06-23 | 2024-08-06 | Samsung Electronics Co., Ltd. | Electronic device and method for converting sentence based on a newly coined word |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609102A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种短文本在线聚类方法 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
-
2020
- 2020-03-16 CN CN202010182533.1A patent/CN111414479B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN107609102A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种短文本在线聚类方法 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12056437B2 (en) * | 2020-06-23 | 2024-08-06 | Samsung Electronics Co., Ltd. | Electronic device and method for converting sentence based on a newly coined word |
CN111859894B (zh) * | 2020-07-24 | 2024-01-23 | 北京奇艺世纪科技有限公司 | 一种情节文本确定方法及装置 |
CN111859894A (zh) * | 2020-07-24 | 2020-10-30 | 北京奇艺世纪科技有限公司 | 一种情节文本确定方法及装置 |
CN112115711A (zh) * | 2020-07-30 | 2020-12-22 | 中国民用航空上海航空器适航审定中心 | 基于自然语言的适航指令问题特征的提取 |
CN112184323A (zh) * | 2020-10-13 | 2021-01-05 | 上海风秩科技有限公司 | 评价标签生成方法和装置、存储介质及电子设备 |
CN112100986A (zh) * | 2020-11-10 | 2020-12-18 | 北京捷通华声科技股份有限公司 | 语音文本聚类方法和装置 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112732914A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市网联安瑞网络科技有限公司 | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 |
CN112597313A (zh) * | 2021-03-03 | 2021-04-02 | 北京沃丰时代数据科技有限公司 | 短文本聚类方法、装置、电子设备及存储介质 |
CN113065341A (zh) * | 2021-03-14 | 2021-07-02 | 北京工业大学 | 一种环境类投诉举报文本自动标注和分类方法 |
CN113159802A (zh) * | 2021-04-15 | 2021-07-23 | 武汉白虹软件科技有限公司 | 一种实现涉诈应用收集和特征提取聚类的算法模型及系统 |
CN113704436B (zh) * | 2021-09-02 | 2023-08-08 | 宁波深擎信息科技有限公司 | 基于会话场景的用户画像标签挖掘方法及装置 |
CN113704436A (zh) * | 2021-09-02 | 2021-11-26 | 宁波深擎信息科技有限公司 | 基于会话场景的用户画像标签挖掘方法及装置 |
WO2023174431A1 (zh) * | 2022-03-18 | 2023-09-21 | 三峡智控科技有限公司 | 一种kpi曲线数据处理方法 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN114969348B (zh) * | 2022-07-27 | 2023-10-27 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
CN114969348A (zh) * | 2022-07-27 | 2022-08-30 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111414479B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN111475607A (zh) | 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN115630843A (zh) | 合同条款自动审核方法及系统 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析系统及其方法 | |
CN117454220A (zh) | 数据分级分类方法、装置、设备及存储介质 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN115438141B (zh) | 一种基于知识图谱模型的信息检索方法 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN112183069B (zh) | 一种基于历史关键词投放数据的关键词构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231222 Address after: 100020 room 127, 1st floor, building 20, Shuangqiao dairy factory, Chaoyang District, Beijing Patentee after: BEIJING ZHICHI BOCHUANG TECHNOLOGY CO.,LTD. Patentee after: Beijing Zhichi Zhongfu Technology Consulting Co.,Ltd. Address before: 100020 room 211, 2 / F, building 2, Shuangqiao dairy factory, Chaoyang District, Beijing Patentee before: BEIJING ZHICHI BOCHUANG TECHNOLOGY CO.,LTD. |