CN109063184A - 多语言新闻文本聚类方法、存储介质及终端设备 - Google Patents
多语言新闻文本聚类方法、存储介质及终端设备 Download PDFInfo
- Publication number
- CN109063184A CN109063184A CN201810979185.3A CN201810979185A CN109063184A CN 109063184 A CN109063184 A CN 109063184A CN 201810979185 A CN201810979185 A CN 201810979185A CN 109063184 A CN109063184 A CN 109063184A
- Authority
- CN
- China
- Prior art keywords
- single language
- newsletter archive
- language
- keyword
- clustering cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多语言新闻文本聚类方法,包括:预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征;基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合;根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合。相应的,本发明还公开了一种计算机可读存储介质及终端设备。采用本发明的技术方案能够不依赖于多语言资源实现大规模的多语言新闻文本聚类,满足对中文、英语、印尼语和马来语的多语言网络舆情分析的需求,并提高聚类速度和效率。
Description
技术领域
本发明涉及信息技术中的自然语言处理领域,尤其涉及一种多语言新闻文本聚类方法、计算机可读存储介质及终端设备。
背景技术
随着互联网信息资源的日益丰富,网络上的非英语文本资源的数量日益增加,网络信息来源的多语言倾向正不断增强,网络舆情分析也随之趋于多语言化,如何实现准确高效的跨语言聚类,成为多语言舆情分析的关键问题之一。
同时,中国政府与企业日益重视对沿线国家的网络舆情分析,以规避风险,而在沿线国家中,印度尼西亚和马来西亚均是东南亚联盟的创始国,具有较高影响力,两个国家的官方语言分别为印尼语和马来语,同时英语、华语(中文)也广泛使用,因此,实现对包括印度尼西亚和马来西亚国家的多语言新闻文本聚类具有十分重要的意义和价值。
现有技术提供的文本聚类方法主要有“先聚类,后合并”方法、基于机器翻译系统的多语言文本聚类方法、基于多语词典的多语言文本聚类方法、基于多语主题词表或多语本体的多语言文本聚类方法、基于平行语料的多语言文本聚类方法和依据同源命名实体的方法等,但是,由于多语言词典、主题词表以及平行语料等资源获取成本高,并且存在聚类文本所属领域不兼容的问题,制约了大规模的多语言新闻文本聚类技术的发展。
发明内容
本发明实施例所要解决的技术问题在于,提供一种多语言新闻文本聚类方法、计算机可读存储介质及终端设备,能够不依赖于多语言资源实现大规模的多语言新闻文本聚类,满足对中文、英语、印尼语和马来语的多语言网络舆情分析的需求,并提高聚类速度和效率。
为了解决上述技术问题,本发明实施例提供了一种多语言新闻文本聚类方法,包括:
预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征;
基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合;
根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合。
进一步地,所述预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征,具体包括:
预先根据TextRank算法分别获取所述多语言新闻文本中的每一篇所述单语言新闻文本的文本特征;其中,所述单语言新闻文本的文本特征包括预设个数的关键词以及每个关键词对应的TextRank值。
进一步地,所述基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合,对于每一种所述单语言新闻文本,具体包括:
读取一篇所述单语言新闻文本;
当当前单语言聚类簇集合不为空集时,根据当前读取的所述单语言新闻文本的关键词分别计算当前读取的所述单语言新闻文本与所述当前单语言聚类簇集合中的每一个单语言聚类簇的质心的关键词重合度;其中,所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
当最大关键词重合度不小于预设的第一关键词重合度阈值时,根据当前读取的所述单语言新闻文本的每个关键词对应的TextRank值计算当前读取的所述单语言新闻文本与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;
当最大余弦相似度不小于预设的第一余弦相似度阈值时,将当前读取的所述单语言新闻文本加入与所述最大余弦相似度对应的单语言聚类簇中;
根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理。
进一步地,所述方法还包括:
当所述当前单语言聚类簇集合为空集时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
进一步地,所述方法还包括:
当所述最大关键词重合度小于所述第一关键词重合度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
进一步地,所述方法还包括:
当所述最大余弦相似度小于所述第一余弦相似度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
进一步地,所述根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理,具体包括:
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词相同的关键词,将相同的关键词所对应的TextRank值进行求平均值处理;
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词不相同的关键词,将不相同的关键词以及对应的TextRank值加入所述所加入的单语言聚类簇的质心中。
进一步地,所述根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合,具体包括:
S1301、分别将每一种所述单语言新闻文本的单语言聚类簇集合中的单语言聚类簇的关键词翻译为预设的同一种语言的关键词;其中,所述关键词根据所述单语言聚类簇的质心获得;所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
S1302、读取一个单语言聚类簇;
S1303、根据当前读取的单语言聚类簇的关键词分别计算当前读取的单语言聚类簇与其他所有单语言聚类簇的质心的关键词重合度;
S1304、当最大关键词重合度大于预设的第二关键词重合度阈值时,根据当前读取的单语言聚类簇的每个关键词对应的TextRank值计算当前读取的单语言聚类簇与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;当所述最大关键词重合度不大于所述第二关键词重合度阈值时,返回S1302;
S1305、当最大余弦相似度大于预设的第二余弦相似度阈值时,将当前读取的单语言聚类簇与所述最大余弦相似度对应的单语言聚类簇进行合并;当所述最大余弦相似度不大于所述第二余弦相似度阈值时,返回S1302;以及,
S1306、当合并完所有的满足条件的单语言聚类簇时,获得所述多语言新闻文本的跨语言聚类簇集合。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的多语言新闻文本聚类方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的多语言新闻文本聚类方法。
与现有技术相比,本发明实施例提供了一种多语言新闻文本聚类方法、计算机可读存储介质及终端设备,通过预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征,并基于关键词重合度根据每一篇单语言新闻文本的文本特征对单语言新闻文本进行聚类,对应获得每一种单语言新闻文本的单语言聚类簇集合,从而根据每一种单语言新闻文本的单语言聚类簇集合获得多语言新闻文本的跨语言聚类簇集合,不依赖于多语言资源就可以实现大规模的多语言新闻文本聚类,满足对中文、英语、印尼语和马来语的多语言网络舆情分析的需求,并且提高了聚类速度和效率。
附图说明
图1是本发明提供的一种多语言新闻文本聚类方法的一个优选实施例的流程图;
图2是本发明提供的一种多语言新闻文本聚类方法的步骤S12的一个优选实施例的具体流程图;
图3是本发明提供的一种多语言新闻文本聚类方法的步骤S13的一个优选实施例的具体流程图;
图4是本发明提供的一种终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,是本发明提供的一种多语言新闻文本聚类方法的一个优选实施例的流程图,包括步骤S11至步骤S13:
步骤S11、预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征;
步骤S12、基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合;
步骤S13、根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合。
具体的,多语言新闻文本包括多种语言的新闻文本(例如至少包括中文新闻文本、英语新闻文本、印尼语新闻文本和马来语新闻文本),每一种语言的新闻文本对应包括多篇单语言新闻文本;对于需要聚类的多语言新闻文本,预先提取多语言新闻文本中的每一篇单语言新闻文本的文本特征,对于任意一种语言的所有单语言新闻文本,基于关键词重合度根据该种语言每一篇单语言新闻文本的文本特征对该种语言的所有单语言新闻文本进行初次聚类,获得该种语言的所有单语言新闻文本对应的单语言聚类簇集合;同理,获得上述多语言新闻文本中的每一种语言的所有单语言新闻文本对应的单语言聚类簇集合(例如获得中文新闻文本对应的中文聚类簇集合、英语新闻文本对应的英语聚类簇集合、印尼语新闻文本对应的印尼语聚类簇集合和马来语新闻文本对应的马来语聚类簇集合);根据获得的每一种语言的所有单语言新闻文本对应的单语言聚类簇集合进行二次聚类,获得上述多语言新闻文本的跨语言聚类簇结合。
需要说明的是,在预先提取多语言新闻文本中的每一篇单语言新闻文本的文本特征时,所有单语言新闻文本的文本特征的数量和形式均相同。
本发明实施例所提供的一种多语言新闻文本聚类方法,无需获取多语言词典、主题词表以及平行语料等多语言资源就可以实现大规模的多语言新闻文本聚类,满足了对中文、英语、印尼语和马来语的多语言新闻文本的网络舆情分析的需求,并且采用基于关键词重合度计算的聚类方法能够避免出现稀疏矩阵的情况,减少对内存空间的占用,从而提高了聚类速度和效率。
在另一个优选实施例中,所述预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征,具体包括:
预先根据TextRank算法分别获取所述多语言新闻文本中的每一篇所述单语言新闻文本的文本特征;其中,所述单语言新闻文本的文本特征包括预设个数的关键词以及每个关键词对应的TextRank值。
由于新闻文本一般篇幅较短,覆盖领域较广,使用LDA主题模型等方法对大规模新闻文本进行特征表示所构建出的特征矩阵为稀疏矩阵,需要占用较大的内存空间,因此,本发明实施例根据TextRank算法以关键词以及关键词对应的TextRank值作为新闻文本的文本特征表示。
对于每一篇单语言新闻文本,具体实现过程如下:
(1)将单语言新闻文本T按照完整句子进行分割,可以表示为T=[S1,S2,…,Sm];其中,Si(i=1,2,···,m)表示单语言新闻文本T的句子;
(2)分别对每个句子Si∈T进行分词、去停用词以及词性标注处理,保留特定词性的词语,如名词、动词和形容词,可以表示为Si=[ti,1,ti,2,…,ti,n];其中,tij(i=1,2,···,m;j=1,2,···,n)表示单语言新闻文本T的候选关键词;
(3)根据关键词候选集构建候选关键词图G=(V,E);其中,V为节点集,由第(2)步中生成的候选关键词tij组成,E为节点之间的边的集合;然后采用共现关系构造任意两个节点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现一个词语的前后K个词语;
(4)根据公式:迭代计算各个节点的权重,直至收敛;其中,d是阻尼系数,一般取值为0.85;k是迭代次数;wji表示节点vi指向节点vj的边的权重,wjk与wji同理;In(vi)={vi|<vi,vj>∈E},In(vi)表示指向节点vi的节点的集合;Out(vj)={vj|<vi,vj>∈E},Out(vj)表示节点vj所指向的节点的集合;<vi,vj>表示从节点vi指向节点vj的边。
(5)对各个节点按照节点权重从大到小的顺序进行排列,从而得到单语言新闻文本T中最重要的预设个数(例如10个)的词语作为这篇单语言新闻文本T的关键词,并将这10个关键词及其对应的TextRank值作为文本特征。
需要说明的是,第(4)步根据公式迭代计算各个节点的权重时,如果当前迭代计算得到的权重结果与上一次迭代计算得到的权重结果的差值很小,接近于0,则认为收敛,并将当前迭代计算得到的权重结果作为节点的权重。
另外,对于不同种语言的新闻文本,提取文本特征的差异在于分词、去停用词以及词性标注处理等文本预处理工作中,提取文本特征的算法原理并不改变。
本发明实施例所提供的一种多语言新闻文本聚类方法,根据TextRank算法获得单语言新闻文本的文本特征能够避免构建出的特征矩阵为稀疏矩阵的情况,减少对内存空间的占用,从而提高了聚类速度。
参见图2所示,是本发明提供的一种多语言新闻文本聚类方法的步骤S12的一个优选实施例的具体流程图,所述基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合,对于每一种所述单语言新闻文本,具体包括步骤S1201至步骤S1205:
步骤S1201、读取一篇所述单语言新闻文本;
步骤S1202、当当前单语言聚类簇集合不为空集时,根据当前读取的所述单语言新闻文本的关键词分别计算当前读取的所述单语言新闻文本与所述当前单语言聚类簇集合中的每一个单语言聚类簇的质心的关键词重合度;其中,所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
步骤S1203、当最大关键词重合度不小于预设的第一关键词重合度阈值时,根据当前读取的所述单语言新闻文本的每个关键词对应的TextRank值计算当前读取的所述单语言新闻文本与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;
步骤S1204、当最大余弦相似度不小于预设的第一余弦相似度阈值时,将当前读取的所述单语言新闻文本加入与所述最大余弦相似度对应的单语言聚类簇中;
步骤S1205、根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理。
具体的,对于任意一种语言的所有单语言新闻文本,每一篇单语言新闻文本已经预先获得了预设个数的关键词以及每个关键词对应的TextRank值作为文本特征;从上述所有单语言新闻文本中读取一篇单语言新闻文本,判断该种语言对应的当前单语言聚类簇集合是否为空集,如果当前单语言聚类簇集合不为空集,至少包括一个单语言聚类簇,则根据当前读取的单语言新闻文本的关键词分别计算当前读取的单语言新闻文本与当前单语言聚类簇集合中的每一个单语言聚类簇的质心的关键词的重合个数,并根据关键词的重合个数对应计算关键词重合度;其中,单语言聚类簇的质心包括单语言聚类簇的关键词以及每个关键词对应的TextRank值;比较计算获得的至少一个关键词重合度,找出最大关键词重合度,并判断最大关键词重合度是否小于预先设置的第一关键词重合度阈值,如果最大关键词重合度不小于第一关键词重合度阈值,则确定与最大关键词重合度相对应的单语言聚类簇(可能不止一个),根据当前读取的单语言新闻文本的每个关键词对应的TextRank值计算当前读取的单语言新闻文本与确定的单语言聚类簇的质心的余弦相似度,找出最大余弦相似度,并判断最大余弦相似度是否小于预先设置的第一余弦相似度阈值,如果最大余弦相似度不小于第一余弦相似度阈值,则确定与最大余弦相似度相对应的单语言聚类簇,将当前读取的单语言新闻文本加入确定的单语言聚类簇中,并根据当前读取的单语言新闻文本的文本特征对当前读取的单语言新闻文本所加入的单语言聚类簇的质心进行更新处理。
需要说明的是,当从上述所有单语言新闻文本中读取一篇单语言新闻文本并根据步骤S1202至步骤S1205聚类完成时,从上述所有单语言新闻文本中读取下一篇单语言新闻文本并重复步骤S1202至步骤S1205进行聚类处理,以此类推,直至读取完上述所有的单语言新闻文本并聚类完成为止,从而相应获得上述任意一种语言的所有单语言新闻文本对应的单语言聚类簇集合;同理,获得多语言新闻文本中的每一种语言的所有单语言新闻文本对应的单语言聚类簇集合。
需要补充的是:
(1)单语言新闻文本T与单语言聚类簇A的关键词重合度的计算公式如下:
其中,C为关键词重合度,t为单语言新闻文本T的关键词个数,a为单语言聚类簇A的关键词个数,s为单语言新闻文本T与单语言聚类簇A的关键词的重合个数。
(2)单语言新闻文本T与单语言聚类簇A的质心的余弦相似度的计算公式如下:
其中,cosθ为余弦相似度;s为单语言新闻文本T与单语言聚类簇A的关键词的重合个数;ti(i=1,2,···,s)表示单语言新闻文本T中与单语言聚类簇A的重合关键词对应的TextRank值;ai(i=1,2,···,s)表示单语言聚类簇A中与单语言新闻文本T的重合关键词对应的TextRank值。
根据重合关键词对应的TextRank值进行关键词权重的相似度计算,可以判断重合关键词在新闻文本中是否有相似的重要程度。
本发明实施例所提供的一种多语言新闻文本聚类方法,基于关键词重合度对分别对每一种语言的所有单语言新闻文本进行初次聚类,实现了对报道相同事件的单语言新闻文本的初次聚合,同时实现了一种增量式聚类方法,便于对大规模的新闻文本进行动态聚类,具有简单、高效的特点。
在又一个优选实施例中,所述方法还包括:
当所述当前单语言聚类簇集合为空集时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
具体的,结合上述实施例,从任意一种语言的所有单语言新闻文本中读取一篇单语言新闻文本,如果判定该种语言对应的当前单语言聚类簇集合为空集,则在当前单语言聚类簇集合中新建一个单语言聚类簇,并将当前读取的单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
在又一个优选实施例中,所述方法还包括:
当所述最大关键词重合度小于所述第一关键词重合度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
具体的,结合上述实施例,如果判定最大关键词重合度小于预先设置的第一关键词重合度阈值,则在当前单语言聚类簇集合中新建一个单语言聚类簇,并将当前读取的单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
在又一个优选实施例中,所述方法还包括:
当所述最大余弦相似度小于所述第一余弦相似度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
具体的,结合上述实施例,如果判定最大余弦相似度小于预先设置的第一余弦相似度阈值,则在当前单语言聚类簇集合中新建一个单语言聚类簇,并将当前读取的单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
在又一个优选实施例中,所述根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理,具体包括:
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词相同的关键词,将相同的关键词所对应的TextRank值进行求平均值处理;
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词不相同的关键词,将不相同的关键词以及对应的TextRank值加入所述所加入的单语言聚类簇的质心中。
具体的,如果新加入的单语言新闻文本的关键词已经在其所加入的单语言聚类簇的关键词集合中,即两者具有相同的关键词,则对相同的关键词所对应的TextRank值进行求平均值处理,并用求出的TextRank值的平均值替换相同的关键词所对应的原TextRank值;如果新加入的单语言新闻文本的关键词不在其所加入的单语言聚类簇的关键词集合中,即两者具有不相同的关键词,则直接将新加入的单语言新闻文本的与其所加入的单语言聚类簇不相同的关键词并入其所加入的单语言聚类簇的关键词集合中,并将不相同的关键词所对应的TextRank值相应加入上述单语言聚类簇的质心中。
本发明实施例所提供的一种多语言新闻文本聚类方法,通过对单语言聚类簇的质心进行更新,可以使单语言聚类簇的质心代表单语言聚类簇中所有单语言新闻文本的平均水平,确保单语言聚类簇的质心不受初始单语言聚类簇的质心的影响,减少因随机选择一篇单语言新闻文本的文本特征作为单语言聚类簇的初始质心所引起的误差。
参见图3所示,是本发明提供的一种多语言新闻文本聚类方法的步骤S13的一个优选实施例的具体流程图,所述根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合,具体包括步骤S1301至步骤S1306:
步骤S1301、分别将每一种所述单语言新闻文本的单语言聚类簇集合中的单语言聚类簇的关键词翻译为预设的同一种语言的关键词;其中,所述关键词根据所述单语言聚类簇的质心获得;所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
步骤S1302、读取一个单语言聚类簇;
步骤S1303、根据当前读取的单语言聚类簇的关键词分别计算当前读取的单语言聚类簇与其他所有单语言聚类簇的质心的关键词重合度;
步骤S1304、当最大关键词重合度大于预设的第二关键词重合度阈值时,根据当前读取的单语言聚类簇的每个关键词对应的TextRank值计算当前读取的单语言聚类簇与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;当所述最大关键词重合度不大于所述第二关键词重合度阈值时,返回步骤S1302;
步骤S1305、当最大余弦相似度大于预设的第二余弦相似度阈值时,将当前读取的单语言聚类簇与所述最大余弦相似度对应的单语言聚类簇进行合并;当所述最大余弦相似度不大于所述第二余弦相似度阈值时,返回步骤S1302;以及,
步骤S1306、当合并完所有的满足条件的单语言聚类簇时,获得所述多语言新闻文本的跨语言聚类簇集合。
具体的,分别将每一种语言的所有单语言新闻文本对应的单语言聚类簇集合中的所有单语言聚类簇的关键词统一翻译为预先设置的同一种语言(例如统一翻译成英语)的关键词;其中,单语言聚类簇的关键词根据单语言聚类簇的质心获得,单语言聚类簇的质心包括单语言聚类簇的关键词以及每个关键词对应的TextRank值;读取一个单语言聚类簇,相应得到该单语言聚类簇的英语关键词以及每个英语关键词所对应的TextRank值,根据当前读取的单语言聚类簇的英语关键词分别计算当前读取的单语言聚类簇与其他所有的单语言聚类簇的质心的英语关键词的重合个数,并根据英语关键词的重合个数对应计算关键词重合度,比较计算获得的关键词重合度,找出最大关键词重合度,并判断最大关键词重合度是否大于预先设置的第二关键词重合度阈值,如果最大关键词重合度大于第二关键词重合度阈值,则确定与最大关键词重合度相对应的单语言聚类簇(可能不止一个),根据当前读取的单语言聚类簇的每个英语关键词所对应的TextRank值计算当前读取的单语言聚类簇与确定的单语言聚类簇的质心的余弦相似度;如果最大关键词重合度不大于第二关键词重合度阈值,则读取下一个单语言聚类簇并重复上述关键词重合度的计算与判断过程;根据计算获得的余弦相似度找出最大余弦相似度,并判断最大余弦相似度是否大于预先设置的第二余弦相似度阈值,如果最大余弦相似度大于第二余弦相似度阈值,则确定与最大余弦相似度相对应的单语言聚类簇,将当前读取的单语言聚类簇与确定的单语言聚类簇进行合并;如果最大余弦相似度不大于第二余弦相似度阈值,则读取下一个单语言聚类簇并重复上述关键词重合度的计算与判断、余弦相似度的计算与判断过程;当读取完所有的单语言聚类簇并且合并完所有的满足最大关键词重合度大于预先设置的第二关键词重合度阈值且最大余弦相似度大于预先设置的第二余弦相似度阈值条件的单语言聚类簇时,获得多语言新闻文本的跨语言聚类簇集合。
需要说明的是:
(1)单语言聚类簇A与单语言聚类簇B的关键词重合度的计算公式如下:
其中,C为关键词重合度,a为单语言聚类簇A的关键词个数,b为单语言聚类簇B的关键词个数,s为单语言聚类簇A与单语言聚类簇B的关键词的重合个数。
(2)单语言聚类簇A与单语言聚类簇B的质心的余弦相似度的计算公式如下:
其中,cosθ为余弦相似度;s为单语言聚类簇A与单语言聚类簇B的关键词的重合个数;ai(i=1,2,···,s)表示单语言聚类簇A中与单语言聚类簇B的重合关键词对应的TextRank值;bi(i=1,2,···,s)表示单语言聚类簇B中与单语言聚类簇A的重合关键词对应的TextRank值。
本发明实施例所提供的一种多语言新闻文本聚类方法,通过将每一种语言的所有单语言聚类簇的关键词统一翻译为同一种语言的关键词,能够减少不同语言之间的处理差异,从而提高聚类效率,基于关键词重合度将最大关键词重合度大于预先设置的第二关键词重合度阈值且最大余弦相似度大于预先设置的第二余弦相似度阈值的单语言聚类簇进行合并,获得多语言新闻文本的跨语言聚类簇集合,实现了对报道相同事件的多语言新闻文本的跨语言聚类,同时实现了一种增量式聚类方法,便于对大规模的新闻文本进行动态聚类,具有简单、高效的特点。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的多语言新闻文本聚类方法。
本发明实施例还提供了一种终端设备,参见图4所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的多语言新闻文本聚类方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图4结构框图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的一种多语言新闻文本聚类方法、计算机可读存储介质及终端设备,无需获取多语言词典、主题词表以及平行语料等多语言资源就可以实现大规模的多语言新闻文本聚类,满足了对多语言新闻文本的网络舆情分析的需求,并且采用基于关键词重合度计算的聚类方法能够避免出现稀疏矩阵的情况,减少对内存空间的占用,从而提高了聚类速度和效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种多语言新闻文本聚类方法,其特征在于,包括:
预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征;
基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合;
根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合。
2.如权利要求1所述的多语言新闻文本聚类方法,其特征在于,所述预先获取多语言新闻文本中的每一篇单语言新闻文本的文本特征,具体包括:
预先根据TextRank算法分别获取所述多语言新闻文本中的每一篇所述单语言新闻文本的文本特征;其中,所述单语言新闻文本的文本特征包括预设个数的关键词以及每个关键词对应的TextRank值。
3.如权利要求2所述的多语言新闻文本聚类方法,其特征在于,所述基于关键词重合度根据每一篇所述单语言新闻文本的文本特征对所述单语言新闻文本进行聚类,对应获得每一种所述单语言新闻文本的单语言聚类簇集合,对于每一种所述单语言新闻文本,具体包括:
读取一篇所述单语言新闻文本;
当当前单语言聚类簇集合不为空集时,根据当前读取的所述单语言新闻文本的关键词分别计算当前读取的所述单语言新闻文本与所述当前单语言聚类簇集合中的每一个单语言聚类簇的质心的关键词重合度;其中,所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
当最大关键词重合度不小于预设的第一关键词重合度阈值时,根据当前读取的所述单语言新闻文本的每个关键词对应的TextRank值计算当前读取的所述单语言新闻文本与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;
当最大余弦相似度不小于预设的第一余弦相似度阈值时,将当前读取的所述单语言新闻文本加入与所述最大余弦相似度对应的单语言聚类簇中;
根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理。
4.如权利要求3所述的多语言新闻文本聚类方法,其特征在于,所述方法还包括:
当所述当前单语言聚类簇集合为空集时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
5.如权利要求3所述的多语言新闻文本聚类方法,其特征在于,所述方法还包括:
当所述最大关键词重合度小于所述第一关键词重合度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
6.如权利要求3所述的多语言新闻文本聚类方法,其特征在于,所述方法还包括:
当所述最大余弦相似度小于所述第一余弦相似度阈值时,新建一个单语言聚类簇;
将当前读取的所述单语言新闻文本的文本特征作为新建的单语言聚类簇的质心。
7.如权利要求3至6任一项所述的多语言新闻文本聚类方法,其特征在于,所述根据当前读取的所述单语言新闻文本的文本特征对当前读取的所述单语言新闻文本所加入的单语言聚类簇的质心进行更新处理,具体包括:
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词相同的关键词,将相同的关键词所对应的TextRank值进行求平均值处理;
对于当前读取的所述单语言新闻文本的关键词中与所述所加入的单语言聚类簇的关键词不相同的关键词,将不相同的关键词以及对应的TextRank值加入所述所加入的单语言聚类簇的质心中。
8.如权利要求2所述的多语言新闻文本聚类方法,其特征在于,所述根据每一种所述单语言新闻文本的单语言聚类簇集合获得所述多语言新闻文本的跨语言聚类簇集合,具体包括:
S1301、分别将每一种所述单语言新闻文本的单语言聚类簇集合中的单语言聚类簇的关键词翻译为预设的同一种语言的关键词;其中,所述关键词根据所述单语言聚类簇的质心获得;所述质心包括所述单语言聚类簇的关键词以及每个关键词对应的TextRank值;
S1302、读取一个单语言聚类簇;
S1303、根据当前读取的单语言聚类簇的关键词分别计算当前读取的单语言聚类簇与其他所有单语言聚类簇的质心的关键词重合度;
S1304、当最大关键词重合度大于预设的第二关键词重合度阈值时,根据当前读取的单语言聚类簇的每个关键词对应的TextRank值计算当前读取的单语言聚类簇与所述最大关键词重合度对应的单语言聚类簇的质心的余弦相似度;当所述最大关键词重合度不大于所述第二关键词重合度阈值时,返回S1302;
S1305、当最大余弦相似度大于预设的第二余弦相似度阈值时,将当前读取的单语言聚类簇与所述最大余弦相似度对应的单语言聚类簇进行合并;当所述最大余弦相似度不大于所述第二余弦相似度阈值时,返回S1302;以及,
S1306、当合并完所有的满足条件的单语言聚类簇时,获得所述多语言新闻文本的跨语言聚类簇集合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至8中任一项所述的多语言新闻文本聚类方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至8中任一项所述的多语言新闻文本聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810979185.3A CN109063184B (zh) | 2018-08-24 | 2018-08-24 | 多语言新闻文本聚类方法、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810979185.3A CN109063184B (zh) | 2018-08-24 | 2018-08-24 | 多语言新闻文本聚类方法、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063184A true CN109063184A (zh) | 2018-12-21 |
CN109063184B CN109063184B (zh) | 2020-09-01 |
Family
ID=64757164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810979185.3A Active CN109063184B (zh) | 2018-08-24 | 2018-08-24 | 多语言新闻文本聚类方法、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063184B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN112182206A (zh) * | 2020-09-01 | 2021-01-05 | 中国联合网络通信集团有限公司 | 文本聚类方法及装置 |
CN112732914A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市网联安瑞网络科技有限公司 | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 |
CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100096564A (ko) * | 2009-02-24 | 2010-09-02 | 전북대학교산학협력단 | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 |
CN102682000A (zh) * | 2011-03-09 | 2012-09-19 | 北京百度网讯科技有限公司 | 一种文本聚类方法以及采用该方法的问答系统和搜索引擎 |
CN104584005A (zh) * | 2012-08-22 | 2015-04-29 | 株式会社东芝 | 文档分类装置及文档分类方法 |
CN104620241A (zh) * | 2012-07-16 | 2015-05-13 | 谷歌公司 | 多语言文档聚类 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN107066537A (zh) * | 2017-03-06 | 2017-08-18 | 广州神马移动信息科技有限公司 | 热点新闻生成方法、设备、电子设备 |
-
2018
- 2018-08-24 CN CN201810979185.3A patent/CN109063184B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100096564A (ko) * | 2009-02-24 | 2010-09-02 | 전북대학교산학협력단 | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 |
CN102682000A (zh) * | 2011-03-09 | 2012-09-19 | 北京百度网讯科技有限公司 | 一种文本聚类方法以及采用该方法的问答系统和搜索引擎 |
CN104620241A (zh) * | 2012-07-16 | 2015-05-13 | 谷歌公司 | 多语言文档聚类 |
CN104584005A (zh) * | 2012-08-22 | 2015-04-29 | 株式会社东芝 | 文档分类装置及文档分类方法 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN107066537A (zh) * | 2017-03-06 | 2017-08-18 | 广州神马移动信息科技有限公司 | 热点新闻生成方法、设备、电子设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN109918660B (zh) * | 2019-03-04 | 2021-03-02 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN110990574A (zh) * | 2019-12-17 | 2020-04-10 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN110990574B (zh) * | 2019-12-17 | 2023-05-09 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN112182206A (zh) * | 2020-09-01 | 2021-01-05 | 中国联合网络通信集团有限公司 | 文本聚类方法及装置 |
CN112182206B (zh) * | 2020-09-01 | 2023-06-09 | 中国联合网络通信集团有限公司 | 文本聚类方法及装置 |
CN112732914A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市网联安瑞网络科技有限公司 | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 |
CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109063184B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
CN109063184A (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
US9047275B2 (en) | Methods and systems for alignment of parallel text corpora | |
US20130041652A1 (en) | Cross-language text clustering | |
WO2016127677A1 (zh) | 地址结构化方法及装置 | |
US10558756B2 (en) | Unsupervised information extraction dictionary creation | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
WO2019224629A1 (en) | Training data expansion for natural language classification | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
WO2021159656A1 (zh) | 多轮对话中语义补齐的方法、装置、设备及存储介质 | |
CN109657053A (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN108932218A (zh) | 一种实例扩展方法、装置、设备和介质 | |
WO2020149959A1 (en) | Conversion of natural language query | |
US10558747B2 (en) | Unsupervised information extraction dictionary creation | |
CN109902290A (zh) | 一种基于文本信息的术语提取方法、系统和设备 | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
Banerjee et al. | Generating abstractive summaries from meeting transcripts | |
WO2021098491A1 (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |