CN108829807A - 一种舆情归并方法、装置、服务器和存储介质 - Google Patents

一种舆情归并方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN108829807A
CN108829807A CN201810579917.XA CN201810579917A CN108829807A CN 108829807 A CN108829807 A CN 108829807A CN 201810579917 A CN201810579917 A CN 201810579917A CN 108829807 A CN108829807 A CN 108829807A
Authority
CN
China
Prior art keywords
public sentiment
vector
class cluster
current
undetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810579917.XA
Other languages
English (en)
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810579917.XA priority Critical patent/CN108829807A/zh
Publication of CN108829807A publication Critical patent/CN108829807A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种舆情归并方法、装置、服务器和存储介质。该方法包括:获取当前舆情文本;根据预设语言模型确定当前舆情文本对应的当前舆情向量;计算当前舆情向量与各舆情类簇的质心向量之间的相似度,其中各舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定;根据各相似度确定当前舆情文本对应的目标舆情类簇,并将当前舆情文本归并至目标舆情类簇。本发明实施例的技术方案,可以对当前收集的舆情进行自动归并,从而有效的进行舆情管理。

Description

一种舆情归并方法、装置、服务器和存储介质
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种舆情归并方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,越来越多的用户乐意通过微博、论坛、博客、新闻评论等网络渠道来发表自己对社会问题的一些看法和观点。通常,利用网络舆情可以了解到每个社会行业的发展情况,比如发展速度的直播行业,因此需要对网络舆情进行实时监控。
然而,由于日积月累的舆情数据越来越多,并且每天还会收集新的舆情数据,从而导致舆情数据量非常庞大并且也非常杂乱,所以需要对大量的舆情数据进行有效的管理。
发明内容
本发明实施例提供了一种舆情归并方法、装置、服务器和存储介质,以对当前收集的舆情进行自动归并,从而有效的进行舆情管理。
第一方面,本发明实施例提供了一种舆情归并方法,包括:
获取当前舆情文本;
根据预设语言模型确定所述当前舆情文本对应的当前舆情向量;
计算所述当前舆情向量与各舆情类簇的质心向量之间的相似度,其中所述各舆情类簇的质心向量根据所述预设语言模型和舆情样本集预先确定;
根据各所述相似度确定所述当前舆情文本对应的目标舆情类簇,并将所述当前舆情文本归并至所述目标舆情类簇。
第二方面,本发明实施例还提供了一种舆情归并装置,包括:
当前舆情文本获取模块,用于获取当前舆情文本;
当前舆情向量确定模块,用于根据预设语言模型确定所述当前舆情文本对应的当前舆情向量;
相似度计算模块,用于计算所述当前舆情向量与各舆情类簇的质心向量之间的相似度,其中所述各舆情类簇的质心向量根据所述预设语言模型和舆情样本集预先确定;
目标舆情类簇确定模块,用于根据各所述相似度确定所述当前舆情文本对应的目标舆情类簇,并将所述当前舆情文本归并至所述目标舆情类簇。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的舆情归并方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的舆情归并方法。
本发明实施例通过计算当前舆情向量与每个舆情类簇的质心向量之间的相似度,其中每个舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定;根据相似度确定当前舆情文本对应的目标舆情类簇,并将当前舆情文本自动归并至目标舆情类簇,从而对当前舆情进行快捷且有效的舆情管理,便于了解行业的发展情况。
附图说明
图1是本发明实施例一提供的一种舆情归并方法的流程图;
图2是本发明实施例二提供的一种舆情归并装置的结构示意图;
图3是本发明实施例三提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种舆情归并方法的流程图,本实施例可适用于对某一行业的大量舆情进行归并的情况,比如直播行业。该方法可以由舆情归并装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于信息处理服务器中。该方法具体包括以下步骤:
S110、获取当前舆情文本。
其中,舆情可以是指对于某一行业而言,关注度较高的一些新闻消息或者群众对某些现象和问题在网络上发表的看法和评论等。舆情文本可以包括但不限于新闻文本和评论文本等。当前舆情文本是指当前时刻获取的新的舆情文本。本实施例可以从网络中发布的舆情中爬取当前时刻与预设行业相关的新的舆情文本,从而获取当前舆情文本,其中预设行业可以为直播行业或其他行业。本实施例中的当前舆情文本的数量可以为一个,也可以为多个。若存在多个当前舆情文本,则对每个当前舆情文本均进行相同的归并操作。在归并操作过程中,将每个当前舆情文本均作为一个句子进行处理。
S120、根据预设语言模型确定当前舆情文本对应的当前舆情向量。
其中,预设语言模型可以是基于当前舆情文本中词语的上下文关系来确定当前舆情文本中各个词向量,并根据各个词向量确定当前舆情文本的当前舆情向量,从而可以准确反映出当前舆情文本的语义。预设语言模型可以为Skip-gram模型和CBOW(ContinuousBag-of-Words,连续词袋)模型,其中Skip-gram模型是根据当前词来预测当前词的上下文词汇;CBOW模型是根据当前词的上下文词汇来预测当前词。优选的,本实施例中使用的预设语言模型为Skip-gram模型。
可选的,S120包括:对当前舆情文本进行分词处理,确定当前舆情文本中的各个有效词,并根据预设语言模型确定各个有效词的词向量;根据各个有效词的词向量确定当前舆情文本对应的当前舆情向量。
其中,分词处理可以包括但不限于中文分词、识别专有名词以及去停用词。通过对当前舆情文本进行分词处理,剔除没有语义的停用词,比如:“啊”、“吧”等,确定当前舆情文本中的所有有效词,并将每个有效词输入至预设语言模型中,根据预设语言模块的输出结果确定每个有效词的词向量。本实施例可以通过预设语言模型,将每个有效词映射到一个n维的词向量,从而有效克服了自然语言处理中维数灾难的问题。本实施例中的词向量维数n可以根据实际情况预先确定。示例性的,词向量维数n可以为100。
本实施例可以基于avg pooling方式来确定当前舆情文本对应的当前舆情向量,也可以基于max pooling方式来确定当前舆情文本对应的当前舆情向量。对于max pooling方式,可以在当前舆情文本中所有有效词的词向量中,将同一位元素对应的最大元素值确定为当前舆情向量中该位元素对应的元素值。对于avg pooling方式,可以利用如下公式来确定当前舆情文本对应的当前舆情向量:
其中,dk是当前舆情文本对应的当前舆情向量中第k位元素的对应的元素值;Wd是当前舆情文本中所有有效词的词向量w的集合;wk是有效词的词向量w中第k位元素的对应的元素值;|Wd|是当前舆情文本中有效词的数量。也就是说,首先将各个词向量中同一位元素的元素值进行求和,将求和之后得到的向量中每位元素的元素值除以词向量的数量得到每位元素的平均值。将平均之后的向量确定为该当前舆情文本对应的当前舆情向量。若存在多个当前舆情文本,则利用相同的方法,获取每个当前舆情文本对应的当前舆情向量。
可选的,在使用预设语言模型之前,还包括:
创建基于Word2vec的预设语言模型,并获取多个舆情训练文本;对各舆情训练文本进行分词处理,并根据分词结果训练预设语言模型。
其中,本实施例可以利用Word2vec算法来创建并训练预设语言模型。舆情训练文本可以是从微博、社区、论坛贴吧等网页途径中爬取与预设行业相关的已有舆情文本。分词处理可以包括但不限于中文分词、识别专有名词以及去停用词。通过对每个舆情训练文本进行分词处理,剔除没有语义的停用词,确定舆情训练文本中的所有有效词。本实施例可以根据每个训练文本中各有效词以及该有效词的上下文词汇计算预设语言模型的目标函数,当目标函数的最大值不变时,预设语言模型训练完成。
S130、计算当前舆情向量与各舆情类簇的质心向量之间的相似度,其中各舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定。
其中,舆情样本集是与预设行业相关的已有舆情文本的集合。本实施例可以预先从微博、社区、论坛贴吧等网页途径中爬取与预设行业相关的已有舆情文本,从而将每个已用舆情文本作为舆情样本生成舆情样本集。本实施例需要预先根据预设语言模型,对舆情样本集中的所有舆情样本进行分类,确定预设数量的舆情类簇以及每个舆情类簇的质心向量,其中每个舆情类簇中包括的舆情样本均具有相同或相似的语义。每个舆情类簇的质心向量是指可以作为该舆情类簇中所有舆情样本对应的舆情样本向量的代表向量。本实施例可以采用余弦距离的方式来计算当前舆情向量与每个舆情类簇的质心向量之间的相似度,从而可以反映当前舆情向量与每个质心向量之间的语义相似度,以便准确的确定当前舆情向量对应的舆情类簇。
可选的,各舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定,包括:根据预设语言模型确定舆情样本集中的各舆情样本对应的舆情样本向量;根据各舆情样本向量两两之间的相似度,确定预设数量的舆情类簇和各舆情类簇的质心向量。
其中,根据预设语言模型确定舆情样本集中每个舆情样本对应的舆情样本向量,并计算两两舆情样本向量之间的相似度,根据相似度对所有舆情样本进行聚类,从而确定每个舆情类簇中包含的舆情样本。根据某一舆情类簇中包含的所有舆情样本来确定该舆情类簇的质心向量。本实施例可以通过统计所有舆情样本中出现的词语频次,根据出现频次较多的词语并结合业务经验来确定舆情类簇的预设数量。可选的,本实施例中舆情类簇的预设数量可以设置为20。
可选的,根据各舆情样本向量两两之间的相似度,确定预设数量的舆情类簇和各舆情类簇的质心向量,包括:
于舆情样本集中,随机选取预设数量的舆情样本对应的舆情样本向量,并将选取的各舆情样本向量确定为各待定舆情类簇的待定质心向量;根据未选取的各舆情样本对应的舆情样本向量与各待定质心向量之间的相似度,确定未选取的各舆情样本对应的待定舆情类簇,并进行初次归并;根据上次归并后的各待定舆情类簇中各舆情样本对应的舆情样本向量,更新各待定舆情类簇的待定质心向量,并根据更新后的待定质心向量,对舆情样本集中的各舆情样本进行当次归并;检验当次归并后的各待定舆情类簇中的舆情样本与上次归并后的各待定舆情类簇中的舆情样本是否均相同,若否,则根据当次归并后的各待定舆情类簇更新各待定质心向量,并根据更新后的待定质心向量,对舆情样本集中的各舆情样本进行下次归并;若是,则将当前各待定舆情类簇的待定质心向量确定为各舆情类簇的质心向量。
其中,本实施例可以利用kmeans聚类算法来确定每个舆情类簇的质心向量。首先将随机选取的预设数量的舆情样本逐个确定为预设数量的待定舆情类簇,此时每个待定舆情类簇中只包括一个舆情样本,并将任一待定舆情类簇中唯一的舆情样本对应的舆情样本向量确定为该待定舆情类簇的待定质心向量。然后,计算每个未被选取的舆情样本对应的舆情样本向量与每个待定质心向量之间的相似度,并将未被选取的任一舆情样本归并至与该舆情样本相似度最大的待定质心向量对应的待定舆情类簇中,从而实现初次归并。当进行第二次归并时,此时当次归并对应的是第二次归并,上次归并对应的是初次归并。根据初次归并后的每个待定舆情类簇更新每个待定质心向量,并根据更新后的待定质心向量,重新对舆情样本集中的所有舆情样本进行第二次归并,即计算每个舆情样本与更新后的待定质心向量之间的相似度,将舆情样本归并至与该舆情样本的相似度最大的待定质心向量对应的待定舆情类簇中。然后检测第二次归并后的每个待定舆情类簇中的舆情样本是否与初次归并后得到的待定舆情类簇中的舆情样本是否完全相同,即两次归并得到的待定舆情类簇是否完全相同,若否,则表示待定舆情类簇的待定质心向量并不能作为该待定舆情类簇的代表向量,此时需要根据第二次归并后的待定舆情类簇再次更新待定质心向量,并根据再次更新的待定质心向量,对舆情样本集中的所有舆情样本进行第三次归并,直到在当次归并与上次归并后得到的待定舆情类簇中的舆情样本完全相同时停止归并。当检测到当次归并后的每个待定舆情类簇中的舆情样本与初次归并后得到的待定舆情类簇中的舆情样本完全相同时,表示当前的待定舆情类簇的待定质心向量不再变化,即可以准确的反映出该待定舆情类簇的中心语义,从而可以将当前的待定舆情类簇的待定质心向量确定为舆情类簇的质心向量。
可选的,根据上次归并后的各待定舆情类簇中各舆情样本对应的舆情样本向量,更新各待定舆情类簇的待定质心向量,包括:
将上次归并后的待定舆情类簇中各舆情样本对应的舆情样本向量进行按位求和;根据待定舆情类簇中舆情样本的数量对求和结果取平均值,确定待定舆情类簇的当前质心向量,并将待定舆情类簇的待定质心向量更新为当前质心向量。
其中,对于每个待定舆情类簇而言,将每个舆情样本对应的舆情样本向量进行按位求和,即将每个舆情样本向量中同一位元素对应的元素值进行求和,并将求和之后的向量中的每位元素对应的元素值除以舆情样本的数量得到每位元素的平均值,将平均之后的向量确定为当前质心向量。将当前质心向量替换上次归并时依据的待定质心向量,从而对待定舆情类簇的待定质心向量进行更新。
可选的,S130,包括:
根据如下公式计算当前舆情向量与舆情类簇的质心向量之间的相似度:
其中,sij是当前舆情向量(wi1,wi2,...,win)与任意一个舆情类簇的质心向量(wj1,wj2,...,wjn)之间的相似度,n是向量维度。
本实施例可以采用余弦距离的方式,通过上述公式来计算当前舆情向量与每个质心向量之间的相似度,从而可以度量当前舆情向量与每个质心向量之间的语义相似度。
S140、根据各相似度确定当前舆情文本对应的目标舆情类簇,并将当前舆情文本归并至目标舆情类簇。
其中,本实施例可以将当前舆情向量与每个质心向量之间的相似度从高到低排序,确定与当前舆情向量相似度最高的质心向量。将相似度最高的质心向量对应的舆情类簇确定为当前舆情文本对应的目标舆情类簇,并将当前舆情文本归并至目标舆情类簇中,从而对当前收集的新的舆情文本进行了自动归并和有效管理,同时根据自动归并后的舆情类簇也更加便于了解行业的发展情况。
本实施例的技术方案,通过计算当前舆情向量与每个舆情类簇的质心向量之间的相似度,其中每个舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定;根据相似度确定当前舆情文本对应的目标舆情类簇,并将当前舆情文本自动归并至目标舆情类簇,从而对当前舆情进行快捷且有效的舆情管理,便于了解行业的发展情况。
实施例二
图2为本发明实施例二提供的一种舆情归并装置的结构示意图,本实施例可适用于对某一行业的大量舆情进行归并的情况,该装置包括:当前舆情文本获取模块210、当前舆情向量确定模块220、相似度计算模块230和目标舆情类簇确定模块240。
其中,当前舆情文本获取模块210,用于获取当前舆情文本;当前舆情向量确定模块220,用于根据预设语言模型确定当前舆情文本对应的当前舆情向量;相似度计算模块230,用于计算当前舆情向量与各舆情类簇的质心向量之间的相似度,其中各舆情类簇的质心向量根据预设语言模型和舆情样本集预先确定;目标舆情类簇确定模块240,用于根据各相似度确定当前舆情文本对应的目标舆情类簇,并将当前舆情文本归并至目标舆情类簇。
可选的,该装置还包括:
舆情样本向量确定模块,用于在获取当前舆情文本之前,根据预设语言模型确定舆情样本集中的各舆情样本对应的舆情样本向量;
质心向量确定模块,用于根据各舆情样本向量两两之间的相似度,确定预设数量的舆情类簇和各舆情类簇的质心向量。
可选的,质心向量确定模块,具体用于:
于舆情样本集中,随机选取预设数量的舆情样本对应的舆情样本向量,并将选取的各舆情样本向量确定为各待定舆情类簇的待定质心向量;
根据未选取的各舆情样本对应的舆情样本向量与各待定质心向量之间的相似度,确定未选取的各舆情样本对应的待定舆情类簇,并进行初次归并;
根据上次归并后的各待定舆情类簇中各舆情样本对应的舆情样本向量,更新各待定舆情类簇的待定质心向量,并根据更新后的待定质心向量,对舆情样本集中的各舆情样本进行当次归并;
检验当次归并后的各待定舆情类簇中的舆情样本与上次归并后的各待定舆情类簇中的舆情样本是否均相同,若否,则根据当次归并后的各待定舆情类簇更新各待定质心向量,并根据更新后的待定质心向量,对舆情样本集中的各舆情样本进行下次归并;若是,则将当前各待定舆情类簇的待定质心向量确定为各舆情类簇的质心向量。
可选的,质心向量确定模块,还用于:
将上次归并后的待定舆情类簇中各舆情样本对应的舆情样本向量进行按位求和;根据待定舆情类簇中舆情样本的数量对求和结果取平均值,确定待定舆情类簇的当前质心向量,并将待定舆情类簇的待定质心向量更新为当前质心向量。
可选的,相似度计算模块230,具体用于:
根据如下公式计算当前舆情向量与舆情类簇的质心向量之间的相似度:
其中,sij是当前舆情向量(wi1,wi2,...,win)与任意一个舆情类簇的质心向量(wj1,wj2,...,wjn)之间的相似度,n是向量维度。
可选的,当前舆情向量确定模块220,具体用于:
对当前舆情文本进行分词处理,确定当前舆情文本中的各个有效词,并根据预设语言模型确定各个有效词的词向量;
根据各个有效词的词向量确定当前舆情文本对应的当前舆情向量。
可选的,该装置还包括:
预设语言模型创建模块,用于在使用预设语言模型之前,创建基于Word2vec的预设语言模型,并获取多个舆情训练文本;
预设语言模型训练模块,用于对各舆情训练文本进行分词处理,并根据分词结果训练预设语言模型。
上述舆情归并装置可执行本发明任意实施例所提供的舆情归并方法,具备执行舆情归并方法相应的功能模块和有益效果。
实施例三
图3是本发明实施例三提供的一种服务器的结构示意图。参见图3,该服务器包括:
一个或多个处理器310;
存储器320,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器310执行,使得一个或多个处理器310实现如上述实施例中任意实施例提出的舆情归并方法。
图3中以一个处理器310为例;服务器中的处理器310和存储器320可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的舆情归并方法对应的程序指令/模块(例如,舆情归并装置中当前舆情文本获取模块210、当前舆情向量确定模块220、相似度计算模块230和目标舆情类簇确定模块240)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的舆情归并方法。
存储器320主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的服务器与上述实施例提出的舆情归并方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行舆情归并方法相同的有益效果。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的舆情归并方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种舆情归并方法,其特征在于,包括:
获取当前舆情文本;
根据预设语言模型确定所述当前舆情文本对应的当前舆情向量;
计算所述当前舆情向量与各舆情类簇的质心向量之间的相似度,其中所述各舆情类簇的质心向量根据所述预设语言模型和舆情样本集预先确定;
根据各所述相似度确定所述当前舆情文本对应的目标舆情类簇,并将所述当前舆情文本归并至所述目标舆情类簇。
2.根据权利要求1所述的方法,其特征在于,所述各舆情类簇的质心向量根据所述预设语言模型和舆情样本集预先确定,包括:
根据所述预设语言模型确定所述舆情样本集中的各舆情样本对应的舆情样本向量;
根据各所述舆情样本向量两两之间的相似度,确定预设数量的舆情类簇和各所述舆情类簇的质心向量。
3.根据权利要求2所述的方法,其特征在于,根据各所述舆情样本向量两两之间的相似度,确定预设数量的舆情类簇和各所述舆情类簇的质心向量,包括:
于所述舆情样本集中,随机选取预设数量的舆情样本对应的舆情样本向量,并将选取的各舆情样本向量确定为各待定舆情类簇的待定质心向量;
根据未选取的各舆情样本对应的舆情样本向量与各所述待定质心向量之间的相似度,确定所述未选取的各舆情样本对应的待定舆情类簇,并进行初次归并;
根据上次归并后的各待定舆情类簇中各舆情样本对应的舆情样本向量,更新各待定舆情类簇的待定质心向量,并根据更新后的待定质心向量,对所述舆情样本集中的各舆情样本进行当次归并;
检验当次归并后的各待定舆情类簇中的舆情样本与上次归并后的各待定舆情类簇中的舆情样本是否均相同,若否,则根据当次归并后的各待定舆情类簇更新各待定质心向量,并根据更新后的待定质心向量,对所述舆情样本集中的各舆情样本进行下次归并;若是,则将当前各待定舆情类簇的待定质心向量确定为各所述舆情类簇的质心向量。
4.根据权利要求3所述的方法,其特征在于,根据上次归并后的各待定舆情类簇中各舆情样本对应的舆情样本向量,更新各待定舆情类簇的待定质心向量,包括:
将上次归并后的待定舆情类簇中各舆情样本对应的舆情样本向量进行按位求和;
根据所述待定舆情类簇中舆情样本的数量对求和结果取平均值,确定所述待定舆情类簇的当前质心向量,并将所述待定舆情类簇的待定质心向量更新为当前质心向量。
5.根据权利要求1所述的方法,其特征在于,计算所述当前舆情向量与各舆情类簇的质心向量之间的相似度,包括:
根据如下公式计算所述当前舆情向量与舆情类簇的质心向量之间的相似度:
其中,sij是当前舆情向量(wi1,wi2,...,win)与任意一个舆情类簇的质心向量(wj1,wj2,...,wjn)之间的相似度,n是向量维度。
6.根据权利要求1所述的方法,其特征在于,根据预设语言模型确定所述当前舆情文本对应的当前舆情向量,包括:
对所述当前舆情文本进行分词处理,确定所述当前舆情文本中的各个有效词,并根据预设语言模型确定各个所述有效词的词向量;
根据各个有效词的词向量确定所述当前舆情文本对应的当前舆情向量。
7.根据权利要求1-6任一所述的方法,其特征在于,在使用所述预设语言模型之前,还包括:
创建基于Word2vec的预设语言模型,并获取多个舆情训练文本;
对各所述舆情训练文本进行分词处理,并根据分词结果训练所述预设语言模型。
8.一种舆情归并装置,其特征在于,包括:
当前舆情文本获取模块,用于获取当前舆情文本;
当前舆情向量确定模块,用于根据预设语言模型确定所述当前舆情文本对应的当前舆情向量;
相似度计算模块,用于计算所述当前舆情向量与各舆情类簇的质心向量之间的相似度,其中所述各舆情类簇的质心向量根据所述预设语言模型和舆情样本集预先确定;
目标舆情类簇确定模块,用于根据各所述相似度确定所述当前舆情文本对应的目标舆情类簇,并将所述当前舆情文本归并至所述目标舆情类簇。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的舆情归并方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的舆情归并方法。
CN201810579917.XA 2018-06-07 2018-06-07 一种舆情归并方法、装置、服务器和存储介质 Pending CN108829807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810579917.XA CN108829807A (zh) 2018-06-07 2018-06-07 一种舆情归并方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810579917.XA CN108829807A (zh) 2018-06-07 2018-06-07 一种舆情归并方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN108829807A true CN108829807A (zh) 2018-11-16

Family

ID=64143372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810579917.XA Pending CN108829807A (zh) 2018-06-07 2018-06-07 一种舆情归并方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN108829807A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN110347830A (zh) * 2019-06-28 2019-10-18 阿里巴巴集团控股有限公司 舆情预警的实现方法和装置
CN112487188A (zh) * 2020-12-03 2021-03-12 中邮信息科技(北京)有限公司 一种舆情监测方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218419A (zh) * 2013-03-29 2013-07-24 新浪网技术(中国)有限公司 网络标签聚类方法和系统
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN105243388A (zh) * 2015-09-09 2016-01-13 电子科技大学 基于动态时间规整和划分算法的波形分类方法
CN105320968A (zh) * 2015-11-19 2016-02-10 电子科技大学 一种质心分类器的改进方法
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218419A (zh) * 2013-03-29 2013-07-24 新浪网技术(中国)有限公司 网络标签聚类方法和系统
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN105243388A (zh) * 2015-09-09 2016-01-13 电子科技大学 基于动态时间规整和划分算法的波形分类方法
CN105320968A (zh) * 2015-11-19 2016-02-10 电子科技大学 一种质心分类器的改进方法
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
绍洛姆·韦斯等: "《预测性文本挖掘基础》", 31 October 2012 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN110347830A (zh) * 2019-06-28 2019-10-18 阿里巴巴集团控股有限公司 舆情预警的实现方法和装置
CN110347830B (zh) * 2019-06-28 2023-09-05 创新先进技术有限公司 舆情预警的实现方法和装置
CN112487188A (zh) * 2020-12-03 2021-03-12 中邮信息科技(北京)有限公司 一种舆情监测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Chisholm et al. Entity disambiguation with web links
US9984427B2 (en) Data ingestion module for event detection and increased situational awareness
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
US10574601B2 (en) Managing and displaying online messages along timelines
US20170177623A1 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
CN108829807A (zh) 一种舆情归并方法、装置、服务器和存储介质
CN103218412A (zh) 舆情信息处理方法与装置
CN112115698A (zh) 用于生成主题模型的技术
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
US10699078B2 (en) Comment-centered news reader
US11211050B2 (en) Structured conversation enhancement
CN110309293A (zh) 文本推荐方法和装置
WO2015084756A1 (en) Event detection through text analysis using trained event template models
CN117131281B (zh) 舆情事件处理方法、装置、电子设备和计算机可读介质
CN105095228A (zh) 一种社交消息的监测方法及装置
Park et al. Future Information Technology: 6th International Conference on Future Information Technology, FutureTech 2011, Crete, Greece, June 28-30, 2011. Proceedings
CN111143454B (zh) 一种文本输出方法、装置及可读存储介质
CN111443973B (zh) 备注信息的填入方法、装置、设备及存储介质
KR102135075B1 (ko) 뉴스 작성 지침 및 방송 보도 지침 기반의 인스턴트 메시지의 구문 분석을 통한 가짜 뉴스 알림 서비스 제공 방법 및 장치
US20230353648A1 (en) Data tracking for data owners
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116