CN113032566B

CN113032566B - 一种舆情聚类方法、装置以及设备

Info

Publication number: CN113032566B
Application number: CN202110318186.5A
Authority: CN
Inventors: 康光梁; 都金涛; 祝慧佳; 应亦丰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2023-02-24
Anticipated expiration: 2041-03-25
Also published as: CN113032566A

Abstract

本说明书实施例公开了一种舆情聚类方法、装置以及设备。方案包括：对待聚类舆情文本进行分句，得到多个分句片段，并确定分句片段的分句指纹；根据分句指纹，在历史舆情分句指纹库中进行匹配；根据匹配的结果，在历史舆情库中进行模糊搜索，得到与待聚类舆情文本具有相同分句片段的候选历史舆情集合；通过将待聚类舆情文本在候选历史舆情集合中进行相似性比较，从候选历史舆情集合中筛选出相似的历史舆情；根据相似的历史舆情所属的聚类组，对待聚类舆情文本进行中心漂移校验；若中心漂移校验通过，则将待聚类舆情文本加入聚类组中。

Description

一种舆情聚类方法、装置以及设备

技术领域

本说明书涉及风险控制技术领域，尤其涉及一种舆情聚类方法、装置以及设备。

背景技术

互联网提高了人们获取信息的便捷性，但是，对于一些负面的信息，也提高其传播速度，容易损害个人或者团体的利益。以公司这样的团体为例，需要关注自己在外的舆情，尤其是具有负面影响的风险舆情，需要进行及时的响应和得当的应对处理。

在实际应用中，同一个风险舆情往往会经过洗稿、改写后跨平台转发、转载生成大量的同事件舆情，此外无风险的舆情也有大量的相似文稿(比如，法院判决书、警方通稿等)，这些舆情如果逐条由工作人员处理，会带来大量无意义的工作量，也会浪费公司资源。

在现有技术中，往往基于距离或者密度进行舆情聚类，或者基于关键词抽取进行舆情聚类。

基于此，为了提高对舆情的响应和应对效率，需要更为高效的舆情处理方案。

发明内容

本说明书一个或多个实施例提供舆情聚类方法、装置、设备以及存储介质，用以解决如下技术问题：了提高对舆情的响应和应对效率，需要更为高效的舆情处理方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种舆情聚类方法，包括：

对待聚类舆情文本进行分句，得到多个分句片段，并确定所述分句片段的分句指纹；

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

根据所述匹配的结果，在历史舆情库中进行模糊搜索，得到与所述待聚类舆情文本具有相同分句片段的候选历史舆情集合；

通过将所述待聚类舆情文本在所述候选历史舆情集合中进行相似性比较，从所述候选历史舆情集合中筛选出相似的历史舆情；

根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验；

若所述中心漂移校验通过，则将所述待聚类舆情文本加入所述聚类组中。

本说明书一个或多个实施例提供的一种舆情聚类装置，包括：

分句指纹获取模块，对待聚类舆情文本进行分句，得到多个分句片段，并确定所述分句片段的分句指纹；

分句指纹匹配模块，根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

舆情模糊搜索模块，根据所述匹配的结果，在历史舆情库中进行模糊搜索，得到与所述待聚类舆情文本具有相同分句片段的候选历史舆情集合；

舆情精细筛选模块，通过将所述待聚类舆情文本在所述候选历史舆情集合中进行相似性比较，从所述候选历史舆情集合中筛选出相似的历史舆情；

中心漂移校验模块，根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验；

聚类结果确定模块，若所述中心漂移校验通过，则将所述待聚类舆情文本加入所述聚类组中。

本说明书一个或多个实施例提供的一种舆情聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：通过分句粒度的指纹匹配聚类，能够快速召回与当前舆情重复分句占比高的相似历史舆情，提高舆情聚类的类别纯度和效率，有助于快速高效地响应和应对舆情；不仅如此，还可以结合相似性算法或者预测算法，对初步的召回结果进一步提纯，保证高相似舆情的高优先级分组；另外，通过中心漂移校验的步骤，有助于防止新的部分有偏样本的进入以及平均化带偏聚类组的中心含义。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种同事件的多种不同舆情文本示意图；

图2为本说明书一个或多个实施例提供的一种舆情聚类方法的流程示意图；

图3为本说明书一个或多个实施例提供的一种应用场景下，图2中方法的框架原理示意图；

图4为本说明书一个或多个实施例提供的一种应用场景下，图2中方法的部分详细流程示意图；

图5为本说明书一个或多个实施例提供的一种舆情聚类装置的结构示意图；

图6为本说明书一个或多个实施例提供的一种舆情聚类设备的结构示意图。

具体实施方式

本说明书实施例提供舆情聚类方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在实际应用中，舆情虽然可能被不同主体改写，但是，这些主体通常还是想保留舆情原义，因此对其中比较关键的一部分内容往往会保留原样，而在一些相对不重要的地方自由发挥。直观地，参见图1，图1为本说明书一个或多个实施例提供的一种同事件的多种不同舆情文本示意图。该事件是一个新闻事件，舆情文本为新闻文本，经2个网站洗稿、改写后转发，深色字体部分是这些网站洗稿改写出的不同内容。浅色字体部分为未洗稿改写处的句子，这部分内容是这些新闻文本实质上描述了同一个新闻事件的重要依据。基于此，本说明书的方案中会匹配舆情文本中这种内容并据此进行聚类。

目前的一些舆情处理方案存在问题。比如，对于基于距离或者密度进行舆情聚类的方案，在更新聚类中心点时都会做一步操作，基于某个阈值范围计算样本平均距离获取新的聚类中心，但是，文本转向量之后每一步计算的微小偏差在更新次数累积后都会产生聚类中心的漂移，也就是说每一个聚类组会随着新样本的不断进入、平均化，导致中心含义的改变，相应的类别纯度指标降低。再比如，对于基于关键词抽取进行舆情聚类的方案，多数使用序列预测的文本模型将文本简化为几个关键词组合，当抽取的关键词个数较多时，聚类的组数会变少，也就是相似文本的聚拢度较差，下游人工审核的量级也会相应增大，而当抽取的关键词个数较少时，聚类的准确率会降低，同样相应的类别纯度指标也会降低。本说明书的方案致力于解决这些问题。

在本说明书一个或多个实施例中，按分句片度粒度保存索引，后续的搜索召回基于分句指纹匹配，能够很好地抓取不同新闻经洗搞改写后仍保留部分关键分句片段的特征，并且，分句粒度的指纹匹配准确度会显著高于关键词粒度，不同舆情可能经过模型抽取到相同的关键词组，但是抽取到重复分句片段的程度则不会很高，因此分句粒度指纹匹配能很好地保证聚类的类别纯度。

在本说明书一个或多个实施例中，对于候选历史舆情，结合文本相似度和监督学习等方式进行精选，保证高相似舆情的高优先级分组，有效地提升了高可能性组的聚拢效果，下游人工审核的舆情量级显著减少，并且，在通过精选获取一个或者多个高可能性组内舆情后，通过针对组内舆情的进行中心漂移校验可以有效地解决中心漂移问题，每一个新舆情加入组内，均满足与组内其余所有舆情相似度足够高的要求，保证聚类组随着新样本的不断进入、平均化，而中心含义不会改变，相应的类别纯度指标得到提升。

下面基于这样的思路，具体进行说明。

图2为本说明书一个或多个实施例提供的一种舆情聚类方法的流程示意图。执行主体比如包括业务方的风控服务器、政府的监管设备等，涉及的业务领域可以是多样的，比如，电子支付领域、电商领域、即时通讯领域、电子游戏领域、新闻门户网站领域等，具体的业务领域并不影响方案的实施。

图2中的流程可以包括以下步骤：

S202：对待聚类舆情文本进行分句，得到多个分句片段，并确定所述分句片段的分句指纹。

在本说明书一个或多个实施例中，一些舆情文本已经完成了聚类，得到了一个或者多个聚类组，待聚类舆情文本是新增的一个舆情文本，通过该流程，将待聚类舆情文本加入已有的一个聚类组中，或者加入新建的一个聚类组中。

在本说明书一个或多个实施例中，分句操作可以以句号、问号、省略号或者感叹号等标签符号进行划分，在这种情况下，划分出的单个分句片段是一个完整句子；当然，分句操作还可以进行更细粒度的划分，比如，以逗号进行划分，在这种情况下，划分出的单个分句片段是一个完整句子的一部分；分句操作还可以以顿号、括号、引号、书名号进行划分。在多数情况下，分句操作的划分粒度大于分词操作，小于分段操作，单个分句片段通常包含多个词。

例如，参见图1，在分句时，若以逗号和顿号进行划分，则对于浅色内容中的三部分内容可以分别划分成为一个分句片段。则这2个舆情文本中至少有这三个分句片段是完全相同的，对应的分句指纹也能够完全匹配成功。

除了依据标点符号划分以外，分句操作还有别的划分方式。比如，通过识别舆情文本的结构或者语义，摘选关键部分进行划分，而去除一些非关键部分。以结构为例，比如，将主要表达语义的主谓宾语(或者主谓语、谓宾语等)划分出来并单独组合，作为分句片段，而去掉相应的定语、状语、补语等，如此，有助于识别出更多的洗稿改写结果，减少遗漏提高容错性。

在本说明书一个或多个实施例中，分句指纹唯一标识了对应的分句片段，可以作为该分句的身份。其比如是分句片段的摘要结果(如MD5值)、或者为该摘要结果重新生成的唯一标识等。

S204：根据所述分句指纹，在历史舆情分句指纹库中进行匹配。

历史舆情分句指纹库用于记录历史舆情的分句片段的分句指纹。若历史舆情分句指纹库此时尚为空，比如，待聚类舆情文本是参与本方案聚类的第一个舆情文本，尚也不存在聚类组，则可以直接将待聚类舆情文本的分句指纹存入历史舆情分句指纹库，并新建聚类组，将待聚类舆情文本加入该聚类组中。

在本说明书一个或多个实施例中，历史舆情已经聚类完毕，若有需要，可以检索确定历史舆情与其所属的聚类组之间的对应关系，还可以确定历史舆情与其分句片段、分句指纹之间的对应关系。

在实际应用中，由于可以直接匹配分句指纹，则为节省存储空间，在保存了历史舆情的分句指纹的情况下，也可以考虑不保存对应的分句片段。

在本说明书一个或多个实施例中，将分句指纹在历史舆情分句指纹库中进行匹配，若库中存在与该分句指纹相同的指纹，则认为与该指纹匹配成功，同时，认为这两个指纹对应的分句片段也是相同的，下面的一些实施例主要以这种情况为例说明。

需要说明的是，若指纹之间的相似性能够体现对应分句片段的相似性(比如，指纹为分句片段的同态加密结果，或者为分句片段本身，而指纹为分句片段的摘要则不属于这种情况)，则在匹配指纹的时候可以进行模糊匹配，如此，有助于命中更多的洗稿舆情。

S206：根据所述匹配的结果，在历史舆情库中进行模糊搜索，得到与所述待聚类舆情文本具有相同分句片段的候选历史舆情集合。

在本说明书一个或多个实施例中，若匹配成功，则在历史舆情库中进行模糊搜索，否则，可以认为目前尚无待聚类舆情文本所属的聚类组。

确定匹配成功或者失败的条件可以预先定义，比如，定义第一预定指标(如至少有一个分句指纹在历史舆情分句指纹库中匹配到了相同的指纹，或者有多个分句指纹在历史舆情分句指纹库中匹配到了相似的指纹，等等)，达到该指标则任务任务匹配成功。进一步以匹配成功为前提继续说明。

若匹配成功，则说明待聚类舆情文本中的至少部分分句片段，与历史舆情库中的部分历史舆情的对应分句片段相同，但是，待聚类舆情文本未必与这些历史舆情相同，因此，通过模糊搜索将这些历史舆情搜索出来。

在本说明书一个或多个实施例中，在模糊搜索时，对待聚类舆情文本中指纹匹配成功的分句片段或者其他分句片段，在历史舆情库中模糊搜索。比如，对于上一段，若设定的条件是需要有超过2个以上的分句片段相同，假定某历史舆情只有一个分句片段与待聚类舆情文本，则可以用待聚类舆情文本的其他分句片段在该历史舆情中进行模糊搜索，若搜索命中，则可以考虑不过滤掉该历史舆情，这种处理方式有助于防止误过滤，提高了容错性。

S208：通过将所述待聚类舆情文本在所述候选历史舆情集合中进行相似性比较，从所述候选历史舆情集合中筛选出相似的历史舆情。

在本说明书一个或多个实施例中，通过执行步骤S206，对历史舆情进行了粗选，得到候选历史舆情集合，通过执行步骤S208中从粗选候选历史舆情集进一步地精选。在精选过程中至少进行了相似性比较，还可以进行聚类预测、关键语义匹配、相关辅助信息(比如，舆情来源、历史洗稿特征、舆情出现时间、转发关系、引用关系等)匹配等。

在本说明书一个或多个实施例中，会根据上一段中的处理，对候选历史舆情集合中的至少部分历史舆情进行排序，得到的排序顺序能够较为直接地反映与待聚类舆情文本同属于一个聚类组的可能性。由于该排序是基于精选过程的，因此也可以将其称为精排。

S210：根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验。

在本说明书一个或多个实施例中，一个聚类组中可能已有多个历史舆情，待聚类舆情文本可能基于相似性命中其中一个历史舆情，从而具有了应加入该聚类组的可能性。但是，前面已经提到，在实际应用中，聚类组随着新样本的进入容易导致聚类中心的漂移，本方案中针对这个问题通过中心漂移校验解决，该中心漂移校验实质上是校验倘若待聚类舆情文本加入该聚类组，会不会导致该聚类组的聚类中心漂移，或者导致该聚类中心漂移的程度。

在本说明书一个或多个实施例中，将待聚类舆情文本，与相似的历史舆情所属的聚类组中的多个历史舆情(比如，每个历史舆情)分别进行相似性比较，若相似性均超过设定阈值，则确定中心漂移校验通过。

再比如，还可以与该聚类组中的历史舆情比较不相同的内容(可能是改写内容，则实质上可能仍然比较相似，而若是不同的舆情事件，则相似的可能性较低)之间的相似性，若相似性超过设定阈值，则确定中心漂移校验通过。

在中心漂移校验通过的情况下，认为待聚类舆情文本的加入，使得聚类组的中心变化在容忍范围内。通过前面的匹配和模糊搜索，再结合对各待聚类舆情文本的中心漂移校验，使得待聚类舆情文本被更精准地加入对于它而言粒度大小合适的聚类组里。这种加入标准更严格，目的是哪怕是使得待聚类舆情文本自成一个新组，也不宽松地允许将待聚类舆情文本加入一个其可能带偏聚类中心的相似组中，而之所以采用这么严格的标准，真是因为该方案是在舆情处理场景下(而不是其他一些更泛泛的文本处理场景)，在该场景下，对舆情的错误处理极有可能导致严重的公关失误事件，从而给公司带来难以接受的损失，无论是对于及时性还是准确性都有更严苛的要求。

S212：若所述中心漂移校验通过，则将所述待聚类舆情文本加入所述聚类组中。

若中心漂移校验通过，则表示不会导致聚类中心漂移，或者漂移的程度在容忍范围内，可以接受，因此可以加入。

在本说明书一个或多个实施例中，若分句指纹匹配的结果未达到第一预定指标，或者中心漂移校验未通过，则说明该待聚类舆情文本可能是描述了一个新事件，当前尚无其适合的聚类组，因此，可以新建聚类组，将待聚类舆情文本聚类至新建的聚类组中。对于新建的聚类组，加入其中的第一个舆情文本往往是相对而言实时性最强的第一手信息(可能是原始文本，后续的改稿转发都是直接或者间接参照该原始文本进行的)，值得重点关注，基于此，可以对该舆情文本进行加强处理，比如，对该舆情文本再次进行更细致的分句乃至结合关键词抽取等更多的可选方案，在其涉及的后续其他舆情文本的模糊搜索、精选、中心漂移校验等过程中，给予更高的权重、更严格的标准，识别该舆情文本中是否存在风险事件等。

需要说明的是，在要将待聚类舆情文本聚类至新建的聚类组之前，为了进一步地提高可靠性，也可以利用现有的一些数据去重算法，尝试对待聚类舆情文本再一次进行验证，若验证结果仍然表示待聚类舆情不应被作为重复内容被去掉，则再新建聚类组。

通过图2的方法，通过分句粒度的指纹匹配聚类，能够快速召回与当前舆情重复分句占比高的相似历史舆情，提高舆情聚类的类别纯度和效率，有助于快速高效地响应和应对舆情；不仅如此，还可以结合相似性算法或者预测算法，对初步的召回结果进一步提纯，保证高相似舆情的高优先级分组；另外，通过中心漂移校验的步骤，有助于防止新的部分有偏样本的进入以及平均化带偏聚类组的中心含义。

基于图2的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，预先为历史舆情分句指纹建立了倒排索引，基于该倒排索引，能够更高效地索引得到历史舆情库中具有对应分句片段(即该历史舆情分句指纹所表示的分句片段)的历史舆情，历史舆情库和历史舆情分句指纹库至少基于该倒排索引进行了关联，当然，历史舆情库和历史舆情分句指纹库也可以是已整合的一个统一的库。

在倒排索引的情况下，模糊搜索时，若分句指纹匹配的结果达到第一预定指标，则获取根据匹配成功的历史舆情分句指纹，根据预先为历史舆情分句指纹建立的倒排索引，索引得到历史舆情库中具有对应分句片段的历史舆情，根据第二预定指标，在索引得到的历史舆情中划分出候选历史舆情集合。

在实际应用中，即使不同的舆情描述了不同的事件，它们个别分句片段凑巧相同是有可能的，基于此，可以设定条件(比如，需要有超过指定数量(如2个以上)的分句片段相同)以缩小模糊搜索结果，尝试过滤掉这类舆情，比如以如此过滤得到的历史舆情构成候选历史舆情集合。第二预定指标比如描述了所设定的条件。

进一步地，根据匹配的结果，在历史舆情库中进行模糊搜索之后，可以根据待聚类舆情文本及其分句指纹，对历史舆情库和倒排索引等数据进行相应的更新，以用于对后续其他的待聚类舆情文本指导聚类过程。当然，在待聚类舆情文本聚类完成后，也会更新已有聚类组的信息，或者还可能需要新建聚类组。在实际应用中，舆情往往是实时的，时效性很强，尤其基于互联网传播速度十分迅猛，因此，需要及时执行这些更新过程执行，以帮助更及时地对实时舆情进行聚类并处置。

前面提到了精选时的一些可选的处理方式，在本说明书一个或多个实施例中，采用向量相似性比较结合聚类预测的方案进行精选。具体比如，计算待聚类舆情文本与候选历史舆情集合中各候选历史舆情之间的向量余弦相似度，将向量余弦相似度超过设定阈值的候选历史舆情，利用预训练的监督学习模型进行预测，以判定待聚类舆情文本与该候选历史舆情属于同一聚类组的概率，根据所预测的概率，在这个过程中，可以进行余弦相似度的排序和概率的排序，并以此为依据，对涉及的多个聚类组进行排序，以帮助在候选历史舆情中筛选出更有可能描述同一事件的相似历史舆情，基于这样的处理方式，有助于提高排序靠前的聚类组的聚拢效果。

在本说明书一个或多个实施例中，在对待聚类舆情文本分句得到多个分句片段后，先主动生成分句片段的相似分句(比如，按照预先定义的一些典型的洗稿改写策略生成)，以提高命中历史舆情的可能性，将这些相似分句的分句指纹也算作属于待聚类舆情文本，并在后面的步骤也参与匹配检索。

根据前面的说明，本说明书一个或多个实施例提供了一种应用场景下，图2中方法的框架原理，以及其中的部分详细流程，分别如图3、图4所示。

在图3的框架中，主要包含基于分句指纹聚类(上面主要是对这部分进行了详细说明)和下游辅助聚类这两部分。原理包括：待聚类的原始的舆情文本经过可选的预处理(比如，文本格式重排、大小写转换等)后，进入基于分句指纹聚类的处理过程，通过该处理过程，若通过匹配分句指纹，检索命中符合要求的相似的历史舆情，则直接返回该历史舆情所属的聚类组标识，并在分布式搜索引擎(比如，假定采用了Elasticsearch，这是一种流行的企业级搜索引擎，提供分布式的全文搜索服务)中存储，以表示将该舆情文本加入该聚类组。而若检索未命中(即无召回)，则舆情文本进入下游辅助聚类的处理过程，通过该处理过程尝试进行风险事件抽取、关键词抽取，以及兜底方案(比如，采用SimHash的方案)去重，若确适合新建聚类组，则生成新的聚类组标识并存储索引。

图4对该应用场景下，基于分句指纹聚类的具体流程进行了说明。主要包括以下四个部分：

分句操作：

在Elasticsearch中自定义一个按标点符号切割的分词器，当舆情文本实时流入时，调用该分词器将长的舆情文本切割为短的分句片段，并将每个分句片段的MD5值存储为倒排索引，记录为分句指纹，与舆情文本原文、所属聚类组标识，以此类推，随着舆情的增加累积，构建得到历史舆情索引库(包括了上述的历史舆情库、历史舆情分句指纹库)。

模糊搜索：

新舆情文本(上述的待分类舆情文本)流入时，将其分句片段与索引库中的分句指纹索引，通过模糊搜索召回分值大于阈值(该集合中的历史舆情与新舆情文本的相同分句片段占比均达到阈值)的候选历史舆情集合。该阈值比如通过下游的实际聚类效果反馈调控。

候选历史舆情集合精排：

在模糊搜索召回的候选历史舆情集合中，基于文本向量余弦相似度和监督学习模型预测的概率两项指标进行结果的精排。该相似度通过新舆情文本与候选历史舆情转向量后计算余弦相似度获得，而监督学习模型通过人工标注样本训练得到(标注输入的舆情文本与目标舆情文本是否属于同一聚类组)。通过相似度大于阈值保证进一步精选结果的准确度，在此之上，按监督学习的模型预测概率倒排，保证更有可能在一组的历史舆情排序更靠前，使得每个新舆情文本更趋向于排序靠前的组聚拢。

聚类中心校验：

对精排后的前N的聚类组，通过检索获取相应组内的舆情明细，各组每个历史舆情依次与新舆情文本计算相似度，若均大于阈值则返回该聚类组标识，将新舆情文本加入该组；而若组内存在某个历史舆情与新舆情文本相似度小于阈值则自动路由至下游，进行下游辅助聚类处理，新生成聚类组标识存储索引。

更直观地，下面还提供了一些示例性的实验效果比对数据，作为参考，具体比对了基于分句指纹聚类方案和基于SimHash聚类方案的效果。

抽取了某天中40000条舆情文本样本评估对比这两种方案的效果，分别计算总组数、长尾组数(组内舆情数为1)，前1000组、前3000组以及全部组的组内平均舆情数，基于以上指标对比聚类的聚拢度效果。经人工标注后计算前1000组、前3000组的聚类准确率，对比聚类纯度效果，具体见下表1。

表1

从表中可以看出，相比于SimHash方案，分句指纹方案排名靠前的组的聚类准确率提升5％左右，整体组内平均舆情数提升15.6％且总组数减少13.5％，也即能够使得流入人工审核的舆情量减少13.5％。整体对比结论为分句指纹方案在聚拢度得到大幅提升，而且进一步地提升了舆情聚类的纯度效果，并且对下游人工审核量的降低效果显著。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图5、图6所示。

图5为本说明书一个或多个实施例提供的一种舆情聚类装置的结构示意图，虚线方框表示可选的模块，所述装置包括：

分句指纹获取模块502，对待聚类舆情文本进行分句，得到多个分句片段，并确定所述分句片段的分句指纹；

分句指纹匹配模块504，根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

舆情模糊搜索模块506，根据所述匹配的结果，在历史舆情库中进行模糊搜索，得到与所述待聚类舆情文本具有相同分句片段的候选历史舆情集合；

舆情精细筛选模块508，通过将所述待聚类舆情文本在所述候选历史舆情集合中进行相似性比较，从所述候选历史舆情集合中筛选出相似的历史舆情；

中心漂移校验模块510，根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验；

聚类结果确定模块512，若所述中心漂移校验通过，则将所述待聚类舆情文本加入所述聚类组中。

可选地，所述舆情模糊搜索模块506，若所述匹配的结果达到第一预定指标，则获取根据所述匹配成功的历史舆情分句指纹；

根据预先为所述历史舆情分句指纹建立的倒排索引，索引得到历史舆情库中具有对应分句片段的历史舆情；

根据第二预定指标，在所述索引得到的历史舆情中划分出候选历史舆情集合。

可选地，所述装置还包括：

关联数据更新模块514，在所述舆情模糊搜索模块根据所述匹配的结果，在历史舆情库中进行模糊搜索之后，根据所述待聚类舆情文本、所述分句指纹，对所述历史舆情库和所述倒排索引进行相应的更新。

可选地，所述舆情精细筛选模块508包括相似度计算子模块5082，聚类预测子模块5084、结果筛选子模块5086；

所述相似度计算子模块5082，计算所述待聚类舆情文本与所述候选历史舆情集合中各候选历史舆情之间的向量余弦相似度；

所述聚类预测子模块5084，将所述向量余弦相似度超过设定阈值的候选历史舆情，利用预训练的监督学习模型进行预测，以判定待聚类舆情文本与该候选历史舆情属于同一聚类组的概率；

所述结果筛选子模块5086，根据所述概率，在所述候选历史舆情中筛选出相似的历史舆情。

可选地，所述中心漂移校验模块510，将所述待聚类舆情文本，与所述相似的历史舆情所属的聚类组中的各历史舆情分别进行相似性比较，若所述相似性均超过设定阈值，则确定中心漂移校验通过。

可选地，所述装置还包括：

所述聚类结果确定模块512，在所述分句指纹匹配模块根据所述分句指纹，在历史舆情分句指纹库中进行匹配之后，若所述匹配的结果未达到第一预定指标，或者所述中心漂移校验未通过，则新建聚类组，将所述待聚类舆情文本聚类至所述新建的聚类组中。

可选地，所述装置还包括：

对应关系确定模块516，在所述分句指纹获取模块对待聚类舆情文本进行分句之前，确定历史舆情、所述历史舆情的分句片段、所述历史舆情的分句片段的分句指纹、所述历史舆情所属的聚类组之间的对应关系。

图6为本说明书一个或多个实施例提供的一种舆情聚类设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

基于同样的思路，本说明书一个或多个实施例提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种舆情聚类方法，包括：

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验，所述中心漂移校验是校验倘若待聚类舆情文本加入该聚类组，会不会导致该聚类组的聚类中心漂移，或者导致该聚类中心漂移的程度；

2.如权利要求1所述的方法，所述根据所述匹配的结果，在历史舆情库中进行模糊搜索，具体包括：

若所述匹配的结果达到第一预定指标，则获取根据所述匹配成功的历史舆情分句指纹；

3.如权利要求2所述的方法，所述根据所述匹配的结果，在历史舆情库中进行模糊搜索之后，所述方法还包括：

根据所述待聚类舆情文本、所述分句指纹，对所述历史舆情库和所述倒排索引进行相应的更新。

4.如权利要求1所述的方法，所述通过将所述待聚类舆情文本在所述候选历史舆情集合中进行相似性比较，从所述候选历史舆情集合中筛选出相似的历史舆情，具体包括：

计算所述待聚类舆情文本与所述候选历史舆情集合中各候选历史舆情之间的向量余弦相似度；

将所述向量余弦相似度超过设定阈值的候选历史舆情，利用预训练的监督学习模型进行预测，以判定待聚类舆情文本与该候选历史舆情属于同一聚类组的概率；

根据所述概率，在所述候选历史舆情中筛选出相似的历史舆情。

5.如权利要求1所述的方法，所述根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验，具体包括：

将所述待聚类舆情文本，与所述相似的历史舆情所属的聚类组中的各历史舆情分别进行相似性比较，若所述相似性均超过设定阈值，则确定中心漂移校验通过。

6.如权利要求1所述的方法，所述根据所述分句指纹，在历史舆情分句指纹库中进行匹配之后，所述方法还包括：

若所述匹配的结果未达到第一预定指标，或者所述中心漂移校验未通过，则新建聚类组，将所述待聚类舆情文本聚类至所述新建的聚类组中。

7.如权利要求1所述的方法，所述对待聚类舆情文本进行分句之前，所述方法还包括：

确定历史舆情、所述历史舆情的分句片段、所述历史舆情的分句片段的分句指纹、所述历史舆情所属的聚类组之间的对应关系。

8.一种舆情聚类装置，包括：

中心漂移校验模块，根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验，所述中心漂移校验是校验倘若待聚类舆情文本加入该聚类组，会不会导致该聚类组的聚类中心漂移，或者导致该聚类中心漂移的程度；

9.如权利要求8所述的装置，所述舆情模糊搜索模块，若所述匹配的结果达到第一预定指标，则获取根据所述匹配成功的历史舆情分句指纹；

10.如权利要求9所述的装置，还包括：

关联数据更新模块，在所述舆情模糊搜索模块根据所述匹配的结果，在历史舆情库中进行模糊搜索之后，根据所述待聚类舆情文本、所述分句指纹，对所述历史舆情库和所述倒排索引进行相应的更新。

11.如权利要求8所述的装置，所述舆情精细筛选模块包括相似度计算子模块，聚类预测子模块、结果筛选子模块；

所述相似度计算子模块，计算所述待聚类舆情文本与所述候选历史舆情集合中各候选历史舆情之间的向量余弦相似度；

所述聚类预测子模块，将所述向量余弦相似度超过设定阈值的候选历史舆情，利用预训练的监督学习模型进行预测，以判定待聚类舆情文本与该候选历史舆情属于同一聚类组的概率；

所述结果筛选子模块，根据所述概率，在所述候选历史舆情中筛选出相似的历史舆情。

12.如权利要求8所述的装置，所述中心漂移校验模块，将所述待聚类舆情文本，与所述相似的历史舆情所属的聚类组中的各历史舆情分别进行相似性比较，若所述相似性均超过设定阈值，则确定中心漂移校验通过。

13.如权利要求8所述的装置，还包括：

所述聚类结果确定模块，在所述分句指纹匹配模块根据所述分句指纹，在历史舆情分句指纹库中进行匹配之后，若所述匹配的结果未达到第一预定指标，或者所述中心漂移校验未通过，则新建聚类组，将所述待聚类舆情文本聚类至所述新建的聚类组中。

14.如权利要求8所述的装置，还包括：

对应关系确定模块，在所述分句指纹获取模块对待聚类舆情文本进行分句之前，确定历史舆情、所述历史舆情的分句片段、所述历史舆情的分句片段的分句指纹、所述历史舆情所属的聚类组之间的对应关系。

15.一种舆情聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

根据所述分句指纹，在历史舆情分句指纹库中进行匹配；

根据所述相似的历史舆情所属的聚类组，对所述待聚类舆情文本进行中心漂移校验，所述中心漂移校验是校验倘若待聚类舆情文本加入该聚类组，会不会导致该聚类组的聚类中心漂移，或者导致该聚类中心漂移的程度；若所述中心漂移校验通过，则将所述待聚类舆情文本加入所述聚类组中。