CN108509545B

CN108509545B - 一种文章的评论处理方法及系统

Info

Publication number: CN108509545B
Application number: CN201810228116.9A
Authority: CN
Inventors: 张航; 陈超; 何海乾; 曾镇
Original assignee: Beijing Yunzhan Technology Co ltd
Current assignee: Beijing yunzhan Technology Co., Ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2021-11-23
Anticipated expiration: 2038-03-20
Also published as: CN108509545A

Abstract

本申请公开了一种文章的评论处理方法及系统，方法包括：获得目标文章的评论信息；获得与所述目标文章相对应的目标相似文章；将所述评论信息写入所述目标相似文章的评论列表中。本申请中通过将相同或相似文章的评论互相写入对方的评论列表，来实现评论在相同或相似文章中共享，从而用户在当前平台上同样能够阅读到其他平台上的网友评论，由此为用户提供更丰富的阅读内容，改善用户阅读体验。

Description

一种文章的评论处理方法及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种文章的评论处理方法及系统。

背景技术

随着互联网的普及，网络上的文章越来越多，如电影评论文章或时事点评文章等，既有原创的文章，也有转载或二次编辑的文章。为了满足人们的互动需求，网站会允许网友对文章添加评论，如对某篇文章上传自己的观点等等。

由于一篇文章可能会在不同的平台上发布，相应的，在不同的平台上有相应的评论。

这些评论之间因为文章发布平台的不同无法共享，处于当前平台的网友无法看到其他平台上文章的评论内容，因此，会对网友的阅读体验造成影响。

发明内容

有鉴于此，本申请的目的在于提供一种文章的评论处理方法及系统，用以解决现有技术中文章在不同的发布平台上无法共享不同平台上所产生的评论，导致网友阅读体验较差的技术问题。

本申请提供了一种文章的评论处理方法，包括：

获得目标文章的评论信息；

获得与所述目标文章相对应的目标相似文章；

将所述评论信息写入所述目标相似文章的评论列表中。

上述方法，优选地，获得与所述目标文章相对应的目标相似文章，包括：

获得所述目标文章所对应的目标映射关系，所述映射关系为文章标识与文章所属聚簇标识的映射关系，一篇所述文章仅属于一个所述聚簇，一个所述聚簇中包含多篇所述文章；

根据所述目标映射关系，获得所述目标文章所属的目标聚簇及所述目标聚簇中所包含的目标相似文章。

上述方法，优选地，所述映射关系通过以下方式获得：

获得待处理文章集合，所述待处理文章集合中包括多篇待处理文章；

对所述待处理文章的文章标题进行分词处理，得到至少一个标题分词及其权重；

对于所述待处理文章，查找每个所述标题分词所关联的聚簇标识列表，所述聚簇标识列表中包括至少一个聚簇标识；

如果查找到所述标题分词所关联的聚簇标识列表，获得所述聚簇标识列表之间所含有的相同的交集聚簇标识，如果没有查找到，生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系；

在获得所述聚簇标识列表之间所含有的相同的交集聚簇标识后，获得所述交集聚簇标识所对应的关联文章及其分词；

基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值；

如果所述相似度值满足预设的阈值范围，建立所述待处理文章的文章标识与交集聚簇标识的映射关系，如果所述相似度值不满足所述阈值范围，返回执行所述生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系。

上述方法，优选地，基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值，包括：

根据所述分词的权重，计算所述关联文章的分词与所述标题分词之间的余弦值作为相似度值。

上述方法，优选地，获得待处理文章集合，包括：

获得预设时长内未进行处理的文章组成待处理文章集合。

本申请还提供了一种文章的评论处理系统，包括：

目标获得单元，用于获得目标文章的评论信息；

相似获得单元，用于获得与所述目标文章相对应的目标相似文章；

评论写入单元，用于将所述评论信息写入所述目标相似文章的评论列表中。

上述系统，优选的，所述相似获得单元包括：

映射获取模块，用于获得所述目标文章所对应的目标映射关系，所述映射关系为文章标识与文章所属聚簇标识的映射关系，一篇所述文章仅属于一个所述聚簇，一个所述聚簇中包含多篇所述文章；

相似获取模块，用于根据所述目标映射关系，获得所述目标文章所属的目标聚簇及所述目标聚簇中所包含的目标相似文章。

上述系统，优选的，还包括：

文章获得单元，用于获得待处理文章集合，所述待处理文章集合中包括多篇待处理文章；

分词处理单元，用于对所述待处理文章的文章标题进行分词处理，得到至少一个标题分词及其权重；

相似处理单元，用于对于所述待处理文章，查找每个所述标题分词所关联的聚簇标识列表，所述聚簇标识列表中包括至少一个聚簇标识，如果查找到所述标题分词所关联的聚簇标识列表，触发映射更新单元，如果没有查找到，触发映射建立单元；

映射更新单元，用于获得所述聚簇标识列表之间所含有的相同的交集聚簇标识，获得所述交集聚簇标识所对应的关联文章及其分词，基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值，如果所述相似度值满足预设的阈值范围，建立所述待处理文章的文章标识与交集聚簇标识的映射关系，如果所述相似度值不满足所述阈值范围，触发所述映射建立单元；

映射建立单元，用于生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系。

上述系统，优选的，所述映射更新单元具体用于：根据所述分词的权重，计算所述关联文章的分词与所述标题分词之间的余弦值作为相似度值。

上述系统，优选的，所述文章获得单元具体用于：获得预设时长内未进行处理的文章组成待处理文章集合。

由以上方案可知，本申请提供的一种文章的评论处理方法及系统，在获取目标文章的评论信息后，找到与目标文章对应的相似文章，再将目标文章的评论写入到相似文章的评论列表中，从而实现同一文章或相似文章的评论共享。本申请中通过将相同或相似文章的评论互相写入对方的评论列表，来实现评论在相同或相似文章中共享，从而用户在当前平台上同样能够阅读到其他平台上的网友评论，由此为用户提供更丰富的阅读内容，改善用户阅读体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例一提供的一种文章的评论处理方法的流程图；

图2～图4分别为本申请实施例的应用示例图；

图5为本申请实施例一的部分流程图；

图6及图7分别为本申请实施例的另一应用示例图；

图8为本申请实施例一的另一部分流程图；

图9为本申请实施例二提供的一种文章的评论处理系统的结构示意图；

图10及图11分别为本申请实施例二的部分结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，为本申请实施例一提供的一种文章的评论处理方法的流程图，应用于能够进行海量数据处理的电脑或服务器中，用以对文章的评论在相同或相似的文章评论列表下进行共享。

本实施例中，该方法可以包括以下步骤：

步骤101：获得目标文章的评论信息。

其中，目标文章可以为接收到新的评论信息的文章，也可以为具有评论信息需要进行共享的文章。目标文章具有评论列表，目标文章的评论信息在评论列表中进行展示，如图2中所示。评论信息可以为一条也可以为多条，为阅读该目标文章的用户对目标文章的观后感等信息。

例如，在网站A中，目标文章发布之后，接收到某个用户通过网站留言界面所输入的评论X，本实施例中对该目标文章的评论X进行获取。

步骤102：获得与目标文章相对应的目标相似文章。

其中，本实施例中可以利用网络爬虫获取网络上各个网站或平台上的所有文章或者新发布的文章，再从这些获取到的文章中获得与目标文章相对应的目标相似文章。

需要说明的是，目标相似文章可以理解为与目标文章相同或者相似度高于一定阈值的文章。

步骤103：将评论信息写入到目标相似文章的评论列表中。

如图3中所示，本实施例中将目标文章的评论信息写入到目标相似文章的评论列表中，由此，阅读到目标相似文章的用户无需打开目标文章进行阅读也可以阅读到该目标文章的评论信息，从而实现评论共享。

需要说明的是，本实施例中适用于任意文章的评论共享，是双向共享，而非单项，如图4中所示，本实施例中在将目标文章的评论信息写入到目标相似文章的评论列表中的同时，也可以将目标相似文章的评论列表中与目标文章的评论信息不同的评论写入到目标文章的评论列表中，实现评论互相共享。

由以上方案可知，本申请实施例一提供的一种文章的评论处理方法，在获取目标文章的评论信息后，找到与目标文章对应的相似文章，再将目标文章的评论写入到相似文章的评论列表中，从而实现同一文章或相似文章的评论共享。本实施例中通过将相同或相似文章的评论互相写入对方的评论列表，来实现评论在相同或相似文章中共享，从而用户在当前平台上同样能够阅读到其他平台上的网友评论，由此为用户提供更丰富的阅读内容，改善用户阅读体验。

在一种实现方式中，图1中的步骤102具体可以通过以下方式实现，如图5中所示：

步骤501：获得目标文章所对应的目标映射关系。

其中，本实施例中的映射关系是指：文章标识与文章所属聚簇标识之间的映射关系，如图6中所示，一篇文章属于且仅属于一个聚簇，而一个聚簇中可以包含有多篇文章，一个聚簇中的文章是相同或相似的。相应的，在映射关系中，一个文章标识对应且仅对应一个聚簇标识，而一个聚簇标识可以对应有一篇文章或者多篇文章。

需要说明的是，文章标识可以为文章的编码或者号码，这里的文章的编码是指文章被预先设置的编码，如阿拉伯数字表示的ID(identification)号码等，用于唯一表示该文章。相应的，聚簇标识是指聚簇的编码或号码。以上文章标识与文章所属聚簇标识的映射关系即为文章的ID与聚簇的ID之间的映射关系。

其中，本实施例中可以在预设的数据库中保存多个映射关系，以表明各种文章所属的聚簇及聚簇下的相同或相似的文章。由此，本实施例中可以利用目标文章的文章标识在数据库中查找包含该目标文章的文章标识的目标映射关系。

步骤502：根据目标映射关系，获得目标文章所属的目标聚簇及目标聚簇中所包含的目标相似文章。

其中，由前文中可知目标映射关系表明：目标文章所属的聚簇以及该目标文章所属的聚簇中所包含的相同或相似的文章，因此，本实施例中可以首先通过目标映射关系中文章标识与文章所属聚簇标识之间的映射关系来找到目标文章所属的目标聚簇，再根据映射关系中目标聚簇标识所对应的相似文章标识来获得目标聚簇中所包含的目标相似文章，如图7中所示。

在具体实现中，本实施例通过对网络上出现的文章进行相似度计算来确定文章所属聚簇，从而建立文章标识与文章所属聚簇标识的映射关系，具体可以通过以下方式实现，如图8中所示：

步骤801：获得待处理文章集合。

其中，待处理文章集合中包括多篇待处理文章。本实施例中可以获取预设时长内未进行处理的文章来组成待处理文章集合。例如，本实施例中每隔一定时间进行一次相似相似度计算，将7天内出现的文章进行获取，再剔除其中经过下文流程处理的文章，将留下的文章设置文章标识并组成待处理文章集合；或者，本实施例中获取上次处理时刻到当前时刻之间出现的文章，设置文章标识并组成待处理文章集合。

需要说明的是，待处理文章集合中的文章可以根据其文章标识组成一个待处理文章列表，后续步骤中依照待处理文章列表循环对每篇待处理文章进行相似度计算，从而建立每篇待处理文章的文章标识与其所属聚簇的聚簇标识之间的映射关系，如下：

步骤802：提取待处理文章的文章标题。

其中，文章标题可以理解为待处理文章的文章题目，如“浅谈神经网络下的建模训练”的文章题目。之后，本实施例中为了提高准确性，可以对文章标题中不重要的字符进行剔除，如去除文章标题中“_”、“—”、“|”等字符后面的字符以及使用括号包围的字符等等。

步骤803：对文章标题进行分词处理，得到至少一个标题分词及其权重。

其中，本实施例中可以通过调用分词词库，使用相应的分词服务来对文章标题进行分词处理，获得分词后的结果，分词后的结果中包括：标题分词及其权重，其中，分词的权重可以理解为标题分词的重要度，该重要度是分词词库中预先设置的，不同的分词可能对应不同的重要度，本实施例中在获得标题分词及其权重后，可以按照权重的高低对标题分词进行降序排序。

步骤804：对于以上分词后的结果，判断标题分词的数量是否小于预设的分词阈值，如果标题分词的数量小于分词阈值，如小于3，那么为了提高评论共享的精确度，可以忽略该待处理文章，返回步骤802，提取下一篇待处理文章的文章标题，并进行后续步骤，而如果标题分词的数量不小于分词阈值，那么执行步骤805。

步骤805：查找每个标题分词所关联的聚簇标识列表，如果查找到标题分词所关联的聚簇标识列表，执行步骤806，如果存在某个标题分词所关联的聚簇标识列表没有查找到或者聚簇标识列表为空，那么执行步骤807。

其中，一个标题分词所关联的聚簇标识列表是指，文章标题包含该标题分词的文章所属的聚簇标识的集合，例如，标题分词A在文章1的文章标题中，同样在文章2的文章标题中，文章1属于聚簇1，文章2属于聚簇2，那么标题分词A关联聚簇1和聚簇2，聚簇1和聚簇2组成标题分词A的聚簇标识列表。

在本实施例中，如果查找到标题分词所关联的聚簇标识列表，说明该标题分词在之前处理的文章主题中出现过，即可执行步骤806及后续步骤，如果没有查找到或者标题分词所关联的聚簇标识列表为空，那么说明该标题分词为新出现的分词，相应的待处理文章为新的文章，此时，执行步骤807。

其中，本实施例中可以查找待处理文章的每个标题分词所关联的聚簇标识列表，也可以只对权重即重要度前三或前二的标题分词进行关联的聚簇标识列表查找。

步骤806：获得聚簇标识列表之间所含有的相同的交集聚簇标识，执行步骤808。

例如，待处理文章的文章标题分词得到：标题分词A、B和C，其中，标题分词A的聚簇标识列表A中包括聚簇1和聚簇2，标题分词B的聚簇标识列表B中包括聚簇2和聚簇3，标题分词C的聚簇标识列表C中包括聚簇2和聚簇4，那么本实施例中获取聚簇标识列表A、聚簇标识列表B及聚簇标识列表C中所含有的相同的交集聚簇标识2，以此表示待处理文章可能属于交集聚簇标识2所对应的聚簇。

在807：生成新的聚簇标识并建立待处理文章的文章标识与新的聚簇标识的映射关系。

其中，本实施例中可以按照已经存在聚簇标识的顺序生成新的聚簇标识，如聚簇标识排序到89，那么生成新的聚簇标识90，并建立待处理文章的文章标识与该聚簇标识90之间的映射关系，以表明该待处理文章属于聚簇标识90所对应的聚簇，该聚簇标识90所对应的聚簇下包含该待处理文章。

步骤808：获得交集聚簇标识所对应的关联文章及其分词。

其中，聚簇标识关联有该聚簇下所包含的相同或相似的文章的标识，由此，本实施例中通过交集聚簇标识与文章标识的映射关系，获得该交集聚簇标识所关联的相同或相似文章标识，从而获得该交集聚簇标识所对应的关联文章及其分词。

具体的，本实施例中从交集聚簇标识所对应的聚簇所包含的文章中选取第一篇文章作为关联文章，即最早关联到该聚簇标识下的文章。

步骤809：基于分词的权重，计算关联文章的分词与标题分词之间的相似度值。

也就是说，本实施例中基于分词的权重，计算交集聚簇标识所对应的关联文章的分词与待处理文章的标题分词之间的相似度值。

具体的，本实施例中可以根据分词的权重，计算关联文章的分词与标题分词之间的余弦值作为相似度值。

其中，余弦相似性可以通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。公式如下：

其中Ai和Bi分别代表A和B的各分量。当两条数据向量夹角余弦等于1时，这两条数据完全重复；当夹角的余弦值接近于1时，两条数据相似；夹角的余弦越小，两条数据越不相关。

基于以上余弦相似性的计算方案，本实施例中对关联文章的分词与标题分词之间的余弦值作为相似度值。

步骤810：判断相似度值是否满足预设的阈值范围，如果相似度值满足阈值范围，执行步骤811，如果相似度值不满足阈值范围，说明待处理文章与该聚簇中所包含的文章并不相似，因此，返回执行步骤807生成新的聚簇标识并建立待处理文章的文章标识与新的聚簇标识的映射关系。

其中，相似度值是否满足阈值范围，可以为：相似度值是否大于或等于预设的阈值，如大于0.6等。如果相似度值满足阈值范围，表明待处理文章与该聚簇所包含的文章相似。

步骤811：建立所述待处理文章的文章标识与交集聚簇标识的映射关系。

其中，该待处理文章的文章标识与交集聚簇标识的映射关系即可表明待处理文章属于交集聚簇标识所对应的聚簇，该交集聚簇标识对应的聚簇中包含待处理文章，该待处理文章与该交集聚簇标识对应的聚簇中的其他文章为相同或相似文章。

由以上实现方案可知，本实施例中通过对网络上出现的文章进行相似度计算来确定文章所属的聚簇，从而建立文章标识与文章所属聚簇标识的映射关系。由此，本实施例中通过对文章进行相似计算并通过聚簇来保存文章的相似关联，进而在需要进行评论共享时，通过查找相似文章再将评论写入相似文章的评论列表中，从而人实现评论在相似文章之间的共享。

参考图9，为本申请实施例二提供的一种文章的评论处理系统的结构示意图，应用于能够进行海量处理的电脑或服务器中，用以对文章的评论在相同或相似的文章评论列表下进行共享。

本实施例中，该系统可以包括以下结构：

目标获得单元901，用于获得目标文章的评论信息。

例如，在网站A中，目标文章发布之后，接收到某个用户通过网站留言界面所输入的评论X，本实施例中目标获得单元901对该目标文章的评论X进行获取。

相似获得单元902，用于获得与所述目标文章相对应的目标相似文章。

其中，本实施例中相似获得单元902可以利用网络爬虫获取网络上各个网站或平台上的所有文章或者新发布的文章，再从这些获取到的文章中获得与目标文章相对应的目标相似文章。

评论写入单元903，用于将所述评论信息写入所述目标相似文章的评论列表中。

如图3中所示，本实施例中评论写入单元903将目标文章的评论信息写入到目标相似文章的评论列表中，由此，阅读到目标相似文章的用户无需打开目标文章进行阅读也可以阅读到该目标文章的评论信息，从而实现评论共享。

由以上方案可知，本申请实施例二提供的一种文章的评论处理系统，在获取目标文章的评论信息后，找到与目标文章对应的相似文章，再将目标文章的评论写入到相似文章的评论列表中，从而实现同一文章或相似文章的评论共享。本实施例中通过将相同或相似文章的评论互相写入对方的评论列表，来实现评论在相同或相似文章中共享，从而用户在当前平台上同样能够阅读到其他平台上的网友评论，由此为用户提供更丰富的阅读内容，改善用户阅读体验。

在一种实现方式中，图9中的相似获得单元902具体可以通过以下结构实现，如图10中所示：

映射获取模块1001，用于获得所述目标文章所对应的目标映射关系。

其中，本实施例中可以在预设的数据库中保存多个映射关系，以表明各种文章所属的聚簇及聚簇下的相同或相似的文章。由此，本实施例中映射获取模块1001可以利用目标文章的文章标识在数据库中查找包含该目标文章的文章标识的目标映射关系。

相似获取模块1002，用于根据所述目标映射关系，获得所述目标文章所属的目标聚簇及所述目标聚簇中所包含的目标相似文章。

其中，由前文中可知目标映射关系表明：目标文章所属的聚簇以及该目标文章所属的聚簇中所包含的相同或相似的文章，因此，本实施例中相似获取模块1002可以首先通过目标映射关系中文章标识与文章所属聚簇标识之间的映射关系来找到目标文章所属的目标聚簇，再根据映射关系中目标聚簇标识所对应的相似文章标识来获得目标聚簇中所包含的目标相似文章，如图7中所示。

在具体实现中，本实施例可以通过对网络上出现的文章进行相似度计算来确定文章所属聚簇，从而建立文章标识与文章所属聚簇标识的映射关系，如图11中所示，在本实施例中的系统中还可以包括以下结构：：

文章获得单元1101，用于获得待处理文章集合。

其中，待处理文章集合中包括多篇待处理文章。本实施例中文章获得单元1101可以获取预设时长内未进行处理的文章来组成待处理文章集合。例如，本实施例中每隔一定时间进行一次相似相似度计算，将7天内出现的文章进行获取，再剔除其中经过下文流程处理的文章，将留下的文章设置文章标识并组成待处理文章集合；或者，本实施例中获取上次处理时刻到当前时刻之间出现的文章，设置文章标识并组成待处理文章集合。

需要说明的是，待处理文章集合中的文章可以根据其文章标识组成一个待处理文章列表，后续中依照待处理文章列表循环通过以下功能单元对每篇待处理文章进行相似度计算，从而建立每篇待处理文章的文章标识与其所属聚簇的聚簇标识之间的映射关系，如下：

分词处理单元1102，用于对所述待处理文章的文章标题进行分词处理，得到至少一个标题分词及其权重。

其中，分词处理单元1102首先提取待处理文章的文章标题，再对文章标题进行分词处理，得到至少一个标题分词及其权重。

而其中，本实施例中分词处理单元1102可以通过调用分词词库，使用相应的分词服务来对文章标题进行分词处理，获得分词后的结果，分词后的结果中包括：标题分词及其权重，其中，分词的权重可以理解为标题分词的重要度，该重要度是分词词库中预先设置的，不同的分词可能对应不同的重要度，分词处理单元1102在获得标题分词及其权重后，可以按照权重的高低对标题分词进行降序排序。

相似处理单元1103，用于对于所述待处理文章，查找每个所述标题分词所关联的聚簇标识列表，所述聚簇标识列表中包括至少一个聚簇标识，如果查找到所述标题分词所关联的聚簇标识列表，触发映射更新单元1104，如果没有查找到，触发映射建立单元1105。

其中，相似处理单元1103对于分词后结果，判断标题分词的数量是否小于预设的分词阈值，如果标题分词的数量小于分词阈值，如小于3，那么为了提高评论共享的精确度，可以忽略该待处理文章，触发分词处理单元1102重新选择待处理文章进行分词，而如果标题分词的数量不小于分词阈值，则查找每个所述标题分词所关联的聚簇标识列表。

在本实施例中，相似处理单元1103如果查找到标题分词所关联的聚簇标识列表，说明该标题分词在之前处理的文章主题中出现过，即可触发映射更新单元1104，如果没有查找到或者标题分词所关联的聚簇标识列表为空，那么说明该标题分词为新出现的分词，相应的待处理文章为新的文章，此时，触发映射建立单元1105。

其中，本实施例中相似处理单元1103可以查找待处理文章的每个标题分词所关联的聚簇标识列表，也可以只对权重即重要度前三或前二的标题分词进行关联的聚簇标识列表查找。

映射更新单元1104，用于获得所述聚簇标识列表之间所含有的相同的交集聚簇标识，获得所述交集聚簇标识所对应的关联文章及其分词，基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值，如果所述相似度值满足预设的阈值范围，建立所述待处理文章的文章标识与交集聚簇标识的映射关系，如果所述相似度值不满足所述阈值范围，触发所述映射建立单元1105。

其中，聚簇标识关联有该聚簇下所包含的相同或相似的文章的标识，由此，本实施例中映射更新单元1104通过交集聚簇标识与文章标识的映射关系，获得该交集聚簇标识所关联的相同或相似文章标识，从而获得该交集聚簇标识所对应的关联文章及其分词。具体的，本实施例中从交集聚簇标识所对应的聚簇所包含的文章中选取第一篇文章作为关联文章，即最早关联到该聚簇标识下的文章。

之后，映射更新单元1104基于分词的权重，计算交集聚簇标识所对应的关联文章的分词与待处理文章的标题分词之间的相似度值。具体的，映射更新单元1104可以根据分词的权重，计算关联文章的分词与标题分词之间的余弦值作为相似度值。

需要说明的是，相似度值是否满足阈值范围，可以为：相似度值是否大于或等于预设的阈值，如大于0.6等。如果相似度值满足阈值范围，表明待处理文章与该聚簇所包含的文章相似，此时触发映射更新单元1104，如果不满足，则说明待处理文章与该聚簇所包含的文章不相似，此时触发映射建立单元1105。

映射建立单元1105，用于生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系。

其中，本实施例中映射建立单元1105可以按照已经存在聚簇标识的顺序生成新的聚簇标识，如聚簇标识排序到89，那么生成新的聚簇标识90，并建立待处理文章的文章标识与该聚簇标识90之间的映射关系，以表明该待处理文章属于聚簇标识90所对应的聚簇，该聚簇标识90所对应的聚簇下包含该待处理文章。

以下对本申请在具体实现中的应用进行举例说明，图9及图11中的结构在具体实现中具体可以分为以下功能模块，如表1中所示：

表1

具体流程如下：

1、文章预处理：

首先，系统启动时，会进行初始化操作。主要是读取上次计算的起始文章标识如id和当前缓存计算结果的总数；因为内存容量限制，同时考虑文章的时效性，可以每天凌晨1点到6点评论低峰期，将待处理的文章库中，6天前的文章进行删除；获取上次处理过的文章，到最近的文章之间的文章列表，以供后续处理；

2、文章相似度计算：

首先，对于第一步给出的待处理文章列表进行循环；对于每一篇文章，取出文章标题，去除标题中不重要的字符，如使用括号包围的文字，以及“_”、“-”、“|”后面的文字；

其次，调用分词词库，对标题进行分词处理，获得分词后的结果，包括单词和重要度，并按照重要度降序排序；

之后，针对上述分词后的结果，如果分词后数量小于3，为了提高联通精确度，忽略此文章。对于重要度前三的词语，从分词-聚簇id列表的映射中，取出每个词语对应的聚簇id列表。如果其中任何一个聚簇id列表为空即查找不到某个分词对应的聚簇id列表，则返回空集合，否则计算并返回前三重要度词语对应的聚簇id列表的交集，表示当前文章可能会归类到上述交集中的某个或多个；

进而，对于上步计算出来的聚簇id列表，如果是空集合，则生成一个新的聚簇id并返回；否则，对于每个聚簇id，从聚簇id-文章id列表的映射中，取出文章id列表。取出其中第一个文章id，然后从文章id-分词列表的映射中取出分词列表，计算和当前文章标题分词后结果的余弦相似性。只要有一个聚簇的相似性数值大于0.65，即认为这个聚簇和当前文章标题相似，然后就返回这个聚簇id；

最后，根据上一步返回的聚簇id，保存计算结果，包括如下几个映射关系：

文章id对聚簇id的映射关系，用来标识文章属于哪个聚簇；

聚簇id对文章id的列表，用来标识聚簇中含有哪些相似的文章；

分的词对聚簇id的列表，用来标识词语和哪些聚簇有关；

文章id对应的分词的列表，用来标识文章标题的分词结果。

3、新评论联通共享：

用户新发评论后，本实施例中获取当前评论所在文章；根据之前保存的文章id-聚簇id的映射，获得当前文章对应的聚簇id，然后通过聚簇id-文章id列表的映射进行查询，即获得了当前文章对应的相似文章列表；最后，将当前评论写入相似文章列表中，实现了评论联通。

由以上方案可知，本实施例中将全网文章进行相似度计算和归类，做到新增评论可以同步到全网相似的文章，增加对应文章发布平台如网站的评论活跃性。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种文章的评论处理方法及系统进行了详细介绍，对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文章的评论处理方法，其特征在于，包括：

获得目标文章的评论信息；

获得与所述目标文章相对应的目标相似文章；所述获得与所述目标文章相对应的目标相似文章，包括：获得所述目标文章所对应的目标映射关系，所述映射关系为文章标识与文章所属聚簇标识的映射关系，一篇所述文章仅属于一个所述聚簇，一个所述聚簇中包含多篇所述文章；根据所述目标映射关系，获得所述目标文章所属的目标聚簇及所述目标聚簇中所包含的目标相似文章；

其中，所述映射关系通过以下方式获得：获得待处理文章集合，所述待处理文章集合中包括多篇待处理文章；对所述待处理文章的文章标题进行分词处理，得到至少一个标题分词及其权重；对于所述待处理文章，查找每个所述标题分词所关联的聚簇标识列表，所述聚簇标识列表中包括至少一个聚簇标识；如果查找到所述标题分词所关联的聚簇标识列表，获得所述聚簇标识列表之间所含有的相同的交集聚簇标识，如果没有查找到，生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系；在获得所述聚簇标识列表之间所含有的相同的交集聚簇标识后，获得所述交集聚簇标识所对应的关联文章及其分词；基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值；如果所述相似度值满足预设的阈值范围，建立所述待处理文章的文章标识与交集聚簇标识的映射关系，如果所述相似度值不满足所述阈值范围，返回执行所述生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系；

将所述评论信息写入所述目标相似文章的评论列表中。

2.根据权利要求1所述的方法，其特征在于，基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值，包括：

3.根据权利要求1所述的方法，其特征在于，获得待处理文章集合，包括：

获得预设时长内未进行处理的文章组成待处理文章集合。

4.一种文章的评论处理系统，其特征在于，包括：

目标获得单元，用于获得目标文章的评论信息；

相似获得单元，用于获得与所述目标文章相对应的目标相似文章；所述相似获得单元包括：映射获取模块，用于获得所述目标文章所对应的目标映射关系，所述映射关系为文章标识与文章所属聚簇标识的映射关系，一篇所述文章仅属于一个所述聚簇，一个所述聚簇中包含多篇所述文章；相似获取模块，用于根据所述目标映射关系，获得所述目标文章所属的目标聚簇及所述目标聚簇中所包含的目标相似文章；

所述相似获得单元还包括：文章获得单元，用于获得待处理文章集合，所述待处理文章集合中包括多篇待处理文章；分词处理单元，用于对所述待处理文章的文章标题进行分词处理，得到至少一个标题分词及其权重；相似处理单元，用于对于所述待处理文章，查找每个所述标题分词所关联的聚簇标识列表，所述聚簇标识列表中包括至少一个聚簇标识，如果查找到所述标题分词所关联的聚簇标识列表，触发映射更新单元，如果没有查找到，触发映射建立单元；映射更新单元，用于获得所述聚簇标识列表之间所含有的相同的交集聚簇标识，获得所述交集聚簇标识所对应的关联文章及其分词，基于所述分词的权重，计算所述关联文章的分词与所述标题分词之间的相似度值，如果所述相似度值满足预设的阈值范围，建立所述待处理文章的文章标识与交集聚簇标识的映射关系，如果所述相似度值不满足所述阈值范围，触发所述映射建立单元；映射建立单元，用于生成新的聚簇标识并建立所述待处理文章的文章标识与所述新的聚簇标识的映射关系；

5.根据权利要求4所述的系统，其特征在于，所述映射更新单元具体用于：根据所述分词的权重，计算所述关联文章的分词与所述标题分词之间的余弦值作为相似度值。

6.根据权利要求4所述的系统，其特征在于，所述文章获得单元具体用于：获得预设时长内未进行处理的文章组成待处理文章集合。