CN110020057B

CN110020057B - 一种垃圾评论信息识别方法及装置

Info

Publication number: CN110020057B
Application number: CN201711481027.7A
Authority: CN
Inventors: 韩明清; 惠友为; 费菲; 吴江; 宋公良
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-05-25
Anticipated expiration: 2037-12-29
Also published as: CN110020057A

Abstract

本发明实施例提供一种垃圾评论信息识别方法及装置，用于解决现有技术中服务器对垃圾评论信息的识别准确度较低的技术问题。该方法包括：包括以下步骤：获取针对第一原文的待处理评论信息，并确定待处理评论信息对应的评论者ID以及第一原文对应的发布者ID；其中，待处理评论信息的内容具有至少一个预设特征；确定评论者ID针对发布者ID的至少一个原文发出的评论信息的总数量，以及目标评论信息的数量；其中，至少一个原文包括第一原文，目标评论信息为包含至少一个预设特征的评论信息；若确定目标评论信息的数量大于等于第一预设数量，且目标评论信息的数量与评论信息的总数量的比值大于等于预设比值，则确定待处理评论信息为垃圾评论信息。

Description

一种垃圾评论信息识别方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种垃圾评论信息识别方法及装置。

背景技术

随着互联网应用的普及，用户可以通过各种方式在互联网中发布相关内容，同时，观看该内容的其他用户也可以发布相关评论，甚至通过评论的方式与内容的发布者进行交互。

有些不法用户，会在评论中插入隐含广告或其它垃圾内容，例如qq号、微信号、超链接等。目前针对隐含垃圾内容的评论信息的方式中，主要是通过检测评论信息中包括的相关的特征词汇，如字符串、敏感词汇等来识别垃圾评论信息。但在流行的社会化互联网应用中，例如歌唱类具有社会化网络特点的应用，将发布内容的用户称作主播，将参与评论的用户称作观众。观众在通过评论方式与主播进行互动时，评论的信息中可能包括了希望与主播建立联系的诉求，例如在交互过程中，通过评论信息向主播推荐自己的字符串账号等。如此，若按照上述的特殊词汇的方式，该评论信息就极有可能被服务器屏蔽掉。

由此可见，现有技术中服务器对垃圾评论信息的识别准确度较低。

发明内容

本发明实施例提供一种垃圾评论信息识别方法及装置，用于解决现有技术中服务器对垃圾评论信息的识别准确度较低的技术问题。

第一方面，本发明实施例提供一种垃圾评论信息识别方法，包括以下步骤：

获取针对第一原文的待处理评论信息，并确定所述待处理评论信息对应的评论者ID以及所述第一原文对应的发布者ID；其中，所述待处理评论信息的内容具有至少一个预设特征；

确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中目标评论信息的数量；其中，所述至少一个原文包括所述第一原文，所述目标评论信息为包含所述至少一个预设特征的评论信息；

若确定所述目标评论信息的数量大于等于第一预设数量，且所述目标评论信息的数量与所述评论信息的总数量的比值大于等于预设比值，则确定所述待处理评论信息为垃圾评论信息。

可选的，在确定所述评论者ID针对所述发布者ID的至少一个原文的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之前，所述方法还包括：

确定所述发布者ID对应的关注者数量；

确定所述关注者数量大于等于第二预设数量。

可选的，在确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之后，所述方法还包括：

确定所述发布者ID对应的来自所述评论者ID的互动信息的数量，所述互动信息为所述评论者ID针对所述至少一个原文发出的；

根据所述评论信息的总数量及所述互动信息的数量，确定所述评论者ID对应的所述第一预设数量和所述预设比值。

可选的，根据所述评论信息的总数量及所述互动信息的数量，确定所述评论者ID对应的所述第一预设数量和所述预设比值，包括：

根据预设评估规则及所述评论信息的总数量及所述互动信息的数量，评估所述评论者ID对应的参与度参数；其中，所述参与度参数用于表征所述评论者ID针对所述至少一个原文的评论的参与情况；

根据参与度参数与预设数量及预设比值之间的对应关系，确定所述第一预设数量及所述预设比值。

可选的，在确定所述待处理评论信息为垃圾评论信息之后，所述方法还包括：

删除所述垃圾评论信息；或

删除所述评论者ID针对所述第一原文的全部评论信息。

第三方面，本发明实施例提供一种垃圾评论信息识别装置，包括：

获取模块，用于获取针对第一原文的待处理评论信息，并确定所述待处理评论信息对应的评论者ID以及所述第一原文对应的发布者ID；其中，所述待处理评论信息的内容具有至少一个预设特征；

第一确定模块，用于确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中目标评论信息的数量；其中，所述至少一个原文包括所述第一原文，所述目标评论信息为包含所述至少一个预设特征的评论信息；

第二确定模块，用于若确定所述目标评论信息的数量大于等于第一预设数量，且所述目标评论信息的数量与所述评论信息的总数量的比值大于等于预设比值，则确定所述待处理评论信息为垃圾评论信息。

可选的，所述垃圾评论信息识别装置还包括：

第三确定模块，用于在确定所述评论者ID针对所述发布者ID的至少一个原文的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之前，确定所述发布者ID对应的关注者数量，并确定所述关注者数量大于等于第二预设数量

可选的，所述垃圾评论信息识别装置还包括：

第四确定模块，在确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之后，确定所述发布者ID对应的来自所述评论者ID的互动信息的数量，所述互动信息为所述评论者ID针对所述至少一个原文发出的，并根据所述评论信息的总数量及所述互动信息的数量，确定所述评论者ID对应的所述第一预设数量和所述预设比值。

可选的，所述第四确定模块用于：

可选的，所述垃圾评论信息识别装置还包括：

删除模块，用于在确定所述待处理评论信息为垃圾评论信息之后，删除所述垃圾评论信息，或删除所述评论者ID针对所述第一原文的全部评论信息。

第三方面，本发明实施例提供一种计算机装置，所述计算机装置包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器、通信接口；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，利用所述通信接口执行如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面所述的方法。

本发明实施例中，通过确定包含预设特征内容的待处理信息对应的评论者ID和待处理信息所针对的第一原文的发布者ID，进而确定评论者ID针对发布者ID的至少一个原文发出的评论信息的总数量，以及评论性中包含特殊特征内容的目标评论信息的数量，并在判断目标评论信息的数量大于等于第一预设数量，且目标评论信息的数量与评论信息的总数量的比值大于等于预设比值，确定待处理评论信息为垃圾评论信息，故通过统计评论者ID针对发布者ID的至少一个原文的历史评论信息的数量以及隐含垃圾内容(即预设特征)的评论信息的数量，来综合判断当前的待处理信息是否为垃圾评论信息，有效提高了对垃圾评论信息的识别的准确度。

附图说明

图1为本发明实施例中垃圾评论信息识别方法的示意图；

图2为本发明实施例中垃圾评论信息识别方法的流程图；

图3为本发明实施例中垃圾评论信息识别装置的模块图；

图4为本发明实施例中计算机装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

首先，对本发明实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)垃圾评论信息识别装置，可以是具有网络连接及数据处理能力的电子设备。例如，垃圾评论信息识别装置可以是能够识别评论信息中的垃圾评论信息服务器、终端或其它设备。本发明实施例中，主要以垃圾评论信息识别装置为服务器为例进行说明。

在实际应用中，若垃圾评论信息识别装置为服务器，则垃圾评论信息识别装置可以通过有线方式或无线方式与终端连接，建立连接后，垃圾评论信息识别装置和终端之间可以进行数据通信。其中，终端可以是具有网络连接功能的电子设备，例如手机、笔记本、平板电脑、计算机等等，终端中可以安装有多个应用程序(Application，App)，例如新浪微博、贴吧、花椒直播、斗鱼直播等等，终端可将相应的应用的数据传输给服务器进行处理。

(2)和/或，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面，结合附图及优选的实施例介绍本发明实施例的技术方案。

如图1所示，本发明实施例提供一种垃圾评论信息识别方法，该方法可应用于垃圾评论信息识别装置，例如服务器。该方法的步骤可以描述如下。

S11：服务器获取针对第一原文的待处理评论信息，并确定待处理评论信息对应的评论者ID以及第一原文对应的发布者ID；其中，待处理评论信息的内容具有至少一个预设特征。

本发明实施例中，第一原文可以是指用户通过电子设备在网络中发表的内容，例如第一原文可以是文本、图像或视频等内容。在实际应用中，第一原文也可以是一种或多种内容的组合。

至少一个预设特征可以是包括特征字/词、特征字符串、特征图片等。

待处理评论信息可以是服务器从第一原文的评论信息中检索出来的，例如，检索接收的针对第一原文的评论信息中包括特征字符串(如QQ号、手机号码或网址)或特殊词等的评论信息。

进而，服务器可以确定发表待处理评论信息的评论者的账号信息，本文称为评论者ID。相应的，服务器还可以确定第一原文对应的发布者的账号信息，本文称为发布者ID或SID。

S12：服务器确定评论者ID针对发布者ID的至少一个原文发出的评论信息的总数量，以及评论信息中目标评论信息的数量；其中，至少一个原文包括第一原文，目标评论信息为包含至少一个预设特征的评论信息。

在实际应用中，服务器可以确定评论者ID针对第一原文或发布者ID下的部分或全部原文所发出的评论信息的总数量。

例如，若服务器检测到微博用户A针对微博用户B发表的一条微博(即第一原文)的第一评论信息中包括字符串，如QQ号码，那么，服务器可以确定微博用户A针对微博用户B的该条微博的全部评论信息的总数量，或确定微博用户A针对微博用户B发表的全部的微博原文所发出的评论信息的总数量。

如果至少一个原文包括发布者ID对应的部分原文，如发布者在一定时间段内发布的原文，例如一周或一个月等等。服务器也可以选择检索发布者ID下的部分原文，例如服务器可以检索微博用户A针对微博用户B的该条微博的全部评论信息的总数量。

服务器在确定至评论者ID针对发布者的至少一个原文的评论信息的总数量后，还可以确定这些评论信息中包括至少一个预设特征的目标评论信息的数量。例如，确定微博用户A针对微博用户B发表的第一原文的全部评论信息为6条，其中包含预设特征(如特殊字符串或特殊图片)的内容的信息为2条。

在实际应用中，由于违法用户主要想插入垃圾评论信息(例如广告)的地方，通常是粉丝数量多的主播发布的内容，例如在针对粉丝数量多的主播的发表内容的评论中插入广告，则广告的影响范围越广。

因此，在S12之前，服务器还可以根据确定第一原文的发布者ID对应的关注者数量，该关注者数量可以是发布者ID对应的粉丝(观众)的数量，例如确定微博用户B的粉丝量。进而，服务器可以判断发布者ID对应的关注者数量是否大于等于一预设数量，该预设数量可以是预先设置的，用于表征发布者ID的影响力。例如，预设数量可以5w、10w或20w等数值，其中w表示数值单位“万”。

如果服务器确定关着者数量大于等于预设数量，例如10w，则可以确定发发布者ID的关注度较高，其发表的原文的影响力较大。相应的，则评论者针对该发布者ID的原文发表的待处理评论信息的影响度也就较大。此时，服务器可进一步根据待处理信息对相关的账户信息进行分析，例如确定评论者ID针对发布者ID的至少一个原文的评论数量的总数量等。

S13：若确定目标评论信息的数量大于等于第一预设数量，且目标评论信息的数量与评论信息的总数量的比值大于等于预设比值，服务器确定待处理评论信息为垃圾评论信息。

本发明实施例中，服务器在确定评论者ID和发布者ID之后，可以根据获取的账号ID信息以及相应的评论操作，对评论者ID进行综合评价，以确定其发表的包含预设特征内容的待处理信息是否为垃圾评论信息，有助于提高识别垃圾评论信息的准确性。

具体来说，在确定针对至少一个原文的评论信息的总数量，以及目标评论信息的数量之后，并判断其是否满足以下条件：

①目标评论信息的数量大于等于第一预设数量；

②目标评论信息的数量与评论信息的总数量的比值大于等于预设比值。

如果确定两个条件均满足，则可以认为处理评论信息为垃圾评论信息。也就是说，如果确定评论者ID针对针对一个原文发表的评论信息中目标评论信息的数量达到一定数量，且目标评论信息的数量与评论信息的总数量的比值达到预设比值，即可认为评论者ID对应的用户为恶意的违法用户。

在实际应用中，第一预设数量和预设比值可以是预设的固定数值。或者，也可以是根据当前评论者ID与发布者ID相关的信息来动态设置。

具体来说，服务器在设置第一预设数量和预设比值时，可以是确定发布者ID对应的来自评论者ID的互动信息的数量，该互动信息可以是评论者ID针对至少一个原文发出的参与性信息，例如点赞、赠送的虚拟礼物等等。

进而，服务器可以根据评论信息的总数量及互动信息的数量，确定评论者ID对应的第一预设数量和预设比值。此时，服务器可以根据预设评估规则及评论信息的总数量及互动信息的数量，评估评论者ID对应的参与度参数，该参与度参数用于表征评论者ID针对至少一个原文的评论的参与情况。

预设评估规则可以是根据预设的规则，例如基于评论信息的总数量及互动信息的数量，来综合评估评论者ID针对至少一个原文的评论的参与情况，即参与度参数。例如，如果微博用户A对微博用户B的每一条微博都有点赞(和/或赠送礼物)及至少一个评论，那么可以认为微博用户A的参与度参数为100％。

进而，服务器可以根据参与度参数与预设数量及预设比值之间的对应关系，确定第一预设数量及预设比值，其中的对应关系可以是预先设置的。服务器在评估出参数度参数后，根据参与度参数即可确定相应的第一预设数量和预设比值。本发明实施例中，评论者的参与度越高，容忍度也就可以越高，则相应设置的第一预设数量和第一预设比值的数值可以越大。

故通过根据评论者ID针对发布者ID的原文发出的评论信息总数量及互动信息的数量，即可对评论者ID对应的评论用户的参数度进行评估，从而根据评估结果设置相应的门限值，故根据对发布者ID的原文发出的评论信息及互动信息的不同情况，可以对各个评论者ID发出的目标评论信息设置相应的门限值，即同一各原文可能针对各评论者ID的容忍度不同，而该容忍度与评论者针对发布者的原文的参与度相关，使得设置的第一预设数量和预设比值的方式较为灵活。且针对不同的评论者ID可以确定相应的门限值，能够实现基于评论过程的实际情况(如总评论数、隐含垃圾内容的评论的数量，或互动信息的数量等)来进行设置，具有较高的准确性。

在S13之后，服务器可以删除恶意用户(即评论者ID)发出的针对第一原文的垃圾评论信息，或者，也可以删除评论者ID针对第一原文的全部评论信息。

下面，通过举例说明本发明实施例中的垃圾评论信息识别方法的应用场景。

1)服务器检索并确定待评估的评论中的隐含垃圾内容。

例如，服务器在数据检索中发现一条评论为“小学初中高中网课，快速提升成绩捷径，秋秋412856345”，评论者ID(后续简称ID)对应于R用户，则可确定该信息列为隐含垃圾内容范围，确定为垃圾内容识别对象。

2)服务器可以获得该评论所针对的作品(即第一原文)的发布者ID(后续简称SID)，并计算SID下的粉丝数目的总和，即为评论的影响值；以及，服务器还可获取评论用户ID在该SID用户发布作品下所有隐含垃圾内容评论数目；

例如，服务器通过自身的获取模块得出，待评估的隐含垃圾内容所针对作品的SID对应于A用户，A用户的粉丝为28w，即该评论的关注者的数量为28w，相应的影响值即为28w。R用户在A用户发布作品下所有评论中隐含垃圾内容数目为8条。

3)服务器判断关注者数量(即评论影响值)是否大于第一门限值，该ID在该SID发布作品下所有隐含垃圾内容评论数目是否大于第二门限值，且仅在两者均超过相应的阈值时，进入下一步判断。

例如，如果设置第一门限值为10万，第二门限值为5条。上述中已知该评论影响值为28w，超过第一门限值10w；R用户在A用户发布作品下所有隐含垃圾内容评论数目为8条，超过第二门限值5条。两个关键指标均超过阀值，列入进一步考察范围。

4)获取该评论用户ID对上述作品的参与度；

用户参与度核算模块对R用户在A用户发布作品下评论总数目(和/或互动信息的数量)进行计算，统计结果为评论(和/或互动信息的数量)总数目为15条，即用户参与度为15。

5)计算该评论用户ID隐含垃圾评论信息的比例；

上述中已知用户R在A用户发布作品下所有隐含垃圾内容评论数目为8条，R用户在A用户发布作品下评论总数目为15条，则R用户隐含垃圾评论信息的比例为8/15＝53％。

6)判断用户ID隐含垃圾评论信息的比例是否大于第三门限，如大于，则判定为垃圾短信，执行相应处理。

如果设置第三门限值为50％，而R用户在A用户发布作品下隐含垃圾评论信息的比例为8/15＝53％，超过第三门限值，判定为垃圾内容，并执行相应的处理，例如删除评论或删除用户ID等常规操作，上述处理流程如图2所示。

实施例二

基于同一发明构思，如图3所示，本发明实施例中提供一种垃圾评论信息识别装置，该装置包括获取模块21、第一确定模块22和第二确定模块23。

获取模块21可以用于获取针对第一原文的待处理评论信息，并确定所述待处理评论信息对应的评论者ID以及所述第一原文对应的发布者ID；其中，所述待处理评论信息的内容具有至少一个预设特征。

第一确定模块22可以用于确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中目标评论信息的数量；其中，所述至少一个原文包括所述第一原文，所述目标评论信息为包含所述至少一个预设特征的评论信息。

第二确定模块23可以用于若确定所述目标评论信息的数量大于等于第一预设数量，且所述目标评论信息的数量与所述评论信息的总数量的比值大于等于预设比值，则确定所述待处理评论信息为垃圾评论信息。

可选的，所述垃圾评论信息识别装置还包括：

可选的，所述第四确定模块用于：

可选的，所述垃圾评论信息识别装置还包括：

实施例三

请参见图4，基于同一发明构思，本发明实施例中提供一种计算机装置，包括至少一个处理器31，以及与所述至少一个处理器31通信连接的存储器32和通信接口33，图4中以示出一个处理器31为例。

其中，所述存储器32存储有可被所述至少一个处理器31执行的指令，所述至少一个处理器31通过执行所述存储器32存储的指令，利用所述通信接口33执行如实施例一中所述的方法。

实施例四

基于同一发明构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如实施例一所述的方法。

在具体的实施过程中，计算机可读存储介质包括：通用串行总线闪存盘(Universal Serial Bus flash drive，USB)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的，作为单元/模块显示的部件可以是或者也可以不是物理单元/模块，即可以位于一个地方，或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种垃圾评论信息识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在确定所述评论者ID针对所述发布者ID的至少一个原文的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之前，所述方法还包括：

确定所述发布者ID对应的关注者数量；

确定所述关注者数量大于等于第二预设数量。

3.如权利要求1或2所述的方法，其特征在于，在确定所述评论者ID针对所述发布者ID的至少一个原文发出的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之后，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，根据所述评论信息的总数量及所述互动信息的数量，确定所述评论者ID对应的所述第一预设数量和所述预设比值，包括：

5.如权利要求1所述的方法，其特征在于，在确定所述待处理评论信息为垃圾评论信息之后，所述方法还包括：

删除所述垃圾评论信息；或

删除所述评论者ID针对所述第一原文的全部评论信息。

6.一种垃圾评论信息识别装置，其特征在于，包括：

7.如权利要求6所述的识别装置，其特征在于，所述垃圾评论信息识别装置还包括：

第三确定模块，用于在确定所述评论者ID针对所述发布者ID的至少一个原文的评论信息的总数量，以及所述评论信息中包括的目标评论信息的数量之前，确定所述发布者ID对应的关注者数量，并确定所述关注者数量大于等于第二预设数量。

8.如权利要求6或7所述的识别装置，其特征在于，所述垃圾评论信息识别装置还包括：

9.如权利要求8所述的识别装置，其特征在于，所述第四确定模块用于：

10.如权利要求6所述的识别装置，其特征在于，所述垃圾评论信息识别装置还包括：

11.一种计算机装置，其特征在于，所述计算机装置包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器、通信接口；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，利用所述通信接口执行如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。