CN112529629A

CN112529629A - 恶意用户评论刷量行为识别方法及系统

Info

Publication number: CN112529629A
Application number: CN202011492714.0A
Authority: CN
Inventors: 李国库; 徐鹏; 张惟师; 罗海斌; 王鹏
Original assignee: Beijing Juli Science and Technology Co Ltd
Current assignee: Beijing tulayan Technology Co.,Ltd.
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-19

Abstract

本发明涉及互联网的技术领域，特别是涉及恶意用户评论刷量行为识别方法及系统，用机器代替人工，可以全量覆盖所有评论，及时发现问题，不需要设置用户评论的上限，不影响正常用户的体验，对于多条评论只有部分内容重复的情况也可以精准的找出来；包括以下步骤：S1、获取数据：S2、判断每个句子对是否涉嫌重复：S3、通过重复评论次数阈值判定是否为恶意用户。

Description

恶意用户评论刷量行为识别方法及系统

技术领域

本发明涉及互联网的技术领域，特别是涉及恶意用户评论刷量行为识别方法及系统。

背景技术

对于互联网公司、客户可以在评论区发表评论，恶意用户会在评论区重复发表一些内容、形式相近评论，如重复发表恶意差评、虚假广告，诈骗信息等，造成网站用户体验下降、网站信誉受损等问题。

现有技术中，大多采用运营人员人工监控以及直接限制用户一段时间内的评论条数的方式，由于时间和精力有限，运营人员无法全量来进行监控，直接限制用户一段时间内的评论条数也会影响正常用户的体验，并且如果多条评论间只有部分内容重复难以发现，因此提出一种恶意用户评论刷量行为识别方法及系统来解决上述问题。

发明内容

为解决上述技术问题，本发明的一个目的在于提供一种恶意用户评论刷量行为识别方法，用机器代替人工，可以全量覆盖所有评论，及时发现问题，不需要设置用户评论的上限，不影响正常用户的体验，对于多条评论只有部分内容重复的情况也可以精准的找出来。

本发明的另一个目的在于提供一种恶意用户评论刷量行为识别系统。

本发明的恶意用户评论刷量行为识别方法，包括以下步骤：

S1、获取数据：

S101：获取用户的待发表评论，并在数据库中获取同一用户，一时间段内的已发表评论，时间为多久，由经验而定；

S102：获取的所有的句子，两两拼接成待比较的句子对；

S2、判断每个句子对是否涉嫌重复：

对于每个句子对进行以下操作：

S201：比较两个文本的长短，如果两个文本一样长，认定第一句为短文本，第二句为长文本；

S202：将其中较短的文本按照滑动窗口的形式切割成多个短句，步长为1，窗口大小由经验；

S203：S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较；

S204：返回最大的重复度评分；

S3、通过重复评论次数阈值判定是否为恶意用户：

如果同一用户一段时间内的重复句子对超过预先设定的阈值，判定用户为恶意刷量用户。

本发明的恶意用户评论刷量行为识别方法，所述重复度计算方法包括以下两种：

第一种：使用编辑距离的方式，计算两个文本的编辑距离，求得重复度为：

重复度＝(两个文本的长度和-编辑距离)/两个文本的长度和；

第二种：

①求两个文本的最长的公共子串，记下相似值＝最长公共子串的数值*2；

②两个原文本去掉最长公共子串，两个文本剩下的左面和左面用上述方法继续比较；两个文本剩下的右面和右面继续用上述方法比较；

③相似值为每个过程相似值的累加值：重复度＝最终的相似值/两个字符串之和。

本发明的恶意用户评论刷量行为识别系统，包括以下模块：

获取数据模块：连接数据库，从数据库中获取同一用户，一时间段内的所有评论；

处理数据模块：用户的所有评论拼两两拼凑成句子对，并将句子对中的较短的句子，按照滑动窗口的形式切割成多个子句；

重复度比较模块：按照滑动窗口的方式，比较用户的所有的句子对，计算句子间的重复度；

判定模块：根据重复的句子对数量和预先设定的阈值，判定该用户是否是恶意用户；

报警模块：发现恶意用户，将恶意用户加入黑名单，禁止恶意用户发评论，发送报警信息给运营人员；

客户管理模块：运营人员可以手动将客户从黑名单中移除，解除对其禁止发表评论的限制。

与现有技术相比本发明的有益效果为：句子对在对比时，先对短文本，进行窗口方式的切割处理，然后每个切割后的小短句与长句子通过滑动窗口的方式对比，每次对比，采用多种重复度计算方式结合，用机器代替人工，可以全量覆盖所有评论，及时发现问题，不需要设置用户评论的上限，不影响正常用户的体验，对于多条评论只有部分内容重复的情况也可以精准的找出来。

附图说明

图1是本发明的方法流程图；

图2是本发明的系统结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1至图2所示，本发明的恶意用户评论刷量行为识别方法，包括以下步骤：

S1、获取数据：

S102：获取的所有的句子，两两拼接成待比较的句子对；

例如：某用户一段时间内的全部有以下三句：

①“户型宽敞，有兴趣加我微信：xxxxxxxxxxx”

②“价格合理，有兴趣加我微信：xxxxxxxxxxx”

③“交通便利，有兴趣加我微信：xxxxxxxxxxx”

那么可以两两拼接成以下三个句子对：

①“户型宽敞，有兴趣加我微信：xxxxxxxxxxx”

“价格合理，有兴趣加我微信：xxxxxxxxxxx”

②“户型宽敞，有兴趣加我微信：xxxxxxxxxxx”

“交通便利，有兴趣加我微信：xxxxxxxxxxx”

③“价格合理，有兴趣加我微信：xxxxxxxxxxx”

“交通便利，有兴趣加我微信：xxxxxxxxxxx”

S2、判断每个句子对是否涉嫌重复：

对于每个句子对进行以下操作：

S204：返回最大的重复度评分；

举例说明，举例句子对为以下两句：

“户型宽敞，有兴趣加我微信：xx”

“价格合理，有兴趣加我微信：xx”

比较两个句子，第一句为短文本，设置窗口大小为11，切割第一句话，得到多个短句如下：“户型宽敞，有兴趣加我微”“型宽敞，有兴趣加我微信”“宽敞，有兴趣加我微信：”“敞，有兴趣加我微信：x”“，有兴趣加我微信：xx”等5个短句；

每个短句的滑动比较过程如下，以上述第一个短句为例，即“价格合理，有兴趣加我微信：xx”和“户型宽敞，有兴趣加我微”进行比较：

第一次比较：

“价格合理，有兴趣加我微信：xx”

“户型宽敞，有兴趣加我微”

第二次比较：

“价格合理，有兴趣加我微信：xx”

“户型宽敞，有兴趣加我微”

第三次比较：

“价格合理，有兴趣加我微信：xx”

“户型宽敞，有兴趣加我微”

直到滑动到长文本和短句的最后，每一次对应位置进行重复度的比较，每一次滑动会得到一个重复度，最后取最大的重复度，最为短句的重复度；

所有短句都按照上述操作进行，取所有短句最大的重复度作为最初两个句子的重复度；

S3、通过重复评论次数阈值判定是否为恶意用户：

重复度＝(两个文本的长度和-编辑距离)/两个文本的长度和；

第二种：

本发明的恶意用户评论刷量行为识别系统，包括以下模块：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种恶意用户评论刷量行为识别方法，其特征在于，包括以下步骤：

S1、获取数据：

S102：获取的所有的句子，两两拼接成待比较的句子对；

S2、判断每个句子对是否涉嫌重复：

对于每个句子对进行以下操作：

S204：返回最大的重复度评分；

S3、通过重复评论次数阈值判定是否为恶意用户：

2.如权利要求1所述的恶意用户评论刷量行为识别方法，其特征在于，所述重复度计算方法包括以下两种：

重复度＝(两个文本的长度和-编辑距离)/两个文本的长度和；

第二种：

3.一种恶意用户评论刷量行为识别系统，其特征在于，包括以下模块：