CN112529629A - 恶意用户评论刷量行为识别方法及系统 - Google Patents

恶意用户评论刷量行为识别方法及系统 Download PDF

Info

Publication number
CN112529629A
CN112529629A CN202011492714.0A CN202011492714A CN112529629A CN 112529629 A CN112529629 A CN 112529629A CN 202011492714 A CN202011492714 A CN 202011492714A CN 112529629 A CN112529629 A CN 112529629A
Authority
CN
China
Prior art keywords
user
texts
comments
sentence
malicious user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011492714.0A
Other languages
English (en)
Inventor
李国库
徐鹏
张惟师
罗海斌
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing tulayan Technology Co.,Ltd.
Original Assignee
Beijing Juli Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Juli Science and Technology Co Ltd filed Critical Beijing Juli Science and Technology Co Ltd
Priority to CN202011492714.0A priority Critical patent/CN112529629A/zh
Publication of CN112529629A publication Critical patent/CN112529629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网的技术领域,特别是涉及恶意用户评论刷量行为识别方法及系统,用机器代替人工,可以全量覆盖所有评论,及时发现问题,不需要设置用户评论的上限,不影响正常用户的体验,对于多条评论只有部分内容重复的情况也可以精准的找出来;包括以下步骤:S1、获取数据:S2、判断每个句子对是否涉嫌重复:S3、通过重复评论次数阈值判定是否为恶意用户。

Description

恶意用户评论刷量行为识别方法及系统
技术领域
本发明涉及互联网的技术领域,特别是涉及恶意用户评论刷量行为识别方法及系统。
背景技术
对于互联网公司、客户可以在评论区发表评论,恶意用户会在评论区重复发表一些内容、形式相近评论,如重复发表恶意差评、虚假广告,诈骗信息等,造成网站用户体验下降、网站信誉受损等问题。
现有技术中,大多采用运营人员人工监控以及直接限制用户一段时间内的评论条数的方式,由于时间和精力有限,运营人员无法全量来进行监控,直接限制用户一段时间内的评论条数也会影响正常用户的体验,并且如果多条评论间只有部分内容重复难以发现,因此提出一种恶意用户评论刷量行为识别方法及系统来解决上述问题。
发明内容
为解决上述技术问题,本发明的一个目的在于提供一种恶意用户评论刷量行为识别方法,用机器代替人工,可以全量覆盖所有评论,及时发现问题,不需要设置用户评论的上限,不影响正常用户的体验,对于多条评论只有部分内容重复的情况也可以精准的找出来。
本发明的另一个目的在于提供一种恶意用户评论刷量行为识别系统。
本发明的恶意用户评论刷量行为识别方法,包括以下步骤:
S1、获取数据:
S101:获取用户的待发表评论,并在数据库中获取同一用户,一时间段内的已发表评论,时间为多久,由经验而定;
S102:获取的所有的句子,两两拼接成待比较的句子对;
S2、判断每个句子对是否涉嫌重复:
对于每个句子对进行以下操作:
S201:比较两个文本的长短,如果两个文本一样长,认定第一句为短文本,第二句为长文本;
S202:将其中较短的文本按照滑动窗口的形式切割成多个短句,步长为1,窗口大小由经验;
S203:S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较;
S204:返回最大的重复度评分;
S3、通过重复评论次数阈值判定是否为恶意用户:
如果同一用户一段时间内的重复句子对超过预先设定的阈值,判定用户为恶意刷量用户。
本发明的恶意用户评论刷量行为识别方法,所述重复度计算方法包括以下两种:
第一种:使用编辑距离的方式,计算两个文本的编辑距离,求得重复度为:
重复度=(两个文本的长度和-编辑距离)/两个文本的长度和;
第二种:
①求两个文本的最长的公共子串,记下相似值=最长公共子串的数值*2;
②两个原文本去掉最长公共子串,两个文本剩下的左面和左面用上述方法继续比较;两个文本剩下的右面和右面继续用上述方法比较;
③相似值为每个过程相似值的累加值:重复度=最终的相似值/两个字符串之和。
本发明的恶意用户评论刷量行为识别系统,包括以下模块:
获取数据模块:连接数据库,从数据库中获取同一用户,一时间段内的所有评论;
处理数据模块:用户的所有评论拼两两拼凑成句子对,并将句子对中的较短的句子,按照滑动窗口的形式切割成多个子句;
重复度比较模块:按照滑动窗口的方式,比较用户的所有的句子对,计算句子间的重复度;
判定模块:根据重复的句子对数量和预先设定的阈值,判定该用户是否是恶意用户;
报警模块:发现恶意用户,将恶意用户加入黑名单,禁止恶意用户发评论,发送报警信息给运营人员;
客户管理模块:运营人员可以手动将客户从黑名单中移除,解除对其禁止发表评论的限制。
与现有技术相比本发明的有益效果为:句子对在对比时,先对短文本,进行窗口方式的切割处理,然后每个切割后的小短句与长句子通过滑动窗口的方式对比,每次对比,采用多种重复度计算方式结合,用机器代替人工,可以全量覆盖所有评论,及时发现问题,不需要设置用户评论的上限,不影响正常用户的体验,对于多条评论只有部分内容重复的情况也可以精准的找出来。
附图说明
图1是本发明的方法流程图;
图2是本发明的系统结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图2所示,本发明的恶意用户评论刷量行为识别方法,包括以下步骤:
S1、获取数据:
S101:获取用户的待发表评论,并在数据库中获取同一用户,一时间段内的已发表评论,时间为多久,由经验而定;
S102:获取的所有的句子,两两拼接成待比较的句子对;
例如:某用户一段时间内的全部有以下三句:
①“户型宽敞,有兴趣加我微信:xxxxxxxxxxx”
②“价格合理,有兴趣加我微信:xxxxxxxxxxx”
③“交通便利,有兴趣加我微信:xxxxxxxxxxx”
那么可以两两拼接成以下三个句子对:
①“户型宽敞,有兴趣加我微信:xxxxxxxxxxx”
“价格合理,有兴趣加我微信:xxxxxxxxxxx”
②“户型宽敞,有兴趣加我微信:xxxxxxxxxxx”
“交通便利,有兴趣加我微信:xxxxxxxxxxx”
③“价格合理,有兴趣加我微信:xxxxxxxxxxx”
“交通便利,有兴趣加我微信:xxxxxxxxxxx”
S2、判断每个句子对是否涉嫌重复:
对于每个句子对进行以下操作:
S201:比较两个文本的长短,如果两个文本一样长,认定第一句为短文本,第二句为长文本;
S202:将其中较短的文本按照滑动窗口的形式切割成多个短句,步长为1,窗口大小由经验;
S203:S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较;
S204:返回最大的重复度评分;
举例说明,举例句子对为以下两句:
“户型宽敞,有兴趣加我微信:xx”
“价格合理,有兴趣加我微信:xx”
比较两个句子,第一句为短文本,设置窗口大小为11,切割第一句话,得到多个短句如下:“户型宽敞,有兴趣加我微”“型宽敞,有兴趣加我微信”“宽敞,有兴趣加我微信:”“敞,有兴趣加我微信:x”“,有兴趣加我微信:xx”等5个短句;
每个短句的滑动比较过程如下,以上述第一个短句为例,即“价格合理,有兴趣加我微信:xx”和“户型宽敞,有兴趣加我微”进行比较:
第一次比较:
“价格合理,有兴趣加我微信:xx”
“户型宽敞,有兴趣加我微”
第二次比较:
“价格合理,有兴趣加我微信:xx”
“户型宽敞,有兴趣加我微”
第三次比较:
“价格合理,有兴趣加我微信:xx”
“户型宽敞,有兴趣加我微”
直到滑动到长文本和短句的最后,每一次对应位置进行重复度的比较,每一次滑动会得到一个重复度,最后取最大的重复度,最为短句的重复度;
所有短句都按照上述操作进行,取所有短句最大的重复度作为最初两个句子的重复度;
S3、通过重复评论次数阈值判定是否为恶意用户:
如果同一用户一段时间内的重复句子对超过预先设定的阈值,判定用户为恶意刷量用户。
本发明的恶意用户评论刷量行为识别方法,所述重复度计算方法包括以下两种:
第一种:使用编辑距离的方式,计算两个文本的编辑距离,求得重复度为:
重复度=(两个文本的长度和-编辑距离)/两个文本的长度和;
第二种:
①求两个文本的最长的公共子串,记下相似值=最长公共子串的数值*2;
②两个原文本去掉最长公共子串,两个文本剩下的左面和左面用上述方法继续比较;两个文本剩下的右面和右面继续用上述方法比较;
③相似值为每个过程相似值的累加值:重复度=最终的相似值/两个字符串之和。
本发明的恶意用户评论刷量行为识别系统,包括以下模块:
获取数据模块:连接数据库,从数据库中获取同一用户,一时间段内的所有评论;
处理数据模块:用户的所有评论拼两两拼凑成句子对,并将句子对中的较短的句子,按照滑动窗口的形式切割成多个子句;
重复度比较模块:按照滑动窗口的方式,比较用户的所有的句子对,计算句子间的重复度;
判定模块:根据重复的句子对数量和预先设定的阈值,判定该用户是否是恶意用户;
报警模块:发现恶意用户,将恶意用户加入黑名单,禁止恶意用户发评论,发送报警信息给运营人员;
客户管理模块:运营人员可以手动将客户从黑名单中移除,解除对其禁止发表评论的限制。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (3)

1.一种恶意用户评论刷量行为识别方法,其特征在于,包括以下步骤:
S1、获取数据:
S101:获取用户的待发表评论,并在数据库中获取同一用户,一时间段内的已发表评论,时间为多久,由经验而定;
S102:获取的所有的句子,两两拼接成待比较的句子对;
S2、判断每个句子对是否涉嫌重复:
对于每个句子对进行以下操作:
S201:比较两个文本的长短,如果两个文本一样长,认定第一句为短文本,第二句为长文本;
S202:将其中较短的文本按照滑动窗口的形式切割成多个短句,步长为1,窗口大小由经验;
S203:S202中的结果依次采用滑动窗口的方式和S201中较长的文本进行重复度比较;
S204:返回最大的重复度评分;
S3、通过重复评论次数阈值判定是否为恶意用户:
如果同一用户一段时间内的重复句子对超过预先设定的阈值,判定用户为恶意刷量用户。
2.如权利要求1所述的恶意用户评论刷量行为识别方法,其特征在于,所述重复度计算方法包括以下两种:
第一种:使用编辑距离的方式,计算两个文本的编辑距离,求得重复度为:
重复度=(两个文本的长度和-编辑距离)/两个文本的长度和;
第二种:
①求两个文本的最长的公共子串,记下相似值=最长公共子串的数值*2;
②两个原文本去掉最长公共子串,两个文本剩下的左面和左面用上述方法继续比较;两个文本剩下的右面和右面继续用上述方法比较;
③相似值为每个过程相似值的累加值:重复度=最终的相似值/两个字符串之和。
3.一种恶意用户评论刷量行为识别系统,其特征在于,包括以下模块:
获取数据模块:连接数据库,从数据库中获取同一用户,一时间段内的所有评论;
处理数据模块:用户的所有评论拼两两拼凑成句子对,并将句子对中的较短的句子,按照滑动窗口的形式切割成多个子句;
重复度比较模块:按照滑动窗口的方式,比较用户的所有的句子对,计算句子间的重复度;
判定模块:根据重复的句子对数量和预先设定的阈值,判定该用户是否是恶意用户;
报警模块:发现恶意用户,将恶意用户加入黑名单,禁止恶意用户发评论,发送报警信息给运营人员;
客户管理模块:运营人员可以手动将客户从黑名单中移除,解除对其禁止发表评论的限制。
CN202011492714.0A 2020-12-16 2020-12-16 恶意用户评论刷量行为识别方法及系统 Pending CN112529629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492714.0A CN112529629A (zh) 2020-12-16 2020-12-16 恶意用户评论刷量行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492714.0A CN112529629A (zh) 2020-12-16 2020-12-16 恶意用户评论刷量行为识别方法及系统

Publications (1)

Publication Number Publication Date
CN112529629A true CN112529629A (zh) 2021-03-19

Family

ID=75000900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492714.0A Pending CN112529629A (zh) 2020-12-16 2020-12-16 恶意用户评论刷量行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN112529629A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436712A (zh) * 2021-06-08 2021-09-24 四川数字链享科技有限公司 一种用于智慧医疗云服务平台的评价管理系统
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
EP2390793A1 (en) * 2010-05-27 2011-11-30 Códice Software S.L Parque Tecnológico de Boecillo Method for determining similarity of text portions
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN111291551A (zh) * 2020-01-22 2020-06-16 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
EP2390793A1 (en) * 2010-05-27 2011-11-30 Códice Software S.L Parque Tecnológico de Boecillo Method for determining similarity of text portions
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN111291551A (zh) * 2020-01-22 2020-06-16 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周金萍: "浅析淘宝网信用问题", 《西部皮革》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436712A (zh) * 2021-06-08 2021-09-24 四川数字链享科技有限公司 一种用于智慧医疗云服务平台的评价管理系统
CN113436712B (zh) * 2021-06-08 2024-01-09 四川临丰医疗科技有限公司 一种用于智慧医疗云服务平台的评价管理系统
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN105072089B (zh) 一种web恶意扫描行为异常检测方法与系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN105045847B (zh) 一种从文本信息中提取中文机构单位名称的方法
CN102054016A (zh) 用于撷取及管理社群智能信息的系统及方法
CN111104521B (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN106886579B (zh) 实时流式文本分级监控方法和装置
Gaglani et al. Unsupervised whatsapp fake news detection using semantic search
CN112529629A (zh) 恶意用户评论刷量行为识别方法及系统
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN106383862A (zh) 一种违规短信检测方法及系统
CN113537206A (zh) 推送数据检测方法、装置、计算机设备和存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN117235532B (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN104462279A (zh) 分析对象特征信息的获取方法和装置
CN115203758B (zh) 一种数据安全存储方法、系统及云平台
CN109858017B (zh) 一种数据处理方法及电子设备
CN109918638B (zh) 一种网络数据监测方法
CN111062199A (zh) 一种不良信息识别方法及装置
CN115757837A (zh) 知识图谱的置信度评估方法、装置、电子设备及介质
CN115630357A (zh) 一种应用程序越界收集个人信息行为的判定方法
CN115510192A (zh) 一种新闻事件脉络关系检测方法及装置
CN115186095A (zh) 一种未成年人文本识别方法及装置
CN115150354A (zh) 一种生成域名的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210830

Address after: 100000 1025, floor 1, No. 1, Kaifa Road, Shangdi Information Industry base, Haidian District, Beijing

Applicant after: Beijing tulayan Technology Co.,Ltd.

Address before: 100089 2 / F commercial-01, block C, building 3, 8 guangqumenwai street, Chaoyang District, Beijing

Applicant before: Beijing Juli Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20210319

RJ01 Rejection of invention patent application after publication