CN117076812B - 一种网络信息发布传播平台智能监测管理系统 - Google Patents
一种网络信息发布传播平台智能监测管理系统 Download PDFInfo
- Publication number
- CN117076812B CN117076812B CN202311325230.0A CN202311325230A CN117076812B CN 117076812 B CN117076812 B CN 117076812B CN 202311325230 A CN202311325230 A CN 202311325230A CN 117076812 B CN117076812 B CN 117076812B
- Authority
- CN
- China
- Prior art keywords
- comment
- comments
- false
- score
- suspected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims description 47
- 238000009792 diffusion process Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000008451 emotion Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003892 spreading Methods 0.000 abstract description 3
- 238000012552 review Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000518 effect on emotion Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于网络信息监管技术领域,具体公开一种网络信息发布传播平台智能监测管理系统,本发明考虑到虚假电影评论的本质形成是发布者利用机器人账号批量发布,由此遵循机器人账号发布的特点对符合虚假电影评论表现特征的疑似虚假评论进行账号IP地址追踪,实现了对疑似虚假评论的进一步追踪确认,最大限度提高了评判结果的精准性,与此同时通过对虚假电影评论的传播扩散指数进行分析,并紧紧抓住虚假电影评论的发布者操纵属性,针对虚假电影评论的发布账号进行发布者操纵惯性分析,由此结合上述两者综合对虚假评论进行处理,使得处理结果能够重点凸显对发布者的处理,很大程度上避免出现处理过轻的现象,有助于提高监管效果。
Description
技术领域
本发明属于网络信息监管技术领域,特别涉及电影虚假评论监管计算,具体为一种网络信息发布传播平台智能监测管理系统。
背景技术
随着互联网的不断发展,给公众获取信息提供了海量的信息渠道,但其中部分信息可能是不准确或虚假的,信息碎片化使得公众容易受到片段式信息的影响,从而产生带有评论的网络信息。
伴随着人们物质生活水平的不断提高,人们已不再满足于物质方面的享受,而是越来越追求精神文化方面的享受,在这种情况下,电影逐渐进入到人们的精神文化领域,目前人们对电影的筛选在很大程度上依赖于电影评论,电影评论是观众对电影品质和体验的直接反映,但存在一些人可能出于商业或个人利益的考虑,通过发布虚假评论来影响电影的口碑和票房,在这种情况下针对虚假电影评论进行监管有利于提高电影评价的公正性与真实性。
进行虚假电影评论网络信息监管的首要操作就是对虚假评论的评判,虚假评论的评判精准性直接影响了网络信息监管实施是否必要,然而现有技术在进行虚假电影评论评判时当识别某条电影评论符合虚假电影评论的表现特征时认定该电影评论即为虚假电影评论,缺乏对虚假电影评论认定结果的进一步追踪确认,导致评判过程过于浅显化,容易发生评判失误的情况,从而影响了评判结果的精准性,不利于网络信息监管有效性的发挥。
另外目前针对虚假电影评论进行处理时常以虚假电影评价造成的扩散传播影响作为处理依据,没有抓住虚假电影评论形成的本质属性——发布者操纵,由于对虚假电影评论的处理归根到底是对发布者的处理,而发布者的虚假评论操纵行为是否具有惯性直接反映了发布者对制造虚假评论的态度,这个是影响处理结果的关键性因素,而现有技术缺乏对发布者操纵惯性的分析,导致处理依据维度过于单一且表面化,容易导致处理方式过轻,造成监管威慑力不够,从而降低了监管效果,不利于公正公平评价环境的保障。
发明内容
鉴于此,为解决上述背景技术中所提出的问题,现提出一种网络信息发布传播平台智能监测管理系统。
本发明的目的可以通过以下技术方案实现:一种网络信息发布传播平台智能监测管理系统,包括:电影评论采集模块,用于从各电影关联平台采集目标电影上映设定时段对应的所有评论。
评分分布识别模块,用于从目标电影对应的各条评论中提取评分值,并依据评分值将各条评论归类为高分评论、中间评论和低分评论,进而计算高分评论、中间评论和低分评论对应的分布占比率。
评论相似分析模块,用于提取各条评论对应的文本内容,并进行相互对比,计算目标电影对应的评论相似度。
疑似虚假评论判断模块,用于基于高分评论、中间评论和低分评论对应的分布占比率和目标电影对应的评论相似度判断目标电影对应的所有评论中是否存在疑似虚假评论。
疑似虚假评论提取模块,用于当判断目标电影对应的所有评论中存在疑似虚假评论时提取疑似虚假评论。
疑似虚假评论追踪确认模块,用于对疑似虚假评论进行追踪审核,确认是否为虚假评论。
虚假评论传播扩散评估模块,用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的传播扩散指数。
虚假评论发布者操纵惯性评估模块,用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的发布者操纵惯性指数。
虚假评论智能处理模块,用于基于虚假评论对应的传播扩散指数和发布者操纵惯性指数对虚假评论进行智能处理。
在一种可替换的实施方式中,所述依据评分值将各条评论归类为高分评论、中间评论和低分评论具体实施过程如下:将各条评论的评分值分别与设定的高值评分和低值评分进行对比,若某评论的评分值大于或等于设定的高值评分,则将该评论归类为高分评论,若某评论的评分值小于或等于设定的低值评分,则将该评论归类为低分评论,若某条评论的评分值处于低值评分与高值评分之间,则将该评论归类为中间评论。
在一种可替换的实施方式中,所述计算目标电影对应的评论相似度参见下述过程:获取各条评论对应的发布时间,进而将各条评论按照发布时间由先到后的顺序进行排列。
按照评论的排列顺序依次提取各条评论作为主体评论,进而将主体评论的文本内容与其他评论的文本内容进行重合对比,得到以各条评论作为主体评论与其他评论的文本重合字数和文本重合内容。
将文本重合内容进行分词处理,并获取各分词的归属词类,其中归属词类包括情感词和非情感词,进而统计情感词对应的分词占比率。
利用表达式计算出以各条评论作为主体评论与其他评论的相似度/>,其中i表示为作为主体评论的评论编号,,j表示为除主体评论之外的其他评论编号,/>且/>,/>、/>分别表示为以第i条评论作为主体评论与其他第j条评论的文本重合字数、情感词对应的分词占比率,/>表示为以第i条评论作为主体评论的文本字数,e表示为自然常数。
将以各条评论作为主体评论与其他评论的相似度与预先配置的有效相似度进行对比,若以某条评论作为主体评论中存在与某其他评论的相似度大于预先配置的有效相似度,则将该其他评论记为相似评论,由此构成以各条评论作为主体评论的相似评论组,进而统计相似评论组中存在的相似评论数量,进而取最大相似评论数量所处相似评论组对应的主体评论作为特定评论。
将特定评论对应相似评论组中存在的相似度进行均值计算,并将计算结果作为目标电影对应的评论相似度。
在一种可替换的实施方式中,所述判断目标电影对应的所有评论中是否存在疑似虚假评论包括以下步骤:将高分评论、低分评论对应的分布占比率分别与中间评论对应的分布占比率进行差值对比,得到中间评论对应的分布占比率高分差值和分布占比率低分差值。
将中间评论对应的分布占比率高分差值和分布占比率低分差值及目标电影对应的评论相似度导入公式,计算出目标电影对应的评论疑似虚假度,式中/>、/>分别表示为间评论对应的分布占比率高分差值、分布占比率低分差值,表示为目标电影对应的评论相似度。
将目标电影对应的评论疑似虚假度与设置阈值进行对比,若目标电影对应的评论疑似虚假度大于设置阈值,则判断目标电影对应的所有评论中存在疑似虚假评论,反之则判断目标电影对应的所有评论中不存在疑似虚假评论。
在一种可替换的实施方式中,所述疑似虚假评论的提取过程如下:分别从目标电影对应的高分评论、低分评论中识别是否存在相似评论组,若高分评论中存在相似评论组,则将高分评论对应的相似评论组中连同主体评论构成疑似虚假评论组,若低分评论中存在相似评论组,则将低分评论对应的相似评论组连同主体评论构成疑似虚假评论组。
在一种可替换的实施方式中,所述对疑似虚假评论进行追踪审核具有实施过程如下:统计提取的疑似虚假评论组数量,并依次获取各疑似虚假评论组中各条评论的账号IP地址,并进行相互对比,计算各疑似虚假评论组中评论账号IP地址的重复率,k表示为疑似虚假评论组的编号,/>。
识别各疑似虚假评论组中各条评论的账号IP地址来源,进而统计来源为代理服务器的账号占比率。
将各疑似虚假评论组中各条评论的发布时间进行对比,获取相邻评论的间隔发布时长,并进行均值计算,得到各疑似虚假评论组对应的平均发布间隔时长。
将、/>和/>导入表达式,计算出各疑似虚假评论组对应的账号异常度/>,式中T表示为目标电影上映设定时段对应的时长。
在一种可替换的实施方式中,所述确认是否为虚假评论的实现过程如下:将各疑似虚假评论组对应的账号异常度与设置的允许账号异常度进行对比,若某疑似虚假评论组对应的账号异常度大于设置的允许账号异常度,则将该疑似虚假评论组记为重点虚假评论组,并确认重点虚假评论组中存在的所有评论为虚假评论。
在一种可替换的实施方式中,所述评估虚假评论对应的传播扩散指数包括下述步骤:统计重点虚假评论组中存在的虚假评论数量,并获取各条虚假评论对应的传播状态指征,其中传播状态指征包括传播类型和传播量,并据此计算各条虚假评论对应的传播关注度,其中/>表示为第d条虚假评论对应传播类型的表现力因子,d表示为虚假评论编号,/>,/>表示为第d条虚假评论对应的传播量。
结合各条虚假评论对应的传播关注度通过评估公式,得到虚假评论对应的传播扩散指数/>。
在一种可替换的实施方式中,所述评估虚假评论对应的发布者操纵惯性指数参见下述评论步骤:以目标电影的上映初始日期为截止日期,并将其结合人工初始设置的监测时长向前推算,得到起始日期,起始日期与截止日期构成了历史监测时间段,并获取历史监测时间段内上映的电影,记为参照电影,进而提取各参照电影上映时段内的所有评论,与此同时获取各条评论的账号IP地址。
将重点虚假评论组中各条虚假评论的账号IP地址与各参照电影对应各条评论的账号IP地址进行匹配,若某条虚假评论的账号IP地址与某参照电影对应某条评论的账号IP地址匹配成功,则将该参照电影记为参与电影,并统计参与电影的虚假评论匹配成功占比率;
通过评估表达式,计算出虚假评论对应的发布者操纵惯性指数/>。
在一种可替换的实施方式中,所述对虚假评论进行智能处理的处理方式为:将和导入处理模型:/>,模型中/>、/>分别表示为预先配置的限定传播扩散指数、限定发布者操纵惯性指数,/>表示符号非,/>表示符号与。
相较于现有技术,本发明的有益效果如下:(1)本发明在进行虚假电影评论评判前增加了结合电影评论评分分布状况和电影评论内容相似状况综合进行电影评论中是否存在虚假评论的判断,实现了电影评论中是否存在虚假评论的前置判断,为后续是否需要提取虚假评论及追踪确认提供了可靠参照,能够在很大程度上避免当判断电影评论中不存在虚假评论还进行虚假评论提取造成的无效操作,有利于加快虚假电影评论网络信息监管进程,与此同时该判断方式从两个方向实现了电影评论中是否存在疑似虚假评论的有效判断,能够大大增加判断结果的准确度。
(2)本发明考虑到虚假电影评论的本质形成是发布者利用机器人账号批量发布,由此遵循机器人账号发布的特点对符合虚假电影评论表现特征的疑似虚假评论进行账号IP地址追踪,实现了对疑似虚假评论的进一步追踪确认,通过将虚假电影评论的评判过程进行深入化处理,大大降低了评判失误的发生率,最大限度提高了评判结果的精准性,在一定程度上避免了无效网络信息监管的发生,有利于网络信息监管有效性的发挥。
(3)本发明通过对虚假电影评论的传播扩散指数进行分析,并紧紧抓住虚假电影评论的发布者操纵属性,针对虚假电影评论的发布账号进行发布者操纵惯性分析,由此结合虚假评论对应的传播扩散指数和发布者操纵惯性指数综合对虚假评论进行处理,使得处理结果能够重点凸显对发布者的处理,从而大大提高了处理结果的适配度,很大程度上避免出现处理过轻的现象,有助于提高监管效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统各模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围,需要说明的是,对用户相关信息的获取符合相关法律法规。
请参阅图1所示,本发明提出一种网络信息发布传播平台智能监测管理系统,包括电影评论采集模块、评分分布识别模块、评论相似分析模块、疑似虚假评论判断模块、疑似虚假评论提取模块、疑似虚假评论追踪确认模块、虚假评论传播扩散评估模块、虚假评论发布者操纵惯性评估模块和虚假评论智能处理模块,其中电影评论采集模块分别与评分分布识别模块和评论相似分析模块连接,评分分布识别模块和评论相似分析模块均与疑似虚假评论判断模块连接,疑似虚假评论判断模块与疑似虚假评论提取模块连接,疑似虚假评论提取模块与疑似虚假评论追踪确认模块连接,疑似虚假评论追踪确认模块分别与虚假评论传播扩散评估模块和虚假评论发布者操纵惯性评估模块连接,虚假评论传播扩散评估模块和虚假评论发布者操纵惯性评估模块均与虚假评论智能处理模块连接。
所述电影评论采集模块用于从各电影关联平台采集目标电影上映设定时段对应的所有评论。
需要说明的是,电影关联平台可以为电影购票平台、电影播放平台、社交平台等。
所述评分分布识别模块用于从目标电影对应的各条评论中提取评分值,并依据评分值将各条评论归类为高分评论、中间评论和低分评论,进而计算高分评论、中间评论和低分评论对应的分布占比率。
在上述方案基础上,依据评分值将各条评论归类为高分评论、中间评论和低分评论具体实施过程如下:将各条评论的评分值分别与设定的高值评分和低值评分进行对比,若某评论的评分值大于或等于设定的高值评分,则将该评论归类为高分评论,若某评论的评分值小于或等于设定的低值评分,则将该评论归类为低分评论,若某条评论的评分值处于低值评分与高值评分之间,则将该评论归类为中间评论。
作为上述方案的一个示例,为目标电影评论对应满分评分值设定为10分为例,则设定的高值评分为8分,将大于或等于8分的评论作为高分评论,同时设定的低值评分为5分,将小于或等于5分的评论作为低分评论,进而将处于5分与8分之间的评论作为中间评论。
进一步地,计算高分评论、中间评论和低分评论对应的分布占比率的实现方式为分别统计高分评论、中间评论和低分评论的数量,并与目标电影的评论总数相除,得到高分评论、中间评论和低分评论对应的分布占比率。
所述评论相似分析模块用于提取各条评论对应的文本内容,并进行相互对比,计算目标电影对应的评论相似度,具体计算参见下述过程:获取各条评论对应的发布时间,进而将各条评论按照发布时间由先到后的顺序进行排列。
按照评论的排列顺序依次提取各条评论作为主体评论,进而将主体评论的文本内容与其他评论的文本内容进行重合对比,得到以各条评论作为主体评论与其他评论的文本重合字数和文本重合内容。
将文本重合内容进行分词处理,并获取各分词的归属词类,其中归属词类包括情感词和非情感词,进而统计情感词对应的分词占比率。
需要知道的是,上述提到的情感词是对情感倾向起到识别作用的词,例如喜欢、差劲、满意、认可等,对分词的归属词类分析采用自然语言处理方式。
利用表达式计算出以各条评论作为主体评论与其他评论的相似度/>,其中i表示为作为主体评论的评论编号,,j表示为除主体评论之外的其他评论编号,/>且/>,/>、/>分别表示为以第i条评论作为主体评论与其他第j条评论的文本重合字数、情感词对应的分词占比率,/>表示为以第i条评论作为主体评论的文本字数,e表示为自然常数。
本发明根据评论之间文字重合状态分析评论之间的相似度时不仅仅是以重合字数作为分析基础,而是增加了对重合内容中情感词的占比分析,使得分析结果更加合理、准确。
将以各条评论作为主体评论与其他评论的相似度与预先配置的有效相似度进行对比,若以某条评论作为主体评论中存在与某其他评论的相似度大于预先配置的有效相似度,则将该其他评论记为相似评论,由此构成以各条评论作为主体评论的相似评论组,进而统计相似评论组中存在的相似评论数量,进而取最大相似评论数量所处相似评论组对应的主体评论作为特定评论。
作为上述方案的一个示例,所述预先配置的有效相似度为75%。
作为上述方案的一个示例,以第1条评论作为主体评论的相似评论组中存在的相似评论数量为5个,以第2条评论作为主体评论的相似评论组中存在的相似评论数量为4个,以第3条评论作为主体评论的相似评论组中存在的相似评论数量为6个,以第4条评论作为主体评论的相似评论组中存在的相似评论数量为7个,在这种情况下,特定评论为第4条评论。
将特定评论对应相似评论组中存在的相似度进行均值计算,并将计算结果作为目标电影对应的评论相似度。
在进一步地上述示例中,以第4条评论作为主体评论的相似评论组中存在的相似度为80%、85%、90%、95%、88%、92%、94%,则目标电影对应的评论相似度为。
所述疑似虚假评论判断模块用于基于高分评论、中间评论和低分评论对应的分布占比率和目标电影对应的评论相似度判断目标电影对应的所有评论中是否存在疑似虚假评论,包括以下步骤:将高分评论、低分评论对应的分布占比率分别与中间评论对应的分布占比率进行差值对比,得到中间评论对应的分布占比率高分差值和分布占比率低分差值。
将中间评论对应的分布占比率高分差值和分布占比率低分差值及目标电影对应的评论相似度导入公式,计算出目标电影对应的评论疑似虚假度/>,式中/>、/>分别表示为间评论对应的分布占比率高分差值、分布占比率低分差值,/>表示为目标电影对应的评论相似度,其中中间评论对应的分布占比率高分差值越大、分布占比率低分差值越大,评论相似度越大,评论疑似虚假度越大。
本发明在判断目标电影评价中是否存在虚假评价时考虑到虚假评论通常表现为评分分布过于两极分化。例如,如果一个电影的评分分布呈现出过多的最高或最低评分,而缺乏中间评分,那么可能存在虚假评分的情况,另外虚假评分还表现为批量操作,即评论与评论之间存在高度相似或完全一致的情况,由此通过对电影评论进行评分分布状态和评论相似度的分析能够科学、合理地进行虚假评论判断。
将目标电影对应的评论疑似虚假度与设置阈值进行对比,若目标电影对应的评论疑似虚假度大于设置阈值,则判断目标电影对应的所有评论中存在疑似虚假评论,反之则判断目标电影对应的所有评论中不存在疑似虚假评论。
本发明在进行虚假电影评论评判前增加了结合电影评论评分分布状况和电影评论内容相似状况综合进行电影评论中是否存在虚假评论的判断,实现了电影评论中是否存在虚假评论的前置判断,为后续是否需要提取虚假评论及追踪确认提供了可靠参照,能够在很大程度上避免当判断电影评论中不存在虚假评论还进行虚假评论提取造成的无效操作,有利于加快虚假电影评论网络信息监管进程,与此同时该判断方式从两个方向实现了电影评论中是否存在疑似虚假评论的有效判断,能够大大增加判断结果的准确度。
所述疑似虚假评论提取模块用于当判断目标电影对应的所有评论中存在疑似虚假评论时提取疑似虚假评论,具体提取过程如下:分别从目标电影对应的高分评论、低分评论中识别是否存在相似评论组,若高分评论中存在相似评论组,则将高分评论对应的相似评论组中连同主体评论构成疑似虚假评论组,若低分评论中存在相似评论组,则将低分评论对应的相似评论组连同主体评论构成疑似虚假评论组。
所述疑似虚假评论追踪确认模块用于对疑似虚假评论进行追踪审核,确认是否为虚假评论,具有实施过程如下:统计提取的疑似虚假评论组数量,并依次获取各疑似虚假评论组中各条评论的账号IP地址,并进行相互对比,计算各疑似虚假评论组中评论账号IP地址的重复率,k表示为疑似虚假评论组的编号,/>。
在一个具体实施例中,评论账号IP地址的重复率的计算过程如下:将各疑似虚假评论组中各条评论的账号IP地址进行相互对比,进而将相同IP地址对应的账号进行归类,统计各IP地址对应的账号数量,并除以各疑似虚假评论组中存在的评论账号数量,得到各IP地址对应的重复率,进而选取最大重复率作为各疑似虚假评论组中评论账号IP地址的重复率。
需要补充的是,机器人批量账号可能会使用相同的IP地址,这是因为它们可能在同一系统或网络中创建,并且使用共享的IP地址池来分配给这些机器人账号,这使得评论账号的IP地址重复率较高。
识别各疑似虚假评论组中各条评论的账号IP地址来源,进而统计来源为代理服务器的账号占比率。
需要知道的是,为了隐藏真实的来源和增加匿名性,机器人批量账号可能使用代理服务器进行网络访问。这样会导致它们的IP地址显示为代理服务器的IP地址,而非真实的来源IP地址来源。
将各疑似虚假评论组中各条评论的发布时间进行对比,获取相邻评论的间隔发布时长,并进行均值计算,得到各疑似虚假评论组对应的平均发布间隔时长。
需要理解的是,机器人批量账号的IP地址可能显示出不同于普通用户的访问模式。它们可能会以更高频率、更短时间间隔进行网络活动,使得评论的发布间隔时长极短。
将、/>和/>导入表达式,计算出各疑似虚假评论组对应的账号异常度/>,式中T表示为目标电影上映设定时段对应的时长。
进一步地,确认是否为虚假评论的实现过程如下:将各疑似虚假评论组对应的账号异常度与设置的允许账号异常度进行对比,若某疑似虚假评论组对应的账号异常度大于设置的允许账号异常度,则将该疑似虚假评论组记为重点虚假评论组,并确认重点虚假评论组中存在的所有评论为虚假评论。
本发明考虑到虚假电影评论的本质形成是发布者利用机器人账号批量发布,由此遵循机器人账号发布的特点对符合虚假电影评论表现特征的疑似虚假评论进行账号IP地址追踪,实现了对疑似虚假评论的进一步追踪确认,通过将虚假电影评论的识别过程进行深入化处理,大大降低了识别失误的发生率,最大限度提高了识别结果的精准性,在一定程度上避免了无效网络信息监管的发生,有利于网络信息监管有效性的发挥。
所述虚假评论传播扩散评估模块用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的传播扩散指数,包括下述步骤:统计重点虚假评论组中存在的虚假评论数量,并获取各条虚假评论对应的传播状态指征,其中传播状态指征包括传播类型和传播量,并据此计算各条虚假评论对应的传播关注度,其中/>表示为第d条虚假评论对应传播类型的表现力因子,d表示为虚假评论编号,/>,/>表示为第d条虚假评论对应的传播量。
需要说明的是,传播类型包括但不限于点赞、转发、点评。其中各条虚假评论对应传播类型的表现力因子获取方式为将各条虚假评论的传播类型与人工初始设置的各种传播类型对应的表现力因子进行匹配,从中匹配出各条虚假评论对应传播类型的表现力因子。
进一步需要说明的是,当某条虚假评论的传播类型为点赞时,该条虚假评论的传播量即为点赞量,当某条虚假评论的传播类型为转发时,该条虚假评论的传播量即为转发量。
结合各条虚假评论对应的传播关注度通过评估公式,得到虚假评论对应的传播扩散指数/>。
所述虚假评论发布者操纵惯性评估模块用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的发布者操纵惯性指数,具体评估过程如下:以目标电影的上映初始日期为截止日期,并将其结合人工初始设置的监测时长向前推算,得到起始日期,起始日期与截止日期构成了历史监测时间段,并获取历史监测时间段内上映的电影,记为参照电影,进而提取各参照电影上映时段内的所有评论,与此同时获取各条评论的账号IP地址。
将重点虚假评论组中各条虚假评论的账号IP地址与各参照电影对应各条评论的账号IP地址进行匹配,若某条虚假评论的账号IP地址与某参照电影对应某条评论的账号IP地址匹配成功,则将该参照电影记为参与电影,并获取各参与电影对应匹配成功的评论数量,以此除以各参与电影上映时段内的评论总数,得到各参与电影对应的匹配成功占比率,进而将各参与电影对应的匹配成功占比率进行均值计算,得到参与电影的虚假评论匹配成功占比率。
通过评估表达式,计算出虚假评论对应的发布者操纵惯性指数/>,其中虚假评论发布账号对应参与电影的虚假评论匹配成功占比率越大,表明虚假评论的发布者一直存在持续的虚假评论发布行为,具有一定的操纵惯性。
所述虚假评论智能处理模块用于基于虚假评论对应的传播扩散指数和发布者操纵惯性指数对虚假评论进行智能处理,具体处理方式为:将和/>导入处理模型:,模型中/>、分别表示为预先配置的限定传播扩散指数、限定发布者操纵惯性指数,/>表示符号非,/>表示符号与。
需要补充的是虚假评论账号处理方式可以为警告、禁言、封禁等,具体确定方式为利用表达式计算出虚假评论对应的发布风险系数/>,进而将虚假评论对应的发布风险系数与预先配置的各种发布风险等级对应的发布风险系数范围进行匹配,从中匹配出虚假评论对应的发布风险等级,并与设置的各种发布风险等级对应的虚假评论账号处理方式进行比对,由此确定虚假评论账号处理方式。
本发明通过对虚假电影评论的传播扩散指数进行分析,并紧紧抓住虚假电影评论的发布者操纵属性,针对虚假电影评论的发布账号进行发布者操纵惯性分析,由此结合虚假评论对应的传播扩散指数和发布者操纵惯性指数综合对虚假评论进行处理,使得处理结果能够重点凸显对发布者的处理,从而大大提高了处理结果的适配度,很大程度上避免出现处理过轻的现象,有助于提高监管效果。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本发明所定义的范围,均应属于本发明的保护范围。
Claims (7)
1.一种网络信息发布传播平台智能监测管理系统,其特征在于,包括:
电影评论采集模块,用于从各电影关联平台采集目标电影上映设定时段对应的所有评论;
评分分布识别模块,用于从目标电影对应的各条评论中提取评分值,并依据评分值将各条评论归类为高分评论、中间评论和低分评论,进而计算高分评论、中间评论和低分评论对应的分布占比率;
评论相似分析模块,用于提取各条评论对应的文本内容,并进行相互对比,计算目标电影对应的评论相似度;
疑似虚假评论判断模块,用于基于高分评论、中间评论和低分评论对应的分布占比率和目标电影对应的评论相似度判断目标电影对应的所有评论中是否存在疑似虚假评论;
疑似虚假评论提取模块,用于当判断目标电影对应的所有评论中存在疑似虚假评论时提取疑似虚假评论;
疑似虚假评论追踪确认模块,用于对疑似虚假评论进行追踪审核,确认是否为虚假评论;
所述对疑似虚假评论进行追踪审核具体实施过程如下:
统计提取的疑似虚假评论组数量,并依次获取各疑似虚假评论组中各条评论的账号IP地址,并进行相互对比,计算各疑似虚假评论组中评论账号IP地址的重复率,k表示为疑似虚假评论组的编号,/>;
识别各疑似虚假评论组中各条评论的账号IP地址来源,进而统计来源为代理服务器的账号占比率;
将各疑似虚假评论组中各条评论的发布时间进行对比,获取相邻评论的间隔发布时长,并进行均值计算,得到各疑似虚假评论组对应的平均发布间隔时长;
将、/>和/>导入表达式/>,计算出各疑似虚假评论组对应的账号异常度/>,式中T表示为目标电影上映设定时段对应的时长;
虚假评论传播扩散评估模块,用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的传播扩散指数;
所述评估虚假评论对应的传播扩散指数包括下述步骤:
统计重点虚假评论组中存在的虚假评论数量,并获取各条虚假评论对应的传播状态指征,其中传播状态指征包括传播类型和传播量,并据此计算各条虚假评论对应的传播关注度,其中/>表示为第d条虚假评论对应传播类型的表现力因子,d表示为虚假评论编号,/>,/>表示为第d条虚假评论对应的传播量;
结合各条虚假评论对应的传播关注度通过评估公式,得到虚假评论对应的传播扩散指数/>;
传播类型包括但不限于点赞、转发、点评,其中各条虚假评论对应传播类型的表现力因子获取方式为将各条虚假评论的传播类型与人工初始设置的各种传播类型对应的表现力因子进行匹配,从中匹配出各条虚假评论对应传播类型的表现力因子;
虚假评论发布者操纵惯性评估模块,用于在确认疑似虚假评论为虚假评论时评估虚假评论对应的发布者操纵惯性指数;
所述评估虚假评论对应的发布者操纵惯性指数包括下述步骤:
以目标电影的上映初始日期为截止日期,并将其结合人工初始设置的监测时长向前推算,得到起始日期,起始日期与截止日期构成了历史监测时间段,并获取历史监测时间段内上映的电影,记为参照电影,进而提取各参照电影上映时段内的所有评论,与此同时获取各条评论的账号IP地址;
将重点虚假评论组中各条虚假评论的账号IP地址与各参照电影对应各条评论的账号IP地址进行匹配,若某条虚假评论的账号IP地址与某参照电影对应某条评论的账号IP地址匹配成功,则将该参照电影记为参与电影,并获取各参与电影对应匹配成功的评论数量,以此除以各参与电影上映时段内的评论总数,得到各参与电影对应的匹配成功占比率,进而将各参与电影对应的匹配成功占比率进行均值计算,得到参与电影的虚假评论匹配成功占比率;通过评估表达式,计算出虚假评论对应的发布者操纵惯性指数/>;
虚假评论智能处理模块,用于基于虚假评论对应的传播扩散指数和发布者操纵惯性指数对虚假评论进行智能处理。
2.如权利要求1所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述依据评分值将各条评论归类为高分评论、中间评论和低分评论具体实施过程如下:
将各条评论的评分值分别与设定的高值评分和低值评分进行对比,若某评论的评分值大于或等于设定的高值评分,则将该评论归类为高分评论,若某评论的评分值小于或等于设定的低值评分,则将该评论归类为低分评论,若某条评论的评分值处于低值评分与高值评分之间,则将该评论归类为中间评论。
3.如权利要求1所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述计算目标电影对应的评论相似度参见下述过程:
获取各条评论对应的发布时间,进而将各条评论按照发布时间由先到后的顺序进行排列;
按照评论的排列顺序依次提取各条评论作为主体评论,进而将主体评论的文本内容与其他评论的文本内容进行重合对比,得到以各条评论作为主体评论与其他评论的文本重合字数和文本重合内容;
将文本重合内容进行分词处理,并获取各分词的归属词类,其中归属词类包括情感词和非情感词,进而统计情感词对应的分词占比率;
利用表达式计算出以各条评论作为主体评论与其他评论的相似度/>,其中i表示为作为主体评论的评论编号,/>,j表示为除主体评论之外的其他评论编号,/>且/>,/>、/>分别表示为以第i条评论作为主体评论与其他第j条评论的文本重合字数、情感词对应的分词占比率,/>表示为以第i条评论作为主体评论的文本字数,e表示为自然常数;
将以各条评论作为主体评论与其他评论的相似度与预先配置的有效相似度进行对比,若以某条评论作为主体评论中存在与某其他评论的相似度大于预先配置的有效相似度,则将该其他评论记为相似评论,由此构成以各条评论作为主体评论的相似评论组,进而统计相似评论组中存在的相似评论数量,进而取最大相似评论数量所处相似评论组对应的主体评论作为特定评论;
将特定评论对应相似评论组中存在的相似度进行均值计算,并将计算结果作为目标电影对应的评论相似度。
4.如权利要求1所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述判断目标电影对应的所有评论中是否存在疑似虚假评论包括以下步骤:
将高分评论、低分评论对应的分布占比率分别与中间评论对应的分布占比率进行差值对比,得到中间评论对应的分布占比率高分差值和分布占比率低分差值;
将中间评论对应的分布占比率高分差值和分布占比率低分差值及目标电影对应的评论相似度导入公式,计算出目标电影对应的评论疑似虚假度/>,式中/>、/>分别表示为间评论对应的分布占比率高分差值、分布占比率低分差值,/>表示为目标电影对应的评论相似度;
将目标电影对应的评论疑似虚假度与设置阈值进行对比,若目标电影对应的评论疑似虚假度大于设置阈值,则判断目标电影对应的所有评论中存在疑似虚假评论,反之则判断目标电影对应的所有评论中不存在疑似虚假评论。
5.如权利要求3所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述疑似虚假评论的提取过程如下:
分别从目标电影对应的高分评论、低分评论中识别是否存在相似评论组,若高分评论中存在相似评论组,则将高分评论对应的相似评论组中连同主体评论构成疑似虚假评论组,若低分评论中存在相似评论组,则将低分评论对应的相似评论组连同主体评论构成疑似虚假评论组。
6.如权利要求1所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述确认是否为虚假评论的实现过程如下:
将各疑似虚假评论组对应的账号异常度与设置的允许账号异常度进行对比,若某疑似虚假评论组对应的账号异常度大于设置的允许账号异常度,则将该疑似虚假评论组记为重点虚假评论组,并确认重点虚假评论组中存在的所有评论为虚假评论。
7.如权利要求1所述的一种网络信息发布传播平台智能监测管理系统,其特征在于:所述对虚假评论进行智能处理的处理方式为:
将和/>导入处理模型:,模型中/>、分别表示为预先配置的限定传播扩散指数、限定发布者操纵惯性指数,/>表示符号非,/>表示符号与。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311325230.0A CN117076812B (zh) | 2023-10-13 | 2023-10-13 | 一种网络信息发布传播平台智能监测管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311325230.0A CN117076812B (zh) | 2023-10-13 | 2023-10-13 | 一种网络信息发布传播平台智能监测管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076812A CN117076812A (zh) | 2023-11-17 |
CN117076812B true CN117076812B (zh) | 2023-12-12 |
Family
ID=88719795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311325230.0A Active CN117076812B (zh) | 2023-10-13 | 2023-10-13 | 一种网络信息发布传播平台智能监测管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076812B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391548A (zh) * | 2017-04-06 | 2017-11-24 | 华东师范大学 | 一种移动应用市场刷榜用户组检测方法及其系统 |
WO2019006642A1 (zh) * | 2017-07-04 | 2019-01-10 | 深圳齐心集团股份有限公司 | 一种电子商务产品评论质量鉴别系统 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN113434628A (zh) * | 2021-05-14 | 2021-09-24 | 南京信息工程大学 | 一种基于特征级与传播关系网络的评论文本置信检测方法 |
WO2021223275A1 (zh) * | 2020-05-06 | 2021-11-11 | 山东科技大学 | 水军群组检测方法及其装置 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
KR20220097630A (ko) * | 2020-12-30 | 2022-07-08 | 주식회사 프리딕션 | 기계학습에 기초한 조작 리뷰 검출 시스템 및 그 검출 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 |
CN115983873A (zh) * | 2022-12-29 | 2023-04-18 | 珠海蓝度科技有限公司 | 一种基于大数据的用户数据分析管理系统及方法 |
CN116166806A (zh) * | 2023-03-16 | 2023-05-26 | 四川大学 | 一种基于图注意力神经网络的虚假影评检测方法 |
CN116304032A (zh) * | 2023-02-24 | 2023-06-23 | 厦门大学 | 动态图卷积和情感特征融合的虚假信息检测方法及系统 |
CN116340512A (zh) * | 2023-02-17 | 2023-06-27 | 平安科技(深圳)有限公司 | 虚假评论的认定方法、装置、设备及介质 |
-
2023
- 2023-10-13 CN CN202311325230.0A patent/CN117076812B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391548A (zh) * | 2017-04-06 | 2017-11-24 | 华东师范大学 | 一种移动应用市场刷榜用户组检测方法及其系统 |
WO2019006642A1 (zh) * | 2017-07-04 | 2019-01-10 | 深圳齐心集团股份有限公司 | 一种电子商务产品评论质量鉴别系统 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
WO2021223275A1 (zh) * | 2020-05-06 | 2021-11-11 | 山东科技大学 | 水军群组检测方法及其装置 |
KR20220097630A (ko) * | 2020-12-30 | 2022-07-08 | 주식회사 프리딕션 | 기계학습에 기초한 조작 리뷰 검출 시스템 및 그 검출 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 |
CN113434628A (zh) * | 2021-05-14 | 2021-09-24 | 南京信息工程大学 | 一种基于特征级与传播关系网络的评论文本置信检测方法 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN115983873A (zh) * | 2022-12-29 | 2023-04-18 | 珠海蓝度科技有限公司 | 一种基于大数据的用户数据分析管理系统及方法 |
CN116340512A (zh) * | 2023-02-17 | 2023-06-27 | 平安科技(深圳)有限公司 | 虚假评论的认定方法、装置、设备及介质 |
CN116304032A (zh) * | 2023-02-24 | 2023-06-23 | 厦门大学 | 动态图卷积和情感特征融合的虚假信息检测方法及系统 |
CN116166806A (zh) * | 2023-03-16 | 2023-05-26 | 四川大学 | 一种基于图注意力神经网络的虚假影评检测方法 |
Non-Patent Citations (1)
Title |
---|
虚假评论检测研究综述;李璐旸;秦兵;刘挺;;计算机学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117076812A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI712981B (zh) | 風險辨識模型訓練方法、裝置及伺服器 | |
CN108734565B (zh) | 一种征信分实时调整处理方法、装置及处理服务器 | |
WO2017202336A1 (zh) | 广告反作弊方法,装置及存储介质 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN107807941A (zh) | 信息处理方法和装置 | |
CN110728543B (zh) | 异常账号的识别方法及装置 | |
CN108648038B (zh) | 一种基于子图挖掘的信用炒作与恶意评价识别方法 | |
CN109508373A (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
CN111428151B (zh) | 一种基于网络增速的虚假消息识别方法及其装置 | |
Byanjankar | Predicting credit risk in Peer-to-Peer lending with survival analysis | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
Lai et al. | Incorporating comment text into success prediction of crowdfunding campaigns | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
Sáez-Ortuño et al. | Online cheaters: Profiles and motivations of internet users who falsify their data online | |
CN117076812B (zh) | 一种网络信息发布传播平台智能监测管理系统 | |
CN111489190A (zh) | 一种基于用户关系的反作弊方法及系统 | |
CN111368131A (zh) | 用户关系识别方法、装置、电子设备及存储介质 | |
CN110717653A (zh) | 风险识别方法及装置和电子设备 | |
CN116402596A (zh) | 数据分析方法、装置、计算机设备及可读存储介质 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
CN109559169B (zh) | 一种基于在线用户评分的敏锐用户识别的方法 | |
WO2022173397A1 (en) | A recommendation system using artificial intelligence algorithms | |
CN113706258A (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN113468394A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN112766824A (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |