CN111667339A - 一种基于改进递归神经网络的诽谤性恶意用户检测方法 - Google Patents

一种基于改进递归神经网络的诽谤性恶意用户检测方法 Download PDF

Info

Publication number
CN111667339A
CN111667339A CN202010457761.5A CN202010457761A CN111667339A CN 111667339 A CN111667339 A CN 111667339A CN 202010457761 A CN202010457761 A CN 202010457761A CN 111667339 A CN111667339 A CN 111667339A
Authority
CN
China
Prior art keywords
defamation
malicious
comment
users
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010457761.5A
Other languages
English (en)
Other versions
CN111667339B (zh
Inventor
徐原博
王恩
张兴亮
徐萌
杨永健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010457761.5A priority Critical patent/CN111667339B/zh
Publication of CN111667339A publication Critical patent/CN111667339A/zh
Application granted granted Critical
Publication of CN111667339B publication Critical patent/CN111667339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:步骤S1,搭建层次化双注意力递归神经网络HDAN模型;步骤S2,联合过滤;步骤S3,改进的非负矩阵分解推荐系统。本发明通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升。

Description

一种基于改进递归神经网络的诽谤性恶意用户检测方法
技术领域
本发明涉及诽谤性恶意用户检测技术领域,具体来说,涉及一种基于改进递归神经网络的诽谤性恶意用户检测方法。
背景技术
在电商消费中,有一类消费者为了获取不正当的利益,会在电子商务平台对已消费过的商品进行诽谤性的差评,我们称此类消费者为诽谤性的恶意用户。此类的用户采取的所有行动都符合电子商务平台规范,利用现有异常用户检测技术的漏洞,来规避检测。他们通常在对商品的评级与评论之间构造一个语义鸿沟,在评级与评论之间出现较大的分歧,例如高评分和差评论、低评分和高评论,以此来混淆推荐系统,获取不正当的利益。
因此,我们提出一种基于改进递归神经网络的诽谤性恶意用户检测方法。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于改进递归神经网络的诽谤性恶意用户检测方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
Figure BDA0002509913910000011
其中的临时状态信息
Figure BDA0002509913910000012
表示为:
Figure BDA0002509913910000021
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
Figure BDA0002509913910000022
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure BDA0002509913910000023
Figure BDA0002509913910000024
Figure BDA0002509913910000025
Figure BDA0002509913910000026
来结合
Figure BDA0002509913910000027
Figure BDA0002509913910000028
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息 hit,其注意力权值计算公式如下:
Figure BDA0002509913910000029
Figure BDA00025099139100000210
Figure BDA00025099139100000211
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量, cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
Figure BDA00025099139100000212
Figure BDA00025099139100000213
Figure BDA00025099139100000214
Figure BDA00025099139100000215
来结合
Figure BDA00025099139100000216
Figure BDA00025099139100000217
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure BDA00025099139100000218
Figure BDA00025099139100000219
Figure BDA00025099139100000220
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平tui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵 Rin,Rin∈Rm *n
指示符dui,诽谤性恶意用户集合us的计算函数具体如下:
Figure BDA0002509913910000031
步骤S3包括以下:
确定潜在维度,表示如下:
Figure BDA0002509913910000032
P∈Rm*k,∑∈Rk*k,Q∈Rk*n
其中,∑是k维对角矩阵,具体项为σ12…σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
通过重建矩阵
Figure BDA0002509913910000033
后,可以在原始矩阵R中,从所有未排序的项目里挑选出前k个项目,对用户进行推荐。
进一步的,包括以下步骤:
标定诽谤性恶意交互;
标定诽谤性恶意用户;
其,标定诽谤性恶意交互,包括如下:
对于给定的评级rui和评论tui,其评级意见水平和评论意见水平分别是 orui和otui,α作为两种意见水平之间的差距阈值,当满足∣orui-otui∣≥α时,可以将此种交互标注为诽谤性恶意交互,用dui=1来表示;反之,当∣orui-otui∣<α时,可以将此种交互标注为非诽谤性恶意交互,用dui=0来表示;
其,标定诽谤性恶意用户,包括如下:
对于给定的U,I,R,T,诽谤性恶意用户的集合us为:
Figure BDA0002509913910000041
其中,β是诽谤性恶意用户的检测阈值。
进一步的,GRU包括重置门ret和更新门ugt,在t时刻,GRU表示如下:
Figure BDA0002509913910000042
其中,ht―1是上一个时刻,即t-1时刻的状态信息,
Figure BDA0002509913910000043
为临时状态信息。
进一步的,步骤S2,进一步包括以下:
对于正常用户的正常交互行为,采用
Figure BDA0002509913910000044
来将评论和评级进行线性结合,其中μ是权值用于平衡评论与评级之间的重要程度,使两者都能起到作用;
对于正常用户的诽谤性恶意交互行为,删除该恶意行为相应的评论意见水平rui和评论意见水平otui
对于诽谤性恶意用户,删除其所有的信息;
获取联合过滤后的用户项目交互矩阵
Figure BDA0002509913910000045
Figure BDA0002509913910000046
∣us∣为检测到的诽谤性恶意用户的数量,
Figure BDA0002509913910000047
的具体条目为
Figure BDA0002509913910000048
本发明的有益效果:
本发明通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的SDRS框架示意图;
图2是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的HDAN网络模型图;
图3是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的MNMF流程图;
图4是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的不同数据集不同模型的A-err值图;
图5是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的评级以及情感得分对比图;
图6是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的不同μ值对推荐性能的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于改进递归神经网络的诽谤性恶意用户检测方法。
如图1-6所示,根据本发明实施例的基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
Figure BDA0002509913910000061
其中的临时状态信息
Figure BDA0002509913910000062
表示为:
Figure BDA0002509913910000063
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
Figure BDA0002509913910000064
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure BDA0002509913910000065
Figure BDA0002509913910000066
Figure BDA0002509913910000067
Figure BDA0002509913910000068
来结合
Figure BDA0002509913910000069
Figure BDA00025099139100000610
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息 hit,其注意力权值计算公式如下:
Figure BDA00025099139100000611
Figure BDA00025099139100000612
Figure BDA00025099139100000613
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量, cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
Figure BDA0002509913910000071
Figure BDA0002509913910000072
Figure BDA0002509913910000073
Figure BDA0002509913910000074
来结合
Figure BDA0002509913910000075
Figure BDA0002509913910000076
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure BDA0002509913910000077
Figure BDA0002509913910000078
Figure BDA0002509913910000079
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平rui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵 Rin,Rin∈Rm *n
指示符dui,诽谤性恶意用户集合us的计算函数具体如下:
Figure BDA00025099139100000710
步骤S3包括以下:
确定潜在维度,表示如下:
Figure BDA00025099139100000711
P∈Rm*k,∑∈Rk*k,Q∈Rk*n
其中,∑是k维对角矩阵,具体项为σ12…σk。σ代表潜在维度P在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
通过重建矩阵
Figure BDA0002509913910000081
后,可以在原始矩阵R中,从所有未排序的项目里挑选出前k个项目,对用户进行推荐。
借助于上述技术方案,通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
另外,具体的,其上述方案,符号及问题的基本定义,见表1:
Figure BDA0002509913910000082
表1:符号定义
具体的,在推荐系统中,我们用U来表示用户集合,即消费者,用I 来表示项目集合,即商品。用户和商品的具体数量是m和n,即∣U∣=m,∣ I∣=n。R代表用户对项目的评级矩阵,其具体条目为rui,代表用户对商品的评分。T代表用户会项目的评论矩阵,其具体条目为tui,代表用户对商品的评论。rui和tui成对出现,R,T∈Rm*n。我们将U,I,R,T作为本方法的输入,其中R,T作为用户与商品之间的交互。具体的符号表述,我们在表格1中进行了系统的阐述。
另外,我们需要检测的诽谤性恶意用户分为两种:提供虚假评级的诽谤性恶意用户和提供虚假评论的诽谤性恶意用户。这两种用户有一定的相似性,因为他们都是采用营造评级和评论之间的语义鸿沟来实现诽谤,因此我们先对诽谤性的恶意交互进行定义,再对诽谤性的恶意用户进行定义。
具体来说,我们首先需要计算评级意见水平or和评论意见水平ot。针对or,我们直接利用用户对项目的评级r作为or;针对ot,我们构建了一个结合了改进的GRU的递归神经网络,用此网络来对用户评论t进行分析,最终得到与or具有相同维度的评论意见水平ot。这是一种检测恶意用户的联合性过滤方法,我们致力于利用这种方法在最大程度上提升推荐系统的性能。
另外,如图1所示,诽谤性恶意用户检测推荐系统框架(SDRS)框架由4个模块组成:词嵌入模块、评论情感分析模块、诽谤性恶意用户检测模块和推荐模块,首先,我们利用词嵌入技术(Word Embedding)将评论中的所有词映射到词嵌入的向量中。然后,我们设计了一个层次化双注意力机制递归神经网络(Hierarchical Dual-Attention recurrentNeural network, HDAN)来对用户的评论进行情感分析,得到评论意见水平ot。通过比较用户的评分rui和ot,在联合过滤(Jiont Filtering)中对诽谤性恶意交互进行修改,去掉诽谤性恶意用户,然后构建过滤后的用户-项目交互矩阵
Figure BDA0002509913910000091
作为下一个模块的输入。最后,我们提出了一个改进的非负矩阵分解推荐系统(Modified Non-negative MatrixFactorization,MNMF)来利用
Figure BDA0002509913910000092
进行推荐。
对于上述词嵌入模块来说,SDRS的第一个模块是词嵌入模块,这是一种有效的发现单词之间关系的方法。由于我们的技术方案,不仅要应用于使用英文评论的推荐系统(例如亚马逊、电商二),还会应用于使用中文评论的推荐系统(例如电商三、电商四)。因此,我们在传统的词嵌入技术Word2Vec的基础上,借鉴了目前该领域的研究成果,对Word2Vec进行了改进,使其更适用于真实的场景。我们以T作为输入,为了使问题得到简化,我们采取如下的策略:如果一篇评论中的句子数量超过了一个阈值Ls,我们就删除大量的句子。否则,我们将对评论进行填充,使句子数量达到Ls。此外,我们为句子中的单词设置了一个阈值Lw,并执行相同的操作。词嵌入完成后,每个单词都被转化到一个向量w中。
另外,如图2所示,构建HDAN网络的目的使计算每条评论相对应的评论意见水平ot。我们将每一个句子中的所有单词输入到带有W个注意力的W 层递归神经网络中(W-Level RNN with W-attention),再将每条评论中的所有句子输入到S个注意力的S层递归神经网络中(S-Level RNN with S-attention)
另外,如图3所示,改进的非负矩阵分解推荐系统(modified NMF,MNMF),具体为:
确定潜在维度,表示如下:
Figure BDA0002509913910000101
P∈Rm*k,∑∈Rk*k,Q∈Rk*n
其中,∑是k维对角矩阵,具体项为σ12…σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
通过重建矩阵
Figure BDA0002509913910000103
后,可以在原始矩阵R中,从所有未排序的项目里挑选出前k个项目,对用户进行推荐。
另外,具体的,预先获取大型数据集上进行了实验,如表2所示:
Figure BDA0002509913910000102
Figure BDA0002509913910000111
表2,电商数据表
针对评论语义情感分析步骤,我们采用分类百分比和A-err作为评价指标。分类百分比意味着情感意见水平匹配评级的准确性。我们使用A-err来衡量评论意见水平ot和评级意见水平r,计算公式如下:
Figure BDA0002509913910000112
其中,∣RR∣是评级的范围,即5。
针对诽谤性恶意用户检测步骤,由于对于此类用户的判定具有主观性,因此不能直接使用指标来进行度量。因此,我们从两个方面来验证我们的诽谤性恶意用户检测技术:
获取商家会在这些网站上上传诽谤者的名单;
间接地,我们对检测到的诽谤性恶意用户进行过滤,将过滤后的矩阵输入到推荐系统中,以查看性能的变化;
针对推荐步骤,我们使用均方误差(MSE)和命中率(HR)作为评评价指标,其具体计算公式分别如下:
Figure BDA0002509913910000121
Figure BDA0002509913910000122
其中,
Figure BDA0002509913910000123
是推荐给用户u包含前k个推荐项目(Top-k)的集合,
Figure BDA0002509913910000124
是用户 u的实际项目选择情况。
另外,对照组SDRS由四个模块组成,其中文字嵌入是一个成熟的工具,诽谤性恶意用户检测是一个几乎没有基准的新问题。因此,我们将SDRS 与一些情感分析方法进行比较,以供审查和建议:
针对评论情感分析,我们选用两种基于CNN的模型(CNN-rand,CNN-multichannel)和当前最先进的基于RNN的模型(HAN)进行比较。
针对有显式反馈的推荐,我们选用协同过滤模型(basic-CF),两种基于MF(矩阵分解)的模型(NMF,Appro-SVD)和目前最先进的基于神经网络的模型(NCF)进行比较。
另外,具体的,我们对SDRS的参数进行了设置,所有这些参数都是通过交叉验证来确定的,以确保SDRS的性能。
1)在词嵌入(Word Embedding)中,对于英文评论(电商一,电商二) 我们将嵌入维度设置成LS=15,LW=12;对于中文评论(电商三,电商四)我们将嵌入维度设置成LS=6,LW=15。所有的文字都被嵌入到维度为20的潜在空间中;
2)在评论情感分析中,我们使用随机梯度下降法(SGD)来计算权值,自适应优化算法(Adam optimizer)的初始学习率为0.0001;
3)在诽谤性恶意用户检测站,我们将参数初始值设置为α=0.8,β=12,μ=0.5。
4)在推荐中,我们将参数设置为η=0.8,分别对排序前三的项目 (Top-3),排序前五的项目(Top-5)进行推荐;
5)与此同时,为了公平竞争,我们尽最大努力为对照模型设置适当的参数,以在我们的数据集中获得最佳性能。
另外,具体的,如图4所示,实验结果与分析:
其,评论情感分析,我们将提出的评论情感分析模型(HDAN with mGRU)与其他模型(BoW TFIDF,SVM,LSTM,CNN-rand,CNN- multichannel,HAN,HDAN with GRU)进行对比,结果如表3所示:
表3:情感分析结果
Figure BDA0002509913910000131
参考上述表格,其无论处理什么尺寸、类型的数据,我们所提出的模型表现出来的性能均优于其他模型。值得注意的是,在处理电商三、电商四两个中文数据集时,一些传统的方法(BoW TFIDF,SVM)和传统神经网络模型 (LSTM,CNN-rand,CNN-multichannel)已经很难令人满意。而基于递归神经网络(RNN-based)的模型HAN,HDAN表现依然优越,这说明针对不同的元素,计算其各自的权值以捕获相互间的关系这一方法是正确的。而我们提出的使用mGRU的HDAN比HAN,HDAN性能优越了10%。
具体的,如图4所示,其诽谤性恶意用户检测:
为了验证恶意用户检测的有效性,我们使用两种不同的方法在电商数据集上定义我们的基本事实:第一种,我们雇佣了20个人来手动告诉我们用我们的模型过滤的诽谤性恶意用户,并给出错误率分析;第二种,我们利用公布诽谤性恶意用户的网站来检验我们过滤掉的用户。我们从电商三中数据集中过滤了 37个用户,从电商四数据集中过滤了17个用户,如表4所示:
表4电商数据集中的部分过滤用户统计信息
Figure BDA0002509913910000141
从统计信息中可以看出,这些用户给出了均衡的评级和评论,避免了传统的异常用户检测,我们在4个数据量大的真实数据集上进行了实验,采用了统计学指标与人工检验相结合的验证策略。结果表明,我们提出的推荐系统中基于改进递归神经网络的诽谤性恶意用户检测技术(SDRS)适用于当前真实的应用场景,并且其表现出来的性能已经超越了目前同领域最新的技术,尤其在处理更为复杂的中文任务中表现得更为优异。
综上所述,借助于本发明的上述技术方案,通过诽谤性恶意用户检测推荐系统框架SDRS,结合层次化双注意力递归神经网络HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
Figure FDA0002509913900000011
其中的临时状态信息
Figure FDA0002509913900000012
表示为:
Figure FDA0002509913900000013
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
Figure FDA0002509913900000014
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
Figure FDA0002509913900000015
Figure FDA0002509913900000016
Figure FDA0002509913900000017
Figure FDA0002509913900000018
来结合
Figure FDA0002509913900000019
Figure FDA00025099139000000110
获取包含以单词wit为中心的所有信息;
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
Figure FDA00025099139000000111
Figure FDA00025099139000000112
Figure FDA00025099139000000113
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
Figure FDA0002509913900000021
Figure FDA0002509913900000022
Figure FDA0002509913900000023
Figure FDA0002509913900000024
来结合
Figure FDA0002509913900000025
Figure FDA0002509913900000026
获取包含以句子si为中心的所有信息,
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
Figure FDA0002509913900000027
Figure FDA0002509913900000028
Figure FDA0002509913900000029
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平rui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui-rui|≥α;dui=0,|otui-rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n
Figure FDA00025099139000000210
步骤S3包括以下:
确定潜在维度,表示如下:
Figure FDA00025099139000000211
P∈Rm*k,∑∈Rk*k,Q∈Rk*n
其中,∑是k维对角矩阵,具体项为σ1,σ2...σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2...σ′k
利用top-k’方法(k′={k′|(σ′1+σ′2...+σ′k′)/(σ′1+σ′2...+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2...σ′k′
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
通过重建矩阵
Figure FDA0002509913900000035
后,可以在原始矩阵R中,从所有未排序的项目里挑选出前k个项目,对用户进行推荐。
2.根据权利要求1所述的基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,进一步包括以下步骤:
标定诽谤性恶意交互;
标定诽谤性恶意用户;
其,标定诽谤性恶意交互,包括如下:
对于给定的评级rui和评论tui,其评级意见水平和评论意见水平分别是orui和otui,α作为两种意见水平之间的差距阈值,当满足|orui-otui|≥α时,可以将此种交互标注为诽谤性恶意交互,用dui=1来表示;反之,当|orui-otui|<α时,可以将此种交互标注为非诽谤性恶意交互,用dui=0来表示;
其,标定诽谤性恶意用户,包括如下:
对于给定的U,I,R,T,诽谤性恶意用户的集合us为:
Figure FDA0002509913900000031
其中,β是诽谤性恶意用户的检测阈值。
3.根据权利要求1所述的基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,
GRU包括重置门ret和更新门ugt,在t时刻,GRU表示如下:
Figure FDA0002509913900000032
其中,ht-1是上一个时刻,即t-1时刻的状态信息,
Figure FDA0002509913900000033
为临时状态信息。
4.根据权利要求1所述的基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,步骤S2,进一步包括以下:
对于正常用户的正常交互行为,采用
Figure FDA0002509913900000034
来将评论和评级进行线性结合,其中μ是权值用于平衡评论与评级之间的重要程度,使两者都能起到作用;
对于正常用户的诽谤性恶意交互行为,删除该恶意行为相应的评论意见水平rui和评论意见水平otui
对于诽谤性恶意用户,删除其所有的信息;
获取联合过滤后的用户项目交互矩阵
Figure FDA0002509913900000041
Figure FDA0002509913900000042
|us|为检测到的诽谤性恶意用户的数量,
Figure FDA0002509913900000043
的具体条目为
Figure FDA0002509913900000044
CN202010457761.5A 2020-05-26 2020-05-26 一种基于改进递归神经网络的诽谤性恶意用户检测方法 Active CN111667339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457761.5A CN111667339B (zh) 2020-05-26 2020-05-26 一种基于改进递归神经网络的诽谤性恶意用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457761.5A CN111667339B (zh) 2020-05-26 2020-05-26 一种基于改进递归神经网络的诽谤性恶意用户检测方法

Publications (2)

Publication Number Publication Date
CN111667339A true CN111667339A (zh) 2020-09-15
CN111667339B CN111667339B (zh) 2022-05-27

Family

ID=72384698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457761.5A Active CN111667339B (zh) 2020-05-26 2020-05-26 一种基于改进递归神经网络的诽谤性恶意用户检测方法

Country Status (1)

Country Link
CN (1) CN111667339B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113422761A (zh) * 2021-06-11 2021-09-21 西安电子科技大学 基于对抗学习的恶意社交用户检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550577A (en) * 1993-05-19 1996-08-27 Alcatel N.V. Video on demand network, including a central video server and distributed video servers with random access read/write memories
AU1010100A (en) * 1996-01-26 2000-03-02 Stephen L. Thaler Neural network based data examining system and method
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
US9418375B1 (en) * 2015-09-30 2016-08-16 International Business Machines Corporation Product recommendation using sentiment and semantic analysis
CN108197889A (zh) * 2017-12-28 2018-06-22 吉林大学 一种基于移动性预测的群智感知用户招募方法和系统
CN108830310A (zh) * 2018-06-01 2018-11-16 云南大学 基于多关系网络的mnmf聚类多变量时间序列的方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109887606A (zh) * 2019-02-28 2019-06-14 莫毓昌 一种基于注意力的双向递归神经网络的诊断预测方法
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN110569495A (zh) * 2018-06-05 2019-12-13 北京四维图新科技股份有限公司 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN110955826A (zh) * 2019-11-08 2020-04-03 上海交通大学 基于改进型循环神经网络单元的推荐系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550577A (en) * 1993-05-19 1996-08-27 Alcatel N.V. Video on demand network, including a central video server and distributed video servers with random access read/write memories
AU1010100A (en) * 1996-01-26 2000-03-02 Stephen L. Thaler Neural network based data examining system and method
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
US9418375B1 (en) * 2015-09-30 2016-08-16 International Business Machines Corporation Product recommendation using sentiment and semantic analysis
CN108197889A (zh) * 2017-12-28 2018-06-22 吉林大学 一种基于移动性预测的群智感知用户招募方法和系统
CN108830310A (zh) * 2018-06-01 2018-11-16 云南大学 基于多关系网络的mnmf聚类多变量时间序列的方法
CN110569495A (zh) * 2018-06-05 2019-12-13 北京四维图新科技股份有限公司 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109887606A (zh) * 2019-02-28 2019-06-14 莫毓昌 一种基于注意力的双向递归神经网络的诊断预测方法
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN110955826A (zh) * 2019-11-08 2020-04-03 上海交通大学 基于改进型循环神经网络单元的推荐系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUANBO XU;YONGJIAN YANG;JIAYU HAN;EN WANG;FUZHEN ZHUANG;HUI XION: "Exploiting the sentimental bias between ratings and reviews with neural networks", 《2018 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 *
徐原博: "推荐系统中面向评分和文本数据挖掘的若干关键技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》 *
杨永健; 聂瑜; 吴洋; 孙广志; 杨仲尧: "基于SVM新的情感计算方法", 《吉林大学学报(信息科学版)》 *
郭先净: "基于mGRU算法在抽取式阅读理解中的研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113422761A (zh) * 2021-06-11 2021-09-21 西安电子科技大学 基于对抗学习的恶意社交用户检测方法
CN113422761B (zh) * 2021-06-11 2023-02-10 西安电子科技大学 基于对抗学习的恶意社交用户检测方法

Also Published As

Publication number Publication date
CN111667339B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN110956497B (zh) 一种电子商务平台用户重复购买行为预测方法
WO2018040944A1 (zh) 恶意地址/恶意订单的识别系统、方法及装置
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN107944911A (zh) 一种基于文本分析的推荐系统的推荐方法
CN110209946B (zh) 基于社交和社群的产品推荐方法、系统和存储介质
WO2021169659A1 (zh) 资源信息推送方法、装置、服务器及存储介质
CN112214661B (zh) 一种面向视频常规评论的情感不稳定用户检测方法
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN105955957A (zh) 一种商家总体评论中方面评分的确定方法及装置
CN111667339B (zh) 一种基于改进递归神经网络的诽谤性恶意用户检测方法
Wang et al. A collaborative filtering algorithm fusing user-based, item-based and social networks
CN108460049A (zh) 一种确定信息类别的方法和系统
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN114911931A (zh) 一种基于bert对抗训练的比较句情感分析方法及系统
CN114022233A (zh) 一种新型的商品推荐方法
CN107203632A (zh) 基于相似关系和共现关系的话题流行度预测方法
CN114912031A (zh) 基于聚类和协同过滤的混合推荐方法和系统
CN113919906A (zh) 商品评论数据的推送方法、装置及存储介质
CN111666410A (zh) 商品用户评论文本的情感分类方法及系统
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN111507804A (zh) 基于混合信息融合的情感感知商品推荐方法
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant