CN111667339A

CN111667339A - 一种基于改进递归神经网络的诽谤性恶意用户检测方法

Info

Publication number: CN111667339A
Application number: CN202010457761.5A
Authority: CN
Inventors: 徐原博; 王恩; 张兴亮; 徐萌; 杨永健
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-15
Anticipated expiration: 2040-05-26
Also published as: CN111667339B

Abstract

本发明公开了一种基于改进递归神经网络的诽谤性恶意用户检测方法，包括以下步骤：步骤S1，搭建层次化双注意力递归神经网络HDAN模型；步骤S2，联合过滤；步骤S3，改进的非负矩阵分解推荐系统。本发明通过诽谤性恶意用户检测推荐系统框架SDRS，结合HDAN模型，可以为推荐系统在真实世界中的表现带来极大的提升，从这些用户的交互行为方式出发，将这类用户的特点抽象为评论与评级之间存在语义鸿沟，再利用HDAN来对评论中的语义进行情感分析，结合联合过滤的策略，可以检测并过滤掉此类恶意用户，为推荐系统带来了一个更为优质和纯净的输入，使得推荐系统的性能得以提升。

Description

一种基于改进递归神经网络的诽谤性恶意用户检测方法

技术领域

本发明涉及诽谤性恶意用户检测技术领域，具体来说，涉及一种基于改进递归神经网络的诽谤性恶意用户检测方法。

背景技术

在电商消费中，有一类消费者为了获取不正当的利益，会在电子商务平台对已消费过的商品进行诽谤性的差评，我们称此类消费者为诽谤性的恶意用户。此类的用户采取的所有行动都符合电子商务平台规范，利用现有异常用户检测技术的漏洞，来规避检测。他们通常在对商品的评级与评论之间构造一个语义鸿沟，在评级与评论之间出现较大的分歧，例如高评分和差评论、低评分和高评论，以此来混淆推荐系统，获取不正当的利益。

因此，我们提出一种基于改进递归神经网络的诽谤性恶意用户检测方法。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于改进递归神经网络的诽谤性恶意用户检测方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种基于改进递归神经网络的诽谤性恶意用户检测方法，包括以下步骤：

步骤S1，搭建层次化双注意力递归神经网络HDAN模型；

步骤S2，联合过滤；

步骤S3，改进的非负矩阵分解推荐系统；

其中，步骤S1包括以下：

S101，标定mGRU模型，其，ug_t的计算公式为：

其中的临时状态信息

表示为：

重置门re_t为一个权值，用于决定保留多少先前状态信息，若re_t＝1，则需要保留全部的先前状态信息，re_t的表示如下：

S102，词水平语义情感分析，包括如下：

其嵌入矩阵W_e，将单词w_it映射到一个向量y_it中，表示如下：

y_it＝W_ew_it,t∈[1,L_w]；

以

来结合

和

获取包含以单词w_it为中心的所有信息；

其中一个句子中的单词数量为w个，每个单词的权值依赖于情感信息 h_it，其注意力权值计算公式如下：

其中，c_it是情感权值h_it的隐式表示，c^w是与c_it同一维度的随机向量， c^w可以在模型训练的过程中学习得到；

S103，句子水平语义情感分析；

每条评论中的句子数量为s个，表示为：

以

来结合

和

获取包含以句子s_i为中心的所有信息，

获取评论中每个句子的权值，因为每条评论中的句子数量为s个，具体公式如下：

其中，v是包含了评论中所有信息的向量，将词水平包含的信息与句子水平上包含的信息进行了整合，得到的评论水平上的向量；

获取计算评论意见水平ot，具体如下：

ot＝F(softmax(W_vv+b_v))；

其中，F是映射函数；

步骤S2包括以下：

获取评论意见水平ot_ui和用户对项目的评级意见水平t_ui，过滤诽谤性恶意交互行为和诽谤性恶意用户；

确定d_ui作为诽谤性恶意交互行为指示符，表示如下：

{d_ui|d_ui＝1,|ot_ui―r_ui|≥α；d_ui＝0,|ot_ui―r_ui|<α}；

其中，标定谤性恶意交互行为指示符d_ui构建用户项目交互指示矩阵 R_in,R_in∈R^m ^*n；

指示符d_ui，诽谤性恶意用户集合us的计算函数具体如下：

步骤S3包括以下：

确定潜在维度，表示如下：

P∈R^m*k,∑∈R^k*k,Q∈R^k*n；

其中，∑是k维对角矩阵，具体项为σ₁,σ₂…σ_k。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性；

将∑中的权值按降序排列为σ′₁,σ′₂…σ′_k；

利用top-k’方法(k′＝{k′|(σ′₁+σ′₂…+σ′_k′)/(σ′₁+σ′₂…+σ′_k)>η})，来构建新的k′维对角矩阵∑′，其具体项为σ′₁,σ′₂…σ′_k′；

依据∑′和重构矩阵，在P和Q中选择出最重要的k′个潜在维度；

通过重建矩阵

后，可以在原始矩阵R中，从所有未排序的项目里挑选出前k个项目，对用户进行推荐。

进一步的，包括以下步骤：

标定诽谤性恶意交互；

标定诽谤性恶意用户；

其，标定诽谤性恶意交互，包括如下：

对于给定的评级r_ui和评论t_ui，其评级意见水平和评论意见水平分别是 or_ui和ot_ui，α作为两种意见水平之间的差距阈值，当满足∣or_ui-ot_ui∣≥α时，可以将此种交互标注为诽谤性恶意交互，用d_ui＝1来表示；反之，当∣or_ui-ot_ui∣<α时，可以将此种交互标注为非诽谤性恶意交互，用d_ui＝0来表示；

其，标定诽谤性恶意用户，包括如下：

对于给定的U,I,R,T，诽谤性恶意用户的集合u^s为：

其中，β是诽谤性恶意用户的检测阈值。

进一步的，GRU包括重置门ret和更新门ugt，在t时刻，GRU表示如下：

其中，h_t―1是上一个时刻，即t-1时刻的状态信息，

为临时状态信息。

进一步的，步骤S2，进一步包括以下：

对于正常用户的正常交互行为，采用

来将评论和评级进行线性结合，其中μ是权值用于平衡评论与评级之间的重要程度，使两者都能起到作用；

对于正常用户的诽谤性恶意交互行为，删除该恶意行为相应的评论意见水平r_ui和评论意见水平ot_ui；

对于诽谤性恶意用户，删除其所有的信息；

获取联合过滤后的用户项目交互矩阵

∣u^s∣为检测到的诽谤性恶意用户的数量，

的具体条目为

本发明的有益效果：

本发明通过诽谤性恶意用户检测推荐系统框架SDRS，结合HDAN模型，可以为推荐系统在真实世界中的表现带来极大的提升，从这些用户的交互行为方式出发，将这类用户的特点抽象为评论与评级之间存在语义鸿沟，再利用HDAN来对评论中的语义进行情感分析，结合联合过滤的策略，可以检测并过滤掉此类恶意用户，为推荐系统带来了一个更为优质和纯净的输入，使得推荐系统的性能得以提升，另外SDRS可以广泛应用于各大电子商务平台，作为商家，可以实现更为高效的推荐自己的产品，可以很大程度避免商家间不良竞争带来的负面影响，作为消费者，可以在更为快速的获得适合自己的精准推荐，消费体验更为优质。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的SDRS框架示意图；

图2是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的HDAN网络模型图；

图3是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的MNMF流程图；

图4是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的不同数据集不同模型的A-err值图；

图5是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的评级以及情感得分对比图；

图6是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的不同μ值对推荐性能的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于改进递归神经网络的诽谤性恶意用户检测方法。

如图1-6所示，根据本发明实施例的基于改进递归神经网络的诽谤性恶意用户检测方法，包括以下步骤：

步骤S1，搭建层次化双注意力递归神经网络HDAN模型；

步骤S2，联合过滤；

步骤S3，改进的非负矩阵分解推荐系统；

其中，步骤S1包括以下：

S101，标定mGRU模型，其，ug_t的计算公式为：

其中的临时状态信息

表示为：

S102，词水平语义情感分析，包括如下：

y_it＝W_ew_it,t∈[1,L_w]；

以

来结合

和

获取包含以单词w_it为中心的所有信息；

S103，句子水平语义情感分析；

每条评论中的句子数量为s个，表示为：

以

来结合

和

获取包含以句子s_i为中心的所有信息，

获取计算评论意见水平ot，具体如下：

ot＝F(softmax(W_vv+b_v))；

其中，F是映射函数；

步骤S2包括以下：

获取评论意见水平ot_ui和用户对项目的评级意见水平r_ui，过滤诽谤性恶意交互行为和诽谤性恶意用户；

确定d_ui作为诽谤性恶意交互行为指示符，表示如下：

{d_ui|d_ui＝1,|ot_ui―r_ui|≥α；d_ui＝0,|ot_ui―r_ui|<α}；

指示符d_ui，诽谤性恶意用户集合u^s的计算函数具体如下：

步骤S3包括以下：

确定潜在维度，表示如下：

P∈R^m*k,∑∈R^k*k,Q∈R^k*n；

将∑中的权值按降序排列为σ′₁,σ′₂…σ′_k；

通过重建矩阵

借助于上述技术方案，通过诽谤性恶意用户检测推荐系统框架SDRS，结合HDAN模型，可以为推荐系统在真实世界中的表现带来极大的提升，从这些用户的交互行为方式出发，将这类用户的特点抽象为评论与评级之间存在语义鸿沟，再利用HDAN来对评论中的语义进行情感分析，结合联合过滤的策略，可以检测并过滤掉此类恶意用户，为推荐系统带来了一个更为优质和纯净的输入，使得推荐系统的性能得以提升，另外SDRS可以广泛应用于各大电子商务平台，作为商家，可以实现更为高效的推荐自己的产品，可以很大程度避免商家间不良竞争带来的负面影响，作为消费者，可以在更为快速的获得适合自己的精准推荐，消费体验更为优质。

另外，具体的，其上述方案，符号及问题的基本定义，见表1：

表1：符号定义

具体的，在推荐系统中，我们用U来表示用户集合，即消费者，用I 来表示项目集合，即商品。用户和商品的具体数量是m和n，即∣U∣＝m，∣ I∣＝n。R代表用户对项目的评级矩阵，其具体条目为rui，代表用户对商品的评分。T代表用户会项目的评论矩阵，其具体条目为tui，代表用户对商品的评论。rui和tui成对出现，R,T∈Rm*n。我们将U,I,R,T作为本方法的输入，其中R,T作为用户与商品之间的交互。具体的符号表述，我们在表格1中进行了系统的阐述。

另外，我们需要检测的诽谤性恶意用户分为两种：提供虚假评级的诽谤性恶意用户和提供虚假评论的诽谤性恶意用户。这两种用户有一定的相似性，因为他们都是采用营造评级和评论之间的语义鸿沟来实现诽谤，因此我们先对诽谤性的恶意交互进行定义，再对诽谤性的恶意用户进行定义。

具体来说，我们首先需要计算评级意见水平or和评论意见水平ot。针对or，我们直接利用用户对项目的评级r作为or；针对ot，我们构建了一个结合了改进的GRU的递归神经网络，用此网络来对用户评论t进行分析，最终得到与or具有相同维度的评论意见水平ot。这是一种检测恶意用户的联合性过滤方法，我们致力于利用这种方法在最大程度上提升推荐系统的性能。

另外，如图1所示，诽谤性恶意用户检测推荐系统框架(SDRS)框架由4个模块组成：词嵌入模块、评论情感分析模块、诽谤性恶意用户检测模块和推荐模块，首先，我们利用词嵌入技术(Word Embedding)将评论中的所有词映射到词嵌入的向量中。然后，我们设计了一个层次化双注意力机制递归神经网络(Hierarchical Dual-Attention recurrentNeural network， HDAN)来对用户的评论进行情感分析，得到评论意见水平ot。通过比较用户的评分rui和ot，在联合过滤(Jiont Filtering)中对诽谤性恶意交互进行修改，去掉诽谤性恶意用户，然后构建过滤后的用户-项目交互矩阵

作为下一个模块的输入。最后，我们提出了一个改进的非负矩阵分解推荐系统(Modified Non-negative MatrixFactorization,MNMF)来利用

进行推荐。

对于上述词嵌入模块来说，SDRS的第一个模块是词嵌入模块，这是一种有效的发现单词之间关系的方法。由于我们的技术方案，不仅要应用于使用英文评论的推荐系统(例如亚马逊、电商二)，还会应用于使用中文评论的推荐系统(例如电商三、电商四)。因此，我们在传统的词嵌入技术Word2Vec的基础上，借鉴了目前该领域的研究成果，对Word2Vec进行了改进，使其更适用于真实的场景。我们以T作为输入，为了使问题得到简化，我们采取如下的策略：如果一篇评论中的句子数量超过了一个阈值Ls，我们就删除大量的句子。否则，我们将对评论进行填充，使句子数量达到Ls。此外，我们为句子中的单词设置了一个阈值Lw，并执行相同的操作。词嵌入完成后，每个单词都被转化到一个向量w中。

另外，如图2所示，构建HDAN网络的目的使计算每条评论相对应的评论意见水平ot。我们将每一个句子中的所有单词输入到带有W个注意力的W 层递归神经网络中(W-Level RNN with W-attention)，再将每条评论中的所有句子输入到S个注意力的S层递归神经网络中(S-Level RNN with S-attention)

另外，如图3所示，改进的非负矩阵分解推荐系统(modified NMF,MNMF)，具体为：

确定潜在维度，表示如下：

P∈R^m*k,∑∈R^k*k,Q∈R^k*n；

将∑中的权值按降序排列为σ′₁，σ′₂…σ′_k；

通过重建矩阵

另外，具体的，预先获取大型数据集上进行了实验，如表2所示：

表2，电商数据表

针对评论语义情感分析步骤，我们采用分类百分比和A-err作为评价指标。分类百分比意味着情感意见水平匹配评级的准确性。我们使用A-err来衡量评论意见水平ot和评级意见水平r，计算公式如下：

其中，∣RR∣是评级的范围，即5。

针对诽谤性恶意用户检测步骤，由于对于此类用户的判定具有主观性，因此不能直接使用指标来进行度量。因此，我们从两个方面来验证我们的诽谤性恶意用户检测技术：

获取商家会在这些网站上上传诽谤者的名单；

间接地，我们对检测到的诽谤性恶意用户进行过滤，将过滤后的矩阵输入到推荐系统中，以查看性能的变化；

针对推荐步骤，我们使用均方误差(MSE)和命中率(HR)作为评评价指标，其具体计算公式分别如下：

其中，

是推荐给用户u包含前k个推荐项目(Top-k)的集合，

是用户 u的实际项目选择情况。

另外，对照组SDRS由四个模块组成，其中文字嵌入是一个成熟的工具，诽谤性恶意用户检测是一个几乎没有基准的新问题。因此，我们将SDRS 与一些情感分析方法进行比较，以供审查和建议：

针对评论情感分析，我们选用两种基于CNN的模型(CNN-rand，CNN-multichannel)和当前最先进的基于RNN的模型(HAN)进行比较。

针对有显式反馈的推荐，我们选用协同过滤模型(basic-CF),两种基于MF(矩阵分解)的模型(NMF，Appro-SVD)和目前最先进的基于神经网络的模型(NCF)进行比较。

另外，具体的，我们对SDRS的参数进行了设置，所有这些参数都是通过交叉验证来确定的，以确保SDRS的性能。

1)在词嵌入(Word Embedding)中，对于英文评论(电商一,电商二) 我们将嵌入维度设置成L_S＝15,L_W＝12；对于中文评论(电商三，电商四)我们将嵌入维度设置成L_S＝6,L_W＝15。所有的文字都被嵌入到维度为20的潜在空间中；

2)在评论情感分析中，我们使用随机梯度下降法(SGD)来计算权值，自适应优化算法(Adam optimizer)的初始学习率为0.0001；

3)在诽谤性恶意用户检测站，我们将参数初始值设置为α＝0.8,β＝12,μ＝0.5。

4)在推荐中，我们将参数设置为η＝0.8，分别对排序前三的项目 (Top-3)，排序前五的项目(Top-5)进行推荐；

5)与此同时，为了公平竞争，我们尽最大努力为对照模型设置适当的参数，以在我们的数据集中获得最佳性能。

另外，具体的，如图4所示，实验结果与分析：

其，评论情感分析，我们将提出的评论情感分析模型(HDAN with mGRU)与其他模型(BoW TFIDF，SVM，LSTM,CNN-rand，CNN- multichannel，HAN，HDAN with GRU)进行对比,结果如表3所示：

表3：情感分析结果

参考上述表格，其无论处理什么尺寸、类型的数据，我们所提出的模型表现出来的性能均优于其他模型。值得注意的是，在处理电商三、电商四两个中文数据集时，一些传统的方法(BoW TFIDF，SVM)和传统神经网络模型 (LSTM,CNN-rand，CNN-multichannel)已经很难令人满意。而基于递归神经网络(RNN-based)的模型HAN,HDAN表现依然优越，这说明针对不同的元素，计算其各自的权值以捕获相互间的关系这一方法是正确的。而我们提出的使用mGRU的HDAN比HAN，HDAN性能优越了10％。

具体的，如图4所示，其诽谤性恶意用户检测：

为了验证恶意用户检测的有效性，我们使用两种不同的方法在电商数据集上定义我们的基本事实：第一种，我们雇佣了20个人来手动告诉我们用我们的模型过滤的诽谤性恶意用户，并给出错误率分析；第二种，我们利用公布诽谤性恶意用户的网站来检验我们过滤掉的用户。我们从电商三中数据集中过滤了 37个用户，从电商四数据集中过滤了17个用户，如表4所示：

表4电商数据集中的部分过滤用户统计信息

从统计信息中可以看出，这些用户给出了均衡的评级和评论，避免了传统的异常用户检测，我们在4个数据量大的真实数据集上进行了实验，采用了统计学指标与人工检验相结合的验证策略。结果表明，我们提出的推荐系统中基于改进递归神经网络的诽谤性恶意用户检测技术(SDRS)适用于当前真实的应用场景，并且其表现出来的性能已经超越了目前同领域最新的技术，尤其在处理更为复杂的中文任务中表现得更为优异。

综上所述，借助于本发明的上述技术方案，通过诽谤性恶意用户检测推荐系统框架SDRS，结合层次化双注意力递归神经网络HDAN模型，可以为推荐系统在真实世界中的表现带来极大的提升，从这些用户的交互行为方式出发，将这类用户的特点抽象为评论与评级之间存在语义鸿沟，再利用HDAN来对评论中的语义进行情感分析，结合联合过滤的策略，可以检测并过滤掉此类恶意用户，为推荐系统带来了一个更为优质和纯净的输入，使得推荐系统的性能得以提升，另外SDRS可以广泛应用于各大电子商务平台，作为商家，可以实现更为高效的推荐自己的产品，可以很大程度避免商家间不良竞争带来的负面影响，作为消费者，可以在更为快速的获得适合自己的精准推荐，消费体验更为优质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进递归神经网络的诽谤性恶意用户检测方法，其特征在于，包括以下步骤：

步骤S1，搭建层次化双注意力递归神经网络HDAN模型；

步骤S2，联合过滤；

步骤S3，改进的非负矩阵分解推荐系统；

其中，步骤S1包括以下：

S101，标定mGRU模型，其，ug_t的计算公式为：

其中的临时状态信息

表示为：

S102，词水平语义情感分析，包括如下：

y_it＝W_ew_it，t∈[1，L_w]；

以

来结合

和

获取包含以单词w_it为中心的所有信息；

其中一个句子中的单词数量为w个，每个单词的权值依赖于情感信息h_it，其注意力权值计算公式如下：

其中，c_it是情感权值h_it的隐式表示，c^w是与c_it同一维度的随机向量，c^w可以在模型训练的过程中学习得到；

S103，句子水平语义情感分析；

每条评论中的句子数量为s个，表示为：

以

来结合

和

获取包含以句子s_i为中心的所有信息，

获取计算评论意见水平ot，具体如下：

ot＝F(softmax(W_vv+b_v))；

其中，F是映射函数；

步骤S2包括以下：

确定d_ui作为诽谤性恶意交互行为指示符，表示如下：

{d_ui|d_ui＝1，|ot_ui-r_ui|≥α；d_ui＝0，|ot_ui-r_ui|＜α}；

其中，标定谤性恶意交互行为指示符d_ui构建用户项目交互指示矩阵R_in，R_in∈R^m*n；

步骤S3包括以下：

确定潜在维度，表示如下：

P∈R^m*k，∑∈R^k*k，Q∈R^k*n；

其中，∑是k维对角矩阵，具体项为σ₁，σ₂...σ_k。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性；

将∑中的权值按降序排列为σ′₁，σ′₂...σ′_k；

利用top-k’方法(k′＝{k′|(σ′₁+σ′₂...+σ′_k′)/(σ′₁+σ′₂...+σ′_k)＞η})，来构建新的k′维对角矩阵∑′，其具体项为σ′₁，σ′₂...σ′_k′；

通过重建矩阵

2.根据权利要求1所述的基于改进递归神经网络的诽谤性恶意用户检测方法，其特征在于，进一步包括以下步骤：

标定诽谤性恶意交互；

标定诽谤性恶意用户；

其，标定诽谤性恶意交互，包括如下：

对于给定的评级r_ui和评论t_ui，其评级意见水平和评论意见水平分别是or_ui和ot_ui，α作为两种意见水平之间的差距阈值，当满足|or_ui-ot_ui|≥α时，可以将此种交互标注为诽谤性恶意交互，用d_ui＝1来表示；反之，当|or_ui-ot_ui|＜α时，可以将此种交互标注为非诽谤性恶意交互，用d_ui＝0来表示；

其，标定诽谤性恶意用户，包括如下：

对于给定的U，I，R，T，诽谤性恶意用户的集合u^s为：