CN111667339A - 一种基于改进递归神经网络的诽谤性恶意用户检测方法 - Google Patents
一种基于改进递归神经网络的诽谤性恶意用户检测方法 Download PDFInfo
- Publication number
- CN111667339A CN111667339A CN202010457761.5A CN202010457761A CN111667339A CN 111667339 A CN111667339 A CN 111667339A CN 202010457761 A CN202010457761 A CN 202010457761A CN 111667339 A CN111667339 A CN 111667339A
- Authority
- CN
- China
- Prior art keywords
- defamation
- malicious
- comment
- users
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000002452 interceptive effect Effects 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 230000008451 emotion Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:步骤S1,搭建层次化双注意力递归神经网络HDAN模型;步骤S2,联合过滤;步骤S3,改进的非负矩阵分解推荐系统。本发明通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升。
Description
技术领域
本发明涉及诽谤性恶意用户检测技术领域,具体来说,涉及一种基于改进递归神经网络的诽谤性恶意用户检测方法。
背景技术
在电商消费中,有一类消费者为了获取不正当的利益,会在电子商务平台对已消费过的商品进行诽谤性的差评,我们称此类消费者为诽谤性的恶意用户。此类的用户采取的所有行动都符合电子商务平台规范,利用现有异常用户检测技术的漏洞,来规避检测。他们通常在对商品的评级与评论之间构造一个语义鸿沟,在评级与评论之间出现较大的分歧,例如高评分和差评论、低评分和高评论,以此来混淆推荐系统,获取不正当的利益。
因此,我们提出一种基于改进递归神经网络的诽谤性恶意用户检测方法。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于改进递归神经网络的诽谤性恶意用户检测方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息 hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量, cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平tui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵 Rin,Rin∈Rm *n;
指示符dui,诽谤性恶意用户集合us的计算函数具体如下:
步骤S3包括以下:
确定潜在维度,表示如下:
其中,∑是k维对角矩阵,具体项为σ1,σ2…σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k;
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′;
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
进一步的,包括以下步骤:
标定诽谤性恶意交互;
标定诽谤性恶意用户;
其,标定诽谤性恶意交互,包括如下:
对于给定的评级rui和评论tui,其评级意见水平和评论意见水平分别是 orui和otui,α作为两种意见水平之间的差距阈值,当满足∣orui-otui∣≥α时,可以将此种交互标注为诽谤性恶意交互,用dui=1来表示;反之,当∣orui-otui∣<α时,可以将此种交互标注为非诽谤性恶意交互,用dui=0来表示;
其,标定诽谤性恶意用户,包括如下:
对于给定的U,I,R,T,诽谤性恶意用户的集合us为:
其中,β是诽谤性恶意用户的检测阈值。
进一步的,GRU包括重置门ret和更新门ugt,在t时刻,GRU表示如下:
进一步的,步骤S2,进一步包括以下:
对于正常用户的诽谤性恶意交互行为,删除该恶意行为相应的评论意见水平rui和评论意见水平otui;
对于诽谤性恶意用户,删除其所有的信息;
本发明的有益效果:
本发明通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的SDRS框架示意图;
图2是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的HDAN网络模型图;
图3是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的MNMF流程图;
图4是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的不同数据集不同模型的A-err值图;
图5是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的评级以及情感得分对比图;
图6是根据本发明实施例的一种基于改进递归神经网络的诽谤性恶意用户检测方法的过滤用户的不同μ值对推荐性能的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于改进递归神经网络的诽谤性恶意用户检测方法。
如图1-6所示,根据本发明实施例的基于改进递归神经网络的诽谤性恶意用户检测方法,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息 hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量, cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平rui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui―rui|≥α;dui=0,|otui―rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵 Rin,Rin∈Rm *n;
指示符dui,诽谤性恶意用户集合us的计算函数具体如下:
步骤S3包括以下:
确定潜在维度,表示如下:
其中,∑是k维对角矩阵,具体项为σ1,σ2…σk。σ代表潜在维度P在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k;
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′;
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
借助于上述技术方案,通过诽谤性恶意用户检测推荐系统框架SDRS,结合HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
另外,具体的,其上述方案,符号及问题的基本定义,见表1:
表1:符号定义
具体的,在推荐系统中,我们用U来表示用户集合,即消费者,用I 来表示项目集合,即商品。用户和商品的具体数量是m和n,即∣U∣=m,∣ I∣=n。R代表用户对项目的评级矩阵,其具体条目为rui,代表用户对商品的评分。T代表用户会项目的评论矩阵,其具体条目为tui,代表用户对商品的评论。rui和tui成对出现,R,T∈Rm*n。我们将U,I,R,T作为本方法的输入,其中R,T作为用户与商品之间的交互。具体的符号表述,我们在表格1中进行了系统的阐述。
另外,我们需要检测的诽谤性恶意用户分为两种:提供虚假评级的诽谤性恶意用户和提供虚假评论的诽谤性恶意用户。这两种用户有一定的相似性,因为他们都是采用营造评级和评论之间的语义鸿沟来实现诽谤,因此我们先对诽谤性的恶意交互进行定义,再对诽谤性的恶意用户进行定义。
具体来说,我们首先需要计算评级意见水平or和评论意见水平ot。针对or,我们直接利用用户对项目的评级r作为or;针对ot,我们构建了一个结合了改进的GRU的递归神经网络,用此网络来对用户评论t进行分析,最终得到与or具有相同维度的评论意见水平ot。这是一种检测恶意用户的联合性过滤方法,我们致力于利用这种方法在最大程度上提升推荐系统的性能。
另外,如图1所示,诽谤性恶意用户检测推荐系统框架(SDRS)框架由4个模块组成:词嵌入模块、评论情感分析模块、诽谤性恶意用户检测模块和推荐模块,首先,我们利用词嵌入技术(Word Embedding)将评论中的所有词映射到词嵌入的向量中。然后,我们设计了一个层次化双注意力机制递归神经网络(Hierarchical Dual-Attention recurrentNeural network, HDAN)来对用户的评论进行情感分析,得到评论意见水平ot。通过比较用户的评分rui和ot,在联合过滤(Jiont Filtering)中对诽谤性恶意交互进行修改,去掉诽谤性恶意用户,然后构建过滤后的用户-项目交互矩阵作为下一个模块的输入。最后,我们提出了一个改进的非负矩阵分解推荐系统(Modified Non-negative MatrixFactorization,MNMF)来利用进行推荐。
对于上述词嵌入模块来说,SDRS的第一个模块是词嵌入模块,这是一种有效的发现单词之间关系的方法。由于我们的技术方案,不仅要应用于使用英文评论的推荐系统(例如亚马逊、电商二),还会应用于使用中文评论的推荐系统(例如电商三、电商四)。因此,我们在传统的词嵌入技术Word2Vec的基础上,借鉴了目前该领域的研究成果,对Word2Vec进行了改进,使其更适用于真实的场景。我们以T作为输入,为了使问题得到简化,我们采取如下的策略:如果一篇评论中的句子数量超过了一个阈值Ls,我们就删除大量的句子。否则,我们将对评论进行填充,使句子数量达到Ls。此外,我们为句子中的单词设置了一个阈值Lw,并执行相同的操作。词嵌入完成后,每个单词都被转化到一个向量w中。
另外,如图2所示,构建HDAN网络的目的使计算每条评论相对应的评论意见水平ot。我们将每一个句子中的所有单词输入到带有W个注意力的W 层递归神经网络中(W-Level RNN with W-attention),再将每条评论中的所有句子输入到S个注意力的S层递归神经网络中(S-Level RNN with S-attention)
另外,如图3所示,改进的非负矩阵分解推荐系统(modified NMF,MNMF),具体为:
确定潜在维度,表示如下:
其中,∑是k维对角矩阵,具体项为σ1,σ2…σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2…σ′k;
利用top-k’方法(k′={k′|(σ′1+σ′2…+σ′k′)/(σ′1+σ′2…+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2…σ′k′;
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
另外,具体的,预先获取大型数据集上进行了实验,如表2所示:
表2,电商数据表
针对评论语义情感分析步骤,我们采用分类百分比和A-err作为评价指标。分类百分比意味着情感意见水平匹配评级的准确性。我们使用A-err来衡量评论意见水平ot和评级意见水平r,计算公式如下:
其中,∣RR∣是评级的范围,即5。
针对诽谤性恶意用户检测步骤,由于对于此类用户的判定具有主观性,因此不能直接使用指标来进行度量。因此,我们从两个方面来验证我们的诽谤性恶意用户检测技术:
获取商家会在这些网站上上传诽谤者的名单;
间接地,我们对检测到的诽谤性恶意用户进行过滤,将过滤后的矩阵输入到推荐系统中,以查看性能的变化;
针对推荐步骤,我们使用均方误差(MSE)和命中率(HR)作为评评价指标,其具体计算公式分别如下:
另外,对照组SDRS由四个模块组成,其中文字嵌入是一个成熟的工具,诽谤性恶意用户检测是一个几乎没有基准的新问题。因此,我们将SDRS 与一些情感分析方法进行比较,以供审查和建议:
针对评论情感分析,我们选用两种基于CNN的模型(CNN-rand,CNN-multichannel)和当前最先进的基于RNN的模型(HAN)进行比较。
针对有显式反馈的推荐,我们选用协同过滤模型(basic-CF),两种基于MF(矩阵分解)的模型(NMF,Appro-SVD)和目前最先进的基于神经网络的模型(NCF)进行比较。
另外,具体的,我们对SDRS的参数进行了设置,所有这些参数都是通过交叉验证来确定的,以确保SDRS的性能。
1)在词嵌入(Word Embedding)中,对于英文评论(电商一,电商二) 我们将嵌入维度设置成LS=15,LW=12;对于中文评论(电商三,电商四)我们将嵌入维度设置成LS=6,LW=15。所有的文字都被嵌入到维度为20的潜在空间中;
2)在评论情感分析中,我们使用随机梯度下降法(SGD)来计算权值,自适应优化算法(Adam optimizer)的初始学习率为0.0001;
3)在诽谤性恶意用户检测站,我们将参数初始值设置为α=0.8,β=12,μ=0.5。
4)在推荐中,我们将参数设置为η=0.8,分别对排序前三的项目 (Top-3),排序前五的项目(Top-5)进行推荐;
5)与此同时,为了公平竞争,我们尽最大努力为对照模型设置适当的参数,以在我们的数据集中获得最佳性能。
另外,具体的,如图4所示,实验结果与分析:
其,评论情感分析,我们将提出的评论情感分析模型(HDAN with mGRU)与其他模型(BoW TFIDF,SVM,LSTM,CNN-rand,CNN- multichannel,HAN,HDAN with GRU)进行对比,结果如表3所示:
表3:情感分析结果
参考上述表格,其无论处理什么尺寸、类型的数据,我们所提出的模型表现出来的性能均优于其他模型。值得注意的是,在处理电商三、电商四两个中文数据集时,一些传统的方法(BoW TFIDF,SVM)和传统神经网络模型 (LSTM,CNN-rand,CNN-multichannel)已经很难令人满意。而基于递归神经网络(RNN-based)的模型HAN,HDAN表现依然优越,这说明针对不同的元素,计算其各自的权值以捕获相互间的关系这一方法是正确的。而我们提出的使用mGRU的HDAN比HAN,HDAN性能优越了10%。
具体的,如图4所示,其诽谤性恶意用户检测:
为了验证恶意用户检测的有效性,我们使用两种不同的方法在电商数据集上定义我们的基本事实:第一种,我们雇佣了20个人来手动告诉我们用我们的模型过滤的诽谤性恶意用户,并给出错误率分析;第二种,我们利用公布诽谤性恶意用户的网站来检验我们过滤掉的用户。我们从电商三中数据集中过滤了 37个用户,从电商四数据集中过滤了17个用户,如表4所示:
表4电商数据集中的部分过滤用户统计信息
从统计信息中可以看出,这些用户给出了均衡的评级和评论,避免了传统的异常用户检测,我们在4个数据量大的真实数据集上进行了实验,采用了统计学指标与人工检验相结合的验证策略。结果表明,我们提出的推荐系统中基于改进递归神经网络的诽谤性恶意用户检测技术(SDRS)适用于当前真实的应用场景,并且其表现出来的性能已经超越了目前同领域最新的技术,尤其在处理更为复杂的中文任务中表现得更为优异。
综上所述,借助于本发明的上述技术方案,通过诽谤性恶意用户检测推荐系统框架SDRS,结合层次化双注意力递归神经网络HDAN模型,可以为推荐系统在真实世界中的表现带来极大的提升,从这些用户的交互行为方式出发,将这类用户的特点抽象为评论与评级之间存在语义鸿沟,再利用HDAN来对评论中的语义进行情感分析,结合联合过滤的策略,可以检测并过滤掉此类恶意用户,为推荐系统带来了一个更为优质和纯净的输入,使得推荐系统的性能得以提升,另外SDRS可以广泛应用于各大电子商务平台,作为商家,可以实现更为高效的推荐自己的产品,可以很大程度避免商家间不良竞争带来的负面影响,作为消费者,可以在更为快速的获得适合自己的精准推荐,消费体验更为优质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,包括以下步骤:
步骤S1,搭建层次化双注意力递归神经网络HDAN模型;
步骤S2,联合过滤;
步骤S3,改进的非负矩阵分解推荐系统;
其中,步骤S1包括以下:
S101,标定mGRU模型,其,ugt的计算公式为:
重置门ret为一个权值,用于决定保留多少先前状态信息,若ret=1,则需要保留全部的先前状态信息,ret的表示如下:
S102,词水平语义情感分析,包括如下:
其嵌入矩阵We,将单词wit映射到一个向量yit中,表示如下:
yit=Wewit,t∈[1,Lw];
其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息hit,其注意力权值计算公式如下:
其中,cit是情感权值hit的隐式表示,cw是与cit同一维度的随机向量,cw可以在模型训练的过程中学习得到;
S103,句子水平语义情感分析;
每条评论中的句子数量为s个,表示为:
获取评论中每个句子的权值,因为每条评论中的句子数量为s个,具体公式如下:
其中,v是包含了评论中所有信息的向量,将词水平包含的信息与句子水平上包含的信息进行了整合,得到的评论水平上的向量;
获取计算评论意见水平ot,具体如下:
ot=F(softmax(Wvv+bv));
其中,F是映射函数;
步骤S2包括以下:
获取评论意见水平otui和用户对项目的评级意见水平rui,过滤诽谤性恶意交互行为和诽谤性恶意用户;
确定dui作为诽谤性恶意交互行为指示符,表示如下:
{dui|dui=1,|otui-rui|≥α;dui=0,|otui-rui|<α};
其中,标定谤性恶意交互行为指示符dui构建用户项目交互指示矩阵Rin,Rin∈Rm*n;
步骤S3包括以下:
确定潜在维度,表示如下:
其中,∑是k维对角矩阵,具体项为σ1,σ2...σk。σ代表潜在维度p在用户潜在表征P中的重要性和潜在维度q在项目潜在表征Q中的重要性;
将∑中的权值按降序排列为σ′1,σ′2...σ′k;
利用top-k’方法(k′={k′|(σ′1+σ′2...+σ′k′)/(σ′1+σ′2...+σ′k)>η}),来构建新的k′维对角矩阵∑′,其具体项为σ′1,σ′2...σ′k′;
依据∑′和重构矩阵,在P和Q中选择出最重要的k′个潜在维度;
2.根据权利要求1所述的基于改进递归神经网络的诽谤性恶意用户检测方法,其特征在于,进一步包括以下步骤:
标定诽谤性恶意交互;
标定诽谤性恶意用户;
其,标定诽谤性恶意交互,包括如下:
对于给定的评级rui和评论tui,其评级意见水平和评论意见水平分别是orui和otui,α作为两种意见水平之间的差距阈值,当满足|orui-otui|≥α时,可以将此种交互标注为诽谤性恶意交互,用dui=1来表示;反之,当|orui-otui|<α时,可以将此种交互标注为非诽谤性恶意交互,用dui=0来表示;
其,标定诽谤性恶意用户,包括如下:
对于给定的U,I,R,T,诽谤性恶意用户的集合us为:
其中,β是诽谤性恶意用户的检测阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010457761.5A CN111667339B (zh) | 2020-05-26 | 2020-05-26 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010457761.5A CN111667339B (zh) | 2020-05-26 | 2020-05-26 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111667339A true CN111667339A (zh) | 2020-09-15 |
CN111667339B CN111667339B (zh) | 2022-05-27 |
Family
ID=72384698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010457761.5A Active CN111667339B (zh) | 2020-05-26 | 2020-05-26 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667339B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113422761A (zh) * | 2021-06-11 | 2021-09-21 | 西安电子科技大学 | 基于对抗学习的恶意社交用户检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5550577A (en) * | 1993-05-19 | 1996-08-27 | Alcatel N.V. | Video on demand network, including a central video server and distributed video servers with random access read/write memories |
AU1010100A (en) * | 1996-01-26 | 2000-03-02 | Stephen L. Thaler | Neural network based data examining system and method |
US8515828B1 (en) * | 2012-05-29 | 2013-08-20 | Google Inc. | Providing product recommendations through keyword extraction from negative reviews |
US9418375B1 (en) * | 2015-09-30 | 2016-08-16 | International Business Machines Corporation | Product recommendation using sentiment and semantic analysis |
CN108197889A (zh) * | 2017-12-28 | 2018-06-22 | 吉林大学 | 一种基于移动性预测的群智感知用户招募方法和系统 |
CN108830310A (zh) * | 2018-06-01 | 2018-11-16 | 云南大学 | 基于多关系网络的mnmf聚类多变量时间序列的方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109887606A (zh) * | 2019-02-28 | 2019-06-14 | 莫毓昌 | 一种基于注意力的双向递归神经网络的诊断预测方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN110569495A (zh) * | 2018-06-05 | 2019-12-13 | 北京四维图新科技股份有限公司 | 一种基于用户评论的情感倾向分类方法、装置及存储介质 |
CN110955826A (zh) * | 2019-11-08 | 2020-04-03 | 上海交通大学 | 基于改进型循环神经网络单元的推荐系统 |
-
2020
- 2020-05-26 CN CN202010457761.5A patent/CN111667339B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5550577A (en) * | 1993-05-19 | 1996-08-27 | Alcatel N.V. | Video on demand network, including a central video server and distributed video servers with random access read/write memories |
AU1010100A (en) * | 1996-01-26 | 2000-03-02 | Stephen L. Thaler | Neural network based data examining system and method |
US8515828B1 (en) * | 2012-05-29 | 2013-08-20 | Google Inc. | Providing product recommendations through keyword extraction from negative reviews |
US9418375B1 (en) * | 2015-09-30 | 2016-08-16 | International Business Machines Corporation | Product recommendation using sentiment and semantic analysis |
CN108197889A (zh) * | 2017-12-28 | 2018-06-22 | 吉林大学 | 一种基于移动性预测的群智感知用户招募方法和系统 |
CN108830310A (zh) * | 2018-06-01 | 2018-11-16 | 云南大学 | 基于多关系网络的mnmf聚类多变量时间序列的方法 |
CN110569495A (zh) * | 2018-06-05 | 2019-12-13 | 北京四维图新科技股份有限公司 | 一种基于用户评论的情感倾向分类方法、装置及存储介质 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109887606A (zh) * | 2019-02-28 | 2019-06-14 | 莫毓昌 | 一种基于注意力的双向递归神经网络的诊断预测方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN110955826A (zh) * | 2019-11-08 | 2020-04-03 | 上海交通大学 | 基于改进型循环神经网络单元的推荐系统 |
Non-Patent Citations (4)
Title |
---|
YUANBO XU;YONGJIAN YANG;JIAYU HAN;EN WANG;FUZHEN ZHUANG;HUI XION: "Exploiting the sentimental bias between ratings and reviews with neural networks", 《2018 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 * |
徐原博: "推荐系统中面向评分和文本数据挖掘的若干关键技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》 * |
杨永健; 聂瑜; 吴洋; 孙广志; 杨仲尧: "基于SVM新的情感计算方法", 《吉林大学学报(信息科学版)》 * |
郭先净: "基于mGRU算法在抽取式阅读理解中的研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113422761A (zh) * | 2021-06-11 | 2021-09-21 | 西安电子科技大学 | 基于对抗学习的恶意社交用户检测方法 |
CN113422761B (zh) * | 2021-06-11 | 2023-02-10 | 西安电子科技大学 | 基于对抗学习的恶意社交用户检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111667339B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
WO2018040944A1 (zh) | 恶意地址/恶意订单的识别系统、方法及装置 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110956497A (zh) | 一种电子商务平台用户重复购买行为预测方法 | |
CN106126549A (zh) | 一种基于概率矩阵分解的社区信任推荐方法及其系统 | |
CN108563755A (zh) | 一种基于双向循环神经网络的个性化推荐系统及方法 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN110209946B (zh) | 基于社交和社群的产品推荐方法、系统和存储介质 | |
CN107944911A (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
WO2021169659A1 (zh) | 资源信息推送方法、装置、服务器及存储介质 | |
CN108876536A (zh) | 基于最近邻信息的协同过滤推荐方法 | |
CN111343147A (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN105955957A (zh) | 一种商家总体评论中方面评分的确定方法及装置 | |
CN112560105A (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
CN111667339B (zh) | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 | |
CN111666410B (zh) | 商品用户评论文本的情感分类方法及系统 | |
CN111507804A (zh) | 基于混合信息融合的情感感知商品推荐方法 | |
CN111143533A (zh) | 一种基于用户行为数据的客服方法及系统 | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
CN107203632A (zh) | 基于相似关系和共现关系的话题流行度预测方法 | |
CN113919906A (zh) | 商品评论数据的推送方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |