CN110321436A - 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 - Google Patents
一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 Download PDFInfo
- Publication number
- CN110321436A CN110321436A CN201910597577.8A CN201910597577A CN110321436A CN 110321436 A CN110321436 A CN 110321436A CN 201910597577 A CN201910597577 A CN 201910597577A CN 110321436 A CN110321436 A CN 110321436A
- Authority
- CN
- China
- Prior art keywords
- user
- comment
- matrix
- fraud
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 230000007246 mechanism Effects 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 136
- 230000006870 function Effects 0.000 claims abstract description 79
- 238000010168 coupling process Methods 0.000 claims abstract description 47
- 238000005859 coupling reaction Methods 0.000 claims abstract description 47
- 230000008878 coupling Effects 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000000694 effects Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- DWPVVZZGGGCRRM-UHFFFAOYSA-N (4-methoxyphenyl)-(4-methylpiperazin-1-yl)methanone Chemical compound C1=CC(OC)=CC=C1C(=O)N1CCN(C)CC1 DWPVVZZGGGCRRM-UHFFFAOYSA-N 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法,基于给定在线评论数据集,构建表示用户、项目、评论和评分的实体关系的初始目标函数;根据评分构建用户间显示关系的显式用户特征矩阵以及用户间隐式关系的隐式用户特征矩阵,然后构建用户的社交耦合矩阵;采用注意力机制将用户的社交耦合矩阵整合到用户表示矩阵中,并对初始目标函数进行调整得到新的目标函数;确定新用户的注意力机制,根据已确定的分类器来识别评论是否为欺诈评论。本发明通过将实体关系、用户社交耦合关系和欺诈相关信息嵌入到社交注意力机制的用户表示空间中,从而有效解决了冷启动问题中缺少用户历史信息的缺陷,可有效地检测冷启动情况下的欺诈评论。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法。
背景技术
随着互联网的广泛应用,其丰富的信息资源给人们带来了极大的便利,同时网络用户发布的评论严重影响了人们的决策。互联网中存在的欺诈评论极大地损害了用户的决策,欺诈者撰写欺诈评论来混淆诚实用户可以获得卓越的商业价值和声誉。现有的方法大多基于用户的评论内容来进行欺诈评论检测,但是当新用户刚刚发布新评论时,因为缺乏足够的新用户历史记录信息而导致基于评论内容的检测方法失效,这类问题称为冷启动问题。现有的方法面对冷启动问题时面临极大的挑战,一是缺乏足够的新用户历史记录,二是无法提取有效的用户行为特征。
冷启动问题是近几年来互联网应用中十分关注的问题,无论是从企业的商业价值和声誉考虑,还是用互联网用户的切身利益出发,都要求能有有效解决冷启动问题下欺诈评论的检测问题,才能保证互联网平台提供更好的服务,有效检测和监管互联网上的欺诈评论行为。
最近有一些对欺诈评论检测的冷启动问题的研究。第一种方法是通过用户建模作为用户、项目和评论之间关系的行为,以解决冷启动问题中缺乏用户历史信息的问题。第二种方法是通过挖掘涉及用户、项目以及评论之前关系的属性和领域知识,这种方法取得了更好的冷启动欺诈评论检测性能。尽管上述两种方法考虑了用户、项目、评论的关系,并最终将这种关系嵌入到欺诈评论中,但只有评论内容被用作欺诈识别的证据。但是评论内容很容易被操纵,因此欺诈者可能会伪装成诚实评论来构造欺诈评论。因此,这些方法可能无法检测在现实世界中广泛存在的欺诈评论。此外,这两类方法忽略了用户之间社交关系以及用户之间可能存在的协作操纵。后来有研究提出一种新方法检测冷启动欺诈评论。具体而言,它同时嵌入用户、项目、评论实体关系和用户社交关系到用户表示空间,并根据其发布的用户识别欺诈评论的表示空间。虽然性能明显提高,但此方法仅捕获用户共同评论关系,忽略其他关系复杂的社交关系,如用户具有同样的态度和类似的偏好。此外,该方法不考虑实体关系学习过程中的有关的欺诈信息,有可能减少特别是在冷启动情况下的欺诈评论检测精度。
发明内容
欺诈评论是当前的网络空间安全的一大危害,它极大的损害了用户的决策。当前有很多欺诈评论检测的方法被提出,但是由于缺乏新用户足够的历史信息,现有的欺诈评论检测技术在冷启动的情况下往往会失效。本发明针对该问题提出一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法。
一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法,包括:
给定在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
根据评分构建用户间显示关系的显式用户特征矩阵Mexp以及用户间隐式关系的隐式用户特征矩阵Mimp;
基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;
基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;
对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
本发明中,所构建的初始目标函数为:
其中:Φ={w,p,w,b}表示初始目标函数其参数w,p,w,b的集合,待求量;
yi表示在线评论集合S中第i个在线评论活动vi是否为欺诈评论的标签值,该标签值由人工标注;yi为0代表可靠评论活动,yi为1代表欺诈评论活动;
y={0,1}由公式(1)中第一项的第二个累加项定义,是累加项中的变量值;
1[yi=y]表示返回一个向量,当yi为0时,向量为[1,0];当yi为1时,向量为[0,1];
qi=softmax(wDp([vu,vo,vs,vr])+b),<u,o,s,r>∈vi;Dp(·)表示参数为p的全连接网络;softmax(·)为归一化指数函数;
S表示输入的在线评论数据集,在线评论数据集S中包含一系列的在线评论活动vi,每一个在线评论活动vi的定义为一个用户对于一个项目进行评论和评分,每一个在线评论活动vi中的元素包括<u,o,r,s>,u,o,r,s分别表示用户、项目、评论和评分;
nv表示在线评论数据集中在线评论活动的总数量;
u′代表不在在线评论数据集S中的在线评论活动v中包含的一个用户;u=u′代表用户u和u′为同一用户,u≠u′代表用户u和u′为不同用户;
V={Vu,Vo,Vs},是用户表示矩阵,项目表示矩阵和评分表示矩阵的集合;
向量vu,vo,vs分别表示用户表示矩阵Vu中对应于用户u的一行,项目表示矩阵Vo中对应于项目o的一行以及评分表示矩阵Vs中对应于评分s的一行;
yi表示在线评论活动vi的真实标签;
Dp(·)表示参数为p的全连接网络;
vr=tw(r),tw(·)表示参数为w的一个文本嵌入神经网络;
max(·)表示一个返回集合最大值的函数。
在本发明中,显式用户特征矩阵Mexp其每行对应一个用户,每列对应一个显式用户特征,显式用户特征矩阵Mexp中每个元素表示第i个用户ui给第j个项目oj的评分sij,即为sij;若ui没有评论oj,则相应的值置为0,即为0;
隐式用户特征矩阵Mimp其每行对应一个用户,每列对应一个隐式用户特征,隐式用户特征为用户的离散化后的属性信息对应的属性值,属性信息包括但不限于用户的年龄、职业、教育程度或/和薪水等级等;隐式用户特征矩阵Mimp中每个元素表示第i个用户ui给第j个属性值。
在本发明中,构建用户的社交耦合矩阵C的方法如下:
(1)通过公式(2)学习以及的属性内耦合关系表示:
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性内耦合关系,Mij为表示求解的是隐式用户矩阵的属性内耦合关系;g(Mij)表示特征值为Mij的用户集合;|·|表示集合的大小;nu表示在线评论数据集S中包含的用户数量;
(2)通过公式(3)学习以及的属性间耦合关系表示,
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性间耦合关系,Mij为表示求解的是隐式用户矩阵的属性间耦合关系;表示除了第j列特征之外所有特征中特征值构成集合中的第k个值;p(Mij|Mk *)表示在用户特征中Mij和Mk *同时出现的频率,可以通过公式(4)计算:
其中代表特征值为的用户集合;
(3)通过公式(5)结合Mij的属性内和属性间耦合关系表示,从而得到Mij的耦合关系表示:
其中nf为矩阵M的特征维度。矩阵M是显式用户矩阵Mexp和隐式用户矩阵Mimp的抽象表示。即Mij为则公式(5)中的nf为显式用户矩阵Mexp的特征维度;Mij为则公式(5)中的nf为隐式用户矩阵Mimp的特征维度。
(4)采用线性核在耦合表示空间上构建用户的社交耦合矩阵C,如公式(6)所示:
在本发明中,新的用户表示矩阵Vu *的获取方法如下:
a.采用公式(7)将社交耦合矩阵C中的每一个耦合值转换成概率值,得到权重矩阵C*:
其中exp(·)是指数函数;
b.通过公式得到调整后的新的用户表示矩阵Vu *。
在本发明中,基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数,方法如下:
(i)首先将初始目标函数修改为公式(8):
其中vu *是用户u在调整后的V*中的表示;
(ii)对于每一个用户,通过计算其最近的k个近邻用户去调整用户的表示,从而将公式(8)的学习目标函数重新构建为公式(9),公式(9)即最终确定的新的目标函数:
其中,
Nk(u)表示用户u在社交耦合矩阵C的空间中的k近邻用户的集合;
表示在权重矩阵C*中用户u和u*的值;
u*代表用户u的k近邻用户集合Nk(u)中的一个用户;
u′*代表用户u′的k近邻用户集合Nk(u′)中的一个用户。
本发明中,对冷启动欺诈评论检测目标函数进行优化学习,优化学习冷启动欺诈评论检测目标函数的过程为寻找到一组对应于用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b},使得通过公式(9)计算所得到的目标函数值最小化;完成初始目标函数的优化后,可得到用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b}。
在本发明中,对于冷启动问题,新用户基于的社交注意力机制的表示为:
vu *=vr-vo-vs; (10)
接着根据公式(11)所示的分类器q,来识别评论r是否为欺诈评论,
q=softmax(wDp([vu *,vo,vs,vr])+b),<u,o,s,r>∈vi, (11)
其中w,p,b是对公式(9)进行优化学习而得到的模型参数,w,p,b∈Φ。
当向量q的第一位值小于第二位时,判别评论r为欺诈评论。
一种基于社交注意力机制表示学习的冷启动欺诈评论检测装置,包括:
数据库,存储有给定在线评论数据集;
初始目标函数构建模块,用于读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
显示用户特征矩阵构建模块,用于根据评分构建用户间显示关系的显式用户特征矩阵Mexp;
隐式用户特征矩阵构建模块,用于根据评分构建用户间隐式关系的隐式用户特征矩阵Mimp;
用户的社交耦合矩阵构建模块,用于基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
冷启动欺诈评论检测目标函数构建模块,采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数作为冷启动欺诈评论检测目标函数;
检测模块,对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下流程:
读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
根据评分构建用户间显示关系的显式用户特征矩阵Mexp以及用户间隐式关系的隐式用户特征矩阵Mimp;
基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;基于新的用户表示矩阵Vu*对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;
对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下流程:
读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
根据评分构建用户间显示关系的显式用户特征矩阵Mexp以及用户间隐式关系的隐式用户特征矩阵Mimp;
基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;
对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
采用本发明可以达到以下技术效果:
通过将实体关系、用户社交耦合关系和欺诈相关信息嵌入到社交注意力机制的用户表示空间中,从而有效解决了冷启动问题中缺少用户历史信息的挑战,可以有效地检测冷启动情况下的欺诈评论。
附图说明
图1为一个实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的流程图;
图2为一个实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如图1、图2所示,为一实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的流程图。
如图1所示,包括以下流程:
第一步,给定在线评论数据集S,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs。其中:用户表示矩阵Vu、项目表示矩阵Vo、评论表示矩阵Vr和评分表示矩阵Vs作为评论活动v=<u,0,r,s>∈S的实体表示。下标u,o,r,s分别表示用户、项目、评论和评分。
根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数。其中初始目标函数为:
其中:Φ={w,p,w,b}表示初始目标函数其参数w,p,w,b的集合,待求量;
yi表示在线评论集合S中第i个在线评论活动vi是否为欺诈评论的标签值,该标签值由人工标注;yi为0代表可靠评论活动,yi为1代表欺诈评论活动;
y={0,1}由公式(1)中第一项的第二个累加项定义,是累加项中的变量值;
1[yi=y]表示返回一个向量,当yi为0时,向量为[1,0];当yi为1时,向量为[0,1];
qi=softmax(wDp([vu,vo,vs,vr])+b),<u,o,s,r>∈vi;Dp(·)表示参数为p的全连接网络;softmax(·)为归一化指数函数;
S表示输入的在线评论数据集,在线评论数据集S中包含一系列的在线评论活动vi,每一个在线评论活动vi的定义为一个用户对于一个项目进行评论和评分,每一个在线评论活动vi中的元素包括<u,0,r,s>,u,o,r,s分别表示用户、项目、评论和评分;
nv表示在线评论数据集中在线评论活动的总数量;
u′代表不在在线评论数据集S中的在线评论活动v中包含的一个用尸;u=u′代表用户u和u′为同一用户,u≠u′代表用户u和u′为不同用户;
V={Vu,Vo,Vs},是用户表示矩阵,项目表示矩阵和评分表示矩阵的集合;
向量vu,vo,vs分别表示用户表示矩阵Vu中对应于用户u的一行,项目表示矩阵Vo中对应于项目o的一行以及评分表示矩阵Vs中对应于评分s的一行;
yi表示在线评论活动vi的真实标签;
Dp(·)表示参数为p的全连接网络;
vr=tw(r),tw(·)表示参数为w的一个文本嵌入神经网络;
max(·)表示一个返回集合最大值的函数。
接下来的,分层次地学习用户之间的显式和隐式社交耦合关系,学习用户之间的显式和隐式社交关系,即学习用户共同发生的社交活动多反映的耦合关系和建立在用户相似性统计特征的潜在耦合关系。
第二步,根据评分构建用户间显示关系的显式用户特征矩阵Mexp以及用户间隐式关系的隐式用户特征矩阵Mimp。
(1)显式用户特征矩阵Mexp其每行对应一个用户,每列对应一个显式用户特征,显式用户特征矩阵Mexp中每个元素表示第i个用户ui给第j个项目oj的评分sij,即为sij;若ui没有评论oj,则相应的值置为0,即为0;
(2)隐式用户特征矩阵Mimp其每行对应一个用户,每列对应一个隐式用户特征,隐式用户特征为用户的离散化后的属性信息对应的属性值,属性信息包括但不限于用户的年龄、职业、教育程度或/和薪水等级;隐式用户特征矩阵Mimp中每个元素表示第i个用户ui给第j个属性值。
第三步,基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C。
(3.1)通过公式(2)学习以及的属性内耦合关系表示:
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性内耦合关系,Mij为表示求解的是隐式用户矩阵的属性内耦合关系;g(Mij)表示特征值为Mij的用户集合;|·|表示集合的大小;nu表示在线评论数据集S中包含的用户数量;
(3.2)通过公式(3)学习以及的属性间耦合关系表示,
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性间耦合关系,Mij为表示求解的是隐式用户矩阵的属性间耦合关系;表示除了第j列特征之外所有特征中特征值构成集合中的第k个值;p(Mij|Mk *)表示在用户特征中Mij和Mk *同时出现的频率,通过公式(4)计算:
(3.3)通过公式(5)结合Mij的属性内和属性间耦合关系表示,从而得到Mij的耦合关系表示:
其中nf为矩阵M的特征维度。
(3.4)采用线性核在耦合表示空间上构建用户的社交耦合矩阵C,如公式(6)所示:
第四步,采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *。
(4.1)采用公式(7)将社交耦合矩阵C中的每一个耦合值转换成概率值,得到权重矩阵C*:
其中exp(·)是指数函数;
(4.2)通过公式Vu *=C*·Vu得到调整后的新的用户表示矩阵Vu *。
第五步,基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数,将其作为冷启动欺诈评论检测目标函数。
(5.1)首先将初始目标函数修改为公式(8):
其中向量vu *为通过社交注意力机制调整后的用户表示向量。
公式(8)是引入社交注意力机制后在表示空间中嵌入用户、项目、评论和评分之间的实体关系的目标函数。公式(8)嵌入用户、项目、态度和评论之间的实体关系,并同时考虑用户之间的社交关系。
(5.2)对于每一个用户,通过计算其最近的k个近邻用户去调整用户的表示,从而将公式(8)的学习目标函数重新构建为公式(9),公式(9)即最终确定的新的目标函数:
其中,
Nk(u)表示用户u在社交耦合矩阵C的空间中的k近邻用户的集合;
表示在权重矩阵C*中用户u和u*的值。
u*代表用户u的k近邻用户集合Nk(u)中的一个用户;
u′*代表用户u′的k近邻用户集合Nk(u′))中的一个用户。
第六步,对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
(6.1)对冷启动欺诈评论检测目标函数进行优化学习,优化学习冷启动欺诈评论检测目标函数的过程为寻找到一组对应于用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b},使得通过公式(9)计算所得到的目标函数值最小化;完成初始目标函数的优化后,可得到用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b}。
(6.2)在冷启动问题中,新用户的基于社交注意力机制的表示为:
vu *=vr-vo-vs; (10)
(6.3)根据公式(11)所示的分类器q,来识别评论r是否为欺诈评论,
q=softmax(wDp([vu *,vo,vs,vr])+b),<u,o,s,r>∈vi, (11)
其中w,p,b是对公式(9)进行优化学习而得到的模型参数,w,p,b∈Φ。
当向量q的第一位值小于第二位时,判别评论r为欺诈评论。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于,方法包括:
给定在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
根据评分构建用户间显示关系的显式用户特征矩阵Mexp以及用户间隐式关系的隐式用户特征矩阵Mimp;
基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;
基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;
对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
2.根据权利要求1所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:初始目标函数为
其中:Φ={w,p,w,b}表示初始目标函数其参数w,p,w,b的集合,待求量;
yi表示在线评论集合S中第i个在线评论活动vi是否为欺诈评论的标签值,该标签值由人工标注;yi为0代表可靠评论活动,yi为1代表欺诈评论活动;y={0,1}由公式(1)中第一项的第二个累加项定义,是累加项中的变量值;
1[yi=y]表示返回一个向量,当yi为0时,向量为[1,0];当yi为1时,向量为[0,1];
qi=softmax(wDp([vu,vo,vs,vr])+b),<u,o,s,r>∈vi;Dp(·)表示参数为p的全连接网络;softmax(·)为归一化指数函数;
S表示输入的在线评论数据集,在线评论数据集S中包含一系列的在线评论活动vi,每一个在线评论活动vi的定义为一个用户对于一个项目进行评论和评分,每一个在线评论活动vi中的元素包括<u,o,r,s>,u,o,r,s分别表示用户、项目、评论和评分;
nv表示在线评论数据集中在线评论活动的总数量;
u′代表不在在线评论数据集S中的在线评论活动v中包含的一个用尸;u=u′代表用户u和u′为同一用户,u≠u′代表用户u和u′为不同用户;
V={Vu,Vo,Vs},是用户表示矩阵,项目表示矩阵和评分表示矩阵的集合;
向量vu,vo,vs分别表示用户表示矩阵Vu中对应于用户u的一行,项目表示矩阵Vo中对应于项目o的一行以及评分表示矩阵Vs中对应于评分s的一行;
yi表示在线评论活动vi的真实标签;
Dp(·)表示参数为p的全连接网络;
vr=tw(r),tw(·)表示参数为w的一个文本嵌入神经网络;
max(.)表示一个返回集合最大值的函数。
3.根据权利要求2所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:
显式用户特征矩阵Mexp其每行对应一个用户,每列对应一个显式用户特征,显式用户特征矩阵Mexp中每个元素表示第i个用户ui给第j个项目oj的评分sij,即为sij;若ui没有评论oj,则相应的值置为0,即为0;
隐式用户特征矩阵Mimp其每行对应一个用户,每列对应一个隐式用户特征,隐式用户特征为用户的离散化后的属性信息对应的属性值,属性信息包括但不限于用户的年龄、职业、教育程度或/和薪水等级;隐式用户特征矩阵Mimp中每个元素表示第i个用户ui给第j个属性值。
4.根据权利要求3所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:构建用户的社交耦合矩阵C的方法如下:
(1)通过公式(2)学习以及的属性内耦合关系表示:
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性内耦合关系,Mij为表示求解的是隐式用户矩阵的属性内耦合关系;g(Mij)表示特征值为Mij的用户集合;|·|表示集合的大小;nu表示在线评论数据集S中包含的用户数量;
(2)通过公式(3)学习以及的属性间耦合关系表示,
其中,Mij表示或Mij为表示求解的是显式用户矩阵的属性间耦合关系,Mij为表示求解的是隐式用户矩阵的属性间耦合关系;表示除了第j列特征之外所有特征中特征值构成集合中的第k个值;p(Mij|Mk *)表示在用户特征中Mij和Mk *同时出现的频率,通过公式(4)计算:
其中代表特征值为的用户集合;
(3)通过公式(5)结合Mij的属性内和属性间耦合关系表示,从而得到Mij的耦合关系表示:
其中nf为矩阵M的特征维度;
(4)采用线性核在耦合表示空间上构建用户的社交耦合矩阵C,如公式(6)所示:
5.根据权利要求4所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:新的用户表示矩阵Vu *的获取方法如下:
a.采用公式(7)将社交耦合矩阵C中的每一个耦合值转换成概率值,得到权重矩阵C*:
其中exp(·)是指数函数;
b.通过公式得到调整后的新的用户表示矩阵Vu *。
6.根据权利要求5所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:新的目标函数的确定方法如下:
(i)首先将初始目标函数修改为公式(8):
其中vu *是用户u在调整后的V*中的表示;
(ii)对于每一个用户,通过计算其最近的k个近邻用户去调整用户的表示,从而将公式(8)的学习目标函数重新构建为公式(9),公式(9)即最终确定的新的目标函数:
其中,
Nk(u)表示用户u在社交耦合矩阵C的空间中的k近邻用户的集合;
表示在权重矩阵C*中用户u和u*的值;
u*代表用户u的k近邻用户集合Nk(u)中的一个用户;
u′*代表用户u′的k近邻用户集合Nk(u′)中的一个用。
7.根据权利要求6所述的基于社交注意力机制表示学习的冷启动欺诈评论检测方法,其特征在于:对冷启动欺诈评论检测目标函数进行优化学习,优化学习冷启动欺诈评论检测目标函数的过程为寻找到一组对应于用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b},使得通过公式(9)计算所得到的目标函数值最小化;完成初始目标函数的优化后,可得到用户、项目、评分的表示矩阵V={Vu,Vo,Vs}以及公式(9)中所涉及到的模型参数Φ={w,p,w,b};
对于冷启动问题,新用户的基于社交注意力机制的表示为:
vu *=vr-vo-vs; (10)
接着根据公式(11)所示的分类器q,来识别评论r是否为欺诈评论,
q=softmax(wDp([vu *,vo,vs,vr])+b),<u,o,s,r>∈vi, (11)
其中w,p,b是对公式(9)进行优化学习而得到的模型参数,w,p,b∈Φ。
8.一种基于社交注意力机制表示学习的冷启动欺诈评论检测装置,其特征在于,包括:
数据库,存储有给定在线评论数据集;
初始目标函数构建模块,用于读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵Vu、Vo、Vr和Vs,根据表示矩阵Vu、Vo、Vr和Vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;
显示用户特征矩阵构建模块,用于根据评分构建用户间显示关系的显式用户特征矩阵Mexp;
隐式用户特征矩阵构建模块,用于根据评分构建用户间隐式关系的隐式用户特征矩阵Mimp;
用户的社交耦合矩阵构建模块,用于基于显式用户特征矩阵Mexp和隐式用户特征矩阵Mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵C;
冷启动欺诈评论检测目标函数构建模块,采用注意力机制将用户的社交耦合矩阵C整合到用户表示矩阵Vu中,得到新的用户表示矩阵Vu *;基于新的用户表示矩阵Vu *对初始目标函数进行调整得到新的目标函数作为冷启动欺诈评论检测目标函数;
检测模块,对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597577.8A CN110321436B (zh) | 2019-07-04 | 2019-07-04 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597577.8A CN110321436B (zh) | 2019-07-04 | 2019-07-04 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321436A true CN110321436A (zh) | 2019-10-11 |
CN110321436B CN110321436B (zh) | 2020-06-16 |
Family
ID=68122601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910597577.8A Active CN110321436B (zh) | 2019-07-04 | 2019-07-04 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321436B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764668A (zh) * | 2019-10-30 | 2020-02-07 | 维沃移动通信有限公司 | 评论信息获取方法及电子设备 |
CN111260462A (zh) * | 2020-01-16 | 2020-06-09 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN112417099A (zh) * | 2020-11-20 | 2021-02-26 | 南京邮电大学 | 一种基于图注意力网络的欺诈用户检测模型构建方法 |
CN112989218A (zh) * | 2021-03-12 | 2021-06-18 | 西华大学 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
CN113392334A (zh) * | 2021-06-29 | 2021-09-14 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306123A1 (en) * | 2009-05-31 | 2010-12-02 | International Business Machines Corporation | Information retrieval method, user comment processing method, and systems thereof |
CN105653557A (zh) * | 2014-11-26 | 2016-06-08 | 中国电信股份有限公司 | 基于社交关系的评价内容筛选方法和系统 |
CN107239512A (zh) * | 2017-05-18 | 2017-10-10 | 华中科技大学 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
CN109582788A (zh) * | 2018-11-09 | 2019-04-05 | 北京京东金融科技控股有限公司 | 垃圾评论训练、识别方法、装置、设备及可读存储介质 |
-
2019
- 2019-07-04 CN CN201910597577.8A patent/CN110321436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306123A1 (en) * | 2009-05-31 | 2010-12-02 | International Business Machines Corporation | Information retrieval method, user comment processing method, and systems thereof |
CN105653557A (zh) * | 2014-11-26 | 2016-06-08 | 中国电信股份有限公司 | 基于社交关系的评价内容筛选方法和系统 |
CN107239512A (zh) * | 2017-05-18 | 2017-10-10 | 华中科技大学 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
CN109582788A (zh) * | 2018-11-09 | 2019-04-05 | 北京京东金融科技控股有限公司 | 垃圾评论训练、识别方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
QIAN LI等: "Unsupervised User Behavior Representation for Fraud Review Detection with Cold-Start Problem", 《SPRINGER NATURE SWITZERLAND AG 2019》 * |
刘雨心 等: "基于分层注意力机制的神经网络垃圾评论检测模型", 《计算机应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764668A (zh) * | 2019-10-30 | 2020-02-07 | 维沃移动通信有限公司 | 评论信息获取方法及电子设备 |
CN111260462A (zh) * | 2020-01-16 | 2020-06-09 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN111260462B (zh) * | 2020-01-16 | 2022-05-27 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN112417099A (zh) * | 2020-11-20 | 2021-02-26 | 南京邮电大学 | 一种基于图注意力网络的欺诈用户检测模型构建方法 |
CN112417099B (zh) * | 2020-11-20 | 2022-10-04 | 南京邮电大学 | 一种基于图注意力网络的欺诈用户检测模型构建方法 |
CN112989218A (zh) * | 2021-03-12 | 2021-06-18 | 西华大学 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
CN113392334A (zh) * | 2021-06-29 | 2021-09-14 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
CN113392334B (zh) * | 2021-06-29 | 2024-03-08 | 长沙理工大学 | 冷启动环境下的虚假评论检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110321436B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321436A (zh) | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 | |
Lucy et al. | Content analysis of textbooks via natural language processing: Findings on gender, race, and ethnicity in Texas US history textbooks | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
Cofone | Algorithmic discrimination is an information problem | |
Buolamwini | Gender shades: intersectional phenotypic and demographic evaluation of face datasets and gender classifiers | |
US11580459B2 (en) | Systems and methods for extracting specific data from documents using machine learning | |
US10692019B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
KR102217040B1 (ko) | 직무 추천 장치 및 직무 추천 방법 | |
CN104915879B (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
Poon | Scorecards as devices for consumer credit: The case of Fair, Isaac & Company Incorporated | |
CN106203490A (zh) | 一种安卓平台下基于属性学习和交互反馈的图像在线识别、检索方法 | |
Spradley | Toward estimating geographic origin of migrant remains along the United States–Mexico border | |
CN113626499B (zh) | 一种基于大数据数仓技术的学生画像挖掘实现方法 | |
Chan et al. | Reading China: Predicting policy change with machine learning | |
CN110321350B (zh) | 一种基于数据修复和主动学习验证的生存认证方法及系统 | |
Zhang et al. | Enabling rapid large-scale seismic bridge vulnerability assessment through artificial intelligence | |
Desai et al. | ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition | |
Kankaraš et al. | Cross-national and cross-ethnic differences in attitudes: A case of Luxembourg | |
Fowler | Civil society and the pluralization of African philanthropy: A case of back to the future? | |
Hiebert | The First Immigrants: The Migratory Roots of Biblical Identity | |
von Braun et al. | AI/Robotics and the Poor | |
Forhad et al. | Remittance and education in recipient countries: an interdependence | |
Dake | Online Recruitment Fraud Detection: A Machine Learning-based Model for Ghanaian Job Websites | |
Baranowska et al. | New International Migration Management Technologies and Their Impact on Sustainability | |
Arora et al. | Notion of Standard of Living: Singular, Qualitative, and Composite |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |