CN115344697A - 一种在线问答社区中检测欺诈性问答的方法 - Google Patents

一种在线问答社区中检测欺诈性问答的方法 Download PDF

Info

Publication number
CN115344697A
CN115344697A CN202210929433.XA CN202210929433A CN115344697A CN 115344697 A CN115344697 A CN 115344697A CN 202210929433 A CN202210929433 A CN 202210929433A CN 115344697 A CN115344697 A CN 115344697A
Authority
CN
China
Prior art keywords
question
answer
answers
questions
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210929433.XA
Other languages
English (en)
Other versions
CN115344697B (zh
Inventor
张璐
方昌健
伍之昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202210929433.XA priority Critical patent/CN115344697B/zh
Publication of CN115344697A publication Critical patent/CN115344697A/zh
Application granted granted Critical
Publication of CN115344697B publication Critical patent/CN115344697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在线问答社区中检测欺诈性问答的方法。首先,根据问题和答案内容中的词共现关系提取欺诈模式,并根据欺诈模式提取问答群组;其次,将问答社区中的各类实体,包括问题、答案、问答发布者、问答群组,及其相互关系建模为异构信息网络;然后,计算筛选一系列属性特征和关联关系,并根据关联关系定义异构信息网络中的元路径;最后,根据节点属性和元路径,利用集体分类算法检测欺诈性问题和答案。本发明能够更加准确、全面的检测出在线问答社区中检测欺诈性问答。

Description

一种在线问答社区中检测欺诈性问答的方法
技术领域
本发明涉及一种在线问答社区中检测欺诈性问答的方法,属于数据挖掘与网络空间安全领域。
技术背景
随着信息通信技术的飞速发展与Web 2.0的普及,由此支撑的新型在线信息交互平台层出不穷。在此背景下,众多极具影响力的在线问答社区相继涌现,已成为公众利用互联网获取、传播、分享以及创造知识的重要平台。然而,随着在线问答社区规模及影响力的不断扩大,其也不可避免地成为网络水军的关注对象和活动场所,大量欺诈性的问答内容被发布到社区中,用以引导阅读者的价值判断并影响其决策行为,从而达成水军推销或抹黑特定商品与服务的目的,更有甚者通过散播谣言,操控和煽动舆情,引发网络暴力以及群体事件。在线问答社区中的欺诈信息已严重危害到平台的公信力及互联网中的经营、竞争秩序,甚至是社会稳定与国家安全。
因此,检测在线问答社区中的欺诈内容,包括欺诈性的问题和答案,已成为净化社区环境,维护平台公信力及网络空间安全亟待解决的重要问题。研究者们提出了一些关于问答社区欺诈检测的方法。Chen等人从提问者、回答者以及问答文本角度定义了描述欺诈程度的特征,并利用逻辑回归的方法检测欺诈问答,如文献“The best answers?thinktwice:online detection of commercial campaigns in the cqa forums”;同样基于逻辑回归方法,Li等人定义了提问者的接受率、经验值、信誉点、问答熵等统计指标,与问题的文本信息、发布时间、情感分值等共同构建特征空间识别欺诈问题,如文献“Deceptiveanswer prediction withuser preference graph”。随着众包任务被引入到问答社区,群体性欺诈逐渐占据主流,很多研究工作也开始探索综合使用多种异质数据检测具有协作关系的虚假问答及其发布者,其中一类思路是分别定义文本、行为、关系等类型的特征,然后共同构建特征空间并输入分类器进行检测,如文献“Revealing,characterizing,anddetecting crowdsourcing spammers:A case study in community Q&A”和“面向问答社区的众包网络水军检测研究”,另一类是基于关系数据构建概率描述模型并推理得到优化目标函数,再利用环路信念传播等算法训练参数获得检测器如文献“Detecting collusivespamming activities in community question answering”。然而,目前还没有同时利用问答社区不同实体属性,及实体间多种关联关系检测欺诈问答的方法。
发明内容
为解决上述问题,本发明提出了一种在线问答社区中检测欺诈性问答的方法,识别问答群组的前提下,同时利用多种实体属性和关联关系识别群体欺诈性问题和答案。本发明所要解决的技术问题在于众包任务驱动下的协同欺诈行为中,问答间不再独立,不应单独判定问答个体的欺诈性,而应充分考虑协作导致的关联关系,对相互关联的问答同时识别其是否欺诈,采用集体分类的方法,克服当前识别方法需要假设问答彼此独立的不足,在问答存在关联关系的现实环境中,检测欺诈性问题和答案。
一种在线问答社区中检测欺诈性问答的方法,针对问答社区中存在关联关系的问答,采用集体分类的方法检测欺诈性问题和答案。本发明所述方法的主要步骤包括:
步骤S1,读取问题和答案的内容,根据欺诈模式提取问答群组;
步骤S2,构建问答社区实体及其相互关系的异构信息网络,所述异构信息网络的节点代表问答社区实体,并包含属性特征,边代表实体间关系,节点附带属性;
步骤S3,针对欺诈问答检测,筛选、构建或计算各类实体的具有区分度的属性特征,记录到异构信息网络中对应节点的属性中,并在部分实体间寻找能够描述其同质性的关联关系,据此定义异构信息网络元路径,所述元路径在网络对应着若干条具体路径,所述路径由网络中的多条能够首尾相连的边依次相连组成;
步骤S4,依据所述异构信息网络中节点的属性及其相关元路径,利用一种集体分类方法检测欺诈性问题和答案。
优选的,步骤S1中,首先对所有问题和答案进行分词,将每条问答都表示为一组词的集合,再根据所有问答中的词共现关系,利用余弦模式挖掘算法提取若干欺诈模式,然后将包含同一欺诈模式的问题与答案提取为问答群组,所述任一欺诈模式D={W1,W2,…Wn}为一组词的集合,其中W1,W2,…Wn分别表示构成D的n个词,同时满足以下条件:
SP(D)≥τs
Figure BDA0003780995270000021
其中,SP(.)表示支持度,0≤τst≤1为预设阈值。
优选的:步骤S2中,用于建立异构信息网络节点的问答社区实体包括:问题、答案、问答发布者以及问答群组,用于建立异构信息网络边的实体间关系包括:问答间的提问、回答关系,问答发布者与问答间的发布关系,问答与其所属群组间的属于关系。
优选的:步骤S3中,选定的实体属性特征如下:
问题属性包括:是否包含标签,是否具有详细描述,是否给予回答者奖励,是否有答案,是否只有唯一答案,是否被标记为已解决;
答案属性包括:是否有评论,是否被标记为最佳答案,是否为对应问题的唯一答案,是否包含联系方式,是否标注关注领域,是否匿名作答;
群组属性包括:群组中问答对应的发布者既是提问者又是回答者的比例,群组中问题与首个答案间的平均时间间隔,群组中问答发布的突发率。
问答对应的发布者既是提问者又是回答者的情况包括三种:①发布者在群组中同时发布了问题和答案;②发布者在群组中发布了问题,同时回答了群组中的其它问题,但其发布的答案不在群组中;③发布者在群组中发布了答案,同时是群组中其它某答案所回答的问题的发布者,尽管该问题不在群组中。
群组中问题与首个答案间的平均时间间隔AvgQAInterval的计算方法如下:
Figure BDA0003780995270000031
Figure BDA0003780995270000032
其中g表示群组G中的成员,T(g)表示其发布的时间,T(g,FA)-T(g)表示当g为问题时与首个答案间的时间间隔,T(g)-T(g,Q)分别表示g为答案时与对应问题的时间间隔,t为预设阈值。
群组中问答发布的突发率的计算基于核密度估计方法,具体过程为:给定一个问答群组G,包含r个问题{Q1,Q2,…,Qr},对应的发布时间为{t1,t2,…,tr}。因此,G的持续时间dur为tr-t1。首先,选择合适的区间bin大小,将G的时间跨度划分为b个更小的子区间。然后,每个区间内的平均问题数可以计算为AVGQ=r/b。对于每一个bin,使用Hi={qj|tj∈(ai-1,ai],i∈{1,..,b}}来表示落在这个bin中问答的数量,其中ai=i*BSIZE为第i个区间的起始点。接着,将G的持续时间标准化为[0,1],将每个间隔除以dur,即ai=ai/dur。本发明在核密度估计中使用高斯核,因此x1=a1,…,xr=ar可以作为带有权重w1=|H1|,…,wr=|Hr|,在[0,1]范围内的区间样本。核密度估计计算公式为:
Figure BDA0003780995270000033
其中,
Figure BDA0003780995270000034
B是带宽,用来控制核密度估计的平滑度,一般通过尝试不同的阈值来实验设置,使核密度估计不会太粗糙或者太平滑。
通过计算KDE(x)的导数并将其设置为0,找到了一组峰值点xp1,…,xpt,每个峰值点xpt落入某个区间i中。忽略落在间隔|Hi|≤AVGQ中的,以及时间间隔范围内只包含一个问答的峰值点,然后对于剩余的每个峰值点,在满足|Hb|≠1并且|Hb|>AVGQ的条件下向时间线的前后扩张,得到突发区间。最后,累计所有突发区间中的问答总数,其与群组中问答的总数即为群组中问答发布的突发率。
优选的:步骤S3中,选定的关联关系及异构信息网络中用于描述关联关系的元路径如下:
问答关系,即问题与答案间简单的提问回答关系,使用元路径:
Figure BDA0003780995270000041
Figure BDA0003780995270000042
描述;
共同发布用户关系,即问题或答案由同一用户发布,使用元路径:
Figure BDA0003780995270000043
Figure BDA0003780995270000044
描述;
共同群组关系,即问题或答案属于同一问答群组,使用元路径:
Figure BDA0003780995270000045
Figure BDA0003780995270000046
描述;
共同群组用户关系,即问题或答案与所属群组中其它问答发布者所发布的,未包含在该群组中的其它问题或答案间的关系,使用元路径:
Figure BDA0003780995270000047
Figure BDA0003780995270000048
描述;
优选的:步骤S4中,主要步骤包括:
步骤SS1,分别人工挑选少量欺诈性和正常的问题与答案,并对其进行标记,构建训练集,在训练集上,利用所述实体属性特征,分别针对问题和答案训练能够判定问答欺诈性的第一分类器;
步骤SS2,利用所述第一分类器对训练集之外的问答实体进行分类,并对其进行标记;
步骤SS3,针对每个问题或答案,利用一种基于元路径的特征扩展算法聚合邻居节点的标记,生成问答的扩展特征向量;
步骤SS4,利用所述扩展特征向量,在训练集上重新训练判定问答欺诈性的第二分类器;
步骤SS5,利用所述第二分类器对训练集之外的问答样本数据进行分类,并更新其标记信息;
步骤SS6,依次重复执行步骤SS3,SS4,SS5,直至更新前后所有问答的标记均保持不变,或达到最大迭代次数,跳转至步骤SS7;
步骤SS7,根据迭代停止后的问答标记信息,输出欺诈性问题和答案。
优选的:步骤SS1,SS2,SS5中的分类器均针对问题和答案分别训练,针对问题的分类器使用问题属性与群组属性,针对答案的分类器使用答案属性和群组属性,具体分类算法不做限制,可采用经典的分类算法,如贝叶斯、支持向量机、随机森林等。
优选的:步骤SS3中,主要步骤包括:
步骤SSS1:针对任一问题或答案E,假设其相关的元路径集合M={M1,M2,…,Mk},元路径Mi,1≤i≤k,包含的路径集合
Figure BDA0003780995270000051
针对每条路径Pj (i),1≤j≤l,获取其邻居节点欺诈性的标记Nj (i),建立邻居节点标记集合
Figure BDA0003780995270000052
步骤SSS2:利用聚合函数对
Figure BDA0003780995270000053
中的标记进行聚合计算,得到E在元路径Mi下的邻居聚合标记L(i),聚合函数可选择MODE或AVG函数;
步骤SSS3:针对元路径集合M中的每条元路径,重复执行步骤SSS1和SSS2获得E的所有邻居聚合标记向量<L(1),L(2),…,L(k)>,将其以拼接方式附加到E的属性特征向量中,获得E的扩展特征向量;
步骤SSS4:针对异构信息网络中的所有问题和答案,重复执行步骤SSS1,SSS2,SSS3,获得全部扩展特征向量。
与现有技术相比,本发明的有益效果体现在:
1)本发明在通过群组构建关联关系,群组的提取基于抽取策略而非划分策略,不会将不属于群组的问答强行划分到群组中,有效降低算法过拟合的可能。
2)本发明综合利用问答间多种不同类型的关联关系,有利于群体性欺诈问答的准确识别。
3)本发明能根据数据特征和实际情况灵活选择基础分类算法,支持新的关联关系的引入,有利于增强检测方法的泛化能力和扩展性。
附图说明
图1是本发明所述方法的整体流程图
图2是本发明所述方法的细致流程图
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
图1显示了检测欺诈性问答的过程,其具体步骤如下:
步骤S1,读取问题和答案的内容,根据欺诈模式提取问答群组;
步骤S2,构建问答社区实体及其相互关系的异构信息网络,所述异构信息网络的节点代表问答社区实体,并包含属性特征,边代表实体间关系,节点附带属性;
步骤S3,针对欺诈问答检测,筛选、构建或计算各类实体的具有区分度的属性特征,记录到异构信息网络中对应节点的属性中,并在部分实体间寻找能够描述其同质性的关联关系,据此定义异构信息网络元路径,所述元路径在网络对应着若干条具体路径,所述路径由网络中的多条能够首尾相连的边依次相连组成;
步骤S4,依据所述异构信息网络中节点的属性及其相关元路径,利用一种集体分类方法检测欺诈性问题和答案。
实施例
下面结合图2详细阐述实施例。本实施例中假设待检测的数据集中包含m条问题{Q1,Q2,…,Qm},n条答案{A1,A2,…,An}以及s个问答发布者{U1,U2,…,Us}。
步骤S1,对每条问题和答案进行分词并去除停用词,然后将每个词视余弦模式挖掘中的“项”,每条由单词集合构成的问答视为余弦模式挖掘中的“事务”,设定τst的值,使用余弦模式挖掘算法挖掘欺诈模式,假设挖掘出的欺诈模式为D1={W1,W2,…Wk}和D2={Wk+1,Wk+2,…Wk+h},Wi,i∈[1,k+h]为词。假设问题Q1,Q2,答案A1,A2包含D1中的所有词,问题Q3,Q4,答案A3,A4,A5包含D2中的所有词,则Q1,Q2,A1,A2匹配欺诈模式D1,构成群组G1={Q1,Q2,A1,A2},Q3,Q4,A3,A4,A5匹配欺诈模式D2,构成群组G2={Q3,Q4,A3,A4,A5};
步骤S2,构建异构信息网络,网络节点代表不同类型的问答社区实体,包括问题Q1,Q2,…,Qm,答案A1,A2,…,An,问答发布者U1,U2,…,Us,群组G1,G2;边代表上述实体间的关系,如提问、回答、发布、属于等。
步骤S3,分别计算问题、答案、群组节点的属性特征向量VQ,VA和VG,其中为VQ五维向量,包含5个问题属性,VA五维向量,包含5个答案属性,VG三维向量,包含3个群组属性。定义元路径M1=Q-A,M2=A-Q,M3=Q/A-U-Q/A,M4=Q/A-G-Q/A,M5=Q/A-G-Q/A-U-Q/A,其中Q,A,U,G分别代表问题实体、答案实体、用户实体以及群组实体。
步骤S4,假设问题Q1,Q3,答案A2由用户U1发布,问题Q2,Q4,答案A1,A4由用户U2发布,A6,A7为Q1的答案,利用集体分类方法对所有问题和答案进行欺诈性分类,具体的:
步骤SS1,假设通过人工标记问题Q2=D,Q4=O,Q5=D,Q6=O,A2=D,A3=O,A6=D,构建训练集T={Q2,Q4,Q5,Q6,A2,A3,A6},利用{Q2,Q4,Q5,Q6,}和属性特征向量VQ,VG训练初始的问题分类器fQ,利用{A2,A3,A6}和属性特征向量VA,VG和训练初始的答案分类器fA
步骤SS2,利用fQ和fA对数据集中剩余的问题和答案进行分类,得到所有问答的标记。
步骤SS3,针对所有问题和答案,计算扩展特征向量。以问题Q1为例,其相关的元路径为M1,M3,M4和M5
依据元路径M1,相关的具体路径为Q1→A6,Q1→A7,假设在步骤SS2中分类得到的标记A6=D,A7=O,假设聚合函数为AVG,即求平均,数值上令D=1,O=0(下同),则获得元路径M1对应的扩展特征:(1+0)/2=0.5;
依据元路径M3,相关的具体路径为Q1→U1→Q3,Q1→U1→A2,假设在步骤SS2中分类得到的标记Q3=D,而A2=D为训练集中的标记数据,则获得元路径M2对应的扩展特征:(1+1)/2=1;
依据元路径M4,相关的具体路径为Q1→G1→Q2,Q1→G1→A1,Q1→G1→A2,假设在步骤SS2中分类得到的标记A1=O,而Q2=D和A2=D为训练集中的标记数据,则获得元路径M3对应的扩展特征(0+1+1)/3≈0.67;
依据元路径M5,相关的具体路径为Q1→G1→Q2→U2→Q4,Q1→G1→Q2→U2→A4,Q1→G1→A1→U2→Q4,Q1→G1→Q2→U2→A4,Q1→G1→A2→U1→Q3,假设在步骤SS2中分类得到的标记Q3=D,A4=O,而Q4=O为训练集中的标记数据,则获得元路径M3对应的扩展特征(0+0+0+0+1)/5=0.2。
则向量<0.5,1,0.67,0.2>作为扩展特征向量与问题Q1和群组G1的属性特征向量V1 Q,V1 G拼接获得问题Q1的十二维扩展特征向量。重复执行上述过程直至获得所有问题和答案的扩展特征向量。
步骤SS4,利用获得的扩展特征向量,在训练集上重新训练获得问题分类器f′Q和答案分类器f′A
步骤SS5,分别利用问题分类器f′Q和答案分类器f′A对训练集之外的问答进行分类,更新问答的标记信息。
步骤SS6,依次重复执行步骤SS3,SS4,SS5,直至更新前后所有问答的标记均保持不变,或达到最大迭代次数,跳转至步骤SS7;
步骤SS7,根据迭代停止后的问答标记信息,输出欺诈性问题和答案。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种在线问答社区中检测欺诈性问答的方法,其特征在于利用社区中问题、答案以及问答群组的属性特征,结合问答间的关联关系,利用集体分类方法检测其中的欺诈性问题和答案;步骤包括:
步骤S1,读取问题和答案的内容,根据欺诈模式提取问答群组;
步骤S2,构建问答社区实体及其相互关系的异构信息网络,所述异构信息网络的节点代表问答社区实体,并包含属性特征,边代表实体间关系,节点附带属性;
步骤S3,针对欺诈问答检测,筛选、构建或计算各类实体的具有区分度的属性特征,记录到异构信息网络中对应节点的属性中,并在部分实体间寻找能够描述其同质性的关联关系,据此定义异构信息网络元路径,所述元路径在网络对应着若干条具体路径,所述路径由网络中的多条能够首尾相连的边依次相连组成;
步骤S4,依据所述异构信息网络中节点的属性及其相关元路径,利用一种集体分类方法检测欺诈性问题和答案。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,首先对所有问题和答案进行分词,将每条问答都表示为一组词的集合,再根据所有问答中的词共现关系,利用余弦模式挖掘算法提取若干欺诈模式,然后将包含同一欺诈模式的问题与答案提取为问答群组,任一欺诈模式D={W1,W2,…Wn}为一组词的集合,其中W1,W2,…Wn分别表示构成D的n个词,同时满足以下条件:
SP(D)≥τs
Figure FDA0003780995260000011
其中,SP(.)表示支持度,0≤τst≤1为预设阈值。
3.根据权利要求1所述的方法,其特征在于:步骤S2中,用于建立异构信息网络节点的问答社区实体包括:问题、答案、问答发布者以及问答群组,用于建立异构信息网络边的实体间关系包括:问答间的提问、回答关系,问答发布者与问答间的发布关系,问答与其所属群组间的属于关系。
4.根据权利要求1所述的方法,其特征在于:步骤S3中,选定的实体的属性特征如下:
问题属性包括:是否包含标签,是否具有详细描述,是否给予回答者奖励,是否有答案,是否只有唯一答案,是否被标记为已解决;
答案属性包括:是否有评论,是否被标记为最佳答案,是否为对应问题的唯一答案,是否包含联系方式,是否标注关注领域,是否匿名作答;
群组属性包括:群组中问答对应的用户既是提问者又是回答者的比例,群组中问题与首个答案间的平均时间间隔,群组中问答发布的突发率。
5.根据权利要求1所述的方法,其特征在于:步骤S3中,选定的关联关系及异构信息网络中用于描述关联关系的元路径如下:
问答关系,即问题与答案间简单的提问回答关系,使用元路径:
Figure FDA0003780995260000021
Figure FDA0003780995260000022
描述;
共同发布用户关系,即问题或答案由同一用户发布,使用元路径:
Figure FDA0003780995260000023
Figure FDA0003780995260000024
描述;
共同群组关系,即问题或答案属于同一问答群组,使用元路径:
Figure FDA0003780995260000025
Figure FDA0003780995260000026
描述;
共同群组用户关系,即问题或答案与所属群组中其它问答发布者所发布的,未包含在该群组中的其它问题或答案间的关系,使用元路径:
Figure FDA0003780995260000027
Figure FDA0003780995260000028
描述。
6.根据权利要求1所述的方法,其特征在于,步骤S4中,一种集体分类方法包含以下步骤:
步骤SS1,分别人工挑选少量欺诈性和正常的问题与答案,并对其进行标记,构建训练集,在训练集上,利用所述实体属性特征,分别针对问题和答案训练能够判定问答欺诈性的第一分类器;
步骤SS2,利用所述第一分类器对训练集之外的问答实体进行分类,并对其进行标记;
步骤SS3,针对每个问题或答案,利用一种基于元路径的特征扩展算法聚合邻居节点的标记,生成问答的扩展特征向量;
步骤SS4,利用所述扩展特征向量,在训练集上重新训练判定问答欺诈性的第二分类器;
步骤SS5,利用所述第二分类器对训练集之外的问答样本数据进行分类,并更新其标记信息;
步骤SS6,依次重复执行步骤SS3,SS4,SS5,直至更新前后所有问答的标记均保持不变,或达到最大迭代次数,跳转至步骤SS7;
步骤SS7,根据迭代停止后的问答标记信息,输出欺诈性问题和答案。
7.根据权利要求6所述的方法,步骤SS1,SS2,SS5中的分类器均针对问题和答案分别训练,针对问题的分类器使用问题属性与群组属性,针对答案的分类器使用答案属性和群组属性,采用经典的分类算法,包括贝叶斯、支持向量机、随机森林。
8.根据权利要求6所述的方法,步骤SS3中,一种基于元路径的特征扩展算法包含以下步骤:
步骤SSS1:针对任一问题或答案E,假设其相关的元路径集合M={M1,M2,…,Mk},元路径Mi,1≤i≤k,k表示元路径总个数;包含的路径集合
Figure FDA0003780995260000031
针对每条路径Pj (i),1≤j≤l,l表示路径总个数;获取其邻居节点欺诈性的标记Nj (i),建立邻居节点标记集合
Figure FDA0003780995260000032
步骤SSS2:利用聚合函数对
Figure FDA0003780995260000033
中的标记进行聚合计算,得到E在元路径Mi下的邻居聚合标记L(i),聚合函数选择MODE或AVG函数;
步骤SSS3:针对元路径集合M中的每条元路径,重复执行步骤SSS1和SSS2获得E的所有邻居聚合标记向量<L(1),L(2),…,L(k)>,将其以拼接方式附加到E的属性特征向量中,获得E的扩展特征向量;
步骤SSS4:针对异构信息网络中的所有问题和答案,重复执行步骤SSS1,SSS2,SSS3,获得全部扩展特征向量。
CN202210929433.XA 2022-08-03 2022-08-03 一种在线问答社区中检测欺诈性问答的方法 Active CN115344697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210929433.XA CN115344697B (zh) 2022-08-03 2022-08-03 一种在线问答社区中检测欺诈性问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210929433.XA CN115344697B (zh) 2022-08-03 2022-08-03 一种在线问答社区中检测欺诈性问答的方法

Publications (2)

Publication Number Publication Date
CN115344697A true CN115344697A (zh) 2022-11-15
CN115344697B CN115344697B (zh) 2023-06-23

Family

ID=83949792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210929433.XA Active CN115344697B (zh) 2022-08-03 2022-08-03 一种在线问答社区中检测欺诈性问答的方法

Country Status (1)

Country Link
CN (1) CN115344697B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132392A (zh) * 2023-10-23 2023-11-28 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及系统
CN117473435A (zh) * 2023-07-21 2024-01-30 南京审计大学 一种基于时空特征的突发公共卫生事件虚假异常信息检测方法
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140439A1 (en) * 2014-11-18 2016-05-19 International Business Machines Corporation Evidence Aggregation Across Heterogeneous Links for Intelligence Gathering Using a Question Answering System
CN108009915A (zh) * 2017-12-21 2018-05-08 连连银通电子支付有限公司 一种欺诈用户社区的标记方法及相关装置
CN109492076A (zh) * 2018-09-20 2019-03-19 西安交通大学 一种基于网络的社区问答网站答案可信评估方法
CN110009486A (zh) * 2019-04-09 2019-07-12 连连银通电子支付有限公司 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN110232524A (zh) * 2019-06-14 2019-09-13 哈尔滨哈银消费金融有限责任公司 社交网络欺诈模型的构建方法、防欺诈方法和装置
CN111260462A (zh) * 2020-01-16 2020-06-09 东华大学 一种基于异质关系网络注意力机制的交易欺诈检测方法
CN112199510A (zh) * 2020-09-17 2021-01-08 中国建设银行股份有限公司 一种欺诈概率确定方法、装置、电子设备及存储介质
CN114155009A (zh) * 2021-12-06 2022-03-08 华东交通大学 欺诈检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140439A1 (en) * 2014-11-18 2016-05-19 International Business Machines Corporation Evidence Aggregation Across Heterogeneous Links for Intelligence Gathering Using a Question Answering System
CN108009915A (zh) * 2017-12-21 2018-05-08 连连银通电子支付有限公司 一种欺诈用户社区的标记方法及相关装置
CN109492076A (zh) * 2018-09-20 2019-03-19 西安交通大学 一种基于网络的社区问答网站答案可信评估方法
CN110009486A (zh) * 2019-04-09 2019-07-12 连连银通电子支付有限公司 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN110232524A (zh) * 2019-06-14 2019-09-13 哈尔滨哈银消费金融有限责任公司 社交网络欺诈模型的构建方法、防欺诈方法和装置
CN111260462A (zh) * 2020-01-16 2020-06-09 东华大学 一种基于异质关系网络注意力机制的交易欺诈检测方法
CN112199510A (zh) * 2020-09-17 2021-01-08 中国建设银行股份有限公司 一种欺诈概率确定方法、装置、电子设备及存储介质
CN114155009A (zh) * 2021-12-06 2022-03-08 华东交通大学 欺诈检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI WANG等: "Modeling Heterogeneous Graph Network on Fraud Detection: A Community-based Framework with Attention Mechanism" *
ZIZHENG LIN等: "Multi-Relational Graph based Heterogeneous Multi-Task Learning in Community Question Answering" *
郝开青: "面向问答社区的众包网络水军检测研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473435A (zh) * 2023-07-21 2024-01-30 南京审计大学 一种基于时空特征的突发公共卫生事件虚假异常信息检测方法
CN117473435B (zh) * 2023-07-21 2024-05-17 南京审计大学 一种基于时空特征的突发公共卫生事件虚假异常信息检测方法
CN117132392A (zh) * 2023-10-23 2023-11-28 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及系统
CN117132392B (zh) * 2023-10-23 2024-01-30 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及系统
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法

Also Published As

Publication number Publication date
CN115344697B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Barbado et al. A framework for fake review detection in online consumer electronics retailers
CN115344697B (zh) 一种在线问答社区中检测欺诈性问答的方法
Man et al. Use of data mining methods to detect test fraud
Hamim et al. Survey of machine learning techniques for student profile modeling
Ahmed et al. Discovering diverse, high quality design ideas from a large corpus
KR102163718B1 (ko) 설문조사 부정 응답자 판별 ai 프로그램
Biswas et al. Fuzzy and genetic algorithm based approach for classification of personality traits oriented social media images
CN110119448A (zh) 基于双重自动编码器的半监督跨领域文本分类方法
Wynn et al. Learning human-like representations to enable learning human values
CN109254993B (zh) 一种基于文本的性格数据分析方法及系统
Mannan et al. An Empirical study on theories of sentiment analysis in relation to fake news detection
Ebadi Jokandan et al. Targeted advertising in social media platforms using hybrid convolutional learning method besides efficient feature weights
Bhavya et al. Credit Card Fraud Detection using Classification, Unsupervised, Neural Networks Models
KR20220012673A (ko) 프로모션 대상 선별 방법 및 그 장치
Ainan et al. Advancing bankruptcy forecasting with hybrid machine learning techniques: Insights from an unbalanced Polish dataset
Prabhakar et al. Credit card fraud detection using boosted stacking
Windmann Machine Learning in Finance
Sankara Subbu Brief Study of Classification Algorithms in Machine Learning
Pate et al. Sentiment Analysis of Tweets Using Machine Learning Algorithms
Pavitha et al. A Study on Personality Prediction & Classification Using Data Mining Algorithms
CN117725210B (zh) 一种面向社会化问答平台的恶意用户检测方法
Kanal et al. Data Science Tutorial
Selvakumar et al. Fake Currency Notes Detection using Supervised Learning Methods
Fiallos¹ et al. 1 Universidad ECOTEC, Samborondón, Ecuador 2
Ramon et al. Explainable AI for Psychological Profiling from Digital Footprints: A Case Study of Big Five Personality Predictions from Spending Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant