CN109829733A - 一种基于购物行为序列数据的虚假评论检测系统和方法 - Google Patents
一种基于购物行为序列数据的虚假评论检测系统和方法 Download PDFInfo
- Publication number
- CN109829733A CN109829733A CN201910097065.5A CN201910097065A CN109829733A CN 109829733 A CN109829733 A CN 109829733A CN 201910097065 A CN201910097065 A CN 201910097065A CN 109829733 A CN109829733 A CN 109829733A
- Authority
- CN
- China
- Prior art keywords
- commodity
- sequence
- comment
- behavior
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于购物行为序列数据的虚假评论检测系统和方法,包括以下步骤:S1:获取用户购物行为序列数据,标记为序列Z;S2:从Z中获取训练或待检商品的购物行为序列数据,并进行预处理得到序列H;S3:利用序列H中的数据进行概率后缀树模型的建模,以便于分析;S4:对商品进行筛选得到可疑商品集合U;S5:对可疑商品集合U中每件商品的评论进行分析,获得商品的可疑评论集合W;S6:利用概率后缀树模型分析检测虚假评论者;S7:搜索虚假评论者评价的商品,并对可疑商品集合U进行更新。本发明通过感知用户的购物行为,构建一种有别于评论文本的概率后缀树模型,用于检测虚假评论者。
Description
技术领域
本发明涉及电子商务领域,特别涉及一种基于购物行为序列数据的虚假评论检测系统和方法。
背景技术
随着电子商务网站及点评网站的发展,越来越多的网络用户通过发布评论分享消费体验、评价产品的质量,并在做出消费决策时参考其他用户的评论,评论信息日益影响着人们的生活。人们对评论信息的依赖催化了虚假评论的不断涌现。因此需对评论信息进行检测,识别评论信息的真假。现有技术主要是采用虚假评论文本检测和虚假评论者检测。
虚假评论文本检测研究包含三类检测方法:1)语法分析,包括对文本进行词袋特征分析及词性特征分析,研究者基于语法分析获得的特征,运用分类模型如支持向量机及神经网络模型均获得了较好的检测效果。2)语义分析,运用特征分析方法或语义表示方法对文本的在语义层面的信息进行特征提取或抽象表示,应用语义分析的虚假评论文本检测方法有稀疏相加生成模型、神经网络模型及语义语言模型等。3)对评论进行文体及元数据分析,有助于挖掘评论的语言风格及评论者的撰写习惯,提取此类特征能够从文本内容以外的角度分析评论及相应的评论者,一些检测方法在有标注数据集上,运用经典分类模型如支持向量机、朴素贝叶斯等预测虚假评论文本。
虚假评论者检测通过挖掘评论者特征,分析评论者的反常行为对虚假评论者进行预测。如通过时序分析检测虚假评论者,研究者运用马尔可夫随机场(MRF)模型基于评论者之间的关系构建评论者网络,将评论者作为观察结点,每个评论者的真实类别为隐含结点,对一个爆发期内共同出现的评论者用边相连接、建立关联关系。
也有研究者同时利用评论者、评论文本之间的网络拓扑结构进行虚假评论者检测。该类方法首先对评论者、评论文本,包括评论对象构建关系网络,再通过基于图的方法对虚假评论者进行度量和分析。该类方法包括基于HITS算法的检测模型和基于马尔可夫随机场的检测模型。此外,也有研究者利用评论和评论者的特征提出一种双视图、联合训练的半监督学习方法。
但现有技术中存在很多方面的不足:
(1)需要同时利用正类和负类样本进行模型训练。电商评论分布较广、数量级巨大,人工数据标注困难,如何在只有单类样本的情况下进行虚假评论检测是个急需解决的问题。
(2)在不同应用领域中可迁移性较差。在某个领域中训练得到的虚假评论检测模型,由于评论对象、风格、情感词等差异,往往很难迁移到其它领域中。
(3)分类特征容易被虚假评论者伪造,导致查全率不高。现有研究多利用评论文本特征、评分特征或社会特征等进行建模、检测,而上述特征形式均存在易于伪造的问题。如虚假评论者虚构出大量的好评或使用体验,在缺乏其它客观证据的情况下,检测系统很难判定该评论的真实程度。
发明内容
针对现有技术的问题,本发明提供一种基于购物行为序列数据的虚假评论检测系统和方法,通过研究真实(或虚假)评论用户的购物行为序列的概率特征,最终识别出虚假评论者、虚假评论以及评论商品。
为了实现上述目的,本发明提供以下技术方案:
一种基于购物行为序列数据的虚假评论检测系统,其特征在于,包括数据采集模块、数据预处理模块、商品筛选模块、虚假评论筛选模块、概率后缀数模型模块以及虚假评论用户检测模块;数据采集模块的输出端连接数据预处理模块的输入端,数据预处理模块的输出端分别连接商品筛选模块和概率后缀数模型模块的输入端,商品筛选模块的输出端连接虚假评论筛选模块的输入端,概率后缀数模型模块和虚假评论筛选模块的输出端分别连接虚假评论用户检测模块的输入端。
优选的,还包括数据存储模块和时间标记模块;数据存储模块,用于存储采集的用户购物行为序列数据,方便进行分析;时间标记模块,用于记录用户购买商品和进行评论的时间。
一种基于购物行为序列数据的虚假评论检测方法,其特征在于,包括以下步骤:
S1:获取用户购物行为序列数据,标记为序列Z;
S2:从序列Z中获取训练或待检商品的购物行为序列数据,并进行预处理得到序列H;
S3:利用序列H中的数据进行概率后缀树模型的建模,以便于分析;
S4:对商品进行筛选得到可疑商品集合U;
S5:对可疑商品集合U中每件商品的评论进行分析,获得商品的可疑评论集合W;
S6:利用概率后缀树模型分析检测虚假评论者,得到虚假评论者集合V;
S7:搜索虚假评论者评价的商品,并对可疑商品集合U进行更新。
优选的,所述S1中,所述用户购物行为序列包括点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。
优选的,所述S2包括以下步骤:
S2-1:提取用户在训练或待分析商品的购物行为序列数据,形成序列S;
以本次待分析商品支付时间为基准,从序列Z中抽取自上次(或上上次)支付时间到本次支付时间内的所有用户购物行为序列数据,得到用户对待分析商品的购物行为序列S;
S2-2:将序列S中的无关行为数据进行过滤得到序列H;
所述无关行为数据是指用户行为与当前分析商品所属类别不一致的数据;
S2-3:将序列H中的两种行为特征进行细化;
商品的详情查看时长为T1,商品的评论查看时长为T2,并采用时间间隔Δt将T1和T2进行分段,分别得到T1/Δt和T2/Δt个子事件,以提高模型构建的准确性。
优选的,所述S3包括以下步骤:
S3-1:初始化概率后缀树(PST)模型的根结点,定义根结点处序列H中任一行为H0发生的行为概率为:P(H0)=|H0|/|H|,其中|H0|表示行为H0出现的次数,|H|表示所有行为出现的次数;
S3-2:设置行为概率阈值Pmin,将大于概率阈值Pmin的行为作为当前根结点的候选子结点,建立初始概率后缀树,结点以序列L标记,表示从该结点回溯到根结点所历边集;
S3-3:检查概率后缀树模型的深度,若深度值小于PST允许的最大深度D,则对已有的候选结点L,继续扩展其子结点:对可能的行为s∈∑,计算s作为行为序列L的下一个行为的概率:
P(s|L)=|sL|/|sL*| (1)
公式(1)中,|sL|表示行为序列中序列sL出现的次数,|sL*|表示以sL为父序列的所有行为序列出现的次数;若P(s|L)>γ且P(s|L)/P(s|suff(L))>c或P(s|L)/P(suff(L))<1/c,则以s为边产生新的子结点sL,并将其作为候选结点L的子结点添加到树中,其中suff(L)代表候选结点L父结点中的行为序列,γ和c均为阈值;
S3-4:对PST中新增的各子结点sL,若满足P(sL)>Pmin,则标记子结点sL为结点L的候选子结点;若P(sL)<=Pmin,则将子结点sL去除;
S3-5:重复步骤S3-3,直至构建关于所有用户购物行为序列的D阶概率后缀树模型。
优选的,所述S4中筛选为定义每件商品的成交率T=成交数/点击数,若T>λ,λ为预设阈值,则将商品加入可疑商品集合U。
优选的,所述S5包括以下步骤:
S5-1:获取商品的评论时间跨度集合,并平均分成n个子时间跨度;
本发明获取第一条评论和最后一条评论之间的时间跨度集合t,将时间跨度t平均分成n个子时间跨度,即t={t1,t2,…,tn},tn表示第n个子时间跨度;
S5-2:计算时间跨度集合中商品的平均评论数:
avg=N/n (2)
公式(2)中,N表示商品在时间跨度集合t中的所有评论数,avg表示商品的平均评论数;
S5-3:获取每个子时间跨度中商品的评论数count(tn),若count(tn)>avg且count(tn)>count(tn-1)and count(tn)>count(tn+1),则将第n个子时间跨度标记为可疑区域,从而将该区域内的所有评论标记为可疑评论,最终得到可疑评论集合W。
优选的,所述S6中通过异常度进行分析检测虚假评论者,
公式(3)中,β表示异常度,表示异常的购物行为子序列个数与总的购物行为序列个数的比值。
优选的,所述S7中,所述虚假评论者对商品B且进行评论,则商品B的可疑度dB自增1;若dB>d,d为预设阈值,判定商品B为可疑评论商品,将商品B加入可疑商品集合U。
综上所述,由于采用了上述技术方案,与现有技术相比,本发明至少具有以下有益效果:
1)通过感知用户的购物行为,构建一种有别于评论文本的新型特征模式,表征用户的真实评论意图;
2)在只有单类别训练数据,如真实评论用户的情况下,构建一种具有较高查准率的虚假评论检测模型;
3)在检测虚假评论者过程中,不依赖于用户的评论本身,因此对用户评论内容是否虚假或杜撰不敏感。
4)利用评论者在评论商品中的共现关系,提升模型的查全率。
附图说明:
图1为根据本发明示例性实施例的一种基于购物行为序列数据的虚假评论检测系统示意图。
图2为根据本发明示例性实施例的一种基于购物行为序列数据的虚假评论检测方法流程示意图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1为根据本发明示例性实施例的一种基于购物行为序列数据的虚假评论检测系统示意图。
本实施例中,一种基于购物行为序列数据的虚假评论检测系统,包括数据采集模块10、数据预处理模块20、商品筛选模块30、虚假评论筛选模块40、概率后缀数模型模块50以及虚假评论用户检测模块60。其中,数据采集模块10,用于在电商客户端通过无感知方式收集用户购物行为数据;数据预处理模块20,用于对用户购物行为数据进行去噪和预处理;商品筛选模块30,用于利用交易特征对含有可疑评论的商品进行初步筛选;虚假评论筛选模块40,用于对时间窗口下的评论数量变化分析,选出可疑商品在可疑时间段内的所有评论;概率后缀数模型模块50,对训练数据集中相关用户的购物行为序列进行建模;虚假评论用户检测模块60,对可疑评论集中相关用户的购物行为序列进行分析,最终判别其是否是真正的虚假评论者。
本实施例中,数据采集模块10的输出端连接数据预处理模块20的输入端,数据预处理模块20的输出端分别连接商品筛选模块30和概率后缀数模型模块50的输入端,商品筛选模块30的输出端连接虚假评论筛选模块40的输入端,概率后缀数模型模块50和虚假评论筛选模块40的输出端分别连接虚假评论用户检测模块60的输入端,由虚假评论用户检测模块60对评论用户进行虚假辨别,并将最终结果输出显示在显示器上。
本实施例中,数据采集模块10还包括数据存储模块和时间标记模块。数据存储模块,用于存储采集的用户购物行为数据,方便系统进行分析;时间标记模块,用于记录用户购买商品和进行评论的时间。
本发明还提供一种基于购物行为序列数据的虚假评论检测方法,参照图2,具体包括以下步骤:
S1:获取用户购物行为序列数据,标记为序列Z。
本实施例中,用户在网上进行购物时,本系统的数据采集模块10会实时获取用户对商品的相关操作,即用户购物行为序列数据,标记为序列Z。用户购物行为包括但不限于:点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。本系统中的序列Z应理解为一个自定义时间阶段内的所有用户在网上对所有商品的相关操作,例如自定义时间段为2018年10月1日到2018年10月31日。
S2:从Z中获取训练或待检商品的购物行为序列数据,并进行预处理得到序列H。
S2-1:提取用户在训练或待检商品的购物行为序列数据,形成序列S。
本实施例中,以本次待分析商品支付时间为基准,从序列Z中抽取自上次(或上上次)支付时间到本次支付时间内的所有用户购物行为序列数据,得到用户对待分析商品的购物行为序列S。
例如,对于用户A,假定其可能的行为序列为Z={<M1,T1>,…,<Mi,T1>;<M1,T2>,....<Mi,T2>;...<M1,Ti>,....<Mi,Ti>},<Mi,Ti>表示任一行为二元组,其中,Mi表示具体购物行为(查看商品、查看评论、下订单以及购买商品等),Ti表示行为对象即商品或ID。假如提取商品T2的行为子序列ST2,则ST2={<查看商品,T2>,....<购买商品,T2>},其中,“<购买商品,T2>”可视为商品T2的支付时间基准,<查看商品,T2>可视为上次支付时间(例如购买商品T1)的结束时间。
S2-2:将序列S中的无关行为数据进行过滤得到序列H。
本实施例中,所述无关行为数据是指用户行为对象与当前分析商品所属类别不一致的数据。例如用户在对商品A进行购物操作,突然转去浏览商品B(A与B不属于同一商品类型),那么对于正在分析的商品A的行为序列S来说,浏览B的行为序列就是无关的,应将其从S中剔除从而得到新的集合H,集合H中包含了待分析时间段内商品A的所有购物行为数据,用户购物行为包括但不限于:点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为等。
S2-3:将序列H中的两种行为特征进行细化。
本实施例中,用户在对商品进行相关购物行为操作时,对部分行为还会记录用户的操作时长,如商品详情查看时长、商品评论查看时长等。商品详细查看时长和评论查看时长标识了用户对该商品的兴趣程度或真实购买欲望,但如果只将其作为一个简单事件,就无法通过时长反应其购物的真正意图,因此对上述两种行为,可根据间隔Δt可以将其拆分成多个子事件。商品详细查看时间和评论查看时间越长,其对应子事件个数越多,表示用户购买商品的概率越高。
本实施例中,本发明将用户对商品的详情查看时长定义为T1,将用户对商品的评论查看时长定义为T2,并采用时间间隔Δt将T1和T2进行分段,分别得到T1/Δt和T2/Δt个子事件,以提高模型构建的准确性。
S3:利用序列H中的数据进行概率后缀树模型的建模,以便于分析。
本实施例中,将序列H中的数据构建成概率后缀树模型(PST,ProbabilisticSuffix Trees),用于识别用户购物、评论行为背后真正的意图,例如是否为真实评论或虚假评论。
S3-1:初始化概率后缀树(PST)的根结点,定义根结点处序列H中任一行为H0发生的行为概率为:P(H0)=|H0|/|H|,其中|H0|表示行为H0出现的次数,|H|表示所有行为出现的次数。
S3-2:设置行为概率阈值,将大于阈值的行为作为当前根结点的候选子结点,形成序列L,并计算其后续行为概率,构建概率后缀树模型。
本实施例中,设置行为概率阈值Pmin,若P(H0)>Pmin,则相对应的行为H0可当前根结点的候选子结点,建立初始概率后缀树,树中边表示从根到各子结点所历行为,候选结点用序列L标记,表示从候选结点到根结点所历边集。
S3-3:检查构建的概率后缀树模型的深度,若深度值小于PST允许的最大深度D,则对已有的候选结点L,继续扩展其子结点:对于行为s∈∑(∑表示行为集合),计算s作为行为序列L的下一个行为的概率:
P(s|L)=|sL|/|sL*| (1)
公式(1)中,|sL|表示行为序列中序列sL出现的次数,|sL*|表示以sL为父序列的所有行为序列出现的次数。若P(s|L)>γ且P(s|L)/P(s|suff(L))>c或P(s|L)/P(suff(L))<1/c,则以s为边产生新的子结点sL,并将其作为候选结点L的子结点添加到树中,其中suff(L)表示候选结点L父结点中的行为序列,P(s|suff(L))表示suff(L)发生的前提下行为s发生的概率,γ和c均为阈值。
例如,行为空间∑={a,b,c,d,e,q},序列L=abc,表示已知abc三个行为按照先a然后b最后c的顺序发生;对于行为s∈∑且在序列L发生后s发生的概率为P(s|L)。
S3-4:对PST中新增的各子结点sL,若满足P(sL)>Pmin,则标记子结点sL为序列L的候选子结点;若P(sL)<=Pmin,表示该sL出现概率较小,可直接删除。
S3-5:重复步骤S3-3,直至最终构造出一棵记录了关于所有用户购物行为序列的概率特征的D阶PST。
S4:对商品进行筛选得到可疑商品集合U。
本实施例中,对待分析的所有商品,定义每件商品的成交率T=成交数/点击数(成交数和点击数可通过数据采集模块获得)。若T>λ(λ为预设阈值),则将相对应的商品加入可疑商品集合U。
S5:对可疑商品集合U中每件商品,分析其评论数量的时间序列变化特征,发现评论数量发生突变的时间域,以此确定该商品的可疑评论集合W。
S5-1:获取商品的评论时间跨度集合,并平均分成n个子时间跨度。
本实施例中,用户在对可疑商品集合U中商品A进行购买后会对商品进行评论(评论的顺序依照时间先后进行排列),因此可获取商品A的评论时间,从而得到第一条评论和最后一条评论之间的时间跨度集合t。为方便分析,本发明将时间跨度t平均分成n个子时间跨度,即t={t1,t2,…,tn},tn表示第n个子时间跨度。
例如商品A的第一条评论时间为第1周,最后一条评论时间为第9周,则商品A的时间跨度t为1周~9周,而按照3周为一子时间跨度将t可分成t1:1周~3周;t2:4周~6周;t3:7周~9周。
S5-2:计算时间跨度集合中商品的平均评论数:
avg=N/n (2)
公式(2)中,N表示商品在时间跨度集合t中的所有评论数,avg表示商品的平均评论数。
S5-3:获取每个子时间跨度中商品的评论数count(tn),若count(tn)>avg且count(tn)>count(tn-1)and count(tn)>count(tn+1),则将第n个子时间跨度标记为可疑区域,从而将该区域内的所有评论标记为可疑评论,最终得到可疑评论集合W。
本实施例中,可以采取多尺度的分析方式,根据需要对子时间跨度的个数进行调整,以减少漏检发生概率。
S6:利用概率后缀树模型分析检测虚假评论者,得到虚假评论者集合V。
本实施例中,对可疑评论集合W中的每个待分析的可疑评论,可从序列H中获取其相对应的子序列,从而组成可疑虚假评论序列。例如用户i对商品A进行了评论,该评论属于可疑评论集合W,本发明可获取用户i对商品A的购物行为子序列HiA,HiA=s1s2…sj,其中,sj表示子序列HiA中的任一行为。基于已训练的概率后缀树模型(PST),可定义子序列HiA的异常度为::
公式(3)中,β为异常度,表示异常的购物行为序列个数与总的购物行为序列个数的比值,X表示子序列的个数,(MM(sj)表示行为sj及其前k个行为组成的行为序列是否被判定为异常行为,如该值为1则为异常,为0则为正常),μmin为阈值,k<D(D为PST的最大深度),sj表示子序列中的任一行为,sj-k...sj-1表示sj前面的行为序列,概率P(sj|sj-k…sj-1)的计算方法为:从PST的根结点出发,依次沿与序列sj-k…sj-1匹配的边访问PST中的结点,直至到达叶子结点或者到达标记为sj-k…sj-1的结点时停止,根据到达结点的后续行为概率向量,得到行为sj的发生概率P(sj|sj-k…sj-1)。
本发明通过判断β的值进行虚假评论者的检测分析。若β>βmin,βmin为预设的阈值,则判定子序列HiA的购物行为异常,因此判定子序列HiA的评论为虚假,将对应的评论者加入虚假评论者集合V。
S7:搜索虚假评论者评价的商品,并对U更新。
本实施例中,利用虚假评论者在商品评论中的共现关系发现更多可疑评论商品。例如对商品A∈U进行检测从而检测出用户i∈V,且用户i其在分析时间段内还参与评论过商品B且则定义商品B的可疑度dB自增1,基本思想是:已识别出的虚假评论者i不光对当前商品A进行虚假评论,对商品B的评论也可能是虚假的,因此对其评论过的每个商品的可疑度加1。如果同时有多个虚假评论者均评论过商品B,即dB>d时(d为预设阈值),基于虚假评论者在该商品评论中的群集现象,可判定商品B为可疑评论商品,将该商品加入可疑商品集合U;对U中新加入的商品重复执行步骤S5,直至系统停止运行,即可疑商品集合U中不再增加商品。
Claims (10)
1.一种基于购物行为序列数据的虚假评论检测系统,其特征在于,包括数据采集模块、数据预处理模块、商品筛选模块、虚假评论筛选模块、概率后缀数模型模块以及虚假评论用户检测模块;数据采集模块的输出端连接数据预处理模块的输入端,数据预处理模块的输出端分别连接商品筛选模块和概率后缀数模型模块的输入端,商品筛选模块的输出端连接虚假评论筛选模块的输入端,概率后缀数模型模块和虚假评论筛选模块的输出端分别连接虚假评论用户检测模块的输入端。
2.如权利要求1所述的一种基于购物行为序列数据的虚假评论检测系统,其特征在于,还包括数据存储模块和时间标记模块;数据存储模块,用于存储采集的用户购物行为序列数据,方便进行分析;时间标记模块,用于记录用户购买商品和进行评论的时间。
3.一种基于购物行为序列数据的虚假评论检测方法,其特征在于,包括以下步骤:
S1:获取用户购物行为序列数据,标记为序列Z;
S2:从序列Z中获取训练或待检商品的购物行为序列数据,并进行预处理得到序列H;
S3:利用序列H中的数据进行概率后缀树模型的建模,以便于分析;
S4:对商品进行筛选得到可疑商品集合U;
S5:对可疑商品集合U中每件商品的评论进行分析,获得商品的可疑评论集合W;
S6:利用概率后缀树模型分析检测虚假评论者,得到虚假评论者集合V;
S7:搜索虚假评论者评价的商品,并对可疑商品集合U进行更新。
4.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S1中,所述用户购物行为序列包括点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。
5.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S2包括以下步骤:
S2-1:提取用户在训练或待分析商品的购物行为序列数据,形成序列S;
以本次待分析商品支付时间为基准,从序列Z中抽取自上次(或上上次)支付时间到本次支付时间内的所有用户购物行为序列数据,得到用户对待分析商品的购物行为序列S;
S2-2:将序列S中的无关行为数据进行过滤得到序列H;
所述无关行为数据是指用户行为与当前分析商品所属类别不一致的数据;
S2-3:将序列H中的两种行为特征进行细化;
商品的详情查看时长为T1,商品的评论查看时长为T2,并采用时间间隔Δt将T1和T2进行分段,分别得到T1/Δt和T2/Δt个子事件,以提高模型构建的准确性。
6.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S3包括以下步骤:
S3-1:初始化概率后缀树(PST)模型的根结点,定义根结点处序列H中任一行为H0发生的行为概率为:P(H0)=|H0|/|H|,其中|H0|表示行为H0出现的次数,|H|表示所有行为出现的次数;
S3-2:设置行为概率阈值Pmin,将大于概率阈值Pmin的行为作为当前根结点的候选子结点,建立初始概率后缀树,结点以序列L标记,表示从该结点回溯到根结点所历边集;
S3-3:检查概率后缀树模型的深度,若深度值小于PST允许的最大深度D,则对已有的候选结点L,继续扩展其子结点:对可能的行为s∈∑,计算s作为行为序列L的下一个行为的概率:
P(s|L)=|sL|/|sL*| (1)
公式(1)中,|sL|表示行为序列中序列sL出现的次数,|sL*|表示以sL为父序列的所有行为序列出现的次数;若P(s|L)>γ且P(s|L)/P(s|suff(L))>c或P(s|L)/P(suff(L))<1/c,则以s为边产生新的子结点sL,并将其作为候选结点L的子结点添加到树中,其中suff(L)代表候选结点L父结点中的行为序列,γ和c均为阈值;
S3-4:对PST中新增的各子结点sL,若满足P(sL)>Pmin,则标记子结点sL为结点L的候选子结点;若P(sL)<=Pmin,则将子结点sL去除;
S3-5:重复步骤S3-3,直至构建关于所有用户购物行为序列的D阶概率后缀树模型。
7.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S4中筛选为定义每件商品的成交率T=成交数/点击数,若T>入,入为预设阈值,则将商品加入可疑商品集合U。
8.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S5包括以下步骤:
S5-1:获取商品的评论时间跨度集合,并平均分成n个子时间跨度;
本发明获取第一条评论和最后一条评论之间的时间跨度集合t,将时间跨度t平均分成n个子时间跨度,即t={t1,t2,...,tn},tn表示第n个子时间跨度;
S5-2:计算时间跨度集合中商品的平均评论数:
avg=N/n (2)
公式(2)中,N表示商品在时间跨度集合t中的所有评论数,avg表示商品的平均评论数;
S5-3:获取每个子时间跨度中商品的评论数count(tn),若count(tn)>avg且count(tn)>count(tn-1)and count(tn)>count(tn+1),则将第n个子时间跨度标记为可疑区域,从而将该区域内的所有评论标记为可疑评论,最终得到可疑评论集合W。
9.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S6中通过异常度进行分析检测虚假评论者,
公式(3)中,β为异常度,表示异常的购物行为子序列个数与总的购物行为序列个数的比值;当β>βmin,βmin为预设的阈值,则判定购物行为异常,即评论为虚假,将对应的评论者加入虚假评论者集合V。
10.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S7中,所述虚假评论者对商品B且进行评论,则商品B的可疑度dB自增1;当dB>d时,d为预设阈值,判定商品B为可疑评论商品,将商品B加入可疑商品集合U。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097065.5A CN109829733B (zh) | 2019-01-31 | 2019-01-31 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097065.5A CN109829733B (zh) | 2019-01-31 | 2019-01-31 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829733A true CN109829733A (zh) | 2019-05-31 |
CN109829733B CN109829733B (zh) | 2023-02-03 |
Family
ID=66861932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910097065.5A Active CN109829733B (zh) | 2019-01-31 | 2019-01-31 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829733B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751180A (zh) * | 2019-09-19 | 2020-02-04 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN111415171A (zh) * | 2020-02-24 | 2020-07-14 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN112289403A (zh) * | 2020-10-19 | 2021-01-29 | 浙江大学山东工业技术研究院 | 一种基于两阶段筛查流程的医保异常购药的检测方法及装置 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN112738088A (zh) * | 2020-12-28 | 2021-04-30 | 上海观安信息技术股份有限公司 | 一种基于无监督算法的行为序列异常检测方法及系统 |
CN112732921A (zh) * | 2021-01-19 | 2021-04-30 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN113670608A (zh) * | 2021-07-21 | 2021-11-19 | 广州大学 | 基于后缀树和向量机的故障检测方法、系统、装置及介质 |
CN113724035A (zh) * | 2021-07-29 | 2021-11-30 | 河海大学 | 一种基于特征学习和图推理的恶意用户检测方法 |
CN113779276A (zh) * | 2021-01-13 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 用于检测评论的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258169A1 (en) * | 2013-03-05 | 2014-09-11 | Bental Wong | Method and system for automated verification of customer reviews |
CN106204157A (zh) * | 2016-07-24 | 2016-12-07 | 广东聚联电子商务股份有限公司 | 一种基于大数据采集与分析的刷单评价行为处理方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
CN107085616A (zh) * | 2017-05-31 | 2017-08-22 | 东南大学 | Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法 |
US20170345052A1 (en) * | 2016-05-25 | 2017-11-30 | Comscore, Inc. | Method and system for identifying anomalous content requests |
CN108550052A (zh) * | 2018-04-03 | 2018-09-18 | 杭州呯嘭智能技术有限公司 | 基于用户行为数据特征的刷单检测方法及系统 |
CN109241527A (zh) * | 2018-08-24 | 2019-01-18 | 浙江工商大学 | 一种中文商品虚假评论数据集自动生成方法 |
-
2019
- 2019-01-31 CN CN201910097065.5A patent/CN109829733B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258169A1 (en) * | 2013-03-05 | 2014-09-11 | Bental Wong | Method and system for automated verification of customer reviews |
US20170345052A1 (en) * | 2016-05-25 | 2017-11-30 | Comscore, Inc. | Method and system for identifying anomalous content requests |
CN106204157A (zh) * | 2016-07-24 | 2016-12-07 | 广东聚联电子商务股份有限公司 | 一种基于大数据采集与分析的刷单评价行为处理方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
CN107085616A (zh) * | 2017-05-31 | 2017-08-22 | 东南大学 | Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法 |
CN108550052A (zh) * | 2018-04-03 | 2018-09-18 | 杭州呯嘭智能技术有限公司 | 基于用户行为数据特征的刷单检测方法及系统 |
CN109241527A (zh) * | 2018-08-24 | 2019-01-18 | 浙江工商大学 | 一种中文商品虚假评论数据集自动生成方法 |
Non-Patent Citations (2)
Title |
---|
DAWN LAWRIE: "Syntactic Identifier Conciseness and Consistency", 《IEEE》 * |
周毅: "基于监管方视角的网购中刷单行为识别研究 ——以M购物平台为例", 《中国优秀硕士论文电子期刊网》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751180A (zh) * | 2019-09-19 | 2020-02-04 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN110751180B (zh) * | 2019-09-19 | 2023-06-20 | 广东工业大学 | 一种基于谱聚类的虚假评论群组划分方法 |
CN111415171A (zh) * | 2020-02-24 | 2020-07-14 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN111415171B (zh) * | 2020-02-24 | 2020-11-10 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN112289403A (zh) * | 2020-10-19 | 2021-01-29 | 浙江大学山东工业技术研究院 | 一种基于两阶段筛查流程的医保异常购药的检测方法及装置 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN112738088A (zh) * | 2020-12-28 | 2021-04-30 | 上海观安信息技术股份有限公司 | 一种基于无监督算法的行为序列异常检测方法及系统 |
CN113779276A (zh) * | 2021-01-13 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 用于检测评论的方法和装置 |
CN112732921B (zh) * | 2021-01-19 | 2022-06-14 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN112732921A (zh) * | 2021-01-19 | 2021-04-30 | 福州大学 | 一种虚假用户评论检测方法及系统 |
CN113670608A (zh) * | 2021-07-21 | 2021-11-19 | 广州大学 | 基于后缀树和向量机的故障检测方法、系统、装置及介质 |
CN113670608B (zh) * | 2021-07-21 | 2022-09-16 | 广州大学 | 基于后缀树和向量机的故障检测方法、系统、装置及介质 |
CN113724035A (zh) * | 2021-07-29 | 2021-11-30 | 河海大学 | 一种基于特征学习和图推理的恶意用户检测方法 |
CN113724035B (zh) * | 2021-07-29 | 2023-10-17 | 河海大学 | 一种基于特征学习和图推理的恶意用户检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109829733B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829733A (zh) | 一种基于购物行为序列数据的虚假评论检测系统和方法 | |
CN107944913B (zh) | 基于大数据用户行为分析的高潜在用户购买意向预测方法 | |
CN106485562B (zh) | 一种基于用户历史行为的商品信息推荐方法及系统 | |
CN103353880B (zh) | 一种利用相异度聚类和关联的数据挖掘方法 | |
Anas et al. | Opinion mining based fake product review monitoring and removal system | |
CN109345272A (zh) | 一种基于改进马尔科夫链的店铺信用风险预测方法 | |
CN115391670B (zh) | 一种基于知识图谱的互联网行为分析方法与系统 | |
TW202009748A (zh) | 物流物件資訊處理方法、裝置及電腦系統 | |
CN111429161A (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN106844330A (zh) | 文章情感的分析方法和装置 | |
CN113076484A (zh) | 基于深度学习的产品推荐方法、装置、设备和存储介质 | |
Bouzidi et al. | Deep learning-based automated learning environment using smart data to improve corporate marketing, business strategies, fraud detection in financial services, and financial time series forecasting | |
Cao et al. | User online purchase behavior prediction based on fusion model of CatBoost and Logit | |
CN107609921A (zh) | 一种数据处理方法及服务器 | |
Bhargavi et al. | Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method | |
Hou et al. | Fake online review recognition algorithm and optimisation research based on deep learning | |
KR101549188B1 (ko) | 브랜드 이미지 측정장치 및 측정방법 | |
CN111967937A (zh) | 一种基于时间序列分析的电商推荐系统及实现方法 | |
Prasad et al. | Analysis and prediction of crime against woman using machine learning techniques | |
Adhav et al. | Survey on online spam review detection methods | |
Ganesh et al. | Characterising Online Purchasing Behaviour | |
CN112182165B (zh) | 基于在线评论的新产品质量规划方法 | |
CN110580261B (zh) | 针对高科技公司的深度技术追踪方法 | |
Kunickaite et al. | Machine Learning Approaches for Customs Fraud Detection. | |
Antad et al. | A Novel Approach for clone app detection using VADER’s Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |