CN109829733A

CN109829733A - 一种基于购物行为序列数据的虚假评论检测系统和方法

Info

Publication number: CN109829733A
Application number: CN201910097065.5A
Authority: CN
Inventors: 古平; 邵思宇; 周蒙; 张程; 李佳; 刘希萌; 杨瑞龙
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-31
Anticipated expiration: 2039-01-31
Also published as: CN109829733B

Abstract

本发明公开一种基于购物行为序列数据的虚假评论检测系统和方法，包括以下步骤：S1：获取用户购物行为序列数据，标记为序列Z；S2：从Z中获取训练或待检商品的购物行为序列数据，并进行预处理得到序列H；S3：利用序列H中的数据进行概率后缀树模型的建模，以便于分析；S4:对商品进行筛选得到可疑商品集合U；S5：对可疑商品集合U中每件商品的评论进行分析，获得商品的可疑评论集合W；S6：利用概率后缀树模型分析检测虚假评论者；S7：搜索虚假评论者评价的商品，并对可疑商品集合U进行更新。本发明通过感知用户的购物行为，构建一种有别于评论文本的概率后缀树模型，用于检测虚假评论者。

Description

一种基于购物行为序列数据的虚假评论检测系统和方法

技术领域

本发明涉及电子商务领域，特别涉及一种基于购物行为序列数据的虚假评论检测系统和方法。

背景技术

随着电子商务网站及点评网站的发展，越来越多的网络用户通过发布评论分享消费体验、评价产品的质量，并在做出消费决策时参考其他用户的评论，评论信息日益影响着人们的生活。人们对评论信息的依赖催化了虚假评论的不断涌现。因此需对评论信息进行检测，识别评论信息的真假。现有技术主要是采用虚假评论文本检测和虚假评论者检测。

虚假评论文本检测研究包含三类检测方法：1)语法分析，包括对文本进行词袋特征分析及词性特征分析，研究者基于语法分析获得的特征，运用分类模型如支持向量机及神经网络模型均获得了较好的检测效果。2)语义分析，运用特征分析方法或语义表示方法对文本的在语义层面的信息进行特征提取或抽象表示，应用语义分析的虚假评论文本检测方法有稀疏相加生成模型、神经网络模型及语义语言模型等。3)对评论进行文体及元数据分析，有助于挖掘评论的语言风格及评论者的撰写习惯，提取此类特征能够从文本内容以外的角度分析评论及相应的评论者，一些检测方法在有标注数据集上，运用经典分类模型如支持向量机、朴素贝叶斯等预测虚假评论文本。

虚假评论者检测通过挖掘评论者特征，分析评论者的反常行为对虚假评论者进行预测。如通过时序分析检测虚假评论者，研究者运用马尔可夫随机场(MRF)模型基于评论者之间的关系构建评论者网络，将评论者作为观察结点，每个评论者的真实类别为隐含结点，对一个爆发期内共同出现的评论者用边相连接、建立关联关系。

也有研究者同时利用评论者、评论文本之间的网络拓扑结构进行虚假评论者检测。该类方法首先对评论者、评论文本，包括评论对象构建关系网络，再通过基于图的方法对虚假评论者进行度量和分析。该类方法包括基于HITS算法的检测模型和基于马尔可夫随机场的检测模型。此外，也有研究者利用评论和评论者的特征提出一种双视图、联合训练的半监督学习方法。

但现有技术中存在很多方面的不足：

(1)需要同时利用正类和负类样本进行模型训练。电商评论分布较广、数量级巨大，人工数据标注困难，如何在只有单类样本的情况下进行虚假评论检测是个急需解决的问题。

(2)在不同应用领域中可迁移性较差。在某个领域中训练得到的虚假评论检测模型，由于评论对象、风格、情感词等差异，往往很难迁移到其它领域中。

(3)分类特征容易被虚假评论者伪造,导致查全率不高。现有研究多利用评论文本特征、评分特征或社会特征等进行建模、检测，而上述特征形式均存在易于伪造的问题。如虚假评论者虚构出大量的好评或使用体验，在缺乏其它客观证据的情况下，检测系统很难判定该评论的真实程度。

发明内容

针对现有技术的问题，本发明提供一种基于购物行为序列数据的虚假评论检测系统和方法，通过研究真实(或虚假)评论用户的购物行为序列的概率特征，最终识别出虚假评论者、虚假评论以及评论商品。

为了实现上述目的，本发明提供以下技术方案：

一种基于购物行为序列数据的虚假评论检测系统，其特征在于，包括数据采集模块、数据预处理模块、商品筛选模块、虚假评论筛选模块、概率后缀数模型模块以及虚假评论用户检测模块；数据采集模块的输出端连接数据预处理模块的输入端，数据预处理模块的输出端分别连接商品筛选模块和概率后缀数模型模块的输入端，商品筛选模块的输出端连接虚假评论筛选模块的输入端，概率后缀数模型模块和虚假评论筛选模块的输出端分别连接虚假评论用户检测模块的输入端。

优选的，还包括数据存储模块和时间标记模块；数据存储模块，用于存储采集的用户购物行为序列数据，方便进行分析；时间标记模块，用于记录用户购买商品和进行评论的时间。

一种基于购物行为序列数据的虚假评论检测方法，其特征在于，包括以下步骤：

S1：获取用户购物行为序列数据，标记为序列Z；

S2：从序列Z中获取训练或待检商品的购物行为序列数据，并进行预处理得到序列H；

S3：利用序列H中的数据进行概率后缀树模型的建模，以便于分析；

S4:对商品进行筛选得到可疑商品集合U；

S5：对可疑商品集合U中每件商品的评论进行分析，获得商品的可疑评论集合W；

S6：利用概率后缀树模型分析检测虚假评论者，得到虚假评论者集合V；

S7：搜索虚假评论者评价的商品，并对可疑商品集合U进行更新。

优选的，所述S1中，所述用户购物行为序列包括点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。

优选的，所述S2包括以下步骤:

S2-1：提取用户在训练或待分析商品的购物行为序列数据，形成序列S；

以本次待分析商品支付时间为基准，从序列Z中抽取自上次(或上上次)支付时间到本次支付时间内的所有用户购物行为序列数据，得到用户对待分析商品的购物行为序列S；

S2-2:将序列S中的无关行为数据进行过滤得到序列H；

所述无关行为数据是指用户行为与当前分析商品所属类别不一致的数据；

S2-3:将序列H中的两种行为特征进行细化；

商品的详情查看时长为T¹，商品的评论查看时长为T²，并采用时间间隔Δt将T¹和T²进行分段，分别得到T¹/Δt和T²/Δt个子事件，以提高模型构建的准确性。

优选的，所述S3包括以下步骤:

S3-1：初始化概率后缀树(PST)模型的根结点，定义根结点处序列H中任一行为H₀发生的行为概率为：P(H₀)＝|H₀|/|H|,其中|H₀|表示行为H₀出现的次数，|H|表示所有行为出现的次数；

S3-2：设置行为概率阈值P_min，将大于概率阈值P_min的行为作为当前根结点的候选子结点，建立初始概率后缀树，结点以序列L标记，表示从该结点回溯到根结点所历边集；

S3-3：检查概率后缀树模型的深度，若深度值小于PST允许的最大深度D，则对已有的候选结点L，继续扩展其子结点：对可能的行为s∈∑，计算s作为行为序列L的下一个行为的概率:

P(s|L)＝|sL|/|sL^*| (1)

公式(1)中，|sL|表示行为序列中序列sL出现的次数，|sL^*|表示以sL为父序列的所有行为序列出现的次数；若P(s|L)＞γ且P(s|L)/P(s|suff(L))＞c或P(s|L)/P(suff(L))＜1/c，则以s为边产生新的子结点sL，并将其作为候选结点L的子结点添加到树中，其中suff(L)代表候选结点L父结点中的行为序列，γ和c均为阈值；

S3-4：对PST中新增的各子结点sL，若满足P(sL)＞P_min，则标记子结点sL为结点L的候选子结点；若P(sL)＜＝P_min，则将子结点sL去除；

S3-5：重复步骤S3-3，直至构建关于所有用户购物行为序列的D阶概率后缀树模型。

优选的，所述S4中筛选为定义每件商品的成交率T＝成交数/点击数，若T>λ，λ为预设阈值，则将商品加入可疑商品集合U。

优选的，所述S5包括以下步骤：

S5-1：获取商品的评论时间跨度集合，并平均分成n个子时间跨度；

本发明获取第一条评论和最后一条评论之间的时间跨度集合t，将时间跨度t平均分成n个子时间跨度，即t＝{t1,t2,…,tn}，tn表示第n个子时间跨度；

S5-2：计算时间跨度集合中商品的平均评论数：

avg＝N/n (2)

公式(2)中，N表示商品在时间跨度集合t中的所有评论数，avg表示商品的平均评论数；

S5-3：获取每个子时间跨度中商品的评论数count(t_n)，若count(t_n)＞avg且count(tn)＞count(tn-1)and count(tn)＞count(tn+1)，则将第n个子时间跨度标记为可疑区域，从而将该区域内的所有评论标记为可疑评论，最终得到可疑评论集合W。

优选的，所述S6中通过异常度进行分析检测虚假评论者，

公式(3)中，β表示异常度，表示异常的购物行为子序列个数与总的购物行为序列个数的比值。

优选的，所述S7中，所述虚假评论者对商品B且进行评论，则商品B的可疑度d_B自增1；若d_B＞d，d为预设阈值，判定商品B为可疑评论商品，将商品B加入可疑商品集合U。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

1)通过感知用户的购物行为，构建一种有别于评论文本的新型特征模式，表征用户的真实评论意图；

2)在只有单类别训练数据，如真实评论用户的情况下，构建一种具有较高查准率的虚假评论检测模型；

3)在检测虚假评论者过程中，不依赖于用户的评论本身，因此对用户评论内容是否虚假或杜撰不敏感。

4)利用评论者在评论商品中的共现关系，提升模型的查全率。

附图说明：

图1为根据本发明示例性实施例的一种基于购物行为序列数据的虚假评论检测系统示意图。

图2为根据本发明示例性实施例的一种基于购物行为序列数据的虚假评论检测方法流程示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本实施例中，一种基于购物行为序列数据的虚假评论检测系统，包括数据采集模块10、数据预处理模块20、商品筛选模块30、虚假评论筛选模块40、概率后缀数模型模块50以及虚假评论用户检测模块60。其中，数据采集模块10，用于在电商客户端通过无感知方式收集用户购物行为数据；数据预处理模块20，用于对用户购物行为数据进行去噪和预处理；商品筛选模块30，用于利用交易特征对含有可疑评论的商品进行初步筛选；虚假评论筛选模块40，用于对时间窗口下的评论数量变化分析，选出可疑商品在可疑时间段内的所有评论；概率后缀数模型模块50，对训练数据集中相关用户的购物行为序列进行建模；虚假评论用户检测模块60，对可疑评论集中相关用户的购物行为序列进行分析，最终判别其是否是真正的虚假评论者。

本实施例中，数据采集模块10的输出端连接数据预处理模块20的输入端，数据预处理模块20的输出端分别连接商品筛选模块30和概率后缀数模型模块50的输入端，商品筛选模块30的输出端连接虚假评论筛选模块40的输入端，概率后缀数模型模块50和虚假评论筛选模块40的输出端分别连接虚假评论用户检测模块60的输入端，由虚假评论用户检测模块60对评论用户进行虚假辨别，并将最终结果输出显示在显示器上。

本实施例中，数据采集模块10还包括数据存储模块和时间标记模块。数据存储模块，用于存储采集的用户购物行为数据，方便系统进行分析；时间标记模块，用于记录用户购买商品和进行评论的时间。

本发明还提供一种基于购物行为序列数据的虚假评论检测方法，参照图2，具体包括以下步骤：

S1：获取用户购物行为序列数据，标记为序列Z。

本实施例中，用户在网上进行购物时，本系统的数据采集模块10会实时获取用户对商品的相关操作，即用户购物行为序列数据，标记为序列Z。用户购物行为包括但不限于：点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。本系统中的序列Z应理解为一个自定义时间阶段内的所有用户在网上对所有商品的相关操作，例如自定义时间段为2018年10月1日到2018年10月31日。

S2：从Z中获取训练或待检商品的购物行为序列数据，并进行预处理得到序列H。

S2-1：提取用户在训练或待检商品的购物行为序列数据，形成序列S。

本实施例中，以本次待分析商品支付时间为基准，从序列Z中抽取自上次(或上上次)支付时间到本次支付时间内的所有用户购物行为序列数据，得到用户对待分析商品的购物行为序列S。

例如，对于用户A，假定其可能的行为序列为Z＝{<M1,T1>,…,<Mi,T1>；<M1,T2>,....<Mi,T2>；...<M1,Ti>,....<Mi,Ti>}，<Mi,Ti>表示任一行为二元组，其中，Mi表示具体购物行为(查看商品、查看评论、下订单以及购买商品等)，Ti表示行为对象即商品或ID。假如提取商品T2的行为子序列S_T2，则S_T2＝{<查看商品,T2>,....<购买商品,T2>}，其中，“<购买商品,T2>”可视为商品T2的支付时间基准，<查看商品,T2>可视为上次支付时间(例如购买商品T1)的结束时间。

S2-2:将序列S中的无关行为数据进行过滤得到序列H。

本实施例中，所述无关行为数据是指用户行为对象与当前分析商品所属类别不一致的数据。例如用户在对商品A进行购物操作，突然转去浏览商品B(A与B不属于同一商品类型)，那么对于正在分析的商品A的行为序列S来说，浏览B的行为序列就是无关的，应将其从S中剔除从而得到新的集合H，集合H中包含了待分析时间段内商品A的所有购物行为数据，用户购物行为包括但不限于：点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为等。

S2-3:将序列H中的两种行为特征进行细化。

本实施例中，用户在对商品进行相关购物行为操作时，对部分行为还会记录用户的操作时长，如商品详情查看时长、商品评论查看时长等。商品详细查看时长和评论查看时长标识了用户对该商品的兴趣程度或真实购买欲望，但如果只将其作为一个简单事件，就无法通过时长反应其购物的真正意图，因此对上述两种行为，可根据间隔Δt可以将其拆分成多个子事件。商品详细查看时间和评论查看时间越长，其对应子事件个数越多，表示用户购买商品的概率越高。

本实施例中，本发明将用户对商品的详情查看时长定义为T¹，将用户对商品的评论查看时长定义为T²，并采用时间间隔Δt将T¹和T²进行分段，分别得到T¹/Δt和T²/Δt个子事件，以提高模型构建的准确性。

S3：利用序列H中的数据进行概率后缀树模型的建模，以便于分析。

本实施例中，将序列H中的数据构建成概率后缀树模型(PST，ProbabilisticSuffix Trees),用于识别用户购物、评论行为背后真正的意图，例如是否为真实评论或虚假评论。

S3-1：初始化概率后缀树(PST)的根结点，定义根结点处序列H中任一行为H₀发生的行为概率为：P(H₀)＝|H₀|/|H|,其中|H₀|表示行为H₀出现的次数，|H|表示所有行为出现的次数。

S3-2：设置行为概率阈值，将大于阈值的行为作为当前根结点的候选子结点，形成序列L，并计算其后续行为概率，构建概率后缀树模型。

本实施例中，设置行为概率阈值P_min，若P(H₀)＞P_min，则相对应的行为H₀可当前根结点的候选子结点，建立初始概率后缀树，树中边表示从根到各子结点所历行为，候选结点用序列L标记，表示从候选结点到根结点所历边集。

S3-3：检查构建的概率后缀树模型的深度，若深度值小于PST允许的最大深度D，则对已有的候选结点L，继续扩展其子结点：对于行为s∈∑(∑表示行为集合)，计算s作为行为序列L的下一个行为的概率：

P(s|L)＝|sL|/|sL^*| (1)

例如，行为空间∑＝{a,b,c,d,e,q}，序列L＝abc，表示已知abc三个行为按照先a然后b最后c的顺序发生；对于行为s∈∑且在序列L发生后s发生的概率为P(s|L)。

S3-4：对PST中新增的各子结点sL，若满足P(sL)＞P_min，则标记子结点sL为序列L的候选子结点；若P(sL)＜＝P_min，表示该sL出现概率较小，可直接删除。

S3-5：重复步骤S3-3，直至最终构造出一棵记录了关于所有用户购物行为序列的概率特征的D阶PST。

S4:对商品进行筛选得到可疑商品集合U。

本实施例中，对待分析的所有商品，定义每件商品的成交率T＝成交数/点击数(成交数和点击数可通过数据采集模块获得)。若T>λ(λ为预设阈值)，则将相对应的商品加入可疑商品集合U。

S5：对可疑商品集合U中每件商品，分析其评论数量的时间序列变化特征，发现评论数量发生突变的时间域，以此确定该商品的可疑评论集合W。

S5-1：获取商品的评论时间跨度集合，并平均分成n个子时间跨度。

本实施例中，用户在对可疑商品集合U中商品A进行购买后会对商品进行评论(评论的顺序依照时间先后进行排列)，因此可获取商品A的评论时间，从而得到第一条评论和最后一条评论之间的时间跨度集合t。为方便分析，本发明将时间跨度t平均分成n个子时间跨度，即t＝{t1,t2,…,tn}，tn表示第n个子时间跨度。

例如商品A的第一条评论时间为第1周，最后一条评论时间为第9周，则商品A的时间跨度t为1周～9周，而按照3周为一子时间跨度将t可分成t1:1周～3周；t2：4周～6周；t3：7周～9周。

S5-2：计算时间跨度集合中商品的平均评论数：

avg＝N/n (2)

公式(2)中，N表示商品在时间跨度集合t中的所有评论数，avg表示商品的平均评论数。

本实施例中，可以采取多尺度的分析方式，根据需要对子时间跨度的个数进行调整，以减少漏检发生概率。

S6：利用概率后缀树模型分析检测虚假评论者，得到虚假评论者集合V。

本实施例中，对可疑评论集合W中的每个待分析的可疑评论，可从序列H中获取其相对应的子序列，从而组成可疑虚假评论序列。例如用户i对商品A进行了评论，该评论属于可疑评论集合W，本发明可获取用户i对商品A的购物行为子序列H_iA，H_iA＝s₁s₂…s_j,其中，s_j表示子序列H_iA中的任一行为。基于已训练的概率后缀树模型(PST)，可定义子序列H_iA的异常度为：：

公式(3)中，β为异常度，表示异常的购物行为序列个数与总的购物行为序列个数的比值，X表示子序列的个数，(MM(s_j)表示行为s_j及其前k个行为组成的行为序列是否被判定为异常行为，如该值为1则为异常，为0则为正常)，μ_min为阈值，k＜D(D为PST的最大深度)，s_j表示子序列中的任一行为，s_j-k...s_j-1表示s_j前面的行为序列，概率P(s_j|s_j-k…s_j-1)的计算方法为：从PST的根结点出发，依次沿与序列s_j-k…s_j-1匹配的边访问PST中的结点，直至到达叶子结点或者到达标记为s_j-k…s_j-1的结点时停止，根据到达结点的后续行为概率向量，得到行为s_j的发生概率P(s_j|s_j-k…s_j-1)。

本发明通过判断β的值进行虚假评论者的检测分析。若β＞β_min，β_min为预设的阈值，则判定子序列H_iA的购物行为异常，因此判定子序列H_iA的评论为虚假，将对应的评论者加入虚假评论者集合V。

S7：搜索虚假评论者评价的商品，并对U更新。

本实施例中，利用虚假评论者在商品评论中的共现关系发现更多可疑评论商品。例如对商品A∈U进行检测从而检测出用户i∈V，且用户i其在分析时间段内还参与评论过商品B且则定义商品B的可疑度d_B自增1,基本思想是：已识别出的虚假评论者i不光对当前商品A进行虚假评论，对商品B的评论也可能是虚假的，因此对其评论过的每个商品的可疑度加1。如果同时有多个虚假评论者均评论过商品B，即d_B＞d时(d为预设阈值)，基于虚假评论者在该商品评论中的群集现象，可判定商品B为可疑评论商品，将该商品加入可疑商品集合U；对U中新加入的商品重复执行步骤S5，直至系统停止运行,即可疑商品集合U中不再增加商品。

Claims

1.一种基于购物行为序列数据的虚假评论检测系统，其特征在于，包括数据采集模块、数据预处理模块、商品筛选模块、虚假评论筛选模块、概率后缀数模型模块以及虚假评论用户检测模块；数据采集模块的输出端连接数据预处理模块的输入端，数据预处理模块的输出端分别连接商品筛选模块和概率后缀数模型模块的输入端，商品筛选模块的输出端连接虚假评论筛选模块的输入端，概率后缀数模型模块和虚假评论筛选模块的输出端分别连接虚假评论用户检测模块的输入端。

2.如权利要求1所述的一种基于购物行为序列数据的虚假评论检测系统，其特征在于，还包括数据存储模块和时间标记模块；数据存储模块，用于存储采集的用户购物行为序列数据，方便进行分析；时间标记模块，用于记录用户购买商品和进行评论的时间。

3.一种基于购物行为序列数据的虚假评论检测方法，其特征在于，包括以下步骤：

S1：获取用户购物行为序列数据，标记为序列Z；

S4：对商品进行筛选得到可疑商品集合U；

4.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S1中，所述用户购物行为序列包括点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。

5.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S2包括以下步骤：

S2-2：将序列S中的无关行为数据进行过滤得到序列H；

S2-3：将序列H中的两种行为特征进行细化；

6.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S3包括以下步骤：

S3-1：初始化概率后缀树(PST)模型的根结点，定义根结点处序列H中任一行为H₀发生的行为概率为：P(H₀)＝|H₀|/|H|，其中|H₀|表示行为H₀出现的次数，|H|表示所有行为出现的次数；

S3-3：检查概率后缀树模型的深度，若深度值小于PST允许的最大深度D，则对已有的候选结点L，继续扩展其子结点：对可能的行为s∈∑，计算s作为行为序列L的下一个行为的概率：

P(s|L)＝|sL|/|sL^*| (1)

7.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S4中筛选为定义每件商品的成交率T＝成交数/点击数，若T＞入，入为预设阈值，则将商品加入可疑商品集合U。

8.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S5包括以下步骤：

本发明获取第一条评论和最后一条评论之间的时间跨度集合t，将时间跨度t平均分成n个子时间跨度，即t＝{t1，t2，...，tn}，tn表示第n个子时间跨度；

S5-2：计算时间跨度集合中商品的平均评论数：

avg＝N/n (2)

9.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S6中通过异常度进行分析检测虚假评论者，

公式(3)中，β为异常度，表示异常的购物行为子序列个数与总的购物行为序列个数的比值；当β＞β_min，β_min为预设的阈值，则判定购物行为异常，即评论为虚假，将对应的评论者加入虚假评论者集合V。

10.如权利要求3所述的一种基于购物行为序列数据的虚假评论检测方法，其特征在于，所述S7中，所述虚假评论者对商品B且进行评论，则商品B的可疑度d_B自增1；当d_B＞d时，d为预设阈值，判定商品B为可疑评论商品，将商品B加入可疑商品集合U。