CN113434628B

CN113434628B - 一种基于特征级与传播关系网络的评论文本置信检测方法

Info

Publication number: CN113434628B
Application number: CN202110529114.5A
Authority: CN
Inventors: 荣欢; 季俊如
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-07-25
Anticipated expiration: 2041-05-14
Also published as: CN113434628A

Abstract

本发明公开了一种基于特征级与传播关系网络的评论文本置信检测方法和装置，检测方法包括：对评论者与评论文本分别进行特征提取，得到预处理之后的特征集合；结合贝塔分布与伯努利分布和类贝叶斯生成型概率模型，获得任意评论者及其所对应评论文本的可疑度分布，对评论文本进行初步筛选；构建含有评论者(A)‑评论文本(R)‑评论对象(P)三元关系的ARP传播关系网；利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C；为R类节点计算可疑度S＝1‑C并降序排列，对评论文本进行再次筛选。本发明能够防治产品虚假宣传，并在一定程度上减少由虚假信息所造成的诱导性购买，进一步提高产品质量保障，为改善民众消费体验作出极大贡献。

Description

一种基于特征级与传播关系网络的评论文本置信检测方法

技术领域

本发明涉及评论文本分类技术领域，具体而言涉及一种基于特征级与传播关系网络的评论文本置信检测方法。

背景技术

随着互联网技术的普及与发展，“众包”这一产业逐渐发展起来并不断壮大，为人们的生活提供了许多便利，也同时创造了一种新型就业方式，极大可能的满足了人们的需求。然而，任何事物都具有双面性，众包在为人们提供服务的同时，也同样创造诸多不便。当代社会，随着电子商务的不断发展，“社交电商”营销模式逐渐壮大，众包也在此中扮演了一个重要的角色。网购让当代人的生活方式焕然一新，然而，市场中存在部分商家利用众包蓄意发布不全面、不具体、与实际情况不相符的虚假宣传内容诱导民众消费，导致消费者实际购买结果与期望极其不符，各类平台接收的投诉案件层出不穷，给国民经济利益造成了严重损失，对社会经济秩序的正常运转带来了不良影响。因此，需要研究防治产品虚假宣传的关键技术，进而减少由虚假信息所造成的诱导性购买，提高产品质量，改善消费体验。评论的分类是自然语言处理的一个重要应用。通常情况下，人们需要结合虚假评论文本的特征对众包评论文本中的欺骗性文本进行识别，以获得目标产品的真实评价，这一过程被称为虚假评论检测。现有的欺骗性评论文本检测与识别技术多采用朴素贝叶斯(NaiveBayesianModel，NBM)模型或者支持向量机(SupportVectorMachine,SVM)模型对评论文本进行主成分分析并提取特征后再对分类器进行训练以识别出目标文本，例如专利号为CN111666480A的发明中提出一种基于滚动式协同训练的虚假评论识别方法，同时考虑了评论者和评论文本的特征，综合后对虚假评论进行识别；并且在说明书中提及采用的分类算法可以包括：随机森林、逻辑回归…朴素贝叶斯分类模型等。但由于模型结构的单一性导致了其在实际场景中很难模拟复杂的虚假评论。除此之外，众包评论文本基数大，直接对评论文本检测复杂程度太深，因此本发明拟将评论者与评论文本综合考虑的思路以减小方法复杂度，即通过虚假评论者的检测来识别虚假评论文本。又考虑到实际情况下“社交电商”这一营销模式中转发这一功能，上下文语义环境分析的缺失导致了欺骗性文本识别的不完整性，因此对单个评论文本进行单独的识别检测也无法确定准确性。

另外，对于欺骗性评论文本检测通常流行的方法是使用监督文本分类技术，然而欺骗性评论文本的识别通常使用人类先验知识进行的，由于在标记过程中可能存在主观性，监督学习的方法无疑增加了错误标记评论的可能性。

发明内容

本发明针对现有技术中的不足，提供一种基于特征级与传播关系网络的评论文本置信检测方法，结合传统贝塔分布与伯努利分布以及置信传播算法，得到尽可能准确的评论文本可疑度分析，提高了众包评论文本的可靠性，为众包评论文本集成提供了有效的数据支撑，无监督学习法的引用很好的避免了人工标注引入的成本与误差。ARP传播关系网的引入弥补了基于特征级可疑度分布估计信息上的缺失，提供了考虑评论文本上下文语义环境的可能，适合处理众包评论文本的欺骗性判断。

为实现上述目的，本发明采用以下技术方案：

第一方面，本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测方法，所述检测方法包括：

S1，输入需要处理的众包评论文本，对评论者与评论文本分别进行特征提取，得到预处理之后的特征集合；

S2，对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型；

S3，根据步骤S2所获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值；

S4，获得任意评论者及其所对应评论文本的可疑度分布，计算评论者的可疑度S后进行降序排列；保留后M个可靠评论者发布的评论文本，剔除前K个疑似欺诈评论者发布的评论文本，M为预设的初步保留评论数量，K为预设的初步评论剔除数量；

S5，选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数；Q、X、M、K均为正整数；

S6，利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图；

S7，将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度；

S8，利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C；为R类节点计算可疑度S＝1-C并降序排列；剔除前K条疑似欺诈文本，保留剩余可靠文本，K为预设的最终评论剔除数量。

进一步地，步骤S1中，评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合R_a的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST和用于刻画当前用户所发布评论集中占产品的首条评论R¹的比率的特征RFR；

所述特征CS、特征MNR、特征BST和特征RFR的计算公式分别为：

MNR＝max Post(a)/max_a∈A(max Post(a))

其中，特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1]，取值越接近1，评论者a的可疑度越高；r_i代表评论i，r_j代表评论j，R_a代表评论者a发布的评论集合，i、j均为任意正整数；Post(a)代表评论者a单日的最高发文量，A代表评论者集合，τ为最后一条评论L(a)与首条评论F(a)的时间跨度判断标准，为整数，r是当前用户的任意一条评论，是评论者a的首条评论集合。

进一步地，步骤S1中，评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ar相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF；

所述特征DUP、特征EXT、特征RA、特征DEV和特征ETF的计算公式分别为：

其中，特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1}，取值越接近1，评论者a的可疑度越高。R_p是产品p所属评论集，β₁、β₂、β₃、δ为任意正数；p(r_a)是评论者a对产品p的评分，R_a,p是评论者a在产品p上发布的评论集合，L(a,p)是评论者a在产品p上的最后一次评论的时间。

进一步地，步骤S2中，所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤：

S21，记s与n分别表示可疑、不可疑类别；

S22，拟定任意评论者a的可疑度分布为S～Beta(α_s,α_n)，任意评论文本的可疑度分布为α_s、α_n是Beta分布的初始参数，分别为可疑度与不可疑度；

S23，分别以Beta分布刻画作用于评论者a的特征，以Bern分布刻画作用于评论文本r的特征；其中，作用于评论文本r的每个特征都有Beta分布k∈{s，n}；是当前评论者特征的先验概率分布，是作用于评论者的特征，是作用于评论者的可疑特征，是作用于评论者的不可疑特征，是当前评论者的评论特征的先验概率分布，是可疑特征以及不可疑特征，是作用于评论文本的可疑特征，是作用于评论文本的不可疑特征；

S24，根据类贝叶斯生成型概率模型，按照下述公式，以评论文本r_a可疑度分布为纽带，将特征级生成型概率模型视为一个整体，记为{S，π，θ，x，ψ,y}：

式中，是评论者a发布的评论文本特征的先验概率。

进一步地，步骤S3中，根据步骤S2所获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值的过程包括：

S31，对于任意评论者a，初始化α_k与γ_k，k∈{s,n}，分布ψ_k(ψ_s,ψ_n)使用随机初始值，通过初始参数获得先验概率分布

S32，根据先验概率分布按抽取众包评论样本，由下述公式拟合得到

式中，是除ra以外的所有评论的先验概率分布；是当给定类别k∈{s,n}，含有取1特征fr∈Fr的样本数，是当给定类别k∈{s,n}，特征fr∈Fr的先验概率，n_k是当给定类别k∈{s,n}时特征fr∈Fr的样本数，是当给定类别k∈{s,n}，不含有取0特征fr∈Fr的样本数，f_a是评论者a的特征，是当给定类别k∈{s,n}，含有取1特征fa∈Fa的先验概率，是当给定类别k∈{s,n}，不含有特征fa∈Fa的先验概率；

S33，以抽样结果更新完统计信息与后，利用下述公式进行后验概率估计，更新分布

式中，分别为当给定类别k∈{s,n}时，特征CS、MNR、BST、RFR的后验概率；是当给定类别k∈{s,n}时，所抽取众包评论样本中特征f_a的均值，是当给定类别k∈{s,n}时，所抽取众包评论样本中特征f_a的方差，分别为当给定类别k∈{s,n}，含有以及不含有特征f_a∈F_a的后验概率；

S34，为评论者a进行后验概率估计，以下述公式计算极大对数似然损失函数和求得与并采用L-BFGS更新α_k＝(α_s,α_n)与获得新的概率分布

式中，Γ(·)是伽玛函数，n_a,s是评论者a所发布类别为s的评论数量，n_a,n是评论者a所发布类别为n的评论数量，n_a是评论者a所发布评论数量，是当给定类别k∈{s,n}，不含有取0特征fr∈Fr的后验概率。

进一步地，步骤S6中，所述利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图的过程包括：

S61，以1-S作为A类节点的初始置信度，即先验信息为S～Beta(α_s,α_n)，以作为R类节点的初始置信度，即以作为P类节点的初始置信度；是评论者A发表关于产品P的评论的先验概率；

S62，将ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P)，且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。

进一步地，步骤S7中，将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度的过程包括：

S71，将ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式分解为若干(条件)概率乘积：

P(A，R,P)＝P(A₁)×P(A₃)×P(A₁|A₂)×P(R₂|A₂)×P(P₂|R₃)×P(R₁|A₁,A₂)×P(R₃|R₂,A₃)×P(P₁|R₁,R₂)；

S72，将各(条件)概率用因子f替代，将置信度联合分布P(A,R,P)分解结果表示为下述公式所示的多个因子乘积：

P(A,R,P)＝f₁(A₁)f₂P(A₃)f₃(A₁,A₂)f₄(R₂,A₂)f₅(P₂,R₃)f₆(R₁,A₁,A₂)f₇(R₃,R₂,A₃)f₈(P₁,R₁,R₂)；

S73，基于因子分解结果，将置信度联合分布P(A,R,P)转化为对应无向因子图，每个节点与其相邻的一组变量共同表征某个具体的条件概率分布；

S74，将每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，并在ARP传播关系网中不断更新每个节点的置信度，即边缘概率P(node)；

S75，记任意A、R、P类变量节点为x，以μ_x→f(x)表示从变量节点x至因子节点f的信息流向，以μ_x→f(x)表示从因子节点f至变量节点x的信息流向，反复使用μ_x→f(x)与μ_f→x(x)以实现无向因子图中各节点的置信传播；

S76，定义令无向因子图中根节点x_root至因子节点f的置信传播结果为1；

S77，采用下述公式进行因子节点f_i至变量节点x_q的置信传播计算过程，其中节点集合{x₁,…,x_n}与节点x_q由因子节点f_i相连接：

式中，t是1至n的任意值；

节点集合{x₁,…,x_n}置信传播计算过程由形如μ_x→f(x)的信息流向进一步展开；

S78，采用下述公式进行变量节点x_q至因子节点f_i的置信传播计算过程，其中因子节点集合{f₁,…,f_n}与因子节点f_i相邻，由f_i经过一次相邻变量节点跳跃获得：

S79，交替重复因子节点f_i和变量节点x_q的相互置信传播计算过程，经过多轮迭代，在全局范围内将各节点置信度传播至根节点x_root，并由下述公式计算出变量节点x_q∈{A,R,P}的置信度，即边缘概率P(x_q)：

第二方面，本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测装置，所述检测装置包括：

特征提取模块，用于输入需要处理的众包评论文本，对评论者与评论文本分别进行特征提取，得到预处理之后的特征集合；

概率模型生成模块，用于对特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型；

参数学习模块，用于根据获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值；

评论初步筛选模块，用于获得任意评论者及其所对应评论文本的可疑度分布，计算评论者的可疑度S后进行降序排列；保留后M个可靠评论者发布的评论文本，剔除前K个疑似欺诈评论者发布的评论文本，M为预设的初步保留评论数量，K为预设的初步评论剔除数量；

ARP传播关系网生成模块，用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数；

因子分解模块，用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图；

节点置信度更新模块，用于将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度；

评论再筛选模块，用于利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C；为R类节点计算可疑度S＝1-C并降序排列；剔除前K条疑似欺诈文本，保留剩余可靠文本，K为预设的最终评论剔除数量。

第三方面，本发明实施例提及一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如前所述的基于特征级与传播关系网络的评论文本置信检测方法。

第四方面，本发明实施例提及一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述的基于特征级与传播关系网络的评论文本置信检测方法。

本发明的有益效果是：

本发明提供一种基于特征级与传播关系网络的评论文本置信检测方法，旨在类贝叶斯生成型概率模型与传播关系网的置信传播。本发明首先对众包评论者与评论文本分别进行特征提取，将数据对象用特征集合表示，得到评论者与评论文本的特征集合；两个特征集合分别有贝塔分布(BetaDistribution)与伯努利分布(Bernoullidistribution)，在此基础上得到类贝叶斯生成型概率模型；接着利用初始参数获得先验概率分布，并抽取众包样本进行后验概率估计；反复估计先验概率与后验概率进并对类贝叶斯生成型概率模型进行不断更新，直至概率分布收敛，至此可以得到评论者及其所对应评论文本的可疑度分布，并进行降序排列；通过已知可疑度分布获得ARP传播关系网中各节点的先验置信度，对序列中间段评论文本的联合概率分布进行因子分解得到无向因子图；利用无向因子图对图中每个节点的先验置信度与相邻节点进行交换，进行置信传播计算，不断更新ARP传播关系网中每个节点的置信度，以获得各类节点的最终置信度；最后为每个R类节点计算可疑度并降序排列，得以获得所需数据。本发明结合传统贝塔分布与伯努利分布以及置信传播算法，得到尽可能准确的评论文本可疑度分析，提高了众包评论文本的可靠性，为众包评论文本集成提供了有效的数据支撑，无监督学习法的引用很好的避免了人工标注引入的成本与误差。ARP传播关系网的引入弥补了基于特征级可疑度分布估计信息上的缺失，提供了考虑评论文本上下文语义环境的可能。适合处理众包评论文本的欺骗性判断。因此，本发明能够防治产品虚假宣传，并在一定程度上减少由虚假信息所造成的诱导性购买，进一步提高产品质量保障，为改善民众消费体验作出极大贡献。

附图说明

图1是本发明实施例的基于特征级与传播关系网络的评论文本置信检测方法的流程图。

图2是基于特征级与传播关系网络的评论文本置信检测方法中生成概率模型的先验与后验参数的整体估计流程。

图3是类贝叶斯生成型概率模型。

图4是ARP传播关系网络的结构示例。

图5是基于图3中的ARP传播关系网络的无向因子图。

图6是作用于评论者的典型行为相关特征(第一类)示意图。

图7是作用于评论文本的典型行为相关特征(第二类)示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例一

图1是本发明实施例的基于特征级与传播关系网络的评论文本置信检测方法的流程图。本实施例可适用于通过服务器等设备检测评论文本置信的情况，该方法可以由基于特征级与传播关系网络的评论文本置信检测装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在电子设备中，例如集成服务器设备中。

参见图1，该评论文本置信检测方法包括：

S1，输入需要处理的众包评论文本，对评论者与评论文本分别进行特征提取，得到预处理之后的特征集合。

参见图6，评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合R_a的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR(该值越高则说明当前评论者所发布评论的欺骗性越高)、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST(越短则说明当前评论者可疑度越高)，以及用于刻画当前用户所发布评论集中占产品的首条评论R¹的比率的特征RFR。

特征CS、特征MNR、特征BST和特征RFR的计算公式分别为：

MNR＝max Post(a)/max_a∈A(max Post(a))

其中，特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1]，取值越接近1，评论者a的可疑度越高。

参见图7，评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ar相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA(极值评分的跨度，该跨度越大则说明相关评论文本的可疑性越大)、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF，此跨度越小则说明当前评论者越可疑。

其中，特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0，1}，取值越接近1，评论者a的可疑度越高。

S2，对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型。

步骤S2中，所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤：

S21，记s与n分别表示可疑、不可疑类别。

S22，拟定任意评论者a的可疑度分布为S～Beta(α_s,α_n)，任意评论文本的可疑度分布为

S23，分别以Beta分布刻画作用于评论者a的特征，以Bern分布刻画作用于评论文本r的特征；其中，作用于评论文本r的每个特征都有Beta分布k∈{s,n}。

S24，根据根据图3所示类贝叶斯生成型概率模型，按照下述公式(1)，以评论文本r_a可疑度分布为纽带，将图3特征级生成型概率模型视为一个整体，记为{S,π,θ,x,ψ,y}：

式中，是评论者a发布的评论文本特征的先验概率。。

S3，根据步骤S2所获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值。

进一步地，步骤S3中，根据步骤S2所获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出图3中生成概率模型中各个待估计分布具体参数取值的过程包括：

S32，根据先验概率分布按抽取众包评论样本，由下述公式(2.1)～(2.3)拟合得到

公式(2.1)涉及特征f_r∈F_r与f_a∈F_a上的分布与公式(2.2)观察除r_a以外的所有评论，统计当f_r＝1与f_r＝0时(当给定类别k∈{s,n}，含有以及不含有特征f_r∈F_r的样本数)的取值。公式(2.3)由当前特征f_a∈F_a与其分布的参数取值计算获得。

S33，以抽样结果更新完统计信息与后，利用下述公式(3)进行后验概率估计，更新分布

S34，为评论者a进行后验概率估计，以下述公式(4)和公式(5)计算极大对数似然损失函数和求得与并采用L-BFGS更新α_k＝(α_s,α_n)与从而获得新的概率分布

S4，获得任意评论者a的可疑度分布S～Beta(α_s,α_n)及其所对应评论文本r_a的可疑度分布计算评论者a的可疑度S后进行降序排列；保留后M个可靠评论者发布的评论文本，剔除前K个疑似欺诈评论者发布的评论文本，M为预设的初步保留评论数量，K为预设的初步评论剔除数量。M和K的取值均可由用户指定。

S5，选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数。其中，A类节点之间的边表示两个评论者之间存在评论转发关系，R类节点之间的边表示两条评论文本存在内容上的转发与补充。

S6，利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图。

具体的，利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图的过程包括：

S61，以1-S作为A类节点的初始置信度，即先验信息为S～Beta(α_s,α_n)，以作为R类节点的初始置信度，即以作为P类节点的初始置信度。

S62，将图4所示的ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P)，且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。

S7，将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度。

具体的，将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度的过程包括：

S71，将图4中ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式(6)分解为若干(条件)概率乘积：

P(A,R,P)＝P(A₁)×P(A₃)×P(A₁|A₂)×P(R₂|A₂)×P(P₂|R₃)×P(R₁|A₁,A₂)×P(R₃|R₂,A₃)×P(P₁|R₁,R₂) (6)。

S72，将各(条件)概率用因子f替代，将置信度联合分布P(A,R,P)分解结果表示为下述公式(7)所示的多个因子乘积：

P(A,R,P)＝f₁(A₁)f₂P(A₃)f₃(A₁,A₂)f₄(R₂,A₂)f₅(P₂,R₃)f₆(R₁,A₁,A₂)f₇(R₃,R₂,A₃)f₈(P₁,R₁,R₂) (7)。

S73，基于因子分解结果，将置信度联合分布P(A,R,P)转化为图5所示无向因子图，每个节点与其相邻的一组变量共同表征某个具体的条件概率分布。

S74，将每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，并在ARP传播关系网中不断更新每个节点的置信度，即边缘概率P(node)。

S75，记任意A、R、P类变量节点为x，以μ_x→f(x)表示从变量节点x至因子节点f的信息流向，以μ_x→f(x)表示从因子节点f至变量节点x的信息流向，反复使用μ_x→f(x)与μ_f→x(x)以实现无向因子图中各节点的置信传播。

S76，定义令无向因子图中根节点x_root至因子节点f的置信传播结果为1。

S77，采用下述公式(8)进行因子节点f_i至变量节点x_q的置信传播计算过程，其中节点集合{x₁,…,x_n}与节点x_q由因子节点f_i相连接：

节点集合{x₁,…,x_n}置信传播计算过程由形如μ_x→f(x)的信息流向进一步展开。

S78，采用下述公式(9)进行变量节点x_q至因子节点f_i的置信传播计算过程，其中因子节点集合{f₁,…,f_n}与因子节点f_i相邻，由f_i经过一次相邻变量节点跳跃获得：

S79，交替重复公式(8)和公式(9)以进行因子节点f_i和变量节点x_q的相互置信传播计算过程，经过多轮迭代，在全局范围内将各节点置信度传播至根节点x_root，并由下述公式(10)计算出变量节点x_q∈{A,R,P}的置信度，即边缘概率P(x_q)：

S8，利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C；为R类节点(评论文本)计算可疑度S＝1-C并降序排列；剔除前K条疑似欺诈文本，保留剩余可靠文本，K为预设的最终评论剔除数量。K的取值可由用户指定。本发明通过两次筛选过程，可以得到置信度更准确的检测结果。

实施例二

本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测装置，所述检测装置包括特征提取模块、概率模型生成模块、参数学习模块、评论初步筛选模块、ARP传播关系网生成模块、因子分解模块、节点置信度更新模块和评论再筛选模块。

特征提取模块，用于输入需要处理的众包评论文本，对评论者与评论文本分别进行特征提取，得到预处理之后的特征集合。

概率模型生成模块，用于对特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型。

参数学习模块，用于根据获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值。

评论初步筛选模块，用于获得任意评论者及其所对应评论文本的可疑度分布，计算评论者的可疑度S后进行降序排列；保留后M个可靠评论者发布的评论文本，剔除前K个疑似欺诈评论者发布的评论文本，M为预设的初步保留评论数量，K为预设的初步评论剔除数量。

ARP传播关系网生成模块，用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数。

因子分解模块，用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图。

实施例三

本申请实施例提供了一种电子设备，包括处理器、存储器、输入装置和输出装置；电子设备中，处理器的数量可以一个或多个；电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的检测方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本发明实施例所提供的基于特征级与传播关系网络的评论文本置信检测方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，可以包括键盘、鼠标等。输出装置可包括显示屏等显示设备。

实施例四

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述基于特征级与传播关系网络的评论文本置信检测方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于环境上下文一致性的统一处理方法中的相关操作。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，所述检测方法包括：

S5，选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者A-评论文本R-评论对象P三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数；

2.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S1中，评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合R_a的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST和用于刻画当前用户所发布评论集中占产品的首条评论R¹的比率的特征RFR；

所述特征CS、特征MNR、特征BST和特征RFR的计算公式分别为：

MNR＝maxPost(a)/max_a∈A(maxPost(a))

3.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S1中，评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论r_a相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF；

其中，特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1}，取值越接近1，评论者a的可疑度越高；R_p是产品p所属评论集，β₁、β₂、β₃、δ为任意正数；p(r_a)是评论者a对产品p的评论，R_a,p是评论者a在产品p上发布的评论集合，L(a,p)是评论者a在产品p上的最后一次评论的时间。

4.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S2中，所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定，结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤：

S21，记s与n分别表示可疑、不可疑类别；

S23，分别以Beta分布刻画作用于评论者a的特征，以Bern分布刻画作用于评论文本r的特征；其中，作用于评论文本r的每个特征都有Beta分布是当前评论者特征的先验概率分布，是作用于评论者的特征，是作用于评论者的可疑特征，是作用于评论者的不可疑特征，是当前评论者的评论特征的先验概率分布，是可疑特征以及不可疑特征，是作用于评论文本的可疑特征，是作用于评论文本的不可疑特征；

S24，根据类贝叶斯生成型概率模型，按照下述公式，以评论文本r_a可疑度分布为纽带，将特征级生成型概率模型视为一个整体，记为{S,π,θ,x,ψ,y}：

式中，是评论者a发布的评论文本特征的先验概率。

5.根据权利要求4所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S3中，根据步骤S2所获得的类贝叶斯生成型概率模型，按照类贝叶斯方式，迭代使用先验与后验参数估计，学习出生成概率模型中各个待估计分布具体参数取值的过程包括：

6.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S6中，所述利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度，并对联合概率分布P(A,R,P)进行因子分解，将其转化为无向因子图的过程包括：

7.根据权利要求6所述的基于特征级与传播关系网络的评论文本置信检测方法，其特征在于，步骤S7中，将ARP传播关系网中每个节点的先验置信度在相邻节点间交换，构成全局范围的置信传播，不断更新每个节点的置信度的过程包括：

S71，将ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式分解为若干概率乘积：

P(A,R,P)＝P(A₁)×P(A₃)×P(A₁|A₂)×P(R₂|A₂)×P(P₂|R₃)×P(R₁|A₁,A₂)×P(R₃|R₂,A₃)×P(P₁|R₁,R₂)；

S72，将各概率用因子f替代，将置信度联合分布P(A,R,P)分解结果表示为下述公式所示的多个因子乘积：

式中，t是1至n的任意值；

8.一种基于特征级与传播关系网络的评论文本置信检测装置，其特征在于，所述检测装置包括：

ARP传播关系网生成模块，用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本，构建含有评论者A-评论文本R-评论对象P三元关系的ARP传播关系网，其中ARP三类节点的个数由选取样本决定，Q＝X-M-K，X为众包评论文本总数；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。