CN113434628B - 一种基于特征级与传播关系网络的评论文本置信检测方法 - Google Patents
一种基于特征级与传播关系网络的评论文本置信检测方法 Download PDFInfo
- Publication number
- CN113434628B CN113434628B CN202110529114.5A CN202110529114A CN113434628B CN 113434628 B CN113434628 B CN 113434628B CN 202110529114 A CN202110529114 A CN 202110529114A CN 113434628 B CN113434628 B CN 113434628B
- Authority
- CN
- China
- Prior art keywords
- comment
- feature
- node
- reviewer
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000009826 distribution Methods 0.000 claims abstract description 133
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- 238000012552 review Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007480 spreading Effects 0.000 claims description 2
- 238000003892 spreading Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003891 environmental analysis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于特征级与传播关系网络的评论文本置信检测方法和装置,检测方法包括:对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;结合贝塔分布与伯努利分布和类贝叶斯生成型概率模型,获得任意评论者及其所对应评论文本的可疑度分布,对评论文本进行初步筛选;构建含有评论者(A)‑评论文本(R)‑评论对象(P)三元关系的ARP传播关系网;利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1‑C并降序排列,对评论文本进行再次筛选。本发明能够防治产品虚假宣传,并在一定程度上减少由虚假信息所造成的诱导性购买,进一步提高产品质量保障,为改善民众消费体验作出极大贡献。
Description
技术领域
本发明涉及评论文本分类技术领域,具体而言涉及一种基于特征级与传播关系网络的评论文本置信检测方法。
背景技术
随着互联网技术的普及与发展,“众包”这一产业逐渐发展起来并不断壮大,为人们的生活提供了许多便利,也同时创造了一种新型就业方式,极大可能的满足了人们的需求。然而,任何事物都具有双面性,众包在为人们提供服务的同时,也同样创造诸多不便。当代社会,随着电子商务的不断发展,“社交电商”营销模式逐渐壮大,众包也在此中扮演了一个重要的角色。网购让当代人的生活方式焕然一新,然而,市场中存在部分商家利用众包蓄意发布不全面、不具体、与实际情况不相符的虚假宣传内容诱导民众消费,导致消费者实际购买结果与期望极其不符,各类平台接收的投诉案件层出不穷,给国民经济利益造成了严重损失,对社会经济秩序的正常运转带来了不良影响。因此,需要研究防治产品虚假宣传的关键技术,进而减少由虚假信息所造成的诱导性购买,提高产品质量,改善消费体验。评论的分类是自然语言处理的一个重要应用。通常情况下,人们需要结合虚假评论文本的特征对众包评论文本中的欺骗性文本进行识别,以获得目标产品的真实评价,这一过程被称为虚假评论检测。现有的欺骗性评论文本检测与识别技术多采用朴素贝叶斯(NaiveBayesianModel,NBM)模型或者支持向量机(SupportVectorMachine,SVM)模型对评论文本进行主成分分析并提取特征后再对分类器进行训练以识别出目标文本,例如专利号为CN111666480A的发明中提出一种基于滚动式协同训练的虚假评论识别方法,同时考虑了评论者和评论文本的特征,综合后对虚假评论进行识别;并且在说明书中提及采用的分类算法可以包括:随机森林、逻辑回归…朴素贝叶斯分类模型等。但由于模型结构的单一性导致了其在实际场景中很难模拟复杂的虚假评论。除此之外,众包评论文本基数大,直接对评论文本检测复杂程度太深,因此本发明拟将评论者与评论文本综合考虑的思路以减小方法复杂度,即通过虚假评论者的检测来识别虚假评论文本。又考虑到实际情况下“社交电商”这一营销模式中转发这一功能,上下文语义环境分析的缺失导致了欺骗性文本识别的不完整性,因此对单个评论文本进行单独的识别检测也无法确定准确性。
另外,对于欺骗性评论文本检测通常流行的方法是使用监督文本分类技术,然而欺骗性评论文本的识别通常使用人类先验知识进行的,由于在标记过程中可能存在主观性,监督学习的方法无疑增加了错误标记评论的可能性。
发明内容
本发明针对现有技术中的不足,提供一种基于特征级与传播关系网络的评论文本置信检测方法,结合传统贝塔分布与伯努利分布以及置信传播算法,得到尽可能准确的评论文本可疑度分析,提高了众包评论文本的可靠性,为众包评论文本集成提供了有效的数据支撑,无监督学习法的引用很好的避免了人工标注引入的成本与误差。ARP传播关系网的引入弥补了基于特征级可疑度分布估计信息上的缺失,提供了考虑评论文本上下文语义环境的可能,适合处理众包评论文本的欺骗性判断。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测方法,所述检测方法包括:
S1,输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;
S2,对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;
S3,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;
S4,获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;
S5,选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数;Q、X、M、K均为正整数;
S6,利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;
S7,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;
S8,利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。
进一步地,步骤S1中,评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合Ra的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST和用于刻画当前用户所发布评论集中占产品的首条评论R1的比率的特征RFR;
所述特征CS、特征MNR、特征BST和特征RFR的计算公式分别为:
MNR=max Post(a)/maxa∈A(max Post(a))
其中,特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1],取值越接近1,评论者a的可疑度越高;ri代表评论i,rj代表评论j,Ra代表评论者a发布的评论集合,i、j均为任意正整数;Post(a)代表评论者a单日的最高发文量,A代表评论者集合,τ为最后一条评论L(a)与首条评论F(a)的时间跨度判断标准,为整数,r是当前用户的任意一条评论,是评论者a的首条评论集合。
进一步地,步骤S1中,评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ar相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF;
所述特征DUP、特征EXT、特征RA、特征DEV和特征ETF的计算公式分别为:
其中,特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1},取值越接近1,评论者a的可疑度越高。Rp是产品p所属评论集,β1、β2、β3、δ为任意正数;p(ra)是评论者a对产品p的评分,Ra,p是评论者a在产品p上发布的评论集合,L(a,p)是评论者a在产品p上的最后一次评论的时间。
进一步地,步骤S2中,所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤:
S21,记s与n分别表示可疑、不可疑类别;
S22,拟定任意评论者a的可疑度分布为S~Beta(αs,αn),任意评论文本的可疑度分布为αs、αn是Beta分布的初始参数,分别为可疑度与不可疑度;
S23,分别以Beta分布刻画作用于评论者a的特征,以Bern分布刻画作用于评论文本r的特征;其中,作用于评论文本r的每个特征都有Beta分布k∈{s,n};是当前评论者特征的先验概率分布,是作用于评论者的特征,是作用于评论者的可疑特征,是作用于评论者的不可疑特征,是当前评论者的评论特征的先验概率分布,是可疑特征以及不可疑特征,是作用于评论文本的可疑特征,是作用于评论文本的不可疑特征;
S24,根据类贝叶斯生成型概率模型,按照下述公式,以评论文本ra可疑度分布为纽带,将特征级生成型概率模型视为一个整体,记为{S,π,θ,x,ψ,y}:
式中,是评论者a发布的评论文本特征的先验概率。
进一步地,步骤S3中,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值的过程包括:
S31,对于任意评论者a,初始化αk与γk,k∈{s,n},分布ψk(ψs,ψn)使用随机初始值,通过初始参数获得先验概率分布
S32,根据先验概率分布按抽取众包评论样本,由下述公式拟合得到
式中,是除ra以外的所有评论的先验概率分布;是当给定类别k∈{s,n},含有取1特征fr∈Fr的样本数,是当给定类别k∈{s,n},特征fr∈Fr的先验概率,nk是当给定类别k∈{s,n}时特征fr∈Fr的样本数,是当给定类别k∈{s,n},不含有取0特征fr∈Fr的样本数,fa是评论者a的特征,是当给定类别k∈{s,n},含有取1特征fa∈Fa的先验概率,是当给定类别k∈{s,n},不含有特征fa∈Fa的先验概率;
S33,以抽样结果更新完统计信息与后,利用下述公式进行后验概率估计,更新分布
式中,分别为当给定类别k∈{s,n}时,特征CS、MNR、BST、RFR的后验概率;是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的均值,是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的方差,分别为当给定类别k∈{s,n},含有以及不含有特征fa∈Fa的后验概率;
S34,为评论者a进行后验概率估计,以下述公式计算极大对数似然损失函数和求得与并采用L-BFGS更新αk=(αs,αn)与获得新的概率分布
式中,Γ(·)是伽玛函数,na,s是评论者a所发布类别为s的评论数量,na,n是评论者a所发布类别为n的评论数量,na是评论者a所发布评论数量,是当给定类别k∈{s,n},不含有取0特征fr∈Fr的后验概率。
进一步地,步骤S6中,所述利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图的过程包括:
S61,以1-S作为A类节点的初始置信度,即先验信息为S~Beta(αs,αn),以作为R类节点的初始置信度,即以作为P类节点的初始置信度;是评论者A发表关于产品P的评论的先验概率;
S62,将ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P),且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。
进一步地,步骤S7中,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度的过程包括:
S71,将ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式分解为若干(条件)概率乘积:
P(A,R,P)=P(A1)×P(A3)×P(A1|A2)×P(R2|A2)×P(P2|R3)×P(R1|A1,A2)×P(R3|R2,A3)×P(P1|R1,R2);
S72,将各(条件)概率用因子f替代,将置信度联合分布P(A,R,P)分解结果表示为下述公式所示的多个因子乘积:
P(A,R,P)=f1(A1)f2P(A3)f3(A1,A2)f4(R2,A2)f5(P2,R3)f6(R1,A1,A2)f7(R3,R2,A3)f8(P1,R1,R2);
S73,基于因子分解结果,将置信度联合分布P(A,R,P)转化为对应无向因子图,每个节点与其相邻的一组变量共同表征某个具体的条件概率分布;
S74,将每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,并在ARP传播关系网中不断更新每个节点的置信度,即边缘概率P(node);
S75,记任意A、R、P类变量节点为x,以μx→f(x)表示从变量节点x至因子节点f的信息流向,以μx→f(x)表示从因子节点f至变量节点x的信息流向,反复使用μx→f(x)与μf→x(x)以实现无向因子图中各节点的置信传播;
S76,定义令无向因子图中根节点xroot至因子节点f的置信传播结果为1;
S77,采用下述公式进行因子节点fi至变量节点xq的置信传播计算过程,其中节点集合{x1,…,xn}与节点xq由因子节点fi相连接:
式中,t是1至n的任意值;
节点集合{x1,…,xn}置信传播计算过程由形如μx→f(x)的信息流向进一步展开;
S78,采用下述公式进行变量节点xq至因子节点fi的置信传播计算过程,其中因子节点集合{f1,…,fn}与因子节点fi相邻,由fi经过一次相邻变量节点跳跃获得:
S79,交替重复因子节点fi和变量节点xq的相互置信传播计算过程,经过多轮迭代,在全局范围内将各节点置信度传播至根节点xroot,并由下述公式计算出变量节点xq∈{A,R,P}的置信度,即边缘概率P(xq):
第二方面,本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测装置,所述检测装置包括:
特征提取模块,用于输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;
概率模型生成模块,用于对特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;
参数学习模块,用于根据获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;
评论初步筛选模块,用于获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;
ARP传播关系网生成模块,用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数;
因子分解模块,用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;
节点置信度更新模块,用于将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;
评论再筛选模块,用于利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。
第三方面,本发明实施例提及一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前所述的基于特征级与传播关系网络的评论文本置信检测方法。
第四方面,本发明实施例提及一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述的基于特征级与传播关系网络的评论文本置信检测方法。
本发明的有益效果是:
本发明提供一种基于特征级与传播关系网络的评论文本置信检测方法,旨在类贝叶斯生成型概率模型与传播关系网的置信传播。本发明首先对众包评论者与评论文本分别进行特征提取,将数据对象用特征集合表示,得到评论者与评论文本的特征集合;两个特征集合分别有贝塔分布(BetaDistribution)与伯努利分布(Bernoullidistribution),在此基础上得到类贝叶斯生成型概率模型;接着利用初始参数获得先验概率分布,并抽取众包样本进行后验概率估计;反复估计先验概率与后验概率进并对类贝叶斯生成型概率模型进行不断更新,直至概率分布收敛,至此可以得到评论者及其所对应评论文本的可疑度分布,并进行降序排列;通过已知可疑度分布获得ARP传播关系网中各节点的先验置信度,对序列中间段评论文本的联合概率分布进行因子分解得到无向因子图;利用无向因子图对图中每个节点的先验置信度与相邻节点进行交换,进行置信传播计算,不断更新ARP传播关系网中每个节点的置信度,以获得各类节点的最终置信度;最后为每个R类节点计算可疑度并降序排列,得以获得所需数据。本发明结合传统贝塔分布与伯努利分布以及置信传播算法,得到尽可能准确的评论文本可疑度分析,提高了众包评论文本的可靠性,为众包评论文本集成提供了有效的数据支撑,无监督学习法的引用很好的避免了人工标注引入的成本与误差。ARP传播关系网的引入弥补了基于特征级可疑度分布估计信息上的缺失,提供了考虑评论文本上下文语义环境的可能。适合处理众包评论文本的欺骗性判断。因此,本发明能够防治产品虚假宣传,并在一定程度上减少由虚假信息所造成的诱导性购买,进一步提高产品质量保障,为改善民众消费体验作出极大贡献。
附图说明
图1是本发明实施例的基于特征级与传播关系网络的评论文本置信检测方法的流程图。
图2是基于特征级与传播关系网络的评论文本置信检测方法中生成概率模型的先验与后验参数的整体估计流程。
图3是类贝叶斯生成型概率模型。
图4是ARP传播关系网络的结构示例。
图5是基于图3中的ARP传播关系网络的无向因子图。
图6是作用于评论者的典型行为相关特征(第一类)示意图。
图7是作用于评论文本的典型行为相关特征(第二类)示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例一
图1是本发明实施例的基于特征级与传播关系网络的评论文本置信检测方法的流程图。本实施例可适用于通过服务器等设备检测评论文本置信的情况,该方法可以由基于特征级与传播关系网络的评论文本置信检测装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在电子设备中,例如集成服务器设备中。
参见图1,该评论文本置信检测方法包括:
S1,输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合。
参见图6,评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合Ra的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR(该值越高则说明当前评论者所发布评论的欺骗性越高)、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST(越短则说明当前评论者可疑度越高),以及用于刻画当前用户所发布评论集中占产品的首条评论R1的比率的特征RFR。
特征CS、特征MNR、特征BST和特征RFR的计算公式分别为:
MNR=max Post(a)/maxa∈A(max Post(a))
其中,特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1],取值越接近1,评论者a的可疑度越高。
参见图7,评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ar相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA(极值评分的跨度,该跨度越大则说明相关评论文本的可疑性越大)、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF,此跨度越小则说明当前评论者越可疑。
所述特征DUP、特征EXT、特征RA、特征DEV和特征ETF的计算公式分别为:
其中,特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1},取值越接近1,评论者a的可疑度越高。
S2,对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型。
步骤S2中,所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤:
S21,记s与n分别表示可疑、不可疑类别。
S22,拟定任意评论者a的可疑度分布为S~Beta(αs,αn),任意评论文本的可疑度分布为
S23,分别以Beta分布刻画作用于评论者a的特征,以Bern分布刻画作用于评论文本r的特征;其中,作用于评论文本r的每个特征都有Beta分布k∈{s,n}。
S24,根据根据图3所示类贝叶斯生成型概率模型,按照下述公式(1),以评论文本ra可疑度分布为纽带,将图3特征级生成型概率模型视为一个整体,记为{S,π,θ,x,ψ,y}:
式中,是评论者a发布的评论文本特征的先验概率。。
S3,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值。
进一步地,步骤S3中,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出图3中生成概率模型中各个待估计分布具体参数取值的过程包括:
S31,对于任意评论者a,初始化αk与γk,k∈{s,n},分布ψk(ψs,ψn)使用随机初始值,通过初始参数获得先验概率分布
S32,根据先验概率分布按抽取众包评论样本,由下述公式(2.1)~(2.3)拟合得到
公式(2.1)涉及特征fr∈Fr与fa∈Fa上的分布与公式(2.2)观察除ra以外的所有评论,统计当fr=1与fr=0时(当给定类别k∈{s,n},含有以及不含有特征fr∈Fr的样本数)的取值。公式(2.3)由当前特征fa∈Fa与其分布的参数取值计算获得。
S33,以抽样结果更新完统计信息与后,利用下述公式(3)进行后验概率估计,更新分布
S34,为评论者a进行后验概率估计,以下述公式(4)和公式(5)计算极大对数似然损失函数和求得与并采用L-BFGS更新αk=(αs,αn)与从而获得新的概率分布
S4,获得任意评论者a的可疑度分布S~Beta(αs,αn)及其所对应评论文本ra的可疑度分布计算评论者a的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量。M和K的取值均可由用户指定。
S5,选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数。其中,A类节点之间的边表示两个评论者之间存在评论转发关系,R类节点之间的边表示两条评论文本存在内容上的转发与补充。
S6,利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图。
具体的,利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图的过程包括:
S61,以1-S作为A类节点的初始置信度,即先验信息为S~Beta(αs,αn),以作为R类节点的初始置信度,即以作为P类节点的初始置信度。
S62,将图4所示的ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P),且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。
S7,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度。
具体的,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度的过程包括:
S71,将图4中ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式(6)分解为若干(条件)概率乘积:
P(A,R,P)=P(A1)×P(A3)×P(A1|A2)×P(R2|A2)×P(P2|R3)×P(R1|A1,A2)×P(R3|R2,A3)×P(P1|R1,R2) (6)。
S72,将各(条件)概率用因子f替代,将置信度联合分布P(A,R,P)分解结果表示为下述公式(7)所示的多个因子乘积:
P(A,R,P)=f1(A1)f2P(A3)f3(A1,A2)f4(R2,A2)f5(P2,R3)f6(R1,A1,A2)f7(R3,R2,A3)f8(P1,R1,R2) (7)。
S73,基于因子分解结果,将置信度联合分布P(A,R,P)转化为图5所示无向因子图,每个节点与其相邻的一组变量共同表征某个具体的条件概率分布。
S74,将每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,并在ARP传播关系网中不断更新每个节点的置信度,即边缘概率P(node)。
S75,记任意A、R、P类变量节点为x,以μx→f(x)表示从变量节点x至因子节点f的信息流向,以μx→f(x)表示从因子节点f至变量节点x的信息流向,反复使用μx→f(x)与μf→x(x)以实现无向因子图中各节点的置信传播。
S76,定义令无向因子图中根节点xroot至因子节点f的置信传播结果为1。
S77,采用下述公式(8)进行因子节点fi至变量节点xq的置信传播计算过程,其中节点集合{x1,…,xn}与节点xq由因子节点fi相连接:
节点集合{x1,…,xn}置信传播计算过程由形如μx→f(x)的信息流向进一步展开。
S78,采用下述公式(9)进行变量节点xq至因子节点fi的置信传播计算过程,其中因子节点集合{f1,…,fn}与因子节点fi相邻,由fi经过一次相邻变量节点跳跃获得:
S79,交替重复公式(8)和公式(9)以进行因子节点fi和变量节点xq的相互置信传播计算过程,经过多轮迭代,在全局范围内将各节点置信度传播至根节点xroot,并由下述公式(10)计算出变量节点xq∈{A,R,P}的置信度,即边缘概率P(xq):
S8,利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点(评论文本)计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。K的取值可由用户指定。本发明通过两次筛选过程,可以得到置信度更准确的检测结果。
实施例二
本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测装置,所述检测装置包括特征提取模块、概率模型生成模块、参数学习模块、评论初步筛选模块、ARP传播关系网生成模块、因子分解模块、节点置信度更新模块和评论再筛选模块。
特征提取模块,用于输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合。
概率模型生成模块,用于对特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型。
参数学习模块,用于根据获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值。
评论初步筛选模块,用于获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量。
ARP传播关系网生成模块,用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者(A)-评论文本(R)-评论对象(P)三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数。
因子分解模块,用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图。
节点置信度更新模块,用于将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;
评论再筛选模块,用于利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。
实施例三
本申请实施例提供了一种电子设备,包括处理器、存储器、输入装置和输出装置;电子设备中,处理器的数量可以一个或多个;电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的检测方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本发明实施例所提供的基于特征级与传播关系网络的评论文本置信检测方法。
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置可包括显示屏等显示设备。
实施例四
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述基于特征级与传播关系网络的评论文本置信检测方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于环境上下文一致性的统一处理方法中的相关操作。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,所述检测方法包括:
S1,输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;
S2,对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;
S3,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;
S4,获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;
S5,选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者A-评论文本R-评论对象P三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数;
S6,利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;
S7,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;
S8,利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。
2.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S1中,评论者的特征集合包括用于以余弦相似度刻画评论者所发布评论集合Ra的最大相似度的特征CS、用于刻画评论者单日的最高发文量的特征MNR、用于表示评论者最后一条评论L(a)与首条评论F(a)的时间跨度的特征BST和用于刻画当前用户所发布评论集中占产品的首条评论R1的比率的特征RFR;
所述特征CS、特征MNR、特征BST和特征RFR的计算公式分别为:
MNR=maxPost(a)/maxa∈A(maxPost(a))
其中,特征CS、特征MNR、特征BST和特征RFR的取值范围均为[0,1],取值越接近1,评论者a的可疑度越高;ri代表评论i,rj代表评论j,Ra代表评论者a发布的评论集合,i、j均为任意正整数;Post(a)代表评论者a单日的最高发文量,A代表评论者集合,τ为最后一条评论L(a)与首条评论F(a)的时间跨度判断标准,为整数,r是当前用户的任意一条评论,是评论者a的首条评论集合。
3.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S1中,评论文本的特征集合包括用于刻画产品p所属评论集是否有与评论ra相似的内容的特征DUP、用于表示产品p上的评分是否存在两极性的特征EXT、用于刻画评论者a在产品p上的评论集中极值评分的跨度的特征RA、用于表示当前评论者在产品p上的评分与其他用户评分均值的差异的特征DEV和用于表示评论者a在产品p上的最后一次评论与产品上线时间On(p)之间的跨度的特征ETF;
所述特征DUP、特征EXT、特征RA、特征DEV和特征ETF的计算公式分别为:
其中,特征DUP、特征EXT、特征RA、特征DEV和特征ETF的取值范围均为{0,1},取值越接近1,评论者a的可疑度越高;Rp是产品p所属评论集,β1、β2、β3、δ为任意正数;p(ra)是评论者a对产品p的评论,Ra,p是评论者a在产品p上发布的评论集合,L(a,p)是评论者a在产品p上的最后一次评论的时间。
4.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S2中,所述对于步骤S1得到的特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型的过程包括以下步骤:
S21,记s与n分别表示可疑、不可疑类别;
S22,拟定任意评论者a的可疑度分布为S~Beta(αs,αn),任意评论文本的可疑度分布为αs、αn是Beta分布的初始参数,分别为可疑度与不可疑度;
S23,分别以Beta分布刻画作用于评论者a的特征,以Bern分布刻画作用于评论文本r的特征;其中,作用于评论文本r的每个特征都有Beta分布 是当前评论者特征的先验概率分布,是作用于评论者的特征,是作用于评论者的可疑特征,是作用于评论者的不可疑特征,是当前评论者的评论特征的先验概率分布,是可疑特征以及不可疑特征,是作用于评论文本的可疑特征,是作用于评论文本的不可疑特征;
S24,根据类贝叶斯生成型概率模型,按照下述公式,以评论文本ra可疑度分布为纽带,将特征级生成型概率模型视为一个整体,记为{S,π,θ,x,ψ,y}:
式中,是评论者a发布的评论文本特征的先验概率。
5.根据权利要求4所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S3中,根据步骤S2所获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值的过程包括:
S31,对于任意评论者a,初始化αk与γk,k∈{s,n},分布ψk(ψs,ψn)使用随机初始值,通过初始参数获得先验概率分布
S32,根据先验概率分布按抽取众包评论样本,由下述公式拟合得到
式中,是除ra以外的所有评论的先验概率分布;是当给定类别k∈{s,n},含有取1特征fr∈Fr的样本数,是当给定类别k∈{s,n},特征fr∈Fr的先验概率,nk是当给定类别k∈{s,n}时特征fr∈Fr的样本数,是当给定类别k∈{s,n},不含有取0特征fr∈Fr的样本数,fa是评论者a的特征,是当给定类别k∈{s,n},含有取1特征fa∈Fa的先验概率,是当给定类别k∈{s,n},不含有特征fa∈Fa的先验概率;
S33,以抽样结果更新完统计信息与后,利用下述公式进行后验概率估计,更新分布
式中,分别为当给定类别k∈{s,n}时,特征CS、MNR、BST、RFR的后验概率;是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的均值,是当给定类别k∈{s,n}时,所抽取众包评论样本中特征fa的方差,分别为当给定类别k∈{s,n},含有以及不含有特征fa∈Fa的后验概率;
S34,为评论者a进行后验概率估计,以下述公式计算极大对数似然损失函数和求得与并采用L-BFGS更新αk=(αs,αn)与获得新的概率分布
式中,Γ(·)是伽玛函数,na,s是评论者a所发布类别为s的评论数量,na,n是评论者a所发布类别为n的评论数量,na是评论者a所发布评论数量,是当给定类别k∈{s,n},不含有取0特征fr∈Fr的后验概率。
6.根据权利要求1所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S6中,所述利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图的过程包括:
S61,以1-S作为A类节点的初始置信度,即先验信息为S~Beta(αs,αn),以作为R类节点的初始置信度,即以作为P类节点的初始置信度;是评论者A发表关于产品P的评论的先验概率;
S62,将ARP传播关系网络所蕴含的A、R、P三类节点的置信度联合分布概率记为P(A,R,P),且视各节点置信度P(node)为联合分布P(A,R,P)的边缘概率。
7.根据权利要求6所述的基于特征级与传播关系网络的评论文本置信检测方法,其特征在于,步骤S7中,将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度的过程包括:
S71,将ARP传播关系网络所蕴含的置信度联合分布P(A,R,P)由下述公式分解为若干概率乘积:
P(A,R,P)=P(A1)×P(A3)×P(A1|A2)×P(R2|A2)×P(P2|R3)×P(R1|A1,A2)×P(R3|R2,A3)×P(P1|R1,R2);
S72,将各概率用因子f替代,将置信度联合分布P(A,R,P)分解结果表示为下述公式所示的多个因子乘积:
P(A,R,P)=f1(A1)f2P(A3)f3(A1,A2)f4(R2,A2)f5(P2,R3)f6(R1,A1,A2)f7(R3,R2,A3)f8(P1,R1,R2);
S73,基于因子分解结果,将置信度联合分布P(A,R,P)转化为对应无向因子图,每个节点与其相邻的一组变量共同表征某个具体的条件概率分布;
S74,将每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,并在ARP传播关系网中不断更新每个节点的置信度,即边缘概率P(node);
S75,记任意A、R、P类变量节点为x,以μx→f(x)表示从变量节点x至因子节点f的信息流向,以μx→f(x)表示从因子节点f至变量节点x的信息流向,反复使用μx→f(x)与μf→x(x)以实现无向因子图中各节点的置信传播;
S76,定义令无向因子图中根节点xroot至因子节点f的置信传播结果为1;
S77,采用下述公式进行因子节点fi至变量节点xq的置信传播计算过程,其中节点集合{x1,…,xn}与节点xq由因子节点fi相连接:
式中,t是1至n的任意值;
节点集合{x1,…,xn}置信传播计算过程由形如μx→f(x)的信息流向进一步展开;
S78,采用下述公式进行变量节点xq至因子节点fi的置信传播计算过程,其中因子节点集合{f1,…,fn}与因子节点fi相邻,由fi经过一次相邻变量节点跳跃获得:
S79,交替重复因子节点fi和变量节点xq的相互置信传播计算过程,经过多轮迭代,在全局范围内将各节点置信度传播至根节点xroot,并由下述公式计算出变量节点xq∈{A,R,P}的置信度,即边缘概率P(xq):
8.一种基于特征级与传播关系网络的评论文本置信检测装置,其特征在于,所述检测装置包括:
特征提取模块,用于输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;
概率模型生成模块,用于对特征集合分别以贝塔分布与伯努利分布进行判定,结合判定结果将所有特征的分布联系起来得到类贝叶斯生成型概率模型;
参数学习模块,用于根据获得的类贝叶斯生成型概率模型,按照类贝叶斯方式,迭代使用先验与后验参数估计,学习出生成概率模型中各个待估计分布具体参数取值;
评论初步筛选模块,用于获得任意评论者及其所对应评论文本的可疑度分布,计算评论者的可疑度S后进行降序排列;保留后M个可靠评论者发布的评论文本,剔除前K个疑似欺诈评论者发布的评论文本,M为预设的初步保留评论数量,K为预设的初步评论剔除数量;
ARP传播关系网生成模块,用于选取位于可疑度排序中间段的Q个评论者所发布的评论文本,构建含有评论者A-评论文本R-评论对象P三元关系的ARP传播关系网,其中ARP三类节点的个数由选取样本决定,Q=X-M-K,X为众包评论文本总数;
因子分解模块,用于利用已有评论者和评论文本获得ARP传播关系网中各节点的先验置信度,并对联合概率分布P(A,R,P)进行因子分解,将其转化为无向因子图;
节点置信度更新模块,用于将ARP传播关系网中每个节点的先验置信度在相邻节点间交换,构成全局范围的置信传播,不断更新每个节点的置信度;
评论再筛选模块,用于利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1-C并降序排列;剔除前K条疑似欺诈文本,保留剩余可靠文本,K为预设的最终评论剔除数量。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于特征级与传播关系网络的评论文本置信检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529114.5A CN113434628B (zh) | 2021-05-14 | 2021-05-14 | 一种基于特征级与传播关系网络的评论文本置信检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529114.5A CN113434628B (zh) | 2021-05-14 | 2021-05-14 | 一种基于特征级与传播关系网络的评论文本置信检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434628A CN113434628A (zh) | 2021-09-24 |
CN113434628B true CN113434628B (zh) | 2023-07-25 |
Family
ID=77802465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110529114.5A Active CN113434628B (zh) | 2021-05-14 | 2021-05-14 | 一种基于特征级与传播关系网络的评论文本置信检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434628B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743045B (zh) * | 2022-03-31 | 2023-09-26 | 电子科技大学 | 一种基于双分支区域建议网络的小样本目标检测方法 |
WO2024013978A1 (ja) * | 2022-07-15 | 2024-01-18 | 日本電信電話株式会社 | 情報収集装置、情報収集方法及びプログラム |
CN117076812B (zh) * | 2023-10-13 | 2023-12-12 | 西安康奈网络科技有限公司 | 一种网络信息发布传播平台智能监测管理系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473262A (zh) * | 2013-07-17 | 2013-12-25 | 北京航空航天大学 | 一种基于关联规则的Web评论观点自动分类系统及分类方法 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
CN105654339A (zh) * | 2015-12-28 | 2016-06-08 | 无锡城市云计算中心有限公司 | 一种对评论有用性进行评估和排序的方法和装置 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN107085616A (zh) * | 2017-05-31 | 2017-08-22 | 东南大学 | Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法 |
CN107403007A (zh) * | 2017-07-25 | 2017-11-28 | 北京工商大学 | 一种基于网络的微博消息可信度判别模型的方法 |
CN107958317A (zh) * | 2016-10-17 | 2018-04-24 | 腾讯科技(深圳)有限公司 | 一种众包项目中选取众包参与人的方法和装置 |
CN107992550A (zh) * | 2017-11-28 | 2018-05-04 | 沈阳建筑大学 | 一种网络评论分析方法及系统 |
CN108694165A (zh) * | 2017-04-10 | 2018-10-23 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN108920503A (zh) * | 2018-05-28 | 2018-11-30 | 哈尔滨工程大学 | 一种基于社交网络信任度的微视频个性化推荐算法 |
CN110008477A (zh) * | 2019-04-15 | 2019-07-12 | 江西财经大学 | 一种中文情感评价单元抽取方法 |
CN110134947A (zh) * | 2019-04-17 | 2019-08-16 | 中国科学院计算技术研究所 | 一种基于不平衡多源数据的情感分类方法及系统 |
CN110738051A (zh) * | 2019-09-17 | 2020-01-31 | 北京三快在线科技有限公司 | 菜名实体识别方法、装置、电子设备及存储介质 |
CN111986667A (zh) * | 2020-08-17 | 2020-11-24 | 重庆大学 | 一种基于粒子滤波算法的语音机器人控制方法 |
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
CN112258472A (zh) * | 2020-10-20 | 2021-01-22 | 大连理工大学 | 一种汽车外造型自动评分方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019040830A1 (en) * | 2017-08-24 | 2019-02-28 | Northwestern University | SYSTEMS AND METHODS FOR THE ACUTE EVALUATION OF TRAUMATIC BRAIN INJURIES |
US20210076002A1 (en) * | 2017-09-11 | 2021-03-11 | Michael H Peters | Enhanced video conference management |
-
2021
- 2021-05-14 CN CN202110529114.5A patent/CN113434628B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473262A (zh) * | 2013-07-17 | 2013-12-25 | 北京航空航天大学 | 一种基于关联规则的Web评论观点自动分类系统及分类方法 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
CN105654339A (zh) * | 2015-12-28 | 2016-06-08 | 无锡城市云计算中心有限公司 | 一种对评论有用性进行评估和排序的方法和装置 |
CN107958317A (zh) * | 2016-10-17 | 2018-04-24 | 腾讯科技(深圳)有限公司 | 一种众包项目中选取众包参与人的方法和装置 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN108694165A (zh) * | 2017-04-10 | 2018-10-23 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN107085616A (zh) * | 2017-05-31 | 2017-08-22 | 东南大学 | Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法 |
CN107403007A (zh) * | 2017-07-25 | 2017-11-28 | 北京工商大学 | 一种基于网络的微博消息可信度判别模型的方法 |
CN107992550A (zh) * | 2017-11-28 | 2018-05-04 | 沈阳建筑大学 | 一种网络评论分析方法及系统 |
CN108920503A (zh) * | 2018-05-28 | 2018-11-30 | 哈尔滨工程大学 | 一种基于社交网络信任度的微视频个性化推荐算法 |
CN110008477A (zh) * | 2019-04-15 | 2019-07-12 | 江西财经大学 | 一种中文情感评价单元抽取方法 |
CN110134947A (zh) * | 2019-04-17 | 2019-08-16 | 中国科学院计算技术研究所 | 一种基于不平衡多源数据的情感分类方法及系统 |
CN110738051A (zh) * | 2019-09-17 | 2020-01-31 | 北京三快在线科技有限公司 | 菜名实体识别方法、装置、电子设备及存储介质 |
CN111986667A (zh) * | 2020-08-17 | 2020-11-24 | 重庆大学 | 一种基于粒子滤波算法的语音机器人控制方法 |
CN112258472A (zh) * | 2020-10-20 | 2021-01-22 | 大连理工大学 | 一种汽车外造型自动评分方法 |
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
王梓萌等.基于用户评论下的生鲜农产品优选排序.江苏农业科学.2020,305-310. * |
荣欢等.利用收益预测与策略梯度两阶段众包评论集成.计算机科学与探索.2020,1476-1489. * |
Also Published As
Publication number | Publication date |
---|---|
CN113434628A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113434628B (zh) | 一种基于特征级与传播关系网络的评论文本置信检测方法 | |
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
CN112733018B (zh) | 一种基于图神经网络gnn和多任务学习的会话推荐方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
TW201822098A (zh) | 用於預測商品的市場需求的計算機裝置與方法 | |
CN108595601A (zh) | 一种融入Attention机制的长文本情感分析方法 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN105022825A (zh) | 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法 | |
CN110222058A (zh) | 基于FP-growth的多源数据关联隐私泄露风险评估系统 | |
CN110737730B (zh) | 基于无监督学习的用户分类方法、装置、设备及存储介质 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN114492423B (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN114117048A (zh) | 一种文本分类的方法、装置、计算机设备及存储介质 | |
CN113641811A (zh) | 促进购买行为的会话推荐方法、系统、设备及存储介质 | |
CN114429135B (zh) | 一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法 | |
Sirrianni et al. | Predicting stance polarity and intensity in cyber argumentation with deep bidirectional transformers | |
Kumar et al. | Emotion analysis of news and social media text for stock price prediction using svm-lstm-gru composite model | |
Rathor et al. | Application of machine learning for sentiment analysis of movies using imdb rating | |
CN114357284A (zh) | 基于深度学习的众包任务个性化推荐方法和系统 | |
CN116522013B (zh) | 基于社交网络平台的舆情分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |