CN109492076B

CN109492076B - 一种基于网络的社区问答网站答案可信评估方法

Info

Publication number: CN109492076B
Application number: CN201811102184.7A
Authority: CN
Inventors: 刘均; 段海梦; 任若清; 刘文强; 曾宏伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-02-11
Anticipated expiration: 2038-09-20
Also published as: CN109492076A

Abstract

本发明公开了一种基于网络的社区问答网站答案可信评估方法，包括以下步骤：1)构建答案‑用户关联网络；2)基于构建答案‑用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度，该方法能够评估社区问答网站答案的可信性。

Description

一种基于网络的社区问答网站答案可信评估方法

技术领域

本发明涉及一种答案可信评估方法，具体涉及一种基于网络的社区问答网站答案可信评估方法。

背景技术

在信息爆炸式的今天，社区问答网站为人们提供一种快速获取答案的通道。在社区问答网站上，用户能够用自然语言提出问题和回答问题，同时能够对问题和答案进行点赞、评论等操作表达支持与不支持观点。相比传统的检索、查询方式，在社区问答网站上用户能够更准确、直接的表达自己的信息需求，提出一些复杂、开放、推理型和建议型的问题，而基于用户产生型内容(UGC)的答案能够为用户提供其无法从百科类网站直接获取的信息，充分体现了“exchange”的价值。因此，以百度知道、StackExchange为代表的社区问答网站正引起人们越来越广泛的关注和使用，积累了大量的问答数据。

尽管社区问答网站上快速增长的众包型问答数据为理解复杂、隐含的问题和自组织类型的答案提供了丰富的数据基础，具有很好的应用与发展前景，但数据质量问题仍普遍存在于社区问答网站中。由于任何人都能给出答案，不同的回答者因各方面素质存在差异，且回答目的不同，他们对同一问题的不同回答中可能包含有错误信息，不相关信息，冲突信息，广告信息等。低质量答案的存在一方面给提问者带来了困扰，使得用户难以从中甄别可信答案；另一方面，使得这些蕴含丰富信息的问答数据不能被直接应用于知识库构建和问答检索。因此，研究自动的答案可信评估方法具有重要意义。

目前国内外现有的答案可信度评估方法主要依赖有监督的方式，通过大量的人工标注数据，依靠答案相关的社区特征、用户特征、文本特征，统计特征训练分类器来完成对答案的可信判断和预测。因此，有监督的方法仍面临标注代价高和在不同领域上迁移性弱的问题。此外，现有的无监督的答案可信评估方法主要依靠用户权威度，通过挖掘用户间的链接关系来发现权威用户，根据用户权威度对答案进行排序，没有对其他影响答案可信度的因素进行考虑，因此评估效果不佳。

基于网络的可信推断算法为社区问答网站答案可信评估提供了一种可行的方案。目前基于网络可信传播算法主要应用于欺诈行为检测，优质评论内容筛选，权威用户和可信用户发现等，还没有研究提出使用网络结构完成对多种影响答案可信度的因素建模，通过网络上的可信推断算法以无监督的方式评估答案可信性。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种基于网络的社区问答网站答案可信评估方法，该方法能够评估社区问答网站答案的可信性。

为达到上述目的，本发明所述的基于网络的社区问答网站答案可信评估方法，其特征在于，包括以下步骤：

1)构建答案-用户关联网络；

2)基于构建答案-用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度。

步骤1)的具体操作为：构建答案-用户关联网络G，其中，

G＝{V,E,W,P}

其中，V表示答案-用户关联网络中的所有节点，E表示答案-用户关联网络中的所有边，W表示边上的权重，P表示节点的先验可信度。

设用户u_k回答不可信的概率ε(u_k)服从均值为0、方差为σ²(u_k)的正态分布，即

ε(u_k)～N(0，σ(u_k)²) (3)

在用户独立的情况下，得所有用户的加权不可信概率ε_combine为：

由于ε_combine服从正态分布，即：

其中，

为所有用户加权出错概率ε_combine的方差；

为不失一般性，则有约束

得带约束优化问题：

由于该带约束优化问题为凸函数，则引入拉格朗日乘子λ，由拉格朗日乘数法计算带约束优化问题的封闭解，得带约束优化问题的解析解为：

利用用户已经提交的所有回答与对应标准最佳回答的累积平均差异化程度

估测用户u_k的真实方差σ²(u_k)，其中，

其中，Q(u_k)为用户u_k回答的问题集合，|Q(u_k)|为用户u_k回答的问题个数，

为用户对第q个问题的回答

的向量化表示，

为第q个问题的最佳答案的向量化表示，

表示回答

与最佳答案的

间的语义差异程度；

由于用户出错的概率σ²(u_k)服从正态分布，而标准正态分布平方和服从卡方分布，则有

对卡方分布，则有

由此得在1-α的置信度：

所以σ²(u_k)的1-α置信区间为

得用户可信度ω'(u_k)为：

当获取用户可信度后，由任意问题q_i下的答案集合

与每个答案相应的用户集合

组成的含有2×m_i个节点和他们之间的相互影响无向边组成无向概率图；

对于一个含有n个随机变量X＝{x₁,x₂,…,x_n}的无向概率图，其联合概率分布P(X)为：

其中，X_c表示最大团块c中的变量集合，ψ_c表示无向概率图上最大团块的势函数，其中，

ψ_c(X_c)＝exp{-E(X_c)} (16)

其中，E(X_c)为能量函数；

然后利用玻尔兹曼机求解答案可信度。

利用玻尔兹曼机求解答案可信度的具体过程为：

设玻尔兹曼机中任意节点表示一个二值变量x_i，x_i的取值为{0,1}，对答案-用户关联网络G＝{V,E,W,P}中任意一个问题下q_i的答案集合

与每个答案相应的用户集合

组成的含有2×m_i个节点的团块，构成玻尔兹曼机模型，对一个答案节点a_ij，其观测值为τ(a_ij),对应的二元隐变量取值y_ij＝1表示答案是可信的，对应的二元隐变量取值y_ij＝0表示答案是不可信的，隐变量y_ij的概率P(y_ij)为：

对一个用户节点u_k，对应的二元隐变量取值y_k＝1表示用户是可信的，y_k＝0表示用户是不可信的，隐变量y_k的概率P(y_k)为：

对一个答案节点a_ij，其邻居节点a_ij'传播给该答案节点a_ij的信息m_ij'→ij被定义为：

其中，y_ij'∈{0,1}为对应邻居节点a_ij'在可信和不可信情况下传递给答案节点a_ij的信任值，U(y_ij',y_ij)为势函数，其中，

其中，sim(a_ij,a_ij')为答案节点的相似度，1-sim(a_ij,a_ij')为答案节点的不相似度，I(y_ij',y_ij)为指示函数，其中，

因此在已知用户和其他邻居答案变量取值的情况下，求得当前答案a_ij对应的隐变量概率取值P(y_ij＝η)为：

当η＝1时，得答案可信的概率P(y_ij＝1)，η＝0时，得答案不可信的概率P(y_ij＝0)。

本发明具有以下有益效果：

本发明所述的基于网络的社区问答网站答案可信评估方法在具体操作时，通过构建答案-用户关联网络对多种影响答案可信度的因素同时建模，将答案可信评估问题转化为异质信息网络上的节点变量取值推断问题，然后基于答案-用户关联网络计算用户可信度和答案可信度，完成对社区问答网站答案的自动评估及推荐，利于提高用户的在线使用体验，帮助用户自动选择高可信度的答案，过滤错误及不可信的答案，使用户避免长时间的等待。

附图说明

图1为本发明的流程图；

图2为本发明中答案-用户关联网络模型的示意图；

图3为本发明中计算用户可信度及答案可信度的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

参考图1，本发明所述的基于网络的社区问答网站答案可信评估方法包括以下步骤：

1)构建答案-用户关联网络；

步骤1)的具体操作为：构建答案-用户关联网络G，其中，

G＝{V,E,W,P}

V＝A∪U，

为所有问题下的答案集合，U＝{u₁，u₂,…u_k}为所有回答者的集合，答案-用户关联网络中共包含

个答案节点，K个用户节点，a_ij表示答案节点，u_k表示用户节点。

E＝E_p∪E_s，同一问题下答案间语义相似关系

答案与用户间的提供关系

W＝{W_e|e∈E}，答案间语义相似关系上的权重w_s＝sim(a_ij,a_ij')，w_s∈[0,1]，w_s的取值越接近于1答案越相似，w_s的取值越接近0答案越不相似。提供关系w_p＝prd(a_ij,u_k)＝1，表示用户提供的所有答案等概率影响该用户；答案间的语义相似度w_s通过sen2vec模型与cosine距离相结合的方式计算得到。

P＝{priori(v)|v∈V}，节点v的先验可信度priori(v)∈[0,1]，priori(v)的取值越接近于1，节点的先验可信度越高，越可信；priori(v)的取值越接近0，先验可信度越低，越不可信。

对于基于答案-用户关联网络中的两类节点，其中，用户节点的先验可信度由用户权威度priori(u_k)、主页浏览数、支持数及反对数等相关信息计算得到，即

答案节点的先验可信度priori(a_ij)由答案的投票数级核心词频等计算得到，其中，

priori(a_ij)＝αfvote_ij+(1-α)fcore_ij (2)

其中，

表示答案a_ij的投票份额，即所有浏览该问题并投票的人对该答案的赞同程度，具体为：答案a_ij获得的投票数vote_ij占问题q_i下所有答案的投票总数

的百分比。

表示答案a_ij的核心词频，N_ij为答案中的总词汇数，I(w_n)为指示函数，其中，当第n个词汇w_n为核心词，则I(w_n)＝1，否则，I(w_n)＝0。

步骤2)的具体过程为：

互推断的基本原理，针对用户节点，由用户提供的答案的可信度来计算用户可信度，并通过引入置信区间的方式提高对回答问题数较少的不活跃用户的可信度计算准确率；针对答案节点，利用同一问题下答案-用户子图上的联合概率分布计算答案可信度，具体的。

步骤2)的具体过程为：

用户可信度计算的基本原则为：提供越多可信答案的用户越是可信的，相比可信用户而言，不可信用户犯错率更高。对于一个用户u_k，在不知道用户可信度的情况下，可以通过该用户u_k出错的概率来推测该用户u_k的可信度。设用户u_k回答不可信的概率ε(u_k)服从均值为0、方差为σ²(u_k)的正态分布，即

ε(u_k)～N(0，σ(u_k)²) (3)

由于ε_combine服从正态分布，即：

其中，

为所有用户加权出错概率ε_combine的方差；

而正态分布的方差反应了分布函数的形状，方差越小，形状越尖，出错概率越小，因此应使得整体用户加权出错概率ε_combine的方差尽可能的小，为不失一般性，则有约束

得带约束优化问题：

对于求解式(7)，需要知道用户的真实方差σ²(u_k)，而在通常情况下用户的真实方差σ²(u_k)是未知的，但可以通过极大似然估计，利用用户已经提交的所有回答与对应标准最佳回答的累积平均差异化程度

估测用户u_k的真实方差σ²(u_k)，其中，

为用户对第q个问题的回答

的向量化表示，

为第q个问题的最佳答案的向量化表示，

表示回答

与最佳答案的

间的语义差异程度；

由于真实的标准最佳回答是不存在的，因此可以根据每个答案的可信度通过加权平均的方式计算问题q的最佳答案

即

这类回答问题数较少，用户信息不足的用户通常被称为长尾用户，在社区问答网站中，信息不足的用户是普遍存在的，而由用户已有回答与标准最佳回答的累积平均差异化程度

来估测用户u_k的真实方差σ²(u_k)的方法，在用户提供大量答案时较为准确，但当用户提供的答案数量较少时，则不能准确衡量答案的可信度，因此在无法获得更多用户回答数据的情况下，可以通过引入置信区间替代单一取值来衡量用户不可信的方差

对卡方分布，则有

由此得在1-α的置信度：

所以σ²(u_k)的1-α置信区间为

得用户可信度ω'(u_k)为：

由数据观测及基本假设可知，可信用户更有可能给出可信答案，一个答案是可信的，则与他表达了相同观点的邻居答案也是可信的，因此答案的可信度由回答者的可信度和其他邻居对等答案对他的影响共同决定。

当获取用户可信度后，由任意问题q_i下的答案集合

与每个答案相应的用户集合

组成的含有2×m_i个节点和他们之间的相互影响无向边组成无向概率图，由此可以将答案可信度计算问题转化无向概率图模型上的节点变量联合概率分布计算问题。

无向概率图模型又被称为马尔科夫随机场，无向概率图中包含一组节点及连接节点的无向边，每节点表示一个或者一组随机变量，不带箭头的无向边表示变量间的关系，边的权重通常表示节点转移概率；无向概率图上的节点联合概率分布被定义为团块上的因子乘积形式，团块表示图上一个全连接的节点子集，即团块中任意两个节点间有边。对于一个含有n个随机变量X＝{x₁,x₂,…,x_n}的无向概率图，其联合概率分布P(X)为：

ψ_c(X_c)＝exp{-E(X_c)}(16)

其中，E(X_c)为能量函数；

然后利用玻尔兹曼机求解答案可信度。

利用玻尔兹曼机求解答案可信度的具体过程为：

与每个答案相应的用户集合

通常情况下，求无向概率图模型上的联合概率分布是一个NP难问题，这里采用迭代条件模型，利用梯度上升的思想逐步更新无向子图中的每个答案节点变量的取值。

由式(22)在已知用户和其他邻居答案变量取值的情况下可逐点更新无向概率子图中的答案节点可信取值。