CN109492076B - 一种基于网络的社区问答网站答案可信评估方法 - Google Patents
一种基于网络的社区问答网站答案可信评估方法 Download PDFInfo
- Publication number
- CN109492076B CN109492076B CN201811102184.7A CN201811102184A CN109492076B CN 109492076 B CN109492076 B CN 109492076B CN 201811102184 A CN201811102184 A CN 201811102184A CN 109492076 B CN109492076 B CN 109492076B
- Authority
- CN
- China
- Prior art keywords
- answer
- user
- probability
- question
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网络的社区问答网站答案可信评估方法,包括以下步骤:1)构建答案‑用户关联网络;2)基于构建答案‑用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度,该方法能够评估社区问答网站答案的可信性。
Description
技术领域
本发明涉及一种答案可信评估方法,具体涉及一种基于网络的社区问答网站答案可信评估方法。
背景技术
在信息爆炸式的今天,社区问答网站为人们提供一种快速获取答案的通道。在社区问答网站上,用户能够用自然语言提出问题和回答问题,同时能够对问题和答案进行点赞、评论等操作表达支持与不支持观点。相比传统的检索、查询方式,在社区问答网站上用户能够更准确、直接的表达自己的信息需求,提出一些复杂、开放、推理型和建议型的问题,而基于用户产生型内容(UGC)的答案能够为用户提供其无法从百科类网站直接获取的信息,充分体现了“exchange”的价值。因此,以百度知道、StackExchange为代表的社区问答网站正引起人们越来越广泛的关注和使用,积累了大量的问答数据。
尽管社区问答网站上快速增长的众包型问答数据为理解复杂、隐含的问题和自组织类型的答案提供了丰富的数据基础,具有很好的应用与发展前景,但数据质量问题仍普遍存在于社区问答网站中。由于任何人都能给出答案,不同的回答者因各方面素质存在差异,且回答目的不同,他们对同一问题的不同回答中可能包含有错误信息,不相关信息,冲突信息,广告信息等。低质量答案的存在一方面给提问者带来了困扰,使得用户难以从中甄别可信答案;另一方面,使得这些蕴含丰富信息的问答数据不能被直接应用于知识库构建和问答检索。因此,研究自动的答案可信评估方法具有重要意义。
目前国内外现有的答案可信度评估方法主要依赖有监督的方式,通过大量的人工标注数据,依靠答案相关的社区特征、用户特征、文本特征,统计特征训练分类器来完成对答案的可信判断和预测。因此,有监督的方法仍面临标注代价高和在不同领域上迁移性弱的问题。此外,现有的无监督的答案可信评估方法主要依靠用户权威度,通过挖掘用户间的链接关系来发现权威用户,根据用户权威度对答案进行排序,没有对其他影响答案可信度的因素进行考虑,因此评估效果不佳。
基于网络的可信推断算法为社区问答网站答案可信评估提供了一种可行的方案。目前基于网络可信传播算法主要应用于欺诈行为检测,优质评论内容筛选,权威用户和可信用户发现等,还没有研究提出使用网络结构完成对多种影响答案可信度的因素建模,通过网络上的可信推断算法以无监督的方式评估答案可信性。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于网络的社区问答网站答案可信评估方法,该方法能够评估社区问答网站答案的可信性。
为达到上述目的,本发明所述的基于网络的社区问答网站答案可信评估方法,其特征在于,包括以下步骤:
1)构建答案-用户关联网络;
2)基于构建答案-用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度。
步骤1)的具体操作为:构建答案-用户关联网络G,其中,
G={V,E,W,P}
其中,V表示答案-用户关联网络中的所有节点,E表示答案-用户关联网络中的所有边,W表示边上的权重,P表示节点的先验可信度。
设用户uk回答不可信的概率ε(uk)服从均值为0、方差为σ2(uk)的正态分布,即
ε(uk)~N(0,σ(uk)2) (3)
在用户独立的情况下,得所有用户的加权不可信概率εcombine为:
由于εcombine服从正态分布,即:
由于该带约束优化问题为凸函数,则引入拉格朗日乘子λ,由拉格朗日乘数法计算带约束优化问题的封闭解,得带约束优化问题的解析解为:
由于用户出错的概率σ2(uk)服从正态分布,而标准正态分布平方和服从卡方分布,则有
所以σ2(uk)的1-α置信区间为
得用户可信度ω'(uk)为:
对于一个含有n个随机变量X={x1,x2,…,xn}的无向概率图,其联合概率分布P(X)为:
其中,Xc表示最大团块c中的变量集合,ψc表示无向概率图上最大团块的势函数,其中,
ψc(Xc)=exp{-E(Xc)} (16)
其中,E(Xc)为能量函数;
然后利用玻尔兹曼机求解答案可信度。
利用玻尔兹曼机求解答案可信度的具体过程为:
设玻尔兹曼机中任意节点表示一个二值变量xi,xi的取值为{0,1},对答案-用户关联网络G={V,E,W,P}中任意一个问题下qi的答案集合与每个答案相应的用户集合组成的含有2×mi个节点的团块,构成玻尔兹曼机模型,对一个答案节点aij,其观测值为τ(aij),对应的二元隐变量取值yij=1表示答案是可信的,对应的二元隐变量取值yij=0表示答案是不可信的,隐变量yij的概率P(yij)为:
对一个用户节点uk,对应的二元隐变量取值yk=1表示用户是可信的,yk=0表示用户是不可信的,隐变量yk的概率P(yk)为:
对一个答案节点aij,其邻居节点aij'传播给该答案节点aij的信息mij'→ij被定义为:
其中,yij'∈{0,1}为对应邻居节点aij'在可信和不可信情况下传递给答案节点aij的信任值,U(yij',yij)为势函数,其中,
其中,sim(aij,aij')为答案节点的相似度,1-sim(aij,aij')为答案节点的不相似度,I(yij',yij)为指示函数,其中,
因此在已知用户和其他邻居答案变量取值的情况下,求得当前答案aij对应的隐变量概率取值P(yij=η)为:
当η=1时,得答案可信的概率P(yij=1),η=0时,得答案不可信的概率P(yij=0)。
本发明具有以下有益效果:
本发明所述的基于网络的社区问答网站答案可信评估方法在具体操作时,通过构建答案-用户关联网络对多种影响答案可信度的因素同时建模,将答案可信评估问题转化为异质信息网络上的节点变量取值推断问题,然后基于答案-用户关联网络计算用户可信度和答案可信度,完成对社区问答网站答案的自动评估及推荐,利于提高用户的在线使用体验,帮助用户自动选择高可信度的答案,过滤错误及不可信的答案,使用户避免长时间的等待。
附图说明
图1为本发明的流程图;
图2为本发明中答案-用户关联网络模型的示意图;
图3为本发明中计算用户可信度及答案可信度的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1,本发明所述的基于网络的社区问答网站答案可信评估方法包括以下步骤:
1)构建答案-用户关联网络;
2)基于构建答案-用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度。
步骤1)的具体操作为:构建答案-用户关联网络G,其中,
G={V,E,W,P}
其中,V表示答案-用户关联网络中的所有节点,E表示答案-用户关联网络中的所有边,W表示边上的权重,P表示节点的先验可信度。
W={We|e∈E},答案间语义相似关系上的权重ws=sim(aij,aij'),ws∈[0,1],ws的取值越接近于1答案越相似,ws的取值越接近0答案越不相似。提供关系wp=prd(aij,uk)=1,表示用户提供的所有答案等概率影响该用户;答案间的语义相似度ws通过sen2vec模型与cosine距离相结合的方式计算得到。
P={priori(v)|v∈V},节点v的先验可信度priori(v)∈[0,1],priori(v)的取值越接近于1,节点的先验可信度越高,越可信;priori(v)的取值越接近0,先验可信度越低,越不可信。
对于基于答案-用户关联网络中的两类节点,其中,用户节点的先验可信度由用户权威度priori(uk)、主页浏览数、支持数及反对数等相关信息计算得到,即
答案节点的先验可信度priori(aij)由答案的投票数级核心词频等计算得到,其中,
priori(aij)=αfvoteij+(1-α)fcoreij (2)
其中,表示答案aij的投票份额,即所有浏览该问题并投票的人对该答案的赞同程度,具体为:答案aij获得的投票数voteij占问题qi下所有答案的投票总数的百分比。表示答案aij的核心词频,Nij为答案中的总词汇数,I(wn)为指示函数,其中,当第n个词汇wn为核心词,则I(wn)=1,否则,I(wn)=0。
步骤2)的具体过程为:
互推断的基本原理,针对用户节点,由用户提供的答案的可信度来计算用户可信度,并通过引入置信区间的方式提高对回答问题数较少的不活跃用户的可信度计算准确率;针对答案节点,利用同一问题下答案-用户子图上的联合概率分布计算答案可信度,具体的。
步骤2)的具体过程为:
用户可信度计算的基本原则为:提供越多可信答案的用户越是可信的,相比可信用户而言,不可信用户犯错率更高。对于一个用户uk,在不知道用户可信度的情况下,可以通过该用户uk出错的概率来推测该用户uk的可信度。设用户uk回答不可信的概率ε(uk)服从均值为0、方差为σ2(uk)的正态分布,即
ε(uk)~N(0,σ(uk)2) (3)
在用户独立的情况下,得所有用户的加权不可信概率εcombine为:
由于εcombine服从正态分布,即:
由于该带约束优化问题为凸函数,则引入拉格朗日乘子λ,由拉格朗日乘数法计算带约束优化问题的封闭解,得带约束优化问题的解析解为:
对于求解式(7),需要知道用户的真实方差σ2(uk),而在通常情况下用户的真实方差σ2(uk)是未知的,但可以通过极大似然估计,利用用户已经提交的所有回答与对应标准最佳回答的累积平均差异化程度估测用户uk的真实方差σ2(uk),其中,
这类回答问题数较少,用户信息不足的用户通常被称为长尾用户,在社区问答网站中,信息不足的用户是普遍存在的,而由用户已有回答与标准最佳回答的累积平均差异化程度来估测用户uk的真实方差σ2(uk)的方法,在用户提供大量答案时较为准确,但当用户提供的答案数量较少时,则不能准确衡量答案的可信度,因此在无法获得更多用户回答数据的情况下,可以通过引入置信区间替代单一取值来衡量用户不可信的方差
由于用户出错的概率σ2(uk)服从正态分布,而标准正态分布平方和服从卡方分布,则有
所以σ2(uk)的1-α置信区间为
得用户可信度ω'(uk)为:
由数据观测及基本假设可知,可信用户更有可能给出可信答案,一个答案是可信的,则与他表达了相同观点的邻居答案也是可信的,因此答案的可信度由回答者的可信度和其他邻居对等答案对他的影响共同决定。
当获取用户可信度后,由任意问题qi下的答案集合与每个答案相应的用户集合组成的含有2×mi个节点和他们之间的相互影响无向边组成无向概率图,由此可以将答案可信度计算问题转化无向概率图模型上的节点变量联合概率分布计算问题。
无向概率图模型又被称为马尔科夫随机场,无向概率图中包含一组节点及连接节点的无向边,每节点表示一个或者一组随机变量,不带箭头的无向边表示变量间的关系,边的权重通常表示节点转移概率;无向概率图上的节点联合概率分布被定义为团块上的因子乘积形式,团块表示图上一个全连接的节点子集,即团块中任意两个节点间有边。对于一个含有n个随机变量X={x1,x2,…,xn}的无向概率图,其联合概率分布P(X)为:
其中,Xc表示最大团块c中的变量集合,ψc表示无向概率图上最大团块的势函数,其中,
ψc(Xc)=exp{-E(Xc)}(16)
其中,E(Xc)为能量函数;
然后利用玻尔兹曼机求解答案可信度。
利用玻尔兹曼机求解答案可信度的具体过程为:
设玻尔兹曼机中任意节点表示一个二值变量xi,xi的取值为{0,1},对答案-用户关联网络G={V,E,W,P}中任意一个问题下qi的答案集合与每个答案相应的用户集合组成的含有2×mi个节点的团块,构成玻尔兹曼机模型,对一个答案节点aij,其观测值为τ(aij),对应的二元隐变量取值yij=1表示答案是可信的,对应的二元隐变量取值yij=0表示答案是不可信的,隐变量yij的概率P(yij)为:
对一个用户节点uk,对应的二元隐变量取值yk=1表示用户是可信的,yk=0表示用户是不可信的,隐变量yk的概率P(yk)为:
通常情况下,求无向概率图模型上的联合概率分布是一个NP难问题,这里采用迭代条件模型,利用梯度上升的思想逐步更新无向子图中的每个答案节点变量的取值。
对一个答案节点aij,其邻居节点aij'传播给该答案节点aij的信息mij'→ij被定义为:
其中,yij'∈{0,1}为对应邻居节点aij'在可信和不可信情况下传递给答案节点aij的信任值,U(yij',yij)为势函数,其中,
其中,sim(aij,aij')为答案节点的相似度,1-sim(aij,aij')为答案节点的不相似度,I(yij',yij)为指示函数,其中,
因此在已知用户和其他邻居答案变量取值的情况下,求得当前答案aij对应的隐变量概率取值P(yij=η)为:
当η=1时,得答案可信的概率P(yij=1),η=0时,得答案不可信的概率P(yij=0)。
由式(22)在已知用户和其他邻居答案变量取值的情况下可逐点更新无向概率子图中的答案节点可信取值。
Claims (3)
1.一种基于网络的社区问答网站答案可信评估方法,其特征在于,包括以下步骤:
1)构建答案-用户关联网络;
2)基于构建答案-用户关联网络采用互推断算法以迭代的方式同步获取用户可信度及答案可信度;
步骤2)的具体操作为:设用户uk回答不可信的概率ε(uk)服从均值为0、方差为σ2(uk)的正态分布,即
ε(uk)~N(0,σ(uk)2) (3)
在用户独立的情况下,得所有用户的加权不可信概率εcombine为:
由于εcombine服从正态分布,即:
由于该带约束优化问题为凸函数,则引入拉格朗日乘子λ,由拉格朗日乘数法计算带约束优化问题的封闭解,得带约束优化问题的解析解为:
由于用户出错的概率σ2(uk)服从正态分布,而标准正态分布平方和服从卡方分布,则有
所以σ2(uk)的1-α置信区间为
得用户可信度ω'(uk)为:
对于一个含有n个随机变量X={x1,x2,…,xn}的无向概率图,其联合概率分布P(X)为:
其中,Xc表示最大团块c中的变量集合,ψc表示无向概率图上最大团块的势函数,其中,
ψc(Xc)=exp{-E(Xc)} (16)
其中,E(Xc)为能量函数;
然后利用玻尔兹曼机求解答案可信度。
2.根据权利要求1所述的基于网络的社区问答网站答案可信评估方法,其特征在于,步骤1)的具体操作为:构建答案-用户关联网络G,其中,
G={V,E,W,P}
其中,V表示答案-用户关联网络中的所有节点,E表示答案-用户关联网络中的所有边,W表示边上的权重,P表示节点的先验可信度。
3.根据权利要求1所述的基于网络的社区问答网站答案可信评估方法,其特征在于,利用玻尔兹曼机求解答案可信度的具体过程为:
设玻尔兹曼机中任意节点表示一个二值变量xi,xi的取值为{0,1},对答案-用户关联网络G={V,E,W,P}中任意一个问题下qi的答案集合与每个答案相应的用户集合组成的含有2×mi个节点的团块,构成玻尔兹曼机模型,对一个答案节点aij,其观测值为τ(aij),对应的二元隐变量取值yij=1表示答案是可信的,对应的二元隐变量取值yij=0表示答案是不可信的,隐变量yij的概率P(yij)为:
对一个用户节点uk,对应的二元隐变量取值yk=1表示用户是可信的,yk=0表示用户是不可信的,隐变量yk的概率P(yk)为:
对一个答案节点aij,其邻居节点aij'传播给该答案节点aij的信息mij'→ij被定义为:
其中,yij'∈{0,1}为对应邻居节点aij'在可信和不可信情况下传递给答案节点aij的信任值,U(yij',yij)为势函数,其中,
其中,sim(aij,aij')为答案节点的相似度,1-sim(aij,aij')为答案节点的不相似度,I(yij',yij)为指示函数,其中,
因此在已知用户和其他邻居答案变量取值的情况下,求得当前答案aij对应的隐变量概率取值P(yij=η)为:
当η=1时,得答案可信的概率P(yij=1),η=0时,得答案不可信的概率P(yij=0)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102184.7A CN109492076B (zh) | 2018-09-20 | 2018-09-20 | 一种基于网络的社区问答网站答案可信评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102184.7A CN109492076B (zh) | 2018-09-20 | 2018-09-20 | 一种基于网络的社区问答网站答案可信评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492076A CN109492076A (zh) | 2019-03-19 |
CN109492076B true CN109492076B (zh) | 2022-02-11 |
Family
ID=65690720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811102184.7A Active CN109492076B (zh) | 2018-09-20 | 2018-09-20 | 一种基于网络的社区问答网站答案可信评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492076B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472226A (zh) * | 2019-07-03 | 2019-11-19 | 五邑大学 | 一种基于知识图谱的网络安全态势预测方法及装置 |
CN110930244B (zh) * | 2019-11-27 | 2022-11-25 | 北京国腾联信科技有限公司 | 用户信用调研评估值的计算方法及装置 |
US11347822B2 (en) | 2020-04-23 | 2022-05-31 | International Business Machines Corporation | Query processing to retrieve credible search results |
CN113505207B (zh) * | 2021-07-02 | 2024-02-20 | 中科苏州智能计算技术研究院 | 一种金融舆情研报的机器阅读理解方法及系统 |
CN115344697B (zh) * | 2022-08-03 | 2023-06-23 | 南京审计大学 | 一种在线问答社区中检测欺诈性问答的方法 |
CN117196734B (zh) * | 2023-09-14 | 2024-03-22 | 长沙理工大学 | 一种众包任务的价值评估方法、系统、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101284788B1 (ko) * | 2009-10-13 | 2013-07-10 | 한국전자통신연구원 | 신뢰도에 기반한 질의응답 장치 및 그 방법 |
CN101751454A (zh) * | 2009-12-12 | 2010-06-23 | 浙江大学 | 一种基于概率潜在语义分析的网络答案选择方法 |
CN102831219B (zh) * | 2012-08-22 | 2015-12-16 | 浙江大学 | 一种应用于社区发现的可覆盖聚类方法 |
CN104133817A (zh) * | 2013-05-02 | 2014-11-05 | 深圳市世纪光速信息技术有限公司 | 网络社区交互方法、装置及网络社区平台 |
CN105653605B (zh) * | 2015-12-23 | 2020-04-21 | 北京搜狗科技发展有限公司 | 一种用于网络社区作弊用户挖掘的方法、系统及电子设备 |
CN105893523B (zh) * | 2016-03-31 | 2019-05-17 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
-
2018
- 2018-09-20 CN CN201811102184.7A patent/CN109492076B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109492076A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492076B (zh) | 一种基于网络的社区问答网站答案可信评估方法 | |
Wang et al. | On credibility estimation tradeoffs in assured social sensing | |
Yang et al. | Friend or frenemy? Predicting signed ties in social networks | |
Zhang et al. | Quality-aware user recruitment based on federated learning in mobile crowd sensing | |
CN105991397B (zh) | 信息传播方法和装置 | |
CN110096634B (zh) | 一种基于粒子群优化的房产数据向量对齐方法 | |
CN103544663A (zh) | 网络公开课的推荐方法、系统和移动终端 | |
WO2022179384A1 (zh) | 一种社交群体的划分方法、划分系统及相关装置 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN116244513B (zh) | 随机群组poi推荐方法、系统、设备及存储介质 | |
CN108229731B (zh) | 一种热点话题下多消息互影响的用户行为预测系统及方法 | |
CN111723973B (zh) | 基于mooc日志数据中用户行为因果关系的学习效果优化方法 | |
CN106126615A (zh) | 一种兴趣点推荐的方法及系统 | |
CN103577876A (zh) | 基于前馈神经网络的可信与不可信用户识别方法 | |
CN111222847B (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
Intisar et al. | Cluster analysis to estimate the difficulty of programming problems | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
Xiong et al. | A point-of-interest suggestion algorithm in Multi-source geo-social networks | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
CN110321492A (zh) | 一种基于社区信息的项目推荐方法及系统 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
Zhang | Intelligent recommendation algorithm of multimedia English distance education resources based on user model | |
US20230351153A1 (en) | Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |