CN1790332A

CN1790332A - 一种问题答案的阅读浏览显示方法及其系统

Info

Publication number: CN1790332A
Application number: CN 200510130777
Authority: CN
Inventors: 刘文印
Original assignee: 刘文印
Current assignee: Beijing Baiwenbaida Network Technologies Co., Ltd.
Priority date: 2005-12-28
Filing date: 2005-12-28
Publication date: 2006-06-21

Abstract

本发明涉及一种问题答案的阅读浏览显示方法，用于提高用户阅读浏览某一问题的众多答案的效率，其特征在于，包括：步骤1，对答案进行聚类，根据答案内容之间的相似度把所述众多答案归成多个分类；步骤2，将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。利用本发明的方法及系统，用户可以方便快速地浏览和/或查找问题的答案，并且可以对同一类的答案进行统一的操作，免去了用户浪费时间用于浏览重复内容的烦恼，提高了用户阅读浏览答案或其他信息的效率。

Description

一种问题答案的阅读浏览显示方法及其系统

技术领域

本发明涉及模式识别领域、自然语言处理领域及计算机领域，特别是一种在互联网上帮助用户从众多答案(如从用户交互式问答系统即QA系统中得到的众多答案)中方便快速地浏览和/或查找问题答案的计算机技术及系统。

背景技术

当今的互联网包含了数量越来越大的信息，而且被越来越多的用户所连接，这使得它正成为各种领域无关问题的答案的理想来源。虚拟社区就是一个可供人们围绕某种问题集中进行交流的地方；它通过网络，把在真实世界中相互之间无任何联系的人们聚集在一起。传统的虚拟社区有很多形式，比如讨论组，电子公告板系统(Bulletin Board System，BBS)，聊天室，新闻组等，它们通常用于人们分享他们共同的兴趣，想法和感受。最近，一些新型的虚拟社区如雨后春笋般冒出来，比如Google Answers，新浪iAsk，百度知道。这些新型的社区致力于为用户提供一个崭新的交互式问答平台。虽然这些系统的服务目标定位在新的用户需求，但是它们的人机界面依旧是传统形式，用户无法通过这样的界面方便地浏览大量的不同形式的答案。在这些系统中，往往存在一些问题拥有数量众多的相似或冗余的答案，导致用户不得不浪费相当多的时间去浏览重复的内容，尤其当答案内容不一致的时候，用户更难以从中寻找一个令人满意的、完整、正确的答案。为了解决这个问题，我们提出了发明的方法和系统。

为了解决这个问题，我们提出了一种新的对众多的答案进行聚类和融合的方法及界面。通过这种全新的人机界面，用户可以方便快速地浏览和查找问题的答案，并且可以对同一类的答案进行统一的操作，免去了用户浪费时间用于浏览重复内容的烦恼。

发明内容

本发明所要解决的技术问题在于提供一种问题答案的阅读浏览显示方法及其系统，使得用户可从提供的众多答案中方便快速地阅读浏览答案和/或查找答案。

为了实现上述目的，本发明提供了一种问题答案的阅读浏览显示方法，用于提高用户阅读浏览某一问题的众多答案的效率，其中，包括：

步骤1，对答案进行聚类，根据答案内容之间的相似度把所述众多答案归成多个分类；和/或，

步骤2，将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。

所述的问题答案阅读浏览显示方法，其中，所述步骤2进一步包括：

步骤201，根据问题类型和先验知识库或模板信息库中存储的问题类型和答案类型的一一对应关系确定所述答案的类型；

步骤202，根据确定的答案类型预先确定答案融合的规则。

所述的问题答案阅读浏览显示方法，其中，所述步骤1进一步包括：

步骤101，抽取答案的特征向量，将答案内容表示成机器可计算的特征向量形式；

步骤102，计算所述答案特征向量之间的相似度；

步骤103，识别无效答案，不对其进行聚类；

步骤104，计算答案与类别之间的相似度，对答案进行聚类。

所述的问题答案阅读浏览显示方法，其中，所述步骤101进一步包括：

步骤401，将答案内容进行切分，以将其表达成单词集合的形式；

步骤402，计算所述单词集合中任两个单词T₁和T₂之间语义上的相似度sim(T₁，T₂)；

步骤403，计算所述单词集合中任一单词T_i的权重w_i；

步骤404，生成由一组单词及其相应权重组成的答案特征向量。

所述的问题答案阅读浏览显示方法，其中，所述步骤401进一步包括：

步骤501，利用WordNet抽取出T₁和T₂相应的同义词表syno1，syno2和上位词表hyper1和hyper2，其中，syno1、hyper1分别为T₁的同义词表和上位词表，syno2、hyper2分别为T₂的同义词表和上位词表；

步骤503，根据公式sim(T₁，T₂)＝(synoSim+hyperSim)/2计算T₁和T₂之间的相似度sim(T₁，T₂)。

所述的问题答案阅读浏览显示方法，其中，所述单词的权重w_i根据公式w_i＝log₂{N/[∑_jsim(T_i，T_j)*df(T_j)]}计算得出，其中，df(T_j)为包含T_j的答案的频率，N是问题的答案总数。

所述的问题答案阅读浏览显示方法，其中，所述步骤102根据如下公式计算所述答案特征向量之间的相似度：

sim (a_{1}, a_{2}) = (\frac{Σ_{i = 1}^{n} \max_{1 \leq j \leq m} {sim (T_{1 i}, T_{2 j})} * w_{1 i}}{Σ_{i = 1}^{n} w_{1 i}} + \frac{Σ_{j = 1}^{m} \max_{1 \leq i \leq n} {sim (T_{2 j}, T_{1 i})} * w_{2 j}}{Σ_{j = 1}^{m} w_{2 j}}) / 2

其中，a1、a2为问题的两个答案向量，a1＝{T₁₁，T₁₂，...，T_1n}，a2＝{T₂₁，T₂₂，...，T_2m}，其中，T₁₁，...T_1n，T₂₁，...T_2m表示答案向量中包含的词，sim(T_1i，T_2j)为词T_1i与T_2j之间的相似度，sim(T_2j，T_1i)为T_2j与T_1i之间的相似度，w_1i，w_2j为词T_1i与T_2j的权重。

所述的问题答案阅读浏览显示方法，其中，所述步骤104采用增量聚类的算法对答案进行聚类，根据如下公式计算新提交的答案a_j与已有分类的相似度，判断所述已有分类与答案a_j的相似度中的最高的相似度值是否高于一预先设定的第一阈值；如是，则将答案a_j归入此类；如否，则生成一个包含答案a_j的新类；其中，计算答案与类之间相似度的公式如下：

sim (c_{i}, a_{j}) = \frac{Σ_{k = 1}^{b} sim (a_{ik}, a_{j})}{b},

其中，a_j为新提交的答案，c_i为包含答案a_i1，a_i2，...，a_ib的一个类，c_i＝{a_i1，a_i2，...，a_ib}，sim(a_ik，a_j)为答案a_ik，a_j之间的相似度，sim(c_i，a_j)为答案a_j与类c_i之间的相似度。

所述的问题答案阅读浏览显示方法，其中，所述融合规则是基于答案内容和/或数据质量的；其中，采用基于数据质量的融合规则进行融合的步骤具体包括：

根据公式

D Q_{a} = 1 - e^{- \frac{ability}{adjust}}

计算答案的权威性DQ_a，其中ability是预先确定的给出答案的用户的能力值，adjust是调整参数；

根据公式

D Q_{t} = \frac{1}{(t_{c} - t_{q}) + 1}

计算答案的时效性DQ_t，t_q是用户提问时间，t_c是答案发布时间；

根据公式

D Q_{r} = 1 - e^{- \frac{reputation}{adjust}}

计算答案的可靠性DQ_r，其中，reputation是预先确定的给出答案的用户的信誉值，adjust是调整参数；以及

根据公式dq＝∑w_iDQ_i计算答案的综合质量值dq，并选择dq值最大的答案作为融合结果，其中i＝a，t，r，w_i是对应数据质量属性元素DQ_i的相应的权值，∑_iw_i＝1。

步骤1001，利用基于数据质量的融合规则过滤部分答案；

步骤1002，利用基于答案内容的融合规则融合经过过滤后剩余的答案以获得最后的融合结果。

本发明还提供了一种问题回答系统，用于供用户利用其工作站通过网络系统进行交互式提问和回答，包括：

一提问模块，用于供用户利用其工作站通过网络系统进行提问；及

一回答模块，用于供用户利用其工作站通过网络系统对问题进行回答；

其中，还包括：

一问题答案聚类模块，用于根据答案内容之间的相似度把用户提供的针对某一问题的众多答案归成多个分类，以对答案进行聚类；

一问题答案融合模块，用于将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。

所述的系统，其中，进一步包括一人机界面，用于供用户输入提问、输入回答和/或显示问题答案的融合结果。

所述的问题答案阅读浏览显示方法，其中，所述问题答案融合模块进一步包括：

答案类型确定模块，用于根据问题类型和先验知识库或模板信息库中存储的问题类型和答案类型的一一对应关系确定所述答案的类型；

融合规则确定模块，用于根据答案类型预先确定答案融合的规则。

本发明还提供了一种显示针对某一主题的多条信息的显示系统，其中，包括：

一聚类模块，用于根据信息内容之间的相似度将针对某一主题的多条信息归成多个分类；

一信息融合模块，用于将所述多个分类中的每一个分类或其中一个分类内部的多条信息按照确定的融合规则进行融合。

本发明还提供了一种在线问答网站，其中，包括：

一答案聚类模块，用来计算针对某一提问的多个答案内容间的相似度，并根据所述相似度将所述多个答案归成多个分类，以对答案进行聚类；

一答案融合模块，用于将所述多个分类中的每一个分类或其中一个分类内部的多个答案按照确定的融合规则进行融合，以提高用户阅读答案的效率。

所述的在线问答网站，其中，进一步包括一用户管理模块，用于处理用户注册、登陆、身份验证、信息管理、权限验证。

本发明的方法及其系统首先对指定问题的所有答案，根据其内容进行聚类，然后在每一个答案分类里，通过计算数据质量和选择融合规则对答案进行融合，以选择出一个具有代表性的，可靠的，符合用户需求的答案返回给用户。

利用本发明的方法及系统，用户可以方便快速地浏览和/或查找问题的答案，并且可以对同一类的答案进行统一的操作，免去了用户浪费时间用于浏览重复内容的烦恼。

本发明除可以应用于在线的用户交互式问答平台外，还可以应用于传统的虚拟社区，如对某一事件的评论也可用此方法进行聚类和融合。提供一个便捷的浏览界面。企业可以利用该发明的系统，为公司员工内部交流提供便利，提高交流的效率，也方便公司领导更快地洞悉员工的各类想法；学校可以利用该系统，作为对教育bbs系统的一个扩展，方便教师和学生在课后的学习交流等。总之，所发明的方法及系统可广泛应用于所有有关知识及信息服务上。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明一实施例方法的答案的聚类和融合的流程示意图；

图2A、2B为本发明一实施例系统的显示答案聚类的人机界面图。

具体实施方式

图1为本发明一实施例方法的答案聚类和融合的流程示意图。针对用户提出的某一问题及其他用户给出的众多答案(如通过交互式问答系统给出)，首先从该问题的众多答案中抽取特征向量，然后根据向量相似度的计算确定答案的分类情况C＝{c₁，c₂，...c_n}，最后在辅助信息(如问题、领域知识、和/或问题及答案的模板信息库)的帮助下，对每一类中的答案进行融合处理，使每一类c_i产生一个融合答案FC_i。

将本发明的方法应用于虚拟社区提供的交互式问答系统平台，对用户针对某一提问给出的众多回答进行聚类融合，使得用户能从众多重复或冗余的答案中寻找一个令人满意的、完整、正确的答案，具体包括：

一对答案进行聚类的步骤，即根据针对某一问题给出的众多答案的答案内容之间的相似度把答案归成多个分类；将在内容上的相似度大于一定阈值的答案归为一类。

一对某一分类内部的多个答案进行融合的步骤，即根据问题类型和先验知识库确定答案的类型，然后从系统预定义的融合规则中选择一条或多条合适的规则(也可由用户选出)作为应用规则来处理每一个分类中的多个答案，以调和这些答案中存在的不一致性问题，求得一个正确的、完整的调和解。

本发明一实施例采用的答案聚类方法具体步骤如下：

步骤一，答案特征向量抽取，目的是将答案内容表示成机器可计算的特征向量形式。

其中，向量抽取步骤可以进一步包括：

1)答案内容切分获取答案内容中的单词，用单词集合的形式表示答案；对于中文答案内容来说，运用分词算法(见H.Feng，K.Chen，X.Deng，W.Zheng.Accessor variety criteria for chinese word extraction.Computational Linguistics，volume 30，issue 1，pages：75-93，2004.)进行中文分词。对分词算法的举例说明：有四个句子，“门把手弄坏了”，“小明修好了门把手”，“这个门把手很漂亮”，“这个门把手坏了”。考虑如何从这四个句子中提取词语“门把手”。事实上，这三个字构成的字串有三个不同的前缀，“S”，“了”，“个”(“S”表示句子的开始)和四个不同的后缀，“弄”，“E”，“很”，“坏”(“E”表示句子的结尾)。这些意味着这个字串能够被应用于至少三种不同的场合，并且在这四个句子中表达了固定的含义。在这个例子中，3＝min{3，4}，被称为“门把手”这个字串的可达变化(accessor variety)。我们用可达变化作为标准以评估一个字串的独立程度以及它成为词语的可能性。一个字串(长度大于2)的可达变化定义如下：AV(s)＝min{Lav(s)，Rav(s)}，其中Lav(s)被称为左继变化(left accessor variety)，定义为出现在字串s左边不同的字的个数，同样地，右继变化(right accessor variety)Rav(s)被定义为出现在字串s右边的不同的字的个数(“S”和“E”需要重复计数)。我们提取那些AV值不小于预定义域值的字串作为词语。对于英文，则可根据词的分界符识别出单词。所述的分界符是除了英文字母，数字，“-”和“$”之外的其他字符，如空格，“*”，“/”等。

2)停用词处理，构造一张停用词表，并根据停用词表，除掉答案内容中无关的词，如虚词、代词。现在计算机应用中有很多种停用词表，每个都不完全相同。本发明一实施例的问题包含两条答案：“The puma runs the mostquickly.(猎豹跑得最快)”，“I think the antelope runs more speedily than anyother animals.(我认为羚羊比其他任何动物都跑得快)”。上述例句中被空格分开所有单词就是答案内容切分步骤的结果。采用的停用词表包括单词{“the”，“most”，“more”，“than”，“any”，“other”}。去除停用词后，余下的答案内容的单词分别为{“puma”，“runs”，“quickly”}和{“I”，“think”，“antelope”，“runs”，“speedily”，“animals”}。

3)英文词形处理，主要是将英文词的词形还原或者提取词干，比如名词复数、动词过去式、动词过去完成式或动词的第三人称单数等处理。在上述的例子中，经过词形处理，“runs”变为“run”，“animals”变为“animal”。

4)答案向量生成，在向量空间模型中，每个答案内容由一组单词及其权重组成。每个单词的权重按照其所包含的信息量来计算。信息量的概念请参见《An Introduction to Information Theory》，作者Fazlollah M Reza，，出版社Courier Dover Publications。在本发明专利的申请资料中，单词的信息量被定义为-log₂p，其中p为单词出现的概率(probability)。这样，答案最后被表示成为一个带权重的单词向量。具体步骤是先计算词与词之间语义上的相似度，目的是使得计算机能够区分单词之间的差别，有助于计算答案的相似度。给定两个单词T₁和T₂，相似度计算的步骤如下：(1)利用WordNet抽取出他们相应的同义词表和上位词表，分别记为syno1，syno2，hyper1和hyper2；(2)分别计算两个同义词表的相似度synoSim＝|syno1∩syno2|/|syno1∪syno2|，和两个上位词表的相似度hyperSim＝|hyper1∩hyper2|/|hyper1∪hyper2|；(3)单词T1和T2之间的相似度sim(T1，T2)＝(synoSim+hyperSim)/2；(4)计算单词的权重。我们认为那些出现频率较高的单词具有较低的区分能力，因此他们的权重相应的比较低。给定一个单词T_i，它的权重w_i定义如下：w_i＝log₂{N/[∑jsim(T_i，T_j)*df(T_j)]}，其中df(T_j)表示包含T_j的答案的频率，df(T_j)＝∑_iQ_ij，Q_ij表示答案a_i是否包含单词T_j，如果包含，则Q_ij等于1，否则等于0。N是问题的答案总数。此外，问题中出现的单词的权重都设为0。此方法相当于对经典定义的TF*IDF方法的扩展，包括了所有同义词的频率。

WordNet是一个词法的参考系统，在其中，名词、动词、副词和形容词按照它们的语义被组织成许多同义词的集合，每一个表示一个基本的词语概念。同义词集合之间有不同的关系连接。一个词的同义词和上位词可以通过调用WordNet的API函数直接获得，不同的WordNet版本所返回的内容可能略有不同。例如，对于单词quickly，直接调用WordNet的API函数，可以获得其同义词表{rapidly，speedily，chop-chop，apace，promptly，quick，cursorily}和上位词表{quick，speedy，flying，fast}。在本发明的实施例中，利用WordNet，可以获得syno(quickly)＝{rapidly，speedily，chop-chop，apace，promptly，quick，cursorily}，hyper(quickly)＝{quick，speedy，flying，fast}，syno(speedily)＝{rapidly，speedily，chop-chop，apace，promptly，quick，cursorily}和hyper(speedily)＝{quick，speedy}。按照上述公式，可以计算得到sim(quickly，speedily)＝(7/7+2/4)/2＝0.75，进而计算出w(quickly)＝w(speedily)＝log₂{2/[1*1+0.75*1]}＝0.19。

步骤二，计算答案之间的相似度。我们认为每个答案都是由单词组成的集合，给定两个答案a₁＝{T₁₁，T₁₂，...，T_1n}，a₂＝{T₂₁，T₂₂，...，T_2m}，其相似度定义如下：

sim (a_{1}, a_{2}) = (\frac{Σ_{i = 1}^{n} \max_{1 \leq j \leq m} {sim (T_{1 i}, T_{2 j})} * w_{1 i}}{Σ_{i = 1}^{n} w_{1 i}} + \frac{Σ_{j = 1}^{m} \max_{1 \leq i \leq n} {sim (T_{2 j}, T_{1 i})} * w_{2 j}}{Σ_{j = 1}^{m} w_{2 j}}) / 2;

在本发明的实施例中，两个答案经过先前的步骤处理后，分别为{“puma”，“run”，“quickly”}和{“I”，“think”，“antelope”，“run”，“speedily”，“animal”}，其中，单词间的相似矩阵为：

	puma	run	quickly	I	think	antelope	speedily	animal
	puma	run	quickly	I	think	antelope	speedily	animal	puma	1	0	0	0	0	0	0	0
run	0	1	0	0	0	0	0	0	puma	1	0	0	0	0	0	0	0
run	0	1	0	0	0	0	0	0	quickly	0	0	1	0	0	0	0.75	0
I	0	0	0	1	0	0	0	0	quickly	0	0	1	0	0	0	0.75	0
I	0	0	0	1	0	0	0	0	think	0	0	0	0	1	0	0	0
antelope	0	0	0	0	0	1	0	0	think	0	0	0	0	1	0	0	0
antelope	0	0	0	0	0	1	0	0	speedily	0	0	0.75	0	0	0	1	0
animal	0	0	0	0	0	0	0	1	speedily	0	0	0.75	0	0	0	1	0

单词的权重分别为：

	puma	run	quickly	I	think	antelope	speedily	animal
	puma	run	quickly	I	think	antelope	speedily	animal	权重	1	0	0.19	1	1	1	0.19	1

然后根据答案间相似度计算的公式，得出两个答案的相似度为：

sim(a₁，a₂)＝[(0*1+1*0+0.75*0.19)/(1+0+0.19)+

(0*1+0*1+0*1+1*0+0.75*0.19+0*1)/(1+1+1+0+0.19+1)]/2

≈0.077(结论是不相似)

步骤三，无效答案的识别。如果一个答案中的无效词超过单词总数的一半，我们就认为该答案是无效答案，归入无效答案类，不进行步骤四的答案聚类。所谓的无效词就是指WordNet识别不出的单词。

步骤四，答案聚类。给定一个类c_i＝{a_i1，a_i2，...，a_ib}和一个答案a_j，它们之间的相似度定义如下：

sim (c_{i}, a_{j}) = \frac{Σ_{k = 1}^{b} sim (a_{ik}, a_{j})}{b} .

我们采用增量聚类的算法，以降低聚类所需的计算开销。对于一个新提交的答案，算法在已有的分类中寻找与该答案相似度最高的分类，如果该相似度高于指定的阈值，则把新答案分配到该类，否则将生成一个包含该答案的新类。为便于用户的浏览，当问题答案的类数大于10时，算法自动降低阈值，然后对问题的全部答案进行重新分类，直到其类数低于或等于10时。阈值初始为0.5，其后每次降低10％直到其类数低于或等于10时停止。例如，一个问题原先有8个答案，分成两类，分别为c₁＝{a₁，a₆，a₇}和c₂＝{a₂，a₃，a₄，a₅，a₈}，新提交的答案a₉与原先答案的相似度分别为：

	a₁	a₂	a₃	a₄	a₅	a₆	a₇	a₈
	a₁	a₂	a₃	a₄	a₅	a₆	a₇	a₈	a₉	0.98	0.22	0.15	0.47	0.32	0.71	0.59	0.30

经过计算，新答案与原来分类的相似度分别为：

sim(a₉，c₁)＝(0.98+0.71+0.59)/3＝0.76

sim(a₉，c₂)＝(0.22+0.15+0.47+0.32+0.30)/5＝0.292

新答案a₉与分类c₁的相似度较高，且超过域值0.5，所以a₉被分配到分类c₁。

本发明一实施例的问题答案获得方法中所述的分类内部答案的融合步骤，进一步包括：

1)修正答案，除掉与问题无关的答案信息，从答案信息中抽取尽可能覆盖答案的最小信息。

2)根据问题类型和建立了问题类型与答案类型一一对应关系的先验知识库或模板信息库确定符合问题的答案类型。其中，所述的先验知识库，是预先建立的一个信息库，在库中为问题类型和答案类型建立了一一对应的关系，系统可根据问题的类型查找预期的答案的类型，然后再根据答案的类型选择适合的融合规则。问题类型指问题分类时对应的疑问词及语法类型，主要有：when(何时，什么时候)、what(什么)、where(哪里，在哪里)、who(谁，什么人)、which(哪一个)、why(为什么)、how(怎样，如何)、及how+adj/adv(形容词或副词)，如how much(多少)，how old(多大)等。例如，问题是“how much does this watch cost？”。答案的类型(即答案内容或值所属的分类，如年龄是个数字)包括：数字，日期，颜色和价格等。系统通过问题类型“how much”获知答案的类型应为价格，于是可选择平均(avg)，最高(max)，最低(min)，与(and)等几条规则中的一条或多条进行融合。当交互式问答系统采用模板提问回答，且在系统的模板信息库中建立了问题类型和答案类型之间一一对应的关系时，系统可利用模板信息库，根据问题类型查找出预期的答案的类型。

3)选择融合规则，其中，所述融合规则是根据答案类型预先设定，规则根据答案内容的不同，可能会有差异，同时用户也可以自由选择特定规则，这些规则的处理模块作为独立的部分预先嵌入系统中。例如，对于数字(或价格)答案，有平均，最大，最小，范围等规则；对于枚举答案有交，并等规则。同一答案类型有多条规则适用时，用户可以依据自己的需要进行选择。融合规则分两类，分别是基于内容的融合规则和基于数据质量的融合规则，其中基于内容的融合规则是指根据答案内容不一致性所指定的一系列规则，如冗余等。冗余规则可以看作一种多数优先规则，也就是说，如果某一个答案是多数信息用户都投票赞成或者回答相同，则认为它有更大的代表性。而基于数据质量的融合方法是根据数据质量属性来选择答案，其中数据质量属性主要包括：权威性、时效性、可靠性。

4)答案融合策略：

A基于数据质量策略

数据质量是指描述答案的正确性的一组元数据，主要包括数据的权威性、时效性以及可靠性，其计算方法分别如下：

a)权威性(DQ_a)

答案的权威性是用于衡量答案的重要、可信的程度。其中，权威性可根据提供答案的用户的能力值来确定相应的权威性并标准化，公式如下：

D Q_{a} = 1 - e^{- \frac{ability}{adjust}},

其中，ability是指回答者用户的能力值，adjust是调整参数。调整参数越低，函数值随自变量ability的变化就越明显。回答者用户的能力值可用相关问题领域内该用户已正确回答的问题的个数来衡量。

b)时效性(DQ_t)

答案时效性是指从时间上来考虑答案的正确性，其中，时效性可根据用户发布答案的时间来计算，如：

D Q_{t} = \frac{1}{(t_{c} - t_{q}) + 1},

其中，t_q是用户提问时间，t_c是答案发布时间，其单位为天或小时。

c)可靠性(DQ_r)

当某一个答案参与融合时，其回答者的信誉值正则化后(变到[0，1])可作为其答案是否被选中的一个重要标准，可靠性具体公式如下：

D Q_{r} = 1 - e^{- \frac{reputation}{adjust}},

其中，reputation是指回答者用户的信誉值，adjust是调整参数。调整参数越低，可靠性函数值随自变量reputation的变化就越明显。

某回答者用户的信誉值reputation是一个整数，其计算步骤包括：

步骤一，用户行为跟踪，记录用户在系统中的历史行为。该步骤进一步包括用户登陆系统行为、用户浏览问题及答案的行为、用户搜索行为、用户提问行为、用户回答问题行为、用户互相评分行为等可以反映用户与信誉相关的特点的行为记录。该行为用户的信誉值可因每种行为加1分或不同的分数。

步骤二，用户互相评分，该步骤进一步包括用户之间的对相关恶意行为的投诉(如没有按规则选择正确答案)，及用户在浏览其他用户的答案的过程中，对某些回答的支持，或者某问题的提问者对该问题的某些回答的正确与否的判定。被评价的用户的信誉值可因此加或减1分或不同的分数。

基于数据质量的策略侧重考虑依赖于数据质量属性值来考虑对最终答案的选择。其应用公式如下：

d_q＝∑w_iDQ_i

其中，w_i是对应质量属性元素DQ_i的相应的权值，∑_iw_i＝1。

所谓基于数据质量属性的策略是由用户指定每个质量属性的权值，然后通过计算答案的综合质量值dq，选择最大综合质量值的答案作为融合结果。

例如，问题是关于尼康4300的价格信息，假设有三个用户提出了三个关于该问题的不同回答，这三个回答属于同一个聚类，如下表所示。

表格1：关于尼康4300的例子

用户ID	能力值(ability)	信誉值(reputation)
用户ID	能力值(ability)	信誉值(reputation)	1	70	30
2	80	60	1	70	30
2	80	60	3	20	0

答案ID

回答者ID

答案(即价格)

回答时间

权威性(DQ_a)

时效性(DQ_t)

可靠性(DQ_r)

1	1	￥3750	12:002005-10-23	0.50	0.02	0.26
1	1	￥3750	12:002005-10-23	0.50	0.02	0.26	2	2	4250	22:002005-10-21	0.55	0.20	0.45
3	3	3700	19:002005-10-21	0.18	0.50	0.00	2	2	4250	22:002005-10-21	0.55	0.20	0.45
3	3	3700	19:002005-10-21	0.18	0.50	0.00	权值				0.3	0.3	0.4

假设例子中问题的提出时间为18:00 2005-10-21，时效性按小时计算，计算权威性和可靠性的调整参数皆为100。根据前述的公式计算答案一的各个数据质量：

DQ_a＝1-e^(-700/100)≈0.50

DQ_t＝1/(42+1)≈0.02

DQ_r＝1-e^(-30/100)≈0.26

其他答案的数据质量依次类推。然后计算每个答案的综合数据质量：

dq1＝0.3*0.50+0.3*0.02+0.4*0.26＝0.26

dq2＝0.3*0.55+0.3*0.20+0.4*0.45＝0.405

dq3＝0.3*0.18+0.3*0.50+0.4*0.00＝0.204

经过计算，dq2＝0.405为最大值，因此，可以选择第二答案作为最终的融合结果。另外，也可以修改w_i，以增加或减少DQ_i的影响。另外如果设定w_a为1，其它权值则为0，即用户可以只考虑权威性。

B基于内容的策略

基于数据质量属性解决方法只能看作根据某种策略的排序方法，不能最终解决内容冲突，这是因为可能存在答案数据冲突和数据质量相近等的现象。基于内容的策略则主要根据融合规则，将来自多答案的值经过规则调和，形成一个综合结果值。例如，对上表来说，如果对价格采用平均规则，则最终答案为：尼康4300的价格为3900￥。

C综合性策略

综合性策略则是同时利用基于数据质量属性和内容的策略来解决冲突属性值。其基本策略是利用质量属性过虑掉一些答案，再利用基于内容的融合策略解决剩余的答案集的不一致性问题。

利用现有技术的虚拟社区提供的交互式问答系统，用户利用其工作站如计算机通过网络系统(包括：国际互联网和企业内部网等)通过一人机界面如网站提供的网页等可提出问题和/或回答其他用户提出问题，以实现知识和/或各种信息交换的目的。本发明一实施例的采用了所述的对答案进行聚类融合方法的用户交互式问答系统，除包含用于供用户提问的提问模块和回答的回答模块外，进一步包括：

一问题答案聚类模块，用于根据答案内容之间的相似度把用户提供的针对某一问题的多个答案归成多个分类，以对答案进行聚类；

一问题答案融合模块，用于根据问题的类型和先验知识库或模板信息库将所述多个分类中的每一个分类或其中一个分类内部的多个答案按照确定的融合规则进行融合，以处理这些答案中存在的不一致性，提高用户阅读浏览大量答案时的效率；同前所述，在先验知识库或模板信息库中存储有问题类型与答案类型的一一对应关系，由问题的类型即可获得答案的类型，再根据所述答案类型来确定要采用的融合规则。

一人机界面，用于供用户输入提问、输入回答和/或显示问题答案的融合结果，使用户可以方便快速地浏览和/或查找问题答案并进行相应提问和/或回答的操作。

其中，问题答案聚类模块进一步包括：

答案的特征向量抽取模块，用于将答案内容表示成机器可计算的特征向量形式；

答案特征向量之间的相似度计算模块，用于计算所述答案特征向量之间的相似度；

无效答案识别模块，用于识别无效答案，不对其进行聚类；

答案、类别相似度计算模块，用于计算答案与类别之间的相似度，对答案进行聚类。

相应的，其中的特征向量抽取模块、答案特征向量之间的相似度计算模块、无效答案识别模块、答案与类别间的相似度计算模块、融合模块等又进一步包含能实现前述本发明方法中各相应步骤的功能模块，如特征向量抽取模块进一步包括答案内容切分模块、停用词处理模块、英文词形处理模块、答案特征向量生成模块等。

本发明另一实施例的用户交互式问答系统可以是一在线问答网站，包括：一答案聚类融合模块，用来计算针对某一提问的众多答案的相似度，将所述众多答案归成多个分类，以对答案进行聚类；

一答案融合模块，用于将所述多个分类中的每一个分类或其中一个分类内部的多个答案按照确定的融合规则进行融合，以使用户获得正确的答案。

一用户管理模块，用于处理用户注册、登陆、身份验证、信息管理、权限验证。类似的，本发明一实施例的在线网站也具有上述的特征向量抽取模块、答案特征向量之间的相似度计算模块、无效答案识别模块、答案与类别间的相似度计算模块、融合模块等，且各模块又进一步包括为实现前述本发明方法中各相应步骤的功能模块，如特征向量抽取模块进一步包括答案内容切分模块、停用词处理模块、英文词形处理模块、答案特征向量生成模块等。

本发明的方法及系统应用广泛，为用户提供了一个快速浏览问题及其共享答案的方案。本发明除可以应用于在线的用户交互式问答平台外，还可以应用于传统的虚拟社区，如对某一事件的评论也可用此方法进行聚类和融合。提供一个便捷的浏览界面。企业可以利用该发明的系统，为公司员工内部交流提供便利，提高交流的效率，也方便公司领导更快地洞悉员工的各类想法；学校可以利用该系统，作为对教育bbs系统的一个扩展，方便教师和学生在课后的学习交流；等等。总之，所发明的方法及系统可广泛应用于所有有关知识及信息服务上。系统本身就是一个提供知识及信息服务的很好应用。本发明又一实施例的显示针对某一主题的多条信息的显示系统，采用前面所述的对所述多条信息进行聚类融合后显示，使得用户能从围绕某一主题的众多信息如围绕某一新闻的众多评论信息中方便快速地浏览信息和/或获得需要的有价值的信息，提高了用户阅读浏览信息的效率，包括：

一融合模块，用于将所述多个分类中的每一个分类或其中一个分类内部的多条信息按照确定的融合规则进行融合。

类似的，本发明一实施例的针对某一主题的多条信息的显示系统进一步包括实现本发明显示方法所需的各功能模块，同前所述，在此不再重复说明。

图2A、2B为本发明一实施例系统人机界面图，用于显示对答案进行聚类融合后的结果。其中图2A中描述的是聚类未展开时的图，图2B描述的是聚类展开后的图。图2A中，提出的问题为“Where is shanghai？”(上海在哪？)，显示出两个未展开的聚类融合结果：

(1)“It located China.”(在中国。)，其综合质量值为0.76，属于该类的答案有6个。图2B中示出了具体的这6个答案及其相应的质量值，其中，一个聚类显示的综合质量值是其包含的答案的综合质量的最大值。

(2)“It located in PRC.”(在中华人民共和国。)，其综合质量值为0.51，属于该类的答案有1个。

本发明一实施例的系统包括一问题的答案聚类模块，一分类内部答案的融合模块，一基于答案聚类的人机界面。

当用户对某问题提出一个新的答案后，系统调用问题的答案聚类模块对新增加的答案进行归类。如果问题原本没有答案，则生成一个新的分类，把新答案分配到该分类；否则按照发明内容部分所述问题的答案聚类方法对新增答案进行聚类。聚类的结果保存在服务器中，供以后用户浏览时读取调用。

每个用户根据自己的需求可以自行选择合适的融合规则，以及数据质量的权值，即用户根据自己的需求可以自行选择融合规则，因此答案归类后并不直接进行融合过程。当一个用户选择聚类界面浏览答案时，系统根据用户对数据质量的偏好及融合规则的设置，按照发明内容部分所述分类内部答案的融合方法进行融合。融合的结果直接显示在用户屏幕上所示，不会保存在数据库中。

每个答案分类初始时都未展开(如图2A)，仅显示该分类的一个总结，包括答案的数目、代表性的答案(即融合结果)以及该答案的数据质量。如果用户对分类的总结感到满意，则无须花费时间浏览其它的答案；否则，用户可以点击按钮展开相关分类的详细内容，以获得更多的信息(如图2B)。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种问题答案的阅读浏览显示方法，用于提高用户阅读浏览某一问题的众多答案的效率，其特征在于，包括：

2、根据权利要求1所述的问题答案阅读浏览显示方法，其特征在于，所述步骤2进一步包括：

步骤202，根据确定的答案类型预先确定答案融合的规则。

3、根据权利要求1或2所述的问题答案阅读浏览显示方法，其特征在于，所述步骤1进一步包括：

步骤102，计算所述答案特征向量之间的相似度；

步骤103，识别无效答案，不对其进行聚类；

步骤104，计算答案与类别之间的相似度，对答案进行聚类。

4、根据权利要求3所述的问题答案阅读浏览显示方法，其特征在于，所述步骤101进一步包括：

步骤403，计算所述单词集合中任一单词T_i的权重w_i；

5、根据权利要求4所述的问题答案阅读浏览显示方法，其特征在于，所述步骤401进一步包括：

6、根据权利要求5所述的问题答案阅读浏览显示方法，其特征在于，所述单词的权重w_i根据公式w_i＝log₂{N/[∑_jsim(T_i，T_j)*df(T_j)]}计算得出，其中，df(T_j)为包含T_j的答案的频率，N是问题的答案总数。

7、根据权利要求6所述的问题答案阅读浏览显示方法，其特征在于，所述步骤102根据如下公式计算所述答案特征向量之间的相似度：

sim (a_{1}, a_{2}) = (\frac{Σ_{i = 1}^{n} \max_{1 \leq j \leq m} {sim (T_{li}, T_{2 j})} * w_{1 i}}{Σ_{i = 1}^{n} w_{1 i}} + \frac{Σ_{j = 1}^{m} \max_{1 \leq i \leq n} {sim (T_{2 j}, T_{1 i})} * w_{2 j}}{Σ_{j = 1}^{m} w_{2 j}}) / 2

8、根据权利要求3所述的问题答案阅读浏览显示方法，其特征在于，所述步骤104采用增量聚类的算法对答案进行聚类，根据如下公式计算新提交的答案a_j与已有分类的相似度，判断所述已有分类与答案a_j的相似度中的最高的相似度值是否高于一预先设定的第一阈值；如是，则将答案a_j归入此类；如否，则生成一个包含答案a_j的新类；其中，计算答案与类之间相似度的公式如下：

sim (c_{i}, a_{j}) = \frac{Σ_{k = 1}^{b} sim (a_{ik}, a_{j})}{b},

9、根据权利要求1、2、4-8中任一权利要求所述的问题答案阅读浏览显示方法，其特征在于，所述融合规则是基于答案内容和/或数据质量的；其中，采用基于数据质量的融合规则进行融合的步骤具体包括：

根据公式

{DQ}_{a} = 1 - e^{- \frac{ability}{adjust}}

根据公式

{DQ}_{t} = \frac{1}{(t_{c} - t_{q}) + 1}

根据公式

{DQ}_{r} = 1 - e^{- \frac{reputation}{adjust}}

10、根据权利要求9所述的问题答案阅读浏览显示方法，其特征在于，所述步骤2进一步包括：

步骤1001，利用基于数据质量的融合规则过滤部分答案；

11、一种利用权利要求1、2、4-8、10中任一权利要求所述方法来显示问题答案的问题回答系统，用于供用户利用其工作站通过网络系统进行交互式提问和回答，包括：

其特征在于，还包括：

12、根据权利要求11所述的系统，其特征在于，进一步包括一人机界面，用于供用户输入提问、输入回答和/或显示问题答案的融合结果。

13、根据权利要求11或12所述的问题答案阅读浏览显示方法，其特征在于，所述问题答案融合模块进一步包括：

14、一种利用权利要求1、2、4-8、10中任一权利要求所述的显示方法来显示针对某一主题的多条信息的显示系统，其特征在于，包括：

15、一种在线问答网站，其特征在于，包括：