CN103218436A - 一种融合用户类别标签的相似问题检索方法及装置 - Google Patents

一种融合用户类别标签的相似问题检索方法及装置 Download PDF

Info

Publication number
CN103218436A
CN103218436A CN2013101330771A CN201310133077A CN103218436A CN 103218436 A CN103218436 A CN 103218436A CN 2013101330771 A CN2013101330771 A CN 2013101330771A CN 201310133077 A CN201310133077 A CN 201310133077A CN 103218436 A CN103218436 A CN 103218436A
Authority
CN
China
Prior art keywords
label
class
inquiry
similar
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101330771A
Other languages
English (en)
Other versions
CN103218436B (zh
Inventor
周光有
赵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310133077.1A priority Critical patent/CN103218436B/zh
Publication of CN103218436A publication Critical patent/CN103218436A/zh
Application granted granted Critical
Publication of CN103218436B publication Critical patent/CN103218436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种融合用户类别标签的相似问题检索方法及其装置,所述包括:步骤1、计算每个用户类别标签之间的相似度;步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。因此,最终的相似问题检索仅仅考虑与查询问题在类别标签上相似或相近的历史问题,大大减少了搜索的空间以及主题不相关历史问题的干扰,有效地提高了检索的效率和性能。经过实验证明,在大规模的社区问答数据集中,相似问题检索的效率提高了81.77倍,检索的性能提升了11.25%。

Description

一种融合用户类别标签的相似问题检索方法及装置
技术领域
本发明涉及自然语言处理技术领域,是一种融合用户类别标签的相似问题检索方法及装置。
背景技术
问答系统是自然语言处理领域的重要研究课题。然而,受限于自然语言处理和人工智能的技术水平,自动问答系统只能较好地回答一些相对简单的事实性、列表性和定义性提问,因而离用户更广泛的真实信息需求仍有很大差距,这极大地限制了自动问答系统的实用性。随着Web2.0的兴起,基于用户生成(User-Generated Content,UGC)的互联网服务越来越流行,社区问答应运而生,例如Yahoo!Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。相似问题检索是社区问答分析的基础,占有很重要的位置。相似问题检索是指从大规模的问题库中检索出与查询问题在语义上相似或相近的历史问题,并将这些问题对应的答案返回给用户,用户回答该查询问题。因此,社区问答相似问题检索具有重要的理论意义和实用价值。
目前社区问答相似问题检索存在的一个本质缺陷是:对于用户给定的查询问题,社区问答中所有的历史问题都需要参与相似度计算,尽管有大量的历史问题与查询问题存在一定数量的重叠词条,但它们的类别标签是完全不同的,这些类别标签下的历史问题也是不相关的。因此,这些大量的无关历史问题将会增加检索系统搜索的空间以及不相关历史问题的干扰,影响相似问题检索的效率和性能。
在社区问答中,所有的问题(查询问题和历史问题)都按照一定的类别标签结构组织。当用户提出一个查询问题后,系统需要用户从预先定义的类别标签结构中选择一个合适的类别作为该问题的类别标签。解决上述问题的一个方法就是融合用户类别标签,在检索的过程中根据查询问题与历史问题之间的类别标签来判断查询问题与历史问题是否是相关的。而融合用户类别标签的方法的前提是首先要构造一个有效的类别标签相似度计算方法,其次是这个相似度阈值的设置要合理,不能损失太多的准确率。而直接使用查询问题和历史问题的类别标签进行匹配,相似问题检索的准确率会大打折扣,主要原因是在社区问答中,并不是所有相似或相关的历史问题都来自于与查询问题完全匹配的类别标签下,其中有大量的相关历史问题来自于与查询问题在类别上相似的类别标签下。因此,本发明首先需要计算类别标签之间的相似度,如果查询问题与历史问题之间的类别标签相似度很高,则查询问题与历史问题具有较高的主题相似度。然后根据预先设定的阈值,如果查询问题与历史问题之间的类别标签相似度低于这个阈值,将该类别下的所有历史问题过滤掉,不参与最后的检索结果排序。
根据上述思路,本发明主要针对社区问答相似问题检索的效率和性能入手,成功地将用户类别标签引入相似问题检索的过程中,通过实验证明,该方法有效地提高了相似问题检索的效率和性能。
发明内容
有鉴于此,本发明通过充分利用社区问答中的用户类别标签,将与查询问题在类别上无关的历史问题过滤掉,在最终的检索排序结果中仅仅考虑与查询问题在类似上相似或相似的类别下的历史问题,从而减少相似问题搜索的空间以及主题不相关历史问题的干扰,提高相似问题检索的效率和性能。
本发明公开了一种融合用户类别标签的相似问题检索方法,包括如下步骤:
步骤1、计算每个用户类别标签之间的相似度;
步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;
步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。
本发明还公开了一种融合用户类别标签的相似问题检索装置,其包括:
相似度计算模块,其用于计算每个用户类别标签之间的相似度;
融合用户类别标签的检索模块,其用于根据用户输入的查询问题,建立融合用户类别标签的检索模型,并根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。
本发明采用融合用户类别标签的思想来提升相似问题检索的效率和性能。通过计算用户类别标签之间的相似度,根据预先设定的阈值,将与查询问题在类别标签上不相关的历史问题过滤掉,然后在与查询问题在类别标签上相似或相近的历史问题库中进行检索,从而提高了相似问题检索的效率和性能。
附图说明
图1是本发明中融合用户类别标签的相似问题检索方法流程图。
图2是本发明中融合用户类别标签的问答相似问题检索装置结构图。
图3是一种社区问答类别标签示例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明公开了一种融合用户类别标签的相似问题检索方法及装置。其可以分为离线过程和在线过程两部分。离线过程即从大规模的历史问题库中获得类别标签之间的相似度。在线过程则通过建立融合用户类别标签的检索模型,检索与所述查询问题相似度最高的几个历史问题并返回给用户。
图1示出了本发明提出的一种融合用户类别标签的相似问题检索方法。如图1所示,其包括离线部分和在线部分两个阶段。其中离线过程包括:
步骤(1)、将历史问题库中每个用户类别下的所有历史问题合并成一个大的文档,每个文档实质上对应一个用户类别标签c。
步骤(2)、利用LDAGibbs++工具,对上述文档集合进行主题分析后,每个用户类别c都可以表示成一个Z维的主题分布向量p(z|c)。
步骤(3)、利用Jensen香农距离计算每个用户类别标签之间的相似度。
所述在线过程包括:
步骤(1)、建立融合用户类别标签的检索模型;
步骤(2)、根据建立的检索模型,设置类别标签相似度的阈值;
步骤(3)、根据阈值,将与查询问题在类别标签上不相关的历史问题过滤掉。然后在与查询问题在类别标签上相同或相似的历史问题构成的集合中进行检索。按照查询问题与历史问题之间的相似度进行排序,将排序最高的N个历史问题作为最终的结果输出,同时将这些相似问题对应的答案返回给用户。
图2示出了本发明中提出的融合用户类别标签的相似问题检索装置。如图2所示,该检索装置包括:用户类别标签相似度计算模块、融合用户类别标签的检索模块、类别标签相似度的阈值设定模块以及查询问题类别下相似度计算模块。
所述用户类别标签相似度计算模块,用于计算两个用户类别标签之间的相似度。
类别标签相似度的常用计算方法是基于该类别下文本内容分析的方法。然而,由于用户类别标签下包含的问题数目往往很少,如果直接采用上述方法,因数据稀疏的问题,导致相似度计算的准确性会下降。因此,本发明中利用主题模型来计算两个类别标签之间的相似度。所述两个类别标签之间的相似度的主题模型,其基本假设是如果两个类别标签越相似,则它们对应同一个主题的概率也较大。
图3示出了一种社区问答类别标签示例的结构示意图。如图3所示,类别标签“Monitors”、“Scanners”和“Printers”都是相似的类别,因为它们均属于同一个主题“Computer Hardware”。
所述用户类别标签相似度计算模块首先将同一个用户类别下的所有历史问题合并成一个大的文档,合并后的每个文档实质上对应一个类别标签c。然后,所述用户类别标签相似度计算模块利用GibbsLDA++工具识别每个类别标签c的主题信息,并将每个类别标签c表示成一个Z维的主题分布向量p(z|c),其中Z表示主题的数目,这样类别标签之间的相似度可以转化成类别标签主题分布向量之间的距离。最后,所述用户类别标签相似度计算模块利用Jensen香农距离来度量两个类别标签之间的相似度。从用户类别标签cj到ci的Jensen香农距离可以用公式表示如下:
R ( c j → c i ) = 1 2 { P KL ( c j | | c i ) + P KL ( c i | | c j ) }
其中, P KL ( c j | | c i ) = Σ z p ( z | c j ) log p ( z | c j ) p ( z | c i ) 表示KL距离(Kullback-Leiblerdivergence)。如果R(cj→ci)∈[0,1]越大,则类别标签cj与ci越相似。当所有的类别标签两两都计算完毕后,可以获得类别标签相似度矩阵Mc={mji=R(cj→ci)}
所述融合用户类别标签的检索模块用于根据用户类别标签之间的相似度建立融合用户类别标签的检索模型。本发明中定义的融合类别标签的检索模型,可以用如下公式表示:
P RCS ( d | q , c q ) = 1 A { α P BCS ( d | q , c q ) + Σ sc q ∈ Related ( c q ) R ( sc q → c q ) P BCS ( d | q , sc q ) }
其中,公式左边PRCS(d|q,cq)表示在给定查询问题类别标签cq的条件下,查询问题q和历史问题d之间的关联概率;公式右边PBCS(d|q,Cq)表示给定查询问题类别标签cq的条件下,查询问题q和历史问题d之间的似然概率;PBCS(d|q,scq)表示查询问题与相似类别标签scq下历史问题d之间的似然概率;Related(cq)表示与cq相似的类别标签集合,scq表示与cq相似的类别标签;R(scq→cq)表示类别标签scq与类别标签cq之间的相似度;
Figure BDA00003061191300054
表示归一化因子,使得公式左边PRcs(d|q,cq)的概率在0到1之间;参数α控制公式右边PBCS(d|q,cq)与 Σ sc q ∈ Related ( c q ) R ( sc q → c q ) P BCS ( d | q , sc q ) 之间的相对权重大小。
所述类别标签相似度的阈值设定模块用于设定类别标签相似度的阈值。本发明中如下定义Related(cq):
scq∈Related(cq),如果R(scq→cq)≥δ
其中,参数δ∈[0,1]为类别标签相似度的阈值,该参数可以通过在开发集上调试获得最佳的参数选择。
由于在类别标签相似度的阈值设定模块设置特定的阈值后,上述融合用户类别标签的检索模块在计算的过程中,仅仅需要考虑与查询问题在类别标签上相似或相近的历史问题,这些类别标签下的历史问题数目只占到总数的5%左右。因此,系统的搜索空间大大减低,同时也避免了不相关历史问题的干扰,检索的效率和性能明显提升。
所述查询问题类别标签下相似度计算模块用于计算查询问题类别标签下查询问题与历史问题之间的相似度。
社区问答中每个问题(查询问题和历史问题)都有唯一的类别标签,如图3所示的是Yahoo!Answers社区问答的部分类别标签结构图。本发明定义cq表示查询问题q的类别标签,定义c(d)为历史问题d的类别标签。查询问题类别标签cq下,查询问题与所述查询问题类别标签下的历史问题之间的似然概率用如下的公式表示:
PBCS(d|q,cq)∝PBCS(q,cq|d)P(d)
PBCS(q,cq|d)=PBCS(q|cq,d)P(cq|d)
p ( c q | d ) = 1 if c q = c ( d ) 0 otherwise
其中,PBCS(d|q,cq)表示在查询问题类别标签cq的条件下,查询问题q和历史问题d之间的似然概率;PBCS(q,cq|d)表示查询问题q和历史问题d在特定类别标签cq下的后验概率;P(d)表示历史问题d的先验,一般设置为常数;PBCS(q|cq,d)表示在给定查询问题类别标签cq的条件下,查询问题q和历史问题d之间的相似度;P(cq|d)表示历史问题d属于类别标签cq的概率;c(d)表示历史问题d对应的用户类别标签。查询问题与相似类别标签scq下历史问题d之间的似然概率和所述查询问题与所述查询问题类别标签下的历史问题之间的似然概率的计算方式一样。
上述查询问题q和历史问题d在查询问题类别标签cq下的相似度PBCS(q|cq,d),优先地采用一元语言模型(unigram language model)计算。为了避免零概率的出现,采用Jelinek-Mercer平滑方法,因为该平滑方法性能良好并且计算复杂度低。PBCS(q|cq,d)可以采用如下的公式计算:
P BCS ( q | c q , d ) = Π w ∈ q P LM ( w | c q , d )
PLM(w|cq,d)=(1-λ)Pml(w|d)+λPml(w|cq)
P ml ( w | d ) = N ( w , d ) | d |
P ml ( w | c q ) = N ( w , c q ) | c q |
其中,PBCS(q|cq,d)表示在给定查询问题类别标签cq的条件下,查询问题q和历史问题d之间的相似度;PLM(w|cq,d)表示历史问题d的一元语言模型;Pml(w|d)表示查询问题q中词w在历史问题d中的极大似然概率;Pml(w|cq)表示查询问题中的词w在查询问题类别标签cq中的极大似然概率;参数λ∈[0,1]表示平滑参数,N(w,d)表示词w在历史问题d中的频率,N(w,cq)表示词w在查询问题类别标签cq中的频率,|d|表示历史问题d中包含的词数目,|cq|表示查询问题类别标签cq下的单词数目。
为了说明本发明提出的上述融合用户类别标签的问答相似问题检索方法及其装置的性能,通过下面的两组实验数据来验证其性能。所述实验主要分为两个部分,分别验证融合用户类别标签对系统检索效率的提升以及对检索性能的提高。
本发明的实验数据来源于Yahoo!Answers社区问答系统,在这些历史问题集中,每个问题主要由四部分组成:问题的题目、问题的类别、问题的描述以及问题的答案。我们所采用的数据集包含1232个用户类别标签,2,288,607个问答对。为了评价该发明方法的有效性,另外选择了252个查询问题作为测试数据集。对于测试数据集中的每个查询问题,采用语言模型检索出最好的20个结果,然后让两个标注者去手工标注。如果返回的历史问题与该查询问题相似,就标注为“相关”,否则标注为“不相关”。如果两个标注者的标注结构有冲突,让第三个人来做最终的决定。在判断历史问题与查询问题是否相似的过程中,标注者仅仅知道问题本身。
假设Qt表示测试问题集,本发明采用如下两个评价指标:
平均正确率(MAP):其计算公式如下:
MAP ( Q t ) = 1 Q t Σ q ∈ Q t 1 m q Σ k = 1 m q Precision ( R k )
其中,mq是与查询问题q相关的问题数目,Rk是检索结果中第k个问题及其之前全部问题的集合,Precision(Rk)是Rk与q相关的问题比例。该指标反映了测试结果整体上的平均水平。
PrecisionK(PK):定义为系统对于查询问题返回的前K个结果的准确率。整个测试集的PrecisionK为测试集合中所有问题的PrecisionK的平均值,其计算公式如下:
P ( q ) K = k K
其中,k表示检索系统返回的前k个问题中相关问题数目,K表示检索系统返回的问题总数目。因此,
P K = Σ q = 1 Q t p ( q ) K Q t
考虑到用户在查看检索结果时,往往希望在前面几个结果就找到自己所需要的信息,因此常常设置K=10。
系统运行在4G内存,Intel Core2.5GHz CPU的PC机上,采用JAVA编程语言。
本发明通过融合用户类别标签,将与查询问题在类别标签上不相关的历史问题过滤掉,从而减小相似问题搜索的空间,提高检索的效率。表1给出了检索效率的实验。
检索方法 平均搜索空间 平均响应时间(以秒为单位)
LM 2,288,607 0.351
RCS_LM 101,466(↓95.57%) 0.064(↓81.77%)
表1:融合用户类别标签后系统的检索效率。
如表1所示,LM表示传统的基于语言模型的相似问题检索方法,RCS_LM表示融合用户类别标签的相似问题检索方法,平均搜索空间指对于每一个查询问题,系统平均需要从多大规模的问题集中找到与该查询相似的历史问题,平均响应时间只指对于每一个查询问题,系统返回最相似的前10个历史问题平均需要的时间,以秒为单位。通过表1的对比,我们可以看到,本发明的方法可以使搜索空间的规模减小95.57%,检索的效率提高81.77%。实验结果证明,本发明可以有效地提高相似问题检索的效率。
在社区问答中,尽管有大量的历史问题与查询问题存在一定数量的重叠词条,但它们在类别标签上是完全不相关的,这些不相关的历史问题会严重干扰结果的准确率。本发明融合用户类别标签,可以将这些主题不相关的历史问题过滤掉,只保留主题相同或相关的历史问题。表2给出了融合用户标签后相似问题检索性能的实验。
检索方法 MAP P10
LM 0.382 0.240
RCS_LM 0.453(↑18.59%) 0.267(↑11.25%)
表2:融合用户类别标签后相似问题检索性能的实验
如表2所示,融合用户标签后,相似问题检索的性能有明显的提升。如MAP提升了18.59%,P10提升了11.25%。实验结果证明,本发明可以较好地提升相似问题检索的性能。
从以上表1和表2的实验结果可以看到,融合用户类别标签的相似问题检索方法在效率和性能都取得了不错的效果,这个方法被证明是有效的。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种融合用户类别标签的相似问题检索方法,包括如下步骤:
步骤1、计算每个用户类别标签之间的相似度;
步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;
步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。
2.如权利要求1所述的方法,其特征在于,所述融合用户类别标签的检索模型基于以下几个条件之一或它们的组合,计算查询问题与查询问题类别标签和相似类别标签下的历史问题之间的关联概率:
1)查询问题与所述查询问题类别标签下的历史问题之间的似然概率;
2)查询问题类别标签与相似类别标签之间的相似度;
3)查询问题与所述相似类别标签下的历史问题之间的似然概率。
3.如权利要求2所述的方法,其特征在于,所述融合用户类别标签的检索模型具体如下表示:
P RCS ( d | q , c q ) = 1 A { α P BCS ( d | q , c q ) + Σ sc q ∈ Related ( c q ) R ( sc q → c q ) P BCS ( d | q , sc q ) }
其中,PRCS(d|q,cq)表示查询问题与查询问题类别标签cq和相似类别标签scq下的历史问题之间的关联概率,PBCS(d|q,cq)表示查询问题与所述查询问题类别标签下的历史问题之间的似然概率;PBCS(d|q,scq)表示查询问题与相似类别标签scq下历史问题d之间的似然概率;Related(cq)表示与cq相似的类别标签集合,scq表示与cq相似的类别标签;R(scq→cq)表示类别标签scq与类别标签cq之间的相似度;A表示归一化因子,α为权重值。
4.如权利要求1所述的方法,其特征在于,所述步骤2还包括:设置类别标签相似度的阈值,所述相似类别标签为与所述查询问题类别标签的相似度高于所述阈值的类别标签。
5.如权利要求1-4任一项所述的方法,其特征在于,所述类别标签之间的相似度如下计算:
R ( c j → c i ) = 1 2 { P KL ( c j | | c i ) + P KL ( c i | | c j ) }
其中,ci与cj表示类别标签; P KL ( c j | | c i ) = Σ z p ( z | c j ) log p ( z | c j ) p ( z | c i ) 表示KL距离;z表示所有类别标签对应的主题数目;p(z|c)表示在类别标签c下的主题分布。
6.如权利要求3所述的方法,其特征在于,查询问题与历史问题之间的似然概率如下计算:
PBCS(d|q,c)∝PBCS(q,c|d)P(d)
PBCS(q,c|d)=PBCS(q|c,d)P(c|d)
P ( c | d ) = 1 ifc = c ( d ) 0 otherwise
其中,c为查询问题类别标签或与其相似的类别标签,PBCS(d|q,c)表示查询问题q和类别标签c下的历史问题d之间的似然概率;PBCS(q,c|d)表示查询问题q和类别标签c下的历史问题d的后验概率;P(d)表示历史问题d的先验,一般设置为常数;PBCS(q|c,d)表示查询问题q和类别标签c下的历史问题d之间的相似度;P(c|d)表示历史问题d是否属于类别标签c的概率,c(d)表示历史问题d对应的类别标签。
7.如权利要求6所述的方法,其特征在于,所述后验概率如下计算:
P BCS ( q | c , d ) = Π w ∈ q P LM ( w | c , d )
PLM(w|c,d)=(1-λ)Pml(w|d)+λPml(w|c)
P ml ( w | d ) = N ( w , d ) | d |
P ml ( w | c ) = N ( w , c ) | c |
其中,PBCS(q|c,d)表示查询问题q和类别标签c下的历史问题d之间的相似度;PLM(w|c,d)表示历史问题d的一元语言模型;Pml(w|d)表示词w在历史问题d中的极大似然概率;Pml(w|c)表示查询问题中的词w在类别标签c中的极大似然概率;参数λ∈[0,1]表示平滑参数,N(w,d)表示查询问题中的词w在历史问题d中的频率,N(w,cq)表示查询问题中的词w在类别标签c中的频率,|d|表示历史问题d中包含的词数目,|c|表示类别标签c下的单词数目。
8.如权利要求1所述的方法,其特征在于,步骤1之前还包括:将同一类别标签下的所有历史问题合并成一个文档,所有历史问题构成文档集,且每个文档对应一个类别标签。
9.如权利要求1所述的方法,其特征在于,所述相似问题为多个,且所述方法还包括向用户返回所述多个相似问题的答案。
10.一种融合用户类别标签的相似问题检索装置,其包括:
相似度计算模块,其用于计算每个用户类别标签之间的相似度;
融合用户类别标签的检索模块,其用于根据用户输入的查询问题,建立融合用户类别标签的检索模型,并根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。
11.如权利要求10所述的装置,其特征在于,该装置还包括类别标签相似度的阈值设定模块,其用于设置类别标签相似度的阈值,所述相似类别标签为与所述查询问题类别标签的相似度高于所述阈值的类别标签。
CN201310133077.1A 2013-04-17 2013-04-17 一种融合用户类别标签的相似问题检索方法及装置 Active CN103218436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310133077.1A CN103218436B (zh) 2013-04-17 2013-04-17 一种融合用户类别标签的相似问题检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310133077.1A CN103218436B (zh) 2013-04-17 2013-04-17 一种融合用户类别标签的相似问题检索方法及装置

Publications (2)

Publication Number Publication Date
CN103218436A true CN103218436A (zh) 2013-07-24
CN103218436B CN103218436B (zh) 2016-05-18

Family

ID=48816223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310133077.1A Active CN103218436B (zh) 2013-04-17 2013-04-17 一种融合用户类别标签的相似问题检索方法及装置

Country Status (1)

Country Link
CN (1) CN103218436B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473297A (zh) * 2013-09-05 2013-12-25 北京邮电大学 一种基于智能移动终端的多媒体问答系统和方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN105446972A (zh) * 2014-06-17 2016-03-30 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
CN105893560A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 一种向用户反馈有效信息的方法和装置
CN106844407A (zh) * 2015-12-07 2017-06-13 华为技术有限公司 基于数据集相关性的标签网络产生方法和系统
CN107301229A (zh) * 2017-06-22 2017-10-27 美味不用等(上海)信息科技股份有限公司 基于语义分析的反馈指派方法及系统
CN107391760A (zh) * 2017-08-25 2017-11-24 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN107807933A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种针对提问的回复方法和装置
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手
CN109272319A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 社区映射及交易违规社区标识方法、装置、电子设备
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质
CN115964471A (zh) * 2023-03-16 2023-04-14 成都安哲斯生物医药科技有限公司 医疗数据近似查询方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071432A (zh) * 2007-04-29 2007-11-14 腾讯科技(深圳)有限公司 一种相关问题检索方法及系统
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与系统
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法
CN102789466A (zh) * 2011-05-19 2012-11-21 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071432A (zh) * 2007-04-29 2007-11-14 腾讯科技(深圳)有限公司 一种相关问题检索方法及系统
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102789466A (zh) * 2011-05-19 2012-11-21 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与系统
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAICHUAN LI等: "Question Routing in Community Question Answering: Putting Category in Its Place", 《CIKM 2011,OCTOBER 24-28,2011,GLASGOW,SCOTLAND,UK》, 28 October 2011 (2011-10-28), pages 2041 - 2043 *
GUANGYOU ZHOU等: "Joint Relevance and Answer Quality Learning for Question Routing in Community QA", 《CIKM 2012,OCTOBER 19-NOVEMBER 2,2012,MAUI,HI,USA》, 2 November 2012 (2012-11-02), pages 1494 - 1495 *
XIN CAO等: "A Generalized Framework of Exploring Category Information for Question Retrieval in Community Question Answer Archives", 《INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTEE(IW3C2)2010,APRIL 26-30,RALEIGH,NORTH CAROLINA,USA》, 30 April 2010 (2010-04-30), pages 201 - 202 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473297A (zh) * 2013-09-05 2013-12-25 北京邮电大学 一种基于智能移动终端的多媒体问答系统和方法
CN103823844B (zh) * 2014-01-26 2017-02-15 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN105446972A (zh) * 2014-06-17 2016-03-30 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
CN105446972B (zh) * 2014-06-17 2022-06-10 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
CN106844407B (zh) * 2015-12-07 2020-03-10 华为技术有限公司 基于数据集相关性的标签网络产生方法和系统
CN106844407A (zh) * 2015-12-07 2017-06-13 华为技术有限公司 基于数据集相关性的标签网络产生方法和系统
CN105893560A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 一种向用户反馈有效信息的方法和装置
CN107807933A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种针对提问的回复方法和装置
CN107301229A (zh) * 2017-06-22 2017-10-27 美味不用等(上海)信息科技股份有限公司 基于语义分析的反馈指派方法及系统
CN107451199B (zh) * 2017-07-05 2020-06-26 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
US10977447B2 (en) 2017-08-25 2021-04-13 Ping An Technology (Shenzhen) Co., Ltd. Method and device for identifying a user interest, and computer-readable storage medium
CN107391760A (zh) * 2017-08-25 2017-11-24 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
WO2019037195A1 (zh) * 2017-08-25 2019-02-28 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN110147426B (zh) * 2017-12-01 2021-08-13 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN109101493B (zh) * 2018-08-01 2022-04-01 东北大学 一种基于对话机器人的智能购房助手
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手
CN109272319A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 社区映射及交易违规社区标识方法、装置、电子设备
CN109272319B (zh) * 2018-08-14 2022-05-31 创新先进技术有限公司 社区映射及交易违规社区标识方法、装置、电子设备
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质
CN115964471A (zh) * 2023-03-16 2023-04-14 成都安哲斯生物医药科技有限公司 医疗数据近似查询方法

Also Published As

Publication number Publication date
CN103218436B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103218436A (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN102402561B (zh) 一种搜索方法和装置
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN103235812B (zh) 查询多意图识别方法和系统
CN106372117B (zh) 一种基于词共现的文本分类方法及其装置
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN104484380A (zh) 个性化搜索方法及装置
CN103049470A (zh) 基于情感相关度的观点检索方法
CN110046298A (zh) 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
Raviv et al. A ranking framework for entity oriented search using markov random fields
CN102081601A (zh) 一种领域词识别方法和装置
CN101814085A (zh) 基于wdb特征和用户查询请求的web数据库选择方法
Buitelaar et al. Hot topics and schisms in NLP: Community and trend analysis with saffron on ACL and LREC proceedings
CN108595413B (zh) 一种基于语义依存树的答案抽取方法
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
CN108509588A (zh) 一种基于大数据的律师评估方法及推荐方法
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN112527985A (zh) 未知问题处理方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant