CN102609500A - 一种问题推送方法和采用该方法的问答系统和搜索引擎 - Google Patents
一种问题推送方法和采用该方法的问答系统和搜索引擎 Download PDFInfo
- Publication number
- CN102609500A CN102609500A CN201210022422XA CN201210022422A CN102609500A CN 102609500 A CN102609500 A CN 102609500A CN 201210022422X A CN201210022422X A CN 201210022422XA CN 201210022422 A CN201210022422 A CN 201210022422A CN 102609500 A CN102609500 A CN 102609500A
- Authority
- CN
- China
- Prior art keywords
- user
- word
- similarity
- term vector
- characteristic term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种问题推送方法和系统,该方法包括如下步骤:1)提取问题的特征词向量;2)利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;3)根据所计算的相似度,把问题推送给一个或多个用户。该问题推送方法和系统可以准确、全面地选择被推送的用户。将该方法应用于问答系统中,尤其是搜索引擎的问答系统中,可以提高回答的准确性和时效性,有效节省网络资源。
Description
技术领域
本发明涉及数字信息处理领域,更具体地,涉及数字信息检索领域。
背景技术
在问答类系统中,一个完整的问题页面包括一个用户提出的问题,以及其他用户对该问题给出的一个或多个答案。当有用户在问答类系统中查询新的问题时,该系统需要将新问题推送给不同的用户以获得解答,并将解答返回给提问用户。为了保证问题答复的准确、高效,系统需要将问题推送给有可能能够回答出该问题的用户。因此,问题推送是问答类系统不可回避的一个问题。
现有的问题推送技术是基于检索词的,也就是说,一般依据问题中的特征词与用户之间的相似程度来选择被推送的用户。
具体而言,根据用户以前的网络行为为每个用户建立唯一的特征模型;对于用户提出的新问题,计算问题的特征词与每个用户特征模型之间的相似度;当相似度较高时,则将该新问题推送给特征模型所对应的用户,以让用户给出理想答案。
上述基于检索词的问题推送方法确定的被推送用户不够准确和全面。不够准确体现在:例如,假设一个用户A曾经回答关于“苹果电脑”的问题,那该用户的特征模型中可能包含特征词“苹果”。如果另一用户B提交了个“苹果多少钱一斤”的新问题,那么基于检索词的方法,该新问题将被推送给用户A,但该用户A的选择显然是不准确的。不够全面体现在:假设一个用户A的特征模型中包含“兰蔻”这一特征词,而另一用户B提交了关于“香奈儿”的问题,由于这两者没有相似性,所以基于检索词的问题推送方法不可能将该关于“香奈儿”的问题推送给A。但事实上,通常包含这些特征词的特征模型所对应的用户通常对化妆品会比较了解,也就是说,他们很有可能能够给出关于“香奈儿”的问题的答案。
由于语言文字的多样性,问答系统并不能限定用户所输入的新问题的语言格式,因此实质内容上相同的一个问题会用多种语言表达。而现有的基于检索词的问题推送方法也无法对这种情况进行合理的推送。
发明内容
为解决上述技术问题,本发明的目的在于提供一种能够准确、全面地选择推送对象的问题推送方法。
根据本发明一个方面,提供了一种问题推送方法,包括如下步骤:
1)提取问题的特征词向量;
2)利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;
3)根据所计算的相似度,把问题推送给一个或多个用户。
根据本发明另一方面,提供了一种问题推送系统,包括:
向量提取模块,用于提取问题的特征词向量;
相似度计算模块,用于利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;
问题推送模块,用于根据所计算的相似度,把问题推送给一个或多个用户。
根据本发明又一方面,提供了一种问答系统,包括上述的问题推送系统。
根据本发明再一方面,提供了一种搜索引擎,包括上述的问答系统。
利用本发明所提供的问题推送方法可以准确、全面地选择被推送的用户。将该方法应用于问答系统中,尤其是搜索引擎的问答系统中,可以提高回答的准确性和时效性,有效节省网络资源。
附图说明
图1是根据本发明一个优选实施例的问题推送方法流程图;
图2是根据本发明一个优选实施例的层次关系图的局部示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的问题推送方法和采用该方法的问答系统和搜索引擎进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明通过词的类别来确定词与词之间的相似度,而与语言等其他因素无关,以此来保证可以准确、全面地选择推送用户。下面将结合图1的流程图,详细描述根据本发明优选实施例的问题推送方法。
首先,建立词语的类别层次关系。为了减小计算量,提高效率,优选地,所述词语仅包括名词。对于不同语言的词语,优选地,各个语言的词语之间的类别是一一对应的。优选,离线地建立该词语的类别层次关系。
优选地,以应用为导向来建立词语的类别层次关系。例如:第一个层面,把所有词语分为科技类、知识类、文学类、生活类和商品类,商品类又可再分为服饰类、化妆品类、数码类等,化妆品类又可再分为护肤类、彩妆类和香水等。图2示出了根据本发明一个优选实施例的层次关系图的局部示意图,其中包括中文词语的层次关系图和英文词语的层次关系图。本领域普通技术人员可以理解,虽然仅示出了中文和英文层次关系图,但本发明并不限于此,其可以广泛用于各种语言的文本。
对于提取新问题的特征词向量根据本发明的优选实施例,首先对新问题进行分词,然后从分词的结果中提取特征词来组成特征词向量,例如新问题“诺基亚手机哪款手机好用”,则提取的特征词向量为<诺基亚,手机>。
然后,利用用户和问题二者的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度。
其中用户的特征词向量<w1,w2,…wn>优选离线提取。对于提取用户的特征词向量<w1,w2,…wn>,具体地,根据用户在一些互联网产品上的行为来进行提取。根据本发明一个实施例,A用户在搜索框里输入了“Nokia N85”,用户会点击一些返回的页面,例如“中关村在线”关于Nokia N85的介绍等等。从用户点击过的页面的文字信息中提取出特征词。根据本发明另一实施例,用户曾经在网络上询问“诺基亚手机哪款手机好用”,则可以从回答页面的文字信息中提取特征词。对于上例的用户,提取的特征词向量可能为<诺基亚,Nokia N72,Nokia N85,Motorola,Sumsang,Iphone>。优选地,上述特征词仅包括名词。
根据本发明一个优选实施例,根据如下公式计算问题与用户之间的相似度:
其中,P(C*)表示类别C*在所有词语中的比例。假设所有词语划分为科技类、知识类、文学类、生活类和商品类这样五类,根据语料统计可以获得每个类别的所占的比例。P(Ci)也可以理解为:任意给定一个词语,它属于第Ci类词语的概率。
对于用户和问题二者用不同语言表达的情况,与上述类似地,根据不同语言词语之间的对应类别来计算问题与用户之间的相似度。
根据本发明另一优选实施例,根据如下公式计算问题与用户之间的相似度:
最后,根据前面计算的问题与用户之间的相似度,把问题推送给相似度最高的一个或多个用户。根据本发明一个实施例,可以设定一个相似度阈值thre1,如果新问题与任意用户之间的相似度高于该阈值,即将该新问题推送给该用户。根据本发明另一个实施例,设定一个用户个数阈值thre2,对所有用户与该问题的相似度进行大小排序,根据排序后的相似度,将该新问题推送给前thre2个相似度的对应的用户。
基于以上的问题推送方法,本发明提供一种问题推送系统,包括如下模块:
向量提取模块,用于提取问题的特征词向量;
相似度计算模块,用于利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;
问题推送模块,用于把问题推送给与所述问题相似度最高的一个或多个用户。
根据本发明的一个优选实施例,该系统还包括:层次建立模块,用于建立所述词语的类别层次关系。优选地,所述词语仅包括名词。优选地,对于不同语言的词语,对应词语之间的类别是对应的。优选地,建立所述词语的类别层次关系是以应用为导向来进行的。
上述向量提取模块还用于:根据用户以前的网络行为提取所述用户的特征词向量。
根据本发明的一个优选实施例,所述相似度计算模块进一步包括:词语相似度计算模块,用于对于用户的特征词向量中的任意词语和问题的特征词向量中的任意词语,根据词语的类别层次关系,计算词语间的相似度;问题与用户相似度确定模块,用于根据所有词语间的相似度,计算问题与用户之间的相似度。优选地,所述问题与用户相似度确定模块中计算问题与用户之间的相似度时,根据词语所属最小类别考虑词语间的相似度的权重。
上述问题推送方法和问题推送系统可以应用到问答系统中,特别是搜索引擎的问答系统中。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (18)
1.一种问题推送方法,包括如下步骤:
1)提取问题的特征词向量;
2)利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;
3)根据所计算的相似度,把问题推送给一个或多个用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)前还包括:建立所述词语的类别层次关系的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述词语仅包括名词。
4.根据权利要求1或2所述的方法,其特征在于,对于不同语言的词语,对应词语之间的类别是对应的。
5.根据权利要求2所述的方法,其特征在于,所述建立所述词语的类别层次关系是以应用为导向来进行的。
6.根据权利要求1或2所述的方法,其特征在于,所述步骤2)前还包括:根据用户以前的网络行为提取所述用户的特征词向量的步骤。
7.根据权利要求1或2所述的方法,其特征在于,所述根据用户以前的网络行为提取用户的特征词向量包括:根据用户提交搜索后,在搜索引擎返回的页面中,用户所选择点击的页面的文字信息来提取特征词。
8.根据权利要求1或2所述的方法,其特征在于,所述步骤1)中根据用户以前的网络行为提取用户的特征词向量包括:根据用户在问答系统中提问后,回答页面中的文字信息来提取特征词。
9.根据权利要求1或2所述的方法,其特征在于,所述步骤2)进一步包括:
21)对于用户的特征词向量中的任意词语和问题的特征词向量中的任意词语,根据词语的类别层次关系,计算词语间的相似度;
22)根据所有词语间的相似度,计算问题与用户之间的相似度。
10.根据权利要求9所述的方法,其特征在于,所述步骤22)中计算问题与用户之间的相似度时,根据词语所属最小类别考虑词语间的相似度的权重。
11.根据权利要求1或2所述的方法,其特征在于,所述步骤3)中进一步包括:
31)根据用户个数阈值选择一个或多个用户;
32)把问题推送给所选择的用户。
12.根据权利要求1或2所述的方法,其特征在于,所述步骤3)中进一步包括:
33)根据相似度阈值选择一个或多个用户;
34)把问题推送给所选择的用户。
13.一种问题推送系统,包括:
向量提取模块,用于提取问题的特征词向量;
相似度计算模块,用于利用问题的特征词向量和用户的特征词向量中的词语,根据词语的类别层次关系,计算问题与用户之间的相似度;
问题推送模块,用于根据所计算的相似度,把问题推送给一个或多个用户。
14.根据权利要求13所述的系统,其特征在于,所述系统还包括:
层次建立模块,用于建立所述词语的类别层次关系。
15.根据权利要求13或14所述的系统,其特征在于,所述向量提取模块还用于:根据用户以前的网络行为提取所述用户的特征词向量。
16.根据权利要求13或14所述的系统,其特征在于,所述相似度计算模块进一步包括:
词语相似度计算模块,用于对于用户的特征词向量中的任意词语和问题的特征词向量中的任意词语,根据词语的类别层次关系,计算词语间的相似度;
问题与用户相似度确定模块,用于根据所有词语间的相似度,计算问题与用户之间的相似度。
17.一种问答系统,包括权利要求13至16任一项所述的问题推送系统。
18.一种搜索引擎,包括权利要求17所述的问答系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210022422XA CN102609500A (zh) | 2012-02-01 | 2012-02-01 | 一种问题推送方法和采用该方法的问答系统和搜索引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210022422XA CN102609500A (zh) | 2012-02-01 | 2012-02-01 | 一种问题推送方法和采用该方法的问答系统和搜索引擎 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102609500A true CN102609500A (zh) | 2012-07-25 |
Family
ID=46526872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210022422XA Pending CN102609500A (zh) | 2012-02-01 | 2012-02-01 | 一种问题推送方法和采用该方法的问答系统和搜索引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102609500A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049433A (zh) * | 2012-12-11 | 2013-04-17 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答系统及构建问答实例库的方法 |
CN103064918A (zh) * | 2012-12-20 | 2013-04-24 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种基于社会推荐网络和机制设计的专家寻找方法和系统 |
CN104866522A (zh) * | 2015-03-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 一种为提问者提供回答信息的方法与装置 |
CN104915379A (zh) * | 2015-05-11 | 2015-09-16 | 中国科学技术大学 | 一种帮助用户解决选择困难的平台 |
CN105045889A (zh) * | 2015-07-29 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN105574133A (zh) * | 2015-12-15 | 2016-05-11 | 苏州贝多环保技术有限公司 | 一种多模态的智能问答系统及方法 |
CN105893523A (zh) * | 2016-03-31 | 2016-08-24 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
CN106776941A (zh) * | 2016-12-02 | 2017-05-31 | 济南浪潮高新科技投资发展有限公司 | 一种基于众包模式的推荐有效解答者的方法 |
CN108920654A (zh) * | 2018-06-29 | 2018-11-30 | 泰康保险集团股份有限公司 | 一种问答文本语义匹配的方法和装置 |
US10592519B2 (en) | 2016-03-29 | 2020-03-17 | Microsoft Technology Licensing, Llc | Computational-model operation using multiple subject representations |
WO2021092803A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳市欢太科技有限公司 | 推送用户确定方法、装置、服务器以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221583A (zh) * | 2008-01-29 | 2008-07-16 | 北京百问百答网络技术有限公司 | 一种问题推荐方法及系统 |
CN101257512A (zh) * | 2008-02-02 | 2008-09-03 | 黄伟才 | 用于问答系统的问答匹配方法及问答方法和系统 |
CN101431479A (zh) * | 2007-11-08 | 2009-05-13 | 华为技术有限公司 | 实现问答业务的方法、客户端和服务器 |
CN101599065A (zh) * | 2008-06-05 | 2009-12-09 | 日电(中国)有限公司 | 相关查询组织系统和方法 |
CN101639857A (zh) * | 2009-04-30 | 2010-02-03 | 腾讯科技(深圳)有限公司 | 构建知识问答分享平台的方法、装置及系统 |
CN102081601A (zh) * | 2009-11-27 | 2011-06-01 | 北京金山软件有限公司 | 一种领域词识别方法和装置 |
-
2012
- 2012-02-01 CN CN201210022422XA patent/CN102609500A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101431479A (zh) * | 2007-11-08 | 2009-05-13 | 华为技术有限公司 | 实现问答业务的方法、客户端和服务器 |
CN101221583A (zh) * | 2008-01-29 | 2008-07-16 | 北京百问百答网络技术有限公司 | 一种问题推荐方法及系统 |
CN101257512A (zh) * | 2008-02-02 | 2008-09-03 | 黄伟才 | 用于问答系统的问答匹配方法及问答方法和系统 |
CN101599065A (zh) * | 2008-06-05 | 2009-12-09 | 日电(中国)有限公司 | 相关查询组织系统和方法 |
CN101639857A (zh) * | 2009-04-30 | 2010-02-03 | 腾讯科技(深圳)有限公司 | 构建知识问答分享平台的方法、装置及系统 |
CN102081601A (zh) * | 2009-11-27 | 2011-06-01 | 北京金山软件有限公司 | 一种领域词识别方法和装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049433A (zh) * | 2012-12-11 | 2013-04-17 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答系统及构建问答实例库的方法 |
CN103049433B (zh) * | 2012-12-11 | 2015-10-28 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答系统及构建问答实例库的方法 |
CN103064918A (zh) * | 2012-12-20 | 2013-04-24 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种基于社会推荐网络和机制设计的专家寻找方法和系统 |
CN104866522A (zh) * | 2015-03-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 一种为提问者提供回答信息的方法与装置 |
CN104915379A (zh) * | 2015-05-11 | 2015-09-16 | 中国科学技术大学 | 一种帮助用户解决选择困难的平台 |
CN104915379B (zh) * | 2015-05-11 | 2018-08-03 | 中国科学技术大学 | 一种帮助用户解决选择困难的平台 |
CN105045889B (zh) * | 2015-07-29 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN105045889A (zh) * | 2015-07-29 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN105574133A (zh) * | 2015-12-15 | 2016-05-11 | 苏州贝多环保技术有限公司 | 一种多模态的智能问答系统及方法 |
US10592519B2 (en) | 2016-03-29 | 2020-03-17 | Microsoft Technology Licensing, Llc | Computational-model operation using multiple subject representations |
CN105893523A (zh) * | 2016-03-31 | 2016-08-24 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
CN105893523B (zh) * | 2016-03-31 | 2019-05-17 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
CN106776941A (zh) * | 2016-12-02 | 2017-05-31 | 济南浪潮高新科技投资发展有限公司 | 一种基于众包模式的推荐有效解答者的方法 |
CN108920654A (zh) * | 2018-06-29 | 2018-11-30 | 泰康保险集团股份有限公司 | 一种问答文本语义匹配的方法和装置 |
WO2021092803A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳市欢太科技有限公司 | 推送用户确定方法、装置、服务器以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102609500A (zh) | 一种问题推送方法和采用该方法的问答系统和搜索引擎 | |
CN108595696A (zh) | 一种基于云平台的人机交互智能问答方法和系统 | |
CN103294776B (zh) | 一种智能手机通讯录模糊搜索的方法 | |
CN107204184A (zh) | 语音识别方法及系统 | |
CN105069143B (zh) | 提取文档中关键词的方法及装置 | |
CN108897734A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN104750705A (zh) | 信息回复方法及装置 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN108717410B (zh) | 命名实体识别方法及系统 | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
CN103678304A (zh) | 为预定网页推送特定内容的方法、装置 | |
CN102682000A (zh) | 一种文本聚类方法以及采用该方法的问答系统和搜索引擎 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN104572717A (zh) | 信息搜索方法和装置 | |
CN102737105A (zh) | 一种字典树生成方法及搜索方法 | |
CN110390106B (zh) | 基于双向关联的语义消歧方法、装置、设备及存储介质 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN110889280B (zh) | 基于文档拆分的知识库建设方法及装置 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN103186522A (zh) | 电子设备及其自然语言分析方法 | |
CN106484678A (zh) | 一种短文本相似度计算方法及装置 | |
CN111415196A (zh) | 一种广告召回方法、装置、服务器及存储介质 | |
CN105159927A (zh) | 目标文本主题词的选取方法、装置及终端 | |
CN103810280A (zh) | 一种微博话题检测方法 | |
CN110727764A (zh) | 一种话术生成方法、装置及话术生成设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120725 |