CN102637192A - 一种自然语言问答的方法 - Google Patents

一种自然语言问答的方法 Download PDF

Info

Publication number
CN102637192A
CN102637192A CN2012100387566A CN201210038756A CN102637192A CN 102637192 A CN102637192 A CN 102637192A CN 2012100387566 A CN2012100387566 A CN 2012100387566A CN 201210038756 A CN201210038756 A CN 201210038756A CN 102637192 A CN102637192 A CN 102637192A
Authority
CN
China
Prior art keywords
answer
classification
similarity
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100387566A
Other languages
English (en)
Inventor
郝宇
黄民烈
朱小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2012100387566A priority Critical patent/CN102637192A/zh
Publication of CN102637192A publication Critical patent/CN102637192A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种及时有效地回答用户问题的自然语言问答的方法,包括以下步骤:(1)对于用户输入的问题进行问题分析;(2)利用问题分析的结果以及社区问答的语料对问题作答;(3)利用问题分析的结果以及百科语料对问题作答;(4)对于从步骤(2)、(3)返回的答案,进行答案验证及选择,并最终返回最佳答案给用户。

Description

一种自然语言问答的方法
技术领域
本发明涉及人工智能的技术领域,具体地涉及一种自然语言问答的方法。 
背景技术
随着互联网信息爆炸式增长,用户有了更多获取信息的途径。但也对用户检索信息的能力提出了更多的挑战。关键词检索技术为众多搜索引擎所采用,并在许多领域都取得了不错的效果,在工业界获得了巨大的成功。然而,随着信息的增加,这种信息获取的方式逐渐无法满足用户的需求。这种基于关键词检索方式的信息获取方法主要有以下2个不足:(1)返回过多信息,用户需要进一步点击返回的链接才可以获得自己所需要的信息;(2)简单的若干个关键词有时无法明确地表达用户的需求,从而导致无法检索得到需要的结果。 
与之相反,问答方式允许用户以自然语言形式提问,并返回简洁明了的结果,这恰恰是用户所需要的。 
问答系统也是人工智能领域比较火热的研究课题之一。不过由于问答系统的复杂性,目前并没有太多相关的商用系统。IBM Watson(沃森)是比较出名的问答系统。不过该系统主要是处理事实类型的问题,并且只能回答答案是简单名词短语的问题。这类事实型问题虽然很重要,但用户有更多更复杂的问题希望能得到解决,例如寻找原因、寻找解决方案的问题。社区问答的出现就是希望依靠用户的力量帮助用户解决这些复杂问题,例如搜搜问问,百度知道等。但这类问答社区由于依赖其他用户作答,因此很难及时有效地回答用户的问题,尤其是与搜索引擎返回结果的速度相比就更难做到及时有效了。 
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种及时有效地回答用户问题的自然语言问答的方法。 
本发明的技术方案是:这种自然语言问答的方法,包括以下步骤: 
(1)对于用户输入的问题进行问题分析; 
(2)利用问题分析的结果以及社区问答的语料对问题作答; 
(3)利用问题分析的结果以及百科语料对问题作答; 
(4)对于从步骤(2)、(3)返回的答案,进行答案验证及选择,并最终返回最佳答案给用户。 
由于利用了社区问答以及百科数据回答用户自然语言问题,并进行答案验证及选择,所以能够及时有效地回答用户问题。 
附图说明
图1是根据本发明的自然语言问答的方法的流程图; 
图2是步骤(1)的流程图; 
图3是步骤(2)的流程图; 
图4是步骤(3)的流程图。 
具体实施方式
下面对本发明的技术方案做进一步的详细描述。 
如图1所示,这种自然语言问答的方法,包括以下步骤: 
(1)对于用户输入的问题进行问题分析; 
(2)利用问题分析的结果以及社区问答的语料对问题作答; 
(3)利用问题分析的结果以及百科语料对问题作答; 
(4)对于从步骤(2)、(3)返回的答案,进行答案验证及选择,并最终返回最佳答案给用户。 
由于利用了社区问答以及百科数据回答用户自然语言问题,并进行答案验证及选择,所以能够及时有效地回答用户问题。 
优选地,如图2所示,步骤(1)包括以下分步骤: 
(1.1)利用中文分词工具对于问题进行分词以及词性标注; 
(1.2)抽取问题中的核心概念,采用的方法是:利用词性标注结果,认为名词即重要概念;或者利用词性信息的同时还利用词频信息,计算每个词出现的文档集合的大小,滤去高于指定阈值的词; 
(1.3)进行问题分类,问题分类的标准是根据问题的需求进行:分为事实型问题,列表型问题,原因型问题,方法型问题,定义型问题以及导航型问题(如表1所示)。 
表1 
Figure BDA0000136486490000031
更进一步地,步骤(1.3)中采用根据马尔可夫逻辑网的方法进行分类: 
定义如下几种谓词: 
Type(q,t):如果问题q具有问题类型t则值为1,否则为0。 
MatchP(q,p):问题q可以匹配上strict pattern p的值为1,否则为0。 
MatchC(q,p):问题q匹配上soft pattern p的匹配度(0,1之间)。 
谓词之间的关系由如下两类formulas来约束。 
Figure DEST_PATH_GDA00001667614400041
strict pattern主要表示的是一个问题的虚词所具有的特征。具体做法是先讲一个问题中的实意词替换为通配符,之后从中抽取由虚词和通配符组成n-gram。一个strict pattern可以被看成是一个正则表达式,question匹配strict pattern就可以看成question匹配这个正则表达式。下面是strict pattern的一个例子(如表2所示)。 
表2 
Figure BDA0000136486490000043
根据下面的公式计算问题q属于某个类别t的概率: 
p ( t | q ) ∝ exp ( Σ i ∈ F q , t w i * n i ( q , t ) )
其中,Fqt是问题q和类别t能够触发的模板集合,即问题q符合该模板,且该模板在训练集合中命中过类别t的问题;n1(q,t)是问题q符合的strict pattern的数量,或者是soft pattern的匹配程度,其中strict pattern是一个问题的虚词所具有的特征,soft pattern是一个问题的实意词所具有的特征;利用L1-正规化方法,在训练集合上学习得到权重系数wi。 
soft pattern主要表示的是一个问题的实意词所具有的特征。一个Soft pattern是一个在bigram空间上的向量。我首先将训练集的每个问题的实意词部分表示为bigram向量,接着将其进行聚类。聚类之后的每个类别的中心即为一个soft pattern。在使用的时候,如果给定问题和某个softpattern的cosine similarity大于某个阈值,则把cosine similarity作为匹配度,否则匹配度为0。 
优选地,如图3所示,步骤(2)包括以下分步骤: 
(2.1)根据问题分析的结果,检索相似问题; 
(2.2)对检索得到的相似问题的答案集合进行处理,得到答案。 
更进一步地,步骤(2.2)中计算问题与返回相似问题的相似度的方法如下: 
两个问题之间的总相似度是以下六项相似度的加权,分别是 
1.两个问题在词上的余弦相似度,权值为1; 
2.两个问题在词上的最大重叠相似度,权值为1; 
3.两个问题在重要词上的余弦相似度,权值为0.5; 
4.两个问题在重要词上的最大重叠相似度,权值为0.5; 
5.两个问题在字上的最长公共子序列相似度,权值为0.5; 
6.两个问题在字上的连续最长公共子序列相似度,权值为0.5; 
其中 
余弦相似度的定义为: 
CS ( A , B ) = A · B | | A | | · | | B | |
其中A、B表示给定的两个词汇袋的向量; 
最大重叠相似度的定义为: 
MO ( A , B ) = Σ m ∈ A , m ∈ B ( A ( m ) + B ( m ) ) Σ a ∈ A A ( a ) + Σ b ∈ B B ( b )
其中A、B表示给定的两个词汇袋的向量,A(a)指的是A中词a的权值,B(b)指的是B中词b的权值; 
最长公共子序列相似度的定义为: 
LCSsim ( s 1 , s 2 ) = length ( LCS ( s 1 , s 2 ) ) max ( length ( s 1 ) , length ( s 2 ) )
其中s1和s2是给定的两个字符串,LCS(s1,s2)是s1和s2的最长公共子序列,length函数是指序列的长度; 
最长连续公共子序列相似度的定义为: 
LCCSsim ( s 1 , s 2 ) = length ( LCCS ( s 1 , s 2 ) ) max ( length ( s 1 ) , length ( s 2 ) )
其中s1和s2是给定的两个字符串,length函数是指序列的长度其中LCCS(s1,s2)是s1和s2的最长公共相邻子序列。 
优选地,步骤(4)在检索得到相似问题后,按照以下处理: 
(4.1)如果问题类型是方法型或列表型,将最相似问题的答案中的列表形式的文本作为答案返回给用户; 
(4.2)如果返回的相似问题的相似度高,则利用网页排名pagerank算法,计算每个答案的pagerank得分;计算时,将每个答案视为图上的节点,答案与答案之间边的权重正比于答案与答案之间的相似度;答案的相似度计算是利用余弦距离公式计算;每个答案的分数=(最佳答案得分+pagerank分数)×相似问题相似度;选择得分最高的答案返回给用户; 
(4.3)如果返回相似问题的相似度低,则采用文档摘要的方法,对相似问题的答案进行摘要抽取。 
更进一步地,步骤(4.3)的摘要抽取基于信息距离理论,对于给定的需要进行摘要的答案A=(A1,A2,...,An},最终生成的摘要S*定义为: 
S * = arg max S Σ i D max ( A i , S )
其中,Dmax(Ai,S)是答案Ai和摘要S间的信息距离,物体M和物体N之间的信息距离定义为: 
Dmax(M,N)=max{K(M|N),K(N|M)} 
其中K(X|Y)是物体X基于物体Y的Kolmogorov(柯氏)复杂度,K(X|Y)是指根据Y生成X的最短图灵机程序的长度,利用下面的公式进行近似计算: 
K ( M | N ) ≈ K ( ∪ i W M i \ ∪ i W N j )
其中,E(W)=∑w∈WK(w),K(w)是元素w的权重,w即为词或名词实体,而K(w)即为词的权重,定义为-log(Pr(w)),Pr(w)是w出现的概率,通过在一个大规模的语料集合上统计得到,令答案M={M1,M2,...},答案N=[N1,N2,...}分别是2个句子的集合,每个句子s有对应的元素集合 
Figure BDA0000136486490000073
优选地,如图2所示,步骤(3)包括以下分步骤: 
(3.1)为百科中的每个分类提取其对应的属性词集合,抽取每个类别的文章中出现的高频词汇,并去除其中的停用词集合,剩下的词集就是这个类别对应的属性词集合; 
(3.2)为每个类别、属性训练相应混合语言模型; 
(3.3)对于每一个输入的“概念-属性”问题,转化为“概念属性对”输入后,查询其对应的混合语言模型; 
(3.4)利用查询得到的混合语言模型,对页面中的文本片段进行相关性计算以及排序,并最终输出最相关文本片段作为答案。 
更进一步地,步骤(3.4)中的混合语言模型是STLM(Surrounding text language model,周边文字语言模型)和CLM(category language model,类别语言模型)这两个语言模型的集合,都是通过在对应类别下包含属性 词的文本上训练得到的;对于给定的文本p,假设其单词集合为{tf},类别词集合为 
Figure BDA0000136486490000081
其在类别c、属性a下由STLM和CLM生成的概率分别是: 
P ( p | STLM c , a ) = Π t ∈ p P ( t | STLM c , a ) = Π t ∈ p ( α tf ( t , c ) tf ( * , c ) + ( 1 - α ) tf ( t , * ) tf ( * , * ) )
P ( p | CLM c , a ) = Π c ′ ∈ p P ( c ′ | CLM c , a ) = Π c ′ ∈ p ( β tf ( c ′ , c ) tf ( * , c ) + ( 1 - β ) tf ( c ′ , * ) tf ( * , * ) )
其中,tf是指词频,tf(t,c)是指单词t在类别c的所有文章中出现的频率,tf(t,r)和tf(r,c)分别指t在所有文章中的频率,以及类别c中所有单词的频率和;c’相关的tf函数解释类似; 
文本p根据混合语言模型MLMc,m生成的概率是: 
P(p|MLMc,m)=λP(p|STLMc,m)+(1-λ)P(p|CLMc,m
对于输入的概念属性对(e,a),查询概念e对应的所有类别ce下对应属性a的混合语言模型,给定文本p,与(e,a)的相关性能分计算公式为: 
score ( p | ( e , a ) ) = Σ c ∈ C e P ( p | MLM c , a ) * p ( a | c ) = Σ c ∈ C e P ( p | MLM c , a ) * df ( a , c ) | c |
其中df(a,c)是指类别c下包含属性词a的文章数量,|c|是指类别c下的文章总数量,最终依照score(p|(e,a))对文本片段进行排序,并选择最佳的文本返回给用户作为答案。 
优选地,步骤(4)利用排序学习算法,对答案进行排序,对于每个答案A,其对应的特征集合为
Figure DEST_PATH_GDA00001667614400092
其中QT是问题的类别集合,AS是答案质量的打分方式,对应于步骤(2)和(3)中的所有答案抽取方式,如果答案A不是由AS中的某种方式s抽取得到,则对任意的t,
Figure DEST_PATH_GDA00001667614400093
否则
Figure DEST_PATH_GDA00001667614400094
其中P(t|q)由步骤(1)给出,sccre(A|s)则由对应的s方法给出。 
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。 

Claims (10)

1.一种自然语言问答的方法,其特征在于:包括以下步骤:
(1)对于用户输入的问题进行问题分析;
(2)利用问题分析的结果以及社区问答的语料对问题作答;
(3)利用问题分析的结果以及百科语料对问题作答;
(4)对于从步骤(2)、(3)返回的答案,进行答案验证及选择,并最终返回最佳答案给用户。
2.根据权利要求1所述的自然语言问答的方法,其特征在于:步骤(1)包括以下分步骤:
(1.1)利用中文分词工具对于问题进行分词以及词性标注;
(1.2)抽取问题中的核心概念,采用的方法是:利用词性标注结果,认为名词即重要概念;或者利用词性信息的同时还利用词频信息,计算每个词出现的文档集合的大小,滤去高于指定阈值的词;
(1.3)进行问题分类,问题分类的标准是根据问题的需求进行:分为事实型问题,列表型问题,原因型问题,方法型问题,定义型问题以及导航型问题。
3.根据权利要求2所述的自然语言问答的方法,其特征在于:步骤(1.3)中采用根据马尔可夫逻辑网的方法进行分类:
根据下面的公式计算问题q属于某个类别t的概率:
Figure DEST_PATH_FDA00001667614300011
其中,Fqt是问题q和类别t能够触发的模板集合,即问题q符合该模板,且该模板在训练集合中命中过类别t的问题;ni(q,t)是问题q符合的strict pattern的数量,或者是soft pattern的匹配程度,其中strictpattern是一个问题的虚词所具有的特征,soft pattern是一个问题的实意词所具有的特征;利用L1-正规化方法,在训练集合上学习得 到权重系数wi
4.根据权利要求1所述的自然语言问答的方法,其特征在于:步骤(2)包括以下分步骤:
(2.1)根据问题分析的结果,检索相似问题;
(2.2)对检索得到的相似问题的答案集合进行处理,得到答案。
5.根据权利要求4所述的自然语言问答的方法,其特征在于:步骤(2.2)中计算问题与返回相似问题的相似度的方法如下:
两个问题之间的总相似度是以下六项相似度的加权,分别是
(1)两个问题在词上的余弦相似度,权值为1;
(2)两个问题在词上的最大重叠相似度,权值为1;
(3)两个问题在重要词上的余弦相似度,权值为0.5;
(4)两个问题在重要词上的最大重叠相似度,权值为0.5;
(5)两个问题在字上的最长公共子序列相似度,权值为0.5;
(6)两个问题在字上的连续最长公共子序列相似度,权值为0.5;
其中
余弦相似度的定义为:
Figure DEST_PATH_FDA00001667614300021
其中A、B表示给定的两个词汇袋的向量;
最大重叠相似度的定义为:
Figure DEST_PATH_FDA00001667614300022
其中A、B表示给定的两个词汇袋的向量,A(a)指的是A中词a的权值,B(b)指的是B中词b的权值;
最长公共子序列相似度的定义为:
Figure DEST_PATH_FDA00001667614300031
其中s1和s2是给定的两个字符串,LCS(s1,s2)是s1和s2的最长公共子序列,length函数是指序列的长度;
最长连续公共子序列相似度的定义为:
Figure DEST_PATH_FDA00001667614300032
其中s1和s2是给定的两个字符串,length函数是指序列的长度其中LCCS(s1,s2)是s1和s2的最长公共相邻子序列。
6.根据权利要求5所述的自然语言问答的方法,其特征在于:步骤(4)在检索得到相似问题后,按照以下处理:
(4.1)如果问题类型是方法型或列表型,将最相似问题的答案中的列表形式的文本作为答案返回给用户;
(4.2)如果返回的相似问题的相似度高,则利用网页排名pagerank算法,计算每个答案的pagerank得分;计算时,将每个答案视为图上的节点,答案与答案之间边的权重正比于答案与答案之间的相似度;答案的相似度计算是利用余弦距离公式计算;每个答案的分数=(最佳答案得分+pagerank分数)×相似问题相似度;选择得分最高的答案返回给用户;
(4.3)如果返回相似问题的相似度低,则采用文档摘要的方法,对相似问题的答案进行摘要抽取。
7.根据权利要求6所述的自然语言问答的方法,其特征在于:步骤(4.3)的摘要抽取基于信息距离理论,对于给定的需要进行摘要的答案A=[A1,A2,...,An},最终生成的摘要S*定义为:
Figure DEST_PATH_FDA00001667614300033
其中,Dmax(Ai,S)是答案Ai和摘要S间的信息距离,物体M和物体N之间的信息距离定义为:
Dmax(M,n)=max{K(M|N),K(N|M)} 
其中K(X|Y)是物体X基于物体Y的柯氏Kolmogorov复杂度,K(X|Y)是指根据Y生成X的最短图灵机程序的长度,利用下面的公式进行近似计算:
Figure DEST_PATH_FDA00001667614300041
其中,E(W)=∑w∈WK(w),K(w)是元素w的权重,w即为词或名词实体,而K(w)即为词的权重,定义为-log(Pr(w)),Pr(w)是w出现的概率,通过在一个大规模的语料集合上统计得到,令答案M={M1,M2,...},答案N={M1,M2,...}分别是2个句子的集合,每个句子s有对应的元素集合Ws={w1 s,w2 s,…}。
8.根据权利要求1所述的自然语言问答的方法,其特征在于:步骤(3)包括以下分步骤:
(3.1)为百科中的每个分类提取其对应的属性词集合,抽取每个类别的文章中出现的高频词汇,并去除其中的停用词集合,剩下的词集就是这个类别对应的属性词集合;
(3.2)为每个类别、属性训练相应混合语言模型;
(3.3)对于每一个输入的“概念-属性”问题,转化为“概念属性对”输入后,查询其对应的混合语言模型;
(3.4)利用查询得到的混合语言模型,对页面中的文本片段进行相关性计算以及排序,并最终输出最相关文本片段作为答案。
9.根据权利要求8所述的自然语言问答的方法,其特征在于:步骤(3.4)中的混合语言模型是周边文字语言模型STLM和类别语言模型CLM这两个语言模型的集合,都是通过在对应类别下包含属性词的文本上训练得到的;对于给定的文本p,假设其单词集合为{tf},类别词集合为 
Figure FDA0000136486480000043
其在类别c、属性a下由STLM和CLM生成的概率分别是: 
Figure DEST_PATH_FDA00001667614300052
Figure DEST_PATH_FDA00001667614300053
其中,tf是指词频,tf(t,c)是指单词t在类别c的所有文章中出现的频率,tf(t,r)和tf(r,c)分别指t在所有文章中的频率,以及类别c中所有单词的频率和;c’相关的tf函数解释类似;
文本p根据混合语言模型MLMc,m生成的概率是:
P(p|MLMc,m)=λP(p|STLMc,m)+(1-λ)P(p|CLMc,m)
对于输入的概念属性对(e,a),查询概念e对应的所有类别ce下对应属性a的混合语言模型,给定文本p,与(e,a)的相关性能分计算公式为:
Figure DEST_PATH_FDA00001667614300054
其中df(a,c)是指类别c下包含属性词a的文章数量,|c|是指类别c下的文章总数量,最终依照score(p(e,a))对文本片段进行排序,并选择最佳的文本返回给用户作为答案。
10.根据权利要求1所述的自然语言问答的方法,其特征在于:步骤(4)
利用排序学习算法,对答案进行排序,对于每个答案A,其对应的特征集合为
Figure DEST_PATH_FDA00001667614300055
其中QT是问题的类别集合,AS是答案质量的打分方式,对应于步骤(2)和(3)中的所有答案抽取方式,如果答案A不是由AS中的某种方式s抽取得到,则对任意的t,
Figure DEST_PATH_FDA00001667614300056
否则
Figure DEST_PATH_FDA00001667614300061
其中P(t|q)由步骤(1)给出,sccre(A|s)则由对应的s方法给出。 
CN2012100387566A 2012-02-17 2012-02-17 一种自然语言问答的方法 Pending CN102637192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100387566A CN102637192A (zh) 2012-02-17 2012-02-17 一种自然语言问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100387566A CN102637192A (zh) 2012-02-17 2012-02-17 一种自然语言问答的方法

Publications (1)

Publication Number Publication Date
CN102637192A true CN102637192A (zh) 2012-08-15

Family

ID=46621586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100387566A Pending CN102637192A (zh) 2012-02-17 2012-02-17 一种自然语言问答的方法

Country Status (1)

Country Link
CN (1) CN102637192A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN103870528A (zh) * 2012-12-17 2014-06-18 国际商业机器公司 深度问题回答系统中的问题分类和特征映射的方法和系统
CN104063497A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
CN103455535B (zh) * 2013-05-08 2016-11-30 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
US9542496B2 (en) 2014-06-04 2017-01-10 International Business Machines Corporation Effective ingesting data used for answering questions in a question and answer (QA) system
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN106528764A (zh) * 2016-10-28 2017-03-22 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN106649514A (zh) * 2015-10-16 2017-05-10 百度(美国)有限责任公司 用于受人启发的简单问答(hisqa)的系统和方法
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
US9697099B2 (en) 2014-06-04 2017-07-04 International Business Machines Corporation Real-time or frequent ingestion by running pipeline in order of effectiveness
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
US9754215B2 (en) 2012-12-17 2017-09-05 Sinoeast Concept Limited Question classification and feature mapping in a deep question answering system
CN107291701A (zh) * 2016-04-01 2017-10-24 阿里巴巴集团控股有限公司 一种机器语言生成方法及装置
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN107480154A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN108073600A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN108920488A (zh) * 2018-05-14 2018-11-30 平安科技(深圳)有限公司 多系统相结合的自然语言处理方法及装置
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110020429A (zh) * 2019-02-27 2019-07-16 百度在线网络技术(北京)有限公司 语义识别方法及设备
CN110263143A (zh) * 2019-06-27 2019-09-20 苏州大学 提高相关性的神经问题生成方法
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法
CN111241237A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 一种基于运维业务的智能问答数据处理方法及装置
CN111506827A (zh) * 2020-03-18 2020-08-07 威比网络科技(上海)有限公司 业务员问答互动方法、平台、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174259A (zh) * 2007-09-17 2008-05-07 张琰亮 一种智能互动式问答系统
CN101232468A (zh) * 2008-02-28 2008-07-30 黄伟才 问答方法及问答系统
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174259A (zh) * 2007-09-17 2008-05-07 张琰亮 一种智能互动式问答系统
CN101232468A (zh) * 2008-02-28 2008-07-30 黄伟才 问答方法及问答系统
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870528A (zh) * 2012-12-17 2014-06-18 国际商业机器公司 深度问题回答系统中的问题分类和特征映射的方法和系统
US9754215B2 (en) 2012-12-17 2017-09-05 Sinoeast Concept Limited Question classification and feature mapping in a deep question answering system
US9911082B2 (en) 2012-12-17 2018-03-06 Sinoeast Concept Limited Question classification and feature mapping in a deep question answering system
CN103870528B (zh) * 2012-12-17 2018-04-17 东方概念有限公司 深度问题回答系统中的问题分类和特征映射的方法和系统
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103218436B (zh) * 2013-04-17 2016-05-18 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103455535B (zh) * 2013-05-08 2016-11-30 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN103823844B (zh) * 2014-01-26 2017-02-15 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
US9542496B2 (en) 2014-06-04 2017-01-10 International Business Machines Corporation Effective ingesting data used for answering questions in a question and answer (QA) system
US9697099B2 (en) 2014-06-04 2017-07-04 International Business Machines Corporation Real-time or frequent ingestion by running pipeline in order of effectiveness
CN104063497A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN107076567B (zh) * 2015-05-21 2020-07-03 百度(美国)有限责任公司 用于图像问答的方法和装置
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN106649514A (zh) * 2015-10-16 2017-05-10 百度(美国)有限责任公司 用于受人启发的简单问答(hisqa)的系统和方法
CN107291701A (zh) * 2016-04-01 2017-10-24 阿里巴巴集团控股有限公司 一种机器语言生成方法及装置
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN107480154A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN107480154B (zh) * 2016-06-08 2021-12-17 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
CN106503066B (zh) * 2016-09-29 2019-10-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN106528764A (zh) * 2016-10-28 2017-03-22 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN106528764B (zh) * 2016-10-28 2019-11-08 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN108073600A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
CN108073600B (zh) * 2016-11-11 2022-06-03 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN108920488A (zh) * 2018-05-14 2018-11-30 平安科技(深圳)有限公司 多系统相结合的自然语言处理方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109036554B (zh) * 2018-08-07 2020-02-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN110874403B (zh) * 2018-08-29 2024-03-08 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN110020429A (zh) * 2019-02-27 2019-07-16 百度在线网络技术(北京)有限公司 语义识别方法及设备
CN110020429B (zh) * 2019-02-27 2023-05-23 阿波罗智联(北京)科技有限公司 语义识别方法及设备
CN110263143B (zh) * 2019-06-27 2021-06-15 苏州大学 提高相关性的神经问题生成方法
CN110263143A (zh) * 2019-06-27 2019-09-20 苏州大学 提高相关性的神经问题生成方法
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法
CN111241237A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 一种基于运维业务的智能问答数据处理方法及装置
CN111241237B (zh) * 2019-12-31 2023-05-23 中国建设银行股份有限公司 一种基于运维业务的智能问答数据处理方法及装置
CN111506827A (zh) * 2020-03-18 2020-08-07 威比网络科技(上海)有限公司 业务员问答互动方法、平台、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102637192A (zh) 一种自然语言问答的方法
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112100344B (zh) 一种基于知识图谱的金融领域知识问答方法
Severyn et al. Automatic feature engineering for answer selection and extraction
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
Joby Expedient information retrieval system for web pages using the natural language modeling
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN112597316B (zh) 一种可解释性推理问答方法及装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN104484380A (zh) 个性化搜索方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
Raviv et al. A ranking framework for entity oriented search using markov random fields
CN112036178A (zh) 一种配网实体相关的语义搜索方法
Lynn et al. An improved method of automatic text summarization for web contents using lexical chain with semantic-related terms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120815