CN101377777A - 一种自动问答方法和系统 - Google Patents

一种自动问答方法和系统 Download PDF

Info

Publication number
CN101377777A
CN101377777A CNA2007101213058A CN200710121305A CN101377777A CN 101377777 A CN101377777 A CN 101377777A CN A2007101213058 A CNA2007101213058 A CN A2007101213058A CN 200710121305 A CN200710121305 A CN 200710121305A CN 101377777 A CN101377777 A CN 101377777A
Authority
CN
China
Prior art keywords
paragraph
answer
sentence
speech
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101213058A
Other languages
English (en)
Inventor
刘文印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Original Assignee
BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd filed Critical BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority to CNA2007101213058A priority Critical patent/CN101377777A/zh
Publication of CN101377777A publication Critical patent/CN101377777A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动问答方法和系统。该方法包括下列步骤:步骤A,通过问题分析获取问题的信息;步骤B,根据问题分析的结果,生成查询条件,在知识源中以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;步骤C,根据文档检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,并从段落集合中返回问题的答案。其提高答案的准确性,提高返回正确结果的精确度。

Description

一种自动问答方法和系统
技术领域
本发明涉及知识工程领域、自然语言处理领域、以及计算机网络信息技术领域,特别是涉及一种基于文档的自动问答方法和系统。
背景技术
目前的网络包含了数量越来越大的信息,人们可以从网络中得到大量问题的答案,通常地,网络由大量超文本(网页)组成。但是,在网络中用户快速定位所需要的信息非常困难。现有技术中解决这一问题的一种重要方法是利用搜索引擎,通过关键字匹配搜索到所需的问题答案。
但是,这种方法通常会得到大量包含搜索关键字但内容与答案无关的网页,用户通常还需要在搜索结果中手动或者进一步搜索到相关的网页,进而获取想要的信息,实践证明,现有基于关键字的搜索引擎的信息定位效率是比较低的。
随着计算机技术的发展,人们通过自动问答(QA)系统试图解决这一问题。
自动问答(QA)系统,也叫问题回答系统,是基于一个大语料库(如维基百科,或整个国际互联网),自动查找并回答用户用自由文本方式的提问的计算机处理系统。
现有的自动问答系统通常利用一个大的文档集作为知识源,从文档集中查找用户问题的答案。其中,国际互联网是一个理想的自动问答系统的知识源,与静态的文档集相比,国际互联网有两方面的优势,一方面国际互联网上的信息更新迅速,这能够保证系统能找到比较精确的答案,特别是对于一些时效性较强的问题;另一方面,国际互联网上的信息的冗余性,可以用来进行自动问答系统的答案验证,以判断答案的有效性,返回更加确切的答案。
专利申请号为200510130778.5的中国专利公开了一种网上用户交互问答方法及其系统,其中,所述的系统,包括:一模板数据库,用于存储供选择使用的问题模板和/或答案模板;一提问模块,用于供用户选择问题模板进行提问;一回答模块,用于供用户使用答案模板进行回答;所述答案模板为用户手动选择或手动创建的、或为由所述回答模块根据当前问题,从所述模板数据库中自动查找出的与所述问题模板相对应的答案模板。该发明的方法及其系统可提高用户提问和回答的效率,同时提高计算机处理问题和答案的准确性并积累知识。
然而,现有系统还存在很大的缺陷,往往难以回答一些问题,特别是动态的和时间敏感性的问题。
发明内容
本发明的目的在于提供一种自动问答方法和系统,以提高答案的准确性,提高返回正确结果的精确度。
为实现本发明目的而提供的一种自动问答方法,包括下列步骤:
步骤A,通过问题分析获取问题的信息;
步骤B,根据问题分析的结果,生成查询条件,在知识源中以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;
步骤C,根据文档检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,并从段落集合中返回问题的答案。
所述步骤C中,从段落集合中返回问题的答案,具体包括下列步骤:
从段落集合中抽取答案段落,作为问题的答案返回。
所述步骤C中,从段落集合中返回问题的答案,也可以具体包括下列步骤:
从所获取段落集合中抽取作为答案的句子或词,作为问题的精确答案返回。
所述信息为结构信息,包括词汇特征和句法特征。
所述信息为语义信息,包括问题目标、问题类型、问题内的约束关系。
所述获取问题的语义信息,包括下列步骤:
应用语义模板来描述问题,使用语义模板匹配的方法来分析问题,获取问题的语义信息。
所述语义模板匹配的方法,包括如下步骤:
步骤A1,用词性标注器和命名实体识别器对问题做预处理,产生一个初步的词汇-句法模板;
步骤A2,从模板库搜索与问题满足初步条件的问题模板;
步骤A3,把词汇-句法模板和问题模板进行匹配;
步骤A4,如果匹配成功,则获得问题类型、问题目标以及问题内的约束关系;否则,返回步骤A2重新进行搜索。
所述步骤B还包括下列步骤:
判断段落集是否满足设定的条件,如果没有满足,则重写查询条件,重新进行检索。
所述步骤B具体包括下列步骤:
步骤B1,根据问题分析的结果,从问题中去掉所有停用词,生成一个初始查询条件;
步骤B2,用所获得的查询条件递交到搜索引擎,从知识源中检索与问题相关的文档,然后返回文档集;
步骤B3,将文档集划分形成段落集;
步骤B4,判断段落集的数量和质量,以及循环次数是否符合要求,如果段落的数量和质量不符合要求并且循环次数少于设定的值,则转到步骤B5;否则返回结果,结束检索过程;
步骤B5,根据初始查询条件的一些关键字,用该关键字的上义词或下义词、同义词代替得到新的关键字,利用新的关键字组成新的查询条件,返回步骤B2,重新进行搜索引擎检索。
所述知识源为国际互联网;所述文档为Web文档。
所述步骤B1中,生成初始查询条件,具体包括如下步骤:
用启发式方法和局部文本分析方法来做查询扩展,生成查询条件。
所述步骤B3中,将web文档集划分形成段落集,具体包括如下步骤:
用HTML文档解析器解析返回的Web文档,抽取文档中的明文;对明文文档进行提取词干,去停用词处理后,把文档集划分为段落集。
所述步骤B5中,所述利用新的关键字组成新的查询条件,包括下列步骤:
利用新的关键字,以具有匹配关系和约束关系的词汇单元为基础,结合词汇之间的关系,计算段落与问题的相关度,得到新的查询条件。
所述步骤B5中,关键字的上义词或下义词、同义词,是利用WordNet或其他同义词林根据关键字获取的。
所述步骤C中,所述段落是由相邻的句子构成,且句子数目不大于一特定数值或总长度不大于一特定比特字节。
所述步骤C中,所述段落检索方法包括下列步骤:
结合tf-idf的统计词频特征以及查询和段落之间的语义相关性,计算段落的得分,然后根据各个段落的得分以降序排序,如果大于一特定阈值,则该段落被列为候选答案段落。
所述tf-idf词频分数如下式所示:
score 1 ( p , q ) = Σ t ∈ p ∩ q 1 + ln ( 1 + ln ( tf ( t , p ) ) ( 1 - s ) + s | p | avgpl × ln N + 1 df ( t )
其中,
p表示段落;
q表示查询;
tf(t,p)表示词t在段落p中出现的频率;
s表示用来平衡段落长度的参数;
|p|表示段落p的长度;
N表示查询q的候选段落的数目;
df(t)表示包含词t的段落的数目;
avgpl表示段落的平均长度。
所述语义相关性用下式计算:
score 2 ( p , q ) = Σ t ∈ p δ ( t )
δ(t)表示如果词t在查询q里有一个语义相关词,值为1,否则为0。
所述段落的得分用下式计算:
score(p,q)=score1(p,q)+α×score2(p,q)
α表示score1和score2的平衡因子。
所述步骤C还包括下列步骤:
采用基于重叠的窗口的方法去划分段落,使得描述同一主题的相邻句子不会被划分到不同的段落中去。
所述步骤C中,抽取作为答案的句子或词,可以是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子或词。
所述步骤C中,抽取作为答案的句子或词,也可以是采用语义模板进行匹配来获取作为答案的句子。
所述步骤C中,抽取作为答案的句子或词,还可以是采用语义模板进行匹配来获得答案的实体类型,再利用答案的实体类型在答案的句子中匹配到具体的词,把该词作为精确答案。
为实现本发明的目的还提供一种自动问答系统,包括问题分析模块,文档检索模块,段落检索模块,其中:
所述问题分析模块,用于通过问题分析获取问题的信息;
所述文档检索模块,用于根据问题分析模块对问题分析的结果,生成查询条件,在知识源中,以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;
所述段落检索模块,用于根据文档检索模块检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,从段落集合中返回问题的答案。
所述的自动问答系统,还包括答案抽取模块,用于根据段落检索获得的与查询条件相关的段落集合,从所获取段落集合中抽取作为答案的句子或词返回。
所述信息为结构信息,包括词汇特征和句法特征。
所述信息为语义信息,包括问题目标、问题类型、问题内的约束关系。
所述获取问题的语义信息,为:
应用语义模板来描述问题,使用语义模板匹配的方法来分析问题,获取问题的语义信息。
所述文档检索模块还用于判断段落集是否满足设定的条件,如果没有满足,则重写查询条件,重新进行检索。
所述知识源为国际互联网;所述文档为Web文档。
所述段落是由相邻的句子构成,且句子数目不大于一特定数值或总长度不大于一特定比特字节。
所述段落检索方法为:
结合tf-idf的统计词频特征以及查询和段落之间的语义相关性,计算段落的得分,然后根据各个段落的得分以降序排序,如果大于一特定阈值,则该段落被列为候选答案段落。
所述tf-idf词频分数如下式所示:
score 1 ( p , q ) = Σ t ∈ p ∩ q 1 + ln ( 1 + ln ( tf ( t , p ) ) ( 1 - s ) + s | p | avgpl × ln N + 1 df ( t )
其中,
p表示段落;
q表示查询;
tf(t,p)表示词t在段落p中出现的频率;
s表示用来平衡段落长度的参数;
|p|表示段落p的长度;
N表示查询q的候选段落的数目;
df(t)表示包含词t的段落的数目;
avgpl表示段落的平均长度。
所述语义相关性用下式计算:
score 2 ( p , q ) = Σ t ∈ p δ ( t )
δ(t)表示如果词t在查询q里有一个语义相关词,值为1,否则为0。
所述段落的得分用下式计算:
score(p,q)=score1(p,q)+α×score2(p,q)
α表示score1和score2的平衡因子。
所述抽取作为答案的句子或词,是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子或词。
所述抽取作为答案的句子或词,也可以是采用语义模板进行匹配来获取作为答案的句子。
所述步骤C中,抽取作为答案的句子或词,还可以是采用语义模板进行匹配来获得答案的实体类型,再利用答案的实体类型在答案的句子中匹配到具体的词,把该词作为精确答案。
本发明的有益效果是:本发明的自动问答方法和系统,在现有的自动问答系统中,增加段落(Passage)检索,减少待处理的文档大小,使得系统更有效率,提高答案的准确性,提高返回正确答案的精确度;同时,通过利用语义模板等来分析问题,从而获得更多的信息,并利用这些信息来辅助检索,在段落中更加精确地定位到包含精确答案的句子,甚至精确答案的词或短语,从而进一步提高自动答案的质量和准确性。
附图说明
图1是本发明自动问答方法流程图;
图2是本发明实施例中语义模板匹配方法流程图;
图3是本发明实施例中文档检索过程流程图;
图4是本发明自动问答系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种自动问答方法和系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例以国际互联网为知识源,用Google搜索引擎系统从互联网上搜索相关Web文档为例,说明本发明的一种自动问答方法和系统,但应当说明的是,这并不是对本发明应用范围的限定,本发明同样可以适用于其他知识源(如维基百科或一些本地语料库等),通过其他搜索方法(或系统,如百度,雅虎或一些本地搜索引擎等)从文档中检索出问题的答案的自动问答方法和系统。
本发明实施例的一种基于Web文档的自动问答方法和系统,采用基于语义模板等的问题分析技术分析问题,然后用Google搜索引擎系统从国际互联网上检索相关Web文档,利用问题中的关键字之间的关系来生成高质量的查询关键字,通过查询关键字,利用段落(Passage)检索的方法,从相关文档中快速检索,返回高质量的答案段落,进一步从答案段落中得到问题的精确答案。
下面详细说明本发明的一种自动问答方法,如图1所示,包括下列步骤:
步骤S100,问题分析。通过问题分析获取问题的信息,包括结构和语义信息。
其中,结构信息包括词汇特征和句法特征,语义信息包括问题目标、问题类型、问题内的约束关系等。
较佳地,在本发明实施例中,应用语义模板(Pattern)来描述问题,使得能够为用户提供接口来提交问题。同时,使用语义模板匹配的方法来分析问题,获取问题的语义信息。
所述语义模板匹配的方法,如图2所示,具体包括如下步骤:
步骤S110,用词性标注器(Part-of-Speech Tagger,POS Tagger)和命名实体识别器(Name Entity Recognizer)对问题做预处理,产生一个初步的词汇-句法模板(SLP);
步骤S120,从现有的模板库搜索与问题满足初步条件(如包含相同问题类型及关键字)的问题模板(QP);
所述步骤S120中,模板库即存储问题模板的数据库,其一实施例与专利申请号为200510130778.5的中国专利公开的一种网上用户交互问答方法及其系统中的模板数据库相同。其中,所述问题模板由问题类型、和/或关键字、和/或可填充部分组成。
例如,问题“去英国留学需要哪些条件?”,其对应问题模板为“[描述/行为]需要<Q>哪些</Q>条件?”其中,“哪些”即问题类型,“需要”、“条件”即关键字,“[描述/行为]”即可填充部分,“<Q>、</Q>”即问题类型标识符。
问题模板也可以有其他的定义形式,如只包含结构的而不包含语义的模板,或可填充部分的语义标签可以包含多层次的,用户可选的概念分类。
步骤S130,把词汇-句法模板和问题模板进行匹配;
步骤S140,如果匹配成功,则获得问题类型、问题目标以及问题内的约束关系;否则,返回步骤S120重新进行搜索。
步骤S200,文档检索。根据问题分析的结果,生成初始的查询条件,在国际互联网等知识源中,以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;并在判断没有段落集满足设定的条件时,重写查询条件,重新进行检索。
作为本发明可实施的一种方式,本发明实施例利用Google搜索引擎作为文档的搜索引擎,从Google搜索引擎中搜索与问题相关的Web文档,组成文档集,然后对返回的Web文档集进行处理,以获得文档中的明文。
所述检索过程是一个循环过程,如图3所示,包括以下步骤:
步骤S210,根据问题分析的结果,从问题中去掉所有停用词,生成一个初始查询条件;
查询条件由多个关键字构成,查询条件的生成基于问题分析的结果。但是,如何生成最适合的查询条件仍然是一个困难的问题。原因在于:1)查询往往包含不足够的,同时在查询关键字和段落里出现的词,导致无法返回最相关的段落;2)一些包含足够共同出现的词的查询,词语之间缺乏关系,因此会返回一些不相关的段落。
例如,给定一个问题:“Where is Beijing?”,生成的查询是“Beijing”,用这个查询去检索回相关的段落(passage):
A)Beijing City is an independently administered municipal district.Theclimate in Beijing is of the continental type,with cold and dry winters and hotsummers.
B)Beijing is one of the Four Great Ancient Capitals of China.It will host the2008 Summer Olympics.
C)The population of Beijing Municipality,defined as the total number ofpeople who reside in Beijing for more per year,was 15.38 million in 2005.
不难看出,上述的几个段落没一个是和给定的问题相关的。对于这种查询,需要用一些相关的词做查询扩展。作为一种可实施的方式,较佳地,本发明用启发式方法和经典的局部文本分析(local context analysis,LCA)方法来做查询扩展,生成查询条件。
步骤S220,将获得的查询条件递交到Google搜索引擎,从国际互联网中检索与问题相关的Web文档,然后返回Web文档集。
步骤S230,将Web文档集划分形成段落(Passage)集。
作为一种可实施的方式,本发明用HTML文档解析器解析返回的Web文档,抽取文档中的明文。对明文文档进行提取词干,去停用词等处理后,把文档集划分为段落集。
作为一种可实施的方式,采用基于重叠的窗口的方法。该方法在文献“Callan J P.Passage-level Evidence in Document Retrieval[C].Proc.of the 17thACM-SIGIR conference(SIGIR 1994),New York,USA:ACM Press,1994:302-310.”中已阐述,这里不做详细说明。窗口大小实际上就是段落(Passage)的长度。为了不包括过多的冗余信息,设置窗口大小为250byte,且移动步长为50byte。例如给定某一段落,其第一个窗口即前250byte,第二个窗口为51~300byte,依此类推。也可以按照句子数目设置窗口大小,假设每3个句子为一个窗口。例如某一段落由N个句子组成s1...sn,其第一个窗口即s1 s2 s3,第二个窗口为s2 s3 s4,依此类推。
步骤S240,判断段落集的数量和质量,以及循环次数是否符合要求,如果段落的数量和质量不符合要求并且循环次数少于设定的值(如循环5次),则转到步骤S250;否则返回结果,结束检索过程。
步骤S250,重写查询条件。根据初始查询条件的一些关键字,用该关键字的上义词或下义词、同义词代替得到新的关键字,利用新的关键字组成新的查询条件,返回步骤S220,重新进行Google搜索引擎检索。
作为一种可实施的方式,利用新的关键字,以具有匹配关系和约束关系的词汇单元为基础,结合词汇之间的关系,计算段落与问题的相关度,得到新的查询条件。
作为一种可实施方式,利用WordNet或其他同义词林获取关键字的上义词、下义词或同义词。
为了减少关键字之间的错误匹配,语义相关的词作为一个整体来考虑,用启发式方法来重写查询条件,如:
A)当关键词是名词时,它的直接修饰词和它一起作为一个关键字。例如,问题“what is the longest river in china?”,“longest river”被作为一个关键字考虑。
B)当关键字是形容词或者副词时,并且跟在疑问词“how”后面时,此关键字和“how”一起被转换成与问题语义分类相关的词。例如,对于问题“howfar is it from Earth to Mars?”,其问题类型是Distance,所以把“how far”转换成“distance”。
C)当关键字是名词时,并且跟在疑问词“what”之后,此关键字会在查询中删掉。以问题“What country is Aswan High Dam located in?”为例,词“country”从查询中去掉。
D)对于一些固定搭配中的词,其与构成搭配的词作为整体构成一个关键字。例如问题“What are pennies made of?”,“made of”作为一个关键字加到查询中。
一些关键字以多形态存在,例如名词单复数、动词时态等;可以用词干分析器(如Porter′s stemmer)把这些词转换成其词根形式。
通过新的关键字,组成新的查询条件,重新进行查询,返回步骤S220,重新进行Google搜索引擎检索和段落检索。
步骤S300,段落检索。根据文档检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,并从段落集合中抽取答案段落返回。
段落检索将从返回的Web文档集中找出若干个最相关的段落(Passage)。
段落是长度有限的、由一个或几个句子组成的一段文本。
较佳地,因为过长的段落会包含过多的冗余信息,增加分析的难度和返回错误信息的概率,本发明实施例的段落(Passage),由相邻的句子构成,并且长度不大于250比特字节(byte)。
段落检索将从返回的文档集中找出若干个最相关的段落。把待处理的文档集的大小减少为有限数目的段落(Passage)集。
段落检索的基本方法是比较查询条件和候选段落以决定哪个段落与查询条件相关,典型的查询是一个词向量,词之间的关系是布尔关系,不管是基于词频还是基于语言模型的检索都极大的依赖于查询的质量。
较佳地,为克服现有基于词频和语言模型的段落检索中,经常会返回一些不相关的段落的缺陷,因此,本发明实施例的段落检索,结合tf-idf的统计词频特征以及查询和段落之间的语义相关性,计算段落的得分,包括两部分:tf-idf词频分数、与段落的语义相关度,然后根据各个段落的得分对它们排序(如降序排序),若大于一定阈值(例如0.3),则作为候选答案段落(passage)。
在本发明实施例中,段落与查询的相关度由其与查询的匹配程度决定。即:
对于一个查询,其最后得分包括两部分:第一个是tf-idf词频分数;第二个是与段落(passage)的语义相关度。tf-idf词频分数正如公式(1)所示,是一个向量空间模型,同时考虑关键字在查询和段落(passage)中出现的频率。语义相关性用公式(2)计算,统计查询和段落(passage)里的语义相关词的数目。段落(passage)的最终得分用公式(3)计算:
score 1 ( p , q ) = &Sigma; t &Element; p &cap; q 1 + ln ( 1 + ln ( tf ( t , p ) ) ( 1 - s ) + s | p | avgpl &times; ln N + 1 df ( t ) - - - ( 1 )
score 2 ( p , q ) = &Sigma; t &Element; p &delta; ( t ) - - - ( 2 )
score(p,q)=score1(p,q)+α×score2(p,q)     (3)
式中符号含义如下:
p:段落(passage);
q:查询;
tf(t,p):词t在段落p中出现的频率;
s:用来平衡段落长度的参数;
|p|:段落p的长度;
N:查询q的候选段落的数目;
df(t):包含词t的段落的数目;
avgpl:段落的平均长度;
δ(t):如果词t在查询q里有一个语义相关词,值为1,否则为0;
α:score1和score2的平衡因子。
其中,语义相关的定义为,对词w1和词w2,如果w1在WordNet或其他同义词林中是w2的上义词、下义词或同义词,则两者语义相关。
同时,为了保持语义信息的完整性,作为本发明的一种可实施方式,采用基于重叠的窗口的方法去划分段落(Passage),使得描述同一主题的相邻句子不会被划分到不同的段落中去。
从所获得的段落集中选取作为答案的段落(答案段落),当作答案返回。答案段落可以作为答案直接返回给用户。
步骤S400,精确答案抽取。从所获取答案段落中抽取作为答案的句子或词,作为问题的精确答案返回。
自动问答系统中的精确答案(Exact Answer)抽取一般有两种方法:利用模板匹配方法或者实体识别方法进行抽取作为答案的句子或词。
1)模板匹配方法
对于问题,其答案形式往往是一种或者是几种固定的模式,这些模式可以用来帮助系统查找描述答案的小段落。
如:When was B born?
它的答案模式往往是:
B was born in<ANSWER>.
In<ANSWER>,B was born in Shanghai.
这里<ANSWER>表示精确答案所在的位置。
如果它的答案段落是:“B is good at math.In 1981,B was born in Shanghai.He graduated from the Shanghai No.1 primary school.”这个段落的第二句与上面的第二个模板匹配,可以作为答案句子返回,甚至,其中的“1981”与模板里的<ANSWER>相对应,因此可以作为精确答案返回。
作为另一种可实施的方式,也可以用正则表达式来实现模板匹配。例如:判断一个字符串是不是整数,或者判断它是不是一个电话号码,判断是不是一个email地址等。
2)实体识别方法
实体识别的方法是在答案段落中,找出与问题目标(question target)对应的实体词作为答案返回。
如:When was B born?它的问题目标是TIME。
它的答案段落(Answer Passage)是:“In1981,B was born in Shanghai.”这个段落里“1981”是一个TIME实体,因此直接把它作为精确答案返回。
较佳地,考虑到模板匹配的方法只考虑答案的位置,而没考虑所返回的答案的类型是否匹配。而实体识别方法只考虑类型匹配,而没有考虑答案的位置的缺陷,在本发明实施例中,作为一种可实施的方式,采用一种更加灵活实用的模板匹配方法,采用语义模板进行匹配,其中的可变化部分的语义标注是一种实体标签,进行实体类型匹配,同时考虑答案的位置,又考虑所返回的答案的类型是否匹配,抽取作为答案的句子或词。
本发明实施例中采用语义模板,以语义标注进行实体类型匹配的模板匹配方法,在本申请人申请的申请号为200510130778.5,名称为:一种网上用户交互问答方法及其系统,的发明专利申请中予以详细的说明,本发明实施例中全文引用,不再一一详细描述。
对应于本发明的一种自动问答方法,本发明还提供一种自动问答系统,如图4所示,其包括四个模块:问题分析模块51,文档检索模块52,段落检索模块55,以及答案抽取模块56。
所述问题分析模块51,用于通过问题分析获取问题的信息,包括结构和语义信息;
所述文档检索模块52,用于根据问题分析模块51对问题分析的结果,生成初始的查询条件,在国际互联网等知识源中,以搜索引擎进行检索,检索出与查询条件相关的文档集53,并将文档集53划分为段落集54;并在判断段落集54不满足设定的条件时,重写查询条件,重新进行检索;
所述段落检索模块55,用于根据文档检索模块52检索的结果,以段落检索方法从段落集54中检索出与查询条件相关的段落集合,并从段落集合中选取最相关的段落作为答案段落返回。
所述答案抽取模块56,用于根据段落检索获得的与查询条件相关的段落集合,从所获取段落集合中抽取作为答案的句子或词返回。
首先,问题分析模块51对用户问题进行分析,以获得问题的信息,包括句法结构和语义信息;
然后,文档检索模块52,根据问题的信息,生成初始查询条件,在国际互联网等知识源中,以Google搜索引擎进行搜索,检索出与查询条件相关的Web文档集53,并将文档集53划分为段落集54;并在判断段落集54不满足设定的条件时,重写查询条件,重新进行检索;
其后,段落检索模块55从段落集中检索出与查询条件相关的段落,并从段落集合中选取最相关的段落作为答案段落返回;
最后,答案抽取模块56从检索出的与查询条件相关的答案段落集合中抽取作为答案的句子或词。
本发明的自动问答系统以与自动问答方法相应的过程进行工作,本领域技术人员根据本发明实施例的描述,可以实现本发明的自动问答系统,因此,在本发明实施例中,不再一一详细描述。
下面通过实验来描述本发明自动问答方法和系统对问题返回正确结果的精确度。
选择TREC-12(2003)的事实性的(factoid)问题作为测试集。
根据问题类型,把问题分为四类。如本发明实施例所提到的,用Google搜索引擎系统作为文档的搜索引擎,每个问题返回不多于40篇文档,每篇文档被划分为段落(passage)。
每个问题的候选段落(passage)由文档数和文档长度决定,本实验中,每个问题平均有400个候选段落(passage),所有的候选段落(passage)被打分并且排序,最后,每个问题返回五个得分最高的段落(passage)。
为了比较,在Google搜索引擎上也做了同样的实验,测试集的问题被直接递交到Google返回相关文档,搜索结果包括URL、标题和摘要。通过人工去检查返回的前五个结果,然后评估并记录下结果。
为了评估结果,利用平均倒排序(Mean Reciprocal rank,MRR)计算出没有答案段落的问题比例进行评估。
答案段落是包含了问题精确答案的段落。
对每个问题,系统最多返回五个答案段落。每个段落被独立评估成正确(correct),相关(relevant),和不正确(incorrect)。
如果段落中包含了明确的正确的答案,它被评估成正确(correct);如果段落中不包含明确的正确的答案,但是包含了正确答案的重要信息,它被评估成相关(relevant);否则,其被评估成不正确(incorrect)。
问题q的倒排序(Reciprocal Rank,RR)被定义成公式(4),
RR ( q ) = 1 rank ( first _ correct _ passage ) - - - ( 4 )
其中rank(first_correct_passage)表示第一个正确(correct)段落在返回的段落列表中排的次序。
利用MRR评估如公式(5)所示。
MRR是所有问题的倒排序的平均值。
MRR = 1 N &Sigma; i = 1 N RR ( q i ) - - - ( 5 )
没有返回答案段落的问题的比例用公式(6)计算:
Percentage ( Q _ set ) = n 1 N - - - ( 6 )
式中符号含义如下:
Q_set:问题集;
n1:有至少一个正确(correct)或者相关(relevant)段落的问题的数目;
N:所有问题的数目。
另外,对于每个问题,如果其返回的结果中至少有一个正确(correct)段落或者相关(relevant)段落,最好的段落在结果中的排序位置(Rank)将被记录下来。对于一些问题,其结果中不存在正确(correct)段落或者相关(relevant)段落,则结果记录为NIL。
本发明自动问答方法和系统实验结果如表1所示:本发明的自动问答方法和系统为59‘what’类型(what-type)的问题返回正确(correct)或者相关(relevant)段落,对其余的65what-type问题则返回NIL。
表1.返回答案段落(passage)的问题数目和排序以及MRR
 
Rank 1 2 3 4 5 NIL MRR
what 28 11 7 9 4 65 0.314
How 5 3 10 16 10 12 0.283
when 2 2 4 2 0 10 0.242
what-type问题的MRR值是0.314。what-type问题的MRR值比how-type(‘how’类型)和when-type(‘when’类型)问题要高,两者的MRR值分别是0.283和0.242。
31.5%(即:(rank1+rank2)/total=(28+11)/(59+65))的what-type问题至少有一个正确(correct)或相关(relevant)段落排在结果的top-2位置。对于how-type和when-type问题,这个百分比则分别是14.3%((表1:rank1+rank2)/total=(5+3)/56)和20%((表1:rank1+rank2)/total=(2+2)/20)。
对这三种类型问题,返回结果中不含正确(correct)段落或者相关(relevant)段落的比例分别是52.4%(即:Rank NIL(65)/total(124))、21.4%(即:Rank NIL(12)/total(56))、和50%(即:Rank NIL(10)/total(20))。结果表明,本发明的自动问答系统对于what-type问题,结果优于其他两种类型的问题。原因在于,跟另两种问题相比,what-type问题目标明确、陈述清晰,搜索引擎能够为该类问题返回更加准确的文档。所有问题的总体MRR值是29.8%,没有返回答案段落(passage)的问题比例则是43.5%。
表2显示的是在Google上手工实验的实验结果。when-type问题的MRR值是0.225。how-type和when-type问题的MRR值分别是0.298和0.254。
表2.返回答案段落(passage)的问题数目和排序以及MRR
 
Rank 1 2 3 4 5 NIL MRR
what 20 6 6 7 6 79 0.225
How 6 8 13 3 8 18 0.298
when 2 1 4 5 0 8 0.254
对于所有的问题,Google的MRR值是24.8%。
结果表明,本发明的自动问答方法和系统优于Google。在表2中,105个问题返回NIL,而在表1中这个数字是87。实验结果表明,本发明的自动问答方法和系统可以从排序较低的文档里找到正确的答案段落(passage)并提升它的排序。
通过以上结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。

Claims (34)

1、一种自动问答方法,其特征在于,包括下列步骤:
步骤A,通过问题分析获取问题的信息;
步骤B,根据问题分析的结果,生成查询条件,在知识源中以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;
步骤C,根据文档检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,并从段落集合中返回问题的答案。
2、根据权利要求1所述自动问答方法,其特征在于,所述步骤C中,从段落集合中返回问题的答案,具体包括下列步骤:
从段落集合中抽取答案段落,作为问题的答案返回。
3、根据权利要求1所述的自动问答方法,其特征在于,所述步骤C中,从段落集合中返回问题的答案,具体包括下列步骤:
从所获取段落集合中抽取作为答案的句子或词,作为问题的精确答案返同。
4、根据权利要求1至3任一项所述的自动问答方法,其特征在于,所述信息为结构信息,包括词汇特征和句法特征。
5、根据权利要求1至3任一项所述的自动问答方法,其特征在于,所述信息为语义信息,包括问题目标、问题类型、问题内的约束关系。
6、根据权利要求5所述的自动问答方法,其特征在于,所述获取问题的语义信息,包括下列步骤:
应用语义模板来描述问题,使用语义模板匹配的方法来分析问题,获取问题的语义信息。
7、根据权利要求6所述的自动问答方法,其特征在于,所述语义模板匹配的方法,包括如下步骤:
步骤A1,用词性标注器和命名实体识别器对问题做预处理,产生一个初步的词汇-句法模板;
步骤A2,从模板库搜索与问题满足初步条件的问题模板;
步骤A3,把词汇-句法模板和问题模板进行匹配;
步骤A4,如果匹配成功,则获得问题类型、问题目标以及问题内的约束关系;否则,返回步骤A2重新进行搜索。
8、根据权利要求1至3任一项所述的自动问答方法,其特征在于,所述步骤B还包括下列步骤:
判断段落集是否满足设定的条件,如果没有满足,则重写查询条件,重新进行检索。
9、根据权利要求8所述的自动问答方法,其特征在于,所述步骤B包括下列步骤:
步骤B1,根据问题分析的结果,从问题中去掉所有停用词,生成一个初始查询条件;
步骤B2,用所获得的查询条件递交到搜索引擎,从知识源中检索与问题相关的文档,然后返回文档集;
步骤B3,将文档集划分形成段落集;
步骤B4,判断段落集的数量和质量,以及循环次数是否符合要求,如果段落的数量和质量不符合要求并且循环次数少于设定的值,则转到步骤B5;否则返回结果,结束检索过程;
步骤B5,根据初始查询条件的一些关键字,用该关键字的上义词或下义词、同义词代替得到新的关键字,利用新的关键字组成新的查询条件,返回步骤B2,重新进行搜索引擎检索。
10、根据权利要求9所述的自动问答方法,其特征在于,所述知识源为国际互联网;所述文档为Web文档。
11、根据权利要求9所述的自动问答方法,其特征在于,所述步骤B1中,生成初始查询条件,具体包括如下步骤:
用启发式方法和局部文本分析方法来做查询扩展,生成查询条件。
12、根据权利要求10所述的自动问答方法,其特征在于,所述步骤B3中,将web文档集划分形成段落集,具体包括如下步骤:
用HTML文档解析器解析返回的Web文档,抽取文档中的明文;对明文文档进行提取词干,去停用词处理后,把文档集划分为段落集。
13、根据权利要求9所述的自动问答方法,其特征在于,所述步骤B5中,所述利用新的关键字组成新的查询条件,包括下列步骤:
利用新的关键字,以具有匹配关系和约束关系的词汇单元为基础,结合词汇之间的关系,计算段落与问题的相关度,得到新的查询条件。
14、根据权利要求9所述的自动问答方法,其特征在于,所述步骤B5中,关键字的上义词或下义词、同义词,是利用WordNet根据关键字获取的。
15、根据权利要求1至3任一项所述的自动问答方法,其特征在于,所述步骤C中,所述段落是由相邻的句子构成,且句子数目不大于一特定数值或总长度不大于一特定比特字节。
16、根据权利要求1至3任一项所述的自动问答方法,其特征在于,所述步骤C中,所述段落检索方法包括下列步骤:
结合tf-idf的统计词频特征以及查询和段落之间的语义相关性,计算段落的得分,然后根据各个段落的得分以降序排序,如果大于一特定阈值,则该段落被列为候选答案段落。
17、根据权利要求16所述的自动问答方法,其特征在于,所述tf-idf词频分数如下式所示:
score 1 ( p , q ) = &Sigma; t &Element; p &cap; q 1 + ln ( 1 + ln ( tf ( t , p ) ) ( 1 - s ) + s | p | avgpl &times; ln N + 1 df ( t )
其中,
p表示段落;
q表示查询;
tf(t,p)表示词t在段落p中出现的频率;
s表示用来平衡段落长度的参数;
|p|表示段落p的长度;
N表示查询q的候选段落的数目;
df(t)表示包含词t的段落的数目;
avgpl表示段落的平均长度;
所述语义相关性用下式计算:
score 2 ( p , q ) = &Sigma; t &Element; p &delta; ( t )
δ(t)表示如果词t在查询q里有一个语义相关词,值为1,否则为0;
所述段落的得分用下式计算:
score(p,q)=score1(p,q)+α×score2(p,q)
α表示score1和score2的平衡因子。
18、根据权利要求16所述的自动问答方法,其特征在于,所述步骤C还包括下列步骤:
采用基于重叠的窗口的方法去划分段落,使得描述同一主题的相邻句子不会被划分到不同的段落中去。
19、根据权利要求3所述的自动问答方法,其特征在于,所述步骤C中,抽取作为答案的句子或词,是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子。
20、根据权利要求3所述的自动问答方法,其特征在于,所述步骤C中,抽取作为答案的句子或词,是采用语义模板进行匹配来获取作为答案的句子。
21、根据权利要求3所述的自动问答方法,其特征在于,所述步骤C中,抽取作为答案的句子或词,是采用语义模板进行匹配来获得答案的实体类型,再利用答案的实体类型在答案的句子中匹配到具体的词,把该词作为精确答案。
22、一种自动问答系统,其特征在于,包括问题分析模块,文档检索模块,段落检索模块,其中:
所述问题分析模块,用于通过问题分析获取问题的信息;
所述文档检索模块,用于根据问题分析模块对问题分析的结果,生成查询条件,在知识源中,以搜索引擎进行检索,检索出与查询条件相关的文档集,并将文档集划分为段落集;
所述段落检索模块,用于根据文档检索模块检索的结果,以段落检索方法从段落集中检索出与查询条件相关的段落集合,从段落集合中返回问题的答案。
23、根据权利要求22所述的自动问答系统,其特征在于,还包括答案抽取模块,用于根据段落检索获得的与查询条件相关的段落集合,从所获取段落集合中抽取作为答案的句子或词返回。
24、根据权利要求22或23所述的自动问答系统,其特征在于,所述信息为结构信息,包括词汇特征和句法特征。
25、根据权利要求22或23所述的自动问答系统,其特征在于,所述信息为语义信息,包括问题目标、问题类型、问题内的约束关系。
26、根据权利要求22或23所述的自动问答系统,其特征在于,所述获取问题的语义信息,为:
应用语义模板来描述问题,使用语义模板匹配的方法来分析问题,获取问题的语义信息。
27、根据权利要求22或23所述的自动问答系统,其特征在于,所述文档检索模块还用于判断段落集是否满足设定的条件,如果没有满足,则重写查询条件,重新进行检索。
28、根据权利要求27所述的自动问答系统,其特征在于,所述知识源为国际互联网;所述文档为Web文档。
29、根据权利要求22或23所述的自动问答系统,其特征在于,所述段落是由相邻的句子构成,且句子数目不大于一特定数值或总长度不大于一特定比特字节。
30、根据权利要求22或23所述的自动问答系统,其特征在于,所述段落检索方法为:
结合tf-idf的统计词频特征以及查询和段落之间的语义相关性,计算段落的得分,然后根据各个段落的得分以降序排序,如果大于一特定阈值,则该段落被列为候选答案段落。
31、根据权利要求30所述的自动问答系统,其特征在于,所述tf-idf词频分数如下式所示:
score 1 ( p , q ) = &Sigma; t &Element; p &cap; q 1 + ln ( 1 + ln ( tf ( t , p ) ) ( 1 - s ) + s | p | avgpl &times; ln N + 1 df ( t )
其中,
p表示段落;
q表示查询;
tf(t,p)表示词t在段落p中出现的频率;
s表示用来平衡段落长度的参数;
|p|表示段落p的长度;
N表示查询q的候选段落的数目;
df(t)表示包含词t的段落的数目;
avgpl表示段落的平均长度;
所述语义相关性用下式计算:
score 2 ( p , q ) = &Sigma; t &Element; p &delta; ( t )
δ(t)表示如果词t在查询q里有一个语义相关词,值为1,否则为0;
所述段落的得分用下式计算:
score(p,q)=score1(p,q)+α×score2(p,q)
α表示score1和score2的平衡因子。
32、根据权利要求23所述的自动问答系统,其特征在于,所述抽取作为答案的句子或词,是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子。
33、根据权利要求23所述的自动问答系统,其特征在于,所述抽取作为答案的句子或词,是采用语义模板进行匹配来获取作为答案的句子。
34、根据权利要求23所述的自动问答方法,其特征在于,所述步骤C中,抽取作为答案的句子或词,是采用语义模板进行匹配来获得答案的实体类型,再利用答案的实体类型在答案的句子中匹配到具体的词,把该词作为精确答案。
CNA2007101213058A 2007-09-03 2007-09-03 一种自动问答方法和系统 Pending CN101377777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101213058A CN101377777A (zh) 2007-09-03 2007-09-03 一种自动问答方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101213058A CN101377777A (zh) 2007-09-03 2007-09-03 一种自动问答方法和系统

Publications (1)

Publication Number Publication Date
CN101377777A true CN101377777A (zh) 2009-03-04

Family

ID=40421323

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101213058A Pending CN101377777A (zh) 2007-09-03 2007-09-03 一种自动问答方法和系统

Country Status (1)

Country Link
CN (1) CN101377777A (zh)

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853298A (zh) * 2010-05-26 2010-10-06 上海大学 一种面向事件的查询扩展方法
CN102110100A (zh) * 2009-12-24 2011-06-29 亿维讯软件(北京)有限公司 一种检索效应数据库的方法及装置
WO2011079683A1 (zh) * 2009-12-30 2011-07-07 北京世纪高通科技有限公司 获取信息的方法和装置
CN101789008B (zh) * 2010-01-26 2012-02-01 武汉理工大学 人机接口系统知识库及其构建方法
CN103124980A (zh) * 2010-09-24 2013-05-29 国际商业机器公司 包括从多个文档段收集答案的提供问题答案
CN103229120A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用假设剪枝提供问题答案
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN103229162A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用候选答案逻辑综合提供问题答案
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
CN104679492A (zh) * 2013-11-29 2015-06-03 国际商业机器公司 计算机实现的提供技术支持的设备和方法
CN104933097A (zh) * 2015-05-27 2015-09-23 百度在线网络技术(北京)有限公司 一种用于检索的数据处理方法和装置
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法
CN106528537A (zh) * 2016-11-22 2017-03-22 中国科学院软件研究所 基于句子重写的语义分析方法及装置
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106664450A (zh) * 2014-07-29 2017-05-10 三星电子株式会社 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN107229675A (zh) * 2017-04-28 2017-10-03 北京神州泰岳软件股份有限公司 列表型知识的问答库构建方法、作答方法、装置及系统
CN107292086A (zh) * 2016-04-07 2017-10-24 西门子保健有限责任公司 图像分析问答
CN107305663A (zh) * 2016-04-14 2017-10-31 平安科技(深圳)有限公司 客服中心问题栏信息管理方法和装置
CN107408110A (zh) * 2015-03-06 2017-11-28 国立研究开发法人情报通信研究机构 含意配对扩展装置、用于其的计算机程序以及提问应答系统
WO2018018626A1 (en) * 2016-07-29 2018-02-01 Microsoft Technology Licensing, Llc. Conversation oriented machine-user interaction
CN107861943A (zh) * 2017-10-20 2018-03-30 中国地质大学(武汉) 一种从文档集中快速提取有用数据的方法
CN108256539A (zh) * 2016-12-28 2018-07-06 北京智能管家科技有限公司 基于语义匹配的人机交互方法、交互系统及智能故事机
CN108763529A (zh) * 2018-05-31 2018-11-06 苏州大学 一种智能检索方法、装置和计算机可读存储介质
CN109101648A (zh) * 2018-08-22 2018-12-28 歌尔科技有限公司 一种新闻播放方法和装置
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
WO2019116253A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN109992647A (zh) * 2019-04-04 2019-07-09 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN110019736A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
CN110413735A (zh) * 2019-07-25 2019-11-05 深圳供电局有限公司 一种问答检索方法及其系统、计算机设备、可读存储介质
CN110633407A (zh) * 2018-06-20 2019-12-31 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
CN110737756A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 确定针对用户输入数据的应答的方法、装置、设备和介质
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111104503A (zh) * 2019-12-24 2020-05-05 华中科技大学 一种建筑工程质量验收规范问答系统及其构建方法
CN111125150A (zh) * 2019-12-26 2020-05-08 成都航天科工大数据研究院有限公司 一种工业领域问答系统检索方法
CN111386686A (zh) * 2017-11-09 2020-07-07 微软技术许可有限责任公司 用于回答与文档相关的查询的机器阅读理解系统
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111680264A (zh) * 2020-04-20 2020-09-18 重庆兆光科技股份有限公司 一种多文档阅读理解方法
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN111858844A (zh) * 2019-04-18 2020-10-30 美佳私人有限公司 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN113157869A (zh) * 2021-05-06 2021-07-23 日照蓝鸥信息科技有限公司 一种文档精准定位检索方法及系统
CN113590757A (zh) * 2021-08-03 2021-11-02 中国银行股份有限公司 查询方法、装置、服务器、介质及产品
CN113641783A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于关键语句的内容块检索方法、装置、设备和介质
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN114579605A (zh) * 2022-04-26 2022-06-03 阿里巴巴达摩院(杭州)科技有限公司 表格问答数据处理方法、电子设备及计算机存储介质

Cited By (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110100A (zh) * 2009-12-24 2011-06-29 亿维讯软件(北京)有限公司 一种检索效应数据库的方法及装置
WO2011079683A1 (zh) * 2009-12-30 2011-07-07 北京世纪高通科技有限公司 获取信息的方法和装置
CN101789008B (zh) * 2010-01-26 2012-02-01 武汉理工大学 人机接口系统知识库及其构建方法
CN101853298A (zh) * 2010-05-26 2010-10-06 上海大学 一种面向事件的查询扩展方法
CN101853298B (zh) * 2010-05-26 2012-08-15 上海大学 一种面向事件的查询扩展方法
US10331663B2 (en) 2010-09-24 2019-06-25 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
CN103124980B (zh) * 2010-09-24 2015-11-25 国际商业机器公司 包括从多个文档段收集答案的提供问题答案
US9965509B2 (en) 2010-09-24 2018-05-08 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
US9864818B2 (en) 2010-09-24 2018-01-09 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
US11144544B2 (en) 2010-09-24 2021-10-12 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
US10318529B2 (en) 2010-09-24 2019-06-11 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
CN103124980A (zh) * 2010-09-24 2013-05-29 国际商业机器公司 包括从多个文档段收集答案的提供问题答案
US9600601B2 (en) 2010-09-24 2017-03-21 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
US9495481B2 (en) 2010-09-24 2016-11-15 International Business Machines Corporation Providing answers to questions including assembling answers from multiple document segments
CN103229162A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用候选答案逻辑综合提供问题答案
CN103229120A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用假设剪枝提供问题答案
US9317586B2 (en) 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US9323831B2 (en) 2010-09-28 2016-04-26 International Business Machines Corporation Providing answers to questions using hypothesis pruning
CN103229162B (zh) * 2010-09-28 2016-08-10 国际商业机器公司 使用候选答案逻辑综合提供问题答案
US10216804B2 (en) 2010-09-28 2019-02-26 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US11409751B2 (en) 2010-09-28 2022-08-09 International Business Machines Corporation Providing answers to questions using hypothesis pruning
CN104137102B (zh) * 2012-02-23 2017-06-13 独立行政法人情报通信研究机构 非事实型询问应答系统以及方法
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN103226580B (zh) * 2013-04-02 2016-03-30 西安交通大学 一种面向交互文本的话题识别方法
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法
CN105393248B (zh) * 2013-06-27 2019-01-08 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法
CN104679492A (zh) * 2013-11-29 2015-06-03 国际商业机器公司 计算机实现的提供技术支持的设备和方法
CN104679492B (zh) * 2013-11-29 2018-08-28 国际商业机器公司 计算机实现的提供技术支持的设备和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN106664450A (zh) * 2014-07-29 2017-05-10 三星电子株式会社 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统
US10242586B2 (en) 2014-07-29 2019-03-26 Samsung Electronics Co., Ltd. Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
CN104536991B (zh) * 2014-12-10 2017-12-08 乐娟 答案抽取方法及装置
CN107408110A (zh) * 2015-03-06 2017-11-28 国立研究开发法人情报通信研究机构 含意配对扩展装置、用于其的计算机程序以及提问应答系统
CN107408110B (zh) * 2015-03-06 2020-12-15 国立研究开发法人情报通信研究机构 含意配对扩展装置、记录介质以及提问应答系统
CN104933097A (zh) * 2015-05-27 2015-09-23 百度在线网络技术(北京)有限公司 一种用于检索的数据处理方法和装置
CN104933097B (zh) * 2015-05-27 2019-04-16 百度在线网络技术(北京)有限公司 一种用于检索的数据处理方法和装置
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN105279274B (zh) * 2015-10-30 2018-11-02 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN107292086A (zh) * 2016-04-07 2017-10-24 西门子保健有限责任公司 图像分析问答
CN107305663A (zh) * 2016-04-14 2017-10-31 平安科技(深圳)有限公司 客服中心问题栏信息管理方法和装置
CN109791549A (zh) * 2016-07-29 2019-05-21 微软技术许可有限责任公司 面向对话的机器用户交互
US11068519B2 (en) 2016-07-29 2021-07-20 Microsoft Technology Licensing, Llc Conversation oriented machine-user interaction
WO2018018626A1 (en) * 2016-07-29 2018-02-01 Microsoft Technology Licensing, Llc. Conversation oriented machine-user interaction
CN106649258A (zh) * 2016-09-22 2017-05-10 北京联合大学 一种智能的问答系统
CN106528537A (zh) * 2016-11-22 2017-03-22 中国科学院软件研究所 基于句子重写的语义分析方法及装置
CN106776562B (zh) * 2016-12-20 2020-07-28 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN108256539A (zh) * 2016-12-28 2018-07-06 北京智能管家科技有限公司 基于语义匹配的人机交互方法、交互系统及智能故事机
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN107229675A (zh) * 2017-04-28 2017-10-03 北京神州泰岳软件股份有限公司 列表型知识的问答库构建方法、作答方法、装置及系统
CN107861943B (zh) * 2017-10-20 2020-03-24 中国地质大学(武汉) 一种从文档集中快速提取有用数据的方法
CN107861943A (zh) * 2017-10-20 2018-03-30 中国地质大学(武汉) 一种从文档集中快速提取有用数据的方法
US11409749B2 (en) 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
CN111386686B (zh) * 2017-11-09 2022-10-18 微软技术许可有限责任公司 用于回答与文档相关的查询的机器阅读理解系统
CN111386686A (zh) * 2017-11-09 2020-07-07 微软技术许可有限责任公司 用于回答与文档相关的查询的机器阅读理解系统
GB2581464A (en) * 2017-12-15 2020-08-19 Ibm Supporting evidence retrieval for complex answers
WO2019116253A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
CN110019736A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
CN110019736B (zh) * 2017-12-29 2021-10-01 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
CN108763529A (zh) * 2018-05-31 2018-11-06 苏州大学 一种智能检索方法、装置和计算机可读存储介质
CN110633407A (zh) * 2018-06-20 2019-12-31 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
US11977589B2 (en) 2018-06-20 2024-05-07 Baidu Online Network Technology (Beijing) Co., Ltd. Information search method, device, apparatus and computer-readable medium
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110737756B (zh) * 2018-07-03 2023-06-23 百度在线网络技术(北京)有限公司 确定针对用户输入数据的应答的方法、装置、设备和介质
CN110737756A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 确定针对用户输入数据的应答的方法、装置、设备和介质
CN109255012B (zh) * 2018-07-23 2021-04-30 深思考人工智能机器人科技(北京)有限公司 机器阅读理解以及减少候选数据集规模的方法、装置
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109101648B (zh) * 2018-08-22 2022-04-05 歌尔科技有限公司 一种新闻播放方法和装置
CN109101648A (zh) * 2018-08-22 2018-12-28 歌尔科技有限公司 一种新闻播放方法和装置
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN109992647A (zh) * 2019-04-04 2019-07-09 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN111858844A (zh) * 2019-04-18 2020-10-30 美佳私人有限公司 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法
CN111858844B (zh) * 2019-04-18 2023-10-31 美佳私人有限公司 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法
CN110413735B (zh) * 2019-07-25 2022-04-29 深圳供电局有限公司 一种问答检索方法及其系统、计算机设备、可读存储介质
CN110413735A (zh) * 2019-07-25 2019-11-05 深圳供电局有限公司 一种问答检索方法及其系统、计算机设备、可读存储介质
WO2021068352A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111046152B (zh) * 2019-10-12 2023-09-29 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111104503A (zh) * 2019-12-24 2020-05-05 华中科技大学 一种建筑工程质量验收规范问答系统及其构建方法
CN111125150B (zh) * 2019-12-26 2023-12-26 成都航天科工大数据研究院有限公司 一种工业领域问答系统检索方法
CN111125150A (zh) * 2019-12-26 2020-05-08 成都航天科工大数据研究院有限公司 一种工业领域问答系统检索方法
CN111680264B (zh) * 2020-04-20 2023-12-22 重庆兆光科技股份有限公司 一种多文档阅读理解方法
CN111680264A (zh) * 2020-04-20 2020-09-18 重庆兆光科技股份有限公司 一种多文档阅读理解方法
CN113641783A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于关键语句的内容块检索方法、装置、设备和介质
CN111597306B (zh) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN113779203B (zh) * 2020-06-09 2024-09-17 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN111782759B (zh) * 2020-06-29 2024-04-19 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN113157869A (zh) * 2021-05-06 2021-07-23 日照蓝鸥信息科技有限公司 一种文档精准定位检索方法及系统
CN113590757A (zh) * 2021-08-03 2021-11-02 中国银行股份有限公司 查询方法、装置、服务器、介质及产品
CN114579605A (zh) * 2022-04-26 2022-06-03 阿里巴巴达摩院(杭州)科技有限公司 表格问答数据处理方法、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN101377777A (zh) 一种自动问答方法和系统
Reeve et al. Survey of semantic annotation platforms
CN103136352B (zh) 基于双层语义分析的全文检索系统
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
Osiński An algorithm for clustering of web search results
US8037068B2 (en) Searching through content which is accessible through web-based forms
US7509313B2 (en) System and method for processing a query
US7260571B2 (en) Disambiguation of term occurrences
US20050137723A1 (en) Method and apparatus for implementing Q&amp;A function and computer-aided authoring
US20030135826A1 (en) Systems, methods, and software for hyperlinking names
CA2701171A1 (en) System and method for processing a query with a user feedback
WO2002027541A1 (en) A method and apparatus for concept-based searching across a network
CN107357777B (zh) 提取标签信息的方法和装置
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
Magnini et al. Mining Knowledge from Repeated Co-Occurrences: DIOGENE at TREC 2002.
WO2002010985A2 (en) Method of and system for automatic document retrieval, categorization and processing
Hiemstra et al. A domain specific lexicon acquisition tool for cross-language information retrieval
Pembe et al. A linguistically motivated information retrieval system for Turkish
Montoyo et al. WSD Algorithm applied to a NLP System
CN111241854A (zh) 一种基于区块链技术的语言搜索引擎系统
Milić-Frayling Text processing and information retrieval
Lee et al. Bvideoqa: Online English/Chinese bilingual video question answering
Tokunaga et al. Paraphrasing Japanese noun phrases using character-based indexing
Rafiei et al. Data extraction from the web using wild card queries
Gure et al. Intelligence Information Retrieval System Modeling for Afaan Oromo

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090304