CN104536991A - 答案抽取方法及装置 - Google Patents
答案抽取方法及装置 Download PDFInfo
- Publication number
- CN104536991A CN104536991A CN201410757700.5A CN201410757700A CN104536991A CN 104536991 A CN104536991 A CN 104536991A CN 201410757700 A CN201410757700 A CN 201410757700A CN 104536991 A CN104536991 A CN 104536991A
- Authority
- CN
- China
- Prior art keywords
- evidence
- scoring
- hot word
- language material
- scorings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种答案抽取方法及装置,应用于自动问答系统,包括:将接收到的问句划分为多个分词,并对每个分词的词性进行标注后生成分词序列;基于分词序列获取检索关键词,调用用于执行检索操作的预置接口并将检索关键词提交给预置接口,以根据检索结果生成包含候选答案的证据语料;在检索关键词中获取热词并生成热词词表;根据问句的内容识别证据语料中的命名实体并生成候选答案初始集;根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取。该方法可提高答案抽取的准确率。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种答案抽取方法及装置。
背景技术
随着互联网的发展与普及,网上的信息越来越丰富,人们可以通过搜索引擎(比如google、百度等)找到想要的信息,比如可在搜索引擎的搜索框中输入与相关的关键词并触发确定搜索的按钮,随后即会返回与关键词相关的网页。但搜索引擎会存在很多不足,比如,可能用户的检索需求很复杂,很难用几个关键词的简单组合来表示,从而不能清楚表达自己的检索需求,搜索引擎自然就无法找出令用户满意的答案,再比如,检索结果往往是很多相关的网页、文档等,用户需要花费大量时间在这些网页、文档中查找自己需要的信息。
基于上述情况,则出现了自动问答系统,又称QA(Question Answering)系统,自动问答系统可以说就是新一代的搜索引擎,用户不需要把自己的问题分解成关键字,可把整个问题直接交给该系统,既能用自然语言句子提问,又能为用户直接返回答案,可更好地满足用户的检索需求。
在自动问答系统中,答案抽取是比较核心的部分,关系到整个系统的检索效率及准确率。现有的答案抽取方法包括基于机器学习、基于模式匹配、基于句法解析等方法,但上述现有方法存在以下问题:
首先,忽视了问句经过切分后生成的检索词(也可称为问句术语)对抽取候选答案的作用,问句术语在证据语料中的出现频次、其自身的长度以及其与候选答案之间的句法关系等特征对判断候选答案有非常重要的作用,但上述方法未能根据问句术语的重要程度对问句术语进行区别处理;
其次,忽视了包含候选答案的证据语料对评估候选答案的作用;
再次,都是基于某一单一特征或单一方法实现答案抽取,未能解决句法和词法多样性带来的答案抽取难点。由于包含答案的证据语料存在结构多样、句法结构复杂等特点,使得仅基于某一种特征如句法分析特征或某一种模型完成答案抽取的效果并不理想。
因此,如何解决上述现有的答案抽取方法的问题,成为目前最需要解决的问题。
发明内容
本发明提供了一种答案抽取方法及装置,可解决上述现有技术中的问题,可提高答案抽取的准确率,进而提高自动问答系统提供答案的准确率。
根据本发明的一方面,本发明提出了一种答案抽取方法,所述方法应用于自动问答系统,包括:
将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列;
基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料;
根据预设判断条件在检索关键词中获取热词并生成热词词表;
根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集;
根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作;
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
优选地,所述基于所述分词序列获取检索关键词,包括:
判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;
其中,所述预置关键词词性包括:名词、动词、代词、形容词。
优选地,根据预设判断条件在检索关键词中获取热词,包括:
判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次;
若是,则所述检索关键词为热词。
优选地,所述预置的两个针对证据语料的评分机制,包括:
通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制;及
通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对;
所述预置的四个针对候选答案的评分机制,包括:
通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制;
通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制;
通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制;及
通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
优选地,将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制,包括:
将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制;及
将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
根据本发明的另一方面,本发明还提出答案抽取装置,所述装置应用于自动问答系统,包括:
分词单元,用于将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列;
检索单元,用于基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料;
热词获取单元,用于根据预设判断条件在检索关键词中获取热词,并生成热词词表;
命名实体识别单元,用于根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集;
评分单元,用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作;
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
优选地,所述检索单元,具体用于:
判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;
其中,所述预置关键词词性包括:名词、动词、代词、形容词。
优选地,所述热词获取单元,具体用于:
判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次;
若是,则所述检索关键词为热词。
优选地,所述预置的两个针对证据语料的评分机制,包括:
通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制;及
通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对;
所述预置的四个针对候选答案的评分机制,包括:
通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制;
通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制;
通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制;及
通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
优选地,将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制,包括:
将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制;及
将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
本发明实施例提供的答案抽取方法及装置,应用于自动问答系统,可将接收到的问句划分为多个分词并对每个分词的词性进行标注后生成分词序列;基于所述分词序列获取检索关键词,并根据将所述检索关键词提交给所述预置接口后获得的检索结果生成包含候选答案的证据语料;在检索关键词中获取热词并生成热词词表;识别所述证据语料中的命名实体并生成候选答案初始集;根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作。通过提出了热词的定义,并基于热词的词义及其与候选答案之间的句法关系特征提出了四个针对候选答案的评分机制和两个针对证据语料的评分机制,并通过将前述六个独立的评分机制通过预设排列组合方式进行组合而形成42种组合评分机制,根据命名实体的类型在该42种组合评分机制中确定一种组合评分机制,以对候选答案初始集中的每个命名实体分别进行评分并将评分最高的命名实体作为正确答案返回,以最终完成对问句的答案抽取,以组合评分机制来充分挖掘证据语料、问句和候选答案之间的互补关系,以提高答案抽取的准确率,进而提高自动问答系统所提供答案的准确率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的答案抽取方法的流程图;
图2是本发明实施例提供的答案抽取方法中的证据语料的示意图;
图3是本发明实施例提供的答案抽取方法中的跳跃二元词对的示意图;
图4是本发明实施例提供的答案抽取方法中的采用细粒度文本对齐评分机制进行评分的示意图;
图5是本发明实施例提供的答案抽取方法中的ESA和CASA组合原则及组合配置的示意列表;
图6是本发明实施例提供的答案抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
参看图1,为本发明实施例提供的答案抽取方法的流程图。
在本实施例中,所述答案抽取方法应用于自动问答系统,可包括如下步骤:
S101,将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列。
比如,该自动问答系统可设置有用于输入问题的输入界面及确定提问的按钮,用户在该输入界面输入了问题(在本实施例中,可为自然语言形式的问句)并确认提问(比如通过触发确认提问的按钮)后,则该自动问答系统为接收到问句。比如,用户在输入界面输入了“谁发现了万有引力定律?”并触发确定提问的按钮,则自动问答系统可接收到该问句。
然后可对接收到的问句进行分词操作,比如可根据预设的中文词库及词性对照表将该问句根据词性进行划分以生成多个分词,如:谁,发现,了,万有引力,定律。
再对各个分词进行词性标注操作并生成分词序列,比如生成的分词序列为:谁/r,发现/v,了/uj,万有引力/n,定律/n。其中,r为代词,v为动词,uj为助词,n为名词。
S102,基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料。
其中,基于所述分词序列获取检索关键词,可通过判断分词序列中的各个分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;其中,所述预置关键词词性包括:名词、动词、代词、形容词。
也就是说,如果分词序列中的分词的词性为名词、动词、代词、形容词,则可确定该分词为检索关键词,其他词性的分词则可忽略,比如获取到的检索关键词为:谁,发现,万有引力,定律。
调用用于执行检索操作的预置接口,比如调用预置的搜索引擎应用程序接口(API,Application Program Interface),并将获取到的检索关键词(比如:谁,发现,万有引力,定律)提交给所述预置接口,以获得基于该些检索关键词的检索结果,并可将所述检索结果作为包含候选答案的证据语料(Ems,Evidence Materials),可参看图2所示。
S103,根据预设判断条件在检索关键词中获取热词,并生成热词词表。
热词必须是问句中的实词(national word),即其词性只能是代词、名词、动词或形容词,由S102可知,检索关键词均为实词。
因此,可通过判断检索关键词的词性是否为疑问代词(因为疑问代词对确定问句类型具有非常重要的作用,可不限制疑问代词的长度)、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次,若是,则所述检索关键词为热词。
通过获取到的热词生成热词词表,比如为:谁,发现,万有引力,定律。在一个热词词表中,所有热词可按照预设顺序排列成一个热词序列,该热词序列可用于后续步骤中。
S104,根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集。
命名实体可包括人名、地名、组织名、数字等类型,因此可根据问句的内容识别证据语料中的命名实体,比如本实施例中的问句内容则可确定命名实体为人名,识别所述证据语料中的命名实体,即识别所述证据语料中的人名(也就是说该些人名都可被看做候选答案)并生成由识别出的人名所组成的候选答案初始集。比如:(牛顿,开普勒,布拉赫,艾萨克·牛顿,胡克,雷恩,哈雷,卡文迪,刘江)。
S105,根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作。
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
下面详细介绍本实施例中的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制。
所述两个针对证据语料的评分机制,包括热词匹配评分机制和跳跃二元热词对评分机制。
热词匹配评分机制(ETM,Evidence Terms Match Scorer),ETM通过计算证据语料与问句的表面文本相似度对证据语料进行评分,也就是说,在忽略语法、语序等句法结构信息的条件下,通过比较证据语料中所包含的热词数量与问句中所包含的热词数量,以对证据语料进行评分。
每条证据语料包括标题部分(Title)和摘录内容部分(Snippet),则每条证据语料的分值为Title的分值与Snippet的分值的总和,ETM可通过如下公式对证据语料进行评分:
其中,
其中,tk表示热词,idf(tk)的定义及计算公式如(3)所示:
其中,e(t)代表包含热词的证据语料的数量,N表示证据语料的总条数。
跳跃二元热词对评分机制(ESP,Evidence Skip-Pair-of-Hot-TermsScorer),ESP可通过计算证据语料与问句的句法结构相似度对证据语料进行评分,即通过计算证据语料与问句共同包含的跳跃二元热词对(Skip-Pair-of-Hot-Terms)的数目对证据语料评分,其中,跳跃二元热词对(Skip-Pair-of-Hot-Terms)是指一个热词序列中非直接相邻的两个“热词”所形成的词对,可参看图3所示,如图。
我们可通过利用正则表达式来实现ESP,即生成问句和证据语料中跳跃二元词对的所有正则表达式,进而计算两者的句法相似度,相似度值为[0,1]间的小数。
可以Espoht和Qspoht分别表示由证据语料和问句的跳跃二元词对所生成的正则表达式,公式(4)和(5)分别计算证据语料E和问句Q的得分,跳跃二元词对的分值产生于证据语料和问句中跳跃二元词对的调和均值,如公式(6)所示:
所述四个针对候选答案的评分机制,包括热词词频评分机制、细粒度文本对齐评分机制、第一热词距离评分机制及第二热词距离评分机制。
热词词频评分机制(CAT,Candidate Answer Term Frequency Scorer),CAT为根据候选答案(即命名实体)在证据语料中的出现频次对候选答案进行评分。
首先,命名实体在证据语料中出现的频次可以揭示其重要程度,具有高出现频次的命名实体是预期答案的可能性更高;其次,候选答案在证据语料中的出现位置对于判断其重要性同样重要;再次,由于Title可表示当前网页的中心思想,出现于Title中的命名实体具有更高的置信度,因此Title和Snippet中所包含的候选答案应被赋予不同的权重,Title的权重高于Snippet的权重,比如,可设置为Title的权重为2,Snippet的权重为1。
CAT可首先统计命名实体在证据语料中的出现频次,再根据候选答案出现的“位置”(Title或Snippet)所对应的权重值的不同,得到命名实体的加权分值,计算公式可如(7)所示:
细粒度文本对齐评分机制(CAF,Candidate Answer Fine-grained TextAlignment Scorer),CAF可通过计算问句和证据语料的语序相似度对候选答案进行评分。其中,细粒度对齐是指基于热词对比问句和证据语料的语序。
CAF从句法分析的角度考察证据语料和问句的词语对齐程度,与问句的词语对齐度高的证据语料中所包含的候选答案的分值高。其中,词语对齐是指问句和证据语料中相同热词之间的语序对应关系,对齐程度高说明问句和证据语料的句法结构相似,进而说明命名实体为正确答案的概率较大,参看图4所示,该问句及证据语料具有较高的文本对齐度,则CAF机制赋予命名实体“牛顿”的分值最高。
CAF首先可用候选答案替换问句的疑问代词,生成一个新的文本片段,用以与问句进行词序对比,然后创建并初始化三个一维数组Q,E和ScoreCA,数组Q和E分别存储问句和证据语料中的热词,ScoreCA则记录问句与证据语料的文本对齐度,其计算可如公式(8)所示:
其中,分子lengthQ代表问句的长度,即问句中包含的热词的数量,分母lengthM代表与问句中相对齐的热词的数量,其计算如公式(9)所示:
其中,lenghtE代表所有对齐文本片段的总长度,countE表示词语对齐文本片段的个数。
第一热词距离评分机制(CAM,Candidate Answer Minimum-DistanceScorer),CAM可计算命名实体与热词之间的距离而得到与热词最短的命名实体,每条证据语料中均有可能包含多个命名实体,与热词的距离越小的命名实体的可信度越高。例如以下所示的问题和其证据语料:
问句:谁发现了万有引力定理?
证据语料:[开普勒,提出,大概,是,牛顿,发现,万有引力,定律,而,哥白尼,认为……]。
该条证据语料中包含了三个命名实体,CAM赋予命名实体“牛顿”的分值最高,因为其与热词“发现”的距离更近。CAM的分值计算可如公式(10):
其中,OffenseCA和OffenseHT分别表示候选答案与热词的位置,分母|OffenseCA+OffenseHT|是两者距离的绝对值。
第二热词距离评分机制(CAH,Candidate Answer Hot-Term Scorer),CAH可计算每个命名实体与热词之间的距离并求和而得到命名实体与热词之间距离累计值。候选答案的分值与证据语料所包含的热词数量是成正比的。例如以下所示的问题及其两条证据语料:
问句:谁发现了万有引力定理?
证据语料1:[开普勒,发现,行星……];
证据语料2:[牛顿,发现,万有引力……]。
CAH赋予证据语料2中的命名实体“牛顿”分值更高,因为证据语料2中包含了两个热词,而证据语料1中仅包含1个热词。我们可通过使用一维数组HotTermOffes记录证据语料中的热词,用CAOffes记录候选答案的位置,则CAH的分值计算可如公式(11):
ScoreCA=ABS(CAOffes[i]-HotTermOffes[i]) (11);
上述两个针对证据语料的评分机制可简称为ESA(Evidence ScoreAlgorithms,上述四个针对候选答案的评分机制可简称为CASA(CandidateAnswer Score Algorithms)。
其中,ESA的主要任务是完成证据语料的评分,计算出每一条证据语料的分值,该分值表示证据语料对其中所包含的命名实体的支持度;CASA的主要任务是计算出每一个命名实体(及候选答案)的分值,该分值表示该候选答案作为预期答案的可信度。每一个候选答案的最终分值是该答案的分值与包含其的证据语料的分值总和,可将上述六个独立的评分机制以预设排列组合方式进行组合以得到组合评分机制来充分挖掘问句、证据语料及候选答案之间的关系和互补作用,以大大提高答案抽取的准确率。
具体的,组合评分机制可为将一个ESA分别与一个CASA、两个CASA、三个CASA和四个CASA进行组合形成的28种评分机制,及将两个ESA分别与一个CASA、两个CASA、三个CASA和四个CASA进行组合形成的14种评分机制,具体可参看图5所示。
确定了上述42种组合评分机制后,通过大量实验可得知,针对不同类型的命名实体都对应适合一种组合评分机制,因此,可根据命名实体的类型在42种组合评分机制中确定出一种组合评分机制,并利用该组合评分机制对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回并向用户展示,以完成针对用户输入的问句的答案抽取操作。
本发明实施例提供的答案抽取方法,应用于自动问答系统,可将接收到的问句划分为多个分词并对每个分词的词性进行标注后生成分词序列;基于所述分词序列获取检索关键词,并根据将所述检索关键词提交给所述预置接口后获得的检索结果生成包含候选答案的证据语料;在检索关键词中获取热词并生成热词词表;识别所述证据语料中的命名实体并生成候选答案初始集;根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作,通过提出了热词的定义,并基于热词的词义及其与候选答案之间的句法关系特征提出了四个针对候选答案的评分机制和两个针对证据语料的评分机制,并通过将前述六个独立的评分机制通过预设排列组合方式进行组合而形成42种组合评分机制,根据命名实体的类型在该42种组合评分机制中确定一种组合评分机制,以对候选答案初始集中的每个命名实体分别进行评分并将评分最高的命名实体作为正确答案返回,以最终完成对问句的答案抽取,以组合评分机制来充分挖掘证据语料、问句和候选答案之间的互补关系,以提高答案抽取的准确率,进而提高自动问答系统所提供答案的准确率。
下面将介绍本发明实施例提供的与上述答案抽取方法相对应的答案抽取装置。
参看图6所示,是本发明实施例提供的答案抽取装置的结构示意图。
在本实施例中,所述答案抽取装置应用于自动问答系统,可包括:
分词单元61,用于将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列。
检索单元62,用于基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料。
热词获取单元63,用于根据预设判断条件在检索关键词中获取热词,并生成热词词表。
命名实体识别单元64,用于根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集。
评分单元65,用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作。
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
优选地,所述检索单元62,可具体用于:
判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;
其中,所述预置关键词词性包括:名词、动词、代词、形容词。
优选的,所述热词获取单元63,可具体用于:
判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次;
若是,则所述检索关键词为热词。
其中,所述预置的两个针对证据语料的评分机制,可包括:
通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制;及
通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对;
所述预置的四个针对候选答案的评分机制,包括:
通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制;
通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制;
通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制;及
通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
进一步的,所述将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制,包括:
将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制;及
将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
本发明实施例提供的答案抽取装置,应用于自动问答系统,可将接收到的问句划分为多个分词并对每个分词的词性进行标注后生成分词序列;基于所述分词序列获取检索关键词,并根据将所述检索关键词提交给所述预置接口后获得的检索结果生成包含候选答案的证据语料;在检索关键词中获取热词并生成热词词表;识别所述证据语料中的命名实体并生成候选答案初始集;根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作,通过提出了热词的定义,并基于热词的词义及其与候选答案之间的句法关系特征提出了四个针对候选答案的评分机制和两个针对证据语料的评分机制,并通过将前述六个独立的评分机制通过预设排列组合方式进行组合而形成42种组合评分机制,根据命名实体的类型在该42种组合评分机制中确定一种组合评分机制,以对候选答案初始集中的每个命名实体分别进行评分并将评分最高的命名实体作为正确答案返回,以最终完成对问句的答案抽取,以组合评分机制来充分挖掘证据语料、问句和候选答案之间的互补关系,以提高答案抽取的准确率,进而提高自动问答系统所提供答案的准确率。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的答案抽取方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种答案抽取方法,其特征在于,所述方法应用于自动问答系统,包括:
将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列;
基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料;
根据预设判断条件在检索关键词中获取热词并生成热词词表;
根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集;
根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作;
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
2.如权利要求1所述的方法,其特征在于,所述基于所述分词序列获取检索关键词,包括:
判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;
其中,所述预置关键词词性包括:名词、动词、代词、形容词。
3.如权利要求2所述的方法,其特征在于,根据预设判断条件在检索关键词中获取热词,包括:
判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次;
若是,则所述检索关键词为热词。
4.如权利要求1所述的方法,其特征在于,所述预置的两个针对证据语料的评分机制,包括:
通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制;及
通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对;
所述预置的四个针对候选答案的评分机制,包括:
通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制;
通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制;
通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制;及
通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
5.如权利要求4所述的方法,其特征在于,将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制,包括:
将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制;及
将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
6.一种答案抽取装置,其特征在于,所述装置应用于自动问答系统,包括:
分词单元,用于将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列;
检索单元,用于基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语料;
热词获取单元,用于根据预设判断条件在检索关键词中获取热词,并生成热词词表;
命名实体识别单元,用于根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案初始集;
评分单元,用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取操作;
其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
7.如权利要求6所述的装置,其特征在于,所述检索单元,具体用于:
判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关键词;
其中,所述预置关键词词性包括:名词、动词、代词、形容词。
8.如权利要求7所述的装置,其特征在于,所述热词获取单元,具体用于:
判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次;
若是,则所述检索关键词为热词。
9.如权利要求6所述的装置,其特征在于,所述预置的两个针对证据语料的评分机制,包括:
通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制;及
通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对;
所述预置的四个针对候选答案的评分机制,包括:
通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制;
通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制;
通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制;及
通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
10.如权利要求9所述的装置,其特征在于,将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制,包括:
将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制;及
将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410757700.5A CN104536991B (zh) | 2014-12-10 | 2014-12-10 | 答案抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410757700.5A CN104536991B (zh) | 2014-12-10 | 2014-12-10 | 答案抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104536991A true CN104536991A (zh) | 2015-04-22 |
CN104536991B CN104536991B (zh) | 2017-12-08 |
Family
ID=52852519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410757700.5A Active CN104536991B (zh) | 2014-12-10 | 2014-12-10 | 答案抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104536991B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933152A (zh) * | 2015-06-24 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105072195A (zh) * | 2015-08-27 | 2015-11-18 | 阔地教育科技有限公司 | 一种信息互动服务器、发送端、处理端及信息互动系统 |
CN105740310A (zh) * | 2015-12-21 | 2016-07-06 | 哈尔滨工业大学 | 一种用于问答系统中的自动答案摘要方法及系统 |
CN107844531A (zh) * | 2017-10-17 | 2018-03-27 | 东软集团股份有限公司 | 答案输出方法、装置和计算机设备 |
CN108304451A (zh) * | 2017-12-13 | 2018-07-20 | 中国科学院自动化研究所 | 多项选择题解答方法及装置 |
CN109408622A (zh) * | 2018-10-31 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 语句处理方法及其装置、设备和存储介质 |
CN109800286A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 对话生成方法和装置 |
CN109977214A (zh) * | 2019-03-29 | 2019-07-05 | 沈阳师范大学 | 一种中小学教育的在线疑难问题解答推荐互动方法及系统 |
CN110799970A (zh) * | 2017-06-27 | 2020-02-14 | 华为技术有限公司 | 一种问答系统及问答方法 |
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力系统知识实体跨文档搜索方法 |
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113657075A (zh) * | 2021-10-18 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
CN113886557A (zh) * | 2021-12-07 | 2022-01-04 | 北京云迹科技有限公司 | 一种问题回答方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20120078888A1 (en) * | 2010-09-28 | 2012-03-29 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
-
2014
- 2014-12-10 CN CN201410757700.5A patent/CN104536991B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
US20120078888A1 (en) * | 2010-09-28 | 2012-03-29 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
CN103229162A (zh) * | 2010-09-28 | 2013-07-31 | 国际商业机器公司 | 使用候选答案逻辑综合提供问题答案 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
Non-Patent Citations (4)
Title |
---|
PENG JIANG ET AL: ""A Framework for Opinion Question Answering"", 《INTERNATIONAL CONFERENCE ON ADVANCED》 * |
刘增健: ""基于网络搜索的问答系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
胡宝顺 等: ""基于句法结构特征分析及分类技术的答案提取算法"", 《计算机学报》 * |
许洋波: ""英文实体答案提取及主页查找研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933152B (zh) * | 2015-06-24 | 2018-09-14 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN104933152A (zh) * | 2015-06-24 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105072195A (zh) * | 2015-08-27 | 2015-11-18 | 阔地教育科技有限公司 | 一种信息互动服务器、发送端、处理端及信息互动系统 |
CN105740310A (zh) * | 2015-12-21 | 2016-07-06 | 哈尔滨工业大学 | 一种用于问答系统中的自动答案摘要方法及系统 |
CN105740310B (zh) * | 2015-12-21 | 2019-08-02 | 哈尔滨工业大学 | 一种用于问答系统中的自动答案摘要方法及系统 |
CN110799970A (zh) * | 2017-06-27 | 2020-02-14 | 华为技术有限公司 | 一种问答系统及问答方法 |
CN107844531A (zh) * | 2017-10-17 | 2018-03-27 | 东软集团股份有限公司 | 答案输出方法、装置和计算机设备 |
CN107844531B (zh) * | 2017-10-17 | 2020-05-22 | 东软集团股份有限公司 | 答案输出方法、装置和计算机设备 |
CN108304451A (zh) * | 2017-12-13 | 2018-07-20 | 中国科学院自动化研究所 | 多项选择题解答方法及装置 |
CN109408622B (zh) * | 2018-10-31 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 语句处理方法及其装置、设备和存储介质 |
CN109408622A (zh) * | 2018-10-31 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 语句处理方法及其装置、设备和存储介质 |
CN109800286A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 对话生成方法和装置 |
CN109977214A (zh) * | 2019-03-29 | 2019-07-05 | 沈阳师范大学 | 一种中小学教育的在线疑难问题解答推荐互动方法及系统 |
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力系统知识实体跨文档搜索方法 |
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113407663B (zh) * | 2020-11-05 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113657075A (zh) * | 2021-10-18 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
CN113886557A (zh) * | 2021-12-07 | 2022-01-04 | 北京云迹科技有限公司 | 一种问题回答方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104536991B (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104536991A (zh) | 答案抽取方法及装置 | |
Sakor et al. | Old is gold: linguistic driven approach for entity and relation linking of short text | |
US8577898B2 (en) | System and method for rating a written document | |
Benajiba et al. | Arabic named entity recognition: A feature-driven study | |
Shima et al. | Overview of NTCIR-9 RITE: Recognizing Inference in TExt. | |
US20180052823A1 (en) | Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time | |
US9646512B2 (en) | System and method for automated teaching of languages based on frequency of syntactic models | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN103250129A (zh) | 使用具有受限结构的文本提供具有延迟类型评估的问答 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
Pakray et al. | A Hybrid Question Answering System based on Information Retrieval and Answer Validation. | |
Brad et al. | Dataset for a neural natural language interface for databases (NNLIDB) | |
CN105378706B (zh) | 实体提取反馈 | |
St-Onge | Detecting and correcting malapropisms with lexical chains | |
Bhaskar et al. | Question answering system for QA4MRE@ CLEF 2012. | |
Mazumder et al. | Flin: A flexible natural language interface for web navigation | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
Mladenović et al. | Using lexical resources for irony and sarcasm classification | |
Parameswarappa et al. | Kannada word sense disambiguation using decision list | |
Razek et al. | Text-based intelligent learning emotion system | |
Attia et al. | An automatically built named entity lexicon for Arabic | |
Otegi et al. | Qtleap wsd/ned corpora: Semantic annotation of parallel corpora in six languages | |
Adams et al. | Textual entailment through extended lexical overlap and lexico-semantic matching | |
Sun et al. | Syntactic parsing of web queries | |
JP2021022292A (ja) | 情報処理装置、プログラム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |