CN109815325B - 答案抽取方法、装置、服务器及存储介质 - Google Patents

答案抽取方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109815325B
CN109815325B CN201910049030.4A CN201910049030A CN109815325B CN 109815325 B CN109815325 B CN 109815325B CN 201910049030 A CN201910049030 A CN 201910049030A CN 109815325 B CN109815325 B CN 109815325B
Authority
CN
China
Prior art keywords
representation
article
word
characteristic
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910049030.4A
Other languages
English (en)
Other versions
CN109815325A (zh
Inventor
戴松泰
杨仁凯
冯欣伟
余淼
周环宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910049030.4A priority Critical patent/CN109815325B/zh
Publication of CN109815325A publication Critical patent/CN109815325A/zh
Application granted granted Critical
Publication of CN109815325B publication Critical patent/CN109815325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种答案抽取方法、装置、服务器及存储介质。该方法包括:确定问题特征表示和文章特征表示;根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。通过问题特征表示中各问题词表示与文章特征表示中各文章词表示之间的双向相关度,更新问题特征表示和文章特征表示,进而确定答案起始特征和答案结束特征,增强了答案抽取的准确率。

Description

答案抽取方法、装置、服务器及存储介质
技术领域
本发明实施例涉及答案抽取领域,尤其涉及一种答案抽取方法、装置、服务器及存储介质。
背景技术
通用答案抽取技术,属于机器阅读理解领域的技术,也是智能问答产品数据流构建的重要环节,即对于特定的问题,通过答案抽取技术,在给定的短文本中挖掘出特定问题对应的答案。
目前的答案抽取技术一般为人工标注方法或SPO挖掘方法,但是人工标注方法的成本高,且无法覆盖大量的长尾问题。SPO挖掘方法可以覆盖一部分长尾问题,但是必须把问题转化为主实体+属性的形式才能实现答案的抽取,而对于很多问题,难以转化为主实体+属性的形式。另外,目前的答案抽取方法只是从语义层面对文章进行理解,而对一些常识性问题缺乏理解,缺少对知识特征的应用。
发明内容
本发明实施例提供一种答案抽取方法、装置、服务器及存储介质,以扩大问题的覆盖范围,增强对问题与文章的匹配和理解,提高答案抽取的准确率。
第一方面,本发明实施例提供了一种答案抽取方法,该方法包括:
确定问题特征表示和文章特征表示;
根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;
根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;
根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
第二方面,本发明实施例还提供了一种答案抽取装置,该装置包括:
特征表示确定模块,用于确定问题特征表示和文章特征表示;
第一更新模块,用于根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;
第二更新模块,用于根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;
答案确定模块,用于根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中的任一种答案抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中的任一种答案抽取方法。
本发明实施例通过根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示,并根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示,降低了无关词的权重,进而根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征,提高了答案抽取的准确性。
附图说明
图1是本发明实施例一中的一种答案抽取方法的流程图;
图2是本发明实施例二中的一种答案抽取方法的流程图;
图3是本发明实施例三中的一种答案抽取方法具体实现模型图;
图4是本发明实施例四中的一种答案抽取装置的结构示意图;
图5是本发明实施例五中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种答案抽取方法的流程图。本实施例提供的答案抽取方法可适用于从文章文本中抽取特定问题的答案的情况,该方法可以由答案抽取装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在服务器中。参见图1,本实施的方法具体包括如下步骤:
S110、确定问题特征表示和文章特征表示。
具体地,编码层获取问题以及待进行答案抽取的文章文本,确定问题特征表示和文章特征表示。可选的,确定问题特征表示,包括:对问题文本进行分词处理;将问题文本中包括的问题词与知识图谱进行匹配,确定问题文本中包括的实体问题词;根据问题文本中包括的问题词向量和实体问题词向量,确定问题特征表示。
示例性的,获取问题文本,对问题文本根据词进行拆分,得到各词的词向量。可选的,通过Word2vec(Word to Vector,词到向量)模型将各词映射到对应的词向量。由于模型中的预训练数据往往是常见的词对应的词向量,可能会存在一些不常见的词或是新词并不存在于模型的预训练数据中,无法将该词映射到对应的词向量。因此,在模型中不存在该词对应的词向量,则该词中每个字的字向量进行组合,作为该词的词向量。例如,若模型的与训练数据中不存在词“喜大普奔”对应的词向量,则将“喜”、“大”、“普”、“奔”四个字的词向量输入至CNN(Convolutional Neural Networks,卷积神经网络)模型中进行组合,得到“喜大普奔”对应的词向量。可选的,将问题文本中的问题词语知识图谱进行匹配,确定文本中包括的实体问题词,再进一步根据如上述方法确定各实体问题词的词向量,作为实体向量。
根据上述得到的各词的词向量与各实体问题词的实体向量,得到各问题的问题特征表示。示例性的,将各词向量和各实体向量输入至双向LSTM(Long Short-Term Memory,长短期记忆网络)模型中,通过模型的输出得到个问题的的问题特征表示。文章特征表示的确定方法与问题特征表示的确定方法相同,详细过程同上述问题特征表示的确定过程。
S120、根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示。
具体的,本步骤由交互层完成,对于问题特征表示中的各问题词表示,计算其与文章特征表示中各文章词表示之间的相关度,并根据得到的各问题词表示与文章此标识之间的相关度更新问题特征表示。示例性的,将每个问题词向量分别与文章中的全部文章词向量进行点乘运算,得到的运算结果作为各问题词表示与文章词表示之间的相关度,再将相关度添加至原问题特征表示中,与原问题特征表示进行组合,得到更新后的问题特征表示。
S130、根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示。
具体的,本步骤由交互层完成,同上述问题特征表示与文章词特征表示之间的相关度确定方法,文章特征表示中的各文章词表示,与各问题特征表示中的各问题词之间的相关度,也可以根据各文章词向量与各问题词向量的点乘运算结果来表示。可选的,文章特征表示中不同文章词表示之间的相关度可以根据不同文章词向量之间的点乘运算结果来表示。
可选的,根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,更新文章特征表示,包括:根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,确定文章相关特征表示;根据文章相关特征表示中文章词表示与问题词表示之间的相关度,更新文章特征表示中各文章词表示,以得到新的文章特征表示,具体包括:根据文章相关特征表示中各文章词表示与问题词表示之间的相关度,调整文章特征表示中各文章词表示的权重;其中权重与相关度正相关。
示例性的,将各文章词表示与各问题词表示之间相关度添加至原文章特征表示中,与原文章特征表示进行组合,得到文章相关特征表示。再将文章相关特征表示中不同文章词表示之间的相关度,与原文章特征表示中文章词表示进行组合,对原文章特征表示中个文章词表示进行更新,得到新的文章特征表示。可选的,将文章相关特征表示与原文章特征表示通过语义门进行处理,根据文章相关特征表示中各文章词表示与问题词表示之间的相关度,调整原文章表示中各文章词表示的权重,以提高相关度高的词的权重,以降低无关词的权重。
可选的,根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示,包括:根据文章特征表示中不同文章词表示之间的相关度,确定文章自相关特征表示,将文章自相关特征表示与文章特征表示通过语义门进行处理,根据文章特征表示中不同文章词表示之间的相关度,调整文章特征表示中各文章词表示的权重,以提高相关度高的词的权重,以降低无关词的权重。
S140、根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
具体地,本步骤由抽取层完成,将得到的更新的问题特征表示和更新的文章特征表示进行拼接,再通过双向LSTM模型,将模型的输出根据线性函数和归一化指数函数进行运算,得到文章中的答案起始特征和答案结束特征。
本发明实施例提供的技术方案确定问题特征表示和文章特征表示;根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征,降低了无关词的权重,提高了答案抽取的准确性。
实施例二
图2是本发明实施例二中的一种答案抽取方法的流程图。本实施例在上述实施例的基础上进行了优化,未在本实施例中详细描述的内容详见上述实施例。参见图2,本实施例提供的答案抽取方法包括:
S210、确定问题特征表示和文章特征表示。
S220、根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示。
S230、根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示。
可选的,根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示,包括:根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,更新文章特征表示,以得到新的文章特征表示;根据新的文章特征表示中不同文章词表示之间的相关度,对新的文章特征表示中各文章词表示进行更新。具体的,将各文章词表示与各问题词表示之间相关度添加至原文章特征表示中,与原文章特征表示进行组合,将组合后的文章特征表示与原文章特征表示通过语义门处理,得到新的文章特征表示。再将新的文章特征表示中不同文章词表示之间的相关度,与新的文章特征表示中文章词表示进行组合,得到文章自相关特征表示,再将文章自相关特征表示与新的文章特征表示通过语义门处理,并输入双向LSTM模型,对新的文章特征表示中各文章词表示进行更新,从而得到更新的文章特征表示。
S240、根据更新的问题特征表示和更新的文章特征表示,确定答案起始特征表示。
示例性的,将更新的文体特征表示和更新的文章特征表示输入双向LSTM 模型,得到答案的起始特征表示,再进一步将答案起始特征表示通过线性函数和归一化指数函数进行运算,得到文章中的答案起始位置。
S250、根据答案起始特征表示和更新的文章特征表示,确定答案结束特征表示。
示例性的,将答案起始特征表示与更新的文章特征表示通过双向LSTM模型,得到答案结束特征表示,在将答案结束特征表示通过线性函数和归一化指数函数运算,得到文章中的答案结束位置。
本发明实施例确定问题特征表示和文章特征表示;根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;根据更新的问题特征表示和更新的文章特征表示,确定答案起始特征表示;根据答案起始特征表示和更新的文章特征表示,确定答案结束特征表示,进一步提高了答案起始特征表示和答案结束特征表示确定的准确性,从而提高了答案抽取的准确性。
实施例三
图3为本发明实施例三提供的一种答案抽取方法具体实现模型图。该方法的具体实现流程适用于从文章文本中抽取特定问题的答案的情况,未在本实施例中详细描述的细节详见上述实施例。如图3所示,具体实现流程为:
获取问题文本,将问题文本中的词语进行拆分,并将各词语输入Word2vec 模型进行训练,得到问题词向量,用w1,w2…wn表示。若该词不存在模型预训练数据中,则将该词根据字进行拆分,并将各字输入至CNN模型中得到各字的字向量,用c1,c2…cm,再将各字向量进行组合,得到该词的词向量。将各问题词与知识图谱进行匹配,确定问题词的实体问题词,将实体问题词通过 Word2vec模型,得到实体向量,用e1,e2…ep表示。将上述向量输入双向LSTM 模型中,得到问题特征表示,用Q1。根据与问题特征向量确定相同的方法,确定文章特征表示,用X1表示。
计算文章特征表示相对于问题特征表示的相关度,并将得到的相关度加入问题特征表示中,得到更新的问题特征表示,表示为Q2。计算问题特征表示相对于文章特征表示的相关度,并将得到的相关度加入到文章特征表示中,得到文章相关特征表示,表示为X1',再将文章特征相关表示X1和文章相关特征表示X1'通过语义门处理,得到新的文章特征表示X2。计算新的文章特征表示X2中不同文章词表示之间的相关度,并将得到的相关度加入至新的文章特征表示X2中,得到新的文章自相关特征表示X2',将新的文章特征表示X2和新的文章自相关特征表示X2'通过语义门处理,再通过双向LSTM模型,得到更新的文章特征表示X3。
将更新后的问题特征表示Q2和文章特征表示X3输入至双向LSTM模型进行处理,得到文章中答案起始特征表示X4,将答案起始特征表示X4经过线性函数和归一化指数函数运算处理,最终得到文章中的答案起始位置。将答案起始位置表示X4和更新的文章特征表示X3输入至双向LSTM模型,得到答案结束特征表示X5,再将答案结束特征表示X5通过线性函数和归一化指数函数运算处理,最终得到文章中的答案结束位置。
本实施例提供的方案,通过文章特征表示与问题特征表示之间的双向相关度,以及文章特征表示的自相关度,更新文章特征表示和问题特征表示,从而降低无关词的权重,提高了答案起始特征表示和答案结束特征表示确定的准确性,从而提高了答案抽取的准确性。
实施例四
图4为本发明实施例四提供的一种答案抽取装置的结构示意图。该装置适用于从文章文本中抽取特定问题的答案的情况,该装置可以由软件和/或硬件实现,并具体可集成在服务器中。参见图4,该装置具体包括:
特征表示确定模块310,用于确定问题特征表示和文章特征表示;
第一更新模块320,用于根据问题特征表示中各问题词表示,与文章特征表示中各文章词表示之间的相关度,更新问题特征表示;
第二更新模块330,用于根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,和/或根据文章特征表示中不同文章词表示之间的相关度,更新文章特征表示;
答案确定模块340,用于根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
可选的,所述第二更新模块330包括:
文章特征表示更新单元,用于根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,更新文章特征表示,以得到新的文章特征表示;
文章词表示更新单元,用于根据新的文章特征表示中不同文章词表示之间的相关度,对新的文章特征表示中各文章词表示进行更新。
可选的,所述文章特征表示更新单元,包括:
文章相关特征表示确定子单元,用于根据文章特征表示中各文章词表示,与各问题特征表示中各问题词表示之间的相关度,确定文章相关特征表示;
新的文章特征表示子单元,用于根据文章相关特征表示中文章词表示与问题词表示之间的相关度,更新文章特征表示中各文章词表示,以得到新的文章特征表示。
可选的,所述新的文章特征表示子单元,具体用于:
根据文章相关特征表示中各文章词表示与问题词表示之间的相关度,调整文章特征表示中各文章词表示的权重;
其中权重与相关度正相关。
可选的,所述第二更新模块330,还包括:
权重调整单元,用于根据新的文章特征表示中不同文章词表示之间的相关度,调整新的文章特征表示中各文章词表示的权重;
其中,权重与相关度正相关。
可选的,所述答案确定模块340,包括:
起始特征表示确定单元,用于根据更新的问题特征表示和更新的文章特征表示,确定答案起始特征表示;
结束特征表示确定单元,用于根据答案起始特征表示和更新的文章特征表示,确定答案结束特征表示。
可选的,所述特征表示确定模块310,包括:
处理单元,用于对问题文本进行分词处理;
匹配单元,用于将问题文本中包括的问题词与知识图谱进行匹配,确定问题文本中包括的实体问题词;
确定单元,用于根据问题文本中包括的问题词向量和实体问题词向量,确定问题特征表示。
上述实施例所述答案抽取装置用于执行上述实施例所述任一的答案抽取方法,其技术原理和产生的技术效果类似,这里不再赘述。
实施例四
图5是本发明实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器512的框图。图5显示的服务器512 仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器512以通用计算设备的形式表现。服务器512的组件可以包括但不限于:一个或者多个处理器或者处理器516,系统存储器528,连接不同系统组件(包括系统存储器528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534 可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542 的程序/实用工具540 ,可以存储在例如存储器528中,这样的程序模块542 包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542 通常执行本发明所描述的实施例中的功能和/或方法。
服务器512也可以与一个或多个外部设备514 (例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该服务器512交互的设备通信,和/或与使得该服务器512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O) 接口522进行。并且,服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与服务器512的其它模块通信。应当明白,尽管图中未示出,可以结合服务器512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID 系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在系统存储器528中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种答案抽取方法。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种答案抽取方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN) —连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种答案抽取方法,其特征在于,包括:
确定问题特征表示和文章特征表示;
根据问题特征表示中各问题词表示与文章特征表示中各文章词表示之间的相关度,更新问题特征表示,具体包括:将所述相关度添加至所述问题特征表示中,与所述问题特征表示进行组合,得到更新后的问题特征表示;
将文章特征表示中各文章词表示与各问题特征表示中各问题词表示之间的相关度添加至所述文章特征表示中,与所述文章特征表示进行组合,得到文章相关特征表示;
根据文章相关特征表示中文章词表示与问题词表示之间的相关度,更新文章特征表示中各文章词表示,以得到新的文章特征表示;
根据新的文章特征表示中不同文章词表示之间的相关度,对新的文章特征表示中各文章词表示进行更新;
根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
2.根据权利要求1所述的方法,其特征在于,根据文章相关特征表示中文章词表示与问题词表示之间的相关度,更新文章特征表示中各文章词表示,以得到新的文章特征表示,包括:
根据文章相关特征表示中各文章词表示与问题词表示之间的相关度,调整文章特征表示中各文章词表示的权重;
其中权重与相关度正相关。
3.根据权利要求1所述的方法,其特征在于,根据新的文章特征表示中不同文章词表示之间的相关度,对新的文章特征表示中各文章词表示进行更新,包括:
根据新的文章特征表示中不同文章词表示之间的相关度,调整新的文章特征表示中各文章词表示的权重;
其中,权重与相关度正相关。
4.根据权利要求1所述的方法,其特征在于,根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征,包括:
根据更新的问题特征表示和更新的文章特征表示,确定答案起始特征表示;
根据答案起始特征表示和更新的文章特征表示,确定答案结束特征表示。
5.根据权利要求1所述的方法,其特征在于,确定问题特征表示,包括:
对问题文本进行分词处理;
将问题文本中包括的问题词与知识图谱进行匹配,确定问题文本中包括的实体问题词;
根据问题文本中包括的问题词向量和实体问题词向量,确定问题特征表示。
6.一种答案抽取装置,其特征在于,所述装置包括:
特征表示确定模块,用于确定问题特征表示和文章特征表示;
第一更新模块,用于根据问题特征表示中各问题词表示与文章特征表示中各文章词表示之间的相关度,更新问题特征表示,具体包括:将所述相关度添加至所述问题特征表示中,与所述问题特征表示进行组合,得到更新后的问题特征表示;
第二更新模块,用于将文章特征表示中各文章词表示与各问题特征表示中各问题词表示之间的相关度添加至所述文章特征表示中,与所述文章特征表示进行组合,得到文章相关特征表示;根据文章相关特征表示中文章词表示与问题词表示之间的相关度,更新文章特征表示中各文章词表示,以得到新的文章特征表示;根据新的文章特征表示中不同文章词表示之间的相关度,对新的文章特征表示中各文章词表示进行更新;
答案确定模块,用于根据更新的问题特征表示和更新的文章特征表示,确定文章中的答案起始特征和答案结束特征。
7.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的一种答案抽取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的一种答案抽取方法。
CN201910049030.4A 2019-01-18 2019-01-18 答案抽取方法、装置、服务器及存储介质 Active CN109815325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910049030.4A CN109815325B (zh) 2019-01-18 2019-01-18 答案抽取方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910049030.4A CN109815325B (zh) 2019-01-18 2019-01-18 答案抽取方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109815325A CN109815325A (zh) 2019-05-28
CN109815325B true CN109815325B (zh) 2021-12-10

Family

ID=66604608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910049030.4A Active CN109815325B (zh) 2019-01-18 2019-01-18 答案抽取方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109815325B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108959556A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 基于神经网络的实体问答方法、装置和终端
CN109189894A (zh) * 2018-09-20 2019-01-11 科大讯飞股份有限公司 一种答案抽取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108959556A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 基于神经网络的实体问答方法、装置和终端
CN109189894A (zh) * 2018-09-20 2019-01-11 科大讯飞股份有限公司 一种答案抽取方法及装置

Also Published As

Publication number Publication date
CN109815325A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
US20190065624A1 (en) Method and device for obtaining answer, and computer device
CN107680588B (zh) 智能语音导航方法、装置及存储介质
CN109558604B (zh) 一种机器翻译方法、装置、电子设备及存储介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN110795541A (zh) 文本查询方法、装置、电子设备及计算机可读存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN114373460A (zh) 车载语音助手的指令确定方法、装置、设备及介质
CN111738791B (zh) 一种文本处理方法、装置、设备和存储介质
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN117236340A (zh) 问答方法、装置、设备和介质
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN109815325B (zh) 答案抽取方法、装置、服务器及存储介质
CN107992457B (zh) 一种信息转换方法、装置、终端设备及存储介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN111949765B (zh) 基于语义的相似文本搜索方法、系统、设备和存储介质
CN110502630B (zh) 信息处理方法及设备
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant