CN109918487A - 基于网络百科全书的智能问答方法和系统 - Google Patents
基于网络百科全书的智能问答方法和系统 Download PDFInfo
- Publication number
- CN109918487A CN109918487A CN201910082304.XA CN201910082304A CN109918487A CN 109918487 A CN109918487 A CN 109918487A CN 201910082304 A CN201910082304 A CN 201910082304A CN 109918487 A CN109918487 A CN 109918487A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- document
- answer
- vector
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,本发明提供一种基于网络百科全书的智能问答方法和系统,所述方法包括:获取用户输入的搜索问题,在网络百科全书的文档库中查找与所述搜索问题相关的目标文档;获取所述目标文档的段落特征向量,以及获取所述搜索问题的问题特征向量;将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案。上述方法考虑问题与文档段落相互之间的特性存在相互关联,获取目标文档的段落特征向量以及搜索问题的问题特征向量,并向问答关联模型输入,将搜索问题与目标文档在相关知识的方向下进行联系,得到与该搜索问题相关度高的目标答案,提高搜索结果的准确性。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,本发明涉及一种基于网络百科全书的智能问答方法、基于网络百科全书的智能问答系统、计算机设备和存储介质。
背景技术
如今的时代是一个大数据的时代,随着移动端的电子产品和互联网的蓬勃发展,带来了极大的便利性,同时也使得互联网中存在各种各样的数据和信息。
现今在这些丰富多样的大数据里准确地寻找到所需要的信息时,常用的搜索引擎进行搜索时,一般是根据关键词进行相关搜索。
但是当对一些比较广泛或者比较复杂的问题进行搜索时,根据关键词进行搜索所得的结果常常与该问题的相关性不高,导致还需要耗费大量时间去对搜索结果进行筛选。因此,问题搜索时的搜索结果存在着准确性低的问题。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是搜索结果准确性低的技术缺陷。
本发明提供一种基于网络百科全书的智能问答方法,包括如下步骤:
获取用户输入的搜索问题,在网络百科全书的文档库中查找与所述搜索问题相关的目标文档;
获取所述目标文档的段落特征向量,以及获取所述搜索问题的问题特征向量;
将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案,其中,所述问答关联模型为预先训练的、描述所述段落特征向量和所述问题特征向量之间相似度的模型。
在一个实施例中,所述在网络百科全书的文档库中查找与所述搜索问题相关的目标文档的步骤,包括:
计算所述搜索问题的加权词袋向量,计算所述文档库中各个文档的加权词袋向量;将所述搜索问题的加权词袋向量分别与各所述文档的加权词袋向量相乘,获得各所述文档与相对于所述问题样本的相关程度值;将所述文档库中相关程度值最大的文档作为所述目标文档。
在一个实施例中,所述计算所述文档库中各个文档的加权词袋向量的步骤,包括:
统计所述文档库中任一个文档的各个分词;根据哈希算法计算各所述分词的哈希值;根据所述哈希值和所述分词特征计算各所述分词的词频向量和逆文本频率指数向量;将所有所述分词的词频向量和所述逆文本频率指数向量相乘,得到该文档的加权词袋向量。
在一个实施例中,所述获取所述目标文档的段落特征向量的步骤,包括:
提取所述目标文档中的各个段落的段落特征;根据所述段落特征输入循环神经网络,并生成所述目标文档的段落特征向量。
在一个实施例中,所述段落特征向量包括:全局词向量、文本相似特征、令牌特征、对齐问题词。
在一个实施例中,所述获取所述搜索问题的问题特征向量的步骤,包括:
根据所述问答关联模型的权重向量计算所述搜索问题中的各个字的特征值;根据所述字的特征值输入长短期记忆模型,并生成所述搜索问题的问题特征向量,其中,所述问题特征向量包括各所述字的重要程度特征。
在一个实施例中,所述将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案的步骤,包括:
将所述段落特征向量和所述问题特征向量输入问答关联模型,并获得相似度双线性函数,其中,所述相似度双线性函数用于描述所述段落特征向量和所述问题特征向量之间的相似度关系;根据所述相似度双线性函数计算所述目标文档中各个字的答案起始预测概率和答案终止预测概率;根据所述答案起始预测概率和所述答案终止预测概率在所述目标文档中确定所述目标答案的位置。
在一个实施例中,在所述将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别的步骤之前,还包括:
将问题样本的问题特征向量和所述网络百科全书的文档库中各个文档的段落特征向量输入神经网络分类器进行训练,获得所述问答关联模型。
本发明还提供一种基于网络百科全书的智能问答系统,包括:
目标文档查找模块,用于获取用户输入的搜索问题,在网络百科全书的文档库中查找与所述搜索问题相关的目标文档;
特征向量获取模块,用于获取所述目标文档的段落特征向量,以及获取所述搜索问题的问题特征向量;
目标答案标定模块,用于将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案,其中,所述问答关联模型为预先训练的、描述所述段落特征向量和所述问题特征向量之间相似度的模型。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如任一实施例所述基于网络百科全书的智能问答方法的步骤。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行任一实施例所述基于网络百科全书的智能问答方法的步骤。
上述的基于网络百科全书的智能问答方法、系统、计算机设备和存储介质,考虑问题与文档段落相互之间的特性存在相互关联,获取目标文档的段落特征向量以及搜索问题的问题特征向量,并向问答关联模型输入,将搜索问题与目标文档在相关知识的方向下进行联系,得到与该搜索问题相关度高的目标答案,提高搜索结果的准确性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例中提供的基于网络百科全书的智能问答方法的实施环境图;
图2为一个实施例中基于网络百科全书的智能问答方法的流程图;
图3为一个实施例中目标文档查找的流程图;
图4为另一个实施例中基于网络百科全书的智能问答方法的流程图;
图5为一个实施例中基于网络百科全书的智能问答系统的结构示意图;
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,图1为一个实施例中提供的基于网络百科全书的智能问答方法的实施环境图,在该实施环境中,包括计算机设备110以及终端120。
终端120用于用户输入和上传搜索问题,计算机设备110接收用户输入的搜索问题。需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(UniversalSerial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
在一个实施例中,如图2所示,图2为一个实施例中基于网络百科全书的智能问答方法的流程图,本实施例中提出了一种基于网络百科全书的智能问答方法,该基于网络百科全书的智能问答方法可以应用于上述的计算机设备110中,具体可以包括以下步骤:
步骤S210:获取用户输入的搜索问题,在网络百科全书的文档库中查找与搜索问题相关的目标文档。
本步骤中,减少需要根据问题和文档段落相互之间的特性进行搜索的文档范围,从而更快速、有效地找到那些最有可能含有答案的目标文档。
步骤S220:获取目标文档的段落特征向量,以及获取搜索问题的问题特征向量。
很多时候进行搜索问题所涉及的知识范围比较广泛以及多元化,这种广域的问题往往涉及相关领域以及行业,需要与专业知识和相关知识有所关联才可以获得相关性较强的答案。而此类广域问题也因表述上存在多元化的情况,而此时,如果通过单一和简单的关键词对搜索问题进行搜索,常常难于找到专业知识或相关行业的知识,常常获得与搜索问题内容不相关的搜索结果。
本步骤中,获取可以标识文本信息的特征的特征向量。文本信息的特征体现了该文本特征相关的词义、词频等信息,以便于将文本信息与其他文本信息、专业知识或相关行业的知识进行联系。特征向量可以包含全局词向量、与该文本信息相似的特征、词频特征、文本对齐等特征,特征向量将文本信息与相关信息进行关联,使得文本信息的表述或展现得更加多元化,提高后续搜索后搜索结果的相关度。
步骤S230:将段落特征向量和问题特征向量输入问答关联模型进行识别,在目标文档中标定出与搜索问题对应的目标答案,其中,问答关联模型为预先训练的、描述段落特征向量和问题特征向量之间相似度的模型。
本步骤中,预先训练的问答关联模型可以根据输入的段落特征向量和问题特征向量,输出与搜索问题对应的目标答案。特征向量记录了文本信息与其他文本信息、专业知识或相关行业的知识之间联系,该问答关联模型因为是根据特征向量进行训练,因此可以具有对搜索问题、目标文档、专业知识或相关行业的知识具有相关性分析的能力。此时问答关联模型输出的目标答案的相关性会更高,搜索结果的准确性更高。
上述基于网络百科全书的智能问答方法,考虑问题与文档段落相互之间的特性存在相互关联,获取目标文档的段落特征向量以及搜索问题的问题特征向量,并向问答关联模型输入,将搜索问题与目标文档在相关知识的方向下进行联系,得到与该搜索问题相关度高的目标答案,提高搜索结果的准确性。
在一个实施例中,如图3所示,图3为一个实施例中目标文档查找的流程图,步骤S210中在网络百科全书的文档库中查找与搜索问题相关的目标文档的步骤,可以包括:
步骤S211:计算搜索问题的加权词袋向量,计算文档库中各个文档的加权词袋向量。
例如,步骤S211中计算文档库中各个文档的加权词袋向量的步骤,具体可以包括:
S2111:统计文档库中任一个文档的各个分词。
对文档库中该文档的单词、句子进行清洗和过滤,统计该文档中所有的二元词语。
S2112:根据哈希算法计算各分词的哈希值。
对各个二元分词进行MurmurHashing的算法,计算得到每个二元分词的唯一ID,即各个分词的哈希值。
S2113:根据哈希值和分词特征计算各分词的词频(Term Frequency,TF)向量和逆文本频率指数(Inverse Document Frequency,IDF)向量。
根据TF-IDF(Term Frequency-Inverse Document Frequency)公式来分别计算每个二元词语的逆文本频率指数向量和词频向量。
S2114:将所有分词的词频向量和逆文本频率指数向量相乘,得到该文档的加权词袋向量。
步骤S212:将搜索问题的加权词袋向量分别与各文档的加权词袋向量相乘,获得各文档与相对于问题样本的相关程度值。
步骤S213:将文档库中相关程度值最大的文档作为目标文档。
例如可以选取相关程度值较大的若干个文档作为目标文档,可以选择相关程度值较大的前五个文档作为目标文档,以便于提供更多可选择的目标答案。
上述基于网络百科全书的智能问答方法,主要是利用了简单的反向索引查找以及结合词条向量模型得分的方式进行检索,确定目标文档,该方式比起维基百科里本身“ElasticSearch”的检索方法来说更为有效和快速。
在一个实施例中,步骤S220中获取目标文档的段落特征向量的步骤,可以包括:
S221:提取目标文档中的各个段落的段落特征。
S222:根据段落特征输入循环神经网络,并生成目标文档的段落特征向量。
将检索出来的文档里的段落进行特征提取,然后将提取出来的特征向量作为循环神经网络(Recurrent Neural Networks,RNN)的输入,生成目标文档的段落特征向量。具体可以包括以下式子:
其中,Pi代表着段落内容的信息,为RNN循环神经网络模型,具体来说,可以使用多层双向LSTM(Long Short Term Memory,长短期记忆)网络,然后将连接起来作为网络架构中每一个网络层的隐藏单元。
段落特征向量可以包括:全局词向量、文本相似特征、令牌特征、对齐问题词。
全局词向量的词嵌入,例如可以训练来自840B网络爬虫的数据,根据这些数据生成具有300维度的全局(Glove)词向量。对于这些全局词向量,固定了大部分的预训练好的的词。例如可以通过嵌入1000个经常出现在问题中的词向量进行了微调,因为这1000个全局词向量,比如那些what,how,which和many等词,可以影响问答判断和问答识别。
根据文本相似特征实现精准匹配,例如可以利用三个简单的二进制特征来描述或表示段落里某个词是否属于问题中的某个单词的原型、小写形式和词根形式。
令牌特征,可以增加一些关于段落里tokens的特征,具体包括了词语的词性、命名实体识别和归一化后的词频特征等。
对齐问题词嵌入,可以整合了对齐问题词嵌入的功能,具体可以包括以下公式:
falign(pi)=∑jai,jE(qj)
其中,ai,j主要描述的是文章段落里的令牌特征pi和问题里的单词令牌特征qj的相似程度。具体来说,ai,j这个值是通过词嵌入的非线性映射计算而来,具体表达式为:
其中,α是经过ReLU(Rectified Linear Unit,线性整流函数)非线性函数的单密集层。相比精确匹配特征来说,对齐问题词嵌入的特征偏向于“软”特征,增加了对于那些相似但不一样的词的对应,比如汽车和机动车。
上述基于网络百科全书的智能问答方法,对目标文档的段落进行特征提取,以及通过神经网络生成的段落特征向量,建立和标识该段落与其他相关信息的关系。
在一个实施例中,步骤S220中获取搜索问题的问题特征向量的步骤,可以包括:
S223:根据问答关联模型的权重向量计算搜索问题中的各个字的特征值。
S224:根据字的特征值输入长短期记忆模型,并生成搜索问题的问题特征向量,其中,问题特征向量包括各字的重要程度特征。
问题特征向量的获取相比于段落特征向量的获取来说就简单一些,在词嵌入上只使用了一个RNN网络,具体可以包括以下公式:
q=∑jbjqj
其中,q为问题特征向量,qj为问题特征向量中第j个单词令牌特征,bj对每一个问题中的字进行了重要性的编码,即包括各字的重要程度特征,具体可以包括以下公式:
其中,w为模型进行训练时需要学习的权重向量。
上述基于网络百科全书的智能问答方法,对搜索问题进行特征提取,以及通过神经网络生成的问题特征向量,建立和标识搜索问题与其他相关信息的关系。
在一个实施例中,步骤S230中将段落特征向量和问题特征向量输入问答关联模型进行识别,在目标文档中标定出与搜索问题对应的目标答案的步骤,可以包括:
S231:将段落特征向量和问题特征向量输入问答关联模型,并获得相似度双线性函数,其中,相似度双线性函数用于描述段落特征向量和问题特征向量之间的相似度关系。
本步骤中,问答关联模型根据段落特征向量和问题特征向量进行训练时,可以使用相似度双线性函数来描述段落特征向量和问题特征向量之间的相似度关系。
S232:根据相似度双线性函数计算目标文档中各个字的答案起始预测概率和答案终止预测概率。
本步骤中,具体包括以下公式:
其中,Pstart(i)为答案起始预测概率,Pend(i)为答案终止预测概率,pi为目标文档中文本i的特征向量,Ws为权重向量,q为问题特征向量。
为了让这种预测方式满足于检索出来的一个文档或者多个文档,本系统利用了未归一化的指数,然后用argmax对输出结果进行处理,从所有的有可能的段落里来预测答案的范围。
S233:根据答案起始预测概率和答案终止预测概率在目标文档中确定目标答案的位置。
本步骤中,在预测的时候,可以根据答案起始预测概率和选取答案终止预测概率最适合的答案范围,例如在Pstart(i)×Pend(i′)的概率最大时,将文本i和文本i′之间的文本作为目标答案。
上述基于网络百科全书的智能问答方法,可以通过预测答案起始的位置和答案终止的位置来获得目标答案。
另外,为了让这种预测答案起始和终止的位置方式满足于检索出来的一个文档或者多个文档,还可以利用了未归一化的指数,然后用argmax函数对得到的目标答案进行处理,从所有有可能的段落里来预测答案的范围和位置。
在一个实施例中,步骤S230在将段落特征向量和问题特征向量输入问答关联模型进行识别的步骤之前,还可以包括:
步骤S240:将问题样本的问题特征向量和网络百科全书的文档库中各个文档的段落特征向量输入神经网络分类器进行训练,获得问答关联模型。
训练后的分类器可以预测答案所在的范围和位置。
上述基于网络百科全书的智能问答方法,基于网络百科全书对分类器进行训练,获得问答关联模型。
在另一个实施例中,如图4所示,图4为另一个实施例中基于网络百科全书的智能问答方法的流程图,本实施例中提供一种基于网络百科全书的智能问答方法,具体可以包括以下步骤:
(1)根据各个问题样本获取各个问题样本的问题特征向量,根据网络百科全书的文档库中各个文档获取各个文档的段落特征向量,并将所有问题样本和文档的问题特征向量和段落特征向量输入神经网络分类器进行训练,获得问答关联模型,使得问答关联模型可以描述段落特征向量和问题特征向量之间相似度的模型。
(2)获取用户输入的搜索问题,在网络百科全书的文档库中查找与搜索问题相关的目标文档。
计算搜索问题的加权词袋向量,计算文档库中各个文档的加权词袋向量,其中,通过对文档库中该文档的单词、句子进行清洗和过滤,统计该文档中所有的二元词语,根据哈希算法计算各分词的哈希值,根据哈希值和分词特征计算各分词的词频向量和逆文本频率指数向量,将所有分词的词频向量和逆文本频率指数向量相乘,得到该文档的加权词袋向量。
将搜索问题的加权词袋向量分别与各文档的加权词袋向量相乘,获得各文档与相对于问题样本的相关程度值。将文档库中相关程度值较大的若干个文档作为目标文档。
(3)获取目标文档的段落特征向量。
提取目标文档中的各个段落的段落特征;根据段落特征输入循环神经网络,并生成目标文档的段落特征向量。段落特征向量可以包括:全局词向量、文本相似特征、令牌特征、对齐问题词。
(4)获取搜索问题的问题特征向量。
根据问答关联模型的权重向量计算搜索问题中的各个字的特征值。根据字的特征值输入长短期记忆模型,并生成搜索问题的问题特征向量,其中,问题特征向量包括各字的重要程度特征。
(5)将段落特征向量和问题特征向量输入问答关联模型进行识别,在目标文档中标定出与搜索问题对应的目标答案。
问答关联模型根据段落特征向量和问题特征向量进行训练时,可以使用相似度双线性函数来描述段落特征向量和问题特征向量之间的相似度关系。根据相似度双线性函数计算目标文档中各个字的答案起始预测概率和答案终止预测概率。根据答案起始预测概率和答案终止预测概率在目标文档中确定目标答案的位置。
上述基于网络百科全书的智能问答方法,基于网络百科全书的文档库进行相关的目标文章的搜索,对目标文章进行阅读理解,寻找最有可能的答案的范围和位置,得到与该搜索问题相关度高的目标答案,提高搜索结果的准确性。
在一个实施例中,如图5所示,图5为一个实施例中基于网络百科全书的智能问答系统的结构示意图,本发明还提供一种基于网络百科全书的智能问答系统,具体可以包括目标文档查找模块510、特征向量获取模块520和目标答案标定模块530,其中:
目标文档查找模块510,用于获取用户输入的搜索问题,在网络百科全书的文档库中查找与搜索问题相关的目标文档。
目标文档查找模块510减少需要根据问题和文档段落相互之间的特性进行搜索的文档范围,从而更快速、有效地找到那些最有可能含有答案的目标文档。
特征向量获取模块520,用于获取目标文档的段落特征向量,以及获取搜索问题的问题特征向量。
特征向量获取模块520获取可以标识文本信息的特征的特征向量。文本信息的特征体现了该文本特征相关的词义、词频等信息,以便于将文本信息与其他文本信息、专业知识或相关行业的知识进行联系。特征向量可以包含全局词向量、与该文本信息相似的特征、词频特征、文本对齐等特征,特征向量将文本信息与相关信息进行关联,使得文本信息的表述或展现得更加多元化,提高后续搜索后搜索结果的相关度。
目标答案标定模块530,用于将段落特征向量和问题特征向量输入问答关联模型进行识别,在目标文档中标定出与搜索问题对应的目标答案,其中,问答关联模型为预先训练的、描述段落特征向量和问题特征向量之间相似度的模型。
目标答案标定模块530预先训练的问答关联模型可以根据输入的段落特征向量和问题特征向量,输出与搜索问题对应的目标答案。特征向量记录了文本信息与其他文本信息、专业知识或相关行业的知识之间联系,该问答关联模型因为是根据特征向量进行训练,因此可以具有对搜索问题、目标文档、专业知识或相关行业的知识具有相关性分析的能力。此时问答关联模型输出的目标答案的相关性会更高,搜索结果的准确性更高。
上述基于网络百科全书的智能问答系统,考虑问题与文档段落相互之间的特性存在相互关联,获取目标文档的段落特征向量以及搜索问题的问题特征向量,并向问答关联模型输入,将搜索问题与目标文档在相关知识的方向下进行联系,得到与该搜索问题相关度高的目标答案,提高搜索结果的准确性。
关于基于网络百科全书的智能问答系统的具体限定可以参见上文中对于基于网络百科全书的智能问答方法的限定,在此不再赘述。上述基于网络百科全书的智能问答系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图6所示,图6为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于网络百科全书的智能问答方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于网络百科全书的智能问答方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的基于网络百科全书的智能问答方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的基于网络百科全书的智能问答方法的步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于网络百科全书的智能问答方法,其特征在于,包括如下步骤:
获取用户输入的搜索问题,在网络百科全书的文档库中查找与所述搜索问题相关的目标文档;
获取所述目标文档的段落特征向量,以及获取所述搜索问题的问题特征向量;
将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案,其中,所述问答关联模型为预先训练的、描述所述段落特征向量和所述问题特征向量之间相似度的模型。
2.根据权利要求1所述的基于网络百科全书的智能问答方法,其特征在于,所述在网络百科全书的文档库中查找与所述搜索问题相关的目标文档的步骤,包括:
计算所述搜索问题的加权词袋向量,计算所述文档库中各个文档的加权词袋向量;
将所述搜索问题的加权词袋向量分别与各所述文档的加权词袋向量相乘,获得各所述文档与相对于所述问题样本的相关程度值;
将所述文档库中相关程度值最大的文档作为所述目标文档。
3.根据权利要求2所述的基于网络百科全书的智能问答方法,其特征在于,所述计算所述文档库中各个文档的加权词袋向量的步骤,包括:
统计所述文档库中任一个文档的各个分词;
根据哈希算法计算各所述分词的哈希值;
根据所述哈希值和所述分词特征计算各所述分词的词频向量和逆文本频率指数向量;
将所有所述分词的词频向量和所述逆文本频率指数向量相乘,得到该文档的加权词袋向量。
4.根据权利要求1所述的基于网络百科全书的智能问答方法,其特征在于,所述获取所述目标文档的段落特征向量的步骤,包括:
提取所述目标文档中的各个段落的段落特征;
根据所述段落特征输入循环神经网络,并生成所述目标文档的段落特征向量。
5.根据权利要求1所述的基于网络百科全书的智能问答方法,其特征在于,所述获取所述搜索问题的问题特征向量的步骤,包括:
根据所述问答关联模型的权重向量计算所述搜索问题中的各个字的特征值;
根据所述字的特征值输入长短期记忆模型,并生成所述搜索问题的问题特征向量,其中,所述问题特征向量包括各所述字的重要程度特征。
6.根据权利要求1所述的基于网络百科全书的智能问答方法,其特征在于,所述将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案的步骤,包括:
将所述段落特征向量和所述问题特征向量输入问答关联模型,并获得相似度双线性函数,其中,所述相似度双线性函数用于描述所述段落特征向量和所述问题特征向量之间的相似度关系;
根据所述相似度双线性函数计算所述目标文档中各个字的答案起始预测概率和答案终止预测概率;
根据所述答案起始预测概率和所述答案终止预测概率在所述目标文档中确定所述目标答案的位置。
7.根据权利要求1所述的基于网络百科全书的智能问答方法,其特征在于,在所述将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别的步骤之前,还包括:
将问题样本的问题特征向量和所述网络百科全书的文档库中各个文档的段落特征向量输入神经网络分类器进行训练,获得所述问答关联模型。
8.一种基于网络百科全书的智能问答系统,其特征在于,包括:
目标文档查找模块,用于获取用户输入的搜索问题,在网络百科全书的文档库中查找与所述搜索问题相关的目标文档;
特征向量获取模块,用于获取所述目标文档的段落特征向量,以及获取所述搜索问题的问题特征向量;
目标答案标定模块,用于将所述段落特征向量和所述问题特征向量输入问答关联模型进行识别,在所述目标文档中标定出与所述搜索问题对应的目标答案,其中,所述问答关联模型为预先训练的、描述所述段落特征向量和所述问题特征向量之间相似度的模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述基于网络百科全书的智能问答方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述基于网络百科全书的智能问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082304.XA CN109918487A (zh) | 2019-01-28 | 2019-01-28 | 基于网络百科全书的智能问答方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082304.XA CN109918487A (zh) | 2019-01-28 | 2019-01-28 | 基于网络百科全书的智能问答方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109918487A true CN109918487A (zh) | 2019-06-21 |
Family
ID=66961013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910082304.XA Pending CN109918487A (zh) | 2019-01-28 | 2019-01-28 | 基于网络百科全书的智能问答方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918487A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532369A (zh) * | 2019-09-04 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种问答对的生成方法、装置及服务器 |
CN110909538A (zh) * | 2019-10-14 | 2020-03-24 | 深圳价值在线信息科技股份有限公司 | 问答内容的识别方法、装置、终端设备及介质 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111143507A (zh) * | 2019-12-05 | 2020-05-12 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111368042A (zh) * | 2020-02-13 | 2020-07-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111680264A (zh) * | 2020-04-20 | 2020-09-18 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111881264A (zh) * | 2020-09-28 | 2020-11-03 | 北京智源人工智能研究院 | 一种开放领域问答任务中长文本检索的方法和电子设备 |
CN112100326A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 |
CN112115347A (zh) * | 2020-07-17 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置及存储介质 |
CN112417119A (zh) * | 2020-11-19 | 2021-02-26 | 上海交通大学 | 一种基于深度学习的开放域问答预测方法 |
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113486152A (zh) * | 2021-07-16 | 2021-10-08 | 上海淇馥信息技术有限公司 | 一种业务知识库构建方法、装置和电子设备 |
CN113779203A (zh) * | 2020-06-09 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 生成段落集的方法和装置、推理方法和装置 |
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113868406A (zh) * | 2021-12-01 | 2021-12-31 | 无码科技(杭州)有限公司 | 搜索方法、系统、计算机可读存储介质 |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
-
2019
- 2019-01-28 CN CN201910082304.XA patent/CN109918487A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
Non-Patent Citations (1)
Title |
---|
DANQI CHEN ET AL: "Reading Wikipedia to Answer Open-Domain Questions", 《HTTPS://ARXIV.ORG/PDF/1704.00051.PDF》, pages 1 - 10 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532369A (zh) * | 2019-09-04 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种问答对的生成方法、装置及服务器 |
CN111046152B (zh) * | 2019-10-12 | 2023-09-29 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
WO2021068352A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN110909538B (zh) * | 2019-10-14 | 2024-04-12 | 深圳价值在线信息科技股份有限公司 | 问答内容的识别方法、装置、终端设备及介质 |
CN110909538A (zh) * | 2019-10-14 | 2020-03-24 | 深圳价值在线信息科技股份有限公司 | 问答内容的识别方法、装置、终端设备及介质 |
CN111143507B (zh) * | 2019-12-05 | 2023-05-02 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111143507A (zh) * | 2019-12-05 | 2020-05-12 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111159340B (zh) * | 2019-12-24 | 2023-11-03 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111368042A (zh) * | 2020-02-13 | 2020-07-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111680264A (zh) * | 2020-04-20 | 2020-09-18 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111680264B (zh) * | 2020-04-20 | 2023-12-22 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN113779203A (zh) * | 2020-06-09 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 生成段落集的方法和装置、推理方法和装置 |
CN112115347A (zh) * | 2020-07-17 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置及存储介质 |
CN112115347B (zh) * | 2020-07-17 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置及存储介质 |
CN112100326A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 |
CN111881264A (zh) * | 2020-09-28 | 2020-11-03 | 北京智源人工智能研究院 | 一种开放领域问答任务中长文本检索的方法和电子设备 |
CN111881264B (zh) * | 2020-09-28 | 2020-12-15 | 北京智源人工智能研究院 | 一种开放领域问答任务中长文本检索的方法和电子设备 |
CN112417119A (zh) * | 2020-11-19 | 2021-02-26 | 上海交通大学 | 一种基于深度学习的开放域问答预测方法 |
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113159013B (zh) * | 2021-04-28 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113486152A (zh) * | 2021-07-16 | 2021-10-08 | 上海淇馥信息技术有限公司 | 一种业务知识库构建方法、装置和电子设备 |
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113868406A (zh) * | 2021-12-01 | 2021-12-31 | 无码科技(杭州)有限公司 | 搜索方法、系统、计算机可读存储介质 |
CN113868406B (zh) * | 2021-12-01 | 2022-03-11 | 无码科技(杭州)有限公司 | 搜索方法、系统、计算机可读存储介质 |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918487A (zh) | 基于网络百科全书的智能问答方法和系统 | |
US9792534B2 (en) | Semantic natural language vector space | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US20090083332A1 (en) | Tagging over time: real-world image annotation by lightweight metalearning | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN102999635A (zh) | 语义可视搜索引擎 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN113761887A (zh) | 基于文本处理的匹配方法、装置、计算机设备和存储介质 | |
CN112527985A (zh) | 未知问题处理方法、装置、设备及介质 | |
CN114742058B (zh) | 一种命名实体抽取方法、装置、计算机设备及存储介质 | |
Huang et al. | Efficient image and sentence matching | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN113569124A (zh) | 医疗标题匹配方法、装置、设备及存储介质 | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 | |
CN111708862A (zh) | 文本匹配方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |