CN107220296B - 问答知识库的生成方法、神经网络的训练方法以及设备 - Google Patents
问答知识库的生成方法、神经网络的训练方法以及设备 Download PDFInfo
- Publication number
- CN107220296B CN107220296B CN201710295530.7A CN201710295530A CN107220296B CN 107220296 B CN107220296 B CN 107220296B CN 201710295530 A CN201710295530 A CN 201710295530A CN 107220296 B CN107220296 B CN 107220296B
- Authority
- CN
- China
- Prior art keywords
- question
- neural network
- answer
- vector
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供了一种问答知识库的生成方法、神经网络的训练方法以及设备。其中,所述问答知识库的生成方法包括:对文档数据进行拆分处理,得到多个知识片段;通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。通过本发明实施例,能够有效地降低获取问答知识的难度,大大减少了人工工作量。
Description
技术领域
本发明涉及数据处理领域,具体地,涉及一种问答知识库的生成方法及计算机设备,以及,一种神经网络的训练方法及计算机设备。
背景技术
随着互联网技术的不断发展,数据量日益增大,问答知识系统在人们的生活中发挥了越来越重要的作用。当前问答知识系统中的问答知识库主要是人工构建为主,耗费大量的人力物力,影响问答知识系统从单一领域扩展到全领域的应用。
为了解决阻碍智能问答技术发展的这一重大难题,研究者们提出了一些解决方案。一些现有的解决方案试图使用基于语义模板的匹配方法,先构建问题数据库,对问题数据库中的每个问题进行语法和语义分析,形成与每个问题对应的语义模板;对文档数据库中的文档进行语法和语义分析,将进行语法和语义分析后的文档与问题数据库中每个问题的语义模板进行匹配,找到最匹配的问题语义模板,基于该语义模板生成问题,从而形成问题答案对,实现自动构建问答知识库。该解决方案的效果取决于预先整理的问题数据库和语义知识的覆盖能力。
实际上,目前可用的语义知识库多是通用知识库,行业化的领域语义知识库很少,需要耗费大量人力去构建。很显然,该方案没有降低问答知识库构建的难度。另外,由于该方案的问题数据库中问题的种类有限,该方案仅具有部分适应性,为生成得到其它种类的问题,仍需投入大量人力。
发明内容
本发明实施例的目的在于,提供一种问答知识库生成的技术方案和神经网络训练的技术方案,旨在降低获取问答知识的难度,减少大量的人工工作量。
为达到上述目的,本发明的实施例提供了一种问答知识库的生成方法。所述方法包括:对文档数据进行拆分处理,得到多个知识片段;通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。
可选地,所述通过神经网络对每个知识片段进行映射处理后,所述方法还包括:对通过所述神经网络映射处理得到的问题进行过滤。
可选地,所述对通过所述神经网络映射处理得到的问题进行过滤,包括:基于所述问题的字数,过滤掉字数小于或等于第一预设阈值的问题以及字数大于第二预设阈值的问题;对所述问题进行敏感词检查,过滤掉包含敏感词的问题;计算所述问题与所述问题对应的知识片段之间的语义相似度,过滤掉所述语义相似度小于第三预设阈值的问题。
可选地,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:对所述问题和所述问题对应的知识片段分别进行分词处理;根据分词处理后的问题和知识片段生成得到与所述问题对应的第一向量和与所述知识片段对应的第二向量;计算所述第一向量和所述第二向量之间的夹角的余弦值,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。
可选地,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:对所述问题和所述问题对应的知识片段分别进行分词处理;根据分词处理后的问题和知识片段生成得到与所述问题对应的第一向量和与所述知识片段对应的第二向量;使用基于词嵌入模型的词语向量对所述第一向量和所述第二向量分别进行扩展,得到与所述第一向量对应的第一矩阵向量和与所述第二向量对应的第二矩阵向量;计算所述第一矩阵向量和所述第二矩阵向量之间的搬土距离,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。
可选地,所述每个知识片段包括以下中的至少一者:文档、段落以及句子。
相应地,本发明的实施例还提供一种神经网络的训练方法。所述神经网络包括第一神经网络和与所述第一神经网络连接的第二神经网络,所述方法包括:通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量;通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量;根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异;根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。
可选地,所述通过待训练的第一神经网络对问答训练集中的每个答案进行处理之前,所述方法还包括:使用网络爬虫从网站上下载关于常见问题集的页面;对所述页面进行处理,得到多个问题和与所述多个问题分别对应的答案,从而得到所述问答训练集。
相应地,本发明的实施例还提供一种计算机设备,所述设备包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行问答知识库的生成方法对应的操作。
相应地,本发明的实施例还提供一种计算机设备,所述设备包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行神经网络的训练方法对应的操作。
根据本发明实施例提供的技术方案,对文档数据进行拆分处理,得到多个知识片段;并通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库,能够有效地降低获取问答知识的难度,大大减少了人工工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的问答知识库的生成方法的流程图;
图2是本发明另一实施例提供的问答知识库的生成方法的流程图;
图3是本发明一实施例提供的神经网络的网络结构的示意图;
图4是本发明一实施例提供的神经网络的训练方法的流程图;
图5是本发明另一实施例提供的神经网络的训练方法的流程图;
图6是本发明一实施例提供的计算机设备的结构框图;
图7是本发明另一实施例提供的计算机设备的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一实施例提供的问答知识库的生成方法的流程图。如图1所示,本发明一实施例提供的问答知识库的生成方法包括:
在步骤S101中,对文档数据进行拆分处理,得到多个知识片段。
其中,所述问答知识库指的是存储有多个问答对的数据库,所述问答对包括问题以及解决该问题的答案。所述文档数据可包括文档数据库,每个知识片段可为文档、段落或句子。当所述文档数据为文档数据库时,对文档数据库进行知识切分处理,按文档、段落或句子拆分成多个知识片段,得到文档、段落和句子三类知识片段。具体地,拆分过程可包括:以文档为单位,每篇文档作为一个知识片段;以段落为单位,每个段落作为一个知识片段,其中,段落的结束符号包括多个连续的回车换行符或者回车换行符加空格;以句子为单位,每个句子作为一个知识片段,句子的结束符号包括句号、问号、叹号、句点等。
在步骤S102中,通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。
在具体的实施方式中,将拆分后得到的每个知识片段作为答案输入到神经网络,经过神经网络对每个知识片段进行语义映射处理,得到每个知识片段对应的问题,根据每个知识片段和每个知识片段对应的问题生成得到所述问答知识库。例如,通过深度神经网络对文档、段落、句子三类知识片段分别进行处理,逐个生成对应的问题,得到问答对,其结构为:<问题,答案>。其中,所述神经网络可为任意适当的可实现特征提取或目标对象检测的神经网络,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等,本发明实施例对此不作限制。
在本实施例中,对文档数据进行拆分处理,得到多个知识片段;并通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库,能够有效地降低获取问答知识的难度,大大减少了人工工作量。
图2是本发明另一实施例提供的问答知识库的生成方法的流程图。如图2所示,本发明另一实施例提供的问答知识库的生成方法包括:
在步骤S201中,对文档数据进行拆分处理,得到多个知识片段。
由于该步骤S201与上述实施例的步骤S101相同,在此不再赘述。
在步骤S202中,通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题。
在具体的实施例中,所述神经网络可为深度神经网络,所述深度神经网络的结构为序列到序列模型(sequence-to-sequence),所述序列到序列模型由两个RNN(RecurrentNeural Networks,循环神经网络)构成,一个被称为“编码器”,另一个则称为“解码器”。图3是本发明一实施例提供的神经网络的网络结构的示意图。如图3所示,编码器负责把输入的知识片段转换为中间语义表示,解码器负责把中间语义表示转换为输出的问题。通过这个网络结构,可实现从答案到问题的自动转换。具体地,将拆分后得到的每个知识片段,作为答案输入到深度神经网络的编码器输入端,经过深度神经网络处理后,由深度神经网络的解码器输出端输出与每个知识片段对应的问题。
在步骤S203中,对通过所述神经网络映射处理得到的问题进行过滤,并根据未被过滤的问题以及未被过滤的问题所对应的知识片段生成问答知识库。
在本实施例中,通过该步骤S203可自动生成高质量的问答知识库。具体地,所述对通过所述神经网络映射处理得到的问题进行过滤,包括:基于所述问题的字数,过滤掉字数小于或等于第一预设阈值的问题以及字数大于第二预设阈值的问题;对所述问题进行敏感词检查,过滤掉包含敏感词的问题;计算所述问题与所述问题对应的知识片段之间的语义相似度,过滤掉所述语义相似度小于第三预设阈值的问题。籍此,可通过字数检查、敏感词检查以及语义相似度检查对问题与答案对进行过滤,从而确保问题与答案对的高质量。
其中,所述第一预设阈值、所述第二预设阈值和所述第三预设阈值的具体设定可以由本领域技术人员根据实际需要适当设置,本发明实施例对此不作限制。所述敏感词包括色情用词、反动用词以及不文明用词等。过滤掉字数小于或等于第一预设阈值的问题就是为了过滤字数过短的问题,过滤掉字数大于第二预设阈值的问题就是为了过滤掉字数过长的问题。
可选地,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:对所述问题和所述问题对应的知识片段分别进行分词处理;根据分词处理后的问题和知识片段生成得到与所述问题对应的第一向量和与所述知识片段对应的第二向量;计算所述第一向量和所述第二向量之间的夹角的余弦值,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。具体地,对问题和知识片段分别进行分词处理后,分别构建向量,每个词语表示为向量的一个维度,词语的权重作为每个维度上的值,采用夹角余弦的方法计算两个向量之间的相似度。其中,第一向量的词语的权重可根据该词语在问题中出现的词频确定得到。第二向量的词语的权重可根据该词语在问题中出现的词频确定得到。这种算问题与问题对应的知识片段之间的语义相似度的方法可概括为基于向量空间模型的相似度计算方法。
可选地,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:对所述问题和所述问题对应的知识片段分别进行分词处理;根据分词处理后的问题和知识片段生成得到与所述问题对应的第一向量和与所述知识片段对应的第二向量;使用基于词嵌入模型的词语向量对所述第一向量和所述第二向量分别进行扩展,得到与所述第一向量对应的第一矩阵向量和与所述第二向量对应的第二矩阵向量;计算所述第一矩阵向量和所述第二矩阵向量之间的搬土距离,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。具体地,首先使用开源工具word2vec对为生成问答知识库的整个文档数据库训练一个词嵌入模型,然后将问答训练集中的词语输入到词嵌入模型中,会输出所有出现在问答训练集上的词语的向量表示。接着,将问题和问题对应的知识片段分别进行分词处理,并分别构建向量,使用基于词嵌入模型的词语向量对第一向量和第二向量分别进行扩展,将第一向量和第二向量分别扩充为矩阵向量。计算两个矩阵向量之间的相似度,作为问题答案对的相似度。这里的矩阵向量之间的相似度计算方法可以是先计算问题答案的任意两个词之间的词向量相似度,然后再计算两个矩阵向量之间的EMD(Earth Mover’sDistance,搬土距离)。这种算问题与问题对应的知识片段之间的语义相似度的方法可概括为基于词嵌入模型的相似度计算方法。
优选地,以上两种语义相似度计算方法可以进行线性加权,取加权后的语义相似度作为问题答案对最终的语义相似度,并根据该语义相似度对问题答案对进行过滤。具体地,对基于向量空间模型的相似度计算方法的权重可取0.5,对基于词嵌入模型的相似度计算方法的权重可取为0.5,然后相加得到最终的语义相似度。
长期以来,阻碍智能问答技术发展的重大难题之一是如何获取高质量的问答知识库。本实施例通过神经网络对文档数据库进行分析,并对生成的问题进行过滤,自动生成高质量的问答知识库,可有效地降低问答知识库获取的难度,大大减少人工工作量。本实施例具有较好的领域适应性,对智能问答技术在特定领域的快速上线和推广有较好的促进作用。
图4是本发明一实施例提供的神经网络的训练方法的流程图。如图4所示,本发明一实施例提供的神经网络的训练方法包括:
在步骤S301中,通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量。
其中,所述神经网络包括第一神经网络和与所述第一神经网络连接的第二神经网络。所述问答训练集可来源于已有的从互联网采集的常用问题集,或是经过人工整理的常用问题集,所述问答训练集由一组问题答案对组成,该问答训练集的领域不做限制。由于神经网络的训练效果取决于问答训练集的质量及规模,因此,需要保证问答训练集的规模至少在万条以上。具体地,通过待训练的第一神经网络对问答训练集中的每个答案进行语义映射处理,得到与所述每个答案对应的第一中间语义向量。
在步骤S302中,通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量。
具体地,通过待训练的第二神经网络对所述问答训练集中的每个问题进行语义映射处理,得到与所述每个问题对应的第二中间语义向量。
在步骤S303中,根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异。
具体地,将每个答案的第一中间语义向量与每个答案对应的问题的第二中间语义向量进行比较,确定第一中间语义向量与第一中间语义向量对应的第二中间语义向量之间的差异。通过计算所述差异,对当前获得的中间语义向量进行评估,以作为后续训练第一神经网络和第二神经网络的依据。
在步骤S304中,根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。
具体地,可将所述差异值反向传输给第一神经网络和第二神经网络,从而迭代地训练该第一神经网络和第二神经网络。神经网络的训练是一个迭代的过程,本发明实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对神经网络的每次训练都可采用该训练方式,直至完成神经网络的训练。
本实施例基于已有的本领域或其它领域的问答训练集,对神经网络进行训练,以使得训练得到的神经网络自动对本领域的文档数据库进行分析,自动生成问答知识库,可以有效地解决问答知识获取的瓶颈,大大减少人工工作量。
图5是本发明另一实施例提供的神经网络的训练方法的流程图。如图5所示,本发明另一实施例提供的神经网络的训练方法包括:
在步骤S401中,使用网络爬虫从网站上下载关于常见问题集的页面,并对所述页面进行处理,得到多个问题和与所述多个问题分别对应的答案,从而得到所述问答训练集。
在具体的实施方式中,首先用网络爬虫从网站上下载常见问题集页面。然后,对html页面进行标签过滤、文本抽取和记录切分,获取得到问题答案对。最后,将抽取的问题答案对入库。
在步骤S402中,通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量。
由于该步骤S402与上述实施例的步骤S301相同,在此不再赘述。
在步骤S403中,通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量。
由于该步骤S403与上述实施例的步骤S302相同,在此不再赘述。
在步骤S404中,根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异。
由于该步骤S404与上述实施例的步骤S303相同,在此不再赘述。
在步骤S405中,根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。
由于该步骤S405与上述实施例的步骤S304相同,在此不再赘述。
总体来说,神经网络的训练是按照深度神经网络的序列到序列模型进行训练。经典的序列到序列模型由两个循环神经网络构成,一个循环神经网络被称为编码器,另一个循环神经网络则被称为解码器。编码器负责把任意长度的输入序列编码成固定长度的向量表示,解码器负责把固定长度的向量表示解码成任意长度的序列输出。简而言之,编码器把输入的答案序列编码成中间语义向量,解码器负责把中间语义向量解码为输出的问题序列。具体地,将问答训练集合中的答案输入到编码器中,由编码器将答案序列编码成第一中间语义向量,将问答训练集中的答案对应的问题输入到解码器中,由解码器将问题序列编码成第二中间语义向量,然后,将第一中间语义向量与第二中间语义向量进行比较,确定第一中间语义向量与第二中间语义向量的差异,再根据所述差异反向调节所述编码器和所述解码器的网络参数,使得第一中间语义向量与第二中间语义向量的差异小于预先配置的预设值,从而完成神经网络的训练。
本发明的示例性实施例旨在提出一种神经网络的训练方法,通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量;通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量;再根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异;再根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络,以使训练得到的神经网络根据输入的答案获取与答案对应的问题。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种计算机设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机设备500的结构示意图。如图6所示,计算机设备500包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个中央处理单元(CPU)501,和/或一个或多个图像处理器(GPU)513等,第一处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。本实施例中,第一只读存储器502和随机访问存储器503统称为第一存储器。第一通信元件包括通信组件512和/或通信接口509。其中,通信组件512可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口509包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口509经由诸如因特网的网络执行通信处理。
第一处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令,通过第一通信总线504与通信组件512相连、并经通信组件512与其他目标设备通信,从而完成本发明实施例提供的任一项问答知识库的生成方法对应的操作,例如,对文档数据进行拆分处理,得到多个知识片段;通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。
此外,在RAM 503中,还可存储有装置操作所需的各种程序和数据。CPU501或GPU513、ROM502以及RAM503通过第一通信总线504彼此相连。在有RAM503的情况下,ROM502为可选模块。RAM503存储可执行指令,或在运行时向ROM502中写入可执行指令,可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至第一通信总线504。通信组件512可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口509。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
需要说明的,如图6所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,对文档数据进行拆分处理,得到多个知识片段;通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被第一处理器执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例还提供了一种计算机设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机设备600的结构示意图。如图7所示,计算机设备600包括一个或多个第二处理器、第二通信元件等,所述一个或多个第二处理器例如:一个或多个中央处理单元(CPU)601,和/或一个或多个图像处理器(GPU)613等,第二处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。本实施例中,第二只读存储器602和随机访问存储器603统称为第二存储器。第二通信元件包括通信组件612和/或通信接口609。其中,通信组件612可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口609包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口609经由诸如因特网的网络执行通信处理。
第二处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令,通过第二通信总线604与通信组件612相连、并经通信组件612与其他目标设备通信,从而完成本发明实施例提供的任一项神经网络的训练方法对应的操作,例如,通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量;通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量;根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异;根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。
此外,在RAM 603中,还可存储有装置操作所需的各种程序和数据。CPU601或GPU613、ROM602以及RAM603通过第二通信总线604彼此相连。在有RAM603的情况下,ROM602为可选模块。RAM603存储可执行指令,或在运行时向ROM602中写入可执行指令,可执行指令使第二处理器执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至第二通信总线604。通信组件612可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口609。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
需要说明的,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量;通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量;根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异;根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被第二处理器执行时,执行本发明实施例的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种问答知识库的生成方法,其特征在于,所述方法包括:
对文档数据进行拆分处理,得到多个知识片段;
将拆分后得到的每个知识片段作为答案输入到神经网络,通过神经网络对所述每个知识片段进行映射处理,得到与所述每个知识片段对应的问题;其中,所述神经网络包括编码器与解码器,所述编码器把输入的知识片段转换为中间语义表示,所述解码器把中间语义表示转换为输出的问题;
根据所述每个知识片段和所述每个知识片段对应的问题,生成所述问答知识库。
2.根据权利要求1所述的方法,其特征在于,所述通过神经网络对每个知识片段进行映射处理后,所述方法还包括:
对通过所述神经网络映射处理得到的问题进行过滤。
3.根据权利要求2所述的方法,其特征在于,所述对通过所述神经网络映射处理得到的问题进行过滤,包括:
基于所述问题的字数,过滤掉字数小于或等于第一预设阈值的问题以及字数大于第二预设阈值的问题;
对所述问题进行敏感词检查,过滤掉包含敏感词的问题;
计算所述问题与所述问题对应的知识片段之间的语义相似度,过滤掉所述语义相似度小于第三预设阈值的问题。
4.根据权利要求3所述的方法,其特征在于,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:
对所述问题和所述问题对应的知识片段分别进行分词处理;
根据分词处理后的问题和知识片段生成与所述问题对应的第一向量和与所述知识片段对应的第二向量;
计算所述第一向量和所述第二向量之间的夹角的余弦值,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。
5.根据权利要求3所述的方法,其特征在于,所述计算所述问题与所述问题对应的知识片段之间的语义相似度,包括:
对所述问题和所述问题对应的知识片段分别进行分词处理;
根据分词处理后的问题和知识片段生成与所述问题对应的第一向量和与所述知识片段对应的第二向量;
使用基于词嵌入模型的词语向量对所述第一向量和所述第二向量分别进行扩展,得到与所述第一向量对应的第一矩阵向量和与所述第二向量对应的第二矩阵向量;
计算所述第一矩阵向量和所述第二矩阵向量之间的搬土距离,从而得到所述问题与所述问题对应的知识片段之间的语义相似度。
6.根据权利要求1~5中任意一项权利要求所述的方法,其特征在于,所述每个知识片段包括以下中的至少一者:
文档、段落以及句子。
7.一种神经网络的训练方法,其特征在于,所述神经网络包括第一神经网络和与所述第一神经网络连接的第二神经网络,训练后的神经网络用于输入每个知识片段对应的答案和输出每个知识片段对应的问题;所述方法包括:
通过待训练的第一神经网络对问答训练集中的每个答案进行处理,得到与所述每个答案对应的第一中间语义向量;
通过待训练的第二神经网络对所述问答训练集中的每个问题进行处理,得到与所述每个问题对应的第二中间语义向量;
根据所述每个答案的第一中间语义向量与所述每个答案对应的问题的第二中间语义向量确定所述第一中间语义向量与所述第二中间语义向量之间的差异;
根据所述差异调整所述第一神经网络和所述第二神经网络的网络参数,从而训练得到所述神经网络。
8.根据权利要求7所述的方法,其特征在于,所述通过待训练的第一神经网络对问答训练集中的每个答案进行处理之前,所述方法还包括:
使用网络爬虫从网站上下载关于常见问题集的页面;
对所述页面进行处理,得到多个问题和与所述多个问题分别对应的答案,从而得到所述问答训练集。
9.一种计算机设备,其特征在于,所述设备包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-6任一项所述的问答知识库的生成方法对应的操作。
10.一种计算机设备,其特征在于,所述设备包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求7-8任一项所述的神经网络的训练方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710295530.7A CN107220296B (zh) | 2017-04-28 | 2017-04-28 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710295530.7A CN107220296B (zh) | 2017-04-28 | 2017-04-28 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220296A CN107220296A (zh) | 2017-09-29 |
CN107220296B true CN107220296B (zh) | 2020-01-17 |
Family
ID=59943613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710295530.7A Active CN107220296B (zh) | 2017-04-28 | 2017-04-28 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220296B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832374A (zh) * | 2017-10-26 | 2018-03-23 | 平安科技(深圳)有限公司 | 标准知识库的构建方法、电子装置及存储介质 |
WO2019084558A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | SELECTING RESPONSE INTERVALS FROM ELECTRONIC DOCUMENTS USING AUTOMATIC APPRENTICESHIP |
CN108062411A (zh) * | 2017-12-29 | 2018-05-22 | 深圳市智搜信息技术有限公司 | 一种查找电子元器件数据信息的系统及方法 |
CN108415980A (zh) * | 2018-02-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 问答数据处理方法、电子装置及存储介质 |
CN108763529A (zh) * | 2018-05-31 | 2018-11-06 | 苏州大学 | 一种智能检索方法、装置和计算机可读存储介质 |
CN109086303B (zh) * | 2018-06-21 | 2021-09-28 | 深圳壹账通智能科技有限公司 | 基于机器阅读理解的智能对话方法、装置、终端 |
CN108959559B (zh) * | 2018-06-29 | 2021-02-26 | 北京百度网讯科技有限公司 | 问答对生成方法和装置 |
CN110889280B (zh) * | 2018-09-06 | 2023-09-26 | 上海智臻智能网络科技股份有限公司 | 基于文档拆分的知识库建设方法及装置 |
CN111177328B (zh) * | 2018-11-12 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
CN109492086B (zh) * | 2018-11-26 | 2022-01-21 | 出门问问创新科技有限公司 | 一种答案输出方法、装置、电子设备及存储介质 |
CN109766494A (zh) * | 2018-12-25 | 2019-05-17 | 出门问问信息科技有限公司 | 问题答案对扩充方法、装置、设备及计算机可读存储介质 |
CN109783631B (zh) * | 2019-02-02 | 2022-05-17 | 北京百度网讯科技有限公司 | 社区问答数据的校验方法、装置、计算机设备和存储介质 |
CN110110054B (zh) * | 2019-03-22 | 2021-06-08 | 北京中科汇联科技股份有限公司 | 一种基于深度学习的从非结构化文本中获取问答对的方法 |
CN110209589B (zh) * | 2019-06-05 | 2022-11-18 | 北京百度网讯科技有限公司 | 知识库系统测试方法、装置、设备和介质 |
CN111046152B (zh) * | 2019-10-12 | 2023-09-29 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN112035500B (zh) * | 2020-09-01 | 2024-01-26 | 中国银行股份有限公司 | 知识库的更新方法、装置、服务器和计算机存储介质 |
CN111881264B (zh) * | 2020-09-28 | 2020-12-15 | 北京智源人工智能研究院 | 一种开放领域问答任务中长文本检索的方法和电子设备 |
CN112508162B (zh) * | 2020-11-17 | 2024-04-05 | 珠海格力电器股份有限公司 | 基于系统联动的应急管理方法、装置及系统 |
WO2023007270A1 (en) * | 2021-07-26 | 2023-02-02 | Carl Wimmer | Foci analysis tool |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN105787560A (zh) * | 2016-03-18 | 2016-07-20 | 北京光年无限科技有限公司 | 基于循环神经网络的对话数据交互处理方法及装置 |
CN106557563A (zh) * | 2016-11-15 | 2017-04-05 | 北京百度网讯科技有限公司 | 基于人工智能的查询语句推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
-
2017
- 2017-04-28 CN CN201710295530.7A patent/CN107220296B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN105787560A (zh) * | 2016-03-18 | 2016-07-20 | 北京光年无限科技有限公司 | 基于循环神经网络的对话数据交互处理方法及装置 |
CN106557563A (zh) * | 2016-11-15 | 2017-04-05 | 北京百度网讯科技有限公司 | 基于人工智能的查询语句推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
Xin-Qi Bao 等.A Tensor Neural Network with Layerwise Pretraining:Towards Effective Answer Retrieval.《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》.2016,第31卷(第6期),第1151页-第1160页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107220296A (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220296B (zh) | 问答知识库的生成方法、神经网络的训练方法以及设备 | |
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
US10275713B2 (en) | Automatic data interpretation and answering analytical questions with tables and charts | |
US11816710B2 (en) | Identifying key-value pairs in documents | |
US10853421B2 (en) | Segmented sentence recognition method and device for human-machine intelligent question answer system | |
US20190188566A1 (en) | Reward augmented model training | |
CN110991165A (zh) | 文本中人物关系提取方法及装置、计算机设备和存储介质 | |
EP3835999A1 (en) | Bilingual corpora screening method and apparatus, and storage medium | |
CN110377902B (zh) | 描述文本生成模型的训练方法和装置 | |
CN111897934A (zh) | 问答对生成方法及装置 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN115222066A (zh) | 模型训练方法和装置、行为预测方法、设备及存储介质 | |
CN113221565A (zh) | 实体识别模型的训练方法、装置、电子设备及存储介质 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN116089584A (zh) | 事件抽取的方法、装置、电子设备和介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN115952266A (zh) | 问题生成方法、装置、计算机设备和存储介质 | |
CN112732896B (zh) | 目标信息显示方法、装置、电子设备和介质 | |
CN111178531B (zh) | 关系推理以及关系推理模型的获取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100088 Beijing City, Haidian District Zhichun Road No. 6 (Jinqiu International Building) 14 14B04 Patentee after: TOLS INFORMATION TECHNOLOGY Co.,Ltd. Address before: 100088 Beijing City, Haidian District Zhichun Road No. 6 (Jinqiu International Building) 14 14B04 Patentee before: BEIJING TRS INFORMATION TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |