CN110188176B - 深度学习神经网络及训练、预测方法、系统、设备、介质 - Google Patents

深度学习神经网络及训练、预测方法、系统、设备、介质 Download PDF

Info

Publication number
CN110188176B
CN110188176B CN201910357929.2A CN201910357929A CN110188176B CN 110188176 B CN110188176 B CN 110188176B CN 201910357929 A CN201910357929 A CN 201910357929A CN 110188176 B CN110188176 B CN 110188176B
Authority
CN
China
Prior art keywords
text
sequence
neural network
question
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910357929.2A
Other languages
English (en)
Other versions
CN110188176A (zh
Inventor
李坚强
颜果开
傅向华
李赛玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910357929.2A priority Critical patent/CN110188176B/zh
Publication of CN110188176A publication Critical patent/CN110188176A/zh
Application granted granted Critical
Publication of CN110188176B publication Critical patent/CN110188176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用计算机技术领域,提供了一种深度学习神经网络及训练、预测方法、系统、设备、介质,在训练阶段,将训练用问题及答案文本转化为序列后进行拼接,将拼接所得组合序列输入神经网络中,处理得到一部分关键词汇向量,并且将问题序列输入神经网络中,处理得到另一部分关键词汇向量,然后按照概率分布,将这些关键词汇向量构成结果文本所对应的序列,利用答案文本序列及处理得到的向量或序列对神经网络进行参数更新;预测阶段类似,区别在于组合序列是由问题文本序列与从问题文本中某些关键词汇对应向量拼接而成。这样,利用深度学习神经网络能根据问题语义灵活地提供答案,从而满足多样性及灵活性要求,同时能提高处理速度,保证实时性。

Description

深度学习神经网络及训练、预测方法、系统、设备、介质
技术领域
本发明属于计算机技术领域,尤其涉及一种深度学习神经网络及训练、预测方法、系统、设备、介质。
背景技术
问答系统允许用户以自然语言的方式进行提问,并且能够快速给出精确的答案,具有高实时性、高准确性以及交互界面友好等特点,引发了学术界和企业界的广泛关注,近年来在各应用领域中得到快速发展。
目前,问答系统主要是基于检索的方式,该类问答系统可以保证返回的答案语法正确、流畅度高。然而,检索式的问答系统极度依赖于已有的数据集,只能与已存在数据集中的答案进行简单匹配,存在返回的答案固定,不具有多样性,灵活度不够高的问题,而且匹配速度慢,实时性不足。
发明内容
本发明的目的在于提供一种深度学习神经网络及训练、预测方法、系统、设备、介质,旨在解决现有技术所存在的、因采用固定答案匹配而导致的问答多样性、灵活度不够高的问题。
一方面,本发明提供了一种深度学习神经网络的训练方法,包括:
获得包含词汇的训练用问题文本及答案文本;
将所述词汇向量化,以由所述问题文本得到问题文本序列,由所述答案文本得到答案文本序列,并将所述问题文本序列与所述答案文本序列进行拼接,得到组合文本序列;
利用所述组合文本序列、所述问题文本序列、所述答案文本序列以及包含所述词汇的词字典空间,对用于从所述问题文本预测得到结果文本的深度学习神经网络进行训练,其中,所述深度学习神经网络对所述组合文本序列进行处理,得到与包含于所述问题文本及所述答案文本中的第一词汇相对应的第一词汇向量,对所述问题文本序列依次进行编码及解码,得到与包含于所述词字典空间中且不同于所述第一词汇的第二词汇相对应的第二词汇向量,所述第一词汇与所述第二词汇用于构成所述结果文本,并且,依据所述第一词汇向量与所述第二词汇向量的概率分布,输出包含所述第一词汇向量及所述第二词汇向量的、与所述结果文本对应的结果文本序列。
进一步的,所述深度学习神经网络包含:第一子神经网络、第二子神经网络及第三子神经网络,
所述第一子神经网络为:用于对所述组合文本序列进行处理,得到所述第一词汇向量的卷积神经网络,
所述第二子神经网络为:用于对所述问题文本序列依次进行编码及解码,得到所述第二词汇向量的序列到序列模型;
所述第三子神经网络为:用于基于图结构,对所述问题文本序列及所述答案文本序列进行处理,得到与包含于所述问题文本及所述答案文本中的第三词汇相对应的第三词汇向量的图卷积自编码神经网络。
进一步的,所述序列到序列模型基于注意力机制。
进一步的,所述序列到序列模型包含:编码器及解码器,所述编码器采用双向门控网络模型,所述解码器采用单向门控网络模型。
另一方面,本发明还提供了一种答案的预测方法,包括:
获得包含词汇的预测用问题文本;
将所述词汇向量化,以由所述问题文本得到问题文本序列;
采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,所述第三词汇用于构成结果文本;
将所述第三词汇向量与所述问题文本序列进行拼接,得到组合文本序列;
将所述组合文本序列、所述问题文本序列输入如上述训练方法训练所得深度学习神经网络,得到对应的结果文本序列;
由所述结果文本序列得到结果文本。
进一步的,采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,具体包括:
基于已构建的图结构,以所述问题文本序列中的所述词汇向量作为所述图结构中的节点,并以所述问题文本序列中的所述词汇向量之间的关系作为所述图结构中所述节点之间的边。
另一方面,本发明提供了一种深度学习神经网络,所述深度学习神经网络经由如上述训练方法训练所得。
另一方面,本发明提供了一种问答系统,包括:
初始化模块,用于获得包含词汇的预测用问题文本;将所述词汇向量化,以由所述问题文本得到问题文本序列;
图卷积自编码模块,用于采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,所述第三词汇用于构成结果文本,将所述第三词汇向量与所述问题文本序列进行拼接,得到组合文本序列;
预测模块,用于将所述组合文本序列、所述问题文本序列输入如上述训练方法训练所得深度学习神经网络,得到对应的结果文本序列;以及,
转换模块,用于由所述结果文本序列得到结果文本。
另一方面,本发明还提供了一种计算设备,包括存储器及处理器,所述处理器执行所述存储器中存储的计算机程序时实现如上述方法中的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法中的步骤。
本发明提供深度学习神经网络及训练、预测方法、系统、设备、介质,在训练阶段,将训练用问题及答案文本转化为序列后进行拼接,将拼接所得组合序列输入神经网络中,处理得到一部分关键词汇向量,并且将问题序列输入神经网络中,处理得到另一部分关键词汇向量,然后按照概率分布,将这些关键词汇向量构成结果文本所对应的序列,利用答案文本序列及处理得到的向量或序列对神经网络进行参数更新;预测阶段类似,区别在于组合序列是由问题文本序列与从问题文本中某些关键词汇对应向量拼接而成。这样,主要利用深度学习神经网络构成问答系统,能根据问题语义灵活地提供答案,从而满足多样性及灵活性要求,同时能提高处理速度,保证实时性。
附图说明
图1是本发明实施例一提供的深度学习神经网络的训练方法的实现流程图;
图2是本发明实施例四提供的答案的预测方法的实现流程图;
图3是本发明实施例五提供的深度学习神经网络的结构示意图;
图4是本发明实施例六提供的问答系统的结构示意图;
图5是本发明实施例七提供的计算设备的结构示意图;
图6是本发明具体应用例提供的结合图卷积自编码推理和指针拷贝的答案生成模型的结构示意图;
图7是本发明具体应用例中图形卷积网络的结构示意图;
图8是本发明具体应用例中词汇共现关系示意图;
图9是本发明具体应用例中问答大致过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的深度学习神经网络的训练方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,获得包含词汇的训练用问题文本及答案文本。
本实施例中,训练用问题文本及答案文本是训练用的样本数据。问题文本及答案文本中通常会包含不同属性的词汇,一些词汇为问题中的关键词汇,用于匹配到相应的、符合期望的答案,而一些词汇为问题中的非关键词汇,其用于构成问句,而对于匹配答案并不会起到关键性作用,例如:问题为“宝宝咳嗽几天了不见好,请问怎么办呢?”,关键词汇可以是“宝宝”、“咳嗽”、“怎么办”等,非关键词汇可以是“请问”、“呢”等。为了在后续提供答案文本时,答案文本更贴近自然语言,有些并非对于匹配答案起关键性作用的词汇,同样也可以作为关键词汇以反映到答案中,例如:答案本来是“按剂量和疗程喂服小柴胡冲剂”,但为了使回答更贴近自然语言,期望的答案可以是“宝宝咳嗽不见好,请不用着急,为治疗您宝宝的咳嗽,您可以按剂量和疗程喂服小儿感冒冲剂”,那么“不见好”等也可以作为相应的关键词汇。
词汇可以是单个中文文字、英文单词、日语短语等。当然,在本实施例的模型中,是将文本中的每一个字都视为具有单独语义的最小元素,生成文本的时候也是逐字生成的。
在步骤S102中,将词汇向量化,以由问题文本得到问题文本序列,答案文本得到答案文本序列,并将问题文本序列与答案文本序列进行拼接,得到组合文本序列。
本实施例中,为了从问题文本及答案文本得到对应的文本序列,可将文本中的词汇进行向量化,从而由词汇向量组成对应的文本序列。。
在步骤S103中,利用组合文本序列、问题文本序列、答案文本序列以及包含词汇的词字典空间,对用于从问题文本预测得到结果文本的深度学习神经网络进行训练,其中,深度学习神经网络对组合文本序列进行处理,得到与包含于问题文本及答案文本中的第一词汇相对应的第一词汇向量,对问题文本序列依次进行编码及解码,得到与包含于词字典空间中且不同于第一词汇的第二词汇相对应的第二词汇向量,第一词汇与第二词汇用于构成结果文本,并且,依据第一词汇向量与第二词汇向量的概率分布,输出包含第一词汇向量及第二词汇向量的、与结果文本对应的结果文本序列。
本实施例中,深度学习神经网络可以是单个能够对序列进行处理的合适类型的神经网络,例如:循环神经网络(Recurrent Neural Network,RNN)、长短期记忆(Long Short-Term Memory,LSTM)网络等,也可以是多个合适类型子神经网络的组合,子神经网络可以是为普通的卷积神经网络(Convolutional Neural Networks,CNN)、RNN等,每个子神经网络可进行相应的处理,例如:第一子神经网络对组合文本序列进行处理,得到第一词汇向量;第二子神经网络对问题文本序列依次进行编码及解码,得到第二词汇向量。其中,第二子神经网络由于需要从序列处理得到序列,因此,第二子神经网络可以采用序列到序列(Sequence to Sequence,seq2seq)模型。
深度学习神经网络还包括第三子神经网络,其可以为图卷积自编码(GraphConvolutional Networks Auto Encoder,GCN-AE)神经网络,主要用于基于图结构,对问题文本序列及答案文本序列进行处理,得到与包含于问题文本及答案文本中的第三词汇相对应的第三词汇向量。在训练图结构时,以问题文本序列和对应的答案文本序列所包含的词向量作为图结构的节点,以问题文本序列中词向量与对应的答案文本序列中的词向量的共现关系作为节点之间的关系,以词向量作为节点的特征向量,通过GCN-AE模型训练图结构,可以得到新的节点的特征向量,同时通过计算词向量之间的相似度来表示节点与节点之间的新的关系。
处理所得的第一词汇向量或第二词汇向量可以是一个或多个。
利用各序列及词字典空间,可对深度学习神经网络进行训练,在迭代过程中,不断更新深度学习神经网络的参数。
在深度学习神经网络的训练过程中,除了需要进行上述第一子神经网络、第二子神经网络的处理之外,还需要依据第一词汇向量及第二词汇向量的概率分布,确定与第一词汇向量、第二词汇向量对应的词汇在结果文本中的作用,以得到结果文本序列。
实施本实施例,主要利用深度学习神经网络构成问答系统,能根据问题语义灵活地提供答案,从而满足多样性及灵活性要求,同时能提高处理速度,保证实时性;在深度学习神经网络的训练时,使用问题与全局答案作为输入,抽取其中的关键信息或潜在的语义信息作为先验信息,动态地在答案生成时,提供缩小的关键信息采样空间,从而使得答案生成更加准确高效;并且,在结果文本中综合了第一词汇和第二词汇,第一词汇相当于指针拷贝输出,第二词汇相当于预测输出,从而可生成贴近自然语言的全局答案,有效提高生成答案与问题的相关性。
实施例二:
本实施例在实施例一基础上,进一步提供了如下内容:
本实施例中,seq2seq模型基于注意力机制。
Seq2seq模型包含编码器及解码器,将输入的序列通过编码器进行编码,编码器的输出进入解码器后进行解码,每一个时间步预测一个第二词汇,得到对应的第二词汇向量。
再seq2seq模型中添加注意力机制后,可对编码器每一个输出赋予相应的权重,然后形成带有该权重求和的向量,然后输出到解码器。
实施本实施例,当在seq2seq模型中添加注意力机制后,每预测得到一个第二词汇,都会与问题文本更为相关,提升预测的准确度。
实施例三:
本实施例在实施例一或二基础上,进一步提供了如下内容:
本实施例中,编码器采用双向门控网络模型(Gated Recurrent Unit,GRU),而解码器采用单向GRU。
编码器通过双向GRU对问题文本的正向序列和反向序列同时进行编码,得到上下文语义隐藏向量输出到解码器,可结合注意力机制,将当前时间步以前的隐藏状态以及前一时间步获得的词汇进行拼接,构成解码器当前时间步的输入,解码器通过单向GRU对输入进行解码,并依照集束搜索策略,采样生成当前时间步的结果文本序列。
实施本实施例,通过采用双向GRU作为编码器,可对问题文本正向、反向序列同时进行编码,从而使所得到的编码器的输出语义更为准确。
实施例四:
图2示出了本发明实施例四提供的答案的预测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,获得包含词汇的预测用问题文本。
本实施例中,预测用问题文本与上述训练用问题文本类似。
在步骤S202中,将词汇向量化,以由问题文本得到问题文本序列。
在步骤S203中,采用图卷积自编码技术,对问题文本序列进行处理,得到与包含于问题文本中的第三词汇相对应的第三词汇向量,第三词汇用于构成结果文本。
本实施例中,由于通常问题文本序列并非定长,因此,要对问题文本序列进行编码,需要将问题文本序列转换为无向图。
可构建一图结构,以问题文本序列中的词汇向量作为图结构中的节点,并以问题文本序列中的词汇向量之间的关系作为图结构中节点之间的边。从而通过学习无向图的可解释的潜在表示,可以自然地结合节点特征。
GCN-AE是在图结构上运行的神经网络,能够同时对节点特征信息和结构信息进行端对端的学习。
在步骤S204中,将第三词汇向量与问题文本序列进行拼接,得到组合文本序列。
在步骤S205中,将组合文本序列、问题文本序列输入如上述各实施例的训练方法训练所得深度学习神经网络,得到对应的结果文本序列。
本实施例中,可通过第一子神经网络对组合文本序列进行处理,得到第一词汇向量;通过第二子神经网络对问题文本序列依次进行编码及解码,得到第二词汇向量,并且依据第一词汇向量及第二词汇向量的概率分布,确定与第一词汇向量、第二词汇向量对应的词汇在结果文本中的作用,以得到结果文本序列。
在步骤S206中,由结果文本序列得到结果文本。
实施例五:
图3示出了本发明实施例五提供的深度学习神经网络的结构,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
该深度学习神经网络由上述各实施例的训练方法训练所得。在一种具体应用中,该深度学习神经网络包含第一子神经网络301、第二子神经网络302及第三子神经网络303。其中,第一子神经网络301为:用于对上述组合文本序列进行处理,得到第一词汇向量的卷积神经网络,第二子神经网络302为:用于对问题文本序列依次进行编码及解码,得到第二词汇向量的seq2seq模型,第三子神经网络303为:用于基于图结构,对问题文本序列及答案文本序列进行处理,得到与包含于问题文本及答案文本中的第三词汇相对应的第三词汇向量的图卷积自编码神经网络。
当然,为了配合完成整个深度学习神经网络的训练或答案预测,除了需要包含上述第一子神经网络301、第二子神经网络302、第三子神经网络303外,还可以配置相应的初始化模块等,进行相应向量化处理等。
实施例六:
图4示出了本发明实施例六提供的问答系统的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
初始化模块401,用于获得包含词汇的预测用问题文本;将所述词汇向量化,以由所述问题文本得到问题文本序列;
图卷积自编码模块402,用于采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,所述第三词汇用于构成结果文本,将所述第三词汇向量与所述问题文本序列进行拼接,得到组合文本序列;
预测模块403,用于将所述组合文本序列、所述问题文本序列输入如上述训练方法训练所得深度学习神经网络,得到对应的结果文本序列;以及,
转换模块404,用于由所述结果文本序列得到结果文本。
在本发明实施例中,问答系统的各模块可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例七:
图5示出了本发明实施例七提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备包括处理器501及存储器502,处理器501执行存储器502中存储的计算机程序503时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,处理器501执行计算机程序503时实现上述系统实施例中各模块的功能,例如图4所示单元401至404的功能。
本发明实施例的计算设备可以为处理芯片、芯片组、单独的计算机、计算机组网等。该计算设备中处理器501执行计算机程序503时实现上述各方法时实现的步骤,可参考前述方法实施例的描述,在此不再赘述。
实施例七:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述系统实施例中各模块的功能,例如图4所示单元401至404的功能。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
具体应用例:
本例提出了结合图卷积自编码推理和指针拷贝的答案生成模型(An InferenceAnd Copy Model On Answer Generation Combined With Graph Convolution Auto-Encoder And PointerNetwork)。模型结构如图6所示,生成器模型包含两个主要部分,答案生成部分601和先验信息抽取部分602。
基于注意力机制的编解码框架所对应的答案生成部分只对编码器抽取到的短期的记忆以及当前时间步的输入进行解码生成答案。考虑到问句和对应的答案包含了解决用户的问题大部分的信息和知识,因此本例将后者作为前者的补充,先验信息抽取模块从问句和其对应的答案中抽取到关键信息或者潜在的语义信息作为先验信息,动态地为每个问句在答案生成时提供缩小的关键信息采样空间。本例模型的最后输出综合了生成器的预测输出和指针网的拷贝输出,以期增强对生成的指导和控制。
尤其针对训练阶段和推理阶段的曝光偏置的问题,本文设计了非同时的先验信息抽取模块。在训练阶段本文使用问句和全局答案作为模块的输入,而推理阶段本文使用问句以及通过图卷积自编码器推理得到的关键信息作为模块的输入。
(一)训练阶段:关键信息抽取模块
本例以X表示源输入问句,Y表示问句X的真实答案,模块训练阶段,直接使用问句X对应的真实答案Y作为先验信息Z即:
Z=Y
因此PIE模块通过将问句X和对应的答案Z作为输入,并对词汇位置信息进行建模,得到额外的先验信息向量ycopy表示为:
ycopy=F(X,Z)
其中,F在本例采用的是双层全连接神经网络模型,X和Z都经过了one-hot向量转换得到EX、EZ,因此上述公式可以等价替换为:
Figure BDA0002046001060000121
其中,⊕表示拼接,tanh是非线性激活函数,Wi、bi分别代表第i层的权重和偏置。通过softmax之后可以得到当前时间步的生成:
Figure BDA0002046001060000122
因此,本例的生成模型在解码生成的时候,采用预测或者拷贝两种不同的策略选择答案生成,不仅考虑原生成模型的在词字典空间中的预测,更是对输入词汇空间的词汇部分进行拷贝,是编解码框架生成和指针网络拷贝的混合概率模型。由模型结构图可以知道,模型添加了一个额外注意力层,最终生成每一个词汇的时候考虑两部分信息,一部分是从整个字典空间中去预测可能的词汇,一个是从先验知识中进行拷贝得到,即前者从整个词字典空间V预测,而后者通过对不同的问题生成不同的相对应的候选子集,从子集源序列X以及子集源序列Y的集合中选择拷贝单词,再通过一个softmax分类器来对两者的作用进行选择,混合信息再输出。
Figure BDA0002046001060000123
其中,
Figure BDA0002046001060000124
表示模型阶段生成的结果,seq2seq表示生成模型,copy表示拷贝模型,st表示解码器隐藏状态,yt-1表示前一时间步的输出,ct表示编码器对解码器的输入。混合指针生成器网络,可以通过向源文本复制单词,有助于准确再现信息,同时保留通过生成新单词的能力。虽然拷贝机制对问题进行了较少的语义的理解,但是确保了文字的复现。
(二)推理阶段:关键信息推理模块
不同于模型训练阶段,先验信息抽取模块的语义信息来源为问句和对应的全局答案,模型推理阶段或者模型实际使用阶段,由于只有问句已知,无法使用问句对应的答案所包含的潜在语义信息,或者说无法抽取到对应的答案中蕴含的潜在语义信息。
本例的关键信息推理模块采用Thomas提出的图卷积自编码网络模型,该模型是一个基于图型结构数据的自编码结构无监督学习框架,通过学习无向图的可解释的潜在表示,模型可以自然地结合节点特征。
图卷积自编码GAE的基础结构,图卷积是卷积神经网络在图结构的数据上的拓展,如图7所示,简单地说,图形卷积网络(GCN)是一种在图结构上运行的神经网络,能够同时对节点特征信息和结构信息进行端到端的学习。
定义一个图结构G=(V;E),V表示成对互斥的顶点集合,E表示连接顶点之间的边,图卷积存在两个输入,一个是N×F形式的特征矩阵X,其中N是N维图结构中的节点数,而F是每个节点的输入特征的维度。另一个是图结构形式的N×N表示矩阵,通常是图的邻接矩阵A,其中,A已经添加了自连接。因此,图结构的第l层隐层节点可以表示为:
Hl=f(Hl-i,A)
其中,H0=X,f是一个传播函数。因此,图卷积的第l层隐层Hl是一个矩阵,矩阵的每一行是一个节点的特征表示N×Fl的特征矩阵。在每一层,使用传播规则f聚合这些特征以形成下一层的特征。通过这种方式,特征在每个连续层变得越来越抽象。
f(Hl,A)=σ(AHlWl)
其中,Wl是l层的Fl×Fl+1形式的权重矩阵,换句话说,下一层的权重的维度是由上一层的权重决定的,这些权重是在层级之间共享的。σ是非线性激活函数,在此框架中,本例选择线性修正函数Relu作为GCN传播算法。因此,一个二层(l=2)的图卷积网络可以表示为:
Figure BDA0002046001060000141
其中,
Figure BDA0002046001060000142
是对称归一化邻接矩阵(Symmetrically Normalized AdjacencyMatrix,SNAM),可以有效地解决因为具有较大度数的节点将在其特征表示中具有较大值,而具有较小度数的节点将具有较小值导致的梯度爆炸或消失的问题,可以由以下公式计算:
Figure BDA0002046001060000143
其中,D表示节点的度矩阵,是一个对角矩阵,对角线上元素即为该节点的邻居节点个数。两者的损失就是利用
Figure BDA0002046001060000144
和A作最小平方和:
Figure BDA0002046001060000145
通过结合自编码,对图的邻接矩阵A,本文可以得到每个节点的中间向量zi,
Figure BDA0002046001060000146
其中,Aij是A的元素。
Figure BDA0002046001060000147
Z=GCN(X,A)
因此,图卷积自编码GAE的目标函数可以定义为:
Figure BDA0002046001060000151
其中
Figure BDA0002046001060000152
Figure BDA0002046001060000153
前文提到答案生成模型推理阶段是没有问句对应的答案作为先验知识,训练阶段和推理阶段导致不同的曝光偏置。因此,本例的关键信息推理模块将问句和答案中的词汇视为图结构结点,问句和真实答案中的词汇共现关系视为图结构邻接矩阵,并将字的词向量表示视为特征,重新学习新的字与字之间的关联关系,效果如图8所示。
因此,在推理阶段,通过将问句作为输入,GAE模型关键信息推理模块输出问句对应的全局答案的关键信息,如以下图9所示,然后联合问句一起作为先验信息抽取模块的输入,得到先验信息。将问句和答案中的词汇的共现信息作为节点与节点的边的关系,以邻接矩阵表示,并且将字的词向量作为图卷积结构中节点的特征,xi2RN×D,其中,D为特征的维度,也就是词向量的维度,意图来学习节点与节点之间的映射:
Z=GAE(X)
其中,X=[x1;x2;……,xm],通过GAE之后得到的新的包含位置信息的向量表示,Z=[z1;z2;z3;……;zm]。通过公式可以计算得到,zi与zj的相关度,从而获取得到全局答案的关键信息的推理。
利用本例:
第一,提出了结合注意力机制的编码解码框架的非事实型医疗答案生成模型。针对现有许多的非事实型问答系统研究都是基于检索方式的,极度依赖于已有的数据集,只能与已存在数据集中的答案进行匹配,返回的答案固定,不具有多样性的问题,本例提出端到端的答案生成模型。具体的,依据答案生成的特性,将答案生成视为从源序列到目标序列的学习任务,研究序列到序列(Seq2Seq)的端到端的深度学习模型。本例选择双向门控网络模型(Bi-GRU)作为模型的编码器,单向的门控网络模型(GRU)作为模型的解码器,在编码阶段通过Bi-GRU对医疗问句正向序列和反向序列同时进行编码,得到上下文语义隐藏向量。再结合注意力机制,解码器将当前时间步以前的隐藏状态以及前一个时间步获得的词汇拼接,构成解码器每个时间步的输入,解码器根据输入进行解码,并依照集束搜索的策略,采样生成当前时间步的答案。
第二,提出了结合图卷积自编码推理和指针拷贝的答案生成模型。该模型利用了图卷积自编码融合位置先验信息。针对答案生成任务单一源输入问句携带信息不足,传统的序列到序列模型编码器编码不足,指针生成网络无法拷贝足够的信息,导致生成答案流畅性和相关性指标不好的问题,本文使用图卷积自编码模型对全局答案的关键信息进行推理,在指针网络的基础上融合问句和答案关键信息,模型在答案生成时选择更关键的信息指导模型生成。具体的,本例提出的GAE模型通过对问题答案中的关键共现关系编码,结合词向量模型的特征编码,对全局答案的关键信息进行拟合,并融合拷贝机制可以有效的提高生成答案与问题的相关性和专业性。
第三,本例基于深度学习,构建生成式医疗领域问答系统,该问答系统能够有效的生成具备多样性、专业性的答案,可以为医生返回答案提供参考。由于传统的自动评估性能指标无法在答案生成任务上使用,因此本文考虑到答案生成在相关性和流畅性的方面的要求,结合问句答案生成特性,设置了适合医疗问答系统的人工评估方法。本课题构建了医疗问答数据集,并且基于该数据集,本例进行了多个生成模型的对比实验。实验证明,相较于其他模型,本例提出的改进模型在流畅性、相关性等性能指标上均有明显提升。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种深度学习神经网络的训练方法,其特征在于,包括:
获得包含词汇的训练用问题文本及答案文本;
将所述词汇向量化,以由所述问题文本得到问题文本序列,由所述答案文本得到答案文本序列,并将所述问题文本序列与所述答案文本序列进行拼接,得到组合文本序列;
利用所述组合文本序列、所述问题文本序列、所述答案文本序列以及包含所述词汇的词字典空间,对用于从所述问题文本预测得到结果文本的深度学习神经网络进行训练,其中,所述深度学习神经网络对所述组合文本序列进行处理,得到与包含于所述问题文本及所述答案文本中的第一词汇相对应的第一词汇向量,对所述问题文本序列依次进行编码及解码,得到与包含于所述词字典空间中且不同于所述第一词汇的第二词汇相对应的第二词汇向量,所述第一词汇与所述第二词汇用于构成所述结果文本,并且,依据所述第一词汇向量与所述第二词汇向量的概率分布,输出包含所述第一词汇向量及所述第二词汇向量的、与所述结果文本对应的结果文本序列。
2.如权利要求1所述的训练方法,其特征在于,所述深度学习神经网络包含:第一子神经网络、第二子神经网络及第三子神经网络,
所述第一子神经网络为:用于对所述组合文本序列进行处理,得到所述第一词汇向量的卷积神经网络,
所述第二子神经网络为:用于对所述问题文本序列依次进行编码及解码,得到所述第二词汇向量的序列到序列模型;
所述第三子神经网络为:用于基于图结构,对所述问题文本序列及所述答案文本序列进行处理,得到与包含于所述问题文本及所述答案文本中的第三词汇相对应的第三词汇向量的图卷积自编码神经网络。
3.如权利要求2所述的训练方法,其特征在于,所述序列到序列模型基于注意力机制。
4.如权利要求2所述的训练方法,其特征在于,所述序列到序列模型包含:编码器及解码器,所述编码器采用双向门控网络模型,所述解码器采用单向门控网络模型。
5.一种答案的预测方法,其特征在于,包括:
获得包含词汇的预测用问题文本;
将所述词汇向量化,以由所述问题文本得到问题文本序列;
采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,所述第三词汇用于构成结果文本;
将所述第三词汇向量与所述问题文本序列进行拼接,得到组合文本序列;
将所述组合文本序列、所述问题文本序列输入如权利要求1至4任一项所述训练方法训练所得深度学习神经网络,得到对应的结果文本序列;
由所述结果文本序列得到结果文本。
6.如权利要求5所述的预测方法,其特征在于,采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,具体包括:
基于已构建的图结构,以所述问题文本序列中的所述词汇向量作为所述图结构中的节点,并以所述问题文本序列中的所述词汇向量之间的关系作为所述图结构中所述节点之间的边。
7.一种深度学习神经网络,其特征在于,所述深度学习神经网络经由如权利要求1至4任一项所述训练方法训练所得。
8.一种问答系统,其特征在于,包括:
初始化模块,用于获得包含词汇的预测用问题文本;将所述词汇向量化,以由所述问题文本得到问题文本序列;
图卷积自编码模块,用于采用图卷积自编码技术,对所述问题文本序列进行处理,得到与包含于所述问题文本中的第三词汇相对应的第三词汇向量,所述第三词汇用于构成结果文本,将所述第三词汇向量与所述问题文本序列进行拼接,得到组合文本序列;
预测模块,用于将所述组合文本序列、所述问题文本序列输入如权利要求1至4任一项所述训练方法训练所得深度学习神经网络,得到对应的结果文本序列;以及,
转换模块,用于由所述结果文本序列得到结果文本。
9.一种计算设备,包括存储器及处理器,其特征在于,所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述方法中的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法中的步骤。
CN201910357929.2A 2019-04-30 2019-04-30 深度学习神经网络及训练、预测方法、系统、设备、介质 Active CN110188176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357929.2A CN110188176B (zh) 2019-04-30 2019-04-30 深度学习神经网络及训练、预测方法、系统、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357929.2A CN110188176B (zh) 2019-04-30 2019-04-30 深度学习神经网络及训练、预测方法、系统、设备、介质

Publications (2)

Publication Number Publication Date
CN110188176A CN110188176A (zh) 2019-08-30
CN110188176B true CN110188176B (zh) 2022-12-23

Family

ID=67715415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357929.2A Active CN110188176B (zh) 2019-04-30 2019-04-30 深度学习神经网络及训练、预测方法、系统、设备、介质

Country Status (1)

Country Link
CN (1) CN110188176B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717324B (zh) * 2019-09-06 2023-04-07 暨南大学 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN110633472B (zh) * 2019-09-19 2021-03-12 电子科技大学 一种基于注意力与聚合机制的文章与问题的融合方法
CN110647629B (zh) * 2019-09-20 2021-11-02 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110795937A (zh) * 2019-09-25 2020-02-14 卓尔智联(武汉)研究院有限公司 信息处理方法、装置及存储介质
CN112837676B (zh) * 2019-11-04 2023-12-01 深圳市优必选科技股份有限公司 一种语句生成方法、语句生成装置及智能设备
CN111125324B (zh) * 2019-11-22 2023-09-26 泰康保险集团股份有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN111046661B (zh) * 2019-12-13 2021-09-28 浙江大学 基于图卷积网络的阅读理解方法
CN111090734B (zh) * 2019-12-25 2021-06-15 湖南大学 基于层级注意力机制优化机器阅读理解能力的方法和系统
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111488441B (zh) * 2020-04-08 2023-08-01 北京百度网讯科技有限公司 问题解析方法、装置、知识图谱问答系统和电子设备
CN111177325B (zh) * 2020-04-10 2020-07-31 支付宝(杭州)信息技术有限公司 一种自动生成答案的方法和系统
CN113541986B (zh) * 2020-04-15 2023-04-18 中国移动通信集团浙江有限公司 5g切片的故障预测方法、装置及计算设备
CN111581969B (zh) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111666375B (zh) * 2020-05-20 2023-07-04 上海携旅信息技术有限公司 文本相似度的匹配方法、电子设备和计算机可读介质
CN111538831B (zh) * 2020-06-05 2023-04-18 支付宝(杭州)信息技术有限公司 一种文本生成方法、装置及电子设备
CN112131386A (zh) * 2020-09-22 2020-12-25 新华三大数据技术有限公司 一种文本分类方法及装置
CN112131353A (zh) * 2020-10-12 2020-12-25 吉林大学 一种解决有关全文解读分析问题的方法
CN113253063A (zh) * 2020-10-29 2021-08-13 诸暨市迪朗物联科技有限公司 基于长短时记忆网络深度学习的故障电弧检测系统及方法
CN112395832B (zh) * 2020-11-17 2024-05-21 上海金桥信息股份有限公司 一种基于序列到序列的文本量化分析与生成方法及系统
CN113268574B (zh) * 2021-05-25 2022-12-20 山东交通学院 一种基于依赖结构的图卷积网络知识库问答方法及系统
CN113537586B (zh) * 2021-07-12 2024-04-05 浙江大学 集成小波分解与深度神经网络的水质指标多步预测方法
CN115713065B (zh) * 2022-11-08 2023-09-15 贝壳找房(北京)科技有限公司 一种生成问题的方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590192A (zh) * 2017-08-11 2018-01-16 深圳市腾讯计算机系统有限公司 文本问题的数学化处理方法、装置、设备和存储介质
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
GB201817169D0 (en) * 2017-12-22 2018-12-05 Adobe Systems Inc Question answering for data visualizations
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763284B (zh) * 2018-04-13 2021-07-20 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system
CN107590192A (zh) * 2017-08-11 2018-01-16 深圳市腾讯计算机系统有限公司 文本问题的数学化处理方法、装置、设备和存储介质
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
GB201817169D0 (en) * 2017-12-22 2018-12-05 Adobe Systems Inc Question answering for data visualizations
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110188176A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
Liu et al. Knowledge diffusion for neural dialogue generation
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
Liu et al. Learning to generate questions by learningwhat not to generate
CN108733742B (zh) 全局归一化阅读器系统和方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN111538838B (zh) 基于文章的问题生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Park et al. Natural language generation using dependency tree decoding for spoken dialog systems
Shi et al. Neural natural logic inference for interpretable question answering
Goutsu et al. Linguistic descriptions of human motion with generative adversarial seq2seq learning
CN113312919A (zh) 一种知识图谱的文本生成方法及装置
CN109918484B (zh) 对话生成方法和装置
CN116561251A (zh) 一种自然语言处理方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
Lee et al. Machine reading comprehension framework based on self-training for domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant