CN112380843A - 一种基于随机扰动网络的开放性答案生成方法 - Google Patents

一种基于随机扰动网络的开放性答案生成方法 Download PDF

Info

Publication number
CN112380843A
CN112380843A CN202011298514.1A CN202011298514A CN112380843A CN 112380843 A CN112380843 A CN 112380843A CN 202011298514 A CN202011298514 A CN 202011298514A CN 112380843 A CN112380843 A CN 112380843A
Authority
CN
China
Prior art keywords
network
layer
perturbation
length
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011298514.1A
Other languages
English (en)
Other versions
CN112380843B (zh
Inventor
井焜
王太浩
张传锋
朱锦雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202011298514.1A priority Critical patent/CN112380843B/zh
Publication of CN112380843A publication Critical patent/CN112380843A/zh
Application granted granted Critical
Publication of CN112380843B publication Critical patent/CN112380843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本方面公开一种基于随机扰动网络的开放性答案生成方法,本方法在训练答案生成网络时,同时训练一个产生随机扰动、多模态扰动层集成的扰动网络,所述扰动网络在前向传播过程中对输入信息进行修正,使得任意两次输入的语义编码都不是完全相同的,并且答案生成网络与扰动网络协同训练,扰动网络不会使答案生成模型生成不合理的文本;基于此,对于任意两次输入,本方法给出不完全相同但都正确的答案。本方法在不同的时间、地点、情境下可以生成多样化的答案,这样的能力与人类的表现更为相近,也使得模型具有更好的环境适应性和更高的智能化程度。

Description

一种基于随机扰动网络的开放性答案生成方法
技术领域
本发明涉及人工智能领域,尤其涉及人工智能自然语言处理领域,具体是一种基于随机扰动网络的开放性答案生成方法。
背景技术
文本生成的模型在自然语言处理的多个任务中都是核心技术,比如文章摘要、机器翻译、文章写作、文档问答、开放域对话、图文描述等等,与检索式和抽取式的模型相比,生成式的模型具有更高的通用性,对于答案超出知识库原文范围的问题,生成式模型是唯一选择。但目前的文本生成模型还不够成熟,面临诸多非常严重的问题,其中之一就是生成的答案没有开放性。这是因为以往的模型在推理阶段参数都是完全固化的,对于相同的输入,必然产生不变的输出。
专利《自然语言问题的答案生成方法、装置及存储介质》(公开号CN110321559A)通过匹配意图和识别实体获取答案节点,并根据预先配置好的规则填充答案,属于检索式的问答模型。专利《一种基于句法分析的问答系统答案生成方法》(公开号CN110955768A)通过对问题信息和文本信息的相似度匹配选取答案所在篇章,并根据句法树对篇章进行分解,选取概率最大的多个短语组合为最终答案,属于抽取式的问答模型。专利《文本生成方法、装置、计算机设备及介质》(公开号CN109885667A)在传统生成式模型的基础上增加了判别器模块,通过判别器和生成器之间的对抗训练,提升了文本生成模型的构建效率和模型准确率。人类在进行翻译、写作、摘要、问答、对话等活动的时候,不同的人往往会给出不同的答案,即便是同一个人在不同的情境下,也可能给出不同的答案,对于这些活动来说,答案不是标准的,而是开放性的。已有专利中提出的答案生成模型对于相同的输入都只会生成一种标准答案,对于开放性的问题无法产生多样化的答案。
发明内容
为了使模型给出的答案具有开放性,本发明提供了一种基于随机扰动网络的开放性答案生成方法,本方法针对特定的任务,在训练基于预训练语言模型的答案生成网络时,同时训练一个产生随机扰动的神经网络,该网络在前向传播过程中会对输入信息进行修正,使得任意两次输入的语义编码都不是完全相同的,由于两个网络是协同训练的,该扰动不会使模型生成不合理的文本,基于此,对于任意两次输入,模型最终能够给出不完全相同但都正确的答案。与已有的文本答案生成方法相比,本发明中的方法在不同的时间、地点、情境下可以生成多样化的答案,这样的能力与人类的表现更为相近,也使得模型具有更好的环境适应性和更高的智能化程度。
本方法包括多模态扰动模块集成的扰动网络、适应多任务输入的自注意力编码网络和预训练语言模型监督的自回归解码网络,在推理阶段,对于任意两次输入,模型能够在随机扰动网络的作用下生成多样化的文本答案。
为了解决所述技术问题,本发明采用的技术方案是:
针对文档问答、文章摘要、文章写作、看图作文、多轮对话、文本翻译等任务,首先进行数据清洗、数据标准化等预处理工作,将原始输入数据转化为纯净、标准的json格式数据。
自然语言处理模型中传统的词典只对字符进行索引,即为每个文字符号赋予一个索引,该索引代表了该符号的one-hot向量。为了对图像、文本等多模态的数据进行统一表征,区别于输出层使用的传统文字符号词典,本方法提出了多模态的扩展词典,扩展词典中的词汇除了包括传统的文字符号,还包括由M种颜色和N种亮度等级构成的M*N种像素集合。
基于多模态扩展词典,将输入数据中的每个字符或像素映射为唯一的索引值,然后将输入数据的形状展平成一维,这样就得到了统一的序列化层,经过截断或填充,输入数据被转化为一个固定长度的整数序列N1,N2,...,Nlength,length为整数序列的长度,整数序列的长度等于扩展词典中字符的数目。
定义扩展嵌入矩阵为一个形状为V*d的正实数矩阵,该矩阵表征了扩展词典中各个字符的浅层语义,d为语义嵌入的维度,V是词典中字符的数目,d一般远小于V。将整数序列乘上扩展嵌入矩阵,原始的输入数据就被转化为一个固定形状的正实数矩阵Mlength×d,矩阵的每一行为该位置的整数索引对应的嵌入向量。
Mlength×d实际上只包含了字符内容信息,由于同一个字符在句中的不同位置可能会有不同的意义,需要在输入信息中增加字符的位置信息。除此以外,本发明认为自然语言处理(NLP)任务的类别、字符所属于的四种粒度(词、句、段、篇)序列片段的位置也是重要信息,因此需要在输入数据中加入相应表示,本方法输入层最终的特征构造为:
Figure BDA0002784550500000021
其中
Figure BDA0002784550500000022
代表整数序列中每个字符的位置嵌入向量,
Figure BDA0002784550500000023
代表整数序列中每个字符的任务类别嵌入向量,
Figure BDA0002784550500000024
分别代表了整数序列中每个字符所属的词、句、段、篇的嵌入向量。
输入层最后得到的二阶特征张量
Figure BDA0002784550500000025
被传递给编码网络,该模块主要实现对浅层特征的深层语义编码。编码网络模块由十二个网络结构完全相同的Transformer层堆叠而成,每层的输入张量和输出张量的形状保持不变,每层由一个双向自注意力层和一个前向传播与正则化层构成。双向自注意力层的计算公式如下:
HL+1=Attention(WQHL,WKHL)×WVHL (2),
其中L表示第L个Transformer层,Attention为二元函数,一般使用向量点积,HL代表第L个Transformer层的特征矩阵,WQ、WK、WV是三个形状相同的参数矩阵,通过已标注数据对网络进行训练来求解,分别表示对用户请求、知识库、答案三部分特征所施加的非线性变换。
经过编码网络中二十四层网络的深度编码,浅层特征
Figure BDA0002784550500000026
被转化为深度上下文特征Tlength×d,Tlength×d中每一行向量都包含了丰富的上下文信息,并且每一行向量都只保留与该位置语义最相关的信息。对于人脑来说,任意两次相同输入形成的知觉实际上是不完全相同的,为了模拟人脑,本发明提出了NLP模型中的扰动网络的概念。
所述扰动网络包括时间参数扰动层、空间参数扰动层、条件参数扰动层、量子随机扰动层,分别从不同维度产生,四个扰动层的顺序没有特殊规定。
时间参数扰动层的神经元连接方式与全连接网络相同,不同之处在于全连接网络的bias是静态的,一旦模型训练完成之后就不再发生变化,而本发明提出了一种动态的bias,用一个含参函数βtime代替静态的bias。时间参数扰动层的表达方式为:
T'length×s=activate(WTTlength×dtime(bT)) (3),
其中activate为激活函数,s为经过时间扰动变换后特征张量中每行向量的维度,Tlength×d为上层网络处理后形成的上下文特征,T'length×s表示经过时间参数扰动层处理形成的上下文特征,WT表示时间参数扰动层的权重,βtime为含参函数,βtime不仅与偏置bT有关,也与时间变量time有关,时间变量time的取值决定含参函数βtime的具体形式。
空间参数扰动层的定义与时间参数扰动层类似,不同之处只在于其含参函数的参变量为模型推理时的位置坐标,即:
T”length×s=activate(WT'T'length×d(x,y,z)(bT')) (4),
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T'length×d为上层网络处理后形成的上下文特征,T”length×s表示经过空间参数扰动层处理形成的上下文特征,WT'表示空间参数扰动层的权重,(x,y,z)表示模型在进行推理时获取到的位置坐标,β(x,y,z)为含参函数,β(x,y,z)不仅与偏置bT'有关,也与位置变量(x,y,z)有关,位置变量(x,y,z)的取值决定含参函数β(x,y,z)的具体形式。
条件参数扰动层的bias与时间/空间参数扰动层的bias定义有所不同,它是一个递归参函数,β不止与模型的用户授权码等条件有关,还与前一次推理中使用的β有关。因此计算机内存中除了神经网络的模型参数以外,还需要存储一个上一次使用的的条件参数αj-1,条件参数扰动层具有如下形式:
T”’length×s=activate(WT”T”length×d(code,αj)(bT”)) (5),
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T”length×d为上层网络处理后形成的上下文特征,T”’length×s表示经过条件参数扰动层处理形成的上下文特征,WT'表示空间参数扰动层的权重,
Figure BDA0002784550500000041
为含参函数,
Figure BDA0002784550500000042
不仅与偏置bT”有关,也与(code,αj)有关,code表示外部条件,αj=f(αj-1),αj-1表示条件参数扰动层上次计算使用的条件参数,f是一个预先设定好的非线性函数。
量子随机扰动层模拟量子效应,在确定性的状态中增加随机性。使用量子随机数发生器产生一个0到1范围内的随机数γ,量子随机扰动层的表达方式为:
T””length×s=activate(WT”’T”’length×d+γbT”') (6),
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T”'length×d为上层网络处理后形成的上下文特征,T””length×s表示经过量子随机扰动层处理形成的上下文特征,WT”'表示量子随机扰动层的权重,γ是一个0到1范围内的随机数,bT”'是量子随机扰动层的偏置。
将经过扰动后的特征张量T””length×s和扰动之前的原始张量Tlength×d以残差连接的形式传递到一个前向传播和正则化层中,经过正则变换得到包含随机扰动的深度编码特征Elength×s,对于任意两次相同的输入数据,该特征一般会有轻微的差异。
以上完成了对输入数据的扰动式编码,对于同样的输入数据,由于最终的编码特征存在差异,解码器最终解码的结果也不会完全相同,这样就产生了多样化的答案。
对于所有的答案生成任务,模型最终都要将张量特征Elength×s解码为一段语言文字,这个特征可能是来源于一篇文章、一段对话或一些图片,传统的模型需要使用大量人工标注数据对模型进行训练,而标注数据的数据规模一般是比较小的,这就导致训练出的生成模型生成答案的质量不高。比如对于摘要任务来说,需要获取大量的文章-摘要数据对,对于图片描述任务来说,需要获取大量的图片-文字描述数据对,而事实是这些数据在现实中都不容易大量获得。
为了减轻模型对有标注的数据规模的依赖,本发明提出了一种基于预训练语言模型的解码网络,该网络在传统的基于交互注意力的LSTM解码层的前方,增加了基于预训练语言模型的单向自注意力层,该层网络中的参数不参与答案生成模型的训练,而是在对语言模型的预训练中完成解算并被固定下来。完整的解码网络模块由十二个网络结构完全相同的解码单元堆叠而成,每个解码单元包括一个预训练语言模型单向自注意力层、一个交互注意力层和一个前向传播与正则化层。解码网络可表示为如下形式:
Figure BDA0002784550500000051
对于每一个字符解码向量的生成,
Figure BDA0002784550500000052
是前方字符解码向量序列构成的矩阵,因此这是一个自回归式的生成过程,与LSTM类似;
Figure BDA0002784550500000053
是要求解的字符解码向量序列构成的矩阵,out_len代表生成答案的长度,DU为DecoderUnit的缩写,E代表Elength×s,Wkey和Wvalue为两个参数矩阵,在对单向自注意力层的训练中获得,Wkey和Wvalue在各个字符解码向量生成的过程中是共享的,Transformer、Attention、Norm分别代表自注意力网络、交互注意力网络和正则化网络。
输出层的网络结构比较简单,只包含一个线性变换,输出层对解码网络的输出进行线性变换,该线性变换基于语言模型预训练的字符嵌入矩阵,将每个s维的字符解码向量转化为Vchar维的高维向量,Vchar是字符词典的大小,这样就得到了一个形状为out_len×Vchar的预测矩阵,使用softmax函数对该矩阵归一化,并使用argmax函数分别取出每行向量中最大取值的索引,这就是最终答案对应的整数索引序列,根据文字符号词典将索引序列中的数字逐一映射回文字符号,就得到了最终生成的答案文本。
本发明的有益效果:本发明提出了一种新的数据映射词典,一种新的输入特征的构造方法,一种基于时间参数扰动层、空间参数扰动层、条件参数扰动层和量子随机扰动层的扰动网络模块,以及一种基于预训练语言模型的新型解码网络。与已有的答案生成方法相比,本发明提出的多模态扩展词典,使本发明能够同时应用于文字、图片、视频等多模态输入的答案生成任务,本发明中的输入特征构造方法充分利用了输入数据的各种信息,能够有效提升生成答案的正确率,本发明提出的扰动网络模块,赋予了模型在相同输入数据下产生不同答案的能力,使模型具有更高的类人程度,在某种程度上也赋予了模型创造力,最后,本发明对解码网络的改进使得生成的答案更符合语法规则,并有效降低了模型对标注数据规模的依赖程度。
附图说明
图1为实施例1所述方法的流程图;
图2为实施例1所述方法的模型结构图。
具体实施方式
为了更加清晰地解释本发明的方案构成,这里结合附图中的实施案例对本发明提出的开放性答案生成方法进行详细说明。
实施例1
本实施例公开一种基于随机扰动网络的开放性答案生成方法,图1为本方法中开放性答案生成方法的数据处理流程图,概括起来包括四步:
a)、使用输入设备获取原始的多模态输入数据;
b)、将多模态的数据进行序列化,使用多任务编码网络对序列化的多任务数据进行编码;
c)、使用多模态扰动网络对原始特征进行修正;
d)、对扰动后的特征进行基于预训练语言模型的解码,将解码结果转化为文本输出。
图2示出了本方法的模型结构,包括输入层、编码网络、扰动网络、解码网络和输出层。输入层和输出层主要实现数字特征与文本的相互映射,除输入输出层外,其余各功能子模块都由多层神经网络构成,编码网络为24层,扰动网络为5层,解码网络为36层。下面结合实施案例对各模块的作用逐一说明。
输入层的功能是实现对各种形式输入数据的数字化表示。从构成单元来说,各种任务输入数据的构成可以统一为两类:字符和像素。为了对这两类数据统一表征,本发明提出了多模态扩展词典,该词典中的词汇除了传统的文字符号,还包括由M种颜色和N种亮度等级构成的M*N种像素集合。该词典会将原始输入数据中的每个字符或像素映射为一个整数。
对于每个样本,由于图像的存在,原始数据有可能是二维的,因此映射后的整数数据也可能是二维排列的,将其各行按从前往后的顺序拼接起来,就得到了一维的序列化层,然后将序列化层填充成一个固定长度的整数序列N1,N2,...,Nlength,length为整数序列的长度,整数序列的长度等于扩展词典中字符的数目。
通过训练好的扩展嵌入矩阵对整数序列进行进一步的映射,将序列中的每个整数值映射为一个特征向量,这样就得到了输入数据的实数特征表示Mlength×d。其中扩展嵌入矩阵是一个形状为V*d的正实数矩阵,该矩阵表征了扩展词典中各个字符的浅层语义,d为语义嵌入的维度,V是词典中字符的数目,d一般远小于V。为了充分利用输入数据,减少信息丢失,本发明构造了位置信息向量、任务类别向量和四种粒度的片段位置向量,根据公式(1)将各种特征累加起来就得到了统一嵌入层的输入特征构造
Figure BDA0002784550500000071
输入特征一般只能表征各个字符或像素的静态浅层语义,比如“我爱吃苹果”和“苹果手机很好用”中的“苹”、“果”的实数特征都是相同的。为了得到动态的上下文语义表示,需要使用编码网络对输入特征进行深度编码。
编码网络由十二层标准的Transformer层堆叠而成,根据公式(2)计算样本特征矩阵的自注意力,然后通过前向传播和正则化层传递到下一层,并使用残差连接传递原始特征,这样可以有效抑制模型训练过程中的梯度爆炸和梯度消失问题。在进行推理时,从第一到第十一层的特征矩阵可以直接丢弃,只保留最后一层的特征Tlength×d,这样能够节省系统内存。
开放性答案,顾名思义就是对于同一个问题答案不是唯一的,比如当别人问你“您贵姓”,你既可以回答“免贵姓王”,也可以回答“叫我王XX就好”。为了赋予机器这种能力,本方法提出了随机扰动网络模块。根据公式(3)对上下文特征Tlength×d进行时间扰动变换得到T'length×s。公式中的时间变量time可以在响应服务请求时,从互联网中实时获取,也可以根据自定义的时间公式进行计算。
有时候交互所在的地点对问题的答案也有很大的影响,比如当你向一个人咨询数学题的解答的时候,在学校里和在景区里很可能会得到不同的答案。为了考虑人机交互地点对答案可能产生的影响,根据公式(4)对特征T'length×s进行空间扰动变换得到特征T”length×s。公式中的位置坐标需要通过设备的位置传感器获取。
公式(5)通过一个递归参函数考虑用户交互历史、用户身份和其他外在条件对交互过程可能产生的影响。通过该公式对特征T”length×s施加条件扰动变换得到扰动后的特征T”'length×s,该特征考虑了除时间和地点外所有可能对交互过程产生影响的因素,这些因素都通过特定的传感器或计算公式实时获取。
关于时间、地点和条件的扰动虽然会在不同的交互中发生变化,但每次交互发生时其取值都是确定的,而人脑在任何时刻的响应都有某种程度的随机性。为了给机器的响应增加相应程度的随机性,考虑使用公式(6)对特征T”'length×s增加基于量子随机数发生器的随机扰动。
经过扰动后的特征张量T”'length×s包含了交互发生时各种外在条件的改变,以及一定程度的随机性,将该特征和施加扰动之前的原始张量Tlength×d共同传递给一个前向传播和正则化层,经过该层的非线性变换得到包含随机扰动的深度编码特征,我们将它记为Elength×s。到目前为止,特征Elength×s考虑了输入数据的形式、各字符的位置、各字符的上下文语义关联、各种外在条件和量子随机性,可以说充分包含了交互过程有可能涉及到的大部分信息。
在其他实施例中,扰动网络的扰动层的顺序可以不同。
Elength×s是问题与背景信息充分交互的编码结果,需要对该结果进行解码,进而得到答案。解码网络的完整形式由公式(7)描述,使用该公式对Elength×s进行解码,得到输出层的原始答案特征
Figure BDA0002784550500000081
本发明对已有的基于Attention-LSTM的解码网络进行了改进,在该网络中交互注意力层的前方,增加了基于预训练语言模型的单向自注意力层,自注意力层网络中的权重参数通过12层的GPT语言模型预训练来获取,在使用标注数据训练答案生成模型时,这些权重(Wkey、Wvalue)被固定为常数,因此不会增加训练负担。增加了语言模型监督的解码网络能够大大提升解码的质量,即便只有少量的标注数据,也可以生成合乎语法规则的文本答案。
在字符嵌入矩阵的逆变换作用下,原始答案特征
Figure BDA0002784550500000082
被转化为最终答案特征
Figure BDA0002784550500000091
根据该特征经过两次映射可以直接得到最终生成的答案文本序列。对于开放性问题,任意两次人机交互,在随机扰动网络模块的作用下,模型对答案会产生不尽相同的编码,进而最终可以解码出多样化的答案。以上是对本发明实施方案的详细说明。
本发明的应用场景包括但不限于人机交互、文档问答、机器翻译、文章摘要、人机对话、AI新闻写作、AI看图写作、AI视频描述、个性化管家、个人助手等人工智能产品。本发明的具体实施方式中详细说明了在相关产品中如何根据本方法实现开放性答案的生成。实施方式中的流程图和模型结构图,仅用于解释本发明的原理、结构和过程,相关领域技术人员在参考本发明时,应考虑到与本发明具有类似原理、结构和过程的其他方案。本发明中所展示的实施案例仅为方便相关领域技术人员的理解,并不用以限制本发明,凡是与本发明具有类似形式的实现方案,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于随机扰动网络的开放性答案生成方法,其特征在于:本方法在训练答案生成网络时,同时训练一个产生随机扰动、多模态扰动层集成的扰动网络,所述扰动网络在前向传播过程中对输入信息进行修正,使得任意两次输入的语义编码都不是完全相同的,并且答案生成网络与扰动网络协同训练,扰动网络不会使答案生成模型生成不合理的文本;基于此,对于任意两次输入,本方法给出不完全相同但都正确的答案。
2.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:扰动网络包括时间参数扰动层,时间参数扰动层的神经元连接方式与全连接网络相同,不同之处在于时间参数扰动层采用含参函数βtime代替静态偏置,时间参数扰动层的表达方式为:
T'length×s=activate(WTTlength×dtime(bT)) (3),
其中activate为激活函数,s为经过时间扰动变换后特征张量中每行向量的维度,Tlength×d为上层网络处理后形成的上下文特征,T'length×s表示经过时间参数扰动层处理形成的上下文特征,WT表示时间参数扰动层的权重,βtime为含参函数,βtime不仅与偏置bT有关,也与时间变量time有关,时间变量time的取值决定含参函数βtime的具体形式。
3.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:扰动网络包括空间参数扰动层,空间参数扰动层的神经元连接方式与全连接网络相同,不同之处在于空间参数扰动层的偏置是动态的,空间参数扰动层的表达方式为:
T”length×s=activate(WT'T’length×d(x,y,z)(bT')) (4),
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T'length×d为上层网络处理后形成的上下文特征,T”length×s表示经过空间参数扰动层处理形成的上下文特征,WT'表示空间参数扰动层的权重,(x,y,z)表示模型在进行推理时获取到的位置坐标,β(x,y,z)为含参函数,β(x,y,z)不仅与偏置bT'有关,也与位置变量(x,y,z)有关,位置变量(x,y,z)的取值决定含参函数β(x,y,z)的具体形式。
4.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:扰动网络包括条件参数扰动层,条件参数扰动层的神经元连接方式与全连接网络相同,不同之处在于条件参数扰动层的偏置是动态的,条件参数扰动层的表达方式为:
Figure FDA0002784550490000011
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T”length×d为上层网络处理后形成的上下文特征,T”’length×s表示经过条件参数扰动层处理形成的上下文特征,WT'表示空间参数扰动层的权重,
Figure FDA0002784550490000025
为含参函数,
Figure FDA0002784550490000026
不仅与偏置bT”有关,也与(code,αj)有关,code表示外部条件,αj=f(αj-1),αj-1表示条件参数扰动层上次计算使用的条件参数,f是一个预先设定好的非线性函数。
5.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:扰动网络包括量子随机扰动层,量子随机扰动层的神经元连接方式与全连接网络相同,不同之处在于量子随机扰动层的偏置是动态的,量子随机扰动层的表达方式为:
T””length×s=activate(WT”'T”’length×d+γbT”’) (6),
其中activate为激活函数,S为经过时间扰动变换后特征张量中每行向量的维度,T”'length×d为上层网络处理后形成的上下文特征,T””length×s表示经过量子随机扰动层处理形成的上下文特征,WT”'表示量子随机扰动层的权重,γ是一个0到1范围内的随机数,bT”'是量子随机扰动层的偏置。
6.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:为了对多模态数据进行统一表征,本方法提出一个多模态的扩展词典,扩展词典包括文字符号和由M种颜色和N种亮度等级构成的M*N种像素集合。
7.根据权利要求6所述的基于随机扰动网络的开放性答案生成方法,其特征在于:基于多模态的扩展词典,将输入数据中的每个字符或像素映射为唯一的索引值,然后将输入数据的形状展平成一维,从而得到统一的序列化层,经过截断或填充,将序列化层转化为一个固定长度的整数序列N1,N2,...,Nlength,length为整数序列的长度,整数序列的长度等于扩展词典中字符的数目;
定义扩展嵌入矩阵为一个V*d的正实数矩阵,该矩阵表征了扩展词典中每个字符的浅层语义,d为语义嵌入的维度,V是扩展词典中字符的数目;将整数序列乘上扩展嵌入矩阵,原始的输入数据就被转化为一个固定形状的正实数矩阵Mlength×d,矩阵Mlength×d的每一行为该位置的整数索引对应的嵌入向量;
基于字符位置、序列片段位置对语义的影响,本方法在输入数据中加入相应表示,因此本方法输入层最终构造的特征为:
Figure FDA0002784550490000021
其中
Figure FDA0002784550490000022
代表整数序列中每个字符的位置嵌入向量,
Figure FDA0002784550490000023
代表整数序列中每个字符的任务类别嵌入向量,
Figure FDA0002784550490000024
分别代表了整数序列中每个字符所属的词、句、段、篇的嵌入向量。
8.根据权利要求7所述的基于随机扰动网络的开放性答案生成方法,其特征在于:输入层最后得到的二阶特征张量
Figure FDA0002784550490000031
传递至编码网络,编码网络是答案生成网络的一部分,编码网络实现对浅层特征的深层语义编码,编码网络由多个Transformer层堆叠而成,每个Transformer层的输入张量和输出张量的形状保持不变,每个Transformer层由一个双向自注意力层和一个前向传播与正则化层构成,双向自注意力层的计算公式为:
HL+1=Attention(WQHL,WKHL)×WVHL (2),
其中L表示第L个Transformer层,Attention为二元函数,一般使用向量点积,HL代表第L个Transformer层的特征矩阵,WQ、WK、WV是三个形状相同的参数矩阵,通过已标注数据对网络进行训练来求解,分别表示对用户请求、知识库、答案三部分特征所施加的非线性变换。
9.根据权利要求1所述的基于随机扰动网络的开放性答案生成方法,其特征在于:答案生成网络包括解码网络,解码网络将经过编码、扰动的张量特征解码为一段语言文字,为了减轻模型对有标注的数据规模的依赖,解码网络在LSTM解码层前增加基于预训练语言模型的单向自注意力层,单向自注意力层中的权重参数通过12层的GPT语言模型预训练来获取,在使用标注数据训练答案生成网络时,这些权重被固定为常数,单向自注意力层不参与训练;解码网络由多个结构相同的解码单元堆叠而成,每个解码单元包括一个预训练语言模型单向自注意力层、一个交互注意力层和一个前向传播与正则化层,解码网络的表达形式为:
Figure FDA0002784550490000032
Figure FDA0002784550490000033
其中,Elength×s表示经过编码、扰动的张量特征,
Figure FDA0002784550490000034
是前方字符解码向量序列构成的矩阵,
Figure FDA0002784550490000035
是要求解的字符解码向量序列构成的矩阵,out_len代表生成答案的长度,DU为DecoderUnit的缩写,E代表Elength×s,Wkey和Wvalue为两个参数矩阵,在对单向自注意力层的训练中获得,Wkey和Wvalue在各个字符解码向量生成的过程中是共享的,Transformer、Attention、Norm分别代表自注意力网络、交互注意力网络和正则化网络。
10.根据权利要求9所述的基于随机扰动网络的开放性答案生成方法,其特征在于:输出层对解码网络的输出进行线性变换,该线性变换基于语言模型预训练的字符嵌入矩阵,将每个s维的字符解码向量转化为Vchar维的高维向量,Vchar是字符词典的大小,这样就得到了一个形状为out_len×Vchar的预测矩阵,使用softmax函数对该矩阵归一化,并使用argmax函数分别取出每行向量中最大取值的索引,这就是最终答案对应的整数索引序列,根据文字符号词典将索引序列中的数字逐一映射回文字符号,就得到了最终生成的答案文本。
CN202011298514.1A 2020-11-18 2020-11-18 一种基于随机扰动网络的开放性答案生成方法 Active CN112380843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011298514.1A CN112380843B (zh) 2020-11-18 2020-11-18 一种基于随机扰动网络的开放性答案生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011298514.1A CN112380843B (zh) 2020-11-18 2020-11-18 一种基于随机扰动网络的开放性答案生成方法

Publications (2)

Publication Number Publication Date
CN112380843A true CN112380843A (zh) 2021-02-19
CN112380843B CN112380843B (zh) 2022-12-30

Family

ID=74584347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011298514.1A Active CN112380843B (zh) 2020-11-18 2020-11-18 一种基于随机扰动网络的开放性答案生成方法

Country Status (1)

Country Link
CN (1) CN112380843B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998583A (zh) * 2022-05-11 2022-09-02 平安科技(深圳)有限公司 图像处理方法、图像处理装置、设备及存储介质
WO2023000165A1 (en) * 2021-07-20 2023-01-26 Robert Bosch Gmbh Method and apparatus for classifying nodes of a graph

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241258A (zh) * 2018-08-23 2019-01-18 江苏索迩软件技术有限公司 一种应用税务领域的深度学习智能问答系统
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
WO2020034642A1 (zh) * 2018-08-17 2020-02-20 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答系统
CN111813913A (zh) * 2019-11-27 2020-10-23 上海交通大学 以问题为导向的两阶段问题生成系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034642A1 (zh) * 2018-08-17 2020-02-20 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
CN109241258A (zh) * 2018-08-23 2019-01-18 江苏索迩软件技术有限公司 一种应用税务领域的深度学习智能问答系统
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN111813913A (zh) * 2019-11-27 2020-10-23 上海交通大学 以问题为导向的两阶段问题生成系统
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023000165A1 (en) * 2021-07-20 2023-01-26 Robert Bosch Gmbh Method and apparatus for classifying nodes of a graph
CN114998583A (zh) * 2022-05-11 2022-09-02 平安科技(深圳)有限公司 图像处理方法、图像处理装置、设备及存储介质

Also Published As

Publication number Publication date
CN112380843B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN110796111B (zh) 图像处理方法、装置、设备及存储介质
CN112380843B (zh) 一种基于随机扰动网络的开放性答案生成方法
CN112115247A (zh) 一种基于长短时记忆信息的个性化对话生成方法和系统
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112612881B (zh) 基于Transformer的中文智能对话方法
CN113312919A (zh) 一种知识图谱的文本生成方法及装置
CN113535902A (zh) 一种融合对抗训练的生成式对话系统
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN114677569A (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
CN112132075B (zh) 图文内容处理方法及介质
CN117473561A (zh) 基于人工智能的隐私信息识别系统、方法、设备及介质
CN117173715A (zh) 一种注意力视觉问答方法、装置、电子设备及存储介质
CN110851580A (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
CN114333069B (zh) 对象的姿态处理方法、装置、设备及存储介质
Kumar et al. A Review of Generative Adversarial Networks (GANs) for Technology-Assisted Learning: Solving Teaching and Learning Challenges
Kuriyama et al. Context‐based style transfer of tokenized gestures
CN115984883A (zh) 一种基于增强视觉变换器网络的印地语图文识别方法
Devaraj et al. From symbols to signals: symbolic variational autoencoders
CN114116960A (zh) 一种基于联邦学习的联合抽取模型构建的方法及装置
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
Viswanathan et al. Text to image translation using generative adversarial networks
Brownlee et al. Building Transformer Models with Attention: Implementing a Neural Machine Translator from Scratch in Keras
Nene Deep learning for natural languaje processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant