CN109146064A - 神经网络训练方法、装置、计算机设备和存储介质 - Google Patents

神经网络训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109146064A
CN109146064A CN201811032787.4A CN201811032787A CN109146064A CN 109146064 A CN109146064 A CN 109146064A CN 201811032787 A CN201811032787 A CN 201811032787A CN 109146064 A CN109146064 A CN 109146064A
Authority
CN
China
Prior art keywords
vector
sequence
training sample
neural network
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811032787.4A
Other languages
English (en)
Other versions
CN109146064B (zh
Inventor
涂兆鹏
李建
杨宝嵩
张潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811032787.4A priority Critical patent/CN109146064B/zh
Publication of CN109146064A publication Critical patent/CN109146064A/zh
Priority to PCT/CN2019/103338 priority patent/WO2020048377A1/zh
Priority to US17/071,078 priority patent/US20210027165A1/en
Application granted granted Critical
Publication of CN109146064B publication Critical patent/CN109146064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种神经网络训练方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;神经网络模型计算各个子空间之间的空间差异度;根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。本申请提供的方案能够提高神经网络模型的输出结果的准确性。

Description

神经网络训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种神经网络训练方法、装置、计算机设备和存储介质。
背景技术
注意力机制(Attention Mechanism)是针对神经网络中的编码器与解码器的隐藏状态之间的依赖关系建立模型的方法,注意力机制被广泛应用到基于深度学习的自然语言处理(NLP,Natural Language Processing)各个任务中。
目前基于注意力机制的神经网络模型中的注意力网络捕获特征信息的能力较弱,导致基于注意力机制的神经网络模型的输出结果准确度低。
发明内容
基于此,有必要针对上述技术问题,提供一种增强神经网络模型中注意力网络的差异性从而提高神经网络模型的输出结果的准确性的神经网络训练方法、装置、计算机设备和存储介质。
一种神经网络训练方法,该方法包括:
获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;
将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
神经网络模型计算各个子空间之间的空间差异度;
根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;
根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
一种神经网络训练装置,该装置包括:
训练样本集获取模块,用于获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;
训练样本集训练模块,用于将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
空间差异度计算模块,用于神经网络模型计算各个子空间之间的空间差异度;
输出相似度计算模块,用于根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;
目标神经网络模型生成模块,用于根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:
获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;
将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
神经网络模型计算各个子空间之间的空间差异度;
根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;
根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;
将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
神经网络模型计算各个子空间之间的空间差异度;
根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;
根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
上述神经网络训练方法、装置、计算机可读存储介质和计算机设备,通过获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;神经网络模型计算各个子空间之间的空间差异度;根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。在进行神经网络模型的训练时,不仅考虑到输出相似度,保证了神经网络模型的输出结果的准确性,而且还考虑到了空间差异度,保证神经网络模型的多个注意力网络在相应的子空间下能够捕获不同的特征,从而增大神经网络模型中各个注意力网络之间的差异性,提高神经网络模型的输出结果的准确性。
附图说明
图1为一个实施例中神经网络训练方法的应用环境图;
图2为一个实施例中神经网络训练方法的流程示意图;
图3为另一个实施例中神经网络训练方法的流程示意图;
图4为一个实施例中多个注意力网络分别将训练样本映射到多个不同的子空间步骤的流程示意图;
图5为又一个实施例中神经网络训练方法的流程示意图;
图5A为一个实施例中多层的堆叠式多头神经网络的结构示意图;
图6为一个实施例中神经网络模型计算各个子空间之间的空间差异度步骤的流程示意图;
图7为一个实施例中根据相邻子空间对应的值向量序列计算得到子空间输入差异度步骤的流程示意图;
图8为一个实施例中根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度步骤的流程示意图;
图9为一个实施例中根据相邻子空间对应的输出向量序列计算得到子空间输出差异度步骤的流程示意图;
图10为一个实施例中神经网络模型训练步骤的流程示意图;
图11为一个实施例中神经网络模型的框架示意图;
图12为一个实施例中神经网络训练装置的结构框图;
图13为一个实施例中训练样本集训练模块的结构框图;
图14为另一个实施例中神经网络训练装置的结构框图;
图15为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中神经网络训练方法的应用环境图。参照图1,该神经网络训练方法应用于神经网络训练系统。该神经网络训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,终端110或者服务器120获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签,将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列,神经网络模型计算各个子空间之间的空间差异度,根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
在另一个实施例中,终端110获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签,将获取到的训练样本集发送至服务器120,服务器120将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列,神经网络模型计算各个子空间之间的空间差异度,根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型,最后将目标神经网络模型发送至终端110。
如图2所示,在一个实施例中,提供了一种神经网络训练方法。本实施例主要以该方法应用于上述图1中的终端110或服务器120来举例说明。参照图2,该神经网络训练方法具体包括如下步骤:
步骤202,获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签。
其中,训练样本集是由多个训练样本组成的,训练样本是用来训练神经网络模型的样本,训练样本包括但不限于待翻译文本、视频、音频等。而各个训练样本存在对应的标准标签是指各个训练样本对应的正确文本。训练样本中可包括一组有序排列的元素,以包括I个元素的训练样本为例,训练样本可以用X={x1,x2,x3,...,xI}表示,训练样本的长度为I。
在一个实施例中,在需要对训练样本进行翻译的场景中,训练样本可以是待翻译文本对应的词序列,训练样本中的各个元素则为词序列中的各个词,而标准标签是指待翻译文本对应的正确文本。若待翻译文本为中文文本,则词序列可以是对待翻译文本进行分词后得到的各个词语按词序排列所形成的序列,比如,待翻译文本为“今天是星期一”,相应的训练样本X为{今,天,是,星,期,一},而待翻译文本为“今天是星期一”对应的标准标签为:“Today is Monday”;若待翻译文本为英文文本,则词序列是各个单词按词序排列所形成的序列。比如,待翻译文本为“I have an apple”,相应的训练样本X为{I,have,an,apple},而待翻译文本为“I have an apple”对应的标准标签为“我有一个苹果”。
步骤204,将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列。
其中,神经网络模型是用来训练训练样本集中的训练样本的,神经网络模型可以是RNN循环神经网络模型(Recurrent Neural Network,循环神经网络)、NMT神经网络机器翻译模型(Neural Machine Translation,神经网络机器翻译)、Encoder-Decoder(编码器-解码器)结构的神经网络模型等。神经网络模型中包括多个注意力网络,各个注意力网络是用来捕获不同的特征信息的网络。其中,各个注意力网络包括多个不同的子空间,各个子空间是用来并行进行注意力函数运算的空间,而各个子空间会输出对应的请求向量序列、键向量序列和值向量序列,其中请求向量序列、键向量序列和值向量序列是子空间对训练样本进行注意力函数运算得到的。注意力函数可以是线性变换,线性变换可以将属于一个向量空间的向量映射到另一个向量空间,向量空间是相同维度的多个向量所构成的集合。
具体地,将训练样本集中的训练样本输入至神经网络模型中,神经网络模型先将训练样本集中的训练样本转换成对应的源端向量序列,源端向量序列是训练样本中的每个元素相应的源端向量表示构成的序列。源端向量序列中的每个向量表示与训练样本中的每个元素一一对应,源端向量表示序列可以用Z={z1,z2,z3,...,zI}表示。其中神经网络模型将训练样本集中的训练样本转换成对应的源端向量序列具体可以是通过神经网络模型的第一层将训练样本中的各个元素转换成相应的向量,比如,将训练样本中的第i个元素xi转化成一个d维的列向量即为zi,训练样本中各元素对应的向量组合得到与训练样本对应的源端向量序列,即I个d维的列向量所构成的向量序列。
在一个实施例中,在神经网络模型将训练样本集中的训练样本转换成对应的源端向量序列后,神经网络中的各个注意力网络分别可直接将源端向量序列映射到各个不同的子空间,通过各个子空间对源端向量序列进行注意力函数运算得到对应的请求向量序列、键向量序列和值向量序列。如,各个注意力网络包括i个子空间,而各个子空间包括三个不同的可学习参数矩阵Wi Q、Wi K和Wi V对源端向量进行线性变换得到请求向量序列Q、键向量序列K和值向量序列V:
Qi=Zi*Wi Q
Ki=Zi*Wi K
Vi=Zi*Wi V
则第i个子空间输出的请求向量序列Q、键向量序列K和值向量序列V分别为Qi、Ki、Vi。其中,训练样本X={x1,x2,x3,...,xI}包括I个元素;源端向量序列Z={z1,z2,z3,...,zI}中各个元素为d维列向量,即Z为I个d维列向量构成的向量序列,可记为I×d的矩阵;可学习参数矩阵Wi Q、Wi k和Wi V为d×d的矩阵;请求向量序列Q、键向量序列和K值向量序列V为I×d的矩阵。
在另一个实施例中,在神经网络模型将训练样本集中的训练样本转换成对应的源端向量序列后,神经网络模型先利用三个不同的可学习参数矩阵WQ、WK和WV对源端向量序列Z进行线性变换得到请求基本向量序列q、键向量基本序列k和值向量基本序列v:
q=Z*WQ
k=Z*WK
v=Z*WV
其中,训练样本X={x1,x2,x3,...,xI}包括I个元素;源端向量序列Z={z1,z2,z3,...,zI}中各个元素为d维列向量,即Z为I个d维列向量构成的向量序列,可记为I×d的矩阵;可学习参数矩阵WQ、WK和WV为d×d的矩阵;请求基本向量序列q、键向量基本序列k和值基本向量序列v为I×d的矩阵。
再通过神经网络中的各个注意力网络分别将请求基本向量序列q、键向量基本序列k和值基本向量序列v分别映射到各个子空间,通过各个子空间对请求基本向量序列q、键向量基本序列k和值基本向量序列v进行注意力函数运算得到对应的请求向量序列Q、键向量序列K和值向量序列V:
Qi=q*Wi Q
Ki=k*Wi K
Vi=v*Wi V
则第i个子空间输出的请求向量序列Q、键向量序列K和值向量序列V分别为Qi、Ki、Vi。其中,各个子空间的可学习参数矩阵Wi Q、Wi K和Wi V并不相同。
步骤206,神经网络模型计算各个子空间之间的空间差异度。
其中,空间差异度是用来度量各个子空间之间的差异性的。神经网络模型在计算各个子空间之间的差异度时,可基于各个相邻子空间对应的值向量序列计算得到子空间输入差异度,或者基于各个相邻子空间对应的请求向量序列、值向量序列计算得到注意力矩阵差异度,或者基于各个相邻子空间的输出向量序列计算得到子空间输出差异度等,在根据子空间输入差异度、注意力矩阵差异度和子空间输出差异度确定各个子空间之间的空间差异度。其中,可将子空间输入差异度、注意力矩阵差异度和子空间输出差异度中的至少一种确定为各个子空间之间的空间差异度,或者将子空间输入差异度、注意力矩阵差异度和子空间输出差异度两两结合确定为各个子空间之间的空间差异度。
在一个实施例中,神经网络模型计算各个子空间之间的空间差异度是基于各个相邻子空间对应的请求向量序列、值向量序列计算得到注意力矩阵差异度,具体可以是神经网络模型先根据各个子空间的请求向量序列、值向量序列计算请求向量序列、值向量序列之间的相似度,根据请求向量序列、值向量序列之间的相似度计算各个子空间的注意力矩阵,最后根据各个相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度。
在一个实施例中,神经网络模型计算各个子空间之间的空间差异度是基于各个相邻子空间对应的值向量序列计算得到子空间输入差异度,具体可以是计算各个相邻子空间对应的值向量序列之间的相似度,根据各个相邻子空间对应的值向量序列之间的相似度计算得到子空间输入差异度。
在一个实施例中,神经网络模型计算各个子空间之间的空间差异度是基于各个相邻子空间的输出向量序列计算得到子空间输出差异度,具体可以是计算各个相邻子空间的输出向量序列之间的相似度,根据各个相邻子空间对应的输出向量序列之间的相似度计算得到子空间输出差异度。
步骤208,根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度。
其中,输出相似度是用来度量神经网络模型的输出与训练样本对应的标准标签之间的相似性。将训练样本集合中的训练样本输入至神经网络模型中时,神经网络模型会输出对应的输出标签,将神经网络模型输出的输出标签与训练样本对应的标准标签进行比较得到输出相似度。其中输出相似度的计算方式可计算神经网络模型输出的输出标签与训练样本对应的标准标签之间的余弦距离,将余弦距离作为输出相似度,或者利用欧式距离计算神经网络模型输出的输出标签与训练样本对应的标准标签,将计算结果作为输出相似度等。其中,输出相似度越高说明神经网络模型输出的输出标签与训练样本对应的标准标签越相似,说明神经网络模型的输出结果越准确。
步骤210,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
其中,在计算得到空间差异度和输出相似度后,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整。然后对调整后的神经网络模型通过重复上述步骤继续训练,直到满足收敛条件,得到目标神经网络模型。目标神经网络模型即是已训练好的神经网络模型。其中收敛条件可以是将空间差异度和输出相似度都为最大化,或者收敛条件可以是根据空间差异度和输出相似度计算得到模型调整参考结果,当模型调整参考结构最大化时,认为满足收敛条件等。
在一个实施例中,可将空间差异度和输出相似度作为目标函数,根据目标函数对神经网络模型进行训练,直至目标函数最大化时,认为神经网络模型训练满足收敛条件,得到目标神经网络模型。其中目标函数可由以下公式计算得到:
其中,J(θ)是指目标函数,likelihood是指输出相似度,disagreement是指空间差异度,a是指各个子空间中的注意力矩阵,λ是一个超参数用来平衡输出相似度和空间差异度,可根据实际应用场景进行设置,通常设置为1.0为效果最佳。x为神经网络模型的输入,y为神经网络模型的输出,θ为各个子空间的可学习参数矩阵,arg max为取值最大。
上述神经网络训练方法,通过获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;神经网络模型计算各个子空间之间的空间差异度;根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。在进行神经网络模型的训练时,不仅考虑到输出相似度,保证了神经网络模型的输出结果的准确性,而且还考虑到了空间差异度,保证神经网络模型的多个注意力网络在相应的子空间下能够捕获不同的特征,从而增大神经网络模型中各个注意力网络之间的差异性,从而提高神经网络模型的输出结果的准确性。
在一个实施例中,如图3所示,神经网络训练方法还包括:
步骤302,计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度。
其中,各个子空间的请求向量序列为目标端向量序列,逻辑相似度是用来表示目标端向量序列与训练样本对应的键向量序列之间的相似性,当前子空间是指各个子空间中的一个子空间。其中计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度可通过余弦相似性公式来计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度,或者通过欧式距离公式来计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度等。
在一个实施例中,可通过余弦相似性公式计算当前子空间的请求向量序列Q和键向量序列K之间的逻辑相似度矩阵E,即:
其中,KT表示键向量序列K的转置矩阵;d为训练样本中每个元素xi被转换为源端向量表示zi的维度,d也是xi对应的网络表示的维度,也是网络隐藏状态向量的维度,在上述公式中除以是为了减小内积,降低计算速度。
下面以具体的计算来说明逻辑相似度矩阵E的计算过程:
Q=(q1,q2,...,qi,...,qI)、K=(k1,k2,...,ki,...,kI);qi、ki为d维列向量,分别为源端向量表示zi对应的请求向量和键向量;在逻辑相似度矩阵E=(e1,e2,...,ei,...,eI)中,ei的各个元素为源端向量表示zi对应的请求向量qi与训练样本中所有元素对应的键向量k1,k2,...,ki,...,kI之间的逻辑相似度,ei是E第i列的元素,ei为I维列向量,计算公式为实质上,ei隐含了第i个元素xi与训练样本中所有元素x1,x2,...,xi,...,xI所构成的I组元素对中两个元素之间的联系。逻辑相似度矩阵E为I×I的矩阵,逻辑相似度矩阵E为:
步骤304,根据逻辑相似度计算得到当前子空间对应的注意力矩阵。
其中,由于逻辑相似度表征了训练样本对应的请求向量序列与训练样本对应的键向量序列之间的相似性,因此根据逻辑相似度可计算得到各个子空间对应的注意力矩阵,注意力矩阵是用来表征根据逻辑相似度转换成请求向量序列与各个键向量序列-值向量序列之间的权重关系。具体地,在得到各个子空间对应的逻辑相似度后,对各个子空间对应的逻辑相似度进行归一化处理,最终得到当前子空间对应的注意力矩阵。
在一个实施例中,各个子空间对应的注意力矩阵A可通过以下公式计算得到:
Ai=softmax(Ei),
其中,第i个子空间的注意力矩阵为Ai。softmax函数为归一化处理函数,Ai为第i个子空间对应的注意力矩阵,Ei为第i个子空间对应的逻辑相似度。
步骤306,根据注意力矩阵和值向量序列计算得到当前子空间对应的输出向量序列。
具体地,在计算得到逻辑相似度和注意力矩阵后,根据值向量序列和注意力矩阵计算得到各个子空间对应的输出向量序列,当前子空间为各个子空间中的其中一个子空间。其中根据值向量序列和注意力矩阵计算得到各个子空间对应的输出向量序列可以是将各个子空间对应的值向量序列和注意力矩阵进行融合,得到各个子空间对应的输出向量序列。其中将各个子空间对应的值向量序列和注意力矩阵进行融合具体可以是将各个子空间的注意力矩阵作为值向量序列的权重系数,对值向量序列中的值向量进行加权求和,得到当前元素xi对应的输出向量序列Oi,其中各个子空间对应的输出向量序列O可通过以下公式计算得到:Oi=Ai*Vi
其中,第i个子空间的输出向量序列为Oi。Ai为第i个子空间对应的注意力矩阵,Vi为第i个子空间对应的值向量序列。
在一个实施例中,如图4所示,多个注意力网络分别将训练样本映射到多个不同的子空间,包括:
步骤402,将训练样本转换为对应的源端向量序列。
具体地,训练样本是待进行变换后的输出相应的输出向量序列的序列。训练样本中包括一组有序排列的元素,以包括I个元素的训练样本为例,训练样本可以用X={x1,x2,x3,...,xI}表示,训练样本的长度为I。
在需要对训练样本进行翻译的场景中,训练样本可以是待翻译文本对应的词序列,训练样本中的各个元素则为词序列中的各个词。若待翻译文本为中文文本,则词序列可以是对待翻译文本进行分词后得到的各个词语按词序排列所形成的序列;若待翻译文本为英文文本,则词序列是各个单词按词序排列所形成的序列。比如,待翻译文本为“Bush helda talk with Sharon”,相应的训练样本X为{Bush,held,a,talk,with,Sharon}。
源端向量序列是训练样本中的每个元素相应的源端向量表示所构成的序列。源端向量序列中的每个向量表示与训练样本中的每个元素一一对应,源端向量序列可以用Z={z1,z2,z3,...,zI}表示。
具体地,终端或者服务器可将训练样本中的各个元素转换成固定长度的向量(即Word Embedding,词嵌入)。在一个实施例中,终端或者服务器可通过神经网络模型的第一层将训练样本中的各个元素转换成相应的向量,比如,将训练样本中的第i个元素xi转化成一个d维的列向量即为zi,训练样本中各元素对应的向量组合得到与训练样本对应的源端向量序列,即I个d维的列向量所构成的向量序列。当然,终端或者服务器也可接收其它设备发送的与训练样本对应的源端向量序列。zi以及下文中提到的列向量均可以是行向量,本文为方便解释计算过程,统一用列向量进行描述。
步骤404,获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列。
其中,请求参数矩阵、键参数矩阵和值参数矩阵是分别用来将源端向量序列转换成对应的请求基本向量序列、键基本向量序列和值基本向量序列的,其中请求参数矩阵、键参数矩阵和值参数矩阵都是可学习的参数矩阵。具体地,获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列。其中,线性变换可以将属于一个向量空间的向量映射到另一个向量空间,向量空间是相同维度的多个向量所构成的集合。具体地,终端或者服务器可分别通过请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,将源端向量序列分别映射至三个不同的向量空间中,得到与源端向量表示序列对应的请求基本向量序列、键基本向量序列和值基本向量序列。
在一个实施例中,获取三个不同的可学习的请求参数矩阵、键参数矩阵和值参数矩阵,利用请求参数矩阵WQ、键参数矩阵WK和值参数矩阵WV对源端向量序列Z进行线性变换得到请求基本向量序列q、键向量基本序列k和值向量基本序列v:
q=Z*WQ
k=Z*WK
v=Z*WV
步骤406,获取各个子空间对应的空间参数矩阵,根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
其中,空间参数矩阵是用来将请求基本向量序列、键基本向量序列和值基本向量序列转换成各个子空间对应的请求向量序列、键向量序列和值向量序列的。具体地,在得到各个子空间对应的请求基本向量序列、键基本向量序列和值基本向量序列后,将各个子空间对应的请求基本向量序列、键基本向量序列和值基本向量序列通过各个子空间对应的空间参数矩阵分别映射到各个子空间中,具体可根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
在一个实施例中,利用各个子空间对应的空间参数矩阵分别对请求基本向量序列q、键基本向量序列k和值基本向量序列v进行线性映射得到各个子空间对应的请求向量序列Q、键向量序列K和值向量序列V:
Qi=q*Wi Q
Ki=k*Wi K
Vi=v*Wi V
其中,训练样本X={x1,x2,x3,...,xI}包括I个元素;源端向量序列Z={z1,z2,z3,...,zI}中各个元素为d维列向量,即Z为I个d维列向量构成的向量序列,可记为I×d的矩阵,Wi Q、Wi K、Wi V为第i个子空间的空间参数矩阵,Wi Q、Wi K、Wi V又分别为不同的空间参数矩阵。第i个子空间的可学习参数矩阵Wi Q、Wi K和Wi V为d×d的矩阵,那么最后得到的请求向量序列Q、键向量序列和K值向量序列V为I×d的矩阵。
在一个实施例中,如图5所示,神经网络训练方法还包括:
步骤502,将各个子空间对应的输出向量序列拼接后进行线性变换,得到输出后的网络表示序列。
步骤504,将网络表示序列作为更新后的源端向量序列,返回获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
具体地,可采用堆式多头(Stacked Multi-Head)神经网络对训练样本对应的源端向量序列进行处理,先对源端向量序列进行分割处理,得到多组(也叫多头)低维度的源端向量子序列。比如,源端向量序列包括5个元素,每个元素是512维的列向量,将其分割成8份,也就是得到8个5×64的源端向量子序列。分别将这8个源端向量子序列作为输入向量,通过各个子空间进行变换,输出8个5×64的输出向量序列,对这8个输出向量序列拼接后进行线性变换,输出一个5×512维的网络表示序列。
举例说明:堆式多头神经网络包括H组子空间,首先输入序列X={x1,x2,x3,...,xI}被转化成源端向量序列Z={z1,z2,z3,...,zI}。Z={z1,z2,z3,...,zI}被分割后得到H个源端向量子序列。然后,分别在各个子空间中对源端向量子序列进行变换,以在第h(h=1、2、...、H)个子空间中进行变换来举例说明:在第h个子空间中,通过相应的可学习参数矩阵Wh Q、Wh K和Wh V对Zh={zh1,zh2,zh3,...,zhI}作线性变换,得到相应的请求向量序列Qh、键向量序列Kh和值向量序列Vh,在这H个子空间中,各个子空间使用的这三个可学习参数矩阵都不相同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
接着,在第h个子空间中,计算请求向量序列与键向量序列之间的逻辑相似度Eh随后,在第h个子空间,应用softmax函数非线性变换,将逻辑相似度Eh转换得到第h个子空间对应的注意力矩阵Ah:Ah=softmax(Eh),继续在第h个子空间中,根据注意力矩阵和值向量序列计算得到第h个子空间对应的输出向量序列Oh,具体通过Oh=Ah*Vh计算得到训练样本对应的输出向量序列Oh。最后,将神经网络模型中的各个子空间的输出向量序列Oh进行拼接,再进行一次线性变换得到网络表示序列O=Concat(O1,O2,O3,...,Oh,...,OH)WO
进一步地,神经网络模型可堆叠多层计算,不管是一层的神经网络模型还是堆式多头的神经网络模型,均可以重复多层进行计算。在每层的计算中,将上一层的输出作为下一层的输入,重复执行进行线性变换,分别得到对应的请求向量序列、键向量序列和值向量序列的步骤,直至得到当前层的输出,即为当前层的网络表示序列。考虑到效率和性能重复的次数可以是6次,每层的神经网络的网络参数都不一样,可以理解,重复6次的过程实际上是将原来的训练样本的源端向量序列通过每层的网络参数更新6次的过程。
比如,在堆叠式多头神经网络中,第一层的输出为OL1,在第二层的计算中,将OL1作为输入,通过第二层的网络参数对OL1进行变换,输出第二层的输出OL2....直至达到重复次数,将重复了6次的输出作为最终的输出,即将OL6作为训练样本对应的目标网络表示序列。
如图5A所示,图5A为一个实施例中多层的堆叠式多头神经网络的结构示意图。参照图5A,对于每一层来说,输入是相同的,输入均为上一层的输出,然后将输入分割成多个子输入,经过多个子空间(也称多个头)各自的网络参数分别对子输入进行相同的变换,得到每个子空间的输出,最后将这多个输出拼接后得到当前层的输出,当前层的作为下一层的输入,重复多次,将最后一层的输出作为最终的输出。
在一个实施例中,训练样本可以是待翻译的文本,输出的目标网络表示序列是翻译后的文本中各词对应的特征向量,因而可以根据输出的目标网络表示序列确定翻译后的句子。本申请各种实施例在较长短语和较长句子的翻译上,翻译质量有显著提升。
在一个实施例中,如图6所示,神经网络模型计算各个子空间之间的空间差异度,包括:
步骤602,根据相邻子空间对应的值向量序列计算得到子空间输入差异度。
其中,子空间输入差异度是用来度量各个子空间中所有值向量序列之间的差异度的,为了增大神经网络模型中的各个子空间的差异性,可通过增大神经网络模型的子空间输入差异度来增大神经网络模型中的各个子空间的差异性,由于神经网络模型中的各个子空间的差异性增大后,神经网络模型的输出会更加准确,在翻译文本应用场景中,增大各个子空间差异性后的神经网络模型翻译出的文本内容更加准确。具体可根据相邻子空间对应的值向量序列计算得到子空间输入差异度,其中计算得到子空间输入差异度的方式可自定义,自定义可以是先获取神经网络模型的各个相邻子空间对应的值向量序列,再对相邻子空间对应的值向量序列加权求和得到子空间输入差异度。或者先将神经网络模型中的各个相邻子空间归一化并进行点积操作,得到相邻子空间对应的值向量序列之间的余弦相似度,再将神经网络模型中的各个相邻子空间对应的值向量序列之间的余弦相似度的总和作为子空间输入差异度。或者将神经网络模型中的各个相邻子空间对应的值向量序列的总和作为子空间输入差异度等。
步骤604,根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度。
其中,注意力矩阵是通过子空间的逻辑相似度计算得到的,而神经网络模型中的各个子空间都会根据各个子空间的逻辑相似度计算得到对应的注意力矩阵,因此可通过增大神经网络模型中的注意力矩阵差异度来增大神经网络模型中的各个子空间的差异性。其中,注意力矩阵差异度是根据相邻子空间对应的注意力矩阵计算得到的。计算注意力矩阵差异度的计算方式可自定义,自定义可以是先获取神经网络模型的各个相邻子空间对应的注意力矩阵,再对相邻子空间对应的注意力矩阵加权求和得到注意力矩阵差异度。或者先将神经网络模型中的各个相邻子空间对应的注意力矩阵按照元素矩阵相乘来度量各个相邻子空间的注意力矩阵之间的相似性,可将各个相邻子空间的注意力矩阵之间的相似性总和作为注意力矩阵差异度。或者将神经网络模型中的各个相邻子空间对应的注意力矩阵的总和作为注意力矩阵差异度等。
步骤606,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度。
其中,子空间输出差异度是用来度量各个子空间中的所有输出向量序列之间的差异度的,为了增大神经网络模型中的各个子空间的差异性,具体可通过增大神经网络模型中的各个子空间的输出向量序列之间的差异性来增大神经网络模型中的各个子空间的差异性。其中,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度的计算方式可自定义,自定义可以是先获取神经网络模型的各个相邻子空间对应的输出向量序列,再对相邻子空间对应的输出向量序列加权求和得到子空间输出差异度。或者先将神经网络模型中的各个相邻子空间归一化并进行点积操作,得到相邻子空间对应的输出向量序列之间的余弦相似度,再将神经网络模型中的各个相邻子空间对应的输出向量序列之间的余弦相似度的总和作为子空间输出差异度。或者将神经网络模型中的各个相邻子空间对应的输出向量序列的总和作为子空间输出差异度等。
步骤608,根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。
具体地,在计算得到子空间输入差异度、注意力矩阵差异度和子空间输出差异度后,由于子空间输入差异度、注意力矩阵差异度和子空间输出差异度都可以增大神经网络模型中各个子空间之间的差异性,因此可根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。其中,根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度的确定方式可自定义,自定义可以是将子空间输入差异度、注意力矩阵差异度、子空间输出差异度的其中一个确定为神经网络模型的空间差异度,其中子空间输入差异度、注意力矩阵差异度、子空间输出差异度越大反映神经网络模型各个子空间的差异性更大,神经网络模型的输出更加准确。或者自定义可以是将子空间输入差异度、注意力矩阵差异度、子空间输出差异度两两组合确定为神经网络模型的空间差异度,其中两两组合包括但不限于求和、加权、求平均值等运算方式。或者自定义可以是将子空间输入差异度、注意力矩阵差异度、子空间输出差异度进行组合确定为神经网络模型的空间差异度,其中子空间输入差异度、注意力矩阵差异度、子空间输出差异度进行组合包括但不限于求和、加权、求平均值等运算方式。
应当说明的是,步骤602、步骤604和步骤606可同时执行或者任一执行,或者按顺序执行。
在一个实施例中,如图7所示,根据相邻子空间对应的值向量序列计算得到子空间输入差异度,包括:
步骤702,计算相邻子空间对应的值向量序列之间的值向量相似度。
步骤704,统计各个值向量相似度得到子空间输入差异度。
具体地,获取神经网络各个相邻子空间对应的值向量序列,再计算各个相邻子空间对应的值向量序列的值向量相似度,其中计算各个相邻子空间对应的值向量序列的值向量相似度的计算方式可自定义,自定义可以是利用余弦相似度计算方式、欧式距离相似度计算方式或者曼哈顿距离相似度计算方式等。在计算得到神经网络模型中各个相邻子空间对应的值向量序列之间的值向量相似度后,统计各个值向量相似度得到子空间输入差异度,其中统计各个值向量相似度得到子空间输入差异度的统计方式可自定义,自定义可以是但不限于求和、加权求和、求平均值、求方差等运算方式。
在一个实施例中,先将神经网络模型中的各个相邻子空间对应的值向量序列归一化并进行点积操作,得到相邻子空间对应的值向量序列之间的余弦相似度,表示为coS(·),该余弦相似度度量的相邻子空间对应的值向量序列Vi、Vj之间夹角的余弦值。最后,余弦距离定义为余弦相似度的负值,即-cos(·),最后将神经网络模型中的各个相邻子空间对应的值向量序列之间的余弦相似度的总和作为子空间输入差异度,具体可根据以下公式计算子空间输入差异度:
其中,Dsubspace代表的是子空间输入差异度,Vi,Vj分别代表的是第i个子空间和第j个子空间的值向量序列,h代表的是神经网络模型中共h个子空间。
在一个实施例中,如图8所示,根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度,包括:
步骤802,计算相邻子空间对应的注意力矩阵之间的注意力矩阵相似度。
步骤804,统计各个注意力矩阵相似度得到注意力矩阵差异度。
具体地,获取神经网络各个相邻子空间对应的注意力矩阵,再计算各个相邻子空间对应的注意力矩阵的注意力矩阵相似度,其中计算各个相邻子空间对应的注意力矩阵的注意力矩阵相似度的计算方式可自定义,自定义可以是将各个相邻子空间对应的注意力矩阵按照元素矩阵相乘的计算方式、或者利用余弦相似度计算方式、欧式距离相似度计算方式或者曼哈顿距离相似度计算方式等。在计算得到神经网络模型中各个相邻子空间对应的注意力矩阵之间的注意力矩阵相似度后,统计各个注意力矩阵相似度得到注意力矩阵差异度,其中统计各个注意力矩阵相似度得到注意力矩阵差异度的统计方式可自定义,自定义可以是但不限于求和、加权求和、求平均值、求方差等运算方式。
在一个实施例中,将神经网络模型中的各个相邻子空间对应的注意力矩阵按照元素矩阵相乘来度量各个相邻子空间的注意力矩阵之间的相似性,可将各个相邻子空间的注意力矩阵之间的相似性总和作为注意力矩阵差异度。具体可根据以下公式计算注意力矩阵差异度:
其中,Dposition代表的是注意力矩阵差异度,Ai、Aj分别代表的是第i个子空间和第j个子空间的注意力矩阵,h代表的是神经网络模型中共h个子空间。
在一个实施例中,如图9所示,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度,包括:
步骤902,计算相邻子空间对应的输出向量序列之间的输出向量相似度;
步骤904,统计各个输出向量相似度得到子空间输出差异度。
具体地,获取神经网络各个相邻子空间对应的输出向量序列,再计算各个相邻子空间对应的输出向量序列的输出向量相似度,其中计算各个相邻子空间对应的输出向量序列的输出向量相似度的计算方式可自定义,自定义可以是利用余弦相似度计算方式、欧式距离相似度计算方式或者曼哈顿距离相似度计算方式等。在计算得到神经网络模型中各个相邻子空间对应的输出向量序列之间的输出向量相似度后,统计各个输出向量相似度得到子空间输出差异度,其中统计各个输出向量相似度得到子空间输出差异度的统计方式可自定义,自定义可以是但不限于求和、加权求和、求平均值、求方差等运算方式。
在一个实施例中,将神经网络模型中的各个相邻子空间对应的输出向量序列归一化并进行点积操作,得到相邻子空间对应的输出向量序列之间的余弦相似度,表示为cos(·),该余弦相似度度量的相邻子空间对应的输出向量序列Oi、Oj之间夹角的余弦值。最后,余弦距离定义为余弦相似度的负值,即-cos(·),最后将神经网络模型中的各个相邻子空间对应的输出向量序列之间的余弦相似度的总和作为子空间输出差异度,具体可根据以下公式计算子空间输出差异度:
其中,Doutput代表的是子空间输出差异度,Oi,Oj分别代表的是第i个子空间和第j个子空间的输出向量序列,h代表的是神经网络模型中共h个子空间。
在一个实施例中,如图10所示,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型包括:
步骤1002,对空间差异度和输出相似度进行线性计算得到模型调整参考结果。
步骤1004,当模型调整参考结果最大化时,神经网络模型满足收敛条件。
具体地,在计算得到空间差异度和输出相似度后,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,具体可对空间差异度和输出相似度进行线性计算,从而得到模型调整参考结果。当模型调整参考结果为最大化时,认为神经网络模型满足收敛条件。当神经网络模型满足收敛条件时,则可认为神经网络模型即是已训练的神经网络模型,已训练的神经网络模型的输出准确度比未进行训练的神经网络模型的输出准确度高。其中,收敛条件可自定义,自定义可以是但不限于求最大值等。
在一个实施例中,对空间异度和输出相似度进行线性计算得到模型调整参考结果,当模型调整参考结果最大化时,神经网络模型满足收敛条件具体可根据以下公式计算:
J=arg max{L+D}
其中,J代表的是模型调整参考结果,arg max代表的是模型调整参考结果最大化,L代表的是输出相似度,而D代表的是空间差异度。
在一个实施例中,神经网络模型为机器翻译模型,神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,编码注意力单元、编解码注意力单元、解码注意力单元分别包括多个注意力网络,编解码注意力单元分别与编码注意力单元、解码注意力单元连接。
其中,机器翻译模型是将待翻译内容翻译成对应的翻译文本,如将待翻译内容为中文可翻译成对应的英文,机器翻译模型可以是NMT机器翻译神经网络模型(NeuralMachine Translation,神经网络机器翻译)。如图11所示,图11示出一个实施例中神经网络模型的框架示意图,神经网络模型包括编码注意力单元A、编解码注意力单元B、解码注意力单元C,编码注意力单元A、编解码注意力单元B、解码注意力单元C分别包括多个注意力网络,编解码注意力单元B分别与编码注意力单元A、解码注意力单元连接C。其中,编码注意力单元A是用来计算训练样本之间的依赖关系,如训练样本为:“今天天气很好”,则编码注意力单元A会计算训练样本之间各个词之间的依赖关系,如“今”分别和“天”、“气”、“很”、“好”之间的依赖关系。同样地,解码注意力单元C是用来计算训练样本对应的输出文本之间的依赖关系,如训练样本为:“今天是星期一”,对应的输出文本为:“Today is Monday”,则解码注意力单元C会计算输出文本之间各个词之间的依赖关系,如“Today”分别和“is”、“Monday”之间的依赖关系。而编解码注意力单元B是用来计算训练样本与输出文本之间的依赖关系,如训练样本为:“今天是星期一”,对应的输出文本为:“Today is Monday”,则编解码注意力单元B会计算训练样本与输出样本各个词之间的依赖关系,如“今”分别和“Today”、“is”、“Monday”之间的依赖关系。
其中,编码注意力单元A的输出可作为编解码注意力单元B的输入,而解码注意力单元C的输出也可同时作为编解码注意力单元B的输入,进一步可对编解码注意力单元B的输出进行线性变换和非线性变换,最后得到神经网络模型的输出结果。其中,在对机器翻译神经网络模型进行模型训练的时候,编码注意力单元、编解码注意力单元和解码注意力单元同时进行训练,当编码注意力单元、编解码注意力单元和解码注意力单元的空间差异度的总和为最大化时,可认为机器翻译神经网络模型满足收敛条件,得到目标神经网络模型。
在一个实施例中,训练样本为待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本。
其中,训练样本待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本,若训练样本为待翻译文本时,则训练样本对应的标准标签为标准翻译文本。在一个实施例中,若待翻译文本为中文时,则训练样本对应的标准标签为英文标准翻译文本,如待翻译文本为中文“我爱你”,则训练样本对应的标准标签为“I love you”,即“Ilove you”为待翻译文本对应的标准翻译文本。在一个实施例中,若待翻译文本为英文时,则训练样本对应的的标准标签为中文标准翻译文本,如待翻译文本为英文“I have anapple”,则训练样本对应的标准标签为:“我有一个苹果”,即“我有一个苹果”为待翻译文本对应的标准翻译文本
在一个实施例中,若训练样本为待翻译视频,可应用在图像注释应用场景中。在图像注释应用场景中,训练样本对应的标准标签也为标准翻译文本,这里的标准翻译文本是用来描述待翻译视频场景呈现出来的内容。如待翻译视频呈现的场景是一位老师正在给学生上课的场景,则训练样本对应的标准标签为“老师在教室里上课”,其中待翻译视频为静态视频帧或者动态视频帧。
在一个实施例中,若训练样本为待翻译音频,则训练样本对应的标准标签为标准翻译文本,这里的标准翻译文本是用来描述待翻译音频播放的内容。如待翻译音频是一段话语:“我很好谢谢”,则训练样本对应的标准标签为“我很好谢谢”或者“I am fine,thankyou”。
在一个具体的实施例中,提供了一种神经网络训练方法,该方法具体包括以下步骤:
步骤1102,获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签,其中训练样本可以为待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本。
步骤1104,将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列。其中,神经网络模型为机器翻译模型,神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,编码注意力单元、编解码注意力单元、解码注意力单元分别包括多个注意力网络,编解码注意力单元分别与编码注意力单元、解码注意力单元连接。
步骤1104a,将训练样本转换为对应的源端向量序列。
步骤1104b,获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列。
步骤1104c,获取各个子空间对应的空间参数矩阵,根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
步骤1106,计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度。
步骤1108,根据逻辑相似度计算得到当前子空间对应的注意力矩阵。
步骤1110,根据注意力矩阵和值向量序列计算得到当前子空间对应的输出向量序列。
步骤1112,将各个子空间对应的输出向量序列拼接后进行线性变换,得到输出后的网络表示序列。
步骤1114,将网络表示序列作为更新后的源端向量序列,返回获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
步骤1116,神经网络模型计算各个子空间之间的空间差异度。
步骤1116a,根据相邻子空间对应的值向量序列计算得到子空间输入差异度。和/或
步骤1116aa,计算相邻子空间对应的值向量序列之间的值向量相似度。
步骤1116ab,统计各个值向量相似度得到子空间输入差异度。
步骤1116b,根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度。和/或
步骤1116ba,计算相邻子空间对应的注意力矩阵之间的注意力矩阵相似度。
步骤1116bb,统计各个注意力矩阵相似度得到注意力矩阵差异度。
步骤1116c,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度。
步骤1116ca,计算相邻子空间对应的输出向量序列之间的输出向量相似度。
步骤1116cb,统计各个输出向量相似度得到子空间输出差异度。
步骤1116d,根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。
步骤1118,根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度。
步骤1120,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
步骤1120a,对空间差异度和输出相似度进行线性计算得到模型调整参考结果。
步骤1120b,当模型调整参考结果最大化时,神经网络模型满足收敛条件。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图12所示,在一个实施例中,提供了一种神经网络训练装置1200,该装置包括:
训练样本集获取模块1202,用于获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签。
训练样本集训练模块1204,用于将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列。
空间差异度计算模块1206,用于神经网络模型计算各个子空间之间的空间差异度。
输出相似度计算模块1208,用于根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度。
目标神经网络模型生成模块1210,用于根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
在一个实施例中,如图13所示,训练样本集训练模块1204包括:
训练样本转换单元1204a,用于将训练样本转换为对应的源端向量序列。
基本向量序列生成单元1204b,用于获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列。
空间参数矩阵获取单元1204c,用于获取各个子空间对应的空间参数矩阵,根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
在一个实施例中,如图14所示,该神经网络训练装置1200还包括:
逻辑相似度计算模块1402,用于计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度。
注意力矩阵计算模块1404,用于根据逻辑相似度计算得到当前子空间对应的注意力矩阵。
输出向量序列计算模块1406,用于根据注意力矩阵和值向量序列计算得到当前子空间对应的输出向量序列。
在一个实施例中,神经网络训练装置1200还用于将各个子空间对应的输出向量序列拼接后进行线性变换,得到输出后的网络表示序列;将网络表示序列作为更新后的源端向量序列,返回获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
在一个实施例中,空间差异度计算模块1206还用于根据相邻子空间对应的值向量序列计算得到子空间输入差异度;和/或根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度;和/或根据相邻子空间对应的输出向量序列计算得到子空间输出差异度;根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。
在一个实施例中,空间差异度计算模块1206还用于计算相邻子空间对应的值向量序列之间的值向量相似度;统计各个值向量相似度得到子空间输入差异度。
在一个实施例中,空间差异度计算模块1206还用于计算相邻子空间对应的注意力矩阵之间的注意力矩阵相似度;统计各个注意力矩阵相似度得到注意力矩阵差异度。
在一个实施例中,空间差异度计算模块1206还用于计算相邻子空间对应的输出向量序列之间的输出向量相似度;统计各个输出向量相似度得到子空间输出差异度。
在一个实施例中,目标神经网络模型生成模块1210还用于对空间差异度和输出相似度进行线性计算得到模型调整参考结果;当模型调整参考结果最大化时,神经网络模型满足收敛条件。
在一个实施例中,神经网络模型为机器翻译模型,神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,编码注意力单元、编解码注意力单元、解码注意力单元分别包括多个注意力网络,编解码注意力单元分别与编码注意力单元、解码注意力单元连接。
在一个实施例中,训练样本为待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本。
图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图15所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现神经网络训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行神经网络训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的神经网络训练装置可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该神经网络训练装置的各个程序模块,比如,图12所示的训练样本集获取模块、训练样本集训练模块、空间差异度计算模块、输出相似度计算模块和目标神经网络模型生成模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的神经网络训练方法中的步骤。
例如,图15所示的计算机设备可以通过如图12所示的神经网络训练装置中的训练样本集获取模块执行获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签。训练样本集训练模块执行将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列。空间差异度计算模块执行神经网络模型计算各个子空间之间的空间差异度。输出相似度计算模块执行根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度。目标神经网络模型生成模块执行根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;神经网络模型计算各个子空间之间的空间差异度;根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度;根据逻辑相似度计算得到当前子空间对应的注意力矩阵;根据注意力矩阵和值向量序列计算得到当前子空间对应的输出向量序列。
在一个实施例中,多个注意力网络分别将训练样本映射到多个不同的子空间,包括:将训练样本转换为对应的源端向量序列;获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列;获取各个子空间对应的空间参数矩阵,根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:将各个子空间对应的输出向量序列拼接后进行线性变换,得到输出后的网络表示序列;将网络表示序列作为更新后的源端向量序列,返回获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
在一个实施例中,神经网络模型计算各个子空间之间的空间差异度包括:根据相邻子空间对应的值向量序列计算得到子空间输入差异度;和/或根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度;和/或根据相邻子空间对应的输出向量序列计算得到子空间输出差异度;根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。
在一个实施例中,根据相邻子空间对应的值向量序列计算得到子空间输入差异度,包括:计算相邻子空间对应的值向量序列之间的值向量相似度;统计各个值向量相似度得到子空间输入差异度。
在一个实施例中,根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度,包括:计算相邻子空间对应的注意力矩阵之间的注意力矩阵相似度;统计各个注意力矩阵相似度得到注意力矩阵差异度。
在一个实施例中,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度,包括:计算相邻子空间对应的输出向量序列之间的输出向量相似度;统计各个输出向量相似度得到子空间输出差异度。
在一个实施例中,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型包括:对空间差异度和输出相似度进行线性计算得到模型调整参考结果;当模型调整参考结果最大化时,神经网络模型满足收敛条件。
在一个实施例中,神经网络模型为机器翻译模型,神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,编码注意力单元、编解码注意力单元、解码注意力单元分别包括多个注意力网络,编解码注意力单元分别与编码注意力单元、解码注意力单元连接。
在一个实施例中,训练样本为待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取训练样本集,训练样本集中的各个训练样本存在对应的标准标签;将训练样本集中的训练样本输入神经网络模型中,神经网络模型包括多个注意力网络,多个注意力网络分别将训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;神经网络模型计算各个子空间之间的空间差异度;根据神经网络模型的输出和各个训练样本对应的标准标签计算输出相似度;根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:计算当前子空间中的请求向量序列和键向量序列之间的逻辑相似度;根据逻辑相似度计算得到当前子空间对应的注意力矩阵;根据注意力矩阵和值向量序列计算得到当前子空间对应的输出向量序列。
在一个实施例中,多个注意力网络分别将训练样本映射到多个不同的子空间,包括:将训练样本转换为对应的源端向量序列;获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列;获取各个子空间对应的空间参数矩阵,根据空间参数矩阵分别对请求基本向量序列、键基本向量序列和值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
在一个实施例中,所述计算机程序还使得所述处理器执行如下步骤:将各个子空间对应的输出向量序列拼接后进行线性变换,得到输出后的网络表示序列;将网络表示序列作为更新后的源端向量序列,返回获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据请求参数矩阵、键参数矩阵和值参数矩阵对源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
在一个实施例中,神经网络模型计算各个子空间之间的空间差异度包括:根据相邻子空间对应的值向量序列计算得到子空间输入差异度;和/或根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度;和/或根据相邻子空间对应的输出向量序列计算得到子空间输出差异度;根据子空间输入差异度、注意力矩阵差异度、子空间输出差异度中的至少一种确定空间差异度。
在一个实施例中,根据相邻子空间对应的值向量序列计算得到子空间输入差异度,包括:计算相邻子空间对应的值向量序列之间的值向量相似度;统计各个值向量相似度得到子空间输入差异度。
在一个实施例中,根据相邻子空间对应的注意力矩阵计算得到注意力矩阵差异度,包括:计算相邻子空间对应的注意力矩阵之间的注意力矩阵相似度;统计各个注意力矩阵相似度得到注意力矩阵差异度。
在一个实施例中,根据相邻子空间对应的输出向量序列计算得到子空间输出差异度,包括:计算相邻子空间对应的输出向量序列之间的输出向量相似度;统计各个输出向量相似度得到子空间输出差异度。
在一个实施例中,根据空间差异度和输出相似度对神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型包括:对空间差异度和输出相似度进行线性计算得到模型调整参考结果;当模型调整参考结果最大化时,神经网络模型满足收敛条件。
在一个实施例中,神经网络模型为机器翻译模型,神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,编码注意力单元、编解码注意力单元、解码注意力单元分别包括多个注意力网络,编解码注意力单元分别与编码注意力单元、解码注意力单元连接。
在一个实施例中,训练样本为待翻译文本、视频、音频中的至少一种,训练样本对应的标准标签为标准翻译文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种神经网络训练方法,包括:
获取训练样本集,所述训练样本集中的各个训练样本存在对应的标准标签;
将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络,所述多个注意力网络分别将所述训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
所述神经网络模型计算各个所述子空间之间的空间差异度;
根据所述神经网络模型的输出和所述各个训练样本对应的标准标签计算输出相似度;
根据所述空间差异度和所述输出相似度对所述神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算当前子空间中的所述请求向量序列和所述键向量序列之间的逻辑相似度;
根据所述逻辑相似度计算得到所述当前子空间对应的注意力矩阵;
根据所述注意力矩阵和所述值向量序列计算得到所述当前子空间对应的输出向量序列。
3.根据权利要求2所述的方法,其特征在于,所述多个注意力网络分别将所述训练样本映射到多个不同的子空间,包括:
将所述训练样本转换为对应的源端向量序列;
获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据所述请求参数矩阵、所述键参数矩阵和所述值参数矩阵对所述源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列;
获取各个子空间对应的空间参数矩阵,根据所述空间参数矩阵分别对所述请求基本向量序列、所述键基本向量序列和所述值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将各个所述子空间对应的所述输出向量序列拼接后进行线性变换,得到输出后的网络表示序列;
将所述网络表示序列作为更新后的源端向量序列,返回所述获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据所述请求参数矩阵、键参数矩阵和值参数矩阵对所述源端向量序列进行线性变换的步骤,直至满足循环停止条件时则输出目标网络表示序列。
5.根据权利要求2所述的方法,其特征在于,所述神经网络模型计算各个所述子空间之间的空间差异度,包括:
根据相邻子空间对应的所述值向量序列计算得到子空间输入差异度;和/或
根据相邻子空间对应的所述注意力矩阵计算得到注意力矩阵差异度;和/或
根据相邻子空间对应的所述输出向量序列计算得到子空间输出差异度;
根据所述子空间输入差异度、所述注意力矩阵差异度、所述子空间输出差异度中的至少一种确定所述空间差异度。
6.根据权利要求5所述的方法,其特征在于,所述根据相邻子空间对应的所述值向量序列计算得到子空间输入差异度,包括:
计算相邻子空间对应的所述值向量序列之间的值向量相似度;
统计各个所述值向量相似度得到所述子空间输入差异度。
7.根据权利要求5所述的方法,其特征在于,所述根据相邻子空间对应的所述注意力矩阵计算得到注意力矩阵差异度,包括:
计算相邻子空间对应的所述注意力矩阵之间的注意力矩阵相似度;
统计各个所述注意力矩阵相似度得到所述注意力矩阵差异度。
8.根据权利要求5所述的方法,其特征在于,所述根据相邻子空间对应的所述输出向量序列计算得到子空间输出差异度,包括:
计算相邻子空间对应的所述输出向量序列之间的输出向量相似度;
统计各个所述输出向量相似度得到所述子空间输出差异度。
9.根据权利要求1所述的方法,其特征在于,所述根据所述空间差异度和所述输出相似度对所述神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型,包括:
对所述空间差异度和所述输出相似度进行线性计算得到模型调整参考结果;
当所述模型调整参考结果最大化时,所述神经网络模型满足收敛条件。
10.根据权利要求1所述的方法,其特征在于,所述神经网络模型为机器翻译模型,所述神经网络模型包括编码注意力单元、编解码注意力单元、解码注意力单元,所述编码注意力单元、所述编解码注意力单元、所述解码注意力单元分别包括多个注意力网络,所述编解码注意力单元分别与所述编码注意力单元、所述解码注意力单元连接。
11.根据权利要求10所述的方法,其特征在于,所述训练样本为待翻译文本、视频、音频中的至少一种,所述训练样本对应的标准标签为标准翻译文本。
12.一种神经网络训练装置,其特征在于,所述装置包括:
训练样本集获取模块,用于获取训练样本集,所述训练样本集中的各个训练样本存在对应的标准标签;
训练样本集训练模块,用于将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络,所述多个注意力网络分别将所述训练样本映射到多个不同的子空间,各个子空间包括对应的请求向量序列、键向量序列和值向量序列;
空间差异度计算模块,用于所述神经网络模型计算各个所述子空间之间的空间差异度;
输出相似度计算模块,用于根据所述神经网络模型的输出和所述各个训练样本对应的标准标签计算输出相似度;
目标神经网络模型生成模块,用于根据所述空间差异度和所述输出相似度对所述神经网络模型的模型参数进行调整,直至满足收敛条件,得到目标神经网络模型。
13.根据权利要求12所述的装置,其特征在于,所述训练样本集训练模块包括:
训练样本转换单元,用于将所述训练样本转换为对应的源端向量序列;
基本向量序列生成单元,用于获取请求参数矩阵、键参数矩阵和值参数矩阵,分别根据所述请求参数矩阵、所述键参数矩阵和所述值参数矩阵对所述源端向量序列进行线性变换,得到对应的请求基本向量序列、键基本向量序列和值基本向量序列;
空间参数矩阵获取单元,用于获取各个子空间对应的空间参数矩阵,根据所述空间参数矩阵分别对所述请求基本向量序列、所述键基本向量序列和所述值基本向量序列进行线性映射得到各个子空间对应的请求向量序列、键向量序列和值向量序列。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201811032787.4A 2018-09-05 2018-09-05 神经网络训练方法、装置、计算机设备和存储介质 Active CN109146064B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811032787.4A CN109146064B (zh) 2018-09-05 2018-09-05 神经网络训练方法、装置、计算机设备和存储介质
PCT/CN2019/103338 WO2020048377A1 (zh) 2018-09-05 2019-08-29 神经网络训练方法、装置、计算机设备和存储介质
US17/071,078 US20210027165A1 (en) 2018-09-05 2020-10-15 Neural network training method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811032787.4A CN109146064B (zh) 2018-09-05 2018-09-05 神经网络训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109146064A true CN109146064A (zh) 2019-01-04
CN109146064B CN109146064B (zh) 2023-07-25

Family

ID=64827041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811032787.4A Active CN109146064B (zh) 2018-09-05 2018-09-05 神经网络训练方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
US (1) US20210027165A1 (zh)
CN (1) CN109146064B (zh)
WO (1) WO2020048377A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN109978140A (zh) * 2019-03-27 2019-07-05 腾讯科技(深圳)有限公司 神经网络训练方法、装置、可读存储介质和计算机设备
CN110163339A (zh) * 2019-03-06 2019-08-23 腾讯科技(深圳)有限公司 神经网络中网络表示生成、编码方法和装置
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110458278A (zh) * 2019-04-19 2019-11-15 四川大学 基于量子注意力循环编码解码神经网络的退化预测方法
CN110705709A (zh) * 2019-10-14 2020-01-17 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN110705273A (zh) * 2019-09-02 2020-01-17 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备
WO2020048377A1 (zh) * 2018-09-05 2020-03-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111639759A (zh) * 2020-06-01 2020-09-08 深圳前海微众银行股份有限公司 神经网络模型保护方法、装置、设备及可读存储介质
RU2735572C1 (ru) * 2019-06-06 2020-11-03 Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. Способ и устройство для обучения суперсети
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN112183166A (zh) * 2019-07-04 2021-01-05 北京地平线机器人技术研发有限公司 确定训练样本的方法、装置和电子设备
US11651839B2 (en) 2020-03-02 2023-05-16 Uchicago Argonne, Llc Systems and methods for generating phase diagrams for metastable material states
US11663494B2 (en) 2019-12-05 2023-05-30 Uchicago Argonne, Llc Systems and methods for hierarchical multi-objective optimization
US11710038B2 (en) * 2020-04-13 2023-07-25 Uchicago Argonne, Llc Systems and methods for active learning from sparse training data

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522854B (zh) * 2020-03-18 2023-08-01 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN113469351A (zh) * 2020-03-30 2021-10-01 嘉楠明芯(北京)科技有限公司 一种数据处理方法、装置及存储介质
CN111737457B (zh) * 2020-05-19 2024-09-03 北京明略软件系统有限公司 数据表与实体的匹配方法及相关设备
CN111914822B (zh) * 2020-07-23 2023-11-17 腾讯科技(深圳)有限公司 文本图像标注方法、装置、计算机可读存储介质及设备
CN113762303B (zh) * 2020-11-23 2024-05-24 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN112632994B (zh) * 2020-12-03 2023-09-01 大箴(杭州)科技有限公司 基于文本信息确定基本属性特征的方法、装置及设备
CN113011920B (zh) * 2021-03-15 2024-02-13 北京百度网讯科技有限公司 转化率预估模型的训练方法、装置及电子设备
CN112990457B (zh) * 2021-03-26 2024-05-03 开放智能机器(上海)有限公司 离线量化调优方法、装置、设备、介质及程序产品
CN113807440B (zh) * 2021-09-17 2022-08-26 北京百度网讯科技有限公司 利用神经网络处理多模态数据的方法、设备和介质
CN114090401B (zh) * 2021-11-01 2024-09-10 支付宝(杭州)信息技术有限公司 处理用户行为序列的方法及装置
CN114285750A (zh) * 2021-12-21 2022-04-05 中国电信股份有限公司 用于提供切片服务的方法、系统和计算机可读存储介质
CN114580443B (zh) * 2022-03-01 2024-10-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、核函数组合方法、服务器和介质
CN115047894B (zh) * 2022-04-14 2023-09-15 中国民用航空总局第二研究所 一种无人机轨迹测算方法、电子设备及存储介质
CN114548047B (zh) * 2022-04-25 2022-09-23 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法以及装置、文本处理方法以及装置
CN115174421B (zh) * 2022-06-13 2023-05-23 湖北工业大学 基于自监督解缠绕超图注意力的网络故障预测方法及装置
CN115561307B (zh) * 2022-12-01 2023-04-07 安徽数智建造研究院有限公司 灌浆密实度检测方法
CN116796723B (zh) * 2023-03-15 2024-02-06 华院计算技术(上海)股份有限公司 文本集匹配方法、装置、电子设备及存储介质
CN117806972B (zh) * 2024-01-03 2024-07-02 西南民族大学 一种基于多尺度时序分析的变更代码质量评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080144943A1 (en) * 2005-05-09 2008-06-19 Salih Burak Gokturk System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7831531B1 (en) * 2006-06-22 2010-11-09 Google Inc. Approximate hashing functions for finding similar content
CN107368476A (zh) * 2017-07-25 2017-11-21 深圳市腾讯计算机系统有限公司 一种翻译的方法、目标信息确定的方法及相关装置
WO2018067495A1 (en) * 2016-10-03 2018-04-12 Google Llc Processing text sequences using neural networks
CN108256646A (zh) * 2018-01-22 2018-07-06 百度在线网络技术(北京)有限公司 模型生成方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188824B2 (en) * 2017-02-17 2021-11-30 Google Llc Cooperatively training and/or using separate input and subsequent content neural networks for information retrieval
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法
US10803055B2 (en) * 2017-12-15 2020-10-13 Accenture Global Solutions Limited Cognitive searches based on deep-learning neural networks
CN108460028B (zh) * 2018-04-12 2021-08-03 苏州大学 将句子权重融入神经机器翻译的领域适应方法
CN109146064B (zh) * 2018-09-05 2023-07-25 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080144943A1 (en) * 2005-05-09 2008-06-19 Salih Burak Gokturk System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7831531B1 (en) * 2006-06-22 2010-11-09 Google Inc. Approximate hashing functions for finding similar content
WO2018067495A1 (en) * 2016-10-03 2018-04-12 Google Llc Processing text sequences using neural networks
CN107368476A (zh) * 2017-07-25 2017-11-21 深圳市腾讯计算机系统有限公司 一种翻译的方法、目标信息确定的方法及相关装置
CN108256646A (zh) * 2018-01-22 2018-07-06 百度在线网络技术(北京)有限公司 模型生成方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020048377A1 (zh) * 2018-09-05 2020-03-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110163339A (zh) * 2019-03-06 2019-08-23 腾讯科技(深圳)有限公司 神经网络中网络表示生成、编码方法和装置
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110263350B (zh) * 2019-03-08 2024-05-31 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN109978140A (zh) * 2019-03-27 2019-07-05 腾讯科技(深圳)有限公司 神经网络训练方法、装置、可读存储介质和计算机设备
CN109978140B (zh) * 2019-03-27 2021-02-26 腾讯科技(深圳)有限公司 神经网络训练方法、装置、可读存储介质和计算机设备
CN110458278A (zh) * 2019-04-19 2019-11-15 四川大学 基于量子注意力循环编码解码神经网络的退化预测方法
CN110458278B (zh) * 2019-04-19 2021-09-14 四川大学 基于量子注意力循环编码解码神经网络的退化预测方法
RU2735572C1 (ru) * 2019-06-06 2020-11-03 Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. Способ и устройство для обучения суперсети
CN112183166A (zh) * 2019-07-04 2021-01-05 北京地平线机器人技术研发有限公司 确定训练样本的方法、装置和电子设备
CN110705273A (zh) * 2019-09-02 2020-01-17 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备
CN110705709B (zh) * 2019-10-14 2021-03-23 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN110705709A (zh) * 2019-10-14 2020-01-17 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
US11663494B2 (en) 2019-12-05 2023-05-30 Uchicago Argonne, Llc Systems and methods for hierarchical multi-objective optimization
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111027681B (zh) * 2019-12-09 2023-06-27 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
US11651839B2 (en) 2020-03-02 2023-05-16 Uchicago Argonne, Llc Systems and methods for generating phase diagrams for metastable material states
US11710038B2 (en) * 2020-04-13 2023-07-25 Uchicago Argonne, Llc Systems and methods for active learning from sparse training data
CN111639759A (zh) * 2020-06-01 2020-09-08 深圳前海微众银行股份有限公司 神经网络模型保护方法、装置、设备及可读存储介质
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109146064B (zh) 2023-07-25
WO2020048377A1 (zh) 2020-03-12
US20210027165A1 (en) 2021-01-28

Similar Documents

Publication Publication Date Title
CN109146064A (zh) 神经网络训练方法、装置、计算机设备和存储介质
US10706234B2 (en) Constituent centric architecture for reading comprehension
US20210216862A1 (en) System and method for semantic analysis of multimedia data using attention-based fusion network
CN111859911B (zh) 图像描述文本生成方法、装置、计算机设备及存储介质
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
Zhao et al. Comer: Modeling coverage for transformer-based handwritten mathematical expression recognition
Cascianelli et al. Full-GRU natural language video description for service robotics applications
WO2021082488A1 (zh) 基于文本匹配的智能面试方法、装置和计算机设备
CN108776832A (zh) 信息处理方法、装置、计算机设备和存储介质
Ji et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
Zhang et al. Image caption generation with adaptive transformer
CN110990595A (zh) 一种跨域对齐嵌入空间的零样本跨模态检索方法
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
Liu et al. Computation and parameter efficient multi-modal fusion transformer for cued speech recognition
Lian et al. Enhanced soft attention mechanism with an inception-like module for image captioning
CN111291576B (zh) 神经网络内部表示信息量确定方法、装置、设备、介质
Kim et al. Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
Meng et al. Multi-view attention network for remote sensing image captioning
Ding et al. The impact of text generation techniques on neural image captioning: An empirical study
Yuan et al. Face recognition with occlusion via support vector discrimination dictionary and occlusion dictionary based sparse representation classification
Han et al. Handwritten Mathematical Expression Recognition via GCAttention-Based Encoder and Bidirectional Mutual Learning Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant