CN111444731A - 模型训练方法、装置和计算机设备 - Google Patents
模型训练方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111444731A CN111444731A CN202010542456.6A CN202010542456A CN111444731A CN 111444731 A CN111444731 A CN 111444731A CN 202010542456 A CN202010542456 A CN 202010542456A CN 111444731 A CN111444731 A CN 111444731A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- encoder
- training
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 204
- 238000000034 method Methods 0.000 title claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 138
- 230000009977 dual effect Effects 0.000 claims abstract description 111
- 238000011084 recovery Methods 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 claims description 95
- 238000012545 processing Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 20
- 230000002457 bidirectional effect Effects 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000013519 translation Methods 0.000 description 12
- 230000014616 translation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了模型训练方法,模型包括第一编码器和第二编码器组成的第一孪生网络,方法包括获取第一编码器处理第一数据后输出的第一高维向量,及第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练第一孪生网络,至第一损失函数达最小值时,第一孪生网络训练收敛;获取第一孪生网络训练收敛时,第一编码器对应的第一参数集合以及第二编码器对应的第二参数集合;将第一参数集合下的第一编码器和第一恢复网络组成第二孪生网络,将第二参数集合下的第二编码器和第二恢复网络组成第三孪生网络;通过第二损失函数分别训练第二孪生网络和第三孪生网络至收敛,得到执行对偶任务的网络模型系统。节省模型构建、训练成本,模型训练得到改善。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到模型训练方法、装置和计算机设备。
背景技术
深度学习中有很多具有对偶关系的Sequence-2-Sequence的预测任务,比如语音识别和语音合成,机器翻译(中译英和英译中),文本转图像和看图说话,文本摘要和文本生成等。由于序列的多样性,一般需要较大的模型和大规模的训练数据才能达到满意的效果。而实际中上述任务模型的构建都是单向实现的,比如语音识别只能处理语音数据向文本的推理过程,语音合成只能处理文本数据向音频的推理过程;同样中译英模型只能将中文翻译成英文,英译中模型只能将英文翻译成中文等。单向模型的构建一般采用的是Encoder-Decoder的架构,Encoder端负责从原始数据投射到高维空间中,即提取高维特征;Decoder端则负责从高维特征中解码出目标对象,解码的思路是“由彼推己”,即将两个无直接关联的东西强制关联起来,解码即是建立这种关联关系,但单向构建模型,网络复杂且参数量大,需要的训练数据量较大,对于较少训练数据的领域,很难使模型训练达到较好的使用效果。
发明内容
本申请的主要目的为提供模型训练方法,旨在解决现有单向构建模型不能满足模型使用效果需求的技术问题。
本申请提出一种模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:
获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
优选地,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤,包括:
通过训练数据集最小化所述第一损失函数;
判断所述第一损失函数的函数值是否不再继续下降;
若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。
优选地,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤,包括:
判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;
将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。
优选地,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤,包括:
获取待执行任务的任务属性;
根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
接收所述任务模型运行所述输入数据后的输出结果。
优选地,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型的步骤之后,包括:
获取组合所述第一编码器和所述第二恢复网络后的第一预训练网络,以执行第一任务,或者获取组合所述第二编码器和所述第一恢复网络后的第二预训练网络,以执行第二任务,其中,所述第一任务指输入所述第一数据,输出所述第二数据,所述第二任务指输入所述第二数据,输出所述第一数据;
通过所述第一任务的训练数据,训练所述第一预训练网络,得到执行所述第一任务的任务模型,通过所述第二任务的训练数据,训练所述第二预训练网络,得到执行所述第二任务的任务模型;
生成将所述待执行任务的输入数据输入所述待执行任务的任务模型的指令。
优选地,所述执行对偶任务的网络模型系统包括数据处理网络,所述获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量的步骤之前,包括:
判断所述第一数据和所述第二数据的数据类型是否相同;
若不同,则连接所述数据处理网络;
通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据。
优选地,所述通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据的步骤,包括:
根据所述第一数据和所述第二数据的数据特征,识别所述第一数据和所述第二数据互为对偶任务数据的关联关系;
根据所述关联关系确定待处理信息;
通过所述待处理信息、所述第一数据和所述第二数据输入所述数据处理网络,将所述第一数据和所述第二数据修正为数据类型相同的对偶任务数据。
本申请还提供了一种模型训练装置,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述装置包括:
第一获取模块,用于获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
第一训练模块,用于通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
第二获取模块,用于获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
组成模块,用于将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
第二训练模块,用于通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过预训练形成的双向对齐模型,双向推导出对偶任务的原始数据,建立执行对偶任务的网络模型系统,编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
附图说明
图1 本申请一实施例的模型训练方法流程示意图;
图2本申请一实施例的模型结构示意图;
图3本申请一实施例的模型训练装置结构示意图;
图4本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:
S1:获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
S2:通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
S3:获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
S4:将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
S5:通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
本申请实施例中,上述的第一数据和第二数据为已知成对偶关系的两个任务A和B的输入数据,数据形式分别是m和n。即任务A的输入数据形式是m,输出数据形式是n;任务B的输入数据形式是n,输出数据形式是m。如图2所示,本申请的执行对偶任务的网络模型系统,包括第一编码器encoder_a,第二编码器encoder_b,第一恢复网络recovery_a和第二恢复网络recovery_b。由encoder_a和encoder_b组成第一孪生网络。encoder_a和encoder_b分别输出高维的特征向量vector_a和vector_b,损失函数loss_1为两个输出向量的距离,训练时在数据集上最小化上述两个输出向量的距离,实现向量对齐。然后固定第一孪生网络训练好后,两个encoder的网络参数,再分别与两个恢复网络构建第二孪生网络和第三孪生网络。encoder_a与recovery_a组成第二孪生网络,encoder_b与recovery_b组成第三孪生网络,由于两个网络的损失函数一致,可同时训练。训练过程与第一孪生网络基本一致,训练收敛后即可实现从中间状态的对齐向量恢复出原始的输入数据m和n。孪生网络具有对称结构的双网络系统,双网络系统具有相同或者相似的网络结构,网络的输入为数据对,输出为两个向量,损失函数一般为两个向量的距离,训练目标是在数据集上的最小化两个向量的距离。
本申请通过预训练形成的双向对齐模型,双向推导出对偶任务的原始数据,建立执行对偶任务的网络模型系统。预训练可基于大量的训练数据得到参数集合,但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。上述的第一孪生网络即为双向对齐模型,通过将对偶任务的双向输入数据在高维空间进行向量对齐,确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐,即输入数据分别经过两个编码器encoder处理后,投射到高维空间上的同一个向量或相似的两个向量,然后通过上述的同一个向量或相似的两个向量,搭建起两种输入数据之间的关联关系。再分别基于中间状态向量构建逆向的恢复网络,实现双向的推导,将传统的“由彼推己”的解码思路换成“由己推己”的解码思路,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
因为传统的“由彼推己”的解码思路中,是强制建立数据之间的关系,需要数据量必须大,对于数据量不足的部分,其解码效果往往很有限;即使数据量足够,由于是强制建立的对应关系,中间会有信息不匹配和信息丢失的情况,解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系,构建单向Sequence-2-Sequence模型,网络复杂且参数的数量大,训练需要的训练集的数据量也大。比如在机器翻译中,需要大量的双语对照训练数据,在构建中英互转模型时,首先用数据训练一个中文到英文的模型,然后再训练一个英文到中文的模型,训练数据可以复用,但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时,几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用,需要收集两套训练数据来分别训练语音识别模型和语音合成模型,成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练,比如通过合并成对偶关系的两个任务的损失函数,添加对偶约束条件,将两个网络联合起来训练,但也只对数据类型通用的对偶任务有效,且训练时消耗的资源更多,训练速度也较慢,耗时长,效果也不佳。
进一步地,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤S2,包括:
S21:通过训练数据集最小化所述第一损失函数;
S22:判断所述第一损失函数的函数值是否不再继续下降;
S23:若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
S24:确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。
本申请实施例中,第一损失函数的函数值不再继续下降,指稳定于趋近于零的某一较小值,指fa(m_feature)≈fb(n_feature),式中fa代表encoder_a的输出向量,fb代表encoder_b的输出向量,输入数据分别是m和n的特征数据。当fa(m_feature)≈fb(n_feature)时,表现为fa(m_feature)和fb(n_feature)为同一向量,或向量距离趋近于零的两个相似向量,实现两个向量在高维空间的对齐。此时固定第一孪生网络中encoder_a和encoder_b,以固定映射中的关联关系,确保可从对齐向量恢复至原始数据m和n的特征数据。
进一步地,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤S5,包括:
S51:判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
S52:若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;
S53:将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。
本申请实施例中,第二孪生网络和第三孪生网络可通过同一个损失函数,进行训练,当对齐向量通过第二孪生网络时,可恢复为第一数据,当对齐向量通过第三孪生网络,可恢复为第二数据,则训练收敛,此时可固定第二孪生网络和第三孪生网络中的各参数集合,以形成确定各参数集合的执行对偶任务的网络模型系统。上述的第一数据和第二数据为处理后可直接输入至网络中的输入数据,比如为音频数据的特征向量序列等。
进一步地,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤S53,包括:
S531:获取待执行任务的任务属性;
S532:根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
S533:将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
S534:接收所述任务模型运行所述输入数据后的输出结果。
本申请实施例中,任务属性表示任务的执行路径,比如执行路径为数据m至对齐向量至数据n,则选定组合所述第一编码器和所述第二恢复网络;执行路径为数据n至对齐向量至数据m,则选定组合第二编码器和所述第一恢复网络。本申请涉及的模型训练流程、数据处理、以及根据任务属性选择性地组合执行对偶任务的网络模型系统中的各模型功能块,均可通过配置文件的方式配置于模型系统中,以完成自主训练和智能组合,提高智能化程度。
进一步地,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型的步骤S532之后,包括:
S5321:获取组合所述第一编码器和所述第二恢复网络后的第一预训练网络,以执行第一任务,或者获取组合所述第二编码器和所述第一恢复网络后的第二预训练网络,以执行第二任务,其中,所述第一任务指输入所述第一数据,输出所述第二数据,所述第二任务指输入所述第二数据,输出所述第一数据;
S5322:通过所述第一任务的训练数据,训练所述第一预训练网络,得到执行所述第一任务的任务模型,通过所述第二任务的训练数据,训练所述第二预训练网络,得到执行所述第二任务的任务模型;
S5323:生成将所述待执行任务的输入数据输入所述待执行任务的任务模型的指令。
本申请的执行对偶任务的网络模型系统,通过预训练得到具有初始参数集合的网络模型系统,为提高执行对偶任务的网络模型系统针对某一特定任务的精准度,可通过改特定任务的训练数据进行再次训练,以微调执行对偶任务的网络模型系统,使得网络模型系统更适合执行该特定任务。微调时,可通过较少得数据量实现,相比于预训练过程,训练集的数据特征更集中。比如,预训练过程中需要使用大量的训练数据,所以可收集包括任何有对偶特性的数据集,包括中英文对译数据对、语音识别和语音合成数据对、文本图像互转数据对等等,以满足预训练数据的数量要求。若网络模型系统具体应用于机器翻译的对译情景中,则微调数据集均为中英文对译数据对,数据集的数量要远小于预训练数据。本申请的对偶任务联合训练模型的过程,训练后得到的是一个预训练的双向对齐模型,基于上述预训练的双向对齐模型,使用少量具体任务领域的数据进行fine-tuning,即可获得执行该具体任务的目标模型,极大地节约了模型训练的成本,且提高了训练模型的执行效果。
进一步地,所述执行对偶任务的网络模型系统包括数据处理网络,所述获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量的步骤S1之前,包括:
S11:判断所述第一数据和所述第二数据的数据类型是否相同;
S12:若不同,则连接所述数据处理网络;
S13:通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据。
本申请的执行对偶任务的网络模型系统,可执行数据类型相同的对偶任务,比如中英文对译这种对偶任务中的数据对,数据类型相同;也可执行数据类型不相同的对偶任务,比如语音合成和语音识别这种对偶任务中的数据对,数据类型不相同。若执行数据类型不相同的对偶任务,即上述输入数据m和n的数据类型不同,需要连接一额外的数据处理网络,本申请命名为extra_net。如果原成对偶关系的两个任务,在单向实现时的数据是通用的,那么extra_net就不需要。如果数据不通用,则需要根据情况在网络模型系统中接入extra_net。具体的,当任务A的数据可以用于任务B,而任务B的数据不可直接用于任务A时,需要对任务B相关的处理模块中接入extra_net。extra_net为提前训练好的模型,具有数据转换的特定功能,实现对输入数据进行信息过滤,比如extra_net的输入为n_feature,输出为高维向量。则encode_b减去extra_net提取的信息,与recovery_b加上extra_net提取的信息,互为对偶关系,则extra_net提取的信息则是对上述对偶数据的数据转量。
进一步地,所述通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据的步骤S13,包括:
S131:根据所述第一数据和所述第二数据的数据特征,识别所述第一数据和所述第二数据互为对偶任务数据的关联关系;
S132:根据所述关联关系确定所述待处理信息;
S133:通过所述待处理信息、所述第一数据和所述第二数据输入所述数据处理网络,将所述第一数据和所述第二数据修正为数据类型相同的对偶任务数据。
本申请实施例中,对偶任务数据的关联关系,是指互相成为对偶关系的数据,比如语音识别和语音合成,语音识别中的输入数据可拆分为音频特征和声纹信息,音频特征推到出对应的文本特征,并实现识别。基于语音合成中的输入数据可拆分为文本特征,然后通过输出的音频特征和声纹信息叠加,实现语音合成,即对偶任务数据的关联关系为上述除去声纹信息的部分互为对偶。上述待处理信息即为影响对偶关系完整对应的声纹信息,则此时需要的数据处理网络则为声纹提取网络,以实现对待处理信息的提取和过滤。本申请实施例中的执行对偶任务的网络模型系统,对偶任务中一端输入数据是数据m的特征m_feature,m_feature由前端模块处理得到,m_feature经由encoder_a提取高维特征向量vector_a,向量vector_a输入recovery_b进行恢复,恢复出来的数据为n_feature,n_feature经过末端处理模块恢复出数据n,至此就完成了由数据m到数据n的转化。本申请不对前端模块、末端处理模块进行限定,视具体任务的需求情况而具体设定。同理,对偶任务中另一端输入的是数据n的特征n_feature,n_feature由前端模块处理得到,n_feature经由encoder_b提取高维特征向量vector_b,向量vector_b输入recovery_a进行恢复,恢复出来的数据为m_feature,m_feature经过末端处理恢复出数据m,至此就完成了由数据n到数据m的转化,上述执行对偶任务的网络模型系统的输入端和输出端根据输入数据而改变,上述由数据m到数据n的转化,以及由数据n到数据m的转化,互为对偶任务。
参照图3,本申请一实施例还提供了一种模型训练装置,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述装置包括:
第一获取模块1,用于获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
第一训练模块2,用于通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
第二获取模块3,用于获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
组成模块4,用于将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
第二训练模块5,用于通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
本申请实施例中,上述的第一数据和第二数据为已知成对偶关系的两个任务A和B的输入数据,数据形式分别是m和n。即任务A的输入数据形式是m,输出数据形式是n; 任务B的输入数据形式是n,输出数据形式是m。如图2所示,本申请的执行对偶任务的网络模型系统,包括第一编码器encoder_a,第二编码器encoder_b,第一恢复网络recovery_a和第二恢复网络recovery_b。由encoder_a和encoder_b组成第一孪生网络。encoder_a和encoder_b分别输出高维的特征向量vector_a和vector_b,损失函数loss_1为两个输出向量的距离,训练时在数据集上最小化上述两个输出向量的距离,实现向量对齐。然后固定第一孪生网络训练好后,两个encoder的网络参数,再分别与两个恢复网络构建第二孪生网络和第三孪生网络。encoder_a与recovery_a组成第二孪生网络,encoder_b与recovery_b组成第三孪生网络,由于两个网络的损失函数一致,可同时训练。训练过程与第一孪生网络基本一致,训练收敛后即可实现从中间状态的对齐向量恢复出原始的输入数据m和n。孪生网络具有对称结构的双网络系统,双网络系统具有相同或者相似的网络结构,网络的输入为数据对,输出为两个向量,损失函数一般为两个向量的距离,训练目标是在数据集上的最小化两个向量的距离。
本申请通过预训练形成的双向对齐模型,双向推导出对偶任务的原始数据,建立执行对偶任务的网络模型系统。预训练可基于大量的训练数据得到参数集合,但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。上述的第一孪生网络即为双向对齐模型,通过将对偶任务的双向输入数据在高维空间进行向量对齐,确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐,即输入数据分别经过两个编码器encoder处理后,投射到高维空间上的同一个向量或相似的两个向量,然后通过上述的同一个向量或相似的两个向量,搭建起两种输入数据之间的关联关系。再分别基于中间状态向量构建逆向的恢复网络,实现双向的推导,将传统的“由彼推己”的解码思路换成“由己推己”的解码思路,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
因为传统的“由彼推己”的解码思路中,是强制建立数据之间的关系,需要数据量必须大,对于数据量不足的部分,其解码效果往往很有限;即使数据量足够,由于是强制建立的对应关系,中间会有信息不匹配和信息丢失的情况,解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系,构建单向Sequence-2-Sequence模型,网络复杂且参数的数量大,训练需要的训练集的数据量也大。比如在机器翻译中,需要大量的双语对照训练数据,在构建中英互转模型时,首先用数据训练一个中文到英文的模型,然后再训练一个英文到中文的模型,训练数据可以复用,但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时,几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用,需要收集两套训练数据来分别训练语音识别模型和语音合成模型,成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练,比如通过合并成对偶关系的两个任务的损失函数,添加对偶约束条件,将两个网络联合起来训练,但也只对数据类型通用的对偶任务有效,且训练时消耗的资源更多,训练速度也较慢,耗时长,效果也不佳。
进一步地,第一训练模块2,包括:
最小化单元,用于通过训练数据集最小化所述第一损失函数;
第一判断单元,用于判断所述第一损失函数的函数值是否不再继续下降;
第一判定单元,用于若不再继续下降,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
第一确定单元,用于确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。
本申请实施例中,第一损失函数的函数值不再继续下降,指稳定于趋近于零的某一较小值,指fa(m_feature)≈fb(n_feature),式中fa代表encoder_a的输出向量,fb代表encoder_b的输出向量,输入数据分别是m和n的特征数据。当fa(m_feature)≈fb(n_feature)时,表现为fa(m_feature)和fb(n_feature)为同一向量,或向量距离趋近于零的两个相似向量,实现两个向量在高维空间的对齐。此时固定第一孪生网络中encoder_a和encoder_b,以固定映射中的关联关系,确保可从对齐向量恢复至原始数据m和n的特征数据。
进一步地,第二训练模块5,包括:
第二判断单元,用于判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
第二判定单元,用于若所述对齐向量经过所述第二损失函数约束的第二孪生网络,可得到所述第一数据,所述对齐向量经过所述第二损失函数约束的第三孪生网络,可得到所述第二数据,则判定所述第二孪生网络和所述第三孪生网络完成训练;
组合单元,用于将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。
本申请实施例中,第二孪生网络和第三孪生网络可通过同一个损失函数,进行训练,当对齐向量通过第二孪生网络时,可恢复为第一数据,当对齐向量通过第三孪生网络,可恢复为第二数据,则训练收敛,此时可固定第二孪生网络和第三孪生网络中的各参数集合,以形成确定各参数集合的执行对偶任务的网络模型系统。上述的第一数据和第二数据为处理后可直接输入至网络中的输入数据,比如为音频数据的特征向量序列等。
进一步地,组合单元,包括:
第一获取子单元,用于获取待执行任务的任务属性;
形成子单元,用于根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
输入子单元,用于将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
接收子单元,用于接收所述任务模型运行所述输入数据后的输出结果。
本申请实施例中,任务属性表示任务的执行路径,比如执行路径为数据m至对齐向量至数据n,则选定组合所述第一编码器和所述第二恢复网络;执行路径为数据n至对齐向量至数据m,则选定组合第二编码器和所述第一恢复网络。本申请涉及的模型训练流程、数据处理、以及根据任务属性选择性地组合执行对偶任务的网络模型系统中的各模型功能块,均可通过配置文件的方式配置于模型系统中,以完成自主训练和智能组合,提高智能化程度。
进一步地,组合单元,包括:
第二获取子单元,用于获取组合所述第一编码器和所述第二恢复网络后的第一预训练网络,以执行第一任务,或者获取组合所述第二编码器和所述第一恢复网络后的第二预训练网络,以执行第二任务,其中,所述第一任务指输入所述第一数据,输出所述第二数据,所述第二任务指输入所述第二数据,输出所述第一数据;
得到子单元,用于通过所述第一任务的训练数据,训练所述第一预训练网络,得到执行所述第一任务的任务模型,通过所述第二任务的训练数据,训练所述第二预训练网络,得到执行所述第二任务的任务模型;
生成子单元,用于生成将所述待执行任务的输入数据输入所述待执行任务的任务模型的指令。
本申请的执行对偶任务的网络模型系统,通过预训练得到具有初始参数集合的网络模型系统,为提高执行对偶任务的网络模型系统针对某一特定任务的精准度,可通过改特定任务的训练数据进行再次训练,以微调执行对偶任务的网络模型系统,使得网络模型系统更适合执行该特定任务。微调时,可通过较少得数据量实现,相比于预训练过程,训练集的数据特征更集中。比如,预训练过程中需要使用大量的训练数据,所以可收集包括任何有对偶特性的数据集,包括中英文对译数据对、语音识别和语音合成数据对、文本图像互转数据对等等,以满足预训练数据的数量要求。若网络模型系统具体应用于机器翻译的对译情景中,则微调数据集均为中英文对译数据对,数据集的数量要远小于预训练数据。本申请的对偶任务联合训练模型的过程,训练后得到的是一个预训练的双向对齐模型,基于上述预训练的双向对齐模型,使用少量具体任务领域的数据进行fine-tuning,即可获得执行该具体任务的目标模型,极大地节约了模型训练的成本,且提高了训练模型的执行效果。
进一步地,所述执行对偶任务的网络模型系统包括数据处理网络,模型训练装置,包括:
判断模块,用于判断所述第一数据和所述第二数据的数据类型是否相同;
连接模块,用于若不同,则连接所述数据处理网络;
转化模块,用于通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据。
本申请的执行对偶任务的网络模型系统,可执行数据类型相同的对偶任务,比如中英文对译这种对偶任务中的数据对,数据类型相同;也可执行数据类型不相同的对偶任务,比如语音合成和语音识别这种对偶任务中的数据对,数据类型不相同。若执行数据类型不相同的对偶任务,即上述输入数据m和n的数据类型不同,需要连接一额外的数据处理网络,本申请命名为extra_net。如果原成对偶关系的两个任务,在单向实现时的数据是通用的,那么extra_net就不需要。如果数据不通用,则需要根据情况在网络模型系统中接入extra_net。具体的,当任务A的数据可以用于任务B,而任务B的数据不可直接用于任务A时,需要对任务B相关的处理模块中接入extra_net。extra_net为提前训练好的模型,具有数据转换的特定功能,实现对输入数据进行信息过滤,比如extra_net的输入为n_feature,输出为高维向量。则encode_b减去extra_net提取的信息,与recovery_b加上extra_net提取的信息,互为对偶关系,则extra_net提取的信息则是对上述对偶数据的数据转量。
进一步地,转化模块,包括:
识别单元,用于根据所述第一数据和所述第二数据的数据特征,识别所述第一数据和所述第二数据互为对偶任务数据的关联关系;
第二确定单元,用于根据所述关联关系确定所述待处理信息;
修正单元,用于通过所述待处理信息、所述第一数据和所述第二数据输入所述数据处理网络,将所述第一数据和所述第二数据修正为数据类型相同的对偶任务数据。
本申请实施例中,对偶任务数据的关联关系,是指互相成为对偶关系的数据,比如语音识别和语音合成,语音识别中的输入数据可拆分为音频特征和声纹信息,音频特征推到出对应的文本特征,并实现识别。基于语音合成中的输入数据可拆分为文本特征,然后通过输出的音频特征和声纹信息叠加,实现语音合成,即对偶任务数据的关联关系为上述除去声纹信息的部分互为对偶。上述待处理信息即为影响对偶关系完整对应的声纹信息,则此时需要的数据处理网络则为声纹提取网络,以实现对待处理信息的提取和过滤。本申请实施例中的执行对偶任务的网络模型系统,对偶任务中一端输入数据是数据m的特征m_feature,m_feature由前端模块处理得到,m_feature经由encoder_a提取高维特征向量vector_a,向量vector_a输入recovery_b进行恢复,恢复出来的数据为n_feature,n_feature经过末端处理模块恢复出数据n,至此就完成了由数据m到数据n的转化。本申请不对前端模块、末端处理模块进行限定,视具体任务的需求情况而具体设定。同理,对偶任务中另一端输入的是数据n的特征n_feature, n_feature由前端模块处理得到,n_feature经由encoder_b提取高维特征向量vector_b,向量vector_b输入recovery_a进行恢复,恢复出来的数据为m_feature,m_feature经过末端处理恢复出数据m,至此就完成了由数据n到数据m的转化,上述执行对偶任务的网络模型系统的输入端和输出端根据输入数据而改变,上述由数据m到数据n的转化,以及由数据n到数据m的转化,互为对偶任务。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型训练过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现模型训练方法。
上述处理器执行上述模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
上述计算机设备,通过预训练形成的双向对齐模型,双向推导出对偶任务的原始数据,建立执行对偶任务的网络模型系统,编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现模型训练方法,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
上述计算机可读存储介质,通过预训练形成的双向对齐模型,双向推导出对偶任务的原始数据,建立执行对偶任务的网络模型系统,编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种模型训练方法,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述方法包括:
获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
2.根据权利要求1所述的模型训练方法,其特征在于,所述通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离的步骤,包括:
通过训练数据集最小化所述第一损失函数;
判断所述第一损失函数的函数值是否不再继续下降;
若是,则判定所述第一损失函数在训练数据集降到最低,网络收敛,判定找到所述第一数据和所述第二数据在高维空间的对齐向量;
确定所述第一损失函数达最小值时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合。
3.根据权利要求2所述的模型训练方法,其特征在于,通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统的步骤,包括:
判断所述对齐向量经过所述第二损失函数约束的第二孪生网络,是否可得到所述第一数据,判断所述对齐向量经过所述第二损失函数约束的第三孪生网络,是否可得到所述第二数据;
若是,则判定所述第二孪生网络和所述第三孪生网络完成训练;
将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统。
4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述第二孪生网络和所述第三孪生网络组合为执行对偶任务的网络模型系统的步骤,包括:
获取待执行任务的任务属性;
根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型;
将所述待执行任务的输入数据,输入所述待执行任务的任务模型;
接收所述任务模型运行所述输入数据后的输出结果。
5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述待执行任务的任务属性,通过组合所述第一编码器和所述第二恢复网络,或者通过组合所述第二编码器和所述第一恢复网络,形成执行所述待执行任务的任务模型的步骤之后,包括:
获取组合所述第一编码器和所述第二恢复网络后的第一预训练网络,以执行第一任务,或者获取组合所述第二编码器和所述第一恢复网络后的第二预训练网络,以执行第二任务,其中,所述第一任务指输入所述第一数据,输出所述第二数据,所述第二任务指输入所述第二数据,输出所述第一数据;
通过所述第一任务的训练数据,训练所述第一预训练网络,得到执行所述第一任务的任务模型,通过所述第二任务的训练数据,训练所述第二预训练网络,得到执行所述第二任务的任务模型;
生成将所述待执行任务的输入数据输入所述待执行任务的任务模型的指令。
6.根据权利要求1所述的模型训练方法,其特征在于,所述执行对偶任务的网络模型系统包括数据处理网络,所述获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量的步骤之前,包括:
判断所述第一数据和所述第二数据的数据类型是否相同;
若不同,则连接所述数据处理网络;
通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据。
7.根据权利要求6所述的模型训练方法,其特征在于,所述通过所述数据处理网络将所述第一数据和所述第二数据,转化成数据类型相同的数据的步骤,包括:
根据所述第一数据和所述第二数据的数据特征,识别所述第一数据和所述第二数据互为对偶任务数据的关联关系;
根据所述关联关系确定待处理信息;
通过所述待处理信息、所述第一数据和所述第二数据输入所述数据处理网络,将所述第一数据和所述第二数据修正为数据类型相同的对偶任务数据。
8.一种模型训练装置,其特征在于,所述模型包括第一编码器和第二编码器组成的第一孪生网络,所述装置包括:
第一获取模块,用于获取所述第一编码器处理第一数据后输出的第一高维向量,以及所述第二编码器处理第二数据输出的第二高维向量;
第一训练模块,用于通过第一损失函数训练所述第一孪生网络,至所述第一损失函数达最小值时,所述第一孪生网络训练收敛,其中,所述第一损失函数为所述第一高维向量和第二高维向量的空间距离;
第二获取模块,用于获取所述第一孪生网络训练收敛时,所述第一编码器对应的第一参数集合以及所述第二编码器对应的第二参数集合;
组成模块,用于将所述第一参数集合下的所述第一编码器和第一恢复网络组成第二孪生网络,将所述第二参数集合下的所述第二编码器和第二恢复网络组成第三孪生网络;
第二训练模块,用于通过第二损失函数,分别训练所述第二孪生网络和所述第三孪生网络至收敛,将所述第一编码器与所述第二恢复网络组合,将所述第二编码器与所述第一恢复网络组合,得到执行对偶任务的网络模型系统。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542456.6A CN111444731B (zh) | 2020-06-15 | 2020-06-15 | 模型训练方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542456.6A CN111444731B (zh) | 2020-06-15 | 2020-06-15 | 模型训练方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444731A true CN111444731A (zh) | 2020-07-24 |
CN111444731B CN111444731B (zh) | 2020-11-03 |
Family
ID=71655358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010542456.6A Active CN111444731B (zh) | 2020-06-15 | 2020-06-15 | 模型训练方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444731B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037760A (zh) * | 2020-08-24 | 2020-12-04 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
CN112104863A (zh) * | 2020-09-18 | 2020-12-18 | 北京金山云网络技术有限公司 | 视频质量评测模型训练、视频质量评测的方法和相关装置 |
CN112328734A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 生成文本数据的方法、装置和计算机设备 |
CN112365885A (zh) * | 2021-01-18 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 唤醒模型的训练方法、装置和计算机设备 |
CN112487819A (zh) * | 2020-12-18 | 2021-03-12 | 成都数联铭品科技有限公司 | 一种企业间同名人识别方法、系统、电子设备及存储介质 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN117788967A (zh) * | 2023-12-08 | 2024-03-29 | 国网冀北电力有限公司信息通信分公司 | 特征表示模型的训练方法、装置、存储介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887484A (zh) * | 2019-02-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN109903075A (zh) * | 2019-01-16 | 2019-06-18 | 创新奇智(合肥)科技有限公司 | 基于dnn的回归分布模型及其训练方法、电子设备 |
CN109978140A (zh) * | 2019-03-27 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、可读存储介质和计算机设备 |
CN110826634A (zh) * | 2019-11-11 | 2020-02-21 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
US20200082271A1 (en) * | 2017-11-30 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, summary generation model training method, and computer device |
CN110929802A (zh) * | 2019-12-03 | 2020-03-27 | 北京迈格威科技有限公司 | 基于信息熵的细分类识别模型训练、图像识别方法及装置 |
CN111047006A (zh) * | 2019-10-28 | 2020-04-21 | 浙江工业大学 | 一种基于对偶式生成网络的对抗攻击防御模型及应用 |
KR20200045128A (ko) * | 2018-10-22 | 2020-05-04 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
CN111178036A (zh) * | 2019-12-06 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
-
2020
- 2020-06-15 CN CN202010542456.6A patent/CN111444731B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082271A1 (en) * | 2017-11-30 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, summary generation model training method, and computer device |
KR20200045128A (ko) * | 2018-10-22 | 2020-05-04 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
CN109903075A (zh) * | 2019-01-16 | 2019-06-18 | 创新奇智(合肥)科技有限公司 | 基于dnn的回归分布模型及其训练方法、电子设备 |
CN109887484A (zh) * | 2019-02-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN109978140A (zh) * | 2019-03-27 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、可读存储介质和计算机设备 |
CN111047006A (zh) * | 2019-10-28 | 2020-04-21 | 浙江工业大学 | 一种基于对偶式生成网络的对抗攻击防御模型及应用 |
CN110826634A (zh) * | 2019-11-11 | 2020-02-21 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN110929802A (zh) * | 2019-12-03 | 2020-03-27 | 北京迈格威科技有限公司 | 基于信息熵的细分类识别模型训练、图像识别方法及装置 |
CN111178036A (zh) * | 2019-12-06 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
Non-Patent Citations (1)
Title |
---|
张振宇: "基于对偶学习的top_n推荐系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037760A (zh) * | 2020-08-24 | 2020-12-04 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
US11488578B2 (en) | 2020-08-24 | 2022-11-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training speech spectrum generation model, and electronic device |
CN112104863A (zh) * | 2020-09-18 | 2020-12-18 | 北京金山云网络技术有限公司 | 视频质量评测模型训练、视频质量评测的方法和相关装置 |
CN112104863B (zh) * | 2020-09-18 | 2022-11-11 | 北京金山云网络技术有限公司 | 视频质量评测模型训练、视频质量评测的方法和相关装置 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN112328734A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 生成文本数据的方法、装置和计算机设备 |
CN112328734B (zh) * | 2020-11-05 | 2024-02-13 | 中国平安人寿保险股份有限公司 | 生成文本数据的方法、装置和计算机设备 |
CN112487819A (zh) * | 2020-12-18 | 2021-03-12 | 成都数联铭品科技有限公司 | 一种企业间同名人识别方法、系统、电子设备及存储介质 |
CN112365885A (zh) * | 2021-01-18 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 唤醒模型的训练方法、装置和计算机设备 |
CN117788967A (zh) * | 2023-12-08 | 2024-03-29 | 国网冀北电力有限公司信息通信分公司 | 特征表示模型的训练方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111444731B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444731B (zh) | 模型训练方法、装置和计算机设备 | |
CN111428867B (zh) | 基于可逆分离卷积的模型训练方法、装置和计算机设备 | |
CN111429923B (zh) | 说话人信息提取模型的训练方法、装置和计算机设备 | |
CN110442870B (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN113657399B (zh) | 文字识别模型的训练方法、文字识别方法及装置 | |
CN111583913B (zh) | 语音识别和语音合成的模型训练方法、装置和计算机设备 | |
US10679610B2 (en) | Eyes-off training for automatic speech recognition | |
WO2019200923A1 (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
Shinghal et al. | Experiments in text recognition with the modified Viterbi algorithm | |
WO2005103949A2 (en) | System-resource-based multi-modal input fusion | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN115994317A (zh) | 基于深度对比学习的不完备多视图多标签分类方法和系统 | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN114758645A (zh) | 语音合成模型的训练方法、装置、设备及存储介质 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116913254A (zh) | 语音识别模型的训练方法、装置、计算机设备及存储介质 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN110489348B (zh) | 一种基于迁移学习的软件功能缺陷挖掘方法 | |
CN118711128A (zh) | 一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN106228975A (zh) | 一种移动终端的语音识别系统及方法 | |
CN114357950B (zh) | 数据改写方法、装置、存储介质及计算机设备 | |
CN115101050A (zh) | 语音识别模型训练方法和装置、语音识别方法、介质 | |
CN114625917A (zh) | 视频搜索纠错方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Model training methods, devices, and computer equipment Granted publication date: 20201103 Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd. Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd. Registration number: Y2024980029366 |