CN112115725B - 一种多领域机器翻译网络训练方法及系统 - Google Patents
一种多领域机器翻译网络训练方法及系统 Download PDFInfo
- Publication number
- CN112115725B CN112115725B CN202010719198.4A CN202010719198A CN112115725B CN 112115725 B CN112115725 B CN 112115725B CN 202010719198 A CN202010719198 A CN 202010719198A CN 112115725 B CN112115725 B CN 112115725B
- Authority
- CN
- China
- Prior art keywords
- domain
- layer
- training
- translation
- embedded layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 21
- 230000009467 reduction Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 11
- 101150085931 DSTN gene Proteins 0.000 description 8
- 101100332287 Dictyostelium discoideum dst2 gene Proteins 0.000 description 6
- 101100534231 Xenopus laevis src-b gene Proteins 0.000 description 6
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种多领域机器翻译网络训练方法及系统,所述方法执行以下步骤:将领域标志信息融合到多领域训练数据中;将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;生成具有领域嵌入层的端到端的翻译网络;基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。根据本发明的方法,使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,这样可以提升各个领域的翻译效果;由于在领域批交替训练的过程中,基础领域和垂直领域是同时训练的,因此能有效缓解基础领域翻译效果的降低。
Description
技术领域
本发明涉及机器翻译技术领域,特别涉及一种多领域机器翻译网络训练方法及系统。
背景技术
目前,对于多领域翻译的训练方法主要有两种:其中一种方法是将多领域的数据混合在一起进行训练,这样训练好的网络模型同时具备多个领域翻译的能力,这种方法的弊端在于,由于多个领域的数据在训练过程中是随机组合的,很容易产生训练偏移,导致各个领域的翻译效果互相影响,翻译效果变差;还有另一种方法是首先训练好一种基础网络模型,比如说通用领域翻译网络模型,然后再在该通用领域网络模型的基础上对其他领域即垂直领域进行微调(Fine-Tuning),以得到垂直领域的翻译网络模型,这种方法虽然能有效提升垂直领域的翻译效果,但是会大大降低通用领域网络模型的翻译效果,这样在不同领域使用时需要不同的翻译网络模型。
发明内容
本发明提供一种多领域机器翻译网络训练方法及系统,用以有效提升多领域翻译的效果。
本发明提供了一种多领域机器翻译网络训练方法,所述方法执行以下步骤:
步骤1:将领域标志信息融合到多领域训练数据中;
步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
步骤3:生成具有领域嵌入层的端到端的翻译网络;
步骤4:基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
进一步地,所述步骤1:将领域标志信息融合到多领域训练数据中执行以下步骤:
步骤S11:获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
步骤S12:在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息。
进一步地,所述步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流包括:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流。
进一步地,所述步骤3:生成具有领域嵌入层的端到端的翻译网络执行以下步骤:
步骤S31:使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;
步骤S32:在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络。
进一步地,在所述步骤S31中,所述编码层包括第一嵌入层,所述解码层包括第二嵌入层,
对应地,所述步骤S32:在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络执行以下步骤:
步骤S321:在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层,以使所述第一领域嵌入层与所述第一嵌入层进行融合;
步骤S322:在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层.以使所述第二领域嵌入层与所述第二嵌入层进行融合,得到所述具有领域嵌入层的端到端的翻译网络。
进一步地,所述步骤4:基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型执行以下步骤:
步骤S41:在对所述具有领域嵌入层的端到端的翻译网络进行训练的过程中,读取所述交替数据流中的所述领域标志信息;
步骤S42:根据所读取的所述交替数据流中的所述领域标志信息,对所述具有领域嵌入层的端到端的翻译网络中的嵌入层进行训练,以得到具备多领域翻译能力的多领域翻译网络模型。
本发明实施例提供的一种多领域机器翻译网络训练方法,具有以下有益效果:使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,这样可以提升各个领域的翻译效果;由于在领域批交替训练的过程中,基础领域和垂直领域是同时训练的,因此能有效缓解基础领域翻译效果的降低。
本发明还提供一种多领域机器翻译网络训练系统,包括:
领域标志信息融合模块,用于将领域标志信息融合到多领域训练数据中;
交替数据流生成模块,用于将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
端到端翻译网络生成模块,用于生成具有领域嵌入层的端到端的翻译网络;
多领域翻译网络模型生成模块,用于基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
进一步地,所述领域标志信息融合模块包括:
多领域训练数据获取单元,用于获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
领域标志信息融合单元,用于在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息。
进一步地,所述交替数据流生成模块具体用于:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流。
进一步地,所述端到端翻译网络生成模块包括:
端到端翻译网络训练单元,使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;
领域嵌入层融合单元,用于在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络。
本发明实施例提供的一种多领域机器翻译网络训练系统,具有以下有益效果:使用多领域批交替训练技术能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,这样可以提升各个领域的翻译效果;由于在领域批交替训练的过程中,基础领域和垂直领域是同时训练的,因此能有效缓解基础领域翻译效果的降低。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种多领域机器翻译网络训练方法的流程示意图;
图2为本发明实施例中一种多领域机器翻译网络训练系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种多领域机器翻译网络训练方法,如图1所示,所述方法执行以下步骤:
步骤1:将领域标志信息融合到多领域训练数据中;
步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
步骤3:生成具有领域嵌入层的端到端的翻译网络;
步骤4:基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的工作原理为:发明人经过研究发现,针对多领域翻译的训练方法中,领域数据混合训练的方法很容易产生训练偏移,导致各个领域的翻译效果互相影响,领域翻译的效果变差,本发明采用多领域批(batch)交替训练的方法能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,使各个领域翻译效果变得更好;利用微调(Fine-Tuning)的方法虽然能提升垂直领域的翻译效果,但基础领域的翻译效果会下降很多,本发明采用多领域批交替训练的方法,由于基础领域和垂直领域是同时训练的,所以能有效缓解基础领域翻译效果的降低。
具体地,首先将领域标志信息融合到多领域训练数据中;然后将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;接着生成具有领域嵌入层的端到端的翻译网络;最后,基于步骤2得到的交替数据流,对步骤3得到的具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的有益效果为:使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,这样可以提升各个领域的翻译效果;由于在领域批交替训练的过程中,基础领域和垂直领域是同时训练的,因此能有效缓解基础领域翻译效果的降低。
在一个实施例中,所述步骤1:将领域标志信息融合到多领域训练数据中执行以下步骤:
步骤S11:获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
步骤S12:在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息。
上述技术方案的工作原理为:多领域训练数据包含多个领域的双语平行句对<src1,dst1>、<src2,dst2>、...、<srcN,dstN>,其中,srcN表示第N个待翻译文本,dstN表示第N个与待翻译文本对应的翻译文本,在多领域训练数据中加入领域标志信息,将平行句对变成三元组<src1,dst1,direct1>、<src2,dst2,direct2>、...、<srcN,dstN,directN>,其中,directN表示第N个待翻译文本所属领域的领域标志信息。
上述技术方案的有益效果为:提供了将领域标志信息融合到多领域训练数据中的具体步骤。
在一个实施例中,所述步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流包括:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流。
上述技术方案的工作原理为:在步骤2中,对神经网络的训练是按批进行训练的,将多领域训练数据每次送入不同的批中进行交替训练,得到的数据流分别为<D1,D2,...,DN,D1,D2,...,DN,...>,其中数据流中D1即为<src1,dst1,direct1>,D2即为<src2 dst2,direct2>,DN即为<srcN,dstN,directN>。即每个数据量中均包括了待翻译文本、翻译文本以及领域标志信息。
上述技术方案的有益效果为:提供了将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流的具体方法。
在一个实施例中,所述步骤3:生成具有领域嵌入层的端到端的翻译网络执行以下步骤:
步骤S31:使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;
步骤S32:在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络。
上述技术方案的工作原理为:在步骤S31中,使用端到端的翻译网络进行模型训练,其中,端到端翻译网络由编码层(Encoder)和解码层(Decoder)组成;在步骤S32中,通过在编码层、解码层中增加领域嵌入(Embedding)层与原始的嵌入层相融合,可以得到具有领域嵌入层的端到端的翻译网络,称之为Net1。
具体而言,在所述步骤S31中,所述编码层包括第一嵌入层,所述解码层包括第二嵌入层,
对应地,所述步骤S32:在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络执行以下步骤:
步骤S321:在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层,以使所述第一领域嵌入层与所述第一嵌入层进行融合;
步骤S322:在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层,以使所述第二领域嵌入层与所述第二嵌入层进行融合,得到所述具有领域嵌入层的端到端的翻译网络。
上述技术方案的有益效果为:提供了生成具有领域嵌入层的端到端的翻译网络的具体步骤。
在一个实施例中,所述步骤4:基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型执行以下步骤:
步骤S41:在对所述具有领域嵌入层的端到端的翻译网络进行训练的过程中,读取所述交替数据流中的所述领域标志信息;
步骤S42:根据所读取的所述交替数据流中的所述领域标志信息,对所述具有领域嵌入层的端到端的翻译网络中的嵌入层进行训练,以得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的工作原理为:使用步骤2构建好的数据流<D1,D2,...,DN,D1,D2,...,DN,...>对步骤3得到的端到端翻译网络Net1进行训练,在训练过程中读取数据流<D1,D2,...,DN,D1,D2,...,DN,...>中的领域标志信息来训练融合后的嵌入层,最终得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的有益效果为:提供了基于交替数据流对具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型的具体步骤。
如图2所示,本发明实施例提供了一种多领域机器翻译网络训练系统,包括:
领域标志信息融合模块201,用于将领域标志信息融合到多领域训练数据中;
交替数据流生成模块202,用于将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
端到端翻译网络生成模块203,用于生成具有领域嵌入层的端到端的翻译网络;
多领域翻译网络模型生成模块204,用于基于所述交替数据流,对所述具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的工作原理为:发明人经过研究发现,针对多领域翻译的训练方法中,领域数据混合训练的方法很容易产生训练偏移,导致各个领域的翻译效果互相影响,领域翻译的效果变差,本发明采用多领域批(batch)交替训练的方法能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,使各个领域翻译效果变得更好;利用微调(Fine-Tuning)的方法虽然能提升垂直领域的翻译效果,但基础领域的翻译效果会下降很多,本发明采用多领域批交替训练的方法,由于基础领域和垂直领域是同时训练的,所以能有效缓解基础领域翻译效果的降低。
具体地,利用领域标志信息融合模块201将领域标志信息融合到多领域训练数据中;利用交替数据流生成模块202将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;利用端到端翻译网络生成模块203生成具有领域嵌入层的端到端的翻译网络;利用多领域翻译网络模型生成模块204,基于采用交替数据流生成模块202得到的交替数据流,对采用端到端翻译网络生成模块203得到的具有领域嵌入层的端到端的翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型。
上述技术方案的有益效果为:使用多领域批交替训练技术能有效缓解训练数据分布不均匀的情况,保证每个领域都能同时训练,这样可以提升各个领域的翻译效果;由于在领域批交替训练的过程中,基础领域和垂直领域是同时训练的,因此能有效缓解基础领域翻译效果的降低。
在一个实施例中,所述领域标志信息融合模块201包括:
多领域训练数据获取单元,用于获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
领域标志信息融合单元,用于在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息。
上述技术方案的工作原理为:多领域训练数据获取单元所获取的多领域训练数据包含多个领域的双语平行句对<src1,dst1>、<src2,dst2>、...、<srcN,dstN>,其中,srcN表示第N个待翻译文本,dstN表示第N个与待翻译文本对应的翻译文本;领域标志信息融合单元在多领域训练数据中加入领域标志信息,将平行句对变成三元组<src1,dst1,direct1>、<src2,dst2,direct2>、...、<srcN,dstN,directN>,其中,directN表示第N个待翻译文本所属领域的领域标志信息。
上述技术方案的有益效果为:借助于多领域训练数据获取单元和领域标志信息融合单元,可以将领域标志信息融合到多领域训练数据中。
在一个实施例中,所述交替数据流生成模块202具体用于:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流。
上述技术方案的工作原理为:在步骤2中,对神经网络的训练是按批进行训练的,将多领域训练数据每次送入不同的批中进行交替训练,得到的数据流分别为<D1,D2,...,DN,D1,D2,...,DN,...>,其中数据流中D1即为<src1,dst1,direct1>,D2即为<src2 dst2,direct2>,DN即为<srcN,dstN,directN>。即每个数据量中均包括了待翻译文本、翻译文本以及领域标志信息。
上述技术方案的有益效果为:借助于交替数据流生成模块,可以得到交替数据流。
在一个实施例中,所述端到端翻译网络生成模块203包括:
端到端翻译网络训练单元,使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;
领域嵌入层融合单元,用于在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的翻译网络。
上述技术方案的工作原理为:端到端翻译网络训练单元使用端到端的翻译网络进行模型训练,其中,端到端翻译网络由编码层(Encoder)和解码层(Decoder)组成;领域嵌入层融合单元通过在编码层、解码层中增加领域嵌入(Embedding)层与原始的嵌入层相融合,可以得到具有领域嵌入层的端到端的翻译网络,称之为Net1。
具体而言,端到端的翻译网络中的所述编码层包括第一嵌入层,所述解码层包括第二嵌入层,
对应地,领域嵌入层融合单元包括:
第一领域嵌入层融合子单元,用于在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层,以使所述第一领域嵌入层与所述第一嵌入层进行融合;
第二领域嵌入层融合子单元,用于在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层,以使所述第二领域嵌入层与所述第二嵌入层进行融合,得到所述具有领域嵌入层的端到端的翻译网络。
上述技术方案的有益效果为:借助于端到端翻译网络训练单元和领域嵌入层融合单元,可以生成具有领域嵌入层的端到端的翻译网络。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种多领域机器翻译网络训练方法,其特征在于,所述方法执行以下步骤:
步骤1:将领域标志信息融合到多领域训练数据中;
步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
步骤3:生成具有领域嵌入层的端到端的第一翻译网络;
步骤4:基于所述交替数据流,对所述具有领域嵌入层的端到端的第一翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型;
所述步骤1具体执行以下步骤:
步骤S11:获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
步骤S12:在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息;
所述步骤2:将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流,包括:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流;
其中,所述步骤3具体执行以下步骤:
步骤S31:使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;
步骤S32:在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的第一翻译网络;
其中,在所述步骤S31中,所述编码层包括第一嵌入层,所述解码层包括第二嵌入层;
对应地,所述步骤S32具体执行以下步骤:
步骤S321:在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层,以使所述第一领域嵌入层与所述第一嵌入层进行融合;
步骤S322:在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层,以使所述第二领域嵌入层与所述第二嵌入层进行融合,得到所述具有领域嵌入层的端到端的第一翻译网络;
所述步骤4具体执行以下步骤:
步骤S41:在对所述具有领域嵌入层的端到端的第一翻译网络进行训练的过程中,读取所述交替数据流中的所述领域标志信息;
步骤S42:根据所读取的所述交替数据流中的所述领域标志信息,对所述具有领域嵌入层的端到端的第一翻译网络中融合后的嵌入层进行训练,以得到具备多领域翻译能力的多领域翻译网络模型。
2.一种多领域机器翻译网络训练系统,其特征在于,包括:
领域标志信息融合模块,用于将领域标志信息融合到多领域训练数据中;
交替数据流生成模块,用于将融合的多领域训练数据分批次传入神经网络进行交替训练,得到交替数据流;
端到端翻译网络生成模块,用于生成具有领域嵌入层的端到端的第一翻译网络;
多领域翻译网络模型生成模块,用于基于所述交替数据流,对所述具有领域嵌入层的端到端的第一翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型;
领域标志信息融合模块包括:
多领域训练数据获取单元,用于获取多领域训练数据,所述多领域训练数据包括多个领域的双语平行句对;
领域标志信息融合单元,用于在所述多领域训练数据中加入领域标志信息,以将所述双语平行句对变成三元组,所述三元组包括双语平行句对和领域标志信息;
交替数据流生成模块具体用于:
将融合的多领域训练数据,分多次送入不同的批次中进行交替训练,得到所述交替数据流;
其中,所述端到端翻译网络生成模块包括:
端到端翻译网络训练单元,使用端到端的翻译网络进行模型训练,其中所述端到端的翻译网络包括编码层和解码层;端到端的翻译网络中的所述编码层包括第一嵌入层,所述解码层包括第二嵌入层;
领域嵌入层融合单元,用于在所述编码层和所述解码层中增加领域嵌入层,以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合,得到具有领域嵌入层的端到端的第一翻译网络;
对应地,领域嵌入层融合单元包括:
第一领域嵌入层融合子单元,用于在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层,以使所述第一领域嵌入层与所述第一嵌入层进行融合;
第二领域嵌入层融合子单元,用于在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层,以使所述第二领域嵌入层与所述第二嵌入层进行融合,得到所述具有领域嵌入层的端到端的第一翻译网络;
所述基于所述交替数据流,对所述具有领域嵌入层的端到端的第一翻译网络进行训练,得到具备多领域翻译能力的多领域翻译网络模型,具体执行以下步骤:
步骤S41:在对所述具有领域嵌入层的端到端的第一翻译网络进行训练的过程中,读取所述交替数据流中的所述领域标志信息;
步骤S42:根据所读取的所述交替数据流中的所述领域标志信息,对所述具有领域嵌入层的端到端的第一翻译网络中融合后的嵌入层进行训练,以得到具备多领域翻译能力的多领域翻译网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719198.4A CN112115725B (zh) | 2020-07-23 | 2020-07-23 | 一种多领域机器翻译网络训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719198.4A CN112115725B (zh) | 2020-07-23 | 2020-07-23 | 一种多领域机器翻译网络训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115725A CN112115725A (zh) | 2020-12-22 |
CN112115725B true CN112115725B (zh) | 2024-01-26 |
Family
ID=73799413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010719198.4A Active CN112115725B (zh) | 2020-07-23 | 2020-07-23 | 一种多领域机器翻译网络训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115725B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282555A (zh) * | 2022-03-04 | 2022-04-05 | 北京金山数字娱乐科技有限公司 | 翻译模型训练方法及装置、翻译方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN110472255A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 神经网络机器翻译方法、模型、电子终端以及存储介质 |
CN110991661A (zh) * | 2019-12-20 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8838433B2 (en) * | 2011-02-08 | 2014-09-16 | Microsoft Corporation | Selection of domain-adapted translation subcorpora |
-
2020
- 2020-07-23 CN CN202010719198.4A patent/CN112115725B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN110472255A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 神经网络机器翻译方法、模型、电子终端以及存储介质 |
CN110991661A (zh) * | 2019-12-20 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112115725A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399742B (zh) | 一种联邦迁移学习模型的训练、预测方法及装置 | |
US11042791B2 (en) | Method and apparatus for generating and reading composite two-dimensional code | |
CN102594557A (zh) | 对url加密的方法及装置、url验证的方法及装置 | |
CN112115725B (zh) | 一种多领域机器翻译网络训练方法及系统 | |
CN113194126B (zh) | 一种基于区块链的横向联邦学习模型构建方法 | |
CN113992360A (zh) | 一种基于区块链跨链的联邦学习方法及设备 | |
CN102214185B (zh) | 网页搜索方法及系统 | |
Liu et al. | Mixmae: Mixed and masked autoencoder for efficient pretraining of hierarchical vision transformers | |
WO2023103897A1 (zh) | 图像处理方法、装置、设备及存储介质 | |
CN103473583A (zh) | 一种应用于农家书屋的电子图书的显示方法 | |
CN105187373A (zh) | 一种数据的传输方法及系统 | |
Kurdi et al. | A Multi-Tier MQTT architecture with multiple brokers based on fog computing for securing industrial IoT | |
Alshamrani et al. | IoT data security with DNA-genetic algorithm using blockchain technology | |
CN102761543A (zh) | 一种实现sip协议通用编解码的方法和装置 | |
CN110035327A (zh) | 一种安全播放方法 | |
Wang et al. | A covert channel over blockchain based on label tree without long waiting times | |
CN104821881B (zh) | 一种基于压缩和纠错编码的物联网感知层数据安全融合方法 | |
CN108055268A (zh) | 一种基于PCIe链路数据透传加解密的方法 | |
CN101331768B (zh) | 传送有条件访问内容的方法 | |
CN113592097B (zh) | 联邦模型的训练方法、装置和电子设备 | |
CN100385887C (zh) | 数字数据的编码、传输和解码的方法和装置 | |
Suhail et al. | Optimization technique for implementation of blended learning in constrained low bandwidth environment | |
CN103533457B (zh) | 多媒体数字水印嵌入及分离方法和装置 | |
GB2537812A (en) | DRM Addition Authentication | |
CN114722418A (zh) | 一种安卓系统硬件加密的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |