CN111325038B - 翻译训练数据生成方法、装置、计算机设备及存储介质 - Google Patents
翻译训练数据生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111325038B CN111325038B CN202010078640.XA CN202010078640A CN111325038B CN 111325038 B CN111325038 B CN 111325038B CN 202010078640 A CN202010078640 A CN 202010078640A CN 111325038 B CN111325038 B CN 111325038B
- Authority
- CN
- China
- Prior art keywords
- translation
- data
- target
- model
- translation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 406
- 238000012549 training Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013441 quality evaluation Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 74
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000014616 translation Effects 0.000 description 338
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种翻译训练数据生成方法、装置、计算机设备及存储介质。所述方法包括:对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。本发明实施例可以提高翻译模型的翻译质量。
Description
技术领域
本发明实施例涉及翻译领域,尤其涉及一种翻译训练数据生成方法、装置、计算机设备及存储介质。
背景技术
目前机器翻译多用预先训练的翻译模型进行自动翻译,为了提高模型的翻译质量,需要大量的平行语料进行模型训练。
为了构造大量的平行语料,可以通过反向翻译技术,即用平行语料训练正向翻译模型和反向翻译模型,然后用翻译模型翻译源语言和目标语言的单语语料,并将得到的伪平行语料和原有平行语料混合在一起,用以训练新的正向翻译模型和反向翻译模型。
在运用反向翻译技术的时候往往存在一个现象,即加入了大量单语语料做反向翻译,结果训练得到的翻译模型在测试集上的表现反而更差了或者提升不明显。
发明内容
本发明实施例提供一种翻译训练数据生成方法、装置、计算机设备及存储介质,可以提高翻译模型的翻译质量。
第一方面,本发明实施例提供了一种翻译训练数据生成方法,包括:
对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。
第二方面,本发明实施例还提供了一种翻译训练数据生成装置,包括:
目标数据类型确定模块,用于对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
目标训练语料生成模块,用于获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的翻译训练数据生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的翻译训练数据生成方法。
本发明实施例通过对翻译模型进行翻译质量评估,确定翻译质量低的目标数据类型,获取翻译质量低的目标数据类型的数据生成目标训练语料,对翻译模型继续训练,可以提高翻译模型的翻译质量,解决了现有技术中增加语料训练模型,模型的翻译质量难以提高的问题,实现提高训练样本的代表性,以继续对模型进行训练,提高模型的翻译质量。
附图说明
图1是本发明实施例一中的一种翻译训练数据生成方法的流程图;
图2是本发明实施例二中的一种翻译训练数据生成方法的流程图;
图3是本发明实施例三中的一种翻译训练数据生成装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种翻译训练数据生成方法的流程图的示意图,本实施例可适用于生成翻译训练数据,以对翻译模型进行训练的情况,该方法可以由本发明实施例提供的翻译训练数据生成装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。如图1所示,本实施例的方法具体包括:
S110,对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到。
翻译模型用于将源语种的数据翻译成目标语种的数据,其中,数据包括:文本数据和/或语音数据,具体的,翻译模型可以是Transformer模型,还可以是神经网络模型等,对此,本发明实施例不作具体限制。其中,Transformer模型的结构包括基于注意力(Attention)机制形成的编码解码(Encoder-Decoder)结构。
翻译质量评估是指评估翻译模型将一条源语种数据翻译成目标语种的数据的翻译质量,其中,翻译质量可以是指机器翻译与专业人工翻译的相似程度,通常机器翻译结果越接近专业人工翻译结果,该机器翻译翻译质量越高;机器翻译结果越远离专业人工翻译结果,该机器翻译翻译质量越低。翻译质量低条件用于判断翻译模型翻译质量低的目标数据类型,示例性的,翻译质量低条件用于根据翻译模型翻译每条条数据的翻译质量评估结果和对应的数据类型,判断数据类型对应的翻译质量,并从中确定质量低的目标数据类型。目标数据类型为翻译模型翻译质量低的数据类型,示例性的,数据类型包括下述至少一项:文学、军事、医疗、旅游以及其他等。初始训练语料用于对翻译模型进行训练。
翻译模型可以包括下述至少一项:正向翻译模型、反向翻译模型和N语种到M语种翻译模型等。通常,正向翻译模型为将源语种A翻译成目标语种B的模型,而反向翻译模型为将源语种B翻译成目标语种A的模型,也即正向翻译模型和反向翻译模型为一对一的翻译模型。而N语种到M语种翻译模型是指,可以将任意一种源语种数据翻译成任意一种目标语种数据,也即N语种到M语种翻译模型可以同时实现正向翻译模型和反向翻译模型的翻译功能,即可以实现将源语种A翻译成目标语种B,也可以实现将源语种B翻译成目标语种A。示例性的额,语种A为中文,语种B为英文。
可选的,所述对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,包括:获取多个测试集,不同测试集中数据的数据类型不同;分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型。
其中,测试集用于评估翻译模型的翻译质量,可以包括翻译模型对应的平行语料。测试集包括至少两个语种的数据,测试集的数量为至少两个。不同测试集中数据的数据类型不同,一个测试集对应一个数据类型。
翻译质量评估结果用于判断翻译模型的翻译质量。需要说明的是,翻译质量评估结果可以是指翻译模型翻译测试集中任意一条数据(如一个词、一个句或一个段落)的翻译质量。
具体的,根据测试集进行翻译质量评估可以是:选择测试集中任意一条数据,该条数据实际是一个数据对,并选择一个翻译模型,从该数据对中的源语种的数据输入到该翻译模型中,得到该翻译模型中输出的译文,与该数据对中的目标语种的数据进行相似度计算,得到该翻译模型针对该条数据的质量评估结果,其中,不同翻译模型的源语种和目标语种不同。统计该翻译模型针对该测试集每条数据的质量评估结果,确定该翻译模型针对该测试集的翻译质量评估结果,例如,可以计算针对该测试集中每条数据的质量评估结果的平均值,作为针对该测试集的翻译质量评估结果。
其中,一条数据可以包括一个数据对,具体是源语种的数据和目标语种的数据,每个语种的数据可以对应包括多个不同表达方式且语义相同的数据。示例性的,一条数据包括:我爱中国、我喜欢中国、I love China以及I love China等。
设定评估阈值用于判断翻译模型针对各测试集的翻译质量是否为质量低,以及用于判断满足翻译质量低条件的目标数据类型。
通过根据不同数据类型的测试集对各翻译模型进行翻译质量评估,根据每条数据的翻译质量评估结果,以及每条数据的数据类型,确定翻译质量评估结果低于设定评估阈值的测试集,并将该测试集的数据类型,作为目标数据类型,可以准确确定各翻译模型对应的翻译效果差的数据类型,从而精准提高翻译模型的翻译质量。
具体的,所述对预先训练的至少一个翻译模型进行翻译质量评估,包括:根据双语评价研究算法BLEU对各所述翻译模型进行翻译质量评估。
其中,双语评价研究算法BLEU(Bilingual Evaluation Understudy),即双语互译质量评估辅助工具,BLEU是一种文本评估算法,用于评估机器翻译与专业人工翻译之间的相似程度。通常对一个句子输入到翻译模型中进行翻译可以得到好几种翻译结果,根据翻译结果形成候选翻译集,通常,一个句子会存在多个参考翻译,形成参考翻译集,通过sacrebleu工具,计算候选翻译集和参考翻译集中的多元精度得分(N-gram PrecisionScoring),作为BLEU值。
示例性的,可以基于如下公式计算BLEU值:
其中,表示不同的N-gram的精度的对数的加权和,随着N-gram的增大,总体的精度得分是呈指数下降的,所以一般N-gram最多取到4-gram。wn是指第n-gram的权重值。
BP可以基于如下公式计算:
C为机器翻译的词的数量,r为参考译文(专业人工翻译)的词的数量。
此外,还可以采用其他方法或者公式计算BLEU的值,对此,本发明实施例不作具体限制。
通过双语评价研究算法BLEU可以准确评估翻译模型的翻译质量,从而提高训练样本的代表性,以提高翻译模型的翻译质量。
可选的,在获取多个测试集之前,还包括:获取测试数据;将所述测试数据中的各条数据分别输入到预先训练的分类模型中,得到所述分类模型输出的各条数据匹配的数据类型;按照数据类型对测试数据进行分类,形成不同数据类型的测试集。
测试数据包括至少两个数据类型的数据,测试数据用于评估翻译模型的翻译质量。分类模型用于确定测试数据的数据类型。示例性的,分类模型包括BERT模型(Bidirectional Encoder Representation from Transformers,双向翻译的编码器),BERT模型是预训练模型,具体是双向翻译模型的编码器。通过BERT模型进行分类具体是:利用BERT模型将句子映射到固定长度向量,并对向量进行分类,输出句子对应不同数据类型的概率。更详细的,对BERT模型的输出结果取第1维做线性变化分别映射至相同长度向量,并对向量执行预测任务,确定向量对应最有可能的数据类型,作为该句的数据类型。BERT的模型的主体结构为多层的双向的Transformers的编码器。
通过使用分类模型快速准确对测试数据进行分类,提高数据分类的准确性,从而准确确定翻译模型的翻译质量差的数据类型,并收集翻译质量差的数据类型的样本,针对性的对翻译模型进行训练,提高翻译模型的翻译质量。
可选的,在对预先训练的至少一个翻译模型进行翻译质量评估之前,还包括:获取所述初始训练语料,并对所述初始训练语料进行预处理,所述预处理包括下述至少一项:数据清洗、数据过滤、符号标准化和分词处理;根据预处理得到的初始训练语料对各所述翻译模型进行训练。
预处理用于对初始训练语料进行数据处理,如剔除无效数据,并保留关键数据等,提高数据的质量。
其中,数据清洗用于形成标准、干净以及连续的数据。数据过滤用于筛选数据,实现针对性收集满足设定过滤条件的数据。符号标准化用于对数据中包括的标点符号进行标准化,即按照预先规定的符号一致性规则,统一标点符号的格式(如全角或半角)。分词处理用于将句数据进行切分形成多个词,实际上,在自然语言处理过程中,均是以词为单位进行处理的,均需将句子切分成词在进行后续处理。
将经过预处理的数据作为训练样本,可以提高翻译模型的翻译准确率。
S120,获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。
目标训练语料的数据类型为目标数据类型,目标训练语料用于训练翻译模型。目标训练语料实际是重新获取的训练语料,与翻译模型的初始训练语料不同。具体的,训练语料包括多个源语种数据和目标语种数据形成的数据对。目标训练语料与初始训练语料不同是指,目标训练语料中的数据对与初始训练语料中的数据对不同,其中,数据对不同是指数据对不完全相同。数据对中包括两个不同语种的数据,且语义相同。
可选的,所述至少一个翻译模型包括正向翻译模型和反向翻译模型;所述获取与所述目标数据类型匹配的目标训练语料,包括:获取所述目标数据类型匹配的单语数据;将所述单语数据输入到所述翻译模型中,得到输出的翻译数据,并结合所述单语数据,形成目标训练语料。
其中,进行翻译质量评估的模型包括正向翻译模型和反向翻译模型,其中,正向翻译模型的源语种为反向翻译模型的目标语种;正向翻译模型的目标语种为反向翻译模型的源语种。
单语数据是指一个语种的数据。单语数据的数据类型为目标数据类型。单语数据的语种包括正向翻译模型的源语种(反向翻译模型的目标语种)或目标语种(反向翻译模型的源语种)。其中,单语数据可以是直接从网络上抓取的属于目标数据类型的单语数据。翻译数据是单语数据对应的译文。根据单语数据和匹配的翻译数据,形成多个数据对,作为目标训练语料。
参考前例,单语数据可以是指语种A的数据,也可以是语种B的数据。将语种A的单语数据输入到正向翻译模型中,可以得到正向翻译模型输出的语种B的翻译数据。将语种B的单语数据输入到反向翻译模型中,可以得到反向翻译模型输出的语种A的翻译数据。分别根据语种A的单语数据和语种B的翻译数据生成数据对,以及根据语种B的单语数据和语种A的翻译数据生成数据对,将生成的数据对,作为目标训练语料,也即语种A和语种B的平行语料,
通过获取目标数据类型的单语数据,并获取相应的翻译数据,形成目标训练语料,可以快速获取提高翻译模型的翻译质量的训练数据,从而提高翻译模型训练效率,以及提高翻译模型的翻译质量。
需要说明的是,可以将语种A的单语数据和语种B的翻译数据生成的数据对仅作为反向翻译模型的目标训练语料;并将语种B的单语数据和语种A的翻译数据生成的数据对仅作为正向翻译模型的目标训练语料。
可选的,在获取与所述目标数据类型匹配的目标训练语料之后,还包括:根据所述目标训练语料继续对各所述翻译模型进行训练;将待翻译的源语种文本数据输入到训练后的目标翻译模型中,得到输出的目标语种文本数据,所述目标翻译模型用于将源语种文本翻译成目标语种文本。
其中,目标训练语料代表翻译模型翻译质量低的数据类型的数据,通过将目标训练语料对翻译模型进行训练,可以针对翻译质量低的数据类型对翻译模型进行训练,提高翻译模型的翻译质量。
可以直接将目标训练语料对翻译模型进行训练,还可以将目标训练语料添加到初始训练语料中,提高训练语料的代表性。根据目标训练语料和初始训练语料结合后的语料对翻译模型进行训练。
待翻译的源语种文本数据是指需要进行翻译的数据。目标语种文本数据是指源语种文本数据的译文。训练后的目标翻译模型在目标训练语料匹配的数据类型下的翻译质量有了明显的提高。基于训练后的目标翻译模型对待翻译的源语种文本数据进行翻译,可以提高输出的目标语种文本数据的翻译质量。
通过根据目标训练语料对翻译模型进行训练,可以有效提高翻译模型在目标训练语料关联的数据类型下的翻译质量。
本发明实施例通过对翻译模型进行翻译质量评估,确定翻译质量低的目标数据类型,获取翻译质量低的目标数据类型的数据生成目标训练语料,对翻译模型继续训练,可以提高翻译模型的翻译质量,解决了现有技术中增加语料训练模型,模型的翻译质量难以提高的问题,实现提高训练样本的代表性,以继续对模型进行训练,提高模型的翻译质量。
实施例二
图2为本发明实施例二中的一种翻译训练数据生成方法的流程图,本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括:
S210,获取所述初始训练语料,并对所述初始训练语料进行预处理,所述预处理包括下述至少一项:数据清洗、数据过滤、符号标准化和分词处理。
本发明实施例的初始训练语料、预处理、数据清洗、数据过滤、符号标准化、分词处理、正向翻译模型、反向翻译模型、测试集、数据类型、翻译质量评估、翻译质量评估结果、评估阈值、翻译质量低条件、目标数据类型、单语数据、翻译数据和目标训练语料等均可以参考前述实施例的描述。
S220,根据预处理得到的初始训练语料对正向翻译模型和反向翻译模型进行训练。
S230,获取多个测试集,不同测试集中数据的数据类型不同。
可选的,在获取多个测试集之前,还包括:获取测试数据;将所述测试数据中的各条数据分别输入到预先训练的分类模型中,得到所述分类模型输出的各条数据匹配的数据类型;按照数据类型对测试数据进行分类,形成不同数据类型的测试集。
其中,测试数据可以从网络中抓取,示例性的,可以收集30万条数据作为测试数据。分类模型需要预先训练。
S240,分别根据测试集对各所述翻译模型进行翻译质量评估。
S250,根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型。
每个翻译模型可以对应有至少一个目标数据类型,从而可以存在多个目标数据类型。
可选的,所述对预先训练的至少一个翻译模型进行翻译质量评估,包括:根据双语评价研究算法BLEU对各所述翻译模型进行翻译质量评估。
S260,获取所述目标数据类型匹配的单语数据。
S270,将所述单语数据输入到各所述翻译模型中,得到输出的翻译数据,并结合所述单语数据,形成目标训练语料。
针对每个目标数据类型,均获取匹配的单语数据以及对应的翻译数据,形成数据对,将生成的全部数据对,作为目标训练语料。单语数据可以包括初始训练语料中的数据,还可以包括与初始训练语料不同的数据。
正向翻译模型对第一语种的单语数据的翻译过程和反向翻译模型对第二语种的单语数据的翻译过程可以同时进行,也可以分先后,对此,本发明实施例不作具体限制。
S280,根据所述目标训练语料继续对各所述翻译模型进行训练。
S290,将待翻译的源语种文本数据输入到训练后的目标翻译模型中,得到输出的目标语种文本数据,所述目标翻译模型用于将源语种文本翻译成目标语种文本。
在一个具体的例子中,采用Transformer模型作为翻译模型,可以采用图形处理单元(Graphics Processing Unit,GPU)进行数据处理,该GPU有8个1080Ti核心。具体的,初始翻译模型为中文到英文的翻译,为正向翻译模型。初始训练语料包括5400万条数据,仅采用初始训练语料进行训练,正向翻译模型的BLEU值为22.0。采用反向翻译技术,构建反向翻译模型,并基于反向翻译模型根据单语数据构造平行语料,单语数据包括1亿条数据。基于构造的平行语料和初始训练语料,对正向翻译模型和反向翻译模型进行训练,此时,正向翻译模型的BLEU值为23.7,翻译质量有所提升,但提升的效果不明显。
采用本发明提供的翻译训练数据生成方法,确定正向翻译模型和反向翻译模型翻译质量低的至少一个目标数据类型,并根据各目标数据类型确定数据采集的领域,收集单语数据,构造平行语料,即目标训练语料。单语数据包括1亿条数据。基于构造的目标训练语料和初始训练语料,对正向翻译模型和反向翻译模型进行训练,此时,正向翻译模型的BLEU值为25.2,翻译质量明显提高。
表1实验数据
本发明实施例可以检测到翻译模型翻译效果差的领域,并针对翻译效果差的领域,收集单语数据,经过正向或反向翻译,形成双语数据,确定目标训练语料,对翻译模型进行针对性训练,有效提高翻译模型的翻译质量。
实施例三
图3为本发明实施例三中的一种翻译训练数据生成装置的示意图。实施例三是实现本发明上述实施例提供的翻译训练数据生成方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
目标数据类型确定模块310,用于对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
目标训练语料生成模块320,用于获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。
本发明实施例通过对翻译模型进行翻译质量评估,确定翻译质量低的目标数据类型,获取翻译质量低的目标数据类型的数据生成目标训练语料,对翻译模型继续训练,可以提高翻译模型的翻译质量,解决了现有技术中增加语料训练模型,模型的翻译质量难以提高的问题,实现提高训练样本的代表性,以继续对模型进行训练,提高模型的翻译质量。
进一步的,所述至少一个翻译模型包括正向翻译模型和反向翻译模型;所述目标训练语料生成模块320,包括:目标类型单语数据采集单元,用于获取所述目标数据类型匹配的单语数据;将所述单语数据输入到所述翻译模型中,得到输出的翻译数据,并结合所述单语数据,形成目标训练语料。
进一步的,所述目标数据类型确定模块310,包括:翻译质量评估单元,用于获取多个测试集,不同测试集中数据的数据类型不同;分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型。
进一步的,所述翻译训练数据生成装置,还包括:测试数据分类模块,用于在获取多个测试集之前,获取测试数据;将所述测试数据中的各条数据分别输入到预先训练的分类模型中,得到所述分类模型输出的各条数据匹配的数据类型;按照数据类型对测试数据进行分类,形成不同数据类型的测试集。
进一步的,所述翻译训练数据生成装置,还包括:数据预处理模块,用于在对预先训练的至少一个翻译模型进行翻译质量评估之前,获取所述初始训练语料,并对所述初始训练语料进行预处理,所述预处理包括下述至少一项:数据清洗、数据过滤、符号标准化和分词处理;根据预处理得到的初始训练语料对各所述翻译模型进行训练。
进一步的,所述目标数据类型确定模块310,包括:BLEU计算单元,用于根据双语评价研究算法BLEU对各所述翻译模型进行翻译质量评估。
进一步的,所述翻译训练数据生成装置,还包括:目标训练语料训练模块,用于在获取与所述目标数据类型匹配的目标训练语料之后,根据所述目标训练语料继续对各所述翻译模型进行训练;将待翻译的源语种文本数据输入到训练后的目标翻译模型中,得到输出的目标语种文本数据,所述目标翻译模型用于将源语种文本翻译成目标语种文本。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(PerIPheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的方法。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的翻译训练数据生成方法:
也即,该程序被处理器执行时实现:对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种翻译训练数据生成方法,其特征在于,包括:
对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同;
所述对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,包括:
获取多个测试集,不同测试集中数据的数据类型不同;
分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;
根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型;
所述根据各所述测试集的翻译质量评估结果是:
选择测试集中任意一条数据,该条数据实际是一个数据对,并选择一个翻译模型,从该数据对中的源语种的数据输入到该翻译模型中,得到该翻译模型中输出的译文,与该数据对中的目标语种的数据进行相似度计算,得到该翻译模型针对该条数据的质量评估结果,其中,不同翻译模型的源语种和目标语种不同。
2.根据权利要求1所述的方法,其特征在于,所述至少一个翻译模型包括正向翻译模型和反向翻译模型;
所述获取与所述目标数据类型匹配的目标训练语料,包括:
获取所述目标数据类型匹配的单语数据;
将所述单语数据输入到所述翻译模型中,得到输出的翻译数据,并结合所述单语数据,形成目标训练语料。
3.根据权利要求1所述的方法,其特征在于,在获取多个测试集之前,还包括:
获取测试数据;
将所述测试数据中的各条数据分别输入到预先训练的分类模型中,得到所述分类模型输出的各条数据匹配的数据类型;
按照数据类型对测试数据进行分类,形成不同数据类型的测试集。
4.根据权利要求1所述的方法,其特征在于,在对预先训练的至少一个翻译模型进行翻译质量评估之前,还包括:
获取所述初始训练语料,并对所述初始训练语料进行预处理,所述预处理包括下述至少一项:数据清洗、数据过滤、符号标准化和分词处理;
根据预处理得到的初始训练语料对各所述翻译模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述对预先训练的至少一个翻译模型进行翻译质量评估,包括:
根据双语评价研究算法BLEU对各所述翻译模型进行翻译质量评估。
6.根据权利要求1所述的方法,其特征在于,在获取与所述目标数据类型匹配的目标训练语料之后,还包括:
根据所述目标训练语料继续对各所述翻译模型进行训练;
将待翻译的源语种文本数据输入到训练后的目标翻译模型中,得到输出的目标语种文本数据,所述目标翻译模型用于将源语种文本翻译成目标语种文本。
7.一种翻译训练数据生成装置,其特征在于,包括:
目标数据类型确定模块,用于对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
目标训练语料生成模块,用于获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同;
所述目标数据类型确定模块,包括:
翻译质量评估单元,用于获取多个测试集,不同测试集中数据的数据类型不同;
分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;
根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阂值的数据类型,作为满足翻译质量低条件的目标数据类型;
所述根据各所述测试集的翻译质量评估结果是:
选择测试集中任意一条数据,该条数据实际是一个数据对,并选择一个翻译模型,从该数据对中的源语种的数据输入到该翻译模型中,得到该翻译模型中输出的译文,与该数据对中的目标语种的数据进行相似度计算,得到该翻译模型针对该条数据的质量评估结果,其中,不同翻译模型的源语种和目标语种不同。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的翻译训练数据生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的翻译训练数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078640.XA CN111325038B (zh) | 2020-02-03 | 2020-02-03 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078640.XA CN111325038B (zh) | 2020-02-03 | 2020-02-03 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325038A CN111325038A (zh) | 2020-06-23 |
CN111325038B true CN111325038B (zh) | 2023-08-18 |
Family
ID=71173245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010078640.XA Active CN111325038B (zh) | 2020-02-03 | 2020-02-03 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325038B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085985B (zh) * | 2020-08-20 | 2022-05-10 | 安徽七天网络科技有限公司 | 一种面向英语考试翻译题目的学生答案自动评分方法 |
CN112287656B (zh) * | 2020-10-12 | 2024-05-28 | 四川语言桥信息技术有限公司 | 文本比对方法、装置、设备和存储介质 |
CN112329482A (zh) * | 2020-10-28 | 2021-02-05 | 北京嘀嘀无限科技发展有限公司 | 机器翻译方法、装置、电子设备和可读存储介质 |
CN112270200B (zh) * | 2020-11-11 | 2023-10-27 | 北京有竹居网络技术有限公司 | 一种文本信息的翻译方法、装置、电子设备和存储介质 |
CN112800780A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种多语种机器翻译方法、装置、存储介质及设备 |
CN116522152B (zh) * | 2023-07-05 | 2023-11-10 | 深圳须弥云图空间科技有限公司 | 基于回译的翻译模型训练方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
-
2020
- 2020-02-03 CN CN202010078640.XA patent/CN111325038B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111325038A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325038B (zh) | 翻译训练数据生成方法、装置、计算机设备及存储介质 | |
JP6643555B2 (ja) | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 | |
CN111783451B (zh) | 用于增强文本样本的方法和装置 | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP7159248B2 (ja) | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 | |
CN106897439B (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
CN109684634B (zh) | 情感分析方法、装置、设备及存储介质 | |
CN109635305B (zh) | 语音翻译方法及装置、设备及存储介质 | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN111597800B (zh) | 同义句的获取方法及装置、设备及存储介质 | |
WO2024032691A1 (zh) | 一种机器翻译质量评估方法、装置、设备和存储介质 | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
CN111401078A (zh) | 神经网络文本翻译模型的运行方法、装置、设备、及介质 | |
WO2024146328A1 (zh) | 翻译模型的训练方法、翻译方法及设备 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112668339A (zh) | 语料样本确定方法、装置、电子设备及存储介质 | |
Ruiz et al. | Complexity of spoken versus written language for machine translation | |
WO2022227166A1 (zh) | 词语替换方法、装置、电子设备和存储介质 | |
CN112711943B (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
Zhu et al. | Improve word embedding using both writing and pronunciation | |
CN113782029A (zh) | 语音识别模型的训练方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |