CN117034961B - 一种基于bert的中法互译质量测评方法 - Google Patents
一种基于bert的中法互译质量测评方法 Download PDFInfo
- Publication number
- CN117034961B CN117034961B CN202311297834.9A CN202311297834A CN117034961B CN 117034961 B CN117034961 B CN 117034961B CN 202311297834 A CN202311297834 A CN 202311297834A CN 117034961 B CN117034961 B CN 117034961B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- translation
- bert
- sentence
- french
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000001303 quality assessment method Methods 0.000 title claims description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000013441 quality evaluation Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000013077 scoring method Methods 0.000 abstract 1
- 230000014616 translation Effects 0.000 description 114
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于BERT的中法互译质量测评方法,属于自然语言处理技术领域,包括:采用BERT在中文和法文的语义表征能力,并结合翻译场景下的跨语言的情况,构建中法语言转换深度神经网络结构;采用语句翻译的词汇级别准确度打分方法,不依赖翻译词典,根据预先训练的词汇相关度模型进行词汇准确度打分,具有词汇准确度打分准确并且任意两个词汇之间皆可打分特点,并通过门控网络把两种得分融合;采用门控网络和句子语义表达BERT Fine‑Tune任务一起训练,并使用BERT的句子语义特征和词汇翻译位置偏移作为特征,确保门控结构能够针对不同情况调整词汇准确度得分和句子语义表达得分,保证最终测评打分的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于BERT的中法互译质量测评方法。
背景技术
随着中法以及中非的社会交流日益密切,法语的学习者和从业者也越来越多,中法语言互译也成为他们学习和工作中经常面临的重要任务。但是不同人群的语言能力各不相同,也就导致了翻译质量的参差不齐,这就给后期的校对和勘正提出了很大的挑战。亟须一个中法互译质量的评估方法,来帮助从业者评价翻译的质量和提升翻译的水平。
现有的翻译质量评价系统,例如BLEU、COMET、HLEPOR等都是基于参考译文和机器译文的差异,用于评价机器翻译水平的,对于没有参考译文的人工翻译,目前还没有一种有效的评价工具。随着机器学习中自然语言模型的不断发展,新的大语言模型不断提出,模型的表征能力也越来越强,BERT就是预训练语言表征模型中的佼佼者,甫一提出就刷新了11个NLP任务的最好成绩。BERT采用MLM对双向自注意机制transforms神经网络结构进行预训练,使得其能够很好的融合上下文信息,理解词汇和句子的含义,这提供了一种构建人工翻译评价方法的新思路。
但是预训练语言表征模型在中文和法文中是各自独立的模型,词汇和句子的向量表征不具有可比性,没有办法直接使用。
发明内容
本发明提供一种基于BERT的中法互译质量测评方法,用以解决现有技术中针对中法互译质量测评中存在的缺陷。
本发明提供的基于BERT的中法互译质量测评方法,包括:
构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;
由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;
对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;
获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;
对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;
构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分。
根据本发明提供的一种基于BERT的中法互译质量测评方法,构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示,包括:
基于预设法汉词典获取中文词汇翻译样本和法文词汇翻译样本;
确定所述法文词汇翻译样本以及对应的中文翻译为正样本;
在所述中文词汇翻译样本和所述法文词汇翻译样本中采用batch内随机负采样确定负样本;
基于所述正样本和所述负样本确定词汇对正负样本比例,得到所述中法词汇对训练集合;
将所述中法词汇对训练集合分别输入谷歌中文BERT模型以及根据法语语料库训练出来的FlauBERT模型,得到所述中法词汇向量表示。
根据本发明提供的一种基于BERT的中法互译质量测评方法,由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型,包括:
基于负样本规则,将一个batch内的法语词汇向量和中文词汇向量进行拼接,构成正样本对和负样本对;
将所述正样本对和所述负样本对输入DNN网络,所述DNN网络包括四层中间层、一层输出层、激活函数sigmoid和损失函数softmax,得到所述词汇相似度预测模型。
根据本发明提供的一种基于BERT的中法互译质量测评方法,对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分,包括:
分别对所述源语句和所述翻译语句进行切词,得到中文句子和法文句子的词汇序列和词汇在句子中的位置信息;
利用所述词汇相似度预测模型计算所述词汇序列和所述词汇在句子中的位置信息,得到中法词汇之间的词汇相似度预测得分。
根据本发明提供的一种基于BERT的中法互译质量测评方法,获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分,包括:
根据所述中法词汇之间的词汇相似度预测得分,采用动态规划方法,获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系;
获取语句词汇翻译对应关系对应的得分作为语句翻译的词汇准确度得分。
根据本发明提供的一种基于BERT的中法互译质量测评方法,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系,包括:
确定由源语句到翻译语句进行匹配,以及由翻译语句到源语句进行匹配;
获取最大得分更小对应的匹配作为所述语句词汇翻译对应关系。
根据本发明提供的一种基于BERT的中法互译质量测评方法,对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分,包括:
基于预设中法平行语料库获取中法句子翻译样本;
利用所述中法句子翻译样本对中法BERT进行微调,训练语义关系神经网络;
在中文BERT最后一个隐藏层和法文BERT最后一个隐藏层之上构建多层DNN;
所述多层DNN利用BERT的上下文语义信息确定中文和法文语义关系;
由中文和法文语义关系构建所述语言语义对应关系,由所述语言语义对应关系输出句子翻译语义表达得分。
根据本发明提供的一种基于BERT的中法互译质量测评方法,所述多层DNN包括由中文BERT和法文BERT的最后一个隐藏层词句向量表示,包括四层中间层、一层输出层和激活函数sigmoid。
根据本发明提供的一种基于BERT的中法互译质量测评方法,构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分,包括:
计算翻译样本的词汇准确度得分和所述词汇准确度得分对应的词汇位置偏移度;
将所述词汇位置偏移度以及中文BERT和法文BERT的最后一个隐藏层词句向量表示,输入所述门控网络;
由所述门控网络的输出确定词汇准确度得分以及句子语义表达得分的融合关系,得到最终翻译质量评分。
根据本发明提供的一种基于BERT的中法互译质量测评方法,所述门控网络包括三层中间层、一层输出层、激活函数sigmoid和交叉熵损失函数。
本发明提供的基于BERT的中法互译质量测评方法,利用了BERT在中文和法文上成熟的语义表征能力,并结合翻译场景下的跨语言的情况,构建中法语言转换的深度神经网络结构,进行BERT模型的Fine-Tune,用较少的训练语料和训练资源,达到很好的翻译评估效果;创新性的提出了语句翻译的词汇级别准确度打分方法,该方法不依赖翻译词典,而根据预先训练的词汇相关度模型进行词汇准确度打分,具有词汇准确度打分准确并且任意两个词汇之间皆可打分的特点;创新性的提出了翻译的词汇级准确度得分和句子级语义表达得分的方法,并通过门控网络把两种得分融合,既考虑了翻译的准确,也考虑了语义的表达,使得评分更加准确合理;采用门控网络和句子语义表达BERT Fine-Tune任务一起训练,并使用BERT的句子语义特征和词汇翻译位置偏移作为特征,保证了门控结构能够针对不同情况调整词汇准确度得分和句子语义表达得分的权重,保证最终打分的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于BERT的中法互译质量测评方法的流程示意图之一;
图2是本发明提供的基于BERT的中法互译质量测评方法的流程示意图之二;
图3是本发明提供的句子语义DNN网络的详细结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于BERT的中法互译质量测评方法的流程示意图之一,如图1所示,包括:
步骤100:构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;
步骤200:由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;
步骤300:对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;
步骤400:获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;
步骤500:对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;
步骤600:构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分。
具体地,如图2所示,首先构建中法词汇翻译的训练样本,利用BERT在中法语言中预训练的语言表征能力,分别生成对应中法词汇的向量表示;
把中法词汇的BERT向量结合组成交叉特征,作为深度学习网络DNN的输入,经过多个全连接的隐藏层,学习出中法BERT词汇向量之间的转换关系,预测中法词汇的准确度,得到词汇准确度的预测模型;
对源语句和翻译语句进行切词,根据训练得到的中法词汇准确度模型,得到中文词汇和法文词汇两两之间的准确度预测得分;
找出使得平均词汇准确度得分最大的词汇对应关系序列,并将其得分作为语句翻译的词汇准确度得分;
在句子级别,对中法的BERT模型微调(Fine-Tune),利用BERT的上下文语句语义理解能力,在中文BERT的最后一个隐藏层和法文BERT最后一个隐藏层之上构建一个统一的多层DNN,来学习语言语义的对应关系;DNN的输出作为句子翻译的语义表达得分;
构建一个门控网络,把词汇准确度得分最大的词汇对序列的位置偏移,以及中文和法文BERT的语义输出层,作为门控网络的输入,通过门控结构来控制词汇准确度得分和句子语义表达得分的融合关系,作为最终的翻译质量评分。
可以理解的是,上述步骤中主要包含三个部分:词汇级别的准确度打分、句子级别的语义表达打分和门控结构控制的融合得分。
词汇准确度打分部分, 因为词汇没有上下文的信息,BERT预训练模型的隐藏层输出的embedding已经能很好的表达词汇的信息,将中法词汇的embedding拼接起来作为DNN的输入特征,就能很好的训练词汇打分模型,相比Fine-Tune节省了大量的计算和训练资源。而在预测过程中,计算出每一个中文词汇和每一个法语单词之间的准确度,然后选择出得分最大的一组词汇翻译匹配组合,将其得分作为词汇准确度得分,并记录该组合的源词汇和目标词汇在句子中的位置偏差信息作为门控网络的特征输入。
句子语义表达打分部分,句子的语义相比单个词汇要复杂的多,而且翻译的不同应用场景的要求,也需要对BERT模型进行微调(Fine-Tune),训练集合采用了公开的中法联合国平行语料库,按照语义准确度的目标,同时对中法BERT模型进行微调,包括中文BERT微调向量:最后一层隐藏层句子输出向量c,transformer网络结构向量t1、…、tn,词句向量表示Ecls、E1、…、En。同样地,包括法文BERT微调向量:最后一层隐藏层句子输出向量c,transformer网络结构向量t1、…、tn,词句向量表示Ecls、E1、…、En。进一步训练出中法句子语义表达转换的深度神经网络。
门控结构控制的融合得分部分,门控网络和句子语义表达部分属于同一个训练任务,门控网络的目标是结合词汇级别的翻译得分和句子级别的语义得分,进行一个综合打分;如果机械的逐词翻译,那么其词汇准确度得分很高,语义表达得分很低,门控网络能够识别这种情况,对词汇准确度得分降权,使得最终得分不会偏高,反之亦然。融合得分计算公式如下:
Score = Pgate* AccuracyScore + (1 – Pgate)* SemanticScore
本发明利用了BERT在中文和法文上成熟的语义表征能力,并结合翻译场景下的跨语言的情况,构建中法语言转换的深度神经网络结构,进行BERT模型的Fine-Tune,用较少的训练语料和训练资源,达到很好的翻译评估效果;创新性的提出了语句翻译的词汇级别准确度打分方法,该方法不依赖翻译词典,而根据预先训练的词汇相关度模型进行词汇准确度打分,具有词汇准确度打分准确并且任意两个词汇之间皆可打分的特点;创新性的提出了翻译的词汇级准确度得分和句子级语义表达得分的方法,并通过门控网络把两种得分融合,既考虑了翻译的准确,也考虑了语义的表达,使得评分更加准确合理;采用门控网络和句子语义表达BERT Fine-Tune任务一起训练,并使用BERT的句子语义特征和词汇翻译位置偏移作为特征,保证了门控结构能够针对不同情况调整词汇准确度得分和句子语义表达得分的权重,保证最终打分的准确性。
基于上述实施例,构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示,包括:
基于预设法汉词典获取中文词汇翻译样本和法文词汇翻译样本;
确定所述法文词汇翻译样本以及对应的中文翻译为正样本;
在所述中文词汇翻译样本和所述法文词汇翻译样本中采用batch内随机负采样确定负样本;
基于所述正样本和所述负样本确定词汇对正负样本比例,得到所述中法词汇对训练集合;
将所述中法词汇对训练集合分别输入谷歌中文BERT模型以及根据法语语料库训练出来的FlauBERT模型,得到所述中法词汇向量表示。
具体地,本发明实施例构建中文和法文的词汇翻译样本,数据来自新法汉词典。正样本是法文词汇和其对应的中文翻译,如果有多种解释,就构建多条正样本;负样本使用batch内负采样的方式,batch设置为1024,则词汇对正负样本的比例为1:1023,因为batch本身是随机的,这种方式在保证负采样全局随机的前提下,大大提升了训练性能。
基于上述实施例,由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型,包括:
基于负样本规则,将一个batch内的法语词汇向量和中文词汇向量进行拼接,构成正样本对和负样本对;
将所述正样本对和所述负样本对输入DNN网络,所述DNN网络包括四层中间层、一层输出层、激活函数sigmoid和损失函数softmax,得到所述词汇相似度预测模型。
具体地,本发明实施例中的中文BERT模型使用谷歌发布的中文模型,法语BERT模型则采用单独用法语语料库训练出来的FlauBERT模型(效果比谷歌发布的多语种混合BERT模型好),将词汇样本分别访问对应语言的BERT模型,得到词汇的向量表示。一个batch内得到1024个法语词汇的向量和1024个中文词汇的向量,根据负样本的规则,把向量拼接起来,构建成1024个正样本对和1024*1023个负样本对,作为词汇DNN网络的输入,DNN有四层中间层,维度分别为128,64,32,16,输出层的维度为1,sigmod之后作为词汇准确度预测得分,采用listwise的softmax方法作为损失函数。
基于上述实施例,对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分,包括:
分别对所述源语句和所述翻译语句进行切词,得到中文句子和法文句子的词汇序列和词汇在句子中的位置信息;
利用所述词汇相似度预测模型计算所述词汇序列和所述词汇在句子中的位置信息,得到中法词汇之间的词汇相似度预测得分。
具体地,由得到的词汇准确度计算模型,对于中文语句和法文语句,其词汇准确度的计算方法为:首先对语句切词,得到中文和法文句子的词汇序列和词汇在句子中的位置信息;然后根据2得到的模型,计算中文词汇与法文词汇两两之间的准确度。
基于上述实施例,获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分,包括:
根据所述中法词汇之间的词汇相似度预测得分,采用动态规划方法,获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系;
获取语句词汇翻译对应关系对应的得分作为语句翻译的词汇准确度得分。
其中,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系,包括:
确定由源语句到翻译语句进行匹配,以及由翻译语句到源语句进行匹配;
获取最大得分更小对应的匹配作为所述语句词汇翻译对应关系。
具体地,本发明实施例根据得到的词汇准确度,使用动态规划的方法,找出平均词汇准确度得分最高的词汇对应组合的序列,作为语句的词汇翻译的对应关系,而这个最高平均得分就是中文语句和法文语句的词汇准确度得分。
此处还需要注意的一点是词汇对应关系要取源语句到翻译语句和翻译语句到源语句两种匹配方式中,取最大得分更小的方式作为最终选择的匹配序列。
基于上述实施例,对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分,包括:
基于预设中法平行语料库获取中法句子翻译样本;
利用所述中法句子翻译样本对中法BERT进行微调,训练语义关系神经网络;
在中文BERT最后一个隐藏层和法文BERT最后一个隐藏层之上构建多层DNN;
所述多层DNN利用BERT的上下文语义信息确定中文和法文语义关系;
由中文和法文语义关系构建所述语言语义对应关系,由所述语言语义对应关系输出句子翻译语义表达得分。
其中,所述多层DNN包括由中文BERT和法文BERT的最后一个隐藏层词句向量表示,包括四层中间层、一层输出层和激活函数sigmoid。
具体地,本发明实施例进一步通过构建中文和法文句子翻译的样本,进行BERT的Fine-Tune和语义关系神经网络的训练,数据来自联合国中法平行语料库(United NationsParallel Corpus),该语料库收集了联合国各种文件和文件类型的平行文本,保证了训练数据的准确性;在中文BERT的最后一个隐藏层和法文FlauBERT最后一个隐藏层之上构建一个统一的多层DNN,该DNN的目标利用BERT的上下文语义信息学习到中文和法文的语义关系。正样本是平行语料库中一对一的翻译文本,负样本包含两部分:一是全局的随机负采样,二是打乱正样本语句中的词汇顺序,构造的困难负样本,这两部分的负样本比例是95:5。这样的样本构成保证了模型对于语义信息和上下文信息的重视程度,能有效提升模型效果。
语义关系DNN网络的输入是拼接中文BERT和法文FlauBERT最后一个隐藏层的embedding,该有4层中间层,维度分别为512、256、64、32,输出层的维度为1,sigmod后作为最终的语义预测得分,其结构如图3所示。
基于上述实施例,构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分,包括:
计算翻译样本的词汇准确度得分和所述词汇准确度得分对应的词汇位置偏移度;
将所述词汇位置偏移度以及中文BERT和法文BERT的最后一个隐藏层词句向量表示,输入所述门控网络;
由所述门控网络的输出确定词汇准确度得分以及句子语义表达得分的融合关系,得到最终翻译质量评分。
其中,所述门控网络包括三层中间层、一层输出层、激活函数sigmoid和交叉熵损失函数。
具体地,本发明实施例针对翻译样本,计算出翻译样本的词汇准确度得分和该得分下对应的词汇位置偏移度,把该位置偏移度和中文BERT和法文FlauBERT最后一个隐藏层的embedding一起作为特征输入门控网络DNN,用该DNN的输出来控制词汇准确度得分和句子语义表达得分的融合关系,得到最终的翻译质量评分。门控DNN网络有3个中间层,维度分别为128、64、32,输出层的维度为1,sigmod后作为词汇准确度得分和句子语义表达得分的控制系数。门控网络与前述实施例中的语义关系DNN网络同属一个训练任务,损失函数采用交叉熵损失函数。
此外,针对特定的翻译领域,可以新增额外的训练样本进行加强训练,在模型的checkpoint上继续训练。对于额外训练样本,调大其训练的epoch数,用于加强模型在某一特定领域的预测准确性。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于BERT的中法互译质量测评方法,该方法包括:构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于BERT的中法互译质量测评方法,该方法包括:构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于BERT的中法互译质量测评方法,其特征在于,包括:
构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;
由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;
对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;
获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;
对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;
构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分;
获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分,包括:
根据所述中法词汇之间的词汇相似度预测得分,采用动态规划方法,获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系;
获取语句词汇翻译对应关系对应的得分作为语句翻译的词汇准确度得分;
对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分,包括:
基于预设中法平行语料库获取中法句子翻译样本;
利用所述中法句子翻译样本对中法BERT进行微调,训练语义关系神经网络;
在中文BERT最后一个隐藏层和法文BERT最后一个隐藏层之上构建多层DNN;
所述多层DNN利用BERT的上下文语义信息确定中文和法文语义关系;
由中文和法文语义关系构建所述语言语义对应关系,由所述语言语义对应关系输出句子翻译语义表达得分;
利用所述中法句子翻译样本对中法BERT进行微调,训练语义关系神经网络,包括:
对中文BERT以及法文BERT微调向量,包括最后一层隐藏层句子输出向量、transformer网络结构向量和词句向量表示,得到所述语义关系神经网络。
2.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示,包括:
基于预设法汉词典获取中文词汇翻译样本和法文词汇翻译样本;
确定所述法文词汇翻译样本以及对应的中文翻译为正样本;
在所述中文词汇翻译样本和所述法文词汇翻译样本中采用batch内随机负采样确定负样本;
基于所述正样本和所述负样本确定词汇对正负样本比例,得到所述中法词汇对训练集合;
将所述中法词汇对训练集合分别输入谷歌中文BERT模型以及根据法语语料库训练出来的FlauBERT模型,得到所述中法词汇向量表示。
3.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型,包括:
基于负样本规则,将一个batch内的法语词汇向量和中文词汇向量进行拼接,构成正样本对和负样本对;
将所述正样本对和所述负样本对输入DNN网络,所述DNN网络包括四层中间层、一层输出层、激活函数sigmoid和损失函数softmax,得到所述词汇相似度预测模型。
4.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分,包括:
分别对所述源语句和所述翻译语句进行切词,得到中文句子和法文句子的词汇序列和词汇在句子中的位置信息;
利用所述词汇相似度预测模型计算所述词汇序列和所述词汇在句子中的位置信息,得到中法词汇之间的词汇相似度预测得分。
5.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,确定所述平均词汇相似度预测得分最高的词汇对应关系序列为语句词汇翻译对应关系,包括:
确定由源语句到翻译语句进行匹配,以及由翻译语句到源语句进行匹配;
获取最大得分更小对应的匹配作为所述语句词汇翻译对应关系。
6.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,所述多层DNN包括由中文BERT和法文BERT的最后一个隐藏层词句向量表示,包括四层中间层、一层输出层和激活函数sigmoid。
7.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分,包括:
计算翻译样本的词汇准确度得分和所述词汇准确度得分对应的词汇位置偏移度;
将所述词汇位置偏移度以及中文BERT和法文BERT的最后一个隐藏层词句向量表示,输入所述门控网络;
由所述门控网络的输出确定词汇准确度得分以及句子语义表达得分的融合关系,得到最终翻译质量评分。
8.根据权利要求7所述的基于BERT的中法互译质量测评方法,其特征在于,所述门控网络包括三层中间层、一层输出层、激活函数sigmoid和交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297834.9A CN117034961B (zh) | 2023-10-09 | 2023-10-09 | 一种基于bert的中法互译质量测评方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297834.9A CN117034961B (zh) | 2023-10-09 | 2023-10-09 | 一种基于bert的中法互译质量测评方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117034961A CN117034961A (zh) | 2023-11-10 |
CN117034961B true CN117034961B (zh) | 2023-12-19 |
Family
ID=88630426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311297834.9A Active CN117034961B (zh) | 2023-10-09 | 2023-10-09 | 一种基于bert的中法互译质量测评方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034961B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874172B (zh) * | 2024-03-11 | 2024-05-24 | 中国传媒大学 | 文本可读性评估方法及系统 |
CN118395996B (zh) * | 2024-07-01 | 2024-08-30 | 江西师范大学 | 一种基于深度交叉网络的机器译文自动评价方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120088032A (ko) * | 2010-10-18 | 2012-08-08 | 한국전자통신연구원 | 실시간 번역 지식 자동 추출/검증 방법 및 그 장치 |
CN106062736A (zh) * | 2014-03-07 | 2016-10-26 | 国立研究开发法人情报通信研究机构 | 词语对齐分数算出装置、词语对齐装置、以及计算机程序 |
CN109062912A (zh) * | 2018-08-08 | 2018-12-21 | 科大讯飞股份有限公司 | 一种翻译质量评价方法及装置 |
WO2019167603A1 (ja) * | 2018-02-27 | 2019-09-06 | 国立研究開発法人情報通信研究機構 | ニューラル機械翻訳モデルの訓練方法及び装置並びにそのためのコンピュータプログラム |
CN111046679A (zh) * | 2020-03-13 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 翻译模型的质量信息获取方法、装置及计算机设备 |
CN111625624A (zh) * | 2020-05-27 | 2020-09-04 | 湖北师范大学 | 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 |
CN112257461A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制的xml文档翻译及评价方法 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014062941A1 (en) * | 2012-10-17 | 2014-04-24 | Proz.Com | Method and apparatus to facilitate high-quality translation of texts by multiple translators |
-
2023
- 2023-10-09 CN CN202311297834.9A patent/CN117034961B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120088032A (ko) * | 2010-10-18 | 2012-08-08 | 한국전자통신연구원 | 실시간 번역 지식 자동 추출/검증 방법 및 그 장치 |
CN106062736A (zh) * | 2014-03-07 | 2016-10-26 | 国立研究开发法人情报通信研究机构 | 词语对齐分数算出装置、词语对齐装置、以及计算机程序 |
WO2019167603A1 (ja) * | 2018-02-27 | 2019-09-06 | 国立研究開発法人情報通信研究機構 | ニューラル機械翻訳モデルの訓練方法及び装置並びにそのためのコンピュータプログラム |
CN109062912A (zh) * | 2018-08-08 | 2018-12-21 | 科大讯飞股份有限公司 | 一种翻译质量评价方法及装置 |
CN111046679A (zh) * | 2020-03-13 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 翻译模型的质量信息获取方法、装置及计算机设备 |
CN111625624A (zh) * | 2020-05-27 | 2020-09-04 | 湖北师范大学 | 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112257461A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制的xml文档翻译及评价方法 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
Non-Patent Citations (3)
Title |
---|
Ensemble_Fine-tuned_mBERT_for_Translation_Quality_Estimation;Shaika Chowdhury;《https://www.researchgate.net/publication/354493775_Ensemble_Fine-tuned_mBERT_for_Translation_Quality_Estimation》;第1-7页 * |
基于BERT和多相似度融合的句子对齐方法研究;刘文斌;《数据分析与知识发现》;第5卷(第07期);第48-58页 * |
融合BERT语境词向量的译文质量估计方法研究;李培芸;《中文信息学报》;第34卷(第3期);第56-63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117034961A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | An improved LSTM structure for natural language processing | |
CN117034961B (zh) | 一种基于bert的中法互译质量测评方法 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111984766A (zh) | 缺失语义补全方法及装置 | |
CN111144410B (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
CN112420024A (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN114429143A (zh) | 一种基于强化蒸馏的跨语言属性级情感分类方法 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
Zheng et al. | Improving Prosodic Boundaries Prediction for Mandarin Speech Synthesis by Using Enhanced Embedding Feature and Model Fusion Approach. | |
US20240104353A1 (en) | Sequence-to sequence neural network systems using look ahead tree search | |
CN115033753A (zh) | 训练语料集构建方法、文本处理方法及装置 | |
Hegde et al. | Mucs@-machine translation for dravidian languages using stacked long short term memory | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
Mahsuli et al. | English to Persian transliteration using attention-based approach in deep learning | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 | |
CN115017924B (zh) | 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 | |
Srivastava et al. | Image Captioning based on Deep Convolutional Neural Networks and LSTM | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |