CN113705158A

CN113705158A - 一种文档翻译中智能还原原文样式的方法

Info

Publication number: CN113705158A
Application number: CN202111129007.XA
Authority: CN
Inventors: 陈件; 潘丽婷; 成延
Original assignee: Shanghai Yizhe Information Technology Co ltd
Current assignee: Shanghai Yizhe Information Technology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-11-26
Anticipated expiration: 2041-09-26
Also published as: CN113705158B

Abstract

一种文档翻译中智能还原原文样式的方法，包括如下步骤：S100、解析文件获得原文，将原文翻译为译文；获取原文的特殊样式，以及译文中的修订痕迹、特殊样式，并在修订痕迹、特殊样式处使用替代字符进行替换，然后以修订痕迹、特殊样式处的字符下标值为key，字符值及样式为value存入map中；S200、识别句子并按格式分块，将原文句子按照存在样式的部分进行分割，得到原文集合，将对应的译文句子按照原文集合分割为译文集合；S300、将原文集合和译文集合发送到词对齐模块进行词对齐，使得原文的词和译文的词相对应；S400、根据词对齐结果还原样式，获得具有和原文相同样式的译文。本发明可以快速完成译文样式回填，在译文中还原原文格式，可显著提高翻译生产力。

Description

一种文档翻译中智能还原原文样式的方法

技术领域

本发明涉及及文档翻译(如PDF,WORD,PPT,EXCEL等)、辅助翻译、自动翻译、机器翻译等领域，特别是涉及一种文档翻译中智能还原原文样式的方法。

背景技术

在文件翻译过程中，在完成文字翻译后，往往需要将原文的样式(如字体、颜色等)应用到译文对应的位置中。传统的方式是翻译人员根据原文的样式手动添加对应的样式到译文中，在原文格式特别复杂的时候，人工添加译文样式特别费力，占用了整个翻译过程较多的时间。另外，通过传统规则(如：利于词典标记规则进行)来填充译文样式存在填充准确率低下的问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种文档翻译中智能还原原文样式的方法，其可以快速完成译文样式回填，在译文中还原原文格式，显著提高翻译生产力。

为实现上述目的，本发明提供了一种文档翻译中智能还原原文样式的方法，包括如下步骤：

S100、解析文件获得原文，将原文翻译为译文；翻译人员可以对译文进行修订、增加特殊样式。获取原文的特殊样式，以及译文中的修订痕迹、特殊样式，并在修订痕迹、特殊样式处使用替代字符进行替换，然后以修订痕迹、特殊样式处的字符下标值为key，字符值及样式为value存入map中；

S200、识别句子并按格式分块，将原文句子按照存在样式的部分进行分割，得到原文集合，译文为词组的文本状态，因此直接构成译文集合；

S300、将原文集合和译文集合发送到词对齐模块进行词对齐，使得原文的词和译文的词相对应；

S400、根据词对齐结果还原样式，获得具有和原文相同样式的译文。

作为本发明的优选技术方案，S300中词对齐的方法包括如下步骤：

S310、分词

使用BPE算法对不同语言文本进行分词，将原文和译文分别分割为相互对应的词；

S320、词向量加载

根据分词结果，加载mBERT预训练模型，使用multi-head和self-attention输出12层隐藏向量，选取最后一层隐藏向量作为词向量；

S330、相似度计算

相似度包括语义相似度和位置相似度(公式1)，语义相似度为原文词向量和译文词向量的余弦距离(公式2)，位置相似度为原文的词位置和译文的词位置的相对距离(公式3)：

S_ij＝SEM_ij*POS_ij (1)

其中，S_ij表示原文第i个词向量和译文第j个词向量的相似度，SEM_ij表示原文第i个词向量和译文第j个词向量的语义相似度，POS_ij表示原文第i个词向量和译文第j个词向量的位置相似度，v_i表示原文第i个词向量，v_j表示译文第j个词向量，l_s表示原文的词数，l_t表示译文的词数；α为超参数，限制位置相似度的权重，经过实验α取值为0.5。

S314、词匹配

原文词向量和译文词向量使用双向最优匹配，即当原文第i个词向量的相似度最高是译文第j个词向量，同时译文第j个词向量的相似度最高是原文第i个词向量时，第i个原文词向量与第j个译文词向量匹配(公式4)；

而双向最优匹配无法一次性将所有的原文单词和译文单词匹配，特别是对于原文中不同的词与同一个译文的词相似情况，而译文中的词与原文中的对应的多个词具有不用的相似程度，根据双向最优匹配原则，会选择相似度最高的词，因此其它词就不能匹配。为了匹配剩下的词向量，需要在每一次双向最优匹配后更新相似度矩阵S_ij(公式5)，将已匹配的词对(M_ij＝1)的相似度变为0(S_ij^＝0)，然后进行下一次双向最优匹配，并不断重复公式4和公式5的操作，直到所有原文和译文单词匹配：

S′_ij＝(1-M_ij)*S_ij (5)

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配。

作为本发明的优选技术方案，S400中还包括如下步骤：

S410处理对齐结果：

S411、替换

由于在经过词对齐处理后译文经过分词，原先的空格已经缺失，所以需要修补空格，同时需要将被替换的删除字符进行还原，方法如下：

轮询译文集合，针对译文集合中的元素文本进行再次进行轮询，同时在记录递增的下标值；如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时，则获取原先译文下标值对应字符填充至备用文本池中，同时下标值递增继续进行比较；如果一致则将轮询中的文本字符放入备用文本池中，并循环至下一个文本字符；如果识别到当前元素为替代字符，那么根据当前下标值去样式map中寻找改字符，并将改字符放入备用文本池中；

在当前元素文本中的所有字符轮询完毕后，将备用文本池中的内容去替换当前元素文本，循环至下一个元素文本；

S412、应用原文样式到译文

获取原文中特殊样式字符对齐的结果位置，将译文集合中与结果位置对应处的元素清空，并补充原文TAG样式后重新放入同一个元素内。

S420、还原样式

还原译文原先样式为Atom集合，再次遍历译文集合，现在集合中会存在两种类型的元素，一种是普通文本元素，另一种是已经替换过的Atom子集合；在还原创建时，依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式，如果是添加或者删除样式，那么需要将Atom的reviseType设置成1(新增)或者-1(删除)；如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间，最后将3个Atom放入集合，还原结果，对齐完毕。

本发明的有益效果是：

本发明通过自动填充样式方法，可以快速完成译文样式回填，在译文中还原原文格式，可显著提高翻译生产力。

附图说明

图1是运行流程示意图；

图2是还原样式后的结果图；

图3是分词示意图；

图4是词向量加载示意图；

图5是双向最优匹配和相似度更新示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参见图1，本实施例的文档翻译中智能还原原文样式的方法，运行过程如下：1、解析文件并分句后得到句子。

句子原文：今天得天气真的不错，温度比较适宜。

句子译文：The weather is nice today,and the temperature is moresuitable.

原文中`温度`为下划线样式部分，译文中`really`为翻译过程中经常使用的修订删除部分，`nice`为辅助翻译中翻译人员自定义加粗部分。

处理译文，遍历译文每一个字符检查是否存在特殊样式和是否为修订痕迹，并将修订删除部分使用`0xE110`进行替换(替换的原因是为了在词对齐阶段不影响词对齐的结果)，同时以字符下标值为key，字符值及样式为value存入map中。

如下表所示：

表1.样式缓存表

2、发送给对齐模块进行词对齐

将原文按照存在样式的部分进行分割，得到原文集合[‘今天得天气真的不错，’,‘温度’,‘比较适宜。’]，同时将上述处理好的译文‘The weather is↑ ↑ ↑ ↑ ↑ ↑nicetoday,and the temperature is more suitable.’一起发送进行词对齐，词对齐的实现方法见本实施例的第4部分，得到结果如下：

表2.词对齐结果

3、处理对齐结果

STEP1:替换

由于在经过词对齐处理后target_sent_list译文经过分词，原先的空格已经缺失，所以需要修补空格，同时我们需要将被替换的删除字符进行还原。

轮询target_sent_list，针对集合中的元素文本进行再次进行轮询，同时在记录递增的下标值，如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时，则获取原先译文下标值对应字符填充至备用文本池中，同时下标值递增继续进行比较，如果一致则将轮询中的文本字符放入备用文本池中，并循环至下一个文本字符。

如果识别到当前元素为`0xE110`字符，那么根据当前下标值去样式map中寻找字符，并将改字符放入备用文本池中。

在当前元素文本中的所有字符轮询完毕后，将备用文本池中的内容去替换当前元素文本，循环至下一个元素文本，处理后的target_sent_list如下：

Atom元素	编号
		The	0
weather	1
		is	2
r	3
		e	4
a	5
		l	6
l	7
		y	8
nice	9
		today	10
,	11
		and	12
the	13
		temperature	14
Is	15
		more	16
suitable	17
		.	18

表3.替换结果表

STEP2:应用原文样式到译文

获取原文`温度`词对齐的结果为[1-13，1-14]，将译文集合target_sent_list中13个元素和14个元素清空，并补充原文TAG样式后重新放入第14个元素位置结果如下：

target_sent_list如下：

表4.应用原文样式结果表

STEP3:还原样式

还原译文原先样式为Atom集合，再次遍历target_sent_list，现在集合中会存在两种类型的元素，一种是普通文本元素(例如The,weather)，另一种是已经替换过的Atom子集合(如第14元素)，在还原创建时，依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式，如果是添加或者删除样式，那么需要将Atom的reviseType设置成1(新增)或者-1(删除)，如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间，最后将3个Atom放入集合，还原结果如下，对齐完毕，参见图2。

4、词对齐技术的实现思路

传统词对齐是基于双语对齐语料的模型，比如IBM模型，但是数据成本和训练成本较高，不同语言之间都需要训练对应的模型。

本项目词对齐是基于bert-base-multilingual-cased(mBERT)的预训练模型进行无监督匹配，该模型支持104种语言的预训练词向量。

STEP1:分词使用BPE算法对不同语言文本进行分词，比如原文：“我爱中国”和译文：“I love China”，分词后分别得到“我”，“爱”，“中”，“国”和“I”，“love”，“China“，参见图3。

STEP2:词向量加载

根据分词结果，加载mBERT预训练模型，使用multi-head和self-attention输出12层隐藏向量，选取最后一层隐藏向量作为词向量，参见图4。此处为mBERT的常规技术,mBERT与BERT的技术原理相同，训练数据不同，参考文献：Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K..(2018).Bert:pre-training ofdeepbidirectional transformersforlanguage understanding。

STEP3:相似度计算

S_ij＝SEM_ij*POS_ij (1)

STEP4:词匹配

而双向最优匹配无法一次性将所有的原文单词和译文单词匹配，特别是对于原文中不同的词与同一个译文的词相似情况，而译文中的词与原文中的对应的多个词具有不用的相似程度，根据双向最优匹配原则，会选择相似度最高的词，因此其它词就不能匹配。为了匹配剩下的词向量，需要在每一次双向最优匹配后更新相似度矩阵S_ij(公式5)，将已匹配的词对(M_ij＝1)的相似度变为0(S_ij^＝0)，然后进行下一次双向最优匹配，并不断重复公式4和公式5的操作，直到所有原文和译文单词匹配(参见图5)：

S′_ij＝(1-M_ij)*S_ij (5)

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种文档翻译中智能还原原文样式的方法，其特征在于，包括如下步骤：

S100、解析文件获得原文，将原文翻译为译文；获取原文的特殊样式，以及译文中的修订痕迹、特殊样式，并在修订痕迹、特殊样式处使用替代字符进行替换，然后以修订痕迹、特殊样式处的字符下标值为key，字符值及样式为value存入map中；

S200、识别句子并按格式分块，将原文句子按照存在样式的部分进行分割，得到原文集合；

2.如权利要求1所述的方法，其特征在于，S100中翻译人员可对译文进行修订、增加特殊样式。

3.如权利要求1所述的方法，其特征在于，S300中词对齐的方法包括如下步骤：

S310、分词

S320、词向量加载

S330、相似度计算

S_ij＝SEM_ij*POS_ij (1)

其中，S_ij表示原文第i个词向量和译文第j个词向量的相似度，SEM_ij表示原文第i个词向量和译文第j个词向量的语义相似度，POS_ij表示原文第i个词向量和译文第j个词向量的位置相似度，v_i表示原文第i个词向量，v_j表示译文第j个词向量，l_s表示原文的词数，l_t表示译文的词数；α为超参数，限制位置相似度的权重；

S314、词匹配

原文词向量和译文词向量使用双向最优匹配，即当原文第i个词向量的相似度最高是译文第j个词向量，同时译文第j个词向量的相似度最高是原文第i个词向量时，第i个原文词向量与第j个译文词向量匹配(公式4)：

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配。

4.如权利要求3所述的方法，其特征在于，S314中还包括：在每一次双向最优匹配后更新相似度矩阵S_ij(公式5)，将已匹配的词对(M_ij＝1)的相似度变为0(S_ij^＝0)，然后进行下一次双向最优匹配，并不断重复公式4和公式5的操作，直到所有原文和译文单词匹配：

S′_ij＝(1-M_ij)*S_ij (5)

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配。

5.如权利要求1所述的方法，其特征在于，S400中还包括如下步骤：

S410处理对齐结果：

S411、替换

S412、应用原文样式到译文

6.如权利要求5所述的方法，其特征在于，S400中还包括如下步骤：

S420、还原样式

还原译文原先样式为Atom集合，再次遍历译文集合，现在集合中会存在两种类型的元素，一种是普通文本元素，另一种是已经替换过的Atom子集合；在还原创建时，依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式，如果是添加或者删除样式，那么需要将Atom的reviseType设置成1或者-1；如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间，最后将3个Atom放入集合，还原结果，对齐完毕。

7.如权利要求3所述的方法，其特征在于，α取值为0.5。