CN113705158A - 一种文档翻译中智能还原原文样式的方法 - Google Patents

一种文档翻译中智能还原原文样式的方法 Download PDF

Info

Publication number
CN113705158A
CN113705158A CN202111129007.XA CN202111129007A CN113705158A CN 113705158 A CN113705158 A CN 113705158A CN 202111129007 A CN202111129007 A CN 202111129007A CN 113705158 A CN113705158 A CN 113705158A
Authority
CN
China
Prior art keywords
text
original
style
word
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111129007.XA
Other languages
English (en)
Other versions
CN113705158B (zh
Inventor
陈件
潘丽婷
成延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yizhe Information Technology Co ltd
Original Assignee
Shanghai Yizhe Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yizhe Information Technology Co ltd filed Critical Shanghai Yizhe Information Technology Co ltd
Priority to CN202111129007.XA priority Critical patent/CN113705158B/zh
Publication of CN113705158A publication Critical patent/CN113705158A/zh
Application granted granted Critical
Publication of CN113705158B publication Critical patent/CN113705158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种文档翻译中智能还原原文样式的方法,包括如下步骤:S100、解析文件获得原文,将原文翻译为译文;获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合,将对应的译文句子按照原文集合分割为译文集合;S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文。本发明可以快速完成译文样式回填,在译文中还原原文格式,可显著提高翻译生产力。

Description

一种文档翻译中智能还原原文样式的方法
技术领域
本发明涉及及文档翻译(如PDF,WORD,PPT,EXCEL等)、辅助翻译、自动翻译、机器翻译等领域,特别是涉及一种文档翻译中智能还原原文样式的方法。
背景技术
在文件翻译过程中,在完成文字翻译后,往往需要将原文的样式(如字体、颜色等)应用到译文对应的位置中。传统的方式是翻译人员根据原文的样式手动添加对应的样式到译文中,在原文格式特别复杂的时候,人工添加译文样式特别费力,占用了整个翻译过程较多的时间。另外,通过传统规则(如:利于词典标记规则进行)来填充译文样式存在填充准确率低下的问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种文档翻译中智能还原原文样式的方法,其可以快速完成译文样式回填,在译文中还原原文格式,显著提高翻译生产力。
为实现上述目的,本发明提供了一种文档翻译中智能还原原文样式的方法,包括如下步骤:
S100、解析文件获得原文,将原文翻译为译文;翻译人员可以对译文进行修订、增加特殊样式。获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;
S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合,译文为词组的文本状态,因此直接构成译文集合;
S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;
S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文。
作为本发明的优选技术方案,S300中词对齐的方法包括如下步骤:
S310、分词
使用BPE算法对不同语言文本进行分词,将原文和译文分别分割为相互对应的词;
S320、词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量;
S330、相似度计算
相似度包括语义相似度和位置相似度(公式1),语义相似度为原文词向量和译文词向量的余弦距离(公式2),位置相似度为原文的词位置和译文的词位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure BDA0003279792850000021
Figure BDA0003279792850000022
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重,经过实验α取值为0.5。
S314、词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4);
而双向最优匹配无法一次性将所有的原文单词和译文单词匹配,特别是对于原文中不同的词与同一个译文的词相似情况,而译文中的词与原文中的对应的多个词具有不用的相似程度,根据双向最优匹配原则,会选择相似度最高的词,因此其它词就不能匹配。为了匹配剩下的词向量,需要在每一次双向最优匹配后更新相似度矩阵Sij(公式5),将已匹配的词对(Mij=1)的相似度变为0(Sij^=0),然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配:
Figure BDA0003279792850000031
S′ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
作为本发明的优选技术方案,S400中还包括如下步骤:
S410处理对齐结果:
S411、替换
由于在经过词对齐处理后译文经过分词,原先的空格已经缺失,所以需要修补空格,同时需要将被替换的删除字符进行还原,方法如下:
轮询译文集合,针对译文集合中的元素文本进行再次进行轮询,同时在记录递增的下标值;如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较;如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符;如果识别到当前元素为替代字符,那么根据当前下标值去样式map中寻找改字符,并将改字符放入备用文本池中;
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本;
S412、应用原文样式到译文
获取原文中特殊样式字符对齐的结果位置,将译文集合中与结果位置对应处的元素清空,并补充原文TAG样式后重新放入同一个元素内。
S420、还原样式
还原译文原先样式为Atom集合,再次遍历译文集合,现在集合中会存在两种类型的元素,一种是普通文本元素,另一种是已经替换过的Atom子集合;在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1(新增)或者-1(删除);如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果,对齐完毕。
本发明的有益效果是:
本发明通过自动填充样式方法,可以快速完成译文样式回填,在译文中还原原文格式,可显著提高翻译生产力。
附图说明
图1是运行流程示意图;
图2是还原样式后的结果图;
图3是分词示意图;
图4是词向量加载示意图;
图5是双向最优匹配和相似度更新示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参见图1,本实施例的文档翻译中智能还原原文样式的方法,运行过程如下:1、解析文件并分句后得到句子。
句子原文:今天得天气真的不错,温度比较适宜。
句子译文:The weather is nice today,and the temperature is moresuitable.
原文中`温度`为下划线样式部分,译文中`really`为翻译过程中经常使用的修订删除部分,`nice`为辅助翻译中翻译人员自定义加粗部分。
处理译文,遍历译文每一个字符检查是否存在特殊样式和是否为修订痕迹,并将修订删除部分使用`0xE110`进行替换(替换的原因是为了在词对齐阶段不影响词对齐的结果),同时以字符下标值为key,字符值及样式为value存入map中。
如下表所示:
Figure BDA0003279792850000051
Figure BDA0003279792850000061
表1.样式缓存表
2、发送给对齐模块进行词对齐
将原文按照存在样式的部分进行分割,得到原文集合[‘今天得天气真的不错,’,‘温度’,‘比较适宜。’],同时将上述处理好的译文‘The weather is↑ ↑ ↑ ↑ ↑ ↑nicetoday,and the temperature is more suitable.’一起发送进行词对齐,词对齐的实现方法见本实施例的第4部分,得到结果如下:
Figure BDA0003279792850000062
表2.词对齐结果
3、处理对齐结果
STEP1:替换
由于在经过词对齐处理后target_sent_list译文经过分词,原先的空格已经缺失,所以需要修补空格,同时我们需要将被替换的删除字符进行还原。
轮询target_sent_list,针对集合中的元素文本进行再次进行轮询,同时在记录递增的下标值,如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较,如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符。
如果识别到当前元素为`0xE110`字符,那么根据当前下标值去样式map中寻找字符,并将改字符放入备用文本池中。
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本,处理后的target_sent_list如下:
Atom元素 编号
The 0
weather 1
is 2
r 3
e 4
a 5
l 6
l 7
y 8
nice 9
today 10
, 11
and 12
the 13
temperature 14
Is 15
more 16
suitable 17
. 18
表3.替换结果表
STEP2:应用原文样式到译文
获取原文`温度`词对齐的结果为[1-13,1-14],将译文集合target_sent_list中13个元素和14个元素清空,并补充原文TAG样式后重新放入第14个元素位置结果如下:
target_sent_list如下:
Figure BDA0003279792850000081
表4.应用原文样式结果表
STEP3:还原样式
还原译文原先样式为Atom集合,再次遍历target_sent_list,现在集合中会存在两种类型的元素,一种是普通文本元素(例如The,weather),另一种是已经替换过的Atom子集合(如第14元素),在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1(新增)或者-1(删除),如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果如下,对齐完毕,参见图2。
4、词对齐技术的实现思路
传统词对齐是基于双语对齐语料的模型,比如IBM模型,但是数据成本和训练成本较高,不同语言之间都需要训练对应的模型。
本项目词对齐是基于bert-base-multilingual-cased(mBERT)的预训练模型进行无监督匹配,该模型支持104种语言的预训练词向量。
STEP1:分词使用BPE算法对不同语言文本进行分词,比如原文:“我爱中国”和译文:“I love China”,分词后分别得到“我”,“爱”,“中”,“国”和“I”,“love”,“China“,参见图3。
STEP2:词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量,参见图4。此处为mBERT的常规技术,mBERT与BERT的技术原理相同,训练数据不同,参考文献:Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K..(2018).Bert:pre-training ofdeepbidirectional transformersforlanguage understanding。
STEP3:相似度计算
相似度包括语义相似度和位置相似度(公式1),语义相似度为原文词向量和译文词向量的余弦距离(公式2),位置相似度为原文的词位置和译文的词位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure BDA0003279792850000101
Figure BDA0003279792850000102
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重,经过实验α取值为0.5。
STEP4:词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4);
而双向最优匹配无法一次性将所有的原文单词和译文单词匹配,特别是对于原文中不同的词与同一个译文的词相似情况,而译文中的词与原文中的对应的多个词具有不用的相似程度,根据双向最优匹配原则,会选择相似度最高的词,因此其它词就不能匹配。为了匹配剩下的词向量,需要在每一次双向最优匹配后更新相似度矩阵Sij(公式5),将已匹配的词对(Mij=1)的相似度变为0(Sij^=0),然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配(参见图5):
Figure BDA0003279792850000103
S′ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种文档翻译中智能还原原文样式的方法,其特征在于,包括如下步骤:
S100、解析文件获得原文,将原文翻译为译文;获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;
S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合;
S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;
S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文。
2.如权利要求1所述的方法,其特征在于,S100中翻译人员可对译文进行修订、增加特殊样式。
3.如权利要求1所述的方法,其特征在于,S300中词对齐的方法包括如下步骤:
S310、分词
使用BPE算法对不同语言文本进行分词,将原文和译文分别分割为相互对应的词;
S320、词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量;
S330、相似度计算
相似度包括语义相似度和位置相似度(公式1),语义相似度为原文词向量和译文词向量的余弦距离(公式2),位置相似度为原文的词位置和译文的词位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure FDA0003279792840000021
Figure FDA0003279792840000022
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重;
S314、词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4):
Figure FDA0003279792840000023
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
4.如权利要求3所述的方法,其特征在于,S314中还包括:在每一次双向最优匹配后更新相似度矩阵Sij(公式5),将已匹配的词对(Mij=1)的相似度变为0(Sij^=0),然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配:
Figure FDA0003279792840000031
S′ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
5.如权利要求1所述的方法,其特征在于,S400中还包括如下步骤:
S410处理对齐结果:
S411、替换
轮询译文集合,针对译文集合中的元素文本进行再次进行轮询,同时在记录递增的下标值;如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较;如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符;如果识别到当前元素为替代字符,那么根据当前下标值去样式map中寻找改字符,并将改字符放入备用文本池中;
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本;
S412、应用原文样式到译文
获取原文中特殊样式字符对齐的结果位置,将译文集合中与结果位置对应处的元素清空,并补充原文TAG样式后重新放入同一个元素内。
6.如权利要求5所述的方法,其特征在于,S400中还包括如下步骤:
S420、还原样式
还原译文原先样式为Atom集合,再次遍历译文集合,现在集合中会存在两种类型的元素,一种是普通文本元素,另一种是已经替换过的Atom子集合;在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1或者-1;如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果,对齐完毕。
7.如权利要求3所述的方法,其特征在于,α取值为0.5。
CN202111129007.XA 2021-09-26 2021-09-26 一种文档翻译中智能还原原文样式的方法 Active CN113705158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111129007.XA CN113705158B (zh) 2021-09-26 2021-09-26 一种文档翻译中智能还原原文样式的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111129007.XA CN113705158B (zh) 2021-09-26 2021-09-26 一种文档翻译中智能还原原文样式的方法

Publications (2)

Publication Number Publication Date
CN113705158A true CN113705158A (zh) 2021-11-26
CN113705158B CN113705158B (zh) 2024-05-24

Family

ID=78661903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111129007.XA Active CN113705158B (zh) 2021-09-26 2021-09-26 一种文档翻译中智能还原原文样式的方法

Country Status (1)

Country Link
CN (1) CN113705158B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020040292A1 (en) * 2000-05-11 2002-04-04 Daniel Marcu Machine translation techniques
CN1720525A (zh) * 2002-11-06 2006-01-11 特兰斯洛神控股公开有限公司 电子发送消息的翻译
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及系统
CN110705319A (zh) * 2019-09-26 2020-01-17 张广睿 一种翻译方法
CN111191470A (zh) * 2019-12-25 2020-05-22 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111401000A (zh) * 2020-04-03 2020-07-10 上海一者信息科技有限公司 一种在线辅助翻译的译文实时预览方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN112541365A (zh) * 2020-12-21 2021-03-23 语联网(武汉)信息技术有限公司 基于术语替换的机器翻译方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020040292A1 (en) * 2000-05-11 2002-04-04 Daniel Marcu Machine translation techniques
CN1720525A (zh) * 2002-11-06 2006-01-11 特兰斯洛神控股公开有限公司 电子发送消息的翻译
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及系统
CN110705319A (zh) * 2019-09-26 2020-01-17 张广睿 一种翻译方法
CN111191470A (zh) * 2019-12-25 2020-05-22 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN111401000A (zh) * 2020-04-03 2020-07-10 上海一者信息科技有限公司 一种在线辅助翻译的译文实时预览方法
CN112541365A (zh) * 2020-12-21 2021-03-23 语联网(武汉)信息技术有限公司 基于术语替换的机器翻译方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
V.SOWMYA: "Influence of Token Similarity Measures for Semantic Textual Similarity", IEEE, 18 August 2016 (2016-08-18), pages 41 *
倪耀群;许洪波;程学旗;: "基于多特征融合和图匹配的维汉句子对齐", 中文信息学报, vol. 30, no. 04, 15 July 2016 (2016-07-15), pages 124 *
刘晨阳等: "融入双语词向量的韩汉名词短语对齐方法研究", 智能计算机与应用, vol. 11, no. 9, 1 September 2021 (2021-09-01), pages 42 *
刘练: "基于WebTM的辅助翻译工具校对子系统设计与实现", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, 15 January 2019 (2019-01-15), pages 139 - 303 *
王洪俊;施水才;俞士汶;肖诗斌;: "跨语言相似文档检索", 中文信息学报, vol. 21, no. 01, 25 January 2007 (2007-01-25), pages 30 *
蔡欣洁等: "汉译英机器翻译错误类型统计分析", 浙江理工大学学报, vol. 42, no. 2, 5 November 2020 (2020-11-05), pages 162 *

Also Published As

Publication number Publication date
CN113705158B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN112613273B (zh) 多语言bert序列标注模型的压缩方法及系统
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN103631772A (zh) 机器翻译方法及装置
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN111897917A (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN115730585A (zh) 文本纠错及其模型训练方法、装置、存储介质及设备
CN115017884A (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN113779978A (zh) 一种无监督跨语言句对齐实现方法
CN113705158A (zh) 一种文档翻译中智能还原原文样式的方法
CN115757325B (zh) 一种xes日志智能转换方法及系统
US6912516B1 (en) Place name expressing dictionary generating method and its apparatus
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
Passban Machine translation of morphologically rich languages using deep neural networks
CN114357975A (zh) 一种多语言的术语识别和双语术语对齐方法
CN115310433A (zh) 一种针对中文文本校对的数据增强方法
CN106557459B (zh) 一种从工单中提取新词的方法和装置
CN114372463A (zh) 一种基于序列标注模型的多语言文本纠错方法
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN115374800A (zh) 融合短语知识的日中机器翻译方法和系统
CN113821618B (zh) 一种电子病历是否类细项提取方法与系统
CN116702898B (zh) 一种基于知识表示学习的文言文知识迁移方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant