CN110852117A - 一种提升神经机器翻译效果的有效数据增强方法 - Google Patents

一种提升神经机器翻译效果的有效数据增强方法 Download PDF

Info

Publication number
CN110852117A
CN110852117A CN201911088431.7A CN201911088431A CN110852117A CN 110852117 A CN110852117 A CN 110852117A CN 201911088431 A CN201911088431 A CN 201911088431A CN 110852117 A CN110852117 A CN 110852117A
Authority
CN
China
Prior art keywords
language
word
sentence
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911088431.7A
Other languages
English (en)
Other versions
CN110852117B (zh
Inventor
杜权
李自荐
朱靖波
肖桐
张春良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Original Assignee
SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd filed Critical SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority to CN201911088431.7A priority Critical patent/CN110852117B/zh
Publication of CN110852117A publication Critical patent/CN110852117A/zh
Application granted granted Critical
Publication of CN110852117B publication Critical patent/CN110852117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开一种提升神经机器翻译效果的有效数据增强方法,步骤为:在对应网站中获取基础数据集;根据基础数据集进行词对齐信息获取,得到基础数据集的词对齐信息;使用LSTM语言模型分别训练得到对应语种方向的语言模型;提取低于指定阈值频率的单词组成罕见词词表;获取词语对应信息,得到源语及目标语子句集合和子句对应集合;对目标语子句集合进行翻译,组成句子级数据扩充集合;用罕见词替换常见词得到词级的数据扩充集合;使用句子级和词级数据扩充集合与原始双语基础数据合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。本发明实现了低资源语种语料的有效扩充,实现简单、方法有效,实用性强,提升效果明显。

Description

一种提升神经机器翻译效果的有效数据增强方法
技术领域
本发明涉及一种机器翻译领域,具体为一种提升神经机器翻译效果的有效数据增强方法。
背景技术
近年来,基于深度神经网络的自然语言处理领域中的各项任务均取得了比较显著的成绩,如神经机器翻译等。作为一种具备超强学习能力的网络模型,若没有大规模高质量双语平行语料库进行训练支撑,模型在指定数据集上可能会出现过拟合的情况。因此,模型学习效果与双语平行句对的规模和质量息息相关。然而,对于低资源语种来说,如泰语、老挝语等。标准双语平行语料缺乏,公开语料库规模过小,导致神经机器翻译的学习能力受到极大的限制,不仅不能支持神经机器翻译模型训练以达到一个理想的效果,而且还容易出现数据集过拟合的情况。而若通过人工的方式构建一个高质量的大规模平行语料库则需要大量的时间、费用和专业人员来翻译大量的文本,实用成本过高。因此从语料库的方向入手,使用计算机在基础双语语料库的前提下实现自动语料库构建工作,对提升神经机器翻译模型翻译精度的工作具有较高的实用价值。
在以往的研究工作中,基于神经机器翻译双语平行语料的有关工作主要分为两种方式进行,如下所示:
(1)数据清洗:对于存在某些数据噪声的句子进行修正或移除操作,降低语料库中的噪声影响,以此来达到提升神经机器翻译模型翻译精度的目的。
(2)数据增强:利用某些方法对现有的数据进行扩充,在保证双语数据互译性以及句子完整性的前提下,实现数据增强目的。使用该种方式能够增加数据中某些弱泛化部分的丰富度,使神经机器翻译模型在训练的过程中能够得到更多信息。以此来提升模型学习效果,提升模型翻译精度。
在机器翻译领域,神经机器翻译模型训练语料质量提升一直都是研究的重点问题,其中一个最主要的原因即为语料库的规模和质量与神经机器翻译模型的精度具有强相关性。在计算机视觉领域中,去除训练数据中的噪声后通过水平翻转、随机剪裁、倾斜和改变原始图像RGB通道等方式扩充数据规模以增强模型鲁棒性,改善模型学习效果的图像数据增强技术目前已经被广泛使用。同样的,在神经机器翻译模型训练的过程中,为了能够训练出具有可靠参数估计的模型,需要大量的高质量平行句对来支撑模型训练。因此,数据质量与规模的不足往往造成了模型性能的缺陷。对于该领域来说,也可以使用数据增强技术在保证双语数据互译性及句子合理性的前提下实现对数据的扩充,实现自然语言处理领域的数据增强技术,并以此提升模型最终的翻译准确性。
发明内容
针对现有技术中神经机器翻译模型训练的过程中,低资源语种的语料库规模不足,需要根据现有数据获取大规模训练数据支撑神经机器翻译模型训练,本发明要解决的问题是提供一种提升神经机器翻译效果的有效数据增强方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种提升神经机器翻译效果的有效数据增强方法,包括以下步骤:
1)在对应网站中获取指定语种方向的双语平行语料公开数据集作为数据增强的基础数据集,在基础数据集分别获取源语言及目标语言对应语种方向的单语数据集作为训练后续语言模型的基础单语数据集;
2)根据基础数据集使用fast-align词对齐技术对数据集进行词对齐信息获取,得到基础数据集的词对齐信息;
3)根据源语言及目标语言对应语种的基础单语数据集,使用LSTM语言模型分别训练得到对应语种方向的语言模型;
4)统计基础数据集中的词语出现频率,对于低于指定阈值频率的单词,需要将其提取出来组成罕见词词表;
5)根据现有的词对齐信息获取指定句子的词语对应信息;根据句子中出现的常见句尾标点将源语及目标语句子切分为多个子句,得到源语及目标语子句集合,并根据词对齐信息生成对应句对中子句子的对应关系,得到子句对应集合;
6)使用神经机器翻译系统对目标语子句集合进行翻译,将其翻译为源语言语种方向的集合,并使用该集合对源语言对应子句进行替换,组成句子级数据扩充集合;
7)对基础数据集内源语句子中的常见词使用罕见词进行替换,在替换前通过对应语种方向的语言模型对替换部分的上下文进行评估,对高于指定阈值的部分进行替换,同时对其进行对目标语句子对应单词部分使用罕见词译文进行相同方式的替换,保证双语互译性,得到词级的数据扩充集合;
8)按照1∶1的比例使用句子级和词级数据扩充集合与原始双语基础数据进行合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。
步骤4)中,使用句子中的罕见词对常见词进行替换,丰富在模型训练过程中出现次数低于指定阈值的单词信息部分,获取具有更多单词上下文信息的句对。
步骤5)中,使用词对齐信息计算指定子句的对应程度概率,并确定概率阈值,将高于该阈值的子句视为对应子句。
步骤6)中,对源语言中不同部分的子句按照其原有的组合顺序依次进行替换。
步骤7)中,对句子中的常见词部分使用机器翻译模型训练过程中建模不良的罕见词进行替换;使用语言模型对替换词汇部分的上下文进行评估;同时,对目标语对应词汇部分进行同等的操作。
本发明具有以下有益效果及优点:
1.本发明在原有数据增强任务的基础上,根据基础句子集合中的双语句对,使用基于单词及句子的两种方式对数据实现自动扩充。实现了低资源双语句子的快速增强,提升数据质量与知识丰富度,是一种实现简单、方便有效的数据增强方法。
2.本发明使用罕见词及子句子替换的方式实现数据增强,架构透明,对与存在相同句子切分标点的语种均能够达到有效扩充,是一种通用的数据增强方法,能够快速地对句子进行扩充,根据其上下文单词信息及子句子信息替换,达到一种相对高效且准确的数据增强方法。程序结构简单,运行速度快。
附图说明
图1为本发明方法中词级句子生成方法流程图;
图2为本发明方法中词级数据增强方法流程图;
图3为本发明方法中句子级数据增强方法流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提出一种提升神经机器翻译效果的有效数据增强方法,使用罕见词及句子级的替换实现新的平行句对生成,是一种轻便快捷的数据增强方法。
如图所示,本发明一种提升神经机器翻译效果的有效数据增强方法,包括以下步骤:
1)在对应网站中获取指定语种方向的双语平行语料公开数据集作为数据增强的基础数据集,在基础数据集分别获取源语言及目标语言对应语种方向的单语数据集作为训练后续语言模型的基础单语数据集;
2)根据基础数据集使用fast-align词对齐技术对数据集进行词对齐信息获取,得到基础数据集的词对齐信息;
3)根据源语言及目标语言对应语种的基础单语数据集,使用LSTM语言模型分别训练得到对应语种方向的语言模型;
4)统计基础数据集中的词语出现频率,对于低于指定阈值频率的单词,需要将其提取出来组成罕见词词表;
5)根据现有的词对齐信息获取指定句子的词语对应信息;根据句子中出现的常见句尾标点将源语及目标语句子切分为多个子句,得到源语及目标语子句集合,并根据词对齐信息生成对应句对中子句子的对应关系,得到子句对应集合;
6)使用神经机器翻译系统对目标语子句集合进行翻译,将其翻译为源语言语种方向的集合,并使用该集合对源语言对应子句进行替换,组成句子级数据扩充集合;
7)对基础数据集内源语句子中的常见词使用罕见词进行替换,在替换前通过对应语种方向的语言模型对替换部分的上下文进行评估,对高于指定阈值的部分进行替换,同时对其进行对目标语句子对应单词部分使用罕见词译文进行相同方式的替换,保证双语互译性,得到词级的数据扩充集合;
8)按照1∶1的比例使用句子级和词级数据扩充集合与原始双语基础数据进行合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。
步骤1)中,使用具有互译关系的公开双语数据集合作为数据增强基础数据集合。使用公开的源语言与目标语言对应语种的单语数据集合作为训练对应语种语言模型的基础数据。
目前一般训练一个好的模型都需要大量的数据对其进行支撑。然而对于低资源语种,获得大量的人工标注的双语数据是极其困难的,对于这种情况,本发明使用现有的公开人工标注数据集,对现有的少量单语数据进行数据增强操作,得到更多的句子,使最终得到的训练集合能够拥有更加丰富的信息供给神经机器翻译模型。
步骤2)中,利用开源程序fast-align技术,根据数据增强基础数据集合生成双语句对单词位置的对应信息。
本发明根据现有双语句子序列使用fast-align词对齐技术获取句对对应位置的单词对应信息,获取的单词对应信息将可以用于进行单词同等条件替换以及子句对应部分。
步骤3)中,根据对应语种方向的单语数据集合生成对应语种方向的语言模型。这里语言模型的作用为在词级数据增强方法中,使用罕见词对常见词进行替换的过程中,评估其上下文的可替换概率,如图1所示。
如图2所示,步骤4)中,在神经机器翻译模型训练的过程中,将会根据基础数据集中的词汇生成词汇表,词汇表中的词为在语料库中出现次数相对较高的词汇,本实施例选择词汇表中出现次数少于R的词汇,得到罕见词表VR,如图2所示。
步骤5)中,使用现有的词对齐信息可以获取源语言句子指定词汇对应目标语句子的词汇位置。根据“.”“?”“!”等常见的句末标点将双向长句子切分为一定数量的子句子后,对数量不一致的切分情况进行舍弃。对于切分数量相同的源语及目标语句子,根据词对齐信息获取子句的互译性对应情况。
在本步骤中,假设有源语句子S以及目标语句子T,在步骤2)中,根据标点符号将句子S切分为数量为n的子句,记为{S1,S2,S3,…,Sn};对于目标语句子T将其切分为数量为m的子句,记为{T1,T2,T3,…,Tm};根据此前得到的句子位置对应信息,再根据词问对应关系对不同源语子句与目标语子句之间的对应概率进行推断,若某对子句之间的生成概率值高于某个阈值θ,则将其视为互译句对,源语子句及目标语子句之间的对应概率推断如下所示:
Figure BDA0002266138510000051
其中Nm为源语及目标语之间相互对应的单词数量,Ns及Nt分别为源语及目标语句子的单词数量,如图3所示。
另外,根据上述得到的内容,设置合适的阈值θ获取源语子句以及目标语子句之间的互译性对应关系,得到数量为k的源语短句子集合Sk以及目标语短句子集合Tk。在子句对应的过程中,若源语子句Si、Sj同时与目标语子句Ti对应,则使用源语子句Si与Sj进行组合并与Ti生成新的互译性对应关系。
在步骤6)中,对于之前生成的源语及目标语子句对应集合,使用openNMT开源机器翻译系统对目标语子句集合进行back-translation操作,生成目标语子句翻译集合Tk-trans
另外,在该步骤中,对于每一个基础数据集中的句子,使用Tk-trans中的翻译子句对长句子中的对应子句进行替换,生成伪源语句子。进行该步骤的一个前提是需要句子中的每一个子句均存在与其对应的目标语子句。若源句子中未存在对应的子句,对其进行舍弃,不使用该句子进行数据增强操作。其原因在于,存在该种情况的句对可能部分不对应。
同时,对于生成的伪源语句子,与原始句子对应的目标语言句子进行复制,直接将其作为新生成的伪源语句子对应的目标语言句子。
在步骤7)中,对源语句子中的罕见词部分进行替换操作,替换词汇将由训练好的长短期记忆(LSTM)语言模型决定。为了保证罕见词汇的可替换性,使用训练好的语言模型对句子S中指定位置的词汇计算VR上的概率分布,得到罕见替换词汇集合C,具体公式如下所示:
C={ωi∈VR:topKPLSTM-LMi|si-1)}
其中topK为根据源语句子S内容概率估计最高的K个罕见词。使用选择的罕见词wi将句子S中位置i的单词使用罕见词替换,生成一个新的句子,如图1所示。
在步骤8)中,使用1∶1的比例对词级以及句子级扩充句子数量进行提取,与原始基础双语平行数据进行混合生成训练数据提供模型进行训练,得到效果更加优质的神经机器翻译模型。使用该比例的原因在于数据增强的过程中,单词级别和句子级别的信息丰富程度是同等重要的一项指标。
本发明提出了一种非常简单且有效的方法提升神经机器翻译模型训练语料库的质量。通过利用词对齐、语言模型、back-translation等技术,分别实现了在原有数据集的基础上生成新的平行句子对。
本实施例使用WMT14的英-德数据集作为基础数据集,另外使用newtest2014数据集作为测试集,使用本发明方法后的对神经机器翻译模型进行训练,并与使用基础数据集训练后的神经机器翻译模型进行BLEU值对比,实验结果如下。
Figure BDA0002266138510000061
Base-Dataset代表使用基础数据集作为训练集合得到的神经机器翻译模型在测试集上的BLEU值结果;Sen-Augu-DataSet代表使用句子级数据增强后的模型BLEU值结果;Word-Argu-DataSet代表使用词级数据增强后的模型BLEU值结果;Word-Sen-DataSet代表使用两种方法共同得到的模型BLEU值结果。
根据实验结果可知,本发明方法在新的数据语料中产生了更多罕见词上下文及更多子句组合形式,使模型对更多上下文形式下均能产生较优的翻译效果。能够有效地对低资源双语数据进行扩充。

Claims (5)

1.一种提升神经机器翻译效果的有效数据增强方法,其特征在于包括以下步骤:
1)在对应网站中获取指定语种方向的双语平行语料公开数据集作为数据增强的基础数据集,在基础数据集分别获取源语言及目标语言对应语种方向的单语数据集作为训练后续语言模型的基础单语数据集;
2)根据基础数据集使用fast-align词对齐技术对数据集进行词对齐信息获取,得到基础数据集的词对齐信息;
3)根据源语言及目标语言对应语种的基础单语数据集,使用LSTM语言模型分别训练得到对应语种方向的语言模型;
4)统计基础数据集中的词语出现频率,对于低于指定阈值频率的单词,需要将其提取出来组成罕见词词表;
5)根据现有的词对齐信息获取指定句子的词语对应信息;根据句子中出现的常见句尾标点将源语及目标语句子切分为多个子句,得到源语及目标语子句集合,并根据词对齐信息生成对应句对中子句子的对应关系,得到子句对应集合;
6)使用神经机器翻译系统对目标语子句集合进行翻译,将其翻译为源语言语种方向的集合,并使用该集合对源语言对应子句进行替换,组成句子级数据扩充集合;
7)对基础数据集内源语句子中的常见词使用罕见词进行替换,在替换前通过对应语种方向的语言模型对替换部分的上下文进行评估,对高于指定阈值的部分进行替换,同时对其进行对目标语句子对应单词部分使用罕见词译文进行相同方式的替换,保证双语互译性,得到词级的数据扩充集合;
8)按照1:1的比例使用句子级和词级数据扩充集合与原始双语基础数据进行合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。
2.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法,其特征在于:步骤4)中,使用句子中的罕见词对常见词进行替换,丰富在模型训练过程中出现次数低于指定阈值的单词信息部分,获取具有更多单词上下文信息的句对。
3.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法,其特征在于:步骤5)中,使用词对齐信息计算指定子句的对应程度概率,并确定概率阈值,将高于该阈值的子句视为对应子句。
4.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法,其特征在于:步骤6)中,对源语言中不同部分的子句按照其原有的组合顺序依次进行替换。
5.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法,其特征在于:步骤7)中,对句子中的常见词部分使用机器翻译模型训练过程中建模不良的罕见词进行替换;使用语言模型对替换词汇部分的上下文进行评估;同时,对目标语对应词汇部分进行同等的操作。
CN201911088431.7A 2019-11-08 2019-11-08 一种提升神经机器翻译效果的有效数据增强方法 Active CN110852117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088431.7A CN110852117B (zh) 2019-11-08 2019-11-08 一种提升神经机器翻译效果的有效数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088431.7A CN110852117B (zh) 2019-11-08 2019-11-08 一种提升神经机器翻译效果的有效数据增强方法

Publications (2)

Publication Number Publication Date
CN110852117A true CN110852117A (zh) 2020-02-28
CN110852117B CN110852117B (zh) 2023-02-24

Family

ID=69599925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088431.7A Active CN110852117B (zh) 2019-11-08 2019-11-08 一种提升神经机器翻译效果的有效数据增强方法

Country Status (1)

Country Link
CN (1) CN110852117B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111611811A (zh) * 2020-05-25 2020-09-01 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN112016322A (zh) * 2020-08-28 2020-12-01 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112257472A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112668281A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于模板的语料自动化扩充方法、装置、设备及介质
CN112836047A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113204966A (zh) * 2021-06-08 2021-08-03 重庆度小满优扬科技有限公司 语料增广方法、装置、设备及存储介质
CN115169370A (zh) * 2022-09-02 2022-10-11 星宙数智科技(珠海)有限公司 语料数据增强方法、装置、计算机设备及介质
CN112257472B (zh) * 2020-11-13 2024-04-26 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
US20190114547A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Splice Site Classification
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
US20190114547A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Splice Site Classification
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111597306B (zh) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN111767742B (zh) * 2020-05-20 2023-07-25 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN111611811B (zh) * 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN111611811A (zh) * 2020-05-25 2020-09-01 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN112016322A (zh) * 2020-08-28 2020-12-01 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112016322B (zh) * 2020-08-28 2023-06-27 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112257472A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112257472B (zh) * 2020-11-13 2024-04-26 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112668281A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于模板的语料自动化扩充方法、装置、设备及介质
CN112668281B (zh) * 2020-12-25 2023-09-22 平安科技(深圳)有限公司 基于模板的语料自动化扩充方法、装置、设备及介质
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112836047B (zh) * 2021-01-25 2022-05-27 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112836047A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113204966A (zh) * 2021-06-08 2021-08-03 重庆度小满优扬科技有限公司 语料增广方法、装置、设备及存储介质
CN115169370A (zh) * 2022-09-02 2022-10-11 星宙数智科技(珠海)有限公司 语料数据增强方法、装置、计算机设备及介质
CN115169370B (zh) * 2022-09-02 2022-12-13 星宙数智科技(珠海)有限公司 语料数据增强方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN110852117B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
CN109840331B (zh) 一种基于用户词典的神经机器翻译方法
US9176952B2 (en) Computerized statistical machine translation with phrasal decoder
JP4381425B2 (ja) 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置
CN105068997B (zh) 平行语料的构建方法及装置
JPH08101837A (ja) 機械翻訳装置における翻訳規則学習方法
CN101458681A (zh) 语音翻译方法和语音翻译装置
CN108363704A (zh) 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
JP2007234024A (ja) 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置
US11790166B2 (en) Quality assessment method for automatic annotation of speech data
CN110046261A (zh) 一种建筑工程多模态双语平行语料库的构建方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN108280065B (zh) 一种外文文本评价方法及装置
WO2022179149A1 (zh) 基于翻译记忆库的机器翻译方法及装置
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN111178089B (zh) 一种双语平行数据一致性检测与纠正方法
CN113204978A (zh) 一种机器翻译增强训练方法及系统
CN117273026A (zh) 专业文本翻译方法、装置、电子设备和存储介质
Ahmadnia et al. Round-trip training approach for bilingually low-resource statistical machine translation systems
CN111144134A (zh) 基于OpenKiWi的翻译引擎自动化评测系统
CN115310433A (zh) 一种针对中文文本校对的数据增强方法
CN114492469A (zh) 一种翻译方法、翻译装置和计算机可读存储介质
CN114330376A (zh) 一种计算机辅助翻译系统及方法
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor after: Li Zijian

Inventor before: Du Quan

Inventor before: Li Zijian

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant