CN108920473A - 一种基于同类词与同义词替换的数据增强机器翻译方法 - Google Patents

一种基于同类词与同义词替换的数据增强机器翻译方法 Download PDF

Info

Publication number
CN108920473A
CN108920473A CN201810723531.1A CN201810723531A CN108920473A CN 108920473 A CN108920473 A CN 108920473A CN 201810723531 A CN201810723531 A CN 201810723531A CN 108920473 A CN108920473 A CN 108920473A
Authority
CN
China
Prior art keywords
word
synonym
similar
vocabulary
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810723531.1A
Other languages
English (en)
Other versions
CN108920473B (zh
Inventor
汪鸣
汪一鸣
熊德意
秦文杰
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810723531.1A priority Critical patent/CN108920473B/zh
Publication of CN108920473A publication Critical patent/CN108920473A/zh
Application granted granted Critical
Publication of CN108920473B publication Critical patent/CN108920473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言的处理或转换技术领域,公开了一种基于同类词与同义词替换的数据增强机器翻译方法,利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码‑解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。扩充了训练数据,神经网络翻译模型的参数能够在足够多的数据中得到很好的学习,并且可以缓解神经机器翻译中未登录词这一问题,使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时,网络参数已经得到了很好的学习。

Description

一种基于同类词与同义词替换的数据增强机器翻译方法
技术领域
本发明属于自然语言的处理或转换技术领域,尤其涉及一种基于同类词与同义词替换的数据增强机器翻译方法。
背景技术
目前,业内常用的现有技术是这样的:随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的应用,基于深度学习的Neural Machine Translation越来越受到人们的关注。机器翻译作为人工智能的一个研究热点,具有十分重要的科研价值和实用价值。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的语句(在下文中统称为”源语句”)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为”目标语句”)。事实上,这种 encoder-decoder框架是深度学习的核心思想,同样的,encoder-decoder框架也是NMT系统常用的一个基本架构。目前主流的NMT系统,encoder和decoder 都利用RNN(recurrent neuralnetworks),RNN在处理时序信息时有着得天独厚的优势,它能够处理任意长度的输入并将其转换成为一个固定维度的向量。翻译的流程包括:首先,编码器将输入的源语句转换成为一个词向量序列作为循环神经网络的输入,编码器会输出一个固定长度的密集向量,称为上下文向量。然后,解码器以上下文向量作为输入,利用另外一个循环神经网络结合一个Softmax分类器,输出目标语句的词向量序列。最后,利用词典把词向量映射成为目标语言词,完成翻译过程。但是,NMT系统的翻译质量在很大程度上取决于相当大的平行语料库的可用性。对于低资源语言即小语种对来说,情况并非如此,所以一般来讲小语种的NMT系统的翻译质量较差。由于小语种的平行语料的稀疏性,训练得到的NMT翻译模型并不能很好地拟合未见数据,即语料的稀疏性会导致NMT翻译系统词典的稀疏性,在测试集上的翻译结果往往会生成很多的UNK(未登录词),而且由于语料的稀疏,BPE也不能使翻译质量得到很好的提高。因为BPE方法将原来的单词进行拆分,形成子单词级别的词表,这种方法可以保证大部分的单词都可以出现在词表中,很大程度上缓解译文中生成UNK的现象。但是由于语料的稀缺导致的单词的稀缺,所以BPE形成的子词表在很大概率上也会是稀缺的。另外,BPE的作用大小也受限于语种,再加上小语种的语料稀缺问题,所以BPE方法对小语种的翻译质量的提升未必会有很大的帮助。此外,最重要的一点是由于训练语料的稀缺,NMT翻译模型也很难学到源端与目标端两种语言相应的语言规律,从而导致翻译结果的流畅性降低。综上,这些问题的根源都可以归结为训练语料的稀缺。这也是小语种翻译系统亟待解决的问题。
综上所述,现有技术存在的问题是:
(1)大规模、高质量的双语平行语料很难获取,而人工翻译构建高质量双语平行语料的成本较高。
(2)缺乏大规模、高质量的双语平行语料,导致小语种的神经网络机器翻译模型训练数据不充分、性能较差,难以构建高性能的机器翻译系统。
解决上述技术问题的难度和意义:NMT系统模型的训练严重依赖大规模双语平行语料。但是大规模、高质量的双语平行语料很难获取,而人工翻译构建高质量双语平行语料的成本较高,这一问题在小语种的NMT翻译系统中尤为严重,由于缺乏大规模、高质量的双语平行语料,导致小语种的神经网络机器翻译模型训练数据不充分、性能较差,难以构建高性能的机器翻译系统,这也是现有神经网络机器翻译模型面临的瓶颈问题之一。
本发明在通过基于同类词与同义词替换的方法在保障扩充语料的质量的前提下,对小语种的训练数据进行了极大的扩充,从而有效地提高了小语种的神经翻译系统的翻译质量。随着世界各国之间的交流日益紧密,语言的沟通成为一种必然的需求,翻译作为实现各国之间交流的一种必要手段。但作为小语种,不管是翻译人才还是翻译系统都十分稀缺。
发明内容
针对现有技术存在的问题,本发明提供了一种基于同类词与同义词替换的数据增强机器翻译方法。
本发明是这样实现的,一种基于同类词与同义词替换的数据增强机器翻译方法,所述基于同类词与同义词替换的数据增强机器翻译方法利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。
其中,同义词与同类词表除了利用神经网络中词向量的聚类特性来得到,也可以结合之前的技术手段,综合考量最终确定一个高质量的同义词与同类词表。这里,在本发明中可以考虑结合计算文本的特征向量夹角的余弦或奇异分解文本和关键词的关联矩阵等方法进一步得到高质量的同义词与同类词表。
计算文本的特征向量夹角的余弦:
由于虚词与助词对某一文本所要表达的意思影响较小,所以一下只考虑莫一文本中所有实词的TF-IDF值按照对应实词在词汇表中的位置以此排列,从而得到该文本的特征向量。同一类文本一定是某些主题词用得比较多,另一些主题词则用的比较少,比如金融类的文本,股票、债券、基金、利息等词出现的频率就很高,这样某一类文本之间的特征向量的在某几维度的值都比较大,而在其他维度的值较小。而不同类的文本之间的特征向量,值较大的维度应该没有什么交集。这样,两个文本的特征向量夹角的余弦大小则表明了它们之间内容的相似度。那么,利用文本的特征向量夹角的余弦计算则可以对文本进行分类,这也是不同类别文本的主题词之间的一个聚类过程,这样同一类别的文本的TF-IDF值最高的Top-N可以作为同类词表的补充。
奇异分解文本和关键词的关联矩阵:
首先,定义一个大矩阵来描述语料中成千上万篇文章和几十上百万词的关联性即文本和关键词的关联矩阵。在这个矩阵中,每一行对应一篇文章,每一列对应一个词,如果有N个词,M篇文章,则可以得到一个M×N的矩阵,如下所示。
其中,第i行、第j列的元素aij,是字典中第j个词在第i篇文章中出现的加权词频(比如用词的TF-IDF值)。然后对这样一个大矩阵进行奇异值分解,即分解成三个小矩阵相乘如下所示(假设M=1000000,N=500000)。
[A]1000000×500000=[X]1000000×100[B]100×100[Y]100×500000
第一个矩阵X是对词分类的的一个结果,它的每一行表示一个词,每一列表示一个语义相近的词类。最后一个矩阵Y是对文本的分类结果,它的每一列对应一篇文本,每一行对应一个主题。中间的矩阵B则表示词的类和文章的类之间的相关性。
如果把文本和关键词的关联矩阵即A旋转90度,进行奇异分解,或者对每一个词为文本作为维度,建立一个向量,再进行向量的聚类,那么得到就是对词的一个分类而不是对文本的分类。这样此方法也可以对同义词与同类词表进行补充。
进一步,所述基于同类词与同义词替换的数据增强机器翻译方法具体包括以下步骤:
步骤一,构建一个小语种翻译模型所需的同义词表与同类词表;对原有的稀缺语料进行去重、分词预处理;
步骤二,利用同义词与同类表,将源端语言和目标端语言的语料进行两端的同义词与同类词替换,两端保持对齐,语料扩充完成。
步骤三,完成语料扩充后,将得到的新的语料作为训练语料,训练小语种的机器翻译模型。
进一步,分布式词表示将词典中的词的索引映射到高维空间中的词向量;词向量的每个维度都与多个概念相关联,通过反向传播算法训练模型,不断更新一开始随机初始化的词向量,得到聚类很好的词向量。
进一步,给定语料T中的一个单词序列S=[wi-n...wi...wi+n],通过随机挑选语料词表中的单词wj用于替换序列S中的单词wi来构造伪序列S′,然后对每个序列即短语进行评分,如果S′的得分比S的得分要高,通过铰链损失函数J(T)惩罚模型,得到一个聚合很好的词向量;
给定一个单词wi,根据其他单词与wi的欧氏距离对单词进行排序,并显示最接近的五个相邻单词作为wi的同义词或同类词;对词汇表中的每一个单词翻译进行上述操作,得到一个大小与词汇表等同的同义词与同类词表。
将得到的大语种的同义词表和同类词表翻译成所需训练的小语种翻译模型的同义词表与同类词表。
本发明的另一目的在于提供一种应用所述基于同类词与同义词替换的数据增强机器翻译方法的神经机器翻译系统。
综上所述,本发明的优点及积极效果为:目前在小语种翻译方面主要有以下几个技术手段:迁移学习(Transfer Learning)、回翻(back-translation)以及其他数据增强的技术等。但Transfer Learning要求学习的小语种与用来预训练的大语种之间比较相近或者为同一语系,比如用英语-俄语的翻译模型帮助英语- 乌克兰语的翻译模型,但是英语-俄语的翻译模型对提升英语-泰米尔语的翻译模型就几乎没有任何的帮助,所以TransferLearning对小语种的语言类型有所要求不具备普适性。同样,back-translation也不是对小语种都适用。比如,利用英语-泰米尔语的翻译模型将大量的英语单语语料翻译为泰米尔语,从而构成新的双语语料与原先小规模的训练语料合并训练泰米尔语-英语的翻译模型,实验证明这种方法在泰米尔语-英语上有所效果,但是在乌克兰语-英语上却没有效果。另外,back-translation利用英语-泰米尔语的翻译模型得到的新的双语语料质量难以保证,并且Transfer Learning和back-translation都不会引入新的词,所以对缓解UNK问题也不会有很效果。
本发明的基于同类词与同义词替换的数据增强技术,在传统基于神经网机器翻译的基础上,利用词向量的聚类特性得到大语种两端的同义词表与同类词表,再翻译为小语种的同义词表与同类词表,对原有的稀缺小语种进行同义词与同类词的两端对齐的替换处理,得到质量较高的小语种的扩充平行语料;用于训练小语种机器翻译的神经网络所采用的模型是传统的基于“编码-解码”的注意力机制神经网络翻译模型,其作用是根据输入的源语言句子,生成相应的目标语言句子。
本发明实施例提供的基于基于同类词与同义词替换的数据增强技术,在原有的语料中引入大量的新词,扩充了训练数据,神经网络翻译模型的参数能够在足够多的数据中得到很好的学习,并且在一定程度上可以缓解神经机器翻译中未登录词这一问题,使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时,即网络参数已经得到了很好的学习,代表训练完成,此时的翻译模型可以作为最终的神经机器翻译模型。
附图说明
图1是本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法流程图。
图2是本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供的基于同类词与同义词替换的数据增强机器翻译方法包括以下步骤:
S101:利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;
S102:用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;
S103:扩充小语种的平行语料,再采用“编码-解码”结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。
分布式词表示(word embedding)将词典中的词的索引映射到高维空间中的特征向量即词向量。词向量的每个维度都与多个概念相关联(如词性、词义等),每个概念都是由这些维度子集的组合来表示的。这种映射可以通过反向传播算法训练模型,不断更新一开始随机初始化的词向量,最终得到聚类很好的词向量。通常选择这样的任务,在语言建模的情况下,预测由n个单词组成的短语的最后一个单词,即训练语言模型。
给定语料T中的一个单词序列S=[wi-n...wi...wi+n],通过随机挑选语料词表中的单词wj用于替换序列S中的单词wi来构造伪序列S′,然后对每个序列即短语进行评分,如果S′的得分比S的得分要高,那么通过铰链损失函数J(T)惩罚模型,最终得到一个聚合很好的词向量。
在神将网络学习从源语言到目标语言的翻译模型参数的过程中,系统也同时将训练语料中的单词以词向量的形式很好地按照类别、含义与词性等特征聚类在一个高维空间,即最终系统也会生成一个聚类很好的词向量。给定一个单词wi,根据其他单词与wi的欧氏距离对单词进行排序,并显示最接近的五个相邻单词作为wi的同义词或同类词。对词汇表中的每一个单词翻译进行上述操作,则会得到一个大小与词汇表等同的同义词与同类词表。
将得到的大语种的同义词表和同类词表翻译成所需训练的小语种翻译模型的同义词表与同类词表(单词级别的翻译质量一般很高,所以最终得到的小语种的同义词表与同类词表质量也会有所保证)。
本发明实施例提供的基于同类词与同义词替换的数据增强方法,具体包括:
构建一个小语种翻译模型所需的同义词表与同类词表;对原有的稀缺语料进行去重、分词等预处理;
利用同义词与同类表,将源端语言和目标端语言的语料进行两端的同义词与同类词替换,两端保持对齐,语料扩充完成。
完成语料扩充后,将得到的新的语料作为训练语料,训练小语种的机器翻译模型。
下面结合具体实施例对本发明的应用原理作进一步的描述。
由词向量之间欧氏距离的计算可以得到中文的同义词与同类词表中的:
牛、羊、马、鹿;
经单词级别的翻译可以得到泰米尔语的同义词与同类词表中的:
若原训练语料中有:
将源端语言和目标端语言的语料进行两端的同义词与同类词替换,扩充语料后可以得到如下的平行语料:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于同类词与同义词替换的数据增强机器翻译方法,其特征在于,所述基于同类词与同义词替换的数据增强机器翻译方法利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。
2.如权利要求1所述的基于同类词与同义词替换的数据增强机器翻译方法,其特征在于,所述基于同类词与同义词替换的数据增强机器翻译方法具体包括以下步骤:
步骤一,构建一个小语种翻译模型所需的同义词表与同类词表;对原有的稀缺语料进行去重、分词预处理;
步骤二,利用同义词与同类表,将源端语言和目标端语言的语料进行两端的同义词与同类词替换,两端保持对齐,语料扩充完成;
步骤三,完成语料扩充后,将得到的新的语料作为训练语料,训练小语种的机器翻译模型。
3.如权利要求1所述的基于同类词与同义词替换的数据增强机器翻译方法,其特征在于,分布式词表示将词典中的词的索引映射到高维空间中的词向量;词向量的每个维度都与多个概念相关联,通过反向传播算法训练模型,不断更新一开始随机初始化的词向量,得到聚类很好的词向量。
4.如权利要求3所述的基于同类词与同义词替换的数据增强机器翻译方法,其特征在于,给定语料T中的一个单词序列S=[wi-n...wi...wi+n],通过随机挑选语料词表中的单词wj用于替换序列S中的单词wi来构造伪序列S′,然后对每个序列即短语进行评分,如果S′的得分比S的得分要高,通过铰链损失函数J(T)惩罚模型,得到一个聚合很好的词向量;
给定一个单词wi,根据其他单词与wi的欧氏距离对单词进行排序,并显示最接近的五个相邻单词作为wi的同义词或同类词;对词汇表中的每一个单词翻译进行上述操作,得到一个大小与词汇表等同的同义词与同类词表;
将得到的大语种的同义词表和同类词表翻译成所需训练的小语种翻译模型的同义词表与同类词表。
5.一种应用权利要求1~4任意一项所述基于同类词与同义词替换的数据增强机器翻译方法的神经机器翻译系统。
CN201810723531.1A 2018-07-04 2018-07-04 一种基于同类词与同义词替换的数据增强机器翻译方法 Active CN108920473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810723531.1A CN108920473B (zh) 2018-07-04 2018-07-04 一种基于同类词与同义词替换的数据增强机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810723531.1A CN108920473B (zh) 2018-07-04 2018-07-04 一种基于同类词与同义词替换的数据增强机器翻译方法

Publications (2)

Publication Number Publication Date
CN108920473A true CN108920473A (zh) 2018-11-30
CN108920473B CN108920473B (zh) 2022-08-09

Family

ID=64424570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810723531.1A Active CN108920473B (zh) 2018-07-04 2018-07-04 一种基于同类词与同义词替换的数据增强机器翻译方法

Country Status (1)

Country Link
CN (1) CN108920473B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN109902313A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN110196977A (zh) * 2019-05-31 2019-09-03 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理系统及方法
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110532575A (zh) * 2019-08-21 2019-12-03 语联网(武汉)信息技术有限公司 文本翻译方法及装置
CN110728154A (zh) * 2019-08-28 2020-01-24 云知声智能科技股份有限公司 一种半监督式通用神经机器翻译模型的构建方法
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110781689A (zh) * 2019-10-25 2020-02-11 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN111008533A (zh) * 2019-12-09 2020-04-14 北京字节跳动网络技术有限公司 一种翻译模型的获取方法、装置、设备和存储介质
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及系统
CN111274827A (zh) * 2020-01-20 2020-06-12 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN111428499A (zh) * 2020-04-27 2020-07-17 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备
CN111738022A (zh) * 2020-06-23 2020-10-02 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
CN111753556A (zh) * 2020-06-24 2020-10-09 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN111783477A (zh) * 2020-05-13 2020-10-16 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111881669A (zh) * 2020-06-24 2020-11-03 百度在线网络技术(北京)有限公司 同义文本获取方法、装置、电子设备及存储介质
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN112668325A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 一种机器翻译增强方法、系统、终端及存储介质
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
WO2021134524A1 (zh) * 2019-12-31 2021-07-08 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法
RU2758683C2 (ru) * 2020-04-28 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Система и способ аугментации обучающей выборки для алгоритмов машинного обучения
WO2022078506A1 (en) * 2020-10-17 2022-04-21 International Business Machines Corporation Transliteration based data augmentation for training multilingual asr acoustic models in low resource settings
CN111666751B (zh) * 2020-06-04 2023-09-29 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN112668325B (zh) * 2020-12-18 2024-05-10 平安科技(深圳)有限公司 一种机器翻译增强方法、系统、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN102483757A (zh) * 2009-08-21 2012-05-30 米科·韦内宁 用于数据搜索和语言翻译的方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN102483757A (zh) * 2009-08-21 2012-05-30 米科·韦内宁 用于数据搜索和语言翻译的方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGQIAO HAN 等: "unsupervised automatic text style transfer using lstm", 《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 *
路雪: "无监督神经机器翻译:仅需使用单语语料库", 《HTTPS://WWW.JIQIZHIXIN.COM/ARTICLES/2017-11-03》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN109918646B (zh) * 2019-01-30 2020-08-11 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN109840331B (zh) * 2019-01-31 2023-04-28 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN109902313B (zh) * 2019-03-01 2023-04-07 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109902313A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110196977A (zh) * 2019-05-31 2019-09-03 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理系统及方法
CN110196977B (zh) * 2019-05-31 2023-06-09 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理系统及方法
CN110516233B (zh) * 2019-08-06 2023-08-01 深圳数联天下智能科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110532575A (zh) * 2019-08-21 2019-12-03 语联网(武汉)信息技术有限公司 文本翻译方法及装置
CN110728154B (zh) * 2019-08-28 2023-05-26 云知声智能科技股份有限公司 一种半监督式通用神经机器翻译模型的构建方法
CN110728154A (zh) * 2019-08-28 2020-01-24 云知声智能科技股份有限公司 一种半监督式通用神经机器翻译模型的构建方法
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
US11461561B2 (en) 2019-10-25 2022-10-04 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for information processing, and storage medium
CN110781689A (zh) * 2019-10-25 2020-02-11 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN111008533A (zh) * 2019-12-09 2020-04-14 北京字节跳动网络技术有限公司 一种翻译模型的获取方法、装置、设备和存储介质
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及系统
WO2021134524A1 (zh) * 2019-12-31 2021-07-08 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备
CN111274827A (zh) * 2020-01-20 2020-06-12 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN111274827B (zh) * 2020-01-20 2021-05-28 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN111428499B (zh) * 2020-04-27 2021-10-26 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN111428499A (zh) * 2020-04-27 2020-07-17 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
WO2021221535A1 (ru) * 2020-04-28 2021-11-04 Публичное Акционерное Общество "Сбербанк России" Система и способ аугментации обучающей выборки для алгоритмов машинного обучения
RU2758683C2 (ru) * 2020-04-28 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Система и способ аугментации обучающей выборки для алгоритмов машинного обучения
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法
CN111783477B (zh) * 2020-05-13 2023-08-22 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111783477A (zh) * 2020-05-13 2020-10-16 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111666751B (zh) * 2020-06-04 2023-09-29 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111738022A (zh) * 2020-06-23 2020-10-02 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
CN111738022B (zh) * 2020-06-23 2023-04-18 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
CN111881669A (zh) * 2020-06-24 2020-11-03 百度在线网络技术(北京)有限公司 同义文本获取方法、装置、电子设备及存储介质
CN111753556A (zh) * 2020-06-24 2020-10-09 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN112257460B (zh) * 2020-09-25 2022-06-21 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
US11568858B2 (en) 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
WO2022078506A1 (en) * 2020-10-17 2022-04-21 International Business Machines Corporation Transliteration based data augmentation for training multilingual asr acoustic models in low resource settings
GB2615912A (en) * 2020-10-17 2023-08-23 Ibm Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112668325A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 一种机器翻译增强方法、系统、终端及存储介质
CN112668325B (zh) * 2020-12-18 2024-05-10 平安科技(深圳)有限公司 一种机器翻译增强方法、系统、终端及存储介质
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Also Published As

Publication number Publication date
CN108920473B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN108920473A (zh) 一种基于同类词与同义词替换的数据增强机器翻译方法
Faruqui et al. Morphological inflection generation using character sequence to sequence learning
CN111324744B (zh) 一种基于目标情感分析数据集的数据增强方法
Baniata et al. A Neural Machine Translation Model for Arabic Dialects That Utilizes Multitask Learning (MTL).
CN109359304B (zh) 限定性神经网络机器翻译方法及存储介质
Jiampojamarn et al. Phoneme alignment: An exploration
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
Szarvas et al. A highly accurate Named Entity corpus for Hungarian
CN109086269A (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
Wu et al. An effective approach of named entity recognition for cyber threat intelligence
Abumalloh et al. Arabic part-of-speech tagging
He et al. Multi-level cross-lingual transfer learning with language shared and specific knowledge for spoken language understanding
Hung Vietnamese diacritics restoration using deep learning approach
Qin et al. Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Mi et al. A neural network based model for loanword identification in Uyghur
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
Al Nahas et al. Supervised text style transfer using neural machine translation: converting between old and modern Turkish as an example
CN113591493A (zh) 翻译模型的训练方法及翻译模型的装置
Duan et al. Pinyin as a feature of neural machine translation for Chinese speech recognition error correction
CN111985220A (zh) 一种基于深度学习的端到端司法文书自动校对方法
Lee et al. MILAB at SemEval-2019 task 3: multi-view turn-by-turn model for context-aware sentiment analysis
Mu et al. MOCOLNet: A Momentum Contrastive Learning Network for Multimodal Aspect-Level Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant