CN108874790A - 一种基于语言模型和翻译模型的清洗平行语料方法及系统 - Google Patents

一种基于语言模型和翻译模型的清洗平行语料方法及系统 Download PDF

Info

Publication number
CN108874790A
CN108874790A CN201810700028.4A CN201810700028A CN108874790A CN 108874790 A CN108874790 A CN 108874790A CN 201810700028 A CN201810700028 A CN 201810700028A CN 108874790 A CN108874790 A CN 108874790A
Authority
CN
China
Prior art keywords
language
model
word
corpus
parallel corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810700028.4A
Other languages
English (en)
Inventor
贝超
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810700028.4A priority Critical patent/CN108874790A/zh
Publication of CN108874790A publication Critical patent/CN108874790A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种基于语言模型和翻译模型的清洗平行语料的方法及系统,语料预处理主要是处理相同语系的多个方向的双语平行语料;使用源语言和目标语言的语言模型对平行语料进行筛选;使用翻译模型对双语平行语料筛选语料。本发明利用语言模型和翻译模型清洗大规模的双语语料;使用启发式的规则清洗平行语料的时间和人力成本都比较高,只有发现了问题,才能针对某个问题进行处理,无法大规模解决语序不畅和翻译不准确的问题。而使用语言模型和翻译模型可以在短时间内即可解决使用规则无法解决的问题,既节省了时间和人力成本,又可以清洗语料,而语料质量的提高,可有效提高机器翻译质量。

Description

一种基于语言模型和翻译模型的清洗平行语料方法及系统
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于语言模型和翻译模型的清洗平行语料方法及系统。
背景技术
目前,业内常用的现有技术是这样的:机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学等学科,是人工智能的终极目标之一。现有主流的机器翻译模型是使用基于自注意力机制的编码-解码结构的神经网络模型,由编码器和解码器组成。二者均以自注意力层为主。翻译流程主要包括:首先把输入的词映射到高维的向量空间得到词向量,再把词向量输入到编码器,通过自注意力机制得到上下文向量,解码器再根据上下文向量和自注意力机制,通过softmax层输出到目标语言的词向量空间。最后通过词典得到目标语言词汇。由于神经网络模型中有大量参数,所以需要大量的双语平行语料训练,其语料的数量级一般在千万左右,对于语料的数量和质量要求较高。机器翻译系统需要较多的双语平行语料,即平行原文与平行译文对应的语料。一般的统计机器翻译系统或者神经网络机器翻译系统均为数据驱动,需要双语的平行语料,根据提供的双语平行语料训练模型。平行语料的数量和质量对机器翻译系统的性能有决定性的影响。在部分语言对中,如英中这个语言对,可供训练的双语平行语料早已超过千万,然而其质量较低,可供实际进行神经网络机器翻译训练的平行语料并没有那么多,也就是部分语料的质量并不能达到可供训练的标准。平行语料中经常出现语序不畅、翻译不准确以及各种其他无法预料的问题。现有处理语料的方法主要是基于各种启发式的规则,只有在发现问题后才能处理问题。然而现有语料规模都在千万以上,人工慢慢去发现问题的时间成本较大,并不能解决大部分问题。另外,对于语序不畅和翻译不准确的问题,基于启发式的规则的方法并不能解决,只能删除,无法解决大部分的问题。
综上所述,现有技术存在的问题是:
(1)现有处理语料的方法人工慢慢去发现问题的时间成本较大。
(2)现有处理语料的方法对于语序不畅和翻译不准确的问题并不能解决,而这类问题在大部分的语料中都是普遍存在的,会降低机器翻译模型的翻译质量。
解决上述技术问题的难度和意义:
解决了语料中普遍存在的语序不畅和翻译不准确的问题,可以较大地提升语料的质量,可利用的语料数量也可以有较大的提高,尤其对于双语语料较少的语言对。神经网络机器翻译模型可以从更高质量的双语语料中学习,其模型的翻译质量也会有部分提升。
发明内容
针对现有技术存在的问题,本发明提供了一种基于语言模型和翻译模型的清洗平行语料方法及系统。
本发明是这样实现的,一种基于语言模型和翻译模型的清洗平行语料方法,所述基于语言模型和翻译模型的清洗平行语料方法包括以下步骤:
步骤一,语料预处理主要使用神经网络机器翻译模型和语言模型预处理算法对语料进行预处理;
步骤二,使用源语言和目标语言的语言模型对平行语料进行筛选;
步骤三,使用神经网络机器翻译模型对双语平行语料筛选语料。
进一步,所述步骤一具体包括:
(1)分词,使用基于隐马尔科夫模型的分词算法进行分词;
(2)切分子词,使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词。对于低频词,切分成子词的形式,以保留词的原来形式而不会被替换未知词的形式。
进一步,所述步骤二具体包括:
(1)语言模型是根据给定若干个词,预测下一个词出现的概率,当一个句子为:
S=w1,w2,...,wk
则其概率可以表示为:
P(s)=P(w1,w2,...,wk)=p(w1)p(w2|w1)...p(wk|w1,w2,...wk-1);
其中w1,w2......,wk为第1到k个词,那么一般使用n元语言模型来近似估算其概率:即当前词的概率只与前n-1个词有关,那么其概率可以表示为:
其中w1,w2......,wn为第1到n个词,那么以已经训练好的语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值:
L=-∑iy′ilog(yi);
其中y′i为语言模型中预测下一个词wi的概率,yi为待打分的语料中下一个词wi的概率;
(2)对源语言和目标语言进行相同的(1)步骤,综合两种语言的语言模型打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料。
进一步,所述步骤三具体包括:
(1)使用基于自注意力的编码器到解码器的神经网络结构作为翻译模型,其计算主要如下:
点乘注意力:
其中,Q,K,V均为词向量,T表示转置,dK表示K的维度,Xi,Xj为输入参数;
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,Q,K,V均为词向量,Concat是指把向量拼接起来,Wi为参数矩阵,head1...headi...,headn为第1到n个头向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2
其中,W1,W2为权重参数,b1,b2为偏置,均可通过训练更新,a是参数;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇;计算如下:
其中,θ,θij为权重参数,T为转置,k为目标语言词表的大小。
以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值;
(2)结合双向的打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料;
经过语言模型和翻译模型筛选平行语料,得到高质量的双语平行语料。
本发明的另一目的在于提供一种应用所述基于语言模型和翻译模型的清洗平行语料方法,所述基于语言模型和翻译模型的清洗平行语料系统,基于语言模型和翻译模型的清洗平行语料系统包括:
语料预处理模块,用于处理相同语系的多个方向的双语平行语料;
第一筛选模块,语料预处理主要使用神经网络机器翻译模型和语言模型预处理算法对语料进行预处理;
第二筛选模块,使用翻译模型对双语平行语料筛选语料,去除语序不畅,翻译不准确的语料。
进一步,所述语料预处理模块包括:
分词单元,用于使用基于隐马尔科夫模型的分词算法进行分词。
切分子词单元,用于使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词。
进一步,所述第一筛选模块包括:
损失值计算单元,用于以语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值;
语料排序单元,用于结合源语言和目标语言的打分,对语料进行排序;
删除单元,用于根据实际情况,删除质量较低的平行语料;
所述第二筛选模块包括:
输出单元,用于以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值。
排序单元,用于结合双向的打分,对语料进行排序;
平行语料删除单元,用于根据实际情况,删除质量较低的平行语料;
去除单元,用于经过语言模型和翻译模型筛选平行语料之后,去除语序不畅,翻译不准确的语料,得到高质量的双语平行语料。
本发明的另一目的在于提供一种实现所述基于语言模型和翻译模型的清洗平行语料方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于语言模型和翻译模型的清洗平行语料方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于语言模型和翻译模型的清洗平行语料方法。
综上所述,本发明的优点及积极效果为:使用语言模型和翻译模型进行清洗语料,可以通过模型对语料进行打分,删除分数较低语料,留下质量较高的平行语料。既可以解决语序不畅和翻译不准确的问题,又可以节省成本,免去人工审核语料的时间和人力成本,可以在短时间内筛选出一批质量较高的语料。
本发明利用语言模型和翻译模型清洗大规模的双语语料,综合考虑了单语的质量以及双语的翻译质量。使用启发式的规则清洗平行语料的时间和人力成本都比较高,只有发现了问题,才能针对某个问题进行处理,无法大规模解决语序不畅和翻译不准确的问题。而使用语言模型和翻译模型可以在短时间内即可解决使用规则无法解决的问题,既节省了时间和人力成本,又可以清洗语料,而语料质量的提高,可有效提高机器翻译质量。
附图说明
图1是本发明实施例提供的基于语言模型和翻译模型的清洗平行语料方法流程图。
图2是本发明实施例提供的基于语言模型和翻译模型的清洗平行语料系统结构示意图;
图中:1、语料预处理模块;2、第一筛选模块;3、第二筛选模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明使用语言模型和翻译模型进行清洗语料,可以通过模型对语料进行打分,删除分数较低语料,留下质量较高的平行语料。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于语言模型和翻译模型的清洗平行语料方法包括以下步骤:
S101:语料预处理主要是处理相同语系的多个方向的双语平行语料;
S102:使用源语言和目标语言的语言模型对平行语料进行筛选;
S103:使用翻译模型对双语平行语料筛选语料。
如图2所示,本发明实施例提供的基于语言模型和翻译模型的清洗平行语料系统包括:
语料预处理模块1,用于处理相同语系的多个方向的双语平行语料;
第一筛选模块2,用于使用源语言和目标语言的语言模型对平行语料进行筛选;
第二筛选模块3,使用翻译模型对双语平行语料筛选语料。
在本发明的优选实施例中:步骤S101具体包括:
(1)分词,使用基于隐马尔科夫模型的分词算法进行分词。
(2)切分子词,使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词。对于低频词,切分成子词的形式,以保留词的原来形式而不会被替换未知词的形式。
在本发明的优选实施例中:步骤S102具体包括:
(1)语言模型是根据给定若干个词,预测下一个词出现的概率,当一个句子为:
S=w1,w2,...,wk
则其概率可以表示为:
P(s)=P(w1,w2,...,wk)=p(w1)p(w2|w1)...p(wk|w1,w2,...wk-1);
其中w1,w2......,wk为第1到k个词,那么一般使用n元语言模型来近似估算其概率:即当前词的概率只与前n-1个词有关,那么其概率可以表示为:
其中w1,w2......,wn为第1到n个词,那么以已经训练好的语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值:
L=-∑iy′ilog(yi);
其中y′i为语言模型中预测下一个词wi的概率,yi为待打分的语料中下一个词wi的概率;
(2)对源语言和目标语言进行相同的(1)步骤,综合两种语言的语言模型打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料。
在本发明的优选实施例中:步骤S103具体包括:
(1)使用基于自注意力的编码器到解码器的神经网络结构作为翻译模型,其计算主要如下:
点乘注意力:
其中,Q,K,V均为词向量,T表示转置,dK表示K的维度,Xi,Xj为输入参数;
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,Q,K,V均为词向量,Concat是指把向量拼接起来,Wi为参数矩阵,head1...headi...,headn为第1到n个头向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2
其中,W1,W2为权重参数,b1,b2为偏置,均可通过训练更新,a是参数;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇;计算如下:
其中,θij为权重参数,T为转置,k为目标语言词表的大小。
以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值;
(2)结合双向的打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料;
经过语言模型和翻译模型筛选平行语料,得到高质量的双语平行语料。
本发明是这样实现的,一种基于语言模型和翻译模型的清洗平行语料方法,所述基于语言模型和翻译模型的清洗平行语料方法包括以下步骤:
步骤一,语料预处理主要使用神经网络机器翻译模型和语言模型预处理算法对语料进行预处理;
步骤二,使用源语言和目标语言的语言模型对平行语料进行筛选;
步骤三,使用神经网络机器翻译模型对双语平行语料筛选语料。
进一步,所述步骤一具体包括:
(1)分词,使用基于隐马尔科夫模型的分词算法进行分词;
(2)切分子词,使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词。对于低频词,切分成子词的形式,以保留词的原来形式而不会被替换未知词的形式。
进一步,所述步骤二具体包括:
(1)语言模型是根据给定若干个词,预测下一个词出现的概率,当一个句子为:
S=w1,w2,...,wk
则其概率可以表示为:
P(s)=P(w1,w2,...,wk)=p(w1)p(w2|w1)...p(wk|w1,w2,...wk-1);
其中w1,w2......,wk为第1到k个词,那么一般使用n元语言模型来近似估算其概率:即当前词的概率只与前n-1个词有关,那么其概率可以表示为:
其中w1,w2......,wn为第1到n个词,那么以已经训练好的语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值:
L=-∑iy′ilog(yi);
其中y′i为语言模型中预测下一个词wi的概率,yi为待打分的语料中下一个词wi的概率;
(2)对源语言和目标语言进行相同的(1)步骤,综合两种语言的语言模型打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料。
进一步,所述步骤三具体包括:
(1)使用基于自注意力的编码器到解码器的神经网络结构作为翻译模型,其计算主要如下:
点乘注意力:
其中,Q,K,V均为词向量,T表示转置,dK表示K的维度,Xi,Xj为输入参数;
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,Q,K,V均为词向量,Concat是指把向量拼接起来,Wi为参数矩阵,head1...headi...,headn为第1到n个头向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2
其中,W1,W2为权重参数,b1,b2为偏置,均可通过训练更新,a是参数;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇;计算如下:
其中,θij为权重参数,T为转置,k为目标语言词表的大小。
以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值;
(2)结合双向的打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料;
经过语言模型和翻译模型筛选平行语料,得到高质量的双语平行语料。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语言模型和翻译模型的清洗平行语料的方法,其特征在于,所述基于语言模型和翻译模型的清洗平行语料方法包括以下步骤:
步骤一,语料预处理,使用神经网络机器翻译模型和语言模型预处理算法对语料进行预处理;
步骤二,使用源语言和目标语言的语言模型对平行语料进行筛选;
步骤三,使用神经网络机器翻译模型对双语平行语料筛选语料。
2.如权利要求1所述的基于语言模型和翻译模型的清洗平行语料方法,其特征在于,所述步骤一具体包括:
(1)分词,使用基于隐马尔科夫模型的分词算法进行分词;
(2)切分子词,使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词;对于低频词,切分成子词的形式,以保留词的原来形式而不会被替换成未知词的形式。
3.如权利要求1或2所述的基于语言模型和翻译模型的清洗平行语料方法,其特征在于,所述步骤二具体包括:
(1)语言模型根据给定的若干个词,预测下一个词出现的概率,当一个句子为:
S=w1,w2,...,wk
则其概率可以表示为:
P(s)=P(w1,w2,...,wk)=p(w1)p(w2|w1)...p(wk|w1,w2,...wk-1);
其中w1,w2......,wk为第1到k个词,那么一般使用n元语言模型来近似估算其概率:即当前词的概率只与前n-1个词有关,那么其概率可以表示为:
其中w1,w2......,wn为第1到n个词,那么以已经训练好的语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值:
L=-∑iy′ilog(yi);
其中y′i为语言模型中预测下一个词wi的概率,yi为待打分的语料中下一个词wi的概率;
(2)对源语言和目标语言进行相同的(1)步骤,综合两种语言的语言模型打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料。
4.如权利要求1或2或3所述的基于语言模型和翻译模型的清洗平行语料方法,其特征在于,所述步骤三具体包括:
(1)使用基于自注意力的编码器到解码器的神经网络结构作为翻译模型,其计算如下:
点乘注意力:
其中,Q,K,V均为词向量,T表示转置,dK表示K的维度,Xi,Xj为输入参数;
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,Q,K,V均为词向量,Concat是指把向量拼接起来,Wi为参数矩阵,head1...headi...,headn为第1到n个头向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2
其中,W1,W2为权重参数,b1,b2为偏置,均可通过训练更新,a是参数;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇;
计算如下:
其中,θi,θj为权重参数,T为转置,k为目标语言词表的大小;
以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值;
(2)结合双向的打分,对语料进行排序;
(3)根据排序结果,删除质量较低的平行语料;
经过语言模型和翻译模型筛选平行语料,得到高质量的双语平行语料。
5.一种应用权利要求1所述基于语言模型和翻译模型的清洗平行语料方法的基于语言模型和翻译模型的清洗平行语料的系统,其特征在于,所述基于语言模型和翻译模型的清洗平行语料系统包括:
语料预处理模块,语料预处理主要使用神经网络机器翻译模型和语言模型预处理算法对语料进行预处理;
第一筛选模块,用于使用源语言和目标语言的语言模型对平行语料进行筛选;
第二筛选模块,使用翻译模型对双语平行语料筛选语料,去除语序不畅,翻译不准确的语料。
6.如权利要求5所述的清洗平行语料方法的基于语言模型和翻译模型的清洗平行语料的系统,其特征在于,所述语料预处理模块包括:
分词单元,用于使用基于隐马尔科夫模型的分词算法进行分词;
切分子词单元,用于使用字节对编码算法,根据词的频率,把低频词切分成子词的形式,保留高频词;对于低频词,切分成子词的形式,以保留词的原来形式而不会被替换成未知词的形式。
7.如权利要求5或6所述的清洗平行语料方法的基于语言模型和翻译模型的清洗平行语料系统,其特征在于,所述第一筛选模块包括:
损失值计算单元,用于以语言模型为标准,根据以下损失函数公式输出源语言和目标语言的损失值;
语料排序单元,用于结合源语言和目标语言的打分,对语料进行排序;
删除单元,用于根据实际情况,删除质量较低的平行语料;
所述第二筛选模块包括:
输出单元,用于以翻译模型为标准,根据语言模型中同样的损失函数公式分别输出源语言到目标语言,目标语言到源语言的损失值;
排序单元,用于结合双向的打分,对语料进行排序;
平行语料删除单元,用于根据实际情况,删除质量较低的平行语料;
去除单元,用于经过语言模型和翻译模型筛选平行语料之后,去除语序不畅,翻译不准确的语料,得到高质量的双语平行语料。
8.一种实现权利要求1~4任意一项所述基于语言模型和翻译模型的清洗平行语料方法的计算机程序。
9.一种实现权利要求1~4任意一项所述基于语言模型和翻译模型的清洗平行语料方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的基于语言模型和翻译模型的清洗平行语料方法。
CN201810700028.4A 2018-06-29 2018-06-29 一种基于语言模型和翻译模型的清洗平行语料方法及系统 Pending CN108874790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810700028.4A CN108874790A (zh) 2018-06-29 2018-06-29 一种基于语言模型和翻译模型的清洗平行语料方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810700028.4A CN108874790A (zh) 2018-06-29 2018-06-29 一种基于语言模型和翻译模型的清洗平行语料方法及系统

Publications (1)

Publication Number Publication Date
CN108874790A true CN108874790A (zh) 2018-11-23

Family

ID=64297247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810700028.4A Pending CN108874790A (zh) 2018-06-29 2018-06-29 一种基于语言模型和翻译模型的清洗平行语料方法及系统

Country Status (1)

Country Link
CN (1) CN108874790A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941964A (zh) * 2019-12-11 2020-03-31 北京小米移动软件有限公司 双语语料筛选方法、装置及存储介质
CN111221965A (zh) * 2019-12-30 2020-06-02 成都信息工程大学 基于公共标识语双语语料的分类抽样检测方法
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
WO2021017953A1 (en) * 2019-07-26 2021-02-04 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112784173A (zh) * 2021-02-26 2021-05-11 电子科技大学 一种基于自注意力对抗神经网络的推荐系统评分预测方法
WO2021098397A1 (zh) * 2019-11-21 2021-05-27 腾讯科技(深圳)有限公司 数据处理方法、设备及存储介质
US11288452B2 (en) 2019-07-26 2022-03-29 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof
CN114861688A (zh) * 2022-05-30 2022-08-05 哈尔滨工业大学 一种面向低资源机器翻译的平行数据筛选方法及系统
CN115455964A (zh) * 2022-11-10 2022-12-09 南京万得资讯科技有限公司 一种针对垂直领域机器翻译的低资源优化方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110022381A1 (en) * 2009-07-21 2011-01-27 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110022381A1 (en) * 2009-07-21 2011-01-27 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention Is All You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 *
SURAFEL M.LAKEW 等: "Multilingual Neural Machine Translation for low-Resource Languages", 《EMERGING TOPICS AT THE FOUTH ITALIAN CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
刘乐: "统计机器翻译领域适应性研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
姚亮等: "基于翻译模型和语言模型相融合的双语句对选择方法", 《中文信息学报》 *
孔金英等: "面向维汉机器翻译的语料筛选技术研究", 《计算机应用研究》 *
银花 等: "基于短语的蒙汉统计机器翻译系统的设计与实现", 《内蒙古师范大学学报自然科学汉文版)》 *
陈鄞: "《自然语言处理基本理论和方法》", 31 August 2013 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354333B (zh) * 2018-12-21 2023-11-10 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
US11238222B2 (en) 2019-07-26 2022-02-01 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data
WO2021017953A1 (en) * 2019-07-26 2021-02-04 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data
US11288452B2 (en) 2019-07-26 2022-03-29 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof
WO2021098397A1 (zh) * 2019-11-21 2021-05-27 腾讯科技(深圳)有限公司 数据处理方法、设备及存储介质
CN110941964A (zh) * 2019-12-11 2020-03-31 北京小米移动软件有限公司 双语语料筛选方法、装置及存储介质
CN110941964B (zh) * 2019-12-11 2023-08-15 北京小米移动软件有限公司 双语语料筛选方法、装置及存储介质
CN111221965A (zh) * 2019-12-30 2020-06-02 成都信息工程大学 基于公共标识语双语语料的分类抽样检测方法
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112784173A (zh) * 2021-02-26 2021-05-11 电子科技大学 一种基于自注意力对抗神经网络的推荐系统评分预测方法
CN114861688A (zh) * 2022-05-30 2022-08-05 哈尔滨工业大学 一种面向低资源机器翻译的平行数据筛选方法及系统
CN115455964A (zh) * 2022-11-10 2022-12-09 南京万得资讯科技有限公司 一种针对垂直领域机器翻译的低资源优化方法
CN115455964B (zh) * 2022-11-10 2023-03-14 万得信息技术股份有限公司 一种针对垂直领域机器翻译的低资源优化方法

Similar Documents

Publication Publication Date Title
CN108874790A (zh) 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN113505244B (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
CN107025284B (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN109992783B (zh) 中文词向量建模方法
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
WO2019205564A1 (zh) 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端
CN108563640A (zh) 一种多语言对的神经网络机器翻译方法及系统
CN108520343A (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
CN111078887B (zh) 文本分类方法和装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN112256860A (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN109684445A (zh) 口语化医疗问答方法及系统
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN108959236A (zh) 医学文献分类模型训练方法、医学文献分类方法及其装置
US10242002B2 (en) Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
CN109783637A (zh) 基于深度神经网络的电力检修文本挖掘方法
Kumar et al. Privacy adhering machine un-learning in nlp
Shehu et al. Sentiment analysis of Turkish Twitter data
CN117540734B (zh) 一种中文医学实体标准化方法、装置及设备
CN112463982B (zh) 一种基于显隐式实体约束的关系抽取方法
CN109271635A (zh) 一种嵌入外部词典信息的词向量改进方法
Li et al. Text sentiment analysis based on glove model and united network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123