CN112257472B - 一种文本翻译模型的训练方法、文本翻译的方法及装置 - Google Patents
一种文本翻译模型的训练方法、文本翻译的方法及装置 Download PDFInfo
- Publication number
- CN112257472B CN112257472B CN202011271673.2A CN202011271673A CN112257472B CN 112257472 B CN112257472 B CN 112257472B CN 202011271673 A CN202011271673 A CN 202011271673A CN 112257472 B CN112257472 B CN 112257472B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- translation
- acquiring
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 342
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000012549 training Methods 0.000 title claims abstract description 120
- 238000012545 processing Methods 0.000 claims description 57
- 239000013598 vector Substances 0.000 claims description 36
- 238000007781 pre-processing Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 28
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000014616 translation Effects 0.000 description 277
- 238000010586 diagram Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 230000009193 crawling Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Abstract
本申请公开了一种基于人工智能技术实现的文本翻译模型训练方法和文本翻译方法,具体涉及自然语言处理领域以及机器学习领域,文本翻译模型训练方法包括:获取第一文本以及第二文本;若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本;基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;根据第一翻译文本以及第二句子,对文本翻译模型进行训练。本申请实施例还提供了一种相关装置,本申请能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
Description
技术领域
本申请涉及自然语言处理处理,尤其涉及一种文本翻译模型的训练方法、文本翻译的方法及装置。
背景技术
网络小说是指利用互联网发表并传播的书面文学作品,与一般的小说相比,网络小说的语法更近口语并充斥网络流行语。如今,中国网络文学通过对外授权开始网文出海,翻译一部网络小说的成分非常高,因此,网络小说翻译亟需借助人工智能(ArtificialIntelligence,AI))技术来提高网文翻译效率,降低翻译成本。
针对网络小说的翻译,目前,提出了一种翻译数字图形小说的方法,首先接收数字图形小说内容,然后识别图形小说内容的特征,该有特征包括文本特征,再基于所识别的特征,生成与文本特征对应的场境信息,该场境信息用于辅助文本翻译。
然而,大部分的网络小说并非以数字图形小说的形式呈现,而是以全文字或者大量文字的形式呈现,因此,需要训练一种用于网络小说翻译的模型。由于网络小说涉及版权等问题,目前尚未有网络小说的平行语料库,因此,难以实现网络小说翻译模型的训练。
发明内容
本申请实施例提供了一种文本翻译模型的训练方法、文本翻译的方法及装置,能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
有鉴于此,本申请一方面提供一种文本翻译模型的训练方法,包括:
获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
本申请另一方面提供一种文本翻译的方法,包括:
获取待翻译文本,其中,待翻译文本包括至少一个句子,其中,待翻译文本对应于源语种;
基于待翻译文本中的每个句子,通过文本翻译模型获取每个句子所对应的翻译文本,其中,文本翻译模型为采用述各方面所提供的方法训练得到的;
根据每个句子所对应的翻译文本,生成待翻译文本所对应的目标翻译文本,其中,目标翻译文本对应于目标语种,目标语种与源语种属于不同的语种。
本申请另一方面提供一种模型训练装置,包括:
获取模块,用于获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
获取模块,还用于若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
获取模块,还用于基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
训练模块,用于根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取第一链接地址以及第二链接地址;
根据第一链接地址获取第一元信息,其中,第一元信息包括第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第一元信息满足文本更新条件,则获取第一文本;
根据第二链接地址获取第二元信息,其中,第二元信息包括第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第二元信息满足文本更新条件,则获取第二文本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,模型训练装置还包括确定模块;
确定模块,用于在获取模块获取第一文本以及第二文本之后,根据第一文本以及第二文本,确定标题匹配结果;
确定模块,还用于根据第一文本以及第二文本,确定章节匹配结果;
确定模块,还用于若标题匹配结果以及章节匹配结果均为第一匹配结果,则确定第一文本以及第二文本满足文本对齐条件,其中,第一匹配结果表示匹配成功;
确定模块,还用于若标题匹配结果以及章节匹配结果中的至少一项为第二匹配结果,则确定第一文本以及第二文本未满足文本对齐条件,其中,第二匹配结果表示匹配失败。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于获取第一文本所对应的第一标题信息以及第二文本所对应的第二标题信息;
基于多语种标题集合,对第一标题信息以及第二标题信息进行匹配,得到标题匹配结果,其中,多语种标题集合包括至少一组标题信息,每组标题信息至少包括源语种所对应的标题信息以及目标语种所对应的标题信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于获取第一文本的第一章节信息以及第二文本的第二章节信息,其中,第一章节信息包括第一词语以及第一章节编号,第二章节信息包括第二词语以及第二章节编号;
基于多语种词语集合,对第一章节信息所包括的第一词语以及第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
对第一章节信息所包括的第一章节编号以及第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
根据第一匹配子结果以及第二匹配子结果,确定章节匹配结果。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取第一文本中的源端句子;
基于源端句子,通过文本翻译模型获取第一待匹配句子;
获取第一待匹配句子以及第二文本中的K个第二待匹配句子,其中,K为大于或等于1的整数;
根据第一待匹配句子以及K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与第一待匹配句子;
若K个匹配分值中的最大值大于或等于匹配分阈值,则将源端句子确定为第一句子,并将最大值所对应的第二待匹配句子确定为第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取第一句子所对应的第一标点以及第二句子所对应的第二标点;
若第一标点与第二标点匹配成功,则获取第一待训练平行文本;
或者,
获取模块,具体用于获取第一句子所对应的第一词语数以及第二句子所对应的第二词语数;
根据第一词语数和第二词语数,确定词语比例;
若词语比例在词语比例区间内,则获取第一待训练平行文本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取待处理平行文本,其中,待处理平行文本包括第一待处理句子以及第二待处理句子,第一待处理句子来源于第一文本,第二待处理句子来源于第二文本,且第二待处理句子为第一待处理句子对应的翻译结果;
对待处理平行文本所包括的第一待处理句子进行文本预处理,得到第一句子,其中,文本预处理包括编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理中的至少一种;
对待处理平行文本所包括的第二待处理句子进行文本预处理,得到第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于第一待训练平行文本所包括的第一句子,通过文本翻译模型所包括的编码器获取源端向量,其中,第一句子包括M个源端词,源端向量包括每个源端词的词向量,M为大于或等于1的整数;
基于源端向量,通过文本翻译模型所包括的注意力网络获取第t个源端词的源端上下文,其中,t为大于或等于1,且小于或等于M的整数;
基于第t个源端词的源端上下文,通过文本翻译模型所包括的解码器获取第t个源端词的解码器状态;
基于第t个源端词的解码器状态以及源端向量,通过文本翻译模型所包括的输出层获取第t个源端词所对应的目标词;
当获取到M个源端词中每个源端词所对应的目标词时,获取第一翻译文本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,还用于在训练模块根据第一翻译文本以及第二句子,对文本翻译模型进行训练之后,获取第三文本以及第四文本,其中,第三文本对应于源语种,第四文本对应于目标语种;
获取模块,还用于若第三文本以及第四文本满足文本对齐条件,则获取第二待训练平行文本,其中,第二待训练平行文本包括第三句子以及第四句子,第三句子来源于第三文本,第四句子来源于第四文本,且第四句子为第三句子对应的翻译结果;
获取模块,还用于基于第二待训练平行文本所包括的第三句子,通过文本翻译模型获取第二翻译文本;
训练模块,还用于根据第二翻译文本以及第二句子,对文本翻译模型进行训练。
本申请另一方面提供一种文本翻译装置,包括:
获取模块,用于获取待翻译文本,其中,待翻译文本包括至少一个句子,其中,待翻译文本对应于源语种;
获取模块,还用于基于待翻译文本中的每个句子,通过文本翻译模型获取每个句子所对应的翻译文本,其中,文本翻译模型为采用述各方面所提供的方法训练得到的;
生成模块,用于根据每个句子所对应的翻译文本,生成待翻译文本所对应的目标翻译文本,其中,目标翻译文本对应于目标语种,目标语种与源语种属于不同的语种。
本申请的另一方面提供了一种计算机设备,包括:存储器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面所提供的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种文本翻译模型的训练方法,首先获取第一文本以及第二文本,第一文本对应于源语种,第二文本对应于目标语种,如果第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,然后基于文本翻译模型,对第一待训练平行文本所包括的第一句子进行翻译,得到第一翻译文本,最后,可以根据第一翻译文本以及第二句子,对文本翻译模型进行训练。通过上述方式,可自动抓取不同语种所对应的文本,然后对这些文本进行对齐处理,对于满足文本对齐条件的两份文本,还可以进一步提取对应的第一待训练平行文本,利用第一待训练平行文本对文本翻译模型进行训练,可见,本申请能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
附图说明
图1为本申请实施例中文本翻译模型训练系统的一个示意图;
图2为本申请实施例中文本翻译模型训练系统的一个架构示意图;
图3为本申请实施例中文本翻译模型训练方法的一个实施例示意图;
图4为本申请实施例中文本翻译模型训练方法的一个流程示意图;
图5为本申请实施例中基于深度优先算法抓取文本的一个示意图;
图6为本申请实施例中基于广度优先算法抓取文本的一个示意图;
图7为本申请实施例中自动抓取文本的一个流程示意图;
图8为本申请实施例中自动对齐文本的一个流程示意图;
图9为本申请实施例中基于网站爬取标题信息的一个界面示意图;
图10为本申请实施例中基于网站爬取章节信息的一个界面示意图;
图11为本申请实施例中自动预处理文本的一个流程示意图;
图12为本申请实施例中基于文本翻译模型实现文本翻译的一个流程示意图;
图13为本申请实施例中文本翻译方法的一个实施例示意图;
图14为本申请实施例中基于文本翻译方法生成目标翻译文本的一个实施例示意图;
图15为本申请实施例中英文网络小说门户网站的一个界面示意图;
图16为本申请实施例中模型训练装置的一个实施例示意图;
图17为本申请实施例中文本翻译装置的一个实施例示意图;
图18为本申请实施例中终端设备的一个结构示意图;
图19为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种文本翻译模型的训练方法、文本翻译的方法及装置,能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
网络文学泛指原创的、连载的且网络化的网络小说,整体上呈现以文本为核心的内容,但实际上网络文学并不局限于网络小说,还可以包括散文和诗歌等形式,在本申请中以网络小说的文本为例进行说明。网络小说是指利用互联网发表并传播的书面文学作品,与一般的小说相比,网络小说的语法更近口语并充斥网络流行语。网络小说往往具有较广的传播性,越来越多的读者成为了网络小说爱好者,其中也不乏来自其他国家或地区的读者,然而考虑到文本语种的局限性,还需要对网络小说进行文本翻译,从而便于更多的读者阅读和理解。
以国内的网络小说为例,其中,常见的网络小说类型是连载小说,即作者不定期地通过互联网更新某部网络小说的剧情。在过去十年,中国网络文学通过对外授权,开始网文出海。中国网文库存量超过千万部,但出海的网文不到300部,翻译一部网络小说的成本可能高达几十万。因此,本申请提供了一种文本翻译方法,能够借助人工智能(ArtificialIntelligence,AI)技术实现全自动监测、抓取、对齐和训练文本翻译模型的过程,并且借助自我训练(self-traning)的方法不断迭代更新文本翻译模型,不仅能够不断地提高平行语料质量,进而提升翻译质量,而且还可以大幅地降低了翻译成本。
应理解,在本申请中以源语种为中文,目标语种为英文为例进行介绍,需要说明的是,在实际应用中,源语种和目标语种还可以是其他的语种,例如,源语种为日文,目标语种为中文,又例如,源语种为法文,目标语种为韩文,此处不做穷举。
基于此,本申请提供了一种文本翻译模型的训练方法,该方法应用于如图1所示的文本翻译模型训练系统,如图所示,文本翻译模型训练系统包括终端设备以及服务器,其中,用户可输入网络小说的链接地址,计算机设备基于这些链接地址自动爬取相关的文本,例如,计算机设备基于链接地址访问相应的服务器,该服务器中通常为网络小说的应用服务器。服务器将爬取到的文本以及文本所对应的日志信息记录至数据库。计算机设备可提取数据库中的文本,然后生成相应的平行语料,最后,使用这些平行语料对文本翻译模型进行迭代更新。
需要说明的是,本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。计算机设备可以是终端设备或者服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等,但并不局限于此。计算机设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和计算机设备的数量也不做限制。
为了便于理解,请参阅图2图2为本申请实施例中文本翻译模型训练系统的一个架构示意图,如图所示,文本翻译模型训练系统还可以分为三个模块,分别为自动抓取模块、自动对齐模块以及自动训练模块,下面将以源语种为中文,目标语种为英文为例,分别介绍上述三个模块。
自动抓取模块,用于实时检测互联网中有无新增网络小说或旧网络小说的新增章节,如果发现有更新的内容,则利用爬虫技术抓取新增的中文文本和英文文本,创建网络小说和章节索引,分别载入中文数据库以及英文数据库中。
自动对齐模块主要包括小说级别的对齐,同一部网络小说内章节级别的对齐,以及同一个章节内句子级别的对齐。小说级别的对齐可以借助中英小说名词典进行匹配,章节级别的对齐可利用章节编号和章节题目模糊匹配,句子级别的对齐则采用基于文本翻译模型的跨语言信息检索技术,其中,跨语检索是指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。
自动训练模块在得到对齐后的平行语料之后,可进行一系列的自动预处理,例如,编码格式转化,去除非法字符,编码归一化以及字词切分等操作,然后将预处理后得到的待训练平行文本喂给文本翻译模型进行训练。
重复执行上述三个模块的任务,一方面可以引入新数据来增加用于训练模型数据量,进而提升文本翻译模型的性能,另一方面,随着文本翻译模型的性能提升,还能够有效地提高自动句子对齐模块的性能,从而获得更多高质量的对齐数据。
对于网络小说而言,基于本申请提供的文本翻译模型训练方法能够更好地适应于网络小说的连载特性,极大地扩充平行语料,提升翻译指令,从而更好的为人工译员或用户提供高质量的网络小说译文。
本申请实施例提供的方案涉及AI的自然语言处理(Nature Languageprocessing,NLP)和机器学习(Machine Learning,ML)等技术,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、NLP技术以及ML/深度学习等几大方向。
NLP是计算机科学领域与AI领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。NLP技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着AI技术研究和进步,AI技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,AI技术将在更多的领域得到应用,并发挥越来越重要的价值。
结合上述介绍,下面将对本申请中文本翻译模型的训练方法进行介绍,请参阅图3,本申请实施例中文本翻译模型训练方法的一个实施例包括:
101、获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
本实施例中,模型训练装置获取属于源语种的第一文本以及属于目标语种的第二文本。其中,源语种与目标语种分别属于不同的语种,例如,源语种为中文,目标语种为英文。第一文本和第二文本可以是更新后的网络小说、散文、诗歌、网络小说中的篇章或者新增的若干个句子等。
可以理解的是,本申请涉及的模型训练装置可部署于计算机设备,该计算机设备可以是终端设备或者服务器,也可以是终端设备和服务器共同组成的一个系统,此处不作限定。
具体地,获取第一文本和第二文本的方式有多种,下面将分别进行介绍:
一、自动抓取文本;
模型训练装置可采用爬虫技术从中文小说网站中抓取某部网络小说的新增章节,并将该新增章节作为第一文本。类似地,可采用爬虫技术从英文小说网站中抓取某部网络小说的新增章节,并将该新增章节作为第二文本。
二、手动添加文本;
用户可以从中文小说网站中查找某部网络小说的新增章节,然后将该新增章节反馈给模型训练装置,由此,模型训练装置得到第一文本。类似地,用户可以从英文小说网站中查找某部网络小说的新增章节,然后将该新增章节反馈给模型训练装置,由此,模型训练装置得到第二文本。
102、若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
本实施例中,模型训练装置需要判断获取到的第一文本和第二文本是否能够匹配上,如果第一文本和第二文本并未匹配成功,则说明不适合从这两个文本中提取第一待训练平行文本。如果两者匹配成功,即表示第一文本以及第二文本满足文本对齐条件,由此,从第一文本中提取第一句子,并且从第二文本中提取第二句子,其中,第一句子和第二句子具有对应关系,即第二句子可以是第一句子的人工翻译结果,例如,第一句子为“笑容渐渐在牧童的脸上消失”,第二句子为“The smile gradually disappeared from theshepherd's face(即,笑容渐渐在牧童的脸上消失)”,由此,生成第一待训练平行文本。
在实际应用中,还可以将第一待训练平行文本加入至平行语料库(parallelcorpora),平行语料库是由原文文本及其平行对应的译语文本构成的双语或者多语语料库,其对齐程度可有词级、句级、段级和篇级几种,本申请主要指句级。
需要说明的是,在实际情况下,还可以从第一文本和第二文本中提取更多的待训练平行文本,为了便于说明,本申请以其中一组待训练平行文本(即第一待训练平行文本)为例进行介绍,然而这不应理解为对本申请的限定。
103、基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
本实施例中,模型训练装置将第一句子输入至文本翻译模型,由文本翻译模型输出对应的第一翻译文本。文本翻译模型是一种实现机器翻译(Machine Translation,MT)的深度神经网络模型,其中,MT表示利用电子计算机等装置自动地把一种语言文字译成另一种语言文字。
需要说明的是,文本翻译模型具体可以是基于统计机器翻译(StatisticalMachine Translation,SMT)的深度神经网络模型,或者基于神经网络机器翻译(NeuralMachine Translation,NMT)的深度神经网络模型。其中,SMT表示基于传统的统计方法的机器翻译技术,NMT表示基于神经网络的机器翻译技术。在机器翻译领域中,基于编码器和解码器框架的NMT模型近几年得到突飞猛进的发展,其性能可超越传统的SMT模型。
104、根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
本实施例中,由于第一翻译文本是文本翻译模型翻译后的结果,而第二句子是人工翻译的结果,因此,可以将第一翻译文本作为预测值,将第二句子作为真实值,由此计算两者之间的损失值(loss),基于损失值对文本翻译模型的模型参数进行更新,即实现对文本翻译模型的训练。
需要说明的是,可基于文本相似度计算翻译结果与句子之间的损失值,例如,基于关键词匹配确定相似度,或者,基于向量空间确定相似度,又或者,基于深度学习方法确定相似度,最后根据相似度确定损失值,其中,翻译结果与句子之间的相似度越高,则翻译结果与句子之间的损失值越小,即相似度与损失值可呈反比的关系。
下面将结合图4介绍文本翻译模型训练的流程,请参阅图4,图4为本申请实施例中文本翻译模型训练方法的一个流程示意图,如图所示,具体地:
在步骤A1中,从互联网上爬取文本,其中,该文本具体可以是网络小说,或者网络小说中的章节,又或者是章节中的若干个句子等,此处不做限定。
在步骤A2中,判断互联网上是否存在新增的小说、小说章节或者若干句子等,若存在新增的内容,则执行步骤A3,若不存在新增的内容,则继续执行步骤A1。
在步骤A3中,将更新的内容加入至对应语种的小说集合中,例如,将中文网络小说的内容加入至中文文本对应的数据库中,又例如,将英文网络小说的内容加入至英文文本对应的数据库中。
在步骤A4中,以源语种为中文,目标语种为英文为例,将源语种对应的句子输入到最新的文本翻译模型,通过该文本翻译模型输出对应的翻译结果。
在步骤A5中,根据每个句子的翻译结果获取网络小说的翻译文本。
在步骤A6中,可利用跨语言信息检索方法,对爬取到的小说集合(即包括小说、小说章节和句子)进行自动对齐处理。
在步骤A7中,获取对齐后的平行文本。
在步骤A8中,对已经对齐后的平行文本进行文本预处理。
在步骤A9中,获取文本预处理后的得到的待训练平行文本。
在步骤A10中,使用待训练平行文本以及翻译文本对文本翻译模型进行训练。
在步骤A11中,由此得到更新后的文本翻译模型,该文本翻译模型将继续用于进行网络小说的翻译,从而达到模型迭代更新的目的。
本申请实施例中,提供了一种文本翻译模型的训练方法,首先获取第一文本以及第二文本,第一文本对应于源语种,第二文本对应于目标语种,如果第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,然后基于文本翻译模型,对第一待训练平行文本所包括的第一句子进行翻译,得到第一翻译文本,最后,可以根据第一翻译文本以及第二句子,对文本翻译模型进行训练。通过上述方式,可自动抓取不同语种所对应的文本,然后对这些文本进行对齐处理,对于满足文本对齐条件的两份文本,还可以进一步提取对应的第一待训练平行文本,利用第一待训练平行文本对文本翻译模型进行训练,可见,本申请能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取第一文本以及第二文本,具体包括如下步骤:
获取第一链接地址以及第二链接地址;
根据第一链接地址获取第一元信息,其中,第一元信息包括第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第一元信息满足文本更新条件,则获取第一文本;
根据第二链接地址获取第二元信息,其中,第二元信息包括第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第二元信息满足文本更新条件,则获取第二文本。
本实施例中,介绍了一种自动抓取文本的方式。模型训练装置首先获取统一资源定位系统(uniform resource locator,URL)列表,该URL列表中通常包括多个URL地址,即包括多个链接地址。然后,模型训练装置利用爬虫技术运行一个初始的链接地址,根据爬取到的超级文本标记语言(Hyper Text Markup Language,HTML)文本,解析HTML文本中的链接地址,然后继续爬取新的链接地址,即类似于一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,需要指定一个爬取深度。从链接地址对应的网站上可抓取到大量的文本,最后,基于文本的元信息判断该文本是否满足文本更新条件。
具体地,将以源语种为中文,目标语种为英文为例,请参阅表1,表1为URL列表的一个示意。
表1
由表1可知,URL列表中的链接地址均为待爬取的链接地址,其中,一部分的链接地址属于中文小说门户网站的链接地址,另一部分的链接地址属于英文小说门户网站的链接地址,例如,本申请中的第一链接地址可以是中文小说门户网站的链接地址,第二链接地址可以是英文小说门户网站的链接地址。
为了便于理解,将以“www.chinesenovel.com”作为第一链接地址进行介绍,假设该第一链接地址为种子URL,于是需要按照一定的搜索策略进行爬取,搜索策略包含但不仅限于搜索策略的搜索策略,广度优先的搜索策略,深度优先的搜索策略和最佳优先的搜索策略,下面将分别介绍深度优先的搜索策略和广度优先的搜索策略。
一、深度优先的搜索策略;
请参阅图5,图5为本申请实施例中基于深度优先算法抓取文本的一个示意图,如图所示,首先从一个起始页面开始爬取,起始页面的链接地址为“www.chinesenovel.com”。接下来按照深度进行爬取,爬取下一个链接地址“data1.chinesenovel.com”,然后继续爬取下一个链接地址“data1.chinesenovel.com/111111”,以此类推,按照深度进行搜索,直到满足停止条件。需要说明的是,图5中的标号即为链接地址的爬取顺序。深度优先搜索策略的优点是实现比较容易实现,能够遍历一个网站或深层嵌套的文档集合,
二、广度优先的搜索策略;
请参阅图6,图6为本申请实施例中基于广度优先算法抓取文本的一个示意图,如图所示,首先从一个起始页面开始爬取,起始页面的链接地址为“www.chinesenovel.com”。接下来按照宽度进行爬取,爬取下一个链接地址“data1.chinesenovel.com”,然后继续爬取下一个链接地址“data2.chinesenovel.com”,以此类推,按照层次进行搜索,直到满足停止条件。需要说明的是,图6中的标号即为链接地址的爬取顺序。广度优先搜索策略的优点是不容易出现爬虫陷入的问题。
上述是以基于“第一链接地址”的爬取方式为例进行介绍,需要说明的是,基于“第二链接地址”的爬取方式与以基于“第一链接地址”的爬取方式类似,故此处不做赘述。
为了便于介绍,请参阅图7,图7为本申请实施例中自动抓取文本的一个流程示意图,如图所示,以抓取第一文本为例进行介绍,具体地:
在步骤B1中,采用定向爬虫技术,按照给定的URL列表,从中文小说门户网站和英文小说门户网站中实时抓取文本和文本的元信息等。
在步骤B2中,基于ULR列表遍历小说门户网站中所有的网络小说。
在步骤B3中,假设从URL列表中取出第一链接地址,然后基于第一链接地址提取页面上的第一文本,第一文本属于某一部网络小说,基于此,还可以提取该网络小说的元信息,即得到第一文本所对应的第一元信息,第一元信息包括第一文本所对应的标题信息(即网络小说的小说名)、章节名称、作者信息、文本类型、译员信息、完结标识(即用于表示该网络小说是否已完结)以及更新日期中的至少一项。
在步骤B4中,根据日志文件中的日志信息以及第一元信息,判断当前抓取的第一文本是否满足文本更新条件,若是,则执行步骤B5,若否,则跳转至步骤B1。
在步骤B5中,如果第一文本满足文本更新条件,即表示第一文本为新增内容,于是获取该第一文本,反之,如果第一文本不是新增内容,则可以剔除该第一文本。
在步骤B6中,将新增的第一文本写入至数据库,并同步更新日志文件中的日志信息。
在步骤B7中,从数据库中获取双语网络小说集合,双语网络小说集合包括源语种下的网络小说以及目标语种下的网络小说,例如,源语种下的网络小说包括第一文本,目标语种下的网络小说包括第二文本。
上述是以将第一文本为例进行介绍,需要说明的是,抓取第二文本的方式与步骤B1至B7的流程类似,故此处不做赘述。
结合上述介绍,在基于元信息判定是否满足文本更新条件的过程中,可以根据提取到文本的标题信息,将其与日志信息中记载的标题信息进行比对,如果日志信息中没有记载该文本的标题信息,则表示该文本属于新的网络小说,即满足文本更新条件。反之,如果日志信息中已经记载了该文本的标题信息,则需要进一步获取文本对应的章节名称,将其与日志信息中记载的章节名称进行比对,如果日志信息中没有记载该文本的章节名称,则表示该文本属于新的章节,即满足文本更新条件。反之,如果日志信息中已经记载了该文本的章节名称,则需要进一步获取作者信息、文本类型、译员信息、完结标识或者更新日期等信息,基于日志信息判断这些信息是否与日志信息中记载的一致,如果一致,就表示不满足文本更新条件。
其次,本申请实施例中,提供了一种自动抓取文本的方式,通过上述方式,计算机设备可以按照指定的链接地址列表,自动从互联网上爬取到不同语种的文本,由此,在很大程度上节省人工成本,从而实现自动化处理。此外,对于爬取到的文本还可以进行新增内容的判定,仅利用文本的元信息即可,无需比对文本之间的具体内容,从而提升处理效率。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取第一文本以及第二文本之后,还包括如下步骤:
根据第一文本以及第二文本,确定标题匹配结果;
根据第一文本以及第二文本,确定章节匹配结果;
若标题匹配结果以及章节匹配结果均为第一匹配结果,则确定第一文本以及第二文本满足文本对齐条件,其中,第一匹配结果表示匹配成功;
若标题匹配结果以及章节匹配结果中的至少一项为第二匹配结果,则确定第一文本以及第二文本未满足文本对齐条件,其中,第二匹配结果表示匹配失败。
本实施例中,介绍了一种自动对齐文本的方式。在确定第一文本和第二文本均为新增的文本之后,还需要判断第一文本和第二文本是否满足文本对齐条件,如果满足文本对齐条件,则能够进一步进行句子级别的对齐,如果不满足文本对齐条件,则确定第一文本和第二文本不能作为平行语料。
具体地,下面将介绍两种判断文本对齐条件的方式。
方式一,基于小说级别的对齐;
获取第一文本的标题信息以及第二文本的标题信息,基于两个文本的标题信息生成标题匹配结果,如果标题匹配结果为第一匹配结果,则表示第一文本以及第二文本满足文本对齐条件,因此,可以确定第一文本和第二文本来源于同一部网络小说。如果标题匹配结果为第二匹配结果,即表示第一文本以及第二文本不满足文本对齐条件,因此,可以确定第一文本和第二文本来源于不同的网络小说,
方式二,基于小说级别和章节级别的对齐;
获取第一文本的标题信息以及第二文本的标题信息,基于两个文本的标题信息生成标题匹配结果,如果标题匹配结果为第一匹配结果,则进一步获取第一文本的章节信息以及第二文本的章节信息,基于两个文本的章节信息生成章节匹配结果,如果章节匹配结果为第一匹配结果,则表示第一文本以及第二文本满足文本对齐条件,因此,可以确定第一文本和第二文本来源于同一部网络小说。如果标题匹配结果或章节匹配结果为第二匹配结果,即表示第一文本以及第二文本不满足文本对齐条件因此,可以确定第一文本和第二文本来源于不同的网络小说或者不同的章节。
为了便于理解,请参阅图8,图8为本申请实施例中自动对齐文本的一个流程示意图,如图所示,具体地:
在步骤C1中,首先获取双语网络小说集合,从双语网络小说集合中提取第一文本和第二文本。
在步骤C2中,然后采用多语种标题集合,对第一文本和第二文本进行基于小说级别的文本对齐,即获取标题匹配结果。
在步骤C3中,如果标题匹配结果为匹配成功,则表示第一文本与第二文本来源于同一部网络小说,即获取两部已对齐的网络小说,基于此,可继续执行步骤C4。
在步骤C4中,再采用双语通用词典和规则库,对第一文本和第二文本进行基于章节级别的文本对齐,即获取章节匹配结果。
在步骤C5中,如果标题匹配结果为匹配成功,则表示第一文本与第二文本来源于同一部网络小说中的同一个章节,即获取两篇已对齐的章节,基于此,可继续执行步骤C6。
在步骤C6中,最后将第一文本输入至文本翻译模型,由文本翻译模型输出第一文本的翻译文本,根据翻译文本以及第二文本,对第一文本和第二文本进行基于句子级别的文本对齐。
在步骤C7中,获取两个已对齐的句子,即得到第一句子和第二句子。
其次,本申请实施例中,提供了一种自动对齐文本的方式,通过上述方式,为了增加句子对齐的质量,采用层次级对齐的方案,即首先进行小说级别的对齐,然后基于已对齐的小说进行章节级别的对齐,最后再对齐的章节进行句子级别的对齐,由此,对于章节或者网络小说之外的句子之间不需要考虑对齐,从而提升句子对齐效率,与此同时,还可以提升对齐的正确率。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据第一文本以及第二文本,确定标题匹配结果,具体包括如下步骤:
获取第一文本所对应的第一标题信息以及第二文本所对应的第二标题信息;
基于多语种标题集合,对第一标题信息以及第二标题信息进行匹配,得到标题匹配结果,其中,多语种标题集合包括至少一组标题信息,每组标题信息至少包括源语种所对应的标题信息以及目标语种所对应的标题信息。
本实施例中,介绍了一种基于小说级别实现文本自动对齐的方式。自动对齐属于跨语言信息检索技术,基于小说级别的文本对齐可采用多语种标题集合,其中,多语种标题集合是通过人工或者半自动方法整理得到的双语标题信息词典。
具体地,为了便于介绍,请参阅图9,图9为本申请实施例中基于网站爬取标题信息的一个界面示意图,如图9中(A)图所示,假设从中文小说门户网站中提取到第一文本的第一标题信息,例如,该第一标题信息为“为你遮风挡雨”。如图9中(B)图所示,假设从英文小说门户网站中提取到第二文本的第二标题信息,例如,该第二标题信息为“Shelter youfrom the wind and rain”。
基于此,请参阅表2,表2为基于中文和英文的多语种标题集合的一个示意。
表2
基于表2可见,第一标题信息为“为你遮风挡雨”的情况下,第二标题信息与第一标题信息匹配一致,即标题匹配结果为第一匹配结果。
由于网络小说的标题信息通常比较固定和统一,因此,利用多语种标题集合匹配即可实现小说级别的自动对齐。
再次,本申请实施例中,提供了一种基于小说级别实现文本自动对齐的方式,通过上述方式,可以确定两个文本是否来源于同一部网络小说,对于来源于同一部网络小说的两个文本而言,原文和译文和匹配度更高,因此,更适合作为用于训练的平行语料,由此提升平行语料采集的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据第一文本以及第二文本,确定章节匹配结果,具体包括如下步骤:
获取第一文本的第一章节信息以及第二文本的第二章节信息,其中,第一章节信息包括第一词语以及第一章节编号,第二章节信息包括第二词语以及第二章节编号;
基于多语种词语集合,对第一章节信息所包括的第一词语以及第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
对第一章节信息所包括的第一章节编号以及第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
根据第一匹配子结果以及第二匹配子结果,确定章节匹配结果。
本实施例中,介绍了一种基于章节级别实现文本自动对齐的方式。自动对齐属于跨语言信息检索技术,基于章节级别的文本对齐可采用双语通用词典和规则库,其中,双语通用词典包括源语种词语与目标语种词语之间的映射关系,而规则库存储有章节编号规则。
具体地,为了便于介绍,请参阅图10,图10为本申请实施例中基于网站爬取章节信息的一个界面示意图,如图10中(A)图所示,假设从中文小说门户网站中提取到第一文本的第一章节信息,例如,该第一章节信息为“第2章 把我的雨伞借给你(1)”,其中,第一词语包括“我的”,“雨伞”,“借”和“你”,第一章节编号为“第2章”。如图10中(B)图所示,假设从英文小说门户网站中提取到第二文本的第二章节信息,例如,该第二章节信息为“Chapter 1002I'll lend you my umbrella (2)”,其中,第二词语包括“my”,“umbrella”,“lend”和“you”,第二章节编号为“Chapter 1002”。
基于此,请参阅表3,表3为基于中文和英文的双语通用词典的一个示意。
表3
基于表3可见,第一词语与第二词语匹配成功,即第一匹配子结果为匹配成功。
进一步地,考虑到不同语种对于章节编号方式存在差异,例如,在国内习惯于将小说区分为第几部第几章,而国外习惯于将小说区分为第几季第几集。基于此,利用规则库提供的章节编号编码规则,判定章节是否对齐或者仅存在少量偏差。
以第一章节编号尾为“第2章”,第二章节编号为“Chapter 1002”为例,其中,“第2章”的编码结果是“002”,“Chapter 1002”的编码结果是“002”,由此可见,第一章节编号与第二章节编号匹配成功,即第二匹配子结果为匹配成功。
需要说明的是,如果第一匹配子结果和第二匹配子结果均为匹配成功,则确定章节匹配结果为匹配成功,如果第一匹配子结果或第二匹配子结果中有一项匹配失败,则确定章节匹配结果为匹配识别。
再次,本申请实施例中,提供了一种基于章节级别实现文本自动对齐的方式,通过上述方式,可以确定两个文本是否来源于同一部网络小说的同一个章节,对于来源于同一部网络小说同一个章节的两个文本而言,原文和译文和匹配度更高,因此,更适合作为用于训练的平行语料,由此提升平行语料采集的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取第一待训练平行文本,具体包括如下步骤:
获取第一文本中的源端句子;
基于源端句子,通过文本翻译模型获取第一待匹配句子;
获取第一待匹配句子以及第二文本中的K个第二待匹配句子,其中,K为大于或等于1的整数;
根据第一待匹配句子以及K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与第一待匹配句子;
若K个匹配分值中的最大值大于或等于匹配分阈值,则将源端句子确定为第一句子,并将最大值所对应的第二待匹配句子确定为第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
本实施例中,介绍了一种基于句子级别实现文本自动对齐的方式。句子对齐采用基于机器翻译的跨语言信息检索技术。对齐算法是基于两个硬分隔符(即包括文件的开始和结束)之间的文本段中计算的,主要包括两个步骤,第一步,使用文本相似度评分方式,分别计算第一待匹配句子与第二文本中的K个第二待匹配句子之间的匹配分值,其中,第一待匹配句子是将第一文本中的源端句子输入至文本翻译模型后得到的翻译文本。假设第一文本有5个句子,第二文本有10个句子,则具有50个匹配分值,为了便于介绍,以一个第一待匹配句子与K个第二待匹配句子为例进行介绍,即可得到K个匹配分值。第二步,由于匹配分值越大,表示两个句子的相似度越高,基于此,需要从K个匹配分值选择一个最大值,如果该最大值大于或等于匹配分阈值,则将源端句子确定为第一句子,并将最大值所对应的第二待匹配句子确定为第二句子,第一句子和第二句子可作为第一待训练平行文本的候选平行文本。
需要说明的是,文本相似度的计算方法由多种,可以采用双语评价研究(Bilingual Evaluation Understudy,BLEU)的评测方法,基于国家标准技术研究所(National Institute of standards and Technology,NIST)的方法或者错词率(theword error rate, WER)方法等。
具体地,下面将BLEU作为匹配分值,其中,BLEU是机器翻译评测的标准方法,值越高表示效果越好,通过计算同一个源端句子的自动翻译结果和人工翻译结果得到匹配分值。首先基于MT后得到的第一待匹配句子和人工翻译得到的第二待匹配句子,计算各阶的汉语语言模型(n-gram)精度,例如,某个源端句子为“猫坐在垫子上”,第一待匹配句子为“The cat sat on the mat”,第二待匹配句子为“The cat is on the mat”,接下来需要分别计算1-gram,2—gram,3-gram和4-gram的精度,例如,1-gram的精度为P1,2—gram的精度为P2,3-gram的精度为P3和4-gram的精度为P4。再采用如下方式对这4个N-gram的精度进行加权求和:
;
其中,表示权重值,即1/4。
如果出现短句,则n-gram的精度会得很高分,但实际上它的得分应该是比较低的。基于此,就需要一个惩罚的机制去控制,假设的分数小于参考的分数,则会受到惩罚,最后基于惩罚对应的数值以及4个N-gram的精度,可采用如下方式计算得到BLEU:
;
其中,BP表示惩罚因子。BLEU已被开发成为一种衡量MT系统翻译质量的自动手段。
再次,本申请实施例中,提供了一种基于句子级别实现文本自动对齐的方式,通过上述方式,可以确定两个文本是否来源于同一部网络小说同一个章节的同一个句子,对于来源于同一部网络小说同一个章节的同一个句子而言,原文和译文和匹配度是非常高的,因此,这两个对应的句子可作为用于训练的平行语料,由此提升平行语料采集的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据第一句子以及第二句子,获取第一待训练平行文本,具体包括如下步骤:
获取第一句子所对应的第一标点以及第二句子所对应的第二标点;
若第一标点与第二标点匹配成功,则获取第一待训练平行文本;
或者,
根据第一句子以及第二句子,获取第一待训练平行文本,具体包括如下步骤:
获取第一句子所对应的第一词语数以及第二句子所对应的第二词语数;
根据第一词语数和第二词语数,确定词语比例;
若词语比例在词语比例区间内,则获取第一待训练平行文本。
本实施例中,介绍了两种对两个句子进行对齐的方式,一种是启发式对齐,另一种是对文本长度做对齐处理,下面将分别进行介绍。
一、启发式对齐;
启发式对齐是指通过人为定义的规则来判断句子对齐的情况,例如,如果第一句子末尾的标点符号(即第一标点)与第二句子末尾的标点符号(即第二标点)一致,则表示第一句子和第二句子已对齐,由此,得到第一待训练平行文本。
二、长度对齐;
长度对齐是指根据不同语种之间的词语比例来判断句子对齐的情况,例如,源语种是中文,目标语种是英文,假设中文与英文之间的词语比例区间为1.1至1.2,即1个中文词语对应于1.1至1.2个英文词语。例如,第一句子中有10个词语,第二句子有11个词语,则词语比例为1.1,又例如,第一句子所在的第一文本有100个词语,第二句子所在的第二文本有115个词语,则词语比例为1.15,这种情况下均表示第一句子和第二句子已对齐,由此,得到第一待训练平行文本。
进一步地,本申请实施例中,提供了两种对两个句子进行对齐的方式,通过上述方式,在确定第二句子是第一句子的翻译文本之后,还可以进一步将这两个句子进行对齐,由此得到用于模型训练的待训练平行文本,经过对齐后的句子进行训练能够提升模型训练的准确度和可靠性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取第一待训练平行文本,具体包括如下步骤:
获取待处理平行文本,其中,待处理平行文本包括第一待处理句子以及第二待处理句子,第一待处理句子来源于第一文本,第二待处理句子来源于第二文本,且第二待处理句子为第一待处理句子对应的翻译结果;
对待处理平行文本所包括的第一待处理句子进行文本预处理,得到第一句子,其中,文本预处理包括编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理中的至少一种;
对待处理平行文本所包括的第二待处理句子进行文本预处理,得到第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
本实施例中,介绍了一种对句子进行文本预处理的方式。在获取到待处理平行文本之后,还需要对待处理平行文本中的第一待处理句子和第二待处理句子进行文本预处理,由于对第一待处理句子和第二待处理句子进行文本预处理的方式类似,因此,下面将以对第一待处理句子进行文本预处理的过程为例进行介绍,不再赘述第二待处理句子的文本预处理过程。
为了便于理解,请参阅图11,图11为本申请实施例中自动预处理文本的一个流程示意图,如图所示,以文本预处理包括四个流程为例进行介绍,这四个流程分别为编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理,下面将分别进行介绍。
一、编码格式转换处理;
编码格式转换处理包括可变长度字符编码(Unicode Transformation Format,UTF-8)转换,对于UNIX而言会默认按照UTF-8编码编译,如果编码不是UTF-8编码,那么编译可能会产生错误。UNIX这里指的是系统换行符,由于windows和linux对换行的标识不一样,不同系统的代码传递导致代码格式的改变,可能会带来程序无法正常编译通过的问题。因此,根据一些编译的错误提示,可以定位到是文件格式的问题,需要对程序的文本文件进行转换。
二、非法字符处理;
非法字符处理主要包括控制符检测和非打印字符检测。其中,控制符表示不可见字符。这些字符,这些字符没法打印出来,但是每个字符,都对应着一个特殊的控制功能的字符。非打印字符包括制表符,回车、换行、响铃以及分页符等。对于非法字符的处理可以是进行删除,或者替换为其他预设字符。
三、编码归一化处理;
编码归一化处理主要包括标点符号转换,全角半角转换,换码符转换和大小写转换。其中,标点符号转换是统一标点符号,例如,将中文文本中出现的英文标点改为中文标点。全角半角转换是将文本统一成全角或者半角。换码符转换是将换码符统一改为预设的符号。大小写转换主要是按照规则调整词语的大写或小写。
四、文本切分处理;
文本切分处理主要包括语言分词器的处理,空白字符处理和字词切分器的处理。语言分词器用于对相应语种下的文本进行分词处理。空白字符处理可将空白字符进行填充或者删除。字词切分器主要用于对字符和词语进行合理的划分,使其规范化。
其次,本申请实施例中,提供了一种对句子进行文本预处理的方式,通过上述方式,可以获得更加规范的待训练平行文本,基于全自动预处理流程,能够应对抓取的句子中各种噪音、格式和编码不统一以及对齐质量差的情况。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本,具体包括如下步骤:
基于第一待训练平行文本所包括的第一句子,通过文本翻译模型所包括的编码器获取源端向量,其中,第一句子包括M个源端词,源端向量包括每个源端词的词向量,M为大于或等于1的整数;
基于源端向量,通过文本翻译模型所包括的注意力网络获取第t个源端词的源端上下文,其中,t为大于或等于1,且小于或等于M的整数;
基于第t个源端词的源端上下文,通过文本翻译模型所包括的解码器获取第t个源端词的解码器状态;
基于第t个源端词的解码器状态以及源端向量,通过文本翻译模型所包括的输出层获取第t个源端词所对应的目标词;
当获取到M个源端词中每个源端词所对应的目标词时,获取第一翻译文本。
本实施例中,介绍了一种采用文本翻译模型对句子进行翻译的方式。需要说明的是,本申请涉及到的文本翻译模型可能采用如下网络结构,例如,循环神经网络(recurrentneural network,RNN),循环神经网络搜索(recurrent neural network search,RNNsearch),卷积神经网络(convolutional neural network,CNN),基于CNN的编码器和解码器框架(LightConv),自关注神经网络(self-attention network,SAN),基于SAN网络的编码器和解码器框架(Transformer)或者采用基于深度学习(deep learning,DL)的其他神经网络(neural network,NN)。
标准的神经网络机器翻译(Neural Machine Translation,NMT)模型在给定源端句子x=x1,…,xI下,直接优化其目标句y=y1,…,yJ的条件概率,采用如下方式进行计算:
;
其中,θ表示模型的参数,y<j是部分翻译上下文,概率P(y|x)定义了基于神经网络的编码器和解码器框架。模型的参数的训练过程就是最大化训练样本的相似度。
下面将以基于SAN网络的Transformer为例进行介绍,其中,Transformer采用主流的序列到序列生成(sequence-to-sequence generation)的模型结构。基于SAN网络的Transformer,通过编码器读入源端句子,经过自注意力机制和前向神经网络后输出一个语义向量序列,而解码器根据此语义向量序列表示逐词通过注意力机制和前向神经网络生成译文。Transformer学习目标是预测下一个位置的单词是什么,所以需要把当前时间步的右边的内容掩住,以确保学习的过程是自左向右,逐个单词地预测。假设输出序列为“我”,“爱”,“中国”,当预测“爱”的时候,需要遮盖词语“中国”,根据先行词“我”来预测。当预测“中国”的时候,需要通过“我”和“爱”来预测。
具体地,以翻译第一句子为例进行说明,为了便于理解,请参阅图12,图12为本申请实施例中基于文本翻译模型实现文本翻译的一个流程示意图,如图所示,将第一句子输入至编码器,由编码器生成该第一句子所对应的源端向量,首先将第一句子中各个离散的源端词表示转换成连续的空间表示(word embedding),再将其输入到编码器并得到源端向量,源端向量包括每个源端词的词向量。
接下来,将源端向量输入至注意力网络(cross-attention model),由此生成当前时刻的源端上下文,假设当前时刻为第t时刻,即得到的源端上下文即为第t个源端词的源端上下文。cross-attention model读入前一个步骤生成的源端向量和解码器的前一时刻状态(即第t-1个源端词对应的解码器状态),由此输出每个源端词的权重概率,权重概率越高,表示这个源端词和待生成的目标词越相关,将权重概率和语义向量加权生成当前时刻的源端上下文表示(ct),当前时刻的源端上下文表示(ct)表示当前时刻待翻译的源端内容总结。
需要说明的是,对于第一个源端词而言,由于没有解码器的前一个时刻状态,因此,可以将<bos>作为解码器的前一个时刻状态,<bos>表示句子的开始(begin ofsentence),属于一个词向量,因此,每个句子的开始可加上<bos>。
最后,将当前时刻的源端上下文表示(ct)前一时刻解码器状态(st-1)和前一个生成的目标词(yt-1)输入至解码器,由此输出当前时刻的解码器状态(st)。再根据当前时刻的解码器状态(st),当前时刻的源端上下文表示(ct)和前一个生成的目标词(yt-1),使用输出层(即一个采用准的Softmax操作),并与所有目标词进行比较,选择相似度(或概率)最高的一个词语作为第t个源端词的目标词(yt)。需要说明的是,重复上述过程直至生成第一句子中全部的目标词,由此得到第一翻译文本。
其中,当前时刻的源端上下文表示(ct)即第t个源端词的源端上下文,前一时刻解码器状态(st-1)即为第t-1个源端词的解码器状态,前一个生成的目标词即为第t-1个源端词对应的目标词。
其次,本申请实施例中,提供了一种采用文本翻译模型对句子进行翻译的方式,通过上述方式,利用编码器、注意力网络和解码器的网络结构对句子中的每个词语依次进行翻译,直至得到这句话中每个词语的翻译结果,由此实现文本翻译,从而提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据第一翻译文本以及第二句子,对文本翻译模型进行训练之后,还包括如下步骤:
获取第三文本以及第四文本,其中,第三文本对应于源语种,第四文本对应于目标语种;
若第三文本以及第四文本满足文本对齐条件,则获取第二待训练平行文本,其中,第二待训练平行文本包括第三句子以及第四句子,第三句子来源于第三文本,第四句子来源于第四文本,且第四句子为第三句子对应的翻译结果;
基于第二待训练平行文本所包括的第三句子,通过文本翻译模型获取第二翻译文本;
根据第二翻译文本以及第二句子,对文本翻译模型进行训练。
本实施例中,介绍了一种对文本翻译模型进行自我训练(self-training)的方式。模型训练装置还可以继续抓取来自不同网络小说门户网站的第三文本和第四文本,第三文本是源语种下的文本,第四文本是目标语种下的文本。类似地,判断第三文本与第四文本是否满足文本对齐条件,若满足,则基于前述实施例所描述的方式,基于第三文本和第四文本生成第二待训练平行文本,其中,第二待训练平行文本包括第三句子和第四句子,第三句子来源于第三文本,而第四句子来源于第四文本,且第四句子是第三句子的人工翻译结果。经过迭代更新后的文本翻译模型既能够利用新抓取到的第二待训练平行文本进行训练,也可以利用之前迭代得到的第一待训练平行文本共同进行训练。将第三句子输入至文本翻译模型,由此得到第二翻译文本。将第二翻译文本作为预测值,将第四句子作为真实值,由此计算两者之间的损失值,基于损失值对文本翻译模型的模型参数进行更新,即实现对文本翻译模型的训练。
具体地,首先使用通用领域对齐数据(无任何网络小说领域对齐数据)训练一个初始的文本翻译模型,最初阶段,用于句子对齐的文本翻译模型是基于通用领域的翻译模型,因为该阶段并无任何网络小说领域的平行语料,因此,翻译网络小说时的译文质量较差。基于此,使用初始的文本翻译模型翻译未对齐的小说数据并进行执行自动对齐算法,从而得到部分对齐的待训练平行文本,使用待训练平行文本更新文本翻译模型,再将更新后的文本翻译模型作为用于实现自动对齐算法的模型。经过迭代式的微调(finetune)方式来不断提升文本翻译模型的性能。
可以理解的是,本申请采用自动抓取方法,自动对齐方法和自动翻译方法,从而实现文本翻译模型自我训练的过程。
其次,本申请实施例中,提供了一种对文本翻译模型进行自我训练的方式,通过上述方式,可以自动抓取到用于模型训练的平行文本,进而完成领域内翻译模型的训练。当得到更新后的文本翻译模型时,可以将用于句子对齐的旧模型替换为更新后的文本翻译模型,再迭代式地重复训练,从而得到更高质量的模型和数据。
结合上述介绍,下面将对本申请中文本翻译的方法进行介绍,请参阅图13,本申请实施例中文本翻译方法的一个实施例包括:
201、获取待翻译文本,其中,待翻译文本包括至少一个句子,其中,待翻译文本对应于源语种;
本实施例中,文本翻译装置获取待翻译文本,待翻译文本包括至少一个句子,且待翻译文本属于源语种下的文本,源语种可以是中文、日文、法文、英文或者阿拉伯文等,此处不做限定。
可以理解的是,本申请涉及的文本翻译装置可部署于计算机设备,该计算机设备可以是终端设备或者服务器,也可以是终端设备和服务器共同组成的一个系统,此处不作限定。
202、基于待翻译文本中的每个句子,通过文本翻译模型获取每个句子所对应的翻译文本,其中,文本翻译模型为采用上述实施例提供的训练方法训练得到的;
本实施例中,文本翻译装置将待翻译文本输入至文本翻译模型中,由文本翻译模型输出待翻译文本中每个句子的翻译文本。以文本翻译模型包括10个句子为例,在实际翻译过程中,文本翻译模型可以先对待翻译文本进行分句处理,再分别对每个句子进行翻译,从而得到10个句子分别对应的翻译文本。
203、根据每个句子所对应的翻译文本,生成待翻译文本所对应的目标翻译文本,其中,目标翻译文本对应于目标语种,目标语种与源语种属于不同的语种。
本实施例中,按照待翻译文本中句子出现的次序,将每个句子的翻译文本进行拼接,由此得到目标翻译文本,目标翻译文本属于目标语种下的文本,目标语种可以是中文、日文、法文、英文或者阿拉伯文等,但是目标语种与源语种属于不同的语种。
具体地,请参阅图14,图14为本申请实施例中基于文本翻译方法生成目标翻译文本的一个实施例示意图,如图所示,以源语种为中文,目标语种为英文作为示例进行介绍,假设某个网络小说家在终端设备A上写了一篇中文的网络小说,并上传到互联网。基于此,网络小说门户网站的相关人员可通过触发自动翻译功能,由计算机设备采用文本翻译模型输出将该篇网络小说的翻译文本。翻译完成后,可将目标翻译文本发布的到英文网络小说的门户网站。
请参阅图15,图15为本申请实施例中英文网络小说门户网站的一个界面示意图,如图所示,在英文网络小说的门户网站上可展示一部或多部已经经过翻译的目标翻译文本,读者可以选择阅读所选的目标翻译文本。
本申请实施例中,提供了一种文本翻译的方法,首先获取待翻译文本,然后将待翻译文本输入至文本翻译模型,由文本翻译模型输出每个句子所对应的翻译文本,最后拼接得到目标翻译文本。通过上述方式,利用本申请提供的文本翻译模型能够极大提升翻译质量和对齐效果,基于文本翻译模型设计出的翻译产品,可发布应用程序编程接口,助力网络小说翻译员进行翻译工作,节约翻译成本,提高翻译效率,还可以向网络小说翻译平台开放相应的外部接口,实现面向企业和个体用户的翻译功能。
基于本申请提供的方法,本申请还进行了相关试验。虽然通用领域平行语料规模非常可观,但是直接使用该数据训练的模型来翻译小说,会导致低准确度、低流利度甚至歧义等一些列问题。如表4所示,各通用翻译系统在1000句小说测试集上的性能仅有18至20的BLEU值,而30分以上才为译文基本可以被人理解的程度。
表4
由表4可见,采用通用领域平行语料训练得到的文本翻译模型并未取得良好的翻译效果,基于此,采用本申请提供的方法,训练得到的文本翻译模型性能如表5所示。
表5
由表5可见,采用本申请提供的方法训练得到的文本翻译模型可以极大提升网络小说领域中翻译模型性能和自动对齐质量,从而显著提高用户体验,还可以嵌入辅助翻译系统中,大大减少译员工作量,降低翻译成本,提高翻译效率。
下面对本申请中的模型训练装置进行详细描述,请参阅图16,图16为本申请实施例中模型训练装置的一个实施例示意图,模型训练装置30包括:
获取模块301,用于获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
获取模块301,还用于若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
获取模块301,还用于基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
训练模块302,用于根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取第一链接地址以及第二链接地址;
根据第一链接地址获取第一元信息,其中,第一元信息包括第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第一元信息满足文本更新条件,则获取第一文本;
根据第二链接地址获取第二元信息,其中,第二元信息包括第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若第二元信息满足文本更新条件,则获取第二文本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中模型训练装置30还包括确定模块303;
确定模块303,用于在获取模块301获取第一文本以及第二文本之后,根据第一文本以及第二文本,确定标题匹配结果;
确定模块303,还用于根据第一文本以及第二文本,确定章节匹配结果;
确定模块303,还用于若标题匹配结果以及章节匹配结果均为第一匹配结果,则确定第一文本以及第二文本满足文本对齐条件,其中,第一匹配结果表示匹配成功;
确定模块303,还用于若标题匹配结果以及章节匹配结果中的至少一项为第二匹配结果,则确定第一文本以及第二文本未满足文本对齐条件,其中,第二匹配结果表示匹配失败。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块303,具体用于获取第一文本所对应的第一标题信息以及第二文本所对应的第二标题信息;
基于多语种标题集合,对第一标题信息以及第二标题信息进行匹配,得到标题匹配结果,其中,多语种标题集合包括至少一组标题信息,每组标题信息至少包括源语种所对应的标题信息以及目标语种所对应的标题信息。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块303,具体用于获取第一文本的第一章节信息以及第二文本的第二章节信息,其中,第一章节信息包括第一词语以及第一章节编号,第二章节信息包括第二词语以及第二章节编号;
基于多语种词语集合,对第一章节信息所包括的第一词语以及第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
对第一章节信息所包括的第一章节编号以及第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
根据第一匹配子结果以及第二匹配子结果,确定章节匹配结果。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取第一文本中的源端句子;
基于源端句子,通过文本翻译模型获取第一待匹配句子;
获取第一待匹配句子以及第二文本中的K个第二待匹配句子,其中,K为大于或等于1的整数;
根据第一待匹配句子以及K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与第一待匹配句子;
若K个匹配分值中的最大值大于或等于匹配分阈值,则将源端句子确定为第一句子,并将最大值所对应的第二待匹配句子确定为第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取第一句子所对应的第一标点以及第二句子所对应的第二标点;
若第一标点与第二标点匹配成功,则获取第一待训练平行文本;
或者,
获取模块301,具体用于获取第一句子所对应的第一词语数以及第二句子所对应的第二词语数;
根据第一词语数和第二词语数,确定词语比例;
若词语比例在词语比例区间内,则获取第一待训练平行文本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于获取待处理平行文本,其中,待处理平行文本包括第一待处理句子以及第二待处理句子,第一待处理句子来源于第一文本,第二待处理句子来源于第二文本,且第二待处理句子为第一待处理句子对应的翻译结果;
对待处理平行文本所包括的第一待处理句子进行文本预处理,得到第一句子,其中,文本预处理包括编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理中的至少一种;
对待处理平行文本所包括的第二待处理句子进行文本预处理,得到第二句子;
根据第一句子以及第二句子,获取第一待训练平行文本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于第一待训练平行文本所包括的第一句子,通过文本翻译模型所包括的编码器获取源端向量,其中,第一句子包括M个源端词,源端向量包括每个源端词的词向量,M为大于或等于1的整数;
基于源端向量,通过文本翻译模型所包括的注意力网络获取第t个源端词的源端上下文,其中,t为大于或等于1,且小于或等于M的整数;
基于第t个源端词的源端上下文,通过文本翻译模型所包括的解码器获取第t个源端词的解码器状态;
基于第t个源端词的解码器状态以及源端向量,通过文本翻译模型所包括的输出层获取第t个源端词所对应的目标词;
当获取到M个源端词中每个源端词所对应的目标词时,获取第一翻译文本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,还用于在训练模块302根据第一翻译文本以及第二句子,对文本翻译模型进行训练之后,获取第三文本以及第四文本,其中,第三文本对应于源语种,第四文本对应于目标语种;
获取模块301,还用于若第三文本以及第四文本满足文本对齐条件,则获取第二待训练平行文本,其中,第二待训练平行文本包括第三句子以及第四句子,第三句子来源于第三文本,第四句子来源于第四文本,且第四句子为第三句子对应的翻译结果;
获取模块301,还用于基于第二待训练平行文本所包括的第三句子,通过文本翻译模型获取第二翻译文本;
训练模块302,还用于根据第二翻译文本以及第二句子,对文本翻译模型进行训练。
下面对本申请中的文本翻译装置进行详细描述,请参阅图17,图17为本申请实施例中文本翻译装置的一个实施例示意图,文本翻译装置40包括:
获取模块401,用于获取待翻译文本,其中,待翻译文本包括至少一个句子,其中,待翻译文本对应于源语种;
获取模块401,还用于基于待翻译文本中的每个句子,通过文本翻译模型获取每个句子所对应的翻译文本,其中,文本翻译模型为采用述各方面所提供的方法训练得到的;
生成模块402,用于根据每个句子所对应的翻译文本,生成待翻译文本所对应的目标翻译文本,其中,目标翻译文本对应于目标语种,目标语种与源语种属于不同的语种。
本申请实施例还提供了另一种模型训练装置以及文本翻译装置,具体应用于终端设备,如图18所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:
图18示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图18,智能手机包括:射频(radio frequency,RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity,WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图18中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图18对智能手机的各个构成部件进行具体的介绍:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统 (globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access, WCDMA)、长期演进 (long termevolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图18中,触控面板531与显示面板541是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与智能手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一智能手机,或者将音频数据输出至存储器520以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块570,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器580可包括一个或多个处理单元;可选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
智能手机还包括给各个部件供电的电源590(比如电池),可选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端设备执行的步骤可以基于该图18所示的终端设备结构。
本申请实施例还提供了另一种模型训练装置以及文本翻译装置,具体应用于服务器,
图19是本申请实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图19所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (17)
1.一种文本翻译模型的训练方法,其特征在于,包括:
获取第一文本以及第二文本,其中,所述第一文本对应于源语种,所述第二文本对应于目标语种,所述源语种与所述目标语种属于不同的语种;
获取所述第一文本所对应的第一标题信息以及所述第二文本所对应的第二标题信息;
基于多语种标题集合,对所述第一标题信息以及所述第二标题信息进行匹配,得到标题匹配结果,其中,所述多语种标题集合包括至少一组标题信息,每组标题信息至少包括所述源语种所对应的标题信息以及所述目标语种所对应的标题信息;
获取所述第一文本的第一章节信息以及所述第二文本的第二章节信息,其中,所述第一章节信息包括第一词语以及第一章节编号,所述第二章节信息包括第二词语以及第二章节编号;
基于多语种词语集合,对所述第一章节信息所包括的所述第一词语以及所述第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
对所述第一章节信息所包括的所述第一章节编号以及所述第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
根据所述第一匹配子结果以及所述第二匹配子结果,确定章节匹配结果;
若所述标题匹配结果以及所述章节匹配结果均为第一匹配结果,则确定所述第一文本以及所述第二文本满足文本对齐条件,其中,所述第一匹配结果表示匹配成功;
若所述标题匹配结果以及所述章节匹配结果中的至少一项为第二匹配结果,则确定所述第一文本以及所述第二文本未满足所述文本对齐条件,其中,所述第二匹配结果表示匹配失败;
若所述第一文本以及所述第二文本满足所述文本对齐条件,则获取第一待训练平行文本,其中,所述第一待训练平行文本包括第一句子以及第二句子,所述第一句子来源于所述第一文本,所述第二句子来源于所述第二文本,且所述第二句子为所述第一句子对应的翻译结果;
基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本;
根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练;
其中,所述获取第一待训练平行文本,包括:
获取所述第一文本中的源端句子;
基于所述源端句子,通过所述文本翻译模型获取第一待匹配句子;
获取所述第一待匹配句子以及所述第二文本中的K个第二待匹配句子,其中,所述K为大于或等于1的整数;
根据所述第一待匹配句子以及所述K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与所述第一待匹配句子;
若所述K个匹配分值中的最大值大于或等于匹配分阈值,则将所述第一待匹配句子确定为所述第一句子,并将所述最大值所对应的第二待匹配句子确定为所述第二句子;
根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。
2.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本,包括:
获取第一链接地址以及第二链接地址;
根据所述第一链接地址获取第一元信息,其中,所述第一元信息包括所述第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第一元信息满足文本更新条件,则获取所述第一文本;
根据所述第二链接地址获取第二元信息,其中,所述第二元信息包括所述第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第二元信息满足所述文本更新条件,则获取所述第二文本。
3.根据权利要求1所述的训练方法,其特征在于,所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:
获取所述第一句子所对应的第一标点以及所述第二句子所对应的第二标点;
若所述第一标点与所述第二标点匹配成功,则获取所述第一待训练平行文本;
或者,
所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:
获取所述第一句子所对应的第一词语数以及所述第二句子所对应的第二词语数;
根据所述第一词语数和第二词语数,确定词语比例;
若所述词语比例在词语比例区间内,则获取所述第一待训练平行文本。
4.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:
获取待处理平行文本,其中,所述待处理平行文本包括第一待处理句子以及第二待处理句子,所述第一待处理句子来源于所述第一文本,所述第二待处理句子来源于所述第二文本,且所述第二待处理句子为所述第一待处理句子对应的翻译结果;
对所述待处理平行文本所包括的所述第一待处理句子进行文本预处理,得到所述第一句子,其中,所述文本预处理包括编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理中的至少一种;
对所述待处理平行文本所包括的所述第二待处理句子进行所述文本预处理,得到所述第二句子;
根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。
5.根据权利要求1所述的训练方法,其特征在于,所述基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本,包括:
基于所述第一待训练平行文本所包括的所述第一句子,通过所述文本翻译模型所包括的编码器获取源端向量,其中,所述第一句子包括M个源端词,所述源端向量包括每个源端词的词向量,所述M为大于或等于1的整数;
基于所述源端向量,通过所述文本翻译模型所包括的注意力网络获取第t个源端词的源端上下文,其中,所述t为大于或等于1,且小于或等于所述M的整数;
基于所述第t个源端词的源端上下文,通过所述文本翻译模型所包括的解码器获取所述第t个源端词的解码器状态;
基于所述第t个源端词的解码器状态以及所述源端向量,通过所述文本翻译模型所包括的输出层获取所述第t个源端词所对应的目标词;
当获取到所述M个源端词中每个源端词所对应的目标词时,获取所述第一翻译文本。
6.根据权利要求1至5中任一项所述的训练方法,其特征在于,所述根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练之后,所述方法还包括:
获取第三文本以及第四文本,其中,所述第三文本对应于所述源语种,所述第四文本对应于所述目标语种;
若所述第三文本以及所述第四文本满足所述文本对齐条件,则获取第二待训练平行文本,其中,所述第二待训练平行文本包括第三句子以及第四句子,所述第三句子来源于所述第三文本,所述第四句子来源于所述第四文本,且所述第四句子为所述第三句子对应的翻译结果;
基于所述第二待训练平行文本所包括的所述第三句子,通过所述文本翻译模型获取第二翻译文本;
根据所述第二翻译文本以及所述第二句子,对所述文本翻译模型进行训练。
7.一种文本翻译的方法,其特征在于,包括:
获取待翻译文本,其中,所述待翻译文本包括至少一个句子,其中,所述待翻译文本对应于源语种;
基于待翻译文本中的每个句子,通过文本翻译模型获取所述每个句子所对应的翻译文本,其中,所述文本翻译模型为采用上述权利要求1至6中任一项所述训练方法训练得到的;
根据所述每个句子所对应的翻译文本,生成所述待翻译文本所对应的目标翻译文本,其中,所述目标翻译文本对应于目标语种,所述目标语种与所述源语种属于不同的语种。
8.一种模型训练装置,其特征在于,包括:
获取模块,用于获取第一文本以及第二文本,其中,所述第一文本对应于源语种,所述第二文本对应于目标语种,所述源语种与所述目标语种属于不同的语种;
确定模块,用于获取所述第一文本所对应的第一标题信息以及所述第二文本所对应的第二标题信息;基于多语种标题集合,对所述第一标题信息以及所述第二标题信息进行匹配,得到标题匹配结果,其中,所述多语种标题集合包括至少一组标题信息,每组标题信息至少包括所述源语种所对应的标题信息以及所述目标语种所对应的标题信息;获取所述第一文本的第一章节信息以及所述第二文本的第二章节信息,其中,所述第一章节信息包括第一词语以及第一章节编号,所述第二章节信息包括第二词语以及第二章节编号;基于多语种词语集合,对所述第一章节信息所包括的所述第一词语以及所述第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;对所述第一章节信息所包括的所述第一章节编号以及所述第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;根据所述第一匹配子结果以及所述第二匹配子结果,确定章节匹配结果;若所述标题匹配结果以及所述章节匹配结果均为第一匹配结果,则确定所述第一文本以及所述第二文本满足文本对齐条件,其中,所述第一匹配结果表示匹配成功;若所述标题匹配结果以及所述章节匹配结果中的至少一项为第二匹配结果,则确定所述第一文本以及所述第二文本未满足所述文本对齐条件,其中,所述第二匹配结果表示匹配失败;
所述获取模块,还用于若所述第一文本以及所述第二文本满足所述文本对齐条件,则获取第一待训练平行文本,其中,所述第一待训练平行文本包括第一句子以及第二句子,所述第一句子来源于所述第一文本,所述第二句子来源于所述第二文本,且所述第二句子为所述第一句子对应的翻译结果;
所述获取模块,还用于基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本;
训练模块,用于根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练;
其中,所述获取模块,具体用于:
获取所述第一文本中的源端句子;
基于所述源端句子,通过所述文本翻译模型获取第一待匹配句子;
获取所述第一待匹配句子以及所述第二文本中的K个第二待匹配句子,其中,所述K为大于或等于1的整数;
根据所述第一待匹配句子以及所述K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与所述第一待匹配句子;
若所述K个匹配分值中的最大值大于或等于匹配分阈值,则将所述第一待匹配句子确定为所述第一句子,并将所述最大值所对应的第二待匹配句子确定为所述第二句子;
根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
获取第一链接地址以及第二链接地址;
根据所述第一链接地址获取第一元信息,其中,所述第一元信息包括所述第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第一元信息满足文本更新条件,则获取所述第一文本;
根据所述第二链接地址获取第二元信息,其中,所述第二元信息包括所述第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第二元信息满足所述文本更新条件,则获取所述第二文本。
10.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
获取所述第一句子所对应的第一标点以及所述第二句子所对应的第二标点;
若所述第一标点与所述第二标点匹配成功,则获取所述第一待训练平行文本;
或者,
所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:
获取所述第一句子所对应的第一词语数以及所述第二句子所对应的第二词语数;
根据所述第一词语数和第二词语数,确定词语比例;
若所述词语比例在词语比例区间内,则获取所述第一待训练平行文本。
11.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
获取待处理平行文本,其中,所述待处理平行文本包括第一待处理句子以及第二待处理句子,所述第一待处理句子来源于所述第一文本,所述第二待处理句子来源于所述第二文本,且所述第二待处理句子为所述第一待处理句子对应的翻译结果;
对所述待处理平行文本所包括的所述第一待处理句子进行文本预处理,得到所述第一句子,其中,所述文本预处理包括编码格式转换处理,非法字符处理,编码归一化处理以及文本切分处理中的至少一种;
对所述待处理平行文本所包括的所述第二待处理句子进行所述文本预处理,得到所述第二句子;
根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。
12.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
基于所述第一待训练平行文本所包括的所述第一句子,通过所述文本翻译模型所包括的编码器获取源端向量,其中,所述第一句子包括M个源端词,所述源端向量包括每个源端词的词向量,所述M为大于或等于1的整数;
基于所述源端向量,通过所述文本翻译模型所包括的注意力网络获取第t个源端词的源端上下文,其中,所述t为大于或等于1,且小于或等于所述M的整数;
基于所述第t个源端词的源端上下文,通过所述文本翻译模型所包括的解码器获取所述第t个源端词的解码器状态;
基于所述第t个源端词的解码器状态以及所述源端向量,通过所述文本翻译模型所包括的输出层获取所述第t个源端词所对应的目标词;
当获取到所述M个源端词中每个源端词所对应的目标词时,获取所述第一翻译文本。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述获取模块,还用于在根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练之后,获取第三文本以及第四文本,其中,所述第三文本对应于所述源语种,所述第四文本对应于所述目标语种;若所述第三文本以及所述第四文本满足所述文本对齐条件,则获取第二待训练平行文本,其中,所述第二待训练平行文本包括第三句子以及第四句子,所述第三句子来源于所述第三文本,所述第四句子来源于所述第四文本,且所述第四句子为所述第三句子对应的翻译结果;基于所述第二待训练平行文本所包括的所述第三句子,通过所述文本翻译模型获取第二翻译文本;
所述训练模块,用于根据所述第二翻译文本以及所述第二句子,对所述文本翻译模型进行训练。
14.一种文本翻译装置,其特征在于,包括:
获取模块,用于获取待翻译文本,其中,所述待翻译文本包括至少一个句子,其中,所述待翻译文本对应于源语种;
所述获取模块,还用于基于待翻译文本中的每个句子,通过文本翻译模型获取所述每个句子所对应的翻译文本,其中,所述文本翻译模型为采用上述权利要求1至6中任一项所述训练方法训练得到的;
生成模块,用于根据所述每个句子所对应的翻译文本,生成所述待翻译文本所对应的目标翻译文本,其中,所述目标翻译文本对应于目标语种,所述目标语种与所述源语种属于不同的语种。
15.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至6中任一项所述的训练方法,或者,执行权利要求7所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
16.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的训练方法,或者,执行权利要求7所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,计算机设备的处理器执行所述计算机指令,使得计算机设备执行如权利要求1至6中任一项所述的训练方法,或者,执行权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271673.2A CN112257472B (zh) | 2020-11-13 | 2020-11-13 | 一种文本翻译模型的训练方法、文本翻译的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271673.2A CN112257472B (zh) | 2020-11-13 | 2020-11-13 | 一种文本翻译模型的训练方法、文本翻译的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257472A CN112257472A (zh) | 2021-01-22 |
CN112257472B true CN112257472B (zh) | 2024-04-26 |
Family
ID=74265767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011271673.2A Active CN112257472B (zh) | 2020-11-13 | 2020-11-13 | 一种文本翻译模型的训练方法、文本翻译的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257472B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633283A (zh) * | 2021-03-08 | 2021-04-09 | 广州市玄武无线科技股份有限公司 | 一种英文邮件地址的识别与翻译方法及系统 |
CN113761944B (zh) * | 2021-05-20 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 翻译模型的训练语料处理方法、装置、设备和存储介质 |
CN113591437B (zh) * | 2021-08-09 | 2023-08-08 | 网易(杭州)网络有限公司 | 游戏文本翻译方法、电子设备及存储介质 |
CN114676234A (zh) * | 2022-02-22 | 2022-06-28 | 华为技术有限公司 | 一种模型训练方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325242A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 基于词对和翻译判断句子是否对齐的方法、装置及设备 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
CN111191469A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
JP2020140709A (ja) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 |
JP2020160917A (ja) * | 2019-03-27 | 2020-10-01 | 国立研究開発法人情報通信研究機構 | ニューラル機械翻訳モデルを訓練する方法及びコンピュータプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168049A1 (en) * | 2007-01-08 | 2008-07-10 | Microsoft Corporation | Automatic acquisition of a parallel corpus from a network |
WO2008083503A1 (en) * | 2007-01-10 | 2008-07-17 | National Research Council Of Canada | Means and method for automatic post-editing of translations |
US20130103695A1 (en) * | 2011-10-21 | 2013-04-25 | Microsoft Corporation | Machine translation detection in web-scraped parallel corpora |
US20150286632A1 (en) * | 2014-04-03 | 2015-10-08 | Xerox Corporation | Predicting the quality of automatic translation of an entire document |
-
2020
- 2020-11-13 CN CN202011271673.2A patent/CN112257472B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325242A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 基于词对和翻译判断句子是否对齐的方法、装置及设备 |
JP2020140709A (ja) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
JP2020160917A (ja) * | 2019-03-27 | 2020-10-01 | 国立研究開発法人情報通信研究機構 | ニューラル機械翻訳モデルを訓練する方法及びコンピュータプログラム |
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
CN111191469A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
Non-Patent Citations (1)
Title |
---|
深度学习在统计机器翻译领域自适应中的应用研究;丁亮;姚长青;何彦青;李辉;;情报工程;20170615(第03期);第65-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112257472A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257472B (zh) | 一种文本翻译模型的训练方法、文本翻译的方法及装置 | |
US10832008B2 (en) | Computerized system and method for automatically transforming and providing domain specific chatbot responses | |
US20190392066A1 (en) | Semantic Analysis-Based Query Result Retrieval for Natural Language Procedural Queries | |
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
US20210182504A1 (en) | Text translation method and apparatus, and storage medium | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
EP3343400A1 (en) | System and method for dynamically creating a domain ontology | |
CA3088695C (en) | Method and system for decoding user intent from natural language queries | |
US20150178623A1 (en) | Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation | |
CN111026319B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
US11714840B2 (en) | Method and apparatus for information query and storage medium | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111026320B (zh) | 多模态智能文本处理方法、装置、电子设备及存储介质 | |
US20120166428A1 (en) | Method and system for improving quality of web content | |
US10037321B1 (en) | Calculating a maturity level of a text string | |
CN105593845A (zh) | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 | |
CN114328852A (zh) | 一种文本处理的方法、相关装置及设备 | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
CN111444905B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN112347339A (zh) | 一种搜索结果处理方法及装置 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
WO2022231758A1 (en) | End-to-end neural word alignment process of suggesting formatting in machine translations | |
EP4080381A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN113822038A (zh) | 一种摘要生成方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037358 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |