CN110728154A - 一种半监督式通用神经机器翻译模型的构建方法 - Google Patents

一种半监督式通用神经机器翻译模型的构建方法 Download PDF

Info

Publication number
CN110728154A
CN110728154A CN201910806592.9A CN201910806592A CN110728154A CN 110728154 A CN110728154 A CN 110728154A CN 201910806592 A CN201910806592 A CN 201910806592A CN 110728154 A CN110728154 A CN 110728154A
Authority
CN
China
Prior art keywords
monolingual
network structure
module
encoder
corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910806592.9A
Other languages
English (en)
Other versions
CN110728154B (zh
Inventor
陈巍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910806592.9A priority Critical patent/CN110728154B/zh
Publication of CN110728154A publication Critical patent/CN110728154A/zh
Application granted granted Critical
Publication of CN110728154B publication Critical patent/CN110728154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种半监督式通用神经机器翻译模型的构建方法,该半监督式通用神经机器翻译模型的构建方法包括如下步骤:步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构;步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构;步骤(4),根据经过训练的该第一网络结构和该第二网络结构,重新构建新encoder‑decoder框架,同时采用该若干平行双语语料训练该新encoder‑decoder框架,以此构建得到通用神经机器翻译模型。

Description

一种半监督式通用神经机器翻译模型的构建方法
技术领域
本发明涉及神经网络的技术领域,特别涉及一种半监督式通用神经机器翻译模型的构建方法。
背景技术
目前,神经网络广泛应用于机器翻译领域,而现有的通用神经机器翻译系统都是从端到段的encoder-decoder框架结构,在一般情况下基于监督方式来利用大量平行双语语料进行机器翻译模型的训练,而对于单语语料而言,则是通过数据增强的方式先伪造形成平行双语语料,再将其加入到训练数据中进行训练。在实际操作过程中,通用神经机器翻译系统需要大量平行双语语料进行训练,而平行双语语料则需要涉及大量的人工标注处理,该通用神经机器翻译系统在训练过程中并没有有效利用单语语料,并且单语语料在不需要人工标注处理的情况下就可容易获得,还有,通过数据增强的方式伪造得到的平行双语语料通常存在噪声,其会影响机器翻译的效果。可见,现有技术急需一种能够充分利用单语语料对神经机器翻译模型进行训练的模型构建方法。
发明内容
针对现有技术存在的缺陷,本发明提供一种半监督式通用神经机器翻译模型的构建方法,该半监督式通用神经机器翻译模型的构建方法包括如下步骤:步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构;步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构;步骤(4),根据经过训练的所述第一网络结构和该第二网络结构,重新构建新encoder-decoder框架,同时采用该若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型。可见,该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练,其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调,这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理,以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平,从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性;此外,由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料,因此该构建方法还特别适用于小语种翻译。
本发明提供一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:
步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;
步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;
步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;
步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型;
进一步,在所述步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构具体包括,
步骤(201),从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构;
步骤(202),利用sub-word BPE技术对所述单语语料进行处理,将所述若干单语源语料变换为新的单语源语料;
步骤(203),利用所述新的单语源语料对所述第一网络结构进行关于字词的训练;
进一步,在所述步骤(201)中,从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构具体包括,
步骤(2011),确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(2012),若所述可分离属性指示所述encoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述encoder模块,若所述可分离属性指示所述encoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述encoder模块;
步骤(2013),将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第一网络结构;
进一步,在所述步骤(202)中,将所述若干单语源语料变换为新的单语源语料具体包括,
步骤(2021),对所述若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;
步骤(2022),对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定所述若干具有掩模态的单语源语料对应的语段位置信息;
步骤(2023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料;
进一步,在所述步骤(203)中,利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括,
步骤(2031),利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;
步骤(2032),从所述第一预测处理中提取至少一个第一预测结果,并对所述至少一个第一预测结果进行第一词匹配性判断;
步骤(2033),若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成所述第一循环训练,否则,继续进行所述第一循环训练,直到两者相匹配为止;
进一步,在所述步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构具体包括,
步骤(301),从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构;
步骤(302),将所述若干单语目标语料变换为新的单语目标语料;
步骤(303),利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练;
进一步,在所述步骤(301)中,从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构具体包括,
步骤(3011),确定所述decoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(3012),若所述可分离属性指示所述decoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述decoder模块,若所述可分离属性指示所述decoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述decoder模块;
步骤(3013),将提取得到的所述decoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第二网络结构;
进一步,在所述步骤(302)中,将所述若干单语目标语料变换为新的单语目标语料具体包括,
步骤(3021),对所述若干单语目标语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第二随机掩模处理,以此获得若干具有掩模态的单语目标语料;
步骤(3022),对所述若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理,以此确定所述若干具有掩模态的单语目标语料对应的语段位置信息;
步骤(3023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语目标语料作为所述新的单语目标语料;
进一步,在所述步骤(303)中,利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练具体包括,
步骤(3031),利用所述新的单语目标语料中的所有掩模态的单语目标语料对所述第二网络结构进行第二循环训练,以此实现对具有掩模态的单词和/或词组的第二预测处理;
步骤(3032),从所述第二预测处理中提取至少一个第二预测结果,并对所述至少一个第二预测结果进行第二词匹配性判断;
步骤(3033),若所述第二词匹配性判断的结果指示所述至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配,则完成所述第二循环训练,否则,继续进行所述第二循环训练,直到两者相匹配为止;
进一步,在所述步骤(4)中,根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型具体包括,
步骤(401),获取经过训练的所述第一网络结构中encoder模块的encoder参数和经过训练的所述第二网络结构中decoder模块的decoder参数;
步骤(402),将所述encoder参数和所述decoder参数迁移至原始encoder-decoder框架中;
步骤(403),利用所述若干平行双语语料以及通过精调模式对所述原始encoder-decoder框架进行训练处理,以此构建得到所述通用神经机器翻译模型。
相比于现有技术,该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练,其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调,这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理,以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平,从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性;此外,由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料,因此该构建方法还特别适用于小语种翻译。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种半监督式通用神经机器翻译模型的构建方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种半监督式通用神经机器翻译模型的构建方法的流程示意图。该半监督式通用神经机器翻译模型的构建方法包括如下步骤:
步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据。
步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构。
优选地,在该步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构具体包括,
步骤(201),从原始encoder-decoder框架中提取得到该encoder模块,并结合该分类器模块构建得到该第一网络结构;
步骤(202),利用sub-word BPE技术对所述单语语料进行处理,将该若干单语源语料变换为新的单语源语料;
步骤(203),利用该新的单语源语料对该第一网络结构进行关于字词的训练。
优选地,在该步骤(201)中,从原始encoder-decoder框架中提取得到该encoder模块,并结合该分类器模块构建得到该第一网络结构具体包括,
步骤(2011),确定该encoder模块与该原始encoder-decoder框架中的可分离属性;
步骤(2012),若该可分离属性指示该encoder模块具有可分离特性,则直接从该原始encoder-decoder框架中提取得到该encoder模块,若该可分离属性指示该encoder模块不具有可分离特性,则对该原始encoder-decoder框架进行功能模块分割处理后,再从该原始encoder-decoder框架中提取得到该encoder模块;
步骤(2013),将提取得到的该encoder模块的输出端与该分类器模块的输入端连接,以此构建得到该第一网络结构。
优选地,在该步骤(202)中,将该若干单语源语料变换为新的单语源语料具体包括,
步骤(2021),对该若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;
步骤(2022),对该若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定该若干具有掩模态的单语源语料对应的语段位置信息;
步骤(2023),判断该语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为该新的单语源语料。
优选地,在该步骤(203)中,利用该新的单语源语料对该第一网络结构进行关于字词的训练具体包括,
步骤(2031),利用该新的单语源语料中的所有掩模态的单语源语料对该第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;
步骤(2032),从该第一预测处理中提取至少一个第一预测结果,并对该至少一个第一预测结果进行第一词匹配性判断;
步骤(2033),若该第一词匹配性判断的结果指示该至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成该第一循环训练,否则,继续进行该第一循环训练,直到两者相匹配为止。
步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构。
优选地,在该步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构具体包括,
步骤(301),从原始encoder-decoder框架中提取得到该decoder模块,并结合该分类器模块构建得到该第二网络结构;
步骤(302),将该若干单语目标语料变换为新的单语目标语料;
步骤(303),利用该新的单语目标语料对该第二网络结构进行关于字词的训练。
优选地,在该步骤(301)中,从原始encoder-decoder框架中提取得到该decoder模块,并结合该分类器模块构建得到该第二网络结构具体包括,
步骤(3011),确定该decoder模块与该原始encoder-decoder框架中的可分离属性;
步骤(3012),若该可分离属性指示该decoder模块具有可分离特性,则直接从该原始encoder-decoder框架中提取得到该decoder模块,若该可分离属性指示该decoder模块不具有可分离特性,则对该原始encoder-decoder框架进行功能模块分割处理后,再从该原始encoder-decoder框架中提取得到该decoder模块;
步骤(3013),将提取得到的该decoder模块的输出端与该分类器模块的输入端连接,以此构建得到该第二网络结构。
优选地,在该步骤(302)中,将该若干单语目标语料变换为新的单语目标语料具体包括,
步骤(3021),对该若干单语目标语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第二随机掩模处理,以此获得若干具有掩模态的单语目标语料;
步骤(3022),对该若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理,以此确定该若干具有掩模态的单语目标语料对应的语段位置信息;
步骤(3023),判断该语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语目标语料作为该新的单语目标语料。
优选地,在该步骤(303)中,利用该新的单语目标语料对该第二网络结构进行关于字词的训练具体包括,
步骤(3031),利用该新的单语目标语料中的所有掩模态的单语目标语料对该第二网络结构进行第二循环训练,以此实现对具有掩模态的单词和/或词组的第二预测处理;
步骤(3032),从该第二预测处理中提取至少一个第二预测结果,并对该至少一个第二预测结果进行第二词匹配性判断;
步骤(3033),若该第二词匹配性判断的结果指示该至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配,则完成该第二循环训练,否则,继续进行该第二循环训练,直到两者相匹配为止。
步骤(4),根据经过训练的该第一网络结构和该第二网络结构,重新构建新encoder-decoder框架,同时采用该若干平行双语语料训练该新encoder-decoder框架,以此构建得到通用神经机器翻译模型。
优选地,在该步骤(4)中,根据经过训练的该第一网络结构和该第二网络结构,重新构建新encoder-decoder框架,同时采用该若干平行双语语料训练该新encoder-decoder框架,以此构建得到通用神经机器翻译模型具体包括,
步骤(401),获取经过训练的该第一网络结构中encoder模块的encoder参数和经过训练的该第二网络结构中decoder模块的decoder参数;
步骤(402),将该encoder参数和该decoder参数迁移至原始encoder-decoder框架中;
步骤(403),利用该若干平行双语语料以及通过精调模式对该原始encoder-decoder框架进行训练处理,以此构建得到该通用神经机器翻译模型。
从上述实施例可以看出,该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练,其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调,这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理,以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平,从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性;此外,由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料,因此该构建方法还特别适用于小语种翻译。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:
步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;
步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;
步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;
步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型。
2.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构具体包括,步骤(201),从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构;
步骤(202),利用sub-word BPE技术对所述单语语料进行处理,将所述若干单语源语料变换为新的单语源语料;
步骤(203),利用所述新的单语源语料对所述第一网络结构进行关于字词的训练。
3.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(201)中,从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构具体包括,
步骤(2011),确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(2012),若所述可分离属性指示所述encoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述encoder模块,若所述可分离属性指示所述encoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述encoder模块;
步骤(2013),将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第一网络结构。
4.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(202)中,将所述若干单语源语料变换为新的单语源语料具体包括,
步骤(2021),对所述若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;
步骤(2022),对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定所述若干具有掩模态的单语源语料对应的语段位置信息;
步骤(2023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料。
5.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(203)中,利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括,
步骤(2031),利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;
步骤(2032),从所述第一预测处理中提取至少一个第一预测结果,并对所述至少一个第一预测结果进行第一词匹配性判断;
步骤(2033),若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成所述第一循环训练,否则,继续进行所述第一循环训练,直到两者相匹配为止。
6.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构具体包括,步骤(301),从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构;
步骤(302),将所述若干单语目标语料变换为新的单语目标语料;
步骤(303),利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练。
7.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(301)中,从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构具体包括,
步骤(3011),确定所述decoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(3012),若所述可分离属性指示所述decoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述decoder模块,若所述可分离属性指示所述decoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述decoder模块;
步骤(3013),将提取得到的所述decoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第二网络结构。
8.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(302)中,将所述若干单语目标语料变换为新的单语目标语料具体包括,
步骤(3021),对所述若干单语目标语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第二随机掩模处理,以此获得若干具有掩模态的单语目标语料;
步骤(3022),对所述若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理,以此确定所述若干具有掩模态的单语目标语料对应的语段位置信息;
步骤(3023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语目标语料作为所述新的单语目标语料。
9.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(303)中,利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练具体包括,
步骤(3031),利用所述新的单语目标语料中的所有掩模态的单语目标语料对所述第二网络结构进行第二循环训练,以此实现对具有掩模态的单词和/或词组的第二预测处理;
步骤(3032),从所述第二预测处理中提取至少一个第二预测结果,并对所述至少一个第二预测结果进行第二词匹配性判断;
步骤(3033),若所述第二词匹配性判断的结果指示所述至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配,则完成所述第二循环训练,否则,继续进行所述第二循环训练,直到两者相匹配为止。
10.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(4)中,根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型具体包括,
步骤(401),获取经过训练的所述第一网络结构中encoder模块的encoder参数和经过训练的所述第二网络结构中decoder模块的decoder参数;
步骤(402),将所述encoder参数和所述decoder参数迁移至原始encoder-decoder框架中;
步骤(403),利用所述若干平行双语语料以及通过精调模式对所述原始encoder-decoder框架进行训练处理,以此构建得到所述通用神经机器翻译模型。
CN201910806592.9A 2019-08-28 2019-08-28 一种半监督式通用神经机器翻译模型的构建方法 Active CN110728154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910806592.9A CN110728154B (zh) 2019-08-28 2019-08-28 一种半监督式通用神经机器翻译模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806592.9A CN110728154B (zh) 2019-08-28 2019-08-28 一种半监督式通用神经机器翻译模型的构建方法

Publications (2)

Publication Number Publication Date
CN110728154A true CN110728154A (zh) 2020-01-24
CN110728154B CN110728154B (zh) 2023-05-26

Family

ID=69218772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806592.9A Active CN110728154B (zh) 2019-08-28 2019-08-28 一种半监督式通用神经机器翻译模型的构建方法

Country Status (1)

Country Link
CN (1) CN110728154B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597827A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种提高机器翻译准确度的方法及其装置
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN112966530A (zh) * 2021-04-08 2021-06-15 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008019509A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
US20140067361A1 (en) * 2012-08-28 2014-03-06 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
WO2008019509A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US20140067361A1 (en) * 2012-08-28 2014-03-06 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶绍林;郭武;: "基于句子级BLEU指标挑选数据的半监督神经机器翻译" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597827A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种提高机器翻译准确度的方法及其装置
CN111597827B (zh) * 2020-04-02 2023-05-26 云知声智能科技股份有限公司 一种提高机器翻译准确度的方法及其装置
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN111767742B (zh) * 2020-05-20 2023-07-25 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN112966530A (zh) * 2021-04-08 2021-06-15 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备
CN112966530B (zh) * 2021-04-08 2022-07-22 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备

Also Published As

Publication number Publication date
CN110728154B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111382580B (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN110517663B (zh) 一种语种识别方法及识别系统
US9564127B2 (en) Speech recognition method and system based on user personalized information
CN110728154B (zh) 一种半监督式通用神经机器翻译模型的构建方法
CN110544477A (zh) 一种语音识别方法、装置、设备及介质
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN111613215B (zh) 一种语音识别的方法及其装置
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
CN104347071B (zh) 生成口语考试参考答案的方法及系统
CN113345418A (zh) 基于跨语种自训练的多语种模型训练方法
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
Vu et al. Exploration of the impact of maximum entropy in recurrent neural network language models for code-switching speech
Schlippe et al. Automatic Error Recovery for Pronunciation Dictionaries.
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN110660384B (zh) 一种基于端到端的蒙古语异形同音词声学建模方法
CN114239539A (zh) 一种英语作文离题检测方法及装置
Buck et al. Analyzing language learned by an active question answering agent
CN109241539B (zh) 机器学习人工智能翻译数据库的更新方法
CN115905500B (zh) 问答对数据的生成方法及装置
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
CN109062911B (zh) 一种人工智能语音建模方法
CN116842128B (zh) 一种文本关系抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant