CN110543645A - 机器学习模型训练方法、介质、装置和计算设备 - Google Patents

机器学习模型训练方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN110543645A
CN110543645A CN201910833869.7A CN201910833869A CN110543645A CN 110543645 A CN110543645 A CN 110543645A CN 201910833869 A CN201910833869 A CN 201910833869A CN 110543645 A CN110543645 A CN 110543645A
Authority
CN
China
Prior art keywords
training
corpus
data
machine learning
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910833869.7A
Other languages
English (en)
Other versions
CN110543645B (zh
Inventor
程桥
黄瑾
段亦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Original Assignee
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd filed Critical NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201910833869.7A priority Critical patent/CN110543645B/zh
Publication of CN110543645A publication Critical patent/CN110543645A/zh
Application granted granted Critical
Publication of CN110543645B publication Critical patent/CN110543645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。该机器学习模型训练方法包括:获取原始数据,以得到由所述原始数据组成的原始数据集;获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。该方法具有训练效率高、训练效果好等优点。

Description

机器学习模型训练方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及通信及计算机技术领域,更具体地,本发明的实施方式涉及机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
机器学习是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习模型的训练过程依赖于大量的训练数据作为学习样本,当训练数据不足时,模型的训练效果也将大打折扣。
为了应对训练数据不足的问题,通常可以通过对训练数据做一些变换来扩充样本数量,这种技术也被称为数据增强。例如,在翻译模型的训练数据中,除了人工标注的真实语料以外,还可以增加一部分通过数据增强得到的伪语料,以便提高模型训练效果。然而,由于并非真实数据,经过数据增强得到的训练数据一般会引入噪声,因此会对机器学习模型的训练过程产生干扰,也会对机器学习模型的训练效果产生不良影响。
发明内容
本发明的目的在于提供一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备,以期至少在一定程度上克服由于相关技术的缺陷和限制而导致的机器学习模型训练效率低、训练效果差等技术问题。
根据本发明的第一方面,提供一种机器学习模型训练方法,包括:
获取原始数据,以得到由所述原始数据组成的原始数据集;
获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;
以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;
利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,所述在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;
确定与各个所述训练轮次相对应的样本调整节点和调整幅值;
当所述机器学习模型的迭代训练次数达到所述样本调整节点时,按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,所述按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
按照第一调整幅值增大所述第一抽样比例,以利用增大后的所述第一抽样比例从所述原始数据集中抽取原始数据样本;
按照第二调整幅值减小所述第二抽样比例,以利用减小后的所述第二抽样比例从所述扩展数据集中抽取扩展数据样本;
将抽取得到的所述原始数据样本和所述扩展数据样本组成更新后的训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,在所述训练过程的第一个训练轮次中,所述第一抽样比例为0%,所述第二抽样比例为100%;
在所述训练过程的最后一个训练轮次中,所述第一抽样比例为100%,所述第二抽样比例为0%。
在本发明的一些示例性实施方式中,基于以上技术方案,所述调整幅值为5%~15%。
在本发明的一些示例性实施方式中,基于以上技术方案,所述机器学习模型是用于将源语言翻译为目标语言的翻译模型。
在本发明的一些示例性实施方式中,基于以上技术方案,所述获取原始数据,包括:
获取基于所述源语言的源端语料以及与所述源端语料相对应的基于所述目标语言的目标端语料;
将所述源端语料和所述目标端语料进行语料对齐后组成原始平行语料,并将所述原始平行语料作为原始数据。
在本发明的一些示例性实施方式中,基于以上技术方案,所述获取通过数据增强得到的扩展数据,包括:
获取基于所述源语言或者所述目标语言的单端语料;
对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料;
将所述单端语料和所述对端语料组成扩展平行语料,并将所述扩展平行语料作为扩展数据。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:
确定用于将所述目标语言翻译为所述源语言的回译翻译模型;
将基于所述目标语言的单端语料输入所述回译翻译模型以得到与所述单端语料相对应的基于所述源语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:
确定用于将所述源语言翻译为所述目标语言的蒸馏翻译模型;
将基于所述源语言的单端语料输入所述蒸馏翻译模型以得到与所述单端语料相对应的基于所述目标语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:
获取与基于所述源语言的单端语料相对应的基于第三方语言的第三方语料;
确定用于将所述第三方语言翻译为所述目标语言的第三方正向翻译模型;
将所述第三方语料输入所述第三方正向翻译模型以得到与基于所述源语言的单端语料相对应的基于所述目标语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料,包括:
获取与基于所述目标语言的单端语料相对应的基于第三方语言的第三方语料;
确定用于将所述第三方语言翻译为所述源语言的第三方反向翻译模型;
将所述第三方语料输入所述第三方反向翻译模型以得到与基于所述目标语言的单端语料相对应的基于所述源语言的对端语料。
根据本发明的第二方面,提供一种介质,其上存储有程序,该程序被处理器执行时实现如以上任一实施方式中的方法。
根据本发明的第三方面,提供一种机器学习模型训练装置,包括:
原始数据获取模块,被配置为获取原始数据,以得到由所述原始数据组成的原始数据集;
扩展数据获取模块,被配置为获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;
样本抽取模块,被配置为以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;
迭代训练模块,被配置为利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,所述迭代训练模块包括:
轮次划分单元,被配置为获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;
幅值确定单元,被配置为确定与各个所述训练轮次相对应的样本调整节点和调整幅值;
样本更新单元,被配置为当所述机器学习模型的迭代训练次数达到所述样本调整节点时,按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,所述样本更新单元包括:
第一抽样子单元,被配置为按照第一调整幅值增大所述第一抽样比例,以利用增大后的所述第一抽样比例从所述原始数据集中抽取原始数据样本;
第二抽样子单元,被配置为按照第二调整幅值减小所述第二抽样比例,以利用减小后的所述第二抽样比例从所述扩展数据集中抽取扩展数据样本;
样本更新子单元,被配置为将抽取得到的所述原始数据样本和所述扩展数据样本组成更新后的训练样本集。
在本发明的一些示例性实施方式中,基于以上技术方案,在所述训练过程的第一个训练轮次中,所述第一抽样比例为0%,所述第二抽样比例为100%;
在所述训练过程的最后一个训练轮次中,所述第一抽样比例为100%,所述第二抽样比例为0%。
在本发明的一些示例性实施方式中,基于以上技术方案,所述调整幅值为5%~15%。
在本发明的一些示例性实施方式中,基于以上技术方案,所述机器学习模型是用于将源语言翻译为目标语言的翻译模型。
在本发明的一些示例性实施方式中,基于以上技术方案,所述原始数据获取模块包括:
双端语料获取单元,被配置为获取基于所述源语言的源端语料以及与所述源端语料相对应的基于所述目标语言的目标端语料;
原始语料对齐单元,被配置为将所述源端语料和所述目标端语料进行语料对齐后组成原始平行语料,并将所述原始平行语料作为原始数据。
在本发明的一些示例性实施方式中,基于以上技术方案,所述扩展数据获取模块包括:
单端语料获取单元,被配置为获取基于所述源语言或者所述目标语言的单端语料;
对端语料获取单元,被配置为对所述单端语料进行数据增强以得到与所述单端语料相对应的对端语料;
扩展语料对齐单元,被配置为将所述单端语料和所述对端语料组成扩展平行语料,并将所述扩展平行语料作为扩展数据。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对端语料获取单元包括:
回译模型确定子单元,被配置为确定用于将所述目标语言翻译为所述源语言的回译翻译模型;
回译模型翻译子单元,被配置为将基于所述目标语言的单端语料输入所述回译翻译模型以得到与所述单端语料相对应的基于所述源语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对端语料获取单元包括:
蒸馏模型确定子单元,被配置为确定用于将所述源语言翻译为所述目标语言的蒸馏翻译模型;
蒸馏模型翻译子单元,被配置为将基于所述源语言的单端语料输入所述蒸馏翻译模型以得到与所述单端语料相对应的基于所述目标语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对端语料获取单元包括:
正向语料获取子单元,被配置为获取与基于所述源语言的单端语料相对应的基于第三方语言的第三方正向语料;
正向模型确定子单元,被配置为确定用于将所述第三方语言翻译为所述目标语言的第三方正向翻译模型;
正向模型翻译子单元,被配置为将所述第三方正向语料输入所述第三方正向翻译模型以得到与基于所述源语言的单端语料相对应的基于所述目标语言的对端语料。
在本发明的一些示例性实施方式中,基于以上技术方案,所述对端语料获取单元包括:
反向语料获取子单元,被配置为获取与基于所述目标语言的单端语料相对应的基于第三方语言的第三方反向语料;
反向模型确定子单元,被配置为确定用于将所述第三方语言翻译为所述源语言的第三方反向翻译模型;
反向模型翻译子单元,被配置为将所述第三方反向语料输入所述第三方反向翻译模型以得到与基于所述目标语言的单端语料相对应的基于所述源语言的对端语料。
根据本发明的第四方面,提供一种计算设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如以上任一实施方式中的方法。
在本发明提供的技术方案中,通过动态调整用于采样原始数据样本的第一抽样比例和用于采样扩展数据样本的第二抽样比例,可以有倾向性地控制机器学习模型的训练方向,具有训练效率高、训练效果好等优点。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了应用本发明示例性实施方式的系统架构示意图。
图2示意性地示出了本发明的一些示例性实施方式中的机器学习模型训练方法的步骤流程图。
图3示意性地示出了本发明的一些示例性实施方式中更新训练样本集的步骤流程图。
图4示意性地示出了本发明的一些示例性实施方式中基于动态调整抽样比例更新训练样本集的步骤流程图。
图5示意性地示出了本发明的一些示例性实施方式中获取原始数据的步骤流程图。
图6示意性地示出了本发明的一些示例性实施方式中获取扩展数据的步骤流程图。
图7示意性地示出了本发明的一些示例性实施方式中基于回译翻译模型进行数据增强的步骤流程图。
图8示意性地示出了本发明的一些示例性实施方式中基于蒸馏翻译模型进行数据增强的步骤流程图。
图9示意性地示出了本发明的一些示例性实施方式中基于第三方正向翻译模型进行数据增强的步骤流程图。
图10示意性地示出了本发明的一些示例性实施方式中基于第三方反向翻译模型进行数据增强的步骤流程图。
图11示意性地示出了本发明一些示例性实施方式中的机器学习模型训练装置的结构框图。
图12示意性地示出了本发明一些示例性实施方式中的样本更新单元的组成框图。
图13示意性地示出了本发明的一些示例性实施方式中基于回译翻译模型的对端语料获取单元的组成框图。
图14示意性地示出了本发明的一些示例性实施方式中基于蒸馏翻译模型的对端语料获取单元的组成框图。
图15示意性地示出了本发明的一些示例性实施方式中基于第三方正向翻译模型的对端语料获取单元的组成框图。
图16示意性地示出了本发明的一些示例性实施方式中基于第三方反向翻译模型的对端语料获取单元的组成框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本发明中涉及的技术术语解释如下:
机器翻译(Machine Translation):机器翻译属于计算语言学的范畴,其研究借由计算机程序将文字或语音从一种自然语言翻译成另一种自然语言。机器翻译模型是使用机器学习技术训练得到的用于进行机器翻译的一种模型。
平行语料(Parallel Corpus):指的是包含一种语言的文本及其对应的另一种语言的翻译文本的集合。训练机器翻译模型依赖大量的平行语料。
此外,本发明中涉及的相关元素数量仅用于示例而非限制,以及相关元素的命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
在本发明的相关技术中,为了扩充训练数据的数量,一种可行的训练方式是直接将原始采集到的真实数据与通过数据增强得到的增强数据进行完全混合,然后利用混合得到的数据集训练机器学习模型。由于增强数据含有噪声,这部分噪声将自始至终地贯穿机器学习的整个训练过程,机器学习模型也不可避免地将从噪声中学习错误特征,导致训练结果难以满足要求。另一种训练方式是完全使用增强数据单独训练一个评分模型,然后利用这个评分模型的得分作为机器学习模型得分的一个特征,或者利用这个评分模型对整体机器学习模型的部分结构进行初始化。但是,将评分模型的得分作为机器学习模型得分的一个特征增加了额外的计算步骤,而使用评分模型初始化机器学习模型的部分结构则限制了机器学习模型的特定结构,不是对所有结构都有效,也增加了训练的复杂度。
针对以上方案存在的问题,本发明在机器学习模型的训练过程中合理地调度增强数据和真实的原始数据的比例来提升模型训练质量。在训练的开始阶段,本发明使用较高的概率采样增强数据,并使用较低的概率来采样原始数据,逐步过渡到训练的后期,再使用较低的概率采样增强数据,而使用较高的概率来采样原始数据。这样的调度方法使得机器学习模型既可以从增强数据中学习到有用的知识,不容易遗忘,又使得机器学习模型在训练后期更偏向于真实数据的分布,不受增强数据中的噪声干扰,而在真实数据上表现出更好的训练效果。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图1示出了应用本发明示例性实施方式的系统架构示意图。如图1所示,系统架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备,服务端130可以为客户端110提供网络资源和数据服务。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路等等。
根据实现需要,本发明示例性实施方式的系统架构可以具有任意数目的客户端、网络和服务端。例如,服务端130可以是由多个服务器设备组成的服务器群组。本发明示例性实施方式提供的机器学习模型训练方法可以应用于客户端110,也可以应用于服务端130,本发明对此不做特殊限定。
以机器翻译模型为例,在本发明的一个应用场景中可以在服务端130配置待训练的机器翻译模型,同时在数据库中存储作为训练数据的通过采集标注得到的真实语料以及通过数据增强得到的伪语料。响应于客户端110通过网络120发送的机器翻译模型训练请求,服务端130利用真实语料和伪语料组成的训练数据进行模型训练。在机器翻译模型的训练过程中需要对真实语料和伪语料的采样比例进行动态调度,一种调度方式可以是:
1、在训练的开始阶段使用全部的伪语料训练一定步数;
2、采样90%的伪语料和10%的真实语料混合,在此数据上训练一定的步数;
3、采样80%的伪语料和20%的真实语料混合,在此数据上训练一定的步数;
4、逐步降低伪语料的采样比例并提升真实语料的采样比例,并利用不断调整的训练语料继续训练;
5、使用全部的真实语料训练至最优。
基于以上语料采样比例的调度方式,可以从全部的伪语料逐渐过渡至全部的真实语料,在提高机器翻译模型训练质量的同时,降低伪语料中的噪声对模型训练结果的影响。
示例性方法
下面结合上述的应用场景,参考图2至图10来描述根据本发明示例性实施方式的机器学习模型训练方法。
图2示意性地示出了本发明的一些示例性实施方式中的机器学习模型训练方法的步骤流程图。如图2所示,该方法主要可以包括以下步骤:
步骤S210.获取原始数据,以得到由原始数据组成的原始数据集。
原始数据是经过标注后的能够直接用于机器学习模型训练的训练数据,例如用于训练机器翻译模型的原始数据可以是两种翻译语言的平行语料,用于训练图像识别模型的原始数据可以是具有识别结果标签的原始图像。由于需要人工标注或者添加标签,原始数据的数量通常十分有限,因此由原始数据组成的原始数据集的数据规模也相对较小。
步骤S220.获取通过数据增强得到的扩展数据,以得到由扩展数据组成的扩展数据集。
为了扩充训练数据的数量,提高模型训练质量,本步骤可以获取通过数据增强得到的扩展数据。例如,虽然训练机器翻译模型的真实的平行语料数据有限,但是未经标注的单语语料则相对较容易获取,因此通过对单语语料进行数据增强可以得到含有部分噪声的作为扩展数据的平行语料。由扩展数据组成的扩展数据集的数据规模一般可以是原始数据集的数倍或者数十倍。
步骤S230.以第一抽样比例从原始数据集中抽取原始数据样本,并以第二抽样比例从扩展数据集中抽取扩展数据样本。
分别通过步骤S210和步骤S220得到原始数据集和扩展数据集后,本步骤将在两个数据集中分别进行数据采样,具体可以是以第一抽样比例从原始数据集中抽取原始数据样本,同时以第二抽样比例从扩展数据集中抽取扩展数据样本。其中,第一抽样比例和第二抽样比例在大多数情况下是不相同的,例如第一抽样比例为90%时,第二抽样比例可以是10%或者其他比例。
步骤S240.利用原始数据样本和扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整第一抽样比例和第二抽样比例以更新训练样本集。
基于相互独立的采样比例进行样本采集得到原始数据样本和扩展数据样本后,将二者混合可以组成训练样本集。利用该训练样本集可以对机器学习模型进行迭代训练,而且在训练过程中需要对第一抽样比例和第二抽样比例进行动态调整。基于两种动态调整的抽样比例不断地对原始数据样本和扩展数据样本进行重新采样,使得训练样本集中的原始数据样本的数量和扩展数据样本的数量均不断变化。
在本示例性实施方式中,通过动态调整用于采样原始数据样本的第一抽样比例和用于采样扩展数据样本的第二抽样比例,可以有倾向性地控制机器学习模型的训练方向。例如,如果用户希望提高机器学习模型在真实数据上的训练质量,可以逐步提高原始数据集的抽样比例并降低扩展数据集的抽样比例。而如果用户希望提高机器学习模型的鲁棒性以避免模型过拟合,可以逐步降低原始数据集的抽样比例并提高扩展数据集的抽样比例。本示例性实施方式中对第一抽样比例和第二抽样比例的调整方向、调整幅度、调整速度等均可以根据用户的需要进行配置,本发明对此不做特殊限定。
图3示意性地示出了本发明的一些示例性实施方式中更新训练样本集的步骤流程图。如图3所示,在以上实施方式的基础上,步骤S240中的在训练过程中动态调整第一抽样比例和第二抽样比例以更新训练样本集,可以包括以下步骤:
步骤S310.获取机器学习模型的预估迭代次数,并根据预估迭代次数将机器学习模型的训练过程划分为多个训练轮次。
针对待训练的机器学习模型,本步骤可以获取对其进行训练的预估迭代次数。预估迭代次数可以是利用预先设置的学习率和收敛条件等参数计算得到,也可以是根据其他模型的训练结果推算得到。本步骤根据预估迭代次数可以将机器学习模型的训练过程划分为多个训练轮次,各个训练轮次可以使用不同的第一抽样比例和第二抽样比例进行样本采集。划分训练轮次的方式可以是平均分配,例如预估迭代次数为150万,那么本步骤可以将训练过程平均划分为10个训练轮次,每15万次迭代作为一个训练轮次。另外,训练轮次也可以采用不等分配,例如,后一个训练轮次可以相比前一个训练轮次逐渐增加迭代次数或者逐渐减少迭代次数。
步骤S320.确定与各个训练轮次相对应的样本调整节点和调整幅值。
划分得到多个训练轮次后,本步骤需要确定与各个训练轮次相对应的样本调整节点,样本调整节点是调整第一抽样比例和第二抽样比例以更新训练样本集的训练节点。例如,预估迭代次数为150万,以15万次迭代为间隔将整体训练过程平均划分为10个训练轮次,那么可以将迭代次数为15万、30万、45万、60万、75万、90万、105万、120万以及135万的各个训练节点作为样本调整节点。与此同时,本步骤还需要确定与各个训练轮次相对应的调整幅值,调整幅值表示对第一抽样比例和第二抽样比例做出调整的调整幅度。各个训练轮次可以使用相同的调整幅度,也可以使用不同的调整幅度。可选地,各个训练轮次下的第一抽样比例或者第二抽样比例的调整幅值可以在5%~15%的范围内取值。
步骤S330.当机器学习模型的迭代训练次数达到样本调整节点时,按照调整幅值调整第一抽样比例和第二抽样比例以更新训练样本集。
基于步骤S320确定的与各个训练轮次相关的样本调整节点和调整幅值,本步骤可以实时监测机器学习模型的训练过程,当机器学习模型的迭代训练次数达到某一个样本调整节点时,便可以利用相应的调整幅值分别对第一抽样比例和第二抽样比例做出调整,实现对训练样本集的更新,然后利用更新后的训练样本集继续对机器学习模型进行迭代训练。当机器学习模型的迭代训练次数达到下一个样本调整节点时,便重复上一过程,再利用新的调整幅值对第一抽样比例和第二抽样比例做出调整,进而对训练样本集再次做出更新并利用更新后的训练样本集继续进行迭代训练。
需要说明的是,在不同的训练轮次或者同一训练轮次中,第一抽样比例和第二抽样比例可以分别对应不同的调整幅值。图4示意性地示出了本发明的一些示例性实施方式中基于动态调整抽样比例更新训练样本集的步骤流程图。如图4所示,在以上各实施方式的基础上,步骤S330中的按照调整幅值调整第一抽样比例和第二抽样比例以更新训练样本集,可以包括以下步骤:
步骤S410.按照第一调整幅值增大第一抽样比例,以利用增大后的第一抽样比例从原始数据集中抽取原始数据样本。
在本示例性实施方式中,可以在训练之初以相对较低的第一抽样比例抽取原始数据样本,然后在训练过程中按照第一调整幅值逐渐增大第一抽样比例。例如,调整前的第一抽样比例为10%,第一调整幅值为5%,那么经过调整后的第一抽样比例即增大为15%,然后再以15%的比例从原始数据集中抽取原始数据样本。
步骤S420.按照第二调整幅值减小第二抽样比例,以利用减小后的第二抽样比例从扩展数据集中抽取扩展数据样本。
与较低的第一抽样比例相比,本示例性实施方式可以在训练之初以相对较高的第二抽样比例抽取扩展数据样本,然后在训练过程中按照第二调整幅值逐渐减小第二抽样比例。例如,调整前的第二抽样比例为90%,第二调整幅值为5%,那么经过调整后的第二抽样比例即减小为85%,然后再以85%的比例从扩展数据集中抽样扩展数据样本。
步骤S430.将抽取得到的原始数据样本和扩展数据样本组成更新后的训练样本集。
通过步骤S410和步骤S420分别对第一抽样比例和第二抽样比例做出调整并利用调整后的抽样比例进行重采样后,本步骤可以将重新抽取得到的原始数据样本和扩展数据样本组成更新后的训练样本集。在更新训练样本集的基础上可以继续对机器学习模型进行训练,当到达下一个训练轮次后则再次对抽样比例做出调整并再次更新训练样本集,如此往复直至完成对机器学习模型的训练。
在本发明的一些示例性实施方式中,通过逐步降低扩展数据的采样比例并逐步提高原始数据的采样比例可以使最终训练得到的机器学习模型在原始数据上获得更好的训练效果。例如,在训练的开始阶段使用全部的扩展数据进行训练,中间对原始数据和扩展数据的抽样比例不断进行动态调整,当到达训练的结束阶段时,使用全部的原始数据进行训练。换言之,在训练过程的第一个训练轮次中,将用于采样原始数据的第一抽样比例设置为0%,将用于采样扩展数据的第二抽样比例设置为100%;在训练过程的中间阶段持续增大第一抽样比例并减小第二抽样比例,最终在训练过程的最后一个训练轮次中,将第一抽样比例调整为100%,将第二抽样比例调整为0%。
作为一种可选的实施方式,本发明中的训练机器学习模型可以是用于将源语言翻译为目标语言的翻译模型。例如,源语言为中文,目标语言为英文,当把中文语句输入该翻译模型后,由该翻译模型进行特征提取和分析处理后即可输出对应的英文翻译语句。
当机器学习模型为翻译模型时,用于对其进行训练的原始数据可以是原始平行语料,相应的扩展数据可以是扩展平行语料。
图5示意性地示出了本发明的一些示例性实施方式中获取原始数据的步骤流程图。如图5所示,在以上各实施方式的基础上,步骤S210中的获取原始数据,可以包括以下步骤:
步骤S510.获取基于源语言的源端语料以及与源端语料相对应的基于目标语言的目标端语料。
翻译模型用于将源语言翻译为目标语言,因此训练翻译模型的训练数据应当是由基于源语言的源端语料和基于目标语言的目标端语料两种语料组成,而且源端语料和目标端语料需要满足相互对应的互译关系。例如,翻译模型用于将中文翻译为英文,那么源端语料可以由中文字词和中文语句构成,目标端语料则由相应的英文字词和英文语句构成。
步骤S520.将源端语料和目标端语料进行语料对齐后组成原始平行语料,并将原始平行语料作为原始数据。
在获取到源端语料和目标端语料后,需要对二者进行语料对齐(Alignment)以组成原始平行语料。例如,源端语料是一篇中文文章,目标端语料是对该中文文章翻译得到的英文文章,那么本步骤需要对该中文文章中的各个中文语句与该英文文章中的各个英文语句建立一一对应的关联关系,亦即将两种语料的各个组成部分进行对齐形成原始平行语料,这种具有语料对形式的原始平行语料即作为训练机器学习模型的原始数据。
相比于由具有对应关系的源端语料和目标端语料组成的原始平行语料,无法直接进行语料对齐形成语料对的基于源语言或者目标语言的单端语料是更容易获取的语料资源。针对这部分无法构成原始数据的语料资源,可以通过数据增强的方式形成扩展数据。
图6示意性地示出了本发明的一些示例性实施方式中获取扩展数据的步骤流程图。如图6所示,在以上各实施方式的基础上,步骤S220中的获取通过数据增强得到的扩展数据,可以包括以下步骤:
步骤S610.获取基于源语言或者目标语言的单端语料。
单端语料是基于源语言或者目标语言的单一语言种类的语料资源,例如,本步骤中获取到的单端语料可以是没有对应英文译文的中文语料,或者可以是没有对应中文译文的英文语料。
步骤S620.对单端语料进行数据增强以得到与单端语料相对应的对端语料。
通过数据增强的方式可以获取与单端语料相对应的对端语料。如果单端语料是基于源语言(如中文)的语料,那么对端语料则是与之相对应的基于目标语言(如英文)的语料。而如果单端语料是基于目标语言(如英文)的语料,那么对端语料则是与之相对应的基于源语言(如中文)的语料。
步骤S630.将单端语料和对端语料组成扩展平行语料,并将扩展平行语料作为扩展数据。
分别由步骤S610和步骤S620获取到单端语料以及与之相对应的对端语料后,本步骤将把单端语料和对端语料进行语料对齐以组成扩展平行语料。相比于作为原始数据的原始平行语料,作为扩展数据的扩展平行语料含有一定的噪声。换言之,组成扩展平行语料的单端语料与对端语料之间满足具有一定噪声的互译关系。
针对不同形式的单端语料,需要采用不同的数据增强方式以获取与之对应的对端语料。下面结合图7至图10对四种不同的数据增强方式做出说明。
图7示意性地示出了本发明的一些示例性实施方式中基于回译翻译模型进行数据增强的步骤流程图。如图7所示,在一些可选的实施方式中,步骤S620.对单端语料进行数据增强以得到与单端语料相对应的对端语料,可以包括以下步骤:
步骤S710.确定用于将目标语言翻译为源语言的回译翻译模型。
本发明示例性实施方式中的待训练的翻译模型用于将源语言翻译为目标语言,而回译翻译模型则用于将目标语言翻译回源语言,该回译翻译模型与待训练的翻译模型具有互逆的翻译功能。
步骤S720.将基于目标语言的单端语料输入回译翻译模型以得到与单端语料相对应的基于源语言的对端语料。
针对步骤S610中获取到的基于目标语言的单端语料,本步骤将其作为输入数据输入至步骤S710中确定的回译翻译模型中,由回译翻译模型对其进行特征提取和分析计算以输出基于源语言的对端语料。
在本示例性实施方式中,基于目标语言的单端语料是真实采集得到的语料,而基于源语言的对端语料是由回译翻译模型翻译得到的语料,因此单端语料与对端语料之间的互译质量取决于回译翻译模型的翻译能力。回译翻译模型的翻译准确性越高,由单端语料和对端语料组成的扩展平行语料的真实度越高,其中包含的噪声也越少。
图8示意性地示出了本发明的一些示例性实施方式中基于蒸馏翻译模型进行数据增强的步骤流程图。如图8所示,在一些可选的实施方式中,步骤S620.对单端语料进行数据增强以得到与单端语料相对应的对端语料,可以包括以下步骤:
步骤S810.确定用于将源语言翻译为目标语言的蒸馏翻译模型。
模型蒸馏(Distilling)是对复杂模型进行模型压缩的一种方法,能够将训练好的复杂模型的知识学习能力和部分学习结果迁移到一个结构更为简单的模型中。本步骤中确定的蒸馏翻译模型与本发明实施方式中待训练的翻译模型具有相同的翻译功能,即都是用于将源语言翻译为目标语言。
步骤S820.将基于源语言的单端语料输入蒸馏翻译模型以得到与单端语料相对应的基于目标语言的对端语料。
针对步骤S610中获取到的基于源语言的单端语料,本步骤将其作为输入数据输入至步骤S810中确定的蒸馏翻译模型中,由蒸馏翻译模型对其进行特征提取和分析计算以输出基于目标语言的对端语料。
在本示例性实施方式中,基于源语言的单端语料是真实采集得到的语料,而基于目标语言的对端语料是由蒸馏翻译模型翻译得到的语料,因此单端语料与对端语料之间的互译质量取决于蒸馏翻译模型的翻译能力。蒸馏翻译模型的翻译准确性越高,由单端语料和对端语料组成的扩展平行语料的真实度越高,其中包含的噪声也越少。
图9示意性地示出了本发明的一些示例性实施方式中基于第三方正向翻译模型进行数据增强的步骤流程图。如图9所示,在一些可选的实施方式中,步骤S620.对单端语料进行数据增强以得到与单端语料相对应的对端语料,可以包括以下步骤:
步骤S910.获取与基于源语言的单端语料相对应的基于第三方语言的第三方语料。
针对步骤S610中获取到的基于源语言的单端语料,本步骤可以获取与之对应的基于第三方语言的第三方语料,其中单端语料与第三方语料之间可以具有互译关系。举例而言,如果源语言为中文且目标语言为英文,那么第三方语言可以是除中文和英文以外的其他语言,如日文、德文、法文、俄文等等。在此基础上,如果本步骤中获取到的单端语料为中文语料,那么第三方语料可以是与该中文语料相对应的日文译文、德文译文、法文译文、俄文译文等等。
步骤S920.确定用于将第三方语言翻译为目标语言的第三方正向翻译模型。
第三方正向翻译模型用于将第三方语言翻译为目标语言。例如,本示例性实施方式中待训练的翻译模型用于将中文翻译为英文,而步骤S910中获取到的是与中文语料相对应的日文语料,那么本步骤确定的第三方正向翻译模型应当是用于将日文翻译为英文的翻译模型。
步骤S930.将第三方语料输入第三方正向翻译模型以得到与基于源语言的单端语料相对应的基于目标语言的对端语料。
基于步骤S920确定的第三方正向翻译模型,本步骤将把步骤S910获取到的第三方语料输入该第三方正向翻译模型中,由第三方正向翻译模型对其进行特征提取和分析计算以输出基于目标语言的对端语料。
在本示例性实施方式中,基于源语言的单端语料是真实采集得到的语料,而基于目标语言的对端语料是由第三方正向翻译模型对第三方语言翻译得到的语料,因此单端语料与对端语料之间的互译质量取决于第三方正向翻译模型的翻译能力。第三方正向翻译模型的翻译准确性越高,由单端语料和对端语料组成的扩展平行语料的真实度越高,其中包含的噪声也越少。
图10示意性地示出了本发明的一些示例性实施方式中基于第三方反向翻译模型进行数据增强的步骤流程图。如图10所示,在一些可选的实施方式中,步骤S620.对单端语料进行数据增强以得到与单端语料相对应的对端语料,可以包括以下步骤:
步骤S1010.获取与基于目标语言的单端语料相对应的基于第三方语言的第三方语料。
针对步骤S610中获取到的基于目标语言的单端语料,本步骤可以获取与之对应的基于第三方语言的第三方语料,其中单端语料与第三方语料之间可以具有互译关系。举例而言,如果源语言为中文且目标语言为英文,那么第三方语言可以是除中文和英文以外的其他语言,如日文、德文、法文、俄文等等。在此基础上,如果本步骤中获取到的单端语料为英文语料,那么第三方语料可以是与该英文语料相对应的日文译文、德文译文、法文译文、俄文译文等等。
步骤S1020.确定用于将第三方语言翻译为源语言的第三方反向翻译模型。
第三方反向翻译模型用于将第三方语言翻译为源语言。例如,本示例性实施方式中待训练的翻译模型用于将中文翻译为英文,而步骤S1010中获取到的是与英文语料相对应的日文语料,那么本步骤确定的第三方反向翻译模型应当是用于将日文翻译为中文的翻译模型。
步骤S1030.将第三方语料输入第三方反向翻译模型以得到与基于目标语言的单端语料相对应的基于源语言的对端语料。
基于步骤S1020确定的第三方反向翻译模型,本步骤将把步骤S1010获取到的第三方语料输入该第三方反向翻译模型中,由第三方反向翻译模型对其进行特征提取和分析计算以输出基于源语言的对端语料。
在本示例性实施方式中,基于目标语言的单端语料是真实采集得到的语料,而基于源语言的对端语料是由第三方反向翻译模型对第三方语言翻译得到的语料,因此单端语料与对端语料之间的互译质量取决于第三方反向翻译模型的翻译能力。第三方反向翻译模型的翻译准确性越高,由单端语料和对端语料组成的扩展平行语料的真实度越高,其中包含的噪声也越少。
以上各实施方式中提供了基于各种已有翻译模型进行数据增强的技术方案,在本发明的其他一些实施方式中,也可以通过对原始语料中的源端语料或者目标端语料进行同义词替换、语料裁剪等方式进行数据增强,本发明对此不做特殊限定。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,对本发明示例性实施方式的介质进行说明。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的机器学习模型训练方法中的步骤。
在本发明的一些示例性实施方式中,所述设备的处理器执行所述程序代码时可以用于实现如图2所示的以下步骤:
步骤S210.获取原始数据,以得到由原始数据组成的原始数据集。
步骤S220.获取通过数据增强得到的扩展数据,以得到由扩展数据组成的扩展数据集。
步骤S230.以第一抽样比例从原始数据集中抽取原始数据样本,并以第二抽样比例从扩展数据集中抽取扩展数据样本。
步骤S240.利用原始数据样本和扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整第一抽样比例和第二抽样比例以更新训练样本集。
在本发明的其他一些实施方式中,所述设备的处理器执行所述程序代码时也可以用于实现如图3至图10所示的各个方法步骤。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图11对本发明示例性实施方式的机器学习模型训练装置进行说明。
图11示意性地示出了本发明一些示例性实施方式中的机器学习模型训练装置的结构框图。如图11所示,机器学习模型训练装置1100主要可以包括:
原始数据获取模块1110,被配置为获取原始数据,以得到由原始数据组成的原始数据集;
扩展数据获取模块1120,被配置为获取通过数据增强得到的扩展数据,以得到由扩展数据组成的扩展数据集;
样本抽取模块1130,被配置为以第一抽样比例从原始数据集中抽取原始数据样本,并以第二抽样比例从扩展数据集中抽取扩展数据样本;
迭代训练模块1140,被配置为利用原始数据样本和扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整第一抽样比例和第二抽样比例以更新训练样本集。
在本发明的一些示例性实施方式中,基于以上实施方式,迭代训练模块1140包括:
轮次划分单元1141,被配置为获取机器学习模型的预估迭代次数,并根据预估迭代次数将机器学习模型的训练过程划分为多个训练轮次;
幅值确定单元1142,被配置为确定与各个训练轮次相对应的样本调整节点和调整幅值;
样本更新单元1143,被配置为当机器学习模型的迭代训练次数达到样本调整节点时,按照调整幅值调整第一抽样比例和第二抽样比例以更新训练样本集。
当迭代训练模块1140利用样本更新单元1143完成对第一抽样比例和第二抽样比例的一次调整后,样本更新单元1143将把调整后的第一抽样比例和第二抽样比例传送至样本抽取模块1130,然后由样本抽取模块1130分别按照调整后的第一抽样比例和第二抽样比例抽取原始数据样本和扩展数据样本,从而得到更新后的训练样本集。迭代训练模块1140继续利用更新后的训练样本集对机器学习模型进行迭代训练,直至迭代训练次数达到下一个样本调整节点。如此循环往复,以实现利用动态调整的训练样本集对机器学习模型进行训练。
图12示意性地示出了本发明一些示例性实施方式中的样本更新单元的组成框图。如图12所示,样本更新单元1143可以包括:
第一抽样子单元1210,被配置为按照第一调整幅值增大第一抽样比例,以利用增大后的第一抽样比例从原始数据集中抽取原始数据样本;当第一抽样子单元1210完成对第一抽样比例的增大调整后,将把增大后的第一抽样比例传送至样本抽取模块1130,然后由样本抽取模块1130利用增大后的第一抽样比例从原始数据集中抽取原始数据样本。
第二抽样子单元1220,被配置为按照第二调整幅值减小第二抽样比例,以利用减小后的第二抽样比例从扩展数据集中抽取扩展数据样本;当第二抽样子单元1220完成对第二抽样比例的减小调整后,将把减小后的第二抽样比例传送至样本抽取模块1130,然后由样本抽取模块1130利用减小后的第二抽样比例从扩展数据集中抽取扩展数据样本。
样本更新子单元1230,被配置为将抽取得到的原始数据样本和扩展数据样本组成更新后的训练样本集。样本更新子单元1230收集由样本抽取模块1130按照增大后的第一抽样比例和减小后的第二抽样比例重新抽样得到的新的原始数据样本和扩展数据样本,并将两组重新抽样的数据组成更新后的训练样本集。
在本发明的一些示例性实施方式中,基于以上各实施方式,在训练过程的第一个训练轮次中,第一抽样比例为0%,第二抽样比例为100%;在训练过程的最后一个训练轮次中,第一抽样比例为100%,第二抽样比例为0%。
在本发明的一些示例性实施方式中,基于以上各实施方式,调整幅值为5%~15%。
在本发明的一些示例性实施方式中,基于以上各实施方式,机器学习模型是用于将源语言翻译为目标语言的翻译模型。
继续参考图11所示,在本发明的一些示例性实施方式中,基于以上各实施方式,原始数据获取模块1110可以进一步包括:
双端语料获取单元1111,被配置为获取基于源语言的源端语料以及与源端语料相对应的基于目标语言的目标端语料;
原始语料对齐单元1112,被配置为将源端语料和目标端语料进行语料对齐后组成原始平行语料,并将原始平行语料作为原始数据。
在本发明的一些示例性实施方式中,基于以上各实施方式,扩展数据获取模块1120可以进一步包括:
单端语料获取单元1121,被配置为获取基于源语言或者目标语言的单端语料;
对端语料获取单元1122,被配置为对单端语料进行数据增强以得到与单端语料相对应的对端语料;
扩展语料对齐单元1123,被配置为将单端语料和对端语料组成扩展平行语料,并将扩展平行语料作为扩展数据。
图13示意性地示出了本发明的一些示例性实施方式中基于回译翻译模型的对端语料获取单元的组成框图。如图13所示,在一些可选的实施方式中,对端语料获取单元1122可以包括:
回译模型确定子单元1310,被配置为确定用于将目标语言翻译为源语言的回译翻译模型;
回译模型翻译子单元1320,被配置为将基于目标语言的单端语料输入回译翻译模型以得到与单端语料相对应的基于源语言的对端语料。
图14示意性地示出了本发明的一些示例性实施方式中基于蒸馏翻译模型的对端语料获取单元的组成框图。如图14所示,在一些可选的实施方式中,对端语料获取单元1122可以包括:
蒸馏模型确定子单元1410,被配置为确定用于将源语言翻译为目标语言的蒸馏翻译模型;
蒸馏模型翻译子单元1420,被配置为将基于源语言的单端语料输入蒸馏翻译模型以得到与单端语料相对应的基于目标语言的对端语料。
图15示意性地示出了本发明的一些示例性实施方式中基于第三方正向翻译模型的对端语料获取单元的组成框图。如图15所示,在一些可选的实施方式中,对端语料获取单元1122可以包括:
正向语料获取子单元1510,被配置为获取与基于源语言的单端语料相对应的基于第三方语言的第三方正向语料;
正向模型确定子单元1520,被配置为确定用于将第三方语言翻译为目标语言的第三方正向翻译模型;
正向模型翻译子单元1530,被配置为将第三方正向语料输入第三方正向翻译模型以得到与基于源语言的单端语料相对应的基于目标语言的对端语料。
图16示意性地示出了本发明的一些示例性实施方式中基于第三方反向翻译模型的对端语料获取单元的组成框图。如图16所示,在一些可选的实施方式中,对端语料获取单元1122可以包括:
反向语料获取子单元1610,被配置为获取与基于目标语言的单端语料相对应的基于第三方语言的第三方反向语料;
反向模型确定子单元1620,被配置为确定用于将第三方语言翻译为源语言的第三方反向翻译模型;
反向模型翻译子单元1630,被配置为将第三方反向语料输入第三方反向翻译模型以得到与基于目标语言的单端语料相对应的基于源语言的对端语料。
以上各示例性实施方式中的机器学习模型训练装置的具体细节已在相应的示例性方法部分做出详细说明,因此此处不再赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的机器学习模型训练方法中的步骤。
例如,所述处理器可以执行如图2中所示的以下方法步骤:
步骤S210.获取原始数据,以得到由原始数据组成的原始数据集。
步骤S220.获取通过数据增强得到的扩展数据,以得到由扩展数据组成的扩展数据集。
步骤S230.以第一抽样比例从原始数据集中抽取原始数据样本,并以第二抽样比例从扩展数据集中抽取扩展数据样本。
步骤S240.利用原始数据样本和扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整第一抽样比例和第二抽样比例以更新训练样本集。
又如,所述处理器也可以执行如图3至图10中所示的各个方法步骤。
应当注意,尽管在上文详细描述中提及了机器学习模型训练装置的若干单元或子单元,但是这种划分仅仅是示例性的,并非是强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之,上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种机器学习模型训练方法,包括:
获取原始数据,以得到由所述原始数据组成的原始数据集;
获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;
以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;
利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
2.根据权利要求1所述的机器学习模型训练方法,所述在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
获取所述机器学习模型的预估迭代次数,并根据所述预估迭代次数将所述机器学习模型的训练过程划分为多个训练轮次;
确定与各个所述训练轮次相对应的样本调整节点和调整幅值;
当所述机器学习模型的迭代训练次数达到所述样本调整节点时,按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
3.根据权利要求2所述的机器学习模型训练方法,所述按照所述调整幅值调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集,包括:
按照第一调整幅值增大所述第一抽样比例,以利用增大后的所述第一抽样比例从所述原始数据集中抽取原始数据样本;
按照第二调整幅值减小所述第二抽样比例,以利用减小后的所述第二抽样比例从所述扩展数据集中抽取扩展数据样本;
将抽取得到的所述原始数据样本和所述扩展数据样本组成更新后的训练样本集。
4.根据权利要求2所述的机器学习模型训练方法,在所述训练过程的第一个训练轮次中,所述第一抽样比例为0%,所述第二抽样比例为100%;
在所述训练过程的最后一个训练轮次中,所述第一抽样比例为100%,所述第二抽样比例为0%。
5.根据权利要求2所述的机器学习模型训练方法,所述调整幅值为5%~15%。
6.根据权利要求1所述的机器学习模型训练方法,所述机器学习模型是用于将源语言翻译为目标语言的翻译模型。
7.根据权利要求6所述的机器学习模型训练方法,所述获取原始数据,包括:
获取基于所述源语言的源端语料以及与所述源端语料相对应的基于所述目标语言的目标端语料;
将所述源端语料和所述目标端语料进行语料对齐后组成原始平行语料,并将所述原始平行语料作为原始数据。
8.一种介质,其上存储有程序,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
9.一种机器学习模型训练装置,包括:
原始数据获取模块,被配置为获取原始数据,以得到由所述原始数据组成的原始数据集;
扩展数据获取模块,被配置为获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;
样本抽取模块,被配置为以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;
迭代训练模块,被配置为利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。
10.一种计算设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。
CN201910833869.7A 2019-09-04 2019-09-04 机器学习模型训练方法、介质、装置和计算设备 Active CN110543645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833869.7A CN110543645B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833869.7A CN110543645B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、介质、装置和计算设备

Publications (2)

Publication Number Publication Date
CN110543645A true CN110543645A (zh) 2019-12-06
CN110543645B CN110543645B (zh) 2023-04-07

Family

ID=68711274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833869.7A Active CN110543645B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN110543645B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259676A (zh) * 2020-01-10 2020-06-09 苏州交驰人工智能研究院有限公司 翻译模型的训练方法、装置、电子设备、及存储介质
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112861549A (zh) * 2021-03-12 2021-05-28 云知声智能科技股份有限公司 一种训练翻译模型的方法和设备
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
CN113449567A (zh) * 2020-03-27 2021-09-28 深圳云天励飞技术有限公司 一种人脸温度检测方法、装置、电子设备及存储介质
CN113591492A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 语料生成方法、装置、电子设备以及存储介质
WO2022227214A1 (zh) * 2021-04-29 2022-11-03 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
CN115688868A (zh) * 2022-12-30 2023-02-03 荣耀终端有限公司 一种模型训练方法及计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530321A (zh) * 2013-09-18 2014-01-22 上海交通大学 一种基于机器学习的排序系统
US20170124479A1 (en) * 2015-10-30 2017-05-04 International Business Machines Corporation Forecastable supervised labels and corpus sets for training a natural-language processing system
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
WO2018184224A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for boosting deep neural networks for deep learning
CN109190768A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种数据增强语料在神经网络中训练方法
CN109388808A (zh) * 2017-08-10 2019-02-26 陈虎 一种用于建立单词翻译模型的训练数据采样方法
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530321A (zh) * 2013-09-18 2014-01-22 上海交通大学 一种基于机器学习的排序系统
US20170124479A1 (en) * 2015-10-30 2017-05-04 International Business Machines Corporation Forecastable supervised labels and corpus sets for training a natural-language processing system
WO2018184224A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems for boosting deep neural networks for deep learning
CN109388808A (zh) * 2017-08-10 2019-02-26 陈虎 一种用于建立单词翻译模型的训练数据采样方法
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN109190768A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种数据增强语料在神经网络中训练方法
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
CN111259676A (zh) * 2020-01-10 2020-06-09 苏州交驰人工智能研究院有限公司 翻译模型的训练方法、装置、电子设备、及存储介质
CN113449567B (zh) * 2020-03-27 2024-04-02 深圳云天励飞技术有限公司 一种人脸温度检测方法、装置、电子设备及存储介质
CN113449567A (zh) * 2020-03-27 2021-09-28 深圳云天励飞技术有限公司 一种人脸温度检测方法、装置、电子设备及存储介质
CN111767742A (zh) * 2020-05-20 2020-10-13 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN111767742B (zh) * 2020-05-20 2023-07-25 云知声智能科技股份有限公司 篇章翻译网络的数据增强方法
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112347253B (zh) * 2020-11-04 2023-09-08 新奥新智科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112527127B (zh) * 2020-12-23 2022-01-28 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112861549A (zh) * 2021-03-12 2021-05-28 云知声智能科技股份有限公司 一种训练翻译模型的方法和设备
CN112861549B (zh) * 2021-03-12 2023-10-20 云知声智能科技股份有限公司 一种训练翻译模型的方法和设备
WO2022227214A1 (zh) * 2021-04-29 2022-11-03 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
CN113591492A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 语料生成方法、装置、电子设备以及存储介质
CN115688868A (zh) * 2022-12-30 2023-02-03 荣耀终端有限公司 一种模型训练方法及计算设备
CN115688868B (zh) * 2022-12-30 2023-10-20 荣耀终端有限公司 一种模型训练方法及计算设备

Also Published As

Publication number Publication date
CN110543645B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110543645B (zh) 机器学习模型训练方法、介质、装置和计算设备
JP7122341B2 (ja) 翻訳品質を評価するための方法と装置
CN112966712B (zh) 语言模型训练方法、装置、电子设备和计算机可读介质
CN109657251B (zh) 用于翻译语句的方法和装置
CN111046677B (zh) 一种翻译模型的获取方法、装置、设备和存储介质
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
US20220215177A1 (en) Method and system for processing sentence, and electronic device
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN113139391B (zh) 翻译模型的训练方法、装置、设备和存储介质
CN106844356B (zh) 一种基于数据选择改善英中机器翻译质量的方法
CN116127045A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN116127046A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN111563390A (zh) 文本生成方法、装置和电子设备
CN111368560A (zh) 文本翻译方法、装置、电子设备及存储介质
CN111738010A (zh) 用于生成语义匹配模型的方法和装置
CN116244416A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN113204977A (zh) 信息翻译方法、装置、设备和存储介质
CN112380876A (zh) 基于多语言机器翻译模型的翻译方法、装置、设备和介质
CN114154518A (zh) 数据增强模型训练方法、装置、电子设备及存储介质
CN110489744A (zh) 一种语料的处理方法、装置、电子设备和存储介质
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
CN116306603A (zh) 标题生成模型的训练方法和标题生成方法、装置和介质
CN114881008A (zh) 一种文本生成方法、装置、电子设备及介质
CN112820280A (zh) 规则语言模型的生成方法及装置
CN113761152A (zh) 一种问答模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant