CN115270821A - 一种机器翻译模型众包增量学习方法 - Google Patents

一种机器翻译模型众包增量学习方法 Download PDF

Info

Publication number
CN115270821A
CN115270821A CN202210648206.XA CN202210648206A CN115270821A CN 115270821 A CN115270821 A CN 115270821A CN 202210648206 A CN202210648206 A CN 202210648206A CN 115270821 A CN115270821 A CN 115270821A
Authority
CN
China
Prior art keywords
model
training
data
crowdsourcing
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210648206.XA
Other languages
English (en)
Inventor
李光华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaguyi Beijing Language Technology Co ltd
Original Assignee
Jiaguyi Beijing Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaguyi Beijing Language Technology Co ltd filed Critical Jiaguyi Beijing Language Technology Co ltd
Priority to CN202210648206.XA priority Critical patent/CN115270821A/zh
Publication of CN115270821A publication Critical patent/CN115270821A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明具体涉及一种机器翻译模型众包增量学习方法,该方法包括:提供一个有多个机器翻译模型组成的翻译模型阵列,每个翻译模型的介绍和详情;模型所有者可选是否开放众包训练,如开放众包训练,参与者上传参与共同训练的数据后,系统自动对数据进行预处理和清洗;进行数据质量打分,依据有效数据量和质量评分,计算出该批数据对模型训练的贡献值;通过前端交互模块,在参与者在确认同意该贡献值后,进入模型增量训练流程;增量训练完成后,将模型更新到机翻阵列中,同时更新模型相关信息,并继续开放,其他参与者可参与训练。本发明的方法通过多人共同训练和模型共享,可以较大幅度共享数据资源和增量训练后的模型。

Description

一种机器翻译模型众包增量学习方法
技术领域
本发明属于人工智能技术领域,具体涉及一种机器翻译模型众包增量学习方法。
背景技术
基于神经网络的机器翻译增量学习方法当前主流的技术方案有两种,一种是手工方式,即主要由负责模型训练的人员汇总专业数据,进行模型训练和质量调优。但是,由模型训练人员一对一处理,人力成本较高,流程未实现自动化。
另一种是自动提交数据,即机器自学习平台,用户可上传数据自行训练,模型和数据专人专用,无共同训练和模型共享方式,模型训练人员集中处理。由于专业领域模型训练数据较为稀缺,此种方式没有解决数据资源共享问题,而同类模型反复训练和部署,也造成一定的硬件和模型资源浪费。
神经网络机器翻译经过专业领域数据增量训练后,可在专业领域较大幅度提升翻译质量,鉴于目前业内专业领域机翻训练成本高的问题,提出一种众包模型增量学习方法。通过汇总相同领域数据,实现多人共享一个增量训练后的模型,并根据模型贡献值解决共享模型所属权问题。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种机器翻译模型众包增量学习方法,通过多人共同训练和模型共享,可以较大幅度共享数据资源和增量训练后的模型,一方面,有效缓解专业领域数据稀缺问题,另一方面,提升硬件资源和增量学习模型的利用效率。
本发明要解决的技术问题通过以下技术方案实现:
一种机器翻译模型众包增量学习方法,包括如下步骤:
步骤一:提供一个有多个机器翻译模型组成的翻译模型阵列,并提供每个翻译模型的介绍和详情,包含语言方向、训练数据量大小、是否开放众包增量学习、翻译效果测试功能;
步骤二:模型所有者可选是否开放众包增量学习,如确定不开放,则模型训练权限只属于模型所有者,不开放众包增量学习,模型所有者可自行上传数据进行增量训练;
步骤三:如模型所有者选择开放众包增量学习,参与者在模型详情页,可看到初始模型训练数据量,参与者上传参与共同训练的数据后,系统自动对数据进行预处理和清洗;
步骤四:数据清洗后,和模型历史训练数据比对,二次去重,并统计剩余的有效数据量,并进行数据质量打分,依据有效数据量和质量评分,计算出该批数据对模型训练的贡献值;
步骤五:通过前端交互模块,在参与者在确认同意该贡献值后,进入模型增量训练流程;
步骤六:增量训练完成后,将模型更新到机翻阵列中,同时更新模型相关信息,并继续开放,其他参与者可参与训练。
进一步地,上述的机器翻译模型众包增量学习方法,增量训练完成后,还包括自动质量评估。
进一步地,上述的机器翻译模型众包增量学习方法,增量训练完成后,还包括手动质量评估。
进一步地,上述手动质量评估方法为:抽取数句原文作为测试集,计算测试集译文的Bleu值,对测试集做人工质量评分。
进一步地,抽取200句原文作为测试集。
进一步地,上述步骤三的预处理和清洗为:通过编辑距离计算原文相似度,去除重复数据,同时对上传数据中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
一种机器翻译模型众包增量学习系统,使用上述机器翻译模型众包增量学习方法。
与现有技术相比,本发明的有益效果:
本发明的机器翻译模型众包增量学习方法,通过多人共同训练和模型共享,可以较大幅度共享数据资源和增量训练后的模型,一方面,有效缓解专业领域数据稀缺问题,另一方面,提升硬件资源和增量学习模型的利用效率。本发明的方法可解决翻译模型众包训练和模型所属权问题,激励相同领域数据所有者参与训练,并贡献模型训练成果。
附图说明
图1是本发明机器翻译模型众包增量学习方法的流程图。
图2是本发明机器翻译模型众包增量学习方法的使用示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
本实施例提供了一种机器翻译模型众包增量学习方法,参照附图1和附图2,该机器翻译模型众包增量学习方法包括如下步骤:
步骤一:提供一个有多个机器翻译模型组成的翻译模型阵列,并提供每个翻译模型的介绍和详情,包含语言方向、训练数据量大小、是否开放众包增量学习、翻译效果测试功能;
步骤二:模型所有者可选是否开放众包增量学习,如确定不开放,则模型训练权限只属于模型所有者,不开放众包增量学习,模型所有者可自行上传数据进行增量训练;
步骤三:如模型所有者选择开放众包增量学习,参与者在模型详情页,可看到初始模型训练数据量,参与者上传参与共同训练的数据后,系统自动对数据进行预处理和清洗,通过编辑距离计算原文相似度,去除重复数据,同时对上传数据中的原文译文计算语义相似度,去掉语义相似度较差的原文译文;
步骤四:数据清洗后,和模型历史训练数据比对,二次去重,并统计剩余的有效数据量,并进行数据质量打分,依据有效数据量和质量评分,计算出该批数据对模型训练的贡献值;
步骤五:通过前端交互模块,在参与者在确认同意该贡献值后,进入模型增量训练流程;
步骤六:增量训练完成后,进行自动质量评估;
步骤七:增量训练完成后,进行手动质量评估,抽取数句原文作为测试集,计算测试集译文的Bleu值,对测试集做人工质量评分,优选地,抽取200句原文作为测试集;
步骤八:增量训练完成后,将模型更新到机翻阵列中,同时更新模型相关信息,并继续开放,其他参与者可参与训练。
本实施例的自动质量评估、手动质量评估的顺序不做要求,即:先进行自动质量评估,再进行手动质量评估;或者,先进行手动质量评估,再进行自动质量评估。
本实施例的机器翻译模型众包增量学习方法可解决翻译模型众包训练和模型所属权问题,激励相同领域数据所有者参与训练,并贡献模型训练成果。
本实施例还提供了一种机器翻译模型众包增量学习系统,该机器翻译模型众包增量学习系统使用本实施例的机器翻译模型众包增量学习方法。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种机器翻译模型众包增量学习方法,其特征在于,包括如下步骤:
步骤一:提供一个有多个机器翻译模型组成的翻译模型阵列,并提供每个翻译模型的介绍和详情,包含语言方向、训练数据量大小、是否开放众包增量学习、翻译效果测试功能;
步骤二:模型所有者可选是否开放众包增量学习,如确定不开放,则模型训练权限只属于模型所有者,不开放众包增量学习,模型所有者可自行上传数据进行增量训练;
步骤三:如模型所有者选择开放众包增量学习,参与者在模型详情页,可看到初始模型训练数据量,参与者上传参与共同训练的数据后,系统自动对数据进行预处理和清洗;
步骤四:数据清洗后,和模型历史训练数据比对,二次去重,并统计剩余的有效数据量,并进行数据质量打分,依据有效数据量和质量评分,计算出该批数据对模型训练的贡献值;
步骤五:通过前端交互模块,在参与者在确认同意该贡献值后,进入模型增量训练流程;
步骤六:增量训练完成后,将模型更新到机翻阵列中,同时更新模型相关信息,并继续开放,其他参与者可参与训练。
2.根据权利要求1所述的机器翻译模型众包增量学习方法,其特征在于,增量训练完成后,还包括自动质量评估。
3.根据权利要求1或2所述的机器翻译模型众包增量学习方法,其特征在于,增量训练完成后,还包括手动质量评估。
4.根据权利要求3所述的机器翻译模型众包增量学习方法,其特征在于,所述手动质量评估方法为:抽取数句原文作为测试集,计算测试集译文的Bleu值,对测试集做人工质量评分。
5.根据权利要求4所述的机器翻译模型众包增量学习方法,其特征在于,抽取200句原文作为测试集。
6.根据权利要求1所述的机器翻译模型众包增量学习方法,其特征在于,所述步骤三的预处理和清洗为:通过编辑距离计算原文相似度,去除重复数据,同时对上传数据中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
7.一种机器翻译模型众包增量学习系统,其特征在于,使用权利要求1-6任一项所述机器翻译模型众包增量学习方法。
CN202210648206.XA 2022-06-08 2022-06-08 一种机器翻译模型众包增量学习方法 Pending CN115270821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210648206.XA CN115270821A (zh) 2022-06-08 2022-06-08 一种机器翻译模型众包增量学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210648206.XA CN115270821A (zh) 2022-06-08 2022-06-08 一种机器翻译模型众包增量学习方法

Publications (1)

Publication Number Publication Date
CN115270821A true CN115270821A (zh) 2022-11-01

Family

ID=83759461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210648206.XA Pending CN115270821A (zh) 2022-06-08 2022-06-08 一种机器翻译模型众包增量学习方法

Country Status (1)

Country Link
CN (1) CN115270821A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647985A (zh) * 2019-08-02 2020-01-03 杭州电子科技大学 一种基于人工智能模型库的众包数据标注方法
US20200311553A1 (en) * 2019-03-25 2020-10-01 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
CN111899023A (zh) * 2020-08-10 2020-11-06 成都理工大学 一种基于区块链的群智感知机器学习安全众包方法及系统
CN113837761A (zh) * 2021-11-26 2021-12-24 北京理工大学 一种基于区块链和可信执行环境的联邦学习方法及系统
CN114330742A (zh) * 2021-12-23 2022-04-12 中山大学 一种基于众包方式和激励机制的联邦学习系统
CN114564933A (zh) * 2022-01-12 2022-05-31 甲骨易(北京)语言科技股份有限公司 一种个性化机器翻译训练方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200311553A1 (en) * 2019-03-25 2020-10-01 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
CN110647985A (zh) * 2019-08-02 2020-01-03 杭州电子科技大学 一种基于人工智能模型库的众包数据标注方法
CN111899023A (zh) * 2020-08-10 2020-11-06 成都理工大学 一种基于区块链的群智感知机器学习安全众包方法及系统
CN113837761A (zh) * 2021-11-26 2021-12-24 北京理工大学 一种基于区块链和可信执行环境的联邦学习方法及系统
CN114330742A (zh) * 2021-12-23 2022-04-12 中山大学 一种基于众包方式和激励机制的联邦学习系统
CN114564933A (zh) * 2022-01-12 2022-05-31 甲骨易(北京)语言科技股份有限公司 一种个性化机器翻译训练方法和系统

Similar Documents

Publication Publication Date Title
Naser et al. Predicting student performance using artificial neural network: In the faculty of engineering and information technology
CN105590175A (zh) 一种基于因子分析与bp神经网络的技能人才评价方法
CN110458060A (zh) 一种基于对抗学习的车辆图像优化方法及系统
CN104063759A (zh) 一种基于b/s的电力业务应用操作考试系统
CN105931116A (zh) 基于深度学习机制的自动化信用评分系统及方法
CN111915148A (zh) 一种基于信息技术的课堂教学评价方法和系统
CN116320525B (zh) 一种基于数字孪生的教学信息处理系统及方法
CN115544873B (zh) 个性化联邦学习的训练效率与个性化效果量化评估方法
CN115810163B (zh) 一种基于ai课堂行为识别的教学评估方法和系统
CN108428061B (zh) 基于dea-ga-bp的智能评标决策系统和评标方法
CN114037569A (zh) 基于人工智能的多场景双向模拟互联网医疗客服人员的训练方法
CN108364066A (zh) 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN114820252A (zh) 一种基于大数据的教学咨询服务管理系统
CN111476352B (zh) 基于深度学习的随堂扫码评教数据有效性分析方法
CN115270821A (zh) 一种机器翻译模型众包增量学习方法
CN107220707A (zh) 基于二维数据的动态神经网络模型训练方法和装置
CN114880305B (zh) 一种基于数据中台的ai算法建模的方法及系统
Tako Model development in discrete-event simulation: Insights from six expert modelers
Ling Automatic recognition of students’ classroom behavior based on computer vision
CN115062950A (zh) 一种基于数字化智能学习培训管理系统
CN114529433A (zh) 一种基于遗传算法的智慧校园排课方法
Basbeth et al. System Dynamics Usage in The Development of Sustainable Fishermen Village A Capability Enhancement to the Policy Review and Implementation Team in Ministry of Marine Affairs and Fisheries
CN114444500A (zh) 基于表达式链表树匹配程度的数学主观题评分方法及系统
CN109119065B (zh) 用于智能语音产品的服务智商测试评分系统及方法
Liu The Application of K-Means Clustering Algorithm in the Quality Analysis of College English Teaching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination