CN116842966A - 在线翻译模型训练、翻译样本对构建及在线翻译方法 - Google Patents
在线翻译模型训练、翻译样本对构建及在线翻译方法 Download PDFInfo
- Publication number
- CN116842966A CN116842966A CN202310389460.7A CN202310389460A CN116842966A CN 116842966 A CN116842966 A CN 116842966A CN 202310389460 A CN202310389460 A CN 202310389460A CN 116842966 A CN116842966 A CN 116842966A
- Authority
- CN
- China
- Prior art keywords
- sample
- translation
- data
- sub
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 1092
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012549 training Methods 0.000 title claims abstract description 113
- 238000010276 construction Methods 0.000 title description 13
- 238000012216 screening Methods 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000014616 translation Effects 0.000 description 909
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000018109 developmental process Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013140 knowledge distillation Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 235000015243 ice cream Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000004547 Hallucinations Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供在线翻译模型训练、翻译样本对构建及在线翻译方法,在线翻译模型训练方法包括:根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果;根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及在线翻译模型训练方法。
背景技术
随着计算机技术的发展,机器翻译逐渐发展成为目前主流的翻译方法,在许多场景,如会议场景、购物场景、通讯场景等,都有着广泛的应用。机器翻译是利用计算机程序将一种自然语言的源语言转换为另一种自然语言的目标语言的过程。
目前,通常可以利用在线翻译模型实现机器翻译,然而,由于训练在线翻译模型的样本数据中,源语言和目标翻译语言的词序不同,在线翻译模型在处理相应的源语句之前就开始预测对应的翻译结果,导致在线翻译模型的翻译准确性较低,因此,亟需一种翻译准确性高的翻译方案。
发明内容
有鉴于此,本说明书实施例提供了在线翻译模型训练方法。本说明书一个或者多个实施例同时涉及一种翻译样本对构建方法,一种在线翻译方法,在线翻译模型训练装置,一种翻译样本对构建装置,一种在线翻译装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种在线翻译模型训练方法,包括:
根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
根据本说明书实施例的第二方面,提供了一种翻译样本对构建方法,包括:
根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对。
根据本说明书实施例的第三方面,提供了一种在线翻译方法,包括:
获取待翻译数据;
将待翻译数据输入在线翻译模型,获得待翻译数据对应的目标翻译数据,其中,目标翻译数据与待翻译数据中时序信息相同的子翻译数据和待翻译子数据一一对应,在线翻译模型如第一方面所提供的方法训练得到。
根据本说明书实施例的第四方面,提供了一种在线翻译模型训练方法,包括:
获取多组翻译样本对,其中,翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果基于样本子数据和预设翻译模型得到,样本子数据基于样本数据中各分词的时序信息得到;
从多组翻译样本对中提取第一翻译样本对,其中,第一翻译样本对为多组翻译样本对中的任一个;
将第一翻译样本对中的第一样本数据输入初始在线翻译模型,根据第一翻译样本对中的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;
根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多组翻译样本对中提取第一翻译样本对的步骤,直至达到预设停止条件,获得在线翻译模型。
根据本说明书实施例的第五方面,提供了一种在线翻译模型训练方法,应用于云侧设备,包括:
根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数;
向端侧设备发送在线翻译模型的模型参数。
根据本说明书实施例的第六方面,提供了一种在线翻译模型训练装置,包括:
第一提取模块,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第一输入模块,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第一筛选模块,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
第一训练模块,被配置为根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
根据本说明书实施例的第七方面,提供了一种翻译样本对构建装置,包括:
第二提取模块,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第二输入模块,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第二筛选模块,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
构建模块,被配置为根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对。
根据本说明书实施例的第八方面,提供了一种在线翻译装置,包括:
第一获取模块,被配置为获取待翻译数据;
第三输入模块,被配置为将待翻译数据输入在线翻译模型,获得待翻译数据对应的目标翻译数据,其中,目标翻译数据与待翻译数据中时序信息相同的子翻译数据和待翻译子数据一一对应,在线翻译模型如第一方面所提供的方法训练得到。
根据本说明书实施例的第九方面,提供了一种在线翻译模型训练装置,包括:
第二获取模块,被配置为获取多组翻译样本对,其中,翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果基于样本子数据和预设翻译模型得到,样本子数据基于样本数据中各分词的时序信息得到;
第三提取模块,被配置为从多组翻译样本对中提取第一翻译样本对,其中,第一翻译样本对为多组翻译样本对中的任一个;
第四输入模块,被配置为将第一翻译样本对中的第一样本数据输入初始在线翻译模型,根据第一翻译样本对中的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;
调整模块,被配置为根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多组翻译样本对中提取第一翻译样本对的步骤,直至达到预设停止条件,获得在线翻译模型。
根据本说明书实施例的第十方面,提供了一种在线翻译模型训练装置,应用于云侧设备,包括:
第四提取模块,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第五输入模块,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第三筛选模块,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
第二训练模块,被配置为根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数;
发送模块,被配置为向端侧设备发送在线翻译模型的模型参数。
根据本说明书实施例的第十一方面,提供了一种计算设备,包括:
存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面或者第四方面或者第五方面所提供方法的步骤。
根据本说明书实施例的第十二方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面或者第四方面或者第五方面所提供方法的步骤。
根据本说明书实施例的第十三方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面或者第三方面或者第四方面或者第五方面所提供方法的步骤。
本说明书一个实施例提供的在线翻译模型训练方法,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本子数据是根据样本数据中各分词的时序信息从样本数据中提取的,模拟了在线翻译基于时间进行单调翻译的特点,使得各样本子数据对应的候选翻译结果均符合样本数据的时序信息,进一步保证样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
附图说明
图1是本说明书一个实施例提供的一种在线翻译模型训练系统的架构图;
图2是本说明书一个实施例提供的第一种在线翻译模型训练方法的流程图;
图3是本说明书一个实施例提供的一种翻译样本对构建方法的流程图;
图4是本说明书一个实施例提供的一种在线翻译方法的流程图;
图5是本说明书一个实施例提供的第二种在线翻译模型训练方法的流程图;
图6是本说明书一个实施例提供的第三种在线翻译模型训练方法的流程图;
图7是本说明书一个实施例提供的一种在线翻译模型训练方法的处理过程流程图;
图8是本说明书一个实施例提供的另一种在线翻译模型训练方法的处理过程流程图;
图9是本说明书一个实施例提供的一种翻译样本对构建界面的界面示意图;
图10是本说明书一个实施例提供的第一种在线翻译模型训练装置的结构示意图;
图11是本说明书一个实施例提供的一种翻译样本对构建装置的结构示意图;
图12是本说明书一个实施例提供的一种在线翻译装置的结构示意图;
图13是本说明书一个实施例提供的第二种在线翻译模型训练装置的结构示意图;
图14是本说明书一个实施例提供的第三种在线翻译模型训练装置的结构示意图;
图15是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
集束搜索:集束搜索是一种启发式搜索算法,它通过扩展有限集合中最有希望的节点来探索图。
知识蒸馏(KD,KnowledgeDistillation):知识蒸馏是将知识从大模型转移到小模型的过程。
GPT模型:GPT(GenerativePre-trainedTransformer)模型即通用预训练语言模型,是一种利用Transformer作为特征抽取器,基于语言模型进行训练的预训练语言模型。
随着计算机技术的发展,机器翻译逐渐发展成为目前主流的翻译方法,在许多场景,如会议场景、购物场景、通讯场景等,都有着广泛的应用。机器翻译是利用计算机程序将一种自然语言的源语言转换为另一种自然语言的目标语言的过程。
目前,通常可以使用在线翻译模型实现对待翻译文本的实时翻译。在线翻译模型与离线机器翻译模型的区别在于,在线翻译模型需要在源语句完全使用之前开始生成目标翻译结果。但是,由于源语言和目标翻译语言的词序不同,导致在线翻译模型在处理相应的源语句之前就开始预测对应的翻译结果,也即遇到“幻觉问题”。
为了解决上述问题,本说明书实施例提供了一种在线翻译模型训练方法,通过序列级知识蒸馏的方法训练在线翻译模型。具体地,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
在本说明书中,提供了在线翻译模型训练方法,本说明书同时涉及一种翻译样本对构建方法,一种在线翻译方法,在线翻译模型训练装置,一种翻译样本对构建装置,一种在线翻译装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种在线翻译模型训练系统的架构图,在线翻译模型训练系统包括客户端100和服务端200;
客户端100,用于向服务端200发送多个样本数据;
服务端200,用于根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数;向端侧设备发送在线翻译模型的模型参数;向客户端100发送在线翻译模型的模型参数;
客户端100,还用于接收服务端200发送的在线翻译模型的模型参数,利用在线翻译模型的模型参数构建在线翻译模型。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
实际应用中,在线翻译模型训练系统中的客户端100可以是多个,多个客户端100之间通过服务端200可以建立通信连接,在在线翻译模型训练场景中,服务端200即用来在多个客户端100之间提供在线翻译模型训练服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在在线翻译模型训练场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流训练在线翻译模型,并将在线翻译模型的模型参数推送至其他建立通信的客户端中。其中,客户端100与服务端200之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
需要说明的是,客户端100也称为端侧设备,可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperTextMarkupLanguage5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端提供的相应服务的软件开发工具包(SDK,SoftwareDevelopmentKit),如基于实时通信(RTC,RealTimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200也称为云侧设备,可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的在线翻译模型训练方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的在线翻译模型训练方法。在其它实施例中,本说明书实施例所提供的在线翻译模型训练方法还可以由客户端与服务端共同执行。
参见图2,图2示出了本说明书一个实施例提供的第一种在线翻译模型训练方法的流程图,具体包括以下步骤:
步骤202:根据样本数据中各分词的时序信息,从样本数据中提取样本子数据。
本说明书一个或多个实施例中,为了训练获得在线翻译模型,可以根据样本数据中各分词的时序信息,从样本数据中提取样本子数据,从而模拟在线翻译过程,生成用于训练在线翻译模型的、高质量的样本翻译结果。
具体地,样本数据可以称为样本源语句,是预设翻译模型的处理对象。样本数据可以是不同形式的数据,包括但不限于样本文本、样本音频、样本图像等等。分词是指对样本数据进行拆解得到的单词或词组。时序是指时间先后顺序,对样本数据进行分词处理获得的各分词可以称为时序数据,时序数据是指按照时间顺序记录的数据列。各分词的时序信息可以表征各分词在样本数据中的先后顺序。样本子数据可以从时序数据中提取获得。
需要说明的是,若样本数据为样本音频,可以利用音频转换工具对样本音频进行转换,获得样本音频对应的样本文本。若样本数据为样本图像,可以对样本图像进行光学字符识别(OCR,OpticalCharacterRecognition),获得样本图像对应的样本文本。
实际应用中,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以根据样本数据中各分词的时序信息,直接提取样本子数据。示例性地,假设样本数据为“中国走的是一条和平发展之路”,样本数据的分词包括“中国”、“走”、“的”、“是”、“一条”、“和平”、“发展”、“之”、“路”。根据各分词的时序信息,随机选择样本子数据为“中国”。
本说明书另一种可能的实现方式中,可以根据预设分词数量和各分词的时序信息,从样本数据中提取样本子数据,也即,上述根据样本数据中各分词的时序信息,从样本数据中提取样本子数据,可以包括以下步骤:
获取样本数据和预设分词数量;
对样本数据进行分词处理,确定样本数据中的多个分词以及各分词的时序信息;
根据各分词的时序信息,从多个分词中提取预设分词数量的目标分词;
利用预设分词数量的目标分词,构建样本子数据,并更新预设分词数量。
具体地,预设分词数量为预先设置的数值,预设分词数量随着提取目标分词的次数依次递增,预设分词数量和递增值具体根据实际情况进行选择,本说明书实施例对此不作任何限定。例如预设分词数量为3,随着提取目标分词的次数依次递增1。
实际应用中,获取样本数据的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以接收用户输入的大量样本数据。本说明书另一种可能的实现方式中,可以从其他数据获取设备或者数据库中读取大量样本数据。进一步地,对样本数据进行分词处理,确定样本数据中的多个分词和各分词的时序信息的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以利用预设分词工具(如结巴分词工具)对样本数据进行分词处理,确定样本数据中的多个分词,进一步根据样本数据中各字符的时序信息,确定各分词的时序信息。本说明书另一种可能的实现方式中,可以利用预先训练的分词模型对样本数据进行分词处理,确定样本数据中的多个分词,进一步根据样本数据中各字符的时序信息,确定各分词的时序信息。
需要说明的是,利用预设分词数量的目标分词,构建样本子数据时,可以根据各分词的时序信息,构建样本子数据。进一步更新预设分词数量时,可以对预设分词数量增加1,也可以获取预先设置的更新值(如2),对预设分词数量进行更新。
示例性地,假设样本数据为“呼唤英雄已成为普遍的社会共识”,预设分词数量为3,样本数据的分词包括“呼唤”、“英雄”、“已”、“成为”、“普遍”、“的”、“社会”、“共识”。利用预设分词数量的目标分词,构建样本子数据为“呼唤英雄已”,并将预设分词数量由3更新为4。进一步根据各分词的时序信息,从多个分词中提取预设分词数量的目标分词为“呼唤”、“英雄”、“已”、“成为”。利用预设分词数量的目标分词,构建样本子数据为“呼唤英雄已成为”,并将预设分词数量由4更新为5,以此类推。
应用本说明书实施例的方案,根据各分词的时序信息,从多个分词中提取预设分词数量的目标分词,利用预设分词数量的目标分词,构建样本子数据,并更新预设分词数量,实现了模拟在线翻译在源语句完全被使用之前开始生成翻译结果的特点。
步骤204:将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标。
本说明书一个或多个实施例中,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据之后,进一步地,将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标。
具体地,预设翻译模型是指全句翻译模型,也可以称为离线教师翻译模型。全句翻译模型是指输入完整的源语句,从而生成完整的源语句对应的翻译结果的模型。全句翻译模型是机器学习模型,如长短时记忆网络(LSTM,LongShortTermMemory)或门控循环单元(GRU,GateRecurrentUnit)等。机器学习模型可以理解为经过训练的程序,可以在新数据中发现模式并进行预测。这些模型表示为一个数学函数,它以输入数据的形式接收请求,对输入数据进行预测,然后提供输出作为响应。
实际应用中,可以利用集束搜索算法,将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,也即,上述将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,可以包括以下步骤:
将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标;
根据匹配指标,从各原始词语中筛选第一数量的原始词语;
将第一数量的原始词语作为样本子数据对应的第一数量的初始翻译结果,其中,初始翻译结果和原始词语一一对应。
具体地,预设词库中包括与样本数据对应的样本翻译结果语种相同的多个原始词语,例如样本数据为英文,想要将样本数据翻译为中文的样本翻译结果,则预设词库为包括多个中文原始词语的样本词库。又如样本数据为法语,想要将样本数据翻译为英文的样本翻译结果,则预设词库为包括多个英文原始词语的样本词库。匹配指标表征原始词语与样本子数据之间的匹配程度。第一数量也称为集束搜索算法中的波束宽度,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
需要说明的是,将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标之后,一种可能的实现方式中,可以根据匹配指标大的原始词语靠前的排序规则,对各原始词语进行排序,进一步按照从前到后的筛选规则,选择前第一数量个原始词语作为第一数量的初始翻译结果。另一种可能的实现方式中,可以从匹配指标超过预设阈值的原始指标中随机选择第一数量的初始翻译结果。
示例性地,假设样本数据为“中国走的是一条和平发展之路”,样本数据的分词包括“中国”、“走”、“的”、“是”、“一条”、“和平”、“发展”、“之”、“路”,预设分词数量为4,样本子数据为“中国走的是”,第一数量为3,将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标,根据匹配指标,从多个原始词语中筛选3个原始词语,这三个原始词语分别为“Chinaisfollowing”、“chineseisfollowing”以及“Thechinafollow”,也即样本子数据对应的第一数量的初始翻译结果为“Chinaisfollowing”、“chineseisfollowing”以及“Thechinafollow”。
应用本说明书实施例的方案,将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标,根据匹配指标,从各原始词语中筛选第一数量的原始词语,将第一数量的原始词语作为样本子数据对应的第一数量的初始翻译结果,为样本翻译结果提供了多种可能性,进一步保证了初始翻译结果准确性。
本说明书一种可选的实施例中,在预设翻译模型中,可以通过特征匹配的方式确定各原始词语的匹配指标,也即,预设翻译模型包括预设编码器和预设解码器;上述将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标,可以包括以下步骤:
将样本子数据输入预设编码器中,获得样本子数据对应的样本特征;
将样本特征输入预设解码器中,在预设解码器中基于样本特征和各原始词语的词特征,确定各原始词语的匹配指标。
具体地,样本特征是一个n维的数值向量,可以表示样本子数据,样本特征具有区别性、独立性的特点。
需要说明的是,各原始词语的词特征的获取方式与样本子数据的样本特征的获取方式相同,本说明书实施例便不再进行赘述。基于样本特征和各原始词语的词特征,确定各原始词语的匹配指标的方式包括但不限于余弦距离、欧式距离,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
应用本说明书实施例的方案,将样本子数据输入预设编码器中,获得样本子数据对应的样本特征,将样本特征输入预设解码器中,在预设解码器中基于样本特征和各原始词语的词特征,确定各原始词语的匹配指标,保证了匹配指标的准确性,进一步提高了初始翻译结果的准确性。
进一步地,将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果之后,可以确定各初始翻译结果与样本数据之间的翻译指标。实际应用中,确定各初始翻译结果与样本数据之间的翻译指标的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以利用预设指标算法确定各初始翻译结果与样本数据之间翻译指标。具体地,可以通过编码器或独热(One-hot)编码的方式确定初始翻译结果的翻译特征和样本数据的数据特征,进一步利用余弦距离、欧式距离等预设指标算法,对翻译特征和数据特征进行处理,获得各初始翻译结果与样本数据之间的翻译指标。
本说明书另一种可能的实现方式中,可以利用预设翻译模型确定各初始翻译结果与样本数据之间的翻译指标,也即,上述确定各初始翻译结果与样本数据之间的翻译指标,可以包括以下步骤:
针对第一初始翻译结果,将第一初始翻译结果和样本数据输入预设翻译模型,获得第一初始翻译结果与样本数据之间的翻译指标,其中,第一初始翻译结果为第一数量的初始翻译结果中的任一个。
需要说明的是,翻译指标用于表征初始翻译结果与样本数据之间的相似程度。在预设翻译模型中,可以以样本数据为条件,计算各初始翻译结果的对数似然,获得各初始翻译结果与样本数据之间的翻译指标。
应用本说明书实施例的方案,将第一初始翻译结果和样本数据输入预设翻译模型,获得第一初始翻译结果与样本数据之间的翻译指标,保证了翻译指标的准确性,进一步提高了第二数量的候选翻译结果与样本子数据之间的关联度。
步骤206:根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。
本说明书一个或多个实施例中,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标之后,进一步地,可以根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果。
具体地,第二数量是指基于翻译指标修改后的波束宽度,第二数量小于等于第一数量。候选翻译结果为第一数量的初始翻译结果中符合翻译指标筛选条件的初始翻译结果。
示例性地,假设样本数据为“我喜欢绿色”,第一数量为3,第二数量为2,预设分词数量为1。则根据样本数据中各分词的时序信息,从样本数据中提取样本子数据为“我”。将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标,根据匹配指标,样本子数据对应的第一数量的初始翻译结果为“I”、“me”以及“my”。确定“I”与样本数据之间的翻译指标为0.8,“me”与样本数据之间的翻译指标为0.6,“my”与样本数据之间的翻译指标为0.4。根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果为“I”和“me”。此时,返回根据样本数据中各分词的时序信息,从样本数据中提取样本子数据为“我喜欢”,以相同的方式确定样本子数据对应的第一数量的初始翻译结果“Ilike”、“Ilove”和“Ienjoy”,并从第一数量的初始翻译结果中筛选第二数量的候选翻译结果为“Ilike”和“Ilove”。此时,返回根据样本数据中各分词的时序信息,从样本数据中提取样本子数据为“我喜欢绿色”,以相同的方式确定样本子数据对应的第一数量的初始翻译结果“Ilikegreen”、“Ilovegreen”和“Ilovegrassland”,并从第一数量的初始翻译结果中筛选第二数量的候选翻译结果为“Ilikegreen”和“Ilovegreen”。此时,由于样本子数据与样本数据相同,因此可以从第二数量的候选翻译结果中根据翻译指标选择“Ilikegreen”作为样本数据“我喜欢绿色”的样本翻译结果。以同样的方法可以确定样本数据“中国走的是一条和平发展之路”的样本翻译结果为“Chinaisfollowingapathofpeacefuldevelopment”;样本数据“呼唤英雄,已成为普遍的社会共识”的样本翻译结果为“callingforheroeshasbecomeauniversalsocialconsensus”。
实际应用中,根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以获取预设翻译指标,对比预设翻译指标和各初始翻译结果对应的翻译指标,从翻译指标符合预设翻译指标的各初始翻译结果中,随机选择第二数量的初始翻译结果作为候选翻译结果。
本说明书另一种可能的实现方式中,可以对各初始翻译结果对应的翻译指标进行排序,根据排序结果确定第二数量的候选翻译结果,也即,上述根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,可以包括以下步骤:
根据各初始翻译结果对应的翻译指标,对第一数量的初始翻译结果进行排序;
从排序后的第一数量的初始翻译结果中筛选第二数量的候选翻译结果。
需要说明的是,根据各初始翻译结果对应的翻译指标,对第一数量的初始翻译结果进行排序时,可以根据翻译指标从大到小或者从小到大的顺序对第一数量的初始翻译结果进行排序。进一步地,从排序后的第一数量的初始翻译结果中筛选第二数量的候选翻译结果时,可以选择翻译指标较大的前第二数量个初始翻译结果作为候选翻译结果。
应用本说明书实施例的方案,根据各初始翻译结果对应的翻译指标,对第一数量的初始翻译结果进行排序,从排序后的第一数量的初始翻译结果中筛选第二数量的候选翻译结果,保证了候选翻译结果的准确性。
步骤208:根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
本说明书一个或多个实施例中,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据,将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标,根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果之后,进一步地,可以根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
具体地,在线翻译模型可以称为实时机器翻译模型(SiMT,SimultaneousMachineTranslation)。在线翻译是在源语句完全被使用之前开始生成目标语言的翻译语句的翻译方式,也即先读到的源语言先翻译,又可称为实时机器翻译、即时翻译、同步翻译、单调翻译等。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
本说明书一种可选的实施例中,上述根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,可以包括以下步骤:
从多个样本数据中提取第一样本数据,其中,第一样本数据为多个样本数据中的任一个;
将第一样本数据输入初始在线翻译模型,根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;
根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多个样本数据中提取第一样本数据的步骤,直至达到预设停止条件,获得在线翻译模型。
具体地,初始在线翻译模型是指未经训练的,精准度较差的实时机器翻译模型,包括但不限于GPT模型、seq-seq(SequencetoSequence)模型。第一预测结果是指初始在线翻译模型对第一样本数据进行处理,预测得到的翻译数据。
本说明书一种可能的实现方式中,预设停止条件包括总损失值小于或等于预设阈值。根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值之后,将总损失值与预设阈值进行比较。
具体地,若总损失值大于预设阈值,则说明第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果之间的差异较大,初始在线翻译模型对于第一样本数据的翻译预测能力较差,此时可以调整初始在线翻译模型的模型参数,并返回执行从多个样本数据中提取第一样本数据的步骤,继续对初始在线翻译模型进行训练,直至总损失值小于或等于预设阈值,说明第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果的差异较小,达到预设停止条件,获得完成训练的在线翻译模型。
本说明书另一种可能的实现方式中,除了比较总损失值和预设阈值的大小关系之外,还可以结合迭代次数,确定当前的初始在线翻译模型是否训练完成。
具体地,若总损失值大于预设阈值,则调整初始在线翻译模型的模型参数,并返回执行从多个样本数据中提取第一样本数据的步骤,继续对初始在线翻译模型进行训练,直至达到预设迭代次数的情况下,停止迭代,得到完成训练的在线翻译模型,其中,预设阈值和预设迭代次数具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
实际应用中,计算总损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
应用本说明书实施例的方案,将第一样本数据输入初始在线翻译模型,根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;将总损失值与预设停止条件进行比较,在不满足预设停止条件的情况下,继续训练初始在线翻译模型,直至达到预设停止条件完成训练,通过不断对初始在线翻译模型的模型参数进行调整,能使最终得到的在线翻译模型更加精准。
实际应用中,将第一样本数据输入初始在线翻译模型,根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以将多个样本数据输入初始在线翻译模型,在初始在线翻译模型内部,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据,进一步以迭代的方式确定各样本子数据对应的预测结果,利用各预测结果和样本数据对应的样本翻译结果对初始在线翻译模型进行训练。
本说明书另一种可能的实现方式中,可以先根据样本数据中各分词的时序信息,从样本数据中提取样本子数据,再将样本子数据输入初始在线翻译模型中,计算总损失值,也即,上述将第一样本数据输入初始在线翻译模型,根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值,可以包括以下步骤:
根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据;
将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果;
获取第一样本子数据在第一样本数据中的时序信息;
根据时序信息,从第一样本翻译结果中提取第一样本子数据对应的第一样本子翻译结果;
根据第一预测子结果和第一样本子翻译结果,计算损失值,并返回执行根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据的步骤,直至第一样本子数据与第一样本数据相同,获得各第一预测子结果对应的损失值;
根据各第一预测子结果对应的损失值,计算总损失值。
需要说明的是,“根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据”的实现方式与上述步骤202的实现方式相同,本说明书实施例便不再进行赘述。获取第一样本子数据在第一样本数据中的时序信息时,可以根据第一样本数据中各分词的时序信息确定第一样本子数据的时序信息。进一步地,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,因此,可以通过第一样本子数据在第一样本数据中的时序信息,从第一样本翻译结果中提取第一样本子数据对应的第一样本子翻译结果。
示例性地,假设第一样本数据为“我喜欢绿色”,第一样本翻译结果为“Ilikegreen”。根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据“我”,将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果“结果A”,获取第一样本子数据“我”在第一样本数据中的时序信息为“100”,其中,1表示第一样本子数据在第一样本数据中的位置,0表示第一样本数据中其他子数据;根据时序信息,从第一样本翻译结果中“Ilikegreen”提取第一样本子数据“我”对应的第一样本子翻译结果“I”,根据“结果A”和“I”计算第一损失值。此时,由于第一样本子数据与第一样本数据不同,则返回从第一样本数据中提取第一样本子数据“我喜欢”,将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果“结果B”,获取第一样本子数据“我喜欢”在第一样本数据中的时序信息为“110”,其中,1表示第一样本子数据在第一样本数据中的位置,0表示第一样本数据中其他子数据;根据时序信息,从第一样本翻译结果中“Ilikegreen”提取第一样本子数据“我喜欢”对应的第一样本子翻译结果“Ilike”,根据“结果B”和“Ilike”计算第二损失值。此时,由于第一样本子数据与第一样本数据不同,则返回从第一样本数据中提取第一样本子数据“我喜欢绿色”,将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果“结果C”,获取第一样本子数据“我喜欢绿色”在第一样本数据中的时序信息为“111”,其中,1表示第一样本子数据在第一样本数据中的位置;根据时序信息,从第一样本翻译结果中“Ilikegreen”提取第一样本子数据“我喜欢绿色”对应的第一样本子翻译结果“Ilikegreen”,根据“结果C”和“Ilikegreen”计算第三损失值。此时,由于第一样本子数据和与第一样本数据相同,则合并第一损失值、第二损失值和第三损失值,确定总损失值。
应用本说明书实施例的方案,通过迭代的方式根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据,模拟在线翻译过程,并且根据各第一预测子结果对应的损失值,计算总损失值,提高了模型参数调整的准确性,进一步保证了在线翻译模型的准确性。
参见图3,图3示出了本说明书一个实施例提供的一种翻译样本对构建方法的流程图,具体包括以下步骤:
步骤302:根据样本数据中各分词的时序信息,从样本数据中提取样本子数据。
步骤304:将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标。
步骤306:根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。
步骤308:根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对。
需要说明的是,步骤302、步骤304、步骤306的实现方式与上述步骤202、步骤204、步骤206的实现方式相同,本说明书实施例便不再进行赘述。
实际应用中,根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可能的实现方式中,可以以“样本数据—样本翻译结果”的形式拼接样本数据和样本数据对应的样本翻译结果,获得翻译样本对。示例性地,假设样本数据为“哪些是当今世界最突出和最引人注目的成果”,样本数据对应的样本翻译结果为“whatarethe world'stopandmostimpressiveachievements”,则翻译样本对为“哪些是当今世界最突出和最引人注目的成果—whataretheworld'stopandmostimpressiveachievements”。
本说明书另一种可能的实现方式中,可以分别对样本数据和样本翻译结果进行分词处理,获得样本数据中的样本子数据、样本翻译结果中的样本子翻译结果。进一步根据样本数据和样本翻译数据的时序信息,拼接各样本子数据和各样本子翻译结果,获得翻译样本对。示例性地,假设样本数据为“哪些是当今世界最突出和最引人注目的成果”,样本数据对应的样本翻译结果为“whataretheworld'stopandmostimpressiveachievements”,则翻译样本对为“哪些(what)是(are)当今世界(world's)最突出(top)和(and)最引人注目的(mostimpressive)成果(achievements)”。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了翻译样本对的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得后续训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
参见图4,图4示出了本说明书一个实施例提供的一种在线翻译方法的流程图,具体包括以下步骤:
步骤402:获取待翻译数据。
步骤404:将待翻译数据输入在线翻译模型,获得待翻译数据对应的目标翻译数据,其中,目标翻译数据与待翻译数据中时序信息相同的子翻译数据和待翻译子数据一一对应。
需要说明的是,在线翻译模型如上述在线翻译模型训练方法训练得到。待翻译数据可以是不同形式的数据,包括但不限于待翻译文本、待翻译音频、待翻译图像等等。若待翻译数据为待翻译音频,可以利用音频转换工具对待翻译音频进行转换,获得待翻译音频对应的待翻译文本。若待翻译数据为待翻译图像,可以对待翻译图像进行光学字符识别,获得待翻译图像对应的待翻译文本。
实际应用中,获取待翻译数据的方式与获取样本数据的方式相同,本说明书实施例便不再进行赘述。
示例性地,在在线翻译场景中,假设用户输入的待翻译语音1为“我”,则目标翻译数据1为“I”;假设用户输入的待翻译语音2为“喜欢”,则目标翻译数据2为“like”;假设用户输入的待翻译语音3为“吃”,则目标翻译数据3为“eat”;假设用户输入的待翻译语音4为“冰淇淋”,则目标翻译数据4为“icecream”。因此,根据各目标翻译数据的时序信息,可以确定待翻译语音“我喜欢吃冰淇淋”对应的目标翻译数据为“Ilikeeaticecream”。
应用本说明书实施例的方案,获取待翻译数据,将待翻译数据输入在线翻译模型,获得待翻译数据对应的目标翻译数据,由于在线翻译模型是基于高质量的样本数据和样本翻译结果训练得到的,且样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,因此,在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,利用在线翻译模型可以提高目标翻译数据的准确性。
参见图5,图5示出了本说明书一个实施例提供的第二种在线翻译模型训练方法的流程图,具体包括以下步骤:
步骤502:获取多组翻译样本对,其中,翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果基于样本子数据和预设翻译模型得到,样本子数据基于样本数据中各分词的时序信息得到,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。
步骤504:从多组翻译样本对中提取第一翻译样本对,其中,第一翻译样本对为多组翻译样本对中的任一个。
步骤506:将第一翻译样本对中的第一样本数据输入初始在线翻译模型,根据第一翻译样本对中的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值。
步骤508:根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多组翻译样本对中提取第一翻译样本对的步骤,直至达到预设停止条件,获得在线翻译模型。
需要说明的是,步骤504、步骤506、步骤508的实现方式与上述在线翻译模型训练方法相同,本说明书实施例便不再进行赘述。
实际应用中,获取多组翻译样本对的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以从其他数据获取设备或者数据库中读取大量翻译样本对,其中,翻译样本对中的样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。本说明书另一种可能的实现方式中,可以获取多个样本数据,利用图3所示的翻译样本对构建方法构建多组翻译样本对。
应用本说明书实施例的方案,由于翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
参见图6,图6示出了本说明书一个实施例提供的第三种在线翻译模型训练方法的流程图,该在线翻译模型训练方法应用于云侧设备,具体包括以下步骤:
步骤602:根据样本数据中各分词的时序信息,从样本数据中提取样本子数据。
步骤604:将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标。
步骤606:根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。
步骤608:根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数。
步骤610:向端侧设备发送在线翻译模型的模型参数。
需要说明的是,步骤602-步骤608的实现方式与上述步骤202-步骤208的实现方式相同,本说明书实施例便不再进行赘述。
实际应用中,云侧设备向端侧设备发送在线翻译模型的模型参数之后,端侧设备可以根据在线翻译模型的模型参数在本地构建在线翻译模型,进一步利用在线翻译模型处理在线翻译任务。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
下述结合附图7,以本说明书提供的在线翻译模型训练方法在会议场景的应用为例,对所述在线翻译模型训练方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种在线翻译模型训练方法的处理过程流程图,具体包括以下步骤:
步骤702:根据样本数据中各分词的时序信息,从样本数据中提取样本子数据。
步骤704:将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标。
步骤706:根据匹配指标,从各原始词语中筛选第一数量的原始词语。
步骤708:将第一数量的原始词语作为样本子数据对应的第一数量的初始翻译结果,其中,初始翻译结果和原始词语一一对应。
步骤710:针对第一初始翻译结果,将第一初始翻译结果和样本数据输入预设翻译模型,获得第一初始翻译结果与样本数据之间的翻译指标。
步骤712:根据各初始翻译结果对应的翻译指标,对第一数量的初始翻译结果进行排序。
步骤714:从排序后的第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应。
步骤716:从多个样本数据中提取第一样本数据。
步骤718:根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据。
步骤720:将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果。
步骤722:获取第一样本子数据在第一样本数据中的时序信息。
步骤724:根据时序信息,从第一样本翻译结果中提取第一样本子数据对应的第一样本子翻译结果。
步骤726:根据第一预测子结果和第一样本子翻译结果,计算损失值,并返回执行根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据的步骤,直至第一样本子数据与第一样本数据相同,获得各第一预测子结果对应的损失值。
步骤728:根据各第一预测子结果对应的损失值,计算总损失值。
步骤730:根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多个样本数据中提取第一样本数据的步骤,直至达到预设停止条件,获得在线翻译模型。
需要说明的是,步骤702-步骤730的实现方式与上述图2所提供的在线翻译模型训练方法的实现方式相同,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
参见图8,图8示出了本说明书一个实施例提供的另一种在线翻译模型训练方法的处理过程流程图。本说明书实施例提供了一种基于两阶段集束搜索算法生成单调且准确的翻译数据的方案,可以分为以下两个阶段:
第一阶段:样本数据的流式样本子数据被输入预设翻译模型中,生成样本子数据对应的第一数量的初始翻译结果(部分翻译)。由于在线翻译模型具有即时翻译的特点,因此这个阶段模拟源端的递增输入,确保解码基于局部信息(样本子数据),从而增加单调性并减少提前预测。此外,每个解码步骤的样本子数据的长度可以通过预设分词数量来调整。
第二阶段:将完整的样本数据和第一阶段的部分翻译再次输入预设翻译模型,重新计算以完整样本数据为条件的每个部分翻译的对数似然,并对部分翻译重新排序。通过引入第二阶段的全句重打分机制,应用知识蒸馏进行实时翻译模型的训练,在保证单调性的同时显著提高了样本数据对应的样本翻译结果的质量,使得伪数据(翻译样本对)在双语评估替补(BLEU,BilingualEvaluationUnderstudy)指标上更加优秀。
如图8所示,假设预设分词数量为3,第一数量为4,第二数量为3。从样本数据中根据预设分词数量迭代提取样本子数据时,在第一个解码步中,确定第二数量的候选翻译结果为“A”、“B”、“C”。在第二个解码步中,预设分词数量为4,确定第二数量的候选翻译结果为“AB”、“AC”、“AD”。在第三个解码步中,预设分词数量为5,利用将样本数据中的前5个分词构建样本子数据,将样本子数据输入预设翻译模型中的预设编码器和预设解码器,获得样本子数据对应的第一数量的初始翻译结果为“ABE”、“ADF”、“ADG”、“ACE”。将各初始翻译结果和样本数据输入预设翻译模型,获得各初始翻译结果与样本数据之间的翻译指标,根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果为“ADF”、“ABE”、“ACE”,以此类推,确定样本数据对应的样本翻译结果。
参见图9,图9示出了本说明书一个实施例提供的一种翻译样本对构建界面的界面示意图。翻译样本对构建界面分为样本数据输入界面和翻译样本对展示界面。样本数据输入界面包括样本数据输入框、“确定”控件以及“取消”控件。翻译样本对展示界面中包括翻译样本对展示框。用户通过客户端显示的样本数据输入框输入样本数据“哪些是当今世界最突出和最引人注目的成果”,点选“确定”控件,服务端接收客户端发送的样本数据,根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果“whatare theworld'stopandmostimpressiveachievements”,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对;将翻译样本对发送至客户端,以使客户端在翻译样本对展示框中显示翻译样本对“哪些是当今世界最突出和最引人注目的成果-what aretheworld'stopandmostimpressiveachievements”。
实际应用中,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
与上述方法实施例相对应,本说明书还提供了在线翻译模型训练装置实施例,图10示出了本说明书一个实施例提供的第一种在线翻译模型训练装置的结构示意图。如图10所示,该装置包括:
第一提取模块1002,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第一输入模块1004,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第一筛选模块1006,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
第一训练模块1008,被配置为根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
可选地,第一提取模块1002,进一步被配置为获取样本数据和预设分词数量;对样本数据进行分词处理,确定样本数据中的多个分词以及各分词的时序信息;根据各分词的时序信息,从多个分词中提取预设分词数量的目标分词;利用预设分词数量的目标分词,构建样本子数据,并更新预设分词数量。
可选地,第一输入模块1004,进一步被配置为将样本子数据输入预设翻译模型,在预设翻译模型中基于样本子数据,确定预设词库中各原始词语的匹配指标;根据匹配指标,从各始词语中筛选第一数量的原始词语;将第一数量的原始词语作为样本子数据对应的第一数量的初始翻译结果,其中,初始翻译结果和原始词语一一对应。
可选地,预设翻译模型包括预设编码器和预设解码器;第一输入模块1004,进一步被配置为将样本子数据输入预设编码器中,获得样本子数据对应的样本特征;将样本特征输入预设解码器中,在预设解码器中基于样本特征和各原始词语的词特征,确定各原始词语的匹配指标。
可选地,第一输入模块1004,进一步被配置为针对第一初始翻译结果,将第一初始翻译结果和样本数据输入预设翻译模型,获得第一初始翻译结果与样本数据之间的翻译指标,其中,第一初始翻译结果为第一数量的初始翻译结果中的任一个。
可选地,第一筛选模块1006,进一步被配置为根据各初始翻译结果对应的翻译指标,对第一数量的初始翻译结果进行排序;从排序后的第一数量的初始翻译结果中筛选第二数量的候选翻译结果。
可选地,第一训练模块1008,进一步被配置为从多个样本数据中提取第一样本数据,其中,第一样本数据为多个样本数据中的任一个;将第一样本数据输入初始在线翻译模型,根据第一样本数据对应的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多个样本数据中提取第一样本数据的步骤,直至达到预设停止条件,获得在线翻译模型。
可选地,第一训练模块1008,进一步被配置为根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据;将第一样本子数据输入初始在线翻译模型,获得第一样本子数据对应的第一预测子结果;获取第一样本子数据在第一样本数据中的时序信息;根据时序信息,从第一样本翻译结果中提取第一样本子数据对应的第一样本子翻译结果;根据第一预测子结果和第一样本子翻译结果,计算损失值,并返回执行根据第一样本数据中各分词的时序信息,从第一样本数据中提取第一样本子数据的步骤,直至第一样本子数据与第一样本数据相同,获得各第一预测子结果对应的损失值;根据各第一预测子结果对应的损失值,计算总损失值。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
上述为本实施例的一种在线翻译模型训练装置的示意性方案。需要说明的是,该在线翻译模型训练装置的技术方案与上述的在线翻译模型训练方法的技术方案属于同一构思,在线翻译模型训练装置的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了翻译样本对构建装置实施例,图11示出了本说明书一个实施例提供的一种翻译样本对构建装置的结构示意图。如图11所示,该装置包括:
第二提取模块1102,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第二输入模块1104,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第二筛选模块1106,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
构建模块1108,被配置为根据样本数据和样本数据对应的样本翻译结果,构建翻译样本对。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了翻译样本对的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得后续训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
上述为本实施例的一种翻译样本对构建装置的示意性方案。需要说明的是,该翻译样本对构建装置的技术方案与上述的翻译样本对构建方法的技术方案属于同一构思,翻译样本对构建装置的技术方案未详细描述的细节内容,均可以参见上述翻译样本对构建方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了在线翻译装置实施例,图12示出了本说明书一个实施例提供的一种在线翻译装置的结构示意图。如图12所示,该装置包括:
第一获取模块1202,被配置为获取待翻译数据;
第三输入模块1204,被配置为将待翻译数据输入在线翻译模型,获得待翻译数据对应的目标翻译数据,其中,目标翻译数据与待翻译数据中时序信息相同的子翻译数据和待翻译子数据一一对应,在线翻译模型如上述在线翻译模型训练方法训练得到。
应用本说明书实施例的方案,由于在线翻译模型是基于高质量的样本数据和样本翻译结果训练得到的,且样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,因此,在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,利用在线翻译模型可以提高目标翻译数据的准确性。
上述为本实施例的一种在线翻译装置的示意性方案。需要说明的是,该在线翻译装置的技术方案与上述的在线翻译方法的技术方案属于同一构思,在线翻译装置的技术方案未详细描述的细节内容,均可以参见上述在线翻译方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了在线翻译模型训练装置实施例,图13示出了本说明书一个实施例提供的第二种在线翻译模型训练装置的结构示意图。如图13所示,该装置包括:
第二获取模块1302,被配置为获取多组翻译样本对,其中,翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果基于样本子数据和预设翻译模型得到,样本子数据基于样本数据中各分词的时序信息得到,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
第三提取模块1304,被配置为从多组翻译样本对中提取第一翻译样本对,其中,第一翻译样本对为多组翻译样本对中的任一个;
第四输入模块1306,被配置为将第一翻译样本对中的第一样本数据输入初始在线翻译模型,根据第一翻译样本对中的第一样本翻译结果和初始在线翻译模型输出的第一预测结果,计算总损失值;
调整模块1308,被配置为根据总损失值调整初始在线翻译模型的模型参数,并返回执行从多组翻译样本对中提取第一翻译样本对的步骤,直至达到预设停止条件,获得在线翻译模型。
应用本说明书实施例的方案,由于翻译样本对包括样本数据和样本数据对应的样本翻译结果,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
上述为本实施例的一种在线翻译模型训练装置的示意性方案。需要说明的是,该在线翻译模型训练装置的技术方案与上述的在线翻译模型训练方法的技术方案属于同一构思,在线翻译模型训练装置的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了应用于云侧设备的在线翻译模型训练装置实施例,图14示出了本说明书一个实施例提供的第三种在线翻译模型训练装置的结构示意图。如图14所示,该装置包括:
第四提取模块1402,被配置为根据样本数据中各分词的时序信息,从样本数据中提取样本子数据;
第五输入模块1404,被配置为将样本子数据输入预设翻译模型,获得样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与样本数据之间的翻译指标;
第三筛选模块1406,被配置为根据各初始翻译结果对应的翻译指标,从第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行根据样本数据中各分词的时序信息,从样本数据中提取样本子数据的步骤,直至样本子数据与样本数据相同,基于各样本子数据对应的候选翻译结果获得样本数据对应的样本翻译结果,其中,样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
第二训练模块1408,被配置为根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数;
发送模块1410,被配置为向端侧设备发送在线翻译模型的模型参数。
应用本说明书实施例的方案,通过根据各初始翻译结果对应的翻译指标,筛选第二数量的候选翻译结果,提高了样本数据对应的样本翻译结果的质量,并且,由于样本翻译结果与样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应,使得训练的在线翻译模型能够解决因源语言和目标语言词序不同引起的幻觉问题,提高了在线翻译模型的准确性。
上述为本实施例的一种在线翻译模型训练装置的示意性方案。需要说明的是,该在线翻译模型训练装置的技术方案与上述的在线翻译模型训练方法的技术方案属于同一构思,在线翻译模型训练装置的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法的技术方案的描述。
图15示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1500的部件包括但不限于存储器1510和处理器1520。处理器1520与存储器1510通过总线1530相连接,数据库1550用于保存数据。
计算设备1500还包括接入设备1540,接入设备1540使得计算设备1500能够经由一个或多个网络1560通信。这些网络的示例包括公用交换电话网(PSTN,PublicSwitchedTelephoneNetwork)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备1540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterfaceCard))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,WorldInteroperabilityforMicrowaveAccess)接口、以太网接口、通用串行总线(USB,UniversalSerialBus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearFieldCommunication)接口,等等。
在本说明书的一个实施例中,计算设备1500的上述部件以及图15中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图15所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,PersonalComputer)的静止计算设备。计算设备1500还可以是移动式或静止式的服务器。
其中,处理器1520用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的在线翻译模型训练方法、翻译样本对构建方法和在线翻译方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的在线翻译模型训练方法、翻译样本对构建方法和在线翻译方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的在线翻译模型训练方法、翻译样本对构建方法和在线翻译方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述在线翻译模型训练方法或者翻译样本对构建方法或者在线翻译方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种在线翻译模型训练方法,包括:
根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据;
将所述样本子数据输入预设翻译模型,获得所述样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与所述样本数据之间的翻译指标;
根据所述各初始翻译结果对应的翻译指标,从所述第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行所述根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据的步骤,直至所述样本子数据与所述样本数据相同,基于各样本子数据对应的候选翻译结果获得所述样本数据对应的样本翻译结果,其中,所述样本翻译结果与所述样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型。
2.根据权利要求1所述的方法,所述根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据,包括:
获取样本数据和预设分词数量;
对所述样本数据进行分词处理,确定所述样本数据中的多个分词以及各分词的时序信息;
根据所述各分词的时序信息,从所述多个分词中提取预设分词数量的目标分词;
利用所述预设分词数量的目标分词,构建样本子数据,并更新所述预设分词数量。
3.根据权利要求1所述的方法,所述将所述样本子数据输入预设翻译模型,获得所述样本子数据对应的第一数量的初始翻译结果,包括:
将所述样本子数据输入预设翻译模型,在所述预设翻译模型中基于所述样本子数据,确定预设词库中各原始词语的匹配指标;
根据所述匹配指标,从所述各原始词语中筛选第一数量的原始词语;
将所述第一数量的原始词语作为所述样本子数据对应的第一数量的初始翻译结果,其中,所述初始翻译结果和所述原始词语一一对应。
4.根据权利要求3所述的方法,所述预设翻译模型包括预设编码器和预设解码器;
所述将所述样本子数据输入预设翻译模型,在所述预设翻译模型中基于所述样本子数据,确定预设词库中各原始词语的匹配指标,包括:
将所述样本子数据输入所述预设编码器中,获得所述样本子数据对应的样本特征;
将所述样本特征输入所述预设解码器中,在所述预设解码器中基于所述样本特征和所述各原始词语的词特征,确定各原始词语的匹配指标。
5.根据权利要求1所述的方法,所述确定各初始翻译结果与所述样本数据之间的翻译指标,包括:
针对第一初始翻译结果,将所述第一初始翻译结果和所述样本数据输入所述预设翻译模型,获得所述第一初始翻译结果与所述样本数据之间的翻译指标,其中,所述第一初始翻译结果为所述第一数量的初始翻译结果中的任一个。
6.根据权利要求1所述的方法,所述根据所述各初始翻译结果对应的翻译指标,从所述第一数量的初始翻译结果中筛选第二数量的候选翻译结果,包括:
根据所述各初始翻译结果对应的翻译指标,对所述第一数量的初始翻译结果进行排序;
从排序后的所述第一数量的初始翻译结果中筛选第二数量的候选翻译结果。
7.根据权利要求1所述的方法,所述根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,包括:
从所述多个样本数据中提取第一样本数据,其中,所述第一样本数据为所述多个样本数据中的任一个;
将所述第一样本数据输入初始在线翻译模型,根据所述第一样本数据对应的第一样本翻译结果和所述初始在线翻译模型输出的第一预测结果,计算总损失值;
根据所述总损失值调整所述初始在线翻译模型的模型参数,并返回执行所述从所述多个样本数据中提取第一样本数据的步骤,直至达到预设停止条件,获得在线翻译模型。
8.根据权利要求7所述的方法,所述将所述第一样本数据输入初始在线翻译模型,根据所述第一样本数据对应的第一样本翻译结果和所述初始在线翻译模型输出的第一预测结果,计算总损失值,包括:
根据第一样本数据中各分词的时序信息,从所述第一样本数据中提取第一样本子数据;
将所述第一样本子数据输入初始在线翻译模型,获得所述第一样本子数据对应的第一预测子结果;
获取所述第一样本子数据在所述第一样本数据中的时序信息;
根据所述时序信息,从所述第一样本翻译结果中提取所述第一样本子数据对应的第一样本子翻译结果;
根据所述第一预测子结果和所述第一样本子翻译结果,计算损失值,并返回执行所述根据第一样本数据中各分词的时序信息,从所述第一样本数据中提取第一样本子数据的步骤,直至所述第一样本子数据与所述第一样本数据相同,获得各第一预测子结果对应的损失值;
根据所述各第一预测子结果对应的损失值,计算总损失值。
9.一种翻译样本对构建方法,包括:
根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据;
将所述样本子数据输入预设翻译模型,获得所述样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与所述样本数据之间的翻译指标;
根据所述各初始翻译结果对应的翻译指标,从所述第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行所述根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据的步骤,直至所述样本子数据与所述样本数据相同,基于各样本子数据对应的候选翻译结果获得所述样本数据对应的样本翻译结果,其中,所述样本翻译结果与所述样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据所述样本数据和所述样本数据对应的样本翻译结果,构建翻译样本对。
10.一种在线翻译方法,包括:
获取待翻译数据;
将所述待翻译数据输入在线翻译模型,获得所述待翻译数据对应的目标翻译数据,其中,所述目标翻译数据与所述待翻译数据中时序信息相同的子翻译数据和待翻译子数据一一对应,所述在线翻译模型如权利要求1-8任一项所述方法训练得到。
11.一种在线翻译模型训练方法,包括:
获取多组翻译样本对,其中,所述翻译样本对包括样本数据和所述样本数据对应的样本翻译结果,所述样本翻译结果基于样本子数据和预设翻译模型得到,所述样本子数据基于所述样本数据中各分词的时序信息得到,所述样本翻译结果与所述样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
从所述多组翻译样本对中提取第一翻译样本对,其中,所述第一翻译样本对为所述多组翻译样本对中的任一个;
将所述第一翻译样本对中的第一样本数据输入初始在线翻译模型,根据所述第一翻译样本对中的第一样本翻译结果和所述初始在线翻译模型输出的第一预测结果,计算总损失值;
根据所述总损失值调整所述初始在线翻译模型的模型参数,并返回执行所述从所述多组翻译样本对中提取第一翻译样本对的步骤,直至达到预设停止条件,获得在线翻译模型。
12.一种在线翻译模型训练方法,应用于云侧设备,包括:
根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据;
将所述样本子数据输入预设翻译模型,获得所述样本子数据对应的第一数量的初始翻译结果,并确定各初始翻译结果与所述样本数据之间的翻译指标;
根据所述各初始翻译结果对应的翻译指标,从所述第一数量的初始翻译结果中筛选第二数量的候选翻译结果,并返回执行所述根据样本数据中各分词的时序信息,从所述样本数据中提取样本子数据的步骤,直至所述样本子数据与所述样本数据相同,基于各样本子数据对应的候选翻译结果获得所述样本数据对应的样本翻译结果,其中,所述样本翻译结果与所述样本数据中时序信息相同的样本子翻译结果和样本子数据一一对应;
根据多个样本数据和各样本数据对应的样本翻译结果,训练在线翻译模型,获得在线翻译模型的模型参数;
向端侧设备发送所述在线翻译模型的模型参数。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项或者权利要求9或者权利要求10或者权利要求11或者权利要求12所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项或者权利要求9或者权利要求10或者权利要求11或者权利要求12所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389460.7A CN116842966A (zh) | 2023-04-11 | 2023-04-11 | 在线翻译模型训练、翻译样本对构建及在线翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389460.7A CN116842966A (zh) | 2023-04-11 | 2023-04-11 | 在线翻译模型训练、翻译样本对构建及在线翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842966A true CN116842966A (zh) | 2023-10-03 |
Family
ID=88171332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389460.7A Pending CN116842966A (zh) | 2023-04-11 | 2023-04-11 | 在线翻译模型训练、翻译样本对构建及在线翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842966A (zh) |
-
2023
- 2023-04-11 CN CN202310389460.7A patent/CN116842966A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427617B (zh) | 推送信息的生成方法及装置 | |
CN108304439B (zh) | 一种语义模型优化方法、装置及智能设备、存储介质 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
EP3423961A1 (en) | Providing images for search queries | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN111737559A (zh) | 资源排序方法、训练排序模型的方法及对应装置 | |
CN115601485B (zh) | 任务处理模型的数据处理方法及虚拟人物动画生成方法 | |
CN116050405A (zh) | 文本处理、问答文本处理及文本处理模型训练方法 | |
CN117573842B (zh) | 文档检索方法以及自动问答方法 | |
CN112148839A (zh) | 图文匹配方法、装置及存储介质 | |
CN116303558A (zh) | 查询语句生成方法、数据查询方法及生成模型训练方法 | |
CN117493505A (zh) | 智能问答方法、装置、设备和存储介质 | |
CN114120342A (zh) | 简历文档识别方法、装置、计算设备及存储介质 | |
CN116913278A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116363457B (zh) | 任务处理、图像分类、任务处理模型的数据处理方法 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116842966A (zh) | 在线翻译模型训练、翻译样本对构建及在线翻译方法 | |
CN118429658B (zh) | 信息抽取方法以及信息抽取模型训练方法 | |
CN116431319B (zh) | 任务处理方法及装置 | |
CN118227770B (zh) | 任务处理方法、法律问答方法及任务处理模型训练方法 | |
CN116842965A (zh) | 文本处理方法、文本阅读理解方法 | |
CN116136869A (zh) | 对话内容生成、虚拟对话、对话内容的数据处理方法 | |
CN118013246A (zh) | 数据处理方法及计算设备、计算机可读存储介质 | |
CN117668187A (zh) | 图像生成、自动问答以及条件控制模型训练方法 | |
CN116977709A (zh) | 图像识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |