CN116167388A - 专有词翻译模型训练方法、装置、设备及存储介质 - Google Patents

专有词翻译模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116167388A
CN116167388A CN202211686008.9A CN202211686008A CN116167388A CN 116167388 A CN116167388 A CN 116167388A CN 202211686008 A CN202211686008 A CN 202211686008A CN 116167388 A CN116167388 A CN 116167388A
Authority
CN
China
Prior art keywords
training
language data
source language
translation model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211686008.9A
Other languages
English (en)
Inventor
关玉洋
邢启洲
李健
陈明
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jietong Digital Intelligence Technology Co ltd
Original Assignee
Wuxi Jietong Digital Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jietong Digital Intelligence Technology Co ltd filed Critical Wuxi Jietong Digital Intelligence Technology Co ltd
Priority to CN202211686008.9A priority Critical patent/CN116167388A/zh
Publication of CN116167388A publication Critical patent/CN116167388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明实施例提供了一种专有词翻译模型训练方法、装置、设备及存储介质,包括:获取第一源语言数据,根据预设概率分布,生成第一源语言数据对应的随机数;根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。本发明通过训练加噪处理的第一源语言数据,使模型在训练过程中处理更加多样的数据,提高专有词翻译模型的鲁棒性,从而大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率,提高专有词翻译模型的翻译效果。

Description

专有词翻译模型训练方法、装置、设备及存储介质
技术领域
本发明属于机器翻译技术领域,特别是涉及一种专有词翻译模型训练方法、装置、设备及存储介质。
背景技术
MT(MachineTranslation,机器翻译),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间语句和全文的翻译。NMT(NeuralMachineTranslation,神经网络机器翻译)是最新一代的基于神经网络实现的机器翻译技术。
现有神经网络机器翻译模型具有专有词翻译功能,专有词翻译功能是指在使用该模型进行翻译时,根据一定的输入端词汇或短语和目标端词汇或短语的对应关系,在将输入语言语句翻译成目标语言语句同时,将输入语句中的词汇或短语翻译成指定的目标端词汇或短语,从而提高翻译的准确率。由于输入端词汇或短语和目标端词汇或短语的对应关系在使用时会有多组,以下把多组的对应关系称为词典,在使用该模型进行翻译前会在输入语句中匹配词典中的词汇或短语,若匹配成功,则在将输入语言语句翻译成目标语言语句同时,将输入语句中的词汇或短语翻译成指定的目标端词汇或短语。
然而,在使用该模型翻译时需要根据词典对输入端语句进行专有词匹配,可能会出现输入端匹配错误的情况,比如输入语句原本是“小刘挺高兴”,在实际翻译时,刘挺作为一个人名加入了专有词翻译,使输入端错误匹配了“刘挺”,即由于语言本身的特性导致匹配错误,进而使整个句子翻译错误,并且,这种匹配错误在词汇没有分隔且文字是表音而非表义的语言中发生的概率较高,常会出现上述的匹配错误问题,导致翻译结果出现语义错误,翻译结果不准确。
发明内容
本发明提供一种专有词翻译模型训练方法、装置、设备及存储介质,以解决由于专有词匹配错误而导致翻译模型输出的翻译结果不准确的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明提供一种专有词翻译模型训练方法,所述方法包括:
获取第一源语言数据,根据预设概率分布,生成所述第一源语言数据对应的随机数;
根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集;
根据所述训练数据集和所述训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型。
可选的,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集,包括:
若所述随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至所述第一源语言数据,存储处理后的所述第一源语言数据至所述训练数据集;
若所述随机数大于所述预设阈值,存储所述第一源语言数据至所述训练数据集。
可选的,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集之前,包括:
根据所述第一源语言数据和所述预设概率分布,生成词令牌的随机长度数;
根据所述随机长度数,获取随机长度数的词令牌;
在满足预设随机条件的情况下,根据获取的所述词令牌生成随机噪声;其中,所述随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌和随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
可选的,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集,包括:
若满足所述预设随机条件,将预先生成的随机噪声添加至所述第一源语言数据,得到所述训练数据集,所述训练数据集包括:在所述第一源语言数据后拼接上从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、在所述第一源语言数据后拼接上随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌;
若不满足所述预设随机条件,将获取的随机长度数的所述词令牌拼接至所述第一源语言数据,存储至所述训练数据集。
可选的,所述根据所述训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型,包括:
获取所述预设机器翻译模型根据所述训练数据集输出的第一翻译数据;
根据所述第一翻译数据与所述目标语言数据,生成损失函数值;
根据所述损失函数值对所述预设机器翻译模型的模型参数和所述训练数据集进行迭代调整;
若调整至满足专有词翻译收敛条件,得到训练后的所述专有词翻译模型。
可选的,所述根据所述训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型之后,还包括:
基于训练后的所述专有词翻译模型,根据输入端词汇或短语和目标端词汇或短语的对应关系,在输入端的所述第一源语言数据添加目标端专有词;
输出包括目标端专有词的所述第一源语言数据对应的目标语言数据。
第二方面,本发明提供一种专有词翻译模型训练的装置,所述装置包括:
获取数据模块,用于获取第一源语言数据,根据预设概率分布,生成所述第一源语言数据对应的随机数;
数据处理模块,用于根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集;
模型训练模块,用于根据所述训练数据集和所述训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型。
可选的,所述数据处理模块包括:
第一数据处理子模块,用于若所述随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至所述第一源语言数据,存储处理后的所述第一源语言数据至所述训练数据集;
第二数据处理子模块,用于若所述随机数大于所述预设阈值,存储所述第一源语言数据至所述训练数据集。
可选的,所述装置还包括:
第一生成模块,用于根据所述第一源语言数据和所述预设概率分布,生成词令牌的随机长度数;
第二获取模块,用于根据所述随机长度数,获取随机长度数的词令牌;
第二生成模块,用于在满足预设随机条件的情况下,根据获取的所述词令牌生成随机噪声;其中,所述随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌和随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
可选的,所述数据处理模块包括:
第一数据处理子单元,用于若满足预设随机条件,将预先生成的随机噪声添加至所述第一源语言数据,得到所述训练数据集,所述训练数据集包括:在所述第一源语言数据后拼接上从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、在所述第一源语言数据后拼接上随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌;
第二数据处理子单元,用于若不满足预设随机条件,将获取的随机长度数的所述词令牌拼接至所述第一源语言数据,存储至所述训练数据集。
可选的,所述模型训练模块,包括:
获取子模块,用于获取所述预设机器翻译模型根据所述训练数据集输出的第一翻译数据;
第三生成子模块,用于根据所述第一翻译数据与所述目标语言数据,生成损失函数值;
调整子模块,用于根据所述损失函数值对所述预设机器翻译模型的模型参数和所述训练数据集进行迭代调整;
训练子模块,用于若调整至满足专有词翻译收敛条件,得到训练后的所述专有词翻译模型。
可选的,所述装置,还包括:
翻译模块,用于基于训练后的所述专有词翻译模型,根据输入端专有词与目标端专有词的对应关系,在输入端的所述第一源语言数据添加目标端专有词;
输出模块,用于输出包括目标端专有词的所述第一源语言数据对应的目标语言数据。
第三方面,本发明提供一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述专有词翻译模型训练方法。
第四方面,本发明提供一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述专有词翻译模型训练方法。
本发明实施例提供的专有词翻译模型训练方法,通过获取第一源语言数据,根据预设分布概率,生成第一源语言数据对应的随机数;根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。本发明中通过对第一源语言数据进行判断,利用预先生成的随机噪声,对第一源语言数据进行加噪处理,迭代训练翻译模型,通过训练加噪处理的第一源语言数据,使模型训练中处理更加多样的数据,提高专有词翻译模型的鲁棒性,大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率,从而提高了专有词翻译模型的翻译效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的专有词翻译模型训练方法的步骤流程图之一;
图2是图1中本发明实施例提供的电力调节方法专有词翻译模型训练方法的步骤103的方法流程图;
图3是本发明实施例提供的专有词翻译模型训练方法的步骤流程图之二;
图4是本发明实施例提供的专有词翻译模型训练方法的步骤流程图之三;
图5是本发明实施例提供的专有词翻译模型训练装置的结构示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例提供的专有词翻译模型训练方法的步骤流程图之一,所述方法可以包括:
步骤101,获取第一源语言数据,根据预设概率分布,生成第一源语言数据对应的随机数。
本发明实施例中,为提高机器翻译模型对专有词的准确翻译,通过对预设机器翻译模型进行训练,获得专有词翻译模型。在模型训练的过程中,首先需要获取训练数据集,即先获取第一源语言数据,对第一源语言数据进行预处理,根据预设概率分布,生成第一源语言数据对应的随机数。在本实施例中,电子设备可以通过从输入端的语料库中直接获取待翻译的第一源语言数据,也可以通过人工收集的方式得到待翻译的第一源语言数据。第一源语言数据是预设机器翻译模型输入端的待翻译源语言数据,包括输入端语句、词汇或短语。
需要说明的是,为了对预设机器翻译模型的迭代训练以提高预设机器翻译模型的效果,进而实现准确的专有词翻译,因此,需要获取大量第一源语言数据进行处理,作为训练数据,训练数据的数量越多,最终训练得到的模型效果越好。
具体的,本申请实施例为提高模型的翻译效果,在数据层面进行数据增强,通过获取第一源语言数据,根据预设分布概率,生成第一源语言数据对应的随机数,对第一源语言数据进行预处理,使得预处理后的第一源语言数据进行条件判定,确定是否在第一源语言数据加入噪声,在一些可能的实施例中,上述对第一源语言数据进行预处理,得到预处理后的随机数,预设概率分布可以采用0-1分布,生成第一源语言数据对应的随机数,例如第一源语言为汉语语句“小刘挺高兴”,根据该语句的字符串以及分布算法,生成随机数,本实施例中通过将第一源语言数据转换为随机数表征,以便于进一步对第一源语言数据进行判断。
本申请实施例中,由于训练翻译模型的目的是将翻译模型用于在任何一对语言之间进行准确的翻译,上述的第一源语言数据可以指源语言语句,第一源语言数据的译文信息可以指目标语言语句,相应的,最终训练得到的专有词翻译模型可以对第一源语言数据进行专有词翻译。
步骤102,根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集。
需要说明的是,加入噪声是在增加网络训练的难度,达到一定的正则效果,让模型的输出在输入叠加噪声的时候不发生翻转,抵抗对抗样本的攻击,也有一定的提高模型泛化能力的效果。本发明实施例中对预设机器翻译模型的注入噪声的方式可以有很多种,可以通过如输入层,隐层,权重,输出层等。本实施例中,在翻译模型的输入层加入噪声,用于第一源语言数据的增强,本质是一种正则化,原因是神经网络对于噪声并不健壮,通过混入噪声再进行训练,以提高专有词翻译模型的鲁棒性。
本发明实施例中,根据第一源语言数据对应的随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集。具体的,预设阈值根据机器翻译模型的训练需求设定,用于根据第一源语言数据的随机数,判定是否对第一源语言数据进行加噪处理。随机噪声是一种由时间上随机产生的大量起伏积累而生成的噪声,在本实施例中,随机噪声是根据大量源语言数据的翻译过程累积的,主要包括两种,一种是从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌,另一种是随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
具体的,步骤102根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,可以包括以下步骤:
若随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至第一源语言数据,存储处理后的第一源语言数据至训练数据集;若随机数大于预设阈值,存储第一源语言数据至训练数据集。
具体的,由于本实施例中随机噪声包括两种,随机噪声是从目标端语言的词表中随机选取的词令牌构成,其中,目标端语言词表是所有目标端语句包含的词令牌的集合。本实施例中,随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。确定随机噪声后则根据随机噪声的随机条件,当满足随机噪声的随机条件时,得到训练数据集;当不满足随机条件时,则将获取的随机长度数的词令牌直接拼接至第一源语言数据,得到训练数据集。
因此,本实施例中若随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至第一源语言数据,存储处理后的第一源语言数据至训练数据集包括:
若满足预设随机条件,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,训练数据集包括:在第一源语言数据后拼接上从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、在第一源语言数据后拼接上随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
若不满足预设随机条件,将获取的随机长度数的所述词令牌拼接至所述第一源语言数据,存储至所述训练数据集。
需要说明的是,本发明实施例得到的训练数据集包括第一源语言数据及添加预先生成的随机噪声后的第一源语言数据。本实施例中根据第一源语言数据的随机数和预设阈值的对比判断,确定是否对第一源语言数据进行预处理,即是否在第一源语言数据加入随机噪声。
需要说明的是,本发明实施例中可以使用句尾拼接的方式在第一源语言数据中加入噪声,构造专有词翻译模型的训练数据。例如:由于随机噪声有两种,当满足条件时生成加入噪声后的训练数据,不满足时不加入噪声。再根据随机噪声的预设随机条件,得到的训练数据集包括:未处理的第一源语言数据、拼接第一词令牌的第一源语言数据、拼接第二词令牌的第一源语言数据和直接拼接获取的随机长度数的词令牌的第一源语言数据。
本发明实施例中,通过随机数与预设阈值的条件,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,对满足条件的第一源语言数据混入噪声再进行训练,以提高专有词翻译模型的鲁棒性。
步骤103,根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。
本发明实施例根据训练数据训练出专有词翻译模型,具体通过训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练。本实施例中可以获取预设机器翻译模型根据训练数据集输出的第一翻译数据;根据第一翻译数据与目标语言数据,生成损失函数值;根据损失函数值对预设机器翻译模型的模型参数和训练数据集进行迭代调整,直至调整至满足专有词翻译收敛条件,得到训练后的专有词翻译模型。
本发明实施例提供的专有词翻译模型训练方法,通过获取第一源语言数据,根据预设分布概率,生成第一源语言数据对应的随机数;根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。本发明中通过对第一源语言数据进行判断,利用预先生成的随机噪声,对第一源语言数据进行加噪处理,迭代训练翻译模型,通过训练加噪处理的第一源语言数据,使模型训练中处理更加多样的数据,提高专有词翻译模型的鲁棒性,大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率,从而提高专有词翻译模型的翻译效果。
进一步地,参照图2,图2是图1中本发明实施例提供的专有词翻译模型训练方法的步骤103的方法流程图,步骤103包括:
步骤1031,获取预设机器翻译模型根据训练数据集输出的第一翻译数据。
具体的,在预设机器翻译模型的架构下,获取根据训练数据集翻译得到的对应输出结果,第一翻译数据是训练数据集经过预设机器翻译模型的翻译结果。以便于根据第一翻译数据与标准翻译的差异调整获取的训练数据集,训练模型。
步骤1032,根据第一翻译数据与目标语言数据,生成损失函数值。
在本实施例中,对损失函数不做具体限定,目标语言数据是翻译模型输出端的翻译数据,与输入端的待翻译数据对应,目标语言数据在本发明实施例中作为参照,用于生成翻译模型的损失函数值。
步骤1033,根据损失函数值对预设机器翻译模型的模型参数和训练数据集进行迭代调整。
具体的,本实施例中的预设机器翻译模型为神经网络翻译模型,在迭代训练中,根据损失函数值对预设机器翻译模型的模型参数和训练数据集进行调整,其中,模型参数包括训练速率、动态系数、允许损失等参数。在本实施例中,专有词翻译模型的训练速率由经验确定,训练速率越大,权重变化越大,收敛越快,但训练速率过大,会引起训练系统的振荡,即训练速率在不导致振荡前提下,越大越好。因此,训练速率会自动调整,该值最优调整为0.9,此外,模型的动态系数也是经验性的,可以设置为0.6~0.8任一参数。训练过程中的允许损失,一般取0.001~0.00001,当多次迭代结果的误差小于该值时,系统结束迭代计算,给出结果。由于神经网络计算并不能保证在各种参数配置下迭代结果收敛,当迭代结果不收敛时,允许最大的迭代次数。
步骤1034,若调整至满足专有词翻译收敛条件,得到训练后的专有词翻译模型。
需要说明的是,收敛是指模型在训练过程中梯度变化趋于平缓的状态,当模型满足收敛条件则训练完成。
本发明实施例中,通过获取预设机器翻译模型根据训练数据集输出的第一翻译数据,根据第一翻译数据与目标语言数据,生成损失函数值,并根据损失函数值对预设机器翻译模型的模型参数和训练数据集进行迭代调整,若调整至满足专有词翻译收敛条件,得到训练后的专有词翻译模型。即利用训练数据集,迭代训练翻译模型,通过训练加噪处理的第一源语言数据,使模型训练中处理更加多样的数据,调整参数得到优化的专有词翻译模型,大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率。
参照图3,示出了本发明实施例提供的专有词翻译模型训练方法的步骤流程图之二,所述方法可以包括:
步骤104,根据第一源语言数据和预设概率分布,生成词令牌的随机长度数。
步骤105,根据随机长度数,获取随机长度数的词令牌。
步骤106,在满足预设随机条件的情况下,根据获取的词令牌生成随机噪声。
其中,随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌和随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
需要说明的是,预设随机条件是根据第一源语言数据的内容预先设定的生成条件,将获取的词令牌处理生成随机噪声。本实施方式不对预设随机条件进行限定,在实际的使用过程中,预设随机条件可以为任意一种能够唯一指示生成随机噪声的条件。
本实施方式的步骤104-106中,根据第一源语言数据和预设概率分布,生成词令牌的随机长度数,根据随机长度数,获取随机长度数的词令牌,在满足预设随机条件的情况下,根据获取的词令牌生成随机噪声,可以进一步地实现对第一源语言数据的处理,具体的,根据第一源语言数据和预设概率分布,生成随机噪声,可以是按照泊松分布生成随机的词令牌长度数,从目标端语句对应的词表中获取对应数量的词令牌组成随机噪声。当然,以上仅为具体的举例说明,在实际的使用过程中生成随机的词令牌长度数还可以采用其他概率分布方式,此处不做一一赘述。
需要说明的是,本实施方式不对步骤104-106的具体执行位置进行限定,在本实施方式中,为了便于理解,以步骤104-106在步骤101之前执行为例进行说明。在实际的使用过程中,步骤104-106也可以作为一个步骤在步骤102之前完成,此处不对每种情况进行一一赘述。
本发明实施方式相对于现有技术而言,为了对第一源语言数据进行数据处理得到训练数据,预先获取词令牌生成随机噪声,对第一源语言数据进行加噪处理,从而迭代训练翻译模型。本发明采用的加噪使模型训练中处理更加多样的数据,提高专有词翻译模型的鲁棒性,大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率。
参照图4,示出了本发明实施例提供的专有词翻译模型训练方法的步骤流程图之三,所述方法可以包括:
步骤107,基于训练后的专有词翻译模型,根据输入端专有词与目标端专有词的对应关系,在输入端的第一源语言数据添加目标端专有词。
具体的,根据训练后的专有词翻译模型,以及输入端专有词与目标端专有词的对应关系,在输入端的第一源语言数据添加目标端专有词,由于训练后的专有词翻译模型已具备大量的加入噪声的第一源语言数据翻译经验,在接收到添加目标端专有词的第一源语言数据后,专有词翻译模型能够将输入语句翻译成目标语言语句的同时,将输入语句中的词汇或短语翻译成指定的目标端词汇或短语,达到专有词翻译模型的准确翻译的效果。
步骤108,输出包括目标端专有词的第一源语言数据对应的目标语言数据。
本发明实施方式相对于现有技术而言,基于训练后的专有词翻译模型,根据输入端专有词与目标端专有词的对应关系,在输入端的第一源语言数据添加目标端专有词,输出包括目标端专有词的第一源语言数据对应的目标语言数据。从而达到在外设终端上播放视频彩铃的目的,解决了现有技术的专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的问题,提高专有词翻译模型的准确翻译的效果。
参照图5,示出了本发明实施例提供的一种专有词翻译模型训练的装置的结构示意图,所述装置可以包括:
获取数据模块201,用于获取第一源语言数据,根据预设分布概率,生成所述第一源语言数据对应的随机数;
数据处理模块202,用于根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集;
模型训练模块203,用于根据所述训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型。
可选的,所述数据处理模块202包括:
第一数据处理子模块,用于若所述随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至所述第一源语言数据,存储处理后的所述第一源语言数据至所述训练数据集;
第二数据处理子模块,用于若所述随机数大于预设阈值,存储所述第一源语言数据至所述训练数据集。
可选的,所述装置还包括:
第一生成模块,用于根据所述第一源语言数据和所述预设概率分布,生成词令牌的随机长度数;
第二获取模块,用于根据所述随机长度数,获取随机长度数的词令牌;
第二生成模块,用于在满足预设随机条件的情况下,根据获取的所述词令牌生成随机噪声;其中,所述随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌和随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
可选的,所述第一数据处理子模块包括:
第一数据处理子单元,用于若满足预设随机条件,将预先生成的随机噪声添加至所述第一源语言数据,得到所述训练数据集,所述训练数据集包括:在所述第一源语言数据后拼接上从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、在所述第一源语言数据后拼接上随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌;
第二数据处理子单元,用于若不满足预设随机条件,将获取的随机长度数的所述词令牌拼接至所述第一源语言数据,存储至所述训练数据集。
可选的,所述模型训练模块203包括:
获取子模块,用于获取所述预设机器翻译模型根据所述训练数据集输出的第一翻译数据;
第三生成子模块,用于根据所述第一翻译数据与所述目标语言数据,生成损失函数值;
调整子模块,用于根据所述损失函数值对所述预设机器翻译模型的模型参数和所述训练数据集进行迭代调整;
训练子模块,用于若调整至满足专有词翻译收敛条件,得到训练后的所述专有词翻译模型。
可选的,所述装置,还包括:
翻译模块,用于基于训练后的所述专有词翻译模型,根据输入端专有词与目标端专有词的对应关系,在输入端的所述第一源语言数据添加目标端专有词;
输出模块,用于输出包括目标端专有词的所述第一源语言数据对应的目标语言数据。
本发明实施例提供的专有词翻译模型训练装置,通过获取第一源语言数据,根据预设分布概率,生成第一源语言数据对应的随机数;根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集,根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。本发明中通过对第一源语言数据进行判断,利用预先生成的随机噪声,对第一源语言数据进行加噪处理,迭代训练翻译模型,通过训练加噪处理的第一源语言数据,使模型训练中处理更加多样的数据,提高专有词翻译模型的鲁棒性,大大降低了专有词翻译模型在实际使用中出现错误匹配后导致翻译错误的概率,从而提高了专有词翻译模型的翻译效果。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,可以实现如下步骤:
获取第一源语言数据,根据预设分布概率,生成第一源语言数据对应的随机数;根据随机数和预设阈值,将预先生成的随机噪声添加至第一源语言数据,得到训练数据集;根据训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到专有词翻译模型。
上述终端提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的专有词翻译模型训练方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图,或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
需要说明的是,本申请实施例中获取各种数据相关过程,都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。

Claims (10)

1.一种专有词翻译模型训练方法,其特征在于,所述方法包括:
获取第一源语言数据,根据预设概率分布,生成所述第一源语言数据对应的随机数;
根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集;
根据所述训练数据集和所述训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集,包括:
若所述随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至所述第一源语言数据,存储处理后的所述第一源语言数据至所述训练数据集;
若所述随机数大于所述预设阈值,存储所述第一源语言数据至所述训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集之前,包括:
根据所述第一源语言数据和所述预设概率分布,生成词令牌的随机长度数;
根据所述随机长度数,获取随机长度数的词令牌;
在满足预设随机条件的情况下,根据获取的所述词令牌生成随机噪声;其中,所述随机噪声包括从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌和随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌。
4.根据权利要求3所述的方法,其特征在于,所述根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集,包括:
若满足所述预设随机条件,将预先生成的随机噪声添加至所述第一源语言数据,得到所述训练数据集,所述训练数据集包括:在所述第一源语言数据后拼接上从目标端目标语言数据对应词令牌中随机选取预设数量的第一词令牌、在所述第一源语言数据后拼接上随机重排从目标端目标语言数据对应词令牌中随机选取预设数量的第二词令牌;
若不满足所述预设随机条件,将获取的随机长度数的所述词令牌拼接至所述第一源语言数据,存储至所述训练数据集。
5.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据集和所述训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型,包括:
获取所述预设机器翻译模型根据所述训练数据集输出的第一翻译数据;
根据所述第一翻译数据与所述目标语言数据,生成损失函数值;
根据所述损失函数值对所述预设机器翻译模型的模型参数和所述训练数据集进行迭代调整;
若调整至满足专有词翻译收敛条件,得到训练后的所述专有词翻译模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据集和训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型之后,还包括:
基于训练后的所述专有词翻译模型,根据输入端词汇或短语和目标端词汇或短语的对应关系,在输入端的所述第一源语言数据添加目标端专有词;
输出包括目标端专有词的所述第一源语言数据对应的目标语言数据。
7.一种专有词翻译模型训练的装置,其特征在于,所述装置包括:
获取数据模块,用于获取第一源语言数据,根据预设概率分布,生成所述第一源语言数据对应的随机数;
数据处理模块,用于根据所述随机数和预设阈值,将预先生成的随机噪声添加至所述第一源语言数据,得到训练数据集;
模型训练模块,用于根据所述训练数据集和所述训练数据集对应的目标语言数据,对预设机器翻译模型进行训练,得到所述专有词翻译模型。
8.根据权利要求7所述的装置,其特征在于,所述数据处理模块包括:
第一数据处理子模块,用于若所述随机数小于或等于预设阈值,确定将预先生成的随机噪声添加至所述第一源语言数据,存储处理后的所述第一源语言数据至所述训练数据集;
第二数据处理子模块,用于若所述随机数大于所述预设阈值,存储所述第一源语言数据至所述训练数据集。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的专有词翻译模型训练方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1-6中任一所述的专有词翻译模型训练方法。
CN202211686008.9A 2022-12-27 2022-12-27 专有词翻译模型训练方法、装置、设备及存储介质 Pending CN116167388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211686008.9A CN116167388A (zh) 2022-12-27 2022-12-27 专有词翻译模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211686008.9A CN116167388A (zh) 2022-12-27 2022-12-27 专有词翻译模型训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116167388A true CN116167388A (zh) 2023-05-26

Family

ID=86415619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211686008.9A Pending CN116167388A (zh) 2022-12-27 2022-12-27 专有词翻译模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116167388A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822054A (zh) * 2021-07-05 2021-12-21 国网冀北电力有限公司 基于数据增强的中文语法纠错方法及装置
CN114201975A (zh) * 2021-10-26 2022-03-18 科大讯飞股份有限公司 翻译模型训练方法和翻译方法及其装置
US20220207369A1 (en) * 2019-09-24 2022-06-30 Fujitsu Limited Training method, storage medium, and training device
US20220207243A1 (en) * 2019-05-07 2022-06-30 Ntt Docomo, Inc. Internal state modifying device
CN114818703A (zh) * 2022-06-28 2022-07-29 珠海金智维信息科技有限公司 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN114925170A (zh) * 2022-05-25 2022-08-19 人民网股份有限公司 文本校对模型训练方法及装置、计算设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207243A1 (en) * 2019-05-07 2022-06-30 Ntt Docomo, Inc. Internal state modifying device
US20220207369A1 (en) * 2019-09-24 2022-06-30 Fujitsu Limited Training method, storage medium, and training device
CN113822054A (zh) * 2021-07-05 2021-12-21 国网冀北电力有限公司 基于数据增强的中文语法纠错方法及装置
CN114201975A (zh) * 2021-10-26 2022-03-18 科大讯飞股份有限公司 翻译模型训练方法和翻译方法及其装置
CN114925170A (zh) * 2022-05-25 2022-08-19 人民网股份有限公司 文本校对模型训练方法及装置、计算设备
CN114818703A (zh) * 2022-06-28 2022-07-29 珠海金智维信息科技有限公司 基于BERT语言模型和TextCNN模型的多意图识别方法及系统

Similar Documents

Publication Publication Date Title
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
US11636272B2 (en) Hybrid natural language understanding
CN112115267A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
WO2019226954A1 (en) Training sequence generation neural networks using quality scores
WO2018153316A1 (zh) 获取文本提取模型的方法及装置
CN111310464A (zh) 词向量获取模型生成方法、装置及词向量获取方法、装置
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
US20240028893A1 (en) Generating neural network outputs using insertion commands
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN116956835B (zh) 一种基于预训练语言模型的文书生成方法
US11481609B2 (en) Computationally efficient expressive output layers for neural networks
CN116167388A (zh) 专有词翻译模型训练方法、装置、设备及存储介质
CN112948582B (zh) 一种数据处理方法、装置、设备以及可读介质
CN111400484B (zh) 一种关键词提取方法和系统
CN113204629A (zh) 文本匹配方法、装置、计算机设备及可读存储介质
CN112530406A (zh) 一种语音合成方法、语音合成装置及智能设备
CN115859999B (zh) 意图识别方法、装置、电子设备及存储介质
US20230237826A1 (en) Performance of a neural network using automatically uncovered failure cases
CN109190115B (zh) 一种文本匹配方法、装置、服务器及存储介质
CN112633019A (zh) 一种双语样本生成方法、装置、电子设备及存储介质
CN117787284A (zh) 一种文本质量评价方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination