CN114330375A - 一种基于固定范式的术语翻译方法及系统 - Google Patents
一种基于固定范式的术语翻译方法及系统 Download PDFInfo
- Publication number
- CN114330375A CN114330375A CN202111338870.6A CN202111338870A CN114330375A CN 114330375 A CN114330375 A CN 114330375A CN 202111338870 A CN202111338870 A CN 202111338870A CN 114330375 A CN114330375 A CN 114330375A
- Authority
- CN
- China
- Prior art keywords
- term
- translation
- matching
- original text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明是属于机器翻译技术领域,具体提供了一种基于固定范式的术语翻译方法及系统,其中方法包括:根据用户或者翻译需求,以key‑value储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可;根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换为“__start__目标术语译文__end__”;将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型;从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。利用固定范式,在不更改神经网络模型的情况下,通过模型训练,强化模型的学习这一范式的能力,仅仅在翻译前进行处理,使得某些术语的译文可以人为指定。
Description
技术领域
本发明是属于机器翻译技术领域,特别是关于一种基于固定范式的术语 翻译方法及系统。
背景技术
机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自 然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学 等学科,是人工智能的终极目标之一。
现有主流的机器翻译模型是使用基于自注意力机制的编码-解码结构的神 经网络模型,由编码器和解码器组成。二者均以自注意力层为主。翻译流程 主要包括:首先把输入的词映射到高维的向量空间得到词向量,再把词向量 输入到编码器,通过自注意力机制得到上下文向量,解码器再根据上下文向 量和自注意力机制,通过神经网络中的softmax层输出到目标语言的词向量空 间。最后通过词典得到目标语言词汇。
与统计机器翻译有较多流程和多个模型不同,神经网络机器翻译主要只 有一个神经网络模型。由于其“黑盒”的特点,很难有较好的方法人为去约 束某些词的翻译。同时,同一个词根据不同的语境中也会有不同的翻译,虽 然可以较好区别一词多义的情况,但是也难以控制同一词在不同句子的准确 翻译。但若重新加入语料,重新训练一个神经网络机器翻译系统需要更多的 时间。
但是在提升机器翻译质量的如今,对机器翻译的要求也更高了。对于一 些重要的场合,比如重要会议中语音识别配合翻译的应用,会有各种新词或 者专有名词的出现,其翻译的准确性尤其重要。然而,神经网络机器翻译系 统无法在短时间内加入含有新词的语料进行重新训练,也无法完全保证同一 个词在不同句子中翻译的准确性。另外,不同会议对于不同词的翻译需求也 是不尽相同的,如何快捷地跟上不同的翻译需求是一个亟需解决的问题。
发明内容
本发明的目的在于提供一种基于固定范式的术语翻译方法及系统,其能 够快捷跟上不同会议对于不同词的翻译需求。
为实现上述目的,本发明提供了一种基于固定范式的术语翻译方法,包 括以下步骤:
S1,建立术语库;根据用户或者翻译需求,以key-value储存形式存储在 数据库中,当有新的术语原文翻译需求时,继续导入即可;
S2,模型训练,包含以下步骤:
S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换 为“__start__目标术语译文__end__”;
S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模 型;
S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配 术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到 目标译文。
优选地,所述S1中的建立术语库具体包括:对术语库中的术语原文做一 定的长度限制,中文最长不超过7个字,英文最长不超过4个单词。
优选地,所述S21与S22之间还包括:如果匹配得到的句对数量少于预 设数量,则使用命名实体识别工具对原训练集进行实体识别;
即抽取不少于五倍预设数量句对含有名词的语料,然后使用对齐工具fastalign,把原文中识别得到的名词与译文中识别得到的名词对上,即可得到 新的术语库,并重复步骤S21。
优选地,所述S3具体包括以下步骤:
S31,从左向右对最大术语原文的最大长度的字符与术语库进行匹配,如 果能匹配上,则替换为__start__目标术语译文__end__,如果匹配不上,则 减小长度再进行匹配,直至匹配上或者没有术语可匹配为止;
S32,然后从下一个最大长度的词或者字开始匹配;
S33,重复步骤S31~S32。
优选地,所述字符为英文或中文或二者的组合。
优选地,所述S3中的“神经网络机器翻译模型”为基于自注意力机制的 编码-解码结构的神经网络机器翻译模型。
本发明还提供了一种基于固定范式的术语翻译系统,包括:
术语库建立模块,用于根据用户或者翻译需求,以key-value储存形式存 储在数据库中,当有新的术语原文翻译需求时,继续导入即可;
模型训练模块,用于根据训练集中的术语库,匹配训练语料中的句对, 将原文术语替换为“__start__目标术语译文__end__”;然后将处理过的术 语库加入训练集中,混淆后正常训练得到机器翻译模型
翻译模块,用于从数据库中读取术语库后,使用正向最大匹配算法匹配 术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到 目标译文。
本发明提供了一种电子设备,包括存储器、处理器,所述处理器用于执 行存储器中存储的计算机管理类程序时实现基于固定范式的术语翻译方法的 步骤。
本发明提供了一种计算机可读存储介质,其上存储有计算机管理类程序, 所述计算机管理类程序被处理器执行时实现基于固定范式的术语翻译方法的 步骤。
与现有技术相比,根据本发明提供的一种基于固定范式的术语翻译方法 及系统,其中方法包括:S1,建立术语库;根据用户或者翻译需求,以key-value 储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可; S2,模型训练,包含以下步骤:S21,根据训练集中的术语库,匹配训练语料 中的句对,将原文术语替换为“__start__目标术语译文__end__”;S22,将 处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型;S3,翻 译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文, 并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。
本发明利用固定范式,在不更改神经网络模型的情况下,通过处理模型 的训练,强化模型的学习这一范式的能力,仅仅在翻译前进行处理,使得某 些术语的译文可以人为指定。同时,可以解决以往术语翻译方法中,固定标 签消失的问题,让模型自主学习到目标术语译文。这在训练神经网络模型需 要大量时间迭代的情况下,可以快速指定某些术语的翻译,并且对整个翻译 流程和质量没有较大影响。这解决了同一词在不同句子中翻译可能不同的问 题,可以应对多种不同的需求,满足用户的个性化需求。同时,也可以快速 地解决新词未加入训练集而很难翻译准确的问题,迅速应对如今不断出现的 新词。
附图说明
图1是本发明提供的一种固定范式的术语翻译方法的流程示意图;
图2为本发明提供的一种可能的电子设备的硬件结构示意图;
图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图;
图4为本发明提供的一种固定范式的术语翻译系统的神经网络机器翻译 模型示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本 发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包 括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或 组成部分,而并未排除其它元件或其它组成部分。
如图1至图4所示,根据本发明优选实施方式的一种基于固定范式的术 语翻译方法,包括以下步骤:
S1,建立术语库;根据用户或者翻译需求,以key-value储存形式存储在 数据库中,当有新的术语原文翻译需求时,继续导入即可;
S2,模型训练,包含以下步骤:
S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换 为“__start__目标术语译文__end__”;
S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模 型;
S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配 术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到 目标译文。
本发明利用固定范式,在不更改神经网络模型的情况下,通过处理模型 的训练,强化模型的学习这一范式的能力,仅仅在翻译前进行处理,使得某 些术语的译文可以人为指定。同时,可以解决以往术语翻译方法中,固定标 签消失的问题,让模型自主学习到目标术语译文。这在训练神经网络模型需 要大量时间迭代的情况下,可以快速指定某些术语的翻译,并且对整个翻译 流程和质量没有较大影响。这解决了同一词在不同句子中翻译可能不同的问 题,可以应对多种不同的需求,满足用户的个性化需求。同时,也可以快速 地解决新词未加入训练集而很难翻译准确的问题,迅速应对如今不断出现的 新词。
与现有技术相比:一方面,本方案不需要使用Attention信息,是在训练 时让模型学习到这样一种范式;另一方面,在训练时,根据用户或者自有的 字典,通过正向最大匹配法匹配,然后替换成__start__译文__end__,替换 好后直接进行训练或者使用已经训练好的模型直接进行翻译。
在一个具体的实施场景中,主要分为建立术语库、术语匹配和机器翻译 三个步骤:
1、建立术语库。根据用户或者翻译需求,以key-value的形式,存储在 数据库中。当有新的术语翻译需求时,可继续导入其中。一般情况下,对术 语原文做一定的长度限制,中文最长不超过7个字,英文最长不超过4个单 词。
2、模型训练:
2.1、训练集经过预处理后(原文与译文使用共享的词表和字节对编码模 型),根据术语库,匹配训练语料中的句对。将原文中的术语替换为__start__ 目标术语译文__end__。
2.2、如果匹配得到的句对较少,低于一万句对,可使用命名实体识别工 具对原训练集进行实体识别。抽取不少于5万句对含有名词的语料,然后使 用对齐工具fastalign,把原文中识别得到的名词与译文中识别得到的名词对上, 即可得到新的术语库。重复a步骤。
2.3、将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模 型。
3、翻译阶段:
3.1、术语匹配。从数据库中读取术语库后,本发明使用正向最大匹配算 法匹配术语原文。其中,正向最大匹配法由以下几个步骤组成:
(a)从左向右对最大术语原文的最大长度的词(英文)或者字(中文) 与术语库进行匹配,如果能匹配上,则替换为__start__目标术语译文__end__. 如果匹配不上,则减小长度再进行匹配,直至匹配上或者没有术语可匹配为 止。
(b)当第一个词或者字无法匹配术语库,则从下一个最大长度的词或者 字开始匹配。
(c)重复(a)(b)步一直到句子结束。
3.2、翻译。将术语匹配后的原文使用神经网络机器翻译模型进行翻译, 可以直接得到目标译文。
基于自注意力机制的编码-解码结构的神经网络机器 翻译模型结构如图4所示。
神经网络机器翻译模型结构为现有技术,下面主要针对有适应性变化的 各个部分的计算方式进行阐述说明如下:
点乘注意力Attention:
其中dk为输入的K的向量维度。
多头注意力MultiHead:
MultiHead(Q,K,V)=Concat(head1,…,headn)
其中,Q,K,V均为词向量,Concat是指把向量拼接起来,W为权重参数。 前馈神经网络FeedForward:
FFN(x)=max(0,xW1+b1)W2+b2
其中,b和W分别为偏置和权重参数。
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇。 其计算如下:
其中,θi为权重参数,k为目标语言词表的大小,以上的x均为输入。
请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所 示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储 在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320 执行计算机程序1311时实现以下步骤:
S1,建立术语库;根据用户或者翻译需求,以key-value储存形式存储在 数据库中,当有新的术语原文翻译需求时,继续导入即可;
S2,模型训练,包含以下步骤:
S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换 为“__start__目标术语译文__end__”;
S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模 型;
S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配 术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到 目标译文。
请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。 如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计 算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:
S1,建立术语库;根据用户或者翻译需求,以key-value储存形式存储在 数据库中,当有新的术语原文翻译需求时,继续导入即可;
S2,模型训练,包含以下步骤:
S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换 为“__start__目标术语译文__end__”;
S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模 型;
S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配 术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到 目标译文。
有益效果:
本发明利用固定范式,在不更改神经网络模型的情况下,通过处理模型 的训练,强化模型的学习这一范式的能力,仅仅在翻译前进行处理,使得某 些术语的译文可以人为指定。同时,可以解决以往术语翻译方法中,固定标 签消失的问题,让模型自主学习到目标术语译文。这在训练神经网络模型需 要大量时间迭代的情况下,可以快速指定某些术语的翻译,并且对整个翻译 流程和质量没有较大影响。这解决了同一词在不同句子中翻译可能不同的问 题,可以应对多种不同的需求,满足用户的个性化需求。同时,也可以快速 地解决新词未加入训练集而很难翻译准确的问题,迅速应对如今不断出现的 新词。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或 计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。 这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述 教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在 于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实 现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。 本发明的范围意在由权利要求书及其等同形式所限定。
Claims (9)
1.一种基于固定范式的术语翻译方法,其特征在于,包括以下步骤:
S1,建立术语库;根据用户或者翻译需求,以key-value储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可;
S2,模型训练,包含以下步骤:
S21,根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换为“__start__目标术语译文__end__”;
S22,将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型;
S3,翻译阶段;从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。
2.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S1中的建立术语库具体包括:对术语库中的术语原文做一定的长度限制,中文最长不超过7个字,英文最长不超过4个单词。
3.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S21与S22之间还包括:如果匹配得到的句对数量少于预设数量,则使用命名实体识别工具对原训练集进行实体识别;
即抽取不少于五倍预设数量句对含有名词的语料,然后使用对齐工具fastalign,把原文中识别得到的名词与译文中识别得到的名词对上,即可得到新的术语库,并重复步骤S21。
4.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S3具体包括以下步骤:
S31,从左向右对最大术语原文的最大长度的字符与术语库进行匹配,如果能匹配上,则替换为__start__目标术语译文__end__,如果匹配不上,则减小长度再进行匹配,直至匹配上或者没有术语可匹配为止;
S32,然后从下一个最大长度的词或者字开始匹配;
S33,重复步骤S31~S32。
5.如权利要求4所述的基于固定范式的术语翻译方法,其特征在于,所述字符为英文或中文或二者的组合。
6.如权利要求1所述的基于固定范式的术语翻译方法,其特征在于,所述S3中的“神经网络机器翻译模型”为基于自注意力机制的编码-解码结构的神经网络机器翻译模型。
7.一种基于固定范式的术语翻译系统,其特征在于,包括:
术语库建立模块,用于根据用户或者翻译需求,以key-value储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可;
模型训练模块,用于根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换为“__start__目标术语译文__end__”;然后将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型
翻译模块,用于从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。
8.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-6任一项所述的基于固定范式的术语翻译方法的步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-6任一项所述的基于固定范式的术语翻译方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111338870.6A CN114330375A (zh) | 2021-11-12 | 2021-11-12 | 一种基于固定范式的术语翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111338870.6A CN114330375A (zh) | 2021-11-12 | 2021-11-12 | 一种基于固定范式的术语翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330375A true CN114330375A (zh) | 2022-04-12 |
Family
ID=81044712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111338870.6A Pending CN114330375A (zh) | 2021-11-12 | 2021-11-12 | 一种基于固定范式的术语翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330375A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997190A (zh) * | 2022-06-14 | 2022-09-02 | 平安科技(深圳)有限公司 | 机器翻译方法、装置、计算机设备和存储介质 |
-
2021
- 2021-11-12 CN CN202111338870.6A patent/CN114330375A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997190A (zh) * | 2022-06-14 | 2022-09-02 | 平安科技(深圳)有限公司 | 机器翻译方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN112613273B (zh) | 多语言bert序列标注模型的压缩方法及系统 | |
US20180349327A1 (en) | Text error correction method and apparatus based on recurrent neural network of artificial intelligence | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113811946A (zh) | 数字序列的端到端自动语音识别 | |
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
CN111145728A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN107273357B (zh) | 基于人工智能的分词模型的修正方法、装置、设备和介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
US20230023789A1 (en) | Method for identifying noise samples, electronic device, and storage medium | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN112016300B (zh) | 预训练模型处理、下游任务处理方法、装置及存储介质 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
WO2024164616A1 (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN114818668A (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN113626563A (zh) | 训练自然语言处理模型和自然语言处理的方法、电子设备 | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN114298031A (zh) | 文本处理方法、计算机设备及存储介质 | |
CN114185573A (zh) | 一种人机交互机器翻译系统的实现和在线更新系统及方法 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN115860015A (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |