CN113988089A - 一种基于k近邻的机器翻译方法、装置及介质 - Google Patents
一种基于k近邻的机器翻译方法、装置及介质 Download PDFInfo
- Publication number
- CN113988089A CN113988089A CN202111209546.4A CN202111209546A CN113988089A CN 113988089 A CN113988089 A CN 113988089A CN 202111209546 A CN202111209546 A CN 202111209546A CN 113988089 A CN113988089 A CN 113988089A
- Authority
- CN
- China
- Prior art keywords
- word
- dimensional vector
- neighbor
- language
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 185
- 238000012549 training Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于K近邻的机器翻译方法、装置、介质及设备,属于语言翻译技术领域,主要包括:获取待翻译句子中每个源语言词的源语言词高维向量,并查询获取源语言词高维向量的K近邻高维向量;利用与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集;以及根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,得到源语言词的目标语言词翻译结果。本发明的应用在编码端寻找词语级别的K近邻,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器‑解码器机器翻译模型的翻译效果。
Description
技术领域
本申请涉及语言翻译技术领域,特别是一种基于K近邻的机器翻译方法、装置、存储介质及计算机设备。
背景技术
目前现有技术包括两种基于K近邻(与待翻译的句子相像的句子/词语)来提高机器翻译模型的方法,第一种是寻找句子级别的K近邻,但这种方法受到句子相似程度的限制,当标注数据集中没有与待翻译句子非常像的句子时效果不佳;第二种是直接寻找词语级别的K近邻,但现有技术由于是在机器翻译的解码阶段进行K近邻的搜索,其时间复杂度极高且搜索无法并行,其速度相比原本的模型慢了两个数量级。
发明内容
本发明提供一种基于K近邻的机器翻译方法、装置、存储介质及计算机设备,在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
为了解决上述问题,本发明采用的一个技术方案是:提供一种基于K近邻的机器翻译方法,该方法包括:
利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量;
利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集;以及,
根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果。
本发明采用的另一个技术方案是:提供一种基于K近邻的机器翻译装置,该装置包括:
用于利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量的模块;
用于利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集的模块;以及,
用于根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果的模块。
在本发明的另一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案中的基于K近邻的机器翻译方法。
在本发明的另一技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中,处理器操作计算机指令以执行方案中的基于K近邻的机器翻译方法。
本发明技术方案可以达到的有益效果是:本发明提出一种基于K近邻的机器翻译方法、装置、存储介质及计算机设备,在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于K近邻的机器翻译方法一个具体实施方式的示意图;
图2为本发明一种基于K近邻的机器翻译方法一个具体实例的示意图;
图3为本发明一种基于K近邻的机器翻译装置一个具体实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1所示为本发明一种基于K近邻的机器翻译方法一个具体实施方式的示意图。
在该具体实施方式中,基于K近邻的机器翻译方法主要包括:
过程S101:利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量;
过程S102:利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集;以及,
过程S103:根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果。
通过本发明提出的一种基于K近邻的机器翻译方法,在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
在本发明的一个具体实施例中,基于K近邻的机器翻译方法还包括:利用语言模型工具对训练数据集中每对文本的翻译规则进行学习得到编码器-解码器机器翻译模型;以及对训练数据集中的每个词进行词翻译对齐,并提取训练数据集中每个词的高维向量。此过程预先准备编码器-解码器机器翻译模型以及后续需要调用的高维向量,避免了每次翻译句子时需要生成大量高维向量以及重复多次词翻译对齐的问题,降低了机器翻译的运算量,提高了机器翻译速度。
在本发明的一个可选实例中,上述编码器-解码器机器翻译模型也可以是现有的编码器-解码器机器翻译模型,无需进行训练,直接利用现成的编码器-解码器机器翻译模型进行后续工作。并且在本发明中也可以不提前对训练数据集中的每个词进行词翻译对齐,仅对源语言词高维向量的K近邻高维向量中每个近邻高维向量对应的词进行词翻译对齐,以及在本发明中也可以不提前提取训练数据集中每个词的高维向量,只在需要某个词的高维向量时再进行提取。虽然本实例不提前准备编码器-解码器机器翻译模型、不提前词翻译对齐、不提前提取训练数据集中每个词的高维向量,但仍可以达到提升编码器-解码器机器翻译模型的翻译效果的目的。
具体地,上述训练数据集可以是由海量双语平行语料组成。上述词翻译对齐技术为成熟的现有技术,此处不进行赘述。上述高维向量是模型学习产出的结果,可以理解为每个词语都有一个各自特有的向量,也可以理解为是一种独特的符号,高维向量表达的含义涉及到深度学习“词向量”的概念,深度神经网络的核心功能就是将词编码为词向量,这个词向量一般来说包含了这个词的语法和语义特征,即高维向量包含了对应词的语言学特征。
在图1所示的具体实施方式中,本发明的基于K近邻的机器翻译方法包括过程S101,利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量。此过程在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间。
具体地,参照本发明图2提供的一种基于K近邻的机器翻译方法一个具体实例的示意图,例如待翻译句子中有三个源语言词B、C、E,实际应用中可以在训练数据集中找到多个包含B、C、E三个中至少一个词的句子,每个句子中B、C、E的高维向量都不同,可以根据其句中位置获取与B相关的多个高维向量包括:h12、h21、h32、h41,与C相关的多个高维向量包括:h13、h22,与E相关的多个高维向量包括:h34、h52、h43。
在本发明的一个具体实施例中,上述从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量的过程包括,将训练数据集中每个词的高维向量中与源语言词高维向量的向量距离最小的K个高维向量,确定为源语言词高维向量的K近邻高维向量。此过程在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间。
具体地,假设K=2,并且待翻译句子中的三个源语言词B、C、E分别对应的源语言词高维向量为h01、h02、h03。以B为例计算其源语言词高维向量h01的K近邻高维向量,可以利用距离函数分别计算h01与h12、h21、h32、h41之间的向量距离,假设h01与h12之间的距离为0.7,h01与h21之间的距离为0.7,h01与h32之间的距离为0.6,h01与h41之间的距离为0.4。因此与h01向量距离最小的2个高维向量为h12和h21,因此将h12和h21确定为h01的K近邻高维向量(K=2)。源语言词C与E的源语言词高维向量的K近邻高维向量与B相同,不进行赘述,由图2可以得知,C的源语言词高维向量h02的K近邻高维向量(K=2)包括h13与h22,D的源语言词高维向量h03的K近邻高维向量(K=2)包括h34与h52。
在本发明的一个具体实施例中,上述向量距离包括L2距离或者余弦距离。其中,余弦距离指的是两个向量之间夹角的余弦值,可以将两个向量之间夹角的余弦值作为向量距离;L2距离即欧氏距离,指的是两点之间的自然长度,可以将两向量原点之间的自然长度作为向量距离。
在图1所示的具体实施方式中,本发明的基于K近邻的机器翻译方法包括过程S102,利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集。此过程计算目标语言K近邻候选集,以便于进一步提升编码器-解码器机器翻译模型的翻译效果。
具体地,参照本发明图2提供的一种基于K近邻的机器翻译方法一个具体实例的示意图,以B为例计算目标语言K近邻,上述过程中已经得到的B的源语言词高维向量h01的K近邻高维向量(K=2)包括h12和h21,由于已经预先进行了词翻译对齐,那么首先查询得到近邻高维向量h12的词翻译对齐结果中的目标语言词为c,目标语言词的高维向量为z12,继续查询得到近邻高维向量h21的词翻译对齐结果中的目标语言词为c,目标语言词的高维向量为z21,因此B的目标语言K近邻包括z12与z21。C与E计算目标语言K近邻的步骤与B相同,此处不进行赘述,由图2可以得知,C的目标语言K近邻包括z13与z22,z13对应的目标语言词为d,z22对应的目标语言词为d。E的目标语言K近邻包括z34与z52,z34对应的目标语言词为d,z52对应的目标语言词为e。
在本发明的一个具体实施例中,上述利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,所述目标语言词的高维向量得到目标语言K近邻候选集的过程包括,利用每个目标语言词及其对应的高维向量组成数据对,并利用数据对组成目标语言K近邻候选集。
具体地,参照本发明图2提供的一种基于K近邻的机器翻译方法一个具体实例的示意图,以近邻高维向量h12为例,其对应的目标语言词为c,目标语言词的高维向量为z12,将c与z12组成数据对(z12,c),在计算机语言中表示为键值对。其余近邻高维向量对应的数据对的组成方法与近邻高维向量h12相同,近邻高维向量h21对应的数据对为(z21,c),近邻高维向量h13对应的数据对为(z13,d),近邻高维向量h22对应的数据对为(z22,d),近邻高维向量h34对应的数据对为(z34,d),近邻高维向量h52对应的数据对为(z52,e)。由所有数据对组成目标语言K近邻候选集,因此目标语言K近邻候选集即[(z12,c)(z21,c)(z13,d)(z22,d)(z34,d)(z52,e)]。
在图1所示的具体实施方式中,本发明的基于K近邻的机器翻译方法包括过程S103,根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果。此过程以便于通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
在本发明的一个具体实施例中,上述根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果的过程包括,根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的每个目标语言词为源语言词的目标语言词翻译结果的概率进行计算;选择概率最大的目标语言词作为源语言词的目标语言词翻译结果。此过程以便于通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
具体地,现有技术传统的编码器-解码器机器翻译模型通过pMT(yi|x,y<i)预测翻译结果,此概率与K近邻无关。此方式是通过编码器-解码器结构递归地得到每一个预测词的高维表示h,并通过一层线性映射和softmax层得到词表分布。通俗的来说就是比如编码器-解码器机器翻译模型要将x=“我喜欢苹果”翻译到y=“I like apple”。这个过程就可以分为三步。第一步,给定x,翻译“I”,也即pMT(y1|x,y<1)=pMT(“I”|“我喜欢苹果”),对于模型来说,这个概率还是比较大的,假定它是0.9,剩下的0.1的概率就是模型预测“I”为词表中其他词的概率,比如预测为“you”的概率就很低,比如0.05,“ghost”的概率更低,比如0.0001。第二步,在生成了“I”之后,继续预测“like”,即计算概率pMT(y2|x,y<2)=pMT(“like”|“我喜欢苹果”,“I”),假定这个概率是0.6,剩下的0.4就是编码器-解码器机器翻译模型预测“like”是其他词的概率。此时模型的选择就比较多了,有可能是love(概率为0.3),enjoy(概率为0.05)等等,所以就不像预测“I”时那么确定。最后预测“apple”,即计算概率pMT(y3|x,y<3)=pMT(“apple”|“我喜欢苹果”,“I like”),操作和之前一样。通过上述过程得到所有相关词的概率。
本发明在上述传统的通过pMT(yi|x,y<i)预测翻译结果的基础上使用了与K近邻相关的概率进行插值得到一个新概率的方法。
式中(k,v)表示的是组成目标语言K近邻候选集的数据对,N′是从目标语言K近邻候选集中通过距离函数得到的K近邻,此处的距离函数可以是任意距离函数,如L2距离或余弦距离,h是源语言词高维向量,k是目标语言K近邻候选集中的目标语言高维向量,d(h,k)表示源语言词高维向量与其对应的目标语言高维向量之间的向量距离,T是一个系数用来控制指数函数exp的平滑度,T越大,指数函数越平滑。这是一个需要手工设置的系数,一般来说设置为1即可,z是归一化项。
现有技术传统的不基于K近邻的概率为pMT(yi|x,y<i),将这两个概率进行插值可以得到:
p(yi|x,y<i)=λpMT(yi|x,y<i)+(1-λ)pKNN(yi|x,y<i)
根据上述插值后得到公式进行运算,最终将概率最大的目标语言词作为源语言词的目标语言词翻译结果。
图3所示为本发明一种基于K近邻的机器翻译装置一个具体实施方式的示意图。
在该具体实施方式中,基于K近邻的机器翻译装置主要包括:
模块301:用于利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取源语言词高维向量的K近邻高维向量的模块。此模块在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间。
模块302:用于利用训练数据集中与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集的模块。此模块计算目标语言K近邻候选集,以便于进一步提升编码器-解码器机器翻译模型的翻译效果。
模块303:用于根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的目标语言词进行筛选,得到源语言词的目标语言词翻译结果的模块。此模块以便于通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
在本发明的一个具体实施例中,本发明基于K近邻的机器翻译装置还包括:用于利用语言模型工具对所述训练数据集中每对文本的翻译规则进行学习得到所述编码器-解码器机器翻译模型的模块;以及用于对所述训练数据集中的每个词进行词翻译对齐,并提取所述训练数据集中每个词的高维向量的模块。此处两个模块预先准备编码器-解码器机器翻译模型以及后续需要调用的高维向量,避免了每次翻译句子时需要生成大量高维向量以及重复多次词翻译对齐的问题,降低了机器翻译的运算量,提高了机器翻译速度。
在本发明的一个具体实施例中,上述模块301的工作内容还包括将训练数据集中每个词的高维向量中与源语言词高维向量的向量距离最小的K个高维向量,确定为源语言词高维向量的K近邻高维向量。此过程在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间。
在本发明的一个具体实施例中,上述向量距离包括L2距离或者余弦距离。
在本发明的一个具体实施例中,上述模块302的工作内容还包括利用每个目标语言词及其对应的高维向量组成数据对,并利用数据对组成目标语言K近邻候选集。
本发明的一个具体实施例中,上述模块303的工作内容还包括根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,对目标语言K近邻候选集中的每个目标语言词为源语言词的目标语言词翻译结果的概率进行计算;选择概率最大的目标语言词作为源语言词的目标语言词翻译结果。此过程以便于通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
通过本发明基于K近邻的机器翻译装置的应用,在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器-解码器机器翻译模型的翻译效果。
本发明提供的一种基于K近邻的机器翻译装置,可用于执行上述任一实施例描述的基于K近邻的机器翻译方法,其实现原理和技术效果类似,在此不再赘述。
在本发明的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其特征在于,计算机指令被操作以执行任一实施例描述的句子相似度的度量方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于K近邻的机器翻译方法。
在本申请所提供的实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于K近邻的机器翻译方法,其特征在于,包括,
利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从所述编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取所述源语言词高维向量的K近邻高维向量;
利用所述训练数据集中与所述K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及所述目标语言词的高维向量得到目标语言K近邻候选集;以及,
根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的所述目标语言词进行筛选,得到所述源语言词的目标语言词翻译结果。
2.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述从所述编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取所述源语言词高维向量的K近邻高维向量的过程包括,
将所述训练数据集中每个词的高维向量中与所述源语言词高维向量的向量距离最小的K个高维向量,确定为所述源语言词高维向量的K近邻高维向量。
3.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述利用所述训练数据集中与所述K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及所述目标语言词的高维向量得到目标语言K近邻候选集的过程包括,
利用每个所述目标语言词及其对应的高维向量组成数据对,并利用所述数据对组成所述目标语言K近邻候选集。
4.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的所述目标语言词进行筛选,得到所述源语言词的目标语言词翻译结果的过程包括,
根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的每个所述目标语言词为所述源语言词的目标语言词翻译结果的概率进行计算;
选择所述概率最大的所述目标语言词作为所述源语言词的目标语言词翻译结果。
5.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,还包括,
利用语言模型工具对所述训练数据集中每对文本的翻译规则进行学习得到所述编码器-解码器机器翻译模型;以及,
对所述训练数据集中的每个词进行词翻译对齐,并提取所述训练数据集中每个词的高维向量。
6.如权利要求2或4所述的基于K近邻的机器翻译方法,其特征在于,
所述向量距离包括L2距离或者余弦距离。
7.一种基于K近邻的机器翻译装置,其特征在于,包括,
用于利用编码器-解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从所述编码器-解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取所述源语言词高维向量的K近邻高维向量的模块;
用于利用所述训练数据集中与所述K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及所述目标语言词的高维向量得到目标语言K近邻候选集的模块;以及,
用于根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的所述目标语言词进行筛选,得到所述源语言词的目标语言词翻译结果的模块。
8.一种基于K近邻的机器翻译装置,其特征在于,还包括,
用于利用语言模型工具对所述训练数据集中每对文本的翻译规则进行学习得到所述编码器-解码器机器翻译模型的模块;以及,
用于对所述训练数据集中的每个词进行词翻译对齐,并提取所述训练数据集中每个词的高维向量的模块。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1~6中任一项所述的基于K近邻的机器翻译方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中,所述处理器操作所述计算机指令以执行权利要求1~6任一项所述的基于K近邻的机器翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209546.4A CN113988089A (zh) | 2021-10-18 | 2021-10-18 | 一种基于k近邻的机器翻译方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209546.4A CN113988089A (zh) | 2021-10-18 | 2021-10-18 | 一种基于k近邻的机器翻译方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988089A true CN113988089A (zh) | 2022-01-28 |
Family
ID=79739077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111209546.4A Pending CN113988089A (zh) | 2021-10-18 | 2021-10-18 | 一种基于k近邻的机器翻译方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988089A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160085748A1 (en) * | 2013-05-29 | 2016-03-24 | National Institute Of Information And Communications Technology | Translation word order information output apparatus, translation word order information output method, and storage medium |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
-
2021
- 2021-10-18 CN CN202111209546.4A patent/CN113988089A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160085748A1 (en) * | 2013-05-29 | 2016-03-24 | National Institute Of Information And Communications Technology | Translation word order information output apparatus, translation word order information output method, and storage medium |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Neural machine translation: A review of methods, resources, and tools | |
US10255275B2 (en) | Method and system for generation of candidate translations | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
Zhang et al. | Deep Neural Networks in Machine Translation: An Overview. | |
WO2023065544A1 (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
Ling et al. | Latent predictor networks for code generation | |
Botha et al. | Compositional morphology for word representations and language modelling | |
US8069027B2 (en) | Word alignment apparatus, method, and program product, and example sentence bilingual dictionary | |
Subramanya et al. | Efficient graph-based semi-supervised learning of structured tagging models | |
WO2019118256A1 (en) | Generation of text from structured data | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
Chitnis et al. | Variable-length word encodings for neural translation models | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
US11562123B2 (en) | Method and apparatus for fusing position information, and non-transitory computer-readable recording medium | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN112800205B (zh) | 基于语义变化流形分析获取问答相关段落的方法、装置 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
Zhang et al. | Mind the gap: Machine translation by minimizing the semantic gap in embedding space | |
CN112115256A (zh) | 一种融入中文笔画信息的新闻文本摘要生成的方法及装置 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Vashistha et al. | Active learning for neural machine translation | |
CN113988089A (zh) | 一种基于k近邻的机器翻译方法、装置及介质 | |
CN114185573A (zh) | 一种人机交互机器翻译系统的实现和在线更新系统及方法 | |
CN111090720B (zh) | 一种热词的添加方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |