CN113392658A

CN113392658A - 语句翻译方法、装置、计算机设备和存储介质

Info

Publication number: CN113392658A
Application number: CN202110680482.XA
Authority: CN
Inventors: 张轩玮
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-14

Abstract

本申请涉及一种语句翻译方法、装置、计算机设备和存储介质。该方法包括：获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本。本申请可以区分出辅助信息和主要信息，进而减少上下文语句产生的噪音，提高待翻译语句的翻译准确率。

Description

语句翻译方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器翻译技术领域，尤其涉及一种语句翻译方法、装置、计算机设备和存储介质。

背景技术

目前，机器翻译是通过样本训练得到的翻译模型进行翻译，把源语言翻译成目标语言。有些语句比较短且有歧义，例如，中文“我想静静”，如果只是根据这句话，很难知道它的意思是“leave me alone”还是“I miss Jingjing”,所以需要通过结合上下文语句使得翻译结果更加准确，所以一般会把一个语句和其上下文语句一并输入到机器翻译模型中，这样做虽然可以起到一定的消歧义的作用，但是翻译结果的准确度还是有待提高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种语句翻译方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种语句翻译方法，包括：

获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；

确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；

根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本。

第二方面，本申请提供了一种语句翻译装置，包括：

第一获取模块，用于获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；

特征确定模块，用于确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；

目标生成模块，用于根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中，获取源语言文本，并确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句，根据每一个词所属的语句可以得知这个词所在的语句是主要信息还是辅助信息。而且根据每个词在源语言文本中的位置，可以确定这个词与待翻译语句的词之间的距离，距离越近的词，其参考价值越高。根据每个词所在的语句以及每个词的位置，并结合每个词的含义，可以有效的利用辅助信息来理解主要信息，得到翻译恰当的目标语言文本，减少上下文语句产生的噪音，提高待翻译语句的翻译准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语句翻译方法的流程示意图；

图2为本申请实施例提供的一种语句翻译装置的结构示意图；

图3为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一方面，本申请实施例提供的一种语句翻译方法，该方法可以应用在台词的长文本场景中、台词的短文本场景中、对话场景中等多种需要对文本进行翻译的场景中。如图1所示，该方法包括如下步骤：

S110、获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；

可理解的是，上述关联语句在不同的应用场景中的具体含义可能有所差别，但是不论在何种场景中，关联语句通常是指对待翻译语句有一定释义作用的语句。例如，在台词类文本进行翻译的场景中，待翻译语句的关联语句可以是待翻译语句的上文语句，可以是待翻译语句的下文语句，也可以是待翻译语句的上文语句和下文语句。当然，除了上下文语句之外，关联语句还可以是待翻译语句的相关注释文本、标注文本、批注文本等。

在具体实施时，S110中获取源语言文本的具体过程包括：

S111、获取所述待翻译语句和所述关联语句；

在具体实施时，若关联语句为待翻译语句的上下文语句(是指上文语句和/或下文语句)，获取关联语句的过程可以包括：

S111a、对所述待翻译语句对应的来源文本中的每一个语句设置位置索引，所述位置索引用于表征所述每一个语句在所述来源文本中的位置；

例如，待翻译语句是某一部电视剧的台词，则其来源文本为这部电视剧的所有台词形成的台词库。当然，待翻译语句不仅仅可以是电视剧台词，也可以是电影台词，也可以是某篇文章中的语句，还可以是某个书籍中的语句，因此对应的来源文本的类型也有多种。

假设一个机器翻译模型主要用于对电视剧中的台词进行翻译，那这个机器翻译模型可以对很多部电视剧中的台词进行翻译，为了区分不同的电视剧，为每一个电视剧设置一个来源标识，不同的电视剧对应不同的来源标识；然后对一个来源标识对应的电视剧中的所有台词设置位置索引，用于表征台词在该电视剧的所有台词中的位置。

S111b、根据所述待翻译语句的位置索引，在所述来源文本中获取所述上下文语句；

由于每一个语句都具有一个位置索引，便可以根据位置索引在来源文本中找到对应的上下文语句。

S112、将所述待翻译语句和所述关联语句进行拼接，得到拼接文本，并将所述拼接文本作为所述源语言文本。

其中，待翻译语句和关联语句可以按照预设顺序进行拼接。预设顺序可以根据需要设置，例如，上文语句、下文语句和待翻译语句，也就是说，上文语句在最前面，下文语句在中间，待翻译语句在最后面。当然，也可以是其他的顺序，例如，上文语句、待翻译语句和下文语句。其中，上下文语句的数量可以根据需要选择，一般一个机器翻译模型所需要的上下文语句的数量是一定的。例如，一个机器翻译模型对应的上下文数量n为1，即上文语句数量为1，且下文语句数量为1。若n为2，则上文语句数量为2，且下文语句的数量为2。

在具体实施时，在拼接时，为了区分各个语句，还可以在每一个语句之后设置一个分隔符，例如，n为1，待翻译语句为b，上文语句为a，下文语句为c，则三个语句拼接成的语句为a[sep]c[sep]b[sep]，[sep]中的sep可以指定一个具体的分隔符。再例如，n为2，待翻译语句为c，上文语句为a和b，下文语句为d和e，则这五个语句拼接成的语句为：a[sep]b[sep]d[sep]e[sep]c[sep]。

也就是说，本申请提供的方法还可包括：在进行拼接时，在每一个语句之后增加一个分隔符。设置分隔符的意义在于，能够更清晰的区分出各个语句。每一个分隔符作为一个词，由于各个分隔符的作用是进行语句分隔，因此各个分隔符的含义是相同的，即各个分隔符对应同一个第一向量，关于第一向量后续会进行解释。

S120、确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；

可理解的是，词是语句中的最小单位，不可再分割，一个词可以包括一个字，也可以包括多个不可再分割的字。

可理解的是，以上下文语句作为关联语句为例，每一个词所属的语句，是指一个词所在的语句是待翻译语句，还是上文语句，还是下文语句，若上文语句或下文语句的数量大于1，则还具体是指哪一个上文语句，哪一个下文语句，因为与待翻译语句距离越近的上下文语句的参考价值越高。

可理解的是，所述每一个词在所述源语言文本中的位置，是指一个词在整个源语言文本中的位置，例如，在上述拼接文本中的位置。若拼接文本共有50个词，而某个词在拼接文本中是第20个词，则该词在源语言文本中的位置就是20，20具体可以用一个向量来表示，即后续提到的第二向量。

在具体实施时，基于上述S111、S112，上述S120具体可以包括：

S121、对所述拼接文本进行分词处理，得到多个词；

S122、对每一个词进行向量化处理，得到所述每一个词的特征向量，所述特征向量用于表征所述每一个词的特征信息。

也就是说，每一个词的特征信息用特征向量来表示。

在具体实施时，每一个词的特征向量可以包括第一向量、第二向量和第三向量，所述第一向量用于表征所述每一个词的含义，所述第二向量用于表征所述每一个词在所述拼接文本中的位置，所述第三向量用于表征所述每一个词所属的语句，同一个语句中的所有词对应相同的第三向量，不同语句中的词对应不同的第三向量。

可理解的是，向量，即embedding，用于表征一个词的相关信息。每一个词都对应三个向量，即三个embedding，第一个向量用来表示词的含义。例如一个拼接文本有50个词(包括分隔符)，这个拼接文本就会对应50个第一向量，一个词对应一个第一向量。第二个向量用来表示词在拼接文本中的位置，例如一个拼接文本有50个词(包括分隔符)，此时这个拼接文本就会对应50个第二向量，每一个词对应一个第二向量，用来表示这个词在50个词中的位置。例如一个拼接文本有50个词(包括分隔符)，那这个拼接文本对应着50个第三向量，一个词对应一个第三向量，由于第三向量表示一个词所在的语句，那一个语句中所有的词对应的第三向量都是相同的。

可理解的是，由于同一个语句中的所有词对应相同的第三向量，不同语句中的词对应不同的第三向量，这样就可以通过第三向量区分出语句是上文语句，还是下文语句，还是待翻译语句。

可以理解的是，分隔符虽然没有实际含义，但是可以作为一个单独的词，而且作为位于分隔符前紧邻的一个语句中的最后一个词，分隔符作为该语句中的一部分，同样参与分词、设置三个向量等步骤。例如，分隔符的作用在于对各个语句进行分割，并无实际意义，因此所有的分隔符都对应相同的第一向量，而分隔符在拼接文本中也占有一个位置，因此分隔符的第二向量也表示分隔符在拼接文本中的位置，分隔符的第三向量也用来表示所在语句是哪一句。

S130、根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本；

在具体实施时，可以先将所述第一向量、所述第二向量和所述第三向量进行融合处理，得到所述每一个词对应的融合向量。例如，一个拼接文本中有50个词，每一个词都对应一个第一向量、一个第二向量和一个第三向量，那这个拼接文本就对应50个第一向量、50个第二向量和50个第三向量，假设每一个向量都是一个3维向量，这样针对每一个词，将这个词的三个向量进行拼接，得到一个9维的融合向量。这样这个拼接文本最终对应50个融合向量。

在具体实施时，根据各个词的特征信息生成待翻译语句的目标语言文本的过程，可以是将各个词的特征信息输入一个预先训练的机器学习网络中，利用该机器学习网络生成待翻译语句的目标语言文本。具体可以是将源语言文本中各个词的三个向量输入到这个机器学习网络中，也可以是将源语言文本中各个词的融合向量输入到这个机器学习网络中。

可理解的是，这个机器学习网络能够根据每一个词所属的语句(例如，上文中的第三向量或者在融合向量中第三向量对应的元素)得知每个词来自于哪个语句，具体是来自待翻译语句，还是来自关联语句，以及来自关联语句中的哪个语句等，进而得知这个词所在的语句是主要信息还是辅助信息。而且根据每个词在源语言文本中的位置，可以确定这个词与待翻译语句的词之间的距离，距离越近的词，其参考价值越高。根据每个词所在的语句以及每个词的位置，并结合每个词的含义，可以有效的利用辅助信息来理解主要信息，得到翻译恰当的目标语言文本。

可理解的是，机器学习网络翻译的过程实际上对输入信息进行编码解码的过程，具体先通过编码得到待翻译语句的语义信息，再进行解码，便可以将语义信息翻译成目标语言文本。

其中，机器学习网络是通过对训练样本进行训练得到，经过一定的迭代次数之后，损失函数达到收敛，表明机器学习网络的训练完成。训练样本即包括源语言文本和目标语言文本形成的样本对，其中，源语言文本中包括待翻译语句和关联语句，目标语言文本为待翻译语句的目标语言文本。

举例来说，若源语言文本包括待翻译语句以及待翻译语句的上文语句，经过执行本申请提供的上述方法，可以得到待翻译语句的目标语言文本。再例如，若源语言文本包括待翻译语句以及待翻译语句的下文语句，经过执行本申请提供的上述方法，可以得到待翻译语句的目标语言文本。再例如，若源语言文本包括待翻译语句以及待翻译语句的上文语句和下文语句，经过执行本申请提供的上述方法，可以得到待翻译语句的目标语言文本。

在具体实施时，在生成待翻译语句的目标语言文本的同时，还可以同时生成所述关联语句的目标语言文本，也就是说，本申请提供的方法还可以包括：根据所述源语言文本中各个词的特征信息，生成所述关联语句的目标语言文本，这样用户也可以结合所述关联语句的目标语言文本来理解待翻译语句的目标语言文本。

举例来说，若源语言文本包括待翻译语句以及待翻译语句的上文语句，经过执行本申请提供的上述方法，可以得到待翻译语句的目标语言文本和上文语句的目标语言文本；再例如，若源语言文本包括待翻译语句以及待翻译语句的下文语句，经过执行本申请提供的上述方法，可以得到待翻译语句的目标语言文本和下文语句的目标语言文本；再例如，若源语言文本包括待翻译语句以及待翻译语句的上文语句和下文语句，经过执行本申请提供的上述方法，可以得到待翻译语句、上文语句和下文语句的目标语言文本。

举例来说，源语言为中文，目标语言为印尼语。采用现有技术提供的翻译方法对10000条文本进行翻译，以及采用本申请提供的翻译方法同样对这10000条文本进行翻译，对采用参数BLEU对两种翻译方法进行评估。其中，BLEU全称为Bilingual EvaluationUnderstudy,其意思是双语评估替补，即代替人进行翻译结果的评估，该值越高，说明模型的翻译质量越高。通过计算，现有技术的BLEU为22.59，本申请的BLEU为23.35，可见本申请的参数BLEU有所提高，由此本申请的翻译质量要高于现有技术的翻译质量。

本申请提供的语句翻译方法，获取源语言文本，并确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句，根据每一个词所属的语句可以得知这个词所在的语句是主要信息还是辅助信息。而且根据每个词在源语言文本中的位置，可以确定这个词与待翻译语句的词之间的距离，距离越近的词，其参考价值越高。根据每个词所在的语句以及每个词的位置，并结合每个词的含义，可以有效的利用辅助信息来理解主要信息，得到翻译恰当的目标语言文本，减少上下文语句产生的噪音，消除歧义，尤其适合句子较短而且易产生歧义的语句，提高待翻译语句的翻译准确率。

第二方面，本申请还提供一种语句翻译装置，如图2所示，该装置100包括：

第一获取模块110，用于获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；

特征确定模块120，用于确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；

目标生成模块130，用于根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本。

可理解的是，本申请实施例提供的语句翻译装置，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的语句翻译方法的步骤。

图3示出了一个实施例中计算机设备的内部结构图。如图3所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏等。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可以存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语句翻译方法。该内存储器中也可以储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语句翻译方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语句翻译装置可以实现为一种计算机程序的形式，计算机程序可在如图3所示的计算机设备上运行。计算机设备的存储器中可存储组成该翻译装置的各个程序模块，比如，图2所示的第一获取模块110、特征确定模块120、目标生成模块130、编解码模块140。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语句翻译方法中的步骤。

例如，图3所示的计算机设备可以通过如图2所示的语句翻译装置中的第一获取模块110执行获取源语言文本，所述源语言文本包括待翻译语句和所述待翻译语句的关联语句；计算机设备可以通过特征确定模块120执行确定所述源语言文本中每一个词的特征信息，每一个词的特征信息包括所述每一个词的含义、所述每一个词在所述源语言文本中的位置和所述每一个词所属的语句；计算机设备可以通过目标生成模块130执行根据所述源语言文本中各个词的特征信息，生成所述待翻译语句的目标语言文本。

可理解的是，本申请实施例提供的计算机设备，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的语句翻译方法的步骤。

可理解的是，本申请实施例提供的计算机可读存储介质，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

可理解的是，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语句翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取源语言文本包括：

获取所述待翻译语句和所述关联语句；

将所述待翻译语句和所述关联语句进行拼接，得到拼接文本，并将所述拼接文本作为所述源语言文本。

3.根据权利要求2所述的方法，其特征在于，所述确定所述源语言文本中每一个词的特征信息，包括：

对所述拼接文本进行分词处理，得到多个词；

对每一个词进行向量化处理，得到所述每一个词的特征向量，所述特征向量用于表征所述每一个词的特征信息。

4.根据权利要求3所述的方法，其特征在于，所述每一个词的特征向量包括第一向量、第二向量和第三向量，所述第一向量用于表征所述每一个词的含义，所述第二向量用于表征所述每一个词在所述拼接文本中的位置，所述第三向量用于表征所述每一个词所属的语句，同一个语句中的所有词对应相同的第三向量，不同语句中的词对应不同的第三向量。

5.根据权利要求1所述的方法，其特征在于，所述关联语句为所述待翻译语句的上下文语句；所述获取源语言文本中的获取所述关联语句，包括：

对所述待翻译语句对应的来源文本中的每一个语句设置位置索引，所述位置索引用于表征所述每一个语句在所述来源文本中的位置；

根据所述待翻译语句的位置索引，在所述来源文本中获取所述上下文语句。

6.根据权利要求1所述的方法，其特征在于，还包括：根据所述源语言文本中各个词的特征信息，生成所述关联语句的目标语言文本。

7.一种语句翻译装置，其特征在于，包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。