CN112668339A

CN112668339A - 语料样本确定方法、装置、电子设备及存储介质

Info

Publication number: CN112668339A
Application number: CN202011538595.8A
Authority: CN
Inventors: 曹军; 许润昕; 王明轩; 李磊
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-16
Also published as: WO2022135080A1

Abstract

本发明公开了一种语料样本确定方法、装置、电子设备及可读介质。首先构建语料库中通用领域的源端语料以及目标端语料的语义向量，然后在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量，最后根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。通过上述技术方案，利用目标语义向量以及与其相似的候选向量集合共同构建目标领域对应的语料样本，扩展了语料样本的规模，提高了语料样本的多样性。

Description

语料样本确定方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及机器学习技术，尤其涉及一种语料样本确定方法、装置、电子设备及存储介质。

背景技术

机器翻译指将一种语言的源文本翻译成另一种语言的目标文本。随着深度学习技术的快速发展，基于神经网络的机器翻译质量不断提高，在日常生活与工业生产环境中起着越来越重要的作用。在构建翻译模型的过程中，需要利用大量的语料样本对翻译模型进行训练，使翻译模型学习到不同语料的语义特征，从而能够将待翻译的源文本有效翻译成目标文本。但不同领域语法和语义存在差异，尤其是像医学、法律、经济等领域，专业术语较多，需要训练更为专业的翻译模型，才能保证翻译的准确性。

目前可以选择目标领域内的单语语料构造语料样本，或者是利用目标领域内的单语语料构造目标领域内的伪平行语料作为语料样本，用于训练翻译模型，以达到领域适应的目的。但这些方法为训练翻译模型所采用的语料样本都仅是针对单个特定的目标领域的，特定领域的语料样本难以获取、样本规模通常较小，并且语料样本的语义特征过于单一，难以实现对翻译模型的充分训练。

发明内容

本发明提供一种语料样本确定方法、装置、电子设备及存储介质，提高了语料样本的多样性。

第一方面，本公开实施例提供了一种语料样本确定方法，包括：

构建语料库中通用领域的源端语料以及目标端语料的语义向量；

在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量；

根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。

第二方面，本公开实施例还提供了一种语料样本确定装置，包括：

构建模块，用于构建语料库中通用领域的源端语料以及目标端语料的语义向量；

检索模块，用于在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量；

样本确定模块，用于根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。

第三方面，本公开实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例提供的方法。

第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开实施例提供的方法。

本公开实施例提供了一种语料样本确定方法、装置、电子设备及可读介质。首先构建语料库中通用领域的源端语料以及目标端语料的语义向量，然后在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量，最后根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。通过上述技术方案，利用目标语义向量以及与其相似的候选向量集合共同构建目标领域对应的语料样本，扩展了语料样本的规模，提高了语料样本的多样性。

附图说明

图1为本公开实施例一提供的一种语料样本确定方法的流程示意图；

图2为本公开实施例二提供的一种语料样本确定方法的流程示意图；

图3为本公开实施例二提供的一种召回通用领域的语料的示意图；

图4为本公开实施例三提供的一种语料样本确定方法的流程示意图；

图5为本公开实施例三提供的一种翻译模型的示意图；

图6为本公开实施例四提供的一种语料样本确定装置的结构示意图；

图7为本公开实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下述各实施例中，每个实施例中同时提供了可选特征和示例，实施例中记载的各个特征可进行组合，形成多个可选方案，不应将每个编号的实施例仅视为一个技术方案。此外，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

图1为本公开实施例一提供的一种语料样本确定方法的流程示意图，该方法可适用于针对目标领域的机器翻译选取语料样本的情况，具体的，用于在涉及不同领域的语料库中选取语料样本，用于训练目标领域的翻译模型的情况。该方法可以由语料样本确定装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在电子设备上，在本实施例中电子设备包括但不限于笔记本电脑、平板电脑、台式计算机、服务器等。

如图1所示，本公开实施例一提供的一种语料样本确定方法，包括如下步骤：

S110、构建语料库中通用领域的源端语料以及目标端语料的语义向量。

在本实施例中，语料是构成语料库的基本单元，其形式可以为字、词语、短语或句子等。语料库中的语料源于不同领域，例如法律、医学、数学、计算机等领域，这些不同领域的语料共同构成通用领域的语料，此处的通用领域涵盖了目标领域和非目标领域。语料库中的语料根据实际场景可进一步分为源端语料和目标端语料，例如，在将英文翻译为中文的情况下，“Hello”可作为源端语料，相应的，“你好”可作为目标端语料，“Hello”与“你好”属于不同端，但具有相似的语义，在翻译过程中形成一定的映射关系。语义相似的源端语料与相应的目标端语料构成一组平行语料(Parallel Corpus)。

通用领域的语料可用于训练翻译模型，该翻译模型可基于深度神经网络构建，经过大规模的训练后可以学习到源端语料和目标端语料的特征，以及源端语料和目标端语料的映射关系。针对输入的任意领域的源端语料，该翻译模型都可进行翻译并输出相应的目标端语料。

构建语义向量的过程可以理解为对通用领域的源端语料和目标端语料进行编码以提取语料特征的过程。通过编码可以将语料库中的语料投影到一个公共的语义向量空间中，每个语料的语义向量对应于语义向量空间中的一个点。例如，语义向量可以表示为三维的向量[x,y,z]。如果两个语料的语义相似且所属领域相同，则两个语料所对应的语义向量之间的距离较小，而语义不同或者领域不同的语料所对应的语义向量之间的距离则较大。

本实施例中，语料相似、语义相似、语义向量相似都可以理解为相应的语义向量的相似度大于或等于设定阈值。在一示例中，可以采用欧式距离、余弦相似度等作为语义向量之间的相似度的评价指标。例如，语义向量空间中两个语义向量的欧式距离越小，则两个语义向量的相似度越高；当两个语义向量的欧式距离小于或等于设定距离阈值时，两个语义向量即为相似的语义向量。又如，语义向量空间中两个语义向量的余弦相似度高于或等于设定阈值时，两个语义向量即为相似的语义向量。

需要说明的是，本实施例的方法不区分语种、领域、源端或目标端，对语料库中通用领域的语料进行统一编码，在此基础上提取的语料特征更全面，可供翻译模型充分学习不同语种、不同领域或不同端的语料的特征，在实际应用时可适用于任意领域，也支持任意翻译方向，例如，可以从英文翻译成中文，也可以从中文翻译成英文。

同一个源端语料，在不同领域中可能有不同的含义，对应于不同的目标端语料。为便于理解，通过词语形式的语料举例说明，以源端语料为英文语料、目标端语料为中文语料为例，“Matrix”在数学领域的语义是矩阵，对应的目标端语料是“矩阵”；在生物学领域的语义是母体，对应的目标端语料是“母体”；在地理学领域的语义是基质，对应的目标端语料是“基质”等，这些语料属于语料库中通用领域的语料。在语义向量空间中，“Matrix”与“矩阵”的语义向量之间的距离、“Matrix”与“母体”的语义向量之间的距离、“Matrix”与“基质”的语义向量之间的距离都较小，对于基于通用领域的语料训练得到的翻译模型而言，输入“Matrix”，输出的翻译结果可能为“矩阵”、“母体”、“基质”中的一个。但如果要得到适用于目标领域(例如数学领域)的翻译模型，则至少需要将真实语义为矩阵的“Matrix”与“矩阵”这一组平行语料选取出来，用于对基于通用领域的语料训练得到的翻译模型进行进一步训练，调整翻译模型的网络参数。

S120、在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量。

在本实施例中，目标语义向量是指属于目标领域的语料编码得到的语义向量，包括目标领域的源端语料对应的语义向量以及目标领域的目标端语料对应的语义向量。例如，目标领域为数学领域，翻译方向为英文到中文，则真实语义为矩阵的“Matrix”与“矩阵”编码得到的语义向量都为目标语义向量，其中，真实语义为矩阵的“Matrix”为目标领域的源端语料，“矩阵”为目标领域的目标端语料。

在本实施例中，在语义向量空间中检索与目标语义向量相似的语义向量，构成候选向量集合，将目标语义向量和候选向量集合共同作为语料样本，从而扩展语料样本的多样性。候选向量集合包括至少一个领域的至少一端的语义向量。示例性的，目标语义向量包括真实语义为矩阵的“Matrix”与“矩阵”，在语义向量空间中，存在一些与目标语义向量相似的语义向量，例如真实语义为基质的“Matrix”、真实语义为母体的“Matrix”、“基质”、“母体”对应的语义向量等，这些语义向量构成候选向量集合，涵盖了生物学领域、地理学领域的源端、目标端等。需要说明的是，候选向量集合中包含的是与目标领域的目标语义向量相似的且是非目标领域的语义向量，这些非目标领域的语义向量来自于语料库中通用领域的源端语料以及目标端语料，且满足与目标语义向量相似。

在一示例中，目标语义向量是结合语料在目标领域内的特征编码得到的，与S110中针对通用领域特征统一编码得到的语义向量不同。检索候选向量集合的过程可以理解为，结合语料在目标领域内的特征，对目标领域内的语料进行编码得到目标语义向量，然后在语义向量空间中检索与目标语义向量距离相近的语义向量，构成候选向量集合。在此基础上，候选向量集合对应的语料也可以作为语料样本，用于进一步训练翻译模型，使翻译模型基于扩展的语料样本，能更准确地学习目标领域和非目标领域的语料的特征，从而能够更准确地执行目标领域的翻译任务，避免不同领域特征的混淆，提高翻译结果的准确性和专业性。

S130、根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。

本实施例中，针对目标领域选取语料样本时，不仅可以根据属于目标领域的目标语义向量确定语料样本，还可以根据检索到的候选向量集合，召回通用领域的语料共同构成语料样本，从而提供更丰富、更全面的目标领域和非目标领域的语料的特征。

确定语料样本的过程可以理解为，确定目标语义向量以及候选向量集合所对应的语料之间的映射关系，以形成可用于进一步训练翻译模型的输入样本和输出样本，供翻译模型学习由输入样本(即语料样本中的源端语料)到输出样本(即语料样本中的目标端语料)的翻译规律。例如，对于数学领域，当输入真实语义为矩阵的“Matrix”时，翻译模型应正确输出“矩阵”，而不会输出“基质”或“母体”等；如果没有正确输出“矩阵”，则翻译模型的网络参数还需迭代训练和调整，直至翻译模型对于目标领域的语料样本中的源端语料都能正确输出相应的目标端语料，翻译模型的训练完成，此时的翻译模型已经充分学习到目标语义向量以及与其相似的非目标领域的语义向量的特征和翻译规律能够有效区分语义相近但领域不同的语料的特征，可应用于目标领域并准确执行翻译任务。

本实施例提供的一种语料样本确定方法，通过检索候选向量集合，提高了在通用领域的语料中对非目标领域的语料样本的召回率，从而扩展了语料样本的规模，得到特征丰富的语料样本，可供翻译模型充分学习目标领域的语料样本以及召回的非目标领域的语料样本的特征。在此基础上获得的针对目标领域的语料样本，不受语种和翻译方向的限制，作为进一步训练翻译模型的依据，具有较高的可靠性。

实施例二

图2为本公开实施例二提供的一种语料样本确定方法的流程示意图，本实施例二在实施例一的基础上，对确定候选向量集合的过程进行具体化。在本实施例中，构建语料库中通用领域的源端语料以及目标端语料的语义向量，包括：根据语料的语义以及所属领域，分别对语料库中通用领域的源端语料以及目标端语料进行编码，得到对应的语义向量。通过对通用领域的语料进行统一编码，使翻译模型可以充分学习不同领域、不同端的语料的特征，在实际应用中可适用于任意领域，也支持任意翻译方向。

可选的，在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，包括：计算目标语义向量与构建的各语义向量的相似度；根据各相似度确定候选向量集合。通过计算相似度并检索由相似的语义向量构成候选向量集合，扩展了语料样本的规模和多样性。

可选的，在检索与目标领域的目标语义向量相似的候选向量集合之前，还包括：根据语料的语义，对目标领域的源端语料以及目标端语料进行编码，得到所述目标语义向量。通过根据语料在目标领域内的特征进行编码得到目标语义向量，充分考虑了不同领域的专业性和特殊性，使翻译模型更深入地学习目标领域的特征。

本实施例尚未详尽的内容请参考实施例一。

如图2所示，本公开实施例二提供的一种语料样本确定方法，包括如下步骤：

S210、根据语料的语义以及所属领域，分别对语料库中通用领域的源端语料以及目标端语料进行编码，得到对应的语义向量。

本实施例中，不区分语种、源端或目标端，根据语义和所属领域对语料库中通用领域的语料进行统一编码，得到的语义向量包含了语料的语义和领域相关信息。如果两个语料的语义相似且所属领域相同，则两个语料所对应的语义向量之间的相似度较高，而语义不同或者领域不同的语料所对应的点的语义向量之间的相似度较低。通过对通用领域的语料进行统一编码，使翻译模型可以充分学习不同领域、不同端的语料的特征，在实际应用时可适用于任意领域，也支持任意翻译方向。

S220、根据语料的语义，对目标领域的源端语料以及目标端语料进行编码，得到目标语义向量。

本实施例中，根据语料在目标领域内的特征进行编码得到目标语义向量，作为检索候选向量集合或召回相似语料的依据，充分考虑了不同领域的专业性和特殊性，使翻译模型更深入地学习目标领域的特征。

S230、计算目标语义向量与构建的各语义向量的相似度。

本实施例中，通过计算目标语义向量与构建的各语义向量的相似度，检索得到候选向量集合。其中，相似度与语义向量之间的距离有关，可基于语义向量的余弦相似度或者欧式距离表示。

S240、根据各相似度确定候选向量集合。

本实施例中，选取与目标语义向量相似的语义向量构成候选向量集合。例如，将语义向量空间中，与目标语义向量的相似度大于或等于设定阈值的语义向量构成候选向量集合；或者，将语义向量空间中，与目标语义向量的相似度最高的设定数量的语义向量构成候选向量集合；或者，在语义向量空间中选取预定比例的、与目标语义向量的相似度最高的语义向量构成候选向量集合等。

S250、根据目标语义向量和候选向量集合确定目标领域对应的语料样本。

在上述基础上，检索与目标领域的目标语义向量相似的候选向量集合，包括以下至少之一：检索与目标领域的源端语义向量相似的非目标领域的源端语义向量；检索与目标领域的源端语义向量相似的非目标领域的目标端语义向量；检索与目标领域的目标端语义向量相似的非目标领域的源端语义向量；检索与目标领域的目标端语义向量相似的非目标领域的目标端语义向量。

本实施例中，在对目标语义向量进行候选向量集合的检索过程中，先将目标领域内的单语语料(包括目标领域的源端语料与目标端语料)编码，得到目标语义向量，再从已构建的语义向量中检索通用领域中与目标语义向量相似的候选向量集合，将目标领域的语料和根据候选向量集合召回的通用领域的语料共同作为语料样本。其中，对通用领域的语料构建的语义向量实质上是多语言语义向量，提取的是各个语种、各个领域共同的特征。本实施例根据上述四种检索方式，存在四种相应的召回方式，以提高语料样本的召回率：根据目标领域的源端语料召回通用领域的源端语料；根据目标领域的源端语料召回通用领域的目标端语料；根据目标领域的目标端语料召回通用领域源端语料；根据目标领域的目标端语料召回通用领域目标端语料。

例如，目标领域为数学领域，翻译方向为英文到中文，非目标领域的语料可通过以下任意方式召回：

根据目标领域内真实语义为矩阵的“Matrix”，可以召回非目标领域的真实语义为基质的“Matrix”以及真实语义为母体的“Matrix”；

根据目标领域内真实语义为矩阵的“Matrix”，可以召回非目标领域的“基质”和“母体”；

根据目标领域内“矩阵”，可以召回非目标领域的真实语义为基质的“Matrix”以及真实语义为母体的“Matrix”；

根据目标领域内“矩阵”，可以召回非目标领域的“基质”和“母体”。

在此基础上，语料样本中除了包括目标领域的源端语料到目标领域的目标端语料，还包括非目标领域的源端到非目标领域的目标端语料；用此语料样本作为训练数据，既能够提供目标领域的源端语料到目标领域的目标端语料的特征和映射关系，也能够提供非目标领域的源端语料到非目标领域的目标端语料的特征和映射关系。

图3为本公开实施例二提供的一种召回通用领域的语料的示意图。如图3所示，为目标领域的语料构建目标语义向量；为通用领域的语料构建语义向量，构成语义向量空间；通过计算目标语义向量与语义向量空间中各语义向量的相似度，检索与目标语义向量相似的候选向量集合，据此在语料库通用领域的语料中，召回与目标领域的源端语料和目标端语料相似的语料，与目标领域的语料共同构成语料样本。

本公开实施例二提供的一种语料样本确定方法，通过对通用领域的语料进行统一编码，使翻译模型可以充分学习不同领域、不同端的语料的特征，在实际应用时可适用于任意领域，也支持任意翻译方向；通过计算相似度并检索由相似的语义向量构成候选向量集合，扩展了语料样本的规模和多样性，在语料样本中增加了非目标领域中的源端语料到目标端语料的特征映射关系，可供翻译模型充分学习目标领域以及召回的非目标领域的语料样本的特征；通过根据语料在目标领域内的特征进行编码得到目标语义向量，充分考虑了不同领域的专业性和特殊性，使翻译模型更有针对性地学习并区分领域专业性的特征。

实施例三

图4为本公开实施例三提供的一种语料样本确定方法的流程示意图。实施例三在上述实施例的基础上，对确定语料样本的过程进行具体化，明确了如何确定语料样本中的源端语料和目标端语料。

可选的，根据各相似度确定候选向量集合，包括：基于最近邻(k-NearestNeighbor)搜索算法，在构建的语义向量中检索与目标语义向量相似度最高的设定数量的语义向量，构成候选向量集合。在保证目标语义向量与候选向量集合的相似度的基础上，扩展了语料样本的多样性，在语料样本中增加了非目标领域中的源端语料到目标端语料的特征和映射关系，使得语料样本具有更丰富的特征和更具专业性的训练价值。

可选的，在根据目标语义向量和候选向量集合确定语料样本之后，还包括：根据语料样本训练翻译模型，其中，翻译模型根据语料库中通用领域的源端语料以及目标端语料建立。通过将语料样本用于训练翻译模型，提高了翻译模型针对不同领域翻译的专业性和可靠性。由于语料样本中包括目标领域和非目标领域的语料，也提高了翻译模型对任意领域的适用性，而无需针对每个领域都选取独立的语料样本进行训练。

本实施例尚未详尽的内容请参考上述实施例。

如图4所示，本公开实施例三提供的一种语料样本确定方法，包括如下步骤：

S310、构建语料库中通用领域的源端语料以及目标端语料的语义向量。

S320、计算目标语义向量与构建的各语义向量的相似度。

S330、基于最近邻搜索算法，在构建的语义向量中检索与目标语义向量相似度最高的设定数量的语义向量，构成候选向量集合。

本实施例中，基于最近邻搜索算法，将目标语义向量与语义向量空间中距离最近的若干个相邻的语义向量，视为相似的语义向量，对应的语料视为相似的语料，共同加入语料样本。

其中，检索与目标领域的目标语义向量相似的候选向量集合，包括以下至少之一：检索与目标领域的源端语义向量相似的非目标领域的源端语义向量；检索与目标领域的源端语义向量相似的非目标领域的目标端语义向量；检索与目标领域的目标端语义向量相似的非目标领域的源端语义向量；检索与目标领域的目标端语义向量相似的非目标领域的目标端语义向量。

S340、根据目标语义向量和候选向量集合确定目标领域对应的语料样本。

本实施例中，确定语料样本的过程包括确定根据目标语义向量和检索的候选向量集合，将目标领域的语料以及召回的通用领域的语料作为语料样本，并且确定语料样本中的语料的映射关系，即在训练翻译模型时，哪些语料可作为翻译前的语料，哪些可作为翻译后的语料。

具体的，根据目标语义向量和候选向量集合确定目标领域对应的语料样本，包括：将目标领域的源端语义向量对应的语料作为翻译前的语料，将与目标领域的源端语义向量相似的目标领域的目标端语义向量对应的语料作为翻译后的语料；还包括以下至少之一：将与目标领域的源端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与目标领域的目标端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；将与目标领域的源端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与目标领域的源端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；将与目标领域的目标端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与目标领域的目标端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；将与目标领域的目标端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与目标领域的源端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料。

具体的，对于目标领域的语料，将目标领域的源端语料作为翻译前的语料，将目标领域的目标端语料作为翻译后的语料。

对于非目标领域的语料，将非目标领域的源端语料作为翻译前的语料，将非目标领域的目标端语料作为翻译后的语料，其中，非目标领域的源端语料可能是根据与目标领域的源端语料召回的，也可能是根据与目标领域的目标端语料召回的；非目标领域的目标端端语料可能是根据与目标领域的源端语料召回的，也可能是根据与目标领域的目标端语料召回的。

例如，目标领域为数学领域，翻译方向为英文到中文，召回的非目标领域的语料包括真实语义为基质的“Matrix”、真实语义为母体的“Matrix”、“基质”和“母体”。

对于目标领域的语料，将真实语义为矩阵的“Matrix”作为翻译前的语料，将“矩阵”作为翻译后的语料；

而对于非目标领域的语料，将真实语义为基质的“Matrix”作为翻译前的语料，将“基质”作为翻译后的语料；将真实语义为母体的“Matrix”作为翻译前的语料，将“母体”作为翻译后的语料。

S350、根据语料样本训练翻译模型，其中，翻译模型根据语料库中通用领域的源端语料以及目标端语料建立。

本实施例中，首先利用语料库中通用领域的源端语料以及目标端语料训练一个通用领域的跨语种的翻译模型，然后利用针对目标领域确定的语料样本进一步训练该翻译模型，调整翻译模型的网络参数，实现翻译模型的领域适应。在利用语料样本训练翻译模型的过程中，不仅包括将目标领域的源端语料和目标端语料分别作为输入样本和输出样本用于翻译模型的进一步训练，还包括将召回的非目标领域的源端语料和目标端语料分别作为输入样本和输出样本用于翻译模型的进一步训练，从而得到专业性更高的翻译模型，能够支持任意领域、任意翻译方向、任意语种的准确翻译。

示例性的，翻译模型包括多层语义编码器和一个单层语义解码器，其中，编码器、解码器可以采用循环神经网络(Recurrent Neural Network,RNN)的架构实现，例如长短期记忆网络(Long Short-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)、Transformer模型等。语料库中通用领域的所有语种、所有方向的语料均在同一个模型上进行训练。

图5为本公开实施例三提供的一种翻译模型的示意图。如图5所示，该翻译模型包括编码网络，用于提取语料样本中语料(x₁,x₂,…x_N)的语义特征；解码网络，用于对语义特征进行解码，即根据各语料的语义特征，为源端语料确定相似度最高的目标端语料，得到源端语料和目标端语料的映射关系。在实际应用中，如果输入待翻译的语料y₀和y₁，y₀和y₁首先会被翻译模型按照编码规则进行编码，解码网络根据编码所提取到的特征进行解码，分别找到相应的语料y2和y3，作为相应的翻译结果。需要说明的是，该翻译模型是基于语料库中通用领域的语料建立的，然后基于针对目标领域的语料样本进一步训练，调整网络参数，从而具有更高的专业性，可适用于任意专业领域，翻译的准确性更高。

本公开实施例三提供的一种语料样本确定方法，利用目标领域的语料以及召回的通用领域的语料共同构成目标领域的语料样本，在语料样本中增加了非目标领域中的源端语料到目标端语料的特征和映射关系，使得语料样本具有更丰富的特征和更具专业性的训练价值；通过将通用领域的语料编码成多语言语义向量，初步训练得到翻译模型，然后将目标领域的语料样本用于训练翻译模型，提高了翻译模型针对不同领域翻译的专业性和可靠性，能够支持任意领域、任意翻译方向、任意语种的准确翻译。

实施例四

图6为本公开实施例四提供的一种语料样本确定装置的结构示意图，该装置可适用于针对特定领域的机器翻译选取语料样本的情况，具体的，用于在涉及不同领域的语料库中选取语料样本，用于训练特定领域的翻译模型的情况。其中该装置可由软件和/或硬件实现，并一般集成在电子设备上。

如图6所示，该装置包括：构建模块410、检索模块420以及样本确定模块430。

构建模块410，用于构建语料库中通用领域的源端语料以及目标端语料的语义向量；

检索模块420，用于在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，候选向量集合包括至少一个领域的至少一端的语义向量；

样本确定模块430，用于根据目标语义向量和候选向量集合确定目标领域对应的语料样本。

在本实施例中，首先通过构建模块构建语料库中通用领域的源端语料以及目标端语料的语义向量，然后通过检索模块在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，候选向量集合包括至少一个领域的至少一端的语义向量，最后通过样本确定模块根据目标语义向量和候选向量集合确定目标领域对应的语料样本。通过上述技术方案，利用目标语义向量以及与其相似的候选向量集合共同构建目标领域对应的语料样本，扩展了语料样本的规模，提高了语料样本的多样性。

在上述基础上，构建模块410，具体用于：

根据语料的语义以及所属领域，分别对所述语料库中通用领域的源端语料以及目标端语料进行编码，得到对应的语义向量。

在上述基础上，检索模块420，包括：

计算单元，用于计算所述目标语义向量与构建的各语义向量的相似度；

集合确定单元，用于根据各所述相似度确定所述候选向量集合。

在上述基础上，集合确定单元，具体用于：

基于最近邻搜索算法，在构建的语义向量中检索与所述目标语义向量相似度最高的设定数量的语义向量，构成所述候选向量集合。

在上述基础上，所述目标语义向量包括目标领域的源端语义向量和目标领域的目标端语义向量；

所述检索与目标领域的目标语义向量相似的候选向量集合，包括以下至少之一：

检索与目标领域的源端语义向量相似的非目标领域的源端语义向量；

检索与目标领域的源端语义向量相似的非目标领域的目标端语义向量；

检索与目标领域的目标端语义向量相似的非目标领域的源端语义向量；

检索与目标领域的目标端语义向量相似的非目标领域的目标端语义向量。

在上述基础上，样本确定模块430，具体用于：

将目标领域的源端语义向量对应的语料作为翻译前的语料，将与所述目标领域的源端语义向量相似的目标领域的目标端语义向量对应的语料作为翻译后的语料；

还用于以下至少之一：

将与目标领域的源端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与所述目标领域的目标端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；

将与目标领域的源端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与所述目标领域的源端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；

将与目标领域的目标端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与所述目标领域的目标端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料；

将与目标领域的目标端语义向量相似的非目标领域的源端语义向量对应的语料作为翻译前的语料，将与所述目标领域的源端语义向量相似的非目标领域的目标端语义向量对应的语料作为翻译后的语料。

在上述基础上，还包括：

编码模块，用于在检索与目标领域的目标语义向量相似的候选向量集合之前，根据语料的语义，对目标领域的源端语料以及目标端语料进行编码，得到所述目标语义向量。

在上述基础上，还包括：

训练模块，用于在根据所述目标语义向量和所述候选向量集合确定语料样本之后，根据所述语料样本训练翻译模型，其中，所述翻译模型根据语料库中通用领域的源端语料以及目标端语料建立。

上述语料样本确定装置可执行本公开任意实施例所提供的语料样本确定方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7为本公开实施例五提供的一种电子设备的结构示意图。图7示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的电子设备600包括但不限于笔记本电脑、平板电脑、台式计算机、服务器等。图7示出的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备600可以包括一个或多个处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。一个或多个处理装置601实现如本公开提供的方法。在RAM603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线605彼此相连。输入/输出(I/O)接口604也连接至总线605。

通常，以下装置可以连接至I/O接口604：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608，存储装置608用于存储一个或多个程序；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备600中所包含的；也可以是单独存在，而未装配入该电子设备600中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备600：构建语料库中通用领域的源端语料以及目标端语料的语义向量；在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，其中，所述候选向量集合包括至少一个领域的至少一端的语义向量；根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种语料样本确定方法，包括：

根据本公开的一个或多个实施例，示例2根据示例1所述的方法，构建语料库中通用领域的源端语料以及目标端语料的语义向量，包括：

根据本公开的一个或多个实施例，示例3根据示例1所述的方法，在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，包括：

计算所述目标语义向量与构建的各语义向量的相似度；

根据各所述相似度确定所述候选向量集合。

根据本公开的一个或多个实施例，示例4根据示例3所述的方法，根据各所述相似度确定所述候选向量集合，包括：

根据本公开的一个或多个实施例，示例5根据示例1所述的方法，

所述目标语义向量包括目标领域的源端语义向量和目标领域的目标端语义向量；

根据本公开的一个或多个实施例，示例6根据示例5所述的方法，

根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本，包括：

还包括以下至少之一：

根据本公开的一个或多个实施例，示例7根据示例1所述的方法，在检索与目标领域的目标语义向量相似的候选向量集合之前，还包括：

根据语料的语义，对目标领域的源端语料以及目标端语料进行编码，得到所述目标语义向量。

根据本公开的一个或多个实施例，示例8根据示例1所述的方法，

在根据所述目标语义向量和所述候选向量集合确定语料样本之后，还包括：

根据所述语料样本训练翻译模型，其中，所述翻译模型根据语料库中通用领域的源端语料以及目标端语料建立。

根据本公开的一个或多个实施例，示例9提供了一种语料样本确定装置，包括：

根据本公开的一个或多个实施例，示例10提供了一种电子设备，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现如示例1-8中任一所述的方法。

根据本公开的一个或多个实施例，示例116提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现如示例1-8中任一所述的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语料样本确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，构建语料库中通用领域的源端语料以及目标端语料的语义向量，包括：

3.根据权利要求1所述的方法，其特征在于，在构建的语义向量中，检索与目标领域的目标语义向量相似的候选向量集合，包括：

计算所述目标语义向量与构建的各语义向量的相似度；

根据各所述相似度确定所述候选向量集合。

4.根据权利要求3所述的方法，其特征在于，根据各所述相似度确定所述候选向量集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标语义向量包括目标领域的源端语义向量和目标领域的目标端语义向量；

6.根据权利要求5所述的方法，其特征在于，根据所述目标语义向量和所述候选向量集合确定目标领域对应的语料样本，包括：

还包括以下至少之一：

7.根据权利要求1所述的方法，其特征在于，在检索与目标领域的目标语义向量相似的候选向量集合之前，还包括：

8.根据权利要求1所述的方法，其特征在于，在根据所述目标语义向量和所述候选向量集合确定语料样本之后，还包括：

9.一种语料样本确定装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的语料样本确定方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的语料样本确定方法。