CN111460804B

CN111460804B - 文本处理方法、装置和系统

Info

Publication number: CN111460804B
Application number: CN201910002383.9A
Authority: CN
Inventors: 包祖贻; 李辰; 刘恒友; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2023-05-02
Anticipated expiration: 2039-01-02
Also published as: CN111460804A

Abstract

本申请公开了一种文本处理方法、装置和系统。其中，该方法包括：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。本申请解决了相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的技术问题。

Description

文本处理方法、装置和系统

技术领域

本申请涉及自然语言处理领域，具体而言，涉及一种文本处理方法、装置和系统。

背景技术

对于像英文、中文等语种，经过多年的积累，人工标注了大量的词典、数据，这些数据使得监督学习的机器学习算法能够得到充分的训练，学习的模型在各个自然语言处理的任务上取得了令人瞩目的效果。然而，对于很多小语种，例如，俄语、泰语，人工标注的资源稀缺，导致传统的监督学习的机器学习算法无法取得较好的效果。而且对世界上每一种语种都标注大量数据的代价非常昂贵，无法得到较多标注数据。

为了解决上述问题，可以利用英文、中文等资源丰富的语种中标注的数据辅助低资源语种的模型学习，相关技术中提供了一种借助翻译的迁移学习方法，使用已有的翻译算法、模型将高资源语种的标注数据翻译到低地缘语种上，利用翻译的数据训练低资源语种的模型。但是，该方法需要的翻译模型本身需要大量的标注数据，训练代价高昂，在很多语种中无法满足，另外，收到翻译模型本身性能的限制，翻译的数据和真实数据并不一致。

针对相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本处理方法、装置和系统，以至少解决相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种文本处理方法，包括：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

根据本申请实施例的另一方面，还提供了一种文本处理装置，包括：第一获取模块，用于获取目标语种的语句数据；第二获取模块，用于获取语句数据对应的词向量序列；第一处理模块，用于利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行如下步骤：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

根据本申请实施例的另一方面，还提供了一种计算设备，包括：处理器，处理器用于运行程序，其中，在程序运行时执行以下步骤：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

根据本申请实施例的另一方面，还提供了一种文本处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

在本申请实施例中，在获取到目标语种的语句数据之后，首先获取语句数据对应的词向量序列，然后利用通过至少两个语种的语料集合和两个语种之间的双语映射模型得到的语言模型进行识处理，得到最终的识别结果，实现将高资源语种的知识迁移到低资源语种中的目的。与现有技术相比，通过至少两个语种的语料集合和两个语种之间的双语映射模型得到语言模型，无需使用平行双语语料，不会因为翻译的质量二与真实语句产生不一致，仅利用双语映射模型约束语言模型在单语语料上的训练过程，使得语言模型的隐层标识能够自动对齐，实现不同语种之间的迁移学习，达到了降低使用资源，降低成本，提高实际中的可行性和易用性，更好地学习到语意，提高语言处理准确率的技术效果，进而解决了相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种文本处理方法的流程图；

图3是根据本申请实施例的一种可选的文本处理方法的示意图；

图4是根据本申请实施例的一种文本处理装置的示意图；以及

图5是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

低资源语种：可以是指该语种的各种人工标注的词典、训练数据较少，由于缺少资源，传统的监督学习效果不佳。

跨语种迁移学习：可以是指将一种语种的知识、信息迁移到另一种语种，一般是从高资源语种迁移到低资源语种，辅助低资源语种的模型学习。

语言模型：可以是一种机器学习模型，用于建模一段连续序列的概率分布模型。

双向LSTM网络：LSTM(Long Short-Term Memory)可以是长短期记忆网络，是一种时间递归神经网络，适用于处理和预测时间序列中间隔和延迟相对较长的重要事件。双向LSTM网络可以同时利用过去时刻和未来时刻两个方向上的信息，使得最终的预测更加准确。

困惑度：可以用来度量一个概率分布或概率模型预测样本的好坏程度，低困惑度的概率分布模型或概率模型能够更好的预测样本。

实施例1

根据本申请实施例，还提供了一种文本处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的计算设备，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的文本处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的文本处理方法。图2是根据本申请实施例的一种文本处理方法的流程图。如图2所示，该方法包括如下步骤：

步骤S202，获取目标语种的语句数据。

具体地，上述的目标语种可以是低资源语种，也即，可以是小语种，例如，俄语、泰语等，但不仅限于此。为了提高处理效率，可以利用语言模型对用户输入的语句进行处理。

步骤S204，获取语句数据对应的词向量序列。

具体地，对于机器学习算法，为了方便处理器的处理流程，需要将语句数据转换为向量序列，语句数据中每个词语对应有词向量矩阵，按照语句数据中每个词语的顺序，将所有的词向量矩阵进行组合，即可得到词向量序列。

例如，用户输入的语句SA＝[wa1，wa2，…]，其中，wai用于表示该语句中包含的每个词语，对于该语句中的每个词语，可以根据预先设置的对映关系，获取每个词语的词向量矩阵Emb_A，并将所有词语的词向量矩阵进行组合，可以得到相应的词向量序列为EA＝[ea1，ea2，…]，其中，eai用于表示该语句中包含的每个词语的词向量矩阵。

步骤S206，利用语言模型对词向量序列进行处理，得到语句数据的识别结果，其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

具体地，上述的语言模型可以是一个跨语种的语言模型，为了利用在英文、中文等资源丰富的语种中标注的数据来辅助低资源语种中语言模型的学习，可以通过低资源语种以及资源丰富的语种的语料，结合双语词典(即上述的双语映射模型)训练得到跨语种的语言模型，从而通过训练好的语言模型作为桥梁，可以将高资源的语种的知识迁移到低资源的语种上。

上述的语言模型可以是两个语种之间共享的双向LSTM网络，两个LSTM单元从左至右和从右至左，但不仅限于此，上述的语言模型也可以是其他网络结构的神经网络语言模型。

在本申请实施例中，为了降低训练语言模型的语料量，可以通过两个语种的语料集合，以及这两个语种之间的双语映射模型，进行跨语种的语言模型的训练。进一步地，为了避免两个语种之间语料翻译的质量与真实语句产生的不一致性，每个语种的语料可以采用单语语料，而不是平行双语语料，也即，语料之间并不是翻译关系。

例如，双向LSTM网络可以通过语种A和语种B的语料，以及双语词典训练得到，在得到用户输入的语句的词向量序列EA之后，可以将词向量序列EA输入至双向LSTM网络，产生语句上下文的隐层表示，从而最终的识别结果，即得到语句SA的语意。

基于本申请上述实施例提供的方案，在获取到目标语种的语句数据之后，首先获取语句数据对应的词向量序列，然后利用通过至少两个语种的语料集合和两个语种之间的双语映射模型得到的语言模型进行识处理，得到最终的识别结果，实现将高资源语种的知识迁移到低资源语种中的目的。与现有技术相比，通过至少两个语种的语料集合和两个语种之间的双语映射模型得到语言模型，无需使用平行双语语料，不会因为翻译的质量二与真实语句产生不一致，仅利用双语映射模型约束语言模型在单语语料上的训练过程，使得语言模型的隐层标识能够自动对齐，实现不同语种之间的迁移学习，达到了降低使用资源，降低成本，提高实际中的可行性和易用性，更好地学习到语意，提高语言处理准确率的技术效果，进而解决了相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的技术问题。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：获取语料集合对应的词向量序列；基于语料集合和双语映射模型，得到词对集合，其中，词对集合包括：两个语种的语料集合中，具有映射关系的词向量矩阵；利用词向量序列和词对集合对第一模型进行训练，得到语言模型。

具体地，上述的第一模型可以是未经过训练的语言模型，例如，可以是双向LSTM网络，也可以是其他网络结构的神经网络语言模型。

在一种可选的方案中，在获取到不同语种的语料集合之后，可以获取每个训练语句的词向量序列，并获取到整个语料集合中所有词语的词向量矩阵，通过已有的双语词典，可以得到两个语种之间词语的映射关系，进一步根据具有映射关系的词向量矩阵，生成词对集合，将词对集合作为语言模型的空间约束。在利用语料集合中每个训练语句的词向量序列对语言模型进行训练的过程中，可以通过词对集合对语言模型的训练过程进行约束，在学习过程中自动对齐语言模型中间隐层表示。

例如，仍以两个语种的语料集合对语言模型进行训练为例，其中，语种A为低资源语种，语种B为高资源语种，语种A的输入语句SA＝[wa1，wa2，…]，语种B的输入语句SB＝[wb1，wb2，…]，根据语种A的词向量矩阵Emb_A和语种B的词向量矩阵Emb_B，得到语句SA的词向量序列EA＝[ea1，ea2，…]，语句SB的词向量序列EB＝[eb1，eb2，…]。进一步根据语种A和语种B之间的双语词典，可以得到词对集合{(wai,wbj)，…}。利用词向量序列EA＝[ea1，ea2，…]和词向量序列EB＝[eb1，eb2，…]进行训练，并结合词对集合{(wai,wbj)，…}作为空间约束，训练得到共享的双向LSTM网络。

需要说明的是，对于语种A中的一个词语，在语种B中通常会对应多个词语，则可以将语种B中的每个词语作为一个词对，例如，语种A中的词语wa1，与语种B中的词语wb1和wb2对应，则可以确定词对集合为{(ea1,eb1)，(ea1,eb2)}，其中，ea1为词语wa1的词向量矩阵，eb1为词语wb1的词向量矩阵，eb2为词语wb2的词向量矩阵。

可选地，本申请上述实施例中，利用词向量序列和词对集合对第一模型进行训练，得到语言模型，包括：将词向量序列输入至第一模型，并获取第一模型的输出结果；将输出结果输入至第一损失函数，得到第一损失值；将词对集合输入至第二损失函数，得到第二损失值；基于第一损失值和第二损失值，确定语言模型是否训练完成。

可选地，第一损失函数的参数矩阵包括：词向量序列中包含的词向量矩阵。

具体地，上述的第一损失函数可以是语言模型中使用的损失函数softmax，可以使用每个语种的语料集合中的词向量矩阵作为softmax的参数矩阵，例如，对于语种A和语种B，可以将词向量矩阵Emb_A，Emb_B作为softmax的参数矩阵。上述的第二损失函数可以是空间约束损失函数，可以根据词对集合确定。

在一种可选的方案中，可以将每个语种的词向量序列输入第一模型中，第一模型输出语句上下文的隐层表示，进一步输入至第一损失函数，也即通过每个语种的词向量矩阵，得到每个语种的语句的第一损失值(即语句的困惑度)。同时，根据词对集合可以计算空间约束损失函数的函数值，得到第二损失值，集合两个损失函数的损失值，可以确定语言模型是否训练完成，如果训练完成，则训练好的语言模型为最终的跨语言的语言模型；如果训练未完成，则继续训练语言模型。

例如，仍以两个语种的语料集合对语言模型进行训练为例，语种A的词向量序列EA＝[ea1，ea2，…]和语种B的词向量序列EB＝[eb1，eb2，…]经过一个共享的双向LSTM网络，得到隐层表示为HA＝[ha1，ha2，…]和HB＝[hb1，hb2，…]，进一步得到语种A的困惑度和语种B的困惑度。由于词向量矩阵Emb_A和Emb_B的约束对齐，使得HA和HB自动对齐。根据词对集合{(wai,wbj)，…}，可以得到空间约束损失loss_emb_reg。结合语种A的困惑度、语种B的困惑度以及空间约束损失，可以确定双向LSTM网络是否训练完成。

可选地，本申请上述实施例中，将词对集合输入至第二损失函数，得到第二损失值，包括：获取具有映射关系的词向量矩阵之间的距离；获取词对集合中所有具有映射关系的词向量矩阵之间的距离的平均值，得到第二损失值。

具体地，上述的距离可以是欧式距离。

在一种可选的方案中，对于词对集合{(wai,wbj)，…}，可以通过如下公式计算得到空间约束损失loss_emb_reg，即上述的第二损失值：loss_emb_reg＝mean({distance(eai,ebj)，…})，其中，distance为空间中的距离。

可选地，本申请上述实施例中，基于第一损失值和第二损失值，确定语言模型是否训练完成，包括：获取第一损失值和第二损失值的加权和，得到第三损失值；判断第三损失值是否小于等于预设值；在第三损失值小于等于预设值的情况下，确定语言模型训练完成；在第三损失值大于预设值的情况下，继续利用词向量序列和词对集合对第一模型进行训练。

具体地，由于损失值有多个，为了结合多个损失值，可以预先为不同的损失值设置不同的权重，通过对多个损失值进行加权和运算，并将得到的第三损失值作为语言模型的最终损失值。为了提高语言处理准确率，需要语言模型的最终损失值越小，可以预先设置能够确保处理准确率的损失阈值，即上述的预设值。如果语言模型的最终损失值小于该损失阈值，则表明语言模型训练完成；如果语言模型的最终损失值大于该损失阈值，则表明语言模型训练未完成，需要再次进行训练，以降低语言模型的最终损失值。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：将词向量序列输入至第一模型，并获取第一模型的输出结果；利用输出结果对第二模型进行训练，得到序列标注模型。

具体地，上述的序列标注模型可以是跨语言序列标注模型。

在一种可选的方案中，在训练跨语言的语言模型的过程中，在得到双向LSTM网络的隐层输出之后，可以利用隐层输出结果训练跨语言序列标注模型，以提升低资源语种的标注效果。

可选地，本申请上述实施例中，利用序列标注模型对语句数据的识别结果进行处理，得到语句数据的序列标注结果。

在一种可选的方案中，当用户需要得到输入语句的序列标注结果时，可以获取输入语句的词向量序列，并利用语言模型对词向量序列进行处理，得到隐层输出结果，进一步将隐层输出结果输入至训练好的跨语言序列标注模型中，从而得到最终的序列标注结果。

可选地，本申请上述实施例中，步骤S204，获取语句数据对应的词向量序列，包括：获取语句数据中包含的至少一个词语；获取至少一个词语对应的词向量矩阵；基于至少一个词语对应的词向量矩阵，生成词向量序列。

在一种可选的方案中，不同语种预先设置有词向量矩阵，在获取到用户输入的语句之后，可以对语句中的词语进行分词，并根据预先设置的词向量矩阵，确定每个词语的词向量矩阵，进一步根据每个词语在语句中的位置，将每个词语的词向量矩阵进行组合，得到整个语句的词向量序列。

例如，仍以两个语种的语料集合对语言模型进行训练为例，语种A的词向量矩阵为Emb_A，语种B的词向量矩阵为Emb_B，语种A的输入语句SA＝[wa1，wa2，…]，语种B的输入语句SB＝[wb1，wb2，…]，对于语句SA中的每个词语wai，语句SB中的每个词语wbi，根据相应的词向量矩阵，可以确定每个词语wai对应的词向量矩阵eai，每个词语wbi对应的词向量矩阵ebi，进一步得到语句SA的词向量序列EA＝[ea1，ea2，…]，语句SB的词向量序列EB＝[eb1，eb2，…]。

下面结合图3对本申请一种优选的实施例进行详细说明。如图3所示，对于语种A的输入句子和语种B的输入句子，经过相应语种的词向量矩阵，映射为向量表示，得到句子的词向量序列。通过已有的双语词典，可以得到语种A和语种B中词语的简单对应关系，并计算出相应的空间约束损失。将语句的词向量序列经过一个共享的双向LSTM网络，产生句子上下文的隐层标识，每个句子的隐层输出通过捆绑的词向量矩阵，输出每个句子的困惑度。结合每个句子的困惑度和空间约束损失，完成整个训练过程。每个句子的隐层输出可以通过跨语言序列标注模型，得到序列标注结果。

例如，对于语种A和B，各输入句子SA＝[wa1，wa2，…]，SB＝[wb1，wb2，…]，对句子SA、SB中的每个词，根据对映关系，经过各自语种的词向量矩阵Emb_A，Emb_B，得到句子的词向量序列EA＝[ea1，ea2，…]，EB＝[eb1，eb2，…]；根据双语词典，得到对映的词对集合{(wai,wbj)，…}，进一步得到空间约束损失loss_emb_reg＝mean({distance(eai,ebj)，…})，其中distance为空间中的距离度量；句子的词向量序列EA＝[ea1，ea2，…]，EB＝[eb1，eb2，…]经过一个共享的双向LSTM网络，得到隐层表示HA＝[ha1，ha2，…]，HB＝[hb1，hb2，…]；使用捆绑的输入词向量矩阵，即Emb_A，Emb_B作为softmax的参数矩阵，计算得到困惑度，训练过程中，由于Emb_A，Emb_B在空间约束损失中的约束对齐，使得隐层表示HA，HB自动对齐；将隐层表示HA，HB输出到跨语言序列标注模型作为跨语言的词表示。

通过上述方案，仅利用双语词典，约束语言模型在单语语料上的训练过程，使得语言模型的隐层表示能够自动对齐。利用这样的隐层表示即可在不同语言之间做迁移学习。无需平行双语预料，使用资源更少，在实际中更具有可行性和易用性。同时，保留了单语本身的特点，不会因为翻译的质量而与真实句子产生不一致性。最后，由于使用了深层的词表示，相对于浅层的词向量，能更好地学习到语意。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述文本处理方法的文本处理装置，如图4所示，该装置400包括：第一获取模块402、第二获取模块404和第一处理模块406。

其中，第一获取模块，用于获取目标语种的语句数据；第二获取模块，用于获取语句数据对应的词向量序列；第一处理模块，用于利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

具体地，上述的目标语种可以是低资源语种，也即，可以是小语种，例如，俄语、泰语等，但不仅限于此。为了提高处理效率，可以利用语言模型对用户输入的语句进行处理。对于机器学习算法，为了方便处理器的处理流程，需要将语句数据转换为向量序列，语句数据中每个词语对应有词向量矩阵，按照语句数据中每个词语的顺序，将所有的词向量矩阵进行组合，即可得到词向量序列。

上述的语言模型可以是一个跨语种的语言模型，为了利用在英文、中文等资源丰富的语种中标注的数据来辅助低资源语种中语言模型的学习，可以通过低资源语种以及资源丰富的语种的语料，结合双语词典(即上述的双语映射模型)训练得到跨语种的语言模型，从而通过训练好的语言模型作为桥梁，可以将高资源的语种的知识迁移到低资源的语种上。上述的语言模型可以是两个语种之间共享的双向LSTM网络，两个LSTM单元从左至右和从右至左，但不仅限于此，上述的语言模型也可以是其他网络结构的神经网络语言模型。

此处需要说明的是，上述第一获取模块402、第二获取模块404和第一处理模块406对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

可选地，本申请上述实施例中，如图4所示，该装置还包括：第三获取模块408、第二处理模块410和第一训练模块412。

其中，第三获取模块408用于获取语料集合对应的词向量序列；第二处理模块410用于基于语料集合和双语映射模型，得到词对集合，其中，词对集合包括：两个语种的语料集合中，具有映射关系的词向量矩阵；第一训练模块412用于利用词向量序列和词对集合对第一模型进行训练，得到语言模型。

可选地，本申请上述实施例中，第一训练模块包括：第一输入子模块、第二输入子模块、处理子模块和确定子模块。

其中，第一输入子模块用于将词向量序列输入至第一模型，并获取第一模型的输出结果；第二输入子模块用于将输出结果输入至第一损失函数，得到第一损失值；处理子模块用于将词对集合输入至第二损失函数，得到第二损失值；确定子模块用于基于第一损失值和第二损失值，确定语言模型是否训练完成。

可选地，本申请上述实施例中，处理子模块包括：第一获取单元和第二获取单元。

其中，第一获取单元用于获取具有映射关系的词向量矩阵之间的距离；第二获取单元用于获取词对集合中所有具有映射关系的词向量矩阵之间的距离的平均值，得到第二损失值。

可选地，本申请上述实施例中，确定子模块包括：第三获取单元、判断单元、第一确定单元和训练单元。

其中，第三获取单元用于获取第一损失值和第二损失值的加权和，得到第三损失值；判断单元用于判断第三损失值是否小于等于预设值；第一确定单元挺讨厌在第三损失值小于等于预设值的情况下，确定语言模型训练完成；训练单元用于在第三损失值大于预设值的情况下，继续利用词向量序列和词对集合对第一模型进行训练。

可选地，本申请上述实施例中，如图4所示，该装置还包括：第四获取模块414和第二训练模块416。

其中，第四获取模块414用于将词向量序列输入至第一模型，并获取第一模型的输出结果；第二训练模块416用于利用输出结果对第二模型进行训练，得到序列标注模型。

具体地，上述的序列标注模型可以是跨语言序列标注模型。

可选地，本申请上述实施例中，该装置还包括：第三处理模块。

其中，第三处理模块用于利用序列标注模型对语句数据的识别结果进行处理，得到语句数据的序列标注结果。

可选地，本申请上述实施例中，第二获取模块包括：第一获取子模块、第二获取子模块和生成子模块。

其中，第一获取子模块用于获取语句数据中包含的至少一个词语；第二获取子模块用于获取至少一个词语对应的词向量矩阵；生成子模块用于基于至少一个词语对应的词向量矩阵，生成词向量序列。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，但不仅限于实施例1中的相关描述，在此不在赘述。

实施例3

根据本申请实施例，还提供了一种文本处理系统，包括：

处理器。以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行文本处理方法中以下步骤的程序代码：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

可选地，图5是根据本申请实施例的一种计算机终端的结构框图。如图5所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器502以及存储器504。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的文本处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

可选的，上述处理器还可以执行如下步骤的程序代码：获取语料集合对应的词向量序列；基于语料集合和双语映射模型，得到词对集合，其中，词对集合包括：两个语种的语料集合中，具有映射关系的词向量矩阵；利用词向量序列和词对集合对第一模型进行训练，得到语言模型。

可选的，上述处理器还可以执行如下步骤的程序代码：将词向量序列输入至第一模型，并获取第一模型的输出结果；将输出结果输入至第一损失函数，得到第一损失值；将词对集合输入至第二损失函数，得到第二损失值；基于第一损失值和第二损失值，确定语言模型是否训练完成。

可选的，第一损失函数的参数矩阵包括：词向量序列中包含的词向量矩阵。

可选的，上述处理器还可以执行如下步骤的程序代码：获取具有映射关系的词向量矩阵之间的距离；获取词对集合中所有具有映射关系的词向量矩阵之间的距离的平均值，得到第二损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一损失值和第二损失值的加权和，得到第三损失值；判断第三损失值是否小于等于预设值；在第三损失值小于等于预设值的情况下，确定语言模型训练完成；在第三损失值大于预设值的情况下，继续利用词向量序列和词对集合对第一模型进行训练。

可选的，上述处理器还可以执行如下步骤的程序代码：将词向量序列输入至第一模型，并获取第一模型的输出结果；利用输出结果对第二模型进行训练，得到序列标注模型。

可选的，上述处理器还可以执行如下步骤的程序代码：利用序列标注模型对语句数据的识别结果进行处理，得到语句数据的序列标注结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取语句数据中包含的至少一个词语；获取至少一个词语对应的词向量矩阵；基于至少一个词语对应的词向量矩阵，生成词向量序列。

采用本申请实施例，在获取到目标语种的语句数据之后，首先获取语句数据对应的词向量序列，然后利用通过至少两个语种的语料集合和两个语种之间的双语映射模型得到的语言模型进行识处理，得到最终的识别结果，实现将高资源语种的知识迁移到低资源语种中的目的。与现有技术相比，通过至少两个语种的语料集合和两个语种之间的双语映射模型得到语言模型，无需使用平行双语语料，不会因为翻译的质量二与真实语句产生不一致，仅利用双语映射模型约束语言模型在单语语料上的训练过程，使得语言模型的隐层标识能够自动对齐，实现不同语种之间的迁移学习，达到了降低使用资源，降低成本，提高实际中的可行性和易用性，更好地学习到语意，提高语言处理准确率的技术效果，进而解决了相关技术中对于使用范围较小的语种的语言处理准确率较低，且成本较高的技术问题。

本领域普通技术人员可以理解，图5所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的文本处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标语种的语句数据；获取语句数据对应的词向量序列；利用语言模型对词向量序列进行处理，得到语句数据的识别结果；其中，语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，双语映射模型表征两个语种的词语之间的映射关系，目标语种为至少两个语种中使用范围最小的语种。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取语料集合对应的词向量序列；基于语料集合和双语映射模型，得到词对集合，其中，词对集合包括：两个语种的语料集合中，具有映射关系的词向量矩阵；利用词向量序列和词对集合对第一模型进行训练，得到语言模型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将词向量序列输入至第一模型，并获取第一模型的输出结果；将输出结果输入至第一损失函数，得到第一损失值；将词对集合输入至第二损失函数，得到第二损失值；基于第一损失值和第二损失值，确定语言模型是否训练完成。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取具有映射关系的词向量矩阵之间的距离；获取词对集合中所有具有映射关系的词向量矩阵之间的距离的平均值，得到第二损失值。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一损失值和第二损失值的加权和，得到第三损失值；判断第三损失值是否小于等于预设值；在第三损失值小于等于预设值的情况下，确定语言模型训练完成；在第三损失值大于预设值的情况下，继续利用词向量序列和词对集合对第一模型进行训练。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将词向量序列输入至第一模型，并获取第一模型的输出结果；利用输出结果对第二模型进行训练，得到序列标注模型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用序列标注模型对语句数据的识别结果进行处理，得到语句数据的序列标注结果。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取语句数据中包含的至少一个词语；获取至少一个词语对应的词向量矩阵；基于至少一个词语对应的词向量矩阵，生成词向量序列。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本处理方法，包括：

获取目标语种的语句数据；

获取所述语句数据对应的词向量序列；

利用语言模型对所述词向量序列进行处理，得到所述语句数据的识别结果；

其中，所述语言模型通过至少两个语种的语料集合和两个语种之间的双语映射模型而得到，所述双语映射模型表征所述两个语种的词语之间的映射关系，所述目标语种为所述至少两个语种中使用范围最小的语种；

其中，所述方法还包括：

获取所述语料集合对应的词向量序列；

基于所述语料集合和所述双语映射模型，得到词对集合，其中，所述词对集合包括：所述两个语种的语料集合中，具有映射关系的词向量矩阵，所述词对集合用于对所述语言模型的训练过程进行约束，在学习过程中自动对齐语言模型中间隐层表示；

利用所述词向量序列和所述词对集合对第一模型进行训练，得到所述语言模型。

2.根据权利要求1所述的方法，其中，利用所述词向量序列和所述词对集合对第一模型进行训练，得到所述语言模型，包括：

将所述词向量序列输入至所述第一模型，并获取所述第一模型的输出结果；

将所述输出结果输入至第一损失函数，得到第一损失值；

将所述词对集合输入至第二损失函数，得到第二损失值；

基于所述第一损失值和所述第二损失值，确定所述语言模型是否训练完成。

3.根据权利要求2所述的方法，其中，所述第一损失函数的参数矩阵包括：所述词向量序列中包含的词向量矩阵。

4.根据权利要求2所述的方法，其中，将所述词对集合输入至第二损失函数，得到第二损失值，包括：

获取所述具有映射关系的词向量矩阵之间的距离；

获取所述词对集合中所有具有映射关系的词向量矩阵之间的距离的平均值，得到所述第二损失值。

5.根据权利要求2所述的方法，其中，基于所述第一损失值和所述第二损失值，确定所述语言模型是否训练完成，包括：

获取所述第一损失值和所述第二损失值的加权和，得到第三损失值；

判断所述第三损失值是否小于等于预设值；

在所述第三损失值小于等于所述预设值的情况下，确定所述语言模型训练完成；

在所述第三损失值大于所述预设值的情况下，继续利用所述词向量序列和所述词对集合对第一模型进行训练。

6.根据权利要求1所述的方法，其中，所述方法还包括：

利用所述输出结果对第二模型进行训练，得到序列标注模型。

7.根据权利要求6所述的方法，其中，利用所述序列标注模型对所述语句数据的识别结果进行处理，得到所述语句数据的序列标注结果。

8.根据权利要求1所述的方法，其中，获取所述语句数据对应的词向量序列，包括：

获取所述语句数据中包含的至少一个词语；

获取所述至少一个词语对应的词向量矩阵；

基于所述至少一个词语对应的词向量矩阵，生成所述词向量序列。

9.一种文本处理装置，包括：

第一获取模块，用于获取目标语种的语句数据；

第二获取模块，用于获取所述语句数据对应的词向量序列；

第一处理模块，用于利用语言模型对所述词向量序列进行处理，得到所述语句数据的识别结果；

其中，所述装置还包括：

第三获取模块，用于获取语料集合对应的词向量序列；

第二处理模块，用于基于所述语料集合和所述双语映射模型，得到词对集合，其中，所述词对集合包括：所述两个语种的语料集合中，具有映射关系的词向量矩阵；

第一训练模块，用于利用所述词向量序列和所述词对集合对第一模型进行训练，得到所述语言模型。

10.根据权利要求9所述的装置，其中，所述装置还包括：

第四获取模块，用于将所述词向量序列输入至所述第一模型，并获取所述第一模型的输出结果；

第二训练模块，用于利用所述输出结果对第二模型进行训练，得到序列标注模型。

11.一种文本处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取目标语种的语句数据；获取所述语句数据对应的词向量序列；

其中，还用于为所述处理器提供处理以下处理步骤的指令：

获取所述语料集合对应的词向量序列；