CN110895659B

CN110895659B - 模型训练方法、识别方法、装置及计算设备

Info

Publication number: CN110895659B
Application number: CN201810962228.7A
Authority: CN
Inventors: 宋楷; 于恒; 骆卫华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2023-05-26
Anticipated expiration: 2038-08-22
Also published as: CN110895659A

Abstract

本申请实施例提供一种模型训练方法、识别方法、装置及计算设备。其中，确定输入样本的输入序列；将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；将所述输出样本的词干序列及词尾序列作为输出序列；基于所述输入序列及所述输出序列训练获得编码‑解码结构的识别模型。利用该识别模型基于待处理对象对应的源序列，可以分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于语言形态变化产生的集外词带来的数据稀疏问题，从而提高模型训练准确度，提高模型识别准确度。

Description

模型训练方法、识别方法、装置及计算设备

技术领域

本申请实施例涉及机器学习领域，尤其涉及一种模型训练方法、识别方法、装置及计算设备。

背景技术

神经网络机器翻译(Neural Machine Translation,NMT)模型是一种用于机器翻译的学习模型，其采用Encoder-Decoder(编码-解码)框架实现。

Encoder-Decoder框架能够解决序列到序列(sequence to sequence)的转换问题，编码器负责将输入序列进行编码，解码器负责将编码信息再转化为输出序列，在NMT中，编码器即负责将源语言序列，也即源语言语句中的单词构成的序列，进行编码，提取出源语言序列中的上下文信息，通过解码器再将上下文信息转换为目标语言序列，从而完成语言翻译。

但是，NMT模型受限于其可以使用的词汇表大小，经常会遇到集外词(out ofvocabulary word,OOV)的情况，集外词在训练语料中往往采用同一个标记，如“<UNK>”，替代，如果训练语料中出现过多的“<UNK>”，就会影响模型训练的准确度，从而影响模型识别准确度，导致出现翻译质量问题。

发明内容

本申请实施例提供一种模型训练方法、识别方法、装置及计算设备，用以解决现有技术中模型识别准确度低的技术问题。

第一方面，本申请实施例中提供了一种模型训练方法，包括：

确定输入样本的输入序列；

将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；

将所述输出样本的词干序列及词尾序列作为输出序列；

基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型。

第二方面，本申请实施例中提供了一种识别方法，包括：

确定待处理对象的源序列；

基于所述源序列，利用识别模型预测构成目标文本的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；

将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

第三方面，本申请实施例中提供了一种模型训练装置，包括：

第一确定模块，用于确定输入样本的输入序列；

词切分模块，用于将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；

第二确定模块，用于将所述输出样本的词干序列及词尾序列作为输出序列；

模型训练模块，用于基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型。

第四方面，本申请实施例中提供了一种识别装置，包括：

第三确定模块，用于确定待处理对象的源序列；

预测模块，用于基于所述源序列，利用识别模型预测构成目标文本的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；

识别模块，用于将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

第五方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一条或多条计算机指令；所述一条或多条计算机指令用以被所述处理组件调用执行；

所述处理组件用于：

确定输入样本的输入序列；

将所述输出样本的词干序列及词尾序列作为输出序列；

第六方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述处理组件用于：

确定待处理对象的源序列；

本申请实施例中，在进行模型训练时，将输出样本的每个词切分为词干以及词尾，获得所述输出样本对应的词干序列及词尾序列；将词干序列以及词尾序列均作为输出序列，从而使得训练获得的识别模型基于待处理对象对应的源序列，可以分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于语言形态变化产生的集外词带来的数据稀疏问题，从而提高模型训练准确度，提高模型识别准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种模型训练方法一个实施例的流程图；

图2示出了本申请实施例在一个实际应用中识别模型的网络结构示意图；

图3示出了本申请提供的一种识别方法一个实施例的流程图；

图4示出了本申请实施例在一个实际应用中识别方法又一个实施例的流程图；

图5示出了本申请提供的一种模型训练装置一个实施例的结构示意图；

图6示出了本申请提供的一种计算设备一个实施例的结构示意图；

图7示出了本申请提供的一种识别方法一个实施例的流程图；

图8示出了本申请提供的一种计算设备又一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以应用于采用Encoder-Decoder(编码-解码)结构的识别模型进行识别的各个应用场景中，比如机器翻译、语音识别及问答系统等。

Encoder-Decoder是深度学习中非常常见的一个模型框架，Encoder-Decoder结构的识别模型能够解决序列到序列(sequence to sequence)的转换问题，由Encoder端的编码器Decoder端的解码器构成，编码器以及负责将输入序列进行编码，解码器负责将编码信息再转化为输出序列，从而实现将一个序列转换为另一个序列的目的，在机器翻译场景中，输入序列为待翻译文本序列，输出序列也即为翻译文本序列、在语音识别场景中，输入序列为声学特征序列，输出序列为语音识别文本，在问答系统场景中，输入序列为问题描述文本序列，输出序列为答案文本序列等。

在输入序列或者输出序列为文本序列时，由于词汇表限制，往往会产生集外词(out of vocabulary word,OOV)的情况，正如背景技术所述的神经网络机器翻译模型中，由于受限于计算能力和显存大小等问题，往往词汇表限制在比如3万至5万的固定值，经常会遇到集外词，集外词在训练语料中往往采用同一个标记，因此存在数据稀疏问题，导致训练获得的识别模型不够准确，影响模型识别准确度。

为了提高识别准确度，发明人在实现本发明的过程中发现，集外词过多一个原因是因为语言形态丰富，以机器翻译场景中，实现“英-俄”翻译为例，俄语是一种形态非常丰富的语言，复数变化、时态变化等均会导致出现集外词，而集外词的出现对翻译质量的影响是比较大的。且，集外词对于Decoder端的影响更大，据此，发明人经过一系列研究提出了本申请实施例的技术方案，在本申请实施例中，在进行模型训练时，将输出样本的每个词切分为词干以及词尾，获得所述输出样本对应的词干序列及词尾序列；将词干序列以及词尾序列均作为输出序列，从而使得训练获得的识别模型基于待处理对象对应的源序列，可以分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于形态变化产生的集外词带来的数据稀疏问题，从而提高模型训练准确度，提高模型识别准确度，在机器翻译场景中，可以保证翻译质量。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种模型训练方法一个实施例的流程图，该方法可以包括以下步骤：

101：确定输入样本的输入序列。

本申请实施例中，不限定输入样本的内容形式，其可以为文本、当然也可以是图像、声音等等。

输入序列是将输入样本转化获得，输入样本为文本时，输入序列也即由输入样本中的各个词按照在输入样本中的出现顺序排列获得的词序列。

102：将输出样本的每个词切分为词干以及词尾，获得所述输出样本的词干序列及词尾序列。

本申请实施例的技术方案用于将一个待处理对象转换为目标文本。因此，在本申请实施例中，输出样本为文本形式，由于集外词对Decoder端的影响更为严重，Decoder端的输出结果也即为模型识别结果，因此对于Decoder端的输出结果为文本序列的任意场景，均可以按照本申请实施例的技术方案执行。

通过对每个词进行形态分析，即可以将每个词切分为词干以及词尾，从而获得由每个词的词干构成的词干序列，以及由每个词的词尾构成的词尾序列。

其中，词尾是指粘附在词后面，表达时态、格、单复数等语法意义的语素，词尾只能改变一个词的形式，不能构成新词。比如英文单词“reader”加上词尾“s”变成“readers”，仍为“读者”的意思，其中的“s”表示复数；英文单词“work”加上词尾“ing”变成“working”，意思仍然是“工作”，词尾“ing”表示进行时时态。而一个词，除去词尾，剩下部分即为词干。

另外，若一个词不存在词尾，将每个词切分出的词干以及词尾，词干即为词本身，词尾为空，词尾可以采用空字符或者预定字符等代表。

可选地，所述将输出样本的每个词切分为词干以及词尾，获得所述输出样本的词干序列及词尾序列可以包括：

确定输出样本对应的词序列；

将所述词序列中的每个词进行形态分析，获得每个词的词干以及词尾；

分别将每个词的词干以及词尾按照词序列中的每个词出现顺序，排列形成词干序列以及词尾序列；

其中，所述词干序列与所述词尾序列中的词干以及词尾一一对应。对于不存在词尾的词其词尾采用空字符或者预定字符表示。

103：将所述输出样本的词干序列及词尾序列作为输出序列。

104：基于所述输入序列及所述输出序列训练获得Encoder-Decoder结构的识别模型。

本申请实施例中，将词干序列以及词尾序列均参与模型训练，从而使得获得的识别模型可以用于基于待处理对象对应的源序列，预测构成目标序列的每个词的词干及词尾，并将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

本实施例中，将输出样本的每个词切分为词干以及词尾，获得所述输出样本对应的词干序列及词尾序列；将词干序列以及词尾序列均作为输出序列，从而使得训练获得的识别模型可以基于待处理对象对应的源序列，分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于语言形态变化产生的集外词带来的数据稀疏问题，从而提高模型训练准确度，提高模型识别准确度，在机器翻译场景中，可以保证翻译质量。

其中，Encoder-Decoder结构的识别模型包括两个部分：编码器以及解码器，因此，在某些实施例中，所述基于所述输入序列及所述输出序列训练编码-解码结构的识别模型可以包括：

基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息；

基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器。

Encoder-Decoder结构的识别模型中，编码器以及解码器可以分别采用神经网络实现，比如CNN(Convolutional Neural Network，卷积神经网络)，RNN(Recurrent NeuralNetworks，循环神经网络)，LSTM(Long Short Term Memory，长短期时间网络)、双向RNN等实现，比如神经网络机器翻译(Neural Machine Translation,NMT)模型，可以采用LSTM-LSTM的结构，其中，LSTM也是一种特殊类型的RNN。

其中，编码器的训练过程与现有技术中，在此不再赘述，编码器执行编码操作，以获得可以代表输入序列的上下文信息。

对于解码器的训练，与现有技术不同之处，不使用词序列，而是词干序列以及词尾序列进行训练，以使得解码器可以分别预测词干以及词尾。

由于编码器以及解码器通常采用神经网络实现，神经网络通常由输入层、隐藏层以及输出层构成，编码器的输出结果即为该上下文信息，其具体为隐藏层的隐藏状态。

作为一种可选方式，可以将最后一个时间步的隐藏状态作为该上下文信息。

由于序列是由多个序列对象构成，本申请实施例中，输出序列中即由多个词构成，输入序列根据输入样本的内容形式由不同形式的序列对象构成。

每个时间步也即对应序列中一个序列对象，序列中的序列对象按照一定顺序排列，第t个时间步的序列对象也即是指序列中的第t个序列对象。

此外，作为又一种可选方式，所述基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息可以包括：

基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列对应输出序列每个时间步的上下文信息。

也即编码器的编码结果可以获得对应输出序列每个时间步的上下文信息。编码器可以采用双向RNN等进行编码。

此外，所述基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器可以包括：

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及前一时间步的词干作为第一输入内容、以及将当前时间步的词干作为所述第一输入内容的第一输出结果；

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果；

基于所述第一输入内容和所述第一输出结果，以及所述第二输入内容和所述第二输出结果，训练所述识别模型的解码器。

在某些实施例中，所述将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果可以包括：

所述将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干、以及前一时间步的词尾作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果。

加入前一时间步的词尾对当前时间步的词尾进行预测可以进一步提高模型识别准确度等。

当然，还可以将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干、前一时间步的词尾以及前一时间步的词干作为第二输入内容。进一步加入前一时间步的词干对当前时间步的词尾进行预测可以进一步提高模型识别准确度等。

为了方便理解，如图2示出了在一个实际应用中的Encoder-Decoder结构的识别模型的网络结构示意图，图2中，C_t表示编码器编码获得的第t时间步的上下文信息；t＝1、2、3……n，其中n为词干序列中的词干数量或者词尾序列中的词尾数量，其中，词干序列中的词干数量以及词尾序列中的词尾数量相同。

S_t ^stem表示第t时间步对应词干的解码器隐藏状态；O_t表示第t时间步的输出结果，其通过一个激励函数，如softmax，获得第t时间步的词干y_t ^stem，其中Vt为从输出结果Ot到词干y_t ^stem的中间状态。y_t-1 ^stem的为第t-1时间步的词干；S_t ^inflection表示第t时间步对应词尾的解码器隐藏状态；V_t ^inflection表示第t时间步的词尾。

结合图2中的箭头所示，可知，在进行模型训练时，第t时间步的上下文信息C_t，第t时间步对应词干的解码器隐藏状态S_t ^stem，以及第t-1时间步的时间步的词干y_t-1 ^stem作为第一输入内容，第t时间步的词干y_t ^stem作为第一输出结果；

第t时间步的上下文信息C_t，第t时间步对应词干的解码器隐藏状态S_t ^stem，以及第t时间步的y_t ^stem作为第二输入内容，第t时间步的词尾V_t ^inflection作为第二输出结果。利用第一输入内容和第一输出结果，以及第二输入内容和所述第二输出结果，即可以训练所述识别模型的解码器，以使得解码器可以分别进行词干以及词尾预测。

其中，第t时间步的词干y_t ^stem可以由第t时间步的输出状态O_t ^stem通过一输出函数，如softmax预测得到，图2中，V_t ^stem表示第t时间步的输出状态O_t ^stem转换为第t时间步的词干y_t ^stem产出的中间状态。

第t时间步的词尾V_t ^inflection可以由第t时间步对应词尾的隐藏状态S_t ^stem通过一输出函数，如softmax预测得到。

图2所示的模型网络结构中，编码器可以采用双向RNN对输入序列进行编码，其中，输入序列表示为X＝(X₁、X₂、X₃……X_m)，其中，m表示输入序列中包括m个序列对象，在输入序列为文本序列时，m也即表示文本长度。输入序列被编码为隐藏状态序列(h1、h2、h3……hm)，每一个隐藏状态由前向隐藏状态以及后向隐藏状态拼接构成，也即

其中，

则第t时间步的上下文信息为：

其中，

其中，解码器可以采用单向RNN预测目标输出，第t时间步的词干y_t ^stem按照如下公式预测：

W^stem为将

转换为词干的权重系数，其具体为一个权矩阵。

其中，

第t时间步的词尾y_t ^inflection按照如下公式预测：

其中，

为将/>

的权重系数，其具体为一个权矩阵。

其中，f以及g表示非线性函数。

此外，可选地，可以将第t时间步的上下文信息C_t，第t时间步对应词干的解码器隐藏状态

第t时间步的词干/>

以及前一时间步的词尾/>

作为第二输入内容，也即：

此外，在某些实施例中，所述输入样本可以为文本；所述确定输入样本的输入序列包括：

将所述输入样本的每个的词切分为词干以及词尾，获得所述输入样本的词干序列及词尾序列；

将所述输入样本的词干序列及词尾序列作为输入序列。

此外，在一个实际应用中，所述输入样本为源语言文本；所述输出样本为所述源语言文本翻译获得目标语言文本。

基于上述任一实施例的技术方案训练获得的识别模型，本申请实施例还提供了一种识别方法，如图3中所示，该方法可以包括以下几个步骤：

301：确定待处理对象的源序列。

其中，待处理对象为可以为文本、图像、声音等，待处理对象为文本时，源序列即为待处理对象的词序列。

在机器翻译场景中，待处理对象即为源语言文本。

302：基于所述源序列，利用识别模型预测构成目标文本的每个词的词干及词尾。

其中，所述识别模型为编码-解码结构，其基于输入样本的输入序列及所述输入样本对应输出样本的输出序列训练获得；所述输出序列包括所述输出样本的词干序列以及词尾序列。

其中，识别模型的具体训练方案可以参见上述实施例中所述，在此不再赘述。

303：将所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

将目标序列的每个词的词干以及词尾合并即可以得到构成目标序列的每个词，该目标序列即构成目标文本。

在机器翻译场景中，该目标序列即构成目标语言文本。

本实施例中，利用识别模型可以基于待处理对象对应的源序列，分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于语言形态变化产生的集外词带来的数据稀疏问题，从而提高模型识别准确度，在机器翻译场景中，可以保证翻译质量。

在某些实施例中，所述基于所述源序列，利用识别模型预测构成目标序列的每个词的词干及词尾可以包括：

将所述源序列输入识别模型的编码器，获得所述源序列的上下文信息；

将所述上下文信息输入所述识别模型的解码器，预测构成目标序列的每个词的词干及其词尾；

将构成所述目标序列的每个词的词干及其词尾合并，获得所述目标序列。

在某些实施例中，所述将所述上下文信息输入所述识别模型的解码器，预测构成目标序列的每个词的词干及其词尾可以包括：

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及前一时间步的词干输入所述识别模型的解码器，预测获得当前时间步的词干；

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干输入所述识别模型的解码器，预测获得当前时间步的词尾；

所述将构成所述目标序列的每个词的词干及其词尾合并，获得所述目标序列包括：

将每个时间步的词尾以及词干合并，获得目标序列。

可选地，所述将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干预测输入所述识别模型的解码器，获得当前时间步的词尾包括：

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干以及前一时间步的词尾输入所述识别模型的解码器，预测获得当前时间步的词尾。

其中，该识别模型可以采用如图2所示的网络结构，由图2结构可知，

基于第t时间步的上下文信息C_t，第t时间步对应词干的解码器隐藏状态S_t ^stem，以及第t-1时间步的时间步的词干y_t-1 ^stem，可以预测获得第t时间步的词干y_t ^stem。

基于第t时间步的上下文信息的上下文信息C_t，第t时间步对应词干的解码器隐藏状态S_t ^stem，以及第t时间步的y_t ^stem，可以预测获得第t时间步的词尾V_t ^inflection。

当然可选地，对第t时间步的词尾V_t ^inflection的预测还可以结合第t-1时间步的词尾等，本申请不对此进行具体限制。至少基于当前时间步的词干对当前时间步的词尾进行预测即可。

本申请实施例的技术方案在一个实际应用中，可以应用于机器翻译场景中，该识别模型可以为NMT模型，也即实现神经网络机器翻译。下面以神经网络机器翻译为例，对本申请实施例技术方案进行详细描述。

首先，训练神经网络机器翻译模型，也即NMT模型，用以将源语言翻译为目标语言，输入样本为源语言训练语句，输出样本为源语言训练语句对应的目标语言训练语句。如图4中所示，首先确定源语言训练语句的词序列401；

之后，将目标语言训练语句中的每个词切分为词干及词尾，获得目标语言训练语句对应的词干序列及词尾序列402；以及将所述词干序列及词尾序列作为输出序列403；

最后，基于所述输入序列及所述输出序列即可以训练获得NMT模型404。

基于训练获得的NMT模型在实际翻译场景中，对于待翻译的源语言文本，首先确定所述源语言文本的词序列405；

之后，基于所述词序列，利用NMT模型预测构成目标文本的每个词的词干及词尾406；

最后，将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列407，该目标序列407即为该源语言文本对应的翻译文本，也即目标语言文本对应的词序列，因此通过该目标序列即可以得到该目标语言文本。

图5为本申请实施例提供的一种模型训练装置一个实施例的结构示意图，该装置可以包括：

第一确定模块501，用于确定输入样本的输入序列；

词切分模块502，用于将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；

第二确定模块503，用于将所述输出样本的词干序列及词尾序列作为输出序列；

模型训练模块504，用于基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型。

其中，所述识别模型用于基于待处理对象的源序列，预测构成目标序列的每个词的词干及词尾，并将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

在某些实施例中，所述词切分模块具体用于：

确定输出样本对应的词序列；

分别将每个词的词干以及词尾按照词序列中的每个词出现顺序，排列形成词干序列以及词尾序列；其中，所述词干序列与所述词尾序列中的词干以及词尾一一对应。

在某些实施例中，所述模型训练模块包括：

第一训练单元，用于基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息；

第二训练单元，用于基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器。

在某些实施例中，所述第一训练单元具体用于：

基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列对应输出序列每个时间步的上下文信息；

所述第二训练单元具体用于：

在某些实施例中，所述第二训练单元将当前时间步的上下文信息、当前时间步的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果具体是：

将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干、以及前一时间步的词尾作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果。

在某些实施例中，所述输入样本为文本；

所述第一确定模块具体用于：

将所述输入样本的每个的词进行形态分析，获得所述输入样本对应的词干序列及词尾序列；

将所述输入样本对应的词干序列及词尾序列作为输入序列。

在一个实际应用中，本申请实施例技术方案可以适用于机器翻译场景中，该识别模型可以具体为NMT模型，所述输入样本为源语言训练语句；所述输出样本为所述源语言训练语句对应的目标语言训练语句。

图5所述的模型训练装置可以执行图1所示实施例所述的模型训练方法，其实现原理和技术效果不再赘述。对于上述实施例中的模型训练装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图5所示实施例的模型训练装置可以实现为一计算设备，如图6所示，该计算设备可以包括存储组件601以及处理组件602；

所述存储组件601一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件602调用执行。

所述处理组件602用于：

确定输入样本的输入序列；

将所述输出样本的词干序列及词尾序列作为输出序列；

其中，处理组件602可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件601被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。

通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图1所示实施例的模型训练方法。

图7为本申请实施例提供的一种识别装置一个实施例的结构示意图，该装置可以包括：

第三确定模块701，用于确定待处理对象的源序列；

预测模块702，用于基于所述源序列，利用识别模型预测构成目标文本的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；

识别模块703，用于将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

在某些实施例中，所述预测模块可以具体用于：

在某些实施例中，所述预测模块将所述上下文信息输入所述识别模型的解码器，预测构成目标序列的每个词的词干及其词尾具体是：

所述预测模块将构成所述目标序列的每个词的词干及其词尾合并，获得所述目标序列可以具体是将每个时间步的词尾以及词干合并，获得目标序列。

在某些实施例中，所述预测模块将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干预测输入所述识别模型的解码器，获得当前时间步的词尾可以具体是：

在一个实际应用中，本申请实施例技术方案可以适用于机器翻译场景中，该识别模型可以具体为NMT模型，所述待处理对象为待翻译的源语言文本；所述目标序列构成目标语言文本。

图7所述的模型训练装置可以执行图3所示实施例所述的识别方法，其实现原理和技术效果不再赘述。对于上述实施例中的模型训练装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图7所示实施例的识别装置可以实现为一计算设备，如图7所示，该计算设备可以包括存储组件701以及处理组件702；

所述存储组件701一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件702调用执行。

所述处理组件702用于：

确定待处理对象的源序列；

其中，处理组件702可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件701被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图3所示实施例的识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

确定输入样本的输入序列；

将所述输出样本的词干序列及词尾序列作为输出序列；

基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型，所述识别模型包括编码器和解码器，训练所述解码器预测当前时间步的词尾时的输入内容包括所述解码器预测的当前时间步的词干以及用于训练所述解码器预测当前时间步的词干时的输入内容中关于所述当前时间步的内容。

2.根据权利要求1所述的方法，其特征在于，所述识别模型用于基于待处理对象的源序列，预测构成目标序列的每个词的词干及词尾，并将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

3.根据权利要求1所述的方法，其特征在于，所述将输出样本的每个词切分为词干以及词尾，获得所述输出样本对应的词干序列及词尾序列包括：

确定输出样本对应的词序列；

4.根据权利要求1所述的方法，其特征在于，所述基于所述输入序列及所述输出序列训练编码-解码结构的识别模型包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息包括：

所述基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器包括：

6.根据权利要求5所述的方法，其特征在于，所述将当前时间步的上下文信息、当前时间步的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果包括：

7.根据权利要求1所述的方法，其特征在于，所述输入样本为文本；所述确定输入样本的输入序列包括：

将所述输入样本对应的词干序列及词尾序列作为输入序列。

8.根据权利要求1所述的方法，其特征在于，所述输入样本为源语言训练语句；所述输出样本为所述源语言训练语句对应的目标语言训练语句。

9.一种识别方法，其特征在于，包括：

确定待处理对象的源序列；

基于所述源序列，利用识别模型预测构成目标序列的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；所述识别模型包括编码器和解码器，训练所述解码器预测当前时间步的词尾时的输入内容包括所述解码器预测的当前时间步的词干以及用于训练所述解码器预测当前时间步的词干时的输入内容中关于所述当前时间步的内容；

10.根据权利要求9所述的方法，其特征在于，所述基于所述源序列，利用识别模型预测构成目标序列的每个词的词干及词尾包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述上下文信息输入所述识别模型的解码器，预测构成目标序列的每个词的词干及其词尾包括：

将每个时间步的词尾以及词干合并，获得目标序列。

12.根据权利要求11所述的方法，其特征在于，所述将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干预测输入所述识别模型的解码器，获得当前时间步的词尾包括：

13.根据权利要求9所述的方法，其特征在于，所述待处理对象为待翻译的源语言文本；所述目标序列构成目标语言文本。

14.一种模型训练装置，其特征在于，包括：

第一确定模块，用于确定输入样本的输入序列；

模型训练模块，用于基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型，所述识别模型包括编码器和解码器，训练所述解码器预测当前时间步的词尾时的输入内容包括所述解码器预测的当前时间步的词干以及用于训练所述解码器预测当前时间步的词干时的输入内容中关于所述当前时间步的内容。

15.一种识别装置，其特征在于，包括：

第三确定模块，用于确定待处理对象的源序列；

预测模块，用于基于所述源序列，利用识别模型预测构成目标序列的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；所述识别模型包括编码器和解码器，训练所述解码器预测当前时间步的词尾时的输入内容包括所述解码器预测的当前时间步的词干以及用于训练所述解码器预测当前时间步的词干时的输入内容中关于所述当前时间步的内容；

16.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

确定输入样本的输入序列；

将所述输出样本的词干序列及词尾序列作为输出序列；

17.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

确定待处理对象的源序列；