CN110188348B

CN110188348B - 一种基于深度神经网络的中文语言处理模型及方法

Info

Publication number: CN110188348B
Application number: CN201910378653.6A
Authority: CN
Inventors: 王玉峰; 张江
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-05-19
Anticipated expiration: 2039-05-07
Also published as: CN110188348A

Abstract

本发明公开了一种基于深度神经网络的中文语言处理模型及方法，包括语义编码网络，词性分析网络和语义解码网络三部分，其中语义编码网络、词性分析网络通过注意力网络和语义解码网络进行连接。语义编码网络和词性分析网络首先对源文本生成的词向量进行处理，语义编码网络输出源文本的语义信息向量，词性分析网络输出源文本的词性信息向量，将语义信息向量和词性信息向量进行concat()连接，作为注意力网络的输入，注意力网络根据输入的信息生成包含源文本所有信息的背景向量，作为语义解码网络的输入；语义解码网络根据背景向量计算得到所有候选词的概率分布，根据概率分布逐个输出目标文本的每个元素。提升了文本映射的准确性，和系统性能。

Description

一种基于深度神经网络的中文语言处理模型及方法

技术领域

本发明涉及一种基于深度神经网络的中文语言处理模型及方法，属于自然语言智能化处理技术领域。

背景技术

目前，自然语言处理研究的是可以进行语言表示和语言运用的模型，建立计算框架来实现这样的语言模型，同时提出各种方法完善这个模型，根据这个模型设计各种实用系统，并探索这些实用系统的评测技术。

自然语言处理的最终目标是让机器理解并生成自然语言，具体来说，就是研究一种人类可以用自己的语言与之交流的认知机器。而中文自然语言处理研究的是中文语言的表示以及运用，在运用神经网络的自然语言处理领域，往往对输入序列与输出序列的长度有严格的要求，这与实际应用中的中文语言处理不相符合。在实际应用中，对中文语言进行的处理往往是将中文语言映射到其他语言的翻译系统，本文更倾向于将一个中文文本映射为另一个与其对应的中文文本，实现中文语言内的一种自然语言处理方法。

在中文文本到中文文本的处理中，本发明关注进行中文对联的自动生成，在进行对联自动生成的任务中，词性信息是应该被重点关注的部分，源对联序列与目标对联序列相同位置的词的词性应该保持相同，本发明通过引入句法分析模块以将词性信息引入神经网络，保证了源对联序列与目标对联序列的严格对仗。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于深度神经网络的中文语言处理模型及方法。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于深度神经网络的中文语言处理模型，包括：语义编码网络，词性分析网络、语义解码网络，其中语义编码网络、词性分析网络通过注意力网络和语义解码网络进行连接。语义编码网络和词性分析网络首先对源文本生成的词向量进行处理，语义编码网络输出源文本的语义信息向量，词性分析网络输出源文本的词性信息向量，将语义信息向量和词性信息向量进行concat()连接，作为注意力网络的输入，注意力网络根据输入的信息生成包含源文本所有信息的背景向量，作为语义解码网络的输入；语义解码网络根据背景向量逐个输出目标文本的每个元素。

一种基于深度神经网络的中文语言处理方法，具体处理步骤如下：

步骤一：由于中文语言无法直接为计算机所理解，所以需要对待处理的中文文本进行预处理。首先将中文源文本进行分词，将经过分词后的数据使用词向量生成方法生成可以被计算机处理的中文词向量序列X＝x₁，x₂，x₃，...，x_M。M是源文本经过分词后的数据长度。

步骤二：将源文本的中文词向量序列X＝x₁，x₂，x₃，...，x_M输入语义编码网络，语义编码网络是一个双向RNN网络，其作用是将长度不确定的中文词向量序列映射为长度确定的向量，这个向量包含了源文本的全部语义信息；语义编码网络的前向网络单元从左至右处理中文词向量序列，后向网络单元从右至左处理中文词向量序列，最后将两个方向对应的隐藏层状态向量相连接，语义编码网络直接输出其隐藏层状态序列H＝h₁，h₂，h₃，...，h_M，其中H中的元素h_i是维度为2D的列向量，i取[1，M]中的整数，D等于RNN网络隐藏层神经单元个数，

步骤三：将源文本中文词向量序列X＝x₁，x₂，x₃，...，x_M输入词性分析网络，词性分析网络是一个双向RNN网络，词性分析网络的作用是融入更多的语言学知识，提高中文处理的准确性，词性分析网络的前向网络单元从左至右处理中文词向量序列，后向网络单元从右至左处理中文词向量序列，最后将两个方向对应的隐藏层状态向量相连接，输出其隐藏层状态序列G＝g₁，g₂，g₃，...，g_M，G中的元素g_i是维度为2D的列向量，i取[1，M]中的整数，D等于RNN网络隐藏层神经单元个数，

步骤四：H与G中元素的维度相同，等于2D，将H＝h₁，h₂，h₃，...，h_M与G＝g₁，g₂，g₃，...，g_M中的每个元素以concat()的函数方式进行拼接，得到输出E＝e₁，e₂，e₃，...，e_M，其中

i取[1，M]中的整数，是长度为4D的向量。

步骤五：初始时刻k＝1时，将E＝e₁，e₂，e₃，...，e_M作为注意力神经网络的输入，注意力神经网络使用一个随机生成的4D维向量z₀与E＝e₁，e₂，e₃，...，e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁，e₂，e₃，...，e_M中每个元素所占的初始权重α_i1，注意力神经网络输出e₁，e₂，e₃，...，e_M的初始加权和，即

将初始加权和c₁作为语义解码网络的输入，生成初始目标序列第1个元素y₁，得到初始目标序列隐藏层状态z₁。

步骤六：在时刻k＝j时，注意力网络将语义解码网络前一时刻的隐藏层状态z_j-1与E＝e₁，e₂，e₃，...，e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁，e₂，e₃，...，e_M中每个元素所占的权重α_ij(i表示源文本的第i个分词，j表示第j个时刻)，α_ij表示正在生成的目标词与E＝e₁，e₂，e₃，...，e_M中每个元素的关联程度，0＜α_ij＜1，且α_1j+α_2j+…+α_Mj＝1；注意力神经网络输出e₁，e₂，e₃，...，e_M的加权和，即

c_j作为语义解码网络的输入，语义解码网络生成目标序列的第j个元素y_j，得到当前时刻的隐藏层状态z_j。

步骤七：在时刻k＝M时，注意力网络将语义解码网络前一时刻的隐藏层状态z_M-1与E＝e₁，e₂，e₃，...，e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁，e₂，e₃，...，e_M中每个元素所占的权重α_iM，输出e₁，e₂，e₃，...，e_M的加权和，即

c_M作为语义解码网络的输入，语义解码网络生成目标序列的最后一个元素y_M。

步骤八：将时刻k从1到M，语义解码网络生成目标序列y₁到y_M组成最终目标序列Y＝y₁，y₂，y₃，...，y_M。语义解码网络由单向的RNN网络组成。

步骤九：对基于编码-解码框架的中文语言处理模型进行训练获得神经网络的各项参数。

步骤十：采用基于编码-解码的中文语言处理模型进行中文语言处理。

作为优选方案：所述语义编码网络由双向的RNN网络组成，包括输入层、隐藏层和输出层；其中隐藏层的层数为4。

语义编码网络隐藏层均采用LSTM单元代替基本的RNN单元；

语义编码网络按顺序和逆序两个方向处理中文词向量序列X＝x₁，x₂，x₃，...，x_M；具体步骤如下：

步骤2-1：将X＝x₁，x₂，x₃，...，x_M输入语义编码网络的前向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是隐藏层的激活函数，可以选择非线性激活函数，x_t是在时间步t上处理的源文本分词，/>

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数。

步骤2-2：将X＝x₁，x₂，x₃，...，x_M输入语义编码网络的后向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数。

步骤2-3：在每个时间步t上将对应的神经网络隐藏层状态采用concat()函数方法连接，得到

h_t是一个2D维的向量，将所有M个时间步上得到的h_t组成H＝h₁，h₂，h₃，...，h_M，M是源语言词的个数。

作为优选方案：所述词性分析网络由双向的RNN网络组成，包括输入层、隐藏层和输出层；

词性分析网络的隐藏层神经单元个数与语义编码网络的隐藏层神经单元个数相同；

词性分析网络按顺序和逆序两个方向处理中文词向量序列X＝x₁，x₂，x₃，...，x_M；具体步骤如下：

步骤3-1：将X＝x₁，x₂，x₃，...，x_M输入词性分析网络的前向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中S是隐藏层的激活函数，可以选择非线性激活函数，x_t是在时间步t上处理的源文本分词，

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数，与语义编码网络隐藏层单元数相同。

步骤3-2：将X＝x₁，x₂，x₃，...，x_M输入词性分析网络的后向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

步骤3-3：在每个时间步t上将对应的神经网络隐藏层状态采用concat()函数方法连接，得到

g_t是一个2D维的向量，将总共M个时间步上的g_t组成G＝g₁，g₂，g₃，...，g_M，M是源语言词的个数。

作为优选方案：所述注意力神经网络是一个前馈神经网络，包含输入层，隐藏层和输出层；

其中隐藏层的层数为一，输出层采用Softmax激活函数；

点积计算，记为score()，即：

score(z_j-1，e_i)＝z_j-1e_i

对点积结果使用Softmax函数计算得到E＝e₁，e₂，e₃，...，e_M的每个输出所占的权重α_ij，计算公式如下：

0＜α_ij＜1，且α_1j+α_2j+…+α_Mj＝1。

注意力神经网络输出e₁，e₂，e₃，...，e_M的加权和：

将c₁作为语义解码网络的第一个隐藏层状态参与后续计算。

作为优选方案：所述语义解码网络由单向的RNN组成，包括输入层，隐藏层和输出层，其中隐藏层层数为4；

隐藏层均采用LSTM替代基本的RNN单元；

语义解码网络每个时刻步生成一个目标词，具体步骤如下；

步骤1：在生成目标文本序列的第j个元素时，对应的注意力神经网络输出c_j和上一个时间步的隐藏层状态z_j-1作为当前隐藏层单元的输入，计算得到当前时刻的隐藏层状态z_j，计算公式如下：

/>

代表语义解码网络的激活函数，W_c代表待训练的参数矩阵。

步骤2：将语义解码网络的隐藏层状态z_j通过Softmax输出层得到目标词的概率分布，计算过程如下：

P[y_j|{y₁，...，y_j-1}，c_j]＝softmax(W_sz_j)

其中，[；]表示串联，W_c和W_s表示待训练的参数矩阵。

步骤3：语义解码网络在目标词所有可能结果中随机抽样得到多个目标词的候选，在通过步骤2中得到的概率分布找出概率最大的一个作为最终输出。

作为优选方案，步骤九具体包括以下步骤：

使用一定数量成对的源文本与目标文本数据(X，Y)对中文语言处理模型进行训练，表示为

获得所需要的语义编码网络、词性分析网络中U，W，K，L和语义解码网络中的W_c，W_s矩阵；

使用标准最大似然参数估计优化评估训练结果；

得到最终的中文语言处理模型。

有益效果：本发明提供的一种基于深度神经网络的中文语言处理模型，包括编码阶段与解码阶段。在编码阶段，对待处理的中文文本进行预处理，得到其对应的词向量序列；首先将词向量序列输入语义编码网络，输出D个2D维的语义信息向量(D是语义编码神经网络的隐藏层单元个数)，组成语义信息向量序列；再将词向量序列输入词性分析网络，输出D个2D维的词性信息向量；将词性信息向量序列和语义信息向量序列连接，输出一个4D维的向量序列，作为语义编码网络的输出；之后将语义编码网络的输出向量序列输入注意力神经网络，注意力神经网络赋予每一个语义编码向量一个动态的权重，输出所有向量的加权和，即c_j，c_j是一个4D维的向量；解码阶段，语义解码网络每个时间步输出一个目标文本字符，将注意力神经网络的输出，即c_j和上一个时间步的解码网络隐藏单元信息输入语义解码网络当前单元；迭代计算，直到任务完成。该方法相对于已有的方案而言，得到的结果的准确性更高。其优点如下：

1.对数据进行的预处理可以保证源文本与目标文本的严格对应，提升了文本映射的准确性；在语义编码网络模块中引入句法分析模块，将源文本的词性信息引入系统之中，可以提升文本映射的准确性。

2.在纯中文的语言处理中引入注意力机制，可以保证在诸如对联生成任务中的源文本与目标文本的严格对仗，提升系统性能。

附图说明

图1为本发明的整体流程示意图；

图2为注意力神经网络操作流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，本实施例提供的基于深度神经网络的中文语言处理模型包括语义编码网络，词性分析网络和语义解码网络三部分。处理流程分为编码与解码两个阶段，语义编码网络，词性分析网络负责编码阶段，语义解码网络负责解码阶段。

编码阶段具体包括以下步骤：

步骤一：对待处理的中文文本进行预处理。首先将中文源文本进行分词，将经过分词后的数据使用词向量生成方法以生成中文词向量序列X＝x₁，x₂，x₃，...，x_M。M是源文本经过分词后的数据长度。

步骤二：将源文本中文词向量序列X＝x₁，x₂，x₃，...，x_M输入语义编码网络，语义编码网络是一个双向RNN网络，直接输出隐藏层状态序列H＝h₁，h₂，h₃，...，h_M，H中的元素h_i是维度为2D维的向量，i取[1，M]中的整数，由两个D维的向量

和/>

拼接而成，即/>

D等于RNN网络隐藏层单元个数。

步骤三：将源文本中文词向量序列X＝x₁，x₂，x₃，...，x_M输入词性分析网络，词性分析网络是一个双向RNN网络，直接输出隐藏层状态序列G＝g₁，g₂，g₃，...，g_M，G中的元素g_i是维度为2D维的向量，i取[1，M]中的整数，D等于RNN网络隐藏层单元个数，

步骤四：将H＝h₁，h₂，h₃，...，h_M与G＝g₁，g₂，g₃，...，g_M中的每个元素以concat()的函数方式进行拼接，作为语义编码网络的输出E＝e₁，e₂，e₃，...，e_M，其中

i取[1，M]中的整数。e_i是长度为4D的向量

在具体实施中，在中文源文本预处理阶段，首先使用已有的分词工具将待处理的中文源文本进行分词，然后使用词向量生成工具分词后的中文源文本表示为一系列的词向量X＝x₁，x₂，x₃，...，x_M。M是中文源文本经过分词后的单词个数。

在获取语义编码网络隐藏层状态时，先将X＝x₁，x₂，x₃，...，x_M输入语义编码网络的前向单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数。

再将X＝x₁，x₂，x₃，...，x_M输入语义编码网络的反向单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数。

在每个时间步t上将对应的神经网络隐藏层状态采用concat()方法连接，得到

将总共M个时间步上的h_t组成H＝h₁，h₂，h₃，...，h_M，M是源语言词的个数。

将X＝x₁，x₂，x₃，...，x_M输入词性分析网络的前向处理单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：/>

其中S是隐藏层的非线性激活函数(可以选择多种激活函数)，x_t是在时间步t上处理的源文本分词，

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数。(与语义编码网络隐藏层单元数相同)

再将X＝x₁，x₂，x₃，...，x_M输入词性分析网络的后向处理单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中S是隐藏层的激活函数，可以选择非线性激活函数，x_t是在时间步t上处理的源语言词，

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元数，与语义编码网络隐藏层单元数相同。

将H＝h₁，h₂，h₃，...，h_M与G＝g₁，g₂，g₃，...，g_M中的对应元素以concat()的方式进行拼接，得到语义编码网络的输出E＝e₁，e₂，e₃，...，e_M，其中

在进行解码阶段前，首先要将语义编码网络的隐藏层状态序列输入注意力神经网络，如图2，在生成目标文本序列的第j个元素时，将语义编码网络的输出e₁，e₂，e₃，...，e_M分别和语义解码网络的前一时刻的隐藏层状态z_j-1进行点积计算，记为score()，即

对点积结果使用Softmax函数计算得到在生成目标文本第j个元素时，E＝e₁，e₂，e₃，...，e_M中的每个元素所占的权重α_ij，计算公式如下：

注意力神经网络输出语义编码网络的加权和：

在解码阶段，步骤在当前时间步上，对应的注意力神经网络输出c_j和上一个时间步的隐藏层状态z_j-1作为当前隐藏层单元的输入，计算得到当前时刻的隐藏层状态z_j，计算公式如下：

将语义解码网络的隐藏层状态z_j通过Softmax输出层得到目标语言词的概率分布，计算过程如下：

P[y_j|{y₁，...，y_j-1}，c_j]＝softmax(W_sZ_j)

其中，[；]表示串联，W_c和W_s表示待训练的参数矩阵。

根据概率分布，选取所有候选目标词中概率最高的词作为目标文本输出。

最后使用一定数量成对的源文本与目标文本数据(X，Y)对中文语言处理模型进行训练，表示为

获得所需要的参数矩阵；使用标准最大似然参数估计优化评估训练结果；得到最终的中文语言处理模型。使用训练好的中文语言处理模型就可以进行中文文本的处理任务。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：包括如下步骤：

步骤一：将中文源文本进行分词，经过分词后的数据使用词向量生成方法生成被计算机处理的中文词向量序列X＝x₁,x₂,x₃,…,x_M，M是源文本经过分词后的数据长度；

步骤二：将源文本的中文词向量序列X＝x₁,x₂,x₃,…,x_M输入语义编码网络，语义编码网络的前向网络单元从左至右处理中文词向量序列，后向网络单元从右至左处理中文词向量序列，最后将两个方向对应的隐藏层状态向量相连接，语义编码网络直接输出其隐藏层状态序列H＝h₁,h₂,h₃,…,h_M，其中H中的元素h_i是维度为2D的列向量，i取[1,M]中的整数，D等于RNN网络隐藏层神经单元个数，

步骤三：将源文本中文词向量序列X＝x₁,x₂,x₃,…,x_M输入词性分析网络，词性分析网络的前向网络单元从左至右处理中文词向量序列，后向网络单元从右至左处理中文词向量序列，最后将两个方向对应的隐藏层状态向量相连接，输出其隐藏层状态序列G＝g₁,g₂,g₃,…,g_M，G中的元素g_i是维度为2D的列向量，i取[1,M]中的整数，D等于RNN网络隐藏层神经单元个数，

步骤四：H与G中元素的维度相同，等于2D，将H＝h₁,h₂,h₃,…,h_M与G＝g₁,g₂,g₃,…,g_M中的每个元素以concat()的函数方式进行拼接，得到输出E＝e₁,e₂,e₃,…,e_M，其中

i取[1,M]中的整数，是长度为4D的向量；

步骤五：初始时刻k＝1时，将E＝e₁,e₂,e₃,…,e_M作为注意力神经网络的输入，注意力神经网络使用一个随机生成的4D维向量z₀与E＝e₁,e₂,e₃,…,e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁,e₂,e₃,…,e_M中每个元素所占的初始权重α_i1，注意力神经网络输出e₁,e₂,e₃,…,e_M的初始加权和，即

将初始加权和c₁作为语义解码网络的输入，生成初始目标序列第1个元素y₁，得到初始目标序列隐藏层状态z₁；

步骤六：在时刻k＝j时，注意力网络将语义解码网络前一时刻的隐藏层状态z_j-1与E＝e₁,e₂,e₃,…,e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁,e₂,e₃,…,e_M中每个元素所占的权重α_ij，i表示源文本的第i个分词，j表示第j个时刻，α_ij表示正在生成的目标词与E＝e₁,e₂,e₃,…,e_M中每个元素的关联程度，注意力神经网络输出e₁,e₂,e₃,…,e_M的加权和，即

c_j作为语义解码网络的输入，语义解码网络生成目标序列的第j个元素y_j，得到当前时刻的隐藏层状态z_j；

步骤七：在时刻k＝M时，注意力网络将语义解码网络前一时刻的隐藏层状态z_M-1与E＝e₁,e₂,e₃,…,e_M中的每个元素做点积，将所有点积结果通过一个Softmax函数，得到E＝e₁,e₂,e₃,…,e_M中每个元素所占的权重α_iM，输出e₁,e₂,e₃,…,e_M的加权和，即

c_M作为语义解码网络的输入，语义解码网络生成目标序列的最后一个元素y_M；

步骤八：将时刻k从1到M，语义解码网络生成目标序列y₁到y_M组成最终目标序列Y＝y₁,y₂,y₃,…,y_M。

2.根据权利要求1所述的一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：还包括步骤九，所述步骤九：对中文语言处理模型进行训练获得神经网络的各项参数：使用成对的源文本与目标文本数据(X，Y)对中文语言处理模型进行训练，表示为

获得所需要的语义编码网络、词性分析网络中U，W，K，L和语义解码网络中的W_c，W_s矩阵，U和W表示语义编码网络所有隐藏层单元共享的参数矩阵，K和L表示词性分析网络所有隐藏层单元共享的参数矩阵，W_c和W_s表示语义解码网络待训练的参数矩阵。

3.根据权利要求1所述的一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：所述语义编码网络由双向的RNN网络组成，包括输入层、隐藏层和输出层；其中隐藏层的层数为4；

语义编码网络隐藏层均采用LSTM单元代替基本的RNN单元；

语义编码网络按顺序和逆序两个方向处理中文词向量序列X＝x₁,x₂,x₃,…,x_M；具体步骤如下：

步骤2-1：将X＝x₁,x₂,x₃,…,x_M输入语义编码网络的前向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是隐藏层的激活函数，选择非线性激活函数，x_t是在时间步t上处理的源文本分词，/>

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数；

步骤2-2：将X＝x₁,x₂,x₃,…,x_M输入语义编码网络的后向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

其中

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数；

h_t是一个2D维的向量，将所有M个时间步上得到的h_t组成H＝h₁,h₂,h₃,…,h_M，M是源语言词的个数。

4.根据权利要求1所述的一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：所述词性分析网络由双向的RNN网络组成，包括输入层、隐藏层和输出层；

词性分析网络按顺序和逆序两个方向处理中文词向量序列X＝x₁,x₂,x₃,…,x_M；具体步骤如下：

步骤3-1：将X＝x₁,x₂,x₃,…,x_M输入词性分析网络的前向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：/>

其中S是隐藏层的激活函数，选择非线性激活函数，x_t是在时间步t上处理的源文本分词，

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

的维度为D，D为其隐藏层神经单元个数，与语义编码网络隐藏层单元数相同；

步骤3-2：将X＝x₁,x₂,x₃,…,x_M输入词性分析网络的后向网络单元，在每个时间步t上，得到其隐藏层状态

计算方法如下：

是上一个时间步的隐藏层状态，/>

是偏置项，/>

和/>

是所有隐藏层单元共享的参数矩阵，/>

g_t是一个2D维的向量，将总共M个时间步上的g_t组成G＝g₁,g₂,g₃,…,g_M，M是源语言词的个数。

5.根据权利要求1所述的一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：所述注意力神经网络是一个前馈神经网络，包含输入层，隐藏层和输出层；

其中隐藏层的层数为一，输出层采用Softmax激活函数；

点积计算，记为score()，即：

score(z_j-1,e_i)＝z_j-1e_i

对点积结果使用Softmax函数计算得到E＝e₁,e₂,e₃,…,e_M的每个输出所占的权重α_ij，计算公式如下：

0<α_ij<1，且α_1j+α_2j+…+α_Mj＝1；

注意力神经网络输出e₁,e₂,e₃,…,e_M的加权和：

将c₁作为语义解码网络的第一个隐藏层状态参与后续计算。

6.根据权利要求1所述的一种基于深度神经网络的中文语言处理模型的处理方法，其特征在于：所述语义解码网络由单向的RNN组成，包括输入层，隐藏层和输出层，其中隐藏层层数为4；

隐藏层均采用LSTM替代基本的RNN单元；

语义解码网络每个时刻步生成一个目标词，具体步骤如下；

代表语义解码网络的激活函数，W_c代表待训练的参数矩阵；

P[y_j|{y₁,…,y_j-1},c_j]＝softmax(W_sz_j)

其中，[，]表示串联，W_c和W_s表示待训练的参数矩阵；

步骤3：语义解码网络在目标词所有结果中随机抽样得到多个目标词的候选，在通过步骤2中得到的概率分布找出概率最大的一个作为最终输出。