CN110750965A

CN110750965A - 英文文本序列标注方法、系统及计算机设备

Info

Publication number: CN110750965A
Application number: CN201910871720.8A
Authority: CN
Inventors: 孙超; 于凤英; 王健宗; 韩茂琨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-04
Anticipated expiration: 2039-09-16
Also published as: CN110750965B; WO2021051574A1

Abstract

本发明实施例提供了一种基于神经网络的英文文本序列标注方法，所述方法包括：提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI‑LSTM层和第一dropout层以得到第一输出矩阵

通过选择性信息对应的第四矩阵

得到第二输出矩阵

通过语义信息对应第五矩阵S_m×d得到第三输出矩阵

通过二元信息对应的第六矩阵B_m×d第四输出矩阵

将

和

进行线性相加，得到线性相加结果

将线性相加结果O输入第二LSTM层得到第五输出矩阵

将

作为条件随机场CRF的输入序列，以通过CRF输出标签序列Y＝(y₁,y₂,...,y_m)。本发明实施例可以有效提升标注准确率。

Description

英文文本序列标注方法、系统及计算机设备

技术领域

本发明实施例涉及计算机数据处理领域，尤其涉及一种基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质。

背景技术

随着网络技术的普及，文本数据资源的规模日益增长，例如CNN、BBC等新闻网站每天都会产生大量文本数据。同时，面对规模庞大的文本数据资源，人们开始借助自然语言处理(Natural Language Processing，NLP)等技术来对海量文本数据进行信息提取、挖掘、分类和归纳等一系列操作。而在自然语言处理中，序列标注模型是最常见的模型，也有着广泛地应用，其输出的是一个标签序列。通常而言，标签之间是相互联系的，构成标签之间的结构信息。利用这些结构信息，序列标注模型可以快速有效的预知文本序列中每个词语对应的标签(比如，人名，地名等)。

现有的序列标注模型，包括多层感知器(Multilayer Perceptron，MLP)、自动编码器(Auto Encoder，AE)、卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Networks，RNN)等。上述序列标注模型一定程度上代替了人工特征抽取，但是标注准确率仍然较低。

因此，针对现有序列标注模型的标注准确率较低的问题，有必要在现有序列标注模型进行改进的基础上，提出一种英文文本序列标注方法，以提升标注准确率。

发明内容

有鉴于此，本发明实施例的目的是提供一种基于神经网络的英文文本序列标注方法、系统、计算机设备及计算机可读存储介质，可以有效提升标注准确率。

为实现上述目的，本发明实施例提供了一种基于神经网络的英文文本序列标注方法，所述方法包括：

提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

通过所述字符嵌入层获取目标句子的字符矩阵I_(k×m)×1，通过第二词嵌入层将字符矩阵I_(k×m)×1转化为k×m×d维的矩阵，并将k×m×d维的矩阵输入到第二BI-LSTM层中，通过所述第二BI-LSTM层得到第四矩阵

并将第四矩阵输入到第二dropout层以得到第二输出矩阵

提取目标句子的语义信息和基于卷积层提取的二元信息，并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵

以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

将第一输出矩阵第二输出矩阵

第三输出矩阵

和第四输出矩阵

进行线性相加，得到线性相加结果

ω_i为对应的权重系数；

将线性相加结果O输入第二LSTM层在每个时间步记录输出

以得到第五输出矩阵

i为各个单词在目标句子中序号，z为输入第二LSTM层的输入维度；

将第五输出矩阵

作为条件随机场CRF的输入序列，以通过CRF输出标签序列Y＝(y₁,y₂,...,y_m)。

优选地，提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

包括：

通过第一词嵌入层获取目标句子的第一矩阵W_m×d，m为所述目标句子中的单词数量，d为所述目标句子中的每个单词的词向量维数；

通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵C_m×n，n为每个单词中字符的字符向量维数；

获取目标句子中各个单词的形态特征，为每个单词建立一个独热向量SUV_1×10，以得到所述目标句子的第三矩阵SUV_m×10；

拼接第一矩阵W_m×d、第二矩阵C_m×n和第三矩阵SUV_m×10，将拼接后的拼接向量矩阵[W_m×d,C_m×n,SUV_m×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

优选地，通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵C_m×n，包括：

将目标句子中的每个单词分割为k维列向量C_k×1，并将C_k×1输入到随机初始化得到的字符嵌入层中，通过所述字符嵌入层输出k×n的矩阵，其中，k为单词的长度；

将k×n的矩阵输入到第一LSTM层中，将所述第一LSTM层中的最后隐状态C_1×n作为对应单词的向量表示，以将包含m个单词的目标句子转换为第二矩阵C_m×n。

优选地，获取目标句子中各个单词的形态特征，为每个单词建立一个独热向量SUV_1×10，以得到所述目标句子的第三矩阵SUV_m×10，包括：

预先统计并选取训练数据集中出现频率最高的10个后缀，收集以这些后缀结尾的多个预选单词；

记录所述多个预选单词中各个预选单词的词性和频次；

根据所述各个预选单词的词性和频次，确定所述各个预选单词的后缀是否为真实后缀；及

为所述各个预选单词建立独热向量SUV_1×10：当相应预选单词的后缀被确定为真实后缀时，记录<预选单词，后缀>对，并基于该后缀在所述10个后缀中的所处位置，为该预选单词建立一个独热向量SUV_1×10。

优选地，提取目标句子的语义信息和基于卷积层提取的二元信息，并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵

包括：

通过语义嵌入层获取目标句子的各个单词进行标注，将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵S_m×d，并将第五矩阵S_m×d输入到第三dropout层以得到第三输出矩阵

通过第三词嵌入层和卷积层获取目标句子的第六矩阵B_m×d，并将第六矩阵B_m×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

优选地，通过第三词嵌入层和卷积层获取目标句子的第六矩阵B_m×d，并将第六矩阵B_m×d输入到第四Bi-LSTM层和第四dropout层以得到

包括：

通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵；

通过该卷积层对m*d维词向量矩阵做卷积操作，得到d个m*1的卷积特征图；

将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到输入向量B_m×d，1≤j≤m，1≤i≤d，其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定；及

将B_m×d依顺序输入到所述第四BI-LSTM层中，并经过所述第四dropout层输出第四输出矩阵

为实现上述目的，本发明实施例还提供了基于神经网络的英文文本序列标注系统，包括：

第一输出模块，用于提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

第二输出模块，用于通过所述字符嵌入层获取目标句子的字符矩阵I_(k×m)×1，通过第二词嵌入层将字符矩阵I_(k×m)×1转化为k×m×d维的矩阵，并将k×m×d维的矩阵输入到第二BI-LSTM层中，通过所述第二BI-LSTM层得到第四矩阵

并将第四矩阵输入到第二dropout层以得到第二输出矩阵

第三输出模块，用于提取目标句子的语义信息，并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵

第四输出模块，用于基于卷积层提取的二元信息，将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

线性计算模块，用于将第一输出矩阵第二输出矩阵

第三输出矩阵

和第四输出矩阵

进行线性相加，得到线性相加结果

ω_i为

对应的权重系数；

第五输出模块，用于将线性相加结果O输入第二LSTM层在每个时间步记录输出

以得到第五输出矩阵

第六输出模块，用于将第五输出矩阵

优选地，所述第一输出模块，还用于：

为实现上述目的，本发明实施例还提供了一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如上所述的基于神经网络的英文文本序列标注方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的基于神经网络的英文文本序列标注方法的步骤。

本发明实施例提供的基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质，通过不同的维度提取目标句子的特征，例如，提取语义、二元特征、字符级特征和形态特征等多个方面特征信息，对这些特征进行线性加权以得到的综合特征，通过这些综合特征来输出目标句子的标签序列，由于同时兼顾多个维度的特征信息，因此可以确保较高的标准准确率。

附图说明

图1为本发明基于神经网络的英文文本序列标注方法实施例一的流程图。

图2为本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。

图3为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

为了方便理解，本文对一些名词进行解释：

嵌入层，用于将目标句子中的各个单词转换为固定大小的词向量，或将各个字符转换为固定大小的字符向量。

LSTM层，为长短期记忆网络层，用于在于根据目标句子各个字符或各个单词之间的前后顺序，输出各个字符或各个单词对应的信息标注(如语义标注、词性标注等)。

dropout层，为池化层，为了防止神经网络过拟合而设置的网络层。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本发明实施例一之基于神经网络的英文文本序列标注方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100，提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

在本步骤中：

提取单词信息，旨在提供目标句子中各个单词的词向量，作为本实施例目标句子的基础信息，后续提取的信息为基于不同维度的增量信息。

提取字符信息，旨在何根据一个字符的上下文来预测字母表中的下一个字符，用于获取各个单词之间的结构信息，如“man”和“policeman”具有相同的含义，存在结构上的相似性。

提取形态特征，旨在利用单词丰富的形态特征，如基于各个单词不同的后缀和拼写得到不同的形态信息，并将得到的形态信息用于单词标注中，提升单词标注的准确度。

需要说明的是，所述形态特征，是指各个单词的形态构成，如，各个单词可能具有不同的后缀，这些差异化的后缀可以被认为是这些单词的形态特征。也可以是前缀等，本实施例不做限定。

在示例性的实施例中，步骤S100包括以下步骤S100A～S100D：

步骤S100A，单词信息提取步骤：通过第一词嵌入层获取目标句子的第一矩阵W_m×d。

所述第一词嵌入层，用于将目标句子中的各个单词转换为固定大小的词向量。

m为所述目标句子中的单词数量，d为所述目标句子中的每个单词的词向量维数。

示例性的，将目标句子输入到第一词嵌入层，通过所述第一词嵌入层对所述目标句子中的m个单词分别进行词向量映射，以获取第一矩阵W_m×d(即，词向量矩阵)，其中每个单词映射为一个d维词向量。

例如，将每个句子都表示为一个列向量I_m×1，其中每一个元素都代表一个词，可以通过word2vec等模型，获取每个元素对应的d维词向量，例如128为词向量。

步骤S100B，字符级信息提取步骤：通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵C_m×n，n为每个单词中字符的字符向量维数。

所述字符嵌入层，用于将各个单词中的各个字母转换为固定大小的字符向量。

所述第一LSTM层，在于根据目标句子各个字符之间的前后顺序，输出每个字符对应的信息标注。

在示例性的实施例中，所述步骤S100B可以包括步骤S100B1～S100B2。具体如下：

步骤S100B1，将目标句子中的每个单词分割为k维列向量C_k×1，并将C_k×1输入到随机初始化得到的字符嵌入层中，通过所述字符嵌入层输出k×n的矩阵，其中，k为单词的长度，n为向量维数。不难理解，每个单词表示为一个k维列向量C_k×1，其中每一个元素都代表一个字符，获取每个字符对应的n维字符向量，从而得到k×n的矩阵。

步骤S100B2，将k×n的矩阵输入到第一LSTM层中，将所述第一LSTM层中的最后隐状态C_1×n作为对应单词的向量表示，以将包含m个单词的目标句子转换为第二矩阵C_m×n。

步骤S100C，形态信息提取步骤：获取目标句子中各个单词的形态特征，为每个单词建立一个独热向量SUV_1×10，以得到所述目标句子的第三矩阵SUV_m×10。

在示例性的实施例中，所述步骤S100C可以包括步骤S100C1～S100C4。具体如下：

步骤S100C1，预先统计并选取训练数据集中出现频率最高的10个后缀，收集以这些后缀结尾的多个预选单词。

步骤S100C2，根据所述各个预选单词的词性和频次，确定所述各个预选单词的后缀是否为真实后缀。

步骤S100C3，记录所述多个预选单词中各个预选单词的词性和频次。

步骤S100C4，为所述各个预选单词建立独热向量SUV_1×10：当相应预选单词的后缀被确定为真实后缀时，记录<预选单词，后缀>对，并基于该后缀在所述10个后缀中的所处位置，为该预选单词建立一个独热向量SUV_1×10。

由上可知，目标句子包括m个单词，则具有m个独热向量，因此构成第三矩阵SUV_m×10。

所述形态特征在于关注单词的后缀与拼写特征。

假设一个词性为x的单词w的后缀为s，则该单词在训练数据集中超过了一个频率阈值，那么s就是w的真实后缀，并记录(w,s)对，对每个单词建立一个独热向量SUV_1×10。示例性的，如果该单词的独热向量SUV_1×10中的位置k处的元素值为1，则表示该单词有第k个后缀。

步骤S100D，拼接第一矩阵W_m×d、第二矩阵C_m×n和第三矩阵SUV_m×10，将拼接后的拼接向量矩阵[W_m×d,C_m×n,SUV_m×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

第一输出矩阵

m为单词数量，d为各个单词的向量维度；

BI-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆神经网络)，第一层为输入层(inputlayer)，第二层和第三层为BI-LSTM层，最后一层为输出层(outputlayer)。BI-LSTM层是由两层LSTM组成，其中一个按照序列的输入顺序来处理，另一个则是按照序列输入的相反方向来对序列进行处理。

进一步的，通过所述第一BI-LSTM层输出第一输出矩阵的步骤如下：

步骤一：按照所述目标句子中的单词序列X＝(x₁,x₂,...,x_m)，将各个单词对应的拼接向量输入到前向LSTM层中，以通过该前向LSTM层计算前向隐藏层状态序列

(1)根据上一时刻的输出

和当前输入x_t来得到f_t值，以决定是否让上一时刻学到的信息C_t-1通过或部分通过：

f_t＝σ(W_f[x_t,h_t-1]+b_f)，其中f_t∈[0,1]，表示t时刻的节点对t-1时刻细胞记忆的选择权重，W_f为遗忘门的权重矩阵，b_f为遗忘门的偏置项，

表示t-1节点的隐层状态信息，非线性函数σ(x)＝1/(1+e^-x)；

(2)通过sigmoid来决定哪些值用来更新，并通过tanh层用来生成新的候选值q_t，它作为当前层产生的候选值可能会添加到记忆单元状态中，把这两部分产生的值结合来进行更新：

i_t＝σ(W_i[x_t,h_t-1]+b_i)，其中i_t∈[0,1]表示t时刻的节点对当前节点信息的选择权重，b_i为输入门的偏置项，W_i为输入门的权重矩阵，非线性函数σ(x)＝1/(1+e^-x)；

当前节点输入信息q_t＝tanh(W_q[h_t-1,x_t]+b_q)，其中b_q为偏置项，W_q表示待更新信息的权重矩阵，tanh为双曲正切激活函数，x_t表示t时刻前向LSTM层的输入向量，

表示t-1节点的隐层状态信息；

对旧的记忆单元状态进行更新，添加新信息：

当前输出记忆信息C_t＝f_t*C_t-1+i_t*q_t)，其中q_t表示t-1节点的记忆信息，f_t表示t时刻的节点对t-1时刻细胞记忆的选择权重，i_t表示t时刻的节点对当前节点信息的选择权重；

(3)前向LSTM层输出；

其中o_t∈[0,1]表示t时刻的节点细胞记忆信息的选择权重，b_o为输出门的偏置，W_o为输出门的权重矩阵，

表示向量x_t和

拼接后的向量，即|x_t|+|h_t-1|维的向量。

x_t表示t时刻前向LSTM层的输入数据，即本实施例中的拼接向量矩阵[W_m×d,C_m×n,SUV_m×10]中的其中一个单词对应的向量；

为t时刻前向LSTM层的输出向量。

步骤二：按照所述目标句子中的单词序列X＝(x₁,x₂,...,x_m)，将各个单词对应的拼接向量输入到后向LSTM层中，以通过该后向LSTM层计算后向隐藏层状态序列

步骤三：拼接所述前向隐藏层状态序列

和后向隐藏层状态序列

得到即H＝(h₁,h₂,...h_m)。

步骤四：将隐藏层状态序列H＝(h₁,h₂,...h_m)输入到dropout层之后得到第一输出矩阵

步骤S200，选择性信息提取步骤：通过所述字符嵌入层获取目标句子的字符矩阵I_(k×m)×1，通过第二词嵌入层将字符矩阵I_(k×m)×1转化为k×m×d维的矩阵，并将k×m×d维的矩阵输入到第二BI-LSTM层中，通过所述第二BI-LSTM层得到第四矩阵

并将第四矩阵

输入到第二dropout层以得到第二输出矩阵

所述第二BI-LSTM层，在于根据目标句子各个单词之间的前后顺序，输出每个字符对应的信息标注。

k为每个单词的长度，m为目标句子中的单词个数，d为单词的词向量维数。

I_(k×m)×1来表示每个句子的字符矩阵，该矩阵是经过字符嵌入层的句子所构成，它包含有上下文信息和字符信息。通过第二嵌入层来将其转换为k×m×d维的矩阵，并将其输入到第二BI-LSTM层之后得到

综上可表示为：

步骤S300，提取目标句子的语义信息和基于卷积层提取的二元信息，并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵

在本步骤中：

提取语义信息，从语义维度为对所述目标句子的各个单词进行信息标注。

提取二元信息，旨在提取目标句子的深度特征，进而用于信息标注。

在示例性的实施例中，所述步骤S300可以包括步骤S300A～S300B。具体如下：

步骤S300A，语义信息提取步骤：通过语义嵌入层获取目标句子的各个单词进行标注，将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵S_m×d，并将第五矩阵S_m×d输入到第三dropout层以得到第三输出矩阵

示例性的，可以用预训练好的AdaGram模型来初始化语义嵌入层；

通过语义嵌入层中的disambiguate函数标注目标句子中的各个单词的语义标注信息，例如：“apple”会被标注成“apple_n”，其中n为apple的第n个意思)，将标注后的目标句子输入到第三BI-LSTM层得到表示语义级上下文特征的第五矩阵S_m×d。

步骤S300B，二元信息提取步骤：通过第三词嵌入层和卷积层获取目标句子的第六矩阵B_m×d，并将第六矩阵B_m×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

二元信息，在于通过卷积层进行卷积操作，以得到卷积特征图，然后根据卷积特征图中特征输入到循环神经网络中，从而输出相应的信息标注。

在示例性的实施例中，所述步骤S300B可以包括步骤S300B1～S300B3。具体如下：

步骤S300B1，通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵。

步骤S300B2，通过该卷积层对m*d维词向量矩阵做卷积操作，得到d个m*1的卷积特征图。

即，每个卷积特征图的宽度为1，长度为m。卷积核为2*d，单词数量为m个，卷积核的数量也为d个。

卷积特征图中的m*1个元素，计算公式如下：

c_ij＝f(w_ij⊙m_i+b_i)

其中，c_ij为第i个特征卷积图中的m中的第j个元素的特征值，w_ij为对应第i个卷积特征图的被卷积核所覆盖到的词向量矩阵，⊙表示矩阵相乘，m_i为用于计算第i个卷积特征图的卷积核，b_i为用于计算第i个卷积特征图的偏置项，f为非线性的激活函数，如ReLU函数。

步骤S300B3，将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到m个d维输入向量(即B_m×d)，1≤j≤m，1≤i≤d，其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定；

步骤S300B4，将B_m×d依顺序输入到所述第四BI-LSTM层中，并经过所述第四dropout层输出第四输出矩阵

步骤S400，将第一输出矩阵第二输出矩阵

第三输出矩阵

和第四输出矩阵

进行线性相加，得到线性相加结果

ω_i为

对应的权重系数。

将步骤S100～S300从各个维度提取的特征信息进行加权进行线性加权以得到的综合特征，通过这些综合特征作为输出矩阵的标签序列的基础，具体可以如下。

步骤S500，将线性相加结果O输入第二LSTM层在每个时间步记录输出

以得到第五输出矩阵

i为各个单词在目标句子中序号，z为输入第二LSTM层的输入维度。

步骤S600，将第五输出矩阵

示例性的：

其中，A是状态转移矩阵，A_i,j代表从第i个标签转移到第j个标签的概率；

通过求得最大的s(X,y)，即可得到最佳的输出标签序列。

实施例二

请继续参阅图2，示出了本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。在本实施例中，基于神经网络的英文文本序列标注系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述基于神经网络的英文文本序列标注方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述基于神经网络的英文文本序列标注系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一输出模块200，用于提取目标句子的单词信息、字符信息和形态特征，并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵

第二输出模块202，用于通过所述字符嵌入层获取目标句子的字符矩阵I_(k×m)×1，通过第二词嵌入层将字符矩阵I_(k×m)×1转化为k×m×d维的矩阵，并将k×m×d维的矩阵输入到第二BI-LSTM层中，通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵

输入到第二dropout层以得到第二输出矩阵

第三输出模块204，用于提取目标句子的语义信息，并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵

第四输出模块206，用于基于卷积层提取的二元信息，将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

线性计算模块208，用于将第一输出矩阵

第二输出矩阵

第三输出矩阵

和第四输出矩阵

进行线性相加，得到线性相加结果

ω_i为

对应的权重系数；

第五输出模块210，用于将线性相加结果O输入第二LSTM层在每个时间步记录输出

以得到第五输出矩阵

第六输出模块212，用于将第五输出矩阵

作为条件随机场CRF的输入序列，以通过CRF输出标签序列Y＝(y₁,y₂,...,y_m)

所述第一输出模块200，还用于：

优选地，所述第一输出模块200，还用于：

记录所述多个预选单词中各个预选单词的词性和频次；

优选地，第三输出模块204，还用于，包括：

优选地，第四输出模块206，还用于通过第三词嵌入层和卷积层获取目标句子的第六矩阵B_m×d，并将第六矩阵B_m×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵

优选地，所述第四输出模块206，还用于：

实施例三

参阅图3，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于神经网络的英文文本序列标注系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例五的基于神经网络的英文文本序列标注系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行基于神经网络的英文文本序列标注系统20，以实现实施例一的基于神经网络的英文文本序列标注方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图3仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述基于神经网络的英文文本序列标注系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图2示出了所述实现基于神经网络的英文文本序列标注系统20实施例二的程序模块示意图，该实施例中，所述基于神经网络的英文文本序列标注系统20可以被划分第一输出模块200、第二输出模块202、第三输出模块204、第四输出模块206、线性计算模块208、第五输出模块210和第六输出模块212。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述基于神经网络的英文文本序列标注系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于神经网络的英文文本序列标注系统20，被处理器执行时实现实施例一的基于神经网络的英文文本序列标注方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。