CN108280064B

CN108280064B - 分词、词性标注、实体识别及句法分析的联合处理方法

Info

Publication number: CN108280064B
Application number: CN201810167568.0A
Authority: CN
Inventors: 郭平; 常薇; 辛欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2020-09-11
Anticipated expiration: 2038-02-28
Also published as: CN108280064A

Abstract

本发明涉及分词、词性标注、实体识别及句法分析的处理方法，是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法，属于自然语言处理技术领域。核心思想如下：首先分步构建出联合模型；然后利用现有的实体数据和成分句法树数据构造出联合句法树数据；接着从联合句法树数据中提取出训练数据；再使用训练数据对联合模型进行训练，最后使用训练好的联合模型对待分析的中文语句进行分析，得到作为分析结果的联合句法树。该方法有效地避免了错误传播问题，并且是一种基于转移的分析方法，保证了本发明的执行速度。

Description

分词、词性标注、实体识别及句法分析的联合处理方法

技术领域

本发明涉及分词、词性标注、实体识别及句法分析的联合处理方法，属于自然语言处理技术领域。

背景技术

分词、词性标注、实体识别和句法分析都属于自然语言处理领域中重要的基础任务。分词，就是让模型能够准确地识别句子中的词，因为在一些语言中，例如中文，在句子中是没有明显的分词标记的，词与词之间没有间隔，而在进行文本分析的时候，往往需要使用到词级别的文本，所以，分词成为了一项必需的基础任务。词性标注，就是判断句子中每个词的语法范畴，确定其词性并加以标注。实体识别，就是识别句子中具有特定意义的实体，主要包括人名、地名、机构名等。句法分析，主要包括成分句法分析和依存句法分析，本发明中涉及的是成分句法分析，成分句法分析就是获取整个句子的合乎语法的句法结构，句法结构一般用树状数据结构表示，所以分析结果通常称为句法树。做好这四项基础任务，是分析和理解自然语言的关键，也是信息抽取、问答系统、机器翻译等自然语言上层任务的重要基础。

在传统方式下，自然语言处理的中基础分析任务都是单独完成的，不同任务之间通过管道方式进行，即首先对待分析的中文语句进行分词，然后在分词的基础上进行词性标注和实体识别，然后在前面两步的基础上进行句法分析。这种管道式的处理方法有一个不可避免的问题，即错误传播问题，在前面任务中产生的错误分析结果会随着分析的进行传播到后面的任务中，从而影响分析的准确性。所以，为了解决错误传播的问题，一些学者提出了一些联合模型，将分词、词性标注、实体识别和句法分析中的两项或者是三项任务进行联合，在分析文本的时候不使用管道式的方法，而使用联合模型来处理，从而避免了错误传播的问题。本发明受此启发，提出一种联合处理方法，该方法能够同时解决四项任务，在解决的任务数量上多于以前的模型方法。同样，因为是一种联合方法，本发明同样能够避免管道式方法的错误传播问题。在句法分析的方法上划分，句法分析又可以分为基于图的分析方法和基于转移的分析方法，本发明的分析方法使用的是基于转移的分析方法，基于转移的分析方法具有比基于图的分析方法更快的执行速度。

本发明通过为待分析的中文语句生成联合句法树，完成对该语句的分词、词性标注、实体识别和成分句法分析。联合句法树是本发明提出的一种带有实体标签节点的成分句法树。在联合句法树中，分词的结果可以从句法树的叶子节点中获得，每一个单独的叶子节点都是一个词；词性标注和实体识别的结果可以从叶子节点的父节点(上一层节点)中获得，若一个词属于某类实体，则该节点的父节点就是实体节点，表示该节点的实体类型，否则该节点的父节点是词性节点，表示该节点的词性类型；成分句法分析的结果就是句法树的其他节点。由此，一个联合句法树包含上述四项任务的分析结果。

发明内容

本发明的目的是为了解决传统方法中以管道的方式进行分词、词性标注、实体识别和成分句法分析任务时产生错误在任务之间传播，从而导致任务准确率下降的问题，提供了分词、词性标注、实体识别及句法分析的联合处理方法，是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法，该方法有效地避免了错误传播问题，并且是一种基于转移的分析方法，保证了本发明的执行速度。

为实现上述目的，本发明的核心思想如下：首先构建模型，使用监督学习训练出模型，然后使用训练好的模型对待分析的中文语句进行分析；其中，监督学习是使用有标签的训练数据对模型进行训练，从而得到训练好的模型，然后再使用训练好的模型对无标签的数据进行分类，得到包含分类标签的结果，即有标签的分析结果；对于本发明而言，因为目前没有直接能够使用的训练数据，所以我们需要使用现有的数据逐步构建出要使用的训练数据，然后用训练数据训练构建出的模型；当模型训练好之后，我们就可以使用模型对中文语句进行分析，得到有标签的分析结果。

本发明的整体流程如下：

首先分步构建出联合模型；

然后利用现有的实体数据和成分句法树数据构造出联合句法树数据；

其中，联合句法树数据是构造训练数据要使用的中间数据，一棵联合句法树同时包含了分词、词性标注、实体识别和成分句法分析这四项任务的分析结果；因此，使用训练好的模型对待分析的中文语句进行分析时，要让模型的输出是一棵联合句法树；

再从联合句法树数据中提取出训练数据；

然后使用训练数据对联合模型进行训练，得出训练好的联合模型；

最后使用训练好的联合模型对待分析的中文语句进行分析，得到有标签的分析结果，即包含分析结果的联合句法树；

为实现上述目的，本发明所采用的技术方案如下：

分词、词性标注、实体识别及句法分析的联合处理方法，包括以下步骤：

步骤1：构建一个联合模型，具体包括：定义联合模型结构，定义联合模型的转移动作集合，定义特征模板，定义特征向量的计算方法，定义联合模型的训练方法以及联合模型的损失函数，具体包括如下子步骤：

步骤1.1定义联合模型结构；

其中，定义联合模型结构具体包括3个部分，首先是n-gram bi-LSTM神经网络，用来计算特征字串向量；然后是分析模型，用来提取状态特征和执行转移动作；最后是多层人工神经网络，用来根据状态特征选择将要执行的转移动作；

其中，n-gram bi-LSTM神经网络由x个独立的bi-LSTM神经网络组成，分别用来对待分析语句中长度为1至x的字串的预训练向量进行进一步转换，即n-gram中的n的取值为1至x，使用n-gram bi-LSTM神经网络生成带有上下文信息的特征字串向量；

分析模型由两个队列和一个栈构成，分别记为q₁，q₂和s；

其中，q₁中存放的是待分析的中文语句，q₂中存放的是从q₁中移进的字，具体依据步骤1.2中执行转移动作shift而存储对应的结果,s中存放的是归约的结果，具体依据步骤1.2中执行转移动作reduce(t)、reduce-unary(l)、reduce-binary(l)以及terminate而存储对应的结果；

多层人工神经网络由两个隐藏层和一个softmax函数组成，用来接收特征向量作为神经网络的输入，特征向量经过两个隐藏层的转换，然后通过softmax函数计算出表示转移动作概率的向量，即转移动作概率向量，从输入层到第一个隐藏层的权值矩阵为W₁，偏置为b₁，第一个隐藏层到第二个隐藏层的权值矩阵为W₂，偏置为b₂，softmax函数的参数矩阵为W_s，隐藏层的激活函数使用ReLU激活函数；

步骤1.2定义联合模型的转移动作集合；

将转移动作集合记为T，其中包含以下转移动作；

其中，shift是将q₁中的第一个字移入q₂，即执行shift时，q₂中存放的是从q₁中移进的字；

reduce(t)是将q₂中的所有字归约成一个词，并为该词判断词性类别或实体类别，类别为t，然后生成一个新的节点，将该词和所带标签作为节点的属性，将这个新的节点移进s，并清空q₂；即：执行reduce(t)时，s中存放的是对q₂进行归约的结果；

reduce-unary(l)是将s的栈顶第一个节点出栈并进行一元归约，归约生成一个新的节点，并为该节点判断成分类别为l，然后将新生成的节点入栈，即新生成的节点是父节点，而被归约的节点是子节点；即：执行reduce-unary(l)时，s中存放的则是对s中栈顶第一个节点进行一元归约的结果；

reduce-binary(l)是将s的栈顶的前两个节点出栈并进行二元归约，归约生成一个新的节点，并为该节点判断成分类别为l，将该节点入栈，即新生成的节点是父节点，而归约前的栈顶的第一个节点是右孩子节点，第二个节点是左孩子节点；即：当执行reduce-binary(l)时，s中存放的则是对s中栈顶前两个节点进行二元归约的结果；

terminate：将s中的唯一节点出栈，即句法树的根节点出栈，结束分析过程；

其中，分析过程是指使用训练好的联合模型，对待分析的中文语句进行分析，具体对应步骤3的操作；

步骤1.3定义特征模板：联合模型中的分析模型依据如下表1所示的特征模板从队列和栈的状态中提取特征：

表1特征模板

其中，s表示栈，q₁表示队列1，q₂表示队列2，w表示词，c表示字，t表示词性标签，l表示成分标签，数字0，1，…，k-1表示节点在栈或队列中的位置，其中k-1表示最后一个位置，s0w表示栈顶的第一个节点所表示的词，s1w表示栈顶的第二个节点所表示的词；q₁0c表示队列1中的第一个字，同理q₁1c表示队列1中的第二个字，q₂0c表示队列2中的第一个字，q₂k-1c表示队列2中的最后一个字；

若栈顶的第一个节点中的标签表示的是词性类别，则标签特征使用s0t，若栈顶的第一个节点中的标签表示的是成分类别，则标签特征使用s0l；

若栈顶的第二个节点中的标签表示的是词性类别，则标签特征使用s1t，若栈顶的第二个节点中的标签表示的是成分类别，则标签特征使用s1l；

因为在分析过程中，队列1和队列2中的内容都没有词性标签或成分标签，所以q₁0c，q₁1c，q₂0c和q₂k-1c对应的标签特征是“无”；

步骤1.4定义特征向量的计算方法；

定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签向量，所以首先说明预训练字向量和词向量的方法；在分析某中文语句的过程中，为了使预训练的字向量，词向量和由字向量生成的字串向量能够携带该语句的上下文信息，使用n-gram bi-LSTM神经网络，对待分析语句中需要使用的预训练字向量，词和由字向量生成的字串向量进行转换，得到n-gram bi-LSTM神经网络的输出向量，将输出向量进行拼接，得到转换后的特征字串向量，特征向量由特征字串向量和标签向量组成，具体为：

1.4.1使用Skip-Gram模型和从百度新闻爬取的2G大小的新闻数据预训练字向量和词向量，然后从字向量中提取按字频从高到低排序后的前N_w个常用字及其向量组成预训练的字表，记为character_table，字频是字在新闻数据中出现的频次，从词向量中提取按词频从高到低排序后的前N_w个常用词及其向量组成预训练的词表，记为word_table，词频是词在新闻数据中出现的频次，character_table中的第i个字向量记为

word_table中的第i个词向量记为

字向量和词向量维度均为d_w，即

character_table对应的字向量矩阵为E^c且

word_table对应的词向量矩阵为E^w且

随机初始化的标签向量组成标签向量表tl_table，标签向量表的大小为N_tl，标签向量记为

维度为d_tl，即

tl_table对应的标签向量矩阵为E^tl且

1.4.2构建x个n-gram bi-LSTM神经网络，并且使n-gram中n的取值依次为1至x，即依次为1-gram，2-gram，3-gram，……,x-gram，当n等于1时，待分析的中文语句中的第j个字c_j所对应的1-gram bi-LSTM神经网络的输入向量为c_j的字向量，用

表示从character_table中提取出的c_j的字向量，当n大于1时，c_j所对应的n-gram bi-LSTM神经网络的输入向量为待分析的语句中c_j…c_j+n-1这个字串所对应的词向量或字串向量，即当c_j…c_j+n-1这个字串能够对应word_table中的某个词时，则使用这个词的词向量作为c_j所对应的n-gram bi-LSTM神经网络的输入向量，用

表示该词向量，若word_table中没有这个字串对应的词时，使用该字串的字串向量作为c_j所对应的n-gram bi-LSTM神经网络的输入向量，用

表示该字串的字串向量；用

对字c_j对应的n-gram bi-LSTM神经网络的输入向量作统一的表示，字c_j生成

的方法如下：

当n-gram中的n等于1时，若character_table中有c_j对应的字向量，则

若没有c_j对应的字向量，则使用character_table中的UNK字向量，即

当n-gram中的n大于1时，若word_table中有c_j…c_j+n-1对应的词向量，则

若没有c_j…c_j+n-1对应的词向量，则使用对应的字串向量，即

其中

的计算公式如公式(1)：

公式(1)中，若字串c_j…c_j+n-1中的某个字在character_table中检索不到，则使用

代替不存在的字向量来计算

词w_j生成

的方法与字c_j生成

的方法类似，区别在于：当n等于1时，

等于词首字的字向量；当n大于1时，依次从词首字取长度为n的部分，根据字c_j生成

的方法中当n大于1时的方法获得词的

若词的长度小于n，则取在待分析语句中与该词尾部相邻的字进行长度补齐，使补齐后的长度n为，再根据字c_j生成

的方法中当n大于1时的方法获得词的

字串c_j…c_j+n-1生成

的方法与字c_j生成

的方法类似，区别在于：当n等于1时，

等于字串首字的字向量；当n大于1时，依次从字串首字取长度为n的部分，根据字c_j生成

的方法中当n大于1时的方法获得字串的

若字串的长度小于n，则取在待分析语句中与该字串尾部相邻的字进行长度补齐，使补齐后的长度n为，再根据字c_j生成

的方法中当n大于1时的方法获得字串的

因此，一个字，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

经过x个n-gram bi-LSTM神经网络的转换，会有2x个对应的输出向量，将这些向量首尾拼接，得到特征字串向量，记为

且

同理，一个词，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

经过x个n-gram bi-LSTM神经网络的转换，会有2x个对应的输出向量，将这些向量首尾拼接，得到特征字串向量

且

一个字串，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

且

1.4.3根据步骤1.3定义的特征模板和分析模型的当前状态，获得相应的特征字串向量和标签向量，若某个特征为空，则使用对应该特征的NULL向量代替该向量，然后将这些向量进行首尾拼接得到特征向量，该向量就是用来表示当前状态的完整特征的特征向量；

步骤1.5定义联合模型的训练方法以及联合模型的损失函数；

其中，定义联合模型的训练方法为随机梯度下降法；定义联合模型的损失函数为(2)：

其中，i表示的是第i个训练数据，t_i是第i个训练数据中的转移动作，

是多层人工神经网络输出结果中t_i的概率，

是l₂正则化项，θ是待训练的所有模型参数，包括{W₁,b₁,W₂,b₂,W_s,E^tl}和n-gram bi_LSTM神经网络的参数；

步骤2：生成训练数据，包括：生成联合句法树数据，再基于联合句法树数据生成训练数据，然后使用训练数据训练联合模型，得出训练好的联合模型；具体为：

步骤2.1生成联合句法树数据：针对当前没有能够直接使用的训练数据的情况，我们需要用现有的数据生成联合句法树数据作为生成训练数据的中间数据，然后以此生成训练数据，使用ontonotes5.0中文数据中的实体数据(数据文件后缀名为.name)和成分句法树数据(数据文件后缀名为.parse)生成联合句法树数据，具体如下：

步骤2.1.1使用现有工具将成分句法树数据进行二叉化转换，生成二叉化的句法树；

步骤2.1.2在二叉化的句法树中加入实体标签节点，规则如下：若句法树中某个节点n_i下的所有叶子节点组成的字串在实体数据中对应一个实体，则将n_i下的所有叶子节点合并为一个新的叶子节点，然后为新的叶子节点增加一个新的父节点，新的父节点是由实体标签形成的节点，而新的实体标签节点的父节点是n_i，而在n_i下的所有原来的节点则全部被删去，由此方法依次将实体数据中的实体标签加入到成分句法树中，生成联合句法树数据；

步骤2.2基于联合句法树数据生成训练数据：根据定义的模型损失函数，需要从联合句法树数据中提取出状态特征与转移动作对，所有的状态特征与转移动作对构成训练数据集，具体包括如下子步骤：

步骤2.2.1根据定义的特征模板和转移动作集合，提取出由中文语句生成联合句法树的过程中，分析模型产生的所有状态特征，这些状态特征按出现顺序形成状态序列st₁,st₂,…,st_y-1,st_y；

步骤2.2.2根据定义的特征模板和转移动作集合，提取出由中文语句生成联合句法树的过程中，分析模型执行的所有转移动作，这些转移动作按执行顺序形成转移动作序列t₁,t₂,…,t_y-1,t_y；

步骤2.2.3将状态特征序列与转移动作序列一一对应，组成状态特征与转移动作对，所有的状态特征与转移动作对构成训练数据集

m表示训练数据总数；

步骤2.3使用训练数据训练联合模型，得出训练好的联合模型，具体过程为：训练步骤1.5中提及的联合模型参数θ，具体为：使用生成的训练数据对联合模型进行训练，直至模型已经收敛或者达到迭代次数上限，n-gram bi_LSTM神经网络会将训练数据中的状态特征转换成特征向量，训练的目标是使多层人工神经网络输出的转移动作概率向量中，训练数据中的转移动作所对应的那一维的值最大；

步骤3：使用步骤2输出的训练好的联合模型，对待分析的中文语句进行分析，生成对应的联合句法树，从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果，具体为：

步骤3.1初始化联合模型中的分析模型，即设置分析模型中的s和q₂为空，q₁中是待分析的中文语句；

步骤3.2进行分析，按顺序循环执行步骤3.2中的各个步骤：

步骤3.2.1若没有执行terminate转移动作，则从联合模型中的分析模型中提取状态特征，然后根据状态特征使用联合模型中的n-gram bi_LSTM神经网络计算出当前状态的特征向量，然后执行步骤3.2.2，若已经执行terminate转移动作，则直接执行步骤3.3；

步骤3.2.2将步骤3.2.1计算出的特征向量输入到联合模型中的多层人工神经网络中，根据多层人工神经网络的计算结果，即转移动作概率向量，选择转移动作概率向量的各个维度中概率值最大的那一维对应的转移动作，作为下一步要执行的转移动作；

步骤3.2.3使用3.2.2选择出的转移动作更新分析模型的状态，然后返回步骤3.2.1；

步骤3.3输出联合句法树，即分析结果，然后结束分析过程；

其中，联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果，其中，联合句法树的所有叶子节点表示分词结果，每一个单独的叶子节点都是一个词，叶子节点的上一层节点即叶子节点的父节点表示词性标注和实体识别的结果，该层的节点或为词性标签或为实体标签，当该层的某一节点对应的叶子节点是实体的时候，该节点就是实体标签，表示实体识别的结果，否则该节点就是词性标签，表示词性标注的结果，该层再往上的各层节点都是成分标签，表示成分句法分析的结果；

至此，从步骤1到步骤3，完成了分词、词性标注、实体识别及句法分析的联合处理方法。

有益效果

分词、词性标注、实体识别及句法分析的联合处理方法，与现有技术相比，具有如下有益效果：

1.本发明所述方法将分词、词性标注、实体识别、成分句法分析四项基础任务进行联合处理，通过一次完整的分析过程，就可以获得这四项任务的分析结果，而不用依次处理这四项任务；

2.本发明所述方法中的联合模型因为联合解决了上述四项任务，因此有效避免了传统管道式方法所带来的错误传播问题，在一定程度上提高了分析结果的准确率；

3.本发明所述方法采用联合模型，并使用了基于转移的分析方法，使得本发明具有较快的执行速度。

附图说明

图1是本发明分词、词性标注、实体识别及句法分析的联合处理方法的步骤1至步骤3，即模型从构建到训练，再到用于分析使用的流程图；

图2是本发明分词、词性标注、实体识别及句法分析的联合处理方法中步骤2提及的用于生成联合句法树数据的一棵成分句法树的示意图；

图3是根据本发明提出的方法，使用现有的实体数据和成分句法树数据生成的一棵联合句法树的示意图；

图4是从细节上描述，通过分析状态特征获得转移动作概率向量的过程示意图；

图5是在分析“全球第五个迪斯尼乐园即将在这里向公众开放”这句语句的过程中，在某一个状态下，使用n-gram bi-LSTM神经网络对字向量，词向量和由字向量生成的字串向量进行转换的示意图。

实施例

本实施例描述了本发明“分词、词性标注、实体识别及句法分析的联合处理方法”从构建模型到训练模型，再到使用模型分析中文语句的完整流程。

图1为本发明所提方法实施的流程图，为了更清楚地说明相关内容，我们还将结合其他附图来共同说明。

步骤A：根据本发明的目的，构建一个联合模型，包括：定义联合模型结构，定义特征模板，定义联合模型的转移动作集合，定义特征向量的计算方法，定义联合模型的训练方法以及联合模型的损失函数，具体为：

步骤A.1定义联合模型结构：

首先构建n-gram bi-LSTM神经网络，结构如图5中间部分所示，本发明中有4个bi-LSTM神经网络，分别对应1-gram，2-gram，3-gram和4-gram；然后构建分析模型，结构如图5下方部分所示，由两个队列和一个栈构成，分别为q₁，q₂和s；最后是多层人工神经网络，由两个隐藏层和一个softmax函数组成，结构如图4上部分所示；

步骤A.2定义联合模型的转移动作集合：

转移动作集合中包括5个转移动作，分别是shift，reduce(t)，reduce-unary(l)，reduce-binary(l)和terminate，转移动作的执行内容同发明内容中步骤1.2一致；

步骤A.3定义特征模板：

特征模板如表1所示。

关于特征模板的具体说明，同发明内容中步骤1.3一致；

步骤A.4定义特征向量的计算方法：

首先，根据发明内容中的步骤1.4.1生成预训练的字表和词表以及随机初始化的标签向量表，然后根据发明内容中的步骤1.4.2对预训练的向量生成特征字串向量，举例说明，如图5中间部分所示，我们要获得“全”字的特征字串向量，那么方式如下：对1-gram bi-LSTM输入从字表中检索到的“全”字的预训练字向量，若检索不到，则用UNK字向量代替，得到bi-LSTM的正向和反向的两个输出向量；对2-gram bi-LSTM输入从词表中检索到的“全球”这一词的预训练词向量，若检索不到，则用从字表中检索到的“全”字和“球”字的预训练字向量求平均值得到的向量代替，若其中的字向量也检索不到，则对应的字向量用UNK字向量代替，再求平均值；与2-gram bi-LSTM同理，得到“全球第”的预训练向量输入到3-grambi-LSTM，得到“全球第五”的预训练向量输入到4-gram bi-LSTM中。同样，2-gram bi-LSTM，3-gram bi-LSTM和4-gram bi-LSTM都各自会产生两个输出向量，加上1-gram bi-LSTM的输出向量，一共8个输出向量，将这8个输出向量进行首尾拼接，得到“全”字的特征字串向量。如图5所示，根据特征模板，从图5所示的状态中提取到的特征有：s0w为空，对应的特征字串向量使用NULL特征字串向量；s1w为空，对应的特征字串向量使用NULL特征字串向量；q₂0c是“全”，使用“全”的特征字串向量；q₂k-1c为空，对应的特征字串向量使用NULL特征字串向量；q₁0c是“球”，使用“球”的特征字串向量；q₁1c是“第”，使用“第”的特征字串向量；s0t或s0l为空，对应的向量使用标签向量表中的NULL标签向量；s1t或s1l为空，对应的向量使用标签向量表中的NULL标签向量。将上述提及的向量依次首尾拼接，得到分析模型当前状态的特征向量；

步骤A.5定义联合模型的训练方法以及联合模型的损失函数：

定义的损失函数及其说明，同发明内容中步骤1.5一致。在实际使用中，我们需要为用到的向量和参数矩阵设置具体的维度。对于预训练的字向量和词向量以及随机初始化的标签向量，设置维度均为50维，即

且

那么，使用字向量和词向量计算得到的特征字串向量的维度为50×8＝400维，即

特征向量是由根据特征模板提取或计算相应的向量然后拼接得到的，所以，特征向量的维度为400×6+50×2＝2500；多层人工神经网络最后通过softmax函数，获得的是转移动作概率向量，所以我们先来确定联合模型中的多层人工神经网络输出的转移动作概率向量的维度，我们将转移动作概率向量记为

影响

维度的因素有转移动作集合T中的转移动作的数量和词性标签，实体标签以及成分标签的数量，其中：shift对应1维；reduce(t)，t的取值在词性标签和实体标签集合中，根据训练数据可得词性标签有35个，实体标签有18个，所以reduce(t)对应53维；reduce-unary(l)，l的取值在成分标签集合中，根据训练数据可得成分标签有30个，所以reduce(l)对应30维；与reduce-unary(l)同理，reduce-binary(l)也对应30维；terminate对应1维，因此，

的维度为1+53+30+30+1＝115维，即

多层人工神经网络的输入为2500维，输出为115维，因此我们令两个隐藏层的维度依次下降，设置：

步骤B：根据本发明及本实施例的目的，生成训练数据，包括：生成联合句法树数据，然后基于联合句法树数据生成训练数据，然后使用训练数据训练联合模型，具体为：

步骤B.1生成联合句法树数据：

本实施例使用实体数据和成分句法树数据来生成联合句法树数据，使用的实体数据例如“全球<ENAMEX TYPE＝"ORDINAL">第五</ENAMEX>个<ENAMEX TYPE＝"FAC">迪斯尼乐园</ENAMEX>即将在这里向公众开放。”，其中，在<ENAMEX></ENAMEX>标签之内的是实体，TYPE＝"ORDINAL"表示实体类型为“ORDINAL”，使用的成分句法树数据例如“(IP(NP(NP(NN全球))(QP(OD第五)(CLP(M个)))(NP(NR迪斯尼)(NN乐园)))(VP(ADVP(AD即将))(PP(P在)(NP(PN这里)))(PP(P向)(NP(NN公众)))(VP(VV开放)))(PU。))”，将该数据以树的形式画出来则如图2所示。将成分句法树数据和实体数据按照发明内容中的步骤2.1进行联合，则会得到联合句法树数据，其中二叉化工具使用的是ZPar开源代码中的“binarize.py”，然后对二叉化结果中的各个成分节点，只保留成分标记，去掉辅助标记，再与实体数据进行联合。使用上述的例子，生成的联合句法树为“(IP(NP(NP(NN全球))(NP(QP(OD(NER-ORDINAL第五))(CLP(M个)))(NP(NER-FAC迪斯尼乐园))))(IP(VP(ADVP(AD即将))(VP(PP(P在)(NP(PN这里)))(VP(PP(P向)(NP(NN公众)))(VP(VV开放)))))(PU。)))”，将该数据以树的形式画出来则如图3所示。

步骤B.2基于联合句法树数据生成训练数据：

本发明的训练数据是状态特征与转移动作对集合，具体到本实施例，例如，如果从“(IP(NP(NP(NN全球))(NP(QP(OD(NER-ORDINAL第五))(CLP(M个)))(NP(NER-FAC迪斯尼乐园))))(IP(VP(ADVP(AD即将))(VP(PP(P在)(NP(PN这里)))(VP(PP(P向)(NP(NN公众)))(VP(VV开放)))))(PU。)))”中提取训练数据，参照图5下方所示，我们可以从队列和栈中获得当前的状态，即“s0w：NULL，s1w：NULL，q₁0c：球，q₁1c：第，q₂0c：全，q₂k-1c：NULL，s0t：NULL，s1t：NULL”，从联合句法树中，根据本发明定义的转移动作集合，我们可以知道，在当前状态下，分析模型将要执行的动作是shift。由此，上述状态和转移动作构成了一个训练数据对，即“s0w：NULL，s1w：NULL，q₁0c：球，q₁1c：第，q₂0c：全，q₂k-1c：NULL，s0t：NULL，s1t：NULL；shift”。同理可得本发明的训练数据集。

步骤B.3使用训练数据训练联合模型：

使用生成的训练数据对联合模型进行训练，直至模型已经收敛或者达到迭代次数上限。我们可以通过模型分析的准确率变化来判断模型是否收敛，准确率是根据状态特征，模型判断出正确转移动作的训练数据数量与所有训练数据数量的比值，当相邻三轮训练得到的准确率的变化小于一个很小的数(可以取0.00001)时，我们可以认为模型已经收敛，可以停止训练；或者当模型已经迭代到了人为设置次数的上限(比如200轮，一轮对应使用完整的训练集训练一次)，我们也可以停止训练；

步骤C：根据本发明及本实施例的目的，使用训练好的联合模型，对待分析的中文语句进行分析，生成对应的联合句法树，从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果，例如，待分析的中文语句为“全球第五个迪斯尼乐园即将在这里向公众开放。”，分析过程具体为：

步骤C.1初始化分析模型：设置s和q₂为空，q₁中是待分析的中文语句，如下表所示；

步骤C.2进行分析，分析过程的步骤说明同发明内容中步骤3.2一致，这里我们用表格的方式举例说明对一句话进行分析的完整过程，并且我们假定多层人工神经网络每一步判断的转移动作都是正确的(目的就是为了展示模型是如何进行分析的)，表格中的状态是当前分析模型的状态，转移动作是根据当前状态判断出将要执行的转移动作，序号n所对应的状态是序号n-1的状态执行了序号n-1的转移动作生成的，s列的表格中的括号表示节点，表格如下：

执行terminate之后，(IP)出栈，分析结束；

步骤C.3输出联合句法树；

(IP)为根节点，通过树的遍历，从(IP)开始遍历，可以得到联合句法树，即分析结果，如图3所示。

至此，步骤A至C，从构建联合模型到准备训练数据，再到训练和使用模型，我们通过本实施例，展示了一种分词、词性标注、实体识别、句法分析的联合处理方法的执行过程。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.分词、词性标注、实体识别及句法分析的联合处理方法，其特征在于：整体流程如下：

首先，分步构建出联合模型，具体包括如下子步骤：

步骤1.1定义联合模型结构；

分析模型由两个队列和一个栈构成，分别记为q₁，q₂和s；

步骤1.2定义联合模型的转移动作集合；

将转移动作集合记为

其中包含以下转移动作；

步骤1.3定义特征模板：联合模型中的分析模型依据特征模板从队列和栈的状态中提取特征；

其中，特征模板具体为：

1)字或词特征为s0w，则标签特征为s0t或s0l；

2)字或词特征为s1w，则标签特征为s1t或s1l；

3)字或词特征为q₁0c，则无标签特征；

4)字或词特征为q₁1c，则无标签特征；

5)字或词特征为无q₂0c，则无标签特征；

6)字或词特征为q₂k-1c，则无标签特征；

步骤1.4定义特征向量的计算方法；

定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签向量，所以首先说明预训练字向量和词向量的方法；在分析某中文语句的过程中，为了使预训练的字向量，词向量和由字向量生成的字串向量能够携带该语句的上下文信息，使用n-gram bi-LSTM神经网络，对待分析语句中需要使用的预训练字向量，词向量和由字向量生成的字串向量进行转换，得到n-gram bi-LSTM神经网络的输出向量，将输出向量进行拼接，得到转换后的特征字串向量，特征向量由特征字串向量和标签向量组成，具体为：

word_table中的第i个词向量记为

字向量和词向量维度均为d_w，即

character_table对应的字向量矩阵为E^c且

word_table对应的词向量矩阵为E^w且

维度为d_tl，即

tl_table对应的标签向量矩阵为E^tl且

表示该字串的字串向量；用

的方法如下：

若没有c_j…c_j+n-1对应的词向量，则使用对应的字串向量，即

其中

的计算公式如公式(1)：

代替不存在的字向量来计算

词w_j生成

的方法与字c_j生成

的方法类似，区别在于：当n等于1时，

的方法中当n大于1时的方法获得词的

若词的长度小于n，则取在待分析语句中与该词尾部相邻的字进行长度补齐，使补齐后的长度为n，再根据字c_j生成

的方法中当n大于1时的方法获得词的

字串c_j…c_j+n-1生成

的方法与字c_j生成

的方法类似，区别在于：当n等于1时，

的方法中当n大于1时的方法获得字串的

若字串的长度小于n，则取在待分析语句中与该字串尾部相邻的字进行长度补齐，使补齐后的长度为n，再根据字c_j生成

的方法中当n大于1时的方法获得字串的

因此，一个字，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

且

同理，一个词，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

且

一个字串，对于x个n-gram bi-LSTM神经网络，会有x个

并且有

且

步骤1.5定义联合模型的训练方法以及联合模型的损失函数；

是多层人工神经网络输出结果中t_i的概率，

然后，利用现有的实体数据和成分句法树数据构造出联合句法树数据；

再从联合句法树数据中提取出训练数据；

最后使用训练好的联合模型对待分析的中文语句进行分析，得到有标签的分析结果，即包含分析结果的联合句法树。

2.根据权利要求1所述的分词、词性标注、实体识别及句法分析的联合处理方法，其特征在于：包括以下步骤：

步骤1：构建一个联合模型，具体包括：定义联合模型结构，定义联合模型的转移动作集合，定义特征模板，定义特征向量的计算方法，定义联合模型的训练方法以及联合模型的损失函数；

步骤2：生成训练数据，包括：生成联合句法树数据，再基于联合句法树数据生成训练数据，然后使用训练数据训练联合模型，得出训练好的联合模型；

步骤3：使用步骤2输出的训练好的联合模型，对待分析的中文语句进行分析，生成对应的联合句法树，从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果。

3.根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法，其特征在于：步骤2，具体为：

步骤2.1生成联合句法树数据：针对当前没有能够直接使用的训练数据的情况，我们需要用现有的数据生成联合句法树数据作为生成训练数据的中间数据，然后以此生成训练数据，使用ontonotes5.0中文数据中的实体数据和成分句法树数据生成联合句法树数据，具体如下：

m表示训练数据总数；

步骤2.3使用训练数据训练联合模型，得出训练好的联合模型，具体为：训练步骤1.5中提及的联合模型参数θ，具体为：使用生成的训练数据对联合模型进行训练，直至模型已经收敛或者达到迭代次数上限，n-gram bi_LSTM神经网络会将训练数据中的状态特征转换成特征向量，训练的目标是使多层人工神经网络输出的转移动作概率向量中，训练数据中的转移动作所对应的那一维的值最大。

4.根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法，其特征在于：步骤3，具体为：

步骤3.2进行分析，按顺序循环执行步骤3.2中的各个步骤：

步骤3.3输出联合句法树，即分析结果，然后结束分析过程；

其中，联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果，其中，联合句法树的所有叶子节点表示分词结果，每一个单独的叶子节点都是一个词，叶子节点的上一层节点即叶子节点的父节点表示词性标注和实体识别的结果，该层的节点或为词性标签或为实体标签，当该层的某一节点对应的叶子节点是实体的时候，该节点就是实体标签，表示实体识别的结果，否则该节点就是词性标签，表示词性标注的结果，该层再往上的各层节点都是成分标签，表示成分句法分析的结果。