CN111476024A

CN111476024A - 一种文本分词方法、装置及模型训练方法

Info

Publication number: CN111476024A
Application number: CN202010132727.0A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-31

Abstract

本发明提供一种文本分词方法、装置及模型训练方法，基于深度学习神经网络模型提出了一种针对自然语言非结构化文本进行分词的模型结构和方法，利用循环神经网络提取文本的上下文信息，采用卷积神经网络提取提取文本的局部特征，通过前馈神经网络输出初步预测标注序列，然后再通过条件随机场层在整个序列上学习最优的标注序列。通过本发明能够提高分词的准确率，具有较强的鲁棒性。

Description

一种文本分词方法、装置及模型训练方法

技术领域

本发明涉及人工智能的自然语言处理领域，尤其涉及一种文本分词方法、装置及模型训练方法。

背景技术

人工智能在各行各业广泛的应用，以医疗领域为例，随着医疗信息化的推广和普及，大量的医疗门诊病历数据和健康数据通过电子数据的形式被采集、传输和存储。这些资源中包含大量潜在的知识，对其进行挖掘，一方面可为医务人员提供临床决策的辅助和支持，另一方面可带来健康医疗模式的变化，提升健康医疗服务效率和质量。

电子病历中的文本数据通常是以非结构化的形式进行保存，如果想要对电子病历中的疾病、症状、检查、药物和手术等实体进行挖掘和信息抽取，则首要任务需要对电子病历中的文本数据进行分词。中文非结构自然语言文本和大部分西方自然语言文本不同，书面中文词语之间没有明显的空格标记，句子是以字串的形式出现。因此对中文进行处理的第一步就是进行自动分词，即将字串转变成词串。比如，一段诊断的病历文本信息：“急性硬膜下血肿及颅内血肿，意识障碍持续加重”，经过分词处理后得到如下分词结果“急性/硬膜/下/血肿/及/颅内/血肿/，/意识/障碍/持续/加重”。

传统的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法，是将需要分析的语言与词典中的词条进行匹配的方法，比如，正向或者逆向的扫描，最大或者最小的匹配原则等。该方法优点是实现简单，算法运行速度快，缺点是严重依赖词典，无法很好的处理分词歧义和未登录词。

基于理解的分词方法，这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段，还不成熟。

基于统计的分词方法，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。

发明内容

本发明提供一种文本分词方法和装置，该方法用于提高对自然语言非结构化文本的分词准确性和鲁棒性。

基于本发明实施例，提供一种文本分词方法，该方法应用于文本分词模型，该方法包括：

通过输入层对文本进行预处理得到输入序列X＝(x₁，x₂，…，x_n)，n为输入序列的字符个数；

通过字向量层对输入序列X中的每个字进行字嵌入处理，得到句子矩阵E＝(e₁、e₂、…、e_n)；

通过卷积神经网络层对句子矩阵E进行处理，学习句子矩阵E的局部特征后生成局部特征向量集合C＝{c₁,c₂,...,c_n-m+1}，m为卷积核个数，对每个局部特征向量进行池化处理后，得到句子特征向量U₁＝{v₁,v₂,...,v_n-m+1}；

通过循环神经网络层对句子矩阵E进行处理，学习句子矩阵E的上下文特征后生成上下文特征向量U₂；

通过前馈神经网络层将句子特征向量U₁和上下文特征向量U₂合并，对合并后的特征向量进行学习，得到输入序列X中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1；

通过条件随机场层，由初始得分矩阵S1和转移矩阵A得到输入序列X中每个字的转移得分，将每个字的初始得分和转移得分求和后的总得分矩阵S，从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为所述文本分词模型最终预测出的标注序列。

进一步地，所述卷积神经网络层采用传统池化方式生成局部特征向量集合C；或所述卷积神经网络层采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C。

进一步地，所述循环神经网络层采用双向门控循环神经网络模型或双向简单循环单元。

基于本发明实施例，还提出一种文本分词模型的训练方法，该模型包括输入层、字向量层、卷积神经网络层、循环神经网络层、前馈神经网络层级条件随机场层，该方法包括：

通过输入层对样本进行预处理得到输入序列X_i＝(x_i1，x_i2，…，x_in)，其中，i代表第i个样本，n为输入序列的字符个数；

通过字向量层对输入序列x_i中的每个字进行字嵌入处理，得到句子矩阵E_i＝(e_i1、e_i2、…、e_in)；

通过卷积神经网络层对句子矩阵E_i进行处理，学习句子矩阵E_i的局部特征后生成局部特征向量集合C_i＝{c_i1,c_i2,…,c_in-m+1}，m为卷积核个数，对每个局部特征向量进行池化处理后，得到句子特征向量U_i1；

通过循环神经网络层对句子矩阵E_i进行处理，学习句子矩阵E_i的上下文特征后生成上下文特征向量U_i2；

通过前馈神经网络层将句子特征向量U_i1和上下文特征向量U_i2合并，对合并后的特征向量进行学习，得到输入序列X_i中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1_i；

通过条件随机场层，由初始得分矩阵S1_i和转移矩阵A得到输入序列X_i中每个字的转移得分，将每个字的初始得分和转移得分求和后的总得分矩阵S_i，从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为所述文本分词模型输出的标注序列。

进一步地，所述卷积神经网络层采用传统池化方式生成局部特征向量集合C_i；或

所述卷积神经网络层采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C_i。所述循环神经网络层采用双向门控循环神经网络模型或双向简单循环单元。

进一步地，所述分词模型的训练过程采用TensorFlow开源框架，使用梯度下降优化算法，最小化损失函数loss；

所述转移矩阵A在训练过程中逐渐更新，A∈R^(n+2)×(n+2)，其中包含开始Start行列和结束End行列，矩阵元素a_ij代表第i个标签分类yⁱ转移到第j个标签分类y^j的转移概率。

基于本发明实施例，还提出一种文本分词装置，该装置包括：

输入模块，用于通过输入层对文本进行预处理得到输入序列X＝(x₁，x₂，…，x_n)，n为输入序列的字符个数；

字嵌入模块，用于通过字向量层对输入序列X中的每个字进行字嵌入处理，得到句子矩阵E＝(e₁、e₂、…、e_n)；

局部特征提取模块，用于通过卷积神经网络层对句子矩阵E进行处理，学习句子矩阵E的局部特征后生成局部特征向量集合C＝{c₁,c₂,...,c_n-m+1}，m为卷积核个数，对每个局部特征向量进行池化处理后，得到句子特征向量U₁＝{v₁,v₂,...,v_n-m+1}；

上下文特征提取模块，用于通过循环神经网络层对句子矩阵E进行处理，学习句子矩阵E的上下文特征后生成上下文特征向量U₂；

第一预测模块，用于通过前馈神经网络层将句子特征向量U₁和上下文特征向量U₂合并，对合并后的特征向量进行学习，得到输入序列X中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1。

预测优化模块，用于通过条件随机场层，由初始得分矩阵S1和转移矩阵A得到输入序列X中每个字的转移得分，将每个字的初始得分和转移得分求和后的总得分矩阵S，从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为所述文本分词模型最终预测出的标注序列。

进一步地，所述局部特征提取模块中的卷积神经网络层采用传统池化方式生成局部特征向量集合C_i；或采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C_i；

所述上下文特征提取模块中的循环神经网络层采用双向门控循环神经网络模型或双向简单循环单元。

由以上技术方案可见，本发明的实施例基于深度学习神经网络模型提出了一种针对自然语言非结构化文本进行分词的模型结构和方法，利用循环神经网络提取文本的上下文信息，采用卷积神经网络提取提取文本的局部特征，通过前馈神经网络输出初步预测标注序列，然后再通过条件随机场层在整个序列上学习最优的标注序列。通过本发明能够提高分词的准确率，具有较强的鲁棒性。

附图说明

为了更加清楚地说明本发明实施例或者现有技术中的技术方案，下面将对本发明实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本发明实施例的这些附图获得其他的附图。

图1为本发明提出的文本分词模型的网络结构示意图；

图2为本发明提出了一种文本分词方法流程示意图；

图3为本发明一实施例提供的分词模型结构示意图；

图4为本发明一实施例提供的对句子矩阵进行卷积池化的过程示意图；

图5为本发明一实施例采用的分段池化的示意图；

图6为本发明一实施例采用的GRU神经网络结构示意图；

图7为本发明一实施例采用的BiGRU的网络结构示意图；

图8为本发明一实施例采用的SRU神经网络结构示意图；

图9为本发明一实施例提供的一种文本分词装置结构示意图。

具体实施方式

在本发明实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明实施例。本发明实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本发明中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明提出了一种文本分词方法，该方法应用于本发明提出的文本分词模型，图1为本发明提出的文本分词模型的网络结构示意图，该模型包括输入层、字向量层、卷积神经网络层、循环神经网络层、前馈神经网络层和条件随机场层，该方法利用循环神经网络层和卷积神经网络层分别提取输入序列的局部特征和上下文信息，并通过条件随机场层在整个序列上学习最优的标注序列，该方法能够提高分词的准确率，具有较强的鲁棒性。

图2为本发明提出了一种文本分词方法流程示意图，以下结合图1和图2对本发明提出的文本分词方面进行说明。

S201、通过输入层对文本进行预处理得到输入序列X＝(x₁，x₂，…，x_n)，n为字符个数。

S202、通过字向量层对输入序列X中的每个字进行字嵌入处理，得到句子矩阵E＝(e₁、e₂、…、e_n)。

S203、通过卷积神经网络层对句子矩阵E进行处理，学习句子矩阵E的局部特征后生成局部特征向量集合C＝{c₁,c₂,...,c_n-m+1}，m为卷积核个数，对每个局部特征向量进行池化处理后，得到句子特征向量U₁＝{v₁,v₂,...,v_n-m+1}。

S204、通过循环神经网络层对句子矩阵E进行处理，学习句子矩阵E的上下文特征后生成上下文特征向量U₂。

在单向的神经网络结构中，状态总是从前向后输出的。然而，在文本特征提取过程中，如果当前时刻的输出能与前一时刻的状态和后一时刻的状态都产生联系，更有利于文本深层次特征的提取，因此，本发明一实施例中使用双向循环神经网络来提取文本深层次的特征。

卷积神经网络可以学习输入序列的局部特征，但是无法学习到序列元素之间的联系，循环神经网络无法学到类似卷积神经网络的局部特征，为了弥补二者单独的缺陷，本发明将两种神经网络结合一起，发挥两种神经网络模型各自的优点，同时提取出输入序列的局部特征和上下文信息以提高预测出的标注序列的准确性。

本发明一实施例中，循环神经网络层采用双向门控循环神经网络(BidirectionGated Recurrent Unit，BiGRU)或双向简单循环单元(Bidirection Simple RecurrentUnits，BiSRU)两种类型的循环神经网络。卷积神经网络层采用卷积神经网络(Convolutional Neural Network，CNN)或分段卷积神经网络(Piecewise ConvolutionalNeural Network，PCNN)。

S205、通过前馈神经网络层将句子特征向量U₁和上下文特征向量U₂合并，对合并后的特征向量进行学习，得到输入序列X中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1。

S206、通过条件随机场层，由初始得分矩阵S1和转移矩阵A得到输入序列X中每个字的转移得分，将每个字的初始得分和转移得分求和后的总得分矩阵S，从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为分词模型最终预测出的标注序列。

对于文本分词任务来说，文本中的某一个字符与前一位置的字符和后一位置的字符的都可能存在语义联系，如果不考虑这种语义联系，则模型输出的标注序列Y产生标注错误的可能性就会比较高，因此本发明增加了一层条件随机场(Conditional Random Field，CRF)层，在CRF层通过在模型训练阶段获得的转移矩阵来修正前馈神经网络层的初步预测结果，从而选择输出最优的标注序列作为模型最终输出的标注序列Y。

本发明提供的文本分词模型在投入实际的应用之前，需要使用大量的训练样本对模型进行训练，以固定模型的各项参数。在应用场景中，输入待分词的文本后，模型会自动输出对该文本进行分词的标签序列，以四标签(4-tag)标注方法为例，标签集合为{S,B,M,E}，S表示单字为词；B表示词的首字；M表示词的中间字；E表示词的结尾字。假设输入待分词文本为“我喜欢你”，使用该模型进行分词预测，输出的标签序列Y应当为(SBES)，标注结果为“我/S喜/B欢/E你/S”,对应的预测分词结果即为“我/喜欢/你”。

对于本发明提供的文本分词模型的训练过程，本发明一实施例中采用开源的机器学习框架TensorFlow进行训练，训练过程经过前向传播过程和反向传播过程，前向传播过程获得样本的预测结果，反向传播过程根据梯度下降优化算法，最小化损失函数loss，计算前向传播的预测结果和实际真实标注序列的误差，同时利用TensorFlow自动反向传播方法，对网络参数进行更新，当达到模型设置的迭代次数时，停止训练，同时保存训练好的模型文件，以供实际应用时调用。

图3为本发明一实施例提供的分词模型结构示意图，该实施例中卷积神经网络采用了PCNN，循环神经网络采用了BiGRU，以下对实施例中的模型训练过程进行详细描述。

第一层：模型的输入层

输入层主要用于对输入的样本进行预处理得到该样本的输入序列x_i＝(x_i1，x_i2，…，x_in)，i表示第几个样本，n为样本中的字符个数，即输入序列的维度。

假设给定训练样本(x_i，y_i)，模型的输入序列x_i的长度为n，设x_i＝(x_i1，x_i2，…，x_in)，模型最终输出的标注序列(也可称为模型输出序列)为y_i＝(y_i1，y_i2，…，y_in)，这里的y_i是与输入x_i对应的模型的输出，例如y_i1为对应于x_i1的输出标注类型。假设y_it所能取得值共有n_classes种，即y_it∈{y¹，y²，…，y^n_classes}。该实施例中采用四标签(4-tag)标注方法，即n_classes＝4,标签集合为{B,E,M,S}，y¹对应B,表示词的首字；y²对应E，表示词的结尾字；y³对应M，表示词的中间字；y⁴对应S，表示单字为词。

该步骤中的预处理可以包括但不限于对输入的文本序列进行语法检查、错误检查、去重、切分等等，本发明不做限定。

第二层：字向量层

字向量层用于对输入序列x_i中的每个字进行字嵌入处理，得到句子矩阵E_i。

在自然语言处理场景下的分词任务，为了得到输入序列上的每个序列元素即每个字的特征表示，通常需要进行字嵌入或者词嵌入，得到每个字或者词的特征向量表示。本发明是针对自然语言的分词任务，因此通过字嵌入方式获得对应序列元素的字特征向量。字嵌入的初始化方法主要有两种，一种是随机初始化，即随机的产生一组数据作为本发明实施例中的字特征向量；另一种是采用预训练的嵌入进行初始化，即通过语言模型预先训练好的字特征向量作为本发明实施中的字特征向量。随机初始化方法一般效果不如预训练的嵌入方法。假设嵌入的字特征向量的维度为d，经过字向量层的处理后生成初始特征向量即句子矩阵E，该句子矩阵E为n行d列，n为输入序列的元素个数，d为字向量的维度，可表示为[e₁、e₂、…、e_n],其中e_t∈R^d,t＝1，2，…，n。

第三层：卷积神经网络层

该实施例中使用分段卷积神经网络PCNN来实现该层，该层的输入为字向量层输出的句子矩阵E_i。该层通过卷积神经网络对句子矩阵E进行处理，学习句子矩阵E_i的局部特征后生成局部特征向量集合C_i，对每个局部特征向量进行池化处理后，得到句子特征向量U_i1，其中i代表第i个样本。

该实施例中，PCNN选取尺寸为m×d的卷积核k∈R^m×d，m为卷积计算滑动窗口的大小，即卷积核的高度，卷积核的宽度为d，因为卷积操作的最小单位是字，所以卷积核的宽度必须等于字特征向量的维度。可使用填充模式即“same”模式进行卷积，即获得和输入矩阵规模相同的输出，卷积过程如公式所示：

c_i＝f(k×E_i:i+m-1+b)

其中，f表示激活函数(Rectified Linear Units，ReLU)，进行非线性变换，k表示卷积核。为了加快训练收敛速度，这里使用ReLU为激活函数，b表示偏置项。E_i:i+m-1表示在E的第i行到i+m-1行范围内抽取的局部特征，随着卷积核按步长，例如步长为1，从上往下进行滑动，走过整个句子矩阵E，得到局部特征向量集合C_i：

C_i＝{c_i1,c_i2,…,c_in-m+1}

在该实施例中，可以采用传统的池化方式对局部特征向量集合C_i进行池化生成句子特征向量U_i1，也可以使用分段池化的方式生成句子特征向量U_i1，以下分别对这两种模式进行说明。

(1)传统的池化方式：

对卷积操作得到的局部特征采用最大池化的方法提取值最大的特征代替整个局部特征，通过池化操作可以大幅降低特征向量的大小：

v_i＝maxC_i

最后将所有池化后得到的特征在全连接层进行组合输出句子特征向量U_i1：

U_i1＝{v_i1,v_i2,…,v_in-m+1}

图4为本发明一实施例提供的对句子矩阵进行卷积池化的过程示意图，为简单起见，图中以8个字符构成的句子矩阵E_i为例进行示例，对句子矩阵E_i进行卷积处理后得到特征向量C_i，然后再经过池化处理得到特征向量U_i1即图中的U，流程如下所示：

传统的CNN用在分类任务上存一些缺点，无论是中文还是英文文本，其句子都有一定的结构，CNN网络忽略了这些句子的结构特征。中文和英文句子都可以包含主语、谓语和宾语等结构，虽然深度学习方法不需要对句子进行语法分析，但是如果在网络结构中增加对语法结构的模拟，对句子特征的学习将会有显著的帮助。传统池化(也可称为最大池化)是从句子的特征中提取一个最大值，并不对句子的语法结构作任何区分。为了克服这个缺点，本发明另一实施例采用了分段池化的策略。

(2)分段池化(piecewise max pooling)方式：

图5为本发明一实施例采用的分段池化的示意图，分段池化是将句子的特征向量分成若干段，对每个片段进行最大池化操作，这样分别提取句子对应成分的特征。

传统的卷积神经网络方法在池化操作的时候，往往是在第i个卷积向量c_i中取一个最大值代表该卷积向量的最显著特征。如图所示，中文和英文的句子都具有一定的结构，为了捕获不同结构的关键特征，将c_i平均分为若干段，然后在每一段中取最大值。对所有的卷积向量都进行同样的操作，然后将这些取出的最大值拼接为一个向量，并对该向量使用激活函数进行非线性运算，所使用的激活函数可以为但不限于sigmoid、ReLU、tanh等。

v_i＝PiecewiseMaxC_i

将最终得到的向量作为当前文本句子的特征表示，即句子特征向量U_i1：

U_i1＝{v_i1,v_i2,…,v_in-m+1}

第四层：循环神经网络层

循环神经网络层用于对句子矩阵E进行处理，学习句子矩阵E_i的上下文特征后生成上下文特征向量U_i2。

该实施例中，使用BiGRU神经网络模型作为循环神经网络层。门控循环神经网络(Gated Recurrent Unit，GRU)是长短期记忆网络(Long-Short Term Memory，LSTM)的一个变体，保持了LSTM效果的同时又使结构更加简单，所以GRU在自然语言处理方面非常流行。

图6为GRU神经网络结构示意图，GRU只有两个门：更新门z_t和重置门r_t，更新门用于控制前一时刻的状态被带到当前状态的程度，值越大表示带入的信息越多，重置门用于控制忽略前一时刻的状态信息的程度，值越小说明忽略的越多。

GRU的整个计算过程如下所示：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

h_t＝tanh(W_h·[r_t*h_t-1,x_t])

h_t＝(1-z_t)*h_t-1+z_t*h_t

式中：x_t表示当前时刻的输入，h_t-1表示上一时刻的输出，Wr,Wz,Wh,Wo为相应的权重矩阵，z_t和r_t分别为更新门和重置门；[]表示矩阵的连接，*表示矩阵元素相乘。

一般地，上面4个公式简化的记作如下公式：

h_t＝GRU(h_t-1，x_t)

BiGRU层是以前向GRU和后向GRU为基础构建的，因此，下面首先介绍网络模块BiGRU。BiGRU是一种双向的循环神经网络的变体，即包含前向的GRU和后向的GRU。前向GRU，即按照顺序从前向后对序列进行学习；后向GRU，即按照顺序从后向前对序列进行学习。

图7为BiGRU的网络结构示意图。假设BiGRU的输入序列向量为e₁、e₂、…、e_n，输出序列向量为y₁、y₂、…、y_n，GRU的输出维度为h，前向GRU的输出序列向量为

后向GRU的输出序列向量为

则：

其中，f表示前向forward计算，b表示后向backward计算；t＝1，2，…，n；

一般地，上面的三个公式可以合并写作如下公式：

其中，

表示前后向计算的结果，e(t)就是输入的字向量矩阵，U_i2表示BiGRU层总的输出结果。

为了扩展的目的，本发明另一实施例中，循环神经网络层采用双向简单循环单元(Bidirection Simple Recurrent Units，BiSRU)来实现，BiSRU是以SRU为基础构成，SRU是RNN的一种变体，通过改变循环体内部状态的计算方式来提高模型的速度，将原来依赖上一时刻的输出转变成只依赖于当前时刻的输入，因此这些值的计算在多个时间步上可以并行处理。

图8为SRU神经网络结构示意图，SRU的整个计算过程如下所示：

f_t＝σ(W_fx_t+b_f)

r_t＝σ(W_rx_t+b_r)

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t

其中W,W_r,W_f为SRU中的参数矩阵，b_f，b_r为偏置单元向量。

一般地，上面5个公式简化的记作如下公式：

h_t＝SRU(h_t-1，x_t)

BiSRU层是以前向SRU和后向SRU为基础构建的，是一种双向的循环神经网络的变体，即包含前向的SRU和后向的SRU。前向SRU，即按照顺序从前向后对序列进行学习；后向SRU，即按照顺序从后向前对序列进行学习。假设BiSRU的输入序列向量为e₁、e₂、…、e_n，输出序列向量为

SRU的输出维度为h，前向SRU的输出序列向量为

后向SRU的输出序列向量为

则：

其中，f表示forward，b表示backward；t＝1，2，…，n；

一般地，上面的三个公式可以合并写作如下公式：

第四层：前馈神经网络层

前馈神经网络层用于将卷积神经网络层输出的句子特征向量U_i1和循环神经网络层输出的上下文特征向量U_i2合并，对合并后的特征向量进行学习，得到输入序列X_i中每个字对应的每种标签分类的概率及初始得分，进而得到初始得分矩阵S1_i

该实施例中，前馈神经网络对PCNN层和BiGRU层的输出的特征向量进行学习，分2个步骤：

(1)将PCNN层的输出和BiGRU的输出进行拼接(合并)，得到合并后的向量表示：G_i＝[U_i1,U_i2]

(2)将向量G_i经过一层隐含神经网络得到：

其中，W_t和b_t是需要学习的参数。

由上述可知，

的向量长度n_classes，记

其中，

代表着样本x_i的第t个元素x_it被预测为y^k的概率，即

该实施例中n_classes＝4，表示标注集合为{B,E,M,S}。

表示经过PCNN，BiGRU以及前馈神经网络的计算得到了各个字对应的标签分类的概率即初始得分。

给定样本x_i＝(x_i1，x_i2，…，x_in)，其预测的任意标签序列y_i＝(y_i1，y_i2，…，y_in)的初始得分如下：

此处的初始得分就是

表示每个字的所有可能的得分，将输入序列中的每个字针对每种标签分类的概率组合即可得到对应样本的初始得分矩阵S1。

假设输入的样本为“新华三集团”，经前馈神经网络层后输出该样本的初始得分矩阵S1，如表1所示，表中bij代表第j个字对应的第i个标签分类的概率值。

表1

如果从初始得分矩阵中选取每个字对应的各标签分类的最大值对应的标签作为最终的标注序列，则可能导致分词错误率较高，因为前馈神经网络层输出的初步预测的标注序列并没有考虑序列元素之间的依赖关系，例如输入序列为“中国”，实际的输出标注序列应当为“BE”,然而预测出的结果可能就是“BB”,因此，本发明在前馈神经网络层之后又附加了一个条件随机场CRF层，CRF有转移特征，可用来基于序列之间的顺序特性对前馈神经网络层的输出进行修正，从而选出最优的输出结果。

第六层：条件随机场CRF层

条件随机场层用于由初始得分矩阵S1_i和转移矩阵A得到输入序列X_i中每个字的转移得分，然后再将每个字的初始得分和转移得分求和后得到总得分矩阵S_i，最后从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为模型输出标注序列。CRF层的目的就是基于转移矩阵A对前馈神经网络层输出的标注序列组合进行优化，选择最优的标注序列作为模型的输出序列。

CRF层需要学习标签的概率转移矩阵A(简称转移矩阵A)，A∈

矩阵中元素a_ij代表标签yⁱ转移到标签y^j的转移概率，其中，转移矩阵需要添加Start和End行列，Start代表的是一个句子的开始，End代表的是一个句子的结尾，因此转移矩阵的尺寸为(n_classes+2)×(n_classes+2)，转移概率矩阵实际上是模型的一个参数，开始训练前可以随机初始化，参数会在训练过程中自动更新。

给定样本x_i＝(x_i1，x_i2，…，x_in)，其预测的任意标签序列y_i＝(y_i1，y_i2，…，y_in)的转移得分如下：

其中，y_i0和y_in+1分表代表序列的起始(start)和结束(end)，

表示由当前字转移到下一个字的概率。

因此，给定样本x_i＝(x_i1，x_i2，…，x_in)，其预测的任意标签序列y_i＝(y_i1，y_i2，…，y_in)的总得分为初始得分S₁与转移得分S₂的和，计算方式如下：

对于给定的样本{x_i，y_i}，i＝1，2，…，N，定义其损失函数如下：

其中，y_i代表样本x_i的真实标签序列，S(x_i，y_i)代表样本x_i的真实标签序列的总得分，

表示样本x_i的所有可能的序列标注结果，

代表对样本x_i所有可能的标签序列总得分进行求和。

以下以表1的输入序列为例举例说明，若有4个标签分类，类别个数为4，分别表示B，E，M，S，则得到的概率转移矩阵A为，其中包含了Start和End。

输入序列中第一个字“新”对应的各标签分类的概率即初始得分为：

S₁₁(B)＝b₀₀，S₁₂(E)＝b₁₀，S₁₃(M)＝b₂₀，S₁₄(S)＝b₃₀

假设根据初始得分矩阵S1和转移矩阵A计算第一个字“新”与后一个字的标签分类组合概率即转移得分为：

S₂₁(B)＝Max((A(BB)+S1(B)),(A(EB)+S1(E)),(A(MB)+S1(M)),(A(SB)+S1(S)))＝0.2

S₂₁(E)＝Max((A(BE)+S1(B)),(A(EE)+S1(E)),(A(ME)+S1(M)),(A(SE)+S1(S)))＝0.3

S₂₁(M)＝Max((A(BM)+S1(B)),(A(EM)+S1(E)),(A(MM)+S1(M)),(A(SM)+S1(S)))＝0.5

S₂₁(S)＝Max((A(BS)+S1(B)),(A(ES)+S1(E)),(A(MS)+S1(M)),(A(SS)+S1(S)))＝0.6

假设第一个字“新”对应的各标签分类的总得分为：

S_x1(B)＝S₁₁(B)+S₂₁(B)＝0.4

S_x1(E)＝S₁₁(E)+S₂₁(E)＝0.6

S_x1(M)＝S₁₁(M)+S₂₁(M)＝0.8

S_x1(S)＝S₁₁(S)+S₂₁(S)＝1.2

则由于S这一标签分类的总得分值最大，所以最终选择S作为输入序列一个字“新”的标注标签。

以此类推，假设计算得到输入序列每个字的总得分后得到总得分矩阵S如如下表2所示。

表2

新	华	三	集	团
					S<sub>x1</sub>(B)	S<sub>x2</sub>(B)	S<sub>x3</sub>(B)	S<sub>x4</sub>(B)	S<sub>x5</sub>(B)
S<sub>x1</sub>(E)	S<sub>x2</sub>(E)	S<sub>x3</sub>(E)	S<sub>x4</sub>(E)	S<sub>x5</sub>(E)
					S<sub>x1</sub>(M)	S<sub>x2</sub>(M)	S<sub>x3</sub>(M)	S<sub>x4</sub>(M)	S<sub>x5</sub>(M)
S<sub>x1</sub>(S)	S<sub>x2</sub>(S)	S<sub>x3</sub>(S)	S<sub>x4</sub>(S)	S<sub>x5</sub>(S)

最总，从总得分矩阵中选取每个字对应的总得分值最大的标签分类组成最终的标注序列作为模型输出序列输出，以前面的例子为例，假设第一个字“新”对应的标签分类中总得分值最大的标签分类为S_x1(S)，假设第二个字“华”对应的标签分类中总得分值最大的标签分类为S_x2(B)，第三个字对应的标签分类中总得分值最大的标签分类为S_x3(E)，第四个字对应的标签分类中总得分值最大的标签分类为S_x4(B)，第五个字对应的标签分类中总得分值最大的标签分类为S_x5(E)，则最终的模型输出的标注序列为(SBEBE)，即分词结果为“新/S华/B三/E集/B团/E”。

该实施例中，对分词模型的训练采用TensorFlow开源框架，使用梯度下降优化算法，最小化损失函数loss，便可以求得参数的估计值。整个训练过程需要准备大量的训练样本，并将训练样本分成两组，一组用于训练，一组用于验证，根据梯度下降优化算法，最小化损失函数loss，计算前向传播的结果和实际标签的误差，同时利用TensorFlow自动反向传播方法，对网络参数进行更新，当达到模型设置的迭代次数(比如，steps＝10000)时，停止训练，同时保存训练好的模型文件，以供实际应用时调用。

基于本发明实施例提供文本分词方法，如图9所示，本发明一实施例提供了一种文本分词装置900，该装置900包括：

输入模块901，用于通过输入层对文本进行预处理得到输入序列X＝(x₁，x₂，…，x_n)，n为输入序列的字符个数；

字嵌入模块902，用于通过字向量层对输入序列X中的每个字进行字嵌入处理，得到句子矩阵E＝(e₁、e₂、…、e_n)；

局部特征提取模块903，用于通过卷积神经网络层对句子矩阵E进行处理，学习句子矩阵E的局部特征后生成局部特征向量集合C＝{c₁,c₂,...,c_n-m+1}，m为卷积核个数，对每个局部特征向量进行池化处理后，得到句子特征向量U₁＝{v₁,v₂,...,v_n-m+1}；

上下文特征提取模块904，用于通过循环神经网络层对句子矩阵E进行处理，学习句子矩阵E的上下文特征后生成上下文特征向量U₂；

第一预测模块905，用于通过前馈神经网络层将句子特征向量U₁和上下文特征向量U₂合并，对合并后的特征向量进行学习，得到输入序列X中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1；

预测优化模块906，用于通过条件随机场层，由初始得分矩阵S1和转移矩阵A得到输入序列X中每个字的转移得分，将每个字的初始得分和转移得分求和后的总得分矩阵S，从总得分矩阵中选取每个字对应的总得分值最大的标签分类进行组合作为所述文本分词模型最终预测出的标注序列。

在本发明一实施例中，局部特征提取模块903中的卷积神经网络层采用传统池化方式生成局部特征向量集合C_i；或采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C_i；

在本发明一实施例中，上下文特征提取模块904中的循环神经网络层采用双向门控循环神经网络模型或双向简单循环单元。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种文本分词方法，其特征在于，所述方法应用于文本分词模型，该方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述卷积神经网络层采用传统池化方式生成局部特征向量集合C；或

所述卷积神经网络层采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C。

3.根据权利要求1所述的方法，其特征在于，

所述循环神经网络层采用双向门控循环神经网络模型或双向简单循环单元。

4.根据权利要求1所述的方法，其特征在于，所述转移矩阵A通过模型训练获得，A∈R⁽ⁿ ^+2)×(n+2)，其中包含开始Start行列和结束End行列，矩阵元素a_ij代表第i个标签分类yⁱ转移到第j个标签分类y^j的转移概率。

5.一种文本分词模型的训练方法，其特征在于，该方法包括：

6.如权利要求5所述的训练方法，其特征在于，所述卷积神经网络层采用传统池化方式生成局部特征向量集合C_i；或

所述卷积神经网络层采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C_i。

7.根据权利要求5所述的训练方法，其特征在于，

8.根据权利要求5所述的训练方法，其特征在于，

所述分词模型的训练过程采用TensorFlow开源框架，使用梯度下降优化算法，最小化损失函数loss；

9.一种文本分词装置，其特征在于，该装置包括：

第一预测模块，用于通过前馈神经网络层将句子特征向量U₁和上下文特征向量U₂合并，对合并后的特征向量进行学习，得到输入序列X中每个字对应的每种标签分类的概率即初始得分，进而得到初始得分矩阵S1；

10.如权要求9所述的文本分词装置，其特征在于，

所述局部特征提取模块中的卷积神经网络层采用传统池化方式生成局部特征向量集合C_i；或采用分段卷积神经网络模型，并采用分段池化方式生成局部特征向量集合C_i；