CN107145484A

CN107145484A - 一种基于隐多粒度局部特征的中文分词方法

Info

Publication number: CN107145484A
Application number: CN201710269863.2A
Authority: CN
Inventors: 包祖贻; 李思; 徐蔚然
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-09-08

Abstract

本发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括：先利用多卷积核的卷积神经网络处理待分词文本，得到待分词文本的隐多粒度局部特征；再经过一个k‑max池化层，仅保留其中比较重要的局部特征；接着由一个双向的LSTM循环神经网络将句子中的上下文信息联系起来；最后应用标签推断，得到句子级别上的最优分词结果。本发明通过结合隐多粒度局部特征和上下文信息，使得分词效果得到提升，具有很大的实用价值。

Description

一种基于隐多粒度局部特征的中文分词方法

技术领域

本发明涉及信息处理领域，特别涉及一种基于神经网络的中文分词方法。

背景技术

中文分词是中文自然语言处理中的基础任务，它的目的在于将中文汉字序列转换为中文词语的序列。中文词语是中文语义表达的基本单元，所以分词的好坏会直接影响到中文自然语言处理的上层任务，例如，信息检索和机器翻译。

目前最普遍的分词方法是把分词任务作为一个有监督的序列标注任务来完成。比较常见的传统分词模型有结构化感知器、条件随机场(CRFs)等。但是这些传统模型都十分依赖人工设计的特征，需要复杂的特征才能取得较好的分词效果。最近，由于神经网络可以自己学习特征以代替复杂的人工设计特征，大大减轻特征工程的负担，许多工作尝试将神经网络应用于中文分词任务。但是这些工作并没有很好地提取和利用句子中的局部特征，也没有很好地将局部特征和上下文的信息结合起来。而本发明为了解决上述的问题，采用了多卷积核的卷积神经网络，结合循环神经网络，得到了较好的分词效果。

发明内容

为了解决现有的技术问题，本发明提供了一种基于神经网络的分词方法。方案如下：

步骤一，我们将输出句子的每个字符都映射为字符向量，通过这一步将句子参数化，句子映射为一个数值矩阵。

步骤二，我们使用一个多卷积核的卷积神经网络对参数化的句子进行卷积操作，不同窗口大小的卷积核从句子中提取到隐多粒度的局部特征。

步骤三，隐多粒度局部特征经过一个k-max池化层，k-max池化层仅保留局部特征中比较重要的一些，对局部特征进行了一个筛选。

步骤四，经过筛选的隐多粒度局部特征再送入一个双向LSTM循环神经网络层。双向的LSTM循环神经网络再引入字符前后句子中上下文信息，这就使得多粒度的局部信息和上下文信息结合到了一起。

步骤五，将之前所得到的信息送入一个前向网络中，得到各个字符序列标注的标签概率。

步骤六，在句子层面上，对整个句子中各个字符的标签概率进行维特比解码，得到句子层面的最优分词结果。

附图说明

图1是本发明提供的分词方法的网络结构图

图2为LSTM循环神经网络单元的内部结构图

具体实施方式

接下来将对本发明的实施方法作更详细的描述。

图1是本发明提供的分词方法的网络结构图，其中包括：

步骤S1：输入句子的字符向量参数化；

步骤S2：卷积神经网络提取隐多粒度局部信息；

步骤S3：k-max池化操作增强非线性，并控制参数个数；

步骤S4：双向循环神经网络提取长距离的上下文信息；

步骤S5：前向神经网络计算各个字符的标签得分；

步骤S6：使用标签推断方法得到最优标签序列；

下面将对每个步骤进行具体的说明：

步骤S1：向量参数化，为了克服传统one-hot表示法所带来的稀疏性和无关性的问题，本发明首先将句子中的各个字符参数化，通过一个映射字典，将字符映射为不稀疏的向量表示。假设中文汉字一共有C个字符，那么整个映射字典可以表示为一个C*d维的数值矩阵，其中每一个行是一个字符的数值表示，一个d维的数值向量。那么一个句子，就可以表示为句子中每一个字符都映射为向量后组成的数值矩阵。

其中x为句子的矩阵表示，x_i为句子中第i个字符映射后的向量，表示向量的连接。

在这一步骤中，借鉴去噪自动编码器的思想，本发明引入了dropout的机制，在训练网络时，随机将一部分参数置零，使得参数训练更具有鲁棒性，训练过程更为平滑。

步骤S2：使用卷积神经网络层提取隐多粒度局部信息。卷积神经网络擅长于局部特征的提取，并已经被广泛用于中文自然语言处理任务中，如：情感分类、文档分类。不同的卷积核卷积句子，得到不同的局部特征。卷积神经网络提取到的局部特征比传统使用的uni-gram、bi-gram有更好的表现。所以本发明中将多卷积核的卷积神经网络引入中文分词中，用于提取更好的局部特征。

对于文本处理中的卷积神经网络而言，一个窗口为w的卷积核可以表示为一个w*d维的矩阵，其中d是文本参数化后的向量维度。则卷积核对窗口内的w个向量的卷积操作，可以表示为：

其中c为提取到的局部特征，表示卷积操作，b是一个偏置项，f是一个非线性函数，例如sigmoid函数、ReLu函数。由于ReLu函数更适合用于深度神经网络中，所以本发明中选择使用的是ReLu函数。

而且中文词语的成词规律有很多种，仅仅用一个特征是不能表示的，所以我们对不同的窗口都引入了多个卷积核。假设我们对窗口w引入n个卷积核，则在句子中一个字符周围窗口为w个字符提取到的局部特征就可以表示为各个卷积核卷积提取到的特征的组合。

其中c为句子中一个字符周围提取到的特征向量，c_i表示一个卷积核提取到的局部特征。

步骤S3：使用k-max池化层对步骤S2中提取到的隐多粒度特征进行池化。池化操作是卷积神经网络经常使用的一种方法，本发明中所使用的是在特征向量上的k-max池化。k-max池化仅保留特征向量中最大的k个值，有很强的非线性，能够帮助卷积神经网络训练出更好的特征，同时也能够控制网络整体的参数个数，防止过拟合。

步骤S4：使用双向循环神经网络提取长距离的上下文信息。循环神经网络擅长于抽取长距离的依赖关系，也被广泛用于自然语言处理各个任务。但是传统循环神经网络由于结构比较简单，很容易出现梯度爆炸和梯度弥散的问题。梯度弥散会使得网络训练变得非常缓慢，梯度爆炸会使得训练变得困难，甚至导致网络发散。而LSTM(长短期记忆)单元通过使用类似门电路的方式控制记忆单元的遗忘和更新，使得循环神经网络能够更有效地学习到长距离的依赖关系。

图2给出了一种LSTM单元的单元结构，一个LSTM单元在坐标点t可以描述为：

i_t＝σ(W_i·x_t+U_i·h_t-1+b_i)

f_t＝σ(W_f·x_t+U_f·h_t-1+b_f)

o_t＝σ(W_o·x_t+U_o·h_t-1+b_o)

h_t＝o_t⊙tanh(C_t)

其中x是输入，C是记忆单元状态，i、f、o分别是输入门，遗忘门和输出门，σ和tanh是logistic sigmoid函数和hyperbolic tangent函数。⊙是数值对位相乘。W、U和b是权重矩阵和偏置项。是计算出来的候选记忆单元状态。记忆单元状态C在输入门、遗忘门的控制下，从候选记忆单元状态和前一时刻的记忆单元状态更新得到。而输出门则控制记忆单元状态的输出。循环神经网络将步骤S3输出的经过池化的特征作为输入。双向循环神经网络有正向、反向两个网络单元，分别引入当前位置前文和后文的长距离信息。两个网络单元得到的输出向量被拼接起来，作为当前位置新的特征表示，此时这个特征表示已经同时包含了隐多粒度的局部信息和前后文的长距离上下文信息。

步骤S5：使用前向神经网络计算各个字符的标签得分。在步骤2中，卷积神经网络得到了隐多粒度局部特征，而步骤S4中LSTM循环神经网络又结合了上下文的信息，这一步中的前向网络就是利用之前提取到的信息对序列进行标注生成标签概率。以BIES四标签体系为例，则输出标签共有4个，分别表示字符是一个词语的开头、中间、结尾和当前字是一个单字词语。这个前向网络是一个输入为LSTM循环神经网络输出维度，输出维度是4的全连接网络。前向网络的输入是步骤S4中得到的输出向量，输入是BIES四标签的得分，最后使用softmax函数对输出的标签得分进行概率化，得到四个标签对应的概率。在这一层中，本发明还使用了dropout策略，提升网络的整体性能，防止过拟合。

步骤S6：使用标签推断方法得到最优标签序列。本发明将中文分词作为一个序列标注的问题，其中的标注标签并不是相互无关的，以BIES四标签体系为例，B表示字符是一个词语的开始，I表示字符在一个词语的内部，E表示字符是一个词语的结尾，S表示字符是一个单字词语。存在明确的约束关系，标签B之后符合约束的只能是标签I或者E，标签E后面符合约束的只能是标签B或者S，标签I之后符合约束的只能是标签E，标签S之后符合约束的只能是标签B或者S。这些约束关系表明标注标签之间有很强的依赖关系。为了建模这种关系，本发明中加入了标签的跳转得分。同时为了从各个字符的标签概率分布得到句子的最优标签序列。本发明使用标签推断来计算得到整个句子层面上的最优标签路径。路径的得分有两部分组成，一个是标签的跳转得分，一个是标签本身的概率得分。假设标签转移矩阵是A，其中的第i行第j列的元素表示从标签i跳转到标签j的得分。则一个句子上某一个标签路径的得分为：

其中s(y_t)为该标签本身的概率得分，n为句子长度。本发明使用维特比算法计算得到最优标签路径。

以上结合附图对所提出的一种基于隐多粒度局部特征的中文分词方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现，但前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现，该软件产品存储在一个存储介质中，包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于隐多粒度局部特征的中文分词方法，其特征在于，所述神经网络包含以下结构和步骤：

(1)输入句子的字符向量参数化：对输入字符进行映射，将离散的字符转化为数值向量，即嵌入式的字符表示，输入的待分词文本即可数值化为各个字符的数值向量连接而成的矩阵；

(2)卷积神经网络提取隐多粒度局部信息：对步骤(1)得到的文本矩阵进行卷积操作，得到文本中各个字符周围的隐多粒度局部特征；

(3)池化层的k-max池化操作增强网络的非线性，并控制参数个数：对步骤(2)中得到的隐多粒度局部特征进行k-max池化操作，对每个卷积核得到的结果仅保留k个最显著的局部特征；

(4)双向循环神经网络提取长距离的上下文信息：对步骤(3)中得到的局部特征进行处理，双向循环神经网络的两个网络单元从上文和下文分别将上下文的信息结合进局部特征之中，得到新的特征表示；

(5)前向神经网络计算各个字符的标签得分：对步骤(4)中得到的包含了局部特征和上下文信息的特征表示进行处理，特征表示经过一个前向网络得到各个字符的各个标签的概率；

(6)使用标签推断方法得到最优标签序列：对步骤(5)中得到的各个字符的各个标签的概率进行处理，在整个句子层面对各个字符的标签进行推断，得到整个句子上最优的标签序列，即整个句子上最优的分词结果。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)具体包括：

(1.1)初始化字典向量矩阵以及字符到向量编号的映射索引；

(1.2)对输入文本进行字符切分，通过映射索引将字符映射为向量编号；

(1.3)通过各个字符的向量编号取得字典向量矩阵中各个字符的向量表示；

(1.4)将各个字符向量连接起来，得到输入文本的数值化矩阵。

3.如权利要求1所述方法，其特征在于，所述步骤(2)具体包括：

(2.1)初始化各个卷积核的参数矩阵；

(2.2)按照卷积核的窗口大小，对输入矩阵进行补齐；

(2.3)对补齐后的矩阵，用卷积核进行卷积操作，得到卷积结果；

(2.4)对不同窗口大小的卷积核重复步骤(2.2)和步骤(2.3)，得到各个窗口大小卷积核的卷积结果，即隐多粒度局部特征。

4.如权利要求1所述方法，其特征在于，所述步骤(3)具体包括：

(3.1)对一个卷积核在各个字符得到的局部特征进行k-max池化，仅保留每个字符局部特征中最大的k个值；

(3.2)对不同窗口大小的卷积核重复步骤(3.1)；

(3.3)对各个字符处得到的不同窗口大小的卷积核的k个局部特征进行连接，得到该层的输出矩阵。

5.如权利要求1所述方法，其特征在于，所述步骤(4)具体包括：

(4.1)初始化循环神经网络参数；

(4.2)一个前向的循环神经网络单元按照文本正向顺序对步骤(3)的输出矩阵进行处理，得到正向输出矩阵，即各个字符的上文信息。

(4.3)一个反向的循环神经网络单元按照文本反向顺序对步骤(3)的输出矩阵进行处理，再在句子顺序上反向，得到反向输出矩阵，即各个字符的下文信息；

(4.4)将正向输出矩阵和反向输出矩阵连接起来，得到循环神经网络层的输出矩阵。

6.如权利要求1所述方法，其特征在于，所述步骤(5)具体包括：

(5.1)初始化前向网络参数；

(5.2)将步骤(4)中得到的输出矩阵中每一个字符对应的信息输入前向神经，得到每一个字符对应各个标签的得分；

(5.3)对每一个字符对应的各个标签的得分输入softmax函数，得到每一个字符各个标签的概率。

7.如权利要求1所述方法，其特征在于，所述步骤(6)具体包括：

(6.1)初始化标签转移矩阵；

(6.2)对步骤(5)中得到的各字符标签概率矩阵补齐开始位置和结束位置；

(6.3)对补齐的标签概率矩阵，根据标签转移矩阵进行维特比译码，得到最优的标签序列。