CN107832307A

CN107832307A - 基于无向图与单层神经网络的中文分词方法

Info

Publication number: CN107832307A
Application number: CN201711218709.9A
Authority: CN
Inventors: 夏睿; 何声欢
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-03-23
Anticipated expiration: 2037-11-28
Also published as: CN107832307B

Abstract

本发明公开了一种基于无向图与单层神经网络的中文分词方法，首先根据标注集，对给定的训练中文文本进行标注，统计其初始状态系数和状态转移系数；然后根据字典资源文件，对中文文本的每个字符依据其上下文进行特征抽取，得到文本特征；根据所有文本特征，构建特征函数集合，将文本特征转换特征向量；接着将特征向量送给单层神经网络训练分类器模型进行训练，直至模型收敛；再使用单层神经网络模型，对测试数据进行分类，根据统计的初始状态系数、状态转移系数，使用维特比算法进行最优标注序列的求解；最后将最优标注序列与测试原始文本结合，生成分词文本。本发明训练速度更快，消耗资源更少，泛化能力更强。

Description

基于无向图与单层神经网络的中文分词方法

技术领域

本发明涉及机器学习、自然语言处理领域，具体是涉及一种基于无向图与单层神经网络的中文分词方法。

背景技术

中文分词是文本分类、信息检索、信息过滤、情感分析、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。不同于英语、葡萄牙语等语言，中文的词与词之间没有明显的分隔符号。而词又是理解句子的最小单位，这就导致分词成为中文信息处理非常重要的第一步。随着计算机与网络技术的不断发展，当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。对于海量的主观文本信息，仅依靠人工进行跟踪、组织和管理已难以实现，如何利用计算机技术对海量的中文文本进行自动分词，已逐渐成为当下最迫切的需求。

传统的方法有基于词典的方法、基于规则的方法和基于统计的方法。基于词典的方法、基于规则的方法人工干预较多，基于统计的方法利用机器学习进行中文分词，降低人工成本。基于统计方法中，基于字标注的中文分词方法是近年来最为有效的分词方法，常采用的模型有隐马尔可夫模型、最大熵模型、条件随机场模型等等。但这类方法往往具有较为复杂的模型结构，计算资源开销较大。

发明内容

本发明的目的在于提供一种基于无向图与单层神经网络的中文分词方法，模型更为简单、泛化能力强，计算资源开销小。

实现本发明目的的技术解决方案为：一种基于无向图与单层神经网络的中文分词方法，包括以下步骤：

步骤1、根据标注集，对给定的训练中文文本进行标注，统计其初始状态系数和状态转移系数；

步骤2、根据字典资源文件，对中文文本的每个字符依据其上下文进行特征抽取，得到文本特征；根据所有文本特征，构建特征函数集合，将文本特征转换特征向量；

步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练，直至模型收敛；

步骤4、使用步骤3得到的单层神经网络模型，对测试数据进行分类，根据步骤1统计的初始状态系数、状态转移系数，使用维特比算法进行最优标注序列的求解；

步骤5、将步骤4得到的最优标注序列与测试原始文本结合，生成分词文本。

本发明与现有技术相比，其显著优点为：1)本发明使用单层神经网络模型，相比于隐马尔科夫模型、条件随机场模型，涉及的模型参数更少，训练速度更快，消耗资源更少；2)本发明借鉴了生成式模型隐马尔科夫模型的优点，引入了一阶马尔科夫假设，保留了转移系数矩阵；借鉴了判别式模型条件随机场的优点，引入了特征函数，有助于提高模型的泛化能力。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图和具体实施例进一步说明本发明方案。

如图1所示，基于无向图与单层神经网络的中文分词方法，主要分为五个阶段，具体步骤如下：

步骤1、根据标注集，对给定的训练中文文本进行标注，统计其初始状态系数和状态转移系数，具体为：

步骤1.1、对于给定训练文本，读取每一个句子，根据切分情况得到每个字符的标注；

步骤1.2、统计初始状态系数π，即句子第一个字符位置上标注的分布，统计状态转移系数矩阵α，即句子内部标注之间转移情况的分布。

本发明使用的标注集是4-tag标注集，即BMES标注系统，分别代表词首、词中、词尾和单独成词。

步骤2、根据字典资源文件，对中文文本的每个字符依据其上下文进行特征抽取，得到文本特征；根据所有文本特征，构建特征函数集合，将文本特征转换特征向量，具体为：

步骤2.1、根据特征工程模板文件和字典资源文件，对每个字符依据其上下文生成特定的文本特征，统计出现的特征数目，为每个特征分配唯一序号；

步骤2.2、根据每个特征的唯一序号，将字符对应的所有特征表示成一个特征向量。

本发明中，使用的特征工程模板文件如下：

1)C_n(n＝-2,-1,0,1,2)

2)C_nC_n+1(n＝-2,-1,0,1)

3)C_-1C₁

4)MWL₀,t₀

5)C_nt₀(n＝-1,0,1)

6)T(C_-1)T(C₀)T(C₁)

7)N(C_-1)N(C₀)N(C₁)

8)F(C_-1)F(C₀)F(C₁)

其中，C_n表示相对位置为n的字符；MWL₀,t₀分别表示字典资源文件中，当前字符所属最长词的长度及对应的标注；T(C_n)表示取得字符的类别号，分为6类，分别是：0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others)；N(C_n)表示取得字符的中国人名用字类别号，分为6类，分表是：0.常见姓(Frequency Surname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others)；F(C_n)所取得字符的外国人名用字类别号，分为2类，分表是：非外国人名常用字及外国人名常用字。

使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。

步骤4、使用步骤3得到的单层神经网络模型，对测试数据进行分类，根据步骤1统计的初始状态系数、状态转移系数，使用维特比算法进行最优标注序列的求解，具体为：

步骤4.1、进行单层神经网络预测，得到基于softmax归一化后的概率：

式中，P(y_t＝i|w_t)表示位置t上被标注为类别i的概率，其中L表示标注集的大小，θ_i表示类别i对应的神经网络单元权值向量，w_t为位置t上的字符x_t表示成的特征向量，所有x_t构成长度为T的中文句子s＝(x₁,x₂,…,x_T)；

步骤4.2、根据得到的概率进行维特比解码，求解出最优标注序列Y＝(y₁,y₂,…,y_T)。

步骤5、将步骤4得到的最优标注序列Y＝(y₁,y₂,…,y_T)与测试原始文本结合，生成分词文本。

实施例

下面结合示例描述方案，以便于对方案进行理解。

1)对于给定训练中文文本，首先需要对其进行预处理，预处理的内容包括统计初始状态系数和状态转移系数，以表1为例；

表1 分词文本预处理

2)对给定的训练中文文本进行特征抽取，依赖于人工制定的特征工程，对每个字符依据其上下文进行特征抽取，得到文本特征；统计文本特征，构建特征函数集合，根据该集合将文本特征转换特征向量。

以表1中的句子“我爱北京天安门。”为例，假设当前字符为“北”，上下文特征具体如表2所示：

表2 上下文特征

进一步的，对每个字符生成基于字典资源文件的特征、字符类别特征，具体如下：

A)首先根据字典资源文件，查询得知当前字符“北”的MWL₀,t₀＝20,M，于是得到了有关字典资源的特征；

B)查询相关字符类别文件，得到最后三个特征的特征码：T(C_-1)T(C₀)T(C₁)＝555、N(C_-1)N(C₀)N(C₁)＝222和F(C_-1)F(C₀)F(C₁)＝110。

字典特征及字符类别特征都以文本形式，与上下文特征一同进行特征统计，即统称为文本特征。字典特征及字符类别特征的样例如表3所示。

表3 字典特征及字符类别特征

记录出现的所有特征，并为每一个特征分配一个唯一的序号，组成特征函数集合。根据特征函数集合，查询每个特征对应的唯一序号，根据序号生成特征向量。假设特征函数集合大小为|F|，则特征向量维度也为|F|，其中对应特征序号的维度上置1，其他维度上均为0。特征向量的文本表示如表4所示：

表4 特征向量的文本表示

其中，为0的维度未写明，冒号前是对应特征的维度，即序号。

3)使用2)生成的特征向量，训练基于无向图与单层神经网络的分类器。

4)对测试数据进行分类，根据1)统计的初始状态系数π和状态转移系数α，使用维特比算法进行最有标注序列的求解。

5)将4)得到的最优标注序列与原始文本结合，生成分词文本，根据句子中每个字符对应的标注，重组成词，从而得到分词文本。重组过程如表5所示：

表5 由标注重组文本

如上表所示，分词文本中，由空白字符分隔各个词语。

Claims

1.基于无向图与单层神经网络的中文分词方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法，其特征在于，步骤1使用的标注集是4-tag标注集，即BMES标注系统，分别代表词首、词中、词尾和单独成词。

3.根据权利要求1所述的基于无向图与单层神经网络的中文分词模型，其特征在于，步骤1具体为：

4.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法，其特征在于，所述步骤2具体为：

5.根据权利要求1所述的基于无向图与单层神经网络的中文分词模型，其特征在于，步骤2使用的特征工程模板文件如下：

1)C_n(n＝-2,-1,0,1,2)

2)C_nC_n+1(n＝-2,-1,0,1)

3)C_-1C₁

4)MWL₀,t₀

5)C_nt₀(n＝-1,0,1)

6)T(C_-1)T(C₀)T(C₁)

7)N(C_-1)N(C₀)N(C₁)

8)F(C_-1)F(C₀)F(C₁)

其中，C_n表示相对位置为n的字符；MWL₀,t₀分别表示字典资源文件中，当前字符所属最长词的长度及对应的标注；T(C_n)表示取得字符的类别号，N(C_n)表示取得字符的中国人名用字类别号，F(C_n)表示取得字符的外国人名用字类别号。

6.根据权利要求5所述的基于无向图与单层神经网络的中文分词方法，其特征在于：T(C_n)、N(C_n)和F(C_n)具体为：

A)T(C_n)所取得字符的类别号，分为6类，分别是：0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others)；

B)N(C_n)所取得字符的中国人名用字类别号，分为6类，分表是：0.常见姓(FrequencySurname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others)；

C)F(C_n)所取得字符的外国人名用字类别号，分为2类，分表是：非外国人名常用字及外国人名常用字。

7.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法，其特征在于：步骤2使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。

8.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法，其特征在于，步骤4中采用维特比算法结合统计的初始状态系数及状态转移系数进行解码，具体为：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>i</mi> <mo>|</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </msup> <mo>/</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msub> <mi>&theta;</mi> <mi>k</mi> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </msup> </mrow>