CN108595428A

CN108595428A - 基于双向循环神经网络进行分词的方法

Info

Publication number: CN108595428A
Application number: CN201810379547.5A
Authority: CN
Inventors: 张黎; 邹开红; 宗旭; 肖增辉
Original assignee: Hangzhou Flash Press Information Polytron Technologies Inc
Current assignee: Hangzhou Flash Press Information Polytron Technologies Inc
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-09-28

Abstract

本发明提供基于双向循环神经网络进行分词的方法，属于自然语言处理技术领域。该基于双向循环神经网络进行分词的方法包括如下步骤：S1：将获取的句子样本中的字分别转换为字向量；S2：将字向量输入双向门控循环单元网络中进行训练得到输出序列；S3：将输出序列传递到分类层以产生分词标记序列；S4：将分词标记序列与句子样本结合生成分词文本。本发明中将字向量输入至双向循环神经网络中进行训练，在预测每个字的分类类型时既结合了前文信息也结合了后文信息，分类概率更加合理，分类层计算出分类标记序列，将分类标记序列与句子样本结合生成分词文本，训练速度更快，消耗资源更少，准确率更高。

Description

基于双向循环神经网络进行分词的方法

技术领域

本发明属于自然语言处理技术领域，涉及基于双向循环神经网络进行分词的方法。

背景技术

随着互联网技术的发展，产生了海量的数据信息，人们对于信息分析和信息处理的需求越来越多，在这些海量的信息中要及时准确地分析出人们关心的数据，这就需要大数据分析做工作。面对巨大的数据在进行相应的数据分析，首先需要进行分词处理，也就是将连贯的文字分解由一个个具有特定语言含义的单元组成的序列，这样的处理在中文的信息处理中表现的尤为突出。因为中文分词与英文分词有所不同，英文分词是以词为单位，词与词之间用空格分隔，而中文分词是以字为单位，句子中所有的字连起来才能完整地表达某个含义。例如，英文句子“Ｋｎｏｗｌｅｄｇｅｉｓｐｏｗｅｒ”，中文则为“知识就是力量”。计算机可以很容易地通过空格知道“ｋｎｏｗｌｅｄｇｅ”是一个单词，但是不容易明白“知识”两个字合起来才表示一个词。所谓中文分词就是将中文的汉字序列切分成有意义的词，也称为切词。例如，“知识就是力量”这句话的切词结果是“知识／就是／力量”。中文分词的准确程度，常常直接影响到搜索结果的相关度排序。

发明内容

本发明针对现有的技术存在的上述问题，提供基于双向循环神经网络进行分词的方法，本发明所要解决的技术问题是：如何提高分词的效率和准确率。

本发明的目的可通过下列技术方案来实现：

基于双向循环神经网络进行分词的方法，包括如下步骤：

S1：将获取的句子样本中的字分别转换为字向量；

S2：将字向量输入双向门控循环单元网络中进行训练得到输出序列；

S3：将输出序列传递到分类层以产生分词标记序列；

S4：将分词标记序列与句子样本结合生成分词文本。

优选的，步骤S1中采用Embedding将获取的句子样本中的字分别转换为字向量。

优选的，步骤S2中将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元，将字向量按照句子样本顺序输入前向传递单元得到第一状态输出，将字向量按照句子样本反序输入反向传递单元得到第二状态输出，将第一状态输出和第二状态输出拼接起来得到输出序列。

优选的，所述第一状态输出和第二状态输出的长度相等，所述输出序列的长度为第一状态输出的长度的两倍。

优选的，所述分类层为softmax分类器。

优选的，步骤S3中的分词标记序列包括4个标签组合的字符串。

优选的，所述标签组合包括BMES，其中B表示词的开始部分，E表示词的结尾部分，M表示词的中间部分，S表示单个词。

优选的，步骤S4中将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。

优选的，所述句子样本是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本，所述终结符合包括句号、问号、感叹号、逗号或者分号。

优选的，步骤S2中所述双向门控循环单元网络以标点符号为各次训练结束的信号。

本发明中将句子样本中的字转换为字向量输入至双向门控循环单元网络中进行训练，双向门控循环单元网络在预测每个字的分类类型时既结合了前文信息也结合了后文信息，这样预测出的字的分类概率更加合理，再在预测出每个字的分类概率的基础上使用分类层，分类层计算出最优化的分类标记序列，将分类标记序列与句子样本结合生成分词文本从而实现句子样本的分词，训练速度更快，消耗资源更少，准确率更高。

附图说明

图1是本发明的流程示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

请参阅图1，本实施例中的基于双向循环神经网络进行分词的方法，包括如下步骤：

S1：将获取的句子样本中的字分别转换为字向量；

S3：将输出序列传递到分类层以产生分词标记序列；

S4：将分词标记序列与句子样本结合生成分词文本。

步骤S1中可以采用Embedding将获取的句子样本中的字分别转换为字向量。Embedding是词嵌入，可以将文本和词语转换为机器能够接受的数值向量。词嵌入使用低维、稠密、实值的词向量来表示每一个词，从而赋予词语丰富的语义含义，并使得计算词语相关度成为可能。以最简单的情况为例，如果使用二维向量来表示词语，那么可以将每个词看作平面上的一个点，点的位置即横纵坐标由对应的二维向量确定，可以是任意且连续的。如果希望点的位置中蕴含词的语义，那么平面上位置相邻的点应当具有相关或相似的语义。用数学的语言来说，两个词具有语义相关或相似，则它们所对应的词向量之间距离相近，度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。

步骤S2中可以将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元，将字向量按照句子样本顺序输入前向传递单元得到第一状态输出，将字向量按照句子样本反序输入反向传递单元得到第二状态输出，将第一状态输出和第二状态输出拼接起来得到输出序列。双向循环神经网络可以为双向门控循环单元网络。

假设一个句子样本有N个字的输入X, X, X…X_N,将句子样本顺序输入双向门控循环单元网络中的前向传递单元，经过前向传播层的加权输出至输出层，得到第一状态输出{ H，H，H…H_N }。将句子样本反序输入双向门控循环单元网络中的后向传递单元，经过后向传播层的加权输出至输出层，得到第二状态输出{ H，H，H…H_N }。将第一状态输出和第二状态输出拼接成输出序列[H,H], [H,H], [H,H] …[H_N,H_N]。第一状态输出和第二状态输出通过链接成输出序列。第一状态输出和第二状态输出的长度可以相等，第一状态输出和第二状态输出的长度为一个隐藏层长度，输出序列的长度可以为第一状态输出的长度的两倍，这样对于每个相同步长的输入X，都得到一个长度为倍隐藏层长度的输出序列[H,H], [H,H], [H,H] …[H_N,H_N]。双向门控循环单元网络包括复位门和更新门。双向门控循环单元网络生成信号来控制当前输入和之前记忆发生作用的方式，以更新当前的激活，从而更新当前的网络状态。双向门控循环单元网络可以考虑到网络前一时刻的输出对当前输出的影响，将隐藏层内部的节点也连接起来，即当前时刻一个节点的输入除了上一层的输出外，还包括上一时刻隐藏层的输出，既结合了前文信息也结合了后文信息，这样预测出的字的分类概率更加合理，准确率和效率均较高。

分类层可以为softmax分类器。Softmax分类器可以提高分类标记序列的准确性。

步骤S3中的分词标记序列可以包括个标签组合的字符串。标签组合可以包括BMES，其中B表示词的开始部分，E表示词的结尾部分，M表示词的中间部分，S表示单个词，这样就可以准确地分出词的开始部分、词的结尾部分、词的中间部分和单个词。分类层可以包括以下规则：.句子样本中开始的字的分类结果可以为词的开始部分或者单个词；.句子样本中结尾的字的分类结果可以为词的结束部分或者单个词；.在前一个字分类结果确定为词的开头部分时，当前字的分类可以为词的中间部分或者词的结束部分；.在前一个字分类结果确定为词的中间部分时，当前字的分类可以为词的中间部分或者词的结束部分；.在前一个字分类结果确定为词的结束部分时，当前字的分类可以单词或者词的开始部分。

步骤S4中可以将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。

句子样本可以是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本，终结符合包括句号、问号、感叹号、逗号或者分号。在字向量输入双向门控循环单元网络中进行训练时遇到终结符号时，可以表示为词的结束部分，可以直接进行分词，训练结束。

步骤S2中双向门控循环单元网络可以以标点符号为各次训练结束的信号，标点符号可以表示为词的结束部分，可以直接进行分词，训练结束。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于双向循环神经网络进行分词的方法，其特征在于，包括如下步骤：

S1：将获取的句子样本中的字分别转换为字向量；

S3：将输出序列传递到分类层以产生分词标记序列；

S4：将分词标记序列与句子样本结合生成分词文本。

2.如权利要求1所述的基于双向循环神经网络进行分词的方法，其特征在于：步骤S1中采用Embedding将获取的句子样本中的字分别转换为字向量。

3.如权利要求1或2所述的基于双向循环神经网络进行分词的方法，其特征在于：步骤S2中将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元，将字向量按照句子样本顺序输入前向传递单元得到第一状态输出，将字向量按照句子样本反序输入反向传递单元得到第二状态输出，将第一状态输出和第二状态输出拼接起来得到输出序列。

4.如权利要求3所述的基于双向循环神经网络进行分词的方法，其特征在于：所述第一状态输出和第二状态输出的长度相等，所述输出序列的长度为第一状态输出的长度的两倍。

5.如权利要求1或2所述的基于双向循环神经网络进行分词的方法，其特征在于：所述分类层为softmax分类器。

6.如权利要求1或2所述的基于双向循环神经网络进行分词的方法，其特征在于：步骤S3中的分词标记序列包括4个标签组合的字符串。

7.如权利要求6所述的基于双向循环神经网络进行分词的方法，其特征在于：所述标签组合包括BMES，其中B表示词的开始部分，E表示词的结尾部分，M表示词的中间部分，S表示单个词。

8.如权利要求6所述的基于双向循环神经网络进行分词的方法，其特征在于：步骤S4中将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。

9.如权利要求1或2所述的基于双向循环神经网络进行分词的方法，其特征在于：所述句子样本是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本，所述终结符合包括句号、问号、感叹号、逗号或者分号。

10.如权利要求1或2所述的基于双向循环神经网络进行分词的方法，其特征在于：步骤S2中所述双向门控循环单元网络以标点符号为各次训练结束的信号。