CN107797986B

CN107797986B - 一种基于lstm-cnn的混合语料分词方法

Info

Publication number: CN107797986B
Application number: CN201710946441.4A
Authority: CN
Inventors: 唐华阳; 岳永鹏; 刘林峰
Original assignee: Beijing Know Future Information Technology Co ltd
Current assignee: Beijing Know Future Information Technology Co ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2020-12-11
Anticipated expiration: 2037-10-12
Also published as: CN107797986A

Abstract

本发明公开了一种基于LSTM‑CNN的混合语料分词方法。本方法为：将训练混合语料数据转化为字符级的混合语料数据；统计该混合语料数据字符得到一字符集合并对每个字符编号，得到字符编号集合；统计字符标签得到一标签集合，对标签编号得到标签编号集合；将语料按照句子长度划分，根据句子长度对得到的句子分组，得到数据集合；随机无放回的从数据集合中选取一句子分组，从中抽取多个句子，每一句子的字符构成一数据w，对应的标签集合为y；将数据w转换为对应的编号和标签y送入模型LSTM‑CNN，训练深度学习模型的参数；将待预测的混合语料数据转换成与深度学习模型匹配的数据，并将其送入训练好的深度学习模型，得到分词结果。

Description

一种基于LSTM-CNN的混合语料分词方法

技术领域

本发明属于计算机软件技术领域，涉及一种基于LSTM-CNN的混合语料分词方法。

背景技术

混合语料，在本专利申请中，指的是训练或者预测的数据中包含了至少两种语言的语料数据。

分词(Word Segment)是指对输入连续字符串按照语义的信息将其标注成连续的标签序列。在本专利申请中，指的对亚洲类型的文字(简体中文、繁体中文、韩文和日文)序列数据切分成一个个单独的词，并以空格作为其词与词之间的分割。登录词，在本专利中，指的是已经出现在语料词表中的词。未登录词，指的是没有出现在语料词表中的词。

混合语料的分词的方法涉及的专业知识有两个方面：一方面是将多种语料的数据格式按照字符级别的方式进行统一；另一方面涉及的专业知识主要是自然语言处理中的序列标注(sequential labeling)是指将一个序列作为输入，并训练一个模型使其为每一序列片段数据产生正确的输出。

对于多种语言的分词方法，传统流程是：

多语言输入文本-->(分段或分句)文本语言检查-->分词

对文本语言的检查首先需要确定检查的粒度，是篇章级别的检查，但是对于一篇文档包含多个两种或以上语言就会出现检测不准确，从而仅仅处理一种语言而忽略另一种语言。此时就需要进行更细粒度的划分，分段或分句做语言检测。

并且其对每一种语言的分词可以采用基于词典的分词和基于统计的分词两种方式。基于词典的分词是将搜有可能的分词都列入一个词典，而后有正向最大匹配或者正向最小匹配的方式按字典词汇进行切割。另一种基于统计的分词方法，其原理大致是：统计相邻词出现的频率，如果频率超过给定阈值就认为是一个固定搭配的词语，而将其作为一个分词单元。

缺点1：对多语言的检测粒度不好区分，并且有因某种语言没有检测到有分词精度的损失。对于一篇文档包含多种语言，首先需要分段处理，然后对每一个段落做语言类型的检测，然而如果对段落中包含也包含多种语言的情形，又需要做分句的处理，对句子中包含多种语言都不能做再做分割了。因分词的模型与语料严重的依赖，结果就会出现因某种语言并没有检测到而丢失分词的信息。

缺点2：基于词典的方法过于依赖词典，不能根据语义的信息识别未在词典出现过的未登录词。

缺点3：目前基于统计的方式主要是HMM(隐马儿科夫)模型和CRF(条件随机场)模型，因为计算的负责度，其仅仅考虑的当前词与上一个词之间是相关联的，其余的是条件独立的，这与现实情况是不相符合的，因此其分词的精度有进一步提升的空间。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于LSTM-CNN的混合语料分词方法。

本发明混合语料的分词可以简化对传统的多种语言的分词方法为：多语言输入文本-->分词，从而可以避免分段、分句子和文本语言检测的过程。

本发明所涉及的混合语言分词的方法，其应用场景包括：

1.多语言搜索引擎中的全文索引：搜索引擎中一个重要的功能就是做文档的全文索引，其内容是将文字进行分词，然后将文档的分词结果和文档形成一个倒排索引，用户在查询的时候也是先将查询的输入语句进行分词，而后将分词的结果和索引数据库进行对比，从而找出与当前输入最为相似的文档。

2.多语言自动摘要生成：自动摘要是指将一篇较长的文档用一段较短的语言文字去总结。而在总结的过程中，就需要计算一篇文档中关键词，因此在计算关键词之前必须先对文档做分词处理。

3.多语言自动校对：自动校对是指对一段文字作语法错误的检查，其检查的粒度还是基于词的方式做的检查，因此需要将用户输入的连续文字做分词处理。

针对与中文类似(英文天然带有空格作为词之间的分割符)的语言进行分词的方法。本专利申请的核心问题包含三个：1分词的效率，2分词的精度，3未登录词的识别精度。

本发明的技术方案为：

一种基于LSTM-CNN的混合语料分词方法，其步骤包括：

1)将训练混合语料数据OrgData转化为字符级的混合语料数据NewData；

2)统计该混合语料数据NewData字符得到一字符集合CharSet，并对该字符集合CharSet中每个字符进行编号，得到该字符集合CharSet对应的字符编号集合CharID；统计NewData中的字符的标签，得到一标签集合LabelSet，对该标签集合LabelSet的标签进行编号，得到对应的标签编号集合LabelID；

3)将NewData按照句子长度划分，得到若干句子；然后根据句子长度对得到的句子进行分组，得到包括n组句子的数据集合GroupData；

4)随机无放回的从该数据集合GroupData中选取一句子分组，从该句子分组中抽取BatchSize个句子，每一个句子的字符构成一数据w，该句子的字符对应的标签集合为y；根据字符编号集合CharID将数据w转换为对应的编号，得到数据BatchData；根据标签编号集合LabelID将集合y中的标签转换为对应的编号，得到数据y_ID；

5)将步骤4)生成的多个数据BatchData及其对应的标签数据y_ID一起送入深度学习模型LSTM-CNN，训练该深度学习模型LSTM-CNN的参数，当深度学习模型产生的损失值Cost(y′,y_ID)满足设定条件或者达到最大迭代次数N，则终止深度学习模型的训练，得到训练后的深度学习模型LSTM-CNN；否则采用步骤4)的方法重新生成数据BatchData训练该深度学习模型LSTM-CNN；

6)将待预测的混合语料数据PreData转换成与该深度学习模型LSTM-CNN匹配的数据PreMData，并将其送入训练好的深度学习模型LSTM-CNN，得到分词结果OrgResult。

进一步的，该数据BatchData的长度为一固定长度maxLen，当抽取到的数据句子长度l＜maxLen时，将该句子后面补maxLen-l个0，得到BatchData；并将对应的数据y_ID后面补maxLen-l个0，得到数据y_ID；其中，maxLen等于该深度学习模型LSTM-CNN中的LSTM单元个数。

进一步的，产生该损失值Cost(y′,y_ID)的方法为：

31)将数据BatchData在深度学习模型LSTM-CNN的Embedding层进行向量化，将数据BatchData中的每个字符转换成一向量；

32)将各数据BatchData对应的向量传入深度学习模型LSTM-CNN的LSTM层，其中该数据BatchData中的每一字符对应的向量传入LSTM层的一LSTM单元；且第i-1个LSTM单元的输出结果输入第i个LSTM单元；

33)将每个LSTM单元的输出h_i传入深度学习模型LSTM-CNN的第一DropOut层；

34)将第一DropOut层的输出传入Conv卷积层进行卷积后，使用ReLU激活函数将卷积层的输出设为c_i；

35)将该Conv层的输出c_i依次经第二DropOut层、SoftMax层处理后，将得到的输出y′与传入的数据y_ID一起计算产生损失值Cost(y′,y_ID)。

进一步的，所述损失值Cost(y′,y_ID)＝-y_IDlog(y′)+(1-y_ID)log(1-y′)；其中y′表示数据BatchData经过该SoftMax层后的输出。

进一步的，所述步骤5)中，所述设定条件为：当前计算的损失值Cost(y′,y_ID)与前m次损失值的平均值的差小于阈值θ。

进一步的，所述步骤2)中，将|l_i-l_j|＜δ的句子归入一组；其中，l_i表示第i句话的句子长度、l_j表示第j句话的句子长度，δ表示句子长度间隔。

进一步的，所述步骤1)中，采用BMES的标记方式将该训练混合语料数据OrgData中的带有标签的每个词语按照字符级切分，将位于词语最开始的字符标记为B，位于词语中间的字符标记为M，位于词语末尾的字符标记为E，如果词语只有一个字符则标记为S。

进一步的，使用Adam梯度下降算法训练该深度学习模型LSTM-CNN的参数。

本发明的方法流程如图1所示：

(一)训练阶段：(流程图的左边虚线框)

步骤1：将带有标签的训练混合语料数据转换为字符级的混合语料数据。

步骤2：使用Adam梯度下降算法训练深度学习模型。

(二)预测阶段：(流程图的右边虚线框)

步骤1：将没有标签的测试混合语料数据转换为字符级的混合语料数据。

步骤2：使用训练阶段训练好的深度学习模型进行预测。

本发明主要具有以下优点：

为了解决未登录词问题，本发明放弃了传统的词表方法，而是采用基于词向量的思想，而且是基于字符的向量，而不是词语。传统的基于词表的方法，只有出现在词表中的词语才能够识别；没有出现在词表的词，也就是未登录词，就不能识别。每个词都是由一个个的字符组成的，采用基于词向量的思想，那么只要出现在字符表里面的所以字符构成的词语都能够识别。这里提到的字符，如果是处理中文的话，可以理解成就是所有汉字字符以及汉字标点符号的集合。

为了解决传统分词方法精度低的问题，本发明采用深度学习的思想，利用长短期记忆神经网络模型(LSTM)和卷积神经网络(CNN)模型相结合。

为了解决传统分词效率低，避开词频统计，避开字符串匹配，而是采用类似函数映射的方式进行分词。

本发明基于LSTM-CNN的混合语料分词方法，采用字符级而不是词语级，可以规避未登录词的问题；另外采用长短期记忆神经网络LSTM和卷积神经网络CNN的组合模型相比传统的算法，精度提高了很多。

附图说明

图1为本发明方法流程图。

图2为深度学习模型架构图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明的方法流程如图1所示，其包括：

(一)训练阶段：

步骤1：将原始训练混合语料数据OrgData转化为字符级的混合语料数据NewData。具体为：采用BMES(Begin,Middle,End,Single)的标记方式，将原始训练混合语料数据中的带有标签的每个词语按照字符级切分。则位于该词语最开始的字符标记为B，位于该词语中间的字符标记为M，位于该词语末尾的字符标记为E，如果该词语只有一个字符则标记为S。

步骤2：统计NewData中的字符，得到一字符集合CharSet，例如，假设有两个词语为：中华，中国，合并之后的字符集合就为：{中，华，国}。将该字符集合CharSet中每个字符按照自然数增序编号，得到字符集合CharSet对应的字符编号集合CharID。统计NewData中的字符的标签，得到一标签集合LabelSet，也一样将其产生对应的标签编号集合LabelID。标签集合LabelSet一般为{B,M,E,S}，产生对应的LabelID，即将标签集合LabelSet中的这些字符转成一个数字来代表，便于程序识别。

步骤3：将NewData按照句子长度划分。设l_i表示第i句话的句子长度，则将|l_i-l_j|＜δ的句子归入一组，其中δ表示句子长度间隔。设分组之后的数据为GroupData，一共设为n组。

步骤4：随机无放回的从GroupData的某组句子中抽取BatchSize句，每一句子的字符构成数据w，该句子的字符对应的标签集合为y，并将抽取的数据w通过CharID转换为对应的编号，得到固定长度的数据BatchData(对应于图2中的w₁,w₂,…,w_n)，以及把对应的标签y通过LabelID转换为对应的编号，得到固定长度的数据y_ID。因为同一组的句子长度接近，相比乱抽取而言，精度提高大约2个百分点。

步骤5：将步骤4的多个数据BatchData及其对应的标签数据y_ID一起送入深度学习模型，产生损失值Cost(y′,y_ID)。具体的计算公式如下：

Cost(y′,y_ID)＝-y_IDlog(y′)+(1-y_ID)log(1-y′) (公式1)

其中y′表示BatchData经过深度学习模型分类层(SoftMax层)后的输出。对应于图2中的y₁,y₂,…,y_n。

步骤6：使用Adam梯度下降算法训练深度学习模型的参数。

步骤7：如果深度学习模型产生的Cost(y′,y_ID)计算得到的损失值不再降低，或者达到最大迭代次数N，则终止深度学习模型的训练；否则跳到步骤4。

其中，Cost′_i(y′,y_ID)表示前i次迭代时的损失值，Cost(y′,y_ID)表示当前迭代产生的损失值，这个公式表达的意思是如果当前的损失值与前M次损失值的平均值的差小于阈值θ，则认为不再降低。

预测阶段：

步骤1：将待预测的混合语料数据PreData转换成与模型匹配的数据格式PreMData。具体为：将待预测的混合语料数据转换成字符级的数字数据。

步骤2：将PreMData送入训练阶段训练好的深度学习模型，并得到分词预测结果OrgResult。

训练阶段步骤1所述的：将原始混合语料转换为字符级混合语料。具体为：

步骤1：将原始混合语料按照字符分开，例如原始语料为：“我是中国人，I Love中国”。按字符分开后为：“我是中国人，I Love中国”。

步骤2：为每个字符添加对应的标签。具体为：采用BMES(Begin,Middle,End,Single)的标记方式，将原始训练语料数据中的带有标签的每个词语按照字符级切分。则位于该词语最开始的字符标记为B，位于该词语中间的字符标记为M，位于该词语末尾的字符标记为E，如果该词语只有一个字符则标记为S。例如步骤1中的句子添加标签之后为：“我/S是/S 中/B 国/M 人/E，/S I/S L/B o/M v/M e/E 中/B 国/E”。

训练阶段步骤4所述的：将抽取的数据通过CharID转换为若干个固定长度的数据BatchData，以及把对应的标签通过LabelID转换为若干个固定长度的数据y_ID。具体为：

步骤1：将抽取到的数据w转换成数字，也即通过CharSet与CharID的对应关系，将w中的每个字符转换成对应的数字。

步骤2：将抽取的数据w对应的标签集合y转换成数字，也即通过LabelSet与LabelID的对应关系，将y中的每个字符转换成对应的数字，得到数据y_ID。

步骤3：假设规定长度为maxLen，当抽取到的数据句子长度l＜maxLen时，将句子后面补maxLen-l个0，得到BatchData；maxLen等于LSTM的单元个数；因为通常只有不到5％的句子长度非常长，如果过分在意那些长的句子的话，那么精度会降低不少(如果出现l≥maxLen的情况，简单的处理方式是直接丢掉，或者将长句子分割成短句子进行处理)。并将w对应的数据y_ID后面补maxLen-l个0，得到y_ID。

本发明的深度学习模型架构图如图2所示，训练阶段步骤5所述的：将数据BatchData及其标签数据y_ID送入深度学习模型，产生损失值Cost(y′,y_ID)，具体为：

步骤1：将传入的数据BatchData在Embedding层进行向量化，也即将每一数据BatchData中的每个字符都通过一字符转向量的向量表Char2Vec转换成字符ID编号对应的向量。向量表Char2Vec中每个字符有一个对应的字符ID编号。

步骤2：将步骤1得到的向量传入LSTM层，详细为：将每条数据BatchData中的第一个字符对应的向量w₁传入LSTM层的第一个LSTM单元，第二个字符对应的向量w₂传入LSTM层的第二个LSTM单元，依次类推。同时第i个LSTM单元的输入除了每条数据中的第i个字符对应的向量外，还包含第i-1个LSTM单元的输出，即第i-1个LSTM单元的输出结果输入第i个LSTM单元。注意，每个LSTM单元一次接收到的向量并不是只有一个，而是BatchSize个。

步骤3：将每个LSTM单元的输出h_i传入DropOut层，也即是随机的将h_i中η(0≤η≤1)的数据隐藏掉，不让其继续向后传递。

步骤4：将DropOut的输出传入Conv卷积层进行卷积后，使用ReLU激活函数

将卷积层的输出设为c_i。

步骤5：与步骤3类似，将Conv层的输出c_i传入DropOut层，也即是随机的将c_i中η(0≤η≤1)的数据隐藏掉，不让其继续向后传递。

步骤6：将DropOut的输出传入SoftMax层，并将Softmax的输出y′与传入的相应标签数据y_ID产生最终的损失值Cost(y′,y_ID)，具体的计算见公式1。

预测阶段步骤2所述的深度学习模型，即为训练阶段训练好的深度学习模型，不过在预测时，其中涉及到的DropOut层的参数η＝1，表示不隐藏任何数据，全部都传递到下一层。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于LSTM-CNN的混合语料分词方法，其步骤包括：

4)随机无放回的从该数据集合GroupData中选取一句子分组，从该句子分组中抽取BatchSize个句子，每一个句子的字符构成一数据w，每个句子的字符对应的标签集合为y；根据字符编号集合CharID将数据w转换为对应的编号，得到数据BatchData；根据标签编号集合LabelID将集合y中的标签转换为对应的编号，得到数据y_ID；

5)将步骤4)生成的多个数据BatchData及其对应的标签数据y_ID一起送入深度学习模型LSTM-CNN，训练该深度学习模型LSTM-CNN的参数，当深度学习模型产生的损失值Cost(y′,y_ID)满足设定条件或者达到最大迭代次数N，则终止深度学习模型的训练，得到训练后的深度学习模型LSTM-CNN；否则采用步骤4)的方法重新生成数据BatchData训练该深度学习模型LSTM-CNN；其中y′表示数据BatchData经过该深度学习模型LSTM-CNN的SoftMax层后的输出；

2.如权利要求1所述的方法，其特征在于，该数据BatchData的长度为一固定长度maxLen，当抽取到的数据句子长度l<maxLen时，将该抽取到的数据句子后面补maxLen-l个0，得到BatchData；并将对应的数据y_ID后面补maxLen-l个0，得到数据y_ID；其中，maxLen等于该深度学习模型LSTM-CNN中的LSTM单元个数。

3.如权利要求2所述的方法，其特征在于，产生该损失值Cost(y′,y_ID)的方法为：

35)将该Conv卷积层的输出c_i依次经第二DropOut层、SoftMax层处理后，将得到的输出y′与传入的数据y_ID一起计算产生损失值Cost(y′,y_ID)。

4.如权利要求3所述的方法，其特征在于，所述损失值Cost(y′,y_ID)＝-y_IDlog(y′)+(1-y_ID)log(1-y′)。

5.如权利要求1所述的方法，其特征在于，所述步骤5)中，所述设定条件为：当前计算的损失值Cost(y′,y_ID)与前m次损失值的平均值的差小于阈值θ。

6.如权利要求1所述的方法，其特征在于，所述步骤3)中，将|l_i-l_j|<δ的句子归入一组；其中，l_i表示第i句话的句子长度，l_j表示第j句话的句子长度，δ表示句子长度间隔。

7.如权利要求1所述的方法，其特征在于，所述步骤1)中，采用BMES的标记方式将该训练混合语料数据OrgData中的带有标签的每个词语按照字符级切分，将位于词语最开始的字符标记为B，位于词语中间的字符标记为M，位于词语末尾的字符标记为E，如果词语只有一个字符则标记为S。

8.如权利要求1所述的方法，其特征在于，使用Adam梯度下降算法训练该深度学习模型LSTM-CNN的参数。