CN111709242B

CN111709242B - 一种基于命名实体识别的中文标点符号添加方法

Info

Publication number: CN111709242B
Application number: CN202010485752.7A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2024-02-02
Anticipated expiration: 2040-06-01
Also published as: CN111709242A

Abstract

本发明公开了一种基于命名实体识别的快速中文标点符号添加方法，主要包括：收集并清洗文本数据，以命名实体识别任务形式为标点符号添加模型构造生成训练数据集；用双向LSTM或者双向GRU网络加条件随机场的组合，构建轻量级的网络模型；利用训练数据集来训练神经网络；利用训练得到的神经网络模型对无标签文本进行实体识别，根据识别到的实体类别在实体后添加实体所属类别的标点符号。本发明通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地根据句中语义与语法，为无标点符号文本添加上四种常用的标点符号，便于读者阅读文本时快速理解语义。所用的网络结构轻，训练与推理速度快，且不需要大量的训练数据。

Description

一种基于命名实体识别的中文标点符号添加方法

技术领域

本发明涉及自然语言处理领域，特别是指一种基于命名实体识别的中文标点符号添加方法。

背景技术

在语音识别生成文本中，识别生成的文本往往不带标点符号，直接以无标点符号文本的形式呈现识别结果会影响读者理解句中表达意思的速度。对于实时性的语音识别转化任务，其对添加的标点符号的类型要求不高，主要能对句子文本进行合理间隔断句，符合读者阅读停顿习惯，便于读者准确快速地理解语义，但其对推理速度有较高的要求，保证整个语音识别与转化的实时性。

目前对于无标签文本添加标点符号的方法，主要有两种，一种是语音识别过程中根据语音的停顿间隔音判别进行标点符号的添加，一种是基于自注意力机制模型的深度学习网络进行添加。第一种的标点符号的添加方法对主要根据语音停顿而无法结合句子语义信息，其添加的准确率一般，尤其在语音停顿识别效果不佳或语音卡顿时，会有标点符号生成位置较多错误的情况，同时在声学模型进行语音识别的同时生成标点符号会在一定程序上增加语音识别的词错率。第二种基于自注意力深度学习网络模型的方法，其标点符号的添加效果较好，但由于其需要的网络结构较深，网络参数量较大，其推理速度较慢，对实时性要求较高的任务上并不适用。

发明内容

本发明提出一种基于命名实体识别的中文标点符号添加方法，通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地为无标点符号文本添加上四种常用的标点符号，便于读者快速阅读理解语义。

本发明的技术方案是这样实现的：

一种基于命名实体识别的中文标点符号添加方法，包括以下步骤：

步骤1：收集清洗文本数据，将标点符号前的一个词作为命名实体，以命名实体识别任务形式为标点符号添加模型构造生成训练数据集；

步骤2：用双向LSTM或者双向GRU网络加条件随机场的模型组合，构建轻量级的神经网络模型；

步骤3：利用步骤1中的训练数据集来训练步骤2中的神经网络模型；

步骤4：利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。

优选的，步骤1具体包括以下步骤：

步骤101：收集中文文本数据，进行数据清洗；通过字符串替换与正则匹配，修正文本中的字符，再过滤掉带有不合格字符的语句，保留修正替换后的数据集中符合要求的句子，得到清洗过后的句子文本序列；

步骤102：构建命名实体识别任务训练数据集的标签，将句中将标点符号前的一个词作为标点符号实体，标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号，分别为其设置四种不同的实体标签；句子中非实体的字，再单独设置非实体标签；句子中的四种标点符号本身不生成标签，以此生成标签序列文本。

步骤103：构建命名实体识别任务训练数据集的输入，对步骤101句子文本序列，采用正则过滤去除逗号、句号、感叹号和问号四种标点符号，得到没有标点符号的输入序列文本，所得到的输入序列文本与步骤102的标签文本形成平行文本，作为模型的输入与对应标签；

步骤104：构建字索引字典与标签索引字典，将输入文本中的每个字与标签文本中的每一个标签，都用其在字典中的下标数字进行代表，实现输入与标签的数字化处理；

步骤105：收集或者自训练得到字的预训练嵌入层向量，使输入的汉字字符具有语义信息。

优选的，步骤1中收集清洗文本数据具体包括以下步骤：

1)提取文本：从语料文本库中提取出文本信息，去除不需要的信息如文本的ID、所属的链接、文本的标题，保留整段或者整篇的文章主体内容作为待处理文本，进行两道清洗；

2)一次清洗，采用正则匹配的方法，去除上一步中大段文本中的空行，使用字符串替换的办法，将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号，最后采用字符串截取的方式对句首为标点符号的进行截取，对句未不存在标点符号的进行句号补充，得到整段的合格的文本序列；

3)二次清洗：采用正则匹配的方式，将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句，再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外，是否还存在除汉字、英文及标点符号以外的特殊字符，如果存在，则舍去该小句；由句中不存在特殊字符的小句再次组成整段的合格的文本序列；最后采用正则划分的方式，将整段的合格的文本序列以句号为界，分成多个小句，每个小句构成单选文本，得到整句的合格的文本序列。

优选的，步骤2具体包括以下步骤：

步骤201：利用深度学习框架构建神经网络，通过搭设双向LSTM或者双向GRU神经网络来构建序列标注模型；双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络；

步骤202：构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵，对文本中的每一个字进行特征向量嵌入，包括根据该字的字向量，该字在所属词中的相对位置的向量，该字的所属词的词性类别的向量，三者共同组成字特征向量；

步骤203：将步骤202得出的字的特征向量，按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型，通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量；

步骤204：将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型，得到句子中的每一个字属于每种命名实体标签的预测概率；字的所属命名实体标签的概率包括，属于逗号实体起始标签的概率，属于逗号实体其它字标签；属于句号实体起始标签的概率，属于句号实体其它字标签的概率；以及问号与感叹号实体起始与中间字的概率，以及不属于任务实体的标签O的概率，共9种所属标签的概率，取概率值最高的标签，作为句中该字的命名实体类别标签。

优选的，步骤202中，句中每个字的嵌入层向量由字向量，字在所属词的相对位置向量，字的词性类别向量组成，分别来表征句中字的语义信息、该字所属词信息及所属词的词性信息。

优选的，字向量嵌入矩阵采用其它经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型中初始化生成，随神经网络模型的训练调整得到。

优选的，步骤202中利用分词工具对无标签文本进行分词，分词得到的词由多个字组成或由单个字组成；分词后将得到的每一个词中的第一个字的相对位置设置为0，第二字的相对位置设置为1，以此类推；分词后得到该词的词性，给每一种词性以不同的数字表示，词中的每一个字的词性类别都设置为所属词的词性类别；然后针对相对位置的数字和词性的数字，设置两个不同的嵌入层向量矩阵，分别以其数字作为下标，查找得到该字的相对位置向量和词性向量。

优先的，步骤202中，每个字的字向量、相对位置向量与词性向量三者拼接得到该字的嵌入层向量。

优选的，步骤204中条件随机场概率模型在可以通过概率统计，在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。

优选的，步骤4具体包括以下步骤：

步骤401：利用模型识别无标签句子文本中的字所属命名实体类别，得到句子中每一个字所对应的命名实体类型标签。

步骤402：将步骤401得到的命名实体，得到句子中标点符号相关实体所在位置，根据标点符号实体的实体标签类型，得到该实体后应添加的标点符号类型；

步骤403：根据步骤402得到的标点符号实体位置及该实体后应添加的标点符号类型，在无标签句子文本的相应位置添加相应的标签符号。

本发明的有益效果在于：通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地为无标点符号文本添加上四种常用的标点符号，便于读者快速阅读理解语义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为构造生成模型训练数据的流程示意图。

图2为轻型中文标点符号添加模型的训练与推理过程示意图。

图3为词性向量嵌入与词中相对位置向量嵌入过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图3所示，本发明提出了一种基于命名实体识别的中文标点符号添加方法，包括以下步骤：

步骤1具体包括以下步骤：

步骤102：构建命名实体识别任务训练数据集的标签，将句中将标点符号前的一个词作为标点符号实体，标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号，分别为其设置四种不同的实体标签；句子中非实体的字，再单独设置标签；句子中的四种标点符号本身不生成标签，以此生成标签序列文本。

首先以标点符号为间隔，分隔出两个标点符号中间的文本段，对该文本段使用jieba分词工具(或者其它分词工具)对整句的合格的文本序列进行分词，其中对于自己业务场景内专有的词，也应提前在分词工具中进行手动添加。将逗号所在的前一个词的命名类别设置为CMM，该词的第一个字的标签即为B-CMM，中间字为I-CMM，若逗号前的词为单字，则该字的标签为B-CMM；将句号所在的前一个词的命名类别设置为FSP，该词的第一个字的标签即为B-FSP，其它字为I-FSP，若句号前的词为单字，则该字的标签为B-FSP。感叹及问号的标记方法相同，生成标签B-EXM、I-EXM与B-QSM、I-QSM。句子中除标点符号前一个词以外的字，为非识别实体，标签为O。

步骤105：收集或者自训练得到字的预训练嵌入层向量，使输入的字具有语义信息。

收集清洗文本数据具体包括以下步骤：

为模型训练数据收集语料，语料可以是公开的数据文本，也可以是业务场景下的相关文本数据；

1)提取文本：从语料文本库中提取出文本信息，去除不需要的信息如文本的ID、所属的链接或文本的标题，保留整段或者整篇的文章主体内容作为待处理文本，进行两道清洗；

3)二次清洗：采用正则匹配的方式，将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句，再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外，是否还存在其它特殊字符，如果存在，则舍去该小句；由句中不存在特殊字符的小句再次组成整段的合格的文本序列；最后采用正则划分的方式，将整段的合格的文本序列以句号为界，分成多个小句，每个小句构成单选文本，得到整句的合格的文本序列。

步骤2具体包括以下步骤：

步骤201：利用Tensorflow或者Pytorch或者其它深度学习框架构建神经网络，通过搭设双向LSTM或者双向GRU神经网络来构建建序列标注模型；双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络；

构建字索引字典与标签索引字典，将输入文本中的每个字与标签文本中的每一个标签，都用它们在字典中的下标数字进行代表，实现输入与标签的数字化处理。其中应在字典中增加UNK与PAD，对于字典中没有的汉字索引为UNK，对于模型训练时构建batch时需对短句进行补长的，补长的部分索引为PAD。标签部分将O、B-CMM、I-CMM、B-FSP、I-FSP、B-EXM、I-EXM、B-QSM、I-QSM记为0-8，对于PAD的标签记录为9，共10个标签。

步骤202：构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵，对文本中的每一个字进行特征向量嵌入，包括根据字的字向量，字的在所属词中的相对位置的向量，字的所属词的词性类别的向量，三组共同组成生成字特征向量；

句中每个字的嵌入层向量由字向量，字在所属词的相对位置向量，字的词性类别向量组成，分别来表征句中字的语义信息、该字所属词信息及所属词的词性信息。

字向量嵌入矩阵采用其它经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型中初始化生成，随神经网络模型的训练调整得到。

利用分词工具对无标签文本进行分词，分词后得到将词中的第一个字的相对位置设置为0，第二字的相对位置设置为1，以此类推；分词后得到该词的词性，给每一种词性以不同的数字表示，词中的每一个字的词性类别都设置为所属词的词性类别；然后针对相对位置的数字和词性的数字，设置两个不同的嵌入层向量矩阵，分别以其数学作为下标，查找得到该字的相对位置向量和词性向量。其中的词性特征向量的获取方式为：先采用分词工具分词后，可以得到该词的词性，例如，共57种词性，根据其下标0-56查找词性嵌入矩阵中的对应下标的一行向量作为该词的词性向量。相对位置向量矩阵和词性向量矩阵在模型训练前初始化生成，并在训练过程中调整得到。字向量、相对位置向量与词性向量三者拼接形成该字的嵌入层特征向量，在字向量维度为100的情况下，建议相对位置向量维度为5，词性向量的维度为10，此时该字的嵌入层特征向量维度为115。

步骤203：将步骤202得出的字的嵌入层特征向量，按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型，通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量；LSTM与GRU模型为具有长短记忆能力的网络模型，可以在训练过程中学习到为得到句中某个字的正确的标签，句中的哪些信息需要遗忘，哪些信息需要保留，解决了RNN长时遗忘的问题，采用双向LSTM或GRU，即将句子按正序与反序输入到LSTM或GRU内核中，将两种情况下的字的输出向量进行组合，可以实现增强时序的记忆功能。同时，相比其它的自注意力网络或者其它深层网络，双向LSTM或GRU网络结构的模型体量小，推理速度快。

步骤204：将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型，得到句子中的每一个字属于每种命名实体标签的预测概率；字的所属命名实体标签的概率包括，属于逗号实体起始标签B-CMM的概率，属于逗号实体非起始标签I-CMM；属于句号实体起始标签B-FSP的概率，属于句号实体非起始标签I-FSP的概率；以及问号与感叹号实体起始与中间字的概率，以及不属于任务实体的标签O的概率，共9种所属标签的概率；取概率值最高的标签，作为句中该字的命名实体类别标签。条件随机场概率模型在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。如在经过统计后，标签为O的实体后接一个实体为I-CMM的概率接近于0，以此提升模型对实体位置的准确判别。同时作为一个机器学习的概率统计模型，其推理速度极快。

步骤4具体包括以下步骤：

步骤402：将步骤401得到的命名实体，得到句子中标点符号相关实体所在位置，根据标点符号实体的实体类型标签，得到该实体后应添加的标点符号类型；

本发明通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地为无标点符号文本添加上四种常用的标点符号，便于读者快速阅读理解语义。在接受一定量的训练过后，模型在标点符号添加任务上预测F1值为85左右，在普通的i5-8300H CPU@2.3GHz下，200字以下的单条文本的平均推理速度在7毫秒以内，满足实时性生成任务要求的同时具有较高的准确率，尤其适用于为实时语音识别后的无标签文本添加标点符号。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于命名实体识别的中文标点符号添加方法，其特征在于，包括以下步骤：

步骤1具体包括以下步骤：

步骤102：构建命名实体识别任务训练数据集的标签，将句中标点符号前的一个词作为标点符号实体，标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号，分别为其设置四种不同的实体标签；句子中除标点符号实体以外的字，再单独设置标签；句子中的四种标点符号自身不生成标签，以此生成标签序列文本；

步骤2具体包括以下步骤：

步骤202：构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵，对文本中的每一个字进行特征向量嵌入，包括根据该字的字向量，该字的在所属词中的相对位置的向量，该字的所属词的词性类别的向量，三组共同组成该字的特征向量；

步骤204：将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型，得到句子中的每一个字属于每种命名实体标签的预测概率；字的所属命名实体标签的概率包括，属于逗号实体起始标签的概率，属于逗号实体非起始标签；属于句号实体起始标签的概率，属于句号实体非起始标签的概率；以及问号与感叹号实体起始与中间字的概率，以及不属于任务实体的标签O的概率，共9种所属标签的概率，取概率值最高的标签，作为句中该字的命名实体类别标签；

2.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤1具体包括以下步骤：

3.根据权利要求1或2所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤1中收集清洗文本数据具体包括以下步骤：

3)二次清洗：采用正则匹配的方式，将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句，再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外，是否还存在除汉字字符、英文字符及四种标点符号字符以外的特殊字符，如果存在，则舍去该小句；不存在特殊字符的小句再次组成整段的合格的文本序列；最后采用正则划分的方式，将整段的合格的文本序列以句号为界，分成多个小句，每个小句构成单选文本，得到整句的合格的文本序列。

4.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤202中，句中每个字的嵌入层向量由该字的字向量，该字在所属词的相对位置向量，该字的词性类别向量组成，分别来表征句中该字的语义信息、该字所属词信息及所属词的词性信息。

5.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，字向量嵌入矩阵采用经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型训练前初始化生成，随神经网络模型的训练调整得到。

6.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤202中利用分词工具对无标签文本进行分词，分词得到的词由多个字组成或由单个字组成；分词后将每个词中的第一个字的相对位置设置为0，第二字的相对位置设置为1，以此类推；分词后得到该词的词性，给每一种词性以不同的数字表示，词中的每一个字的词性类别都设置为所属词的词性类别；然后针对相对位置的数字和词性的数字，设置两个不同的嵌入层向量矩阵，分别以其数字为下标，查找得到该字的相对位置向量和词性向量。

7.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤204中条件随机场概率模型在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。

8.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤4具体包括以下步骤：

步骤401：利用模型识别无标签句子文本中的字所属命名实体类别，得到句子中每一个字所对应的命名实体类型标签；