CN109918666A

CN109918666A - 一种基于神经网络的中文标点符号添加方法

Info

Publication number: CN109918666A
Application number: CN201910168357.3A
Authority: CN
Inventors: 段大高; 梁少虎; 尹丹琪; 韩忠明
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-21
Anticipated expiration: 2039-03-06
Also published as: CN109918666B

Abstract

本发明提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误；本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平，本发明可应用于对语音合成文字后的文本进行标点符号勘误。

Description

一种基于神经网络的中文标点符号添加方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于神经网络的中文标点符号添加方法。

背景技术

在NLP领域里，语音转化为文本标点符号不能显式的添加，或者只是依据语音的停顿添加标点，这样往往导致标点符号添加错误，且只能添加逗号等分隔符进行分句，转化后的文本往往需要大量人工干预。在出版社，期刊，杂志等领域要对稿件进行格式审查，标点符号的规范使用是重要的一项标准。

目前针对中文标点符号预测勘误，学术界还没有提出一个较好的方法，在该领域还处于探索阶段，已有的方法往往是基于统计的规则匹配，之后人工复查，这样浪费大量人力。基于近年来大数据，神经网络的兴起，本发明在海量中文文本数据集上训练神经网络，在标点符号自动添加，自动判断标点符号使用正误上取得了很好的效果。因此，本发明提出一种基于神经网络的中文标点符号添加方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。

本发明提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：

步骤一：构造标点符号添加的训练数据集；

步骤二：基于神经网络构建中文标点符号添加方法；

步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络。

进一步改进在于：所述步骤三中，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。

一种构造标点符号添加的训练数据集方法，包括以下步骤：

步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，保留数据集文本部分，过滤噪声后得到清洗过后的文本序列；

步骤二：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，得到分词后的序列；

步骤三：对经分词后的序列，进行标点符号标注，得到对应的标签序列；

步骤四：构建词-索引词典，对分词后的序列进行数字化处理，去掉全部的标点符号，使文本序列和标签序列一一对应，得到数字序列，数字序列和标签序列构成标点符号训练数据集。

进一步改进在于：所述步骤三中，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，当前词后面若是逗号，则在标签序列中，为当前词标注为数字2，当前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注。

一种中文标点符号添加的方法，包括以下步骤：

步骤一：构建神经网络，通过自注意力机制深度神经网络来建模序列标注模型，构建深度自注意力模型和深层神经网络模型；

步骤二：对识别文本中的每一个词进行编码，根据所述词的编码，所述词的声学信息编码，所述词的词性特征，所述词的句法特征，生成所述词的特征向量；

步骤三：将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征；

步骤四：将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型，得到所述词后每种标点符号添加的概率，所述词后添加标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。

进一步改进在于：所述步骤三中，自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，通过自注意力机制，学习到当前词和其他所有词的句意相关性信息，句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。

进一步改进在于：所述步骤四中，深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。

本发明的有益效果为：本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。

附图说明

图1为本发明构造标点符号添加的训练数据集流程示意图。

图2为本发明中文标点符号添加的方法流程示意图。

具体实施方式

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

根据图1、2所示，本实施例提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：

步骤一：构造标点符号添加的训练数据集；

步骤二：基于神经网络构建中文标点符号添加方法；

步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。

一种构造标点符号添加的训练数据集的方法，包括以下步骤：

步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，去除比如书名、作者名、每一章的标题、段落之间的空格等多余数据，保留数据集正文部分，把正文内容字符串连接起来形成一个总文件，得到清洗过后的文本序列；

步骤二：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，分词器选择开源工具HanLP，得到分词后的序列；

步骤三：对经分词后的序列，进行标注，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，前词后面若是逗号，则在标签序列中，为当前词标注为数字2，前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注，得到对应的标点符号标签序列；

一种中文标点符号添加的方法，包括以下步骤：

步骤三：将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征，在这个过程中，自注意力模型通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，查询向量和键向量通过求数量积得到相似度度量值，对相似度度量值进行归一化后，对值向量进行加权求和，权重即相似度度量值归一化后的值，通过上面的自注意力机制，网络学习到当前词和其他所有词的句意相关性信息，有效克服了传统循环神经网络(LSTM)长距离信息依赖问题，自注意力机制是比LSTM更能有效提取特征，上述句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息，其中,上述词所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等，上述词词性是指上述汉字的上下文文本中词性,例如上述分词为动词或名词等，具体地,自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，自注意力的模型由于使用了大量语料,自注意力模型获取的上述词的与其他词的句意相关性信息中还蕴含了上述词的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误，而且,自注意力模型可以使用多层堆叠来进一步加强对复杂句子、长句子的信息控制,实现更高的精度；

步骤四：将步骤三得出的所述词的特征向量，输入步骤一中的深层神经网络模型，得到所述词后每种标点符号预测的概率，所述词后预测标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，具体地,深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。

本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于神经网络的中文标点符号添加方法，其特征在于，包括以下步骤：

步骤一：构造标点符号添加的训练数据集；

步骤二：基于神经网络构建中文标点符号添加的方法；

2.根据权利要求1所述的一种基于神经网络的中文标点符号添加方法，其特征在于：所述步骤三中，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。

3.应用于权利要求1所述的一种构造标点符号添加的训练数据集的方法，其特征在于：包括以下步骤：

步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，保留数据集正文部分，过滤噪声后得到清洗过后的文本序列；

4.根据权利要求3所述的一种构造标点符号添加的训练数据集的方法，其特征在于：所述步骤三中，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，当前词后面若是逗号，则在标签序列中，为当前词标注为数字2，当前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注。

5.应用于权利要求1所述的一种中文标点符号添加的方法，其特征在于：包括以下步骤：

步骤四：将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型，得到所述词后每种标点符号预测的概率，所述词后预测标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。

6.根据权利要求5所述的一种中文标点符号添加的方法，其特征在于：所述步骤三中，自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，通过自注意力机制，学习到当前词和其他所有词的句意相关性信息，句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。

7.根据权利要求5所述的一种中文标点符号添加的方法，其特征在于：所述步骤四中，深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。