CN108932226A

CN108932226A - 一种对无标点文本添加标点符号的方法

Info

Publication number: CN108932226A
Application number: CN201810528685.5A
Authority: CN
Inventors: 杨燕; 战蕾; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-12-04

Abstract

本发明公开了一种对无标点文本添加标点符号的方法，其包括：处理获得平行语料；通过神经网络框架训练平行语料，以得到符号添加模型；之后使用符号添加模型为待处理文本添加对应标点。通过本发明，可以简单方便地实现标点符号的添加，并提高标点符号的准确性和广泛适用性。

Description

一种对无标点文本添加标点符号的方法

技术领域

本发明涉及自然语言处理(NLP)及信息处理领域，其具体地说是一种对语音识别后，所识别出来的无标点的文本序列进行符号添加的方法。

背景技术

在现代社会中，自动语音识别(ASR)系统越来越受到重视和应用。ASR能够运用到各个领域和环境中，例如语音助手、智能客服和语音翻译等等。但是目前的ASR系统只能够生成没有标点符号的文本序列，这就导致较长语音的识别后生成的无标点的句子很难被理解，会产生较严重的歧义问题，从而不能够被分析且使用。在一些语音助手、智能客服和语音翻译的使用场景中，纯文字的序列带来巨大的阅读压力和极差的用户体验。具体以语音翻译场景为例，对语音输入的英文进行语音识别并翻译后，此时得到的英文翻译后的中文文本序列，该文本序列没有中文标点符号进行语义的断句，给用户带来阅读上的困难。因此，需要提出一个对无标点文本进行符号标注的的方法，来提高实际生活中相关场景中的文本阅读的可读性和ASR系统的整体易用性。

目前国内外诸多学者在针对该问题提出不同的解决方法。现有方案主要分为两大类，一种为对语音信号进行处理，另一种为对文本序列进行处理。对语音信号处理可以根据语音信号的静音间隔，为语音识别的结果对应的文本进行标点符号的添加。具体地，可以首先设置静音长短的阈值，如果语音信号中讲话用户说话时的静音间隔的长度超过该阈值，则在对应位置上添加标点；反之，如果语音信号中讲话用户说话时的静音间隔的长度未超过阈值，则不添加标点。然而，这种方法并不能取得较满意的效果，因为用户的说话语速并不相同，如果语速过慢就会产生一字一标点地情况，而且进行添加的标点也较为单一，导致标点的准确率较低且效果较差。对文本序列进行处理，采用基于特征模板与条件随机场CRF结合的方法，或者基于神经网络的方法。但是这两种方法并不能很好的提取文本序列的特征，因此对文本序列对应的符号标签的预测准确率较低，不能取得较好的符号添加效果。

发明内容

本发明的目的是针对现有技术的不足而提出的一种标点符号添加的方法，能够克服上述所存在的问题或者至少部分的解决上述问题，提高中文标点符号添加的准确性。

实现本发明目的的具体技术方案是：

一种对无标点文本添加标点符号的方法，特点是该方法包括以下具体步骤：步骤1：自动化处理有标点的文本数据，获得平行语料，即带有标点的用于模型训练的源训练语料和用于检验效果的目标语料；

步骤2：通过神经网络框架训练平行语料，得到符号添加模型；具体包括：

A1：通过对源训练语料中词序列的文本进行词向量编码，以得到源训练语料的高纬度的向量化表示；

A2：运用卷积神经网络CNN，对每一个中文字符进行编码，得到字符级的向量化表示，将其与高纬度的词向量结合，最终得到语料中的词的向量化表示；

A3：将向量化表示的源训练语料作为输入，放入神经网络框架中，获取完整的源训练语料词序列的隐含状态序列；其中神经网络为双向的长短期记忆网络Bi-LSTM，包括正向隐含状态序列与反向隐含状态序列，按位置拼接后得到完整的隐含状态序列；设置全连接层，将隐状态向量映射到k维，其中k为需要添加的标点符号种类；

A4：将k维的向量输入到条件随机场CRF中，通过转移矩阵A得到无标点的文本中待加标点的位置的得分；

A5：通过对无标点的文本中待加标点的位置的得分进行归一化(即softmax)处理，得到词序列对应标点符号的概率；

A6：训练步骤1中平行语料得到符号添加模型；

步骤3：利用步骤2所得模型添加无标点符号文本中各类标点符号对应的概率，选取最大概率作为最终预测结果，完成标点符号添加。

与现有技术相比，本发明有以下优点：

1、多种语言场景广泛使用：能够适用于如中文、英文、德文、法文等多种需要进行标点符号添加的语言，即只要准备相关语言文本数据，便可以通过该方法完成对应文本的标点符号添加。

2、语言文本序列表示充分：采用词向量技术，联系文本序列内在表示，充分表示待预测的文本序列，同时利用CNN卷积神经网络，进行字向量的训练，完成对词表中未登录词的补充。

3、显著提高的准确率：结合词性特征与语义特征，采用双向的神经网络(Bi-LSTM)与条件随机场(CRF)的优点相结合来训练预测模型，提高准确率；同时在自动处理数据获取平行语料时，自动的增加词性与语义特征，避免手工劳动，额外的特征使标点预测的更为准确。

4、支持较长的文本序列：目前的方法在针对段落或较长文本时，不能进行预测，或者预测结果较差，本发明使用双向的长短时记忆网络即BiLSTM方法对上下文具有优秀的记忆能力，解决或部分解决了这一问题。

附图说明

图1为本发明流程图；

图2为本发明实施例标点标注方案示意图；

图3为本发明实施例自动获取平行语料的流程图；

图4为本发明符号添加模型结构示意图；

图5为本发明实施例符号添加过程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明进一步详细的描述。

本发明提供了一种对无标点文本添加标点符号的方法，对语音识别后的无标点文本进行标点添加，参阅图1。通过该流程，只要预先准备好相关语言序列数据集，即可自动的获取平行语料且完成模型训练，通过训练得到的模型，即可完成对一句或一段无标点的文章进行标点符号的添加。

本发明能够支持不同的语言种类如中文、英文、德文等，可以应用于在语音识别、语音翻译、智能客服等需要添加标点的任意应用场景，本发明对于具体的应用场景不加以限制。

本发明在不同的环境下都可以完成配置预测，可应用于终端或者服务器等装置的应用环境中。

本发明将标点添加的问题转换为词汇标点标注的问题，即将文本序列语料转换成平行语料，并通过基于平行语料训练得到的神经网络模型处理词汇标点标注问题。通过词向量表示平行语料中的词汇，词向量之间的距离可以来表征词汇之间的语义距离，这样可以将词汇对应的众多上下文向量参与到神经网络模型的训练。

本实施例包括以下具体步骤：

1、处理获得平行语料的方法

1)实施例中为对中文语料处理，使用jieba分词方法对准备的带标点的中文数据集进行分词，得到对应的中文词序列。

2)参考图2的标签设计方案，获取中文词序列中的候选标点的对应标签序列，与词序列一一对应。

3)使用Part-of-Speech tagging即POS技术，获取中文词序列的对应的多种词性信息，其中词性的添加结果以标签序列保存，与词序列对应。

4)获取所述的中文词序列对应的多种依存语法信息，其中语法信息的添加结果以标签序列保存，与词序列对应。

5)获取所述词序列与三个所述标签序列的结果作为最终语料，完成自动化获得平行语料，所获得平行语料流程与结果参阅图3。

2、参阅图4，通过神经网络框架训练平行语料，以得到符号添加模型，之后使用符号添加模型为待处理文本添加对应标点，其中平行语料包括：源训练语料和目标语料。

1)通过对源训练语料中词序列的文本进行词向量编码，以得到源训练语料的高纬度的向量化表示。具体做法为，对得到的文本序列分词后的词序列，同时生成对应词袋——词序列中不同词的集合。运用Word2Vec技术，对中文数据集训练词向量模型，使词袋中的词通过词向量模型得到唯一的向量表示，实施例中词向量维度设定为300维。

2)运用卷积神经网络CNN，对每一个中文字符进行编码，得到字符级的向量化表示，将其与高纬度的词向量结合，最终得到语料中的词的向量化表示。

3)通过将向量化表示的源训练语料作为输入，放入神经网络框架中，获取完整的源训练语料词序列的隐含状态序列，其中神经网络结构为双向的长短期记忆网络Bi-LSTM，包含正向隐含状态序列与反向隐含状态序列按位置拼接后得到完整的隐含状态序列。设置全连接层，将隐状态向量映射到k维，其中k为需要预测的标点对应的标签种类的数目，从而完成自动提取句子特征的过程，记作矩阵

4)通过将k维的向量输入到条件随机场CRF中，设置转移矩阵A，其中转移矩阵的维度为(k+2)×(k+2)，A_ij表示第i个状态到第j个状态的转移得分，进而利用源训练语料中已经自动获取的标点符号标签。之所以是(k+2)维，是因为要在句子首位添加初始状态和终止状态。整个序列的打分为神经网络双向的长短期记忆网络Bi-LSTM与条件随机场CRF的转移矩阵A决定，模型对于句子x的标签等于y的打分为

5)通过对无标点的文本中待加标点的位置的得分进行归一化softmax，得到标签即词序列对应符号的概率p(x|y)。至此神经网络模型参数包括：正向连接权重W1，反向连接权重W2，输出层权重U，以及转移矩阵A，以及其他偏置参数。激活函数使用ReLU函数产生非线性变换，增加L2正则化减少过拟合，同时设置dropout-prop即神经单元随机失活系数为0.8，进行泛化神经网络模型。本实施例对模型及其对应的模型参数不加以限制。通过以上步骤学习模型内在参数，对预测值与目标语料中的标准值使用交叉熵技术计算模型loss，对模型内部参数进行梯度下降学习。最后通过模型预测待预测数据的词序列对应的符号的概率，进而选取最大概率作为最终预测标签序列，在模型预测的过程，根据不同标签的概率，采用Viterbi算法来求解最优路径，对一句话中每一个词对应的标签的概率预测进行整条序列上的分析，得到整条序列上的最优解即完成符号添加。

综上所述，整体无标点文本的符号添加过程参阅图5。需要说明的是，对于具体方法步骤，为了简单描述清楚，因此将其表述为顺序执行的任务，但本发明实施例并不受描述顺序限制，某些步骤可以顺寻或同时进行。

以上对本发明所提供对无标点文本进行自动标点添加的方法，进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种对无标点文本添加标点符号的方法，其特征在于，该方法包括以下具体步骤：

步骤1：自动化处理有标点的文本数据，获得平行语料，即带有标点的用于模型训练的源训练语料和用于检验效果的目标语料；

A5：通过对无标点的文本中待加标点的位置的得分进行归一化即softmax处理，得到词序列对应标点符号的概率；

A6：训练步骤1中平行语料得到符号添加模型；