CN111339750B

CN111339750B - 去除停用语并预测句子边界的口语文本处理方法

Info

Publication number: CN111339750B
Application number: CN202010112638.XA
Authority: CN
Inventors: 孟亚磊; 刘继明; 金宁; 王力成; 陈浮
Original assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Current assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-09-08
Anticipated expiration: 2040-02-24
Also published as: CN111339750A

Abstract

本发明公开了去除停用语并预测句子边界的口语文本处理方法，首先收集口语识别文本语料；然后对文本语料中的停用语进行标注；再对文本语料中句子边界两侧的字词进行标注；继而采用机器学习方法训练序列标注模型；最后采用模型对口语文本进行处理。采用序列标注方式识别并去除文本序列中的停用语，采用文本向量嵌入、正反双向编码结合条件随机场的机器学习方案，高效抽取口语文本的深层语义特征，提高标签序列预测准确率；采用一个模型同时完成去停用语和句子边界预测；经过处理后，语音识别文本重点更加突出，有了合理的标点分隔，不仅利于人类阅读，也便于自然语言理解模块选择最佳处理粒度。

Description

去除停用语并预测句子边界的口语文本处理方法

技术领域

本发明涉及一种对语音识别后无标点文本序列去除停用语并预测句子边界的处理方法，属于自然语言处理技术领域。

背景技术

近几年来，随着人工智能技术在语音信号处理领域的突破，语音识别取得了突飞猛进的发展，目前已经拥有许多商业化应用场景，比如语音输入法、语音助手、智能音箱、翻译机等。无论什么样的应用形态，语音识别为文本序列都是首当其冲的第一步。但遗憾的是，典型的语音识别系统只负责将声音片段转换为概率最大的文本序列，带有信息的音节与文本是一一对应的，对于话语中包含的长短停顿、语调升降等特征无法在输出文本序列中体现，因此语音识别的结果经常是连续的长文本。

连续的长文本因为没有标点，在子句切分方面存在模糊性，导致人们在阅读时需要反复回看来检查断句的正确性。同时，过长的序列增加了人脑处理信息的短时记忆负担，大大提高了信息理解的难度。因此，为连续文本序列做句子切分成了阅读或进行自然语言理解之前的必经环节。另外，由于口语自身的特点，说话人在表达中会添加无意义的插入语，如“我想请问下、我的意思是、这个、那么、然后……、……的话”等。这类词语或词组在理解阶段是需要去除的。但许多插入语在特定上下文中是必要的，如果简单机械地使用停用词表进行去除，则会引入新的错误。因此口语文本在去停问题上长期面临着忍受噪声与接受差错的两难困境。

语句边界预测是标点恢复任务的子集，主要致力于涉及句子边界的特定标点符号。口语的语序灵活，句式多变，而传统标点预测任务往往使用广泛存在的书面语料，这种模型套用过来效果较差。目前工业界与学术界提出了多种解决办法。一类方法是尽量利用语音信号包含的信息，收集静音间隔和语调特征来预测句子边界。这类方法难以适应不同的语速，语速稍慢就会有大量多余标点；而且标点也比较单一，往往一逗到底，不符合实际情况；另外非语音识别企业也难以使用这种方法。另一类方法是针对文本序列进行处理，往往通过特征模板与条件随机等机器学习方法提取标点两侧的文本特征然后进行标点预测。但现有方法难以提取文本序列的深层特征，在预测准确率方面也不够理想，难以达到商业化落地的要求。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种去除停用语并预测句子边界的口语文本处理方法。

本发明的目的通过以下技术方案来实现：

去除停用语并预测句子边界的口语文本处理方法，特点是：包括以下步骤：

S101)收集口语识别文本语料；

S102)对文本语料中的停用语进行标注；

S103)对文本语料中句子边界两侧的字词进行标注；

S104)采用机器学习方法训练序列标注模型；

S105)采用模型对口语文本进行处理。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，步骤S102)，对获取的语料逐句分析审核，并标注其中的无意义片段；如果语料中包含带标点文本，忽略标点符号。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，标注采用BIEOS系统，对停用片段的第一个字标记为B-Stop，第二个字至倒数第二个字全部标记为I-Stop，最末一个字标记为E-Stop，非停用语的正常部分标记为O。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，步骤S103)，若语料中包含带标点文本，在标注句子边界的同时去掉标点符号，包括以下步骤：

1)确定需要标注的标点符号集合

将语句边界预测的目标确定为以句子休止符为核心，包括逗号、句号、问号、感叹号所在的位置；

2)确定边界标点的标签集合

对标点前b个字与标点后a个字赋予不同名称的标签，以便模型学习标点符号的位置；b和a取值为1～6；

3)对步骤S102)处理后的文本序列添加句子边界标签

当停用语位于句子边界时，因一个字无法承载多个标签，则标注方案为：

首先，句子边界在后面紧接停用语时提前结束；

其次，句子边界在前面紧接停用语时，追溯到停用语前标注。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，步骤S104)，已获得口语文本语料与字标签对应的数据文件，采用机器学习方法按照序列标注任务训练模型，模型学习的结果是对文本序列的每一个字预测其概率最大的标签。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，机器学习方法为隐马尔科夫模型、条件随机场、双向长短时记忆网络或卷积神经网络。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，采用以双向编码器结合双向长短时与条件随机场连接的方法，进行模型训练：

1)对文本做向量化表示

采用Transformer的双向编码器表示，通过多层编码器抽取语料的高层次特征，获取字、句各种粒度的向量表示，模型内部对于中文是以字作为基本单位，避免分词偏差的影响；双向编码器结合上下文进行动态嵌入，对于不同场景下一词多义的情况有效区分；当前已有包括中文在内的多个语种的BERT预训练模型开放下载使用；

2)基于字向量的序列编码

采用双向长短时记忆网络对文本的向量序列进行编码，双向长短时记忆网络沿着从左到右、从右到左两个方向利用上下文信息对文字进行编码，经过正向、反向编码后分别得到两个方向的隐状态向量，将正反向隐状态向量拼接得到最终隐状态向量，然后通过全连接层将最终隐状态向量映射到d维向量，其中d表示单字标签的种类数；

3)通过条件随机场加强标签约束

条件随机场中有一个转移矩阵M，其中每个元素Mij表示第i个状态后面跟随第j个状态的转移概率，通过条件随机场从训练语料中学习到每个标签转移到下一个标签的概率，生成对应的转移矩阵，转移矩阵是(d+2)×(d+2)维，除了d种标签状态外，还包含一个初始状态和一个终止状态；

将上一步生成的d维向量送入条件随机场之后，模型根据转移矩阵约束各维度的概率，避免预测出不符合实际的标签序列；

4)根据概率最大原则估计每个字的标签

经过条件随机场约束之后可获得文本序列中每个字在d类标签中的概率分布，通过公式(1)对每个字c取最大概率所在的类别标签即可得到各个字的最可能标签Label(c)；

其中y’ci表示模型预测字符c是第i类标签的概率，argmax函数可得到当概率取最大值时的第i类标签；

5)计算误差反向传播，更新模型参数

模型参数包括向量化表示层、双向长短时记忆网络层的权重W与偏置B、转移矩阵M，其中向量化表示层的参数已经过预训练，在任务中不做训练，对于预测值与目标语料中的真实值之间的偏差，采用公式(2)作为损失函数，通过梯度下降法学习降低损失值优化模型参数，设定不同的激活函数或遗忘系数，添加L2正则化；

其中N表示训练样本的总字数，d是标签类别数量，yci表示字符c的真实标签是第i类的概率，y’ci表示模型预测字符c是第i类标签的概率；

训练过程在经过预设的最大迭代次数或满足终止条件后结束。

进一步地，上述的去除停用语并预测句子边界的口语文本处理方法，其中，步骤S105)，得到一个同时处理去停与句子边界预测的模型，对新的口语文本进行预测，模型在预测时，对输入文本的处理过程为正向传播过程，模型预测结果是输入各个字对应的标签序列，通过与标注过程相反的转换程序还原为符合阅读习惯的带中文标点形式。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

本发明采用序列标注方式识别并去除文本序列中的停用语，充分利用停用语前后的上下文特征，克服传统按停用词表去除方式容易引入错误的弊端，为后续的自然语言理解模块降低数据噪声；针对语句边界涉及前后两部分内容的特点，在传统序列标注体系基础上加入后置标签，增强连续标签的协同预测能力；采用文本向量嵌入、正反双向编码结合条件随机场的机器学习方案，高效抽取口语文本的深层语义特征，提高标签序列预测准确率；采用一个模型同时完成去停用语和句子边界预测，不仅克服传统去停方法容易引入错误的弊端，而且在口语句子边界预测准确性上得到显著提升。经过处理后，语音识别文本重点更加突出，有了合理的标点分隔，不仅利于人类阅读，也便于自然语言理解模块选择最佳处理粒度。在垂直行业领域的语音交互系统中具有广泛的应用价值；堪称是具有新颖性、创造性、实用性的好技术。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。

附图说明

图1：本发明的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。

如图1所示，去除停用语并预测句子边界的口语文本处理方法，具体包括以下步骤：

S101)收集口语识别文本语料；

口语识别所得的无标点文本序列是前提条件，也是需要批量处理的数据形式；数据欠缺时，相同领域内带有标点的类口语文本，例如在线问答记录等，可以作为初始语料；

S102)对文本语料中的停用语进行标注；

对于步骤S101中获取的语料逐句分析审核，并标注其中的无意义片段；如果语料中包含带标点文本，则忽略标点符号，因为标点在步骤S103中被去除；

标注体系可以采用BIEOS系统，具体地，对停用片段的第一个字标记为B-Stop，第二个字到倒数第二个字全部标记为I-Stop，最末一个字标记为E-Stop，非停用语的正常部分标记为O；

例如，对于一段文本序列“我以为他在这个单位辞职了那么我想问一下他这个单位档案在哪”进行停用语(下划线部分)标注之后，标签序列为：

OOOOOOOOOOOO B-Stop I-Stop I-Stop I-Stop I-Stop I-Stop E-Stop OOOOOOOO

S103)对文本语料中句子边界两侧的字词进行标注；

如果语料中包含带标点文本，则在标注句子边界的同时去掉标点符号，包括以下步骤：

1)确定需要标注的标点符号集合

由于语句内部的语义高度内聚，对话系统的语言理解单元中句法分析是以句子作为基本单位，因此对于语音交互的大多数场景来说，是确定文本序列的句子边界；将语句边界预测的目标确定为以句子休止符为核心，包括逗号、句号、问号、感叹号所在的位置；

2)确定边界标点的标签集合

对序列标注任务来说，原文本序列与标签序列是一一对应的；因此，标点符号不能通过额外增加标签的方式标注；本发明采用对标点前b个字与标点后a个字赋予自定名称标签的方式来辅助模型学习标点的位置；标点前字数b与标点后字数a的典型取值在1～6之间，例如可选择b＝3，a＝1。

标点/标签	标点前的字	标点后的字
			逗号	B-Com、I-Com、E-Com	A-Pun
句号	B-Per、I-Per、E-Per	A-Pun
			问号	B-Que、I-Que、E-Que	A-Pun
感叹号	B-Exc、I-Exc、E-Exc	A-Pun

3)对步骤S102处理后的文本序列添加句子边界标签

停用语经常会出于句子边界上，但一个字无法赋予多个标签。为了确保停用片段识别的完整性，当停用语位于句子边界时，标注方案为：

首先，句子边界在后面紧接停用语时提前结束；例如在句号后面紧跟着停用语，则该句号后不再标A-Pun，只对句号前的字做标注；

其次，句子边界在前面紧接停用语时，追溯到停用语前标注；例如语句“如果女方没有工作的话，生育保险可以领取吗？”，则B-Com、I-Com、E-Com标记在停用语‘的话’之前；

以步骤S102中的文本序列为例，“我以为他在这个单位辞职了那么我想问一下他这个单位档案在哪”进行添加句子边界之后标签序列为：

OOOOOOO B-Per I-Per I-Per I-Per E-Per B-Stop I-Stop I-Stop I-Stop I-Stop I-Stop E-Stop OOOO B-Que I-Que I-Que I-Que E-Que

S104)采用机器学习方法训练序列标注模型；

经过步骤S102与步骤S103已获得口语文本语料与字标签对应的数据文件，采用各类机器学习方法按照序列标注任务训练模型，模型学习的结果是对文本序列的每一个字预测其最有可能的标签，机器学习方法是隐马尔科夫模型(HMM)、条件随机场(CRF)、双向长短时记忆网络(Bi-LSTM)、卷积神经网络(CNN)。

以双向编码器结合双向长短时和条件随机场连接的方法，模型训练的的过程：

1)对文本做向量化表示

文本向量化的方法有：word2vec嵌入、Glove、elmo等。采用Transformer的双向编码器表示(BERT，全称为Bidirectional Encoder Representations from Transformers)，通过多层编码器可以抽取语料的高层次特征，获取更准确的字、句等各种粒度的向量表示，模型内部对于中文以字作为基本单位，避免分词偏差的影响；而且不同于词向量每个词采用确定的向量表示，BERT结合上下文进行动态嵌入，对于不同场景下一词多义的情况有效区分。当前已有包括中文在内的多个语种的BERT预训练模型开放下载使用。

2)基于字向量的序列编码

采用双向长短时记忆网络对文本的向量序列进行编码。长短时记忆网络可利用某个字前方的信息对其进行表示，而双向长短时记忆网络则沿着从左到右、从右到左两个方向利用上下文信息对文字进行编码，经过正向、反向编码后分别得到两个方向的隐状态向量，将正反向隐状态向量拼接得到最终隐状态向量，然后通过全连接层将最终隐状态向量映射到d维向量，其中d表示单字标签的种类数。

3)通过条件随机场加强标签约束

条件随机场中有一个转移矩阵M，其中每个元素Mij表示第i个状态后面跟随第j个状态的转移概率，通过条件随机场可从训练语料中学习到每个标签(如B-Stop)转移到下一个标签(如I-Stop)的概率，生成对应的转移矩阵，转移矩阵是(d+2)×(d+2)维，除了d种标签状态外，还包含一个初始状态和一个终止状态。

将上一步生成的d维向量送入条件随机场之后，模型根据转移矩阵约束各维度的概率，避免预测出不符合实际的标签序列(例如I-Sop后面跟着B-Stop)。

4)根据概率最大原则估计每个字的标签

其中y’ci表示模型预测字符c是第i类标签的概率，argmax函数可得到当概率取最大值时的第i类标签。

5)计算误差反向传播，更新模型参数

模型参数包括向量化表示层、双向长短时记忆网络层的权重W与偏置B，转移矩阵M，其中向量化表示层的参数已经过预训练，在任务中不做训练。对于预测值与目标语料中的真实值之间的偏差，采用公式(2)作为损失函数，通过梯度下降法学习降低损失值来优化模型参数，根据实际情况，可设定不同的激活函数(如Relu)或遗忘系数，添加L2正则化等；

其中N表示训练样本的总字数，d是标签类别数量，yci表示字符c的真实标签是第i类的概率(0或者1)，y’ci表示模型预测字符c是第i类标签的概率。

训练过程在经过预设的最大迭代次数或满足终止条件(例如损失小于一个类似0.0001的预设阈值)后结束。

S105)采用模型对口语文本进行处理

经过步骤S104可得到一个同时处理去停与句子边界预测的模型，对新的口语文本进行预测，模型在预测时，对输入文本的处理过程主要包括步骤S104中的第1)～第4)步，即正向传播过程。

模型预测结果是输入各个字对应的标签序列，还通过与标注过程相反的转换程序还原为符合阅读习惯的带中文标点形式。

综上所述，本发明采用序列标注方式识别并去除文本序列中的停用语，充分利用停用语前后的上下文特征，克服传统按停用词表去除方式容易引入错误的弊端，为后续的自然语言理解模块降低数据噪声；针对语句边界涉及前后两部分内容的特点，在传统序列标注体系基础上加入后置标签，增强连续标签的协同预测能力；采用文本向量嵌入、正反双向编码结合条件随机场的机器学习方案，高效抽取口语文本的深层语义特征，提高标签序列预测准确率；采用一个模型同时完成去停用语和句子边界预测，不仅克服传统去停方法容易引入错误的弊端，而且在口语句子边界预测准确性上得到显著提升。经过处理后，语音识别文本重点更加突出，有了合理的标点分隔，不仅利于人类阅读，也便于自然语言理解模块选择最佳处理粒度。在垂直行业领域的语音交互系统中具有广泛的应用价值。

需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。

Claims

1.去除停用语并预测句子边界的口语文本处理方法，其特征在于：包括以下步骤：

S101）收集口语识别文本语料；

S102）对文本语料中的停用语进行标注；

对获取的语料逐句分析审核，并标注其中的无意义片段；如果语料中包含带标点文本，忽略标点符号；

S103）对文本语料中句子边界两侧的字词进行标注；

若语料中包含带标点文本，在标注句子边界的同时去掉标点符号，包括以下步骤：

1）确定需要标注的标点符号集合

2）确定边界标点的标签集合

3）对步骤S102）处理后的文本序列添加句子边界标签

首先，句子边界在后面紧接停用语时提前结束；

其次，句子边界在前面紧接停用语时，追溯到停用语前标注；

S104）采用机器学习方法训练序列标注模型；

获得口语文本语料与字标签对应的数据文件后，采用机器学习方法按照序列标注任务训练模型，模型学习的结果是对文本序列的每一个字预测其概率最大的标签；

S105）采用模型对口语文本进行处理

使用训练得到的同时处理去停与句子边界预测的模型，对新的口语文本进行预测；模型在预测时，对输入文本的处理过程为正向传播过程，模型预测结果是输入各个字对应的标签序列，通过与标注过程相反的转换程序还原为符合阅读习惯的带中文标点形式。

2.根据权利要求1所述的去除停用语并预测句子边界的口语文本处理方法，其特征在于：标注采用BIEOS系统，对停用片段的第一个字标记为B-Stop，第二个字至倒数第二个字全部标记为I-Stop，最末一个字标记为E-Stop，非停用语的正常部分标记为O。

3.根据权利要求1所述的去除停用语并预测句子边界的口语文本处理方法，其特征在于：机器学习方法为隐马尔科夫模型、条件随机场、双向长短时记忆网络或卷积神经网络。