CN110134952A

CN110134952A - 一种错误文本拒识方法、装置及存储介质

Info

Publication number: CN110134952A
Application number: CN201910355204.XA
Authority: CN
Inventors: 张涵; 庄豪爽; 钟顺明; 冯韩德
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-16
Anticipated expiration: 2039-04-29
Also published as: CN110134952B

Abstract

本发明涉及一种错误文本拒识方法、装置及存储介质，本发明通过对待检文本进行文字长度判决，当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本。相对于现有技术，本发明提升了人机对话系统的容错性。

Description

一种错误文本拒识方法、装置及存储介质

技术领域

本发明涉及信息处理领域，尤其是涉及一种错误文本拒识方法、装置及存储介质。

背景技术

人机对话系统自问世以来，迅速引起了大众的注意力。当时的人机对话系统大多数采用人工编写特定业务规则的方式进行应答匹配，缺乏容错性以及更高境界的认知智能，所以导致人机对话系统出现答非所问的不良体验。但实际上，从人机对话相关产品的面世引起大众广泛的注意力，可以看出人机对话系统在生活的应用前景是值得探究的。

人机对话系统的关键在于计算机能够在设计的系统模型下，根据线下训练的模型，获取对方表达的内容并在一定程度上理解，给出有意义的回复内容。受限于语音识别技术以及自然语言理解等相关领域技术发展的瓶颈，目前人机对话系统还不能够像人类一样智能的处理各种语音对话，尤其是在通用的人机对话系统。在目前的阶段，人机对话系统通常是任务型的对话系统。

近些年来，随着语音处理技术及自然语言处理技术的进一步发展，目前的人机对话系统相对于当初具有一定的智慧了，但仍然不具备与人完全自然交流的能力，尤其是因为语音识别预测错误或者超出规则应答范围的时候，会出现答非所问的情况。因此，针对语音识别错误的情况，我们设计了一种基于规则与SVM的错误文本拒识方法，避免语音识别错误的文本继续传入后续对话系统的处理过程，在一定程度上减少了出现人机对话系统出现答非所问的现象。同时，对于检测出错误文本的情况，通过语音提醒用户再次重复语音或者接入人工对话系统，从而在保障较好用户体验的情况下实现对话交互，完成会话任务。

现有人机对话系统的语音识别问题主要有：

1、在环境噪音严重的情况下，噪音对人机对话系统的语音识别影响较大，极大可能造成语音识别预测文本错误，从而导致人机对话系统答非所问。

2、人机对话系统的语音识别模块准确率依靠声学模型以及语言模型的学习，任一问题都可能造成语音识别预测文本错误，从而导致人机对话系统答非所问。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种语音识别效果好、准确率高的错误文本拒识方法、装置及存储介质。

一种错误文本拒识方法，包括以下步骤：

对待检文本进行文字长度判决；

当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本；

输出待检文本判决结果。

相对于现有技术，本发明通过对待检文本进行文字长度判决，当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本，提升了人机对话系统的容错性，增加语音识别的准确性。

进一步地，在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤之前，利用jieba分词工具进行文本分类，将文本转化为词序列(w₁w₂..w_N)；方便后续步骤提取优化后的2-gram语言困惑度及句子置信度。

进一步地，在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤中，所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到，该步骤具体包括：

以部分未拒识文本语料训练基础N-gram语言模型；

依据基础N-gram语言模型，拒识后续文本语料，得到文本语料集；

将文本语料集加入基础文本语料集，以更新后的文本语料集训练N-gram语言模型；

通过上述步骤，保证了后续步骤中利用N-gram语言模型提取多维特征的准确性。

进一步地，所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤中，所述优化后的2-gram语言困惑度(PPL)公式为：

其中，S为待检文本，N为待检文本的词序列长度，所述2-gramscore代表一个2-gram组合出现的概率；ω_i为依据文本长度以及词频数统计构造的约束项：

其中U_i代表2-gram组合,Len(U_i)代表该2-gram组合的文本长度，β为经验阈值，conf(U_i)代表2-gram组合的句子置信度；

其中，N为待检文本的词序列长度，w_i表示2-gram组合中某词，Len(w_i)表示词长，x表示词频，x_max表示词频上限，如果w_i的词频x小于词频上限x_max，则否则conf(w_i)＝1；

所述获得句子置信度的公式为：

其中，如果w_i的词频x小于词频上限x_max，则否则conf(w_i)＝1；w_i表示文本S分词后词序列(w₁w₂..w_N)的某分词；Len(w_i)表示词长。通过对每一个2-gramscore增加一个以2-gram组合为单位的约束项ω_i，使得常规2-gram组合权重ω_i低，异常2-gram组合权重ω_i高，增加两者区分度。

进一步地，所述调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征步骤中，所述自定义关键词词库的构建步骤包括：

对文本语料进行数据清洗，剔除无效文本，滤除无语义信息的语气助词；

按字数分别保存单字至三字文本，筛选正确文本直至正确文本占总文本覆盖率达97％，依此分别构建单字至三字关键词词库。通过上述步骤，保障了自定义关键词词库的准确性。

进一步地，在将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中，所述SVM模型的训练步骤包括：

分析待检文本数据并进行特征构建，对获得的特征进行分析并对特征进行组合选择；

标记正负样本集合；

选择SVM核函数及对SVM模型参数及进行调优，并训练模型；

保存SVM模型结果,评估SVM模型并获取最优分类阈值。

进一步地，所述分析待检文本数据并进行特征构建，对获得的特征进行分析并选择特征进行组合的步骤中，所述特征构建包括：

统计文本的关键词命中率，记为F1；

统计命中词的词频总和，记为F2；

以2-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F3；

以3-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F4；

基于F3和F4，分别进行插值处理，记为F5、F6；

基于F3，引入文本长度及词频因素，得到所述文本的句子置信度，记为F7；

所述对获得的特征进行分析并选择特征进行组合的步骤中，选择F1、F2、F3、F7进行特征组合。上述特征组合为经过多次分析实验后得出的效果最优方案。

进一步地，所述选择SVM核函数及对SVM模型参数进行调优，并训练模型的步骤中，所述SVM核函数为RBF核函数，所述SVM模型参数包括：惩罚系数C、核函数系数gamma、多项式系数degree。通过选用RBF核函数，提高了SVM模型的分类效果。

本发明还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的错误文本拒识方法的步骤。

本发明还提供了一种错误文本拒识装置，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的错误文本拒识方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明实施例1中一种错误文本拒识方法的步骤图；

图2是本发明实施例1中一种错误文本拒识方法中流程示意图；

图3是本发明实施例1中一种错误文本拒识方法中低字数文本拒收流程示意图；

图4是本发明实施例1中一种错误文本拒识方法中高字数文本拒收流程示意图；

图5是本发明实施例1中一种错误文本拒识方法的运行测试效果图。

具体实施方式

实施例

请参阅图1-2，本发明实施例中提供了一种错误文本拒识方法，包括以下步骤：

S1：对待检文本进行文字长度判决；

所述待检文本可以为手工输入的文字，也可以为利用文字转换设备如扫描仪或语音识别装置生成的文本数据。在一个优选的实施例中，所述待检文本为利用语音识别ASR模块将音频生成文本，并经过预处理后得到的文字。其中，所述预处理过程包括对无效停用词、非汉字字符进行滤除。在其它实施例中，所述预处理过程也可以采用现有技术中常用的文本预处理方式进行处理。

在一个可选的实施例中，所述文字长度为字数，选择字数3作为文字长度设定阈值，当待检文本字数超过3，即认为待检文本为高字数文本，否则则认为待检文本为低字数文本。在其它可行的实施例中，所述文字长度可以为字节数或其它文字长度衡量方式，所述设定阈值也可根据用户实际需求进行设定。

S2：当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度，将提取的特征送入训练好的SVM模型计算得分，并基于ROC曲线的最佳阈值点判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本；

其中，所述通用命名实体库可以采用现有技术中常见的命名实体库，所述自定义关键词词库的构建步骤包括：

所述调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本具体为：判断该待检文本与词库中的词语的匹配情况，若待检文本匹配词库，则通过，否则，拒识该待检文本。

在一个可选的实施例中，所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前，利用jieba分词工具进行文本分类，将待检文本转化为词序列(w₁w₂..w_N)，方便后续步骤提取优化后的2-gram语言困惑度及句子置信度。

N-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是N的字节片段序列，每一个字节片段称为gram,对所有gram的出现频度进行统计,该模型基于马尔科夫假设,即：假设在一段文本中，第N个词的出现只与前面N-1个词相关，而与其他任何词都不相关。基于这样一种假设，可以评估文本中每一个词出现的概率，整句的概率就是各个词出现概率的乘积。N-gram模型中常用的有二元模型Bigrams和三元模型Trigrams，本实施例中采用二元模型Bigrams。

所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到，kenlm工具相比较其它训练语言模型工具训练速度更快，并支持单机大数据的训练。该步骤具体包括：

以部分未拒识文本语料训练基础N-gram语言模型；

通过上述步骤，以正确率较高的文本语料集训练N-gram语言模型，保证了后续步骤中利用N-gram语言模型提取多维特征的准确性。

语言困惑度在自然语言处理中用来衡量训练出来的语言模型的好坏，所述2-gram语言困惑度(PPL)公式定义为:

其中，N为词序列数目，(w₁w₂..w_N)为利用jieba分词工具转化的词序列。

在本实施例中取二元模型，进一步该公式为：

取对数计算转换后：

所述的优化后2-gram语言困惑度(PPL)，实质上是对每一个2-gramscore增加一个以2-gram组合为单位的约束项ω_i。约束项ω_i依据2-gram组合文本长度以及词频数统计构造，目的是使得常规2-gram组合权重ω_i低,异常2-gram组合权重ω_i高,使得2-gram语言模型困惑度更具区分度,优化后的2-gram语言困惑度(PPL)按照下述方式获得：

其中，S为待检文本，N为待检文本的词序列长度，所述2-gramscore代表一个2-gram组合出现的概率，ω_i为依据文本长度以及词频数统计构造的约束项：

其中U_i代表2-gram组合,Len(U_i)代表该2-gram组合的文本长度，β为经验阈值，调整β可使ω_i合理的分布在范围(0,1)。

所述的句子置信度(conf)，实质上是依据词频以及文本长度构建得出，按照下述方式获

得：

其中，S为待检文本，N为待检文本的词序列长度，w_i表示词序列(w₁w₂..w_N)的某分词，Len(w_i)表示词长，x表示词频，x_max表示词频上限，如果w_i的词频x小于词频上限x_max，则否则conf(w_i)＝1。

所述SVM模型，是建立在统计学理论的VC维理论和结构风险最小原理基础上，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期望获得最好的泛化能力。所述SVM模型的训练步骤包括：

S201:分析待检文本数据并进行特征构建，对获得的特征进行分析并对特征进行选择组合；所述特征构建即基于数据源挖掘文本信息，包括：

统计文本的关键词命中率，记为F1；

统计命中词的词频总和，记为F2；

以2-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F3；

以3-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F4；

基于F3和F4，分别进行插值处理，记为F5、F6；

所述对获得的特征进行分析并选择特征进行组合的步骤中，经分析后挑选对数据分类具有区分度的特征，剔除冗余,区分能力差的特征。在本实施例中，经过数据分析，特征构建，特征分析，特征组合选择，最终确定以F1：关键词命中率；F2：命中词词频综合；F3：2-gram语言困惑度；F7：句子置信度(conf)作为SVM训练特征集。在另一个实施例中，当待检文本较长时，也可选择F3：3-gram语言困惑度可作为特征组合之一。

S202:标记正负样本集合；所述正负样本标记即人工观察文本,根据文本内容进行拒识/非拒识两类文本进行标记,用于SVM模型的训练与测试。

S203:选择SVM核函数及对SVM模型参数及进行调优，并训练模型；在本实施例中，所述SVM核函数选用RBF核函数，用于提高SVM模型的分类效果；所述SVM模型参数包括：惩罚系数C、核函数系数gamma、多项式系数degree。在其它实施例中，本步骤中所述SVM核函数也可根据根据模型应用问题以及数据规模等实际需要选择其它核函数实现非线性映射，完成非线性分类功能，例如多项式核函数、高斯核函数、线性核函数或混合核函数等。

S204:保存SVM模型结果,评估SVM模型并获取最优分类阈值。保存上述训练的SVM模型至本地,通过ROC曲线及AUC值评估SVM分类模型的性能,所述ROC曲线是指接收者操作特征曲线(receiveroperating characteristic),是指在特定刺激条件下，以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标，以击中概率P(y/SN)为纵坐标，画得的各点的连线。ROC曲线上每个点反映着对同一信号刺激的感受性，所述AUC值是指ROC曲线下的面积，介于0.1和1之间。AUC值作为数值可以直观的评价分类器的好坏，值越大越好。基于ROC曲线寻找最优分类阈值,使分类器表现最佳。

所述将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中，具体为：样本特征信息提取后，经特征归一化后送入SVM模型，计算样本得分后与ROC曲线最佳阈值点比较得出该样本是否为正样本，并输出判决结果。

在一个可选的实施例中，所述错误文本拒识方法中，将拒识的文本送入错误异常处理机制进行处理，所述错误异常处理机制可用于事后清理资源，或其它现有技术中常见的处理错误文本的方式对拒识文本进行处理。

S3：输出待检文本判决结果。所述待检文本判决结果可以为“通过”或者“拒识”，也可为经过上述处理过程后得到的文本，在一个优选的实施例中，所述待检文本判决结果包括“通过”(“拒识”)和处理后的文本。

如图3所示，利用本发明所述错误文本拒识方法进行低字数文本识别的步骤如下：

首先，音频经语音识别模块(ASR)生成文本，实施例举例文本(“哦不需要”,“不虚有”)。

然后，文本需经过文本预处理完成:(1)无效停用词滤除；(2)非汉字字符变形，经文本预处理后的文本为(“不需要”“不虚有”)

之后，对待检文本进行文字长度判决，在本举例文本中字数小于等于3，进入低字数文本拒识流程。

首先调用自定义关键词词库与通用命名实体库提取文本与词库的匹配情况，若文本匹配词库命中，则通过，例如实施例中的文本“不需要”，将文本“不需要”送入后续人机对话系统，否则拒识，将文本“不虚有”送入错误异常处理机制。

如图4所示，利用本发明所述错误文本拒识方法进行高字数文本识别的步骤如下：

首先，音频经语音识别模块(ASR)生成文本，实施例举例文本(“好的不需要哦谢谢”,“按时奥斯卡多久”)。

然后，文本需经过文本预处理完成:(1)无效停用词滤除；(2)非汉字字符变形，经文本预处理后的文本为(“好的不需要谢谢”“按时奥斯卡多久”)

之后，文本进入文字长度判决在本举例文本中字数大于3，进入高字数文本拒识流程。

首先进行样本特征信息提取：

(1)依据自定义关键词词库与通用命名实体库提取关键词命中率以及命中词词频总和；

(2)依据自学习迭代Bigrams语言模型提取文本优化后的的2-gram语言困惑度以及句子文本置信度。

样本特征信息提取后，经特征归一化后送入SVM模型，计算样本得分后与ROC曲线最佳阈值点比较得出该样本的分类：若通过，例如实施例文本“好的不需要哦谢谢”，则将文本“好的不需要哦谢谢”送入后续人机对话系统，否则拒识，将文本“按时奥斯卡多久”送入错误异常处理机制。

本发明还提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的错误文本拒识方法的步骤。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本发明还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的错误文本拒识方法的步骤。

图5为本发明一种错误文本拒识方法的运行测试效果图，其中包含了耗时以及输出结果。由测试效果图可得本发明所述错误文本拒识方法耗时为ms级，方便快捷。

相对于现有技术，本发明通过对待检文本进行文字长度判决，当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本，提升了人机对话系统的容错性，降低语音识别错误的文本，缓解人机对话系统中语音识别模块(ASR)的精度要求，避免造成人机对话系统出现答非所问的现象，使得等个人机对话系统更具鲁棒性。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种错误文本拒识方法，其特征在于，包括以下步骤：

对待检文本进行文字长度判决；

输出待检文本判决结果。

2.根据权利要求1所述的错误文本拒识方法，其特征在于：在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前，利用jieba分词工具进行文本分类，将待检文本转化为词序列(w₁w₂..w_N)。

3.根据权利要求2所述的错误文本拒识方法，其特征在于：在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中，所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到，该步骤具体包括：

以部分未拒识文本语料训练基础N-gram语言模型；

将文本语料集加入基础文本语料集，以更新后的文本语料集训练N-gram语言模型。

4.根据权利要求3所述的错误文本拒识方法，其特征在于：所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中，按照下述方式提取所述优化后的2-gram语言困惑度：

其中，U_i代表2-gram组合,Len(U_i)代表该2-gram组合的文本长度，β为经验阈值，conf(U_i)代表2-gram组合的句子置信度：

按照下述方式获得文本的句子置信度：

5.根据权利要求1所述的错误文本拒识方法，其特征在于：所述调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征步骤中，所述自定义关键词词库的构建步骤包括：

按字数分别保存单字至三字文本，筛选正确文本直至正确文本占总文本覆盖率达97％，依此分别构建单字至三字关键词词库。

6.根据权利要求1所述的错误文本拒识方法，其特征在于：在将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中，所述SVM模型的训练步骤包括：

分析待检文本数据并进行特征构建，对获得的特征进行分析并对特征进行选择组合；

标记正负样本集合；

选择SVM核函数及对SVM模型参数及进行调优，并训练模型；

保存SVM模型结果,评估SVM模型并获取最优分类阈值。

7.根据权利要求6所述的错误文本拒识方法，其特征在于：所述分析待检文本数据并进行特征构建，对获得的特征进行分析并选择特征进行组合的步骤中，所述特征构建包括：

统计文本的关键词命中率，记为F1；

统计命中词的词频总和，记为F2；

以2-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F3；

以3-gram组合求句子语言困惑度(PPL)，并进一步优化，记为F4；

基于F3和F4，分别进行插值处理，记为F5、F6；

所述对获得的特征进行分析并选择特征进行组合的步骤中，选择F1、F2、F3、F7进行特征组合。

8.根据权利要求6所述的错误文本拒识方法，其特征在于：所述选择SVM核函数及对SVM模型参数进行调优，并训练模型的步骤中，所述SVM核函数为RBF核函数，所述SVM模型参数包括：惩罚系数C、核函数系数gamma、多项式系数degree。

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-8任意一项所述的错误文本拒识方法的步骤。

10.一种错误文本拒识装置，其特征在于：包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8中任意一项所述的错误文本拒识方法的步骤。