CN109977398B

CN109977398B - 一种特定领域的语音识别文本纠错方法

Info

Publication number: CN109977398B
Application number: CN201910130170.4A
Authority: CN
Inventors: 李加庆; 沈春泽; 谭子豪; 周张泉
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Suning Bank Co Ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2023-06-06
Anticipated expiration: 2039-02-21
Also published as: CN109977398A

Abstract

本发明公开了一种特定领域的语音识别文本纠错方法，包括标准词及变种词字典生成、基于词的N‑Gram上下文短语字典生成、基于上下文短语最大匹配保护的变种词替换纠错三个部分。本发明尤其适用于特定领域，比如可用在智能客服机器人或者智能催收机器人等应用场景中，可以对机器人对话过程中语音识别文本的质量进行提升，质量提升后的文本可以提高特定领域应用中机器人意图识别的准确性，进而提升对话过程的流畅性，提升对话机器人的业务价值。

Description

一种特定领域的语音识别文本纠错方法

技术领域

本发明属于数据处理技术领域，具体涉及一种语音识别文本的纠错方法。

背景技术

目前语音识别技术在各个领域都有广泛的应用，例如在对话机器人中语音识别将人的语音转换成文本信息，然后机器人通过自然语言处理技术对文本进行语义分析和意图识别等处理，比如智能催收机器人通过语音识别功能将客户的语音转成文本信息，然后根据语义解析及意图识别技术将客户表述内容转成催收反馈信息，智能催收机器人据此结合催收话术与客户进一步沟通，引导客户及时还款，以达到催收目的。

目前由于环境噪声以及设备、口音等因素的干扰，语音识别软件转换之后的文本往往包含了大量的噪声数据，比如同音词、近似音词、错别字等错误文本数据，这样的文本错误往往会带来分词错误。目前大多数的语音识别后文本纠错都是基于词的识别结果结合概率的统计方法，这样的方法存在两个问题，一是语音识别的错误会导致分词错误，而在分词过程往往因为错误词导致提取了错误的词项，二是在特定领域用途中，由于缺乏大规模语料库，有限的语料样本很难准确反映真实的词项概率分布，通过计算概率的方法并不能达到理论预期。在实际运用过程中，比如在催收对话机器人的应用中，通过统计方法去实现文本纠错的效果并不理想，对后续的语义分析和意图识别形成极大的阻力。

发明内容

发明目的：为了解决现有技术存在的语音识别准确率低的问题，本发明提出一种特定领域的语音识别文本纠错方法。

技术方案：一种特定领域的语音识别文本纠错方法，包括以下步骤：

（1）提供正语料库和负语料库，所述正语料库包含无需纠错的文本语料，负语料库包含未经纠错的文本语料；利用正语料库生成标准词表，利用负语料库查找与标准词对应的变种词，组成标准词及变种词字典；

（2）对正语料库进行中文分词，按照词频大小构成正语料的词项组合表，将同一个词项组合中的字符串合并，得到短语，计算短语的字符串长度，将字符串长度相同的短语放在一个集合中，组成上下文短语字典；

（3）输入待纠错文本，做文本滑窗，从左到右滑动文本滑窗，获取滑窗文本，判断滑窗文本是否存在于上下文字典中，并将出现在上下文短语字典中的滑窗文本中的每个字在文本中的索引列出，建立索引集合；对于索引集合，进一步采用文本滑窗，判断滑窗文本是否存在于标准词及变种词字典中，并将出现在标准词及变种词字典中的变种词用对应的标准词进行替换，输出纠错后文本。

进一步的，所述步骤（1）还包括降噪处理：删除正语料库和负语料库中的英文字母、数字及多余标点。

进一步的，所述步骤（1）的标准词表的生成方法为：

（1a）采用文本滑窗的方式，对正语料库进行字层面的词频分析，得到不同字符个数的词频字典，词频字典包括词项及词频；

（1b）对词频字典中的词项进行拼音转换，得到中间文件，中间文件包括拼音、词项及词频；

（1c）基于词频对中间文件进行降序排列，设定第一词频阈值，保留词频高于第一词频阈值的数据，保持排序不变，得到标准词表。

进一步的，所述步骤（1）的变种词的查找方法为：

（1d）采用文本滑窗的方式，对负语料库进行字层面的词频分析，得到不同字符个数的词频字典，词频字典包括词项及词频；

（1e）对词频字典中的词项进行拼音转换，得到中间文件，中间文件包括拼音、词项及词频；

（1f）基于词项拼音对中间文件进行多层次排序；

（1g）遍历所述标准词表，分别在多层次排序结果中逐项通过标准词的拼音匹配到第一个具有相同拼音的词项所在的行，连同该行上下若干行的数据组成集合，在该集合中对每个词项的拼音字符串与标准词的拼音字符串进行编辑距离计算和字符串长度计算，取编辑距离不大于1且字符串长度不大于标准词的拼音字符串的词作为该标准词的变种词。

进一步的，所述步骤（1）的标准词及变种词字典中，每个标准词对应一组相应的变种词。

进一步的，所述步骤（1f）中的多层次排序包括两个字符层排序及三个字符层排序，两个字符层排序包括：首字拼音、末字拼音、词频；末字拼音、首字拼音、词频；三个字符排序包括：首字拼音、次字拼音、末字拼音、词频；末字拼音、次字拼音、首字拼音、词频；首字拼音、末字拼音、次字拼音、词频。

进一步的，所述步骤（2）的上下文短语字典生成方法为：

（2a）对正语料进行中文分词，对于两个字符的词项，分析词频并基于词频降序排列，得到正语料基于两个字符的词项组合表：

（2b）设定第二词频阈值，取词频大于第二词频阈值的所有词项组合数据，将同一个词项组合中的词保持前后顺序不变进行字符串合并，得到短语，计算短语的字符串长度，将字符串长度相同的短语放在一个集合中，组成上下文短语字典。

进一步的，步骤（3）包括上下文短语最大匹配保护步骤及词项保护的文本滑窗变种词替换步骤。

进一步的，所述上下文短语最大匹配保护步骤包括：

（3a）输入待纠错文本；

（3b）计算文本长度L，做第一文本滑窗，第一文本滑窗的长度为n，n的取值范围为2≤n≤L，且n为整数；

（3c）在上下文短语字典中提取长度为n的短语列为待匹配短语集合；

（3d）将第一文本滑窗自左向右滑动，对于获取的每个滑窗文本，判断是否出现在待匹配短语集合中，若出现在待匹配短语集合中，将滑窗文本中每个字的索引添加到索引集合中；若没出现在待匹配短语集合中，继续向右滑动第一文本滑窗直到滑到文本末尾；

（3e）针对n的所有取值重复步骤（3c）-（3d），不断追加索引集合，最终输出索引集合。

进一步的，所述词项保护的文本滑窗变种词替换步骤包括：

（3f）做第二文本滑窗，第二文本滑窗的长度为n’，n’取2、3重复执行步骤（3g）；

（3g）将第二文本滑窗自左向右滑动，将第二滑窗文本的索引集合为滑窗索引集合，判断滑窗索引集合与步骤（3e）得到的索引集合是否有交集；若无交集，执行步骤（3h），如有交集，执行步骤（3i）；

（3h）判断滑窗文本是否出现在标准词中，若出现在标准词中，将滑窗索引集合并入索引集合，若没有出现在标准词中，判断滑窗文本是否出现在变种词中，若出现在变种词中，用变种词对应的标准词代替该变种词，并将滑窗索引集合并到索引集合中，继续向右滑动第二文本滑窗重复执行本步骤直到滑到文本末尾；

（3i）判断交集的元素个数是否为2，若为2，取该交集对应的子字符串重复执行步骤（3h）；若不为2，继续向右滑动第二文本滑窗；

（3j）输出纠错后的文本。

有益效果：本发明提出一种特定领域的语音识别文本纠错方法，尤其适用于特定领域，比如可用在智能客服机器人或者智能催收机器人等应用场景中，可以对机器人对话过程中语音识别文本的质量进行提升，质量提升后的文本可以提高特定领域应用中机器人意图识别的准确性，进而提升对话过程的流畅性，提升对话机器人的业务价值。

附图说明

图1是变种词替换纠错方法流程；

图2是基于上下文短语最大匹配保护的过程；

图3是基于上下文词项保护的文本滑窗变种词替换过程。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本实施例的特定领域指智能催收领域，在该领域通常具有一份质量较好的与该领域（贷款催收等）相关的知识库或语料库，这里称为正语料库，还有未经纠错处理的质量较差的语音识别输出文本语料，该语料通常包含了很多噪声词，如同音词、近似音字词，导致文本内容无法通过文本解析去处理，需要进一步纠错修正，这里这样的文本数据称为负语料库。

特定领域的语音识别文本纠错方法主要包括三个部分：

一、标准词及变种词字典生成方法；

二、基于词的N-Gram上下文短语字典生成方法；

三、基于上下文短语最大匹配保护的变种词替换纠错方法。

如图1所示为整个流程示意图，下面逐一介绍各部分的具体步骤。

一、标准词及变种词的字典生成方法如下：

正负语料库的原始格式均为未进行中文分词的原始文本数据，可以为分行数据也可以是整篇数据，在进行字层面N-Gram处理之前，可以先将文本中的噪声字符去除，如英文字母、数字、多余标点等。具体过程分为以下步骤：

步骤1：采用文本滑窗的方式，对正负语料库进行字层面的N-Gram（N=2、3）词频分析，得到正负语料的2-Gram词频字典、3-Gram词频字典。形式如下例：

{……；“逾期”：56457；……“我不”：120080；……}

步骤2：对步骤1的四个字典数据的词项进行拼音转换，比如“逾期”的拼音为“yu,qi”，将拼音、词项、频率组合成列表形式，得到中间文件，对中间文件进行排序处理，生成两种排序结果文件，一种是正语料基于词频的降序排列文件（2-Gram、3-Gram），其中2-Gram形式如下例：

……

shi,de 是的 280300

yi,jing 已经 278016

yi,ge 一个 271360

shen,qing 申请 270953

ji,hao 机号 270300

shi,bu 是不 269284

li,cai 理财 260324

shi,wo 是我 256160

bu,liao 不了 243877

……

另一种是负语料基于词项拼音的多层次排序结果，包括：2-Gram的（首字拼音、末字拼音、词频）、（末字拼音、首字拼音、词频）以及3-Gram的（首字拼音、次字拼音、末字拼音、词频）、（末字拼音、次字拼音、首字拼音、词频）、（首字拼音、末字拼音、次字拼音、词频），其中3-Gram的（首字拼音、次字拼音、末字拼音、词频）排序结果形式如下例：

……

shen,fen,zai 身份再 1

shen,fen,zao 身份皂 1

shen,fen,zen 身份怎 1

shen,fen,zhang 身份账 2

shen,fen,zhe 身份这 5

shen,fen,zhen 身份真 1

shen,fen,zheng 身份证 1830

shen,fen,zhi 身份之 4

shen,fen,zhi 身份知 1

shen,fen,zhu 身份住 2

shen,fen,zhu 身份祝 1

……

如上形式，负语料中包含了“身份证”的很多变种词项，这些词项在文本分析的时候不能通过分词得到并纠错，给文本分析带来困难，属于被替换的对象。

步骤3：生成标准词表，由步骤2中的正语料2-Gram和3-Gram基于词频的降序排列文件中取词频为某个阈值以上的所有数据，保持排列顺序不变，得到的标准词表。

步骤4：生成标准词与变种词的对应字典（2-Gram、3-Gram），遍历步骤3的标准词表（2-Gram、3-Gram），分别在步骤2中的负语料基于词项拼音的多层次排序结果文件（2-Gram、3-Gram）中逐项通过标准词的拼音匹配到第一个具有相同拼音的词项所在行，并且将该行的上下一定范围（如前10行到后20行）的行数据加入一个同一个集合中，在该集合中对每个词项的拼音字符串Si与标准词的拼音字符串Sp进行编辑距离计算Dist(Sp, Si)和字符串长度计算Len(Si)，满足Dist(Sp, Si)<=1且Len(Si) <= Len(Sp)，则将该词项归为该标准词的变种词。其中2-Gram的对应字典形式如下：

[2-gram标准词与变种词字典部分内容]

{……,

'逾期': ['预期', '于七', '豫期', '语气', '逾七', '鱼七', '余七', '与七', '与其', '余期', '于其', '于期', '语七', '于气', '玉器', '遇七', '于起', '于器', '语其', '浴器'],

……,

'冻结': ['动结', '动解', '动接', '东街', '动洁', '东杰', '动节', '动杰', '冻解', '东揭', '董姐', '动界', '东结', '董洁', '动借', '栋解'],

……}

可以看到所列出的变种词均为催收语料中不太可能会出现的词汇，对于催收这一特定领域，这些词汇均为语音识别过程中产生的所对应的标准词的错误变种，在文本分析过程中需要对其进行纠错处理。

二、基于词的N-Gram上下文短语字典生成方法如下：

步骤1：对正语料进行中文分词，并进行基于词的N-Gram（N=2）及其频率分析并对频率进行降序排列，得到正语料基于2-Gram的词项组合表。

步骤2：将步骤1的词项组合表，取频率大于某个阈值的所有词项组合数据，将同一个词项组合中的词保持前后顺序不变进行字符串合并，得到一个词组或者称为短语，比如：

['申请', '转出'] 字符串合并为 ‘申请转出’

计算该短语的字符串长度，将字符串长度相同的短语放在一个集合中，组成短语字典，形式如下例：

{……,

2: {'是后', '了能', '把要', '我月', '图呢', '是无', '服务', '看呢', '点又', '啊不', '自动', '还又', '服了', '贷的',……},

3: {'解决呢', '啊支付', '理财款', '是限时', '说的个', '要高级', '我最后', '额度内', '昨晚整', '逗我呢', '用密码',……},

4: { '会员级别', '解冻麻烦', '然后又是', '这不是玩', '叫我自己', '提现什么', '觉得我的', '一点反应', '支付过的', '就去投诉', '不能一起', '怎么金额',……},

5: {'我已经退了', '手机不知道', '不是买东西', '打电话或者', '我已经停用', '是不是当天', '账户有问题', '提前还款的', '明天还可以', '买了为什么', '核实好了吗', '两个都不能', '找不到安心', '是因为你们',……},

……}

三、基于上下文短语保护的变种词替换纠错方法

如图1所示，纠错过程接收待纠错的语句文本T。先进行上下文短语最大匹配的词保护过程，被保护的词的字索引将进入集合A，如图2所示。在文本滑窗变种词替换过程中，将计算滑窗与集合A中的交集，根据交集的情况确定是否进一步进行变种词查找及替换，如图3所示。具体步骤如下：

步骤1：上下文短语最大匹配的词保护过程。输入文本T为如下语句，

“您这边有一笔任性担已经玉器有四天了”

文本长度L=17，分别对n=[17,16,……,2]做n-文本滑窗，在对应滑窗长度n的短语字典中取出所有长度为n的短语集合ShortSet-n，滑窗文本如果在此集合中则将滑窗文本对应的字索引都加入集合A中，此例中，滑窗过程中匹配到的短语如下表所示：

得到集合A的内容为：

{0, 1, 2, 3, 4, 5, 6, 7, 9, 10, 14, 15, 16}

步骤2：基于步骤1的结果，对文本T进一步做3-文本滑窗和2-文本滑窗，目的是将大部分变种词替换为标准词以完成纠错过程，如果图3所示，步骤如下：

根据集合A，3-文本滑窗滑到位置6时，滑窗文本Sm为“任性担”：

“您这边有一笔任性担已经玉器有四天了”

InterSet为{6,7}，元素个数为2，对应子字符串“任性”，取标准词与变种词对应字典D3：

……

'任性贷': ['任性答', '韧性大', '人性大', '任性打', '人性打', '任性达', '任性带', '任性代', '任性戴', '任性袋', '任性待', '韧性带', '人姓戴', '人性带', '任姓戴', '韧性贷', '韧性袋', '韧性代', '人星代', '任性逮', '韧性待', '任星代', '任性殆', '人性贷', '任性但', '任性单', '任性丹', '任性担', '人性单', '人性但'],

……

这一步防止因为“AB”一词被保护从而导致“ABX”或“XAB”形式的变种词被忽略，在此例中“AB”为“任性”，“ABX”为“任性担”。可以看到Sm在D3的变种词中，对应的标准词为“任性贷”，因此被替换为“任性贷”。滑窗继续右移，没有找到新的变种词，到达文本末尾，集合A更新为：

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 14, 15, 16}

文本T更新为：

“您这边有一笔任性贷已经玉器有四天了”

继续用2-文本滑窗从文本T的开头开始向右滑动过程，在位置11时，滑窗文本为“玉器”：

“您这边有一笔任性贷已经玉器有四天了”

标准词与变种词对应字典D2包含有“玉器”的内容片段为：

……

'逾期': ['预期', '于七', '豫期', '语气', '逾七', '鱼七', '余七', '与七', '与其', '余期', '于其', '于期', '语七', '于气', '玉器', '遇七', '于起','于器', '语其', '浴器']

……

可以看到“玉器”是D2中的“逾期”的变种词，因此被替换为“逾期”，集合A更新为

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16}

2-文本滑窗继续向右移动到文本末尾，没有新的变种词，替换过程结束，输出文本T为：“您这边有一笔任性贷已经逾期有四天了”，完成变种词替换的纠错过程。

Claims

1.一种特定领域的语音识别文本纠错方法，其特征在于，包括以下步骤：

（1）提供正语料库和负语料库，所述正语料库包含无需纠错的文本语料，负语料库包含未经纠错的文本语料；利用正语料库生成标准词表，利用负语料库查找与标准词对应的变种词，组成标准词及变种词字典；其中，

标准词表的生成方法为：（1a）采用文本滑窗的方式，对正语料库进行字层面的词频分析，得到不同字符个数的词频字典，词频字典包括词项及词频；（1b）对词频字典中的词项进行拼音转换，得到中间文件，中间文件包括拼音、词项及词频；（1c）基于词频对中间文件进行降序排列，设定第一词频阈值，保留词频高于第一词频阈值的数据，保持排序不变，得到标准词表；

变种词的查找方法为：（1d）采用文本滑窗的方式，对负语料库进行字层面的词频分析，得到不同字符个数的词频字典，词频字典包括词项及词频；（1e）对词频字典中的词项进行拼音转换，得到中间文件，中间文件包括拼音、词项及词频；（1f）基于词项拼音对中间文件进行多层次排序；（1g）遍历所述标准词表，分别在多层次排序结果中逐项通过标准词的拼音匹配到第一个具有相同拼音的词项所在的行，连同该行上下若干行的数据组成集合，在该集合中对每个词项的拼音字符串与标准词的拼音字符串进行编辑距离计算和字符串长度计算，取编辑距离不大于1且字符串长度不大于标准词的拼音字符串的词作为该标准词的变种词；

（2）对正语料库进行中文分词，按照词频大小构成正语料的词项组合表，将同一个词项组合中的字符串合并，得到短语，计算短语的字符串长度，将字符串长度相同的短语放在一个集合中，组成上下文短语字典；其中，

上下文短语字典生成方法为：（2a）对正语料进行中文分词，对于两个字符的词项，分析词频并基于词频降序排列，得到正语料基于两个字符的词项组合表；（2b）设定第二词频阈值，取词频大于第二词频阈值的所有词项组合数据，将同一个词项组合中的词保持前后顺序不变进行字符串合并，得到短语，计算短语的字符串长度，将字符串长度相同的短语放在一个集合中，组成上下文短语字典；

（3）输入待纠错文本，做文本滑窗，从左到右滑动文本滑窗，获取滑窗文本，判断滑窗文本是否存在于上下文字典中，并将出现在上下文短语字典中的滑窗文本中的每个字在文本中的索引列出，建立索引集合；对于索引集合，进一步采用文本滑窗，判断滑窗文本是否存在于标准词及变种词字典中，并将出现在标准词及变种词字典中的变种词用对应的标准词进行替换，输出纠错后文本；包括上下文短语最大匹配保护步骤及词项保护的文本滑窗变种词替换步骤，其中，

上下文短语最大匹配保护步骤包括：（3a）输入待纠错文本；（3b）计算文本长度L，做第一文本滑窗，第一文本滑窗的长度为n，n的取值范围为2≤n≤L，且n为整数；（3c）在上下文短语字典中提取长度为n的短语列为待匹配短语集合；（3d）将第一文本滑窗自左向右滑动，对于获取的每个滑窗文本，判断是否出现在待匹配短语集合中，若出现在待匹配短语集合中，将滑窗文本中每个字的索引添加到索引集合中；若没出现在待匹配短语集合中，继续向右滑动第一文本滑窗直到滑到文本末尾；（3e）针对n的所有取值重复步骤（3c）-（3d），不断追加索引集合，最终输出索引集合；

所述词项保护的文本滑窗变种词替换步骤包括：（3f）做第二文本滑窗，第二文本滑窗的长度为n’，n’取2、3重复执行步骤（3g）；（3g）将第二文本滑窗自左向右滑动，将第二滑窗文本的索引集合为滑窗索引集合，判断滑窗索引集合与步骤（3e）得到的索引集合是否有交集；若无交集，执行步骤（3h），如有交集，执行步骤（3i）；（3h）判断滑窗文本是否出现在标准词中，若出现在标准词中，将滑窗索引集合并入索引集合，若没有出现在标准词中，判断滑窗文本是否出现在变种词中，若出现在变种词中，用变种词对应的标准词代替该变种词，并将滑窗索引集合并到索引集合中，继续向右滑动第二文本滑窗重复执行本步骤直到滑到文本末尾；（3i）判断交集的元素个数是否为2，若为2，取该交集对应的子字符串重复执行步骤（3h）；若不为2，继续向右滑动第二文本滑窗；（3j）输出纠错后的文本。

2.根据权利要求1所述的特定领域的语音识别文本纠错方法，其特征在于，所述步骤（1）还包括降噪处理：删除正语料库和负语料库中的英文字母、数字及多余标点。

3.根据权利要求1所述的特定领域的语音识别文本纠错方法，其特征在于，所述步骤（1）的标准词及变种词字典中，每个标准词对应一组相应的变种词。

4.根据权利要求1所述的特定领域的语音识别文本纠错方法，其特征在于，所述步骤（1f）中的多层次排序包括两个字符层排序及三个字符层排序，两个字符层排序包括：首字拼音、末字拼音、词频；末字拼音、首字拼音、词频；三个字符排序包括：首字拼音、次字拼音、末字拼音、词频；末字拼音、次字拼音、首字拼音、词频；首字拼音、末字拼音、次字拼音、词频。