CN110782892B

CN110782892B - 语音文本纠错方法

Info

Publication number: CN110782892B
Application number: CN201911022578.6A
Authority: CN
Inventors: 杨帆
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-03-25
Anticipated expiration: 2039-10-25
Also published as: CN110782892A

Abstract

本发明涉及语音处理领域，公开了一种语音文本纠错方法，用以解决现有的视频领域语音文本纠错响应较慢、分词匹配效果不佳的问题。本发明包括：建立源词典；对用户语音实体文本进行分词，并对分词结果进行拼音标注；利用标注的拼音并结合散列函数,取得源词典中散列关键词值链表下语音所对应的所有视频实体名称文本；使用最小编辑距离算法和归属概率算法对用户语音实体文本与视频实体名称文本进行相似度计算，得到第一、二相似度值；将第一、第二相似度值加权结合，得到用户语音实体文本与视频实体名称文本最终的相似度值；对最终相似度值进行排序，并以排序结果对语音文本进行纠错。本发明适用于语音识别设备。

Description

语音文本纠错方法

技术领域

本发明涉及语音处理领域，特别涉及语音文本纠错方法。

背景技术

在视频领域上，随人工智能技术的发展，利用语音进行控制和搜索被普遍的应用于视频设备领域，但由于认知、口音等问题，用户所输入的语音文本就会出现各类错误，从而对视频设备的识别和搜索造成了较大影响，对语音识别后转译的文本进行纠错成为了提高语音识别能力的有效方法。

现有的语音文本纠错技术通常使用基于概率的分词器(例如jieba分词器)对文本分词，并利用分词结果来寻找具有相同词汇的备选文本，配之以机器学习模型(例如神经网络、word2vec)计算衡量文本与备选文本间的相似度作为替换依据。其缺点在于基于概率的分词器是基于现有人工收集的词汇甚至是较久前词汇进行训练和更新的，且由于基于大量的文字样本而导致训练时间长、训练出来的模型过大，无法及时跟进日新月异的视频领域语音文本词汇，造成分词上的错误从而影响后续的备选文本选择；并且机器学习模型内部结构复杂，难于解释其内部各参数的实际含义，对于输入参数则要求结构化的向量数据(例使用word2vec)，对文本进行相似度计算时运行时间较慢，难以在要求快速回馈的视频语音控制领域及时得到响应；现有文本纠错技术又多集中在搜索领域，即更注重于文字上的补全、调序，同时又由于处理的最小单元是文字，在将文字转换为向量单元进行相似度计算时，文字间包含的部分信息会丧失，例如“肖”和“孝”经过向量转换后，可能就成为了两个完全不相关的数字，而失去了两个文字原有发音一致的信息，这就使得对于语音文本会出现的谐音问题难以纠错。

发明内容

本发明要解决的技术问题是：提供一种语音文本纠错方法，用以解决现有的视频领域语音文本纠错响应较慢、分词匹配效果不佳的问题。

为解决上述问题，本发明采用的技术方案是：语音文本纠错方法，包括如下步骤：

(1)、建立源词典；

(2)、对用户输入的语音文本进行预处理，得到用户语音实体文本；

(3)、对用户语音实体文本进行分词，并对分词结果进行拼音标注；

(4)、利用标注的拼音并结合散列函数,得到对应拼音的散列关键词值，并利用散列关键词值取得源词典中散列关键词值所对应的所有视频实体名称文本，将其加入到备选列表中；

((5)、使用最小编辑距离算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，得到第一相似度值；

(6)、使用归属概率算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，得到第二相似度值；

(7)、将所述第一、第二相似度值加权结合，得到用户语音实体文本与视频实体名称文本最终的相似度值；

(8)、对最终相似度值进行排序，并以排序结果对语音文本进行纠错。

进一步的，步骤(1)可通过下方式建立源词典：

对视频实体名称文本进行全分词；

利用拼音标注分词结果，得到分词后的拼音组合；

以拼音组合中的拼音作为自变量，使用散列函数f(x)取得对应拼音的散列关键词值，将视频实体名称文本以及其对应的散列关键词值加入到源词典的散列关键词值链表中。

进一步的，为了使源词典适用于多种分词情形，所述全分词可包括二元、三元和单元全分词。

进一步的，步骤(2)可利用RNN(循环神经网络)对用户输入语音文本进行预处理；对RNN无法处理的文本可使用决策树规则模型进行解析处理。

进一步的，步骤(5)使用最小编辑距离算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，包括：对用户语音实体文本与视频实体名称文本的拼音文本计算编辑次数，并以最小编辑次数与两个文本间最长文本的长度的商来衡量两个文本的相似度。

进一步的，步骤(6)使用归属概率算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，可包括：利用用户语音实体与视频实体名称文本的拼音文本间重复的拼音字母数量，分别与用户语音实体文本以及视频实体名称文本长度之商的加权结合来衡量两个文本的相似度。

进一步的，步骤(8)对最终相似度值进行排序，可包括：依据纠错结果实体的热度的排序以及最终相似度的排序，将排序得分组合再进行综合排序，以排序结果最高者作为纠错结果。

本发明的有益效果：本发明利用高效的相似度衡量模型对候选语句进行评分排序，给出最优纠错结果，从而提升语音控制和搜索的准确度，同时又不过分的花销时间。于此同时，针对现有技术大部分是针对中文文本的纠错而忽略了谐音口音的问题，利用拼音作为寻求纠错本选文本的方法很好的解决了这一问题。

附图说明

图1是本发明所述源词典建立实现步骤的示意图

图2是本发明所述语音文本纠错方法实现步骤的示意图。

具体实施方式

本发明即旨在解决视频领域语音文本纠错所存在的口音、响应速度和分词问题，注重于文字发音上的纠错，以文字的拼音音节作为最小处理单元，以更合适的编辑距离和归属概率方法来快速衡量文本与备选文本的相似度，以二元、三元、单元等的全分词形式进行备选文本筛选，避免基于概率的分词器造成的分词错误。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明提供了一种源词典的建立方法，其目的旨在通过文本的部分发音字段来作为文本的索引，提供给对具有相同发音字段的用户语音文本来作为备选文本，避免了jieba分词器对于实时快速更新的视频领域文本分词效率低下导致备选文本选择效率低下的问题，包括：

(1)、对视频实体名称文本进行二元、三元、单元等多种形式的全分词。

(2)、利用拼音标注分词结果，得到分词后的拼音组合[a,b,c,d…]。

现有方法集中在对中文文本的纠错而忽略了谐音口音的问题，本发明利用发音去识别和标注文本，并以此作为文本索引，就可以有效避免谐音、口音等错误问题。本发明利用自行建立的源词典将文字的拼音字节替换原有文字，以此作为后续文本相似度计算和作为寻找备选文本的依据。

(3)、以所述的拼音组合中的拼音作为自变量，使用散列函数f(x)取得对应拼音的散列关键词值，将视频实体名称文本以及其对应的散列关键词值加入到散列关键词值链表中，直到该视频实体名称文本在其所有拼音组合的散列链表中存在。

现有的词典查找技术存在着使用遍历的方式从头到尾一一查找，造成较大的时间花销和浪费的情况，本专利使用散列函数建立词典，提高查找速度。本发明利用散列函数对前述步骤得到的拼音组合一一进行计算，并依据单一的几乎不重复的计算结果标注计算机内存或硬盘上的一段地址编号，将拼音组合的原文本存入该段地址，使得查找过程只需要进行散列计算即可找到对应结果，速度得到有效提高。

(4)、源词典建立完毕。

第二方面，本发明提供了一种语音文本纠错方法，其目的旨在避免使用机器学习模型造成的理解困难，再优化效率低，响应速度慢的问题，包括：

(1)对用户输入的语音文本(即语音转译文本)利用RNN进行预处理，得到语音实体文本。

(2)对RNN无法处理的文本使用决策树规则模型进行解析，得到同样类型的语音实体文本。

(3)对语音实体文本进行全分词，并对分词结果和语音实体文本查询拼音库进行拼音标注。其中，所述全分词包括二元、三元和单元全分词。

现有的文本纠错技术主要基于文本文字，即只作用于“小猪佩”补全为“小猪佩奇”，“佩奇小猪”转换为“小猪佩奇”，对于语音文本存在口音偏差的问题如“萧主陪器”就无法纠正为“小猪佩奇”。为解决口音偏差的问题，本发明利用自行建立的源词典或现有的xPinyin模块，将文字的拼音字节替换原有文字，以此作为后续文本相似度计算和作为寻找备选文本的依据。

(4)利用标注的拼音结合散列函数f(x),得到对应拼音的散列关键词值，并利用散列关键词值取得源词典中散列关键词值所对应的所有视频实体名称文本，将其加入到备选列表中，重复本步骤，直到所有拼音对应的视频实体名称文本都加入到了备选列表。

因现有的jieba分词器是基于现有人工收集的词汇甚至是较久前词汇进行训练的，这就导致新的词汇会分词错误，这就需要使用全分词使得语音文本内的所有信息被保留且不会造成错误情况。本发明通过步骤(3)(4)对整个经过步骤(1)(2)切分后的语音文本，将相邻的两个字或相邻的三个字或单个字作为一个独立词汇保留，并使用这些词汇的发音(即拼音)作为参数，利用散列函数得到计算结果或词典，从源词典中寻找到包含相同发音(即拼音)的视频实体文本，将这些包含相同词汇的视频实体文本作为该语音文本的备选文本。

(5)步骤(4)后，使用最短编辑距离方法对备选列表中的视频实体名称文本的拼音标注与语音实体文本的拼音标注进行相似度计算，得到第一相似度值。

一种情况下，可将前述步骤(3)得到的语音实体文本和备选文本的拼音标注作为函数参数，调用python第三方库fuzzywuzzy，利用其包含的fuzz类中的token_sort_ratio函数和ratio函数得到两个基于编辑距离的相似度数值，将两个相似度数值求平均得到第一相似度。

一种情况下，使用python自带的len函数，以前述步骤(3)得到的语音实体文本和备选文本的拼音标注，得到语音拼音标注A，备选拼音标注B，作为函数参数得到语音文本长度AL和备选文本长度BL。通过遍历两个标注文本A和B,计算二者相同的部分的长度得到CL。计算P1＝CL/AL，P2＝CL/BL，利用线性回归、决策树或作简单的加权求和再平均得到基于包含概率的第二相似度。

(7)利用相似度值融合函数将第一、第二相似度值加权结合。

一种情况下，通过遍历语音实体文本A和备选文本B，保留二者相同的部分C。将前述剩余部分AS和BS利用python第三方库xpinyin进行拼音标注，并作为参数使用python第三方库fuzzywuzzy，利用其包含的fuzz类中的token_sort_ratio函数得到基于编辑距离的相似度数值作为相似度Q。将前述相同部分C除以A、B文本的最大长度得到相似度P，利用加权求和的方式，如wQ+eP＝X，将Q与P结合得到最终相似度，该方法下减少了编辑距离的计算长度同时又利用包含概率进行了综合的计算，速度快且精度高。

(8)步骤(7)之后，比对满足预先设定阈值的结果进行排序，以排序最佳的结果作为纠错结果，

通过以上说明可知，现有文本纠错技术集中于机器学习模型的纠错，训练需要大量的时间，对于输入的参数也要求进行复杂的向量变换，从而造成较大的时间花销，而本发明的语音文本纠错方法利用编辑距离和包含概率算法这两类内部结构相对简单，时间复杂度更低的方法快速计算语义相似度来衡量语音文本与视频文本是否需要替换，速度快且能保证准确率。

实施例

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例1

实施例1提供了一种词典建立方法，如图1所示，该方法可以包括如下步骤：

S11，以从视频提供商或公开的视频信息网站获得相应的视频实体名称文本。

S12，利用分词方法对视频实体名称文本进行分词和拼音标注，包括：

(1)、在一种实施方式中使用二元全分词，将文本中相邻的两个字作为独立的词，例如：“我爱中国”会被切分为“我爱”、“爱中”、“中国”。

(2)、在一种实施方式中使用jieba分词器对文本进行有意义的分词，例如“我爱中国”会被切分为“我”、“爱”、“中国”。

(3)、对前述两种方法得到的分词结果进行拼音库查询，并标注拼音，例如“中国”将被标注为“zhongguo”。

S13，利用散列函数f(x)得到分词对应的散列关键词值，词值将指向相应的散列关键词值链表。

S14，将视频实体名称文本加入到S13得到的散列关键词值链表中。

S15，若分词列表中还有分词，重复S13、S14直到视频实体名称文本加入到所有分词对应的散列关键词值链表中。

S16，源词典建立完毕。

实施例2

实施例2提供了一种语音文本纠错方法，如图2所示，该方法可以包括如下步骤：

S21，用户输入的文本主要通过语音识别设备和相应软件获得。

S22，利用RNN对用户输入文本进行有效信息的提取，得到语音实体文本，包括但不限于：

(1)、用户输入的视频的实体名称。

(2)、用户输入的视频参演人员名称。

(3)、用户输入的视频制作人员名称。

S23，对于S22无法有效提取的信息，使用规则识别，得到语音实体文本，包括但不限于：

(1)、基于树模型的规则识别。

(2)、基于集成学习模型的规则识别。

(3)、基于聚类方法的规则识别。

S24，同S12，利用分词方法对视频实体名称文本进行分词和拼音标注。

S25，利用S24得到的分词及拼音标注查询源词典，取得源词典中散列关键词值链表下语音所对应的所有视频实体名称文本，将其加入到备选列表中。其中，源词典可按照实施例1的方式提前建立。

S26，利用相似度计算方法对备选列表中的视频实体名称文本的拼音标注和语音实体文本的拼音标注进行相似度计算，相似度计算方法包括：

(1)、最小编辑距离算法(Edit Distance)。指两个文本之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。操作次数与最长文本长度的商可以用来衡量两个文本的相似度。

(2)、归属概率算法。两个文本间重复的字的数量分别与两个文本长度的商的加权结合。定义为：文本A，文本B，c＝len(A&B)，similarity＝f(c/len(A),c/len(B))。

S27，利用S26得到的第一、第二相似度进行加权结合，并比对满足预先设定阈值的结果进行排序，以排序最佳的结果作为纠错结果，包括：

(1)、利用视频实体热度与相似度值的加权进行排序。

(2)、利用相似程度进行排序。

以上所述仅为本发明的一种实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.语音文本纠错方法，其特征在于，包括如下步骤：

(1)、建立源词典；

(5)、使用最小编辑距离算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，得到第一相似度值；

2.如权利要求1所述的语音文本纠错方法，其特征在于，步骤(1)通过下方式建立源词典：

对视频实体名称文本进行全分词；

利用拼音标注分词结果，得到分词后的拼音组合；

以拼音组合中的拼音作为自变量，使用散列函数取得对应拼音的散列关键词值，将视频实体名称文本以及其对应的散列关键词值加入到源词典的散列关键词值链表中。

3.如权利要求2所述的语音文本纠错方法，其特征在于，所述全分词包括二元、三元和单元全分词。

4.如权利要求1所述的语音文本纠错方法，其特征在于，步骤(2)利用RNN对用户输入语音文本进行预处理；对RNN无法处理的文本使用决策树规则模型进行解析处理。

5.如权利要求1所述的语音文本纠错方法，其特征在于，步骤(5)使用最小编辑距离算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，包括：对用户语音实体文本与视频实体名称文本的拼音文本计算编辑次数，并以最小编辑次数与两个文本间最长文本的长度的商来衡量两个文本的相似度。

6.如权利要求1所述的语音文本纠错方法，其特征在于，步骤(6)使用归属概率算法对用户语音实体文本的拼音标注与视频实体名称文本的拼音标注进行相似度计算，包括：利用用户语音实体与视频实体名称文本的拼音文本间重复的拼音字母数量，分别与用户语音实体文本以及视频实体名称文本长度之商的加权结合来衡量两个文本的相似度。