CN103440865A

CN103440865A - 语音识别的后处理方法

Info

Publication number: CN103440865A
Application number: CN2013103395075A
Authority: CN
Inventors: 叶俊; 李蓉; 蒲瑶; 何国涛; 李全忠
Original assignee: Universal Information Technology (beijing) Co Ltd
Current assignee: Universal Information Technology (beijing) Co Ltd
Priority date: 2013-08-06
Filing date: 2013-08-06
Publication date: 2013-12-11
Anticipated expiration: 2033-08-06
Also published as: CN103440865B

Abstract

本发明提供一种语音识别的后处理方法，其中，所述方法包括：将语音识别结果的第一字符串进行转换，得到第二字符串；根据预设规则将所述第二字符串进行分词处理，得到分词后待检索第三字符串；将所述第三字符串在第一标准词库中进行检索，得到与所述第三字符串对应的检索结果集；采用相似矩阵确定所述第一字符串的发音相似度；根据所述检索结果集和所述发音相似度获取所述第二字符串的匹配度；根据所述第二字符串和检索结果集，获取所述第二字符串在所述检索结果集中的连续度、长度比；并采用所述连续度、长度比和匹配度获取所述第一字符串的匹配分值，根据所述匹配分值得到匹配结果。上述方法提高了现有技术中语音识别技术的语音识别准确率。

Description

语音识别的后处理方法

技术领域

本发明实施例涉及计算机领域，尤其涉及一种语音识别的后处理方法。

背景技术

当前，在大数据尤其是千万级别以上的大数据的环境下进行语音识别，其准确率相对较低。尤其对简称用语的识别准确率更低。

为此，现有技术中通过优化语音识别的语音模型、声学模型等提高语音识别准确率。随着语音识别技术的发展，优化语音识别的语音模型、声学模型等方式已经无法再进一步提高语音识别的准确率。

故，如何提高语音识别技术中的语音识别准确率成为当前需要解决的技术问题。

发明内容

针对现有技术中的缺陷，本发明提供一种语音识别的后处理方法，用以提高现有技术中语音识别技术的语音识别准确率。

本发明实施例提供一种语音识别的后处理方法，包括：

将语音识别结果的第一字符串进行转换，得到第二字符串；

根据预设规则将所述第二字符串进行分词处理，得到分词后待检索第三字符串；

将所述第三字符串在第一标准词库中进行检索，得到与所述第三字符串对应的检索结果集；

采用相似矩阵确定所述第一字符串的发音相似度；

根据所述检索结果集和所述发音相似度获取所述第二字符串在所述检索结果集中的匹配度；

根据所述第二字符串和检索结果集，获取所述第二字符串在所述检索结果集中的连续度、长度比；采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值得到匹配结果。

可选地，采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值得到匹配结果，包括：

采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值确定校正方式，并采用匹配分值确定的校正方式得到匹配结果。

可选地，将所述第三字符串在第一标准词库中进行检索的步骤之前，还包括：

将预设的标准词库中的所有词条进行字符串的转换操作，并将转换后的词条按照所述预设规则进行分词处理，以及

将分词处理后的词条按照倒排方式建立索引，得到所述第一标准词库。

可选地，根据所述检索结果集和所述发音相似度获取所述第二字符串的匹配度，包括：

根据所述检索结果集和所述发音相似度、采用动态规划匹配算法获取所述第二字符串的匹配度。

可选地，根据所述检索结果集和所述发音相似度、采用动态规划匹配算法获取所述第二字符串的匹配度，包括：

确定所述第一字符串的类型；

根据所述第一字符串的类型选择与所述第一字符串的类型对应的处理算法获取匹配度。

可选地，确定所述第一字符串的类型，包括：

若检索结果集中的一个词条字符串的长度等于所述第一字符串的长度，则确定所述第一字符串的类型为全称字符串；

若检索结果集中的一个词条字符串的长度不等于所述第一字符串的长度，且所述词条字符串不包含所述第一字符串，则确定所述第一字符串的类型为非连续子串字符串；

若检索结果集中的一个词条字符串的长度不等于所述第一字符串的长度，且所述词条字符串包含所述第一字符串，则确定所述第一字符串的类型为连续子串字符串。

可选地，若确定所述第一字符串的类型为连续子串字符串，则选择截取方式的处理算法获取匹配度；

若确定所述第一字符串的类型为全称字符串或非连续字符串，则选择动态匹配处理算法获取匹配度。

可选地，采用相似矩阵确定所述第一字符串的发音相似度的步骤，包括：

根据中文字符汉语发音相似矩阵确定所述第一字符串的发音相似度；

或者，

根据中文字符声学发音相似矩阵确定所述第一字符串的发音相似度。

可选地，所述第三字符串为单字组成的字符串，或者，第三字符串为词语组成的字符串。

可选地，采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，包括：

若连续度为c、长度比为p、匹配度为m、所述第二字符串的长度为L，则根据下述公式获取所述第一字符串的匹配分值M：

M = \frac{m}{L} * &PartialD; + c * Φ + p (1 - &PartialD; - Φ)

为比重参数，Φ为比重参数。

由上述技术方案可知，本发明实施例的语音识别的后处理方法，通过对语音识别结果的第一字符串的转换、分词处理，进而在第一标准词库中进行检索得到检索结果集，以及采用相似矩阵确定第一字符串的发音相似度，根据检索结果集和发音相似度获取第二字符串的匹配度，以及获取第一字符串的匹配分值，根据匹配分值得到匹配结果，上述方法获取的匹配结果可以提高现有技术中语音识别技术的语音识别准确率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地：下面附图只是本发明的一些实施例的附图，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得同样能实现本发明技术方案的其它附图。

图1A为本发明实施例提供的语音识别的后处理方法的流程示意图；

图1B为本发明实施例提供的第一字符串转换的示意图；

图2为本发明实施例提供的动态规划匹配算法的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述。显然，下述的各个实施例都只是本发明一部分的实施例。基于本发明下述的各个实施例，本领域普通技术人员即使没有作出创造性劳动，也可以通过等效变换部分甚至全部的技术特征，而获得能够解决本发明技术问题，实现本发明技术效果的其它实施例，而这些变换而来的各个实施例显然并不脱离本发明所公开的范围。

本发明的目的是为了提高语音识别准确率，将语音识别结果后处理，即：将语音识别结果先经过转换在通过全文检索技术来检索第一标准词库，获得语音识别结果和第一标准词库中的词条的匹配度、长度比，进而结合语音识别结果的连续度计算最终的匹配得分。

图1A示出了本发明一实施例提供的语音识别的后处理方法，如图1A所示，本实施例中的语音识别的后处理方法如下文所述。

101、将语音识别结果的第一字符串进行转换，得到第二字符串。

举例来说，如图1B所示，将第一字符串转换成代替该中文发音的第二字符串。例如，第一字符串为“普强信息技术北京有限公司”转换得到第二字符串为“曝呛信戏伎墅呗净佑县共似”。

在本实施例中对第一字符串进行转换处理即转音处理，主要是为了防止同音不同字的字符被处理错误。

102、根据预设规则将所述第二字符串进行分词处理，得到分词后待检索第三字符串。

举例来说，该处的第三字符串可以是分词处理后的单字组成的字符串，如图1B中所示的“曝”、“呛”、“信”、“戏”、“伎”…、“似”等；或者，第三字符串可以是分词处理后的词语组成的字符串，如图1B中所示的“曝呛”、“信戏”、“曝呛信戏”等。

举例来说，待检索的第三字符串包括：“曝呛信戏伎墅呗净佑县共似”；或者，待检索的第三字符串包括：“曝呛信戏伎墅呗净佑县共似”。

在本实施例中对第二字符串进行分词处理可以通过全文检索技术采用分词处理后的第三字符串做并行检索，以提高检索速度。

103、将所述第三字符串在第一标准词库中进行检索，得到与所述第三字符串对应的检索结果集。

举例来说，该处的第一标准词库可为预先设置的第一标准词库。该检索结果集中包括与每一第三字符串对应的词条字符串。另外，该检索结果集是按照语音识别结果的第一字符串的相关性排序的索引记录的集合。应理解，检索结果集中的每一词条字符串为检索结果集合中的一个元素。

或者，在本实施例中，为更好的提高检索结果准确率，通常，选择与语音识别结果的第一字符串对应的标准词库进行修正，得到第一标准词库。

例如，第一子步骤：将预设的标准词库（即与第一字符串对应的标准词库）中的所有词条进行字符串的转换操作，并将转换后的词条按照所述预设规则进行分词处理。

第二子步骤：将分词处理后的词条按照倒排方式建立索引，得到所述第一标准词库。

相应地，将所述第三字符串在第一标准词库中进行检索时基于索引进行检索的。

应说明的是，该步骤中分词处理的预设规则和前述的步骤102中的分词处理的预设规则是一致的。

可以理解的是，当前的标准词库可以理解为在语音识别过程中创建语言模型的原始语料。

此外，若将前述的待检索的第三字符串“曝呛信戏伎墅呗净佑县共似”在第一预设标准词库中进行检索，获得按相关性排序的检索结果集可包括：曝呛信戏伎墅呗净佑县共似（2.9711251）、呗净呛怏创信信戏伎墅佑县共似（2.313653）、呗净信呛信戏伎墅佑县共似（2.3136525）、呗净佑呛用恋信戏伎墅佑县昃仞共似（2.2691298）、呗净付呛再县信戏伎墅佑县共似（2.263498）等。

应理解，前述的2.9711251、2.313653、2.3136525、2.2691298、2.263498分别代表检索结果集中各自的词条字符串与待检索的第三字符串的相关性即相似度。

104、采用相似矩阵确定所述第一字符串的发音相似度。

举例来说，可以根据中文字符汉语发音相似矩阵确定所述第一字符串的发音相似度；或者，可以根据中文字符声学发音相似矩阵确定所述第一字符串的发音相似度。

在本实施例中，发音相似度可以划分为：发音完全相同，发音近似相同，发音完全不相同。

相似矩阵中的发音完全相同是指：两个中文字符的汉语发音是相同声音相同声调（或两个中文字符的声学发音完全一致），分值为1；

相似矩阵中的发音近似相同是指：两个中文字符的汉语发音是相同声音不同声调或发音相似（或两个中文字符的声学发音部分一致），分值为X（0<X<1）；

相似矩阵中的发音完全不相同是指：两个中文字符的汉语发音（或两个中文字符的声学发音）完全不一样，分值为0。

其中，发音近似相同的分值是根据中文字符汉字发音相似矩阵（或中文字符声学发音相似矩阵）计算而来的，例如中文字符"器”和中文字符“戏"的相似度是0.41，即X=0.41。

上述的中文字符汉字发音相似度矩阵是通过大量的ASR（自动语音识别）识别结果给出的经验值。

根据发音相似矩阵来计算每个字符的匹配得分，如：“普强信其技术北京有限公司”转成第二字符串，和“曝呛信戏伎墅呗净佑县共似”两个字符串通过动态规划匹配算法计算两个字符串中每个字符的发音相似度的和，进而获得上述两个字符串的匹配分值是11.41；根据匹配分值得到的匹配结果是“普强信息技术北京有限公司”。

其中，匹配分值的给分等级分可划分为完全匹配、近似匹配、不匹配。

105、根据所述检索结果集和所述发音相似度获取所述第二字符串的匹配度。

在一种可选的实现方式中，上述步骤105可根据所述检索结果集和所述发音相似度、采用动态规划匹配算法获取所述第二字符串的匹配度。

举例来说，前述的步骤105可包括下述的子步骤：

子步骤一：确定所述第一字符串的类型。

例如，若检索结果集中的一个词条字符串的长度等于所述第一字符串的长度，则确定所述第一字符串的类型为全称字符串；

应说明，该处检索结果集中的一个词条字符串可为检索结果集中的一个元素，例如，检索结果集合可以包括：“普强信息”、“普强信息技术”、“普强科技公司”等。

子步骤二：根据所述第一字符串的类型选择与所述第一字符串的类型对应的处理算法获取匹配度。

举例来说，若确定所述第一字符串的类型为连续子串字符串，则选择截取方式的处理算法获取匹配度；

若确定所述第一字符串的类型为全称字符串或非连续字符串，则选择动态匹配处理算法（如图2所示）获取匹配度。

106、根据所述第二字符串和检索结果集，获取所述第二字符串在所述检索结果集中的连续度、长度比；采用所述连续符、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值得到匹配结果。

举例来说，若连续度为c、长度比为p、匹配度为m、所述第二字符串的长度为L，则根据下述公式获取所述第一字符串的匹配分值M：

M = \frac{m}{L} * &PartialD; + c * Φ + p (1 - &PartialD; - Φ)

为比重参数，Φ为比重参数。

如识别结果“普强信其技术北京有限公司”对于“普强信息技术北京有限公司”的最终匹配得分

M = \frac{11.41}{12} * 0.7 + 0.95 * 0.15 + \frac{12}{12} * (1 - 0.15 - 0.7) \approx 0.9581 .

在本实施例中，第二字符串的长度就指字符总数，连续度指第二字符串和检索结果集中的每一词条字符串相比获取的连续度，长度比指第二字符串和检索结果集中的每一词条字符串相比获取的长度比。

在具体的应用过程中，采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值确定校正方式，并采用匹配分值确定的校正方式得到匹配结果。

例如，根据最终的匹配得分M来确定将语音识别结果的第一字符串转程序校正还是转人工校正，如M>=0.8，则可将语音识别结果的第一字符串转程序校正，否则转人工校正。当然，在人工校正的过程中多个语音识别结果候选项（该处的候选项为语音识别结果对应的）会大大提高人工校正的效率。

若语音识别结果的第一字符串为：普强科其公司

匹配分值（分值由高到低）：

1）、普强科技公司

2）、普强科技信息有限公司

3）、普强信息技术有限公司

......

本实施例中是为了，将“普强科其公司”矫正成标准词库中的“普强科技公司”。

所以计算匹配分值，就是为了找到标准词库中和识别结果最相似的词条，然后根据词条字符串的类型（全串、连续子串、非连续子串）获取最后的匹配结果。

上述语音识别的后处理方法提高语音识别率是可行有效的，在具体的应用中，对于大数据尤其是千万级别以上的大数据的环境下进行语音识别尤其对简称的语音识别准确率的提升效果是很明显的，能在一定的程度上提升语音识别率。

此外，为更清楚的说明前述语音识别的后处理方法中的步骤105，下面举例对步骤105进行解释说明。

首先，判定语音识别结果的第一字符串的类型。

在本实施例中，第一字符转的类型包括：全称字符串、连续子串字符串、非连续子串字符串。

判断第一字符串的类型的过程是：判定检索结果集的一个词条字符串的长度是否等于语音识别结果的第一字符串的长度，如果相等，则将第一字符串标记为全称字符串，如果不等，则判断该词条字符串是否包含第一字符串，如果包含，则将第一字符串标记为连续子串字符串，否则标记为非连续子串字符串。

例如，全称字符串“普强信息技术北京有限公司”，其连续子串字符串“普强信息”、“普强信息技术”等，非连续子串字符串“普强公司”、“普强信息公司”等。

其次，按照第一字符串的类型计算匹配度（即匹配分值及匹配结果），连续子串字符串通过截取方式的处理算法获得匹配度，而全称字符串和非连续字符串则基于动态规划匹配算法计算出匹配度（即最高匹配分值和最佳匹配结果）。

在本实施例中，动态规划匹配算法可为编辑距离算法的变形。动态规划匹配算法是指在两个字符串u和v之间对相似性的测量，这个匹配结果是指从u变换成v所需要的字符替换的极大次数n以及极大次数所对应的最佳匹配字符串u′。如“普强信息技术北京有限公司”和“普强信其技术北京有限公司”的匹配分值是11.41，匹配结果是“普强信息技术北京有限公司”，如图2就是计算匹配分值和匹配结果的过程。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别的后处理方法，其特征在于，包括：

将语音识别结果的第一字符串进行转换，得到第二字符串；

采用相似矩阵确定所述第一字符串的发音相似度；

2.根据权利要求1所述的方法，其特征在于，采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，根据所述匹配分值得到匹配结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，将所述第三字符串在第一标准词库中进行检索的步骤之前，还包括：

4.根据权利要求1或2所述的方法，其特征在于，根据所述检索结果集和所述发音相似度获取所述第二字符串的匹配度，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述检索结果集和所述发音相似度、采用动态规划匹配算法获取所述第二字符串的匹配度，包括：

确定所述第一字符串的类型；

6.根据权利要求5所述的方法，其特征在于，确定所述第一字符串的类型，包括：

7.根据权利要求5所述的方法，其特征在于，

若确定所述第一字符串的类型为连续子串字符串，则选择截取方式的处理算法获取匹配度；

8.根据权利要求1所述的方法，其特征在于，采用相似矩阵确定所述第一字符串的发音相似度的步骤，包括：

或者，

9.根据权利要求1所述的方法，其特征在于，所述第三字符串为单字组成的字符串，或者，第三字符串为词语组成的字符串。

10.根据权利要求1所述的方法，其特征在于，采用所述连续度、长度比、匹配度和所述第二字符串的长度获取所述第一字符串的匹配分值，包括：

M = \frac{m}{L} * &PartialD; + c * Φ + p (1 - &PartialD; - Φ)

为比重参数，Φ为比重参数。