CN105374356A

CN105374356A - 语音识别方法、语音评分方法、语音识别系统及语音评分系统

Info

Publication number: CN105374356A
Application number: CN201410438639.8A
Authority: CN
Inventors: 叶树灵; 程钧杰; 姚俊杰; 陈剑
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2016-03-02
Anticipated expiration: 2034-08-29
Also published as: CN105374356B; JP2016051179A

Abstract

本发明公开了一种语音识别方法，用于对用户的语音进行识别，生成语音识别结果，其包括以下步骤：语音获取步骤，获取用户的语音；语音识别步骤，将获取的语音识别为文本数据，作为初始语音识别结果；纠错步骤，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于初始语音识别结果中，则进行纠错处理，以将初始语音识别结果中的与偏差词汇相同的词汇替换为原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为语音识别方法生成的语音识别结果。本发明还公开了基于该语音识别方法的语音评分方法，以及相应的语音识别系统和语音评分系统。

Description

语音识别方法、语音评分方法、语音识别系统及语音评分系统

技术领域

本发明涉及一种语音识别方法和语音评分方法，并进一步涉及使用这样的语音识别方法的语音识别系统及使用这样的语音评分方法的语音评分系统。

背景技术

目前，伴随着语音识别技术的不断发展，基于语音识别的应用也越来越广泛，这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。用户通过利用对着个人计算机、笔记本电脑、平板电脑、专用的学习终端、智能手机等终端上外接或内置的麦克风来输入语音(例如，朗读一句话)，经由语音识别引擎(以下简称“引擎”)完成语音-文字的转换。现有的引擎的产品有很多，例如，被广泛使用的世界知名的Nuance、Google(谷歌)的语音识别服务、中国国内的科大讯飞的语音识别服务等。但是引擎在进行语音识别的最大问题是语音识别的准确率，即使是在现有的引擎产品中拥有最高语音识别准确率的Nuance，也无法避免以下问题：

a1、诸如不常见的人名、地名等一些生僻的词汇不会被引擎准确识别，通常情况下会被识别为相同读音的词汇。

a2、在日语中，有时候希望引擎识别返回的是汉字，有时候希望识别返回的是假名，但是引擎无法分别。

另一方面，越来越多的语言学习是通过基于互联网的远程学习系统来实现，并且也伴随有各式各样的测验系统，来检验用户(学习者)学习的成效。作为语言学习中非常重要的一环的口语学习，在远程学习系统中通常都配置有基于如上所述的语音识别方法的语音评分系统，来进行测验用户的口语。举例而言，用户通过终端中安装的软件完成与学习服务器的交互(即，构成用于实施语音评分方法的语音评分系统)，经语音-文字转换、文字-文字匹配等一些技术手段最终获得该用户所输入的读音的评分，即表征用户是否用标准的读音朗读了该句话的评分。

现有技术的在基于语音识别的语音评分系统中，主要采用如图1所示的语音评分方法：获取用户朗读原文所发出的语音(步骤S101)，利用引擎对获取的用户的语音进行语音识别(语音-文本的转换)(步骤S102)(步骤S101-S102实质为语音识别方法)，通过将语音识别结果(文本)与原文(文本)进行相似度比较计算语音评分(步骤S103)，输出作为结果的语音评分(步骤S104)。

由于上面所述的引擎在进行语音识别存在的语音识别准确率的问题，因而，在语音评分系统中会影响评分准确性。此外，除了语音识别准确率的问题，引擎在进行语音识别时还存在以下的不足：

b1、引擎在进行语音识别时常常会将语气词误判为无效语音而自动过滤掉。

b2、句末的疑问词读得比较轻的时候也会被引擎误判为无效的语音而自动过滤掉。

综上所述，现有的语音识别系统中，由于现有的引擎在进行语音识别时客观存在不足，因而会影响其输出的语音识别结果的正确性。另外，基于这样的语音识别系统的语言学习系统的语音评分系统中语音评分的准确性也存在评判不准确、不合理等问题，会导致用户对其兴趣和信任度降低，非常不利于该语言学习系统的推广。

发明内容

本发明的一个目的是提供一种语音识别方法，能够克服以上列举的现有技术中的缺陷中的至少一点缺陷，有效地提高语音识别准确率。

本发明的另一个目的是提供一种语音评分方法，能够克服以上列举的现有技术中的缺陷中的至少一点缺陷，有效地提高语言学习系统的语音评分准确率。

根据本发明的一个方面，提供一种语音识别方法，用于对用户的语音进行识别，生成语音识别结果，该方法包括以下步骤：语音获取步骤，获取用户的语音；语音识别步骤，通过语言识别处理将获取的语音转换为文本数据，作为初始语音识别结果；纠错步骤，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于初始语音识别结果中，则进行纠错处理，以将初始语音识别结果中的与偏差词汇相同的词汇替换为原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为语音识别方法生成的语音识别结果。

根据本发明的另一个方面，提供一种语音评分方法，用于对用户朗读特定的原文的语音进行评判，输出表征其语音标准程度的评分，该方法包括：如上所述的语音识别方法，该语音识别方法基于用户朗读特定原文的语音生成语音识别结果；并进一步包括比较步骤，将原文与纠错后的语音识别结果进行相似度比较，如果原文与纠错后的语音识别结果完全一致，输出最高的评分，如果原文与纠错后的语音识别结果不一致，执行过滤步骤，在过滤步骤中，从原文中找出一个或多个在原文中存在、但是在初始语音识别结果中或纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在过滤词列表中，则从原文中删除与部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文；输出步骤，将纠错后的语音识别结果与过滤后的原文进行相似度比较，计算并输出评分。

根据本发明的又一个方面，提供了一种语音识别系统，用于对用户语音进行识别，生成语音识别结果，该语音识别系统包括：语音获取单元，获取用户的语音；语音识别单元，通过语言识别处理将获取的语音转换为文本数据，作为初始语音识别结果；纠错处理单元，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于初始语音识别结果中，则进行纠错处理，以将初始语音识别结果中的与偏差词汇相同的词汇替换为原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为语音识别系统生成的语音识别结果。

根据本发明的又一个方面，提供了一种语音评分系统，用于对用户朗读特定的原文的语音进行评判，输出表征其语音标准程度的评分，该语音评分系统包括：如上所述的语音识别系统，基于用户朗读特定原文的语音生成语音识别结果；并进一步包括比较单元，将原文与纠错后的语音识别结果进行相似度比较，如果原文与纠错后的语音识别结果完全一致，输出最高的评分；比较单元还包括样本过滤单元，如果原文与纠错后的语音识别结果不一致，样本过滤单元执行过滤处理，以从原文中找出一个或多个在原文中存在、但是在初始语音识别结果或纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在过滤词列表中，则从原文中删除与部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文；输出单元，将纠错后的语音识别结果与过滤后的原文进行相似度比较，计算并输出评分。

通过采用本发明的语音识别方法和系统，能够有效地提高结合了这样的语音识别方法的语音识别准确率。

通过采用本发明的语音评分方法和系统，能够有效地提高结合了这样的语音评分方法的语言学习系统的语音评分准确率。

附图说明

图1是显示现有技术的在基于语音识别的语音评分系统中的语音评分方法的流程图。

图2是显示根据第一实施例的语音识别方法的流程图。

图3是显示根据第二实施例的纠错列表的生成方法的第一个实例的流程图。

图4是显示根据第二实施例的纠错列表的生成方法的第二个实例的流程图。

图5是显示根据第三实施例的语音评分系统的语音评分方法的流程图。

图6是显示根据第四实施例的过滤词列表的生成方法的流程图。

具体实施方式

下面参考附图详细描述实施例。作为示例，本发明是借助日语识别的应用环境，但本发明不限于此，其他语音的应用亦涵盖在本发明的范围之内。

图2是显示根据第一实施例的语音识别方法的流程图。现结合图2，对根据第一实施例的语音识别方法进行说明。根据本发明的第一实施例的语音识别方法包含如下步骤。

步骤S201：获取用户的语音。这里的语音是指由人的发音器官发出的，带有用户想要表述的特定语言意义的语音。

语音是通过连接/内置有麦克风的个人计算机、笔记本电脑、平板电脑、智能手机等终端获取的。

步骤S202：在步骤S201中获取的用户的语音经由引擎，通过语言识别处理，被转换(被识别)为文本数据，作为初始语音识别结果。

在根据本发明的实施例中，语音识别是通过不同于终端的采用语音识别技术的引擎(通常设置在远程服务器)来实现。这样的引擎可以采用是现有技术中已经被广泛使用的世界知名的Nuance、Google(谷歌)的语音识别服务、中国国内的科大讯飞的语音识别服务等。至于终端和引擎的通信方式，可以是基于互联网、移动通信网的远程方式，根据不同的需要及条件允许，也可以用有线的方式进行连接。甚至是，若终端的处理能力足够强大的话，引擎亦可以是内置于终端中。

步骤S203：针对初始语音识别结果进行纠错处理。

在该步骤中，通过查阅用于进行纠错处理的纠错列表，该纠错列表中记录有若干个原词汇-偏差词汇的关联，若纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于初始语音识别结果中，则进行纠错处理，以将初始语音识别结果中的与该偏差词汇相同的词汇替换为与该原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为语音识别方法生成的语音识别结果。当存在多个如上所述的这样的偏差词汇时，则进行多次这样的替换。这里的原词汇指的是正确的词汇，即用户本欲表达的词汇。偏差词汇是被识别出的、且与原词汇不一致的词汇。

在根据本发明的第一实施例中，纠错列表收集的通常是一些容易被引擎误识别的词汇，也就是如背景技术中介绍的诸如不常见的人名、地名等一些生僻的词汇，以及日语中汉字和假名的区分显示。根据本发明的第一实施例中的语音识别方法，对应不同的语音识别的应用场景，可配置不同的与相关应用场景对应的包括若干个原词汇-偏差词汇的关联的纠错列表，即，将在这些应用场景中经常使用到的，且容易被引擎误识别成不同于原词汇的偏差词汇的原词汇与偏差词汇对应，建立相应的原词汇-偏差词汇的关联，并将这些建立的原词汇-偏差词汇的关联收录入纠错列表。纠错列表可以是通过经验总结的，也可以是通过各种自动生成/收集的方法生成的，这里不做限制，只要它收录有相关的原词汇-偏差词汇的关联即可。

本发明的第一实施例通过在现有语音识别技术的基础上增加了对语音识别结果的纠错处理，能够克服如背景技术中介绍的诸如不常见的人名、地名等一些生僻的词汇以及日语中汉字和假名的分别容易被引擎误识别的缺陷。

接下来，将结合第二实施例，对第一实施例的纠错列表的生成方法进行描述。第二实施例中说明的纠错列表的生成方法是一定程度上独立于根据本发明的实施例的语音识别处理。因为纠错列表的生成(更新)不是必须在每运行一次语音识别处理时必须进行，可以是定期地进行操作。而这样的纠错列表的生成(更新)处理只需在语音识别处理的纠错处理执行之前完成即可。

图3是显示根据第二实施例的纠错列表的生成方法的第一个实例的流程图。现结合图3，对根据第二实施例的纠错列表的生成方法的第一个实例进行说明。根据本发明的第二实施例的纠错列表的生成方法的第一个实例包含如下步骤。

步骤S301：指定多个读音标准的真人朗读特定的原文获取每个真人的语音。在根据本发明的第二实施例中，选择了5个读音标准的人作为样本。这里的数量只是示意性说明，本发明不限于此。

这里的特定的原文是指在根据本发明的第一实施例的语音识别方法的应用环境中经常需要用到的一些短语、短句、长句或者短文等，例如，在日常工作中和会议中常用的短句、经常提及的人名、个人小结及工作报告范文等。

步骤S302：在步骤S301中获取的5个样本(5个人)的语音经由引擎识别为文本数据，作为5个样本的初始语音识别结果。在本实施例中，5个样本的初始语音识别结果分别被标记为“T1”、“T2”、“T3”、“T4”和“T5”。

步骤S303：建立原词汇-偏差词汇的关联、统计对应特定的原文的同一原词汇的原词汇-偏差词汇的关联中对应相同的偏差词汇的原词汇-偏差词汇的关联的概率。

在该步骤中，通过对比特定的原文，如果每个样本(每个人)的初始语音识别结果与原文完全相同，则表示针对此句原文，不需要建立纠错列表。

如果在所有样本的所有初始语音识别结果中发现与原文不一致，则与第一实施例的步骤S203相同，从初始语音识别结果和原文中建立M(M≥1)个原词汇-偏差词汇的关联。这些关联中，存在有一个原词汇对应于多个偏差词汇的情况。从所有的该M个原词汇-偏差词汇的关联中找出对应同一原词汇的N(1≤N≤M)个原词汇-偏差词汇的关联，统计这样的对应同一原词汇的原词汇-偏差词汇的关联中具有相同偏差词汇的关联的个数L(1≤L≤N)，本发明的实施例以日语为例，例如，假设原文为“王小華こんにちは”，表1中示出了从实施例的所有的原词汇-偏差词汇的关联中找出的对应同一原词汇“王小華”的原词汇-偏差词汇的关联(N＝5)，其中，具有偏差词汇1“高評価”的原词汇-偏差词汇的关联的个数为3(L1＝3)，具有偏差词汇2“王将か”的原词汇-偏差词汇的关联的个数为L2＝2。将对应同一原词汇的原词汇-偏差词汇的关联中对应相同偏差词汇的关联的个数(L)除以对应同一原词汇的原词汇-偏差词汇的关联的个数(N)计算得到对应同一原词汇的原词汇-偏差词汇的关联中对应相同偏差词汇的关联的概率(L/N)，例如，在表1中，对应原词汇“王小華”的原词汇-偏差词汇的关联中对应偏差词汇1“高評価”的原词汇-偏差词汇的关联的概率为60％，而相应的对应偏差词汇2“王将か”的原词汇-偏差词汇的关联的概率为40％。

表1

样本的初始语音识别结果	原词汇	偏差词汇	原词汇-偏差词汇的关联
				T1	王小華	高評価	王小華-高評価
T2	王小華	王将か	王小華-王将か
				T3	王小華	高評価	王小華-高評価
T4	王小華	王将か	王小華-王将か
				T5	王小華	高評価	王小華-高評価

步骤S304：收录大概率的原词汇-偏差词汇的关联至纠错列表。

在该步骤中，根据在步骤S303中计算得到的对应同一原词汇的原词汇-偏差词汇的关联中对应相同偏差词汇的关联的概率,将概率大于等于第一概率阈值的原词汇-偏差词汇的关联(大概率的原词汇-偏差词汇的关联)收录到纠错列表中。在该步骤中，若对应的大概率的原词汇-偏差词汇的关联已经在纠错列表中存在，则对应的大概率的原词汇-偏差词汇的关联不再被加入到纠错列表。

在根据本发明的实施例中，第一概率阈值的实例为60％，即，对应同一原词汇的原词汇-偏差词汇的关联中具有相同偏差词汇的关联的个数大于等于3的原词汇-偏差词汇的关联将被收录进纠错列表。这里的数量只是示意性说明，本发明不限于此。

根据本发明的第二实施例的纠错列表的生成方法的第一个实例中，所生成的纠错列表中收录的原词汇-偏差词汇的关联是大概率的原词汇-偏差词汇的关联，对应的小概率的原词汇-偏差词汇的关联中的偏差词汇被认为有可能是由于样本的自身发音或环境噪音等因素造成了其差异，而非仅由引擎的误识别造成。

接下来，结合图4，对根据第二实施例的纠错列表的生成方法的第二个实例进行说明。在根据如上所述的根据第二实施例的纠错列表的生成方法的第一个实例中，由于忽略掉了小概率的原词汇-偏差词汇的关联，这可能会导致纠错列表的原词汇-偏差词汇的关联的遗漏。为了更进一步地提高纠错效果，第二实施例的纠错列表的生成方法的第二个实例与上述第一个实例的区别在于，第二实施例的纠错列表的生成方法的第二个实例能够尽可能地使得原文中所有被引擎误识别的原词汇对应的原词汇-偏差词汇的关联被收录进纠错列表。根据本发明的第二实施例的纠错列表的生成方法的第二个实例包含如下步骤。

步骤S401：指定多个(5个)读音标准的真人(样本)朗读特定的原文获取每个真人的语音。此步骤与第二实施例的第一个实例的S301相同。

步骤S402：在步骤S401中获取的5个样本的语音经由引擎识别为文本数据。此步骤与第二实施例的第一个实例的S302相同。

步骤S403：建立原词汇-偏差词汇的关联、统计对应原文中同一原词汇的原词汇-偏差词汇的关联中具有相同的偏差词汇的原词汇-偏差词汇的关联的概率。此步骤与第二实施例的第一个实例的S303相同。

步骤S404：收录大概率的原词汇-偏差词汇的关联至纠错列表。此步骤与第二实施例的第一个实例的S304相同。

步骤S405：针对5个样本的初始语音识别结果的纠错处理。此步骤与第一实施例中的S203相同。

步骤S406：针对原文进行过滤处理，并确保在5个样本的纠错后的语音识别结果中对应原文被过滤的部分若存在识别结果也被过滤。

在该步骤中，通过对比原文，如果每个样本(每个人)的纠错后的语音识别结果与原文完全相同，则表示针对原文和5个样本的纠错后的语音识别结果，无需进行过滤处理。

如果在所有样本的所有纠错后的语音识别结果中发现与原文不一致，则从原文中找出一个或多个在原文中存在、但是在至少一个样本的初始语音识别结果或者纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，建立相应的一个或多个未返回词汇-空白(空白代表在至少一个样本的纠错后的语音识别结果中相应词汇无识别结果)的关联，并从原文中将相应的一个或多个未返回词汇-空白的关联中的未返回词汇进行过滤，即从原文中删除该未返回词汇，以生成过滤后的原文，同时确保在5个样本的纠错后的语音识别结果中对应原文被过滤的部分若存在识别结果也被过滤。本发明的实施例以日语学习为例，例如，假设原文为日语“あっ、鈴木さん”，在5个样本的初始语音识别结果中，4个样本的初始语音识别结果为“鈴木さん”，而另一个样本的初始语音识别结果为“あっ、鈴木さん”，因而，在该步骤中，可建立未返回词汇-空白的关联“あっ、-空白”，并根据“あっ、-空白”的关联将原文中的“あっ、”过滤，又，有一个样本的经过纠错处理后的语音识别结果中对应原文中的“あっ、”的部分存在识别结果，因而也将该样本的纠错后的语音识别结果中的“あっ、”过滤。

步骤S407：将经过纠错和过滤后的5个样本的语音识别结果与过滤后的原文进行相似度比较，计算出语音评分。

同样，计算语音评分可采用诸如LD算法的文本比较算法进行相似度比较。

步骤S408：统计语音评分为100分的样本的概率。

此步骤中，利用语音评分为100分的样本的个数除以总样本的个数得到语音评分为100分的样本的概率。

步骤S409：判断在步骤S408中统计的语音评分为100分的样本的概率是否大于等于第二概率阈值。

若语音评分为100分的样本的概率大于等于第二概率阈值，则生成纠错列表的过程完成；若语音评分为100分的样本的概率小于第二概率阈值，执行步骤S410。在本发明的实施例中，此步骤中的第二概率阈值的值与第二实施例的纠错列表生成方法的第一个实例中的第一概率阈值的值相等。

步骤S410：在步骤S407中语音评分不为100分的样本再各自多次朗读原文后再次执行步骤S402至步骤S409，直至语音评分为100分的样本的概率大于等于第二概率阈值。

在根据本发明的实施例中，此步骤中指定语音评分不为100分的人再各自朗读原文5次。这里的数量只是示意性说明，本发明不限于此。一个人的多次朗读可当作是多个人的朗读来进行处理。

根据实际应用的需要，最后可以包括一个循环次数判定步骤，当判定语音评分不为100分的样本经过执行步骤S402至S409的预定次数循环之后仍然无法达到语音评分为100分的样本的概率大于等于第二概率阈值的条件，则不再执行循环，整个处理结束。在根据本发明的实施例中，该循环次数设定为1。这里的数量只是示意性说明，本发明不限于此。

第三实施例的语音评分方法是基于之前说明的语音识别方法的语音评分方法。因此，在其中结合了第一实施例至第二实施例的语音识别方法。接下来，将结合图5，对根据第三实施例的语音评分系统的语音评分方法进行说明。根据本发明的第三实施例的语音评分系统的语音评分方法包含如下步骤。

步骤S501：获取用户朗读原文所发出的语音。

此步骤与第一实施例中的S201基本相同。唯一的区别在于，这里所获取的用户语音并非是用户随意发出。

处于根据第三实施例这样的语音评分应用中，语音识别方法的应用环境与之前提及的工作和会议略有不同。根据当前的语言学习的应用环境，作为与语音识别方法的应用环境相对应的原文，这里的原文是指用户为了检验口语学习成果所朗读的文本，原文可以是以某一标点符号(如逗号)分隔的短句，也可以是完整的一句话(即，以表示句子完结的标点，例如句号、叹号、疑问号分隔的)，也可以是一段或数段话。在根据本发明的实施例中，原文的最小单位为句，即完整的一句话。但本发明不限于此。

步骤S502：在步骤S501中获取的用户的语音经由引擎被识别为文本数据，作为初始语音识别结果。此步骤与第一实施例中的S202相同。

步骤S503：针对初始语音识别结果进行纠错处理，得到纠错后的语音识别结果。

此步骤中，将原文与初始语音识别结果进行相似度比较，如果原文与初始语音识别结果完全一致，输出最高的评分；如果原文与初始语音识别结果不一致，执行纠错步骤，在纠错步骤中，搜索出初始语音识别结果中的一个或多个与原文中的原词汇不一致的词汇，作为偏差词汇，并建立相应的一个或多个原词汇-偏差词汇的关联，并且，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，当建立的一个或多个原词汇-偏差词汇的关联中的部分或全部原词汇-偏差词汇的关联已经被记录在纠错列表中，则对初始语音识别结果中的与部分或全部原词汇-偏差词汇的关联对应的偏差词汇进行纠正替换，以将偏差词汇替换成偏差词汇所属的原词汇-偏差词汇的关联中相应的原词汇，以生成纠错后的语音识别结果。

在此步骤中，涉及到的原词汇-偏差词汇，这里的原词汇指的是记载在原文中的正确的词汇，亦即用户本欲表达的词汇。偏差词汇是被识别出的、且与原词汇不一致的词汇。

实质上，如上所述的步骤S501至步骤S503即语音识别的过程，这里的语音识别是针对用户朗读检验口语学习成果所朗读的原文，执行如第一实施例所述的语音识别方法，从而生成语音识别结果。并且，同样如果需要对该语音识别方法中所使用的纠错列表的话，也可以实施如第二实施例中所说明的生成纠错列表的方法(第一实例和第二实例)。

步骤S504：针对原文进行过滤处理。

在该过滤处理中，通过对比原文和纠错后的语音识别结果，如果纠错后的语音识别结果与原文完全一致，则输出表征读音完全准确的得分(例如，100分)，如果纠错后的语音识别结果与原文不一致，则从原文中找出一个或多个在原文中存在、但是在初始语音识别结果或纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，建立相应的一个或多个未返回词汇-空白(空白代表在纠错后的语音识别结果中相应词汇无识别结果)的关联，并通过查阅用于进行过滤处理的过滤词列表，该过滤词列表中已记录有若干个未返回词汇-空白的关联，如果在步骤S504的过滤处理中建立的部分或全部未返回词汇-空白的关联已经被记录在过滤词列表中，则对原文中与部分或全部未返回词汇-空白的关联对应的未返回词汇进行过滤，即从原文中删除该未返回词汇，以生成过滤后的原文。

步骤S505：将纠错后的语音识别结果与过滤后的原文进行相似度比较，计算出语音评分。同样，计算语音评分可采用诸如LD算法的文本比较算法进行相似度比较。

步骤S506：输出语音评分结果。

在根据本发明的第三实施例中，过滤词列表收集的是一些容易被引擎判定为无效语音而被自动过滤掉的无识别返回的词汇，也即如背景技术中介绍的诸如语气词和句末疑问词等。类似纠错列表，过滤词列表可以是通过经验总结被置入语音评分系统中，也可以通过各种自动生成/收集的方法来生成，这里不做限制，只要它能够收录容易被引擎判定为无效语音而被自动过滤掉的无识别结果返回的词汇即可。在根据本发明的第三实施例中，一个纠错列表和一个过滤词列表被配置给一篇文章(即，数段话)。但本发明不限于此。

接下来，结合图6，对根据第四实施例的过滤词列表的生成方法进行说明。

图6是显示根据第四实施例的过滤词列表的生成方法的流程图。根据本发明的第四实施例的过滤词列表的生成方法包含如下步骤。

步骤S601：指定多个(5个)读音标准的真人(样本)朗读原文获取每个真人的语音。此步骤与第二实施例的第一个实例的S301和第二实施例的第二个实例的S401相同。

步骤S602：在步骤S601中获取的5个样本的语音经由引擎识别为文本数据。此步骤与第二实施例的第一个实例的S302和第二实施例的第二个实例的S402相同。

步骤S603：建立未返回词汇-空白的关联。

在该步骤中，通过对比原文，如果每个样本(每个人)的初始语音识别结果与原文完全相同，则表示针对此句原文，不需要建立过滤词列表。

如果在所有样本的所有初始语音识别结果中发现与原文不一致，则与第二实施例的第二个实例的S406相同，建立相应的一个或多个未返回词汇-空白的关联。

步骤S604：收录相应的一个或多个未返回词汇-空白的关联至过滤词列表。

在该步骤中，若对应的未返回词汇-空白的关联已经在过滤词列表中存在，则对应的未返回词汇-空白的关联不再被加入到过滤词列表。

本发明还提供了能够实施如上第一至第四实施例中的语音识别方法的语音识别系统以及语音评分方法的语音评分系统，用于对用户的语音进行识别和对用户朗读特定的原文进行评分。

具体地，作为根据本发明的一种语音识别系统的一个实例，语音识别系统包括：

语音获取单元，获取用户的语音；语音识别单元，通过语音识别将获取的语音转换为文本数据，作为初始语音识别结果；纠错处理单元，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于初始语音识别结果中，则进行纠错处理，以将初始语音识别结果中的与偏差词汇相同的词汇替换为原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为语音识别系统生成的语音识别结果。

作为根据本发明的一种语音评分系统的一个实例，语音评分系统包括：如上所述的语音识别系统，并进一步包括比较单元，该比较单元将原文与纠错后的语音识别结果进行相似度比较，如果原文与纠错后的语音识别结果完全一致，输出最高的评分；比较单元还包括样本过滤单元，如果原文与纠错后的语音识别结果不一致，样本过滤单元执行过滤处理，以从原文中找出一个或多个在原文中存在、但是在初始语音识别结果或纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在过滤词列表中，则从原文中删除与部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文；输出单元，将纠错后的语音识别结果与过滤后的原文进行相似度比较，计算并输出评分。

虽然经过对本发明结合具体实施例进行描述，对于本领域的技术技术人员而言，根据上文的叙述后作出的许多替代、修改与变化将是显而易见。因此，当这样的替代、修改和变化落入附后的权利要求的精神和范围之内时，应该被包括在本发明中。

Claims

1.一种语音识别方法，用于对用户的语音进行识别，生成语音识别结果，其特征在于，包括以下步骤：

语音获取步骤，获取所述用户的所述语音；

语音识别步骤，通过语言识别处理将获取的所述语音转换为文本数据，作为初始语音识别结果；

纠错步骤，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若所述纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于所述初始语音识别结果中，则进行纠错处理，以将所述初始语音识别结果中的与所述偏差词汇相同的词汇替换为所述原词汇-偏差词汇的关联中的原词汇，从而获得纠错后的语音识别结果，作为所述语音识别方法生成的语音识别结果。

2.如权利要求1所述的语音识别方法，其特征在于，

在执行所述纠错步骤之前执行生成纠错列表的步骤，在所述生成纠错列表的步骤中，包括：

样本采集步骤，指定不同于所述用户的多个读音标准的真人作为样本，获取每个样本朗读特定的原文所发生的样本语音，所述原文与所述语音执行方法的应用环境相对应；

样本语音识别步骤，将所述样本语音识别为样本文本数据，作为所述多个样本的样本语音识别结果；

概率计算步骤，在所述概率计算步骤中，通过对比所述原文和所述样本语音识别结果，

如果每个样本的语音识别结果与原文完全相同，不对目前所使用的纠错列表作改动；

如果所有样本的语音识别结果中存在与所述原文的不一致，从所述样本语音识别结果和所述原文中建立M个原词汇-偏差词汇的关联，从所有的所述M个原词汇-偏差词汇的关联中找出对应同一原词汇的N个原词汇-偏差词汇的关联，统计所述原词汇-偏差词汇的关联中对应相同偏差词汇的关联的个数L，将对应同一原词汇的原词汇-偏差词汇的关联中具有相同偏差词汇的关联的个数除以对应同一原词汇的原词汇-偏差词汇的关联的个数计算得到对应同一原词汇的原词汇-偏差词汇的关联中具有相同偏差词汇的关联的概率L/N，其中M≥1、1≤N≤M、1≤L≤N；

大概率的原词汇-偏差词汇的关联选定步骤，基于所述概率计算步骤中得到的各个原词汇-偏差词汇的关联的所述概率，将所述概率大于等于第一阈值的原词汇-偏差词汇的关联作为大概率原词汇-偏差词汇的关联；

纠错列表更改步骤，将所述大概率原词汇-偏差词汇的关联收录进所述目前使用的纠错列表中，以生成新的纠错列表。

3.如权利要求2所述的语音识别方法，其特征在于，

在所述生成纠错列表的步骤中，在所述纠错列表更改步骤之后，执行所述纠错列表的完备判定步骤，在所述纠错列表的完备判定步骤中，

对于每一个样本，将所述原文与所述样本语音识别结果进行相似度比较，

如果所述原文与所述样本语音识别结果完全一致，输出最高的评分；

如果所述原文与所述样本语音识别结果不一致，

执行纠错步骤，在所述纠错步骤中搜索出所述样本语音识别结果中的一个或多个与所述原文中的原词汇不一致的词汇，作为偏差词汇，并建立相应的一个或多个原词汇-偏差词汇的关联，并且，查阅所述生成纠错列表的步骤中生成的纠错列表，当建立的所述一个或多个原词汇-偏差词汇的关联中的部分或全部原词汇-偏差词汇的关联已经被记录在所述生成的纠错列表中，则对所述样本语音识别结果中的与所述部分或全部原词汇-偏差词汇的关联对应的偏差词汇进行纠正替换，以将所述偏差词汇替换成所述偏差词汇所属的原词汇-偏差词汇的关联中相应的原词汇，生成纠错后的样本语音识别结果；

执行过滤步骤，在所述过滤步骤中从原文中找出一个或多个在原文中存在、但是在所述样本语音识别结果中或所述纠错后的样本语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的所述一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在所述过滤词列表中，则从所述原文中删除与所述部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文，并确保在所述纠错后的样本语音识别结果中对应原文被过滤的部分若存在识别结果也被删除；

将所述纠错和过滤后的样本语音识别结果与所述过滤后的原文进行相似度比较，计算并输出样本评分；

统计得到最高评分的样本的比例，

当所述得到最高评分的样本在全部样本中的比例大于等于第二阈值，则将所述生成的纠错列表用于所述语音识别方法；

当所述得到最高评分的样本在全部样本中的比例小于第二阈值，执行优化步骤，在所述优化步骤中，对于所述多个样本中未达到最高评分的样本，循环地执行：收集所述未达到最高评分的样本的对于所述原文的多个语音，并执行包含所述纠错列表的完备判定步骤的所述生成纠错列表的步骤。

4.如权利要求3所述的语音识别方法，其特征在于，

在所述优化步骤中，循环执行地收集所述未达到最高评分的样本的对于所述原文的多个语音、进行包含所述验证步骤的所述生成纠错列表的步骤直至得到最高评分的样本在全部样本中的比例大于等于所述第二阈值，所述优化步骤停止。

5.如权利要求4所述的语音识别方法，其特征在于，

在所述优化步骤中，当判定循环执行的次数等于第三阈值，终止所述优化步骤。

6.一种语音评分方法，用于对用户朗读特定的原文的语音进行评判，输出表征其语音标准程度的评分，其特征在于，包括：

执行如权利要求1-5所述的语音识别方法，所述语音识别方法基于用户朗读特定原文的语音，生成语音识别结果；

比较步骤，将所述原文与所述纠错后的语音识别结果进行相似度比较，

如果所述原文与所述纠错后的语音识别结果完全一致，输出最高的评分；

如果所述原文与所述纠错后的语音识别结果不一致，执行过滤步骤，在所述过滤步骤中，从所述原文中找出一个或多个在所述原文中存在、但是在所述初始语音识别结果中或所述纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的所述一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在所述过滤词列表中，则从所述原文中删除与所述部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文；

输出步骤，将所述纠错后的语音识别结果与所述过滤后的原文进行相似度比较，计算并输出评分。

7.如权利要求6所述的语音评分方法，其特征在于，

在所述过滤步骤之前执行生成过滤词列表的步骤，在所述生成过滤词列表的步骤中,包括：

样本采集步骤，指定多个读音标准的真人作为样本，获取每个样本朗读所述原文的样本语音；

比对步骤，在所述比对步骤中，通过对比所述原文和所述样本语音识别结果，

如果每个样本的所述样本语音识别结果与所述原文完全相同，不对目前所使用的过滤词列表作改动；

如果所有样本的语音识别结果中存在与所述原文的不一致，从所述原文中找出一个或多个在所述原文中存在、但是在所述样本语音识别结果中没有相应的识别结果返回的未返回词汇，建立相应的一个或多个未返回词汇-空白的关联；

过滤词列表更改步骤，将所述未返回词汇-空白的关联收录进所述过滤词列表中，以生成新的所述过滤词列表。

8.一种语音识别系统，用于对用户语音进行识别，生成语音识别结果，其特征在于，所述语音识别系统包括：

语音获取单元，获取用户所述语音；

语音识别单元，通过语言识别处理将获取的所述语音识别转换为文本数据，作为初始语音识别结果；

纠错处理单元，查阅已记录有若干个原词汇-偏差词汇的关联的纠错列表，若所述纠错列表的某一个原词汇-偏差词汇的关联中的偏差词汇存在于所述初始语音识别结果中，则进行纠错处理，以将所述初始语音识别结果中的与所述偏差词汇相同的词汇替换为所述原词汇-偏差词汇的关联中的初始词汇，从而获得纠错后的语音识别结果，作为所述语音识别系统生成的语音识别结果。

9.一种语音评分系统，用于对用户朗读特定的原文的语音进行评判，输出表征其语音标准程度的评分，其特征在于，所述语音评分系统包括：

如权利要求8所述的语音识别系统，所述语音识别系统基于用户朗读特定原文的语音生成语音识别结果；

比较单元，将所述原文与所述纠错后的语音识别结果进行相似度比较，

所述比较单元还包括样本过滤单元，如果所述原文与所述纠错后的语音识别结果不一致，所述样本过滤单元执行过滤处理，以从所述原文中找出一个或多个在所述原文中存在、但是在所述初始语音识别结果中或所述纠错后的语音识别结果中没有相应的识别结果返回的未返回词汇，并建立相应的一个或多个未返回词汇-空白的关联，并通过查阅已记录有若干个未返回词汇-空白的关联的过滤词列表，当建立的所述一个或多个未返回词汇-空白的关联中的部分或全部未返回词汇-空白的关联已经被记录在所述过滤词列表中，则从所述原文中删除与所述部分或全部未返回词汇-空白的关联对应的未返回词汇，以生成过滤后的原文；

输出单元，将所述纠错后的语音识别结果与所述过滤后的原文进行相似度比较，计算并输出评分。