CN105957516B

CN105957516B - 多语音识别模型切换方法及装置

Info

Publication number: CN105957516B
Application number: CN201610429948.8A
Authority: CN
Inventors: 蒋兵; 李先刚; 丁科
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2019-03-08
Anticipated expiration: 2036-06-16
Also published as: CN105957516A; WO2017215122A1; US20190096396A1; US10847146B2

Abstract

本发明实施例公开了一种多语音识别模型切换方法及装置，所述方法包括：获取用户输入语音中的至少一条语音信息；对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。本发明实施例通过对获取的语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，能够实现不同语言间的语音识别模型的自动切换，不仅提高语音识别模型切换效率，而且使语音识别更加智能化。

Description

多语音识别模型切换方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种多语音识别模型切换方法及装置。

背景技术

随着科学技术的发展，语音输入技术由于其使用起来受场景的限制较少，且相对于手写输入更加快捷方便，因此逐渐得到普遍使用。例如，现有的搜索引擎都加入了语音搜索功能。

目前虽然普通话已经成为了国人的主要交流语言，但是就局部地区而言，当地的方言的交流仍然有很大的需求。现有的语音识别引擎仅仅支持特定的语言，对于该语言以外的语音识别性能基本无法使用，因此用户在使用前一般需要提前选定特定语言的语音识别引擎。

然而一旦用户需要进行语言切换，则需要进入语音识别引擎设置界面，手动切换成使用的方言，才能进行语音识别。显然，这种语言切换方式效率比较低下，不够智能化。

发明内容

本发明实施例提供一种多语音识别模型切换方法及装置，以实现不同语言间的语音识别模型的自动切换，提高语音识别模型切换效率，使语音识别更加智能化。

第一方面，本发明实施例提供了一种多语音识别模型切换方法，包括：

获取用户输入语音中的至少一条语音信息；

对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；

将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

第二方面，本发明实施例还提供了一种多语音识别切换装置，包括：

语音获取模块，用于获取用户输入语音中的至少一条语音信息；

语言识别模块，用于对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；

模型切换模块，用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

本发明实施例通过对获取的语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，能够实现不同语言间的语音识别模型的自动切换，不仅提高语音识别模型切换效率，而且使语音识别更加智能化。

附图说明

图1是本发明实施例一中的一种多语音识别模型切换方法的流程图；

图2是本发明实施例二中的一种多语音识别模型切换方法的流程图；

图3是本发明实施例三中的一种多语音识别模型切换方法的流程图；

图4是本发明实施例四中的一种多语音识别模型切换方法的流程图；

图5是本发明实施例五中的一种多语音识别切换装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种多语音识别模型切换方法的流程图，本实施例可适用于在多个语音识别模型下进行切换的情况，该方法可以由本发明实施例提供的多语音识别切换装置来执行，该装置可集成于移动终端、固定终端或服务器中，如图1所示，具体包括：

S101、获取用户输入语音中的至少一条语音信息。

其中，所述语音信息可以为截取的输入语音中的部分语音信息，也可以为用户一条完整的语音信息。所述语音信息中可包含一条或多条语音语句。

具体的，可通过终端的麦克风来采集语音。例如，在语音输入界面提供语音输入按钮，当用户启动该按钮时，即可采集用户的语音信息。

S102、对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别。

其中，所述语言类别包含但不限于语种类别和方言类别。其中，所述语种类别包含各国的语种，例如包括汉语、英语、俄语、法语、德语等等，所述方言类别包含但不限于各国的方言，以中国为例，例如包括山东方言、东北方言、北京方言、陕西方言、广东方言等等。

具体的，可预先采集用户使用各语言类别输入的语音信息，通过分类算法训练得到语音识别模型，所述语音识别模型中包含各语言类别输入的语音。在使用语音识别模型对待分类的语音信息进行识别时，再次采用分类算法对待分类的语音信息进行分类处理，如果该待分类的语音信息被归类到山东方言，则将山东方言作为与该语音信息匹配的方言。

S103、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

当确定了与所述语音信息匹配的目标语言类别之后，则将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，使用该对应的语音识别模型对用户后续的语音输入进行识别。

当与所述语音信息匹配的目标语言类别有多个时，例如除了被归类到山东方言之外，还被归类到了河南方言，此时根据匹配度确定目标语言类别，例如，将与所述语音信息匹配度最高的语言类别作为目标语言类别。或者，将与所述匹配度超过预设阈值的语言类别作为目标语言类别。

本实施例通过对获取的语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，能够实现不同语言间的语音识别模型的自动切换，不仅提高语音识别模型切换效率，而且使语音识别更加智能化。

在上述实施例的基础上，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，包括：

对所述语音信息基于至少两种语言类别的特征进行识别，并得到所述语音信息与各个语言类别的相似程度，将所述相似程度作为语言类别的匹配度。

其中，可通过以下任意一种方法获得所述语音信息与各个语言类别的相似程度：对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别的置信度，将置信度作为语言类别的相似度；或对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别语言得分，将语音得分作为语言类别的相似度；或对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别的概率，将概率作为语言类别的相似度。

其中，所述语言得分可采用的现有的语音测试模型打分得到，所述概率可根据语言得分采用概率转换公式转换得到，所述置信度为概率区间。

在上述实施例的基础上，当仅根据一条语音语句不能足以判断出对应的目标语言类别时，为进一步提高识别准确率，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，包括：

对所述语音信息包含的至少两条语音语句进行识别，得到各条语音语句与语言类别的匹配度；

根据所述匹配度确定初始语言类别，根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。

其中，所述至少两条语音语句按照时序依次获取，如果根据第一条语音语句不能判断出对应的目标语言类别，则获取第二条语音语句，依次类推，直至能够判处对应的目标语言类别为止。如果根据第一条语音语句能够判断出对应的目标语言类别，则无需获取第二条语音语句。

具体的，首先获取第一条语音语句，通过对所述第一条语音语句进行识别，得到第一条语音语句与语言类别的匹配度，如果该匹配度超过预设匹配度，则将该第一条语音语句对应的语言类别作为目标语言类别。如果该匹配度未超过预设匹配度，则提示用户是否手动切换语音识别模型，和/或，获取第二条语音语句，通过对所述第二条语音语句进行识别，得到第二条语音语句与语言类别的匹配度，依次类推，直至得到满足预设条件的目标语言类别。

另外，一条语音语句可能对应多个语言类别，如下表一所示，可根据该条语音语句相对于各个语言类别的匹配度，将匹配最高的语言类别作为初始语言类别。例如，如表一所示，由于山东方言相对于河南方言和安徽方言概率较高，因此将山东方言作为语音语句1的初始语言类别。

例如，对于语音语句1，如果经过识别得到为山东方言的概率为0.99，由于该0.99超过预设阈值(例如，0.95)，则确定该语音信息对应的目标语言类别为山东方言。如果经过识别得到为山东方言的概率为0.93，则提示用户是否手动切换语音识别模型，或者获取第二条语音语句即语音语句2，如果经过识别得到仍然为山东方言，且对应的概率为0.95，则确定该语音信息对应的目标语言类别为山东方言。

在上述实施例的基础上，根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别，包括：

计算将各条语音语句不是初始语言类别的概率的乘积，根据所述乘积确定对应的目标语言类别。

具体的，计算将各条语音语句不是初始语言类别的概率的乘积，如果概率的乘积小于预设阈值，则确定初始语言类别为对应的目标语言类别。

例如，如果所述语音信息包含三条语音语句，为便于描述分别记为语音语句1、语音语句2和语音语句3，通过对上述三条语音语句的识别，假设得到各条语音语句与语言类别的匹配度结果如下表一所示：

表一

根据各方言对应的概率大小，可初步确定语音语句1、语音语句2和语音语句3对应的方言均为山东方言，由于各条语音语句对应为山东方言的概率均未超过预设阈值0.99，则进一步计算不是山东方言的概率，结果如表二所示，

根据此概率进一步确定该语音信息是否为山东方言。表二

则通过计算，连续两次不是山东话的概率为0.017，大于预设阈值(例如0.005)，不进行切换，继续进行判别；连续三次不是山东话的概率为0.00255，该切换错误的概率小于预设阈值，则以高置信度确定该语音信息为山东方言，进行切换。

在上述实施例的基础上，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别之前，还包括：

对所述语音信息进行以下任意一项预处理：语音特征提取、有效语音检测、语音矢量表示和模型打分测试。

在上述实施例的基础上，为方便用户操作，提高识别率，所述方法还包括：

对所述语音信息进行识别，若识别结果不符合预设条件，则显示提示消息，以提示用户进行手动切换。

其中，所述预设条件为与所述语音信息匹配的语音类别的匹配度超过预设阈值，所述匹配度可通过语言得分、概率和置信度进行衡量。

在上述实施例的基础上，为进一步提高识别准确率，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，包括：

对所述语音信息进行识别和语言类别的匹配；

确定匹配度符合预设条件的至少两种备选语言类别；

查询用户历史语音识别记录确定用户历史使用的语言类别；

从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。

例如，如果针对某一条语音信息，得到至少两个匹配度相似的备选语言类别，此时若难以确定到底哪一个目标语言类别，为提高识别准确率，则获取该用户对应的历史语音识别记录，所述历史语音识别记录中包含用户常用的语言类别，如果历史语音识别记录中包含备选语言类别中的其中一个，则将该包含的语言类别作为目标语言类别。

上述实施例通过对获取的语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，能够实现不同语言间的语音识别模型的自动切换，不仅提高语音识别模型切换效率，而且使语音识别更加智能化。

实施例二

图2为本发明实施例二提供的一种多语音识别模型切换方法的流程图，本实施例在上述实施例的基础上，将对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，优化为对所述语音信息基于至少两种语言类别的特征进行识别，并得到所述语音信息与各个语言类别的相似程度，将所述相似程度作为语言类别的匹配度。如图2所示，具体包括：

S201、获取用户输入语音中的至少一条语音信息。

S202、对所述语音信息基于至少两种语言类别的特征进行识别，并得到所述语音信息与各个语言类别的相似程度，以根据所述相似程度确定对应的目标语言类别。

S203、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

关于上述各步骤的详细描述具体参见上述实施例，这里不再赘述。

本实施例通过对获取的语音信息基于至少两种语言类别的特征进行识别，得到所述语音信息与各个语言类别的相似程度，以根据相似程度确定对应的目标语言类别，将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型，能够实现不同语言间的语音识别模型的自动切换，不仅提高语音识别模型切换效率，而且使语音识别更加智能化。

实施例三

图3为本发明实施例三提供的一种多语音识别模型切换方法的流程图，本实施例在上述实施例的基础上，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，优化为对所述语音信息包含的至少两条语音语句进行识别，得到各条语音语句与语言类别的匹配度；根据所述匹配度确定初始语言类别，根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。如图3所示，具体包括：

S301、获取用户输入语音中的至少两条语音语句。

S302、对所述至少两条语音语句进行识别，得到各条语音语句与语言类别的匹配度。

S303、根据所述匹配度确定初始语言类别，根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。

例如，计算将各条语音语句不是初始语言类别的概率的乘积，如果概率的乘积小于预设阈值，则确定初始语言类别为对应的目标语言类别。否则，显示提示信息，提示用户进行手动切换。

S304、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

在短时语音复杂环境下，如果单句语音语句的识别准确率在90％以上，这样采用高置信度判决策略，单句语音错误切换识别器的概率为0.1，那么N句语音语句后还仍然进行误操作的概率的为0.1的N次幂。例如，如果设置用户的误判门限为0.0001下，N＝4，即一般情况下，最多只要获取用户的4个输入语音语句，就可以实现超低精度的误判，进行切换准确概率达到99.9999％。同时，为了方便用户进行友好的交互，在一定门限下，可以实时提醒用户是否进行语音识别模型切换，更为友好的方便用户进行切换操作。

实施例四

图4为本发明实施例四提供的一种多语音识别模型切换方法的流程图，本实施例在上述实施例的基础上，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，优选为对所述语音信息进行识别和语言类别的匹配；确定匹配度符合预设条件的至少两种备选语言类别；查询用户历史语音识别记录确定用户历史使用的语言类别；从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。如图4所示，具体包括：

S401、获取用户输入语音中的至少一条语音信息。

S402、对所述语音信息进行识别和语言类别的匹配，确定匹配度符合预设条件的至少两种备选语言类别。

S403、查询用户历史语音识别记录确定用户历史使用的语言类别。

S404、从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。

S405、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

实施例五

图5所示为本发明实施例五提供的一种多语音识别切换装置的结构示意图，该装置可采用软件或硬件的方式实现，该装置可集成于移动终端、固定终端或服务器中，如图5所示，该装置的具体结构如下：语音获取模块51、语言识别模块52和模型切换模块53；

所述语音获取模块51用于获取用户输入语音中的至少一条语音信息；

所述语言识别模块52用于对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别；

所述模型切换模块53用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。

本实施例所述多语音识别切换装置用于执行上述各实施例所述的多语音识别模型切换方法，其技术原理和产生的技术效果类似，这里不再赘述。

在上述实施例的基础上，所述语言识别模块52具体用于，对所述语音信息基于至少两种语言类别的特征进行识别，并得到所述语音信息与各个语言类别的相似程度，将所述相似程度作为语言类别的匹配度。

在上述实施例的基础上，所述语言识别模块52包括：语言识别单元521和匹配度确定单元522。

所述语言识别单元521用于对所述语音信息包含的至少两条语音语句进行识别，得到各条语音语句与语言类别的匹配度；

所述匹配度确定单元522用于根据所述匹配度确定初始语言类别，根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。

在上述实施例的基础上，所述匹配度确定单元522具体用于，计算将各条语音语句不是初始语言类别的概率的乘积，根据所述乘积确定对应的目标语言类别。

在上述实施例的基础上，所述装置还包括：预处理模块54；

所述预处理模块54用于在所述语言识别模块52对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别之前，对所述语音信息进行以下任意一项预处理：语音特征提取、有效语音检测、语音矢量表示和模型打分测试。

在上述实施例的基础上，所述装置还包括：切换提示模块55；

所述切换提示模块55用于提示对所述语音信息进行识别，若识别结果不符合预设条件，则显示提示消息，以提示用户进行手动切换。

在上述实施例的基础上，所述语言识别模,52具体用于，对所述语音信息进行识别和语言类别的匹配；确定匹配度符合预设条件的至少两种备选语言类别；查询用户历史语音识别记录确定用户历史使用的语言类别；从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。

上述各实施例所述多语音识别切换装置用于执行上述各实施例所述的多语音识别模型切换方法，其技术原理和产生的技术效果类似，这里不再赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多语音识别模型切换方法，其特征在于，包括：

获取用户输入语音中的至少一条语音信息；

将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型；

其中，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别包括：

根据所述匹配度确定初始语言类别，计算将各条语音语句不是初始语言类别的概率的乘积，根据所述乘积确定对应的目标语言类别。

2.根据权利要求1所述的方法，其特征在于，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，包括：

3.根据权利要求1~2任一项所述的方法，其特征在于，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别之前，还包括：

4.根据权利要求1~2任一项所述的方法，其特征在于，还包括：

5.根据权利要求1~2任一项所述的方法，其特征在于，对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别，包括：

对所述语音信息进行识别和语言类别的匹配；

确定匹配度符合预设条件的至少两种备选语言类别；

查询用户历史语音识别记录确定用户历史使用的语言类别；

6.一种多语音识别切换装置，其特征在于，包括：

模型切换模块，用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型；

其中，所述语言识别模块包括：

语言识别单元，用于对所述语音信息包含的至少两条语音语句进行识别，得到各条语音语句与语言类别的匹配度；

匹配度确定单元，用于根据所述匹配度确定初始语言类别，计算将各条语音语句不是初始语言类别的概率的乘积，根据所述乘积确定对应的目标语言类别。

7.根据权利要求6所述的装置，其特征在于，所述语言识别模块具体用于，对所述语音信息基于至少两种语言类别的特征进行识别，并得到所述语音信息与各个语言类别的相似程度，将所述相似程度作为语言类别的匹配度。

8.根据权利要求6~7任一项所述的装置，其特征在于，还包括：

预处理模块，用于在所述语言识别模块对所述语音信息进行识别和语言类别的匹配，以根据匹配度确定对应的目标语言类别之前，对所述语音信息进行以下任意一项预处理：语音特征提取、有效语音检测、语音矢量表示和模型打分测试。

9.根据权利要求6~7任一项所述的装置，其特征在于，还包括：

切换提示模块，用于提示对所述语音信息进行识别，若识别结果不符合预设条件，则显示提示消息，以提示用户进行手动切换。

10.根据权利要求6~7任一项所述的装置，其特征在于，所述语言识别模块具体用于，对所述语音信息进行识别和语言类别的匹配；确定匹配度符合预设条件的至少两种备选语言类别；查询用户历史语音识别记录确定用户历史使用的语言类别；从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。