CN112908312B

CN112908312B - 一种提高唤醒性能的方法和设备

Info

Publication number: CN112908312B
Application number: CN202110132066.6A
Authority: CN
Inventors: 许东星; 曹昊; 周雷; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2022-06-24
Anticipated expiration: 2041-01-30
Also published as: CN112908312A

Abstract

本发明涉及一种提高唤醒性能的方法和设备，该方法包括：获取通用基准模型，其中，所述通用基准模型是通过带标注的语音训练神经网络得到的；获取不同年龄段的用户的唤醒语音数据；针对每个年龄段的所述用户，通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型；组合每个年龄段的所述用户的定制模型生成全年龄段定制模型，以通过所述全年龄段定制模型进行唤醒操作。通过对不同年龄段的人群定制不同的神经网络模型，可以有针对性地提高不同年龄段的模型区分能力，提高不同年龄段人群唤醒性能；另外组合成的全年龄段定制模型，且本方案可以复用大部分神经网络计算，对计算资源消耗增加有限。

Description

一种提高唤醒性能的方法和设备

技术领域

本发明涉及语音识别技术领域，具体涉及一种提高唤醒性能的方法和设备。

背景技术

在语音交互系统中，唤醒是很重要的交互入口。唤醒需要实时处理语音，不仅需要唤醒率高，误唤醒率低，同时对内存和功耗等系统资源也要求苛刻。目前的唤醒系统，通常采用神经网络作为声学模型，将声学模型的输出输入唤醒系统，得到唤醒输出及唤醒输出的置信度。最终根据预先设定好的阈值，得到唤醒结果。

但是由于资源限制，唤醒采用的神经网络参数通常都较小，采用统一的神经网络模型，对不同年龄段人群的声学输出区分度不足，导致最终唤醒性能不佳。

发明内容

本发明提供一种提高唤醒性能的方法和设备，能够解决现有技术中唤醒性能不佳的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种提高唤醒性能的方法，包括：

获取通用基准模型，其中，所述通用基准模型是通过带标注的语音训练神经网络得到的；

获取不同年龄段的用户的唤醒语音数据；

针对每个年龄段的所述用户，通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型；

组合每个年龄段的所述用户的定制模型生成全年龄段定制模型，以通过所述全年龄段定制模型进行唤醒操作。

在一个具体的实施例中，所述年龄段包括：儿童年龄段、中青年人年龄段、老年人年龄段；

所述唤醒语音数据覆盖所述用户的全年龄段。

在一个具体的实施例中，所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。

在一个具体的实施例中，所述神经网络包括共享层与迁移层；

不同年龄段的所述用户的定制模型的共享层相同，且迁移层参数不同。

在一个具体的实施例中，所述全年龄段定制模型通过声学分进行唤醒操作；

所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。

本发明实施例还提出了一种提高唤醒性能的设备，包括：

第一获取模块，用于获取通用基准模型，其中，所述通用基准模型是通过带标注的语音训练神经网络得到的；

第二获取模块，用于获取不同年龄段的用户的唤醒语音数据；

定制模块，用于针对每个年龄段的所述用户，通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型；

组合模块，用于组合每个年龄段的所述用户的定制模型生成全年龄段定制模型，以通过所述全年龄段定制模型进行唤醒操作。

所述唤醒语音数据覆盖所述用户的全年龄段。

本发明的有益效果是：

通过对不同年龄段的人群定制不同的神经网络模型，可以有针对性地提高不同年龄段的模型区分能力，提高不同年龄段人群唤醒性能；另外组合成的全年龄段定制模型，且本方案可以复用大部分神经网络计算，对计算资源消耗增加有限。

附图说明

图1为本发明实施例提供的一种提高唤醒性能的方法的流程示意图；

图2为本发明实施例提供的一种具体的提高唤醒性能的方法的流程示意图；

图3为本发明实施例提供的一种提高唤醒性能的方法中的通用基准模型训练示意图；

图4为本发明实施例提供的一种提高唤醒性能的方法中单个年龄段定制模型训练流程图；

图5为本发明实施例提供的一种提高唤醒性能的方法中将不同年龄段的定制模型组合成全年龄段定制模型的示意图；

图6为本发明实施例提供的一种提高唤醒性能的设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

本发明实施例提供的一种提高唤醒性能的方法，如图1或2所示，包括以下步骤：

步骤101、获取通用基准模型，其中，所述通用基准模型是通过带标注的语音训练神经网络得到的；具体的，如图3所示，利用大量带标注的语音，训练一个神经网络，作为通用基准模型。

步骤102、获取不同年龄段的用户的唤醒语音数据；具体的，所述年龄段包括：儿童年龄段、中青年人年龄段、老年人年龄段；所述唤醒语音数据覆盖所述用户的全年龄段。

具体的，通过发起唤醒语音采集任务，将目标客户群体按照年龄分为不同的年龄段，分别为儿童、中青年人、老年人。语音采集需要覆盖不同的年龄段，例如儿童为0-18岁，中青年人为18-55岁，老年人为大于55岁的年龄段。

步骤103、针对每个年龄段的所述用户，通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型；

具体的，所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。

进一步的，所述神经网络包括共享层与迁移层；

具体的，如图4所示，分别为每个年龄段的用户定制一个模型，这里，每个年龄段的定制模型由通用基准模型通过迁移学习得到。每个年龄段的定制模型与通用基准模型结构相同，差别主要表现在迁移层参数不同。

步骤104、组合每个年龄段的所述用户的定制模型生成全年龄段定制模型，以通过所述全年龄段定制模型进行唤醒操作。

具体的，如图5所示，将不同年龄段的定制模型组合成全年龄段定制模型。4利用全年龄段定制模型进行唤醒检测。唤醒引擎利用全年龄段定制模型，声学分由每个年龄段迁移层输出分数加权得到。

所述全年龄段定制模型通过声学分进行唤醒操作；

本方案通过对不同年龄段的人群定制不同的神经网络模型，可以有针对性地提高不同年龄段的模型区分能力，提高不同年龄段人群唤醒性能；另外组合成的全年龄段定制模型，可以复用大部分神经网络计算(共享层计算占整个NN计算的90％以上)，对计算资源消耗增加有限

实施例2

本发明实施例2还公开了一种提高唤醒性能的设备，如图6所示，包括：

第一获取模块201，用于获取通用基准模型，其中，所述通用基准模型是通过带标注的语音训练神经网络得到的；

第二获取模块202，用于获取不同年龄段的用户的唤醒语音数据；

定制模块203，用于针对每个年龄段的所述用户，通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型；

组合模块204，用于组合每个年龄段的所述用户的定制模型生成全年龄段定制模型，以通过所述全年龄段定制模型进行唤醒操作。

所述唤醒语音数据覆盖所述用户的全年龄段。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种提高唤醒性能的方法，其特征在于，包括：

获取不同年龄段的用户的唤醒语音数据；

2.根据权利要求1所述的方法，其特征在于，所述年龄段包括：儿童年龄段、中青年人年龄段、老年人年龄段；

所述唤醒语音数据覆盖所述用户的全年龄段。

3.根据权利要求1所述的方法，其特征在于，所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。

4.根据权利要求1所述的方法，其特征在于，所述神经网络包括共享层与迁移层；

5.根据权利要求4所述的方法，其特征在于，所述全年龄段定制模型通过声学分进行唤醒操作；

6.一种提高唤醒性能的设备，其特征在于，包括：

7.根据权利要求6所述的设备，其特征在于，所述年龄段包括：儿童年龄段、中青年人年龄段、老年人年龄段；

所述唤醒语音数据覆盖所述用户的全年龄段。

8.根据权利要求6所述的设备，其特征在于，所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。

9.根据权利要求6所述的设备，其特征在于，所述神经网络包括共享层与迁移层；

10.根据权利要求9所述的设备，其特征在于，所述全年龄段定制模型通过声学分进行唤醒操作；