CN113157240A

CN113157240A - 语音处理方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN113157240A
Application number: CN202110463143.6A
Authority: CN
Inventors: 张向党
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-23

Abstract

本公开公开了语音处理方法、装置、设备、存储介质和计算机程序产品，涉及人工智能领域，尤其涉及语音技术和深度学习等领域。具体实现方案为响应于感知到有外置声卡设备接入，执行以下操作：关闭语音唤醒识别链路；对接入的外置声卡设备进行参数适配；以及响应于外置声卡设备的参数适配完毕，重启语音唤醒识别链路，以便通过外置声卡设备对语音进行处理。

Description

语音处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本公开涉及人工智能领域，尤其涉及语音技术和深度学习等领域。具体涉及一种语音处理方法、一种语音处理装置、一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。

背景技术

目前，带有语音唤醒识别功能的智能设备，通常以内置麦克风作为输入端，由内置声卡对内置麦克风采集到的音频数据进行预处理。之后，再由硬件适配层从内置声卡节点实时读取预处理后的音频数据并传输到ASR(Automatic Speech Recognition，自动语音识别技术)模块进行音频数据处理。

发明内容

本公开提供了一种语音处理方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种语音处理方法，包括，响应于感知到有外置声卡设备接入，执行以下操作：关闭语音唤醒识别链路；对接入的所述外置声卡设备进行参数适配；以及响应于所述外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述外置声卡设备对语音进行处理。

根据本公开的另一方面，提供了一种语音处理装置，包括，响应于感知到有外置声卡设备接入，通过以下模块执行相应操作：第一链路关闭模块，用于关闭语音唤醒识别链路；第一参数适配模块，用于对接入的所述外置声卡设备进行参数适配；以及第一链路重启模块，用于响应于所述外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述外置声卡设备对语音进行处理。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A示例性示出了适于本公开实施例的语音处理方法和装置系统架构；

图1B和图1C示例性示出了可以实现本公开实施例的语音处理方法和装置的场景图；

图2示例性示出了根据本公开实施例的语音处理方法的流程图；

图3A～图3C示例性示出了根据本公开实施例的语音处理方法的原理图；

图4示例性示出了根据本公开实施例的语音处理装置的框图；以及

图5示例性示出了用来实现本公开实施例的语音处理方法和装置的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的相关数据(如音频数据)的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，传统的带有语音唤醒识别功能的智能设备(如智能音箱)，通常以是内置麦克风作为输入端的。并且，这种传统的智能设备，其语音唤醒识别系统中的各个模块通常都是在厂家调试好的，不支持外部扩展。因此，这种传统的智能设备只能基于内置声卡设备进行语音唤醒和识别。

还应该理解，传统的智能音箱也无法同时支持语音唤醒识别功能和唱歌功能(即录歌功能)。比如，当用户想要在传统的智能音箱上接入自己的手持麦克风唱歌时，智能音箱原有的硬件和软件就无法支持这种外接的麦克风。

对此，本公开实施例提供了一种新型的用于电子设备(智能设备)的语音处理方案，旨在从通用性、易用性、实用性及稳定性等方面全面提升多种应用场景下电子设备的自适应语音交互能力。

以下将结合具体实施例详细阐述本公开。

适于本公开实施例的语音处理方法和装置的系统架构介绍如下。

图1A示例性示出了适于本公开实施例的语音处理方法和装置的系统架构。需要注意的是，图1A所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1A所示，系统架构100可以包括：电子设备101和蓝牙耳机102、USB(UniversalSerial Bus，通用串行总线)手持话筒103、有线耳机104等外置声卡设备。其中，电子设备101自带内置麦克风1011和内置声卡1012。

需要说明的是，在本公开实施例中，采用在电子设备101中设置设备检测模块1013、底层适配模块1014和语音识别服务模块1015的方式，用于支持电子设备101对其语音唤醒识别系统中的各个模块进行外部扩展。比如，可以支持蓝牙耳机102、USB(UniversalSerial Bus，通用串行总线)手持话筒103和有线耳机104等外置声卡设备接入电子设备101使用(包括用于进行语音唤醒和识别，以及用于录歌等)，从而可以全面提升电子设备101在多种应用场景中的自适应语音交互能力。

示例性的，电子设备101默认使用其自带的内置麦克风1011和内置声卡1012进行语音处理。同时，电子设备101可以通过设备检测模块1013感知是否有外置声卡设备接入。设备检测模块1013在感知到有外置声卡设备接入的情况下，可以通知语音识别服务模块1015关闭语音唤醒识别链路。同时，还可以通知底层适配模块1014对接入的底层设备即外置声卡设备进行参数适配。在完成对外置声卡设备的参数适配后，底层适配模块1014可以通知语音识别服务模块1015重启语音唤醒识别链路。在完成上述操作后，电子设备101可以通过新接入的外置声卡设备进行语音处理。比如，电子设备101可以使用外接的蓝牙耳机102进行语音唤醒和识别。比如，用户可以使用接入电子设备101的外置USB手持话筒103唱歌等等。

应该理解，图1A中的外置声卡设备的种类和数目仅仅是示意性的。根据实现需要，可以具有任意种类和数目的外置声卡设备。

适于本公开实施例的语音处理方法和装置的应用场景介绍如下。

需要说明的是，本公开实施例提供的语音处理方案，可以用于所有带有语音唤醒识别功能(即具有语音交互功能)的电子设备，如智能音箱等，本公开实施例在此不做限定。

应该理解，通过本公开实施例提供的语音处理方案，可以对带有语音唤醒识别功能的电子设备进行外部扩展，从而拓宽电子产品的使用场景，提高用户对采用本方案的电子产品的粘性，提升电子产品的口碑。

示例性的，如图1B所示，可以将蓝牙耳机接入电子设备，并使电子设备通过外置的蓝牙耳机进行语音唤醒和识别。

或者，示例性的，如图1C所示，还可以将USB手持话筒接入电子设备，并使电子设备通过外置的USB手持话筒进行语音唤醒和识别。同时在唤醒电子设备后，用户还可以使用外置的USB手持话筒唱歌，即电子设备唤醒后，可以使用外置的USB手持话筒录歌。

根据本公开的实施例，本公开提供了一种语音处理方法。

图2示例性示出了根据本公开实施例的语音处理方法的流程图。

如图2所示，语音处理方法200应用于电子设备(如智能音箱等)，电子设备响应于感知到有外置声卡设备接入，可以执行以下操作：操作S210～S230。

在操作S210，关闭语音唤醒识别链路。

在操作S220，对接入的外置声卡设备进行参数适配。

在操作S230，响应于外置声卡设备的参数适配完毕，重启语音唤醒识别链路，以便通过外置声卡设备对语音进行处理。

需要说明的是，在本公开实施例中，电子设备可以默认使用其自带的内置麦克风和内置声卡进行语音唤醒和识别。一旦感知到有外置声卡设备接入电子设备，则可以优先使用外置声卡设备进行语音唤醒和识别，以及录歌等。

在本公开的一些实施例中，可以在电子设备中设置设备检测模块、底层适配模块和语音识别服务模块。

其中，电子设备可以通过设备检测模块感知是否有外置声卡设备接入。设备检测模块在感知到有外置声卡设备接入的情况下，可以通知语音识别服务模块关闭语音唤醒识别链路。同时，还可以通知底层适配模块对接入的底层设备即外置声卡设备进行参数适配。在完成对外置声卡设备的参数适配后，底层适配模块可以通知语音识别服务模块重启语音唤醒识别链路。在完成上述操作后，电子设备可以通过新接入的外置声卡设备进行语音处理。比如，电子设备可以使用外接的蓝牙耳机进行语音唤醒和识别。比如，用户可以使用接入电子设备的外置USB手持话筒唱歌等等。

需要说明的是，在本公开实施例中，在没有外置声卡设备接入电子设备的情况下，语音唤醒识别链路可以包括由电子设备自带的内置麦克风、内置声卡和硬件适配层以及云端的ASR模块构成的语音唤醒识别链路。

此外，在本公开实施例中，电子设备即可以一次仅接入一个外置声卡设备，也可以一次同时接入多个外置声卡设备。但无论一次接入几个外置声卡设备，电子设备都可以仅选用其中的一个外置声卡设备来使用。

此外，在本公开实施例中，在有外置声卡设备接入电子设备的情况下，电子设备可以针对每个外置声卡设备单独生成一个专用的外置声卡。这种情况下，即在有外置声卡设备接入电子设备的情况下，语音唤醒识别链路可以包括由外置声卡设备(如外置蓝牙耳机)、对应的外置声卡和硬件适配层以及云端的ASR模块构成的语音唤醒识别链路。

应该理解，在没有外置声卡设备接入电子设备的情况下，电子设备自带的内置麦克风作为声音输入端，其输出的音频数据可以由内置声卡进行预处理。比如，内置声卡可以将内置麦克风输入的音频数据转换为特定格式。比如，内置声卡可以将内置麦克风输入的多路音频数据进行整合。比如，内置声卡可以将内置麦克风输入的模拟音频信号转换为对应的数字音频信号。硬件适配层可以从内置声卡节点读取经预处理后获得的音频数据，并将读取的音频数据传输给云端的ASR模块，由该ASR模块对该音频数据进行处理，最终完成语音唤醒和识别。比如，ASR模块可以对输入的音频数据进行特征提取，最终完成语音唤醒和识别。此外，在本公开实施例中，可以针对不同的声卡设备训练并配置不同的语音识别模型。其中，ASR模块可以用于训练各参考模型并创建相应的参考模型库。并且，ASR模块还可以用于基于不同的声卡设备进行语音唤醒和识别时，为声卡设备匹配对应的语音识别模型。

还应该理解，在有外置声卡设备接入电子设备的情况下，外置声卡设备作为声音输入端，其输出的音频数据可以由外置声卡进行预处理。外置声卡处理的内容及其处理逻辑与内置声卡相同或类似，本公开在此不再赘述。此外，在有外置声卡设备接入电子设备的情况下，语音唤醒识别链路中，硬件适配层以及云端的ASR模块处理内容和处理逻辑与在没有外置声卡设备接入电子设备的情况下，硬件适配层以及云端的ASR模块处理内容和处理逻辑对应相同或类似，本公开在此也不再赘述。

应该理解，ASR模块是实现人机对话交互的核心模块。该模块的主要功能是将用户的音频流数据转换为文本数据，用于用户意图的分析与匹配。ASR模块提供了基于音频流数据的标准识别接口，可以通过电子设备的内置麦克风、外置USB声卡上连接的外置麦克风或蓝牙耳机麦克风进行音频流数据的采集，并在该模块内完成音频流数据的降噪处理、特征提取、语音解码、文本转换等操作，将用户的对话信息转换为精确的文本，用于进行进一步的语义解析。

在本公开实施例中，外置声卡设备可以包括但不限于外置声卡、有线耳机、蓝牙耳机和USB手持话筒等。

通过本公开实施例，在感知到有外置声卡设备接入后，可以先对外置声卡设备进行参数适配，再使用外置声卡设备录音、播放录音(包括播放音乐等)、进行语音唤醒和识别等。因而，通过本公开实施例提供的技术方案，可以通过扩展外置声卡设备，使电子设备适应更多应用场景。

作为一种可选的实施例，该方法还可以包括：在对接入的外置声卡设备进行参数适配之前，响应于感知到同时有多个外置声卡设备接入，确定多个外置声卡设备中优先级最高的外置声卡设备。

对应地，对接入的外置声卡设备进行参数适配，可以包括：对优先级最高的外置声卡设备进行参数适配。

在本公开的一些实施例中，电子设备可以支持一次仅接入一个外置声卡设备。对于这种方案，无需判断外置声卡设备的类型或优先级，可以直接为其适配相应的参数。

在本公开的其他实施例中，电子设备可以支持一次接入多个外置声卡设备。对于这种方案，由于电子设备可以一次仅从接入的多个外置声卡设备中选用其中的一个来使用。因而，在适配参数之前，可以先判断接入的各个外置声卡设备的类型，并根据各个外置声卡设备的类型确定各个外置声卡设备的优先级。然后，仅选用优先级最高的外置声卡设备并仅对其进行参数适配。

应该理解，在本公开实施例中，用户可以根据实际应用场景或使用习惯自定义各类型外置声卡设备的优先级。比如，可以定义：蓝牙类外置声卡设备的优先级＞USB类外置声卡设备的优先级>有线类外置声卡设备的优先级>内置声卡设备的优先级。

示例性的，设备检测模块可以监听内核设备树是否变化，比如监听是否有内核设备节点增加、删除或修改。在发现有多个相关的外置声卡设备插入或接入电子设备的情况下(即发现内核设备树中增加了多个相关的外置声卡设备对应的内核设备节点的情况下)，首先读取这些内核设备节点的属性信息，然后再基于读取的各内核设备节点的属性信息，判断当前接入的各个外置声卡设备的类型，进而基于这些外置声卡设备的类型，判断这些外置声卡设备的优先级，并从中找出优先级最高的外置声卡设备。在找出优先级最高的外置声卡设备后，通知上层的语音识别服务模块关闭目前正在使用的语音唤醒识别链路，同时通知底层适配模块配置底层新增的外置声卡设备的相关参数。当相关参数配置完成后，底层适配模块配置可以通知语音识别服务模块重启语音识别唤醒链路。或者，当底层适配模块配置完成相关参数配置后，可以由设备检测模块通知上层的语音识别服务模块重启语音识别唤醒链路。

通过本公开实施例，在有多个外置声卡设备接入电子设备的情况下，可以根据各外置声卡设备的优先级，仅选用其中优先级最高的一个使用。

进一步，作为一种可选的实施例，该方法还可以包括：响应于感知到优先级最高的外置声卡设备已与电子设备断开连接，执行以下操作。

关闭语音唤醒识别链路。

确定多个外置声卡设备中优先级次高的外置声卡设备。

对优先级次高的外置声卡设备进行参数适配。

响应于优先级次高的外置声卡设备的参数适配完毕，重启语音唤醒识别链路，以便通过优先级次高的外置声卡设备对语音进行处理。

在本公开实施例中，在设备检测模块感知到优先级最高的外置声卡设备已与电子设备断开连接，且尚有其它外置声卡设备接入电子设备的情况下，可以先关闭语音唤醒识别链路，再选择前述实施例中提及的多个外置声卡设备中优先级次高的外置声卡设备(即，当前尚与电子设备处于连接状态的多个剩余外置声卡设备中优先级最高的一个)进行参数适配。并在完成参数适配后，重启语音唤醒识别链路，以便使用该优先级次高的外置声卡设备进行后续的语音处理。

通过本公开实施例，在有多个外置声卡设备同时接入电子设备的情况下，如果优先级最高的外置声卡设备断开连接，则还可以从剩余的至少一个外置声卡设备中选择优先级最高的一个继续使用。因而，通过本公开实施例，可以支持对智能电子设备进行硬件扩展。并且，还可以支持USB型或者有线型(如有线耳机)或蓝牙型(蓝牙耳机)等外置声卡设备即插即用。

或者进一步，作为一种可选的实施例，该方法还可以包括：响应于感知到多个外置声卡设备均已断开连接，执行以下操作。

关闭语音唤醒识别链路。

将语音识别模型由与外置声卡设备关联的第二模型切换为与内置声卡设备关联的第一模型。

响应于语音识别模型的切换完毕，重启语音唤醒识别链路，以便通过内置声卡设备对语音进行处理。

在本公开实施例中，在设备检测模块感知到所有已接入电子设备的外置声卡设备均已与电子设备断开连接后，可以重现启用电子设备自带的内置声卡设备(如内置麦克风、内置扬声器和内置声卡等)。

具体地，可以关闭语音唤醒识别链路，并将ASR模块使用的语音识别模型由与外置声卡设备适配的模型切换至与内置声卡设备适配的模型。并在完成模型切换后，重启语音唤醒识别链路，以便使用电子设备自带的内置声卡设备进行后续的语音处理。

此外，在本公开实施例中，可以针对不同的声卡设备(包括内置声卡设备和各外置声卡设备)训练并配置不同的语音识别模型，以便在实际应用中，通过根据选用的声卡设备适配对应的语音识别模型，来使得电子设备的音质达到更好的效果。

在一些实施例中，ASR模块可以用于训练各参考模型(各语音识别模型)并创建相应的参考模型库。并且，ASR模块还可以用于基于不同的声卡设备进行语音唤醒和识别时，为声卡设备匹配对应的语音识别模型。

示例性的，比如针对内置声卡设备配置了第一模型，针对某外置声卡设备配置了第二模型，则在外置声卡设备与电子设备断开连接，且无其他外置声卡设备与电子设备处于连接状态的情况下，可以重启电子设备自带的内置声卡设备，同时将ASR模块使用的语音识别模型由之前配合该外置声卡设备使用的第二模型，切换为配合内置声卡设备需要使用的第一模型。

通过本公开实施例，ASR模块可以同时支持多个语音识别模型，并且可以配合不同的声卡设备，匹配出对应的语音识别模型，克服了相关技术中ASR模块不支持语音识别模型扩展，只支持提供单一语音识别模型的缺陷，可以使电子设备应对各种应用场景时都能达到较高的音质水准。并且，通过本公开实施例，在所有外置声卡设备都与电子设备断开连接后，还可以自动重新启用电子设备自带的内置声卡，以用户后续进行语音处理。

作为一种可选的实施例，该方法还可以包括：在重启语音唤醒识别链路之前，将语音识别模型由与内置声卡设备关联的第一模型切换为与外置声卡设备关联的第二模型。

在本公开实施例在，电子设备在感知到有外置声卡设备接入后，除了关闭语音唤醒识别链路，对接入的外置声卡设备进行参数适配之外，还可以将语音识别模型由原本与内置声卡设备适配的模型切换为与当前接入的外置声卡设备适配的模型。并且在完成外置声卡设备的参数适配，且完成语音识别模型的切换后，再重启语音唤醒识别链路，以便通过外置声卡设备输入音频流数据，并通过与该外置声卡设备匹配的语音识别模型，对相关音频流数据进行语音处理。

通过本公开实施例，可以使电子设备无论应对哪种应用场景时都能达到较高的音质水准。这是因为，针对不同的声卡设备(包括内置声卡设备和各外置声卡设备)训练并配置的不同语音识别模型，用于处理不同硬件麦克风采集的音频流数据，可以提高对不同硬件麦克风采集的音频流数据的解析精度。

作为一种可选的实施例，该方法还可以包括，在重启语音唤醒识别链路之后，执行以下操作中的至少之一。

通过外置声卡设备录入语音信息。

通过外置声卡设备输出语音信息。

基于通过外置声卡设备输入的语音信息执行语音唤醒操作。

基于通过外置声卡设备输入的语音信息执行语音识别操作。

示例性的，在接入并使用外置蓝牙耳机的情况下，可以使用该外置蓝牙耳机对电子设备进行语音唤醒。并且在唤醒电子设备后，还可以使电子设备针对该外置蓝牙耳机输入的音频流数据进行语音识别处理。此外，在电子设备启用该外置蓝牙耳机的情况下，还可以使用该外置蓝牙耳机输出音频流数据，如播放音乐等。

示例性的，在接入并使用外置手持话筒的情况下，可以使用该外置手持话筒对电子设备进行语音唤醒。并且在唤醒电子设备后，还可以使电子设备针对该外置手持话筒输入的音频流数据进行语音识别处理。此外，在电子设备启用该外置手持话筒的情况下，还可以使用该外置手持话筒输入音频流数据，如录歌等。

通过本公开实施例，可以使用外置声卡设备进行语音唤醒和识别。此外，还可以使用外置声卡设备录音(如录歌)、播放录音(如播放音乐)等。因而，可以通过扩展外置声卡设备，使电子设备适应于更多应用场景。

作为一种可选的实施例，该方法还包括：基于内核设备树，感知是否有外置声卡设备接入。

示例性的，设备检测模块可以监听内核设备树是否变化，比如监听是否有内核设备节点增加、删除或修改。在发现内核设备树中增加了一个或者多个相关的外置声卡设备对应的内核设备节点的情况下，认为当前有一个或者多个相关的外置声卡设备插入或接入电子设备。在发现内核设备树中删除了一个或者多个相关的外置声卡设备对应的内核设备节点的情况下，认为有一个或者多个相关的外置声卡设备拔出电子设备或已与电子设备断开连接。在发现内核设备树中没有增加、或者删除或修改相应内核设备节点的情况下，认为没有相关的外置声卡设备插入或拔出电子设备或已与电子设备建立连接或断开连接。

进一步，作为一种可选的实施例，对接入的外置声卡设备进行参数适配，可以包括如下操作。

确定内核设备树中与外置声卡设备对应的内核设备节点。

基于内核设备节点，获取外置声卡设备的属性信息。

基于属性信息，对外置声卡设备进行参数适配。

示例性的，设备检测模块可以监听内核设备树是否变化，比如监听是否有内核设备节点增加、删除或修改。在发现有多个相关的外置声卡设备插入或接入电子设备的情况下(即发现内核设备树中增加了多个相关的外置声卡设备对应的内核设备节点的情况下)，首先读取这些内核设备节点的属性信息，然后再基于读取的各内核设备节点的属性信息，判断当前接入的各个外置声卡设备的类型，进而基于这些外置声卡设备的类型，判断这些外置声卡设备的优先级，并从中找出优先级最高的外置声卡设备。在找出优先级最高的外置声卡设备后，通知上层的语音识别服务模块关闭目前正在使用的语音唤醒识别链路，同时通知底层适配模块配置底层新增的外置声卡设备的相关参数。

在本公开实施例中，可以基于内核设备数中与该新增的外置声卡设备对应的内核设备节点，读取该外置声卡设备的属性信息(如包括但不限于该声卡设备的采样率、位宽、buffer大小、channel个数(即有几个通道，如单声道、多声道等))。并基于读取的属性信息，对该外置声卡设备进行参数适配，与将该声卡设备的采样率、位宽、buffer大小、channel个数等参数大小适配成与ASR模块的参数大小相适应。

在相关参数配置完成后，底层适配模块配置可以通知语音识别服务模块重启语音识别唤醒链路。或者，当底层适配模块配置完成相关参数配置后，可以由设备检测模块通知上层的语音识别服务模块重启语音识别唤醒链路。

需要说明的是，在本公开实施例中，底层适配模块除了可以对接入的外置声卡设备进行参数适配之外，还可以对外置声卡设备输入的音频流数据进行整合，如将外置声卡设备输入的音频流数据转换为统一的数据格式。

当设备检测模块感知到有新增外置声卡设备插入或者接入后，可以通知底层适配模块读取对应内核设备节点的属性信息并对新增的外置声卡设备进行参数配置。当语音识别服务模块重新开启语音唤醒识别链路后，电子设备可以开启新增的外置声卡设备进行语音数据的录入并对录入的多路语音数据进行整合，如对多列麦克风阵列录入的语音数据进行多路整合，以满足ASR模块的需求。

以下将结合图3A～图3C与具体实施例详细阐述本公开实施例的方法逻辑和基本原理。

首先，可以定义：蓝牙类外置声卡设备的优先级>USB类外置声卡设备的优先级>有线类外置声卡设备的优先级>内置声卡设备的优先级。

如图3A所示，电子设备101默认以内置麦克风1011作为输入端，并且由内置声卡1012对内置麦克风1011输出的音频流数据进行预处理。一旦设备检测模块1013感知到有外置声卡设备如蓝牙耳机102、USB手持话筒103和有线耳机104接入电子设备101，则通知语音识别服务模块1015关闭原语音唤醒识别链路，同时通知底层适配模块1014对接入的底层外置声卡设备进行参数适配。由于当前接入的3个外置声卡设备中蓝牙耳机102的优先级最高，因而底层适配模块1014当前可以仅对蓝牙耳机102进行参数适配。在参数适配完成后，底层适配模块1014或者设备检测模块1013可以通知语音识别服务模块1015将与内置麦克风1011匹配的语音识别模型切换至与蓝牙耳机102匹配的语音识别模型，并在切换完毕后重启语音唤醒识别链路。其中，重启后的语音唤醒识别链路以蓝牙耳机102作为语音输入端，并由外置声卡1016对蓝牙耳机102输出的音频流数据进行预处理。外置声卡1016是电子设备101感知到蓝牙耳机102后自动生成的。

如图3B所示，一旦设备检测模块1013感知到蓝牙耳机102与电子设备101断开连接，则再次通知语音识别服务模块1015关闭当前正在使用的语音唤醒识别链路，同时通知底层适配模块1014对之前接入的外置声卡设备中处于次优先级地位的USB手持话筒103进行参数适配。在参数适配完成后，底层适配模块1014或者设备检测模块1013可以再次通知语音识别服务模块1015将与蓝牙耳机102匹配的语音识别模型切换至与USB手持话筒103匹配的语音识别模型，并在切换完毕后重启语音唤醒识别链路。其中，重启后的语音唤醒识别链路以USB手持话筒103作为语音输入端，并由外置声卡1017对USB手持话筒103输出的音频流数据进行预处理。外置声卡1017是电子设备101感知到USB手持话筒103后自动生成的。

如图3C所示，一旦设备检测模块1013感知到之前接入的所有外置声卡设备(如蓝牙耳机102、USB手持话筒103和有线耳机104)均已与电子设备101断开连接，则通知语音识别服务模块1015关闭当前正在使用的语音唤醒识别链路，同时通知语音识别服务模块1015将与外置声卡设备如USB手持话筒103匹配的语音识别模型切换至与内置麦克风1011匹配的语音识别模型，并在切换完毕后重启语音唤醒识别链路。其中，重启后的语音唤醒识别链路以内置麦克风1011作为语音输入端，并内置声卡1012对内置麦克风1011输出的音频流数据进行预处理。

根据本公开的实施例，本公开还提供了一种语音处理装置。

图4示例性示出了根据本公开实施例的语音处理装置的框图。

如图4所示，语音处理装置400响应于感知到有外置声卡设备接入，可以通过以下模块执行相应操作：第一链路关闭模块410、第一参数适配模块420和第一链路重启模块430。

具体地，第一链路关闭模块410，用于关闭语音唤醒识别链路。

第一参数适配模块420，用于对接入的该外置声卡设备进行参数适配。

第一链路重启模块430，用于响应于该外置声卡设备的参数适配完毕，重启该语音唤醒识别链路，以便通过该外置声卡设备对语音进行处理。

作为一种可选的实施例，上述装置还包括：第一确定模块，用于在该第一参数适配模块对接入的该外置声卡设备进行参数适配之前，响应于感知到同时有多个外置声卡设备接入，确定该多个外置声卡设备中优先级最高的外置声卡设备。对应地，第一参数适配模块还用于：对该优先级最高的外置声卡设备进行参数适配。

作为一种可选的实施例，上述装置还包括：响应于感知到该优先级最高的外置声卡设备已断开连接，通过以下模块执行相应操作：第二链路关闭模块，用于关闭该语音唤醒识别链路；第二确定模块，用于确定该多个外置声卡设备中优先级次高的外置声卡设备；第二参数适配模块，用于对该优先级次高的外置声卡设备进行参数适配；以及第二链路重启模块，用于响应于该优先级次高的外置声卡设备的参数适配完毕，重启该语音唤醒识别链路，以便通过该优先级次高的外置声卡设备对语音进行处理。

作为一种可选的实施例，上述装置还包括：响应于感知到该多个外置声卡设备均已断开连接，通过以下模块执行相应操作：第三链路关闭模块，用于关闭该语音唤醒识别链路；第一切换模块，用于将语音识别模型由与该外置声卡设备关联的第二模型切换为与内置声卡设备关联的第一模型；以及第三链路重启模块，用于响应于该语音识别模型的切换完毕，重启该语音唤醒识别链路，以便通过该内置声卡设备对语音进行处理。

作为一种可选的实施例，上述装置还包括：第二切换模块，用于在该第一链路重启模块重启该语音唤醒识别链路之前，将语音识别模型由与内置声卡设备关联的第一模型切换为与该外置声卡设备关联的第二模型。

作为一种可选的实施例，上述装置还包括，以下模块中的至少之一：用于在该第一链路重启模块重启该语音唤醒识别链路之后，执行相应操作，录入模块，用于通过该外置声卡设备录入语音信息；输出模块，用于通过该外置声卡设备输出语音信息；语音唤醒模块，用于基于通过该外置声卡设备输入的语音信息执行语音唤醒操作；语音识别模块，用于基于通过该外置声卡设备输入的语音信息执行语音识别操作。

作为一种可选的实施例，上述装置还包括：感知模块，用于基于内核设备树，感知是否有外置声卡设备接入。

作为一种可选的实施例，该第一参数适配模块包括：确定单元，用于确定该内核设备树中与该外置声卡设备对应的内核设备节点；获取单元，用于基于该内核设备节点，获取该外置声卡设备的属性信息；以及参数适配单元，用于基于该属性信息，对该外置声卡设备进行参数适配。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或者类似，本公开在此再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音处理方法，包括，响应于感知到有外置声卡设备接入，执行以下操作：

关闭语音唤醒识别链路；

对接入的所述外置声卡设备进行参数适配；以及

响应于所述外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述外置声卡设备对语音进行处理。

2.根据权利要求1所述的方法，其中：

还包括：在对接入的所述外置声卡设备进行参数适配之前，响应于感知到同时有多个外置声卡设备接入，确定所述多个外置声卡设备中优先级最高的外置声卡设备；以及

所述对接入的所述外置声卡设备进行参数适配，包括：对所述优先级最高的外置声卡设备进行参数适配。

3.根据权利要求2所述的方法，还包括：响应于感知到所述优先级最高的外置声卡设备已断开连接，执行以下操作：

关闭所述语音唤醒识别链路；

确定所述多个外置声卡设备中优先级次高的外置声卡设备；

对所述优先级次高的外置声卡设备进行参数适配；以及

响应于所述优先级次高的外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述优先级次高的外置声卡设备对语音进行处理。

4.根据权利要求2或3所述的方法，还包括：响应于感知到所述多个外置声卡设备均已断开连接，执行以下操作：

关闭所述语音唤醒识别链路；

将语音识别模型由与所述外置声卡设备关联的第二模型切换为与内置声卡设备关联的第一模型；以及

响应于所述语音识别模型的切换完毕，重启所述语音唤醒识别链路，以便通过所述内置声卡设备对语音进行处理。

5.根据权利要求1所述的方法，还包括：在重启所述语音唤醒识别链路之前，

将语音识别模型由与内置声卡设备关联的第一模型切换为与所述外置声卡设备关联的第二模型。

6.根据权利要求1所述的方法，还包括，在重启所述语音唤醒识别链路之后，执行以下操作中的至少之一：

通过所述外置声卡设备录入语音信息；

通过所述外置声卡设备输出语音信息；

基于通过所述外置声卡设备输入的语音信息执行语音唤醒操作；

基于通过所述外置声卡设备输入的语音信息执行语音识别操作。

7.根据权利要求1所述的方法，还包括：

基于内核设备树，感知是否有外置声卡设备接入。

8.根据权利要求7所述的方法，其中，对接入的所述外置声卡设备进行参数适配，包括：

确定所述内核设备树中与所述外置声卡设备对应的内核设备节点；

基于所述内核设备节点，获取所述外置声卡设备的属性信息；以及

基于所述属性信息，对所述外置声卡设备进行参数适配。

9.一种语音处理装置，包括，响应于感知到有外置声卡设备接入，通过以下模块执行相应操作：

第一链路关闭模块，用于关闭语音唤醒识别链路；

第一参数适配模块，用于对接入的所述外置声卡设备进行参数适配；以及

第一链路重启模块，用于响应于所述外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述外置声卡设备对语音进行处理。

10.根据权利要求9所述的装置，其中：

所述装置还包括：第一确定模块，用于在所述第一参数适配模块对接入的所述外置声卡设备进行参数适配之前，响应于感知到同时有多个外置声卡设备接入，确定所述多个外置声卡设备中优先级最高的外置声卡设备；以及

所述第一参数适配模块还用于：对所述优先级最高的外置声卡设备进行参数适配。

11.根据权利要求10所述的装置，还包括：响应于感知到所述优先级最高的外置声卡设备已断开连接，通过以下模块执行相应操作：

第二链路关闭模块，用于关闭所述语音唤醒识别链路；

第二确定模块，用于确定所述多个外置声卡设备中优先级次高的外置声卡设备；

第二参数适配模块，用于对所述优先级次高的外置声卡设备进行参数适配；以及

第二链路重启模块，用于响应于所述优先级次高的外置声卡设备的参数适配完毕，重启所述语音唤醒识别链路，以便通过所述优先级次高的外置声卡设备对语音进行处理。

12.根据权利要求10或11所述的装置，还包括：响应于感知到所述多个外置声卡设备均已断开连接，通过以下模块执行相应操作：

第三链路关闭模块，用于关闭所述语音唤醒识别链路；

第一切换模块，用于将语音识别模型由与所述外置声卡设备关联的第二模型切换为与内置声卡设备关联的第一模型；以及

第三链路重启模块，用于响应于所述语音识别模型的切换完毕，重启所述语音唤醒识别链路，以便通过所述内置声卡设备对语音进行处理。

13.根据权利要求9所述的装置，还包括：

第二切换模块，用于在所述第一链路重启模块重启所述语音唤醒识别链路之前，将语音识别模型由与内置声卡设备关联的第一模型切换为与所述外置声卡设备关联的第二模型。

14.根据权利要求9所述的装置，还包括，以下模块中的至少之一：用于在所述第一链路重启模块重启所述语音唤醒识别链路之后，执行相应操作，

录入模块，用于通过所述外置声卡设备录入语音信息；

输出模块，用于通过所述外置声卡设备输出语音信息；

语音唤醒模块，用于基于通过所述外置声卡设备输入的语音信息执行语音唤醒操作；

语音识别模块，用于基于通过所述外置声卡设备输入的语音信息执行语音识别操作。

15.根据权利要求9所述的装置，还包括：

感知模块，用于基于内核设备树，感知是否有外置声卡设备接入。

16.根据权利要求15所述的装置，其中，所述第一参数适配模块包括：

确定单元，用于确定所述内核设备树中与所述外置声卡设备对应的内核设备节点；

获取单元，用于基于所述内核设备节点，获取所述外置声卡设备的属性信息；以及

参数适配单元，用于基于所述属性信息，对所述外置声卡设备进行参数适配。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。