CN108962240B

CN108962240B - 一种基于耳机的语音控制方法及系统

Info

Publication number: CN108962240B
Application number: CN201810613450.6A
Authority: CN
Inventors: 李憬然; 田超
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2021-09-21
Anticipated expiration: 2038-06-14
Also published as: CN108962240A

Abstract

本发明公开了一种基于耳机的语音控制方法及系统，其中方法包括耳机采集并缓存音频数据，进行第一次唤醒检测；第一次唤醒成功后，将缓存的音频数据发送给终端进行第二次唤醒检测；接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。应用本发明所述方案，解放了用户的双手，无需手动操作即可通过语音实现对耳机及终端的控制；可以减少耳机上的物理按键数量，减小体积；提高了唤醒率，降低了误唤醒率；提高了用户的操作便捷性，提升了用户体验。

Description

一种基于耳机的语音控制方法及系统

【技术领域】

本发明涉及计算机应用技术，特别涉及基于耳机的语音控制方法及系统。

【背景技术】

目前蓝牙耳机，其功能主要是用来接打电话，播放音乐等声音内容。其主控设备/芯片处理能力有限，控制方式多为按键触控式(中断)，包括接听、挂断、音量+、音量-、上一曲、下一曲等。

需要手动控制物理按键或虚拟按键。在人的双手无法释放的时候，就无法控制，例如玩游戏、骑自行车等，双手被占用，则无法通过物理按键或虚拟按键进行控制。

按键数量有限，无法实现更多的控制。耳机上的物理按键或虚拟按键一般为3～5个，除完成上述接听、挂断、音量+、音量-、上一曲、下一曲等控制功能外，最多还有1～3个组合键功能，无法实现更多的控制功能。

切换声音内容步骤繁多，不人性化。通过耳机上的物理按键或虚拟按键只能在同一应用中切换声音内容。

在日常应用中，

对于同一应用内的切换，如果用户想听到特定歌曲，则可能需要将进行多次上一曲或下一曲的操作才能找到特定歌曲。

对于不同应用间的切换，比如从QQ音乐周杰伦的歌切换到喜马拉雅郭德纲的相声，则需要6个步骤：①拿出手机②解锁③关闭QQ音乐④打开喜马拉雅⑤选取喜马拉雅播放内容并播放⑥把手机放回兜里。这些操作无法通过耳机上的物理按键或虚拟按键实现。在很多情况下双手不能得到释放，例如玩游戏、骑自行车等，用户不得不停掉手上的事件，花6步的时间做一件声音内容切换的事情。

对于蓝牙耳机，还可能存在手机不在用户身边的情况，用户还需要找到手机，进一步增加了操作的复杂度。

另外，耳机上的物理按键不仅会占用耳机的空间，增加耳机体积，从而导致不便携带，还会由于多次的物理按压很容易失灵，影响用户的使用，进而降低用户的体验感。

【发明内容】

本申请的多个方面提供了基于耳机的语音控制方法及系统，能够通过语音实现对耳机及终端的控制。

本申请的一方面，提供一种基于耳机的语音控制方法，包括：

耳机采集音频数据，进行第一次唤醒检测；

第一次唤醒成功后，将所述音频数据发送给终端进行第二次唤醒检测；

接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

接收并播放终端根据所识别到的指令发送的音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，耳机采集音频数据，进行第一次唤醒检测包括：

采集音频数据并进行缓存；

对所述音频数据进行语音检测；

对语音检测得到的语音段进行第一次唤醒检测。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，采集音频数据并进行缓存包括：

将所述耳机采集到的音频数据采用循环缓存器进行存储，所述循环缓存器能够在存储音频数据的同时向终端上传音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，第二次唤醒检测采用的声学模型的检测精度高于第一次唤醒检测采用的声学模型，和/或，第二次唤醒检测采用的解码网络的检测精度高于第一次唤醒检测采用的解码网络；

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别包括：

将缓存的用户语音数据发送给终端进行语音识别；或，

向用户播放提示消息，采集到用户收到语音提示消息后发出的用户语音数据，将所述用户语音数据发送给终端进行语音识别。

本发明的另一方面，提供一种基于耳机的语音控制方法，包括：

接收耳机第一次唤醒检测成功后所发送的音频数据，根据所述音频数据进行第二次唤醒检测；

向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，执行所识别到的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述音频数据为耳机进行第一次唤醒检测的音频数据。

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述向耳机发送第二次唤醒检测响应消息包括：

向耳机发送唤醒成功提示消息，提示耳机将缓存的用户语音数据发送给终端进行语音识别；或，

向耳机发送唤醒成功提示消息，提示用户发出语音操作指令，由耳机将所述语音操作指令对应的用户语音数据发送给终端进行语音识别。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述用户语音数据进行语音识别包括：

在本地对所述用户语音数据进行语音识别，或，

将所述用户语音数据发送到云端进行语音识别。

本发明的另一方面，提供一种基于耳机的语音控制系统，包括：

第一次唤醒检测模块，用于采集音频数据，进行第一次唤醒检测；

音频数据发送模块，用于第一次唤醒成功后，将所述音频数据发送给终端进行第二次唤醒检测；

用户语音数据发送模块，用于接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统还包括：

播放模块，用于接收并播放终端根据所识别到的指令发送的音频数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第一次唤醒检测模块具体用于：

采集音频数据并进行缓存；

对所述音频数据进行语音检测；

对语音检测得到的语音段进行第一次唤醒检测。

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述音频数据发送模块具体用于：

将缓存的用户语音数据发送给终端进行语音识别；或，

第二次唤醒检测模块，用于接收耳机第一次唤醒检测成功后所发送的音频数据，根据所述音频数据进行第二次唤醒检测；

第二次唤醒检测响应消息发送模块，用于向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

语音识别模块，用于接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，执行所识别到的指令。

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，第二次唤醒检测响应消息发送模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音识别模块具体用于：

在本地对所述用户语音数据进行语音识别，或，

将所述用户语音数据发送到云端进行语音识别。

本发明的另一方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，解放了用户的双手，无需手动操作即可通过语音实现对耳机及终端的控制；可以减少耳机上的物理按键数量，减小体积；提高了唤醒率，降低了误唤醒率；提高了用户的操作便捷性，提升了用户体验。

【附图说明】

图1为本发明所述基于耳机的语音控制方法的流程图；

图2为本发明所述基于耳机的语音控制方法的流程图；

图3为本发明所述基于耳机的语音控制系统的结构图；

图4为本发明所述基于耳机的语音控制系统的结构图；

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

图1为本发明所述基于耳机的语音控制方法实施例的流程图，如图1所示，包括以下步骤：

步骤S11、采集并缓存音频数据，进行第一次唤醒检测；

步骤S12、第一次唤醒成功后，将缓存的音频数据发送给终端进行第二次唤醒检测；

步骤S13、接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

优选地，所述方法还包括步骤S14、接收并播放终端根据所识别到的指令发送的音频数据。

本实施例的执行主体为蓝牙耳机，所述蓝牙耳机包括声音采集单元、信号处理单元、蓝牙通信单元、声音输出单元等，所述蓝牙耳机通过蓝牙与终端相连。优选地，本实施例的执行主体也可是有线耳机，包括声音采集单元、信号处理单元、通信单元、声音输出单元等，通过耳机线与终端相连。优选地，本实施例的执行主体也可以是智能音箱等。智能音箱包括声音采集单元、信号处理单元、蓝牙通信单元、声音输出单元等，其具体实施方案与耳机的实施方案类似，在此不再赘述。

在步骤S11的一种优选实现方式中，

优选地，蓝牙耳机的麦克风采集音频数据，缓存到蓝牙耳机中的缓存中，并利用信号处理模块进行第一次唤醒检测；包括以下子步骤：

子步骤S111、采集音频数据并进行缓存。

蓝牙耳机上的声音采集单元，如麦克风，采集蓝牙耳机所处环境中的音频数据以便进行唤醒检测。

优选地，在蓝牙耳机处于播放模式时，例如，播放与其连接的手机中的内容；或在蓝牙耳机处于待机模式时，例如，终端未进行任何操作；所述麦克风始终处于拾音状态(持续对音频数据进行采样、量化)，采集蓝牙耳机所处环境中的音频数据以便进行唤醒检测。

优选地，在蓝牙耳机处于通话模式时，例如，通过蓝牙耳机拨打电话；所述麦克风始终处于拾音状态，但是，不对所采集到的音频数据进行唤醒检测。因为，用户如果在通话过程中通过语音操作指令对终端进行控制，对端用户也会听到用户的语音操作指令，会给双方通话造成不便。

在播放模式中，蓝牙耳机通过A2DP(Advanced Audio Distribution Profile蓝牙音频传输模型协定)下行通道接收终端发送的音频信息，例如，终端正通过QQ音乐APP播放周杰伦的歌曲。

优选地，声音采集单元也可以根据具体需要，例如为了降低蓝牙耳机的功耗，按照预设周期采集蓝牙耳机所处环境中的音频数据；例如，以10ms为周期进行检测。所述定期音量检测的周期可以在蓝牙耳机出厂时预设，也可以由用户根据自身需求设置。

本实施例中，所述音频数据可以理解为：蓝牙耳机所处环境中，麦克风所能够采集到的任意声音对应的信息，例如，人，包括用户发出的声音、环境噪声等，只要所述麦克风能够采集即可。

优选地，采用循环缓存器对采集到的音频数据进行缓存，需要说明的是，上述循环缓存器(Ring Buffer或Circular Buffer)能够在存储音频数据的同时向终端上传音频数据。优选地，考虑到通常的唤醒指令和语音指令的长度，循环缓存器可以缓存5s左右的音频数据。

子步骤S112、对所采集的音频数据进行语音检测。

信号处理单元的语音检测模块对麦克风采集的音频数据进行语音检测(VoiceActivity Detection，VAD)，可以准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段(静音或噪声)信号。

由于VAD需要在蓝牙耳机本地实时完成。由于计算资源非常有限，因此，一般会采用基于阈值的VAD；经过工程优化的分类法也可能被利用。

通过对所采集的音频数据进行语音检测，检测出其中的语音段，可以仅对语音段进行唤醒检测，以降低功耗。

子步骤S113、对检测得到的语音段信息进行唤醒检测。

由于蓝牙耳机的麦克风与用户的距离很近，一般不需要进行复杂的波束形成和声源定位，仅需要进行降噪、回声处理等信号处理操作，得出较为纯净的用户人声信息。

优选地，蓝牙耳机的信号处理单元，例如低功耗DSP，内置语音唤醒引擎，随时等待接收用户发出的语音唤醒指令，通过唤醒词算法进行检测。

在日常应用中，用户在说出语音操作指令之前，需要首先根据蓝牙耳机的唤醒词发出唤醒指令，例如，发出“小度小度”的唤醒指令，以便唤醒蓝牙耳机，随后才能发出例如“播放喜马拉雅郭德纲的相声”的操作指令。

信号处理单元的语音唤醒引擎对检测得到的语音段信息进行唤醒检测，由于目标单一(只需检测出指定的唤醒词)，唤醒只需要较小的声学模型和解码网络(只需要区分出有无唤醒词出现)，声学打分和解码可以很快，空间占用少，能够在蓝牙耳机本地实时完成。

同时，由于误唤醒问题的存在，例如，蓝牙耳机检测到与唤醒词音调相近的词语，很有可能发生误唤醒。为了减少误唤醒率，在蓝牙耳机进行初始唤醒检测，即第一次唤醒检测之后；由终端进行第二次唤醒检测，如检测出错误的唤醒词，将停止唤醒，并重新开始第一次唤醒检测。

在蓝牙耳机本地进行的唤醒检测作为第一次唤醒检测。由于蓝牙耳机本地的运算性能有限，同时由于内置电池，对功耗的要求较为严格。因此，仅进行简单的第一次唤醒检测，放宽检测门限，以提升唤醒率。

语音唤醒引擎库中集成了一个打分库，如果打分库给用户输入的某个唤醒词的识别结果打分比较高，比如大于90分，那么则可认为是确认唤醒。

本实施例中，在实际应用中，唤醒识别结果中除了包括确认唤醒之外，还可包括疑似唤醒等。为了提高第一次唤醒的唤醒率，可降低判定门槛，如打分大于80分，即认为是确认唤醒。即将打分大于80分且小于或等于90分的疑似唤醒也作为真正的语音唤醒。通过运算能力更强，结果更精确的第二次唤醒检测对第一次唤醒结果进行校正。

在步骤S12的一种优选实现方式中，

第一次唤醒成功后，将缓存的唤醒时刻前预定长度的音频数据发送给终端进行第二次唤醒检测；

信号处理单元检测到唤醒指令后，通知通信单元通过BLE(Bluetooth LowEnergy，蓝牙低功耗)将缓存的唤醒时刻前预定时间的音频数据发送给终端进行第二次唤醒检测。

优选地，由于语音唤醒指令一般为唤醒词，较为简短，同时考虑到进行唤醒检测所需的时间，因此选择将唤醒时刻前2s的音频数据发送给终端进行第二次唤醒检测，可以保证所述音频数据中包括了所检测到的唤醒词对应的音频数据。所述唤醒时刻为唤醒引擎通过第一次唤醒检测，确认唤醒词的时刻。

优选地，由于终端的运算能力和电池容量优于蓝牙耳机，可以采用较大的声学模型和解码网络进行唤醒词识别，其语音唤醒引擎的准确率优于蓝牙耳机的唤醒引擎，可以由终端的语音唤醒引擎进行第二次唤醒检测，提高检测准确率。因此，可以由终端对所所述唤醒时刻前2s的音频数据进行第二次唤醒检测，并提高检测门限，降低误唤醒率。

优选地，由于终端一般可以通过网络连接云端，终端可以将接收到的音频数据发送给云端，基于云端进行第二次唤醒检测，可以进一步提高检测准确率。因此，可以由终端对所所述唤醒时刻前2s的音频数据进行第二次唤醒检测，并提高检测门限，降低误唤醒率。

本实施例中，为了降低误唤醒率，可提高判定门槛，如打分大于95分，才认为是确认第二次唤醒，低于或等于95分，则认为不是确认第二次唤醒。

在步骤S13的一种优选实现方式中，

优选地，接收终端发送的第二次唤醒检测响应消息；所述第二次唤醒检测响应消息包括：唤醒成功提示消息和误唤醒提示消息。

其中，终端通过BLE(Bluetooth Low Energy)接收到蓝牙耳机上传的音频数据，进行第二次唤醒检测，根据检测结果向终端发送第二次唤醒检测响应消息。优选地，如果检测结果为第二次唤醒成功，则终端停止A2DP播放，通过BLE(Bluetooth Low Energy)协议通道向蓝牙耳机发送唤醒成功提示消息。如果所述检测结果为第二次唤醒失败，则继续A2DP播放，通过BLE(Bluetooth Low Energy)协议通道向蓝牙耳机发送误唤醒提示消息。

当所述第二次唤醒检测响应消息为唤醒成功提示消息时，将缓存的语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

优选地，由于终端进行第二次唤醒检测，向蓝牙耳机发送第二次唤醒检测响应消息需要一定的时间，如果用户等待接收到第二次唤醒检测响应消息后才能进行语音操作指令的输入，可能会导致用户体验不佳。因此，蓝牙耳机对采集的声音信息进行缓存，当接收到唤醒成功提示消息时，将缓存的语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

优选地，考虑到终端进行第二次唤醒检测，向蓝牙耳机发送第二次唤醒检测响应消息的耗时，蓝牙耳机会缓存5s左右的音频数据。

优选地，为了提高语音识别的准确率，蓝牙耳机可以在通过BLE接收到终端发送的唤醒成功提示消息的同时，通过A2DP通道接收终端发送的TTS语音提示消息，提示用户发出语音操作指令。通过麦克风采集到用户收到语音提示消息后发出的语音操作指令。将所述语音操作指令对应的音频数据通过BLE(Bluetooth Low Energy)协议通道发送给终端进行语音识别，以便所述终端执行所识别到的指令。

蓝牙耳机切换到BLE(Bluetooth Low Energy)通道将所述语音操作指令对应的音频数据发送给终端，由终端进行语音识别，并执行所识别到的指令。例如，打开喜马拉雅app，并播放其中郭德纲的相声，由于终端与蓝牙耳机建立了无线连接，因此，对应的音频数据被通过A2DP(Advanced Audio Distribution Profile蓝牙音频传输模型协定)下行通道发送给蓝牙耳机。

优选地，终端将接收到的语音操作指令对应的音频数据，转发给云端做语音识别，并从云端接收对应的语音操作指令，执行所述语音操作指令。

若所述第二次唤醒检测响应消息为误唤醒提示消息，终端通过BLE(BluetoothLow Energy)协议通道向蓝牙耳机发送误唤醒提示消息；同时，终端继续执行原有操作，例如继续通过QQ音乐APP播放周杰伦的歌曲，具体的，继续通过A2DP(Advanced AudioDistribution Profile蓝牙音频传输模型协定)下行通道向蓝牙耳机发送对应的音频数据。

蓝牙耳机通过A2DP(Advanced Audio Distribution Profile蓝牙音频传输模型协定)下行通道接收并播放所述音频数据。

同时，蓝牙耳机上的声音采集单元，如麦克风，继续采集蓝牙耳机所处环境中的声音信息以便进行唤醒检测。

在步骤S14的一种优选实现方式中，

蓝牙耳机通过A2DP(Advanced Audio Distribution Profile蓝牙音频传输模型协定)下行通道接收并播放终端根据所识别到的指令发送的音频数据。

优选地，通信单元打开A2DP下行通道接收终端发送的音频数据，将接收到的音频数据发送给声音输出单元，如扬声器。

至此，完成了对用户的“播放喜马拉雅郭德纲的相声”操作指令的响应。

图2为本发明所述基于耳机的语音控制方法实施例的流程图，如图2所示，包括以下步骤：

步骤S21、接收耳机第一次唤醒成功后所发送的缓存的音频数据进行第二次唤醒检测；

步骤S12、向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

步骤S23、接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，执行所识别到的指令。

本实施例的执行主体为终端，所述终端通过蓝牙与蓝牙耳机相连，所述蓝牙耳机包括声音采集单元、信号处理单元、蓝牙通信单元、声音输出单元等，所述蓝牙耳机通过蓝牙与终端相连。优选地，所述终端通过耳机线与有线耳机相连，所述有线耳机，包括声音采集单元、信号处理单元、通信单元、声音输出单元等。优选地，所述终端通过蓝牙与智能音箱相连。智能音箱包括声音采集单元、信号处理单元、蓝牙通信单元、声音输出单元等，其具体实施方案与耳机的实施方案类似，在此不再赘述。

在步骤S21的一种优选实现方式中，

优选地，终端接收蓝牙耳机第一次唤醒成功后所发送的缓存的音频数据进行第二次唤醒检测。

信号处理单元的语音检测模块对麦克风采集的音频数据进行语音检测(VoiceActivity Detection，VAD)，可以准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段(静音或噪声)信号。通过对所采集的音频数据进行语音检测，检测出其中的语音段，可以仅对语音段进行唤醒检测，以降低功耗。

蓝牙耳机的信号处理单元，例如低功耗DSP，内置语音唤醒引擎，随时等待接收用户发出的语音唤醒指令，通过唤醒词算法进行检测。

终端接收蓝牙耳机第一次唤醒成功后所发送的缓存的音频数据进行第二次唤醒检测

优选地，终端通过BLE(Bluetooth Low Energy，蓝牙低功耗)接收蓝牙耳机发送的所缓存的唤醒时刻前预定时间的音频数据。

在步骤S22的一种优选实现方式中，

优选地，终端向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息接收终端发送的第二次唤醒检测响应消息；所述第二次唤醒检测响应消息包括：唤醒成功提示消息和误唤醒提示消息。

优选地，如果检测结果为第二次唤醒成功，则终端停止A2DP播放，通过BLE(Bluetooth Low Energy)协议通道向蓝牙耳机发送唤醒成功提示消息。如果所述检测结果为第二次唤醒失败，则继续A2DP播放，通过BLE(Bluetooth Low Energy)协议通道向蓝牙耳机发送误唤醒提示消息。

优选地，终端可以在通过BLE向蓝牙耳机发送的唤醒成功提示消息的同时，通过A2DP通道向蓝牙耳机发送TTS语音提示消息，提示用户发出语音操作指令。

在步骤S23的一种优选实现方式中，

接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，并执行所识别到的指令。

优选地，通过麦克风采集到用户收到语音提示消息后发出的语音操作指令。将所述语音操作指令对应的音频数据通过BLE(Bluetooth Low Energy)协议通道发送给终端进行语音识别，以便所述终端执行所识别到的指令。

终端通过BLE(Bluetooth Low Energy)通道接收所述语音操作指令对应的音频数据，进行语音识别，并执行所识别到的指令。例如，打开喜马拉雅app，并播放其中郭德纲的相声，由于终端与蓝牙耳机建立了无线连接，因此，对应的音频数据被通过A2DP(AdvancedAudio Distribution Profile蓝牙音频传输模型协定)下行通道发送给蓝牙耳机。

图3为本发明所述基于耳机的语音控制系统实施例的结构图，如图3所示，包括：

第一次唤醒检测模块31，用于采集并缓存音频数据，进行第一次唤醒检测；

音频数据发送模块32，用于第一次唤醒成功后，将缓存的音频数据发送给终端进行第二次唤醒检测；

用户语音数据发送模块33，用于接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

优选地，所述系统还包括播放模块34、接收并播放终端根据所识别到的指令发送的音频数据。

在第一次唤醒检测模块31的一种优选实现方式中，

优选地，蓝牙耳机的麦克风采集音频数据，缓存到蓝牙耳机中的缓存中，并利用信号处理模块进行第一次唤醒检测；包括以下子模块：

音频数据采集子模块311，用于采集音频数据并进行缓存。

语音检测子模块312，用于对所采集的音频数据进行语音检测。

唤醒检测子模块313，用于对检测得到的语音段信息进行唤醒检测。

在音频数据发送模块32的一种优选实现方式中，

在用户语音数据发送模块33的一种优选实现方式中，

其中，终端接收到蓝牙耳机上传的音频数据，进行第二次唤醒检测，根据检测结果向终端发送第二次唤醒检测响应消息。优选地，如果检测结果为第二次唤醒成功，则终端停止A2DP播放，通过BLE(Bluetooth Low Energy)协议通道向蓝牙耳机发送唤醒成功提示消息。如果所述检测结果为第二次唤醒失败，则继续A2DP播放，通过BLE(Bluetooth LowEnergy)协议通道向蓝牙耳机发送误唤醒提示消息。

在播放模块34的一种优选实现方式中，

图4为本发明所述基于耳机的语音控制系统实施例的结构图，如图4所示，包括：

第二次唤醒检测模块41，用于接收耳机第一次唤醒成功后所发送的缓存的音频数据进行第二次唤醒检测；

第二次唤醒检测响应消息发送模块42，用于向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

语音识别模块43，用于接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，执行所识别到的指令。

在第二次唤醒检测模块41的一种优选实现方式中，

在第二次唤醒检测响应消息发送模块42的一种优选实现方式中，

在语音识别模块43的一种优选实现方式中，

基于上述介绍可以看出，采用上述实施例所述方式，解放了用户的双手，无需手动操作即可通过语音实现对耳机及终端的控制；可以减少耳机上的物理按键数量，减小体积；提高了唤醒率，降低了误唤醒率；提高了用户的操作便捷性，提升了用户体验。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的终端和服务器的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于耳机的语音控制方法，其特征在于，包括：

耳机采集音频数据，进行第一次唤醒检测，其中在播放模式中，所述耳机通过蓝牙音频传输模型协定A2DP下行通道接收终端播放的音频信息；

其中，耳机采集音频数据，进行第一次唤醒检测包括：采集音频数据并进行缓存；对所述音频数据进行语音检测；对语音检测得到的语音段进行第一次唤醒检测；其中在耳机处于通话模式时不对所采集的音频数据进行唤醒检测；

第一次唤醒成功后，通过蓝牙低功耗BLE协议通道将所述音频数据发送给终端进行第二次唤醒检测；

通过BLE协议通道接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收并播放终端根据所识别到的指令发送的音频数据。

3.根据权利要求1所述的方法，其特征在于，采集音频数据并进行缓存包括：

4.根据权利要求1所述的方法，其特征在于，

第二次唤醒检测采用的声学模型的检测精度高于第一次唤醒检测采用的声学模型，和/或，第二次唤醒检测采用的解码网络的检测精度高于第一次唤醒检测采用的解码网络；

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

5.根据权利要求1所述的方法，其特征在于，若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别包括：

将缓存的用户语音数据发送给终端进行语音识别；或，

6.一种基于耳机的语音控制方法，其特征在于，包括：

终端接收耳机对采集并缓存的音频数据进行语音检测得到的语音段进行第一次唤醒检测且所述第一次唤醒检测成功后通过BLE协议通道发送的音频数据，根据所述耳机进行第一次唤醒检测的音频数据进行第二次唤醒检测，其中在耳机处于通话模式时不对所采集的音频数据进行唤醒检测；所述终端通过A2DP下行通道向所述耳机发送播放的音频信息；

所述终端通过BLE协议通道向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

7.根据权利要求6所述的方法，其特征在于，

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

8.根据权利要求6所述的方法，其特征在于，所述向耳机发送第二次唤醒检测响应消息包括：

9.根据权利要求6所述的方法，其特征在于，对所述用户语音数据进行语音识别包括：

在本地对所述用户语音数据进行语音识别，或，

将所述用户语音数据发送到云端进行语音识别。

10.一种基于耳机的语音控制系统，其特征在于，包括：

第一次唤醒检测模块，用于采集音频数据，进行第一次唤醒检测，

所述第一次唤醒检测模块具体用于：采集音频数据并进行缓存；对所述音频数据进行语音检测；对语音检测得到的语音段进行第一次唤醒检测；其中在耳机处于通话模式时不对所采集的音频数据进行唤醒检测；

播放模块，用于在播放模式中，通过A2DP下行通道接收终端播放的音频信息；

音频数据发送模块，用于第一次唤醒成功后，通过BLE协议通道将所述音频数据发送给终端进行第二次唤醒检测；

用户语音数据发送模块，用于通过BLE协议通道接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

11.根据权利要求10所述的系统，其特征在于，所述播放模块，还用于接收并播放终端根据所识别到的指令发送的音频数据。

12.根据权利要求10所述的系统，其特征在于，采集音频数据并进行缓存包括：

13.根据权利要求12所述的系统，其特征在于，

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

14.根据权利要求10所述的系统，其特征在于，所述音频数据发送模块具体用于：

将缓存的用户语音数据发送给终端进行语音识别；或，

15.一种基于耳机的语音控制系统，其特征在于，包括：

第二次唤醒检测模块，用于接收耳机对采集并缓存的音频数据进行语音检测得到的语音段进行第一次唤醒检测且所述第一次唤醒检测成功后通过BLE协议通道发送的音频数据，根据所述耳机进行第一次唤醒检测的音频数据进行第二次唤醒检测，其中在耳机处于通话模式时不对所采集的音频数据进行唤醒检测；

用于通过A2DP下行通道向所述耳机发送播放的音频信息的模块；

第二次唤醒检测响应消息发送模块，用于通过BLE协议通道向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；

16.根据权利要求15所述的系统，其特征在于，

第二次唤醒检测的检测门限高于第一次唤醒的检测门限。

17.根据权利要求15所述的系统，其特征在于，第二次唤醒检测响应消息发送模块具体用于：

18.根据权利要求15所述的系统，其特征在于，所述语音识别模块具体用于：

在本地对所述用户语音数据进行语音识别，或，

将所述用户语音数据发送到云端进行语音识别。

19.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～9中任一项所述的方法。