CN109660904A

CN109660904A - 耳机装置、声音信号处理方法及系统

Info

Publication number: CN109660904A
Application number: CN201910106807.6A
Authority: CN
Inventors: 童伟峰; 张亮; 黎华; 李倩; 许斯
Original assignee: Heng Xuan Technology (shanghai) Co Ltd
Current assignee: Heng Xuan Technology (shanghai) Co Ltd
Priority date: 2019-02-02
Filing date: 2019-02-02
Publication date: 2019-04-19
Anticipated expiration: 2039-02-02
Also published as: CN109660904B

Abstract

本公开提供了一种耳机装置、声音信号处理方法及系统，其中，该声音信号处理方法应用于耳机，该方法包括如下步骤：采集声音信号；对采集的声音信号进行模数转换处理以及第一可选择处理，以得到第一采样率的第一数字声音信号；对第一数字声音信号分两路进行处理，一路被下采样处理及第二可选择处理以得到第二采样率的第二数字声音信号并对第二数字声音信号进行语音活性检测，在另一路进行关键字检测。本公开的声音信号处理方法，一路基于采样率较低的第二数字声音信号进行语音活性检测，检测量较小，降低语音活性检测的功耗，另一路基于采样频率较高、数据量较大的第一数字声音信号进行关键字检测，能够避免漏检关键字，保证语音识别的准确性。

Description

耳机装置、声音信号处理方法及系统

技术领域

本公开实施例涉及耳机装置技术领域，尤其涉及一种声音信号处理方法、耳机装置及应用该耳机装置的声音信号处理系统。

背景技术

语音助手类应用不断发展，从手机、PC、智能音响到智能耳机等电子设备，应用越来越广泛，其通过与电子设备智能对话和即时问答实现智能交互，能够方便的操控电子设备，能够提高电子设备的用户体验，越来越受消费者欢迎。但是，带语音助手功能的无线耳机为保证良好的识别效果，通常实时采集环境中的声音信号，并实时的对采集的声音信号进行检测和识别，以避免漏检用户的交互指令，功耗较高。另外，这类无线耳机还存在语音识别的准确性较差的问题。

发明内容

有鉴于现有技术中存在的上述问题，本公开实施例提供了一种功耗较低的声音信号处理方法、耳机装置及应用该耳机装置的声音信号处理系统。

根据本公开的第一方案，提供了一种声音信号处理方法，其应用于耳机，所述声音信号处理方法包括如下步骤：

采集声音信号；

对采集的声音信号进行模数转换处理以及第一可选择处理，以得到第一采样率的第一数字声音信号；

对所述第一数字声音信号分两路进行处理，一路被下采样处理及第二可选择处理以得到第二采样率的第二数字声音信号并基于所述第二数字声音信号进行语音活性检测，在另一路进行关键字检测。

在一些实施例中，所述方法进一步包括，在有音乐播放的情况下：

在所述一路的处理中，所述第二数字声音信号先进行音乐回声消除再进行语音活性检测；

在所述另一路的处理中，所述第一数字声音信号先进行音乐回声消除再进行关键字检测。

在一些实施例中，所述另一路的处理还包括对所述第一数字声音信号进行缓存，以便在所述语音活性检测检测到语音之前的第一预定时间段内的第一数字声音信号能够被获取用于关键字检测。

在一些实施例中，所述另一路进行的关键字检测在所述语音活性检测检测到语音的情况下启用。

在一些实施例中，所述第一可选择处理和第二可选择处理包括滤波处理；

所述第一采样率为6Khz到40Khz，所述第二采样率为3Khz到20Khz。

在一些实施例中，所述声音信号处理方法还包括：在所述另一路检测到关键字的情况下，将所述关键字检测所基于的数字声音信号传输到与所述耳机通信连接的云端或智能终端进行语音识别。

在一些实施例中，所述声音信号处理方法进一步包括：在所述另一路检测到关键字且在有音乐播放的情况下，暂停第二预定时间段的音乐播放。

在一些实施例中，声音信号处理方法还包括：

在所述一路的处理中，在进行语音活性检测之前对其所基于的数字声音信号进行降噪处理；和/或。

在所述另一路的处理中，在进行关键字检测之前对其所基于的数字声音信号进行降噪处理。

根据本公开的第二方案，提供了一种耳机装置，所述耳机装置包括：

声音信号采集装置，被配置为采集声音信号；

模数转换组件，被配置为对采集的声音信号进行模数转换处理以及第一可选择处理，以得到第一采样率的第一数字声音信号；

下采样组件，被配置为接收来自所述模数转换组件的第一数字声音信号并将其下采样处理及第二可选择处理以得到第二采样率的第二数字声音信号；

语音活性检测模块，被配置为基于来自所述下采样组件的第二数字声音信号进行语音活性检测；以及

关键字检测模块，被配置为基于来自所述模数转换组件的第一数字声音信号进行关键字检测。

在一些实施例中，所述声音信号采集装置是置于所述耳机装置内靠近耳道侧的麦克。

在一些实施例中，所述模数转换组件包括逐次逼近模数转换器，或者包括sigmadelta模数转换器和下采样器两者，所述模数转换组件和下采样组件中的至少一个包括滤波器，所述第一可选择处理和第二可选择处理包括滤波处理。

在一些实施例中，所述耳机装置包括第一音乐回声消除模块和第二音乐回声消除模块，在有音乐播放的情况下：

来自所述下采样组件的第二数字声音信号馈送到所述第一音乐回声消除模块，且所述第一音乐回声消除模块输出的数字声音信号馈送到所述语音活性检测模块；且

来自所述模数转换组件的第一数字声音信号馈送到所述第二音乐回声消除模块，且所述第二音乐回声消除模块输出的数字声音信号馈送到所述关键字检测模块；

在没有音乐播放的情况下：

来自所述下采样组件的第二数字声音信号旁路所述第一音乐回声消除模块直接馈送到所述语音活性检测模块；且

来自所述模数转换组件的第一数字声音信号旁路所述第二音乐回声消除模块直接馈送到所述关键字检测模块。

在一些实施例中，所述耳机装置还包括缓存器，所述缓存器被配置为对所述第一数字声音信号进行缓存，以便所述关键字检测模块能够从所述缓存器获取在所述语音活性检测模块检测到语音之前的第一预定时间段内的第一数字声音信号用于关键字检测。

在一些实施例中，所述语音活性检测模块的输出被配置作为所述关键字检测模块的启用信号。

在一些实施例中，所述耳机装置还包括通信接口，其配置为：在所述关键字检测模块检测到关键字的情况下，将所述关键字检测模块所基于的数字声音信号传输到与所述耳机装置通信连接的云端或智能终端以进行语音识别。

在一些实施例中，所述关键字检测模块被配置为在检测到关键字且有音乐播放的情况下，暂停第二预定时间段的音乐播放。

在一些实施例中，所述耳机装置还包括第一降噪处理单元和/或第二降噪处理单元，所述第一降噪处理单元被配置为在进行语音活性检测之前对其所基于的数字声音信号进行降噪处理，所述第二降噪处理单元被配置为在进行关键字检测之前对其所基于的数字声音信号进行降噪处理。

根据本公开的第三方案，提供了一种声音信号处理系统，所述声音信号处理系统包括：根据权利要求9-17中任何一项所述的耳机装置；以及

云端或智能设备端，其配置为：与所述耳机装置通信；且在所述关键字检测模块检测到关键字的情况下，接收来自所述耳机装置的所述关键字检测模块所基于的数字声音信号以进行语音识别。

应当理解，前面的一般描述和以下详细描述都仅是示例性和说明性的，而不是用于限制本公开。

本节提供本公开中描述的技术的各种实现或示例的概述，并不是所公开技术的全部范围或所有特征的全面公开。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为根据本公开实施例的声音信号处理方法的第一种实施例的流程示意图；

图2为根据本公开实施例的声音信号处理方法的第二种实施例的流程示意图；

图3为根据本公开实施例的声音信号处理方法的第三种实施例的流程示意图；

图4为根据本公开实施例的声音信号处理方法的第四种实施例的流程示意图；

图5为根据本公开实施例的耳机装置的第一种实施例的结构框图；

图6为根据本公开实施例的耳机装置的第二种实施例的结构框图；

图7为根据本公开实施例的耳机装置的第三种实施例的结构框图；

图8为根据本公开实施例的耳机装置的第四种实施例的结构框图；

图9为根据本公开实施例的声音信号处理系统的结构框图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

图1为本公开实施例的声音信号处理方法的第一种实施例的流程示意图，该声音信号处理方法主要应用于耳机装置，该耳机装置可为入耳式耳机、挂耳式耳机或头戴式耳机，这里不一一列举。参见图1所示，该声音信号处理方法包括如下步骤。首先，在步骤101，采集声音信号。在一些实施例中，该声音信号可为通过例如麦克风等声音信号采集装置采集到的信号。接着，在步骤102，对采集的声音信号进行模数转换处理以及第一可选择处理，以得到第一采样率的第一数字声音信号。通过声音信号采集装置采集的信号通常为模拟信号，此处需要将模拟信号转换成数字信号，并以第一采样率对转换的数字信号进行采样，从而获得第一数字声音信号。第一可选择处理可包括滤波处理，可选择的，可对转换的数字信号进行滤波处理，以滤除较高频率和/或较低频率的波段，从而获得特定频率的有效波段，以避免非有效波段的干扰，然后再以第一采样率对滤波处理后的数字信号进行采样，从而获得第一数字信号，本公开实施例不对其进行限制。在一些实施例中，第一采样率可为6KHz到40KHz，本公开实施例中该第一采样率取16KHz。继而，对第一数字声音信号分两路进行处理，其中，一路被下采样处理及第二可选择处理以得到第二采样率的第二数字声音信号(步骤103)，并对该第二数字声音信号进行语音活性检测(步骤104)，在另一路进行关键字检测(步骤105)。其中，两路处理中，一路对第一数字声音信号进行下采样处理得到第二采样率的第二数字声音信号，该第二采样率低于第一采样率，由此，使得语音活性检测相关的构件都工作在较低的第二采样率上，所处理的数据量显著减少，从而降低了语音活性检测过程的功耗。为满足语音活性检测的需求，该第二采样率可为3KHz到20KHz，本公开实施例中该第二采样评率为4KHz，相对于第一数字声音信号，该第二数字声音信号的数据量降低了约75％。该第二可选择处理可包括滤波处理，可选择的，可在对第一数字声音信号进行滤波处理，以滤除第一采样率至第二采样率之间频率的波段，然后对滤波处理后的第一数字声音信号进行下采样以得到第二采样率的第二数字声音信号，能够避免出现频谱混叠，能够提高第二数字声音信号的信噪比。

两路处理中，另一路仍然基于第一采样率的第一数字声音信号进行关键字检测，即仍然基于采样频率相对较高、数据量相对充裕的第一数字声音信号进行关键字检测，这样能够避免漏检关键字，保证了关键字检测的准确性。

关键字检测相较语音活性检测对音频数据量以及信号内容细节上具有更高的要求，通过让语音活性检测工作在较低的第二采样率而保持让关键字检测工作在较高的第一采样率，可以兼顾功耗和检测准确性。

在一些实施例中，在另一路检测到关键字的情况下，可以将关键字检测所基于的数字声音信号传输到与耳机通信连接的云端或智能终端进行语音识别(步骤106)。相对于耳机装置，云端和智能终端的存储空间较大且处理能力较强，通过云端和智能终端进行语音识别识别效果较好。在另一路检测到关键字的情况下，通过例如蓝牙等无线通信方式将关键字检测所基于的数字声音信号传输至例如智能手机等智能终端，或者，通过智能终端将关键字检测所基于的数字声音信号传输至云端进行语音识别，语音识别的准确性较高，能够为用户提供较好的语音识别体验。

图2为本公开实施例的声音信号处理方法的第二种实施例的流程示意图。本实施例相对于上述第一种实施例的区别主要在于：另一路进行的关键字检测在语音活性检测检测到语音的情况下启用。

也就是说，在该第二种实施例中，两路处理中，一路处理通常情况下处于启用状态，实时的对第一数字声音信号进行下采样以获得第二采样频率的第二数字声音信号(步骤203)，并基于第二数字声音信号进行语音活性检测(步骤204)。而另一路处理通常情况下处于不启用状态，当一路语音活性检测检测到语音时，才启用另一路处理进行关键字检测(步骤205)。这样，能够缩短关键字检测相关构件的工作时间，使关键字检测更加具有针对性，能够进一步降低耳机装置的功耗，延长耳机装置的待机时间。

图3为本公开实施例的声音信号处理方法的第三种实施例的流程示意图。参见图3所示，在该第三种实施例相对于上述第二种实施例的区别在于：另一路的处理还包括对第一数字声音信号进行缓存(步骤305)，以便在语音活性检测检测到语音之前的第一预定时间段内的第一数字声音信号能够被获取用于关键字检测。也就是说，通过缓存过程能够缓存第一预定时间段的第一数字声音信号，当语音活性检测检测到语音，才启用另一路进行关键字检测，关键字检测过程能够获取到缓存的第一预定时间段的第一数字声音信号，实际上就是通过缓存将关键字检测的第一数字声音信号的起始时间点推移至语音活性检测检测到语音之前的第一预定时间段。这样有利于检测到完整的关键字，能够降低检测虚警及漏检，有益于提高关键字检测的准确性。其中，该第一预定时间段可为1ms至500ms。

图4为本公开实施例的声音信号处理方法的第四种实施例的流程示意图。耳机装置的主要用途就是播放音乐，所以经常会遇到在有音乐播放的情况下进行语音活性检测、关键字检测及语音识别。而音乐播放会使声音信号采集装置采集的声音信号有音乐回声，会影响语音活性检测、关键字检测及语音识别的准确性。

参加图4所示，在该第四种实施例中，对该声音信号处理方法在有音乐播放的情况下的处理过程做进一步优化。

在有音乐播放情况下：在一路的处理中，第二数字声音信号先进行音乐回声消除(步骤404)，再进行语音活性检测(步骤405)；在另一路的处理中，第一数字声音信号先进行音乐回声消除(步骤407)，再进行关键字检测(步骤408)。

具体的，当基于第一种实施例中的技术方案进行改进的情况下，一路对第一数字声音信号进行下采样并得到第二数字声音信号后，在有音乐播放的情况下，则首先对第二数字声音信号进行音乐回声消除，以消除第二数字声音信号中的音乐回声干扰，再进行语音活性检测。同样的，在另一路的处理中，则首先对第一数字声音信号进行音乐回声消除，以消除第一数字声音信号中的音乐回声干扰，再进行关键字检测。

当基于第二种实施例中的技术方案进行改进的情况下，在有音乐播放的情况且在语音活性检测检测到语音之前，一路中对第二数字声音信号的音乐回声消除处理处于启用状态，而另一路中对第一数字声音信号的音乐回声消除处理与关键字检测处理一样，处于不启用状态，当一路语音活性检测检测到语音时，才同步启用另一路中的音乐回声消除和关键字检测。

当基于第三种实施例中的技术方案进行改进的情况下，在有音乐播放且语音活性检测检测到语音时，则对缓存的第一预定时间段内的第一数字声音信号进行音乐回声消除，然后在进行关键字检测。如果检测到有关键字存在时，则对缓存的第一预定时间段内的第一数字声音信号进行音乐回声消除后，再传输至与耳机通信连接的云端或智能终端进行语音识别。如果没有音乐播放，在检测到关键字时，则直接将缓存的第一预定时间段内的第一数字声音信号传输至云端或智能终端进行语音识别。

在一些实施例中，该声音信号处理方法进一步包括：在另一路检测到关键字且在有音乐播放的情况下，暂停第二预定时间段的音乐播放。当检测到关键字时，就需要将关键字检测所基于的数字声音信号传输至云端或智能终端进行语音识别，这时，如果有音乐播放，暂停音乐播放一段时间，则能够避免音乐播放产生的回声干扰语音识别，另外，暂停音乐播放也就无需进行音乐回声消除处理，这样还能够进一步降低耳机装置的能耗。其中，该第二预定时间段可为100ms至5s。

在一些实施例中，该声音信号处理方法还包括：在一路的处理中，在进行语音活性检测之前对其所基于的数字声音信号进行降噪处理；和/或。在另一路的处理中，在进行关键字检测之前对其所基于的数字声音信号进行降噪处理。

需要说明的是，该降噪处理可在音乐回声消除过程之前，也可在音乐回声消除过程之后，但降噪处理不受是否存在音乐播放情况的影响。通过降噪处理，可以避免语音活性检测和/或关键字检测收到噪声干扰的影响，能够提高语音活性检测和关键字检测的检测精度。

图5为本公开实施例的耳机装置的第一种实施例的结构框图，参见图5所示，该耳机装置包括：声音信号采集装置11、模数转换组件12、下采样组件13、语音活性检测模块14及关键字检测模块15。

其中，该声音信号采集装置11被配置为采集声音信号；该模数转换组件12被配置为对采集的声音信号进行模数转换处理以及第一可选择处理，以得到第一采样率的第一数字声音信号；该下采样组件13被配置为接收来自模数转换组件12的第一数字声音信号并将其下采样处理及第二可选择处理以得到第二采样率的第二数字声音信号；该语音活性检测模块14被配置为基于来自下采样组件13的第二数字声音信号进行语音活性检测；以及该关键字检测模块15被配置为基于来自模数转换组件12的第一数字声音信号进行关键字检测。

采用上述方案的耳机装置，下采样组件13能够对采样频率较高的第一数字声音信号进行下采样以获得采样频率较低的第二数字声音信号，这样第二数字声音信号的数据量相对较小，语音活性检测模块14基于第二数字声音信号进行语音活性检测所处理的数据量显著减少，功耗较低。而关键字检测仍然基于采样频率相对较高、数据量相对充裕的第一数字声音信号进行关键字检测，能够避免漏检关键字，保证了语音识别的准确性。

在一些实施例中，该声音信号采集装置11为置于耳机装置内靠近耳道侧的麦克。将该耳机装置佩戴在耳部时，该麦克贴靠在耳道处，耳机对耳外噪声具有隔阻作用，另外，佩带者语音既能够通过空气传送至麦克处，还能够通过佩戴者的耳道传送至麦克处，使麦克采集到的声音信号有较好的信噪比。

在一些实施例中，该模数转换组件12可包括逐次逼近模数转换器，或者包括sigmadelta模数转换器和下采样器两者，该模数转换组件12和下采样组件13中至少一个包括滤波器，第一可选择处理和第二可选择处理包括滤波处理。sigma delta模数转换器也称为积分-微分模数转换器或者Σ-Δ模数转换器，通常包括基于微分器(或者比较器)和积分器构成的Δ-Σ调制器和数字信号处理模块(通常是数字滤波器)。例如，24位sigma delta模数转换器包括Δ-Σ调制器和数字抽取滤波器，其中，Δ-Σ调制器包括积分器、比较器和1位数模转换器，积分器的输出与比较器的参考信号进行比较，产生二进制输出，该二进制输出基于过采样时钟馈送入所述数字抽取滤波器，并且馈送到1位数模转换器，1位数模转换器的输出取反与输入信号相加馈送到所述积分器。当该模数转换组件12为逐次逼近模数转换器时，通过该逐次逼近模数转换器可以直接获得第一采样率的第一数字声音信号。当该模数转换组件12包括sigma delta模数转换器和下采样器时，首先通过sigma delta模数转换器对声音信号进行模数转换，获得一个数字声音信号，然后通过下采样器对该数字声音信号进行下采样以获得第一采样率的第一数字声音信号。该第一可选择处理可包括滤波处理，可选择的，可对声音信号进行模数转换后获得的数字信号进行滤波处理，以滤除较高频率和/或较低频率的波段，从而获得特定频率的有效波段，以避免非有效波段的干扰，然后再以第一采样率对滤波处理后的数字信号进行采样从而获得第一数字信号。该第二可选择处理可包括滤波处理，可选择的，可在对第一数字声音信号进行滤波处理，以滤除第一采样率至第二采样率之间频率的波段，然后对滤波处理后的第一数字声音信号进行下采样以得到第二采样率的第二数字声音信号，能够避免出现频谱混叠，能够提高第二数字声音信号的信噪比。

在一些实施例中，该耳机装置还包括通信接口16，其配置为：在关键字检测模块15检测到关键字的情况下，将关键字检测模块15所基于的数字声音信号传输到与耳机装置通信连接的云端或智能终端以进行语音识别。相对于耳机装置，云端和智能终端的存储空间较大且处理能力较强，通过云端和智能终端进行语音识别识别效果较好。在关键字检测模块15检测到关键字的情况下，通过该通信接口16能够将关键字检测模块15所基于的数字声音信号传输到云端或智能终端以进行语音识别，语音识别的准确性较高，用户体验较好。

需要说明的是，本公开使用的技术术语“模块”旨在表示实现相应功能的模拟电路、数字电路、程序模块中的相应一种，其采用模拟电路、数字电路、程序模块中的何种形式取决于该“模块”的应用场景和所要实现的相应功能。另外，上述模数转换组件12、下采样组件13、语音活性检测模块14、关键字检测模块15及通信接口16可为一个或多个单元20，该单元20可为例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)。

图6为本公开实施例的耳机装置的第二种实施例的结构框图。参见图6所示，相对于上述第一种实施例该第二种实施例的主要区别在于：语音活性检测模块14的输出被配置作为关键字检测模块15的启用信号。

具体的，当语音活性检测模块14检测到语音之前，关键字检测模块15处于不启用状态，当语音活性检测模块14检测到语音后，语音活性检测模块14生成并向关键字检测模块15输出启用信号，关键字检测模块15接收到启用信号后调整为启用状态，并开始基于第一数字声音信号进行关键字检测。这样，能够缩短关键字检测模块15的工作时间，使关键字检测更加具有针对性，能够进一步降低耳机装置的功耗，延长耳机装置的待机时间。

图7为本公开实施例的耳机装置的第三种实施例的结构框图。参见图7所示，在上述第二中实施例的基础上，该第三种实施例中的耳机装置还包括缓存器17，缓存器17被配置为对第一数字声音信号进行缓存，以便关键字检测模块15能够从缓存器17获取在语音活性检测模块14检测到语音之前的第一预定时间段内的第一数字声音信号用于关键字检测。

具体的，在语音活性检测模块14进行语音活性检测的同时，缓存器17能够对第一预定时间段的第一数字声音信号进行缓存，当语音活性检测模块14检测到语音时，启用关键字检测模块15，这时关键字检测模块15能够从缓存器17获取到语音活性检测模块14检测到语音之前的第一预定时间段内的第一数字声音信号，并基于获取的第一数字声音信号进行关键字检测。这样实际上就是通过缓存器17将关键字检测模块15检测的第一数字声音信号的起始时间点推移至语音活性检测检测到语音之前的第一预定时间段，有利于检测到完整的关键字，能够降低检测虚警及漏检，有益于提高关键字检测的准确性。其中，该第一预定时间段可为1ms至500ms。

图8为本公开实施例的声音信号处理方法的第四种实施例的流程示意图。耳机装置的主要用途就是播放音乐，所以经常会遇到在有音乐播放的情况下进行语音活性检测、关键字检测及语音识别。而音乐播放会使声音信号采集装置11采集的声音信号有音乐回声，会影响语音活性检测、关键字检测及语音识别的准确性。

参见图8所示，在该第四种实施例中，该耳机装置还包括第一音乐回声消除模块18和第二音乐回声消除模块19。

在有音乐播放的情况下：

来自下采样组件13的第二数字声音信号馈送到第一音乐回声消除模块18，且第一音乐回声消除模块18输出的数字声音信号馈送到语音活性检测模块14；且

来自模数转换组件12的第一数字声音信号馈送到第二音乐回声消除模块19，且第二音乐回声消除模块19输出的数字声音信号馈送到关键字检测模块15；

在没有音乐播放的情况下：

来自下采样组件13的第二数字声音信号旁路第一音乐回声消除模块18直接馈送到语音活性检测模块14；且

来自模数转换组件12的第一数字声音信号旁路第二音乐回声消除模块19直接馈送到关键字检测模块15。

具体的，当基于第一种实施例中的技术方案进行改进的情况下。在有音乐播放的情况下，下采样组件13将第二数字声音信号馈送至第一音乐回声消除模块18，对第二数字声音信号进行音乐回声消除处理，以消除音乐回声的干扰，然后再馈送至语音活性检测模块14进行语音活性检测。同样的，第一数字声音信号也需首先经第二音乐回声消除模块19进行音乐回声消除处理，以消除音乐回声干扰，然后再馈送至关键字检测模块15进行关键字检测。在没有音乐播放情况下，第二数字声音信号馈送至语音活性检测模块14，第一数字声音信号直接馈送至关键字检测模块15。这样既能够实现音乐回声消除的目的，还能够避免第一音乐回声消除模块18和第二音乐回声消除模块19一直处于工作状态，有益于降低该耳机装置的功耗。

当基于第二种实施例中的技术方案进行改进的情况下，在有音乐播放的情况下且在语音活性检测模块14检测到语音之前，第一音乐回声消除模块18处于启用状态，而第二音乐回声消除模块19与关键字检测模块15一样，处于不启用状态，当语音活性检测模块14检测到语音时，才同步启用第二音乐回声消除模块19和关键字检测模块15。在没有音乐播放的情况下，第一音乐回声消除模块18和第二音乐回声消除模块19均不启用。这样能够进一步缩短第二音乐回声消除模块19的工作时间，降低该耳机装置的功耗。

当基于第三种实施例中的技术方案进行改进的情况下，在有音乐播放的情况下且语音活性检测模块14检测到语音时，第二音乐回声消除模块19从缓存器17获取缓存的第一预定时间段内的第一数字声音信号进行音乐回声消除，然后将音乐回声消除处理后的数字声音信号馈送到关键字检测模块15。如果检测到有关键字存在时，则对缓存的第一预定时间段内的第一数字声音信号进行音乐回声消除后，再传输至与耳机通信连接的云端或智能终端进行语音识别。如果没有音乐播放，在检测到关键字时，则直接将缓存的第一预定时间段内的第一数字声音信号通过通信接口16馈送至云端或智能终端进行语音识别。

在一些实施例中，关键字检测模块15还配置为检测到关键字且有音乐播放的情况下，暂停第二预定时间段的音乐播放。耳机能够暂停第二预定时间段的音乐播放，这样能够避免音乐播放产生的回声干扰向云端或智能终端传输的数字声音信号，另外，暂停音乐播放后也就无需进行音乐回声消除处理，这样还能够进一步降低耳机装置的能耗。其中，该第二预定时间段可为100ms至5s。

在一些实施例中，该耳机装置还包括第一降噪处理单元和/或第二降噪处理单元，该第一降噪处理单元被配置为在进行语音活性检测之前对其所基于的数字声音信号进行降噪处理，第二降噪处理单元被配置为在进行关键字检测之前对其所基于的数字声音信号进行降噪处理。通过降噪处理，可以避免语音活性检测和/或关键字检测受到噪声干扰的影响，能够提高语音活性检测和关键字检测的检测精度。需要说明的是，该第一降噪处理单元和第二降噪处理单元可在音乐回声消除过程之前进行降噪处理，也可在音乐回声消除之后进行降噪处理，但降噪处理不受是否存在音乐播放情况的影响。

图9为本公开实施例的声音信号处理系统的结构框图，参见图9所示，该声音信号处理系统包括：根据本公开各种实施例的耳机装置10和云端或智能设备端30，其中，该云端或智能设备30端配置为：与耳机装置10通信；且在关键字检测模块15检测到关键字的情况下，接收来自耳机装置10的关键字检测模块15所基于的数字声音信号以进行语音识别。

由于上述的耳机装置10的功耗较低、待机时间较长且语音识别的准确性较高，而云端或智能终端30的存储空间较大且处理能力较强，通过云端或智能终端30进行语音识别识别效果较好。通过耳机装置10与云端或智能终端30配合能够提供较好的语音识别消耗，用户体验较好。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种声音信号处理方法，其应用于耳机，且其特征在于，所述声音信号处理方法包括如下步骤：

采集声音信号；

2.根据权利要求1所述的声音信号处理方法，其特征在于，所述方法进一步包括，在有音乐播放的情况下：

3.根据权利要求2所述的声音信号处理方法，其特征在于，所述另一路的处理还包括对所述第一数字声音信号进行缓存，以便在所述语音活性检测检测到语音之前的第一预定时间段内的第一数字声音信号能够被获取用于关键字检测。

4.根据权利要求1所述的声音信号处理方法，其特征在于，所述另一路进行的关键字检测在所述语音活性检测检测到语音的情况下启用。

5.根据权利要求1所述的声音信号处理方法，其特征在于，所述第一可选择处理和第二可选择处理包括滤波处理；

所述第一采样率为6Khz到40Khz，所述第二采样率为3Khz到20Khz。

6.根据权利要求1-4中任何一项所述的声音信号处理方法，其特征在于，所述声音信号处理方法还包括：在所述另一路检测到关键字的情况下，将所述关键字检测所基于的数字声音信号传输到与所述耳机通信连接的云端或智能终端进行语音识别。

7.根据权利要求1-4中任何一项所述的声音信号处理方法，其特征在于，所述声音信号处理方法进一步包括：在所述另一路检测到关键字且在有音乐播放的情况下，暂停第二预定时间段的音乐播放。

8.根据权利要求1-4中任何一项所述的声音信号处理方法，其特征在于，声音信号处理方法还包括：

9.一种耳机装置，其特征在于，所述耳机装置包括：

声音信号采集装置，被配置为采集声音信号；

10.根据权利要求9所述的耳机装置，其特征在于，所述声音信号采集装置是置于所述耳机装置内靠近耳道侧的麦克。

11.根据权利要求9所述的耳机装置，其特征在于，所述模数转换组件包括逐次逼近模数转换器，或者包括sigma delta模数转换器和下采样器两者，所述模数转换组件和下采样组件中的至少一个包括滤波器，所述第一可选择处理和第二可选择处理包括滤波处理。

12.根据权利要求9所述的耳机装置，其特征在于，所述耳机装置包括第一音乐回声消除模块和第二音乐回声消除模块，在有音乐播放的情况下：

在没有音乐播放的情况下：

13.根据权利要求9所述的耳机装置，其特征在于，所述耳机装置还包括缓存器，所述缓存器被配置为对所述第一数字声音信号进行缓存，以便所述关键字检测模块能够从所述缓存器获取在所述语音活性检测模块检测到语音之前的第一预定时间段内的第一数字声音信号用于关键字检测。

14.根据权利要求9所述的耳机装置，其特征在于，所述语音活性检测模块的输出被配置作为所述关键字检测模块的启用信号。

15.根据权利要求9所述的耳机装置，其特征在于，所述耳机装置还包括通信接口，其配置为：在所述关键字检测模块检测到关键字的情况下，将所述关键字检测模块所基于的数字声音信号传输到与所述耳机装置通信连接的云端或智能终端以进行语音识别。

16.根据权利要求9所述的耳机装置，其特征在于，所述关键字检测模块被配置为在检测到关键字且有音乐播放的情况下，暂停第二预定时间段的音乐播放。

17.根据权利要求9所述的耳机装置，其特征在于，所述耳机装置还包括第一降噪处理单元和/或第二降噪处理单元，所述第一降噪处理单元被配置为在进行语音活性检测之前对其所基于的数字声音信号进行降噪处理，所述第二降噪处理单元被配置为在进行关键字检测之前对其所基于的数字声音信号进行降噪处理。

18.一种声音信号处理系统，其特征在于，所述声音信号处理系统包括：

根据权利要求9-17中任何一项所述的耳机装置；以及