CN112116918B

CN112116918B - 语音信号增强处理方法和耳机

Info

Publication number: CN112116918B
Application number: CN202011033192.8A
Authority: CN
Inventors: 项京朋; 邱锋海
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-09-22
Anticipated expiration: 2040-09-27
Also published as: CN112116918A

Abstract

本申请实施例提供一种语音信号增强处理方法和耳机，该方法包括：获取第一语音信号和第二语音信号，第一语音信号和第二语音信号分别为基于第一位置、第二位置采集到的语音信号，第一位置和第二位置分别作为耳外语音信号采集点和耳内语音信号采集点；对第二语音信号至少进行回声抵消处理，得到第三语音信号；对第三语音信号和第一语音信号进行融合，获得第四语音信号并输出。该耳机包括第一麦克风、第二麦克风和音频处理器。本申请在低信噪比及多说话人干扰等复杂声学场景下，能有效拾取佩戴者语音并抑制其他噪声，且耳机体积小，更为轻便，生产制造成本更低。

Description

语音信号增强处理方法和耳机

技术领域

本申请一个或多个实施例涉及语音信号处理技术领域，尤其涉及语音信号增强处理方法和耳机。

背景技术

随着信息技术的发展，以语音作为交互方式的需求日益增加，耳机作为一种便携式语音拾取和播放设备，为了在嘈杂的环境中准确清晰地识别用户语音，一般需要对用户语音进行增强。无线化、小型化技术的日渐成熟使得耳机的体积不断缩小，用于放置通话麦克风的空间也越来越小。

其中，使用麦克风阵列进行语音增强的耳机往往具有较大的外壳尺寸，所占体积较大，影响佩戴的舒适性，收纳不便携，而缩减耳机外壳的尺寸意味着麦克风阵列的尺寸也不断缩小，这样会降低麦克风阵列的性能，降低语音增强效果。

由此，如何设计一种更为轻便且语音增强效果较佳的耳机，成为本领域技术人员有待解决的技术问题。

发明内容

本申请一个或多个实施例描述了一种语音信号增强处理方法和耳机，用以解决上述问题。

本申请实施例提供一种语音信号增强处理方法，该方法适用于耳机，包括：获取第一语音信号和第二语音信号，第一语音信号和第二语音信号分别为基于第一位置、第二位置采集到的语音信号，第一位置和第二位置分别作为耳外语音信号采集点和耳内语音信号采集点；对第二语音信号至少进行回声抵消处理，得到第三语音信号；对第三语音信号和第一语音信号进行融合，获得第四语音信号并输出。

可选的，对第三语音信号和第一语音信号进行融合，包括：计算第一语音信号中各个频点的信噪比，基于信噪比对第一语音信号和第三语音信号进行融合处理。

可选的，基于信噪比对第一语音信号和第三语音信号进行融合处理，包括：确定分界频点；在第三语音信号的频率小于或者等于分界频点时，对第一语音信号和第三语音信号进行加权求和，加权求和的各项权重基于信噪比确定；在第三语音信号的频率大于分界频点时，将第一语音信号作为融合后的第四语音信号。

可选的，第一语音信号通过第一麦克风接收，第一麦克风为指向性麦克风，用于指向性接收目标方向上的语音信号，并对其他方向入射的语音信号进行抑制。

可选的，接收第一语音信号和第二语音信号之后，对第二语音信号进行回声抵消处理之前，还包括：将第一语音信号和第二语音信号转换到频域；

获得第四语音信号之后，还包括：将第四语音信号转换到时域并输出。

本申请实施例还提供一种耳机，包括第一麦克风、第二麦克风和音频处理器；第一麦克风设置于第一位置，用于采集第一语音信号，第二麦克风设置于第二位置，用于采集第二语音信号；第一位置和第二位置分别作为耳外语音信号采集点和耳内语音信号采集点；音频处理器，用于对第二语音信号至少进行回声抵消处理，得到第三语音信号，以及对第三语音信号和第一语音信号进行融合，获得第四语音信号并输出。

可选的，该耳机还包括：用于放置第一麦克风的外腔体，第一麦克风为指向性麦克风，具有朝向远离耳道方向设置的第一入声孔和第二入声孔，外腔体与第一入声孔以及第二入声孔连通；第一麦克风信号连接至音频处理器；

以及，用于放置第二麦克风的内腔体，第二麦克风信号连接至音频处理器。

可选的，内腔体与外腔体相互独立设置；微型扬声器，位于外腔体与内腔体之间，信号连接至音频处理器。

可选的，第二麦克风具有第三入声孔，第三入声孔于朝向耳道的方向设置。

根据本申请实施例提供的语音信号增强处理方法和耳机，通过两个麦克风分别采集耳外语音信号(即第一语音信号)和耳内语音信号(即第二语音信号)，结合耳内麦克风可以接收佩戴者低频声信号的特点，对耳内麦克风接收到的第二语音信号(低频信号)进行提取及增强；将增强后的信号进行频谱拓展，并与耳外麦克风输出的第一语音信号进行融合，得到增强后的第四语音信号。耳外麦克风可以为指向性麦克风，指向性采集佩戴者的语音信号，与耳内麦克风采集到的来自于耳内的佩戴者语音信号进行融合，增强效果更好。经实验测试，本申请提出的语音信号增强处理方法和耳机，在低信噪比及多人说话干扰等复杂声学场景下，能有效拾取佩戴者语音并抑制环境噪声，且耳机相对更为轻便、体积小，易于收纳。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一个实施例提供的耳机的结构示意图；

图2为本申请一个实施例提供的语音信号增强处理方法的流程示意图；

图3为本申请一个实施例提供的语音信号增强处理方法的主体流程架构图；

图4为本申请一个实施例中进行语音信号融合的流程示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

基于使用麦克风阵列进行语音增强所存在的诸多弊端，本申请提出了一种耳外语音与耳内语音融合处理的语音增强方案以及基于该方案而设计的耳机。

发明人在研究过程中发现，反馈式主动降噪耳机在耳道内安装有耳内麦克风一般用于计算生成抵消声波，对于主动降噪的半入耳式或入耳式耳机，耳内麦克风接收信号经处理后可辅助进行降噪处理，而实际上耳内麦克风也可以同时采集用户耳道内的语音信息，并且相比于耳外麦克风，耳内麦克风具有以下优点：1、紧耦合佩戴的入耳式耳机，耳内麦克风能隔绝环境噪声(PNC+ANC)在20dB以上，隔绝风噪可达25dB以上；2、佩戴者的语音能通过人体结构传递至耳道内形成比较好的中低频响应。但同时，耳内麦克风也具有一定的局限性：1、包含耳机扬声器的信号成分较多，需要额外的回声抵消处理；2、耳内麦克风接收信号中目标语音的中高频成分丢失严重，在高信噪比情况下中高频成分音质明显差于壳外麦克风接收信号。

为便于理解，先对本申请实施例提供的耳机进行阐述，该耳机至少包括第一麦克风、第二麦克风和音频处理器。第一麦克风设置于第一位置，用于采集第一语音信号，第二麦克风设置于第二位置，用于采集第二语音信号。在使用状态下，第一语音信号即为来自于耳外环境的语音信号，第二语音信号即为来自于耳内环境的语音信号，第一位置即为耳外语音信号采集点，第二位置即为耳内语音信号采集点。

音频处理器，用于对第二语音信号进行回声抵消处理，得到第三语音信号，以及对第三语音信号和第一语音信号进行融合，获得第四语音信号并输出。

具体地，参阅图1所示，在一个实施例中，本申请提供的通话降噪耳机可以包括壳体101、第一麦克风(耳外麦克风)102、第二麦克风(耳内麦克风)103、音频处理器(图1中未示出)、微型扬声器104。

在该实施例中，第一麦克风为指向性麦克风。指向性麦克风利用结构设计，获得两路声压与相位有差异的声波，形成指向性，可以定向增强指向方向的声波信息，例如可以采用单指向性麦克风，定向增强佩戴者嘴部方向的声波信息，进而指向性采集佩戴者的语音信号，而抑制其他方向的环境噪声信号。

在壳体101的外部，也就是耳机被佩戴者佩戴时位于耳外的部分，开有至少两个入声孔，分别为第一入声孔105和第二入声孔106，分别通向具有指向性的第一麦克风102。

在该实施例或者另外的实施例中，第一入声孔105与第二入声孔106形状可以为圆形或者椭圆形。

第一麦克风102安装于第一位置，第二麦克风安装于第二位置，第一位置和第二位置的设置应配合人耳形状以及尺寸设计，使得耳机在使用状态下，即耳机被佩戴时，第一麦克风102位于耳外，相对于第二麦克风位于远离人耳的一侧，用于接收人耳外部的第一语音信号；而第二麦克风103位于耳内位置，相比于第一麦克风更靠近耳道一侧，用于接收人耳内部的第二语音信号。

即第一麦克风和第二麦克风的相对位置设计应使得该耳机在被佩戴时，第一麦克风位于耳外位置，因而能够采集耳外环境下的语音信号，而第一麦克风位于耳内位置，因而能够采集耳内环境下的语音信号。可以理解，上述基于人耳进行的位置限定仅为产品使用状态下的描述，不作为产品本身结构以及形状的必要限定。

在一个实施例中，作为一种可实施方式，第二麦克风103位于内腔体107中，内腔体107设置有开孔朝向耳道方向的第三入声孔(图1中未示出)，用于来自于耳内环境的语音信号进入内腔体进而被第二麦克风103采集。示例性地，第三入声孔可以正对耳道的方向设置。

指向性麦克风(即第一麦克风)102位于独立设置的外腔体108，该外腔体108与第一入声孔105和第二入声孔106连通，以使得通过第一入声孔105和第二入声孔106进入的语音信号，能够被第一麦克风102中的振膜等声音感应组件所感应。

在部分实施例中，耳内麦克风(即第二麦克风)103位于独立设置的内腔体107中。其中内腔体可以与外壳一体式设计，即对应于耳内部分设计的外壳所围成的空腔即为内腔体，而无需另外设置内腔体。在另外的实施例中，也可以将内腔体设计为独立于外壳的一个单独的中空结构组件。

该耳机在被佩戴时位于耳内部分的外壳的体积和形状可以配合人耳的耳道形状和尺寸设计，无需占用太大体积。

需要说明的是，本申请多数实施例中，外腔体与内腔体彼此独立设置，并不连通，以防止互相干扰。可选的，微型扬声器104位于外腔体和内腔体之间。

可选的，在一个实施例中，指向性麦克风102为驻极体电容器麦克风(ElectretCapacitance Microphone，ECM)或者微型机电系统(Micro-Electro-Mechanical Syste，MEMS)麦克风。第二麦克风103为MEMS麦克风。

本申请实施例还提供一种语音信号增强处理方法，适用于耳机，具体可基于上述实施例所阐述的耳机执行。参阅图2所示，该方法可以包括：

S201，接收第一语音信号和第二语音信号，第一语音信号和第二语音信号分别为基于第一位置、第二位置采集到的语音信号，第一位置和第二位置分别作为耳外语音信号采集点和耳内语音信号采集点。

S202，对第二语音信号进行回声抵消处理，得到第三语音信号。

S203，对第三语音信号和第一语音信号进行融合，获得第四语音信号并输出。

参阅图3所示，作为一个实施例，该方案可以首先通过第一麦克风接收人耳外部的多个第一语音信号，然后通过第二麦克风接收人耳内部的第二语音信号；并将所述多个第一语音信号和第二语音信号转换到频域中；然后对第二语音信号进行回声抵消处理以及频谱延拓处理得到第三语音信号；计算第一语音信号中各个频点的信噪比，通过所述信噪比对第一语音信号和第三语音信号进行融合处理得到第四语音信号，将第四语音信号转换到时域并输出。

为便于理解，下面结合上述实施例的耳机结构，对该方法进一步阐述：

第一麦克风104接收来自于耳外环境的第一语音信号的同时，第二麦克风106接收来自于耳内环境的第二语音信号，然后传输至音频处理器。

在一个实施例中，音频处理器对第一语音信号进行频域转换，并且对第二语音信号进行回声抵消处理以及频谱延拓处理得到第三语音信号。接下来，音频处理器，还用于计算第一语音信号中各个频点的信噪比，通过该信噪比对第一语音信号和第三语音信号进行融合处理得到第四语音信号；并将第四语音信号转换到时域后输出。

在一个实施例中，音频处理器还对第一语音信号进行滤波处理，然后将滤波处理后的第一语音信号与第三语音进行融合。

在一个实施例中，第一语音信号、第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声。

下面列举一个具体的实施例，对本申请提供的语音信号增强方法加以详细说明。

指向性麦克风(即第一麦克风104)，接收到的第一语音信号的时域信号x_i(n)为：

x_d(n)＝s_d(n)+d_s(n)+d_t(n) (1)

其中，s_d(n)、d_s(n)和d_t(n)分别为指向性麦克风接收到的目标语音信号、平稳态噪声和瞬态噪声；

耳内麦克风(即第二麦克风106)接收到的第二语音信号xⁿ(n)为：

其中，和/>分别为内耳麦克风接收到的目标语音信号、平稳态噪声和瞬态噪声；/>为内耳麦克风接收的耳机扬声器信号。

接下来，将外部麦克风在时域接收到的第一语音信号x_i(n)转换到频域中，例如，将时域中语音信号转换到频域中进行表示，可以通过快速傅里叶(FFT：Fast FourierTransform)实现。得到的第一语音信号x_i(n)在频域中的表达式为：

X_d(k,l)＝S_d(k,l)+D_s(k,l)+D_t(k,l) (3)

其中，X_d(k,l)、S_d(k,l)、D_s(k,l)和分别是s_d(n)、d_s(n)和d_t(n)的第l帧第k个频点短时谱。

然后，利用外部指向性麦克风接收第一语音信号，对接收的第一语音信号进行后滤波处理，得到滤波处理后的第一语音信号Y_Post(k,l)。

接下来，对第二语音信号进行回声抵消处理以及频谱延拓处理得到第三语音信号。其中，回声抵消处理，即回声消除处理(Acoustic Echo Cancellation,AEC),可采用已有技术中的回声消除算法中的任意一种，例如基于自适应滤波的回声消除算法，本申请实施例不再逐一列举。

可选的，在一个实施例中，在对第二语音信号进行回声抵消处理之后，还进行频谱延拓处理，以获得第三语音信号。其中，频谱延拓处理，可以采用已有技术下的任意一种频谱延拓处理算法，例如可以采用申请号为201810160791.2的专利申请中所记载的频谱延拓处理方式。

作为其中一种可实施方式，对耳内麦克风接收的第二声音信号进行回声抵消处理后得到信号Y_AEC(k,l)。然后，继续对Y_AEC(k,l)进行单通道语音增强处理和频谱延拓处理，并将延拓后的信号记为Y_Extend(k,l)。

同样地，此处进行的单通道语音增强处理，也可以采用已有技术下的任意一种语音增强处理方式，例如跨约束迭代的维纳滤波算法、基于码本的约束迭代维纳滤波算法等等。

例如，耳内麦克风用于接收1kHz以下的声音信号，在对接收的1kHz以下的声音信号进行频谱延拓处理时，需要将接收的1kHz以下的声音信号延拓至2kHz至3kHz。

接下来，音频处理器继续计算第一语音信号中各个频点的信噪比，通过该信噪比对第三语音信号和第一语音信号进行融合处理得到第四语音信号，然后将第四语音信号转换到时域并输出。例如，对第三语音信号中3kHz以下的声音信号的各频点的信噪比进行估计。信噪比(signal-to-noise ratio)可依据语音处理技术领域中已有的多种计算方式中的任意一种确定，本申请不逐一列举。

在该实施例中，可以按照如下方法基于信噪比进行语音信号融合：

首先，确定分界频点；在第三语音信号的频率小于或者等于分界频点时，对第一语音信号和第三语音信号进行加权求和，加权求和的各项权重基于信噪比确定；在第三语音信号的频率大于分界频点时，将第一语音信号作为融合后的第四语音信号。

具体地，基于信噪比进行融合的语音增强处理算法流程图参阅图4所示。对第一语音信号Y_Post(k,l)进行风噪声估计，并估计3kHz以下各频点的信噪比。

根据该信噪比对第一语音信号Y_Post(k,l)和第三语音信号Y_Extend(k,l)进行加权处理，并且信噪比越高Y_Post(k,l)的加权权重β(k,l)越大，加权公式如下：

其中k_M为融合时的分界频点。关于加权权重β(k,l)的确定，可预先构建一个映射表，根据多次仿真测试结果，记录信噪比与权重的映射关系，根据该映射表即可获得相应的权重β(k,l)。

然后，优选地，对加权融合后得到的混合信号Y_mix(k,l)进行平滑处理，得到融合输出信号Y_out(k,l)，经逆傅里叶变换后得到最终的时域输出信号y_out(n)。

已有技术中，使用麦克风阵列进行语音增强的耳机，不仅体积较大，且对于麦克风器件与组装精度要求高，良品率相对较低，生产成本高，另外，对于户外风噪干扰，位于耳机外部的麦克风阵列容易被风噪饱和从而导致无法拾取人声信息，基于阵列技术的方法在低信噪比情况下性能会严重退化。

本申请提供的上述基于外部指向性麦克风与耳内麦克风的语音降噪方法与耳机，可解决现有产品中语音增强效果与耳机体积之间的矛盾，以及解决小体积耳机拾音效果不佳、麦克风阵列耳机加工成本高等问题。本申请一方面考虑利用外部的指向性麦克风指向性采集佩戴者语音信号，即指向性设计为定向采集佩戴者嘴部位置发出的语音信号，而抑制来自于耳外环境中其他方向的语音信号，提升拾取到的佩戴者语音的质量，另一方面，通过耳内麦克风接收耳道内佩戴者低频声信号，对耳内麦克风低频信号进行提取及增强，并将增强后的信号进行频谱拓展，然后与指向性麦克风输出信号进行融合，得到增强后佩戴者语音信号。

其中，本申请在不使用振动传感器和骨导传声器的情况下，通过内耳传声器(即麦克风)有效提取佩戴者的中低频语音信号，经回声消除、频谱拓展等处理，与耳机壳外指向性麦克风输出结果进行有效融合，得到最终增强语音信号，能在大噪声环境下取得比传统双麦算法更好的效果。经实验测试，该方案可以在低信噪比及多说话人干扰等复杂声学场景下，有效拾取佩戴者语音并抑制其他噪声，为后续的语音通话及语音识别技术提供重要依据。且由于仅需设置两个麦克风，相应的耳机产品体积小，更为轻便，提高了耳机的便携性，并且由于无需设置麦克风阵列、装配复杂度低，降低了耳机生产制造成本。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.一种语音信号增强处理方法，其特征在于，所述方法适用于耳机，所述耳机至少包括壳体、第一麦克风、第二麦克风；所述壳体开有至少两个入声孔，第一入声孔和第二入声孔，分别通向所述第一麦克风，所述第一麦克风位于外腔体，所述外腔体与所述第一入声孔和第二入声孔连通，所述第一麦克风感应通过第一入声孔和第二入声孔进入的语音信号；所述第二麦克风位于内腔体中，所述内腔体与所述壳体一体，所述外腔体与内腔体相互独立设置；所述内腔体设置有开孔朝向耳道方向的第三入声孔，所述第三入声孔用于第二麦克风采集通过第三入声孔进入内腔体的第二语音信号，所述方法包括：

所述第一麦克风获取第一语音信号，所述第一语音信号为基于第一位置采集到的两路声压与相位有差异的声波，所述第一位置作为耳外语音信号采集点；

所述第二麦克风获取第二语音信号，所述第二语音信号为基于第二位置采集到的语音信号，所述第二位置作为耳内语音信号采集点；

所述第一语音信号和第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声；所述第二语音信号还包括扬声器信号；

对所述第二语音信号至少进行回声抵消处理，得到第三语音信号；

对所述第三语音信号和所述第一语音信号进行融合，获得第四语音信号并输出。

2.根据权利要求1所述的方法，其特征在于，对所述第三语音信号和所述第一语音信号进行融合，包括：

计算所述第一语音信号中各个频点的信噪比，基于所述信噪比对所述第一语音信号和所述第三语音信号进行融合处理。

3.根据权利要求2所述的方法，其特征在于，基于所述信噪比对所述第一语音信号和所述第三语音信号进行融合处理，包括：

确定分界频点；

在所述第三语音信号的频率小于或者等于所述分界频点时，对所述第一语音信号和所述第三语音信号进行加权求和，加权求和的各项权重基于所述信噪比确定；

在所述第三语音信号的频率大于所述分界频点时，将所述第一语音信号作为融合后的所述第四语音信号。

4.根据权利要求1所述的方法，其特征在于，所述第一语音信号通过第一麦克风接收，所述第一麦克风为指向性麦克风，用于指向性接收目标方向上的语音信号，并对其他方向入射的语音信号进行抑制。

5.根据权利要求1所述的方法，其特征在于，接收第一语音信号和第二语音信号之后，对所述第二语音信号进行回声抵消处理之前，还包括：

将所述第一语音信号和所述第二语音信号转换到频域；

获得第四语音信号之后，还包括：

将所述第四语音信号转换到时域并输出。

6.一种耳机，其特征在于，包括第一麦克风、第二麦克风和音频处理器；

所述第一麦克风设置于第一位置，用于采集第一语音信号，所述第一语音信号为基于第一位置采集到的通过第一入声孔和第二入声孔的两路声压与相位有差异的声波；所述第二麦克风设置于第二位置，用于采集第二语音信号；其中，所述第一位置和所述第二位置分别作为耳外语音信号采集点和耳内语音信号采集点；所述第一语音信号和第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声；所述第二语音信号还包括扬声器信号；

所述音频处理器，用于对所述第二语音信号至少进行回声抵消处理，得到第三语音信号，以及对所述第三语音信号和所述第一语音信号进行融合，获得第四语音信号并输出；

用于放置所述第一麦克风的外腔体，所述第一麦克风为指向性麦克风，具有朝向远离耳道方向设置的第一入声孔和第二入声孔，所述外腔体与所述第一入声孔以及所述第二入声孔连通；所述第一麦克风信号连接至所述音频处理器；

以及，用于放置第二麦克风的内腔体，所述第二麦克风信号连接至所述音频处理器所述内腔体与所述外腔体相互独立设置；

所述第二麦克风具有第三入声孔，所述第三入声孔于朝向耳道的方向设置。

7.根据权利要求6所述的耳机，其特征在于，还包括：

微型扬声器，位于所述外腔体与所述内腔体之间，信号连接至所述音频处理器。