CN118072752A

CN118072752A - Ows耳机的语音增强方法、系统、耳机及存储介质

Info

Publication number: CN118072752A
Application number: CN202410168727.4A
Authority: CN
Inventors: 陈文明; 张世明; 吕周谨; 张洁; 尚天赐; 刘林
Original assignee: Shenzhen Emeet Technology Co ltd
Current assignee: Shenzhen Emeet Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-24

Abstract

本发明提出一种OWS耳机的语音增强方法、系统、耳机及存储介质，应用于语音增强技术领域，该方法包括：通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号；通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号；对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号。本发明技术方案旨在降低语音增强过程中语音信号的失真度。

Description

OWS耳机的语音增强方法、系统、耳机及存储介质

技术领域

本发明涉及语音增强技术领域，尤其涉及一种OWS耳机的语音增强方法、系统、耳机及存储介质。

背景技术

在通信时，噪声和回声将严重影响通信语音的清晰度和可懂度，并且，当噪声高到一定程度时，不但通信无法进行，而且会对人的听力和身心健康产生伤害。因此，为了保证用户佩戴耳机时的通话质量，OWS耳机中往往会利用语音增强技术对近端远端进行语音数据的处理和优化。

现如今，由于难以准确地估计和建模噪声特性、对语音分布假设的不准确性、无法获取所有样本数据以及算法复杂度较高等因素，常常导致语音增强后的语音信号失真度较高。

因此，在进行语音增强时，如何降低语音信号的失真度，是本领域技术人员尚待解决的技术问题。

发明内容

本发明提出一种OES耳机的语音增强方法、系统、耳机及存储介质，旨在降低语音信号的失真度。

为实现上述目的，本发明提出一种OWS耳机的语音增强方法，所述OWS耳机的语音增强方法应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面；

所述OWS耳机的语音增强方法包括：

通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号；

通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号；

对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号。

可选地，在所述通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号的步骤之前，所述方法还包括：

获取预设的滤波器的系数更新模型，其中，所述系数更新模型包括目标滤波器系数与步长因子、当前滤波器系数的映射关系；

基于当前实际滤波器系数、实际步长因子、所述映射关系，计算实际目标滤波器系数，并按照所述实际目标滤波器系数对所述滤波器的系数进行更新。

可选地，在所述对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱的步骤之前，所述方法还包括：

对所述第一降噪语音信号进行加窗、快速傅里叶变换处理，并对所述降噪参考信号进行加窗、快速傅里叶变换处理。

可选地，双麦协调降噪包括：时间差异计算、噪声估计和频域滤波，所述对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱的步骤，包括：

确定所述第一降噪语音信号的第一交叉功率谱密度、确定所述降噪参考信号的第二交叉功率谱密度和确定所述第一降噪语音信号和所述降噪参考信号的第三交叉功率谱密度；

对所述第一交叉功率谱密度和所述第二交叉功率谱密度进行时间差异计算，得到时间差异值；

根据所述时间差异值和所述第三交叉功率谱密度进行噪声估计，得到噪声密度；

将所述第一交叉功率谱密度、所述第二交叉功率谱密度、所述第三交叉功率谱密度、所述噪声密度输入预设的滤波器模型中，得到频域滤波器；

根据所述频域滤波器对所述第一降噪语音信号进行滤波，得到语音增强后的语音频谱。

可选地，所述根据所述语音频谱生成语音增强后的语音信号的步骤，包括：

对所述语音频谱进行逆快速傅里叶变换，得到时域信号，并对所述时域信号进行加窗、重叠长度分析，以得到语音增强后的语音信号。

对所述语音信号进行基音检测，得到所述语音信号的基音频率，并计算所述基音频率的过零率；

在检测到所述过零率大于或者等于预设阈值时，则对所述语音信号进行补偿，以增强语音信号。

可选地，所述对所述语音信号进行补偿的步骤，包括：

通过预设的权值滤波器对所述语音信号的所述基音频率的倍频进行同相位谐波补偿；

获取所述语音信号的平均幅度，并通过与所述平均幅度对应预设的补偿滤波器对所述语音信号进行幅度补偿。

此外，本发明还提出一种OWS耳机的语音增强系统，所述OWS耳机的语音增强系统应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面；

所述OWS耳机的语音增强系统包括：

回声消除模块，用于通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号；

能量均衡模块，用于通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号；

双麦协调降噪模块，用于对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号。

此外，本发明还提出一种OWS耳机，所述OWS耳机包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的OWS耳机的语音增强程序，所述OWS耳机的语音增强程序被所述处理器执行时实现如上所述的OWS耳机的语音增强方法的步骤。

此外，本发明还提出一种存储介质，所述存储介质上存储有OWS耳机的语音增强程序，所述OWS耳机的语音增强程序被处理器执行时实现如上所述的OWS耳机的语音增强方法的步骤。

在本发明实施例中，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面。本发明通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号，能够在通过前腔出音嘴设置于耳道相对的位置，后腔出音嘴设置于耳挂下方位置以去除低频信号的回声基础上，通过滤波器对待处理语音信号的中高频信号进行回声消除；然后通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号，能够将主麦克风采集的信号与次麦克风采集的信号的能量进行平衡，以提高降噪精度；然后对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号，能够基于主次麦克风的空间位置差异和语音与噪声的相关性假设进行高精度降噪，可以更精确地分离和抑制噪声，从而降低语音信号的失真度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的OWS耳机硬件运行环境的设备结构示意图；

图2为本发明OWS耳机的语音增强方法第一实施例的流程示意图；

图3为本发明OWS耳机的语音增强方法一实施例的耳机示意图；

图4为本发明OWS耳机的语音增强方法一实施例的前腔出音嘴和后腔出音嘴位置示意图；

图5为本发明OWS耳机的语音增强方法一实施例的坐标示意图；

图6为本发明OWS耳机的语音增强方法一实施例的另一出音嘴位置示意图；

图7为本发明OWS耳机的语音增强方法一实施例的回声消除原理示意图；

图8为本发明OWS耳机的语音增强方法一实施例的传统滤波器示意图；

图9为本发明OWS耳机的语音增强方法一实施例的双麦降噪流程示意图；

图10为本发明OWS耳机的语音增强方法一实施例的频谱增强示意图；

图11为本发明OWS耳机的语音增强系统一实施例的功能模块示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，图1是本发明实施例方案涉及的OWS耳机硬件运行环境的设备结构示意图。

如图1所示，在OWS耳机的硬件运行环境中，该OWS耳机可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括无线接口。网络接口1004可选的可以包括无线接口。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的OWS耳机结构并不构成对OWS耳机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及OWS耳机的语音增强程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的OWS耳机的语音增强程序，并执行以下操作：

基于上述本发明OWS耳机的语音增强方法的硬件结构，提出本发明OWS耳机的语音增强方法各个实施例的整体构思。

现如今，通常通过提高信噪比的方式得到比较纯净的语音信号。但是，信噪比降噪并不能完全消除所有类型的噪声和干扰，因此，语音信号仍然可能存在一些失真。

为解决上述问题，本发明提出一种OWS耳机的语音增强方法。

基于上述本发明OWS耳机的语音增强方法各个实施例的整体构思，提出本发明OWS耳机的语音增强方法的各个实施例。

需要说明的是，本发明OWS耳机的语音增强方法各个实施例的执行主体为OWS耳机。为便于阐述，在以下实施例中，均省略执行主体进行阐述。

请参照图2，图2为本发明OWS耳机的语音增强方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，当然可以以不同于此处的顺序执行本发明OWS耳机的语音增强方法的各个步骤。

在本实施例中，所述OWS耳机的语音增强方法应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面。

需要说明的是，请参照图3，对于OWS耳机，因为次麦克风和耳机中的主体扬声器相隔非常近，大约3mm左右，主体扬声器发出的声音次麦克风很容易就收到了，这对于AEC(回声消除)来说是比较糟糕的；相对地，由于话务杆距离主体扬声器部分的距离较远，收到的回声信号幅度非常小，因此，使用LMS算法和后置滤波即可处理到较好的程度。

在本实施例中，通过调整前腔出音孔、后腔出音孔的大小、位置来实现声波的抵消。以达到在相同的距离下降低麦克风拾取到喇叭发出的声音，也就是喇叭发出的声音泄露要最小的目的。

请参照图4-图6，在一种可行的实施例中，隔绝前后腔体，再对泄音孔大小进行调整，就可以调整音质。在正常佩戴时，先确定前腔出音嘴的大小和位置要正对耳道，前腔出音嘴的大小和位置主要满足音质，然后在根据泄露的大小确定后腔出音嘴的大小和位置，经过调试，前腔出音嘴的长度要求8～11mm，以I TU规定的EEP空间坐标系原点,EEP朝向耳朵的外侧为Z轴正半轴,EEP朝向耳朵的前侧为Y轴正半轴,EEP朝向耳朵的上侧为X轴正半轴；所述前出声孔的出音端的坐标位于(14.2，-1.42，4.63)至(13.7,7.92,6.21)；后腔孔长度要求10～16mm,以I TU规定的EEP空间坐标系原点,EEP朝向耳朵的外侧为Z轴正半轴,EEP朝向耳朵的前侧为Y轴正半轴,EEP朝向耳朵的上侧为X轴正半轴；所述前出声孔的出音端的坐标位于(22.02,-2.07,18.4)至(20.9,12.47,12.93)，通过上述大小和位置可以使整个耳机20～3KHz的声音泄露降低30dB，声波抵消了大部分。

在本实施例中，所述OWS耳机的语音增强方法包括：

步骤S10，通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号；

需要说明的是，待处理语音信号中的回声主要是中高频回声，原因在于，上述耳机结构能够抵消低频回声。待处理语音信号中包括近端说话人声以及环境噪声。

在本实施例中，在通过主麦克风获取待处理语音信号后，能够通过预设的滤波器对待处理语音信号进行滤波，从而滤除待处理语音信号中的中高频回声，并将滤除中高频回声后的待处理语音信号作为第一语音信号。

可以理解的是，用于滤除中高频回声的滤波器系数，可以是本领域技术人员根据专家经验预先设置的。在一种可行的实施例中，滤波器还能够根据语音信号的差异，不断更新，以提高滤波效果。

可选地，在一种可行的实施例中，在上述步骤S10之前，所述方法还包括：

步骤X,获取预设的滤波器的系数更新模型，其中，所述系数更新模型包括目标滤波器系数与步长因子、当前滤波器系数的映射关系；

步骤Y，基于当前实际滤波器系数、实际步长因子、所述映射关系，计算实际目标滤波器系数，并按照所述实际目标滤波器系数对所述滤波器的系数进行更新。

可以理解的是，滤波器可以是自适应滤波器，系数更新模型可以是公式，而目标滤波器系数则是通过映射关系计算得到的下一个周期或者下一个语音信号段的滤波器系数。步长因子则是一个常数，用于控制算法的收敛速度和稳定性。在LMS(最小均方)算法中，步长因子用于调整滤波器系数，以最小化误差信号的均方误差。而当前实际滤波器系数表示实际滤波过程中，当前的滤波器的系数，实际步长因子指的是实际滤波过程中，控制算法收敛速度和稳定性的常数，实际目标滤波器系数则是实际滤波过程中，通过系数更新模型计算的滤波器系数。

在本实施例中，在自适应滤波器不断更新滤波器系数时，还能够获取预先设定的自适应滤波器的系数更新模型，进而能够在获取当前的实际滤波器系数、实际步长因子后，将实际滤波器系数、实际步长因子输入该系数更新模型中，从而得到下一个周期或者下一个语音信号段的滤波器系数，即，得到目标滤波器系数，并按照目标滤波器系数对滤波器的系数进行更新。从而，提高回声消除效果。

作为一种示例，请参照图7，其中，图中y(n)代表来自远端的信号,r(n)是经过回声通道而产生的回声，x(n)是近端的语音信号，C是耳机内的扬声器，H(z)是回声通道代表的冲激响应，u(n)是经过回声的信号，D端是近端麦克风，s(n)是麦克风采集到的房间叠加的回声r(n)和近端说话人的语音x(n)，z是频率响应的对应频率，n是语音信号中的采样点，代表时间。对回声消除器来说，接收到的远端信号作为一个参考信号，回声消除器根据参考信号由自适应滤波器产生回声的估计值r^(n)，将r^(n)从近端带有回声的语音信号减去，就得到近端传送出去的信号。在理想且是单讲(x(n)＝0)的情况下，经过回声消除器处理后，残留的回声误差e(n)＝r(n)–r^(n)将为0，从而实现完美的回音消除。若是双讲的情况(近端有人说话，远端也在说话，而且还存在回声的情况下)，回声误差e(n)对应于近端的语音信号。

假设图中的自适应滤波器为一个N阶滤波器，它的参数为w(n)，则滤波器输出为:

其中，i表示和w(n)进行卷积的x(n)从第i个采样点之前开始，y(n)表示上图滤波器的输出，N表示滤波器的阶数，T表示矩阵的转置。

期望输出为d(n)，则误差信号e(n)可以定义为：

e(n)＝d(n)-y(n)＝d(n)-w^T(n)x(n)。

我们的目标就是将误差e(n)最小化，采用最小均方误差(MMSE)准则，最小化目标函数为：

J(w)＝E{|e(n)|²}；

计算目标函数J(w)对w的导数令导数为0，则滤波器系数的更新公式(系数更新模型)可以写为：

w(n+1)＝w(n)+μe(n)X(n)；

w(n+1)为下一个循环的滤波器的系数更新，w(n)为当前帧(采样点)的滤波器系数，X(n)为x(n)的自相关矩阵。

上式中的μ为步长因子。μ值越大，算法收敛越快，但稳态误差也越大；μ值越小，算法收敛越慢，但稳态误差也越小。为保证算法稳态收敛，μ的取值范围为：

此外，考虑到之前对放音腔体进行处理，导致回声信号在低频下有很大的衰减。在当前块输出后，使用后置滤波器对低频部分做额外补偿，还能够尽可能保留更多人声语音部分。

步骤S20，通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号；

需要说明的是，参考信号是远端传递至OWS耳机中，而OWS耳机中喇叭输出的信号。

在本实施例中，在得到参考信号和第一语音信号后，对参考信号进行EQ处理，该处理基于耳机结构特征，意在补偿因为传播路径导致的参考信号失真。同时对第一语音信号进行高通滤波处理(HPF)以去除低频的能量干扰和噪声。然后，通过预设的不对称串扰自适应滤波器对EQ处理后的参考信号和高通滤波处理后的第一语音信号进行降噪，以得到第一降噪语音信号(降噪后的第一语音信号)和降噪参考信号(降噪后的参考信号)。

需要说明的是，本发明提到的不对称串扰自适应滤波器的信号处理流程与传统不对称串扰自适应滤波器的信号处理流程不同。请参照图8-图9，图8为传统不对称串扰自适应滤波器的信号处理流程，图9中ACTRANC下方的虚线框框住的内容为本申请采用的不对称串扰自适应滤波器的信号处理流程。

在图8中，主麦克风为primary Mic，次麦克风为secondary mic，P(n)为主麦克风的信号，R(n)为参考麦克风的信号，VAD1为第一语音判断器，VAD2为第二语音判断器，通过能量判断P(n),R(n)中的信号类型。y1(n)为自适应滤波器W₁(z)z^-1的输出，y2(n)为自适应滤波器W₂(z)z^-1的输出。W₁(z)z^-1为第一自适应滤波器，W₂(z)z^-1为第二自适应滤波器，z^-D为P(n)经过一个长度为D的延迟，与R(n)在时间上对齐。e1(n)为经过自适应滤波器W₁(z)z^-1处理的P(n)的输出，e2(n)为经过自适应滤波器W₂(z)z^-1}处理的R(n)的输出。其中，与图8中ACTRANC的处理逻辑相比，本发明优化了能量判断的方法，使用了归一化的能量算子，同时引入了自相关互相关功率谱来更好的对噪声进行估计来替代VAD1，VAD2的判断。

步骤S30，对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号。

需要说明的是，双麦协调降噪包括时间差异计算、噪声估计和频域滤波处理。可以理解的是，由于主麦克风采集的信号将传递至远端，因此，语音增强后的语音频谱是与第一降噪语音信号对应的。

在本实施例中，在得到第一降噪语音信号和降噪参考信号后，还能够对第一降噪语音信号和降噪参考信号进行时间差异计算、噪声估计和频域滤波处理，从而能够得到第一降噪信号对应的语音增强后的语音频谱，然后根据语音频谱生成语音增强后的语音信号。

请继续参照图9，可选地，在一种可行的实施例中，上述步骤S30，包括：

步骤S301，确定所述第一降噪语音信号的第一交叉功率谱密度、确定所述降噪参考信号的第二交叉功率谱密度和确定所述第一降噪语音信号和所述降噪参考信号的第三交叉功率谱密度；

需要说明的是，交叉功率谱密度是一个用于描述两个信号之间关系的数学工具，特别是在信号处理和通信领域。它描述了两个信号在频域上的相互关系。具体来说，交叉功率谱密度可以用来分析信号的频率成分以及两个信号之间的相位关系。在信号处理中，交叉功率谱密度通常用于频域分析和滤波器设计。在通信中，交叉功率谱密度可以用于调制和解调信号，以及分析信号的频谱特性和干扰特性。

因此，第一交叉功率谱密度(P_x2x2(f,n))是计算第一降噪语音信号(X2(f，n))与其自身的交叉功率谱密度，第二交叉功率谱密度P_x1x1(f,n)是计算降噪参考信号(X1(f，n))与其自身的交叉功率谱密度，而第三交叉功率谱密度P_x1x2(f,n)是计算第一降噪语音信号与降噪参考信号的交叉功率谱密度。其中，计算两个信号的交叉功率谱密度是现有成熟技术，本发明在此不再赘述。

步骤S302，对所述第一交叉功率谱密度和所述第二交叉功率谱密度进行时间差异计算，得到时间差异值；

需要说明的是，时间差异计算指的是TEO Estimation，是一种用于估计时间延迟和偏移(Time Delay and Offset，简称TEO)的方法。TEO Estimation通常使用相关函数或互功率谱密度(Cross-Power Spectral Density,CPSD)来计算两个信号之间的时间延迟和偏移，即，得到时间差异值R_TEO。

在本实施例中，本发明还通过时间差异计算的方式，以得到第一降噪语音信号和降噪参考信号中的噪声水平。

步骤S303，根据所述时间差异值和所述第三交叉功率谱密度进行噪声估计，得到噪声密度；

需要说明的是，噪声估计为现有成熟方法，本发明对此不作限定。

在本实施例中，在确定第一降噪语音信号和降噪参考信号中的噪声水平后，还能够根据噪声水平和第三交叉功率谱密度进行噪声估计，从而得到噪声密度P_N1N2(f,n)。

步骤S304，将所述第一交叉功率谱密度、所述第二交叉功率谱密度、所述第三交叉功率谱密度、所述噪声密度输入预设的滤波器模型中，得到频域滤波器；

步骤S305，根据所述频域滤波器对所述第一降噪语音信号进行滤波，得到语音增强后的语音频谱。

作为一种示例，请继续参照图9，近端嘈杂信号在时频域中，可以表示为Xi(f,n)，并可以定义如下公式:

Xi(f,n)＝Si(f,n)+Ni(f,n)i＝1,2；

其中，i为1，表示参考信号，i为2表示第一降噪语音信号，Si(f,n)和Ni(f,n)分别代表干净语音和噪声(noise)在时频域的表示，f和n分别代表频段索引(index)和帧数索引(index)，其中处理的主要过程为：基于x2(t)的频谱，从x2(t)的幅度谱中提取出语音特征，然后将语音特征转换回时域即可得出预测干净语音s(t)。因此与x_2(t)对应的麦克风一般是主麦克风，即离声源最近的麦克风，x1(t)对应的麦克风一般是参考麦克风，一般离声源较远，但是和主要麦克风保持一定距离，用来拾取主麦克风周围噪声特征。提取语音特征的方法是将两个麦克风的信号进行处理，得出基于频域的滤波器H(f,n)，将X2(f,n)与H(f,n)相乘即可得出语音频谱。

其中，两个麦克风之间的幅度相干函数公式如下：

其中，Γ_X1X2(f,n)指的是X1X2的幅度相干函数。

其中P_X1X2(f,n)并不是一般意义上的交叉功率谱密度，而是有迭代性。其中，交叉功率谱密度的计算公式为：

P_XiXj(f,n)＝λ_xP_XiXj(f,n-1)+(1-λ_x)X_i(f,n)X_j(f,n)；

其中，i和j的取值为1或者2，λx是迭代平滑系数，一般取0.7。之所以使用交叉功率谱是因为当存在有效语音的时候，两个麦克风收集到的语音信号之间是相干的，但是两个麦克风收集到的噪声信号却不是相干的，相干性体现在交叉功率谱密度的值上，当相干的时候数值会变大，反之则变小。基于上述原理，可以获得基于干净语音的滤波器：

上面公式就是谱减法精髓，通过预测出噪声交叉功率谱密度从麦克风交叉功率谱密度中相减得到预测干净语音的交叉功率谱密度。

但该方法需要准确的进行噪声估计。因此我们引入TEO方法帮助判断预测。在本实施例中，采用了Teageer并由Kaiser描述的非线性能量算子，进行功率谱计算

Φ[x(n)]＝x(n)*x(n)-x(n+1)x(n-1)；

其中，Φ代表TEO，x(n)是语音信号采样点。为了克服脉冲高能量干扰的实例，实际中通常使用N个采样点组成的分析窗口，而不是上面公式使用的三个采样点。在实际中，通过以下公式计算时间差异值：

其中，指的是原始信号在能量算子下的能量值。

那么根据上式可以得出e1和e2和TEO定义以及TEO rate：

其中，e1、e2是图8中两个自适应滤波器对信号的输出，是语音信号的能量算子下能量值，/>是噪声信号的能量算子下的能量值。

TEO的加入可以使语音和噪声之前的特征分离更加明显。估计噪声谱在频域内进行，将时域的帧长进行时频变换，时频变换满足如下公式：

STFT(y(n))＝Y(k,l)；

其中k是频段索引，l是时间帧索引，STFT(y(n))是对y(n)做快速短时傅里叶变换，Y(k,l)是y(n)的快速短时傅里叶变换的时频域表示。

对每一帧的时域信号都要进行加窗操作，频域内的信号具体可以表示如下：

h是长度为N的分析窗，M是帧更新步长。总的来说就是每次取帧移的数据，比如128的帧移，然后取N的帧长，比如256帧长，所以每一帧的前后都会有重叠的地方，每次取完一帧之后都会进行加窗操作，防止频谱泄露。从而，能够得到语音增强后的语音频谱。

可选地，在一种可行的实施例中，在上述步骤S30之前，所述方法还包括：

步骤S40，对所述第一降噪语音信号进行加窗、快速傅里叶变换处理，并对所述降噪参考信号进行加窗、快速傅里叶变换处理。

在本实施例中，通过分别对第一降噪语音信号和降噪参考信号进行加窗、快速傅里叶变换处理的方式，能够将时域的信号转化为频域的信号，以便后续在频域进行进一步滤波。

可选地，在一种可行的实施例中，在上述步骤S30还包括：

步骤S306，对所述语音频谱进行逆快速傅里叶变换，得到时域信号，并对所述时域信号进行加窗、重叠长度分析，以得到语音增强后的语音信号。

在本实施例中，本发明还通过将频域的信号通过逆快速傅里叶变换、加窗、重叠长度分析的方式,将频域增强后的信号转化为时域的语音增强后的信号。

在本实施例中，本发明基于主次麦克风的空间位置差异和语音与噪声的相关性假设进行高精度降噪，可以更精确地分离和抑制噪声，从而降低语音信号的失真度。

进一步地，基于上述本发明OWS耳机的语音增强方法的第一实施例，提出本发明OWS耳机的语音增强方法的第二实施例。

在本实施例中，在上述步骤S30之后，所述方法还包括:

步骤S50，对所述语音信号进行基音检测，得到所述语音信号的基音频率，并计算所述基音频率的过零率；

步骤S60，在检测到所述过零率大于或者等于预设阈值时，则对所述语音信号进行补偿，以增强语音信号。

可以理解的是，经过回声消除和降噪后的音频已经是可以正常提供给用户的音频，但是由于算法处理在高回声/高噪声环境下会导致语音的清晰度，可懂度下降，我们需要使用频谱增强的方法对语音信号进行补偿。由此，使用基音检测(pitch detach)算法和频谱恢复算法对语音信号进行增强处理。其中，基音检测包括：滤波和周期检测函数(PDF)计算，能够通过追踪PDF最大值获取候选Pitch(基音频率)，通过音量/纯净度阈值去除不可靠的pitch，通过插值优化结果，并通过中值滤波进行结果的平滑。

此外，常用的周期检测函数分为两类，自相关函数法和短时平均幅度差法。由于我们前面已经进行了降噪回声消除等各种处理，此处我们选用自相关函数法进行为周期检测函数。为了进一步优化效果，此处我们使用的是归一化互相关函数方差基音检测算法。另外，由于图9中的滤波一部分工作已经由降噪/回声消除过程完成。因此，我们的滤波部分可以直接进行去均值、低通滤波和数值滤波处理。此外，基音频率的过零率是指语音信号中基音频率波形穿越零电平的次数。

请参照图10，由于人语音频率的限制，能够对信号进行去除直流分量(去直流通常是通过减去信号的平均值来实现的)，然后进行低通滤波，数值滤波后进行后续处理。其中，周期检测函数的检测步骤为：假设原本的frame(帧)为s(t),t＝0…n-1，移动后的frame为s(t-τ)也即向后移动τ个采样点，则acf(τ)指的是，即对两帧的重合部分相乘相加，重合的长度为n-τ。τ越大，重合长度越短。则其实质为截断(truncated)ACF。在此基础上，对信号进行方差归一化处理，可得：

其中，nsdf(τ)指的是对ACF的改进，方差归一化截断自相关。

周期检测函数能够通过追踪PDF最大值获取候选Pitch、能量纯净度阈值，并去除不可靠的pitch，其中，去除不可靠的pitch的步骤可以是：选取周期检测函数在不同τ下的最大值作为音高点，选定后使用带通滤波器进行处理，确认处理后pitch的幅度大小，如果小于阈值(PDFth)认为是假pitch不做增强，大于阈值后，调整带通滤波器的中心频率为正负50Hz。如果调整后的pitch幅度大于原pitch，认定调整后的pitch为中心pitch，并继续这一步骤。

此外，通道效应(channel effect)可能会导致pitch track出现错误，即声带信号经过口腔鼻腔等会发生变形，希望找到声带原始信号。我们可将当前信号s(t)表示为前面m个信号的线性组合：

s(t)＝a₁s(t-1)+a₂s(t-2)+…+s_ms(t-m)+e(n)；

然后利用平方最小法寻找最佳系数a₁,a₂,…,a_m使得∑e²(n)最小，则e(n)便是原始激发信号(excitation signal)。即：线性预测误差信号就是原始激发信号。然后再使用平滑和插值方法移除音高突变和提高音高精确度。利用pitch和pitch旁边的点确认最大值位置。最后利用过零率和预设阈值判定是否为语音信号，若是语音信号，则对语音信号进行补偿。

可选地，在一种可行的实施例中，上述步骤S60，包括：

步骤S601，通过预设的权值滤波器对所述语音信号的所述基音频率的倍频进行同相位谐波补偿；

步骤S602，获取所述语音信号的平均幅度，并通过与所述平均幅度对应预设的补偿滤波器对所述语音信号进行幅度补偿。

在本实施例中，在确定了基音频率后，需要确定基音频率的倍频成分。倍频成分是指基音频率的整数倍，然后设计一个权值滤波器。这个滤波器的作用是调整语音信号中基音频率和倍频成分的幅度。通过调整滤波器的权值，可以使得滤波后的信号与原始语音信号具有相同的相位。通过设计的权值滤波器对语音信号进行处理，对基音频率和倍频成分进行同相位谐波补偿。补偿的目的是减小谐波成分对语音信号的影响，提高语音信号的质量。

并且，语音信号的平均幅度可以反映语音信号的整体强度。因此，可以通过对语音信号的所有样本值求绝对值，然后求和，最后除以样本数量，得到平均幅度。进而根据计算出的平均幅度，选择一个预设的补偿滤波器。这个滤波器的作用是调整语音信号的幅度，以消除幅度波动，提高信号的稳定性。然后通过选择的补偿滤波器对语音信号进行处理，对信号的幅度进行补偿。补偿的目的是使得处理后的语音信号具有稳定的幅度，从而提高语音信号的可懂度和清晰度。

在本实施例中，本发明还通过归一化互相关函数方差基音检测算法实现的基音检测和频谱增强的方式，进一步提高了增强后的语音信号的清晰度和可懂度。

此外，本发明还提出一种OWS耳机的语音增强系统，所述OWS耳机的语音增强系统应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面。

请参照图11，所述OWS耳机的语音增强系统包括：

回声消除模块10，用于通过所述主麦克风获取待处理语音信号，并通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号；

能量均衡模块20，用于通过所述次麦克风获取参考信号，并通过预设的不对称串扰自适应降噪器对所述第一语音信号和所述参考信号进行降噪，得到第一降噪语音信号和降噪参考信号；

双麦协调降噪模块30，用于对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱，并根据所述语音频谱生成语音增强后的语音信号。

可选地，所述OWS耳机的语音增强系统还包括：

模型获取模块，用于获取预设的滤波器的系数更新模型，其中，所述系数更新模型包括目标滤波器系数与步长因子、当前滤波器系数的映射关系；

滤波器系数更新模块，用于基于当前实际滤波器系数、实际步长因子、所述映射关系，计算实际目标滤波器系数，并按照所述实际目标滤波器系数对所述滤波器的系数进行更新。

可选地，所述OWS耳机的语音增强系统还包括：

预处理模块，用于对所述第一降噪语音信号进行加窗、快速傅里叶变换处理，并对所述降噪参考信号进行加窗、快速傅里叶变换处理。

可选地，双麦协调降噪包括：时间差异计算、噪声估计和频域滤波，双麦协调降噪模块，还用于：

可选地，双麦协调降噪模块，还用于：

可选地，所述OWS耳机的语音增强系统包括：

基音检测模块，用于对所述语音信号进行基音检测，得到所述语音信号的基音频率，并计算所述基音频率的过零率；

频谱增强模块，用于在检测到所述过零率大于或者等于预设阈值时，则对所述语音信号进行补偿，以增强语音信号。

可选地，频谱增强模块还用于：

其中，上述OWS耳机的语音增强系统中各个模块的功能实现与上述OWS耳机的语音增强方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本发明还提出一种OWS耳机，该OWS耳机包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的OWS耳机的语音增强程序，所述OWS耳机的语音增强程序被所述处理器执行时实现如上所述本发明OWS耳机的语音增强方法的步骤。

本发明OWS耳机的具体实施例与上述OWS耳机的语音增强方法各实施例基本相同，在此不作赘述。

此外，本发明还提出一种存储介质，该存储介质上存储有OWS耳机的语音增强程序，该OWS耳机的语音增强程序被处理器执行时实现如上所述本发明OWS耳机的语音增强方法的步骤。

本发明存储介质的具体实施例与上述OWS耳机的语音增强方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是车载电脑，智能手机，计算机，或者服务器等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种OWS耳机的语音增强方法，其特征在于，所述OWS耳机的语音增强方法应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面；

所述OWS耳机的语音增强方法包括：

2.如权利要求1所述的OWS耳机的语音增强方法，其特征在于，在所述通过预设的滤波器对所述待处理语音信号进行滤波，得到第一语音信号的步骤之前，所述方法还包括：

3.如权利要求1所述的OWS耳机的语音增强方法，其特征在于，在所述对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱的步骤之前，所述方法还包括：

4.如权利要求1所述的OWS耳机的语音增强方法，其特征在于，双麦协调降噪包括：时间差异计算、噪声估计和频域滤波，所述对所述第一降噪语音信号和所述降噪参考信号进行双麦协调降噪，得到语音增强后的语音频谱的步骤，包括：

5.如权利要求1所述的OWS耳机的语音增强方法，其特征在于，所述根据所述语音频谱生成语音增强后的语音信号的步骤，包括：

6.如权利要求1所述的OWS耳机的语音增强方法，其特征在于，在所述根据所述语音频谱生成语音增强后的语音信号的步骤之后，所述方法还包括：

7.如权利要求6所述的OWS耳机的语音增强方法，其特征在于，所述对所述语音信号进行补偿的步骤，包括：

8.一种OWS耳机的语音增强系统，其特征在于，所述OWS耳机的语音增强系统应用于OWS耳机，所述OWS耳机的前腔出音嘴设置于与用户耳道对应的位置，所述OWS耳机的后腔出音嘴设置于耳挂下方，所述OWS耳机的主麦克风设置于话务杆内，所述OWS耳机的次麦克风设置于耳机侧面；

所述OWS耳机的语音增强系统包括：

9.一种OWS耳机，其特征在于，所述OWS耳机包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的OWS耳机的语音增强程序，所述OWS耳机的语音增强程序被所述处理器执行时实现如权利要求1至7中任一项所述的OWS耳机的语音增强方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有OWS耳机的语音增强程序，所述OWS耳机的语音增强程序被处理器执行时实现如权利要求1至7中任一项所述的OWS耳机的语音增强方法的步骤。