CN110931033B

CN110931033B - 一种麦克风内置耳机的语音聚焦增强方法

Info

Publication number: CN110931033B
Application number: CN201911183765.2A
Authority: CN
Inventors: 何敏; 王鹏; 戴伟彬; 陈光勤
Original assignee: Shenzhen Yueersheng Acoustics Co ltd
Current assignee: Shenzhen Yueersheng Acoustics Co ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-02-18
Anticipated expiration: 2039-11-27
Also published as: CN110931033A

Abstract

本发明公开了一种麦克风内置耳机的语音聚焦增强方法，属于耳机技术领域。本发明所述的麦克风内置耳机的语音聚焦增强方法，具体包括以下步骤：(1)功率谱估计预处理；(2)幅值衰减预处理；(3)语音居中；(4)高通滤波；(5)高频增强；(6)动态压缩；(7)后期增强。本发明的语音聚焦增强方法具有选择性的频谱掩蔽能力；对合成后的语音进行音效处理，一方面使残余非相干噪声进一步衰减，另一方面使语音更符合人耳的听觉习惯。使语音送话在全频段上的清晰度和可懂度都得到显著增强。且方法易实现，成本低。本发明采用基于人耳听觉掩蔽效应的数字滤波算法，对语音实现进一步增强。

Description

一种麦克风内置耳机的语音聚焦增强方法

技术领域

本发明属于耳机技术领域，尤其涉及一种麦克风内置耳机的语音聚焦增强方法。

背景技术

耳机在接收语音信号过程，经常会出现风噪或者一些持续的强干扰。影响了语音信号的接收效果。

中国专利申请201910199908.2，公开了一种麦克风阵列语音增强的方法和系统，其包括利用麦克风阵列进行多通道的语音信号的采集，接收能量收集器获得的语音能量，获取声源方位信息，利用声源方位信息的几何关系计算麦克风阵列信号各通道的时延补偿值，根据麦克风阵列信号各通道的时延补偿值进行波束成形处理，实现语音信息的增强。本发明充分利用圆锥结构本身的信号反射聚焦特性进行对应角度范围内的语音能量收集，可实时获取方位信息，无需采用复杂的方位估计算法，系统实现简单方便。该专利主要解决了实现获取方位信息的方法，并没有对风噪或一些持续的语音干扰做出改进。

众所周知，在人耳的信号接收过程中，会存在“鸡尾酒会效应”，即是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。

如何能够使耳机在接收语音过程中也能实现“鸡尾酒会效应”，对背景噪音进行降噪，并对非噪音进行语音聚焦增强，显得尤为重要。

发明内容

本发明实施例提供一种麦克风内置耳机的语音聚焦增强方法，旨在对接收的语音进行选择性的聚焦增强。本发明所述的语音聚焦增强方法应用于麦克风内置耳机，所述耳机上的麦克风采用接触式封闭式结构，通过语音聚焦增强方法，实现耳机的送话语音选择增强。

本发明的语音聚焦增强的核心算法，使语音送话在全频段上的清晰度得到显著增强。本发明中应用的是ADI公司的DSP芯片和STM32系列的MCU；DSP芯片是算法实现的核心，MCU实现对DSP芯片的启动和控制，工程文件加载在MCU内部的FLASH内。

本发明麦克风内置耳机的语音聚焦增强方法，包括预处理、语音居中、高通滤波、高频增强、动态压缩，及后期增强6个阶段。

具体包括以下步骤：

(1)功率谱估计预处理：用STFT变换(短时傅里叶变换)按帧进行时频变换；

(2)幅值衰减预处理：将全频谱语音电平衰减6dB,防止后面处理中增益超过限度出现削峰；

(3)语音居中：将左右声道交叉混合，再分两个通道输出；

(4)高通滤波：频谱响应在400Hz形成拐点，对低频信号进行抑制；

(5)高频增强：对损失较大的高频语音进行补偿，为3dB/Octave；

(6)动态压缩：采用20：1的动态压缩比率，-6dB门限；

(7)后期增强：对步骤(1)和步骤(2)的预处理阶段的幅值衰减进行补偿，增益全频谱增加4dB，恢复自然状态。

其中：

步骤(1)中所述的STFT变换，具体方法为语音采样频率22KHz，使用20ms的短时信号组成一帧，采用滑动的hamming窗截取语音信号进行STFT变换，窗间隔10ms。

步骤(2)中所述的语音电平衰减采用数字全通滤波器实现，最后再经IFFT变换到时域输出。

步骤(2)中所用滤波器设计，对处理的语音频谱基于Octave，将要处理的语音音频区分成9段，包含语音音频范围22Hz-9KHz。

为反映人耳对声音频谱的敏感特性，本发明参照ISO标准，对处理的语音频谱基于Octave(8度音程音程)，将要处理的语音音频区分成9段(22Hz-9KHz)，作为步骤(2)中所用滤波器设计的依据；如表1所示。

表1基于Octave的语音频谱分段

频率下限(Hz)	几何平均中心频率(Hz)	频率上限(Hz)
			22	31.5	44
44	63	88
			88	125	177
177	250	355
			355	500	710
710	1000	1420
			1420	2000	2840
2480	4000	5680
			5680	8000	9000

步骤(4)所述的高通滤波的主要目的是对低频残余噪声和过重的低频语音起到衰减作用。

步骤(4)中所述的高通滤波，采用IIR参数型数字滤波器完成。

步骤(6)中所述的动态压缩的目的为使语音稳定和防止突变噪声。

后期增强：对预处理阶段的幅值衰减进行补偿，增益全频谱增加4dB,恢复自然状态。采用全通型IIR参数型数字滤波器设计。

步骤(6)中所述的动态压缩，采用数字滤波器完成。

步骤(7)中所述的后期增强，采用全通型IIR参数型数字滤波器完成。

所述的语音聚焦增强方法，采用级联滤波器，对合成后的语音进行音效处理，一方面使残余非相干噪声进一步衰减，另一方面使语音更符合人耳的听觉习惯。

本发明与现有技术相比，具有以下的优点和有益效果：

1.本发明所述的麦克风内置耳机的语音聚焦增强方法模拟人耳的“鸡尾酒会效应”，即选择性的频谱掩蔽能力；对合成后的语音进行音效处理，一方面使残余非相干噪声进一步衰减，另一方面使语音更符合人耳的听觉习惯。使语音送话在全频段上的清晰度和可懂度都得到显著增强。且方法易实现，成本低。

2.本发明采用基于人耳听觉掩蔽效应的数字滤波算法，对语音实现进一步增强。

附图说明

图1为本发明实施例1所述麦克风内置耳机的语音聚焦增强方法的算法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本发明实施例提供一种麦克风内置耳机的语音聚焦增强方法，旨在对接收的语音进行选择性的聚焦增强。

本发明提供了一种麦克风内置耳机的语音聚焦增强方法，所述的语音聚焦增强方法应用于麦克风内置耳机，所述耳机上的麦克风采用接触式封闭式结构，通过语音聚焦增强方法，实现送话语音选择增强的耳机。

如图1所示，本发明的语音聚焦增强的核心算法，使语音送话在全频段上的清晰度得到显著增强。本发明中应用的是ADI公司的DSP芯片和STM32系列的MCU；DSP芯片是算法实现的核心，MCU实现对DSP芯片的启动和控制，工程文件加载在MCU内部的FLASH内。

具体包括以下步骤：

(3)语音居中：将左右声道交叉混合，再分两个通道输出；

(4)高通滤波：频谱响应在400Hz左右形成拐点，对低频信号进行抑制；

(5)高频增强：对损失较大的高频语音进行补偿，约3dB/Octave；

(6)动态压缩：采用20：1的动态压缩比率，-6dB门限；

其中：

表1基于Octave的语音频谱分段

步骤(4)中所述的高通滤波，采用IIR参数型数字滤波器完成。

步骤(6)中所述的动态压缩，采用数字滤波器完成。

本发明与现有技术相比，具有以下的优点和有益效果：

2.采用基于人耳听觉掩蔽效应的数字滤波算法，对语音实现进一步增强。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种麦克风内置耳机的语音聚焦增强方法，其特征在于：具体包括以下步骤：

(1)功率谱估计预处理：用STFT变换按帧进行时频变换；

(3)语音居中：将左右声道交叉混合，再分两个通道输出；

(5)高频增强：对损失较大的高频语音进行补偿，补偿3dB/Octave；所述Octave为8度音程；

(6)动态压缩：采用20：1的动态压缩比率，-6dB门限；

2.根据权利要求1所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(1)中所述的STFT变换，具体方法为语音采样频率22KHz，使用20ms的短时信号组成一帧，采用滑动的hamming窗截取语音信号进行STFT变换，窗间隔10ms。

3.根据权利要求1所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(2)中所述的语音电平衰减采用数字全通滤波器实现，最后再经IFFT变换到时域输出。

4.根据权利要求3所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(2)中所述数字全通滤波器，对处理的语音频谱基于Octave，将要处理的语音音频区分成9段，包含语音音频范围22Hz-9KHz。

5.根据权利要求1所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(4)中所述的高通滤波，采用IIR参数型数字滤波器完成。

6.根据权利要求1所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(6)中所述的动态压缩，采用数字滤波器完成。

7.根据权利要求1所述的麦克风内置耳机的语音聚焦增强方法，其特征在于：步骤(7)中所述的后期增强，采用全通型IIR参数型数字滤波器完成。