CN114999515A - 一种仿生音频拾音器及基于其的语音会议音频分离方法 - Google Patents

一种仿生音频拾音器及基于其的语音会议音频分离方法 Download PDF

Info

Publication number
CN114999515A
CN114999515A CN202210610816.0A CN202210610816A CN114999515A CN 114999515 A CN114999515 A CN 114999515A CN 202210610816 A CN202210610816 A CN 202210610816A CN 114999515 A CN114999515 A CN 114999515A
Authority
CN
China
Prior art keywords
audio
processing unit
conference
bionic
audio processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210610816.0A
Other languages
English (en)
Inventor
虞焰兴
徐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Semxum Information Technology Co ltd
Original Assignee
Anhui Semxum Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Semxum Information Technology Co ltd filed Critical Anhui Semxum Information Technology Co ltd
Priority to CN202210610816.0A priority Critical patent/CN114999515A/zh
Publication of CN114999515A publication Critical patent/CN114999515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种仿生音频拾音器及基于其的语音会议音频分离方法,仿生音频拾音器依次包括第一音频处理单元、第二音频处理单元和第三音频处理单元;所述第一音频处理单元用于采集会议音频并传输至所述第二音频处理单元,所述第二音频处理单元用于会议音频的吸收低频白噪音和高频白噪音并传输至所述第三音频处理单元,所述第三音频处理单元用于从会议音频的混合信号中提取出不同角色的音频分量。本发明Gammatone滤波器组实现仿生音频拾音技术,从会议音频的混合信号中提取出不同角色的音频分量;再基于深度学习网络筛选出当前发言人的音频分量,实现语音会议音频分离,音频分离效果良好。

Description

一种仿生音频拾音器及基于其的语音会议音频分离方法
技术领域
本发明涉及音频分离技术领域,尤其是一种仿生音频拾音器及基于其的语音会议音频分离方法。
背景技术
随着语音识别技术的不断发展,会议速记机已经得到广泛应用,对会议中的语音信息进行识别与记录。由于会议中往往存在不同的发言人,不同发言人的音频虽然在音色、音调、音频上都存在差异,但是发言人的音频受到会议现场的串音、混响、回音、叠音等杂音的影响,大大提升了音频分离的难度。
针对不同角色音频分离难的问题,研发人员不断探索,提出了不同的解决方案。
1、通过麦克风传输地址编码实现角色分离,缺点是无法避免串音问题。例如,当2个麦克风距离较近,容易通过近距离传播发生串音;当2个麦克风距离较远,也会通过声波反射形成串音现象。串音导致音频同质化,影响角色分离效果。
2、通过声纹识别实现角色分离,缺点是角色分离误差太大,当出现音频短、音量小、音质相似或多人说话的情况时,基本达不到角色分离效果。
发明内容
针对现有会议场景下,不同角色音频分离难的问题,本发明提出一种仿生音频拾音器及基于其的语音会议音频分离方法。
本发明保护一种仿生音频拾音器,依次包括第一音频处理单元、第二音频处理单元和第三音频处理单元。
所述第一音频处理单元用于采集会议音频并传输至所述第二音频处理单元;
所述第二音频处理单元用于会议音频的吸收低频白噪音和高频白噪音并传输至所述第三音频处理单元;
所述第三音频处理单元由Gammatone滤波器组构成,用于从会议音频的混合信号中提取出不同角色的音频分量。
本发明还保护一种语音会议音频分离方法,为每位发言人配备一台仿生音频拾音器,并将该仿生音频拾音器提取出不同角色的音频分量输入音频分离网络,音频分离网络输出当前发言人的音频分量,并基于耳间延时差滤除噪音和串音。
音频分离网络为深度学习网络,通过大量标记过的会议音频数据训练得到,标记信息包括但不限于基音、节首音位置、相位、声压级。
本发明提供的仿生音频拾音器及基于其的语音会议音频分离方法,通过Gammatone滤波器组实现仿生音频拾音技术,从会议音频的混合信号中提取出不同角色的音频分量;再基于深度学习网络筛选出当前发言人的音频分量,实现语音会议音频分离,音频分离效果良好。
附图说明
图1为人耳结构示意图;
图2为第三音频处理单元不同角色的音频分量提取结果示意图;
图3为语音会议音频分离方法流程示意图;
图4为深度学习网络示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
人耳(结构如图1所示)能够从纷繁复杂的声音中分辨出自己想要获取的声源信号,这是由于人耳具有非均匀的频谱分辨率、双耳定位和掩蔽等功能,能够区分不同声源的基音、节首音位置、相位和声压级等声音特征的差异,从而能够区分出不同声源。
本发明公开一种仿生音频拾音器,模拟人耳构造,依次包括第一音频处理单元、第二音频处理单元和第三音频处理单元。
所述第一音频处理单元相当于图1中的外耳,用于采集会议音频并传输至所述第二音频处理单元。
所述第二音频处理单元相当于图1中的中耳,用于会议音频的吸收低频白噪音和高频白噪音并传输至所述第三音频处理单元。
所述第三音频处理单元相当于图1中的内耳,用于从会议音频的混合信号中提取出不同角色的音频分量,提取结果如图2所示。
所述第三音频处理单元由16-128个Gammatone滤波器组组成。以单通道Gammatone滤波器为基础,构建多通道Gammatone滤波器组,对输入的混合信号进行多频率子带滤波,得到信号的时间频率数据表现形式,用于特征提取与分析加工。
与仿生音频拾音相关的主要参数包括频率分析范围、通道数量、耳间延时差、通道中心频率及带宽。本实施例根据人耳的听感知特性,结合音频通用采样频率,将音频信号在频域分析的频率范围确定在50~8000Hz,在该频带范围内,采用64通道Gammatone滤波器组。Gammatone滤波器组带来的全频域增益在8~15dB之间,低频部分增益较低,高频部分增益较高,幅值增益在整个频率区间上变化比较一致平滑。与此同时,这种增益的不一致与人耳听感知特性及声音分析处理前端的经验相一致,即人耳对高频能量有一定程度的加强。
实施例2
一种语音会议音频分离方法,为每位发言人配备一台实施例1所述的仿生音频拾音器,并将该仿生音频拾音器提取出不同角色的音频分量输入音频分离网络,音频分离网络输出当前发言人的音频分量,流程如图3所示,并基于耳间延时差滤除噪音和串音。
耳间延时差是指多路麦克风的声音信号间的延时差值,由于多路麦克风采集到的是带噪声音,这个延时差是各种环境噪声源发出的噪声与目标音混合作用的结果。当噪声强度不大时,在目标声源发声的时候,它主要体现于目标声源的延时值;当与目标音相比,噪声强度很大或是目标音没有出现的时候,它主要体现于背景噪声的混合延时。由于不同频带的声音信号的延时会有微小的差异,对于同一时间帧,需要计算不同频带的延时差,前端的Gammatone滤波器组已为这一过程做好了准备。
通过求互相关的最大值即可求得延时差值。由下列公式计算出第c个频率通道、第m帧、延时为τ时的互相关以及第c个频率通道、第m时间帧的多路麦克信号的延时差值。
Figure BDA0003673126520000031
Figure BDA0003673126520000032
音频分离网络为深度学习网络(参照图4所示),通过大量标记过的会议音频数据训练得到,标记信息包括但不限于基音、节首音位置、相位、声压级。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

Claims (5)

1.一种仿生音频拾音器,其特征在于,依次包括第一音频处理单元、第二音频处理单元和第三音频处理单元;所述第一音频处理单元用于采集会议音频并传输至所述第二音频处理单元,所述第二音频处理单元用于会议音频的吸收低频白噪音和高频白噪音并传输至所述第三音频处理单元,所述第三音频处理单元用于从会议音频的混合信号中提取出不同角色的音频分量。
2.根据权利要求2所述的仿生音频拾音器,其特征在于,所述第三音频处理单元由Gammatone滤波器组构成。
3.一种语音会议音频分离方法,其特征在于,为每位发言人配备一台权利要求2所述的仿生音频拾音器,并将该仿生音频拾音器提取出不同角色的音频分量输入音频分离网络,音频分离网络输出当前发言人的音频分量。
4.根据权利要求3所述的语音会议音频分离方法,其特征在于,音频分离网络为深度学习网络,通过大量标记过的会议音频数据训练得到,标记信息包括但不限于基音、节首音位置、相位、声压级。
5.根据权利要求3或4所述的语音会议音频分离方法,其特征在于,基于耳间延时差滤除噪音和串音。
CN202210610816.0A 2022-05-31 2022-05-31 一种仿生音频拾音器及基于其的语音会议音频分离方法 Pending CN114999515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210610816.0A CN114999515A (zh) 2022-05-31 2022-05-31 一种仿生音频拾音器及基于其的语音会议音频分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210610816.0A CN114999515A (zh) 2022-05-31 2022-05-31 一种仿生音频拾音器及基于其的语音会议音频分离方法

Publications (1)

Publication Number Publication Date
CN114999515A true CN114999515A (zh) 2022-09-02

Family

ID=83032105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210610816.0A Pending CN114999515A (zh) 2022-05-31 2022-05-31 一种仿生音频拾音器及基于其的语音会议音频分离方法

Country Status (1)

Country Link
CN (1) CN114999515A (zh)

Similar Documents

Publication Publication Date Title
Monson et al. Ecological cocktail party listening reveals the utility of extended high-frequency hearing
Eaton et al. The ACE challenge—Corpus description and performance evaluation
Jørgensen et al. Predicting speech intelligibility based on the signal-to-noise envelope power ratio after modulation-frequency selective processing
US8611554B2 (en) Hearing assistance apparatus
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
Hazrati et al. Blind binary masking for reverberation suppression in cochlear implants
Vitela et al. Phoneme categorization relying solely on high-frequency energy
CN103874002A (zh) 包括非自然信号减少的音频处理装置
Westermann et al. Binaural dereverberation based on interaural coherence histograms
Yoo et al. Speech signal modification to increase intelligibility in noisy environments
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Monson et al. The maximum audible low-pass cutoff frequency for speech
Roman et al. Pitch-based monaural segregation of reverberant speech
US20220392475A1 (en) Deep learning based noise reduction method using both bone-conduction sensor and microphone signals
WO2013067145A1 (en) Systems and methods for enhancing place-of-articulation features in frequency-lowered speech
Khaddour et al. A novel combined system of direction estimation and sound zooming of multiple speakers
Nábělek Performance of hearing‐impaired listeners under various types of amplitude compression
JP2010091897A (ja) 音声信号強調装置
Lavandier et al. Speech segregation in rooms: Effects of reverberation on both target and interferer
JP4774255B2 (ja) 音声信号処理方法、装置及びプログラム
Westermann et al. The effect of nearby maskers on speech intelligibility in reverberant, multi-talker environments
Tu et al. Optimising hearing aid fittings for speech in noise with a differentiable hearing loss model
CN114999515A (zh) 一种仿生音频拾音器及基于其的语音会议音频分离方法
Toloosham et al. A training framework for stereo-aware speech enhancement using deep neural networks
Zhang Benefits and limitations of common directional microphones in real-world sounds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination