CN116386654A - 风噪抑制方法、装置、设备及计算机可读存储介质 - Google Patents
风噪抑制方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116386654A CN116386654A CN202310180377.9A CN202310180377A CN116386654A CN 116386654 A CN116386654 A CN 116386654A CN 202310180377 A CN202310180377 A CN 202310180377A CN 116386654 A CN116386654 A CN 116386654A
- Authority
- CN
- China
- Prior art keywords
- signal
- neural network
- processing
- signals
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 392
- 238000013528 artificial neural network Methods 0.000 claims abstract description 205
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 230000008030 elimination Effects 0.000 claims abstract description 45
- 238000003379 elimination reaction Methods 0.000 claims abstract description 45
- 125000004122 cyclic group Chemical group 0.000 claims description 82
- 230000000306 recurrent effect Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 abstract description 5
- 230000009467 reduction Effects 0.000 description 49
- 238000001914 filtration Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 210000004373 mandible Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种风噪抑制方法、装置、设备及计算机可读存储介质,其中方法包括:获取麦克风信号,对麦克风信号进行风噪分析,得到风噪分析结果;当根据风噪分析结果确定麦克风信号中存在风噪时,对麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,高频信号是频率大于第一预设频率的信号,低频信号是频率小于或等于第一预设频率的信号;对第一处理信号和第二处理信号进行融合得到风噪抑制结果。本发明实现了一种风噪抑制方案,在不增加设备的硬件成本和设计难度的情况下提高设备的风噪抑制效果。
Description
技术领域
本发明涉及降噪技术领域,尤其涉及一种风噪抑制方法、装置、设备及计算机可读存储介质。
背景技术
风噪声是户外拾音过程中最常见的一类噪声,严重影响了移动电话、助听器等户外拾音系统的拾音质量。风噪声是由于气流和障碍物(如建筑物、人体、传声器腔体等)之间相互作用产生的,因此不同障碍物引起的风噪声的特性也会有所差别。很多情况下风噪声声压级能达到80dB SPL,能够完全掩盖语声信号,极大降低语声可懂度并造成听觉不适。
传统处理风噪的方法包括防风罩,常见于手持式传声器以及专业枪式传声器,有海绵、人造毛皮、铁网等多种材料。原理主要是降低传声器振膜附近的空气流速,打散气流减小湍流的产生。为语音拾音设计的骨导传感器VPU(Voice Pick Up)可通过采集人下颌骨的振动信号来拾取语音,由于风噪只存在于气导声中,骨导声不受影响,因此在拾取语音时骨导传感器可以直接规避风噪问题。但是基于防风罩和VPU的风噪抑制方案都会增加设备的成本和结构设计的难度。
发明内容
本发明的主要目的在于提供一种风噪抑制方法、装置、设备及计算机可读存储介质,旨在提供一种风噪抑制方案,在不增加设备的硬件成本和设计难度的情况下提高设备的风噪抑制效果。
为实现上述目的,本发明提供一种风噪抑制方法,所述方法包括以下步骤:
获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
可选地,所述对所述麦克风信号进行风噪分析,得到风噪分析结果的步骤包括:
当有两路或两路以上的所述麦克风信号时,计算各路所述麦克风信号之间的目标相关度;
根据所述目标相关度以及预设的相关度与风速之间的对应关系,匹配得到风噪分析结果;
或,计算任意一路所述麦克风信号中频率小于第二预设频率的信号的目标低频能量;
根据所述目标低频能量以及预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。
可选地,计算两路所述麦克风信号之间的目标相关度的步骤包括:
分别计算两路所述麦克风信号中信号为负值的采样点个数;
根据所述采样点个数计算得到两路所述麦克风信号之间的目标相关度。
可选地,所述深度神经网络包括编码器、循环神经网络模块、解码器和全连接层,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号的步骤包括:
分别将各帧所述麦克风信号中低频信号输入所述编码器进行处理,得到各帧所述麦克风信号分别对应的第一信号处理结果;
分别将各帧所述第一信号处理结果输入至所述循环神经网络模块进行处理,得到各帧所述第一信号处理结果分别对应的第二信号处理结果,其中,在通过所述循环神经网络模块对目标信号处理结果进行处理时,使用所述循环神经网络模块对目标信号处理结果的上一帧所述第一信号处理结果进行处理得到的结果,所述目标信号处理结果为各帧所述第一信号处理结果中的任意一帧信号处理结果;
分别将各帧所述第二信号处理结果输入至所述解码器进行处理,得到各帧所述第二信号处理结果分别对应的第三信号处理结果;
分别将各帧所述第三信号处理结果输入至所述全连接层进行处理,得到各帧所述麦克风信号分别对应的所述第一处理信号。
可选地,所述循环神经网络模块包括串联的至少一个循环神经网络层,所述循环神经网络层包括复位门和新记忆门,将所述目标信号处理结果输入至所述循环神经网络模块进行处理,得到所述目标信号处理结果对应的第二信号处理结果的步骤包括:
将所述目标信号处理结果输入至所述循环神经网络模块,经过各层所述循环神经网络层的串联处理后得到所述目标信号处理结果对应的第二信号处理结果;
其中,目标循环神经网络层是各层所述循环神经网络层中的任意一层,在经过各层所述循环神经网络层串联处理所述目标信号处理结果的过程中,将所述目标信号处理结果在所述目标循环神经网络层所对应的目标输入数据输入至所述目标循环神经网络层进行处理,得到所述目标信号处理结果在所述目标循环神经网络层所对应的目标输出数据的步骤包括:
将所述目标输入数据,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述复位门,得到所述目标输入数据对应的复位门处理结果;
将所述目标输入数据和所述目标输入数据对应的所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述新记忆门,得到所述目标输入数据对应的新记忆门处理结果;
根据所述目标输入数据对应的所述新记忆门处理结果和所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,计算得到所述目标输出数据。
可选地,当有两路或两路以上所述麦克风信号时,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号的步骤包括:
对各路所述麦克风信号分别采用远端信号进行回声消除,得到回声消除信号;
对各路所述回声消除信号进行波束形成,基于波束形成的结果对各路所述回声消除信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号;
对所述指向性噪声抑制信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述指向性噪声抑制信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号。
可选地,所述获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果的步骤之后,还包括:
当根据所述风噪分析结果确定所述麦克风信号中不存在风噪时,对所述麦克风信号采用所述非神经网络算法进行噪声消除处理,得到噪声抑制结果。
为实现上述目的,本发明还提供一种风噪抑制装置,所述装置包括:
风噪分析模块,用于获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
噪声消除模块,用于当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
融合模块,用于对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
为实现上述目的,本发明还提供一种风噪抑制设备,所述风噪抑制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风噪抑制程序,所述风噪抑制程序被所述处理器执行时实现如上所述的风噪抑制方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有风噪抑制程序,所述风噪抑制程序被处理器执行时实现如上所述的风噪抑制方法的步骤。
本发明中,通过获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。本发明实现了一种风噪抑制方案,在不增加设备的硬件成本和设计难度的情况下提高设备的风噪抑制效果。
附图说明
图1为本发明风噪抑制方法一实施例的流程示意图;
图2为本发明实施例涉及的一种深度神经网络的结构图;
图3为本发明实施例涉及的一种循环神经网络层的结构图;
图4为本发明实施例涉及的一种风噪抑制流程示意图;
图5为本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明风噪抑制方法一实施例的流程示意图。
本发明实施例提供了风噪抑制方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,风噪抑制方法的执行主体可以是耳机、智能手机、个人电脑、服务器等设备,在本实施例中并不做限制。在本实施例中,为便于表述,以降噪设备为执行主体进行各实施例阐述。在本实施例中,所述风噪抑制方法包括以下步骤:
步骤S10,获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
降噪设备可以获取一路或一路以上的麦克风信号,对获取到的麦克风信号进行风噪分析。风噪分析的目的是确定麦克风信号中是否存在风噪或者确定麦克风信号中风噪的强度,相应地,通过风噪分析得到的风噪分析结果可以是表征麦克风信号中是否存在风噪的结果,或者是表征麦克风信号中风噪强度的结果。风噪分析的具体实施方式在本实施例中并不做限制。
需要说明的是,在具体实施方式中,降噪设备可以对获取的离线的麦克风信号进行风噪抑制处理,也可以是对获取的麦克风实时采集的麦克风信号进行风噪抑制处理。例如,在一可行实施方式中,降噪设备可以是耳机设备,耳机设备中设置至少一个麦克风,通过麦克风采集麦克风信号,降噪设备获取麦克风实时采集的麦克风信号,对麦克风信号进行风噪抑制处理,再将处理结果通过耳机设备中的扬声器输出或发送到其他设备。
在具体实施方式中,降噪设备可以对麦克风信号进行分帧处理,按照帧序依次对各帧麦克风信号进行风噪抑制处理。
步骤S20,当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
风噪分析结果表征麦克风信号中是否存在风噪,或者根据风噪分析结果可以确定麦克风信号中是否存在风噪。例如,风噪分析结果是麦克风信号中风噪的强度时,降噪设备可以在该强度大于一定程度时,确定麦克风信号中存在风噪。
深度神经网络和非神经网络算法可以预先根据需要进行设置,在本实施例中并不做限制。由于从带噪麦克风信号中提取有用的语音信号(也即剔除噪声信号),本质上是一个分类问题,相比于非神经网络算法(也即传统的降噪算法),神经网络模拟人脑识别模型,对解决该问题有一定的优势,从而能够提高风噪抑制的效果。
第一预设频率可以根据需要进行设置,在本实施例中并不做限制。通过对带有风噪的音频信号的频谱图进行分析,发现风噪主要影响低频段。在本实施例中,通过对麦克风信号中低频信号采用深度神经网络进行噪声消除处理,可以提高风噪抑制效果,对高频信号采用非神经网络算法进行噪声消除处理,利用非神经网络算法运算量低的优势,降低降噪设备进行风噪抑制处理时的整体运算量,从而降低对降噪设备硬件算力的要求。
步骤S30,对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
在对麦克风信号进行分别处理得到第一处理信号和第二处理信号后,降噪设备可以对第一处理信号和第二处理信号进行融合,得到风噪抑制结果。融合具体可以采用叠加或加权融合的方式,加权融合的权重可以根据需要进行设置,在本实施例中并不做限制。
在具体实施方式中,降噪设备可以对时域的第一处理信号和第二处理信号进行融合,得到时域的融合后的信号,该信号即对麦克风信号进行风噪抑制后的信号,降噪设备将该信号作为风噪抑制结果。降噪设备可以将时域的抑制风噪后的信号输出,或者对该信号进行进一步的处理后再输出,例如,可对该信号进行动态范围控制(DRC)后输出。
在具体实施方式中,当麦克风信号有多路时,降噪设备可以将多路麦克风信号处理为一路信号,再对该路信号中进行噪声消除处理。例如,降噪设备可以对多路麦克风信号进行波束形成处理,基于波束形成的结果对各路所述麦克风信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号,再对该指向性噪声抑制信号进行噪声消除处理。
在具体实施方式中,降噪设备可以将一路信号(一路麦克风信号或多路麦克风信号经过处理后得到的一路信号)复制为两路,以下称为信号1和信号2。在一可行实施方式中,降噪设备可以对信号1采用深度神经网络进行全频段的噪声消除处理,再对噪声消除处理后的结果进行低通滤波,低通滤波的上截止频率为第一预设频率,将滤波后的信号作为第一处理信号;对信号2采用非神经网络算法进行噪声消除处理,再对噪声消除处理后的结果进行高通滤波,高通滤波的下截止频率为第一预设频率,将滤波后的信号作为第二处理信号。在另一可行实施方式中,降噪设备可以对信号1进行低通滤波,低通滤波的上截止频率为第一预设频率,对滤波后的信号采用深度神经网络进行全频段的噪声消除处理,将处理得到的信号作为第一处理信号;对信号2进行高通滤波,高通滤波的下截止频率为第一预设频率,对滤波后的信号采用非神经网络算法进行全频段的噪声消除处理,将处理得到的信号作为第二处理信号。在具体实施方式中,高通滤波和低通滤波可以分别采用5个biquad(双二阶滤波器)串联而成的高通滤波器和低通滤波器来实现。
进一步地,在一可行实施方式中,所述步骤S10之后,还包括:
步骤S40,当根据所述风噪分析结果确定所述麦克风信号中不存在风噪时,对所述麦克风信号采用所述非神经网络算法进行噪声消除处理,得到噪声抑制结果。
在麦克风信号中不存在风噪的情况下,对麦克风信号采用非神经网络算法进行噪声消除处理,可以降低降噪设备的运算量,从而降低对降噪设备硬件算力的要求。
进一步地,在一可行实施方式中,当有两路或两路以上所述麦克风信号时,所述步骤S20包括:
步骤S211,对各路所述麦克风信号分别采用远端信号进行回声消除,得到回声消除信号;
例如,有两路麦克风信号分别表示为麦克风信号1和麦克风信号2,降噪设备采用远端信号对麦克风信号1进行回声消除,得到回声消除信号1,采用远端信号对麦克风信号2进行回声消除,得到回声消除信号2。
步骤S212,对各路所述回声消除信号进行波束形成,基于波束形成的结果对各路所述回声消除信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号;
步骤S213,对所述指向性噪声抑制信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述指向性噪声抑制信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号。
降噪设备对麦克风信号进行回声消除和波束形成可以采用成熟的算法来实现,在本实施方式中对不做限制。
在本实施例中,通过获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。本实施例中提供了一种风噪抑制方案,在不增加设备的硬件成本和设计难度的情况下提高设备的风噪抑制效果。
进一步地,基于上述第一实施例,提出本发明风噪抑制方法第二实施例,在本实施例中,提出一种可行的风噪分析实施方式,所述步骤S10包括:
步骤S101,当有两路或两路以上的所述麦克风信号时,计算各路所述麦克风信号之间的目标相关度;
当有两路或两路以上的麦克风信号时,降噪设备可以利用各路麦克风信号之间的相关度来进行风噪分析。在具体实施方式中,当有两路麦克风信号时,降噪设备可以直接计算该两路麦克风信号之间的相关度,将该相关度作为目标相关度。当有两路以上的麦克风信号时,降噪设备可以计算两两麦克风信号之间的相关度,将各个相关度计算平均(也可以采用其他融合方式,例如相加)得到目标相关度,或也可以直接将各个相关度均作为目标相关度。
计算两路麦克风信号之间的相关度的实现方式有很多种,在本实施例中并不做限制。在一可行实施方式中,可以对两路时域的麦克风信号进行傅里叶变换,例如经过傅里叶变换计算后将8khz带宽分为128个子带,Y1(K)和Y2(K)分别表示麦克风信号1和麦克风信号2的傅里叶变换。计算指定带宽内的相干系数,公式定义如下:
采用该相干系数作为麦克风信号1和麦克风信号2之间的相关度。
步骤S102,根据所述目标相关度以及预设的相关度与风速之间的对应关系,匹配得到风噪分析结果;
预先可以根据实验测试结果,在降噪设备中设置麦克风信号之间的相关度与风速(可表现风噪强度)之间的对应关系,该对应关系表现为当麦克风信号中存在风噪,或风速越大时,各路麦克风信号之间的相关度越小。降噪设备在计算得到目标相关度后,可以根据预设的相关度与风速之间的对应关系,匹配得到风噪分析结果。例如,当风噪分析结果是表征麦克风信号中是否存在风噪的结果时,降噪设备可以根据对应关系,匹配目标相关度所对应的风速,当风速大于一定风速时,得到麦克风信号中存在风噪的结果。
在一可行实施方式中,当有两路以上的麦克风信号,目标相关度有多个时,降噪设备也可以分别匹配各个目标相关度对应的风速,再将各个风速计算平均,再根据计算结果得到风噪分析结果。
在本实施例中,提出另一种可行的风噪分析实施方式,所述步骤S10包括:
步骤S111,计算任意一路所述麦克风信号中频率小于第二预设频率的信号的目标低频能量;
在本实施方式中,当麦克风信号有一路时,降噪设备基于该路麦克风信号进行风噪分析,当麦克风信号有两路或两路以上时,降噪设备可以从各路麦克风信号中任选一路麦克风信号进行风噪分析。
对于一路麦克风信号,降噪设备计算该麦克风信号中频率小于第二预设频率的信号的低频能量(以下称为目标低频能量以示区分)。其中,第二预设频率可以根据需要预先设置,例如设置为1500HZ。计算目标低频能量的方式有很多种,在本实施方式中并不做限制,例如,在一可行实施方式中,降噪设备可以先将该路麦克风信号进行低通滤波,低通滤波的上截止频率为第二预设频率,低通滤波可以采用但不限于采用IIR(Infinite ImpulseResponse)滤波器实现。设经过滤波后的一帧信号为x1LP,目标低频能量Plow可以采用如下方式计算:
其中k表示一帧麦克风信号的帧长。
步骤S112,根据所述目标低频能量以及预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。
预先可以根据实验测试结果,在降噪设备中设置低频能量与风速(可表现风噪强度)之间的对应关系,该对应关系表现为当麦克风信号中存在风噪,或风速越大时,麦克风信号中频率小于第二预设频率的信号的低频能量越大。降噪设备在计算得到目标低频能量后,可以根据预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。例如,当风噪分析结果是表征麦克风信号中是否存在风噪的结果时,降噪设备可以根据对应关系,匹配目标低频能量所对应的风速,当风速大于一定风速时,得到麦克风信号中存在风噪的结果。
进一步地,在一可行实施方式中,所述步骤S101中计算两路所述麦克风信号之间的目标相关度的步骤包括:
步骤S1011,分别计算两路所述麦克风信号中信号为负值的采样点个数;
对于需要计算相关度的两路麦克风信号,降噪设备可以分别计算两路麦克风信号中信号为负值的采样点个数。具体计算方法在本实施方式中并不做限制。
步骤S1012,根据所述采样点个数计算得到两路所述麦克风信号之间的目标相关度。
降噪设备可以根据计算得到的两路麦克风信号中信号为负值的采样点个数,计算得到该两路麦克风信号之间的相关度。例如,在一可行实施方式中,定义基于x2的相关度函数:
其中,o12、o22是下列矩阵的元素:
进一步地,基于上述第一和/或第二实施例,提出本发明风噪抑制方法第三实施例,在本实施例中,所述深度神经网络包括编码器、循环神经网络模块、解码器和全连接层,所述步骤S20中对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号的步骤包括:
步骤S201,分别将各帧所述麦克风信号中低频信号输入所述编码器进行处理,得到各帧所述麦克风信号分别对应的第一信号处理结果;
在本实施例中,预设的深度神经网络可以包括编码器、循环神经网络模块、解码器和全连接层。其中,编码器层用于对输入的麦克风信号进行数据特征提取和下采样;循环神经网络模块用于对编码器层输出的结果进行处理,在处理过程中会利用到对上一帧麦克风信号进行处理时的结果,从而利用历史帧的信息来对当前帧进行噪声消除,提高风噪抑制效果;解码器用于对循环神经网络输出的结果进行上采样;全连接层用于对解码器输出的结果进行处理后输出消除噪声后的信号。该深度神经网络可以预先通过训练数据集进行训练得到,训练方法可以采用常规的神经网络训练方法,在此不做赘述。
在一可行实施方式中,编码器和解码器可以借鉴U-net网络中的编解码器结构,也即,解码器用于实现数据特征的跨接和上采样。如图2所示,示意性地画出了本实施方式中深度神经网络的结构图,图中R_rnn表示循环神经网络,编码器(enconde)可以包括多个编码层(图2中画出了三个),解码器(decode)可以包括多个解码层(图2中画出了三个),编码器和解码器的各层实现跨接。其中,编码层可以采用一维卷积(1D-conv)+下采样+激活函数实现,下采样可以采用2*2的池化层,激活函数可以使用LeakyRelu,定义如下:
在具体实施方式中,循环神经网络可以采用带有门结构的LSTM、GRU等模型来实现,以对梯度消失问题有更强的抑制能力,能够更有效地对数据中在时间上间隔较远的因果关系进行学习。
降噪设备按照帧序一帧一帧地处理,以下以一帧为例进行说明,并将该帧麦克风信号称为目标麦克风信号以示区分。
降噪设备将目标麦克风信号中低频信号输入编码器进行处理,得到目标麦克风信号对应的信号处理结果(以下称为第一信号处理结果以示区分)。
步骤S202,分别将各帧所述第一信号处理结果输入至所述循环神经网络模块进行处理,得到各帧所述第一信号处理结果分别对应的第二信号处理结果,其中,在通过所述循环神经网络模块对目标信号处理结果进行处理时,使用所述循环神经网络模块对目标信号处理结果的上一帧所述第一信号处理结果进行处理得到的结果,所述目标信号处理结果为各帧所述第一信号处理结果中的任意一帧信号处理结果;
将目标麦克风信号对应的第一信号处理结果称为目标信号处理结果以示区分。降噪设备将目标信号处理结果输入至循环神经网络模块进行处理,得到的信号处理结果称为第二信号处理结果以示区分。可以理解的是,通过循环神经网络对目标信号处理结果进行处理时,会使用到该循环神经网络对目标信号处理结果的上一帧第一信号处理结果进行处理时得到的结果,而目标信号处理结果的上一帧第一信号处理结果就是通过编码器对目标麦克风信号的上一帧麦克风信号进行处理得到的结果。
步骤S203,分别将各帧所述第二信号处理结果输入至所述解码器进行处理,得到各帧所述第二信号处理结果分别对应的第三信号处理结果;
降噪设备将目标信号处理结果对应的第二信号处理结果输入至解码器进行处理,得到的结果称为第三信号处理结果以示区分。
步骤S204,分别将各帧所述第三信号处理结果输入至所述全连接层进行处理,得到各帧所述麦克风信号分别对应的所述第一处理信号。
降噪设备将目标麦克风信号对应的第三信号处理结果输入至全连接层进行处理,得到目标麦克风信号对应的第一处理信号。
进一步地,在一可行实施方式中,所述循环神经网络模块包括串联的至少一个循环神经网络层,所述循环神经网络层包括复位门和新记忆门,步骤S202中将所述目标信号处理结果输入至所述循环神经网络模块进行处理,得到所述目标信号处理结果对应的第二信号处理结果的步骤包括:
步骤S2021,将所述目标信号处理结果输入至所述循环神经网络模块,经过各层所述循环神经网络层的串联处理后得到所述目标信号处理结果对应的第二信号处理结果;
循环神经网络模块包括串联的至少一个循环神经网络层,例如,包括两个循环神经网络层,那么降噪设备将目标信号处理结果输入到第一个循环神经网络层进行处理,输出的结果在输入到第二个循环神经网络层进行处理,得到目标信号处理结果对应的第二信号处理结果。
需要说明的是,由于只有第一个循环神经网络层的输入数据是目标信号处理结果,后面的循环神经网络层的输入数据都是前一个循环神经网络层的输出数据,所以,本实施方式中,用“目标信号处理结果在循环神经网络层所对应的输入数据”表示在降噪设备采用循环神经网络模块对目标信号处理结果进行处理时,该循环神经网络层的输入数据。例如,假设循环神经网络模块包括两个循环神经网络层,那么目标信号处理结果在第一个循环神经网络层所对应的输入数据就是该目标信号处理结果,目标信号处理结果在第二个循环神经网络层所对应的输入数据就是通过第一个循环神经网络层对目标信号处理结果进行处理所得到的结果。同理,在本实施方式中,用“目标信号处理结果在循环神经网络层所对应的输出数据”表示在降噪设备采用循环神经网络模块对目标信号处理结果进行处理时,该循环神经网络层的输出数据。
以下以一层循环神经网络的处理过程为例进行说明,并将该层循环神经网络称为目标循环神经网络层以示区分,将目标信号处理结果在所述目标循环神经网络层所对应的输入数据称为目标输入数据以示区分。
在一可行实施方式中,循环神经网络层可采用如图3所示的结构实现。
在经过各层所述循环神经网络层串联处理所述目标信号处理结果的过程中,步骤S2021中将所述目标信号处理结果在所述目标循环神经网络层所对应的目标输入数据输入至所述目标循环神经网络层进行处理,得到所述目标信号处理结果在所述目标循环神经网络层所对应的目标输出数据的步骤包括:
步骤S20211,将所述目标输入数据,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述复位门,得到所述目标输入数据对应的复位门处理结果;
在一可行实施方式中,在采用如图3所示的循环神经网络层时,复位门的表达式可以为:
A1(t)=sigmoid(X(t)*W1+Y(t-1)*V1+B1)。
其中,符号*表示矩阵乘法,A1(t)表示目标输入数据对应的复位门处理结果,X(t)表示目标输入数据,Y(t-1)表示目标信号处理结果的上一帧第一信号处理结果在目标循环神经网络层所对应的输出数据,W1、V1和B1是复位门中的参数,可在模型训练阶段得到。
步骤S20212,将所述目标输入数据和所述目标输入数据对应的所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述新记忆门,得到所述目标输入数据对应的新记忆门处理结果;
在一可行实施方式中,在采用如图3所示的循环神经网络层时,新记忆门的表达式可以为:
其中,符号c表示对应元素相乘,W2、V2和B2是新记忆门中的参数,可在模型训练阶段得到。
步骤S20213,根据所述目标输入数据对应的所述新记忆门处理结果和所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,计算得到所述目标输出数据。
在一可行实施方式中,在采用如图3所示的循环神经网络层时,目标输出结果表示为Y(t),可以采用以下表达式计算:
Y(t)=(1-A1(t))*Y(t-1)+A1(t)*A2(t)。
在一可行实施方式中,在对采用如图3所示的循环神经网络层的深度神经网络进行训练的过程中,可以采用反向传播计算各个参数的梯度,根据梯度来更新各个参数。可以采用如下方式来计算各个参数的梯度。
对于新记忆门:
这里对w2,k做梯度计算
同理
其中
同理
其中
在一可行实施方式中,降噪设备可以按照如图4所示的流程进行风噪抑制。
1.输入信号分别为时域麦克信号1(y1)、时域麦克信号2(y2)、麦克信号可以为一路也可以是多路,此处以两路信号为例;
2.对输入的时域麦克信号做时频变换,此处采用FFT快速傅里叶变换,得到频域信号分别为Y1(K)、Y2(K),根据远端信号(喇叭信号),分别对两路信号做回声消除处理;
3.对两路麦克信号做波束形成,抑制指向性以外的噪声;
4.通过两路麦克信号判断当前处理的信号帧是含有风噪还是不含有风噪;
5.如果判断当前帧是非风噪帧,则对麦克信号做传统的噪声消除处理;
6.如果判断当前帧是风噪帧,则对低频信号做基于DNN的噪声消除,对高频信号做传统的噪声处理;
7.对传统的噪声处理后的时域麦克信号高通滤波得到输出信号out1;
8.对DNN的噪声处理后的信号低通滤波得到输出信号out2;
9.融合后的信号out=k1*out1+k2*out2,k1和k2是根据需要预先设置的权重;
10.风噪和非风噪条件下的信号均进行动态范围控制(DRC);
11.输出最终时域信号out。
此外,本发明实施例还提出一种风噪抑制装置,所述装置包括:
风噪分析模块,用于获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
噪声消除模块,用于当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
融合模块,用于对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
进一步地,所述风噪分析模块还用于:
当有两路或两路以上的所述麦克风信号时,计算各路所述麦克风信号之间的目标相关度;
根据所述目标相关度以及预设的相关度与风速之间的对应关系,匹配得到风噪分析结果;
或,计算任意一路所述麦克风信号中频率小于第二预设频率的信号的目标低频能量;
根据所述目标低频能量以及预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。
进一步地,所述风噪分析模块还用于:
分别计算两路所述麦克风信号中信号为负值的采样点个数;
根据所述采样点个数计算得到两路所述麦克风信号之间的目标相关度。
进一步地,所述深度神经网络包括编码器、循环神经网络模块、解码器和全连接层,所述噪声消除模块还用于:
分别将各帧所述麦克风信号中低频信号输入所述编码器进行处理,得到各帧所述麦克风信号分别对应的第一信号处理结果;
分别将各帧所述第一信号处理结果输入至所述循环神经网络模块进行处理,得到各帧所述第一信号处理结果分别对应的第二信号处理结果,其中,在通过所述循环神经网络模块对目标信号处理结果进行处理时,使用所述循环神经网络模块对目标信号处理结果的上一帧所述第一信号处理结果进行处理得到的结果,所述目标信号处理结果为各帧所述第一信号处理结果中的任意一帧信号处理结果;
分别将各帧所述第二信号处理结果输入至所述解码器进行处理,得到各帧所述第二信号处理结果分别对应的第三信号处理结果;
分别将各帧所述第三信号处理结果输入至所述全连接层进行处理,得到各帧所述麦克风信号分别对应的所述第一处理信号。
进一步地,所述循环神经网络模块包括串联的至少一个循环神经网络层,所述循环神经网络层包括复位门和新记忆门,所述噪声消除模块还用于:
将所述目标信号处理结果输入至所述循环神经网络模块,经过各层所述循环神经网络层的串联处理后得到所述目标信号处理结果对应的第二信号处理结果;
其中,目标循环神经网络层是各层所述循环神经网络层中的任意一层,在经过各层所述循环神经网络层串联处理所述目标信号处理结果的过程中,所述噪声消除模块还用于:
将所述目标输入数据,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述复位门,得到所述目标输入数据对应的复位门处理结果;
将所述目标输入数据和所述目标输入数据对应的所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述新记忆门,得到所述目标输入数据对应的新记忆门处理结果;
根据所述目标输入数据对应的所述新记忆门处理结果和所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,计算得到所述目标输出数据。
进一步地,当有两路或两路以上所述麦克风信号时,所述噪声消除模块还用于:
对各路所述麦克风信号分别采用远端信号进行回声消除,得到回声消除信号;
对各路所述回声消除信号进行波束形成,基于波束形成的结果对各路所述回声消除信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号;
对所述指向性噪声抑制信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述指向性噪声抑制信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号。
进一步地,所述噪声消除模块还用于当根据所述风噪分析结果确定所述麦克风信号中不存在风噪时,对所述麦克风信号采用所述非神经网络算法进行噪声消除处理,得到噪声抑制结果。
此外,本发明实施例还提出一种风噪抑制设备,如图5所示,图5是本发明实施例方案涉及的硬件运行环境的设备结构示意图。需要说明的是,本发明实施例风噪抑制设备可以是耳机、智能手机、个人计算机、服务器等设备,在此不做具体限制。
如图5所示,该风噪抑制设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的设备结构并不构成对风噪抑制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及风噪抑制程序。操作系统是管理和控制设备硬件和软件资源的程序,支持风噪抑制程序以及其它软件或程序的运行。在图5所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的风噪抑制程序,并执行以下操作:
获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
进一步地,所述对所述麦克风信号进行风噪分析,得到风噪分析结果的操作包括:
当有两路或两路以上的所述麦克风信号时,计算各路所述麦克风信号之间的目标相关度;
根据所述目标相关度以及预设的相关度与风速之间的对应关系,匹配得到风噪分析结果;
或,计算任意一路所述麦克风信号中频率小于第二预设频率的信号的目标低频能量;
根据所述目标低频能量以及预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。
进一步地,计算两路所述麦克风信号之间的目标相关度的操作包括:
分别计算两路所述麦克风信号中信号为负值的采样点个数;
根据所述采样点个数计算得到两路所述麦克风信号之间的目标相关度。
进一步地,所述深度神经网络包括编码器、循环神经网络模块、解码器和全连接层,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号的操作包括:
分别将各帧所述麦克风信号中低频信号输入所述编码器进行处理,得到各帧所述麦克风信号分别对应的第一信号处理结果;
分别将各帧所述第一信号处理结果输入至所述循环神经网络模块进行处理,得到各帧所述第一信号处理结果分别对应的第二信号处理结果,其中,在通过所述循环神经网络模块对目标信号处理结果进行处理时,使用所述循环神经网络模块对目标信号处理结果的上一帧所述第一信号处理结果进行处理得到的结果,所述目标信号处理结果为各帧所述第一信号处理结果中的任意一帧信号处理结果;
分别将各帧所述第二信号处理结果输入至所述解码器进行处理,得到各帧所述第二信号处理结果分别对应的第三信号处理结果;
分别将各帧所述第三信号处理结果输入至所述全连接层进行处理,得到各帧所述麦克风信号分别对应的所述第一处理信号。
进一步地,所述循环神经网络模块包括串联的至少一个循环神经网络层,所述循环神经网络层包括复位门和新记忆门,将所述目标信号处理结果输入至所述循环神经网络模块进行处理,得到所述目标信号处理结果对应的第二信号处理结果的操作包括:
将所述目标信号处理结果输入至所述循环神经网络模块,经过各层所述循环神经网络层的串联处理后得到所述目标信号处理结果对应的第二信号处理结果;
其中,目标循环神经网络层是各层所述循环神经网络层中的任意一层,在经过各层所述循环神经网络层串联处理所述目标信号处理结果的过程中,将所述目标信号处理结果在所述目标循环神经网络层所对应的目标输入数据输入至所述目标循环神经网络层进行处理,得到所述目标信号处理结果在所述目标循环神经网络层所对应的目标输出数据的操作包括:
将所述目标输入数据,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述复位门,得到所述目标输入数据对应的复位门处理结果;
将所述目标输入数据和所述目标输入数据对应的所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述新记忆门,得到所述目标输入数据对应的新记忆门处理结果;
根据所述目标输入数据对应的所述新记忆门处理结果和所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,计算得到所述目标输出数据。
进一步地,当有两路或两路以上所述麦克风信号时,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号的操作包括:
对各路所述麦克风信号分别采用远端信号进行回声消除,得到回声消除信号;
对各路所述回声消除信号进行波束形成,基于波束形成的结果对各路所述回声消除信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号;
对所述指向性噪声抑制信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述指向性噪声抑制信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号。
进一步地,所述获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果的操作之后,处理器1001还可以用于调用存储器1005中存储的风噪抑制程序,并执行以下操作:
当根据所述风噪分析结果确定所述麦克风信号中不存在风噪时,对所述麦克风信号采用所述非神经网络算法进行噪声消除处理,得到噪声抑制结果。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有风噪抑制程序,所述风噪抑制程序被处理器执行时实现如下所述的风噪抑制方法的步骤。
本发明风噪抑制设备和计算机可读存储介质各实施例,均可参照本发明风噪抑制方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种风噪抑制方法,其特征在于,所述方法包括以下步骤:
获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
2.如权利要求1所述的风噪抑制方法,其特征在于,所述对所述麦克风信号进行风噪分析,得到风噪分析结果的步骤包括:
当有两路或两路以上的所述麦克风信号时,计算各路所述麦克风信号之间的目标相关度;
根据所述目标相关度以及预设的相关度与风速之间的对应关系,匹配得到风噪分析结果;
或,计算任意一路所述麦克风信号中频率小于第二预设频率的信号的目标低频能量;
根据所述目标低频能量以及预设的低频能量与风速之间的对应关系,匹配得到风噪分析结果。
3.如权利要求2所述的风噪抑制方法,其特征在于,计算两路所述麦克风信号之间的目标相关度的步骤包括:
分别计算两路所述麦克风信号中信号为负值的采样点个数;
根据所述采样点个数计算得到两路所述麦克风信号之间的目标相关度。
4.如权利要求1所述的风噪抑制方法,其特征在于,所述深度神经网络包括编码器、循环神经网络模块、解码器和全连接层,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号的步骤包括:
分别将各帧所述麦克风信号中低频信号输入所述编码器进行处理,得到各帧所述麦克风信号分别对应的第一信号处理结果;
分别将各帧所述第一信号处理结果输入至所述循环神经网络模块进行处理,得到各帧所述第一信号处理结果分别对应的第二信号处理结果,其中,在通过所述循环神经网络模块对目标信号处理结果进行处理时,使用所述循环神经网络模块对目标信号处理结果的上一帧所述第一信号处理结果进行处理得到的结果,所述目标信号处理结果为各帧所述第一信号处理结果中的任意一帧信号处理结果;
分别将各帧所述第二信号处理结果输入至所述解码器进行处理,得到各帧所述第二信号处理结果分别对应的第三信号处理结果;
分别将各帧所述第三信号处理结果输入至所述全连接层进行处理,得到各帧所述麦克风信号分别对应的所述第一处理信号。
5.如权利要求4所述的风噪抑制方法,其特征在于,所述循环神经网络模块包括串联的至少一个循环神经网络层,所述循环神经网络层包括复位门和新记忆门,将所述目标信号处理结果输入至所述循环神经网络模块进行处理,得到所述目标信号处理结果对应的第二信号处理结果的步骤包括:
将所述目标信号处理结果输入至所述循环神经网络模块,经过各层所述循环神经网络层的串联处理后得到所述目标信号处理结果对应的第二信号处理结果;
其中,目标循环神经网络层是各层所述循环神经网络层中的任意一层,在经过各层所述循环神经网络层串联处理所述目标信号处理结果的过程中,将所述目标信号处理结果在所述目标循环神经网络层所对应的目标输入数据输入至所述目标循环神经网络层进行处理,得到所述目标信号处理结果在所述目标循环神经网络层所对应的目标输出数据的步骤包括:
将所述目标输入数据,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述复位门,得到所述目标输入数据对应的复位门处理结果;
将所述目标输入数据和所述目标输入数据对应的所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,输入所述目标循环神经网络层的所述新记忆门,得到所述目标输入数据对应的新记忆门处理结果;
根据所述目标输入数据对应的所述新记忆门处理结果和所述复位门处理结果,以及所述目标信号处理结果的上一帧所述第一信号处理结果在所述目标循环神经网络层所对应的输出数据,计算得到所述目标输出数据。
6.如权利要求1所述的风噪抑制方法,其特征在于,当有两路或两路以上所述麦克风信号时,所述对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号的步骤包括:
对各路所述麦克风信号分别采用远端信号进行回声消除,得到回声消除信号;
对各路所述回声消除信号进行波束形成,基于波束形成的结果对各路所述回声消除信号进行预设方向的噪声抑制,得到一路指向性噪声抑制信号;
对所述指向性噪声抑制信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述指向性噪声抑制信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号。
7.如权利要求1至6中任一项所述的风噪抑制方法,其特征在于,所述获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果的步骤之后,还包括:
当根据所述风噪分析结果确定所述麦克风信号中不存在风噪时,对所述麦克风信号采用所述非神经网络算法进行噪声消除处理,得到噪声抑制结果。
8.一种风噪抑制装置,其特征在于,所述装置包括:
风噪分析模块,用于获取麦克风信号,对所述麦克风信号进行风噪分析,得到风噪分析结果;
噪声消除模块,用于当根据所述风噪分析结果确定所述麦克风信号中存在风噪时,对所述麦克风信号中低频信号采用预设的深度神经网络进行噪声消除处理,得到第一处理信号,以及,对所述麦克风信号中高频信号采用预设的非神经网络算法进行噪声消除处理,得到第二处理信号,其中,所述高频信号是频率大于第一预设频率的信号,所述低频信号是频率小于或等于所述第一预设频率的信号;
融合模块,用于对所述第一处理信号和所述第二处理信号进行融合得到风噪抑制结果。
9.一种风噪抑制设备,其特征在于,所述风噪抑制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风噪抑制程序,所述风噪抑制程序被所述处理器执行时实现如权利要求1至7中任一项所述的风噪抑制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有风噪抑制程序,所述风噪抑制程序被处理器执行时实现如权利要求1至7中任一项所述的风噪抑制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310180377.9A CN116386654A (zh) | 2023-02-23 | 2023-02-23 | 风噪抑制方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310180377.9A CN116386654A (zh) | 2023-02-23 | 2023-02-23 | 风噪抑制方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386654A true CN116386654A (zh) | 2023-07-04 |
Family
ID=86972123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310180377.9A Pending CN116386654A (zh) | 2023-02-23 | 2023-02-23 | 风噪抑制方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386654A (zh) |
-
2023
- 2023-02-23 CN CN202310180377.9A patent/CN116386654A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
US10373609B2 (en) | Voice recognition method and apparatus | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108604452B (zh) | 声音信号增强装置 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN109036460A (zh) | 基于多模型神经网络的语音处理方法和装置 | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN110383798A (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
CN111627455A (zh) | 一种音频数据降噪方法、装置以及计算机可读存储介质 | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
CN115171713A (zh) | 语音降噪方法、装置、设备及计算机可读存储介质 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
JP2007251354A (ja) | マイクロホン、音声生成方法 | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
CN113823301A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
CN110808058B (zh) | 语音增强方法、装置、设备及可读存储介质 | |
CN116386654A (zh) | 风噪抑制方法、装置、设备及计算机可读存储介质 | |
WO2023086311A1 (en) | Control of speech preservation in speech enhancement | |
CN110459235A (zh) | 一种混响消除方法、装置、设备及存储介质 | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
CN116453536A (zh) | 风噪抑制方法、装置、设备及计算机可读存储介质 | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
CN117219107B (zh) | 一种回声消除模型的训练方法、装置、设备及存储介质 | |
Pathrose et al. | MASTER: Microphone Array Source Time Difference Eco Canceller via Reconstructed Spiking Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |