CN108630221B - 基于量化snr分析和自适应维纳滤波的音频信号质量增强 - Google Patents
基于量化snr分析和自适应维纳滤波的音频信号质量增强 Download PDFInfo
- Publication number
- CN108630221B CN108630221B CN201710352587.6A CN201710352587A CN108630221B CN 108630221 B CN108630221 B CN 108630221B CN 201710352587 A CN201710352587 A CN 201710352587A CN 108630221 B CN108630221 B CN 108630221B
- Authority
- CN
- China
- Prior art keywords
- processing technique
- audio
- snr
- signal processing
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 74
- 238000001914 filtration Methods 0.000 title claims abstract description 63
- 230000003044 adaptive effect Effects 0.000 title description 22
- 238000004458 analytical method Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims abstract description 155
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000007613 environmental effect Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010972 statistical evaluation Methods 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 241000156302 Porcine hemagglutinating encephalomyelitis virus Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R29/00—Arrangements for measuring or indicating electric quantities not covered by groups G01R19/00 - G01R27/00
- G01R29/26—Measuring noise figure; Measuring signal-to-noise ratio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Noise Elimination (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本发明提供了一种音频信号增强方法,包括:获取音频信号;评估音频信号的音频帧的信噪比(SNR);确定针对音频帧的SNR阈值;根据SNR阈值与音频帧的评估SNR的比较来选择音频信号处理技术;使用应用所选择的信号处理技术的维纳滤波器对音频帧进行滤波;以及使用应用所选择的信号处理技术的维纳滤波器输出经滤波的音频帧。当音频帧的评估SNR小于SNR阈值时,选择先进先出(FIFO)信号处理技术,并且当音频帧的评估SNR大于SNR阈值时,选择对数能量声音活动检测(VAD)信号处理技术。
Description
技术领域
本发明通常涉及音频信号质量增强技术,更具体地,涉及基于量化信噪比(SNR)分析和自适应维纳滤波的音频信号质量增强。
背景技术
支持声音识别的应用在现代车辆中越来越普遍。这种技术允许车辆的驾驶员通过简单地发出一系列声音命令来实现通常需要使用手的车载功能,例如进行电话呼叫或选择要播放的音乐。这样,驾驶员的手可以停留在方向盘上,驾驶员的目光可以保持在前方的道路上,从而降低事故风险。
车辆中的“免提”通信通常使用蓝牙来实施,蓝牙是在2.4至2.485GHz的工业科学和医学(ISM)频段中操作的短距离无线通信。蓝牙设计为用于低功耗,并使用每个兼容设备中配备的低成本收发器微芯片替代标准的基于线路的通信。除此之外,蓝牙允许驾驶员将他们的手机与车辆的音频系统配对,并利用车辆的音频系统建立免提通话。
声音识别或语音识别应用程序可以利用蓝牙获取语音信号,识别信号内的语言,并将口语翻译成文本或允许计算机对识别的命令做出动作的一些其他形式。存在用于实现声音识别的各种模型和技术,例如自回归(AR)模型、隐马尔可夫模型、动态时间扭曲和神经网络等。每个声音识别模型有各种优点,包括更高的计算效率、增加的精确度、改进的速度等等。
所有声音识别方法的共同之处在于从用户获取语音信号的过程。然而,当在含噪环境中尝试声音识别时,由于环境噪声使来自用户的语音信号变得混乱,所以性能经常受到影响。当在车辆中实现声音识别时,由于车辆内部的车辆动力(例如,发动机、无线电、转向信号指示器、车窗/天窗调整、加热、通风和空调(HVAC)风扇等)以及车辆外部(例如,风、雨、经过的车辆、例如坑洼的路面特征、减速带等)而存在若干噪声源,所以出现这样的问题。结果,车辆的舱室通常具有不同噪声的混合,每种噪声具有不同的特性(例如,位置、方向、音高、音量、持续时间等)。结果是基于蓝牙的免提语音对话中的音频质量下降,声音识别精确度差。
发明内容
本发明提供了增强音频信号质量的技术,更具体地,提供用于蓝牙上进行的声音通信的降噪。与维纳滤波相结合地采用两种不同的噪声评估技术,对数能量声音活动检测(VAD)和先进先出(FIFO)。两种噪声评估技术在不同含噪条件下都具有优势。特别地,已经观察到,基于这些技术的性能,对数能量VAD在更高信噪比(SNR)下比FIFO更有效,而FIFO在更低SNR下比对数能量VAD更有效。因此,本发明描述一种优化的自适应降噪方法,其将对数能量VAD和FIFO技术与维纳滤波相组合。结果是,出现改进传统维纳滤波的新的信号滤波算法。
根据本发明的实施例,音频信号增强方法包括:获取音频信号;评估音频信号的音频帧的信噪比(SNR);确定针对音频帧的SNR阈值;根据SNR阈值与音频帧的评估SNR的比较来选择音频信号处理技术;使用应用所选择的信号处理技术的维纳滤波器来对音频帧进行滤波;以及输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧。当音频帧的评估SNR小于SNR阈值时,选择先进先出(FIFO)信号处理技术,并且当音频帧的评估SNR大于SNR阈值时,选择对数能量声音活动检测(VAD)信号处理技术。
FIFO信号处理技术和对数能量VAD信号处理技术的相关性系数可以测量干净信号与FIFO信号处理技术和对数能量VAD信号处理技术的相应输出信号之间的相关性。在这方面,音频信号增强方法还可包括:分别计算FIFO信号处理技术和对数能量VAD信号处理技术的相关性系数。而且,SNR阈值为FIFO信号处理技术和对数能量VAD信号处理技术的相关性系数分别相同时的SNR值。
SNR阈值的确定可包括:评估获取音频信号的环境中的噪声水平;以及基于评估的噪声水平来确定SNR阈值。噪声水平的评估可包括:使用FIFO信号处理技术评估噪声水平。噪声水平的评估还可包括:确定当获取音频信号时存在的一种或多种环境条件;以及基于一种或多种环境条件来评估噪声水平。一种或多种环境条件可包括车辆速度、风扇速度、天气状况、车窗是否打开、发动机的每分钟转数(RPM)以及正在播放的媒体的音量中的一种或多种。
音频信号增强方法还可包括:参考查找表以基于评估的噪声水平来确定SNR阈值。音频信号增强方法甚至还可包括:测量多个噪声水平下的SNR阈值;以及使用在多个噪声水平下测量的SNR阈值生成查找表。
SNR阈值可根据获取音频信号的环境中的噪声水平而变化。
SNR的评估可包括使用FIFO信号处理技术来评估音频帧的SNR。
附加地,音频信号增强方法还可包括:将所获取的音频信号划分为多个音频帧,其中,音频帧为多个音频帧中的一个。在这方面,可以针对多个音频帧中的每一个来实现如下步骤:评估SNR;确定SNR阈值;选择音频信号处理技术;使用应用所选择的信号处理技术的维纳滤波器对音频帧进行滤波;以及输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧。
而且,获取的音频信号可包括噪声和语音的组合。输出的经滤波的音频帧可包括音频帧中存在的噪声被去除的语音。
音频信号增强方法还可包括:在对音频帧进行滤波之前,使用快速傅立叶变换(FFT)将音频帧转换为频域。
另外,可通过蓝牙获取音频信号,并且可在车辆中获取音频信号。
此外,根据本发明的实施例,音频信号增强装置包括:音频获取单元,获取车辆中的音频信号;以及控制单元,装配在车辆中并且配置为:评估音频信号的音频帧的信噪比(SNR);确定针对音频帧的SNR阈值;根据SNR阈值与音频帧的评估SNR的比较来选择音频信号处理技术;使用应用所选择的信号处理技术的维纳滤波器对音频帧进行滤波;以及输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧。当音频帧的评估SNR小于SNR阈值时,选择先进先出(FIFO)信号处理技术,并且当音频帧的评估SNR大于SNR阈值时,选择对数能量声音活动检测(VAD)信号处理技术。
此外,根据本发明的实施例,包含用于实现音频信号增强方法的程序指令的非暂时性计算机可读介质包括:评估获取的音频信号的音频帧的信噪比(SNR)的程序指令;确定音频帧的SNR阈值的程序指令;根据SNR阈值与音频帧的评估SNR的比较来选择音频信号处理技术的程序指令;使用应用所选择的信号处理技术的维纳滤波器对音频帧进行滤波的程序指令;以及输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧的程序指令。当音频帧的评估SNR小于SNR阈值时,选择先进先出(FIFO)信号处理技术,并且当音频帧的评估SNR大于SNR阈值时,选择对数能量声音活动检测(VAD)信号处理技术。
附图说明
通过结合附图参考以下描述可更好地理解本文的实施例,附图中相同的附图标记表示相同或功能类似的元件,其中:
图1A和图1B是示出在不同语音类型下的FIFO与对数能量(log-energy)VAD信号处理技术的性能比较的曲线图;
图2是示出根据本发明的实施例的基于量化SNR分析和自适应维纳滤波的音频信号质量增强的示例性简化过程的流程图;以及
图3A至图3D包括根据本发明的实施例的将常规维纳滤波的信号输出与基于量化SNR分析的自适应维纳滤波的信号输出进行比较的模拟结果。
应当理解,上述参考附图不一定按比例绘制,呈现了说明本发明的基本原理的各种优选特征的稍微简化的表示。本发明的具体设计特征(包括例如具体尺寸、定向、位置和形状)将部分地通过特定的预期应用和使用环境来确定。
具体实施方式
在下文中,将参考附图详细描述本发明的实施例。如本领域技术人员将认识到的,在不脱离本发明的精神或范围的情况下,所描述的实施例可以各种不同的方式进行修改。此外,在整个说明书中,相同的附图标记指代相同的元件。
本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本发明。如本文所使用的,单数形式“一”、“一个”和“所述”也旨在包括复数形式,除非上下文另有明确指示。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所述特征、整体、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合。如本文所使用的,术语“和/或”包括一个或多个相关列出项目的任何和所有组合。
应当理解,本文使用的术语“车辆”或“车辆的”或其他类似术语一般包括机动车辆,例如客运汽车(包括运动型多用途车辆(SUV)、公共汽车、卡车、各种商用车辆)、船只(包括各种船舶和轮船)、飞机等,并且包括混合动力车辆、电动车辆、混合电动车辆、氢动力车辆和其他替代燃料车辆(例如,来自石油以外的资源的燃料)。如本文所提到的,可无线充电的车辆包括被操作为进行无线充电的任何车辆,例如电动车辆(EV)、混合电动车辆(HEV)等。EV是包括作为其运动能力的一部分的从可充电能量存储设备(例如,一个或多个可再充电电化学电池或其它类型的电池)获得的电力的车辆。EV不限于汽车,并且可包括摩托车、推车、踏板车等。此外,HEV是具有两种或更多种动力源的车辆,例如基于汽油的动力和基于电力的动力两者。
附加地,应当理解,以下方法或其方面中的一个或多个可由至少一个控制单元来执行。如本文所述,控制单元可实施在车辆中。术语“控制单元”可指代包括存储器和处理器的硬件设备。存储器配置为存储程序指令,并且处理器被专门编程为执行程序指令以实现下面进一步描述的一个或多个处理。此外,应当理解,以下方法可由包括控制单元的系统结合一个或多个附加组件来执行,如下面详细描述的。
此外,本发明的控制逻辑可体现为包含由处理器、控制器等执行的可执行程序指令的计算机可读介质上的非暂时性计算机可读介质。计算机可读介质的示例包括但不限于ROM、RAM、光盘(CD)-ROM、磁带、软盘、闪存驱动器、智能卡和光学数据存储设备。计算机可读记录介质还可以分布在网络耦合的计算机系统中,使得计算机可读介质以分布式方式,例如由远程信息处理服务器或控制器局域网(CAN)存储并执行。
现在参考本发明的实施例,本文所描述的技术利用优化的自适应降噪方法,其将对数能量VAD和FIFO噪声评估技术与维纳滤波相组合,以增强音频信号质量,更具体地,降低蓝牙上的声音通信中的噪声。两种噪声评估技术在不同含噪条件下都具有优点。特别地,已经观察到,基于这些技术的性能,对数能量VAD在更高的信噪比(SNR)下比FIFO更有效,而FIFO在更低的SNR下比对数能量VAD更有效。组合对数能量VAD和FIFO噪声评估技术提高了维纳滤波性能,允许更高的语音识别灵敏度和精确度。结果是,出现改进传统维纳滤波的新的信号滤波算法。
I.维纳滤波算法
维纳滤波是许多信号增强方法中采用的流行算法。维纳滤波算法的基本原理涉及使用相关信号作为输入来计算未知信号的统计评估,并对已知信号进行滤波,以输出评估信号。在语音识别领域,特别地,维纳滤波尝试通过从被污染的信号中滤除噪声来从被加性噪声污染的语音信号中获得干净信号,以提供基础语音信号的无噪声(或少噪声)评估。为此,维纳滤波根据相关信号计算未知信号的统计评估。通过最小化期望的干净语音信号s(n)与评估信号之间的均方误差(MSE)来获得这种评估。
为了获得干净信号s(n),必须提供有关加性噪声的信息。在语音增强应用中,输入信号为干净语音和噪声的组合,如下所示:
y(n)=s(n)+n(n) [公式1]
这里,s(n)为干净语音信号,n(n)为噪声信号,y(n)为输入信号。
使用以下公式将信号变换为频域:
Y(ω)=S(ω)+N(ω) [公式2]
然后如下计算输入信号和噪声信号的功率谱密度(PSD):
Py(ω)=|Y(ω)|2/T [公式3]
这里,T是信号的时间范围。可以使用公式3以相同的方式计算干净信号和噪声信号的PSD。
同时,基于假设干净语音信号与噪声信号不相关,可以如下改写公式1:
Py(ω)=Ps(ω)+Pn(ω) [公式4]
通过将信号s和噪声n作为不相关的信号考虑,可以如下导出信噪比(SNR):
通过集成公式6和7,可以如下导出维纳滤波传递函数:
最后,实现将从公式5中找到的频域输出信号变换回时域。
A.决策导向法(Decision-Directed approach)维纳滤波
最近通过决策导向(Decision-Directed,DD)法维纳滤波对传统的维纳滤波进行了改进。在DD方法中,计算后验SNR和先验SNR,而不是公式7中所示的常规SNR。后验和先验SNR评估增强了语音增强系统并且有助于降低音调。从输入信号直接获得后验SNR,并且DD法将评估先验SNR。
如下评估后验SNR:
如下评估先验SNR:
从输入信号获得后验SNR,而利用平滑因子β根据后验SNR来对先验SNR进行成型(shape)。P[.]被定义为半波整流,并且G(·)为增益函数。新的维纳滤波传递函数与利用代替公式7中的SNR变量的公式8相同。
DD法维纳滤波允许快速跟踪增加的语音功率水平,从而有效地导致自适应平滑。因此,产生更少的语音失真。
然而,维纳滤波器是线性预测器,其仅在固定背景噪声下表现良好。因此,即使保证性能,维纳滤波系统也仍然需要噪声检测技术来适应实时噪声。
B.噪声检测
如前所述,维纳滤波算法基于噪声谱(noise spectrum)评估可用的假设。为了构建自适应实时滤波,还需要更新参考噪声。为此,需要噪声评估技术来在语音增强系统中获得适当的性能结果。
在若干不同的噪声检测技术中,有两种方法来达成这一目标:声音活动检测(VAD)和噪声评估算法。VAD算法包括一组信号处理方法,用于检测短段语音信号中是否存在人声。VAD算法的输出为“1”或“0”,以指示该段是否包含声音活动。另一方面,例如先进先出(FIFO)寄存器的噪声评估算法可以通过连续跟踪噪声谱来评估实时噪声。这样,噪声评估算法的输出仅为噪声或噪声谱,如下面进一步详细描述的。
1.声音活动检测(VAD)
VAD算法通常被设计为从被划分为短帧的音频信号中提取特定特征。将这些提取的特征与可以从输入信号的仅有噪声的段评估的阈值进行比较。然后可以基于比较来决定特征是否包含语音。
不同的VAD算法提取不同的特征。流行的特征包括短期能量、零交叉率和线性预测系数。因为能量是信号最基本的特征,所以基于能量的VAD方法通常简单且可靠,并且可以在频域下方便地在硬件中实施。
2.对数能量VAD
基于能量的VAD算法假设语音信号具有比噪声更高的能量。当信号作为段进入时,如下定义对数能量Es:
这里,ε为添加的小正值常数以防止计算零的对数。值ε可为例如10-5,其小到足以忽略,并且防止系统计算log(0)。这里,高能量帧被认为是语音帧,并且低能量帧被认为是非语音帧。
在语音增强系统中,VAD部分有两个输入:当前信号段和参考噪声。将两个输入的相应能量彼此进行比较,以确定当前段是否包含语音。如果比较表明该段包含语音,则信号段将被滤波。另一方面,如果比较表明该段不包含语音,则新的噪声帧将更新原始参考噪声。
然而,已经注意到,VAD算法不能够在所有条件下都表现良好。例如,VAD算法的性能在弱语音分量或强背景噪声中严重退化。因此,在这种条件下,其它方法是优选的。
C.噪声评估算法
噪声评估算法与VAD之间的主要区别在于,噪声评估算法跟踪实时含噪信号以评估“当前”噪声。噪声评估算法也是语音增强系统的重要部分,特别是在非固定噪声环境下。然而,现实世界的噪声并不总是固定的。例如,在车辆环境中,噪声根据车速、道路状况、天气条件等的变化而变化。VAD不能够在语音段期间检测到改变的噪声。附加地,语音的停止结束点(stop-closure)不是语音中唯一的无声(silence)段。例如,无声的其它示例可包括在低频下无声化摩擦中的段(例如,汽车噪声)和在高频下声音中的某些元音声。
1.先进先出(FIFO)寄存器
FIFO寄存器为基于如下假设--单个频带中的含噪语音信号的功率通常衰减至噪声的功率水平--的噪声评估算法(通常称为最小统计噪声评估)。跟踪每个频带中的含噪语音的最小功率可以产生噪声水平的粗略评估。每个信号帧都存储在FIFO寄存器中。通过跟踪足够大数量的连续帧,PSD的最小值符合含噪信号的噪声部分。
这里,αN是平滑因子。平滑因子越高,评估将越稳定且平滑(之后最大阈值不再有用)。
通过实际平滑信号功率评估的逐帧(frame-wise)比较获得子带Ωi的最小噪声功率评估Nmin 2(n,Ωi)。PSD的值存储在深度为给定值R的FIFO寄存器中。为了补偿结果的过高评估(overestimation),需要在最终输出之前如下添加过高评估因子Boverest:
Nest 2(n,Ωi)=Boverest*Nmin 2(n,Ωi) [公式13]
II.对数能量VAD和FIFO算法比较
依据对于车辆噪声随着速度增加的理解,可以假设在高速和低速条件下的噪声包含相同的分量,唯一的区别在于噪声功率水平。因此,通过将不同因子乘以噪声样本,使用低于40英里每小时(mph)的噪声样本来模拟从低速到高速的噪声。使用这种方法,可以获得具有不同功率水平的噪声,如下所示:
然后可以如下产生含噪信号:
ym(n)=nm(n)+s(n) [公式15]
由于分别已知噪声和干净语音信号,可以如下计算SNR值的跟踪:
SNR值可用作每个测试的参考。输入从公式12产生的含噪信号,可以产生两种语音增强系统在不同噪声条件下的性能比较。为了精确比较两种不同方法的性能,两个系统的输入信号应该完全相同。在对具有不同SNR条件的信号进行滤波后,可以将输出与干净语音信号进行比较,以评估系统的性能。
图1A和图1B示出量化分析结果,包括示出在不同语音类型下的FIFO信号处理技术110与对数能量VAD信号处理技术120的性能比较的曲线图。如图1A和图1B所示,y轴为相关性系数,其为一个信号的变化与另一信号的变化相关的程度的统计度量。更具体地,相关性系数描述了输出信号与原始干净语音信号的输出信号“接近”程度。当相关性系数等于“1”时,输出信号与原始语音信号完全相同。随着相关性系数减小,滤波的输出信号与干净语音信号之间存在更小的相似度。x轴为以dB为单位的SNR。低SNR通常意味着大量的噪声,而高SNR通常意味着更少的背景噪声。
分别针对男性和女性语音来进行图1A和图1B的分析说明。带有空心圆(opencircle)的虚线表示FIFO噪声评估方法110,带有闭合圆(closed circle)的虚线表示对数能量VAD 120。如图1A和图1B所示,对数能量VAD 120在高SNR(即,低噪声)下表现得更好,而FIFO噪声评估算法110在低SNR条件(即,高噪声)下表现得更好。当背景噪声低时,对数能量VAD 120产生清晰的输出信号,并且几乎没有注意到任何剩余的噪声。然而,随着噪声水平的提高,对数能量VAD 120的输出可能受到显着影响。例如,输出语音信号可能偶尔包含“剪辑的声音”段。另一方面,FIFO噪声评估算法110的性能线一致地显示出比对数能量VAD 120小的斜率值。在低SNR环境中,噪声对FIFO噪声评估算法110的影响小于对对数能量VAD 120的影响。
值得注意的是,在给定的噪声条件下,FIFO算法110线和对数能量VAD 120线相交的临界点130总是存在。临界点130(这里也称为“SNR阈值”)表示FIFO信号处理技术110和对数能量VAD信号处理技术120的相关性系数分别相同时的SNR值。(以下描述用于计算相关性系数的方法。)SNR阈值130可以根据获取音频信号的环境中的噪声条件而变化。噪声条件可基于环境因素(例如,车速、风扇速度、天气状况、车窗是否打开、发动机的每分钟转数(RPM)、正在播放的媒体的音量等)而改变。
可基于获取音频信号的环境的评估噪声水平来确定SNR阈值130。如下面进一步详细描述的,可使用FIFO噪声评估算法110来评估车辆(或其它环境)中的噪声水平。也可基于环境条件(例如,车速、风扇速度、天气状况、车窗是否打开、发动机的每分钟转数(RPM)、正在播放的媒体的音量(例如,使用车辆的内置立体声系统)等)来评估噪声水平。
也可通过参考查找表来确定SNR阈值130。可通过测量多种噪声水平或条件(例如上面列出的环境条件)下的SNR阈值来生成查找表。也可手动调整SNR阈值130以将自适应维纳滤波系统偏向FIFO算法110或对数能量VAD算法120。
因为通常车辆噪声是高度动态的,并且由于响应于这种环境中固有的不期望的条件而发生的许多变化,所以即使在单次行程中,SNR水平也可能频繁且快速地改变。因此,当以常规方式采用FIFO算法110或对数能量VAD算法120时,每个都将最终遇到该算法所遭受的SNR条件。但是,由于FIFO算法110线和对数能量VAD 120线相交的临界点130(即,SNR阈值)总是存在,所以可以相结合地并且自适应地使用基于对数能量VAD的和基于FIFO的维纳滤波,以便利用每个算法的长处,如下面更详细描述的。
III.基于临界点的自适应维纳滤波
图2是示出根据本发明的实施例的基于量化SNR分析和自适应维纳滤波的音频信号质量增强的示例性简化过程的流程图。过程200可在步骤205处开始,并且继续至步骤210,这里,如在这里更详细地描述的,自适应维纳滤波基于变化的噪声条件在两种不同的噪声评估方法之间进行选择。在高SNR下,系统选择对数能量VAD 120进行信号处理,在低SNR下,系统选择FIFO噪声评估110进行信号处理。
如上所述,通过获取音频信号y(n)作为输入来初始化维纳滤波(步骤205)。例如,可使用安装在车辆中的例如麦克风等的音频获取设备(未示出)在车辆中获取来自用户(例如,驾驶员或乘客)的语音信号。当然,语音信号可能被车辆内部的源(例如,无线电、HVAC风扇、发动机、转向信号指示器、车窗/天窗调整等)以及车辆外部(例如,风、雨、经过的车辆、例如坑洼的路面特征、减速带等)生成的噪声污染。
输入信号可以被成帧(frame)为段,得到yw(m)(步骤210)。然后,可以例如使用快速傅里叶变换(FFT),将音频帧(由输入信号的成帧产生的多个音频帧中的)变换为频域Yw(f)(步骤215)。
接下来,为了确定是采用FIFO算法110还是采用对数能量VAD算法120,可以使用FIFO SNR评估器来评估存在于音频帧中的噪声(步骤220)。为此,FIFO SNR评估器接受输入信号Yw(f),并评估噪声Nest,然后将其用于获得评估的SNR,SNRest,如下面的公式17所示:
然后将评估的SNR与SNR阈值130(即,如图1A和图1B所示,FIFO算法110线与对数能量VAD 120线相交的临界点)进行比较,以确定是使用FIFO算法110还是使用对数能量VAD算法120来处理音频帧。如上所述,SNR阈值130表示FIFO信号处理技术110和对数能量VAD信号处理技术120的相关性系数分别相同时的SNR值。
可以如下计算任一算法的相关性系数:
这里,(mean2(x)是指计算x的所有元素的平均值的MATLAB语法。)A为干净语音信号,Amn表示矩阵A中的作为时域中的信号值的元素。B未滤波的输出信号,Bmn表示矩阵B中的作为时域中的输出信号值的元素。
公式18用于比较两个矩阵(即,语音信号)A与B之间的相似度。为了本发明的目的,A为输入语音信号,B为将要与A进行比较的评估信号。上述公式中的下标m和n是指在二维矩阵中找到的元素(例如,图像中的像素位置)。然而,在语音信号的情况下,矩阵A和B只是一维矩阵,因此不需要使用m和n两者。
如果评估的SNR,SNRest,小于SNR阈值130,则选择FIFO方法110来实现噪声评估(步骤225)。然后,在步骤220中,维纳滤波使用Nest根据FIFO噪声评估来计算后验SNR(步骤245)和先验SNR(步骤250),如以上所述。
另一方面,如果SNRest大于SNR阈值130,则选择对数能量VAD方法120来实现噪声检测(步骤230)。在这种情况下,帧(例如,前25ms)的初始能量将被认为是仅有噪声信号(即,没有语音),并且被保留为对数能量VAD的噪声参考(步骤235和240)。
经处理的信号最终从频域变换回时域。就此而言,可以如上所述实现维纳滤波的传递函数(参见公式8)(步骤255)。然后,可以如下在频域中输出信号:
R=W*Y [公式19]
这里,R为频域中的输出信号,W为步骤255中的传递函数,Y为维纳滤波的输入(步骤260)。
最后,将输出信号变换回时域(例如,使用逆FFT)(步骤265)。然后,取决于评估的SNR和SNR阈值130,在使用基于对数能量VAD的维纳滤波或基于FIFO的维纳滤波进行处理后,输出经滤波的信号(步骤270)。
过程200说明性地在步骤270处结束。上面详细描述了可实现过程200的步骤以及辅助过程和参数的技术。另外,获取的音频信号的每个音频帧都将具有来自基于对数能量VAD的维纳滤波或基于FIFO的维纳滤波的输出。因此,应该理解,可针对多个音频帧中的每一个重复图2所示的步骤。
还应该注意的是,图2所示的步骤仅仅是用于说明的示例,并且可根据需要包括或排除某些其它步骤。此外,虽然示出了步骤的特定顺序,但是该排序仅仅是说明性的,并且在不脱离本文的实施例的范围的情况下,可利用这些步骤的任何合适的排列。更进一步地,所示出的步骤可根据本权利要求的范围以任何合适的方式进行修改。
IV.表现结果
图3A至图3D包括根据本发明的实施例的将常规维纳滤波的信号输出与基于量化SNR分析的自适应维纳滤波的信号输出进行比较的模拟结果。图3A将干净语音信号320与含噪信号310进行比较;图3B将利用对数能量VAD的维纳滤波输出信号330与含噪信号310进行比较;图3C将利用FIFO的维纳滤波输出信号340与含噪信号310进行比较;以及图3D将根据本发明的实施例的自适应维纳滤波的输出信号350与含噪信号310进行比较。在图3B和图3C中可以看出,对数能量VAD通常工作良好,但语音信号在某些语音帧中被切断,在FIFO系统不会在那些相同的语音帧中出现这种情况。也可以在图3D中看出,自适应维纳滤波在整个帧中都表现良好。
图3A示出含噪信号310与干净语音信号320之间存在明显的差异。换句话说,噪声使原始信号明显失真。使用3.0×105秒和3.5×105秒时隙作为示例,“利用对数能量的维纳滤波”(图3B)通过降低噪声和语音振幅来改变干净语音结构,使语音听起来“被切断”。同时,“利用FIFO的维纳滤波”(图3C)通过过度放大信号使信号失真,使语音听起来像机器人。
尽管利用对数能量VAD和FIFO两者的维纳滤波相对于含噪信号310提供了一些改进,但是由这些滤波提供的上述显著的缺点证明了需要提出基于本文所述的量化SNR分析的自适应滤波算法。根据本发明的实施例的自适应维纳滤波350(如图3D所示)产生输出信号350,该输出信号最接近图3A所示的原始语音信号320。结果,听众可清楚地注意到,基于图3B和图3C所示的两种方法中不存在的而在本文中描述的量化SNR分析的自适应维纳滤波算法提供的相当大的音频改进。
因此,本文描述了可以用于改善车辆的蓝牙应用以及期望语音增强的任何应用(例如语音识别应用)中的音频质量的技术,这有助于更安全驾驶。上述改进的维纳滤波算法利用优化的自适应降噪方法,其将对数能量VAD和FIFO噪声评估技术与维纳滤波相组合,以增强变化噪声环境中的音频信号质量。上面详细描述的两种噪声评估技术在不同含噪条件下都有优势。以战略方式组合对数能量VAD和FIFO噪声评估技术(利用每个算法的长处,同时缓和每个算法的短处)提高了维纳滤波性能,允许更高的语音识别灵敏度和精确度。结果是,出现了改进传统维纳滤波的新的信号滤波算法。
虽然已经示出和描述了提供用于车辆的音频信号增强的基于量化SNR分析的自适应维纳滤波的说明性实施例,但是应当理解,可在本文的实施例的精神和范围内进行各种其它的修改和变型。例如,本文描述的技术可以被集成到车辆的蓝牙模块和免提应用中的噪声消除算法。而且,描述的技术可以实施在车辆的发射器中,以滤除在舱室中产生的噪声;以这种方式,对应的接收器可以接收增强的音频质量。此外,本文描述的自适应维纳滤波技术可与其他滤波技术组合,例如频谱减法、卡尔曼滤波等。因此,可根据本权利要求的范围以合适的方式修改本发明的实施例。
已经针对本发明的实施例进行了前面的描述。然而,显而易见的是,可对所描述的实施例进行其它变化和变型,以获得其一些或全部优点。因此,本说明书仅作为示例而不是以其他方式限制本文的实施例的范围。因此,所附权利要求的目的在于覆盖落入本文实施例的真实精神和范围内的所有这些变化和变型。
Claims (18)
1.一种音频信号增强方法,包括:
获取音频信号;
评估所述音频信号的音频帧的信噪比SNR;
确定针对所述音频帧的SNR阈值;
将所述SNR阈值与所述音频帧的评估SNR进行比较,
当所述音频帧的评估SNR小于所述SNR阈值时,选择用于噪声评估的先进先出FIFO信号处理技术,
当所述音频帧的评估SNR大于SNR阈值时,选择用于噪声评估的对数能量声音活动检测VAD信号处理技术;
使用应用所选择的信号处理技术的维纳滤波器对所述音频帧进行滤波;以及
输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧,其中
确定所述SNR阈值包括分别计算所述FIFO信号处理技术与所述对数能量VAD信号处理技术的相关性系数,
所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数测量干净信号与所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应输出信号之间的相关性,以及
所述SNR阈值为所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数相同时的SNR值。
2.根据权利要求1所述的音频信号增强方法,其中,所述SNR阈值的确定包括:
评估获取所述音频信号的环境中的噪声水平;以及
基于所评估的噪声水平来确定所述SNR阈值。
3.根据权利要求2所述的音频信号增强方法,其中,所述噪声水平的评估包括:
确定当获取所述音频信号时存在的一种或多种环境条件;以及
基于所述一种或多种环境条件来评估所述噪声水平。
4.根据权利要求3所述的音频信号增强方法,其中,所述一种或多种环境条件包括车速、风扇速度、天气状况、车窗是否打开、发动机的每分钟转数RPM以及正在播放的媒体的音量中的一种或多种。
5.根据权利要求2所述的音频信号增强方法,其中,所述噪声水平的评估包括:
使用所述FIFO信号处理技术评估所述噪声水平。
6.根据权利要求2所述的音频信号增强方法,还包括:
参考查找表以基于所评估的噪声水平来确定所述SNR阈值。
7.根据权利要求6所述的音频信号增强方法,还包括:
测量多个噪声条件下的SNR阈值;以及
使用在多个噪声水平下测量的SNR阈值来生成所述查找表。
8.根据权利要求1所述的音频信号增强方法,其中,所述SNR阈值根据获取所述音频信号的环境中的噪声条件而变化。
9.根据权利要求1所述的音频信号增强方法,其中,所述SNR的评估包括:
使用所述FIFO信号处理技术评估所述音频帧的SNR。
10.根据权利要求1所述的音频信号增强方法,还包括:
将获取的音频信号划分为多个音频帧,
其中,所述音频帧为所述多个音频帧中的一个。
11.根据权利要求10所述的音频信号增强方法,其中,针对所述多个音频帧中的每一个执行如下步骤:评估所述SNR;确定所述SNR阈值;选择所述音频信号处理技术;使用应用所选择的信号处理技术的维纳滤波器对所述音频帧进行滤波;以及输出使用应用所选择的信号处理技术的维纳滤波器滤波的所述音频帧。
12.根据权利要求1所述的音频信号增强方法,其中,获取的音频信号包括噪声和语音的组合。
13.根据权利要求1所述的音频信号增强方法,其中,输出的经滤波的音频帧包括所述音频帧中存在的噪声被去除的语音。
14.根据权利要求1所述的音频信号增强方法,还包括:
在对所述音频帧进行滤波之前,使用快速傅里叶变换FFT将所述音频帧转换为频域。
15.根据权利要求1所述的音频信号增强方法,其中,通过蓝牙获取所述音频信号。
16.根据权利要求1所述的音频信号增强方法,其中,在车辆中获取所述音频信号。
17.一种音频信号增强装置,包括:
音频获取设备,获取车辆中的音频信号;以及
控制单元,装配在所述车辆中并且配置为:
评估所述音频信号的音频帧的信噪比SNR;
确定针对所述音频帧的SNR阈值;
将所述SNR阈值与所述音频帧的评估SNR进行比较,
当所述音频帧的评估SNR小于所述SNR阈值时,选择用于噪声评估的先进先出FIFO信号处理技术,
当所述音频帧的评估SNR大于所述SNR阈值时,选择用于噪声评估的对数能量声音活动检测VAD信号处理技术;
使用应用所选择的信号处理技术的维纳滤波器对所述音频帧进行滤波;以及
输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧,其中
确定所述SNR阈值包括分别计算所述FIFO信号处理技术与所述对数能量VAD信号处理技术的相关性系数,
所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数测量干净信号与所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应输出信号之间的相关性,以及
所述SNR阈值为所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数相同时的SNR值。
18.一种包含用于实现音频信号增强方法的程序指令的非暂时性计算机可读介质,所述计算机可读介质包括:
用于评估获取的音频信号的音频帧的信噪比SNR的程序指令;
用于确定针对所述音频帧的SNR阈值的程序指令;
用于将所述SNR阈值与所述音频帧的评估SNR进行比较的程序指令,
用于当所述音频帧的评估SNR小于所述SNR阈值时,选择用于噪声评估的先进先出FIFO信号处理技术的程序指令,
用于当所述音频帧的评估SNR大于所述SNR阈值时,选择用于噪声评估的对数能量声音活动检测VAD信号处理技术的程序指令;
用于使用应用所选择的信号处理技术的维纳滤波器对所述音频帧进行滤波的程序指令;以及
用于输出使用应用所选择的信号处理技术的维纳滤波器滤波的音频帧的程序指令,其中
确定所述SNR阈值包括分别计算所述FIFO信号处理技术与所述对数能量VAD信号处理技术的相关性系数,
所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数测量干净信号与所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应输出信号之间的相关性,以及
所述SNR阈值为所述FIFO信号处理技术和所述对数能量VAD信号处理技术的相应相关性系数相同时的SNR值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/468,779 US10224053B2 (en) | 2017-03-24 | 2017-03-24 | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US15/468,779 | 2017-03-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108630221A CN108630221A (zh) | 2018-10-09 |
CN108630221B true CN108630221B (zh) | 2023-06-13 |
Family
ID=63450117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710352587.6A Active CN108630221B (zh) | 2017-03-24 | 2017-05-18 | 基于量化snr分析和自适应维纳滤波的音频信号质量增强 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10224053B2 (zh) |
KR (1) | KR102487160B1 (zh) |
CN (1) | CN108630221B (zh) |
DE (1) | DE102017116528B4 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018117556B4 (de) * | 2017-07-27 | 2024-03-21 | Harman Becker Automotive Systems Gmbh | Einzelkanal-rauschreduzierung |
DE102018117557B4 (de) * | 2017-07-27 | 2024-03-21 | Harman Becker Automotive Systems Gmbh | Adaptives nachfiltern |
IT201800007193A1 (it) * | 2018-07-13 | 2020-01-13 | "Procedimento di generazione di un segnale audio, in particolare per il controllo attivo del suono del motore di un veicolo terrestre, e relativo apparato" | |
CN110875060A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音信号处理方法、装置、系统、设备和存储介质 |
CN109767783B (zh) | 2019-02-15 | 2021-02-02 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
DE102019205694A1 (de) * | 2019-04-18 | 2020-10-22 | Volkswagen Aktiengesellschaft | Geschwindigkeitsabhängige Rauschunterdrückung bei Audiosignalen in einem Fahrzeug |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
KR20210101644A (ko) * | 2020-02-10 | 2021-08-19 | 삼성전자주식회사 | 음질 개선 방법 및 이어 웨어러블 장치 |
WO2022026948A1 (en) | 2020-07-31 | 2022-02-03 | Dolby Laboratories Licensing Corporation | Noise reduction using machine learning |
CN112951259A (zh) * | 2021-03-01 | 2021-06-11 | 杭州网易云音乐科技有限公司 | 音频降噪方法、装置、电子设备及计算机可读存储介质 |
CN113744762B (zh) * | 2021-08-09 | 2023-10-27 | 杭州网易智企科技有限公司 | 一种信噪比确定方法、装置、电子设备和存储介质 |
US20230274753A1 (en) * | 2022-02-25 | 2023-08-31 | Bose Corporation | Voice activity detection |
CN114822573A (zh) * | 2022-04-28 | 2022-07-29 | 歌尔股份有限公司 | 语音增强方法、装置、耳机设备以及计算机可读存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3236000A1 (de) * | 1982-09-29 | 1984-03-29 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Verfahren zum klassifizieren von audiosignalen |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6094726A (en) * | 1998-02-05 | 2000-07-25 | George S. Sheng | Digital signal processor using a reconfigurable array of macrocells |
FI19992453A (fi) * | 1999-11-15 | 2001-05-16 | Nokia Mobile Phones Ltd | Kohinanvaimennus |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
ATE316283T1 (de) * | 2003-11-27 | 2006-02-15 | Cit Alcatel | Vorrichtung zur verbesserung der spracherkennung |
JP4562771B2 (ja) * | 2004-07-28 | 2010-10-13 | エフ.ホフマン−ラ ロシュ アーゲー | β細胞不全の標的/マーカーとしてのTIMP−2 |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US7872574B2 (en) * | 2006-02-01 | 2011-01-18 | Innovation Specialists, Llc | Sensory enhancement systems and methods in personal electronic devices |
CN101089952B (zh) * | 2006-06-15 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
US8194882B2 (en) * | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8380497B2 (en) * | 2008-10-15 | 2013-02-19 | Qualcomm Incorporated | Methods and apparatus for noise estimation |
KR101737824B1 (ko) * | 2009-12-16 | 2017-05-19 | 삼성전자주식회사 | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
KR20140026229A (ko) * | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
WO2014040124A1 (en) * | 2012-09-11 | 2014-03-20 | Auraya Pty Ltd | Voice authentication system and method |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
US9099973B2 (en) * | 2013-06-20 | 2015-08-04 | 2236008 Ontario Inc. | Sound field spatial stabilizer with structured noise compensation |
CN103632677B (zh) * | 2013-11-27 | 2016-09-28 | 腾讯科技(成都)有限公司 | 带噪语音信号处理方法、装置及服务器 |
CN103745729B (zh) | 2013-12-16 | 2017-01-04 | 深圳百科信息技术有限公司 | 一种音频去噪方法和系统 |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
CN104867499A (zh) * | 2014-12-26 | 2015-08-26 | 深圳市微纳集成电路与系统应用研究院 | 一种用于助听器的分频段维纳滤波去噪方法和系统 |
EP3057097B1 (en) * | 2015-02-11 | 2017-09-27 | Nxp B.V. | Time zero convergence single microphone noise reduction |
US9613475B2 (en) * | 2015-05-27 | 2017-04-04 | Nxp B.V. | Communications with interaction detection |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
-
2017
- 2017-03-24 US US15/468,779 patent/US10224053B2/en active Active
- 2017-05-18 CN CN201710352587.6A patent/CN108630221B/zh active Active
- 2017-07-21 DE DE102017116528.2A patent/DE102017116528B4/de active Active
- 2017-09-14 KR KR1020170117745A patent/KR102487160B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CN108630221A (zh) | 2018-10-09 |
US20180277135A1 (en) | 2018-09-27 |
DE102017116528A1 (de) | 2018-09-27 |
KR20180108385A (ko) | 2018-10-04 |
US10224053B2 (en) | 2019-03-05 |
KR102487160B1 (ko) | 2023-01-10 |
DE102017116528B4 (de) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630221B (zh) | 基于量化snr分析和自适应维纳滤波的音频信号质量增强 | |
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
KR101239318B1 (ko) | 음질 향상 장치와 음성 인식 시스템 및 방법 | |
CN105810203B (zh) | 消除噪声的设备和方法、声音识别设备和配备其的车辆 | |
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
US20060031067A1 (en) | Sound input device | |
CN107910013B (zh) | 一种语音信号的输出处理方法及装置 | |
US20170213550A1 (en) | Adaptive dual collaborative kalman filtering for vehicular audio enhancement | |
JP2012025270A (ja) | 車両用の音量制御装置および音量制御装置用のプログラム | |
US8296135B2 (en) | Noise cancellation system and method | |
CN109741760B (zh) | 噪声估计方法及系统 | |
US8199928B2 (en) | System for processing an acoustic input signal to provide an output signal with reduced noise | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
JP2000330597A (ja) | 雑音抑圧装置 | |
CN115223594A (zh) | 用于车辆外部语音助手的情景感知信号调节 | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
JP3900691B2 (ja) | 雑音抑圧装置及び当該装置を用いた音声認識システム | |
CN112149498A (zh) | 一种面向汽车复杂部件异响的在线智能识别系统及方法 | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
JP2000321080A (ja) | 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置 | |
JP2008070877A (ja) | 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム | |
JP4325044B2 (ja) | 音声認識システム | |
CN115938389B (zh) | 用于车内媒体源的音量补偿方法、装置及车辆 | |
Lu et al. | Speech enhancement using a critical point based Wiener Filter | |
WO2016038704A1 (ja) | 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |