CN106028216B - 音频采集增强方法以及使用所述方法的音频采集系统 - Google Patents
音频采集增强方法以及使用所述方法的音频采集系统 Download PDFInfo
- Publication number
- CN106028216B CN106028216B CN201610108013.XA CN201610108013A CN106028216B CN 106028216 B CN106028216 B CN 106028216B CN 201610108013 A CN201610108013 A CN 201610108013A CN 106028216 B CN106028216 B CN 106028216B
- Authority
- CN
- China
- Prior art keywords
- source
- microphone
- audio
- predefined
- processing circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/25—Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种音频采集增强方法以及使用所述方法的音频采集系统。音频采集系统至少包含但不限于:用于记录音频数据的两个麦克风;放大器,其耦合到至少两个麦克风,以用于通过应用自动增益控制以调整音频数据从而产生在预定义水平内的经增益调整数据;以及处理电路,其耦合到放大器上,以用于计算经增益调整数据的线性预测编码残差、基于到达时间差从LPC残差确定相对于至少两个麦克风的第一方向处的第一源、并且减弱位于预定义方向之外的第二方向处的任何源。
Description
技术领域
本发明涉及一种音频采集增强方法以及使用所述方法的音频采集系统。
背景技术
音频采集系统是一种使用一或多个麦克风进行采集、传输以及存储音频信号的系统。音频采集系统还可以支持例如语音识别和扬声器辨识等其它系统以便加强它们的功能。经良好设计的音频采集系统即使在非常嘈杂的条件下也能提供良好的记录质量。此系统的信号处理单元也必须具有处理计算复杂度方面的能力。
对于具有多个麦克风的音频采集系统,广泛的已知技术通常称为“波束成形”,是由麦克风的空间差引起信号之间的时间差以对语音信号进行处理、增强、或滤波。另一种有用的相关技术是到达时间差(time difference of arrival,TDOA),其是基于麦克风之间的到达波的路径差以从音源计算音频源的方向。通过计算音频源的方向,输入语音可以被分析并且可以推断来自在非所需方向上的音源伴随的干扰模式并予以消除。
为了分析语音信号,线性预测系数(linear predictive coefficient,LPC)残差可以与波束成形组合使用。LPC通过估算共振峰、去除来自语音信号的影响以及估算残余的蜂音频率来分析语音信号。去除共振峰的过程将包括反向滤波以及残差,所述残差是在减去经滤波模型信号之后所剩余的信号。残差含有非常重要的激励源信息,激励源信息对TDOA是十分有用的。残差去除信号的样本之中的二阶相关性并在明显激励(高信噪比)的瞬间在周围产生较大振幅波动。基于LPC残差的TDOA已经知道是较原始信号TDOA来的更为可靠。
发明内容
本发明提供一种音频采集增强方法以及使用所述方法的音频采集系统。
在示例性实施例中的一个中,本发明涉及一种音频采集增强方法,其包含至少但不限于:通过使用至少两个麦克风记录音频数据、通过应用自动增益控制(automatic gaincontrol,AGC)调整音频数据以便产生在预定义水平内的经增益调整数据、计算经增益调整数据的线性预测编码(linear predictive coding,LPC)残差、基于到达时间差(timedifferent of arrival,TDOA)从LPC残差确定相对于至少两个麦克风的采集方向的所需方向上的源、并且减弱在预定义的所需空间方向之外的任何方向上的任何源。
在示例性实施例中的一个中,本发明涉及一种音频采集系统,其包含至少但不限于:用于记录音频数据的至少两个麦克风;放大器,其耦合到至少两个麦克风上,以用于通过应用自动增益控制(automatic gain control,AGC)调整音频数据以便产生在预定义水平内的经增益调整数据;以及处理电路,其耦合到放大器上,以用于计算经增益调整数据的线性预测编码(linear predictive coding,LPC)残差、基于到达时间差(time differentof arrival,TDOA)从LPC残差确定相对于至少两个麦克风位于第一方向的第一源、并且减弱在预定义角度之外位于第二方向的任何源。
为了使得本发明的前述特征和优点便于理解,下文详细描述附图的示例性实施例。应理解,前文总体描述以及以下详细描述都是示例性的,并且希望提供对所主张的本发明的进一步解释。
然而,应理解,本发明内容可能并不含有本发明的所有方面以及实施例,并且因此不希望用任何方式加以限制或约束。此外,本发明将包含所属领域的技术人员所显而易见的改进以及修改。
附图说明
图1A是图示根据本发明的示例性实施例中的一个的基于所需或非所需源的滤波的概念图;
图1B图示概念图,其图示根据本发明的示例性实施例中的一个定义具有接收角以及采集距离的锥体;
图1C是图示本发明的示例性音频采集系统的框图;
图1D是从框图方面图示本发明的示例性处理电路的框图;
图2是图示根据本发明的示例性实施例中的一个的本发明的音频采集系统的过程图;
图3是图示根据本发明的示例性实施例中的一个的本发明的音频采集系统的过程图;
图4是图示使用自动增益控制(automatic gain control,AGC)来稳定音量以改进到达信号的空间方向上的阈值精度的实验结果;
图5是图示使用TDOA的激励源检测的实验结果;
图6是图示滤除非所需用户方向的实验结果;
图7是图示根据本发明的示例性实施例中的一个的音频采集增强方法的流程图。
附图标记:
100:音频采集系统
101a、101b、101c:麦克风
102:第一源
103:第二源
104:第三源
110:自动增益控制电路
111:模数转换器
112:控制器
113:存储器
114:处理电路
121:数字输入
122:采样模块
122a:自动增益控制块
123:线性预测编码合成器
124:线性预测编码残差计算器
125:用户检测模块
126:时域掩蔽模块
127:话音激活检测器
501:主要音频源
502:次级音频源
503:第三源
601:音频波形段
L:最大距离
x:采集距离
Φd1、Φd2:接收角
S201、S202、S203、S204、S205、S206、S301、S302、S303、S304、S701、S702、S703、S704、S705:步骤
具体实施方式
现将详细参考本发明的当前示例性实施例,在附图中图示所述示例性实施例的实例。只要可能,相同参考标号在图式和描述中用以代表相同或相似的零件。
本发明的方法和系统旨在增强音频信号采集以用于通过从多个麦克风采集语音来进行存储、传输、语音识别、扬声器辨识等的目的。本发明提出了用以改善所采集信号的信号质量的算法。在通过判断所需的相对于麦克风方向上存在的用户并且通过去除来自非所需方向的干扰,初始实验结果已经显示出,当在嘈杂条件下测试时,语音识别系统的识别精度已被提高了高达10%。这意味着记录装置可以连续地收听所需方向,而不会被来自其它方向的噪声错误地触发而执行动作。对于即时应用,减少计算时间是高优先级。而对于恒定的计算时间,是需要有良好的缓冲策略的。考虑到这些标准,提出了一种用以增强音频采集的方案。
图1A是根据本发明的示例性实施例中的一个的基于所需或非所需源的滤波的概念图。对于图1A到1C的示例性情境,音频采集系统100使用两个麦克风101a和麦克风101b,音频采集系统100所处的环境中在可以包含至少三个源(即第一源102、第二源103以及第三源104)的环境中,音频采集系统100使用两个麦克风101a和麦克风101b。然而,对所属领域的技术人员而言,将是可以使用超过两个麦克风来采集语音信号的。假定第一源102以及第三源104假定为人类语音,并且假定第二源103假定为非人类音源,例如播送人类话音或音乐等或其它声音的扬声器。常规地,典型的音频采集系统将对全部三个源102~104进行采集;然而,这可能不是用户所希望的,因为音频采集系统的用户可能只关心主要源或与麦克风对齐或最靠近麦克风的源。通过排除非所需源的影响,将增强音频采集系统100的精度以及效率将会被增强。
因此,可以定义具有接收角以及最大距离的采集锥体以便在所定义采集锥体内采集音频信号。图1B图示概念图,其图示根据本发明的示例性实施例中定义一具有接收角以及采集距离的锥体。采集锥体可以是在一定空间内采集音频信号的三维锥体。然而,为了易于图示,在此假定采集锥体为二维的。图1B示例的采集锥体具有在最大距离x=L处的接收角Φd2以及在x=0处的接收角Φd1。距离L是最大距离,超出这个距离的音频信号将被音频采集系统忽略。最大距离可以是例如1米。在x=L处的距离可以定义为正好位于两个麦克风处或正好位于移开一定距离的位置处。接收角Φd1和接收角Φd2的范围可以是例如约30度。角度Φd1=0或Φd2=0可以定义为与两个麦克风完全对齐。在接收角Φd1和接收角Φd2范围内的音频信号将被视为所需输入音频信号,并且在接收角Φd1和接收角Φd2之外的音频信号将被掩蔽或滤除。对于图1B的情境,第一源102可以被确定为待记录的有效源,而第二源103以及第三源104可以被滤除。
采集距离x可以基于信号强度以及方向测量单元的可信度进行测量。随着源移动而越来越远离麦克风101a和麦克风101b,信号强度以及角度测量可信度将下降。当采集距离x超出L时,可以舍弃音频源。源的方向可以基于TDOA原理进行测量。例如,如果一个源处于距两个麦克风101a和麦克风101b相等距离的位置处,那么所述源将被两个麦克风101a和麦克风101b接收而几乎没有延迟。如果源朝向麦克风(例如,麦克风101a和麦克风101b)中的一个但是远离另一个而移位,那么麦克风101a和麦克风101b中的一个将比另一个更快地接收音频信号。基于音频信号的延迟的差异,可以计算源的方向,使得音频采集系统100可以知道源是否在接收角接收角Φd1和接收角Φd2的范围内。
图1C是图示本发明的示例性音频采集系统的框图。所提出的音频采集系统100可以包含多个麦克风101a、麦克风101b、…麦克风101c等以用于采集音频信号。在示例性实施例中的一个中,麦克风101a到麦克风101c将电耦合到自动增益控制(automatic gaincontrol,AGC)电路110上以产生经调整音频信号。AGC电路110将电耦合到模数(A/D)转换器上,使得经调整音频信号将被转换成数字音频信号。
在替代实施例(未示出)中,所采集音频信号将被馈送到前置放大器以对所采集音频信号增压。经增压音频信号随后将通过A/D转换器转换成数字格式。数字音频信号随后可以通过软件实施的AGC电路进行控制。
AGC电路110用以稳定输入音频的增益。以此方式,AGC的使用将允许音频采集系统100具有更好的远场采集。同样,由于AGC可经配置以不对噪声信号进行增压,因此输入语音的信噪比将通过AGC增强。上限阈值以及下限阈值可以被施加在经调整音频信号,以将经调整音频信号位于特定范围之内。例如,当音频信号低于下限阈值时,其可以被视为背景噪声并且被忽略。输入音频信号可以经AGC调整以集中在特定水平。例如,经调整音频信号可以集中在AGC的总动态范围的1/4处。以此方式,由于经调整音频信号集中在AGC的动态范围的较低水平处,因此可以减少转换时间。
对于图1C,数字音频信号将经由控制器112传输到处理电路114。控制器112将用作在数字音频信号、存储器113、处理电路114以及其它外围装置(未示出)之中的界面。控制器112可以是(例如)包含北桥以及南桥的芯片组。存储器113可以是用作缓冲存储器的易失性存储器和/或可以是存储数字音频信号的非易失性存储器。处理电路114可以包含一或多个可编程单元,例如微处理器、微控制器、图形处理单元(Graphics Processing Unit,GPU)、数字信号处理(Digital Signal Processing,DSP)芯片以及现场可编程门阵列(FieldProgrammable Gate Array,FPGA)等。
图1D是本发明的示例性处理电路的框图。示例性处理电路114可以经配置以从控制器112接收数字输入121。数字输入121将被传输到采样模块122。采样模块122可以对数字输入121执行以及加窗运算以产生经加窗语音。AGC方框122a可以接收采样模块122的输出以提供稳定的增益控制。LPC合成器123可以电耦合到AGC方框122a并且将接收经增益调整的经加窗语音且将计算经加窗语音的LPC系数。LPC残差计算器124电耦合到LPC合成器123并且将计算LPC系数的LPC残差。用户检测模块125电耦合到LPC残差计算器124并且将检测用户数目和他们的方向。
值得一提的,用户检测模块125将能够通过计算至少两个麦克风之间的LPC残差的相关性来检测用户数目,进而将汇编出含有相关性的直方图。峰值检测将在直方图上进行,进而可以通过超出特定阈值的峰值数目来确定用户数目。
用户检测模块125将还能够检测声音源的方向以及用户方向是否在采集锥体的接收角范围内。声音源的方向可以基于TDOA技术(基于LPC残差的相关性)通过测量声波的到达时间差来确定。换句话说,如果承载特定音频模式的声音在到达第二麦克风之前先到达第一麦克风,那么承载特定音频模式的所述声音的来源将处于更靠近第一麦克风的角度处。在已确定声音源的方向并且在已定义采集锥体之后,用户检测模块125将能够确定声音源的数目和方向以及这些声音源是否在采集锥体内。
时域掩蔽模块126将接收所计算的LPC残差以及来自用户检测模块125的上述结果。如果已经确定存在外部声音源是落在最大距离之外或接收角范围之外,那么时域掩蔽模块126将试图滤除由这些外部声音源产生的声音分量。例如,可以使用最小均方(leastmean square,LMS)滤波器来滤除特定方向的声音分量。在此情况下,时域掩蔽模块126将LMS滤波器应用于音频信号以防止外部声音源对经AGC调整音频信号产生影响。
话音激活检测器(voice activity detector,VAD)127是选择性的组件并且可以用来检测音频信号是否是人类语音。VAD 127还可以被激活以破译音频信号并且通过使用话音识别引擎来产生音频信号的文本等效值。在示例性实施例中的一个中,VAD 127被停用使得可以记录非人类声音。在示例性实施例中的一个中,VAD 127被启用以确定所采集音频信号是否是人类话音。如果所采集音频信号不是人类话音,那么所采集音频信号可以被舍弃。VAD 127还可以用来识别人类话音并且话音识别引擎可以基于所接收的人类语音以用来产生文本文件。
图2是根据本发明的示例性实施例图示本发明的音频采集系统的过程图。在步骤S201中,声音经由多个麦克风采集并且存储在声音采集系统的易失性或非易失性存储器中。多个麦克风含有从声音振动信号转换成电信号的至少一个换能器。多个麦克风还可以含有前端的前置放大器以增强所采集音频信号的信噪比。在步骤S202中,经由每一个麦克风所采集的信号可以通过AGC电路的调整所增益。确切地说,经由每一个麦克风所采集的信号将经增益调整为麦克风的最大动态范围的1/4的音量。
在步骤S203中,计算LPC系数以及随后的LPC残差以用于经由每一个麦克风所采集的音频信号。在步骤S204中,在所定义采集区域内的声音源的数目以及声音源的方向将被确定。基于在至少两个麦克风之中所采集的声波的到达时间差,可以辨别声音源的方向。同样,除相对于扬声器的声音源的位置或方位之外,也可以通过计算不同麦克风的LPC残差之中的相关性来确定不同声音源的数目。在执行直方图分析之后,可以通过检测直方图的峰值区分不同声音源。在识别声音源中的每一个以及它们的方向之后,可以识别预定义采集锥体之外的任何声音源。采集锥体可以预定义为具有例如约为30度的接收角范围,并且采集锥体的最大距离可以定义为例如1米。然而,本发明并不限于这些精准的例子。
在示例性实施例中的一个中,可以识别主要声音源以及次级声音源并且基于声音的音量依序例举。此外,如果声音的音量不在特定阈值之上,那么可以将所述声音视为背景噪声而舍弃。
在步骤S205中,可以执行时域掩蔽以滤除在非所需方向上或在最大距离之外的用户。具体来说,可以通过使用自适应滤波器,例如最小均方(least mean square,LMS)滤波器,来滤除采集锥体之外的声音源。滤波器可以取决于所得的音频信号调适系数,并且自适应可以通过步骤S204中的用户检测逻辑来进行控制。
在已经执行时域掩蔽之后,在任选的步骤S206中,可以实施话音激活检测(voiceactivated detection,VAD)。VAD将忽略采集锥体之外的用户,因为这些分量已经在步骤S205中减弱了。VAD可以用以确定所得的话音是人类话音还是非人类话音。在示例性实施例中的一个中,VAD可以被激活并且经配置以忽略所采集音频信号的非人类的分量。在所采集音频信号已经被识别为人类话音之后,VAD可以执行额外的功能,例如语音识别,语音辨识等。在示例性实施例中的一个中,可以停用VAD使得可以检测非人类话音。
图3是图示根据本发明的示例性实施例中的一个的本发明的音频采集系统的过程图。图3的示例性实施例将类似于图2的示例性实施例,不同之处在于图2的一些组件可以整合成可复用模块的系统。具体来说,在步骤S301中可以通过多个麦克风采集声波。在步骤S302中,对于示例性实施例中的一个,包含AGC、基于LPC残差的TDOA、声音源(或用户)检测以及方向检测的上述功能可以整合成一个模块。例如,所述模块可以是集成电路IC,并且多个麦克风中的每一个可以共享所述集成电路IC。在替代实施例中,包含AGC、基于LPC残差的TDOA、声音源(或用户)检测以及方向检测的所述模块可以是几个相同的模块,其中每一模块连接到不同麦克风上。在选择性的步骤S303中,时域掩蔽可以被进行以滤除在非所需方向上或超出所需距离的声音源(或用户)。在任选的步骤S304中,VAD可以被去激活或激活以识别人类以便实施与自动语音识别(automatic speech recognition,ASR)相关的功能。
图4到图6将用来从通过实验的各种曲线说明图2的实例。在本说明书的其余部分中将连同图2一起参考图4到图6。图4是对应于步骤S202的实验结果并且图示使用自动增益控制(automatic gain control,AGC)来稳定音量以改进到达信号于空间方向上的阈值精度。在图4中可见,顶部的信号是在时域中绘制的所采集音频信号。在将所采集音频信号应用于以增益增量曲线(其用以维持稳定的信噪比)示出的增益轮廓之后,底部的曲线是经增益调整音频信号的结果。AGC将自动地调整增益轮廓以便维持所采集音频信号的稳定水平。
图5是对应于图2的步骤S203和步骤S204的实验结果并且图示使用TDOA的激励源检测。顶部的两个图示出通过两个不同麦克风采集的音频信号。从顶部起的第三图图示出两个不同麦克风的LPC残差的能量曲线。在竖直轴线上绘制了归一化能量,并且在水平轴线上示出了时间。在图5底部的图是通过两个不同麦克风采集的音频信号(LPC残差)的相关性的直方图。直方图图示出主要音频源501、次级音频源502以及可能几乎无法听到(可能是小的噪声)的第三源503,并且第三源若在阈值以下则可以被忽略。对于此实例,主要用户正对着至少两个麦克风(在90度处)并且第二用户在至少两个麦克风的左侧(在30度处)。
图6是对应于步骤S205的实验结果并且图示滤除非所需用户方向。已使用的自适应滤波器比如是LMS滤波器。作为时域掩蔽的结果,可以看到在非所需方向上的音频波形段601在音量上已经被明显降低。
图7是图示根据本发明的示例性实施例中的一个的音频采集增强方法的流程图。在步骤S701中,音频采集系统通过使用至少两个麦克风记录音频数据。在步骤S702中,在音频数据已经被记录之后,音频采集系统通过应用自动增益控制(automatic gain control,AGC)来调整音频数据以便产生在预定义水平内的经增益调整数据。在步骤S703中,音频采集系统计算经增益调整数据的线性预测编码(linear predictive coding,LPC)残差。在步骤S704中,音频采集系统基于到达时间差(time difference of arrival,TDOA)从LPC残差确定相对于至少两个麦克风的第一方向处的第一源。第一源可以是主要声音源,并且第一方向是在预定义角度之内。在步骤S705中,音频采集系统减弱在预定义角度之外位于第二方向的任何源。
音频采集系统可以通过应用AGC调整音频数据以便产生具有预定义上限以及预定义下限的经增益调整数据,其中预定义上限以及预定义下限的中心在麦克风的动态范围的一定分数处。麦克风的动态范围的所述分数可以是例如0.25。
基于TDOA从LPC残差中确定相对于至少两个麦克风位于的第一方向处的所述第一源可以包含以下步骤:定义具有相对于至少两个麦克风的接收角以及最大距离的锥体;对锥体内的源的数目进行计数;以及将主要源指定为第一源。锥体内的源的数目可以基于以下操作进行确定:计算至少两个麦克风的LPC残差的相关性;产生LPC残差的相关性的直方图;以及将超出预定义阈值的峰值的数目算作是源的数目。可以基于在至少两个麦克风之间的第一源的到达差来确定相对于至少两个麦克风的第一源的所述第一方向。
所述减弱在预定义角度之外的第二方向处的任何源可以包含以下步骤:滤除在接收角之外的任何源;以及滤除超出最大距离的任何源。
计算经增益调整数据的LPC残差可以包含:计算经增益调整数据的LPC系数;以及通过将反向滤波应用于LPC系数计算LPC残差。
音频采集系统可以进一步启用话音激活检测以确定第一源是否是人类话音,并且如果第一源不是人类话音则从音频数据消除第一源。如果要检测是非人类的第一源,则音频采集系统还可以禁用话音激活检测。
鉴于上述描述,本发明适合于在电子装置中使用,并且能够根据基于LPC残差的TDOA技术通过对在特定方向处的非所需源进行识别并滤波来增强音频采集系统的精度以及效率。
用于本申请案的所揭示实施例的详细描述中的元件、动作或指令不应解释为对本发明来说为绝对关键或必要的,除非明确地如此描述。而且,如本文中所使用,不定冠词“一”可以包含一个以上的项。如果想表示只有一个项,那么可以使用术语“单个”或类似语言。此外,如本文中所使用,在多个项和/或多个项种类的列表之前的术语“中的任一个”希望包含所述项和/或项种类(个别地或结合其它项和/或其它项种类)“中的任一个”、“的任何组合”、“中的任何多个”和/或“中的多个的任何组合”。另外,如本文中所使用,术语“集合”希望包含任何数目的项,包含零个。另外,如本文中所使用,术语“数目”希望包含任何数目,包含零。
在本发明的所有附图中,由虚线围封的框将意指任选的功能元件或任选的步骤,并且虚线可以意味着所述过程流程可以是任选的或可能未必出现。
所属领域的技术人员将明白,在不脱离本发明的范围或精神的情况下,可对所揭示实施例的结构进行各种修改和变化。鉴于前述内容,希望本发明涵盖所附权利要求书及其等效物的范围的本发明的修改以及变化。
Claims (18)
1.一种音频采集增强方法,其特征在于,其包括:
通过使用至少两个麦克风记录音频数据;
通过应用自动增益控制调整所述音频数据以便产生在预定义水平内的经增益调整数据;
计算所述经增益调整数据的线性预测编码残差;
基于到达时间差从所述线性预测编码残差确定相对于所述至少两个麦克风位于第一方向的第一源;以及
减弱在预定义方向之外位于第二方向的任何源,
其中,基于到达时间差从所述线性预测编码残差确定相对于所述至少两个麦克风的所述位于第一方向的所述第一源的步骤还包括:
定义具有相对于所述至少两个麦克风的接收角以及最大距离的锥体;
对所述锥体内的源的数目进行计数;以及
将主要源指定为所述第一源。
2.根据权利要求1所述的方法,其特征在于,通过应用自动增益控制调整所述音频数据以便产生在预定义水平内的所述经增益调整数据包括:
通过应用自动增益控制调整所述音频数据以便产生具有预定义上限以及预定义下限的所述经增益调整数据,其中所述预定义上限以及所述预定义下限的中心在所述自动增益控制的动态范围中的一定分数处。
3.根据权利要求2所述的方法,其特征在于,所述自动增益控制的所述动态范围的所述分数是0.25。
4.根据权利要求1所述的方法,其特征在于,对所述锥体内的源的所述数目进行计数包括:
计算所述至少两个麦克风的线性预测编码残差的相关性;
产生线性预测编码残差的所述相关性的直方图;以及
将超出预定义阈值的峰值的数目算作是源的所述数目。
5.根据权利要求1所述的方法,其特征在于,
计算相对于所述至少两个麦克风的所述第一源的所述第一方向是基于在所述至少两个麦克风之间的所述第一源的到达差。
6.根据权利要求1所述的方法,其特征在于,减弱在预定义方向之外位于第二方向的任何源包括:
滤除在所述接收角之外的任何源;以及
滤除超出所述最大距离的任何源。
7.根据权利要求1所述的方法,其特征在于,计算所述经增益调整数据的所述线性预测编码残差包括:
计算所述经增益调整数据的线性预测编码系数;以及
通过将反向滤波应用于所述线性预测编码系数计算线性预测编码残差。
8.根据权利要求1所述的方法,其特征在于,还包括:
启用话音激活检测以确定所述第一源是否是人类话音;以及
如果所述第一源不是人类话音则从所述音频数据消除所述第一源。
9.根据权利要求8所述的方法,其特征在于,还包括:
如果要检测的所述第一源是非人类源则禁用话音激活检测。
10.一种音频采集系统,其特征在于,包括:
用于记录音频数据的至少两个麦克风;
放大器,其耦合到所述至少两个麦克风上,以用于通过应用自动增益控制调整所述音频数据以便产生在预定义水平内的经增益调整数据;以及
处理电路,其耦合到所述放大器上,以用于:
计算所述经增益调整数据的线性预测编码残差;
基于到达时间差从所述线性预测编码残差确定相对于所述至少两个麦克风位于第一方向的第一源;以及
减弱在预定义方向之外位于第二方向的任何源,
其中,所述处理电路基于到达时间差从所述线性预测编码残差确定相对于所述至少两个麦克风的所述位于第一方向的所述第一源的步骤还包括:
所述处理电路定义具有相对于所述至少两个麦克风的接收角以及最大距离的锥体;
所述处理电路对所述锥体内的源的数目进行计数;以及
所述处理电路将主要源指定为所述第一源。
11.根据权利要求10所述的系统,其特征在于,所述放大器通过应用自动增益控制调整所述音频数据以便产生在预定义水平内的所述经增益调整数据包括:
所述放大器通过应用自动增益控制调整所述音频数据以便产生具有预定义上限以及预定义下限的所述经增益调整数据,其中所述预定义上限以及所述预定义下限的中心在所述自动增益控制的动态范围的一定分数处。
12.根据权利要求11所述的系统,其特征在于,所述自动增益控制的所述动态范围的所述分数是0.25。
13.根据权利要求10所述的系统,其特征在于,所述处理电路对所述锥体内的源的所述数目进行计数包括:
所述处理电路计算所述至少两个麦克风的线性预测编码残差的相关性;
所述处理电路产生线性预测编码残差的所述相关性的直方图;以及
所述处理电路将超出预定义阈值的峰值的数目算作是源的所述数目。
14.根据权利要求10所述的系统,其特征在于,
所述处理电路计算相对于所述至少两个麦克风的所述第一源的所述第一方向是基于在所述至少两个麦克风之间的所述第一源的到达差。
15.根据权利要求10所述的系统,其特征在于,所述处理电路减弱在预定义方向之外位于第二方向的任何源包括:
所述处理电路滤除在所述接收角之外的任何源;以及
所述处理电路滤除超出所述最大距离的任何源。
16.根据权利要求10所述的系统,其特征在于,所述处理电路计算所述经增益调整数据的所述线性预测编码残差包括:
所述处理电路计算所述经增益调整数据的线性预测编码系数;以及
所述处理电路通过将反向滤波应用于所述线性预测编码系数计算线性预测编码残差。
17.根据权利要求10所述的系统,其特征在于,还包括话音激活检测电路,其中所述话音激活检测电路经配置以用于:
启用话音激活检测以确定所述第一源是否是人类话音;以及
如果所述第一源不是人类话音则从所述音频数据消除所述第一源。
18.根据权利要求17所述的系统,其特征在于,所述话音激活检测电路经进一步配置以用于:
禁用话音激活检测以便检测非人类音源。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/673,886 US9699549B2 (en) | 2015-03-31 | 2015-03-31 | Audio capturing enhancement method and audio capturing system using the same |
US14/673,886 | 2015-03-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106028216A CN106028216A (zh) | 2016-10-12 |
CN106028216B true CN106028216B (zh) | 2019-05-21 |
Family
ID=57017894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610108013.XA Active CN106028216B (zh) | 2015-03-31 | 2016-02-26 | 音频采集增强方法以及使用所述方法的音频采集系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9699549B2 (zh) |
CN (1) | CN106028216B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123429A (zh) * | 2017-03-22 | 2017-09-01 | 歌尔科技有限公司 | 音频信号的自动增益控制方法和装置 |
CN107391079B (zh) * | 2017-07-19 | 2020-10-09 | 潍坊歌尔微电子有限公司 | 拾音方法和装置 |
CN107277699A (zh) * | 2017-07-21 | 2017-10-20 | 歌尔科技有限公司 | 一种拾音方法及装置 |
CN110164423B (zh) * | 2018-08-06 | 2023-01-20 | 腾讯科技(深圳)有限公司 | 一种方位角估计的方法、设备及存储介质 |
CN110876106A (zh) * | 2018-08-31 | 2020-03-10 | 北京京东尚科信息技术有限公司 | 电子设备、降噪方法、计算机系统和介质 |
US11133787B2 (en) | 2019-06-25 | 2021-09-28 | The Nielsen Company (Us), Llc | Methods and apparatus to determine automated gain control parameters for an automated gain control protocol |
GB2608823A (en) * | 2021-07-13 | 2023-01-18 | Nokia Technologies Oy | An apparatus, method and computer program for enabling audio zooming |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6317501B1 (en) * | 1997-06-26 | 2001-11-13 | Fujitsu Limited | Microphone array apparatus |
US7203635B2 (en) * | 2002-06-27 | 2007-04-10 | Microsoft Corporation | Layered models for context awareness |
CN102436821A (zh) * | 2011-12-02 | 2012-05-02 | 海能达通信股份有限公司 | 一种自适应调节音效的方法和设备 |
CN102625946A (zh) * | 2009-09-07 | 2012-08-01 | 高通股份有限公司 | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 |
CN102893331A (zh) * | 2010-05-20 | 2013-01-23 | 高通股份有限公司 | 用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US8290181B2 (en) | 2005-03-19 | 2012-10-16 | Microsoft Corporation | Automatic audio gain control for concurrent capture applications |
US8116485B2 (en) * | 2005-05-16 | 2012-02-14 | Qnx Software Systems Co | Adaptive gain control system |
CN101193460B (zh) | 2006-11-20 | 2011-09-28 | 松下电器产业株式会社 | 检测声音的装置及方法 |
KR20130048075A (ko) * | 2011-11-01 | 2013-05-09 | 삼성전자주식회사 | 다중 음원 위치추적장치 및 그 위치추적방법 |
US9525938B2 (en) | 2013-02-06 | 2016-12-20 | Apple Inc. | User voice location estimation for adjusting portable device beamforming settings |
-
2015
- 2015-03-31 US US14/673,886 patent/US9699549B2/en active Active
-
2016
- 2016-02-26 CN CN201610108013.XA patent/CN106028216B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6317501B1 (en) * | 1997-06-26 | 2001-11-13 | Fujitsu Limited | Microphone array apparatus |
US7203635B2 (en) * | 2002-06-27 | 2007-04-10 | Microsoft Corporation | Layered models for context awareness |
CN102625946A (zh) * | 2009-09-07 | 2012-08-01 | 高通股份有限公司 | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 |
CN102893331A (zh) * | 2010-05-20 | 2013-01-23 | 高通股份有限公司 | 用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体 |
CN102436821A (zh) * | 2011-12-02 | 2012-05-02 | 海能达通信股份有限公司 | 一种自适应调节音效的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US20160295320A1 (en) | 2016-10-06 |
US9699549B2 (en) | 2017-07-04 |
CN106028216A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106028216B (zh) | 音频采集增强方法以及使用所述方法的音频采集系统 | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
US9536523B2 (en) | Method and system for identification of speech segments | |
US9959886B2 (en) | Spectral comb voice activity detection | |
CN102388416B (zh) | 信号处理装置及信号处理方法 | |
US8065115B2 (en) | Method and system for identifying audible noise as wind noise in a hearing aid apparatus | |
US9384760B2 (en) | Sound processing device and sound processing method | |
KR20100048062A (ko) | 목적음 검출 장치 및 방법 | |
CN102254563A (zh) | 用于双麦克风数字助听器的风噪声抑制方法 | |
JP4816711B2 (ja) | 通話音声処理装置および通話音声処理方法 | |
US9437213B2 (en) | Voice signal enhancement | |
US9792898B2 (en) | Concurrent segmentation of multiple similar vocalizations | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
US20150039314A1 (en) | Speech recognition method and apparatus based on sound mapping | |
CN108389590B (zh) | 一种时频联合的语音削顶检测方法 | |
JP5271734B2 (ja) | 話者方向推定装置 | |
JP4612468B2 (ja) | 信号抽出装置 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
KR20110078091A (ko) | 이퀄라이저 조정 장치 및 방법 | |
CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
Lee et al. | Space-time voice activity detection | |
KR20040073145A (ko) | 음성인식기의 성능 향상 방법 | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
Page et al. | Automated speech discrimination using frequency derivative threshold detection | |
Yang et al. | Dereverberation for speaker identification in meeting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |