CN105810210A - 声音信号处理装置及其方法与配备有该装置的车辆 - Google Patents
声音信号处理装置及其方法与配备有该装置的车辆 Download PDFInfo
- Publication number
- CN105810210A CN105810210A CN201410856673.7A CN201410856673A CN105810210A CN 105810210 A CN105810210 A CN 105810210A CN 201410856673 A CN201410856673 A CN 201410856673A CN 105810210 A CN105810210 A CN 105810210A
- Authority
- CN
- China
- Prior art keywords
- signal
- echo signal
- unit
- directional pattern
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 61
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 102
- 238000005516 engineering process Methods 0.000 claims description 44
- 238000012880 independent component analysis Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Mechanical Engineering (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本发明公开了声音信号处理装置及其方法与配备有该装置的车辆,其中,该声音信号处理装置包括:空间滤波单元,被配置为通过对输入信号施加空间滤波器执行空间滤波来获得包含目标信号的滤波信号;及掩码施加单元,被配置为通过对滤波信号施加掩码来获得输出信号。可通过使用目标信号与目标信号的噪声之间的空间选择性来获得该掩码。
Description
相关申请的交叉引用
本申请要求于2014年9月19日向韩国知识产权局提交的韩国专利申请号2014-00125005的权益,通过引用将其公开内容结合于本文中。
技术领域
本发明的实施方式涉及声音信号处理方法、声音信号处理装置及配备有该装置的车辆。
背景技术
车辆为一种通过转动至少一个轮子在预定方向上沿着道路或轨道行驶的交通工具。车辆可包括三轮或四轮车辆、诸如摩托车、施工设备、电动自行车、自行车的两轮车辆、以及行驶在轨道上的火车。
被配置为通过识别语音来控制车辆中安装的各种组件及装置的语音识别装置可安装于车辆中,以支持包括驾驶员或乘客的用户的操作。语音识别装置为一种识别用户的语音的装置。
被配置为接收语音命令的设备(诸如语音识别装置的麦克风)不仅可接收用户语音命令,而且还可接收各种噪声,诸如发动机声音、乘客的语音等。因此,为了改进语音识别性能,必须精确地提取用户的语音命令。
发明内容
因此,本发明的一方面在于提供能够通过提高各信号从混合信号分离的性能而最大程度地重构目标声音的一种声音信号处理方法、声音信号处理装置、及配备该装置的车辆。
本发明的另一方面在于提供一种在通过空间滤波来识别声音时,可通过使用相对少的计算量精确地获得目标声音的声音信号处理方法、声音信号处理装置、及配备该装置的车辆。
本发明的另外方面部分地将在以下说明中进行阐述,部分地将从以下说明变得明显,或可通过本发明的实践而得知。
根据本发明的一个方面,声音信号处理装置包括:空间滤波单元,被配置为通过对输入信号施加空间滤波器的空间滤波来获得包含目标信号的滤波信号;及掩码施加单元,被配置为通过对滤波信号施加掩码来获得输出信号,所述掩码通过使用目标信号与目标信号的噪声之间的空间选择性(spatialselectivity)而获得。
掩码施加单元可通过使用空间滤波器来计算并获得目标信号的方向性图案及目标信号的噪声的方向性图案。
掩码施加单元可通过使用目标信号的方向性图案及噪声的方向性图案来确定空间选择性。
空间选择性可包括目标信号的方向性图案与噪声的方向性图案的比率。
目标信号的方向性图案可根据以下等式1进行计算。
等式1
本文中,k表示频率点索引(frequencybinindex),q表示单位法线方向向量,N表示输入信号的数量,Wi TE(k)表示第i信号的空间滤波器,ωk表示与第k点(bin)对应的频率,pi表示指示第i信号的传感器的位置的向量,pR可表示指示参考传感器的位置的向量,及c表示声音的速度。
噪声可为目标信号的主要噪声。
滤波信号还可包括非目标信号。
空间滤波器可包括:目标提取滤波器及目标抑制滤波器,该目标提取滤波器被配置为从输入信号获得目标信号,该目标抑制滤波器被配置为从输入信号获得非目标信号。
掩码施加单元可计算目标信号的方向性图案及目标信号的噪声的方向性图案,并可基于目标信号的方向性图案及噪声的方向性图案来确定空间选择性。
掩码施加单元可通过使用滤波信号的目标信号与滤波信号的非目标信号的比率来获得掩码(mask)。
掩码可根据以下等式2进行计算。
等式2
本文中,k表示频率点索引,τ表示帧索引,M(k,τ)表示k和τ时的掩码,R(k)表示空间选择性,SNR(k,τ)表示目标信号与非目标信号的比率,及FR(τ)表示目标信号与非目标信号的比率的倒数。
声音信号处理装置还可包括转换单元,该转换单元用于将输入信号从时域转换为频域。
转换单元可通过使用傅立叶变换、快速傅立叶变换(FFT)或短时傅立叶变换(STFT)来转换输入信号。
声音信号处理装置还可包括逆变单元,该逆变单元将输出信号从频域逆变为时域。
空间滤波单元可通过使用波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术和最小功率无失真响应(MPDR)技术中至少一个来执行空间滤波。
根据本发明的一个方面,声音信号处理方法包括:通过对输入信号施加空间滤波器执行空间滤波来获得包括目标信号的滤波信号;通过使用目标信号与目标信号噪声之间的空间选择性来获得掩码;以及通过施加掩码至滤波信号来获得输出信号。
掩码的获得可包括通过使用空间滤波器来计算目标信号的方向性图案及目标信号噪声的方向性图案。
掩码的获得还可包括通过使用目标信号的方向性图案及噪声的方向性图案来确定空间选择性。
滤波信号还可包括非目标信号。
空间滤波器可包括:目标提取滤波器及目标抑制滤波器,该目标提取滤波器被配置为从输入信号获得目标信号;该目标抑制滤波器被配置为从输入信号获得非目标信号。
掩码的获得可包括通过使用目标提取滤波器来计算目标信号的方向性图案及目标信号的噪声的方向性图案,并基于目标信号的方向性图案及噪声的方向性图案来确定空间选择性。
声音信号处理方法还可包括将输入信号从时域转换为频域,以及将输出信号从频域逆变为时域。
根据本发明的一个方面,一种车辆包括:输入单元,接收声音并输出与所接收的声音对应的输入信号;信号处理单元,通过施加空间滤波器至输入信号来获得滤波信号,通过使用滤波信号的目标信号与滤波信号的非目标信号之间的空间选择性来获得掩码,并通过施加掩码至滤波信号来获得输出信号;及输出单元,输出输出信号。
车辆还可包括控制单元,该控制单元通过使用输出信号来控制车辆内的组件和设备。
滤波信号可包括目标信号和非目标信号,并且空间滤波器可包括目标提取滤波器和目标抑制滤波器。
信号处理单元可通过使用目标提取滤波器来计算目标信号的方向性图案及目标信号噪声的方向性图案,并可基于目标信号的方向性图案及噪声的方向性图案来确定空间选择性。
信号处理单元可通过使用滤波信号的目标信号与滤波信号的非目标信号的比率来获得掩码。
附图说明
通过以下结合附图进行的实施方式的说明,本发明的这些及其他方面将变得显而易见且更容易理解。
图1为示出根据本发明的一个示例性实施方式的声音信号处理装置的框图;
图2为示出输入到空间滤波单元中的信号的框图;
图3为示出了空间滤波单元及掩码施加单元的框图;
图4为示出根据本发明的示例性实施方式的车辆的内部的示图;
图5为根据本发明的示例性实施方式的车辆的框图;以及
图6为示出根据本发明的示例性实施方式的声音信号处理方法的控制流程图。
具体实施方式
现将详细地参考本发明的实施方式,本发明的实施例示出在附图中。
下文中,根据本发明的一个示例性实施方式的声音信号处理装置可参照图1至图3进行说明。
图1为示出根据本发明的示例性实施方式的声音信号处理装置的框图,图2为示出输入到空间滤波单元中的信号的框图,以及图3为示出空间滤波单元及掩码施加单元的框图。
参照图1,声音信号处理装置1可通过与输入单元10和输出单元60相连接而传输或接收数据x(t)或s(t)。声音信号处理装置1可通过使用输入单元10和输出单元60中的至少一个与由各种电缆实现的有线通信来传输或接收数据x(t)或s(t),以及通过使用输入单元10和输出单元60中的至少一个与蓝牙、无线保真(Wi-Fi)和近场通信(NFC)或使用移动通信标准的无线通信来传输或接收数据x(t)或s(t)。此外,输入单元10、声音信号处理装置1及输出单元60可安装于同一印刷电路板上,并且输入单元10、输出单元60及声音信号处理装置1之间的数据通信可通过印刷电路板上的线路来实施。
输入单元10可从外部接收声音,并可输出与所接收的声音对应的电信号x(t)。输入单元10可以麦克风或与麦克风对应的组件实现。输入单元10可包括换能器,该换能器根据外部声音的频率进行振动并输出与振动对应的电信号。此外,输入单元10还可包括以下各项中的至少一个:放大信号的放大器以及执行输出电信号的模拟数字转换的模拟数字转换器。
输入至输入单元10的外部声音可包括:原始目标声音,诸如用户的语音命令;及非目标声音,诸如除用户的语音命令之外的乘客的语音命令、杂声(chatter)或发动机声音。输入单元10可通过各个麦克风分离地接收原始目标声音和非目标声音。原始目标声音还可包括来自各种源的噪声,诸如与语音命令混合的发动机声音、风扇转动声音及空调器吹风声音。
根据实施方式,输入单元10可包括第一输入单元11至第N输入单元13,如图2所示。输入单元10可由多个麦克风或相当组件实现。输入单元11至13可分别接收原始目标声音或原始非目标声音。原始目标声音可输入至多个输入单元11至13中的任何一个的第一输入单元11,或多个输入单元(诸如第一输入单元11和第二输入单元12)可同时接收原始目标声音。此外,一个输入单元(诸如第一输入单元11)可接收作为原始目标声音和原始非目标声音的混合体的声音。各个输入单元11至13可输出输入信号x1(t)至xn(t)并且将该输入信号x1(t)至xn(t)传输至与输入单元11至13对应的转换单元21至23。
输出单元60可接收逆变信号(inversesignal)s(t),所述逆变信号s(t)从声音信号处理装置1输出且与原始目标声音对应。输出单元60可输出与逆变信号s(t)对应的声音。输出单元60可由扬声器实现且可被省略。例如,当逆变单元50可基于信号s(t)产生控制装置的控制信号时,输出单元60可被省略,并且与控制有关的处理器可取代输出单元60。装置可包括安装于车辆中的各种组件和设备,或者该装置可被安装于车辆内,并且处理器可执行控制车辆的各种组件和设备的功能。
如图1所示,声音信号处理装置1可包括转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50。根据设计者的选择,这些单元中的一些可被省略。除了这些配置之外,根据设计者的选择,也可添加其他配置。添加和省略可在本领域技术人员可考虑的范围内进行。
在输入单元10处获得的输入信号x(t)可为时域信号。转换单元20可接收时域信号x(t)并将时域信号x(t)转换为频域信号x(k,τ)。k可表示频率点索引,及τ可表示帧索引。通过转换单元20获得的x(k,τ)可发送至空间滤波单元30。根据实施方式,转换单元20可被省略。
根据本发明的一个实施方式,转换单元20可通过使用各种变换技术(诸如傅立叶变换、快速傅立叶变换(FFT)和短时傅立叶变换(STFT),但不限于这些)将时域信号x(t)转换为频域信号x(k,τ)。备选地,转换单元20可通过使用各种公知的变换技术将时域信号x(t)转换为频域信号x(k,τ)。
如图2所示,当设置有多个输入单元11至13时,声音信号处理装置1可包括与多个输入单元11至13对应的多个转换单元21至23。第一转换单元21至第N转换单元23可个别地转换从第一输入单元11至第N输入单元13输出的输出信号x1(t)至xn(t),可获得转换后的多个信号x1(k,τ)至xn(k,τ),并可将所获得信号x1(k,τ)至xn(k,τ)发送至空间滤波单元30。
空间滤波单元30可通过使用转换后的信号x1(k,τ)至xn(k,τ)来获得滤波信号YTE(k,τ)或YTR(k,τ),并可将滤波后的信号YTE(k,τ)或YTR(k,τ)发送至掩码施加单元40。
特别地,空间滤波单元30可通过对从输入单元10输出的输入信号x(t)或从转换单元20输出的信号x(k,τ)施加空间滤波器至来执行空间滤波,并可获得滤波信号作为空间滤波的结果。滤波信号可包括目标信号YTE(k,τ),并且还可包括非目标信号YTR(k,τ)。
如图3所示,空间滤波单元30可包括目标提取滤波器31和目标抑制滤波器32。空间滤波单元30可通过对信号x1(k,τ)至xn(k,τ)施加目标提取滤波器31来获得目标信号YTE(k,τ)。此外,空间滤波单元30可通过对信号x1(k,τ)至xn(k,τ)施加目标抑制滤波器32来获得非目标信号YTR(k,τ)。
根据实施方式,空间滤波单元30可通过使用波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术和最小功率无失真响应(MPDR)技术中的至少一个来执行空间滤波,并可获得目标信号YTE(k,τ)和非目标信号YTR(k,τ)作为空间滤波的结果。
波束成形技术为通过校正输入到多个信道的信号之间的时间差并收集多个信道的校正后信号来获得输出信号的技术。通过使用波束成形技术,由输入单元10的换能器的位置或外部声音的入射角产生的多个信道的信号之间的时间差可通过不同地延迟每个信道或不延迟信道进行校正。此外,通过使用波束成形技术,多个信道的信号可通过对校正后的多个信号中的每个信号施加加权值或不施加加权进行收集。施加于多个信道的每个信道的加权值可为固定加权值或响应于信号而变化的加权值。
独立分量分析(ICA)技术为当假设多个输入信号为彼此独立的多个信号的加权总和时,通过重复地学习并更新可使输出信号之间的独立性最大化的加权值来最优地分离盲信号的技术。独立分量分析技术的算法可包括:信息最大化(Infomax)、JADE或FastICA。
独立向量分析(IVA)技术为用于学习使频域中的输出信号之间独立性最大化的加权的技术。当引入(inducing,诱导)非线性函数时,防止输出信号的序列和比率(scale)因独立分量分析造成过度不同,在独立分离分析中,在每个频带上对信号进行处理。
最小功率无失真响应(MPDR)技术为通过引入某些限制(约束)来导出更一般的空间滤波器的技术。例如,通过使用输入信号、方向向量及噪声协方差来获得施加于输入信号的空间滤波器,并且输出信号可通过施加所获得的空间滤波器至输入信号而获得。
其全部用在空间滤波单元30中的波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)及最小功率无失真响应(MPDR)技术为本领域技术人员所熟知,因此,为了方便,将省略具体说明。此外,波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术及最小功率无失真响应(MPDR)技术可通过公知方法来实施及在本领域技术人员能考虑到的范围内通过改变各种方法来实现。
空间滤波单元30可通过使用波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术及最小功率无失真响应(MPDR)技术来执行空间滤波,如上所述,但不限于这些。空间滤波单元30可通过本领域技术人员可以考虑到的各种技术来执行空间滤波。
根据本发明的一个实施方式,空间滤波单元30通过使用等式1和等式2可获得目标信号YTE(k,τ)或非目标信号YTR(k,τ)。
等式1
YTE(k,τ)=WTE(k)[X1(k,τ),...,XN(k,τ)]T
等式2
YTR(k,τ)=WTR(k)[X1(k,τ),...,XN(k,τ)]T
本文中,YTE(k,τ)表示目标信号,k表示频率点索引,及τ表示帧索引。WTE(k)表示乘以k频率点的空间滤波的估算目标提取滤波器的系数组成的向量。这里,估算目标提取滤波器可通过波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术及最小功率无失真响应(MPDR)技术中的至少一个进行估算。Xn(k,τ)表示输入至空间滤波单元30的信号。此外,N表示输入信号的编号,附加至x的下标1至N可为用于表示输入至N个数目的信道的每个输入信号的索引。
空间滤波单元30可通过由等式1与等式2之中的至少一个等式产生的代码来实现。用于实现空间滤波单元30的代码可根据设计者而变化。
如图2和图3所示,空间滤波单元30可输出目标信号YTE(k,τ)和非目标信号YTR(k,τ),并将目标信号YTE(k,τ)和非目标信号YTR(k,τ)发送至掩码施加单元40。此外,如图3所示,空间滤波单元30可将通过使用如上所述各种技术估算的估算加权值WTE(k)发送至掩码施加单元40。
掩码施加单元40可对从空间滤波单元30传输的目标信号YTE(k,τ)施加掩码,并可获得输出信号s(k,τ)。
如图3所示,掩码施加单元40可包括组合单元41、方向性图案计算单元42、空间选择性计算单元43、目标信号与非目标信号之间关系的计算单元44、及掩码获得单元45。
组合单元41可对目标信号YTE(k,τ)施加掩码(诸如软掩码),并可产生输出信号s(k,τ)。组合单元41可通过基于等式3产生的代码实现。用于实现组合单元41的代码可以根据设计者而不同。
等式3
S(k,τ)=M(k,τ)YTE(k,τ)
本文中,S(k,τ)表示所获得的输出信号,M(k,τ)表示软掩码的加权值。YTE(k,τ)表示目标信号,如上所述。
换言之,组合单元41可通过组合掩码M(k,τ)与目标信号YTE(k,τ)来获得输出信号S(k,τ)。可从空间滤波单元30传输目标信号YTE(k,τ)。可从掩码获得单元45传输掩码M(k,τ)。
根据本发明的一个实施方式,方向性图案计算单元42可计算与滤波器的方向性有关的参数。这里,与滤波器的方向有关的参数可包括方向性图案DTE(k,q)。方向性图案DTE(k,q)可为与在空间滤波单元30中施加于输入信号x1(t)至xn(t)的滤波器的方向性有关的数据。根据本发明的一个实施方式,方向性图案DTE(k,q)可包括与施加于目标信号YTE(k,τ)的目标提取滤波器31的方向性有关的一组值。
例如,方向性图案可定义为等式4。
等式4
本文中,DTE(k,q)表示与q的目标信号YTE(k,τ)有关的方向性图案。此外,k表示频率点索引,q表示单位法线方向向量,i表示输入信号索引,及N表示输入信号的数量。Wi TE(k)表示第i信号的空间滤波器,ωk表示与第k点对应的频率。Pi表示向量,该向量指示输入第i信号的输入单元的位置,pR表示向量,该向量指示用于输入单元的位置参考的参考输入单元的位置,诸如参考传感器。c表示声音的速度。
方向性图案DTE(k,q)可定义为等式5。
等式5
本文中,d表示输入第i信号的输入单元的向量与参考输入单元的向量之间的距离。Sinθ表示输入第i信号的输入单元的向量与参考输入单元的向量之间的角度。
方向性图案DTE(k,q)也可以由除了如上所述的等式4和等式5之外的各种方式进行定义。
方向性图案计算单元42可通过代码来实现,该代码允许根据如上所述的等式4和等式5来执行方向性图案DTE(k,q)的计算,并且所述代码可以是取决于设计者偏好的各种代码。
当通过使用单位法线方向向量q来计算方向性图案DTE(k,q)时,方向性图案计算单元42可通过使用与目标信号对应的单位法线方向向量qT来计算目标信号YTE(k,τ)的方向性图案DTE(k,qT),并且方向性图案计算单元42可通过使用与目标信号噪声对应的单位法线方向向量qN来计算目标信号YTE(k,τ)中残留的噪声的方向性图案DTE(k,qN)。
全部在方向性图案计算单元42中计算的方向性图案DTE(k,q)、目标信号YTE(k,τ)的方向性图案DTE(k,qT)及噪声的方向性图案DTE(k,qN),可被发送至空间选择性计算单元43,并可被提供来计算参数,诸如空间选择性R(k)。
空间选择性计算单元43可通过使用目标信号YTE(k,τ)的方向性图案DTE(k,qT)及包括在目标信号中的噪声的方向性图案来获得表达为空间选择性R(k)的参数。这里,空间选择性R(k)可包括目标信号的方向性图案与噪声的方向性图案的比率。特定地,空间选择性R(k)可如等式6中定义。
等式6
本文中,qT表示与目标信号对应的单位法线方向向量,qN表示与目标信号的噪声对应的单位法线方向向量,DTE(k,qT)表示目标信号YTE(k,τ)的方向性图案,及DTE(k,qN)表示目标信号YTE(k,τ)中残留的噪声的方向性图案。这里,噪声可为在目标信号中的主要噪声。
先前已知的值可用作与目标信号对应的单位法线方向向量qT及与目标信号的噪声对应的单位法线方向向量qN。例如,与目标信号对应的单位法线方向向量qT及与目标信号的噪声对应的单位法线方向向量qN可为用在空间滤波算法中的单位法线方向向量,诸如波束成形技术。如果可通过使用独立分量分析(ICA)技术来执行空间滤波,那么与目标信号对应的单位法线方向向量qT及与目标信号的噪声对应的单位法线方向向量qN可通过检测与估算滤波器的方向性图案的一个或多个最小值对应的方向来计算。
空间选择性R(k)可为指示在目标信号YTE(k,τ)中去除多少噪声的指示器。特定地,当空间选择性R(k)可能具有相对较大值时,充分地去除了目标信号YTE(k,τ)中残留的噪声。然而,当空间选择性R(k)可能具有相对较小值时,可能未充分地去除目标信号YTE(k,τ)中残留的噪声,因此,可能需要去除更多噪声。
空间选择性计算单元43可通过允许根据如上所述的等式6来执行空间选择性R(k)的计算的代码来实现,并且所述代码可为取决于设计者的选择的各种代码。
如图3所示,在空间选择性计算单元43中计算的空间选择性R(k)可发送至掩码获得单元45。
与此同时,目标信号与非目标信号之间关系的计算单元44可接收目标信号YTE(k,τ)和非目标信号YTR(k,τ),并通过使用目标信号YTE(k,τ)和非目标信号YTR(k,τ)来计算特定参数。特定参数可指示目标信号YTE(k,τ)与非目标信号YTR(k,τ)之间关系的信息。目标信号YTE(k,τ)与非目标信号YTR(k,τ)之间关系的信息可包括目标信号YTE(k,τ)与非目标信号YTR(k,τ)的比率。
特定地,目标信号YTE(k,τ)与非目标信号YTR(k,τ)的比率SNR(k,τ))可如等式7中定义。
等式7
本文中,SNR(k,τ)表示目标信号YTE(k,τ)与非目标信号YTR(k,τ)的比率,YTE(k,τ)表示目标信号,YTR(k,τ)表示非目标信号。ε为防止分母变为0的值。ε可以是任意小的正数。
目标信号与非目标信号之间关系的计算单元44可用来计算目标信号与非目标信号的反比率FR,所述反比率FR为目标信号对非目标信号的反比率。目标信号与非目标信号的反比率FR可包括任何一个帧τ的目标信号与非目标信号的反比率FR(τ)。
任何一个帧τ的目标信号与非目标信号的反比率FR(τ)可通过等式8来获得。
等式8
等式8中,τ表示帧索引,FR(τ)表示帧τ的目标信号与非目标信号的反比率。YTE(k,τ)表示目标信号,YTR(k,τ)表示非目标信号。
因为包括原始目标声音和非目标声音的声音可能在频率上具有依赖性,所以在任何一个帧中,时频分量的目标声音和噪声的优势可能是具有类似趋势。因此,在任何一个帧τ中的目标信号与非目标信号的反比率FR(τ)可视为在任何一个帧中的另一个频率点的信息,使得在任何一个帧τ中的目标信号与非目标信号的反比率FR(τ)可用来控制目标信号YTE(k,τ)中的残留噪声的抑制程度,所述目标信号YTE(k,τ)中的残留噪声的抑制程度可通过目标信号与非目标信号的比率SNR(k,τ)及空间选择性R(k)来确定。
目标信号与非目标信号之间关系的计算单元44可通过代码来实现,所述代码允许通过使用如上所述等式7来获得目标信号与非目标信号的比率SNR(k,τ)及通过等式8来计算目标信号与非目标信号的反比率FR(τ)。根据设计者偏好,所述代码可为各种代码。
目标信号与非目标信号的比率SNR(k,τ)及目标信号与非目标信号的反比率FR(τ),两者都在目标信号与非目标信号之间关系的计算单元44中获得,可将它们发送至掩码获得单元45。
掩码获得单元45可通过使用各种参数来获得掩码M(k,τ),并可将掩码M(k,τ)发送至组合单元41。
根据本发明的一个实施方式,掩码获得单元45可通过使用从空间选择性计算单元43发送的空间选择性、从目标信号与非目标信号之间关系的计算单元44发送的目标信号与非目标信号的比率SNR(k,τ)及目标信号与非目标信号的反比率FR(τ)来获得掩码M(k,τ)。
掩码获得单元45可通过使用应用等式9的代码来计算并获得掩码M(k,τ)。
等式9
本文中,M(k,τ)表示掩码,FR(τ)表示目标信号与非目标信号的反比率,及SNR(k,τ)表示目标信号与非目标信号的比率。R(k)表示空间选择性。α和β分别表示双弯曲(sigmoid)函数的斜率及决定空间选择性的对数的偏移的参数。α和β可根据设计者的选择来确定。
掩码获得单元45可通过允许通过等式9来计算并获得掩码M(k,τ)的代码来实现。根据设计者的选择,所述代码可为各种代码。
如上所述,组合单元41可通过组合在空间滤波单元30中获得的目标信号YTE(k,τ)与在掩码获得单元45中获得的掩码M(k,τ)来获得输出信号s(k,τ)。因此,掩码施加单元40可输出使YTE(k,τ)增强的信号。
输出信号s(k,τ)可发送至逆变单元50。
逆变单元50可通过使输出信号s(k,τ)逆变来获得逆变信号s(t)。逆变单元50可将频域信号逆变为时域信号。逆变单元50可通过使用与转换单元20中使用的转换技术对应的逆变技术来获得逆变信号s(t)。例如,逆变单元50可通过使用傅立叶逆变换或快速傅立叶逆变换来获得逆变信号s(t)。
因此,通过使用声音信号处理装置1,可获得其中原始声音中的原始目标声音得到增强而噪声被去除的声音。
如上所述,包括在声音信号处理装置1中的转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50可通过一个或多个处理器来实现。根据本发明的一个实施方式,通过使用一个处理器,可实现转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50。在这种情况下,处理器能够加载包括特定代码的程序以执行转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50的功能,并处理器可包括由特定代码编程的处理器。根据本发明的另一个实施方式,转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50可通过使用多个处理器来实现。在这种情况下,转换单元20、空间滤波单元30、掩码施加单元40及逆变单元50可通过与每个组件对应的多个处理器来实现。此外,该多个处理器可为被配置为加载程序的处理器,所述程序包括执行每个功能的特定代码,或该多个处理器可为通过使用特定代码编程的处理器。
下文中,根据一个实施方式,设置有声音信号处理装置的车辆可参照图4和图5进行说明。
图4为示出了根据本发明的实施方式的车辆的内部的示图。
如图4所示,车辆100可设置有控制板200,划分为车辆内部及发动机舱。控制板200可布置于驾驶员座位250和乘客座位251的前面,并控制板可设置有各种组件以辅助驾驶。控制板200可包括上面板201、中央仪表盘220及变速箱230。控制板200的上面板201可封闭至挡风玻璃202,并可设置有空调设备113的出风口113a、杂物箱或各种仪表板140。
导航单元110可设置于控制板200上。例如,导航单元110可安装于中央仪表盘220的上部。导航单元110可嵌入于控制板200中,或可通过使用包括特定结构的设备安装于上面板201的上表面上。被配置为接收驾驶员的语音或乘客的语音的一个或多个输入单元133和134可安装于导航单元110的壳体111上。输入单元133和134可通过麦克风来实现。
控制板200的中央仪表盘220可连接至上面板201。控制车辆的输入设备221和222(诸如触控板或按钮)、收音机115、声音输出装置116(诸如光盘播放器)可安装于中央仪表盘220上。
被配置为控制车辆的各种组件和设备的处理器99可安装于控制板200的内侧上。处理器99可通过至少一个半导体芯片、开关、集成电路、电阻器、易失性存储器或非易失性存储器及印刷电路板中的至少一个来实现。半导体芯片、开关、集成电路、电阻器、易失性存储器或非易失性存储器可布置在印刷电路板上。
在形成车辆100的车顶的上部结构的内表面上,可设置有被配置为接收驾驶员的语音或乘客的语音的一个或多个输入单元131。输入单元131可通过麦克风来实现。输入单元131可通过使用电缆电连接至设置于控制板200的内侧上的处理器99或导航单元110,并且输入单元131可将所接收的语音信号发送至处理器99。此外,输入单元131和132可通过使用无线通信(诸如蓝牙或近场通信(NFC)单元)而电连接至设置于控制板200的内侧上的处理器99或导航单元110,并且输入单元131可将由输入单元131接收的语音信号发送至处理器99。
遮阳板121和122可安装于车辆100的上部结构的内表面上。被配置为接收驾驶员的语音或乘客的语音的一个或多个输入单元132可安装于遮阳板121和122上。遮阳板121和122的输入单元132可通过麦克风来实现。遮阳板121和122的输入单元132可通过使用有线和/或无线接口电连接至设置于控制板200的内侧上的处理器99或导航单元110。
锁闭设备112可安装于车辆内部以锁闭车辆的门117。此外,照明设备114可设置于车辆100的上部结构(upperframe,上部车架)的内表面上。
图5为根据本发明的实施方式的车辆的框图。
如图5所示,车辆100可包括:车辆内的组件/设备101、处理器99及存储单元157。如图5所示,车辆内的组件/设备101可包括:输入单元131和132,通过麦克风实现;导航单元110,设有输入单元133和134;锁闭设备112;空调设备113;照明设备114;声音播放单元115;及收音机116,但不限于这些。车辆内的组件/设备101可包括各种组件和设备。
输入单元131至134可接收驾驶员的语音或乘客的语音,并可输出作为与所接收的语音对应的电信号的声音信号。声音信号可为模拟信号,并且在这种情况下,声音信号可在发送至处理器之前经穿过模拟-数字转换器而被转换为数字信号。必要时,所输出声音信号可通过放大器进行放大。所输出声音信号可发送至处理器99。
如图4所示,输入单元131和132可设置于车辆100的上部结构的内表面或遮阳板121和122上。此外,输入单元131和132可设置于方向盘上。此外,输入单元131和132可设置于能够接收驾驶员的语音或乘客语音的不同位置上。此外,麦克风133和134可安装于导航单元110上,如上所述。
通过输入单元131至134输入的声音信号可包括由具有不同源的多个声音引起的信号。例如,驾驶员和乘客可通过相同或不同的输入单元131至134同时或按顺序输入语音命令。此外,输入单元131至134可接收其他声音,诸如发动机声音、通过窗进入的风的噪声、乘客的杂声。因此,通过输入单元131至134输入的声音信号可与对应于原始目标声音(其为语音命令)的目标声音信号和对应于原始非目标声音(其不是语音命令)的非目标声音信号混合。
处理器99可接收通过输入单元131至134输入的声音信号,可通过处理所接收声音信号来产生控制命令,然后可通过使用所产生控制命令来控制车辆内的组件/设备101。
处理器99可通过一个或多个半导体芯片来实现。
处理器99可包括转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155、及控制单元156。转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156可进行物理分离或虚拟分离。当转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156物理分离时,转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156中的每一个可通过分立处理器来实现。当转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156进行虚拟分离时,转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156可通过一个处理器来实现,并且转换单元151、空间滤波单元152、掩码施加单元153、逆变单元154、语音/文本转换单元155及控制单元156中每一个可通过由至少一段代码形成的程序来实现。
转换单元151可将时域信号转换为频域信号。转换单元151可通过使用各种技术(诸如傅立叶变换、快速傅立叶变换或短时傅立叶变换)将时域信号转换为频域信号。根据实施方式,转换单元151可被省略。
空间滤波单元152可通过使用由输入单元131至134输入的信号或在转换单元151中的经转换的信号来获得滤波信号,并可将滤波后的信号发送至掩码施加单元153。
根据一个实施方式,空间滤波单元152可通过使用各种技术,诸如波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术及最小功率无失真响应(MPDR)技术,来执行空间滤波。作为空间滤波的结果,空间滤波单元152可获得与目标声音信号对应的目标信号及与非目标声音信号对应的非目标信号。
空间滤波单元152可通过等式1和等式2来获得目标信号和非目标信号。空间滤波单元152可通过基于等式1和等式2中至少一个形成的代码来实现。根据设计者的选择,代码可为各种代码。
掩码施加单元153可通过对目标信号施加掩码(诸如软掩码)来获得去除或减少了噪声的输出信号,并可将输出信号发送至逆变单元154。
掩码施加单元153可获得方向性图案,所述方向性图案为与滤波器的方向性有关的参数。掩码施加单元153可通过使用基于等式4或等式5形成的代码来获得方向性图案。根据实施方式,掩码施加单元153可获得目标信号的方向性图案或噪声的方向性图案。掩码施加单元153可通过使用空间滤波器来获得目标信号的方向性图案或目标信号的噪声的方向性图案。
掩码施加单元153可通过使用方向性图案(诸如目标信号的方向性图案或噪声的方向性图案)来获得空间选择性,所述空间选择性为用于指示去除多少噪声的参数。空间选择性可定义为目标信号的方向性图案与噪声的方向性图案的比率。掩码施加单元153可通过使用基于等式6形成的代码来计算空间选择性。根据设计者的选择,代码可为各种代码。
掩码施加单元153可计算目标信号与非目标信号之间的关系。目标信号与非目标信号之间的关系可表示为比率,并可通过等式7进行计算。掩码施加单元153可通过使用基于等式7形成的代码来计算目标信号与非目标信号之间的关系。根据设计者的选择,代码可为各种代码。
掩码施加单元153可通过计算目标信号与非目标信号的比率的倒数来获得反比率。目标信号与非目标信号的反比率可通过使用等式8来获得。掩码施加单元153可通过使用基于等式8形成的代码来计算目标信号与非目标信号的反比率。根据设计者的选择,代码可为各种代码。
掩码施加单元153可通过使用空间选择性、目标信号与非目标信号的比率、及目标信号与非目标信号的反比率来获得待施加于目标信号的掩码。在这种情况下,掩码可通过使用等式9来获得。掩码施加单元153可通过使用基于等式9形成及根据设计者的选择不同地形成的代码来获得掩码。
掩码施加单元153可通过施加目标信号的掩码至目标信号来产生输出信号。在这种情况下,掩码施加单元153可通过使用基于等式3形成的代码来施加目标信号的掩码至目标信号。
逆变单元154可通过使用快速傅立叶逆变换来对从掩码施加单元153输出的施加掩码后的目标信号进行逆变。因此,可获得与目标信号对应的语音信号。从逆变单元154输出的信号可通过语音/文本转换单元155发送至控制单元156,或可直接发送至控制单元156,而无需通过语音/文本转换单元155。
语音/文本转换单元155可通过使用语音转文本(STT)技术将语音信号转换为文本信号。文本信号可被发送至控制单元156。语音/文本转换单元155可被省略。
控制单元156可通过使用从逆变单元154输出的信号或从语音/文本转换单元155输出的文本信号来产生与用户的语音命令对应的控制命令,并可通过将所产生的控制命令发送至车辆1内的组件/设备01中的目标组件或设备来控制目标组件或设备。因为与目标信号对应的语音命令可由处理器99的声音信号处理单元150进行明确分类,所以控制单元156可产生与一个或多个用户的语音命令对应的一个或多个控制命令。因此,控制单元156可根据用户要求精确地控制车辆内的组件/设备101。
存储单元157可存储与车辆内的组件/设备101有关的各种设定或信息。处理器99或车辆内的组件/设备101可通过读取存储于存储单元157中的设定或信息来执行特定操作。
下文中,根据一个实施方式的声音信号处理方法将参照图6进行说明。图6为控制流程图,示出了根据本发明的实施方式的声音信号处理方法。
如图6所示,混合原始目标声音和原始非目标声音的混合信号可通过输入单元(诸如一个或多个麦克风)而输入S70。如果混合信号为模拟信号,那么混合信号可通过模拟-数字转换器转换为数字信号。此外,必要时,混合信号可通过放大器进行放大。
加载程序或编程为处理声音信号的处理器可将时域信号转换为频域信号以容易处理信号S71。根据实施方式,通过使用各种技术,诸如傅立叶变换、快速傅立叶变换或短时傅立叶变换,可将时域信号转换为频域信号。
处理器可施加空间滤波器至混合信号,该混合信号已被转换为频域信号S72,并且处理器可获得目标信号和非目标信号S73。在这种情况下,空间滤波器的施加可通过使用各种技术来执行,诸如波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术及最小功率无失真响应(MPDR)技术。等式1和等式2可用来施加空间滤波器。
当在S73中获得目标信号时,与目标信号有关的方向性图案及与目标信号的噪声有关的方向性图案可通过施加空间滤波器来计算,S74和S75。这里,目标信号的方向性图案及目标信号噪声的方向性图案可通过使用空间滤波器来执行。每个方向性图案可通过使用等式4或等式5来计算。
指示去除多少噪声的空间选择性可通过使用目标信号的方向性图案及噪声的方向性图案来计算S76。空间选择性可定义为目标信号的方向性图案与噪声的方向性图案的比率。空间选择性可通过等式6来计算。
当在S73中获得目标信号和非目标信号时,目标信号和非目标信号的参数可通过使用目标信号和非目标信号来获得S77。目标信号和非目标信号的参数可包括:与目标信号和非目标信号之间关系有关的信息。与目标信号和非目标信号之间关系有关的信息可包括目标信号与非目标信号的比率及目标信号与非目标信号的反比率。目标信号与非目标信号的比率及目标信号与非目标信号的反比率可通过等式7和等式8来获得。
当获得空间选择性、目标信号与非目标信号的比率及目标信号与非目标信号的反比率时,通过使用空间选择性、目标信号与非目标信号的比率及目标信号与非目标信号的反比率,可获得掩码S78。掩码可通过等式9来获得。
当获得掩码时,掩码可施加于目标信号S79,如图3所示。因此,可获得输出信号,S80。
可对输出信号进行逆变,S81,因此,可获得与目标信号对应的语音信号。
从以上说明显而易见,根据所提出的声音信号处理方法及装置以及配备该装置的车辆,目标声音(诸如用户的语音命令)可被最大限度地重构,同时用户语音命令及各种噪声混合在一起的混合声音可被精确地分成每个声音。
此外,当通过使用空间滤波来识别声音时,通过施加相对少的计算量负担,可精确地获得目标声音,使得通过使用少许资源可产生高效率。
可以精确地识别用户语音命令,使得通过用户语音命令可以更精确地控制车辆中的组件和设备。
因此,根据本发明,声音信号处理方法、声音信号处理装置及配备该装置的车辆,可根据用户要求控制车辆中的组件和设备,使得语音识别装置的可靠性及用户便利性得到提高。此外,从而可以更安全驾驶。
虽然本发明的一些实施方式已经示出且说明,但是本领域技术人员应当理解,在不脱离本发明的原理和精神的情况下,可对这些实施方式进行改变,本发明的范围限定在权利要求及其等同物中。
Claims (27)
1.一种声音信号处理装置,包括:
空间滤波单元,被配置为通过对输入信号施加空间滤波器的空间滤波来获得包含目标信号的滤波信号;以及
掩码施加单元,被配置为通过对所述滤波信号施加掩码来获得输出信号,所述掩码通过使用所述目标信号与所述目标信号的噪声之间的空间选择性来获得。
2.根据权利要求1所述的声音信号处理装置,其中
所述掩码施加单元通过使用所述空间滤波器来计算并获得所述目标信号的方向性图案和所述目标信号的所述噪声的方向性图案。
3.根据权利要求2所述的声音信号处理装置,其中
所述掩码施加单元通过使用所述目标信号的所述方向性图案和所述噪声的所述方向性图案来确定所述空间选择性。
4.根据权利要求3所述的声音信号处理装置,其中
所述空间选择性包括所述目标信号的所述方向性图案与所述噪声的所述方向性图案的比率。
5.根据权利要求2所述的声音信号处理装置,其中
根据以下等式1计算所述目标信号的所述方向性图案,其中,k表示频率点索引,q表示单位法线方向向量,N表示输入信号的数量,Wi TE(k)表示第i信号的空间滤波器,ωk表示与第k点对应的频率,pi表示指示第i信号的传感器的位置的向量,pR表示指示参考传感器的位置的向量,且c表示声音的速度,
等式1
6.根据权利要求1所述的声音信号处理装置,其中
所述噪声为所述目标信号的主要噪声。
7.根据权利要求1所述的声音信号处理装置,其中
所述滤波信号还包括非目标信号。
8.根据权利要求7所述的声音信号处理装置,其中
所述空间滤波器包括目标提取滤波器和目标抑制滤波器,所述目标提取滤波器被配置为从所述输入信号获得所述目标信号,所述目标抑制滤波器被配置为从所述输入信号获得所述非目标信号。
9.根据权利要求8所述的声音信号处理装置,其中
所述掩码施加单元计算所述目标信号的方向性图案和所述目标信号的所述噪声的方向性图案,并且基于所述目标信号的所述方向性图案和所述噪声的所述方向性图案来确定所述空间选择性。
10.根据权利要求7所述的声音信号处理装置,其中
所述掩码施加单元通过使用所述滤波信号的目标信号与所述滤波信号的非目标信号的比率来获得所述掩码。
11.根据权利要求1所述的声音信号处理装置,其中
根据以下等式2计算所述掩码,其中,k表示频率点索引,τ表示帧索引,M(k,τ)表示k和τ的掩码,R(k)表示空间选择性,SNR(k,τ)表示目标信号与非目标信号的比率,以及FR(τ)表示目标信号与非目标信号的比率的倒数,
等式2
12.根据权利要求1所述的声音信号处理装置,还包括:
转换单元,将所述输入信号从时域转换为频域。
13.根据权利要求12所述的声音信号处理装置,其中
所述转换单元通过使用傅立叶变换、快速傅立叶变换(FFT)、或短时傅立叶变换(STFT)来转换所述输入信号。
14.根据权利要求12所述的声音信号处理装置,还包括:
逆变单元,将所述输出信号从频域逆变为时域。
15.根据权利要求1所述的声音信号处理装置,其中
所述空间滤波单元通过使用以下各项中的至少一个来执行空间滤波:波束成形技术、独立分量分析(ICA)技术、独立向量分析(IVA)技术、和最小功率无失真响应(MPDR)技术。
16.一种声音信号处理方法,包括以下步骤:
通过对输入信号施加空间滤波器执行空间滤波来获得包含目标信号的滤波信号;
通过使用所述目标信号与所述目标信号的噪声之间的空间选择性来获得掩码;并且
通过对所述滤波信号施加所述掩码来获得输出信号。
17.根据权利要求16所述的声音信号处理方法,其中
所述掩码的获得包括:通过使用所述空间滤波器计算所述目标信号的方向性图案和所述目标信号的所述噪声的方向性图案。
18.根据权利要求17所述的声音信号处理方法,其中
所述掩码的获得还包括:通过使用所述目标信号的所述方向性图案和所述噪声的所述方向性图案来确定所述空间选择性。
19.根据权利要求16所述的声音信号处理方法,其中
所述滤波信号还包括非目标信号。
20.根据权利要求19所述的声音信号处理方法,其中
所述空间滤波器包括目标提取滤波器和目标抑制滤波器,所述目标提取滤波器被配置为从所述输入信号获得所述目标信号,所述目标抑制滤波器被配置为从所述输入信号获得所述非目标信号。
21.根据权利要求20所述的声音信号处理方法,其中
获得掩码包括:通过使用所述目标提取滤波器来计算所述目标信号的所述方向性图案和所述目标信号的所述噪声的所述方向性图案,并且基于所述目标信号的所述方向性图案和所述噪声的所述方向性图案来确定所述空间选择性。
22.根据权利要求16所述的声音信号处理方法,还包括:
将输入信号从时域转换为频域,并且将输出信号从频域逆变为时域。
23.一种车辆,包括:
输入单元,被配置用于接收声音并且输出与所接收的声音对应的输入信号;
信号处理单元,被配置用于通过对所述输入信号施加空间滤波器获得滤波信号,通过使用所述滤波信号的目标信号与所述滤波信号的非目标信号之间的空间选择性获得掩码,并且通过对所述滤波信号施加所述掩码获得输出信号;以及
输出单元,输出所述输出信号。
24.根据权利要求23所述的车辆,还包括:
控制单元,被配置用于通过使用所述输出信号来控制所述车辆内的组件和设备。
25.根据权利要求23所述的车辆,其中
所述滤波信号包括目标信号和非目标信号,并且所述空间滤波器包括目标提取滤波器和目标抑制滤波器。
26.根据权利要求25所述的车辆,其中
所述信号处理单元通过使用所述目标提取滤波器计算所述目标信号的方向性图案和所述目标信号的所述噪声的方向性图案,并基于所述目标信号的所述方向性图案和所述噪声的所述方向性图案来确定所述空间选择性。
27.根据权利要求26所述的车辆,其中
所述信号处理单元通过使用所述滤波信号的所述目标信号与所述滤波信号的所述非目标信号的比率来获得所述掩码。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20140125005 | 2014-09-19 | ||
KR10-2014-0125005 | 2014-09-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105810210A true CN105810210A (zh) | 2016-07-27 |
CN105810210B CN105810210B (zh) | 2020-10-13 |
Family
ID=55526326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410856673.7A Active CN105810210B (zh) | 2014-09-19 | 2014-12-31 | 声音信号处理装置及其方法与配备有该装置的车辆 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9747922B2 (zh) |
KR (1) | KR101704510B1 (zh) |
CN (1) | CN105810210B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739552A (zh) * | 2020-08-28 | 2020-10-02 | 南京芯驰半导体科技有限公司 | 一种麦克风阵列波束成形的方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323628A1 (en) * | 2016-05-05 | 2017-11-09 | GM Global Technology Operations LLC | Road noise masking system for a vehicle |
GB2553571B (en) | 2016-09-12 | 2020-03-04 | Jaguar Land Rover Ltd | Apparatus and method for privacy enhancement |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
FR3121542A1 (fr) * | 2021-04-01 | 2022-10-07 | Orange | Estimation d’un masque optimisé pour le traitement de données sonores acquises |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020054683A1 (en) * | 2000-11-08 | 2002-05-09 | Jens Wildhagen | Noise reduction in a stereo receiver |
CN101199121A (zh) * | 2005-06-17 | 2008-06-11 | Dts(英属维尔京群岛)有限公司 | 可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器 |
US20090248425A1 (en) * | 2008-03-31 | 2009-10-01 | Martin Vetterli | Audio wave field encoding |
CN101816040A (zh) * | 2005-04-15 | 2010-08-25 | 弗劳恩霍夫应用研究促进协会 | 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970564B2 (en) | 2006-05-02 | 2011-06-28 | Qualcomm Incorporated | Enhancement techniques for blind source separation (BSS) |
KR101456866B1 (ko) | 2007-10-12 | 2014-11-03 | 삼성전자주식회사 | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 |
US8046219B2 (en) | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
KR101444100B1 (ko) | 2007-11-15 | 2014-09-26 | 삼성전자주식회사 | 혼합 사운드로부터 잡음을 제거하는 방법 및 장치 |
JP5195652B2 (ja) | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP5738020B2 (ja) | 2010-03-11 | 2015-06-17 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US9390713B2 (en) * | 2013-09-10 | 2016-07-12 | GM Global Technology Operations LLC | Systems and methods for filtering sound in a defined space |
-
2014
- 2014-12-22 US US14/580,209 patent/US9747922B2/en active Active
- 2014-12-31 CN CN201410856673.7A patent/CN105810210B/zh active Active
-
2015
- 2015-09-09 KR KR1020150127576A patent/KR101704510B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020054683A1 (en) * | 2000-11-08 | 2002-05-09 | Jens Wildhagen | Noise reduction in a stereo receiver |
CN101816040A (zh) * | 2005-04-15 | 2010-08-25 | 弗劳恩霍夫应用研究促进协会 | 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法 |
CN101199121A (zh) * | 2005-06-17 | 2008-06-11 | Dts(英属维尔京群岛)有限公司 | 可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器 |
US20090248425A1 (en) * | 2008-03-31 | 2009-10-01 | Martin Vetterli | Audio wave field encoding |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739552A (zh) * | 2020-08-28 | 2020-10-02 | 南京芯驰半导体科技有限公司 | 一种麦克风阵列波束成形的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20160086602A1 (en) | 2016-03-24 |
KR101704510B1 (ko) | 2017-02-09 |
KR20160034192A (ko) | 2016-03-29 |
US9747922B2 (en) | 2017-08-29 |
CN105810210B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105810210A (zh) | 声音信号处理装置及其方法与配备有该装置的车辆 | |
CN105810203B (zh) | 消除噪声的设备和方法、声音识别设备和配备其的车辆 | |
KR102388992B1 (ko) | 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식 | |
US20140114665A1 (en) | Keyword voice activation in vehicles | |
JP2017032981A (ja) | 音声認識性能を向上させるためのアクティブノイズキャンセレーション装置及び方法 | |
US20200160861A1 (en) | Apparatus and method for processing voice commands of multiple talkers | |
DE102017116528A1 (de) | Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung | |
KR20170054794A (ko) | 자동차용 소음 제어장치 및 그 제어방법 | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
US20170213550A1 (en) | Adaptive dual collaborative kalman filtering for vehicular audio enhancement | |
CN102906811B (zh) | 用于调节包括扬声器和麦克风的语音识别系统的方法及语音识别系统 | |
DE112020007096T5 (de) | Systeme und verfahren zum bereitstellen eines personalisierten virtuellen persönlichen assistenten | |
CN104157288B (zh) | 用多个话筒的语音识别 | |
US7877252B2 (en) | Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra | |
CN111429905B (zh) | 语音信号处理方法、装置、语音智能电梯、介质和设备 | |
US9978399B2 (en) | Method and apparatus for tuning speech recognition systems to accommodate ambient noise | |
CN116259320A (zh) | 基于语音的车辆控制方法及装置、存储介质、电子装置 | |
JP2007079389A (ja) | 音声分析方法および音声分析装置 | |
CN112151058A (zh) | 一种声音信号的处理方法、装置及设备 | |
JP2019124976A (ja) | リコメンド装置、リコメンド方法、及びリコメンドプログラム | |
Martinek et al. | Hybrid In-Vehicle Background Noise Reduction for Robust Speech Recognition: The Possibilities of Next Generation 5G Data Networks. | |
DE102015207177A1 (de) | Verfahren und Vorrichtung für ein Spracherkennungstraining ausserhalb eines Fahrzeugs, einschliesslich einer Fahrzeugaktualisierung | |
CN108538307A (zh) | 用于为音频信号去除干扰的方法和设备以及语音控制设备 | |
Whittington et al. | Low-cost hardware speech enhancement for improved speech recognition in automotive environments | |
US20230197052A1 (en) | Information quantity-based reference sensor selection and active noise control using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |