CN109616134B - 多通道子带处理 - Google Patents

多通道子带处理 Download PDF

Info

Publication number
CN109616134B
CN109616134B CN201811166437.7A CN201811166437A CN109616134B CN 109616134 B CN109616134 B CN 109616134B CN 201811166437 A CN201811166437 A CN 201811166437A CN 109616134 B CN109616134 B CN 109616134B
Authority
CN
China
Prior art keywords
analysis
sub
module
modules
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811166437.7A
Other languages
English (en)
Other versions
CN109616134A (zh
Inventor
郑脊萌
游余立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoguang Electric Co Ltd
Original Assignee
Guoguang Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoguang Electric Co Ltd filed Critical Guoguang Electric Co Ltd
Publication of CN109616134A publication Critical patent/CN109616134A/zh
Application granted granted Critical
Publication of CN109616134B publication Critical patent/CN109616134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了多通道子带处理。除了其他之外提供了用于音频信号处理的系统、方法和技术。一个代表性实施例包括HT子带分析/分解模块,例如,一个用于每个音频通道,以及一个用于回声参考信号。每个HT子带分析/分解模块包括希尔伯特变换模块和分析/分解滤波器组,并提供子带输出。回声消除模块,例如每个音频通道一个回声消除模块,在这样的子带上执行回声消除处理。波束成形模块,例如每个子带一个波束成形模块,然后例如在所有音频通道上执行波束成形。最后,再合成级组合不同的子带输出以提供系统输出信号。

Description

多通道子带处理
发明领域
本发明尤其涉及用于音频信号处理的系统、方法和技术,并且例如涉及处理多个不同音频信号通道中的每一个内的多个不同频带的系统和技术,并且特别涉及试图使用这种处理将一个声音与可能存在的多个不同声音隔离的系统和技术。
背景
对于各种不同的目的存在各种不同的音频信号处理技术。一个这样的目的是从一个或多个输入音频通道中去除“回声”和周围干扰信号或“噪声”,以便隔离没有这些信号时会存在的声音。例如,由于智能扬声器设备(诸如Amazon EchoTM设备)变得流行,因此远场语音信号隔离和处理变得更加重要。这种设备通常包括一个或更多个麦克风,用于接收来自用户的口头输入。它们还包括一个或更多个扬声器(1)用于使用文本到语音(TTS)处理来响应用户和/或提供用户请求的信息,和/或(2)用于播放其他音频内容,诸如音乐。
在这样的情境中,通常希望识别用户在通过设备的扬声器播放这样的其他内容(例如,音乐或TTS)的同时和/或当其他周围声源产生干扰时正在说什么。然而,在设备的麦克风(即,通常使用多个麦克风)处接收的音频信号除了用户的语音之外通常还包含这种其他播放的音频内容的某种版本。
传统上,为了解决这个问题,这种系统的两个主要信号处理部件是回声消除和波束成形。当智能扬声器设备正在播放其他音频内容(例如,音乐、TTS响应等)时,回声消除(即,去除或至少减少由播放的内容产生的接收到的音频信号的部分)通常对于“关键词激活”(KA)和/或语音识别(ASR)的性能至关重要。使用子带(例如,频域)处理,回声消除(EC)的性能(包括收敛速率和稳态回声减少)已经提高到这样的程度,即它现在经常能够处理智能扬声器设备的最困难的情况——其中设备的扬声器正在大声播放而用户站得很远。波束成形(其依靠使用多个麦克风来实现可编程地有选择性的方向性)也可以显著改善KA和ASR性能,尤其是在房间混响和环境噪声存在的情况下。
图1中示出了示例性的传统系统10。如所示,多个麦克风12(例如,麦克风12A-C)输入相应的音频信号。然后使用相应的分析/分解模块14(例如,模块14A-C之一)将每个这样的音频信号(通常在模数转换之后,未示出)分解成单独的频带。参考信号15,通常是与通过设备的扬声器播放的内容相对应的数字信号,类似地使用分析/分解模块14(图1中的模块14D)分解成单独的频带。然后(来自给定麦克风的)每个这种分解的输入音频信号与分解的参考信号一起在单独的相应回声消除模块18(例如,模块18A-C之一)中被处理。接下来,对于子带中的每一个,单独的波束成形器模块20(例如,模块20A-C之一)处理对于来自所有回声消除模块18的该子带的输出。由相应的各个波束成形器模块20输出的各个频带然后由子带再合成模块24再合成,以提供最终输出信号25。
由各个麦克风12输入的信号在本文表示为xi(t),i=1,…,N,其中N是麦克风的数量。回声参考信号在本文表示为r(t)。xi(t)和r(t)都由子带分析/分解模块14处理,该处理通常包括D次下采样。分析/分解模块的输出在本文表示为
Figure GDA0002568442190000021
Figure GDA0002568442190000022
其中M是子带的数量。如上所指示,每个麦克风的回声消除是在单独的回声消除模块18(例如,模块18A-C之一)中独立完成的。每个这样的回声消除模块18又通常包括M个子带EC子模块(未示出)。这里将从回声消除模块18输出的EC信号表示为
Figure GDA0002568442190000023
m=1,…,M。在EC处理18之后,波束成形20独立地在每个子带中完成。也就是说,每个波束成形器模块20处理所有EC处理后的麦克风信号上的不同的子带。
每个子带的波束成形可以像在时域中一样进行,即滤波相加(filter-and-sum)。另一种选择是首先在每个子带中进行快速傅立叶变换(FFT)分析,然后在每个仓中进行波束成形,接着进行快速傅立叶逆变换(iFFT)处理,使得再次获得子带信号流。这里指定为zm(t),m=1,…,M的波束成形模块20的输出被输入到子带再合成模块24中,该子带再合成模块24生成这里指定为y(t)的系统的输出信号25。
发明概述
本发明人已经发现,子带分析/分解模块14内的下采样经常会在一些或所有子带中引入频率混叠。这种混叠会导致波束成形器20的显著性能降级,这是因为在重叠频率中,相位和幅度信息都受到干扰。
本发明通过除此之外提供一种新的子带分析/分解结构来解决这个问题,该结构可以减少频率混叠,通常具有适度的没有增加的计算复杂度。
因此,本发明的一个实施例针对包括HT子带分析/分解模块的音频信号处理系统,每个模块包括:(a)希尔伯特(Hilbert)变换模块,其具有输入端和提供对希尔伯特变换模块的输入端处的信号的希尔伯特变换版本的输出端;以及(b)分析/分解滤波器组,其具有(i)耦合到希尔伯特变换模块的输出端的输入端和(ii)多个输出端,每个输出端对于分析/分解滤波器组的输入端处提供的信号提供不同的频率子带。该系统还包括回声消除模块,每个模块具有(i)耦合到HT子带分析/分解模块中的不同一个HT子带分析/分解模块(adifferent one of the HT sub-band analysis/decomposition modules)的相应子带输出端的第一组子带输入端,(ii)耦合到HT子带分析/分解模块中的共同一个HT子带分析/分解模块的相应子带输出端的第二组子带输入端,以及(iii)提供回声消除处理之后的这种子带的输出端。对于多个波束成形模块中的每一个,这样的波束成形模块的输入端中的每一个耦合到来自不同回声消除模块的相同子带输出端,并且这种波束成形模块的输出端提供在波束成形之后的该子带。再合成级具有耦合到不同波束成形模块的不同子带输出的输入端,并且再合成这种不同子带输出以便提供系统输出信号。
另一个实施例针对包括两个HT子带分析/分解模块的音频信号处理系统,每个模块包括:(a)希尔伯特变换模块,其具有输入端和提供对希尔伯特变换模块的输入端处的信号的希尔伯特变换版本的输出端;以及(b)分析/分解滤波器组,其具有(i)耦合到希尔伯特变换模块的输出端的输入端和(ii)多个输出端,每个输出端对于分析/分解滤波器组的输入端处提供的信号提供不同的频率子带。HT子带分析/分解模块中的第一HT子带分析/分解模块输入(例如,来自麦克风的)音频信号,且第二HT子带分析/分解模块输入回声参考信号。回声消除模块包括:(i)耦合到第一HT子带分析/分解模块的子带输出端的第一组子带输入端,(ii)耦合到第二HT子带分析/分解模块的相应子带输出端的第二组子带输入端,以及(iii)提供在回声消除处理之后的这种子带的输出端。再合成级具有耦合到回声消除模块的不同子带输出的输入端,并且再合成这种不同子带输出以便提供系统输出信号。
前面的概述仅旨在提供本发明的某些方面的简要描述。通过结合附图参考权利要求和优选实施例的以下详细描述,可以获得对本发明的更完整的理解。
附图说明
在下面的公开中,参照附图描述本发明。然而,应当理解,附图仅描绘了本发明的某些代表性和/或示例性实施例和特征,并且不旨在以任何方式限制本发明的范围。以下是各附图的简要说明。
图1是现有技术中的基于传统多通道子带的音频信号处理系统的框图。
图2是根据本发明的代表性实施例的HT子带分析/分解模块的框图。
图3显示了希尔伯特变换模块的频率响应。
图4显示了由滤波器组产生的子带信号的频谱的简化版本。
图5显示了频移后子带信号的频谱的简化版本。
图6显示了下采样后子带信号的频谱的简化版本。
图7是根据本发明的系统的框图,该系统包括希尔伯特变换子带分析/分解模块。
图8是图7所示的系统的再合成级的框图。
图9显示了移位到中心频率0后的子带信号的频谱的简化版本。
图10是示出根据本发明的希尔伯特变换子带分析/分解模块的替代结构的框图。
图11是包括替代希尔伯特变换子带分析/分解模块的系统的框图。
优选实施例的描述
当下面的讨论参考或指示时域时,应当理解,这样的参考或指示可以包括连续时间或采样时间。例如,符号f(t)应该被解释为意为所指示的函数f在时域中,该时域可以是连续的或采样的时间。在一些情况下,对于所描述的实施例中的特定步骤、部件、操作或功能的当前偏好由上下文或由描述的其他部分指示。然而,并不意味着丧失一般性。也就是说,例如,即使当特定描述指示信号包括离散时间样本或处理对离散时间样本进行操作时,在替代实施例中,信号或处理(如适用)是连续时间,反之亦然。
图2示出了根据本发明的初始代表性实施例的HT子带分析/分解模块100的结构。子带分析/分解模块100可以代替图1中所示的分析/分解模块14,允许对系统10的其他部件进行改变,例如,如下面更详细讨论的。
最初,在希尔伯特变换模块105的输入线102上提供输入信号x(t),该模块对输入信号x(t)执行希尔伯特变换,并从而从输入信号中去除负频率分量。因此,希尔伯特变换模块105的输出
Figure GDA0002568442190000051
是复信号(具有实部和虚部或同相和正交分量)。图3显示了希尔伯特变换模块105的频率响应。
希尔伯特变换模块105的输出端耦合到分析/分解滤波器组110的输入端,其优选地包括一组M个单独的带通滤波器(例如,滤波器110A-C)。这种带通滤波器可以被实现为例如传统的正交镜像滤波器(QMF),如Dorling Kindersley在P.P.Vaidyanathan(1993)“Multirate Systems And Filter Banks”,ISBN-13:978-013605718中所述,具有连续的频率通带响应,即使用通常用于本目的的滤波器组。换句话说,模块105输出信号
Figure GDA0002568442190000052
(具有或不具有任何附加的中间处理)然后由分析/分解滤波器组110处理。优选地,相应的输出信号
Figure GDA0002568442190000053
仍处于与原始输入信号x(t)相同的采样率,在本文中表示为采样率R。在当前实施例中,子带信号
Figure GDA0002568442190000061
的频谱在图4中概念性地示出(例如,具有简化的滚降)。优选地,所有M个子带(即,各个带通滤波器的带)具有相同的频率宽度。如图4所示,每个子带泄漏到其两个相邻带中,这是上面发明概述部分中提到的频率混叠的根本原因,并且会例如在波束成形时产生问题。
分析/分解滤波器组110的每个输出端(即,每个
Figure GDA0002568442190000062
)耦合到频移模块112(例如,模块112A-C之一)的输入端,该频移模块112移位相应的信号
Figure GDA0002568442190000063
使得其中心频率为π/M。更优选地,每个这样的模块112实现
Figure GDA0002568442190000064
其中,
Figure GDA0002568442190000065
是模块112的输出,f0=π/M是新的中心频率,并且fm=(2m-1)π/2M,m=1,…,M是原始中心频率。因此,
Figure GDA0002568442190000066
的频谱现在如图5中所示(同样,以简化形式)。
每个频移模块112的输出端耦合到下采样模块114的输入端,该下采样模块114优选地执行M/2下采样(例如,使用抽取、平均或任何其他常规技术),从而提供输出信号
Figure GDA0002568442190000067
这种输出信号
Figure GDA0002568442190000068
的频谱在图6中示出(同样,以简化形式)。为简单起见,以下讨论有时将输出信号
Figure GDA0002568442190000069
称为um(t)。也就是说,
Figure GDA00025684421900000610
图7中示出了包括这种希尔伯特变换子带分析/分解模块100(例如,模块100A-D)的系统200。如所示,来自多个麦克风12(例如,麦克风12A-C)中的每一个的音频信号耦合到不同的希尔伯特变换子带分析/分解模块100(例如,模块100A-C中的一个)的输入线102(例如,输入线102A-C中的相应一个)。另外,希尔伯特变换子带分析/分解模块100之一(在本示例中的模块100D)的输入线102D耦合到回声参考信号15,该回声参考信号15优选地表示或至少对应于由系统200也是其一部分的设备的扬声器输出的音频信号。
每个回声消除模块218(例如,模块218A-C之一)的第一组输入端耦合到麦克风-信号-处理希尔伯特变换子带分析/分解模块100(例如,模块100A-C之一)的输出端。也就是说,每个这样的回声消除模块218优选地输入来自麦克风12中的不同一个麦克风的子带信号(在这种希尔伯特变换子带分析/分解之后,以及可选地,任何其它期望的处理之后)。另外,每个这种回声消除模块218的第二组输入端耦合到共同希尔伯特变换子带分析/分解模块(例如处理回声参考信号15的模块100D)的输出端。
如图6所示,模块100A-D输出的信号um(t)不包含负频率分量。因此,当这些信号在模块218中被EC处理时,负频率响应可以被忽略。因此,每个这样的模块218的EC传递函数优选地仅使用实数来实现。否则,由模块218执行的回声消除可以实现为例如在共同转让的美国专利申请序列号15/704,235中所讨论的,该申请通过引用并入本文如同在本文中完整阐述一样,或者使用传统的EC方法实现。
EC模块218的子带输出端耦合到波束成形器模块220(例如,模块220A-C)的输入端,其中所有EC模块218上的相同子带被输入到相同的波束成形器模块220,例如,每个波束成形器模块220处理从所有EC模块218接收的特定子带,并且所有波束成形器模块220共同处理所有对应的子带。例如,波束成形器模块220A可以处理来自所有EC模块218的子带1输出,而波束成形器模块220B处理来自所有EC模块218的子带2输出,并且波束成形器模块220C处理来自所有EC模块218的子带3输出。在波束成形器模块220中,如同在EC模块218中一样,波束成形优选地仅在正频率范围中执行。否则,可以使用任何常规波束成形技术。目前优选的技术是最小方差无失真响应(MVDR)波束成形器,如Van Tree,H.L.在2002年出版的“Optimum Array Processing”(纽约Wiley出版社)中所述。如果波束成形被执行为滤波相加,则通过仅使用实值滤波器系数就可以实现节约。另一方面,例如,如果用FFT实现波束成形,则可以通过仅在仓的下半部分中进行波束成形处理来实现节约。在本讨论中,波束成形模块220的输出信号被指定为vm(t),m=1,…,M。
由于上面讨论的先前的M/2下采样114,优选地在再合成级222中进行特别注意,该级222包括单独的子带再合成模块(例如,模块224A-C)和加法器225。图8中更详细地示出了再合成级222的示例性实施例。当前讨论主要指的只是其中一个再合成模块,模块224A。然而,为了应用于M个再合成模块(例如,模块224A-C)中的任一个,处理相应的M个子带中的任一个,也对讨论进行了概括(例如,通过参考子带m)。
最初,在移频器231中,输入信号vm(t)被移位到中心频率0,例如:
Figure GDA0002568442190000081
其中,
Figure GDA0002568442190000082
是移频器231的输出。这种移位操作几乎不涉及计算成本,并且
Figure GDA0002568442190000083
的频谱现在如图9所示。
移频器231的输出端耦合到上采样器232的输入端,其中
Figure GDA0002568442190000088
优选地通过与先前执行的下采样相同的因子(即,在当前实施例中的M/2)、例如通过插入零来进行上采样。上采样器232的输出端又耦合到低通滤波器(LPF)233的输入端,该低通滤波器233具有高于原始信号的频谱但低于M/2个图像的频谱的截止频率,从而滤出这些M/2个图像。LPF 233的系数优选地是完全实值的,并且其过渡带优选地在(π/M,3π/M)的范围内。因此,如果LPF 233被实现为有限脉冲响应(FIR)滤波器,则它可以比对于滤波器组的原型滤波器短得多。
LPF 233的输出端耦合到移频器234的输入端,其中由当前子带再合成模块(在当前示例中的模块224A)处理的子带信号被移位回其原始中心频率,例如:
Figure GDA0002568442190000084
其中,
Figure GDA0002568442190000085
是移频器234的输出。接下来,在模块235中,丢弃
Figure GDA0002568442190000086
的虚(或正交)部分,并且仅保留信号的实(或同相)部分。也就是说,模块235的输出优选地是:
Figure GDA0002568442190000087
模块235的输出端耦合到可实现为常规再合成滤波器的再合成滤波器236的输入端。例如,再合成滤波器236可以是QMF。最后,如上所指示,来自所有子带再合成模块(例如,模块224A-C)的再合成滤波器236的输出端耦合到加法器225的输入端,该加法器225对其输入信号求和或组合以产生最终输出信号250(y(t))。
如上所指示,在本发明的某些实施例中,希尔伯特变换模块105的使用通常可以提供优于传统系统的显著处理优势。希尔伯特变换可以实现为FIR或无限脉冲响应(IIR)滤波器。如果它被实现为FIR,那么它的脉冲响应函数的实部只是一个δ函数(即单个标记)。因此,尽管希尔伯特变换将实信号转换成复信号,但是就本实施方式而言,它可以像具有相同或甚至一半的滤波器长度的实到实FIR滤波器一样计算复杂。
在实际的滤波器组设计中,下采样经常被结合到分析/分解滤波中,从而消除了单独的步骤,并允许分析/分解滤波器以低得多的数据速率运行(并且因此,计算复杂度低得多),同时产生完全相同的输出数据流。另外,为了最大化优势,本发明的替代实施例包括对上述的频移模块112的修改,以替代地执行每M/2个样本的乘法,即:
Figure GDA0002568442190000091
Figure GDA0002568442190000092
Figure GDA0002568442190000093
Figure GDA0002568442190000094
Figure GDA0002568442190000095
因此,如上所述的HT子带分析/分解模块100可以重构为图10中所示的模块100’。如应当容易变得明显的,模块100’通常将比模块100快得多。因此,在更优选的实施例中,如图11所示,用模块100’(例如,模块100A-D’)替换图7中所示并在与其相关的讨论中引用的模块100。否则,系统200’与系统200相同。
简而言之,如图10所示,类似于模块100,模块100’也包括希尔伯特变换模块105(如上所述),其输入端耦合到输入信号(x(t))。模块105的实(或同相)和虚(或正交)输出端耦合到单独的分析和M/2下采样滤波器组310,该滤波器组310优选被实现为例如传统的分析/分解/下采样滤波器组,其中下采样例如使用QMF与滤波同时执行。滤波器组310的输出端然后耦合到频移模块312的输入端,该频移模块312将(时间采样
Figure GDA0002568442190000101
处)每个子采样复值输入乘以量
Figure GDA0002568442190000102
从而提供模块100’的子采样频移输出信号
Figure GDA0002568442190000103
图7和图11中所示的实施例输入来自多个麦克风12的音频信号。然而,应当注意的是,在替代实施例中,仅使用单个麦克风12,在这种情况下,仅提供单个麦克风HT子带分析/分解模块100或100’(连同用于回声参考信号15的另一个HT子带分析/分解模块100或100’)。类似地,在这样的实施例中,仅提供单个回声消除模块218,并且其输出端耦合到再合成级222,而没有任何介入波束成形模块220。
系统环境
一般来说,除非另有明确指示,否则本文所描述的所有系统、方法、模块、部件、功能和技术可使用一个或更多个可编程通用计算设备来实践。这种设备(例如,包括本文提到的任何电子设备)通常将包括例如经由公共总线彼此耦合的至少一些以下部件:(1)一个或更多个中央处理单元(CPU);(2)只读存储器(ROM);(3)随机存取存储器(RAM);(4)其他集成或附加存储设备;(5)用于与其他设备以接口方式连接的输入/输出软件和电路(例如,使用硬连线连接,诸如串行端口、并行端口、USB连接或火线连接,或者使用无线协议,诸如射频识别(RFID)、任何其他近场通信(NFC)协议、蓝牙或802.11协议);(6)用于连接到一个或更多个网络的软件和电路,例如使用硬连线连接,诸如以太网卡或无线协议,诸如码分多址(CDMA)、全球移动通信系统(GSM)、蓝牙、802.11协议或任何其他基于蜂窝或非基于蜂窝的系统,这些网络在本发明的许多实施例中又连接到因特网或任何其他网络;(7)显示器(诸如阴极射线管显示器、液晶显示器、有机发光显示器、聚合物发光显示器或任何其他薄膜显示器);(8)其他输出设备(诸如一个或更多个扬声器、耳机、激光器或其他光投影仪和/或打印机);(9)一个或更多个输入设备(诸如鼠标、一个或更多个物理开关或可变控制器、触摸板、平板电脑、触敏显示器或其他定点设备、键盘、小键盘、麦克风和/或照相机或扫描仪);(10)大容量存储单元(诸如硬盘驱动器或固态驱动器);(11)实时时钟;(12)可移动存储读/写设备(例如闪存驱动器、利用半导体存储器的任何其他便携式驱动器、磁盘、磁带、光磁盘、光盘等);和/或(13)调制解调器(例如,用于发送传真或用于连接到因特网或任何其他计算机网络)。在操作中,在由这种通用计算机执行的程度上,实现以上方法和功能的处理步骤通常最初存储在大容量存储器(例如,硬盘或固态驱动器)中,下载到RAM中,然后由CPU从RAM执行。然而,在一些情况下,处理步骤最初存储在RAM或ROM中和/或直接从大容量存储器执行。
用于实现本发明的合适的通用可编程设备可以从各种供应商处获得。在各种实施例中,根据任务的大小和复杂性使用不同类型的设备。这样的设备可以包括例如大型计算机、多处理器计算机、一个或更多个服务器盒、工作站、个人(例如台式、膝上型、平板或平板式)计算机和/或甚至更小的计算机,诸如个人数字助理(PDA)、无线电话(例如智能手机)或任何其他可编程器件或设备,无论是独立的、硬连线到网络还是无线连接到网络。
此外,尽管通用可编程设备可用于上述系统中,但在可选实施例中,替代地(或附加地)使用一个或更多个专用处理器或计算机。一般来说,应当注意,除非另有明确说明,否则上述任何功能可以由执行软件和/或固件的通用处理器、由专用(例如,基于逻辑的)硬件或这些方法的任何组合来实现,其中特定实现是基于已知的工程折衷来选择的。更具体地,在以固定、预定和/或逻辑方式实现上述任何过程和/或功能的情况下,可以通过执行编程的处理器(例如,软件或固件)、逻辑部件(硬件)的适当布置、或两者的任意组合来实现,这是本领域技术人员容易认识到的。换句话说,如何将逻辑和/或算术运算转换成用于在处理器内执行这种运算的指令和/或转换成用于执行这种运算的逻辑门配置是众所周知的;事实上,编译器通常可用于这两种转换。
应当理解,本发明还涉及机器可读的有形(或非暂时性)介质,在该介质上存储有用于执行方法和功能和/或用于执行本发明的模块和部件的软件或固件程序指令(即,计算机可执行处理指令)。这种介质例如包括磁盘、磁带、光学可读介质(诸如CD和DVD),或者半导体存储器(诸如各种类型的存储卡、USB闪存设备、固态驱动器等)。在每种情况下,介质可以采取便携式物品的形式,诸如微型磁盘驱动器或小磁盘、软盘、盒式磁带、卡盘、卡、棒等,或者它可以采取相对较大或移动较少的物品的形式,诸如提供在计算机或其他设备中的硬盘驱动器、ROM或RAM。如本文所使用的,除非另外明确指出,对存储在计算机可读或机器可读介质上的计算机可执行处理步骤的引用旨在包括这样的处理步骤存储在单个介质上的情况,以及这样的处理步骤存储在多个介质上的情况。
前述描述主要强调电子计算机和设备。然而,应当理解,可以使用任何其他计算或其他类型的设备,诸如利用能够执行基本逻辑和/或算术运算的电子、光学、生物和化学处理的任何组合的设备。
此外,在本公开涉及处理器、计算机、服务器、服务器设备、计算机可读介质或其他存储设备、客户端设备或任何其他类型的装置或设备的情况下,这些引用应当被理解为包括多个这样的处理器、计算机、服务器、服务器设备、计算机可读介质或其他存储设备、客户端设备或任何其他这样的装置或设备的使用,除非另有明确指示。例如,服务器通常可以(并且通常将)使用单个设备或服务器设备集群(本地或地理上分散的)来实现,例如具有适当的负载平衡。类似地,服务器设备和客户端设备通常将协作执行完整方法的处理步骤,例如,每个这样的设备具有存储这样的处理步骤的一部分的它自己的存储设备和执行这些处理步骤的它自己的处理器。
附加考虑事项
如本文所使用的,术语“耦合”或该词的任何其它形式旨在表示直接连接或通过一个或多个其它元件或处理块连接,例如用于预处理的目的。在附图和/或它们的讨论中,在各个步骤、模块或处理块被示出和/或讨论为彼此直接连接的情况下,这样的连接应当被理解为耦合,其可以包括附加步骤、模块、元件和/或处理块。除非本文另有相反的明确和具体说明,本文中对信号的引用是指信号的任何处理过的或未处理过的版本。也就是说,本文讨论和/或要求保护的具体处理步骤不是排他性的;相反,可以在本文明确讨论或要求保护的任何两个处理步骤之间执行中间处理。
如本文所用,术语“附接”或该词的任何其它形式,在没有进一步修改的情况下,旨在表示直接附接、通过一个或更多个其它中间元件或部件附接、或整体形成在一起。在附图和/或讨论中,在两个单独的部件或元件被示出和/或讨论为彼此直接附接的情况下,这样的附接应当被理解为仅仅是示例性的,并且在可选实施例中,该附接替代地可以包括在这两个部件之间的附加部件或元件。类似地,在本文讨论和/或要求保护的方法步骤并不是排他性的;相反,中间步骤可以在本文明确讨论或要求保护的任何两个步骤之间执行。
在前面的讨论中,术语“操作者”、“操作”、“功能”和类似的术语指代方法步骤或硬件部件,这取决于具体的实现/实施例。
一方面在本文或附图中明确阐述的公开与另一方面通过引用并入本文的任何材料之间发生任何冲突或不一致之处,本公开应优先。在通过引用并入本文的任何申请或专利的公开之间发生任何冲突或不一致的情况下,具有最新添加或改变的公开应优先。
除非明确相反指出,诸如“最优”、“优化”、“最大化”、“最小化”、“最佳”的词语以及类似词语和其他表示比较的单词和后缀在上述讨论中没有使用为其绝对意义。相反,这些术语通常旨在通过任何其他潜在的约束(例如用户指定的约束和目标以及成本和处理限制)来理解。
在以上讨论中,通过将某些过程和/或方法分解成以特定顺序列出的功能或步骤来解释它们。然而,应当注意,在每种这样的情况下,除了清楚地相反地指示或由实际考虑所要求的程度(例如,在一个功能或步骤的结果是执行另一个所必需的情况下),指示的顺序不是关键的,而是所描述的功能和步骤可以被重新排序和/或两个或更多个这样的步骤可以同时执行。
本文中对旨在触发、限制、过滤或以其他方式影响处理步骤、其他动作、处理步骤或动作的主题或任何其他活动或数据的“标准”、“多个标准”、“条件(condition)”、“多个条件(conditions)”或类似词语旨在指“一个或更多个”,而不管是使用单数还是复数形式。例如,任何标准或条件可以包括动作、事件和/或出现(即多部分标准或条件)的任何组合(例如布尔组合)。
类似地,在上面的讨论中,功能有时归因于特定的模块或部件。然而,功能通常可以根据需要在任何不同的模块或部件之间重新分发,在一些情况下完全避免对特定部件或模块的需要和/或需要添加新的部件或模块。如本领域技术人员将理解的,参考本发明的具体实施方式,功能的精确分布优选地根据已知的工程折衷来进行。
在上述讨论中,词语“包括(include)”,“包括(includes)”,“包括(including)”及该词语的所有其它形式不应该被理解为限制,而应该将这些单词之后的任何具体项理解为仅仅是示范性的。
本发明的几个不同实施例在上面且在通过引入并入本文的文件中进行描述,每个这样的实施例被描述为包括某些特征。然而,旨在结合任何单个实施方式的讨论描述的特征不限于该实施方式,而是可以被包括和/或布置在任何其它实施方式中的各种组合中,如将由本领域技术人员理解的。
因此,虽然本发明已经关于其示例性实施例和附图被详细描述,但是对于本领域技术人员明显的是,在不脱离本发明的目的和范围的情况下,可以实现本发明的各种适应和修改。因此,本发明不限于附图所示和上述的精确实施方式。相反,意图是不偏离本发明的目的的所有这样的变化被认为是落入其仅由所附权利要求书限定的范围内。

Claims (16)

1.一种音频信号处理系统,包括:
多个希尔伯特变换(HT)子带分析/分解模块,每个希尔伯特变换子带分析/分解模块包括:
(a)希尔伯特变换模块,其具有输入端和输出端,所述输出端提供所述希尔伯特变换模块的所述输入端处的信号的希尔伯特变换版本;和
(b)分析/分解滤波器组,其具有(i)输入端,其耦合到所述希尔伯特变换模块的输出端,和(ii)多个输出端,所述多个输出端中的每个输出端对于在所述分析/分解滤波器组的所述输入端处提供的信号提供不同的频率子带;以及
多个回声消除模块,每个回声消除模块具有(i)耦合到所述多个希尔伯特变换子带分析/分解模块中的唯一希尔伯特变换子带分析/分解模块的相应子带输出端的第一组子带输入端,(ii)耦合到所述多个希尔伯特变换子带分析/分解模块中的一个希尔伯特变换HT子带分析/分解模块的相应子带输出端的第二组子带输入端,所述一个希尔伯特变换子带分析/分解模块对所述多个回声消除模块是共同的,以及(iii)使用所述第二组子带输入端作为参考信号,在所述第一组子带输入端上执行回声消除处理得到的子带输出端;
多个波束成形模块,每个波束成形模块具有输出端和多个输入端,其中对于每个所述波束成形模块,所述波束成形模块的输入端耦合到来自所述多个回声消除模块中的不同回声消除模块的子带输出端中的相同子带输出端,并且所述波束成形模块的输出端提供波束成形之后的所述子带中的相同子带;和
再合成级,其具有耦合到不同波束成形模块的不同子带输出的输入端,并且再合成所述不同波束成形模块的所述不同子带输出以便提供系统输出信号。
2.根据权利要求1所述的音频信号处理系统,其中,所述再合成级包括(i)多个子带再合成模块,每个子带再合成模块具有输出端和耦合到所述波束成形模块中的不同波束成形模块的输出端的输入端,以及(ii)加法器,其具有耦合到所述多个子带再合成模块的输出端的输入端和耦合到所述再合成级的输出端的输出端。
3.根据权利要求2所述的音频信号处理系统,其中,所述子带再合成模块的每一个包括将当前子带移位到中心频率0的第一移频器、接着是上采样器、接着是低通滤波器、接着是将基带信号移位回到所述当前子带的原始中心频率的第二移频器、接着是再合成滤波器。
4.根据权利要求3所述的音频信号处理系统,其中,只有由所述第二移频器输出的信号的同相部分耦合到所述再合成滤波器。
5.根据权利要求1所述的音频信号处理系统,其中,所述多个希尔伯特变换子带分析/分解模块还将各个子带移位到不同的中心频率并执行下采样。
6.根据权利要求5所述的音频信号处理系统,其中,所述下采样以M/2的因子进行,其中M是由所述分析/分解滤波器组提供的不同子带的总数。
7.根据权利要求5所述的音频信号处理系统,其中,所述不同的中心频率是在所有的所述多个希尔伯特变换子带分析/分解模块上的公共频率。
8.根据权利要求7所述的音频信号处理系统,其中,所述公共频率是π/M。
9.根据权利要求1至8中的任一项所述的音频信号处理系统,还包括耦合到所述多个希尔伯特变换子带分析/分解模块的输入端的多个麦克风。
10.根据权利要求9所述的音频信号处理系统,还包括耦合到所述多个希尔伯特变换子带分析/分解模块中的共同的所述一个希尔伯特变换子带分析/分解模块的输入端的回声参考信号。
11.根据权利要求1至8中的任一项所述的音频信号处理系统,其中,所述希尔伯特变换模块提供耦合到所述分析/分解滤波器组的同相输出信号和耦合到第二分析/分解滤波器组的正交输出信号。
12.根据权利要求11所述的音频信号处理系统,其中,所述分析/分解滤波器组和所述第二分析/分解滤波器组同时执行滤波和下采样。
13.根据权利要求12所述的音频信号处理系统,其中,所述下采样以M/2的因子执行,其中M是由所述分析/分解滤波器组和所述第二分析/分解滤波器组提供的不同子带的总数。
14.根据权利要求13所述的音频信号处理系统,其中,所述分析/分解滤波器组和所述第二分析/分解滤波器组的输出端耦合到频移模块。
15.根据权利要求14所述的音频信号处理系统,其中,所述频移模块将所述子带移位到公共中心频率。
16.根据权利要求14所述的音频信号处理系统,其中,所述频移模块将每个子带m内的时间采样
Figure FDA0002568442180000031
处的复值输入值乘以
Figure FDA0002568442180000032
Figure FDA0002568442180000033
的因子。
CN201811166437.7A 2017-10-04 2018-10-08 多通道子带处理 Active CN109616134B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/725,217 US10325583B2 (en) 2017-10-04 2017-10-04 Multichannel sub-band audio-signal processing using beamforming and echo cancellation
US15/725,217 2017-10-04

Publications (2)

Publication Number Publication Date
CN109616134A CN109616134A (zh) 2019-04-12
CN109616134B true CN109616134B (zh) 2020-11-03

Family

ID=65896181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811166437.7A Active CN109616134B (zh) 2017-10-04 2018-10-08 多通道子带处理

Country Status (2)

Country Link
US (1) US10325583B2 (zh)
CN (1) CN109616134B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
JP7137694B2 (ja) * 2018-09-12 2022-09-14 シェンチェン ショックス カンパニー リミテッド 複数の音響電気変換器を有する信号処理装置
CN110907933B (zh) * 2019-11-26 2022-12-27 西安空间无线电技术研究所 一种基于分布式的综合孔径相关处理系统及方法
CN111615035B (zh) * 2020-05-22 2021-05-14 歌尔科技有限公司 一种波束形成方法、装置、设备和存储介质
CN111726464B (zh) * 2020-06-29 2021-04-20 珠海全志科技股份有限公司 一种多通道回声滤除方法、滤除装置和可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602007003220D1 (de) * 2007-08-13 2009-12-24 Harman Becker Automotive Sys Rauschverringerung mittels Kombination aus Strahlformung und Nachfilterung
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
TWI559679B (zh) * 2009-02-18 2016-11-21 杜比國際公司 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
US9794688B2 (en) * 2015-10-30 2017-10-17 Guoguang Electric Company Limited Addition of virtual bass in the frequency domain

Also Published As

Publication number Publication date
US20190103088A1 (en) 2019-04-04
US10325583B2 (en) 2019-06-18
CN109616134A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109616134B (zh) 多通道子带处理
US9794688B2 (en) Addition of virtual bass in the frequency domain
EP1879293B1 (en) Partitioned fast convolution in the time and frequency domain
US10405094B2 (en) Addition of virtual bass
EP3591993B1 (en) Addition of virtual bass
CN102576537B (zh) 用于处理音频信号的方法和装置
US10504530B2 (en) Switching between transforms
US11956608B2 (en) System and method for adjusting audio parameters for a user
CN109451398B (zh) 声反馈消除设备、声反馈消除方法、音频处理系统
EP1879292B1 (en) Partitioned fast convolution
CN109509481B (zh) 音频信号回声降低
CN110875055A (zh) 具有过冲抑制的多频带音频信号动态范围压缩
US9036752B2 (en) Low-delay filtering
Sayoud et al. A new speech enhancement adaptive algorithm based on fullband–subband MSE switching
Lüke et al. In-car communication
Dam et al. Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments
US10893362B2 (en) Addition of virtual bass
Agrawal et al. Monaural speech separation using WT-Conv-TasNet for hearing aids
Reddy et al. Phoneme and Phone Pre-processing Using CLIR Techniques
Colelough et al. Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning
CN116940980A (zh) 声学噪声消除的复杂度降低的实现
CN116959398A (zh) 降噪系数生成方法、装置、电子设备和计算机可读介质
Duplessis-Beaulieu Fast convolutive blind speech separation via subband adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant