CN114550734A - 音频增强方法和装置、计算机存储介质 - Google Patents
音频增强方法和装置、计算机存储介质 Download PDFInfo
- Publication number
- CN114550734A CN114550734A CN202210199889.5A CN202210199889A CN114550734A CN 114550734 A CN114550734 A CN 114550734A CN 202210199889 A CN202210199889 A CN 202210199889A CN 114550734 A CN114550734 A CN 114550734A
- Authority
- CN
- China
- Prior art keywords
- signal
- update interval
- audio
- blocking matrix
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 230000000903 blocking effect Effects 0.000 claims abstract description 30
- 230000003044 adaptive effect Effects 0.000 claims abstract description 12
- 230000003111 delayed effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 11
- 238000012886 linear function Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 210000005069 ears Anatomy 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/43—Electronic input selection or mixing based on input signal analysis, e.g. mixing or selection between microphone and telecoil or between microphones with different directivity characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/25—Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频增强方法和装置、计算机存储介质。所述方法包括:由麦克风阵列生成一组音频采集信号;对该组音频采集信号进行延迟求和处理,以生成延迟求和信号;对该组音频采集信号进行阻塞矩阵处理,以生成阻塞矩阵信号;利用自适应滤波矩阵对所述阻塞矩阵信号进行滤波处理,并将经滤波的阻塞矩阵信号从所述延迟求和信号中移除,以得到经增强的音频输出信号。所述自适应滤波矩阵是基于至少一个衰减函数,并且所述至少一个衰减函数中的每一个以对应的预定更新间隔T更新。
Description
技术领域
本申请涉及一种波束形成技术,更具体地,涉及一种音频增强方法和装置、计算机存储介质。
背景技术
波束形成算法常常应用于耳机、助听器和音箱等音频设备,其基本原理是通过两个或多个麦克风拾取声音,并计算同一个声音到达不同麦克风的时间,以此来确定声音的来源。在后续过程中可以通过算法来保留或者消除某个方向来的声音。例如,带有环境降噪功能的蓝牙无线耳机可以将两个麦克风配置成上下摆放,使得人的嘴巴大致处于两个麦克风连接的直线上。以这种方式来拾取佩戴者说话的声音可以有利于消除环境噪音,从而提高通话时的音质。目前市面上的助听器上一般配有两个麦克风,两个麦克风可以前后摆放,从而可以通过波束形成算法实现对于前方声音(相对于佩戴者的朝向而言,下同)的提取和对于后方声音的消除,这样佩戴者在谈话中能够更好地专注于前面的声音。
但是典型的波束形成算法仅能对于设置的某一个方向的声音进行保留,对于其他方向的声音会全部削减。这对于诸如在助听器上想要通过两个或多个麦克风模拟人耳的收声效果之类的应用场景是不合适的。因此,有必要提供一种改进的波束形成算法。
发明内容
本申请的一个目的在于提供一种音频增强方法和装置、计算机存储介质,以解决波束形成算法对于非目标方向上的声音过抑制的问题。
在本申请的一个方面,提供了一种音频增强方法,所述方法包括:由麦克风阵列生成一组音频采集信号,其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的,并且所述麦克风阵列中的每个麦克风相互间隔开;对该组音频采集信号进行延迟求和处理,以生成延迟求和信号YDSB(k,l),其中k表示频率窗口(frequencybin),而l表示帧指数;对该组音频采集信号进行阻塞矩阵处理,以生成阻塞矩阵信号YBM(k,l);利用自适应滤波矩阵WANC对所述阻塞矩阵信号YBM(k,l)进行滤波处理,并将经滤波的阻塞矩阵信号从所述延迟求和信号YDSB(k,l)中移除,以得到经增强的音频输出信号YOUT(k,l);其中,所述自适应滤波矩阵WANC是基于至少一个衰减函数μ(t),随所述音频输出信号YOUT(k,l)和所述阻塞矩阵信号YBM(k,l)变化的权重系数矩阵,并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
在一些实施例中,可选地,所述麦克风阵列包括位于同一音频处理装置上的至少两个麦克风。
在一些实施例中,可选地,所述音频处理装置适于佩戴于人耳廓内。
在一些实施例中,可选地,所述至少两个麦克风中的一个被定向为朝向耳廓,而所述至少两个麦克风中的另一个被定向为远离耳廓。
在一些实施例中,可选地,所述至少一个衰减函数包括第一衰减函数和第二衰减函数,所述第一衰减函数以第一预定更新间隔更新,所述第二衰减函数以第二预定更新间隔更新;其中,所述第一衰减函数对应于大于或者等于预定频率阈值的高频信号;而所述第二衰减函数对应于小于预定频率阈值的低频信号,并且所述第一预定更新间隔短于所述第二预定更新间隔。
在一些实施例中,可选地,所述衰减函数μ(t)中的每一个在当前更新间隔内基于其于第一个更新间隔内取值进行更新。
在一些实施例中,可选地,所述衰减函数μ(t)中的每一个在所述当前更新间隔内的各点是基于其于第一个更新间隔内相应的一点的取值赋予0~1之间的变化权重而进行更新的。
在一些实施例中,可选地,所述权重在所述当前更新间隔内是关于时间的线性函数。
在一些实施例中,可选地,所述权重在所述当前更新间隔内是关于时间的线性递增函数。
在一些实施例中,可选地,所述权重在所述当前更新间隔内是关于时间的非线性函数。
在一些实施例中,可选地,所述衰减函数μ(t)中的每一个在所述当前更新间隔内还基于其于上一个更新间隔末的取值进行更新。
在本申请的另一方面,还提供了一种音频增强装置,所述装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。
在一些实施例中,可选地,所述音频增强装置可以为助听器设备。
在本申请的又一方面,还提供了一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。
以上为本申请的概述,可能有简化、概括和省略细节的情况,因此本领域的技术人员应该认识到,该部分仅是示例说明性的,而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征,也非旨在用作为确定所要求保护主题的范围的辅助手段。
附图说明
通过下面说明书和所附的权利要求书并与附图结合,将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。
图1示出了根据一个示例的波束形成算法的示意图;
图2示出了根据一个示例的波束形成算法的示意图;
图3示出了根据本申请的一个实施例的波束形成算法的示意图;
图4示出了根据本申请的一个实施例的音频增强方法;
图5示出了根据本申请的一个实施例的波束形成算法的示意图;
图6示出了根据本申请的一个实施例的波束形成算法的示意图;
图7示出了根据本申请的一个实施例的波束形成算法的效果的示意图;
图8示出了根据本申请的一个实施例的波束形成算法的效果的示意图;
图9示出了根据本申请的一个实施例的波束形成算法的效果的示意图。
在详细解释本发明的任何实施例之前,应该理解,本发明的应用不限于在下面的描述中阐述的或在以下附图中示出的构造的细节和部件的布置。本发明能够具有其他实施例并且能够以各种方式实践或实施。而且,应该理解,这里使用的措辞和术语是为了描述的目的,不应被认为是限制性的。
具体实施方式
在下面的详细描述中,参考了构成其一部分的附图。在附图中,类似的符号通常表示类似的组成部分,除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下,可以采用其他实施方式,并且可以做出其他变化。可以理解,可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合、设计,而所有这些都明确地构成本申请内容的一部分。
图1和图2示出了根据一些示例的波束形成算法。如图1所示,声源101发出的声音可以为诸如助听器的麦克风102-1和麦克风102-2所拾取。麦克风102-1和麦克风102-2可以设置在助听器的佩戴者103的左右两侧(例如,设置在两侧耳廓内),二者之间的距离可以为定值d。例如,距离d可以取决于佩戴者103的两耳间距离。佩戴者103以图示的角度0°面向图1中的上方(即佩戴者的前方)。声源101位于佩戴者103左前方,与佩戴者103视野的中线成角度θ。由于声源101与佩戴者103(及其两耳)的距离远超过两耳之间的距离,因而可以认为声源101相对于麦克风102-1和麦克风102-2而言都近似成图示的角度θ。由几何关系可知,假设声音在空气中传播的速度为v,麦克风102-1接收到的信号为y1(t),那么麦克风102-2接收到的信号y2(t)=y1(t-τ),其中τ=(d*sin(θ))/v。
分别为麦克风102-1和麦克风102-2接收到的声音信号进行短时傅里叶变换,假设y1(t)的变换结果为Y1(k,l),y2(t)的变换结果为Y2(k,l),其中k表示频率窗口(frequencybin),l表示帧指数(frame index),那么Y1(k,l)与Y2(k,l)满足如下关系:Y2(k,l)=Y1(k,l)*e-jωτ。
转至图2,其中延迟波束形成器201和阻塞矩阵202分别接收来自麦克风102-1和麦克风102-2的信号并对其进行处理。在一些方案中,经延迟波束形成器201处理得到的信号YDSB例如可以满足经阻塞矩阵202处理得到的信号YBM例如可以满足YBM=Y1(k,l)-Y2(k,l)ejωτ。参数可调的最小均方自适应滤波器(LMS滤波器)203将对YBM作进一步处理,并将处理后的结果发送到求和单元204,从求和单元204输出的信号YGSC(k,l)满足其中WANC(k,l)是LMS滤波器203的迭代系数,*表示共轭。
进一步地,WANC(k,l)满足下面的关系:
Pest(k,l)=αPest(k,l-1)+(1-α)(|YBM(k,l)|2+|YGSC(k,l)|2) (2)
若助听器包括M个麦克风用于采集声音信号,则等式(2)可以表示为:
在上述等式(2)和(2’)中,α为遗忘因子。如所理解的,遗忘因子α的引入可以强调新数据提供的信息量并且逐渐削减较早数据的影响,防止数据饱和。
但是,正如前述,上述的波束形成算法仅能对于预先设置的某一个方向的声音进行保留,对于其他方向的声音则会全部削减。例如,返回图1,如果设定的保留方向是90°,那么这种算法对于90°方向的声音将几乎全部保留,但是对于0°方向的信号几乎全部消除了,并且0°方向至90°方向之间的声音也会视角度不同而有所衰减。对于诸如在助听器上要通过两个或多个麦克风来模拟人耳的收声效果之类的应用场景,这种仅定向保留的信号处理方式可能是不理想的。在实际生活中,人耳的耳廓构造有辅助收声的效果,使人对于前方的收声比后方收声更好,且对于不同频率的声音有不同的效果。因此,如果在助听器上实现模拟人耳耳廓的效果,需要一种可以对不同方向的声音进行定制化调节的波束形成方法。此外更期待地,该方法也可以对于不同频率的声音进行针对性地调节。
本申请中提出了一种可以在低功耗的情况下控制衰减程度和/或控制不同频率信号的衰减程度的算法,以使得基于该算法的应用更符合人耳的听觉感受。
图3示出了根据本申请的一个实施例的波束形成算法的示意图。区别于以上关于图1和图2所描述的方案,根据本申请一些示例的波束形成算法中关于LMS滤波器303的迭代系数的配置方案将有所变化:上式(1)中将系数μ设为定值,而根据本申请一些示例的波束形成算法中将系数μ设置为可随时间变化的函数μ(t),并且在一些示例中还可以针对不同的频率(或频段)设置不同的函数μ1(t)、μ2(t)、……关于该系数的设置,将在下文中详细说明。
如图3所示,相比于图2所示的方案,图3中增加了一个延迟单元305。延迟单元305可以将一系列系数U延迟一段时间(在本申请的上下文中称为更新间隔,记为T),再将其用于计算针对LMS滤波器303的衰减函数μ(t),从而实现对LMS滤波器303的参数更新。如在下文将描述的,该系数U可以是衰减函数μ(t)在第一个更新间隔内的取值,并且延迟单元305可以针对该部分系数U多次延迟并输出。该部分系数U在本申请的上下文中也被称为削减系数U。
根据本申请的一些示例,每经过一段更新间隔,波束形成的削减系数U就会被重新迭代以用于形成随时间变化的衰减函数μ(t)。以此方式,可以控制声音信号衰减的强度,从而防止对于非目标方向上的声音的过度抑制。图5示出了根据本申请的一个实施例的波束形成算法的示意图。如图5所示,曲线A、B和C分别表示在时间段#1、#2和#3中更新的削减系数U。图5中示出的曲线A、B和C具有相同的形态,这说明削减系数U在时间段#1、#2和#3中是相同的。具体而言,示出的曲线A所代表的削减系数U是衰减函数μ(t)的起始部分,并且可以通过诸如图3中所示的延迟单元305对曲线A以更新间隔T为周期不断更新复制,得到如图所示的曲线B、C以及后续的各条曲线(未示出)。这个更新复制的过程相当于对曲线A进行了多次延迟并输出。
另一方面,为了保持音频衰减函数μ(t)的连续,更新的该部分削减系数U不会马上被应用,其会经过一个更新间隔T的延迟之后才被逐渐应用到衰减函数μ(t)中。如图5所示,上一个更新复制的衰减系数U会被应用于下一个更新间隔段内。具体而言,在时间段#1、#2和#3中生成更新的曲线A、B和C将分别应用于时间段#2、#3和#4,以形成对应的曲线A’、B’和C’。曲线A’、B’和C’将作为衰减函数μ(t)的相应部分。
衰减函数μ(t)在当前更新间隔内的各点的取值可以是基于衰减系数U中相应的一点的取值进行更新的,例如,可以对衰减系数U中相应的一点的取值赋予一个介于0到1之间的权重。如此,在当前更新间隔内的更新的各点取值将被限制在一个可控范围内。需要说明的是,在本申请的上下文中,当前更新间隔内的各点与其处于衰减系数U中相应的一点是按时间顺序一一对应而指定的。在一些示例中,被赋予的权重在当前更新间隔内可以是关于时间的线性函数。在其他一些示例中,被赋予的权重在当前更新间隔内也可以是关于时间的非线性函数。
如上文所述,在一些示例中,衰减函数μ(t)中被赋予的权重可以为关于时间的线性函数,也可以为关于时间的非线性函数。例如,在权重为关于时间的线性函数(线性递增函数)的情况下,关于时间的衰减函数μ(t)可以用等式(3)表示为:
其中,N表示离当前时间点最近的一次更新的次数。例如,在时间段#3(2T到3T)内,衰减函数μ(t)可以用等式(4)表示为:
从上式(3)和(4)可知,将权重设置为关于时间的线性递增函数可以在一定程度上抵消μ(t-N*T)的“过收敛”特性,从而提供了一种补偿机制。
在一些示例中,衰减函数μ(t)中被赋予的权重可以为关于时间的非线性函数。例如,关于时间的衰减函数μ(t)可以表示为:
其中,N表示离当前时间点最近的一次更新的次数。
以上关于衰减函数μ(t)的数学描述将有助于理解衰减函数μ(t)的产生机制,但是衰减函数μ(t)在现实世界的产生方法仍然可以借助于图3中示出的延迟单元305。由上式(4)可知,μ(t)在(2T,3T]这一范围内的取值与μ(t)在(0,T]的取值和μ(t)在上个更新间隔的末尾的取值μ(2T)相关。因而μ(t)在(2T,3T]这一范围内的取值(或者说,曲线B’的形态)是与μ(t)在(0,T]的取值(或者说,曲线A的形态)相关的。由于图5中的曲线A、B和C是分别在时间段#1、#2和#3内更新的,因而曲线B的形态是与曲线A的形态是一致的,换言之,曲线B’的形态是与曲线B的形态相关的。曲线B是曲线A在时间段2#内的更新复制,因而在时间段2T~3T内可以利用更新的系数实现了针对LMS滤波器303的调节。上述在更新间隔T内对曲线的持续复制更新将导致衰减函数μ(t)按更新间隔T产生并更新,从而避免滤波器的过收敛造成对于非目标方向上的声音的过度抑制。另一方面,由于μ(t)在(2T,3T]这一范围内的取值与μ(t)在上个更新间隔的末尾的取值μ(2T)相关,因而μ(t)在时刻2T前后不会出现剧烈跳变。μ(t)的平滑可以使得诸如助听器的佩戴者免于音量非预期起伏带来的困扰。
上文介绍了曲线B和C是对曲线A的复制,因而在每个预定更新间隔起始点处,衰减系数可以具有相同的值(曲线B和C的起点值)。在其他一些示例中,曲线B和C也可以针对曲线A作微调,此时在每个预定更新间隔起始点处,衰减系数可以具有不同的值(曲线B和C的起点值)。
此外,由于人耳耳廓等因素导致人耳对不同方向上的不同频率的声音响应不一样,因而也期待波束形成算法能够对不同频率的声音进行不同的响应。在本申请的一些示例中,通过对不同频率的声音信号设定不同的更新间隔,可以实现前述的响应调整。例如,可以通过分别设定低频和高频声音的更新间隔,来分别控制低频和高频声音的衰减程度,从而可以模拟人耳耳廓的频率响应。
图6示出了根据本申请的一个实施例的波束形成算法的示意图。如图6所示,可以为低频声音(例如,频率小于4000Hz)配置更新间隔T1=5T0,而为高频声音(例如,频率大于等于4000Hz)配置更新间隔T2=T0。其中,低频声音的更新间隔T1大于高频声音的更新间隔T2,以使得衰减函数μ(t)体现为对低频声音更强的抑制。之所以这样处理,是因为低频声音相对于高频声音具有更好的衍射能力,而目标方向之外的声源中发出的低频声音相比高频声音更易于传播到麦克风处。此外,这种配置方式也能更好地抑制非目标方向上的低频噪音。
在其他示例中,区分低频声音和高频声音的阈值还可以为不同于4000Hz的其他频率,或者还可以根据例如不同的助听器佩戴者配置定制化的阈值,以此可以更好地适配佩戴者的生理特征。这些定制化阈值可以通过例如实际测试来确定,或者也可以通过统计数据来确定。在其他示例中,还可以通过其他方案来区分低频和高频声音,并且区分的方案也不限于将可闻频率划分为两个区间。相应地,衰减函数的数量也不限为2。例如,可以以阈值2000Hz和6000Hz将音频划分为低频声音(例如,频率小于2000Hz)、中频声音(例如,介于2000Hz与6000Hz之间)和高频声音(例如,频率大于等于6000Hz)这三个区间。并且可以各个区间的音频配置不同的更新区间。例如,为低频声音配置更新间隔T3=5T0,为中频声音配置更新间隔T4=3T0,以及为高频声音配置更新间隔T5=T0。
在本申请的一些示例中,助听器设备适于佩戴于人耳廓内,例如,助听器中一个麦克风可以被定向为朝向耳廓,而另一个麦克风可以被定向为远离耳廓。
图4示出了根据本申请的一个实施例的音频增强方法40,音频增强方法40包括图示的步骤S402、S404、S406和S408。应当指出,尽管图4中以示意的顺序示出了一种可行的顺序,但是步骤S402、S404、S406和S408的执行不限于此,还可以以其他可行的顺序执行步骤S402、S404、S406和S408。下面将重点介绍图4中音频增强方法40的步骤S402、S404、S406和S408的工作原理,上文中连同其他附图描述的对应示例一并引用于此,限于篇幅在此不再赘述。
如图4所示,音频增强方法40在步骤S402中生成音频采集信号。在一些示例中,如上文所描述的,诸如声源101发出的声音可以为诸如助听器的麦克风102-1和麦克风102-2所拾取。麦克风102-1和麦克风102-2可以设置在助听器的佩戴者103的左右两侧,二者之间的距离可以为定值d。例如,距离d可以取决于佩戴者103的两耳间距离。佩戴者103以图示的角度0°面向图1中的上方。声源101位于佩戴者103左前方,与佩戴者103的视野中线成角度θ。由于声源101与佩戴者103(及其两耳)的距离远超过两耳之间的距离,因而可以认为声源101相对于麦克风102-1和麦克风102-2而言都成图示的角度θ。由几何关系可知,假设声音在空气中传播的速度为v,麦克风102-1接收到的信号为y1(t),那么麦克风102-2接收到的信号y2(t)=y1(t-τ),其中τ=(d*sin(θ))/v。
分别为麦克风102-1和麦克风102-2接收到的信号进行短时傅里叶变换,设y1(t)的变换结果为Y1(k,l),y2(t)的变换结果为Y2(k,l),其中k表示频率窗口(frequency bin),l表示帧指数。生成的音频采集信号Y1(k,l)和Y2(k,l)将满足如下关系:Y2(k,l)=Y1(k,l)*e-jωτ。
音频增强方法40在步骤S404中对音频采集信号进行延迟求和处理。转至图3,如上文所描述的,延迟波束形成器201可以接收来自麦克风102-1和麦克风102-2的信号并进行处理。在一些方案中,经延迟波束形成器201处理得到的信号YDSB例如可以满足
音频增强方法40在步骤S406中对音频采集信号进行阻塞矩阵处理。继续参考图3,如上文所描述的,阻塞矩阵202可以接收来自麦克风102-1和麦克风102-2的信号并进行处理。在一些方案中,经阻塞矩阵202处理得到的信号YBM例如可以满足YBM=Y1(k,l)-Y2(k,l)ejωτ。
音频增强方法40在步骤S408中对阻塞矩阵信号YBM(k,l)进行滤波处理。继续参考图3,如上文所描述的,参数可调的LMS滤波器303将对YBM作进一步处理,并将处理后的结果发送到求和单元204,从求和单元204输出的信号YGSC(k,l)满足其中WANC(k,l)是LMS滤波器303的迭代系数,*表示共轭。
进一步地,WANC(k,l)满足下面的等式(5)和(6)定义的关系:
Pest(k,l)=αPest(k,l-1)+(1-α)(|YBM(k,l)|2+|YGSC(k,l)|2) (6)
其中,衰减函数μ(t)满足如等式(3)所定义的关系。如上文所描述的,延迟单元305实现了使得μ(t)按预定更新间隔T更新,在此不再赘述。
图7、图8和图9分别示出了在图1所示的90°、0°和-90°这三个方向上来测试根据本申请的一些示例的波束形成算法的效果。从图中可知,根据本申请的一些示例的波束形成算法可以根据麦克风阵列中的麦克风1和麦克风2的频率响应曲线得到如图所示的波束形成的频率响应曲线,并且得到的频率响应曲线与真实人耳的频率响应曲线较为吻合。从仿真的结果可以看出,波束形成算法得到的频率响应曲线没有对特定方向过抑制,因而根据本申请的一些示例的波束形成算法对需要模拟人耳响应特性的应用有着较好的适配性。根据本申请的一些示例的波束形成算法在对噪声起到良好的抑制效果的基础上,还兼顾了人耳响应特性,因而尤其适应于诸如助听器等要求对物理世界如实反映的应用场景。
本申请的另一方面还提出了一种音频增强装置,所述装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。在一些示例中,这种音频增强装置可以为助听器设备。
本申请的另一方面还提出了一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。
本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当注意,尽管在上文详细描述中提及了音频增强方法、装置和存储介质的若干步骤或模块,但是这种划分仅仅是示例性的而非强制性的。实际上,根据本申请的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书,理解和实施对披露的实施方式的其他改变。在权利要求中,措词“包括”不排除其他的元素和步骤,并且措辞“一”、“一个”不排除复数。在本申请的实际应用中,一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。
Claims (16)
1.一种音频增强方法,其特征在于,所述方法包括:
由麦克风阵列生成一组音频采集信号,其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的,并且所述麦克风阵列中的每个麦克风相互间隔开;
对该组音频采集信号进行延迟求和处理,以生成延迟求和信号YDSB(k,l),其中k表示频率窗口,而l表示帧指数;
对该组音频采集信号进行阻塞矩阵处理,以生成阻塞矩阵信号YBM(k,l);
利用自适应滤波矩阵WANC对所述阻塞矩阵信号YBM(k,l)进行滤波处理,并将经滤波的阻塞矩阵信号从所述延迟求和信号YDSB(k,l)中移除,以得到经增强的音频输出信号YOUT(k,l);
其中,所述自适应滤波矩阵WANC是基于至少一个衰减函数μ(t),随所述音频输出信号YOUT(k,l)和所述阻塞矩阵信号YBM(k,l)变化的权重系数矩阵,并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
2.根据权利要求1所述的方法,其特征在于,所述麦克风阵列包括位于同一音频处理装置上的至少两个麦克风。
3.根据权利要求2所述的方法,其特征在于,所述音频处理装置适于佩戴于人耳廓内。
4.根据权利要求3所述的方法,其特征在于,所述至少两个麦克风中的一个被定向为朝向耳廓,而所述至少两个麦克风中的另一个被定向为远离耳廓。
6.根据权利要求1所述的方法,其特征在于,所述至少一个衰减函数包括第一衰减函数和第二衰减函数,所述第一衰减函数以第一预定更新间隔更新,所述第二衰减函数以第二预定更新间隔更新;其中,所述第一衰减函数对应于大于或者等于预定频率阈值的高频信号;而所述第二衰减函数对应于小于预定频率阈值的低频信号,并且所述第一预定更新间隔短于所述第二预定更新间隔。
7.根据权利要求1所述的方法,其特征在于,所述衰减函数μ(t)中的每一个在当前更新间隔内基于其于第一个更新间隔内取值进行更新。
8.根据权利要求7所述的方法,其特征在于,所述衰减函数μ(t)中的每一个在所述当前更新间隔内的各点是基于其于第一个更新间隔内相应的一点的取值赋予0~1之间的变化权重而进行更新的。
9.根据权利要求8所述的方法,其特征在于,所述权重在所述当前更新间隔内是关于时间的线性函数。
10.根据权利要求9所述的方法,其特征在于,所述权重在所述当前更新间隔内是关于时间的线性递增函数。
11.根据权利要求8所述的方法,其特征在于,所述权重在所述当前更新间隔内是关于时间的非线性函数。
12.根据权利要求9或10所述的方法,其特征在于,所述衰减函数μ(t)中的每一个在所述当前更新间隔内还基于其于上一个更新间隔末的取值进行更新。
14.一种音频增强装置,其特征在于,所述装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行下述步骤:
由麦克风阵列生成一组音频采集信号,其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的,并且所述麦克风阵列中的每个麦克风相互间隔开;
对该组音频采集信号进行延迟求和处理,以生成延迟求和信号YDSB(k,l),其中k表示频率窗口,而l表示帧指数;
对该组音频采集信号进行阻塞矩阵处理,以生成阻塞矩阵信号YBM(k,l);
利用自适应滤波矩阵WANC对所述阻塞矩阵信号YBM(k,l)进行滤波处理,并将经滤波的阻塞矩阵信号从所述延迟求和信号YDSB(U,l)中移除,以得到经增强的音频输出信号YOUT(k,l);
其中,所述自适应滤波矩阵WANC是基于至少一个衰减函数μ(t),随所述音频输出信号YOUT(k,l)和所述阻塞矩阵信号YBM(k,l)变化的权重系数矩阵,并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
15.根据权利要求14所述的装置,其特征在于,所述装置为助听器。
16.一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行一种音频增强方法,所述方法包括下述步骤:
由麦克风阵列生成一组音频采集信号,其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的,并且所述麦克风阵列中的每个麦克风相互间隔开;
对该组音频采集信号进行延迟求和处理,以生成延迟求和信号YDSB(k,l),其中k表示频率窗口,而l表示帧指数;
对该组音频采集信号进行阻塞矩阵处理,以生成阻塞矩阵信号YBM(k,l);
利用自适应滤波矩阵WANC对所述阻塞矩阵信号YBM(k,l)进行滤波处理,并将经滤波的阻塞矩阵信号从所述延迟求和信号YDSB(k,l)中移除,以得到经增强的音频输出信号UOUT(k,l);
其中,所述自适应滤波矩阵WANC是基于至少一个衰减函数μ(t),随所述音频输出信号YOUT(U,Y)和所述阻塞矩阵信号YBM(k,l)变化的权重系数矩阵,并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199889.5A CN114550734A (zh) | 2022-03-02 | 2022-03-02 | 音频增强方法和装置、计算机存储介质 |
PCT/CN2023/079312 WO2023165565A1 (zh) | 2022-03-02 | 2023-03-02 | 音频增强方法和装置、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199889.5A CN114550734A (zh) | 2022-03-02 | 2022-03-02 | 音频增强方法和装置、计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550734A true CN114550734A (zh) | 2022-05-27 |
Family
ID=81661145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210199889.5A Pending CN114550734A (zh) | 2022-03-02 | 2022-03-02 | 音频增强方法和装置、计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114550734A (zh) |
WO (1) | WO2023165565A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023165565A1 (zh) * | 2022-03-02 | 2023-09-07 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100480789B1 (ko) * | 2003-01-17 | 2005-04-06 | 삼성전자주식회사 | 피드백 구조를 이용한 적응적 빔 형성방법 및 장치 |
US8014230B2 (en) * | 2006-04-20 | 2011-09-06 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program using the same |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US9100734B2 (en) * | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN109389991A (zh) * | 2018-10-24 | 2019-02-26 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的信号增强方法 |
CN110689900B (zh) * | 2019-09-29 | 2022-05-13 | 北京地平线机器人技术研发有限公司 | 信号增强方法和装置、计算机可读存储介质、电子设备 |
CN110782913A (zh) * | 2019-10-30 | 2020-02-11 | 通用微(深圳)科技有限公司 | 一种基于通用mcu的波束成形语音增强算法的实现 |
CN110855269B (zh) * | 2019-11-06 | 2023-05-19 | 韶关学院 | 一种自适应滤波的系数更新方法 |
CN110706719B (zh) * | 2019-11-14 | 2022-02-25 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN114550734A (zh) * | 2022-03-02 | 2022-05-27 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
-
2022
- 2022-03-02 CN CN202210199889.5A patent/CN114550734A/zh active Pending
-
2023
- 2023-03-02 WO PCT/CN2023/079312 patent/WO2023165565A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023165565A1 (zh) * | 2022-03-02 | 2023-09-07 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023165565A1 (zh) | 2023-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11503409B1 (en) | Spatial headphone transparency | |
CN107360527B (zh) | 包括波束形成器滤波单元的听力装置 | |
US9560451B2 (en) | Conversation assistance system | |
JP4469898B2 (ja) | 外耳道共鳴補正装置 | |
CN106664480B (zh) | 用于声波场生成的系统和方法 | |
JP6279570B2 (ja) | 指向性音マスキング | |
US10587962B2 (en) | Hearing aid comprising a directional microphone system | |
CN107801139B (zh) | 包括反馈检测单元的听力装置 | |
EP2914016A1 (en) | Bionic hearing headset | |
US9749743B2 (en) | Adaptive filtering | |
US20160255446A1 (en) | Methods, Systems, and Devices for Adaptively Filtering Audio Signals | |
US20150350805A1 (en) | Sound wave field generation | |
CN113574593B (zh) | 调谐方法、制造方法、计算机可读存储介质和调谐系统 | |
CN113473294B (zh) | 系数确定方法及装置 | |
WO2023165565A1 (zh) | 音频增强方法和装置、计算机存储介质 | |
US11510013B2 (en) | Partial HRTF compensation or prediction for in-ear microphone arrays | |
US11373668B2 (en) | Enhancement of audio from remote audio sources | |
CN113299261A (zh) | 主动降噪方法、装置、耳机、电子设备及可读存储介质 | |
US10277977B1 (en) | Sound reproduction system, mobile object, and sound reproduction method | |
EP4064730A1 (en) | Motion data based signal processing | |
TWI746001B (zh) | 頭戴式裝置及其立體音效控制方法 | |
US20220417647A1 (en) | Adaptive Active Noise Control System with Hearing Assistance Mechanism | |
CN111683322A (zh) | 前馈降噪耳机及降噪方法、系统、设备、计算机存储介质 | |
WO2023137127A1 (en) | In-ear wearable with high latency band limiting | |
TW202416009A (zh) | 聲音補償方法及頭戴式裝置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |