CN110600051B - 用于选择麦克风阵列的输出波束的方法 - Google Patents
用于选择麦克风阵列的输出波束的方法 Download PDFInfo
- Publication number
- CN110600051B CN110600051B CN201911097476.0A CN201911097476A CN110600051B CN 110600051 B CN110600051 B CN 110600051B CN 201911097476 A CN201911097476 A CN 201911097476A CN 110600051 B CN110600051 B CN 110600051B
- Authority
- CN
- China
- Prior art keywords
- vector
- current
- energy
- frame
- frequency point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000001228 spectrum Methods 0.000 claims abstract description 72
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000003595 spectral effect Effects 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 239000002184 metal Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
用于选择麦克风阵列的输出波束的方法,包括:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对其进行波束成形以得到多个波束及对应的波束输出信号;(b)对各波束执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于该频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,综合能量指示当前波束的波束输出信号的能量水平,综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且综合语音存在概率和综合能量为标量;及(c)选取综合语音信号能量值最大的波束作为输出波束。
Description
技术领域
本发明涉及麦克风阵列的输出波束选择,具体涉及一种基于语音存在概率的麦克风阵列输出波束选择方法。
背景技术
麦克风阵列可以进行多个方向的波束成形,但是,由于输出端硬件资源或应用场景的限制,通常只允许选择某一个方向上的波束作为输出信号。麦克风阵列的输出波束选择本质上是对语音信号来源方向的估计。正确判断语音信号的方向,可以最大化波束成形算法的应用效果;反之,选择非最优的波束作为输出将会大大降低波束成形算法对噪声的抑制效果。因此,在实践中,输出波束选择机制作为波束成形算法的后继环节,对使用麦克风阵列的语音信号处理系统的研究与开发具有非常重要的意义。
发明人注意到,虽然现有技术中已尝试提出不同的麦克风阵列输出波束选择方法,但这些现有方法至少还存在以下不足:
1)依赖于预先存储的说话人信息或依赖于在识别波达方向之前进行唤醒词识别;
2)难以同时应对音量较大的噪声干扰和小音量非稳定信号干扰;以及
3)未针对物联网微控制单元(MCU)等资源受限设备或应用场景进行充分优化以降低计算复杂度。
例如,中国专利CN103888861B号公开了一种麦克风阵列指向性调节方法,其中该方法首先接收语音信息,并根据所述语音信息判断预讲话人的信息,根据判断结果,确定所述预讲话人所在的方向。该方法需要预先存储说话人的身份信息,而对未存储的说话人无法进行波束指向调节。
又如,中国专利申请公开CN109119092A号公开了一种基于麦克风阵列的波束指向切换方法,其中该方法只利用了各麦克风之间的相位延时信息和各波束的能量信息,无法区分人声和非人声信号,因而容易被音量较大的噪声干扰。
再如,中国专利申请公开CN109473118A号公开了一种双通道语音增强方法,其中仅根据目标波束中待增强声音的存在概率对所述目标波束进行增强,并基于各波束相互之间语音存在概率的比值进行波束选择。在实践中,该方法存在容易受到小音量非稳定信号干扰的缺点。
另如,中国专利申请公开CN108899044A号公开了一种语音信号处理方法,其中利用唤醒词存在概率确定语音信号与内容的关联性,具体包括先将语音信号输入至唤醒引擎中,并获取唤醒引擎输出的语音信号置信度,然后再计算语音存在概率并计算原始输入信号的波达方向。然而,在能够对波达方向进行判断之前,该方法依赖于唤醒引擎计算得到特定字词或语句的存在概率,这需要依赖语音识别技术实现,因此只能应用于带有唤醒功能的语音信号处理系统。另外,该方法所要求的唤醒词存在概率计算以及向量运算,增加了该方法的计算复杂度,不利于在例如物联网微控制单元(MCU)等资源受限设备上实施。
综上,现有技术中需要一种用于选择麦克风阵列的输出波束的方法,以解决现有技术中存在的上述问题。应理解,上述所列举的技术问题仅作为示例而非对本发明的限制,本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。
发明内容
针对上述问题,本发明的目的在于提供一种用于选择麦克风阵列的输出波束的方法,其不依赖于预先存储的说话人信息、不需要在识别波达方向之前进行唤醒词识别、能够减轻音量较大的噪声干扰和小音量非稳定信号干扰两者,以及具有降低的计算复杂度。
在本发明的一方面,提供一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;(b)对于所述多个波束中的每个波束,执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及(c)选取综合语音信号能量值最大的波束作为输出波束。
可选地,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。
可选地,在步骤(b)中,在得出当前波束的频谱向量和功率谱向量之后,根据下述公式用频谱向量更新功率谱向量:
其中:t表示帧索引;f表示频点;为当前波束的功率谱向量在第t-1帧在频点f处的元素对应的功率谱;为当前波束的功率谱向量在第t帧上在频点f处的元素对应的功率谱;α 1为大于0且小于1的参数;以及为当前波束的频谱向量在第t帧上在频点f处的元素对应的频谱。
优选地,α 1大于等于0.9且小于等于0.99。
可选地,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。
可选地,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:维护两个长度与频谱向量相同且初始值为零的向量S b,min和S b,tmp ;
对向量S b,min和S b,tmp 的每个元素,按下述公式进行更新:
其中:t表示帧索引;f表示频点;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量最低值;表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量最低值;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的功率谱;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量临时最低值;表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量临时最低值;且
每当L个元素按上述公式进行更新之后,按下述方式对向量S b,min和S b,tmp 进行重置:
在对向量S b,min和S b,tmp 的每个元素进行更新之后,得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。
优选地,所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。
可选地,所述综合能量是按照下述步骤得出的:对所述功率谱向量的所有元素求平均值以作为所述综合能量。
可选地,对所述功率谱向量的所有元素求平均值以作为所述综合能量包括:
对所述功率谱向量的所有元素进行加权平均以作为所述综合能量,其中对于所述功率谱向量中的每个元素,若该元素对应的频点位于0至5kHz范围内,则对该元素赋予权重1,否则赋予权重0。
可选地,所述综合语音存在概率是按照下述步骤得出的:对于当前波束的信号功率谱向量中的每个元素,根据语音存在概率模型,计算对应于信号功率谱向量中的每个元素的语音存在概率,以生成当前波束的语音存在概率向量;以及执行下述步骤以更新当前波束的语音存在概率向量的每个元素:
其中:t表示帧索引;f表示频点;为当前波束的语音存在概率向量;为当前波束的语音存在概率向量在第t-1帧上在频点f处的元素对应的语音存在概率;为当前波束的语音存在概率向量在第t帧上在频点f处的元素对应的语音存在概率;α 2为大于0且小于1的参数;以及
对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率。
优选地,α 2大于等于0.8且小于等于0.99。
可选地,对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率包括:对所述语音存在概率向量的所有元素进行加权平均以作为所述综合语音存在概率,其中对于所述语音存在概率向量中的每个元素,若该元素对应的频点位于0至5 kHz范围内,则对该元素赋予权重1,否则赋予权重0。
优选地,在步骤(b)中,在计算出当前波束的综合语音信号能量之后,按照下述操作对当前波束的综合语音信号能量进行更新:
优选地,α 3大于等于0.8且小于等于0.99。
本发明的方案计算每个波束的综合语音信号能量,以据此选择麦克风阵列的输出波束。特别是,该综合语音信号能量充分考虑到波束的综合能量以及综合语音存在概率,通过波束能量与语音存在概率两者进行波束选择,既不需要预先获取说话人信息,也克服了非人声的噪声干扰,同时也不需要在识别波达方向之前进行任何语音识别。此外,该综合语音信号能量为标量的乘积,减少了向量计算,降低了计算复杂度。
应理解,上述对背景技术以及发明内容概要的描述仅仅是示意性的而非限制性的。
附图说明
图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图;
图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图;及
图3是在根据本发明的用于选择麦克风阵列的输出波束的方法的一个实施例中,更新局部能量最低值估计的示意性流程图。
具体实施方式
在下文中将参考附图更全面地描述本发明,附图构成本发明公开的一部分并通过图示的方式示出示例性的实施例。应理解,附图所示以及下文所述的实施例仅仅是说明性的,而不作为对本发明的限制。
图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图。
图1所示方法100包括:(a)如步骤102所示,从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号。
该方法100还包括:(b)如步骤104至108所示,对于所述多个波束中的每个波束,执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量(步骤104);基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量(步骤106),其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量。
该方法还包括:(c)如步骤110所示,选取综合语音信号能量值最大的波束作为输出波束。
图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图。
方法200开始于步骤202,在其中将波束成形算法输出的波束变换到STFT域,并用频谱信息更新各个波束的功率谱向量。具体地,假设波束成形算法输出B个波束,分别被变换到F点的短时傅里叶变换(STFT,Short-Time Fourier Transform)域中,则第b个波束(b= 1, 2, …, B)的输出信号可在STFT域中表示为F维频谱向量Y b ,向量Y b 的第f个元素Y b (f)表示该信号在频点f处的频谱信息。对向量Y b 的各频点取模,并与功率谱向量S b 加权相加,根据下述公式更新后者:
其中自变量t表示时间(即帧索引),如S b (f,t-1)和S b (f,t)分别表示S b 在第t-1帧和第t帧在频点f处的值,下文中S b,min 和S b,tmp 等变量也采用这种表示方法。参数α 1介于0和1之间,取值越大,功率谱的更新程度越小,从而可以更好地抵抗瞬态噪声的影响,但更容易与真实的当前的瞬时能量值失配,优选的取值为0.9到0.99。向量Y b 在频率f上的模,|Y b (f)|2,代表当前帧(即第t帧,下同)信号在频率f上的功率谱;通过用|Y b (f)|2更新S b (f),后者仍表示与前者相同的物理意义(信号能量),但由于是平滑地更新的,可以更好地抵抗瞬态噪声的影响。后面的步骤优选地可以用更新后的功率谱向量进行计算,从而使系统相对稳定。
在步骤204,更新当前波束的局部能量最低值S b,min 的估计。例如,可根据图3所示的方法300,更新局部能量最低值估计。应理解,虽然图3示出了一种具体的方法,但本发明的实施并不限于此。例如,可以采用马丁·R的《基于最小统计的谱减法》(Martin, R.:Spectral subtraction based on minimum statistics. 1994, Proceedings of 7 th EUSIPCO, 1182-1185)或该方法的变体来更新当前波束的局部能量最低值S b,min 的估计。
在步骤302,维护两个长度为F的向量S b,min和S b,tmp (其初始值均为0,即对所有f,有S b,min (f,0)=S b,tmp (f,0)=0)。
在步骤306,对各频点对应的当前元素按如下方式进行更新,
在步骤308,判断是否已处理L帧信号,即,判断t是否是L的倍数。每当L帧信号被处理之后,在步骤310,按照如下方式对S b,min 和S b,tmp 进行重置,
其中向量S b,min 是局部(L帧信号)的最小值。由于在任何时刻,信号一定是噪声或者噪声和语音的累加,因此,可近似地认为S b,min 代表噪声能量的强度。这种方法本质上是基于语音信号是非稳定信号、而噪声是稳定信号这一假设的,L的取值越小,对噪声的稳定性要求越低,但噪声信号和语音信号之间的区分度越小;该参数取值也和每帧信号的长度设定有关。在本发明的优选实施例中,大致应使得L帧信号约包含200毫秒到500毫秒之间的信号。
其中参数α 2介于0和1之间,推荐设置为0.8到0.99;
函数I(b, f)的取值是
其中参数δ 1代表用于判定当前帧是否带有语音信号的阈值。
应理解,步骤206可以采用科恩·I和伯杜戈·B的《采用最小统计控制递归平均的噪声估计进行鲁棒语音增强》( Cohen, I. and Berdugo, B.: Noise estimation byminima controlled recursive averaging for robust speech enhancement. 2002,IEEE Signal Processing Letters, 9(1): 12-15)或其变体来执行,也可以用其它语音信号概率估计的算法来替代。类似地,需要该算法的输入为信号功率谱S b ,输出为0到1之间的语音概率p b 。
在步骤208中,对语音存在概率向量进行加权平均,得出当前波束的综合语音概率。具体地,对向量p b 做加权平均。对位于0-5kHz范围内的频点赋予权重1,否则赋予权重0,得到波束b的综合语音存在概率q b 。之后的步骤中会使用标量q b 而不是向量p b 进行计算,会使计算得到简化;同时,由于人声频率几乎不可能超过5kHz,可认为舍弃高于该频率的信号不会影响最终结果。
步骤210中,对功率谱向量进行加权平均,得出当前波束的综合能量。类似地,对向量S b 做同样的加权平均,得到波束b的综合能量e b 。具体地,对向量S b 做加权平均。对位于0-5kHz范围内的频点赋予权重1,否则赋予权重0。
在步骤212中,计算当前波束的综合语音信号能量。定义d b 为波束b的语音信号能量,其初始值为0(即d b (0)=0),在每一帧按照如下方式进行更新:
参数α 3介于0和1之间,推荐设置为0.8到0.99,函数J(b)代表当前帧的语音信号能量,其取值是
其中参数δ 2代表用于决定是否将函数值置0的阈值。
步骤214,判断是否存在下一波束。如果是,则返回步骤204,对下一波束执行步骤204-212;如果否,则进入步骤218。
在步骤218中,确定综合语音信号能量最大的波束,作为输出波束。具体地,取综合语音信号能量集合{d b }(b = 1, 2, …, B)中的最大值所对应的波束b,作为输出波束。
以上实施例以示例的方式给出了具体操作过程,但应理解,本发明的保护范围不限于此。
虽然出于本公开的目的已经描述了本发明各方面的各种实施例,但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例,而是可以和不同实施例中公开的特征进行组合。此外,应理解,上文所述方法步骤可以顺序执行、并行执行、合并为更少步骤、拆分为更多步骤,以不同于所述方式组合和/或省略。本领域技术人员应理解,还存在可能的更多可选实施方式和变型,可以对上述部件和构造进行各种改变和修改,而不脱离由本发明权利要求所限定的范围。
Claims (14)
1.一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:
(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;
(b)对于所述多个波束中的每个波束,执行下述操作:
将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;
基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及
(c)选取综合语音信号能量值最大的波束作为输出波束。
2.根据权利要求1所述的方法,其特征在于,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。
4.根据权利要求3所述的方法,其特征在于,α1大于等于0.9且小于等于0.99。
5.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。
6.根据权利要求5所述的方法,其特征在于,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:
维护两个长度与频谱向量相同且初始值为零的向量Sb,min和Sb,tmp;
对向量Sb,min和Sb,tmp的每个元素,按下述公式进行更新:
其中:
t表示帧索引;
f表示频点;
在对向量Sb,min和Sb,tmp的每个元素进行更新之后,得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。
7.根据权利要求6所述的方法,其特征在于,所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。
8.根据权利要求1所述的方法,其特征在于,所述综合能量是按照下述步骤得出的:
对所述功率谱向量的所有元素求平均值以作为所述综合能量。
9.根据权利要求8所述的方法,其特征在于,对所述功率谱向量的所有元素求平均值以作为所述综合能量包括:
对所述功率谱向量的所有元素进行加权平均以作为所述综合能量,其中对于所述功率谱向量中的每个元素,若该元素对应的频点位于0至5kHz范围内,则对该元素赋予权重1,否则赋予权重0。
10.根据权利要求1所述的方法,其特征在于,所述综合语音存在概率是按照下述步骤得出的:
对于当前波束的信号功率谱向量中的每个元素,根据语音存在概率模型,计算对应于信号功率谱向量中的每个元素的语音存在概率,以生成当前波束的语音存在概率向量;以及
执行下述步骤以更新当前波束的语音存在概率向量的每个元素:
其中:
t表示帧索引;
f表示频点;
α2为大于0且小于1的参数;以及
对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率。
11.根据权利要求10所述的方法,其特征在于,α2大于等于0.8且小于等于0.99。
12.根据权利要求9所述的方法,其特征在于,对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率包括:
对所述语音存在概率向量的所有元素进行加权平均以作为所述综合语音存在概率,其中对于所述语音存在概率向量中的每个元素,若该元素对应的频点位于0至5 kHz范围内,则对该元素赋予权重1,否则赋予权重0。
14.根据权利要求13所述的方法,其特征在于,α3大于等于0.8且小于等于0.99。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911097476.0A CN110600051B (zh) | 2019-11-12 | 2019-11-12 | 用于选择麦克风阵列的输出波束的方法 |
PCT/CN2020/128274 WO2021093798A1 (zh) | 2019-11-12 | 2020-11-12 | 用于选择麦克风阵列的输出波束的方法 |
US17/776,541 US20220399028A1 (en) | 2019-11-12 | 2020-11-12 | Method for selecting output wave beam of microphone array |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911097476.0A CN110600051B (zh) | 2019-11-12 | 2019-11-12 | 用于选择麦克风阵列的输出波束的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110600051A CN110600051A (zh) | 2019-12-20 |
CN110600051B true CN110600051B (zh) | 2020-03-31 |
Family
ID=68852349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911097476.0A Active CN110600051B (zh) | 2019-11-12 | 2019-11-12 | 用于选择麦克风阵列的输出波束的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220399028A1 (zh) |
CN (1) | CN110600051B (zh) |
WO (1) | WO2021093798A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600051B (zh) * | 2019-11-12 | 2020-03-31 | 乐鑫信息科技(上海)股份有限公司 | 用于选择麦克风阵列的输出波束的方法 |
CN111883162B (zh) * | 2020-07-24 | 2021-03-23 | 杨汉丹 | 唤醒方法、装置和计算机设备 |
CN113257269A (zh) * | 2021-04-21 | 2021-08-13 | 瑞芯微电子股份有限公司 | 一种基于深度学习的波束形成方法和存储设备 |
CN113932912B (zh) * | 2021-10-13 | 2023-09-12 | 国网湖南省电力有限公司 | 一种变电站噪声抗干扰估计方法、系统及介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510426B (zh) * | 2009-03-23 | 2013-03-27 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN102739886B (zh) * | 2011-04-01 | 2013-10-16 | 中国科学院声学研究所 | 基于回声频谱估计和语音存在概率的立体声回声抵消方法 |
CN102324237B (zh) * | 2011-05-30 | 2013-01-02 | 深圳市华新微声学技术有限公司 | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 |
CN102508204A (zh) * | 2011-11-24 | 2012-06-20 | 上海交通大学 | 基于波束形成和传递路径分析的室内噪声源定位方法 |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
CN103871420B (zh) * | 2012-12-13 | 2016-12-21 | 华为技术有限公司 | 麦克风阵列的信号处理方法及装置 |
CN105590631B (zh) * | 2014-11-14 | 2020-04-07 | 中兴通讯股份有限公司 | 信号处理的方法及装置 |
CN106448692A (zh) * | 2016-07-04 | 2017-02-22 | Tcl集团股份有限公司 | 应用语音存在概率优化的retf混响消除方法及系统 |
CN106251877B (zh) * | 2016-08-11 | 2019-09-06 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
EP3300078B1 (en) * | 2016-09-26 | 2020-12-30 | Oticon A/s | A voice activitity detection unit and a hearing device comprising a voice activity detection unit |
CN107976651B (zh) * | 2016-10-21 | 2020-12-25 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
WO2018133056A1 (zh) * | 2017-01-22 | 2018-07-26 | 北京时代拓灵科技有限公司 | 一种声源定位的方法和装置 |
US10096328B1 (en) * | 2017-10-06 | 2018-10-09 | Intel Corporation | Beamformer system for tracking of speech and noise in a dynamic environment |
US10885907B2 (en) * | 2018-02-14 | 2021-01-05 | Cirrus Logic, Inc. | Noise reduction system and method for audio device with multiple microphones |
CN110390947B (zh) * | 2018-04-23 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 声源位置的确定方法、系统、设备和存储介质 |
CN108922554B (zh) * | 2018-06-04 | 2022-08-23 | 南京信息工程大学 | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 |
US11062727B2 (en) * | 2018-06-13 | 2021-07-13 | Ceva D.S.P Ltd. | System and method for voice activity detection |
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
CN110600051B (zh) * | 2019-11-12 | 2020-03-31 | 乐鑫信息科技(上海)股份有限公司 | 用于选择麦克风阵列的输出波束的方法 |
-
2019
- 2019-11-12 CN CN201911097476.0A patent/CN110600051B/zh active Active
-
2020
- 2020-11-12 US US17/776,541 patent/US20220399028A1/en active Pending
- 2020-11-12 WO PCT/CN2020/128274 patent/WO2021093798A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021093798A1 (zh) | 2021-05-20 |
CN110600051A (zh) | 2019-12-20 |
US20220399028A1 (en) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600051B (zh) | 用于选择麦克风阵列的输出波束的方法 | |
US11395061B2 (en) | Signal processing apparatus and signal processing method | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
JP4765461B2 (ja) | 雑音抑圧システムと方法及びプログラム | |
Parchami et al. | Recent developments in speech enhancement in the short-time Fourier transform domain | |
CN109817209B (zh) | 一种基于双麦克风阵列的智能语音交互系统 | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
US7383178B2 (en) | System and method for speech processing using independent component analysis under stability constraints | |
US8370140B2 (en) | Method of filtering non-steady lateral noise for a multi-microphone audio device, in particular a “hands-free” telephone device for a motor vehicle | |
US20030177007A1 (en) | Noise suppression apparatus and method for speech recognition, and speech recognition apparatus and method | |
US8346551B2 (en) | Method for adapting a codebook for speech recognition | |
US20220068288A1 (en) | Signal processing apparatus, signal processing method, and program | |
JP2019503107A (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
TW200926151A (en) | Multiple microphone voice activity detector | |
CN108538306B (zh) | 提高语音设备doa估计的方法及装置 | |
US10770090B2 (en) | Method and device of audio source separation | |
CN113223552A (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
Kim et al. | Sound source separation algorithm using phase difference and angle distribution modeling near the target. | |
Kim et al. | Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment | |
Lim et al. | Speaker localization in noisy environments using steered response voice power | |
JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
Ji et al. | A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |