CN110600051B - 用于选择麦克风阵列的输出波束的方法 - Google Patents

用于选择麦克风阵列的输出波束的方法 Download PDF

Info

Publication number
CN110600051B
CN110600051B CN201911097476.0A CN201911097476A CN110600051B CN 110600051 B CN110600051 B CN 110600051B CN 201911097476 A CN201911097476 A CN 201911097476A CN 110600051 B CN110600051 B CN 110600051B
Authority
CN
China
Prior art keywords
vector
current
energy
frame
frequency point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911097476.0A
Other languages
English (en)
Other versions
CN110600051A (zh
Inventor
赵杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Espressif Systems Shanghai Co Ltd
Original Assignee
Espressif Systems Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Espressif Systems Shanghai Co Ltd filed Critical Espressif Systems Shanghai Co Ltd
Priority to CN201911097476.0A priority Critical patent/CN110600051B/zh
Publication of CN110600051A publication Critical patent/CN110600051A/zh
Application granted granted Critical
Publication of CN110600051B publication Critical patent/CN110600051B/zh
Priority to PCT/CN2020/128274 priority patent/WO2021093798A1/zh
Priority to US17/776,541 priority patent/US20220399028A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

用于选择麦克风阵列的输出波束的方法,包括:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对其进行波束成形以得到多个波束及对应的波束输出信号;(b)对各波束执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于该频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,综合能量指示当前波束的波束输出信号的能量水平,综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且综合语音存在概率和综合能量为标量;及(c)选取综合语音信号能量值最大的波束作为输出波束。

Description

用于选择麦克风阵列的输出波束的方法
技术领域
本发明涉及麦克风阵列的输出波束选择,具体涉及一种基于语音存在概率的麦克风阵列输出波束选择方法。
背景技术
麦克风阵列可以进行多个方向的波束成形,但是,由于输出端硬件资源或应用场景的限制,通常只允许选择某一个方向上的波束作为输出信号。麦克风阵列的输出波束选择本质上是对语音信号来源方向的估计。正确判断语音信号的方向,可以最大化波束成形算法的应用效果;反之,选择非最优的波束作为输出将会大大降低波束成形算法对噪声的抑制效果。因此,在实践中,输出波束选择机制作为波束成形算法的后继环节,对使用麦克风阵列的语音信号处理系统的研究与开发具有非常重要的意义。
发明人注意到,虽然现有技术中已尝试提出不同的麦克风阵列输出波束选择方法,但这些现有方法至少还存在以下不足:
1)依赖于预先存储的说话人信息或依赖于在识别波达方向之前进行唤醒词识别;
2)难以同时应对音量较大的噪声干扰和小音量非稳定信号干扰;以及
3)未针对物联网微控制单元(MCU)等资源受限设备或应用场景进行充分优化以降低计算复杂度。
例如,中国专利CN103888861B号公开了一种麦克风阵列指向性调节方法,其中该方法首先接收语音信息,并根据所述语音信息判断预讲话人的信息,根据判断结果,确定所述预讲话人所在的方向。该方法需要预先存储说话人的身份信息,而对未存储的说话人无法进行波束指向调节。
又如,中国专利申请公开CN109119092A号公开了一种基于麦克风阵列的波束指向切换方法,其中该方法只利用了各麦克风之间的相位延时信息和各波束的能量信息,无法区分人声和非人声信号,因而容易被音量较大的噪声干扰。
再如,中国专利申请公开CN109473118A号公开了一种双通道语音增强方法,其中仅根据目标波束中待增强声音的存在概率对所述目标波束进行增强,并基于各波束相互之间语音存在概率的比值进行波束选择。在实践中,该方法存在容易受到小音量非稳定信号干扰的缺点。
另如,中国专利申请公开CN108899044A号公开了一种语音信号处理方法,其中利用唤醒词存在概率确定语音信号与内容的关联性,具体包括先将语音信号输入至唤醒引擎中,并获取唤醒引擎输出的语音信号置信度,然后再计算语音存在概率并计算原始输入信号的波达方向。然而,在能够对波达方向进行判断之前,该方法依赖于唤醒引擎计算得到特定字词或语句的存在概率,这需要依赖语音识别技术实现,因此只能应用于带有唤醒功能的语音信号处理系统。另外,该方法所要求的唤醒词存在概率计算以及向量运算,增加了该方法的计算复杂度,不利于在例如物联网微控制单元(MCU)等资源受限设备上实施。
综上,现有技术中需要一种用于选择麦克风阵列的输出波束的方法,以解决现有技术中存在的上述问题。应理解,上述所列举的技术问题仅作为示例而非对本发明的限制,本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。
发明内容
针对上述问题,本发明的目的在于提供一种用于选择麦克风阵列的输出波束的方法,其不依赖于预先存储的说话人信息、不需要在识别波达方向之前进行唤醒词识别、能够减轻音量较大的噪声干扰和小音量非稳定信号干扰两者,以及具有降低的计算复杂度。
在本发明的一方面,提供一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;(b)对于所述多个波束中的每个波束,执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及(c)选取综合语音信号能量值最大的波束作为输出波束。
可选地,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。
可选地,在步骤(b)中,在得出当前波束的频谱向量和功率谱向量之后,根据下述公式用频谱向量更新功率谱向量:
Figure 700161DEST_PATH_IMAGE001
其中:t表示帧索引;f表示频点;
Figure 882881DEST_PATH_IMAGE002
为当前波束的功率谱向量在第t-1帧在频点f处的元素对应的功率谱;
Figure 787252DEST_PATH_IMAGE003
为当前波束的功率谱向量在第t帧上在频点f处的元素对应的功率谱;α 1为大于0且小于1的参数;以及
Figure 510357DEST_PATH_IMAGE004
为当前波束的频谱向量在第t帧上在频点f处的元素对应的频谱。
优选地,α 1大于等于0.9且小于等于0.99。
可选地,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。
可选地,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:维护两个长度与频谱向量相同且初始值为零的向量S b,minS b,tmp
对向量S b,minS b,tmp 的每个元素,按下述公式进行更新:
Figure 918205DEST_PATH_IMAGE005
Figure 943930DEST_PATH_IMAGE006
其中:t表示帧索引;f表示频点;
Figure 210963DEST_PATH_IMAGE007
表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量最低值;
Figure 3338DEST_PATH_IMAGE008
表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量最低值;
Figure 113DEST_PATH_IMAGE009
表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的功率谱;
Figure 462319DEST_PATH_IMAGE010
表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量临时最低值;
Figure 216648DEST_PATH_IMAGE011
表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量临时最低值;且
每当L个元素按上述公式进行更新之后,按下述方式对向量S b,minS b,tmp 进行重置:
Figure 281556DEST_PATH_IMAGE012
Figure 132837DEST_PATH_IMAGE013
在对向量S b,minS b,tmp 的每个元素进行更新之后,得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。
优选地,所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。
可选地,所述综合能量是按照下述步骤得出的:对所述功率谱向量的所有元素求平均值以作为所述综合能量。
可选地,对所述功率谱向量的所有元素求平均值以作为所述综合能量包括:
对所述功率谱向量的所有元素进行加权平均以作为所述综合能量,其中对于所述功率谱向量中的每个元素,若该元素对应的频点位于0至5kHz范围内,则对该元素赋予权重1,否则赋予权重0。
可选地,所述综合语音存在概率是按照下述步骤得出的:对于当前波束的信号功率谱向量中的每个元素,根据语音存在概率模型,计算对应于信号功率谱向量中的每个元素的语音存在概率,以生成当前波束的语音存在概率向量;以及执行下述步骤以更新当前波束的语音存在概率向量的每个元素:
Figure 31523DEST_PATH_IMAGE014
其中:t表示帧索引;f表示频点;
Figure 273149DEST_PATH_IMAGE015
为当前波束的语音存在概率向量;
Figure 876168DEST_PATH_IMAGE016
为当前波束的语音存在概率向量在第t-1帧上在频点f处的元素对应的语音存在概率;
Figure 988481DEST_PATH_IMAGE017
为当前波束的语音存在概率向量在第t帧上在频点f处的元素对应的语音存在概率;α 2为大于0且小于1的参数;以及
函数
Figure 651543DEST_PATH_IMAGE018
的取值是
Figure 380465DEST_PATH_IMAGE019
Figure 52755DEST_PATH_IMAGE020
为当前波束的功率谱向量的元素对应的功率谱;
Figure 753994DEST_PATH_IMAGE007
为当前波束的功率谱向量的元素对应的局部能量最低值;
Figure 119117DEST_PATH_IMAGE021
为用于判定当前帧是否带有语音信号的阈值;
对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率。
优选地,α 2大于等于0.8且小于等于0.99。
可选地,对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率包括:对所述语音存在概率向量的所有元素进行加权平均以作为所述综合语音存在概率,其中对于所述语音存在概率向量中的每个元素,若该元素对应的频点位于0至5 kHz范围内,则对该元素赋予权重1,否则赋予权重0。
优选地,在步骤(b)中,在计算出当前波束的综合语音信号能量之后,按照下述操作对当前波束的综合语音信号能量进行更新:
Figure 69755DEST_PATH_IMAGE022
其中:
Figure 303594DEST_PATH_IMAGE023
为当前波束在第t-1帧上的综合语音信号能量;
Figure 859340DEST_PATH_IMAGE024
为当前波束在第t帧上的综合语音信号能量;
函数
Figure 395364DEST_PATH_IMAGE025
代表当前帧的语音信号能量,其取值为:
Figure 833299DEST_PATH_IMAGE026
其中δ 2为用于决定是否将函数
Figure 581812DEST_PATH_IMAGE025
的值置零的阈值。
优选地,α 3大于等于0.8且小于等于0.99。
本发明的方案计算每个波束的综合语音信号能量,以据此选择麦克风阵列的输出波束。特别是,该综合语音信号能量充分考虑到波束的综合能量以及综合语音存在概率,通过波束能量与语音存在概率两者进行波束选择,既不需要预先获取说话人信息,也克服了非人声的噪声干扰,同时也不需要在识别波达方向之前进行任何语音识别。此外,该综合语音信号能量为标量的乘积,减少了向量计算,降低了计算复杂度。
应理解,上述对背景技术以及发明内容概要的描述仅仅是示意性的而非限制性的。
附图说明
图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图;
图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图;及
图3是在根据本发明的用于选择麦克风阵列的输出波束的方法的一个实施例中,更新局部能量最低值估计的示意性流程图。
具体实施方式
在下文中将参考附图更全面地描述本发明,附图构成本发明公开的一部分并通过图示的方式示出示例性的实施例。应理解,附图所示以及下文所述的实施例仅仅是说明性的,而不作为对本发明的限制。
图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图。
图1所示方法100包括:(a)如步骤102所示,从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号。
该方法100还包括:(b)如步骤104至108所示,对于所述多个波束中的每个波束,执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量(步骤104);基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量(步骤106),其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量。
该方法还包括:(c)如步骤110所示,选取综合语音信号能量值最大的波束作为输出波束。
图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图。
方法200开始于步骤202,在其中将波束成形算法输出的波束变换到STFT域,并用频谱信息更新各个波束的功率谱向量。具体地,假设波束成形算法输出B个波束,分别被变换到F点的短时傅里叶变换(STFT,Short-Time Fourier Transform)域中,则第b个波束(b= 1, 2, …, B)的输出信号可在STFT域中表示为F维频谱向量Y b ,向量Y b 的第f个元素Y b (f)表示该信号在频点f处的频谱信息。对向量Y b 的各频点取模,并与功率谱向量S b 加权相加,根据下述公式更新后者:
Figure 523223DEST_PATH_IMAGE027
其中自变量t表示时间(即帧索引),如S b (f,t-1)和S b (f,t)分别表示S b 在第t-1帧和第t帧在频点f处的值,下文中S b,min S b,tmp 等变量也采用这种表示方法。参数α 1介于0和1之间,取值越大,功率谱的更新程度越小,从而可以更好地抵抗瞬态噪声的影响,但更容易与真实的当前的瞬时能量值失配,优选的取值为0.9到0.99。向量Y b 在频率f上的模,|Y b (f)|2,代表当前帧(即第t帧,下同)信号在频率f上的功率谱;通过用|Y b (f)|2更新S b (f),后者仍表示与前者相同的物理意义(信号能量),但由于是平滑地更新的,可以更好地抵抗瞬态噪声的影响。后面的步骤优选地可以用更新后的功率谱向量进行计算,从而使系统相对稳定。
在步骤204,更新当前波束的局部能量最低值S b,min 的估计。例如,可根据图3所示的方法300,更新局部能量最低值估计。应理解,虽然图3示出了一种具体的方法,但本发明的实施并不限于此。例如,可以采用马丁·R的《基于最小统计的谱减法》(Martin, R.:Spectral subtraction based on minimum statistics. 1994, Proceedings of 7 th EUSIPCO, 1182-1185)或该方法的变体来更新当前波束的局部能量最低值S b,min 的估计。
在步骤302,维护两个长度为F的向量S b,minS b,tmp (其初始值均为0,即对所有f,有S b,min (f,0)=S b,tmp (f,0)=0)。
在步骤304,判断当前波束的功率谱向量
Figure 964568DEST_PATH_IMAGE028
中是否存在下一元素。如果是,则进入步骤306;如果否,则表明当前波束的功率谱向量的每个元素已处理完毕,进入步骤312,得出每个元素对应的局部能量最低值。
在步骤306,对各频点对应的当前元素按如下方式进行更新,
Figure 280012DEST_PATH_IMAGE005
Figure 504320DEST_PATH_IMAGE006
在步骤308,判断是否已处理L帧信号,即,判断t是否是L的倍数。每当L帧信号被处理之后,在步骤310,按照如下方式对S b,min S b,tmp 进行重置,
Figure 769079DEST_PATH_IMAGE029
Figure 381326DEST_PATH_IMAGE030
其中向量S b,min 是局部(L帧信号)的最小值。由于在任何时刻,信号一定是噪声或者噪声和语音的累加,因此,可近似地认为S b,min 代表噪声能量的强度。这种方法本质上是基于语音信号是非稳定信号、而噪声是稳定信号这一假设的,L的取值越小,对噪声的稳定性要求越低,但噪声信号和语音信号之间的区分度越小;该参数取值也和每帧信号的长度设定有关。在本发明的优选实施例中,大致应使得L帧信号约包含200毫秒到500毫秒之间的信号。
回到图2,在步骤206,更新当前波束的各频点上的语音存在概率。具体地,可以将各频点上语音信号存在的概率用向量p b 表示,并按照如下方式进行更新,
Figure 387328DEST_PATH_IMAGE014
其中参数α 2介于0和1之间,推荐设置为0.8到0.99;
函数I(b, f)的取值是
Figure 618590DEST_PATH_IMAGE019
其中参数δ 1代表用于判定当前帧是否带有语音信号的阈值。
应理解,步骤206可以采用科恩·I和伯杜戈·B的《采用最小统计控制递归平均的噪声估计进行鲁棒语音增强》( Cohen, I. and Berdugo, B.: Noise estimation byminima controlled recursive averaging for robust speech enhancement. 2002,IEEE Signal Processing Letters, 9(1): 12-15)或其变体来执行,也可以用其它语音信号概率估计的算法来替代。类似地,需要该算法的输入为信号功率谱S b ,输出为0到1之间的语音概率p b
在步骤208中,对语音存在概率向量进行加权平均,得出当前波束的综合语音概率。具体地,对向量p b 做加权平均。对位于0-5kHz范围内的频点赋予权重1,否则赋予权重0,得到波束b的综合语音存在概率q b 。之后的步骤中会使用标量q b 而不是向量p b 进行计算,会使计算得到简化;同时,由于人声频率几乎不可能超过5kHz,可认为舍弃高于该频率的信号不会影响最终结果。
步骤210中,对功率谱向量进行加权平均,得出当前波束的综合能量。类似地,对向量S b 做同样的加权平均,得到波束b的综合能量e b 。具体地,对向量S b 做加权平均。对位于0-5kHz范围内的频点赋予权重1,否则赋予权重0。
在步骤212中,计算当前波束的综合语音信号能量。定义d b 为波束b的语音信号能量,其初始值为0(即d b (0)=0),在每一帧按照如下方式进行更新:
Figure 393648DEST_PATH_IMAGE031
参数α 3介于0和1之间,推荐设置为0.8到0.99,函数J(b)代表当前帧的语音信号能量,其取值是
Figure 911217DEST_PATH_IMAGE026
其中参数δ 2代表用于决定是否将函数值置0的阈值。
步骤214,判断是否存在下一波束。如果是,则返回步骤204,对下一波束执行步骤204-212;如果否,则进入步骤218。
在步骤218中,确定综合语音信号能量最大的波束,作为输出波束。具体地,取综合语音信号能量集合{d b }(b = 1, 2, …, B)中的最大值所对应的波束b,作为输出波束。
以上实施例以示例的方式给出了具体操作过程,但应理解,本发明的保护范围不限于此。
虽然出于本公开的目的已经描述了本发明各方面的各种实施例,但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例,而是可以和不同实施例中公开的特征进行组合。此外,应理解,上文所述方法步骤可以顺序执行、并行执行、合并为更少步骤、拆分为更多步骤,以不同于所述方式组合和/或省略。本领域技术人员应理解,还存在可能的更多可选实施方式和变型,可以对上述部件和构造进行各种改变和修改,而不脱离由本发明权利要求所限定的范围。

Claims (14)

1.一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:
(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;
(b)对于所述多个波束中的每个波束,执行下述操作:
将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;
基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及
(c)选取综合语音信号能量值最大的波束作为输出波束。
2.根据权利要求1所述的方法,其特征在于,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。
3.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在得出当前波束的频谱向量和功率谱向量之后,根据下述公式用频谱向量更新功率谱向量:
Figure 251974DEST_PATH_IMAGE001
其中:
t表示帧索引;
f表示频点;
Figure 561732DEST_PATH_IMAGE002
为当前波束的功率谱向量在第t-1帧上、频点f处的元素对应的功率谱;
Figure 944041DEST_PATH_IMAGE003
为当前波束的功率谱向量在第t帧上、频点f处的元素对应的功率谱;
α1为大于0且小于1的参数;以及
Figure 997448DEST_PATH_IMAGE004
为当前波束的频谱向量在第t帧上、频点f处的元素对应的频谱。
4.根据权利要求3所述的方法,其特征在于,α1大于等于0.9且小于等于0.99。
5.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。
6.根据权利要求5所述的方法,其特征在于,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:
维护两个长度与频谱向量相同且初始值为零的向量Sb,min和Sb,tmp
对向量Sb,min和Sb,tmp的每个元素,按下述公式进行更新:
Figure 899545DEST_PATH_IMAGE006
Figure 380205DEST_PATH_IMAGE007
其中:
t表示帧索引;
f表示频点;
Figure 485695DEST_PATH_IMAGE008
表示当前波束的功率向量谱在第t帧上、频点f处的元素对应的局部能量最低值;
Figure 342793DEST_PATH_IMAGE009
表示当前波束的功率向量谱在第t-1帧上、频点f处的元素对应的局部能量最低值;
Figure 99396DEST_PATH_IMAGE003
表示当前波束的功率向量谱在第t帧上、频点f处的元素对应的功率谱;
Figure 750957DEST_PATH_IMAGE010
表示当前波束的功率向量谱在第t帧上、频点f处的元素对应的局部能量临时最低值;
Figure 107858DEST_PATH_IMAGE011
表示当前波束的功率向量谱在第t-1帧上、频点f处的元素对应的局部能量临时最低值;且每当L个元素按上述公式进行更新之后,按下述方式对向量Sb,min和Sb,tmp进行重置:
Figure 503067DEST_PATH_IMAGE012
Figure 114177DEST_PATH_IMAGE013
在对向量Sb,min和Sb,tmp的每个元素进行更新之后,得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。
7.根据权利要求6所述的方法,其特征在于,所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。
8.根据权利要求1所述的方法,其特征在于,所述综合能量是按照下述步骤得出的:
对所述功率谱向量的所有元素求平均值以作为所述综合能量。
9.根据权利要求8所述的方法,其特征在于,对所述功率谱向量的所有元素求平均值以作为所述综合能量包括:
对所述功率谱向量的所有元素进行加权平均以作为所述综合能量,其中对于所述功率谱向量中的每个元素,若该元素对应的频点位于0至5kHz范围内,则对该元素赋予权重1,否则赋予权重0。
10.根据权利要求1所述的方法,其特征在于,所述综合语音存在概率是按照下述步骤得出的:
对于当前波束的信号功率谱向量中的每个元素,根据语音存在概率模型,计算对应于信号功率谱向量中的每个元素的语音存在概率,以生成当前波束的语音存在概率向量;以及
执行下述步骤以更新当前波束的语音存在概率向量的每个元素:
Figure 202219DEST_PATH_IMAGE014
其中:
t表示帧索引;
f表示频点;
Figure 282301DEST_PATH_IMAGE015
为当前波束的语音存在概率向量;
Figure 481202DEST_PATH_IMAGE016
为当前波束的语音存在概率向量在第t-1帧上、频点f处的元素对应的语音存在概率;
Figure 946818DEST_PATH_IMAGE017
为当前波束的语音存在概率向量在第t帧上、频点f处的元素对应的语音存在概率;
α2为大于0且小于1的参数;以及
函数
Figure 205761DEST_PATH_IMAGE018
的取值是
Figure 960090DEST_PATH_IMAGE019
Figure 14546DEST_PATH_IMAGE003
为当前波束的功率向量谱在第t帧上、频点f处的元素对应的功率谱;
Figure 537931DEST_PATH_IMAGE008
为当前波束的功率向量谱在第t帧上、频点f处的元素对应的局部能量最低值;
Figure 30093DEST_PATH_IMAGE020
为用于判定当前帧是否带有语音信号的阈值;
对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率。
11.根据权利要求10所述的方法,其特征在于,α2大于等于0.8且小于等于0.99。
12.根据权利要求9所述的方法,其特征在于,对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率包括:
对所述语音存在概率向量的所有元素进行加权平均以作为所述综合语音存在概率,其中对于所述语音存在概率向量中的每个元素,若该元素对应的频点位于0至5 kHz范围内,则对该元素赋予权重1,否则赋予权重0。
13.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在计算出当前波束的综合语音信号能量之后,按照下述操作对当前波束的综合语音信号能量进行更新:
Figure 6139DEST_PATH_IMAGE021
其中:
Figure 546842DEST_PATH_IMAGE022
为当前波束在第t-1帧上的综合语音信号能量;
Figure 3362DEST_PATH_IMAGE023
为当前波束在第t帧上的综合语音信号能量;
α3为大于0且小于1的参数;
函数
Figure 338528DEST_PATH_IMAGE024
代表当前帧的语音信号能量,其取值为:
Figure 129767DEST_PATH_IMAGE025
其中δ2为用于决定是否将函数
Figure 208581DEST_PATH_IMAGE024
的值置零的阈值。
14.根据权利要求13所述的方法,其特征在于,α3大于等于0.8且小于等于0.99。
CN201911097476.0A 2019-11-12 2019-11-12 用于选择麦克风阵列的输出波束的方法 Active CN110600051B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911097476.0A CN110600051B (zh) 2019-11-12 2019-11-12 用于选择麦克风阵列的输出波束的方法
PCT/CN2020/128274 WO2021093798A1 (zh) 2019-11-12 2020-11-12 用于选择麦克风阵列的输出波束的方法
US17/776,541 US20220399028A1 (en) 2019-11-12 2020-11-12 Method for selecting output wave beam of microphone array

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097476.0A CN110600051B (zh) 2019-11-12 2019-11-12 用于选择麦克风阵列的输出波束的方法

Publications (2)

Publication Number Publication Date
CN110600051A CN110600051A (zh) 2019-12-20
CN110600051B true CN110600051B (zh) 2020-03-31

Family

ID=68852349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097476.0A Active CN110600051B (zh) 2019-11-12 2019-11-12 用于选择麦克风阵列的输出波束的方法

Country Status (3)

Country Link
US (1) US20220399028A1 (zh)
CN (1) CN110600051B (zh)
WO (1) WO2021093798A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600051B (zh) * 2019-11-12 2020-03-31 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN111883162B (zh) * 2020-07-24 2021-03-23 杨汉丹 唤醒方法、装置和计算机设备
CN113257269A (zh) * 2021-04-21 2021-08-13 瑞芯微电子股份有限公司 一种基于深度学习的波束形成方法和存储设备
CN113932912B (zh) * 2021-10-13 2023-09-12 国网湖南省电力有限公司 一种变电站噪声抗干扰估计方法、系统及介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
CN102739886B (zh) * 2011-04-01 2013-10-16 中国科学院声学研究所 基于回声频谱估计和语音存在概率的立体声回声抵消方法
CN102324237B (zh) * 2011-05-30 2013-01-02 深圳市华新微声学技术有限公司 麦克风阵列语音波束形成方法、语音信号处理装置及系统
CN102508204A (zh) * 2011-11-24 2012-06-20 上海交通大学 基于波束形成和传递路径分析的室内噪声源定位方法
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
CN103871420B (zh) * 2012-12-13 2016-12-21 华为技术有限公司 麦克风阵列的信号处理方法及装置
CN105590631B (zh) * 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及系统
CN106251877B (zh) * 2016-08-11 2019-09-06 珠海全志科技股份有限公司 语音声源方向估计方法及装置
EP3300078B1 (en) * 2016-09-26 2020-12-30 Oticon A/s A voice activitity detection unit and a hearing device comprising a voice activity detection unit
CN107976651B (zh) * 2016-10-21 2020-12-25 杭州海康威视数字技术股份有限公司 一种基于麦克风阵列的声源定位方法及装置
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
US10096328B1 (en) * 2017-10-06 2018-10-09 Intel Corporation Beamformer system for tracking of speech and noise in a dynamic environment
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones
CN110390947B (zh) * 2018-04-23 2024-04-05 北京京东尚科信息技术有限公司 声源位置的确定方法、系统、设备和存储介质
CN108922554B (zh) * 2018-06-04 2022-08-23 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
US11062727B2 (en) * 2018-06-13 2021-07-13 Ceva D.S.P Ltd. System and method for voice activity detection
CN113795881A (zh) * 2019-03-10 2021-12-14 卡多姆科技有限公司 使用线索的聚类的语音增强
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110600051B (zh) * 2019-11-12 2020-03-31 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法

Also Published As

Publication number Publication date
WO2021093798A1 (zh) 2021-05-20
CN110600051A (zh) 2019-12-20
US20220399028A1 (en) 2022-12-15

Similar Documents

Publication Publication Date Title
CN110600051B (zh) 用于选择麦克风阵列的输出波束的方法
US11395061B2 (en) Signal processing apparatus and signal processing method
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
JP4765461B2 (ja) 雑音抑圧システムと方法及びプログラム
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
CN109817209B (zh) 一种基于双麦克风阵列的智能语音交互系统
US8363850B2 (en) Audio signal processing method and apparatus for the same
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
US8370140B2 (en) Method of filtering non-steady lateral noise for a multi-microphone audio device, in particular a “hands-free” telephone device for a motor vehicle
US20030177007A1 (en) Noise suppression apparatus and method for speech recognition, and speech recognition apparatus and method
US8346551B2 (en) Method for adapting a codebook for speech recognition
US20220068288A1 (en) Signal processing apparatus, signal processing method, and program
JP2019503107A (ja) 音響信号を向上させるための音響信号処理装置および方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
TW200926151A (en) Multiple microphone voice activity detector
CN108538306B (zh) 提高语音设备doa估计的方法及装置
US10770090B2 (en) Method and device of audio source separation
CN113223552A (zh) 语音增强方法、装置、设备、存储介质及程序
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
Kim et al. Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment
Lim et al. Speaker localization in noisy environments using steered response voice power
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
Ji et al. A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant