CN105321528A - 一种麦克风阵列语音检测方法及装置 - Google Patents

一种麦克风阵列语音检测方法及装置 Download PDF

Info

Publication number
CN105321528A
CN105321528A CN201410305486.XA CN201410305486A CN105321528A CN 105321528 A CN105321528 A CN 105321528A CN 201410305486 A CN201410305486 A CN 201410305486A CN 105321528 A CN105321528 A CN 105321528A
Authority
CN
China
Prior art keywords
voice
array
detection threshold
current
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410305486.XA
Other languages
English (en)
Other versions
CN105321528B (zh
Inventor
范泛
付中华
黎家力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410305486.XA priority Critical patent/CN105321528B/zh
Priority to PCT/CN2014/094542 priority patent/WO2015196760A1/zh
Publication of CN105321528A publication Critical patent/CN105321528A/zh
Application granted granted Critical
Publication of CN105321528B publication Critical patent/CN105321528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种麦克风阵列语音检测方法及装置,所述方法包括如下步骤:根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。本发明提供的麦克风阵列语音方法及装置,在复杂噪声条件下能够准确确定检测阈值,提高噪声检测的准确度。

Description

一种麦克风阵列语音检测方法及装置
技术领域
本发明涉及语音处理技术,尤其涉及一种麦克风阵列语音检测方法及装置。
背景技术
在语音通信和人机语音交互中,语音检测是一个重要的环节,准确检测语音信号对语音的识别、增强、编码等等都有重要影响。传统的单通道语音检测通常都以某种特征为检测依据,通过对输入的信号进行特征分析,然后用分类器进行检测。由于实时性的要求,特征分析和分类器检测都相对简单,特征分析所常用的特征包括短时能量、过零率或其他的谱特征等,而分类器也以阈值判定、线性分离器等为主。这些检测方法在复杂噪声条件下检测性能极其有限,噪声环境下语音检测的基本假设是噪声与语音信号的特征不同,这在实际当中存在如下困难:检测阈值的确定不够准确,特别是变化的噪声环境,检测阈值更是难以确定。
发明内容
有鉴于此,本发明提供一种麦克风阵列语音方法及装置,在复杂噪声条件下能够准确确定检测阈值,提高噪声检测的准确度。
基于上述目的本发明提供的麦克风阵列语音检测方法,包括如下步骤:
根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
可选的,计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括:
采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
可选的,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
可选的,所述检测阈值调整状态包括有语音状态。
可选的,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括:
若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值,则判断转入有语音状态;
和/或,若当前处于语音结束状态且最大子带功率大于当前检测阈值,则判断转入有语音状态。
可选的,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括:
若当前处于无语音状态且最大子带功率比大于当前检测阈值,则判断转入语音开始状态;
若当前处于语音开始状态且最大子带功率小于等于当前检测阈值,则判断转入无语音状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值,则判断转入语音结束状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值,则判断转入无语音状态。
可选的,根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前,还包括:
接收通过语音采集设备输入的阵列语音输入信号;
对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
根据所述时频表示信号计算频域固定波束输出;
根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
可选的,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数;
所述预设波束参数通过下述公式进行确定:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ; 约束条件为AH(k)d(k)=1,并且, A H ( k ) d ( k ) ≤ WNG min - 1 ( k ) ;
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述关于Γ(k)的公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度;
WNGmin(k)是白噪声增益;
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
可选的,当判断当前转入的语音状态为预设的检测阈值调整状态时,依据下述公式对检测阈值进行调整:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) ;
其中,θ′(λ)为调整后的检测阈值;θL、θH分别为预设的语音检测阈值下限和上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
进一步,本发明提供一种麦克风阵列语音检测装置,包括:
第一计算模块:用于根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
状态判断模块:用于根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
阈值调整模块:用于当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
可选的,第一计算模块具体包括:
第一计算单元:用于采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
第二计算单元:用于根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
第三计算单元:用于以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
可选的,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
可选的,所述检测阈值调整状态包括有语音状态。
可选的,所述状态判断模块具体包括:
第一判断单元:用于在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时,判断转入有语音状态;
和/或,第二判断单元:用于在当前处于语音结束状态且最大子带功率大于当前检测阈值时,判断转入有语音状态。
可选的,所述状态判断模块还包括:
第三判断单元:用于在前处于无语音状态且最大子带功率比大于当前检测阈值时,判断转入语音开始状态;
第四判断单元:用于在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时,判断转入无语音状态;
第五判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值是,判断转入语音结束状态;
第六判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时,判断转入无语音状态。
可选的,所述装置还包括:
信号接收模块:用于接收通过语音采集设备输入的阵列语音输入信号;
信号变换模块:用于对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
第二计算模块:用于根据所述时频表示信号计算频域固定波束输出;
第三计算模块:用于根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
第四计算模块:用于根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
可选的,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数;
所述预设波束参数通过下述公式进行确定:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ; 约束条件为AH(k)d(k)=1,并且, A H ( k ) d ( k ) ≤ WNG min - 1 ( k ) ;
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述关于Γ(k)的公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度;
WNGmin(k)是白噪声增益;
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
可选的,所述阈值调整模块依据下述公式对检测阈值进行调整:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) ;
其中,θ′(λ)为调整后的检测阈值;θL、θH分别为预设的语音检测阈值下限和上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
从上面所述可以看出,本发明提供的麦克风语音检测方法及装置,在根据预设的条件判断处于语音状态时,对检测阈值进行调整,进而即使在变化的噪声环境中,也可以辅助确定检测阈值。此外,本发明实施例在语音检测过程中,根据预设的波束参数对语音信号进行处理,增强语音信号的指向性,降低噪声或其他语音信号对语音检测设备和系统造成的影响。
附图说明
图1为本发明一种实施例的麦克风语音检测方法流程示意图;
图2为本发明一种实施例中计算阵列语音输入信号的最大子带功率比和检测阈值的步骤的过程;
图3为本发明另一种实施例所包含的步骤示意图;
图4为本发明一种实施例的状态转换示意图;
图5为本发明一种实施例的麦克风语音检测装置结构示意图;
图6为本发明一种实施例中计算频域固定波束输出时的信号流图;
图7为本发明一种实施例中计算当前帧平均功率谱时的信号流图。
具体实施方式
为了给出有效的实现方案,本发明提供了以下实施例,以下结合说明书附图对本发明的实施例进行说明。
麦克风阵列语音检测方法,其特征在于,包括图1所示的步骤:
步骤101:根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
步骤102:根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
步骤103:当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
从上面所述可以看出,本发明提供的麦克风阵列语音检测方法,按照预先设定的判断条件,对当前所处的语音状态进行判断,并在当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整,调整检测阈值时的语音状态下,阵列语音输入信号的最大子带功率比处于设定的范围,这样可以在变化的噪声环境中较为准确地确定检测阈值。
在本发明的一些实施例中,计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括如图2所示的过程:
步骤201:采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱。
步骤202:根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比。
步骤203:以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
在一些实施例中,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为频点编号为b且短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
在一些实施例中,所述检测阈值调整状态包括有语音状态。
在一些实施例中,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括:
若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值,则判断转入有语音状态;
和/或,若当前处于语音结束状态且最大子带功率大于当前检测阈值,则判断转入有语音状态。
在一些实施例中,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括:
若当前处于无语音状态且最大子带功率比大于当前检测阈值,则判断转入语音开始状态;
若当前处于语音开始状态且最大子带功率小于等于当前检测阈值,则判断转入无语音状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值,则判断转入语音结束状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值,则判断转入无语音状态。
具体的,参照图4,设当前检测阈值为θ(λ)。采用两个计数器分别记录连续处于语音开始状态的帧数和连续处于语音结束状态的帧数,设连续处于语音状态的帧数为c1,连续处于语音结束状态的帧数为c2;则在本发明的一个实施例中,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤包括如下过程:
若当前处于无语音状态且r(λ)>θ(λ),则判断从无语音状态转入语音开始状态;
若当前处于语音开始状态且r(λ)≤θ(λ),则判断从语音开始状态转入无语音状态;
预设连续处于语音状态的第一帧数阈值L1:若当前处于语音开始状态且r(λ)>θ(λ)、c1>L1,则判断从语音开始状态转入有语音状态;
若当前处于有语音状态且r(λ)≤θ(λ),则判断从有语音状态转入语音结束状态;
若当前处于语音结束状态且r(λ)>θ(λ),则判断从语音结束状态转入有语音状态;
预设连续处于语音结束状态的第二帧数阈值L2:若当前处于语音结束状态且r(λ)≤θ(λ)、c2>L2,则判断从语音结束状态转入无语音状态。
现有技术的语音检测技术在实际使用过程中,不仅检测阈值较难确定,而且当噪声或干扰声来自其他的语音信号时,检测系统可能完全失效。
为了适应复杂多变的环境噪声干扰,可选择主从麦克风和麦克风阵列作为拾音设备。主从麦克风采样两只不同指向性的麦克风,使目标方向信号在两只麦克风中产生功率差异,进而利用两只麦克风的功率比来进行目标语音检测,其关键在于主从麦克风设计以及目标语音方位。麦克风阵列则利用各个阵元的空间拓扑结构,形成特定的指向性波束,从而使波束内外信号产生功率差异,然后利用这一线索检测目标方向的信号。然而,现有技术中的主从麦克风拾音技术仍然存在问题:麦克风阵列波束不可避免会受到旁瓣的影响,且低频指向性很差;因此,现有技术的主从麦克风拾音过程中的语音检测技术实际使用时仍有许多问题需要解决。
在本发明的一些实施例中,根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前,还包括如图3所示的过程:
步骤301:接收通过语音采集设备输入的阵列语音输入信号;
步骤302:对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
步骤303:根据所述时频表示信号计算频域固定波束输出;
步骤304:根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
步骤305:根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
具体的,作为一个实施例,在对所述原始阵列语音信号进行加窗截短时,采用汉宁窗,重叠3/4窗长;时间窗长度为Lwnd、相邻窗之间重叠Lovlp。对所述原始阵列语音信号进行短时傅里叶变换,得到原始语音阵列信号的时频表示信号:y1(k,λ)……yN(k,λ)。k为频点编号;λ为短时帧编号。
更具体的,所述频域固定波束输出采用所述原始语音阵列信号的时频表示信号乘以相应的预设波束参数ai(k),即,所述频域固定波束输出为:
x ( k , λ ) = min ( ( Σ i = 1 N a i ( k ) y i ( k , λ ) ) , y 1 ( k , λ ) ) .
计算所述频域固定波束输出时的信号流图如图6所示。
通过计算频域固定波束输出,可增强波束的指向性,降低噪声干扰或其它语音干扰对系统检测造成的影响。在上述频域固定波束计算公式中,取原始语音阵列信号的时频表示信号乘以相应的预设波束参数计算结果和y1(k,λ)中的最小值,可有效避免波束稳健性不够导致低频异常放大。
所述波束参数的设计好坏可能会直接影响波束内外信号的功率比,在本发明的一个具体实施例中,采用最优频域波束参数设计方法,在满足阵列白噪声增益小于15dB的条件下,设计频域的最优超指向性波束参数。若采用A(k)表示阵元为ai(k)的矩阵,其中i=1……N,则所述最优超指向性波束参数为:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ;
约束条件为AH(k)d(k)=1,并且,
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度。
WNGmin(k)是白噪声增益。
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
最优超指向性波束参数可以采用第三方开源凸优化软件进行设计,如CVX和SeDuMi等。
更具体的,所述当前帧波束输出信号功率谱计算公式为:
φ x ~ ( k , λ ) = | x ( k , λ ) | 2 .
更具体的,所述当前帧平均功率谱计算过程计算公式为:
φ y ‾ ( k , λ ) = 1 N Σ i = 1 N | y i ( k , λ ) | 2 .
在一些实施例中,当判断当前转入的语音状态为预设的检测阈值调整状态时,依据下述公式对检测阈值进行调整:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) ;
其中,θ′(λ)为调整后的检测阈值;θL、θH分别为预设的语音检测阈值下限和上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
具体的,当判断处于语音状态时,先采用下述公式对最大子带功率谱比进行缓慢回归平滑,
r ^ ( λ ) = a 0 r ^ ( λ - 1 ) + ( 1 - a 0 ) r ( λ ) ;
其中,a0为回归平滑系数;为对最大带子带功率谱比进行缓慢回归平滑后的值。
计算出上述最大子带功率谱比缓慢回归平滑后的值之后,根据下述公式采用最小最大方法调整检测阈值:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) .
在一种具体实施例中,当语音检测装置的采样率为16kHz时,上述实施例中所提到的参数可参考下列数值:
N=6;Lwnd=32ms;Lovlp=24ms;c=340m/s;fs=16000Hz;WNGmin(k)=15dB;a0=0.99;ax=0.8;ay=0.8;ar=0.8;L1=10;L2=150;θL=0.25;θH=0.3。
进一步,本发明提供一种麦克风阵列语音检测装置,参照图5,包括:
第一计算模块:用于根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
状态判断模块:用于根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
阈值调整模块:用于当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
仍然参照图5,在一些实施例中,第一计算模块具体包括:
第一计算单元:用于采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
第二计算单元:用于根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
第三计算单元:用于以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
在一些实施例中,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
在一些实施例中,所述检测阈值调整状态包括有语音状态。
在一些实施例中,所述状态判断模块具体包括:
第一判断单元:用于在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时,判断转入有语音状态;
和/或,第二判断单元:用于在当前处于语音结束状态且最大子带功率大于当前检测阈值时,判断转入有语音状态。
在一些实施例中,所述状态判断模块还包括:
第三判断单元:用于在前处于无语音状态且最大子带功率比大于当前检测阈值时,判断转入语音开始状态;
第四判断单元:用于在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时,判断转入无语音状态;
第五判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值是,判断转入语音结束状态;
第六判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时,判断转入无语音状态。
仍然参照图5,在一些实施例中,所述装置还包括:
信号接收模块:用于接收通过语音采集设备输入的阵列语音输入信号;
信号变换模块:用于对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
第二计算模块:用于根据所述时频表示信号计算频域固定波束输出;
第三计算模块:用于根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
第四计算模块:用于根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
在一些实施例中,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数;
所述预设波束参数通过下述公式进行确定:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ; 约束条件为AH(k)d(k)=1,并且, A H ( k ) d ( k ) ≤ WNG min - 1 ( k ) ;
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述关于Γ(k)的公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度;
WNGmin(k)是白噪声增益;
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
从上面所述可以看出,本发明提供的麦克风阵列语音检测方法和装置,在根据预设的条件判断处于语音状态时,对检测阈值进行调整,进而即使在变化的噪声环境中,也可以辅助确定检测阈值。此外,本发明实施例在语音检测过程中,根据预设的波束参数对语音信号进行处理,增强语音信号的指向性,降低噪声或其他语音信号对语音检测设备和系统造成的影响。
应当理解,本说明书所描述的多个实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种麦克风阵列语音检测方法,其特征在于,包括如下步骤:
根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
2.根据权利要求1所述的方法,其特征在于,计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括:
采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
3.根据权利要求2所述的方法,其特征在于,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
4.根据权利要求1所述的方法,其特征在于,所述检测阈值调整状态包括有语音状态。
5.根据权利要求4所述的方法,其特征在于,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括:
若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值,则判断转入有语音状态;
和/或,若当前处于语音结束状态且最大子带功率大于当前检测阈值,则判断转入有语音状态。
6.根据权利要求5所述的方法,其特征在于,根据预先设定的判断条件,采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括:
若当前处于无语音状态且最大子带功率比大于当前检测阈值,则判断转入语音开始状态;
若当前处于语音开始状态且最大子带功率小于等于当前检测阈值,则判断转入无语音状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值,则判断转入语音结束状态;
若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值,则判断转入无语音状态。
7.根据权利要求1所述的方法,其特征在于,根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前,还包括:
接收通过语音采集设备输入的阵列语音输入信号;
对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
根据所述时频表示信号计算频域固定波束输出;
根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
8.根据权利要求7所述的方法,其特征在于,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数;
所述预设波束参数通过下述公式进行确定:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ; 约束条件为AH(k)d(k)=1,并且, A H ( k ) d ( k ) ≤ WNG min - 1 ( k ) ;
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述关于Γ(k)的公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度;
WNGmin(k)是白噪声增益;
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
9.根据权利要求1所述的方法,其特征在于,当判断当前转入的语音状态为预设的检测阈值调整状态时,依据下述公式对检测阈值进行调整:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) ;
其中,θ′(λ)为调整后的检测阈值;θL、θH分别为预设的语音检测阈值下限和上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
10.一种麦克风阵列语音检测装置,其特征在于,包括:
第一计算模块:用于根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比;
状态判断模块:用于根据预先设定的判断条件,采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态;
阈值调整模块:用于当判断当前转入的语音状态为预设的检测阈值调整状态时,对检测阈值进行调整。
11.根据权利要求10所述的装置,其特征在于,第一计算模块具体包括:
第一计算单元:用于采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱,并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
第二计算单元:用于根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
第三计算单元:用于以频点功率比最大的频点为中心,在设定宽度的子带范围内,根据所述子带范围内的平均功率比,采用帧间回归平滑的方式估计最大子带功率比。
12.根据权利要求11所述的装置,其特征在于,所述固定波束输出功率谱计算公式为:
φ x ( k , λ ) = Σ b = k - l 1 k + l 1 ( a x φ x ~ ( b , λ - 1 ) + ( 1 - a x ) φ x ~ ( b , λ ) ) ;
其中,k为频点编号;λ为短时帧编号;为短时帧编号为λ时的当前帧波束输出信号功率谱;ax为第一回归系数;l1为预设定频点数;
所述阵列语音输入信号的平均功率谱的计算公式为:
φ x ‾ ( k , λ ) = Σ b = k - l 1 k + l 1 ( a y φ y ‾ ( b , λ - 1 ) + ( 1 - a y ) φ y ‾ ( b , λ ) ) ;
为短时帧编号为λ时的当前帧的平均功率谱;ay为第二回归系数;
所述各个频点功率比的计算公式为:
所述最大子带功率谱比的计算公式为:
r(λ)=arr(λ-1)+(1-ar)r(λ);
r(λ-1)为r(λ)的上次计算结果,其初始值为设定宽度的子带范围内的平均功率比;ar为第三回归系数。
13.根据权利要求10所述的装置,其特征在于,所述检测阈值调整状态包括有语音状态。
14.根据权利要求13所述的装置,其特征在于,所述状态判断模块具体包括:
第一判断单元:用于在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时,判断转入有语音状态;
和/或,第二判断单元:用于在当前处于语音结束状态且最大子带功率大于当前检测阈值时,判断转入有语音状态。
15.根据权利要求14所述的装置,其特征在于,所述状态判断模块还包括:
第三判断单元:用于在前处于无语音状态且最大子带功率比大于当前检测阈值时,判断转入语音开始状态;
第四判断单元:用于在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时,判断转入无语音状态;
第五判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值是,判断转入语音结束状态;
第六判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时,判断转入无语音状态。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
信号接收模块:用于接收通过语音采集设备输入的阵列语音输入信号;
信号变换模块:用于对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述阵列语音输入信号的时频表示信号;
第二计算模块:用于根据所述时频表示信号计算频域固定波束输出;
第三计算模块:用于根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱;
第四计算模块:用于根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱;并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
17.根据权利要求16所述的装置,其特征在于,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数;
所述预设波束参数通过下述公式进行确定:
A ( k ) = arg min A ( k ) A H ( k ) Γ ( k ) A ( k ) ; 约束条件为AH(k)d(k)=1,并且, A H ( k ) d ( k ) ≤ WNG min - 1 ( k ) ;
Γ(k)为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为N×N矩阵,其第n1行n2列元素为:
Γ n 1 , n 2 ( k ) = sin ( 2 πkd n 1 , n 2 ( cK ) - 1 ) 2 πkd n 1 , n 2 ( cK ) - 1 ;
上述关于Γ(k)的公式中,为第n1个麦克风和第n2个麦克风之间的距离,c是声速,K是短时傅里叶变换的长度;
WNGmin(k)是白噪声增益;
d(k)为目标声源到语音采集设备的空间导向矢量,其计算公式为:
d ( k ) = [ exp ( jk d 1 cos ( θ ) c f s ) , . . . exp ( jk d N cos ( θ ) c f s ) ] T ;
上述公式中,θ为目标声源到语音采集设备的方位角;d1……dN是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离;fs是采样频率。
18.根据权利要求10所述的装置,其特征在于,所述阈值调整模块依据下述公式对检测阈值进行调整:
θ ′ ( λ ) = max ( θ L , min ( r ^ ( λ ) 2 ) ) ;
其中,θ′(λ)为调整后的检测阈值;θL、θH分别为预设的语音检测阈值下限和上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
CN201410305486.XA 2014-06-27 2014-06-27 一种麦克风阵列语音检测方法及装置 Active CN105321528B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410305486.XA CN105321528B (zh) 2014-06-27 2014-06-27 一种麦克风阵列语音检测方法及装置
PCT/CN2014/094542 WO2015196760A1 (zh) 2014-06-27 2014-12-22 一种麦克风阵列语音检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410305486.XA CN105321528B (zh) 2014-06-27 2014-06-27 一种麦克风阵列语音检测方法及装置

Publications (2)

Publication Number Publication Date
CN105321528A true CN105321528A (zh) 2016-02-10
CN105321528B CN105321528B (zh) 2019-11-05

Family

ID=54936666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410305486.XA Active CN105321528B (zh) 2014-06-27 2014-06-27 一种麦克风阵列语音检测方法及装置

Country Status (2)

Country Link
CN (1) CN105321528B (zh)
WO (1) WO2015196760A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议系统的双端通话检测方法
CN110049423A (zh) * 2019-04-22 2019-07-23 福州瑞芯微电子股份有限公司 一种利用广义互相关和能量谱检测麦克风的方法和系统
WO2020034853A1 (zh) * 2018-08-14 2020-02-20 西安中兴新软件有限责任公司 一种语音信号处理方法及装置、存储介质
CN111064856A (zh) * 2019-12-25 2020-04-24 欣诚信息技术有限公司 基于移动互联网的远程智能取证系统及方法
TWI700004B (zh) * 2018-11-05 2020-07-21 塞席爾商元鼎音訊股份有限公司 減少干擾音影響之方法及聲音播放裝置
US10811033B2 (en) 2018-02-13 2020-10-20 Intel Corporation Vibration sensor signal transformation based on smooth average spectrums
CN112133299A (zh) * 2019-06-25 2020-12-25 大众问问(北京)信息科技有限公司 一种声音信号的处理方法、装置及设备
CN112562735A (zh) * 2020-11-27 2021-03-26 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN112585874A (zh) * 2018-06-08 2021-03-30 上海诺基亚贝尔股份有限公司 用于信号检测的本底噪声估计

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554943A (en) * 2016-10-16 2018-04-18 Sentimoto Ltd Voice activity detection method and apparatus
CN112629639A (zh) * 2020-12-02 2021-04-09 西北工业大学 一种吊放声纳十二臂扩展式超指向性圆环阵
CN113891228A (zh) * 2021-09-24 2022-01-04 珠海格力电器股份有限公司 麦克风故障检测方法及装置、控制设备、空调、存储介质
CN115061086A (zh) * 2022-05-12 2022-09-16 上海事凡物联网科技有限公司 一种基于微孔径麦克风阵列的运动目标检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208864A (en) * 1989-03-10 1993-05-04 Nippon Telegraph & Telephone Corporation Method of detecting acoustic signal
CN1670823A (zh) * 2004-03-17 2005-09-21 哈曼贝克自动系统股份有限公司 通过麦克风阵列检测和降低噪声的方法
JP2008304498A (ja) * 2007-06-05 2008-12-18 Yamaha Corp 音声検出装置、音声会議システムおよび遠隔会議システム
CN101790752A (zh) * 2007-09-28 2010-07-28 高通股份有限公司 多麦克风声音活动检测器
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102509552A (zh) * 2011-10-21 2012-06-20 浙江大学 一种基于联合抑制的麦克风阵列语音增强方法
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN103268766A (zh) * 2013-05-17 2013-08-28 泰凌微电子(上海)有限公司 双麦克风语音增强方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPH11133997A (ja) * 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
JP4607908B2 (ja) * 2007-01-12 2011-01-05 株式会社レイトロン 音声区間検出装置および音声区間検出方法
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208864A (en) * 1989-03-10 1993-05-04 Nippon Telegraph & Telephone Corporation Method of detecting acoustic signal
CN1670823A (zh) * 2004-03-17 2005-09-21 哈曼贝克自动系统股份有限公司 通过麦克风阵列检测和降低噪声的方法
JP2008304498A (ja) * 2007-06-05 2008-12-18 Yamaha Corp 音声検出装置、音声会議システムおよび遠隔会議システム
CN101790752A (zh) * 2007-09-28 2010-07-28 高通股份有限公司 多麦克风声音活动检测器
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102509552A (zh) * 2011-10-21 2012-06-20 浙江大学 一种基于联合抑制的麦克风阵列语音增强方法
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN103268766A (zh) * 2013-05-17 2013-08-28 泰凌微电子(上海)有限公司 双麦克风语音增强方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811033B2 (en) 2018-02-13 2020-10-20 Intel Corporation Vibration sensor signal transformation based on smooth average spectrums
CN112585874A (zh) * 2018-06-08 2021-03-30 上海诺基亚贝尔股份有限公司 用于信号检测的本底噪声估计
US11374666B2 (en) 2018-06-08 2022-06-28 Nokia Technologies Oy Noise floor estimation for signal detection
CN112585874B (zh) * 2018-06-08 2022-07-01 上海诺基亚贝尔股份有限公司 用于信号检测的本底噪声估计
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议系统的双端通话检测方法
WO2020034853A1 (zh) * 2018-08-14 2020-02-20 西安中兴新软件有限责任公司 一种语音信号处理方法及装置、存储介质
TWI700004B (zh) * 2018-11-05 2020-07-21 塞席爾商元鼎音訊股份有限公司 減少干擾音影響之方法及聲音播放裝置
CN110049423A (zh) * 2019-04-22 2019-07-23 福州瑞芯微电子股份有限公司 一种利用广义互相关和能量谱检测麦克风的方法和系统
CN112133299A (zh) * 2019-06-25 2020-12-25 大众问问(北京)信息科技有限公司 一种声音信号的处理方法、装置及设备
CN111064856A (zh) * 2019-12-25 2020-04-24 欣诚信息技术有限公司 基于移动互联网的远程智能取证系统及方法
CN112562735A (zh) * 2020-11-27 2021-03-26 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN112562735B (zh) * 2020-11-27 2023-03-24 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
WO2015196760A1 (zh) 2015-12-30
CN105321528B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN105321528A (zh) 一种麦克风阵列语音检测方法及装置
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
EP3172906B1 (en) Method and apparatus for wind noise detection
CN101236250B (zh) 声音判定方法和声音判定装置
US9633651B2 (en) Apparatus and method for providing an informed multichannel speech presence probability estimation
JP2021500634A (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN101192411B (zh) 大距离麦克风阵列噪声消除的方法和噪声消除系统
CN100524465C (zh) 一种噪声消除装置和方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN102097095A (zh) 一种语音端点检测方法及装置
CN101447190A (zh) 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN101510426A (zh) 一种噪声消除方法及系统
CN103426440A (zh) 利用能量谱熵空间信息的语音端点检测装置及其检测方法
WO2021008000A1 (zh) 语音唤醒方法、装置及电子设备、存储介质
CN105469785A (zh) 通信终端双麦克风消噪系统中的语音活动检测方法及装置
CN106328168B (zh) 一种语音信号相似度检测方法
CN105261359A (zh) 手机麦克风的消噪系统和消噪方法
CN105679329A (zh) 可适应强烈背景噪声的麦克风阵列语音增强装置
CN105118511A (zh) 一种雷声识别方法
CN112034418A (zh) 基于频域Bark子带的波束扫描方法及声源定向装置
CN108520756A (zh) 一种说话人语音分离的方法及装置
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
US9026436B2 (en) Speech enhancement method using a cumulative histogram of sound signal intensities of a plurality of frames of a microphone array

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant