CN107393559A - 检校语音检测结果的方法及装置 - Google Patents

检校语音检测结果的方法及装置 Download PDF

Info

Publication number
CN107393559A
CN107393559A CN201710578825.5A CN201710578825A CN107393559A CN 107393559 A CN107393559 A CN 107393559A CN 201710578825 A CN201710578825 A CN 201710578825A CN 107393559 A CN107393559 A CN 107393559A
Authority
CN
China
Prior art keywords
testing result
buffering area
present frame
mrow
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710578825.5A
Other languages
English (en)
Other versions
CN107393559B (zh
Inventor
蔡钢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co ltd
Original Assignee
Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongshun Shenzhen Wisdom Mdt Infotech Ltd filed Critical Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority to CN201710578825.5A priority Critical patent/CN107393559B/zh
Publication of CN107393559A publication Critical patent/CN107393559A/zh
Application granted granted Critical
Publication of CN107393559B publication Critical patent/CN107393559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提出的检校语音检测结果的方法及装置,其方法包括以下步骤:若当前帧检测结果为存在语音活动,则计算检测结果缓冲区内检测结果的统计值;将所述统计值与预设阈值比较,获得判断结果。本发明提出的一种检校语音检测结果的方法及装置,考虑了语音一般具有连贯性的特点,计算当前帧的检测结果后,结合前几帧的检测结果获得统计值,将统计值与预设阈值比较,判断当前帧的检测结果是否误判,提高了语音检测准确率。

Description

检校语音检测结果的方法及装置
技术领域
本发明涉及到语音识别领域,特别是涉及到一种检校语音检测结果的方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
201510119374.X公开了一种语音检测方法及装置,方法具体包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。该方案可以节省语音检测的时间。
然而,该方法采用的是计算出的倒谱距离与预设阈值比较,虽然预设了不同距离下的阈值,但由于实际环境的复杂性,导致预设阈值往往无法在具体场景中应用,进而导致语音识别正确率下降。同时,该方案也没有对语音检测结果检校的过程,容易产生误检的情况。
发明内容
本发明的主要目的为提供一种检校语音检测结果的方法及装置,旨在提高语音检测准确率。
本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
本发明提出一种检校语音检测结果的方法,包括以下步骤:
当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;
将所述统计值与预设阈值比较,获得判断结果。
优选地,所述当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值之前,包括:
计算所述当前帧检测结果;
将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区。
优选地,所述计算所述当前帧检测结果,包括:
计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;
将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。
优选地,所述更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,包括:
将所述当前帧检测结果加入上一帧检测结果缓冲区后,将上一帧检测结果缓冲区内最早一帧的检测结果踢出,获得所述当前帧检测结果缓冲区。
优选地,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。
优选地,所述将所述当前帧检测结果加入上一帧检测结果缓冲区,所述检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,以数学形式表示为:
Q=[Q′(:,2:LB);QFrame]
其中,Q为当前帧检测结果缓冲区,Q′为上一帧检测结果缓冲区,QFrame为当前帧检测结果。
优选地,所述统计值由以下公式求得:
其中,QM为统计值,LI为检测结果缓冲区中检测结果的个数,Q(j)为检测结果缓冲区中第j个检测结果。
优选地,所述预设阈值为δLI,所述将所述统计值与预设阈值比较,获得判断结果包括:
将QM与δLI比较,若QM<δLI,则表明当前帧检测结果为误检,所述δ的取值范围为[0.1,0.15)、0.15或(0.15,0.3]。
优选地,所述将所述统计值与预设阈值比较,获得判断结果之后,还包括:
更新所述听觉阈值,所述更新后的听觉阈值可由以下公式求得:
其中,θT(i)为更新后的听觉阈值,FB为听觉特征缓冲区内多个听觉特征组成的矩阵,所述听觉特征缓冲区包括所述听觉特征。
优选地,所述第一维度参数以V(1)表示,其由以下公式求得:
其中,γ(k)为先验信噪比,k为频率,K为频带整体的数量;
所述第二维度参数以V(2)表示,其由以下公式求得:
其中,ε(k)为后验信噪比;
所述第三维度参数以V(3)表示,其由以下公式求得:
其中,LW代表窗长,LT代表起始样本点,函数y为时域混合语音数据,j为时间变量。
优选地,所述先验信噪比γ(k)由以下公式求得:
其中,1为时间帧坐标,Y(l,k)为混合语音频谱,ΦV(k)代表噪音信号的功率谱密度。
优选地,所述后验信噪比ε(k)由以下公式求得:
其中,β为平滑因子,β为取值范围为0.6~0.9,为估算语音频谱,Max函数表示选择两个变量中的最大值。
优选地,β为0.75。
优选地,所述时域信号以y(t)表示,其由以下公式求得:
其中,x(t)为带混响语音信号,ν(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。
优选地,所述计算先验信噪比γ(k)和后验信噪比ε(k)之前,还包括,
对语音参数进行初始化,所述语音参数包括噪音功率谱密度ΦV(k)、观测信号功率谱密度ΦY(k)、估算语音频谱先验信噪比γ(k)和后验信噪比ε(k),初始化过程如下:
设定前LI时间帧没有语音活动,则
γ(k)=1,ε(k)=κ,k=1,2,...,K
其中,K为频带整体的数量,l为时间帧坐标,Y(l,k)为混合语音频谱,κ为衰减因子,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,为估算语音频谱。
优选地,所述对语音参数进行初始化之后,还包括,
根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值,所述观测信号功率谱密度估计值可由以下公式求得:
Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2
其中,α为平滑因子,取值范围为0.95~0.995。
优选地,所述根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值之后,还包括,
计算噪音功率谱自适应更新步长,所述噪音功率谱自适应更新步长可由以下公式求得:
其中,将平滑因子α作为固定步长。
优选地,所述计算噪音功率谱自适应更新步长之后,还包括,
根据所述噪音功率谱自适应更新步长,更新噪音功率谱,所述噪音功率谱可由以下公式求得:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
优选地,所述听觉阈值以θT(i)表示,i=1,2,3,θT(1)与所述第一维度参数相对应,θT(2)与所述第二维度参数相对应,θT(3)与所述第三维度参数相对应,θT(i)由以下公式求得:
θ′T(i)为前一帧的听觉阈值,FB为特征缓冲区矩阵,所述特征缓冲区矩阵由LI个听觉特征构成,即包括前LI-1帧和当前帧的听觉特征,i为所述特征缓冲区矩阵的行数,j为所述特征缓冲区矩阵的列数。
优选地,所述FB由以下公式求得:
F′B为前一帧的特征缓冲区矩阵,V(1)为所述第一维度参数,V(2)为所述第二维度参数,V(3)为所述第三维度参数。
优选地,所述将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得检测结果,由以下公式求得:
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
本发明还提出了一种检校语音检测结果的装置,包括:
结果统计模块,用于当前帧检测结果为存在语音活动,计算检测结果缓冲区内检测结果的统计值;
判断模块,用于将所述统计值与预设阈值比较,获得判断结果。
优选地,还包括:
检测结果模块,用于计算所述当前帧检测结果;
更新检测结果缓冲区模块,用于将所述当前帧检测结果加入检测结果缓冲区,所述检测结果缓冲区包括多个在前帧的检测结果,并更新所述检测结果缓冲区。
优选地,所述检测结果模块包括:
特征提取单元,用于计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;
结果获取单元,用于将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。
优选地,所述更新检测结果缓冲区模块包括:
更新检测结果缓冲区单元,用于将所述当前帧检测结果加入检测结果缓冲区后,将缓冲区内最早一帧的检测结果踢出。
优选地,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。
优选地,所述更新检测结果缓冲区模块,涉及的运算如下:
Q=[Q′(:,2:LB);QFrame]
其中,Q为更新后的检测结果缓冲区,Q′为更新前的检测结果缓冲区,QFrame为当前帧检测结果。
优选地,所述统计值由以下公式求得:
其中,QM为统计值,LI为检测结果缓冲区中检测结果的个数,Q(j)为检测结果缓冲区中第j个检测结果。
优选地,所述预设阈值为δLI,所述判断模块包括:
比较单元,用于将QM与δLI比较,若QM<δLI,则表明当前帧检测结果为误检,所述δ的取值范围为[0.1,0.15)、0.15或(0.15,0.3]。
优选地,还包括:
更新听觉阈值模块,用于更新所述听觉阈值,所述更新后的听觉阈值可由以下公式求得:
其中,θT(i)为更新后的听觉阈值,FB为听觉特征缓冲区内多个听觉特征组成的矩阵,所述听觉特征缓冲区包括所述听觉特征。
本发明提出的一种检校语音检测结果方法及装置,考虑了语音一般具有连贯性的特点,计算当前帧的检测结果后,结合前几帧的检测结果获得统计值,将统计值与预设阈值比较,判断当前帧的检测结果是否误判,提高了语音检测准确率。
附图说明
图1为本发明检校语音检测结果的方法一实施例的流程示意图;
图2为本发明检校语音检测结果的装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
参照图1,本发明提出一种检校语音检测结果的方法,包括以下步骤:
S10、当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;
S20、将所述统计值与预设阈值比较,获得判断结果。
步骤S10之前,先获取当前帧检测结果,并将当前帧检测结果加入检测结果缓冲区,同时更新检测结果缓冲区,即把检测结果缓冲区内时间最早的检测结果踢出。获取当前帧检测结果的具体过程如下:
首先,获取当前帧的听觉特征。听觉特征包括三个参数,分别为与先验信噪比相关的第一维度参数V(1),与后验信噪比相关的第二维度参数V(2)和与时域信号相关的第三维度参数V(3)。当前帧的听觉特征可用以下方式表示:
V(1)其可由以下公式求得:
V(2)可由以下公式求得:
V(3)可由以下公式求得:
其中,K为频带整体的数量,LW代表窗长,LT代表起始样本点,函数y为时域混合语音数据,j为时间变量,γ(k)为先验信噪比,ε(k)为后验信噪比。时域混合语音数据为时域信号的一种。
以上只是第一维度参数V(1),第二维度参数V(2)和第三维度参数V(3)的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
声音信号是指由声音采集系统获取的混合语音数据,其通常存储于缓冲区。假设混合语音数据为y(t),则其可视为带混响语音信号x(t)和背景噪声v(t)的卷积。而带混响语音信号x(t)又可视为混响冲击响应信号h(τ)和无混响语音信号s(t-τ)的卷积。以数学公式可表示为:
以上仅为声音信号的时域信号的一种获取方式,也可通过其他形式获取声音信号的时域信号。
然后,将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得检测结果。例如,若所述第一维度参数、第二维度参数、第三维度参数中任意一个大于各自对应的听觉阈值,则判定所述声音信号存在语音活动。若所述第一维度参数、第二维度参数、第三维度参数中任意一个大于各自对应的听觉阈值,则判定所述声音信号没有语音活动。
上述过程可由以下公式求解:
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
在获得当前帧检测结果之后,将当前帧检测结果加入检测结果缓冲区,并更新检测结果缓冲区,即把检测结果缓冲区内时间最早的检测结果踢出。具体如下:
Q=[Q′(:,2:LB);QFrame]
其中,Q为更新后的检测结果缓冲区,Q′为更新前的检测结果缓冲区,QFrame为当前帧检测结果。
步骤S10中,当QFrame的值为1时,则计算检测结果缓冲区Q内的检测结果的统计值。统计值可以是所有检测结果的总和,也可以是所有检测结果的均值,又或者是各检测结果按不同权重计算获得的计算结果。现以计算检测结果的总和为例,其具体求解如下:
在此处,QM即是本步骤求得的统计值。
假如缓冲区包括n个检测结果,分别为a1、a2、…an,对应分配的权重为b1、b2、…bn,则统计值若为所有检测结果的总和,则统计值为a1b1+a2b2+…anbn
步骤S20中,将统计值QM与预设阈值δLI比较,获得判断结果。若QM<δLI,则表明当前帧检测结果为误检。LI即为检测结果缓冲区Q内的检测结果个数。检测结果缓冲区Q包含当前帧检测结果QFrame在内的多个连续帧检测结果。Q(1)为检测结果缓冲区Q内最早一帧的检测结果,Q(LI)即是QFrame
若QM<δLI,则表明当前帧检测结果为误检。δ的取值范围为[0.1,0.3],本实施例优选的取值为0.15。这样处理的好处在于,可以把一些单独出现的语音存在帧排除掉,减少误帧检测率。
以下为噪音估计具体的计算过程。
首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:
取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,ν(t)为背景噪声,FFT变换(傅里叶变换)如下所示:
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,k为频率坐标。
对前LI时间帧假设没有语音活动,并做如下初始化:
γ(k)=1,ε(k)=κ,k=1,2,...,K
其中,K代表频带整体的数量,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。
从第LT+1时间帧开始做迭代计算,计算流程如下所示:
更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:
Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2
其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
计算先验信噪比和后验信噪比
其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。
以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
根据先验后验信噪比计算噪音功率谱自适应更新步长:
即采用固定步长加上自适应步长的方式,实现整体更新。
根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。
以下为语音检测的具体过程。
在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。
语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。
在提取当前帧的听觉特征之前,有一初始化过程,具体如下:
对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由LI个3维度列向量构成,以公式表示如下:
Q(1:LI)=0
θT(1)=FB(1,1)
θT(2)=FB(2,1)
θT(3)=FB(3,1)
其中,FB为听觉特征缓冲区,Q为语音活动检测结果缓冲区,θT为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,LW代表窗长,LT代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。
从第LT+1时间帧开始,计算当前帧听觉特征如下所示:
根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区,把当前帧数据放入缓冲区:
并求取各维度参数对应的听觉阈值:
当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果:
Q=[Q′(:,2:LB);QFrame]
然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:
由于语音通常是连续出现的,对比QM与固定阈值δLI,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:
同时,更新估算语音频谱计算如下:
δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。
例如,可用Kalman自适应增强对声音信号进行优化,具体如下:
Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测,通常LG<LI。在本项发明中,这两个参数分别设置为LG=15,LI=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
其中,为维度LG×LG的单位矩阵矩阵。
(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
(1.3)Kalman增益计算,更新预测向量,更新过程如下所示:
Gk=G′k+KGEPre
(1.4)混响功率谱密度更新,更新过程如下所示:
该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数α。φ′R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。
(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:
恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。
参照图2,本发明还提出了一种检校语音检测结果的装置,包括:
结果统计模块10,用于当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;
判断模块20,用于将所述统计值与预设阈值比较,获得判断结果。
可选的,还包括:
检测结果模块,用于计算所述当前帧检测结果;
更新检测结果缓冲区模块,用于将所述当前帧检测结果加入检测结果缓冲区,所述检测结果缓冲区包括多个在前帧的检测结果,并更新所述检测结果缓冲区。
可选的,所述检测结果模块包括:
特征提取单元,用于计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;
结果获取单元,用于将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。
可选的,所述更新检测结果缓冲区模块包括:
更新检测结果缓冲区单元,用于将所述当前帧检测结果加入检测结果缓冲区后,将缓冲区内最早一帧的检测结果踢出。
可选的,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。
可选的,所述更新检测结果缓冲区模块,涉及的运算如下:
Q=[Q′(:,2:LB);QFrame]
其中,Q为更新后的检测结果缓冲区,Q′为更新前的检测结果缓冲区,QFrame为当前帧检测结果。
可选的,所述统计值由以下公式求得:
其中,QM为统计值,LI为检测结果缓冲区中检测结果的个数,Q(j)为检测结果缓冲区中第j个检测结果。
可选的,所述预设阈值为δLI,所述判断模块包括:
比较单元,用于将QM与δLI比较,若QM<δLI,则表明当前帧检测结果为误检,所述δ的取值范围为[0.1,0.15)、0.15或(0.15,0.3]。
可选的,还包括:
更新听觉阈值模块,用于更新所述听觉阈值,所述更新后的听觉阈值可由以下公式求得:
其中,θT(i)为更新后的听觉阈值,FB为听觉特征缓冲区内多个听觉特征组成的矩阵,所述听觉特征缓冲区包括所述听觉特征。
本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的检校语音检测结果方法及装置,可以减少监测语音活动中出现的误检状况,提高检测结果准确率。经实验证明,在距离麦克风2米左右,输入信噪比10dB左右,识别率可以从30%提高到65%,当增加噪声至20dB,识别率从10%提高至50%左右。
本发明提出的一种检校语音检测结果的方法及装置,考虑了语音一般具有连贯性的特点,计算当前帧的检测结果后,结合前几帧的检测结果获得统计值,将统计值与预设阈值比较,判断当前帧的检测结果是否误判,提高了语音检测准确率。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种检校语音检测结果的方法,其特征在于,包括以下步骤:
当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;
将所述统计值与预设阈值比较,获得判断结果。
2.根据权利要求1所述的检校语音检测结果的方法,其特征在于,所述当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值之前,包括:
计算所述当前帧检测结果;
将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区。
3.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述计算所述当前帧检测结果,包括:
计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;
将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。
4.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,包括:
将所述当前帧检测结果加入检测结果缓冲区后,将上一帧检测结果缓冲区内最早一帧的检测结果踢出,获得所述当前帧检测结果缓冲区。
5.根据权利要求1所述的检校语音检测结果的方法,其特征在于,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。
6.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,以数学形式表示为:
Q=[Q′(:,2:LB);QFrame]
其中,Q为当前帧检测结果缓冲区,Q′为上一帧检测结果缓冲区,QFrame为当前帧检测结果。
7.根据权利要求6所述的检校语音检测结果的方法,其特征在于,所述统计值由以下公式求得:
<mrow> <msub> <mi>Q</mi> <mi>M</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>L</mi> <mi>I</mi> </msub> </munderover> <mi>Q</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow>
其中,QM为统计值,LI为检测结果缓冲区中检测结果的个数,Q(j)为检测结果缓冲区中第j个检测结果。
8.根据权利要求7所述的检校语音检测结果的方法,其特征在于,所述预设阈值为δLI,所述将所述统计值与预设阈值比较,获得判断结果包括:
将QM与δLI比较,若QM<δLI,则表明当前帧检测结果为误检,所述δ的取值范围为[0.1,0.15)、0.15或(0.15,0.3]。
9.根据权利要求3所述的检校语音检测结果的方法,其特征在于,所述将所述统计值与预设阈值比较,获得判断结果之后,还包括:
更新所述听觉阈值,所述更新后的听觉阈值可由以下公式求得:
<mrow> <msub> <mi>&amp;theta;</mi> <mi>T</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Max</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>L</mi> <mi>I</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>B</mi> </msub> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> </mrow>
其中,θT(i)为更新后的听觉阈值,FB为听觉特征缓冲区内多个听觉特征组成的矩阵,所述听觉特征缓冲区包括所述听觉特征。
10.一种检校语音检测结果的装置,其特征在于,包括:
结果统计模块,用于当前帧检测结果为存在语音活动,计算检测结果缓冲区内检测结果的统计值;
判断模块,用于将所述统计值与预设阈值比较,获得判断结果。
CN201710578825.5A 2017-07-14 2017-07-14 检校语音检测结果的方法及装置 Active CN107393559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578825.5A CN107393559B (zh) 2017-07-14 2017-07-14 检校语音检测结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578825.5A CN107393559B (zh) 2017-07-14 2017-07-14 检校语音检测结果的方法及装置

Publications (2)

Publication Number Publication Date
CN107393559A true CN107393559A (zh) 2017-11-24
CN107393559B CN107393559B (zh) 2021-05-18

Family

ID=60340239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578825.5A Active CN107393559B (zh) 2017-07-14 2017-07-14 检校语音检测结果的方法及装置

Country Status (1)

Country Link
CN (1) CN107393559B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2129051A1 (en) * 2007-01-10 2009-12-02 ZTE Corporation A method and system for realizing the voice compensation in the mobile communication network
CN102446504A (zh) * 2010-10-08 2012-05-09 华为技术有限公司 语音/音乐识别方法及装置
CN102473412A (zh) * 2009-07-21 2012-05-23 日本电信电话株式会社 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质
EP2486562B1 (en) * 2009-10-08 2013-12-11 Telefónica, S.A. Method for the detection of speech segments
CN103456307A (zh) * 2013-09-18 2013-12-18 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
US20140067388A1 (en) * 2012-09-05 2014-03-06 Samsung Electronics Co., Ltd. Robust voice activity detection in adverse environments
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置
CN104916292A (zh) * 2014-03-12 2015-09-16 华为技术有限公司 检测音频信号的方法和装置
CN105261375A (zh) * 2014-07-18 2016-01-20 中兴通讯股份有限公司 激活音检测的方法及装置
CN105374367A (zh) * 2014-07-29 2016-03-02 华为技术有限公司 异常帧检测方法和装置
CN106024017A (zh) * 2015-03-18 2016-10-12 展讯通信(上海)有限公司 语音检测方法及装置
US20160322067A1 (en) * 2009-10-19 2016-11-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods and Voice Activity Detectors for a Speech Encoders
CN106356077A (zh) * 2016-08-29 2017-01-25 北京理工大学 一种笑声检测方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2129051A1 (en) * 2007-01-10 2009-12-02 ZTE Corporation A method and system for realizing the voice compensation in the mobile communication network
CN102473412A (zh) * 2009-07-21 2012-05-23 日本电信电话株式会社 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质
EP2486562B1 (en) * 2009-10-08 2013-12-11 Telefónica, S.A. Method for the detection of speech segments
US20160322067A1 (en) * 2009-10-19 2016-11-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods and Voice Activity Detectors for a Speech Encoders
CN102446504A (zh) * 2010-10-08 2012-05-09 华为技术有限公司 语音/音乐识别方法及装置
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
US20140067388A1 (en) * 2012-09-05 2014-03-06 Samsung Electronics Co., Ltd. Robust voice activity detection in adverse environments
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置
CN103456307A (zh) * 2013-09-18 2013-12-18 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
CN104916292A (zh) * 2014-03-12 2015-09-16 华为技术有限公司 检测音频信号的方法和装置
CN105261375A (zh) * 2014-07-18 2016-01-20 中兴通讯股份有限公司 激活音检测的方法及装置
CN105374367A (zh) * 2014-07-29 2016-03-02 华为技术有限公司 异常帧检测方法和装置
CN106024017A (zh) * 2015-03-18 2016-10-12 展讯通信(上海)有限公司 语音检测方法及装置
CN106356077A (zh) * 2016-08-29 2017-01-25 北京理工大学 一种笑声检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S AHMADI: ""cepstrum-based pitch detection using a new statistical V/UV classification algorithm"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *
董恩清: ""基于短时能量和噪声谱自适应估计的语音激活性检测方法"", 《模式识别与人工智能》 *

Also Published As

Publication number Publication date
CN107393559B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN107393550A (zh) 语音处理方法及装置
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
CN106251877B (zh) 语音声源方向估计方法及装置
CN103440869B (zh) 一种音频混响的抑制装置及其抑制方法
CN109215674A (zh) 实时语音增强方法
CN106782590A (zh) 基于混响环境下麦克风阵列波束形成方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
US10741195B2 (en) Sound signal enhancement device
CN103413547B (zh) 一种室内混响消除的方法
US11315586B2 (en) Apparatus and method for multiple-microphone speech enhancement
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
CN107863099A (zh) 一种新型双麦克风语音检测和增强方法
CN104658543A (zh) 一种室内混响消除的方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
CN107360497A (zh) 估算混响分量的计算方法及装置
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
CN107393553A (zh) 用于语音活动检测的听觉特征提取方法
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN107346658A (zh) 混响抑制方法及装置
CN110136741A (zh) 一种基于多尺度上下文的单通道语音增强方法
WO2020107455A1 (zh) 语音处理方法、装置、存储介质及电子设备
CN107393559A (zh) 检校语音检测结果的方法及装置
CN107393558A (zh) 语音活动检测方法及装置
Hou et al. Convolutional recurrent MetriCGAN with spectral dimension compression for full-band speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221129

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518000 Jinhua building, Longfeng 3rd road, Dalang street, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right