CN1805007A - 用于在语音信号处理中检测语音片段的方法和装置 - Google Patents
用于在语音信号处理中检测语音片段的方法和装置 Download PDFInfo
- Publication number
- CN1805007A CN1805007A CNA2005101267970A CN200510126797A CN1805007A CN 1805007 A CN1805007 A CN 1805007A CN A2005101267970 A CNA2005101267970 A CN A2005101267970A CN 200510126797 A CN200510126797 A CN 200510126797A CN 1805007 A CN1805007 A CN 1805007A
- Authority
- CN
- China
- Prior art keywords
- frame
- noise
- value
- zone
- logarithm energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Abstract
一种用于检测语音信号处理设备的语音片段的方法和装置。根据噪声的频率特性将临界频带划分为特定数目的区域,按每一帧的区域设置自适应信号阈值和自适应噪声阈值,并且通过比较按每一帧的区域算出的所述对数能量与按区域设置的信号阈值和噪声阈值来确定每一帧是语音片段还是噪声片段。这样,即使在噪声环境内也可通过使用较小操作量而快速并精确地检测语音片段。
Description
技术领域
本发明涉及语音信号处理,尤其涉及用于检测语音片段的方法和装置。
背景技术
在涉及了包括语音分析、合成、语音识别、语音译码、语音编码等的语音信号处理的技术领域中精确检测语音信号的语音片段是非常重要的。
但是在用来检测语音片段的典型检测器的情况下,所述设备的结构复杂、计算量大,并且不能执行实时处理。
换句话说,例如,典型的语音片段检测方法包括:能量和零交叉速率检测方法、通过获取由名称标识的片段的逆谱系数以及当前片段的逆谱距离来确定语音信号存在的方法、通过测量话音和噪声信号间的相干性来确定语音信号存在的方法等等。
这些典型的语音信号检测方法都是有问题的,例如,检测语音片段的性能在实际应用中并不突出、所述设备的结构复杂、如果SNR(信噪比)较低则很难应用所述方法以及如果通过外部环境突然改变检测到背景噪声则很难检测到语音片段。
因此,在应用诸如通信系统、移动通信系统、语音识别系统之类的语音信号处理的技术领域中,需要一种用于语音片段检测的方法,使得就算是在背景噪声突然改变、用于语音片段检测的计算量较小并且期望进行实时处理的情况下,话音片段检测的性能也能十分突出。
发明内容
因此,本发明的目标在于提供一种用于检测语音信号处理设备的语音片段的方法和装置,其中所述设备即使在嘈杂环境中也能精确检测语音片段、对于语音片段检测所需要的计算量较小,并且具有实时处理的能力。
为了完成上述目标,根据本发明提供了用于检测语音信号处理设备的语音片段的装置,所述装置包括:用于接收输入信号的输入部分;用于控制语音片段检测全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将输入信号的临界频带分成预定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据输入信号每一区域的对数能量鉴别当前帧(frame)是噪声片段还是语音片段的片段鉴别部分。
为了完成上述目标,根据本发明提供了用于检测语音信号处理设备的语音片段的装置,所述装置包括:用于接收指示语音片段检测的用户控制命令的用户界面部分;用于根据所述用户控制命令接收输入信号的输入部分;以及处理器,它用于依据临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、按区域自适应地计算信号阈值以及噪声阈值、自适应地比较每一区域对数能量与每一区域信号阈值和噪声阈值,并且根据比较的结果鉴别每一帧的语音片段是语音片段还是噪声片段。
为了完成上述目标,根据本发明提供了用于检测语音信号处理设备的语音片段的方法,所述方法包括如下步骤:根据噪声的频率特性将输入信号的临界频带划分成预定数目的区域;比较按区域不同地设置的自适应阈值以及按区域计算的对数能量,并且确定输入信号是否是语音片段。
用于检测语音片段的方法还包括通过使用按区域并且根据确定结果算出的对数能量的平均值和标准差对自适应阈值进行更新的步骤。
自适应阈值包括自适应信号阈值和自适应噪声阈值。
为了完成上述目标,根据本发明提供了用于检测语音信号处理设备的语音片段的方法,所述方法包括如下步骤:按临界频带的帧使所述输入信号格式化;根据噪声的频率特性将当前帧划分成预定数目的区域;比较按当前帧区域的信号阈值和噪声阈值和按区域算出的对数能量;确定当前帧是否是语音片段;并且通过使用每个区域的对数能量选择性地更新所述信号阈值和噪声阈值。
附图说明
为了进一步理解本发明,作为说明书一部分的附图示出了本发明的实施例并且连同说明一起解释了本发明的原理。
在附图中:
图1是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图;
图2是根据本发明示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图;
图3是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图;
图4是根据本发明示出了用于语音片段检测的典型帧结构的视图。
具体实施方式
通常情况下,人类的听力的频率范围大约是从20Hz到20,000Hz,并且此范围被称为临界频带。该临界频带可根据诸如熟练程度和物理残障情况扩展或缩减。上述临界频带是考虑了人类听觉特征的频带。
在本发明中,为了使用人类听觉特征,通过考虑各种噪声的频率特性,将临界频带划分成特定数目的区域,为每一区域自适应地算出信号阈值和噪声阈值,并且通过比较每一区域的对数能量与每一区域的信号阈值和噪声阈值来鉴别每一帧是语音片段还是噪声片段。
图1是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图。
根据本发明的用于检测语音信号处理设备的语音片段的装置可以包括:用于输入语音信号的输入部分100;用于控制语音片段检测全部操作的信号处理部分110;用于在信号处理部分110的控制下根据噪声的频率特性将输入信号的临界频带划分成预定数目区域的临界频带划分部分130;用于在信号处理部分110的控制下按划分的区域计算自适应信号阈值的信号阈值计算部分170;用于在信号处理部分110的控制下按划分的区域计算自适应噪声阈值的噪声阈值计算部分160;以及用于根据输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分150。
所述语音信号可包括噪声成分。
用于检测语音片段的装置还包括:用于输入指示语音片段检测的控制信号的用户界面部分180;用于输出检测到语音片段的输出部分140;以及用于存储语音片段检测操作所需程序和数据的存储器部分120。
所述用户界面180可包括键盘和其他类型的输入工具。
将在以下描述根据本发明配置的用于检测语音信号处理设备的语音片段的装置的操作。
在这里的语音信号处理设备可包括提供了语音片段检测功能的各种设备,诸如具有语音识别功能的移动终端和语音识别设备等等。
在本发明中,根据各种类型噪声的频率特性将临界频带划分成特定数目的区域、比较按区域算出的对数能量与按区域设置的信号阈值和噪声阈值,并且根据比较的结果检测语音片段。
例如,如果用户位于车辆环境中,则因为噪声多数分布在低频带,所以根据本发明以1-2KHz的边界将临界频带划分成两个区域。如果用户正在步行,那么就根据本发明将临界频带划分成三至四个区域。由此在本发明中,对临界频带划分的区域数目可以根据噪声的频率特性变化。因此本发明可以根据背景噪声的频率特性进一步改善语音片段检测性能。
图2是根据本发明示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图。
在期望检测语音片段的情况下(S11),所述语音信号处理设备检查用户是否为了根据噪声的频率特性设置划分区域的数目而请求设置噪声环境的类型。当用户请求设置噪声环境的类型时(S13),所述语音信号处理设备就输出噪声环境的类型(S15)。所述噪声环境的类型可包括车辆环境、步行环境等等。
例如,当用户在车内时,用户可在语音信号处理设备提供的各选项中选择车辆环境。当用户选择了噪声环境时(S17),语音信号处理设备就对应于所选的噪声环境设置区域的数目(S19)。
一旦设置了划分区域的数目,语音信号处理设备就根据上述用于语音片段检测的划分区域设置数目对临界频带作出划分。
图3是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图。图4是根据本发明示出了用于语音片段检测的典型帧结构的视图。
当施加工作电源时,语音信号处理设备通过载入来自存储器部分120的操作程序、应用程序和数据而进入就绪状态。
在需要检测语音片段的情况中(S21),语音信号处理设备的临界频带划分部分130就如图4所示按帧对输入信号进行格式化(S23)。每一帧都具有临界频带的频率信号。
临界频带划分部分130将每一帧细分为特定数目的区域(S25)。这时可根据图2中设置的划分区域的数目划分每一帧,即临界频带。在此将结合把一帧划分成三个区域的实例进行描述。尽管如此,可以容易理解的是本发明也可应用于把每一帧划分为其他数目区域的情况。
首先,语音信号处理设备的信号阈值计算部分170和噪声阈值计算部分160考虑在输入信号的第一特定数目帧期间不包含语音信号的无声片段,并且对于考虑为无声片段的帧的第一特定数目而计算的每一区域,计算对数能量的初始平均值和初始标准差(S27)。如数学表达式1所示,信号阈值计算部分170通过使用对帧的特定数目算出的每一区域的对数能量的初始平均值和初始标准差,计算在无声片段之后输入的帧的每一区域的初始语音阈值。如数学表达式2所示,噪声阈值计算部分160通过使用对帧的特定数目算出的每一区域的对数能量的初始平均值和初始标准差,计算在无声片段之后输入的帧的每一区域的初始噪声阈值(S29)。
(数学表达式1)
Ts1=μn1+αs1*δn1
Ts2=μn2+αs2*δn2
Tsk=μnk+αsk*δnk
其中μ是平均值,δ是标准差的值,α是滞后值,而k是帧划分区域的数目。
(数学表达式2)
Tn1=μn1+βn1*δn1
Tn2=μn2+βn2*δn2
Tnk=μnk+βnk*δnk
其中μ是平均值,δ是标准差的值,β是滞后值,而k是帧划分区域的数目。
滞后值α和β由实验确定,并且存储在存储器部分120内。在本发明实例中,k等于3。
在移动终端等开机之后,存在至少持续100ms的无声持续时间的趋势,随后就有语音输入。如果在语音信号处理内使用的帧是20ms,那么100ms的帧将被划分为四至五个帧片段。因此,用于计算初始平均值和初始标准差的帧的第一特定数目可以是,例如,4或5。
例如,如果考虑为无声片段的帧的数目是4,那么临界频带划分部分130把在四个帧(即第一至第四个帧)之后输入的每个帧细分为三个区域。
其后,片段鉴别部分150按区域为每一帧计算对数能量。在第五次帧输入的情况下(第五帧),片段鉴别部分150为第五帧的第一区域计算对数能量E1、为第五帧的第二区域计算对数能量E2,并且为第五帧的第三区域计算对数能量E3。
图4是根据本发明示出了用于语音片段检测的帧结构的视图。
片段鉴别部分150通过使用数学表达式3鉴别每一帧是语音片段还是噪声片段。
(数学表达式3)
IF(E1>Ts1 OR E2>Ts2 OR E3>Ts3)VOICE_ACTIVITY=语音片段
ELSE IF(E1<Tn1 OR E2<Tn2 OR E3<Tn3)VOICE_ACTIVITY=噪声片段
ELSE VOICE_ACTIVITY=VOICE_ACTIVITY之前,
其中E是对数能量,Ts是信号阈值,而Tn是噪声阈值。
换句话说,片段鉴别部分150比较第五帧的每一区域的对数能量与其每一区域中的信号阈值Ts1和噪声阈值Tn1。如果至少存在一个对数能量大于信号阈值的区域,那么片段鉴别部分150就确定第五帧是语音片段,并将其设置为语音片段。如果没有对数能量大于语音阈值的区域,但是存在一个或多个对数能量小于噪声阈值的区域,那么片段鉴别部分150就确定第五帧是噪声片段,并将其设置为噪声片段(S31)。
由此,当完成对当前帧(第五帧)是噪声片段还是语音片段的鉴别时,信号处理部分110就可通过输出部分140输出当前帧(S33)。
其后,如果当前帧不是最后的帧(S35),那么信号处理部分110控制信号阈值计算部分170或噪声阈值计算部分160从而可以更新信号阈值或噪声阈值。
换句话说,在把当前帧鉴别为语音片段的情况中(S37),信号阈值计算部分170在信号处理部分110的控制下使用如数学表达式4示出的方法重新计算每一区域的语音对数能量的平均值和标准差,并且使算出的语音对数能量的平均值和标准差适用于数学表达式1,从而为每一区域更新信号阈值(S39)。这时不更新噪声阈值。
(数学表达式4)
μs1(t)=γ*μs1(t-1)+(1-γ)*E1
[E1 2]mean(t)=γ*[E1 2]mean(t-1)+(1-γ)*E1 2
δs1(t)=root([E1 2]mean(t)-[μs1(t)]2)
μs2(t)=γ*μs2(t-1)+(1-γ)*E2
[E2 2]mean(t)=γ*[E2 2]mean(t-1)+(1-γ)*E2 2
δs2(t)=root([E2 2]mean(t)-[μs2(t)]2)
μs3(t)=γ*μs3(t-1)+(1-γ)*E3
[E3 2]mean(t)=γ*[E3 2]mean(t-1)+(1-γ)*E3 2
δs3(t)=root([E3 2]mean(t)-[μs3(t)]2)
其中μ是语音对数能量的平均值,δ是标准差的值,t是帧时间的值,γ是作为实验值的权值,而E1、E2和E3是相应区域内的语音对数能量值。
在鉴别当前帧作为噪声片段的情况中(S41),信号阈值计算部分170在信号处理部分110的控制下通过如数学表达式5所示的方法,为每一区域重新计算噪声对数能量的平均值和标准差,并且使算出的噪声对数能量的平均值和标准差适用于数学表达式2,从而为每一区域更新了信号阈值(S43)。
(数学表达式5)
μn2(t)=γ*μn2(t-1)+(1-γ)*E2
[E2 2]mean(t)=γ*[E2 2]mean(t-1)+(1-γ)*E2 2
δn2(t)=root([E2 2]mean(t)-[μn2(t)]2)
μn3(t)=γ*μn3(t-1)+(1-γ)*E3
[E3 2]mean(t)=γ*[E3 2]mean(t-1)+(1-γ)*E3 2
δn3(t)=root([E3 2]mean(t)-[μn3(t)]2)
其中μ是噪声对数能量的平均值,δ是标准差的值,t是帧时间的值,γ是作为实验值的权值,而E1、E2和E3是相应区域内噪声对数能量值。
在数学表达式4和数学表达式5中,γ可以具有诸如0.95的值,并且存储在存储器部分120内。在数学表达式4和数学表达式5中,使用递归的方法计算每一区域对数能量的平均值从而能够算出自适应于输入信号的相应阈值,并且通过递归方法对平均值的计算也有利于语音片段处理器的实时处理。
尽管如此,在步骤S31中,参见相应帧每一区域的对数能量与每一区域信号阈值Ts1和噪声阈值Ts1间的比较结果,如果不存在对数能量大于信号阈值的区域,并且也不存在对数能量小于噪声阈值的区域,那么片段鉴别部分150就把前一帧鉴别出的片段应用于相应的帧(S45)。
换句话说,如果前一帧是语音片段,那么片段鉴别部分150就确定相应帧(当前帧)是语音片段,如果前一帧是噪声片段,那么片段鉴别部分150就确定相应帧是噪声片段。
一旦鉴别出相应帧(当前帧)的片段类型,信号处理部分110就行进到步骤S35。
如上所述,本发明通过为检测来自噪声环境内输入信号输入的语音片段而使用的快速实时处理,仅使用较小计算(操作)量就能够精确检测语音片段。
同时,下面将要描述根据本发明用于检测语音信号处理设备的语音片段的典型装置的另一个配置实例。
根据本发明用于检测语音信号处理设备的语音片段的装置包括:用于接收指示语音片段检测的用户控制命令的用户界面部分;用于根据所述用户控制命令接收输入信号的输入部分;以及处理器,它用于依据临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域对数能量与每一区域信号阈值和噪声阈值,并且根据比较的结果鉴别每一帧的语音片段是语音片段还是噪声片段。
用于检测语音片段的所述装置还包括:用于输出已检测语音片段的输出部分;以及用于存储语音片段检测操作要求的程序和数据的存储器部分。
能够按参考图2和图3解释的操作相同的(等效的或相似的)方法来执行根据本发明配置的用于检测语音信号处理设备的语音片段的装置的操作。
如上所述,本发明可以仅使用较小的操作量而实时检测从噪声环境内输入信号输入的语音片段。
本发明甚至可以在噪声环境中精确检测语音片段,因为它根据噪声的频率特性将临界频带细分为预定数目的区域,并且检测每一区域的语音片段。
本发明还可以通过根据噪声环境区分临界频带的多个划分区域而根据噪声的频率特性更精确地检测语音片段。
上述实施例和优点仅是示意性的,并且不应被解释为对本发明的限制。现有的教程也可方便地应用于其他类型的装置。本发明的描述旨在说明,并非限制权利要求的范围。更多的可选、修改和变化对本领域普通技术人员来说都是显而易见的。在权利要求中,方法加功能的条款旨在覆盖在此描述的执行所述功能的结构,并且不但覆盖结构性的等效物,也覆盖等效的结构。
Claims (46)
1.一种用于检测语音信号的语音片段的装置,所述装置包括:
用于接收输入信号的输入部分;
用于控制语音片段检测的全部操作的信号处理部分;
用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分;
用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;
用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及
用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。
2.如权利要求1所述的装置,其特征在于,还包括:
用于输入指示语音片段检测的控制信号的用户界面部分;
用于输出检测到的语音片段的输出部分;以及
用于存储语音片段检测操作所需程序和数据的存储器部分。
3.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及车辆噪声,那么将所述临界频带划分成的区域数目就是2。
4.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及步行时产生的外围噪声,那么将所述临界频带划分成的区域数目就是3或4。
5.如权利要求1所述的装置,其特征在于,所述临界频带划分部分根据噪声环境的类型将所述临界频带分成不同数目的区域。
6.如权利要求1所述的装置,其特征在于,所述信号处理部分检查如果请求语音片段检查,用户请求是否要设置临界频带划分成的区域数目,并且根据用户所选的噪声环境类型设置声临界频带划分成的区域数目。
7.如权利要求1所述的装置,其特征在于,信号处理部分为了初始阶段特定帧输入数目而控制按区域计算能量对数的初始平均值和初始标准差的操作。
8.如权利要求7所述的装置,其特征在于,初始阶段帧输入的数目是4或5。
9.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是语音片段时,所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。
10.如权利要求9所述的装置,其特征在于,由以下数学表达式按区域更新信号阈值:
Tsk=μsk+αsk*δsk
其中μ是所述帧第k个区域的语音对数能量的平均值,δ是所述帧第k个区域的语音对数能量的标准差的值,α是滞后值,Tsk是信号阈值,而k的最大值是所述帧划分区域的数目。
11.如权利要求9所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值:
μsk(t)=γ*μsk(t-1)+(1-γ)*Ek
其中μsk(t-1)是前一帧第k个区域的语音对数能量的平均值,Ek是所述帧(当前帧)第k个区域的语音对数能量,δsk(t)是所述帧第k个区域的语音对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。
12.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是噪声片段时,所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。
13.如权利要求12所述的装置,其特征在于,由以下数学表达式按区域算出噪声阈值:
Tnk=μnk+βnk*δnk
其中μ是所述帧第k个区域的噪声对数能量的平均值,δ是所述帧第k个区域的噪声对数能量的标准差的值,βnk是所述帧第k个区域的滞后值,Tnk是噪声阈值,而k的最大值是所述帧划分区域的数目。
14.如权利要求12所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值:
μnk(t)=γ*μnk(t-1)+(1-γ)*Ek
其中μnk(t-1)是前一帧第k个区域的噪声对数能量的平均值,Ek是所述帧(当前帧)第k个区域的噪声对数能量,δnk(t)是所述帧第k个区域的噪声对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。
15.如权利要求1所述的装置,其特征在于,片段鉴别部分为所述输入信号的所述帧的每一区域计算对数能量,并且如果存在至少一个具有的对数能量大于信号阈值的区域,就将该帧鉴别为语音片段。
16.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且如果不存在具有的对数能量大于信号阈值的区域但是存在至少一个具有的对数能量小于噪声阈值的区域,就将该帧鉴别为噪声片段。
17.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且在不存在具有的对数能量大于信号阈值的区域并且不存在具有的对数能量小于噪声阈值的区域的情况下,对于所述帧应用前一帧鉴别出的片段。
18.如权利要求1所述的装置,其特征在于,所述片段鉴别部分通过如下表达式鉴别帧的片段:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk),那么鉴别所述帧为语音片段
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk),那么鉴别所述帧为噪声片段
ELSE,鉴别所述片段被前一帧所鉴别出的片段
其中E是每一区域的对数能量,Ts是用于每一区域的信号阈值,Tn是用于每一区域的噪声阈值,而k是所述帧划分区域的数目。
19.一种用于检测语音信号的语音片段的装置,所述装置包括:
用于接收指示语音片段检测的用户控制命令的用户界面部分;
用于根据所述用户控制命令接收输入信号的输入部分;以及
处理器,它用于通过所述临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域的对数能量与每一区域信号阈值和噪声阈值,并且根据比较结果鉴别每一帧的语音片段是语音片段还是噪声片段。
20.如权利要求19所述的装置,其特征在于,所述处理器检查在接收到用户控制命令时是否需要对所述帧划分区域的数目进行设置,并且根据用户所选的噪声环境类型设置所述临界频带划分成的区域数目。
21.如权利要求19所述的装置,其特征在于,所述处理器为了初始阶段帧输入的预定数目而计算用于每一区域的对数能量的初始平均值和初始标准差,并且通过使用所述初始平均值和初始标准差计算初始信号阈值和初始噪声阈值。
22.如权利要求19所述的装置,其特征在于,所述处理器通过如下表达式鉴别当前帧是语音片段还是噪声片段:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk),那么鉴别所述帧为语音片段
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk),那么鉴别所述帧为噪声片段
ELSE,鉴别所述片段为前一帧所鉴别出的片段
其中E是每一区域的对数能量,Ts是用于每一区域的信号阈值,Tn是用于每一区域的噪声阈值,而k是所述帧划分区域的数目。
23.如权利要求22所述的装置,其特征在于,当鉴别所述帧为语音片段时,所述处理器为该帧的每一区域计算所述语音对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。
24.如权利要求22所述的装置,其特征在于,当鉴别所述帧为噪声片段时,所述处理器为该帧的每一区域计算所述噪声对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述噪声阈值。
25.一种检测语音信号的语音片段的方法,所述方法包括:
根据噪声的频率特性将输入信号的临界频带划分成预定数目的区域;
比较按区域不同地设置的自适应阈值与按区域计算的对数能量;以及
确定输入信号是否是语音片段。
26.如权利要求25所述的方法,其特征在于,还包括通过使用按区域计算出的所述对数能量的平均值和标准差以及根据确定结果来更新自适应阈值的步骤。
27.如权利要求26所述的方法,其特征在于,所述自适应阈值包括自适应信号阈值和自适应噪声阈值。
28.如权利要求27所述的方法,其特征在于,当确定输入信号是语音片段时,处理器通过使用按区域算出的所述对数能量的平均值和标准差来更新所述自适应信号阈值。
29.如权利要求28所述的方法,其特征在于,当确定输入信号是噪声片段时,处理器通过使用按区域算出的所述对数能量的平均值和标准差来更新所述自适应噪声阈值。
30.如权利要求25所述的方法,其特征在于,还包括如下步骤:
为了初始阶段输入的帧的预定数目而计算用于每一区域对数能量的初始平均值和初始标准差;以及
通过使用所述初始平均值和初始标准差为每一区域设置初始阈值。
31.一种用于检测语音信号的语音片段的方法,所述方法包括:
按临界频带的帧使所述输入信号格式化;
根据噪声的频率特性将当前帧划分成预定数目的区域;
比较按当前帧区域设置的信号阈值和噪声阈值以及按区域算出的对数能量;
确定当前帧是否是语音片段;以及
通过使用每个区域的对数能量选择性地更新所述信号阈值和噪声阈值。
32.如权利要求31所述的方法,其特征在于,所述方法还包括如下步骤:
通过使用为了在初始阶段输入的帧的预定数目按区域算出的对数能量的初始平均值和初始标准差,为每一区域设置初始信号阈值和初始噪声阈值。
33.如权利要求32所述的方法,其特征在于,帧的预定数目是3或4。
34.如权利要求31所述的方法,其特征在于,如果噪声的频率特性是车辆噪声的频率特性,那么所述临界频带的帧划分成的区域数目就是2。
35.如权利要求31所述的方法,其特征在于,如果噪声的频率特性是步行时产生外围噪声的频率特性,那么所述临界频带的帧划分成的区域数目就是3或4。
36.如权利要求31所述的方法,其特征在于,根据用户输入的噪声环境类型设置由临界频带的帧划分成的区域数目。
37.如权利要求31所述的方法,其特征在于,如果存在至少一个其对数能量大于信号阈值的区域,那么片段鉴别部分就将所述帧鉴别为语音片段。
38.如权利要求31所述的方法,其特征在于,如果不存在其对数能量大于信号阈值的区域但是存在至少一个其对数能量小于噪声阈值的区域,那么片段鉴别部分就将所述帧鉴别为噪声片段。
39.如权利要求31所述的方法,其特征在于,如果不存在其对数能量大于信号阈值的区域并且不存在其对数能量小于噪声阈值的区域,那么片段鉴别部分确定当前帧的片段与前一帧的片段相同。
40.如权利要求31所述的方法,其特征在于,所述片段鉴别部分通过如下表达式鉴别当前帧是语音片段还是噪声片段:
IF(E1>Ts1 OR E2>Ts2 OR Ek>Tsk),那么鉴别所述帧为语音片段
ELSE IF(E1<Tn1 OR E2<Tn2 OR Ek<Tnk),那么鉴别所述帧为噪声片段
ELSE鉴别所述片段为前一帧所鉴别出的片段
其中E是每一区域的对数能量,Ts是用于每一区域的信号阈值,Tn是用于每一区域的噪声阈值,而k是所述帧被划分成的数目。
41.如权利要求31所述的方法,其特征在于,当确定所述帧是语音片段时,所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。
42.如权利要求41所述的方法,其特征在于,由以下数学表达式算出按区域更新的信号阈值:
Tsk=μsk+αsk*δsk
其中μ是所述帧第k个区域的语音对数能量的平均值,δ是所述帧第k个区域的语音对数能量的标准差的值,α是滞后值,Tsk是信号阈值,而k的最大值是所述帧划分区域的数目。
43.如权利要求41所述的方法,其特征在于,由如下数学表达式算出所述平均值和标准差的值:
μsk(t)=γ*μsk(t-1)+(1-γ)*Ek
其中μsk(t-1)是前一帧第k个区域的语音对数能量的平均值,Ek是所述帧(当前帧)第k个区域的语音对数能量,δsk(t)是所述帧第k个区域的语音对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。
44.如权利要求31所述的方法,其特征在于,当鉴别所述当前帧为噪声片段时,所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。
45.如权利要求44所述的方法,其特征在于,由以下数学表达式算出按区域更新的信号阈值:
Tnk=μnk+βnk*δnk
其中μ是所述帧第k个区域的噪声对数能量的平均值,δ是所述帧第k个区域的噪声对数能量的标准差的值,βnk是所述帧第k个区域的滞后值,Tnk是信号阈值,而k的最大值是所述帧划分区域的数目。
46.如权利要求45所述的方法,其特征在于,由如下数学表达式算出所述平均值和标准差的值:
μnk(t)=γ*μnk(t-1)+(1-γ)*Ek
其中μnk(t-1)是前一帧第k个区域的噪声对数能量的平均值,Ek是所述帧(当前帧)第k个区域的噪声对数能量,δnk(t)是所述帧第k个区域的噪声对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040095520A KR100677396B1 (ko) | 2004-11-20 | 2004-11-20 | 음성인식장치의 음성구간 검출방법 |
KR1020040095520 | 2004-11-20 | ||
KR10-2004-0095520 | 2004-11-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1805007A true CN1805007A (zh) | 2006-07-19 |
CN1805007B CN1805007B (zh) | 2010-11-03 |
Family
ID=35723587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005101267970A Expired - Fee Related CN1805007B (zh) | 2004-11-20 | 2005-11-21 | 用于在语音信号处理中检测语音片段的方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7620544B2 (zh) |
EP (1) | EP1659570B1 (zh) |
JP (1) | JP4282659B2 (zh) |
KR (1) | KR100677396B1 (zh) |
CN (1) | CN1805007B (zh) |
AT (1) | ATE412235T1 (zh) |
DE (1) | DE602005010525D1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515454B (zh) * | 2008-02-22 | 2011-05-25 | 杨夙 | 用于语音、音乐、噪音自动分类的信号特征提取方法 |
CN102687196A (zh) * | 2009-10-08 | 2012-09-19 | 西班牙电信公司 | 用于检测语音段的方法 |
CN103915097A (zh) * | 2013-01-04 | 2014-07-09 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
CN107613236A (zh) * | 2017-09-28 | 2018-01-19 | 努比亚技术有限公司 | 一种音像录制方法及终端、存储介质 |
CN110689901A (zh) * | 2019-09-09 | 2020-01-14 | 苏州臻迪智能科技有限公司 | 语音降噪的方法、装置、电子设备及可读存储介质 |
CN111554314A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 噪声检测方法、装置、终端及存储介质 |
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008099163A (ja) * | 2006-10-16 | 2008-04-24 | Audio Technica Corp | ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法 |
KR100835996B1 (ko) * | 2006-12-05 | 2008-06-09 | 한국전자통신연구원 | 적응형 발성 화면 분석 방법 및 장치 |
WO2009027980A1 (en) * | 2007-08-28 | 2009-03-05 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method, device and system for speech recognition |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8380497B2 (en) | 2008-10-15 | 2013-02-19 | Qualcomm Incorporated | Methods and apparatus for noise estimation |
CN102356427B (zh) * | 2009-04-02 | 2013-10-30 | 三菱电机株式会社 | 噪声抑制装置 |
KR101251045B1 (ko) * | 2009-07-28 | 2013-04-04 | 한국전자통신연구원 | 오디오 판별 장치 및 그 방법 |
EP2816560A1 (en) * | 2009-10-19 | 2014-12-24 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and background estimator for voice activity detection |
WO2011133924A1 (en) | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Voice activity detection |
CN102376303B (zh) * | 2010-08-13 | 2014-03-12 | 国基电子(上海)有限公司 | 录音设备及利用该录音设备进行声音处理与录入的方法 |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US20130151248A1 (en) * | 2011-12-08 | 2013-06-13 | Forrest Baker, IV | Apparatus, System, and Method For Distinguishing Voice in a Communication Stream |
JP6221257B2 (ja) * | 2013-02-26 | 2017-11-01 | 沖電気工業株式会社 | 信号処理装置、方法及びプログラム |
KR20150105847A (ko) * | 2014-03-10 | 2015-09-18 | 삼성전기주식회사 | 음성구간 검출 방법 및 장치 |
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20210169559A1 (en) * | 2019-12-06 | 2021-06-10 | Board Of Regents, The University Of Texas System | Acoustic monitoring for electrosurgery |
CN113098626B (zh) * | 2020-01-09 | 2023-03-24 | 北京君正集成电路股份有限公司 | 一种近距离声波通信同步的方法 |
CN113098627B (zh) * | 2020-01-09 | 2023-03-24 | 北京君正集成电路股份有限公司 | 一种实现近距离声波通信同步的系统 |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995002288A1 (en) * | 1993-07-07 | 1995-01-19 | Picturetel Corporation | Reduction of background noise for speech enhancement |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
WO1998001847A1 (en) * | 1996-07-03 | 1998-01-15 | British Telecommunications Public Limited Company | Voice activity detector |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US5866702A (en) * | 1996-08-02 | 1999-02-02 | Cv Therapeutics, Incorporation | Purine inhibitors of cyclin dependent kinase 2 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
FR2767334B1 (fr) * | 1997-08-12 | 1999-10-22 | Commissariat Energie Atomique | Kinase activatrice des proteine-kinases cycline dependantes, et ses utilisations |
US6479487B1 (en) * | 1998-02-26 | 2002-11-12 | Aventis Pharmaceuticals Inc. | 6, 9-disubstituted 2-[trans-(4-aminocyclohexyl)amino] purines |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6266633B1 (en) * | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
US6327564B1 (en) * | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
IL145701A0 (en) * | 1999-04-02 | 2002-07-25 | Euro Celtique Sa | Purine derivatives having phosphodiesterase iv inhibition activity |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP2000310993A (ja) * | 1999-04-28 | 2000-11-07 | Pioneer Electronic Corp | 音声検出装置 |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
US6812232B2 (en) * | 2001-09-11 | 2004-11-02 | Amr Technology, Inc. | Heterocycle substituted purine derivatives as potent antiproliferative agents |
US6667311B2 (en) * | 2001-09-11 | 2003-12-23 | Albany Molecular Research, Inc. | Nitrogen substituted biaryl purine derivatives as potent antiproliferative agents |
US7346175B2 (en) * | 2001-09-12 | 2008-03-18 | Bitwave Private Limited | System and apparatus for speech communication and speech recognition |
US7146314B2 (en) * | 2001-12-20 | 2006-12-05 | Renesas Technology Corporation | Dynamic adjustment of noise separation in data handling, particularly voice activation |
-
2004
- 2004-11-20 KR KR1020040095520A patent/KR100677396B1/ko not_active IP Right Cessation
-
2005
- 2005-11-18 AT AT05025231T patent/ATE412235T1/de not_active IP Right Cessation
- 2005-11-18 DE DE602005010525T patent/DE602005010525D1/de active Active
- 2005-11-18 JP JP2005334978A patent/JP4282659B2/ja not_active Expired - Fee Related
- 2005-11-18 EP EP05025231A patent/EP1659570B1/en not_active Not-in-force
- 2005-11-21 CN CN2005101267970A patent/CN1805007B/zh not_active Expired - Fee Related
- 2005-11-21 US US11/285,270 patent/US7620544B2/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515454B (zh) * | 2008-02-22 | 2011-05-25 | 杨夙 | 用于语音、音乐、噪音自动分类的信号特征提取方法 |
CN102687196A (zh) * | 2009-10-08 | 2012-09-19 | 西班牙电信公司 | 用于检测语音段的方法 |
CN102687196B (zh) * | 2009-10-08 | 2014-05-07 | 西班牙电信公司 | 用于检测语音段的方法 |
CN103915097A (zh) * | 2013-01-04 | 2014-07-09 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
CN103915097B (zh) * | 2013-01-04 | 2017-03-22 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
CN107613236A (zh) * | 2017-09-28 | 2018-01-19 | 努比亚技术有限公司 | 一种音像录制方法及终端、存储介质 |
CN107613236B (zh) * | 2017-09-28 | 2021-01-05 | 盐城市聚龙湖商务集聚区发展有限公司 | 一种音像录制方法及终端、存储介质 |
CN110689901A (zh) * | 2019-09-09 | 2020-01-14 | 苏州臻迪智能科技有限公司 | 语音降噪的方法、装置、电子设备及可读存储介质 |
CN111554314A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 噪声检测方法、装置、终端及存储介质 |
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
CN115240696B (zh) * | 2022-07-26 | 2023-10-03 | 北京集智数字科技有限公司 | 一种语音识别方法及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR100677396B1 (ko) | 2007-02-02 |
US7620544B2 (en) | 2009-11-17 |
JP4282659B2 (ja) | 2009-06-24 |
EP1659570B1 (en) | 2008-10-22 |
ATE412235T1 (de) | 2008-11-15 |
EP1659570A1 (en) | 2006-05-24 |
US20060111901A1 (en) | 2006-05-25 |
DE602005010525D1 (de) | 2008-12-04 |
JP2006146226A (ja) | 2006-06-08 |
CN1805007B (zh) | 2010-11-03 |
KR20060056186A (ko) | 2006-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1805007A (zh) | 用于在语音信号处理中检测语音片段的方法和装置 | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
CN1119795C (zh) | 语音识别装置和识别方法以及语音学习装置和学习方法 | |
CN1805008A (zh) | 语音检测装置、自动图像拾取装置和语音检测方法 | |
CN101051460A (zh) | 提取语音信号的特性信息的语音信号预处理系统及方法 | |
CN103578468B (zh) | 一种语音识别中置信度阈值的调整方法及电子设备 | |
CN1679083A (zh) | 不利环境中的多信道语音检测 | |
CN1727860A (zh) | 增益受限的噪音抑制 | |
CN1527994A (zh) | 快速频域音调估计 | |
CN1248339A (zh) | 在通信系统中确定速率的装置和方法 | |
CN1538382A (zh) | 用于子空间编码高斯模型的训练的方法 | |
CN101080765A (zh) | 语音活动检测装置和方法 | |
US9633655B1 (en) | Voice sensing and keyword analysis | |
CN1584984A (zh) | 使用瞬时信噪比作为最优估计的主量的降噪方法 | |
CN1949364A (zh) | 检测输入语音信号可识别度的系统与方法 | |
CN1216380A (zh) | 特征抽取装置和方法以及模式识别装置和方法 | |
CN1841500A (zh) | 一种基于自适应非线性谱减的抗噪方法和装置 | |
CN1773605A (zh) | 一种应用于语音识别系统的语音端点检测方法 | |
CN1158807C (zh) | 尤其在gsm传输中的用于错误掩蔽的帧错误检测的方法和设备 | |
CN1161748C (zh) | 使用频谱图相关的讲话者识别 | |
CN1046366C (zh) | 静态和非静态信号的鉴别 | |
CN1601605A (zh) | 声道谐振跟踪方法和装置 | |
CN101030374A (zh) | 基音周期提取方法及装置 | |
CN1311421C (zh) | 有声无声判定装置和有声无声判定方法 | |
CN1934588A (zh) | 模式识别系统、模式识别方法和模式识别程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101103 Termination date: 20181121 |
|
CF01 | Termination of patent right due to non-payment of annual fee |