CN1805007A

CN1805007A - 用于在语音信号处理中检测语音片段的方法和装置

Info

Publication number: CN1805007A
Application number: CNA2005101267970A
Authority: CN
Inventors: 禹敬浩
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-11-20
Filing date: 2005-11-21
Publication date: 2006-07-19
Anticipated expiration: 2025-11-21
Also published as: KR100677396B1; US7620544B2; JP4282659B2; EP1659570B1; ATE412235T1; EP1659570A1; US20060111901A1; DE602005010525D1; JP2006146226A; CN1805007B; KR20060056186A

Abstract

一种用于检测语音信号处理设备的语音片段的方法和装置。根据噪声的频率特性将临界频带划分为特定数目的区域，按每一帧的区域设置自适应信号阈值和自适应噪声阈值，并且通过比较按每一帧的区域算出的所述对数能量与按区域设置的信号阈值和噪声阈值来确定每一帧是语音片段还是噪声片段。这样，即使在噪声环境内也可通过使用较小操作量而快速并精确地检测语音片段。

Description

用于在语音信号处理中检测语音片段的方法和装置

技术领域

本发明涉及语音信号处理，尤其涉及用于检测语音片段的方法和装置。

背景技术

在涉及了包括语音分析、合成、语音识别、语音译码、语音编码等的语音信号处理的技术领域中精确检测语音信号的语音片段是非常重要的。

但是在用来检测语音片段的典型检测器的情况下，所述设备的结构复杂、计算量大，并且不能执行实时处理。

换句话说，例如，典型的语音片段检测方法包括：能量和零交叉速率检测方法、通过获取由名称标识的片段的逆谱系数以及当前片段的逆谱距离来确定语音信号存在的方法、通过测量话音和噪声信号间的相干性来确定语音信号存在的方法等等。

这些典型的语音信号检测方法都是有问题的，例如，检测语音片段的性能在实际应用中并不突出、所述设备的结构复杂、如果SNR(信噪比)较低则很难应用所述方法以及如果通过外部环境突然改变检测到背景噪声则很难检测到语音片段。

因此，在应用诸如通信系统、移动通信系统、语音识别系统之类的语音信号处理的技术领域中，需要一种用于语音片段检测的方法，使得就算是在背景噪声突然改变、用于语音片段检测的计算量较小并且期望进行实时处理的情况下，话音片段检测的性能也能十分突出。

发明内容

因此，本发明的目标在于提供一种用于检测语音信号处理设备的语音片段的方法和装置，其中所述设备即使在嘈杂环境中也能精确检测语音片段、对于语音片段检测所需要的计算量较小，并且具有实时处理的能力。

为了完成上述目标，根据本发明提供了用于检测语音信号处理设备的语音片段的装置，所述装置包括：用于接收输入信号的输入部分；用于控制语音片段检测全部操作的信号处理部分；用于在信号处理部分的控制下根据噪声的频率特性将输入信号的临界频带分成预定数目区域的临界频带划分部分；用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分；用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分；以及用于根据输入信号每一区域的对数能量鉴别当前帧(frame)是噪声片段还是语音片段的片段鉴别部分。

为了完成上述目标，根据本发明提供了用于检测语音信号处理设备的语音片段的装置，所述装置包括：用于接收指示语音片段检测的用户控制命令的用户界面部分；用于根据所述用户控制命令接收输入信号的输入部分；以及处理器，它用于依据临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、按区域自适应地计算信号阈值以及噪声阈值、自适应地比较每一区域对数能量与每一区域信号阈值和噪声阈值，并且根据比较的结果鉴别每一帧的语音片段是语音片段还是噪声片段。

为了完成上述目标，根据本发明提供了用于检测语音信号处理设备的语音片段的方法，所述方法包括如下步骤：根据噪声的频率特性将输入信号的临界频带划分成预定数目的区域；比较按区域不同地设置的自适应阈值以及按区域计算的对数能量，并且确定输入信号是否是语音片段。

用于检测语音片段的方法还包括通过使用按区域并且根据确定结果算出的对数能量的平均值和标准差对自适应阈值进行更新的步骤。

自适应阈值包括自适应信号阈值和自适应噪声阈值。

为了完成上述目标，根据本发明提供了用于检测语音信号处理设备的语音片段的方法，所述方法包括如下步骤：按临界频带的帧使所述输入信号格式化；根据噪声的频率特性将当前帧划分成预定数目的区域；比较按当前帧区域的信号阈值和噪声阈值和按区域算出的对数能量；确定当前帧是否是语音片段；并且通过使用每个区域的对数能量选择性地更新所述信号阈值和噪声阈值。

附图说明

为了进一步理解本发明，作为说明书一部分的附图示出了本发明的实施例并且连同说明一起解释了本发明的原理。

在附图中：

图1是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图；

图2是根据本发明示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图；

图3是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图；

图4是根据本发明示出了用于语音片段检测的典型帧结构的视图。

具体实施方式

通常情况下，人类的听力的频率范围大约是从20Hz到20,000Hz，并且此范围被称为临界频带。该临界频带可根据诸如熟练程度和物理残障情况扩展或缩减。上述临界频带是考虑了人类听觉特征的频带。

在本发明中，为了使用人类听觉特征，通过考虑各种噪声的频率特性，将临界频带划分成特定数目的区域，为每一区域自适应地算出信号阈值和噪声阈值，并且通过比较每一区域的对数能量与每一区域的信号阈值和噪声阈值来鉴别每一帧是语音片段还是噪声片段。

图1是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图。

根据本发明的用于检测语音信号处理设备的语音片段的装置可以包括：用于输入语音信号的输入部分100；用于控制语音片段检测全部操作的信号处理部分110；用于在信号处理部分110的控制下根据噪声的频率特性将输入信号的临界频带划分成预定数目区域的临界频带划分部分130；用于在信号处理部分110的控制下按划分的区域计算自适应信号阈值的信号阈值计算部分170；用于在信号处理部分110的控制下按划分的区域计算自适应噪声阈值的噪声阈值计算部分160；以及用于根据输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分150。

所述语音信号可包括噪声成分。

用于检测语音片段的装置还包括：用于输入指示语音片段检测的控制信号的用户界面部分180；用于输出检测到语音片段的输出部分140；以及用于存储语音片段检测操作所需程序和数据的存储器部分120。

所述用户界面180可包括键盘和其他类型的输入工具。

将在以下描述根据本发明配置的用于检测语音信号处理设备的语音片段的装置的操作。

在这里的语音信号处理设备可包括提供了语音片段检测功能的各种设备，诸如具有语音识别功能的移动终端和语音识别设备等等。

在本发明中，根据各种类型噪声的频率特性将临界频带划分成特定数目的区域、比较按区域算出的对数能量与按区域设置的信号阈值和噪声阈值，并且根据比较的结果检测语音片段。

例如，如果用户位于车辆环境中，则因为噪声多数分布在低频带，所以根据本发明以1-2KHz的边界将临界频带划分成两个区域。如果用户正在步行，那么就根据本发明将临界频带划分成三至四个区域。由此在本发明中，对临界频带划分的区域数目可以根据噪声的频率特性变化。因此本发明可以根据背景噪声的频率特性进一步改善语音片段检测性能。

图2是根据本发明示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图。

在期望检测语音片段的情况下(S11)，所述语音信号处理设备检查用户是否为了根据噪声的频率特性设置划分区域的数目而请求设置噪声环境的类型。当用户请求设置噪声环境的类型时(S13)，所述语音信号处理设备就输出噪声环境的类型(S15)。所述噪声环境的类型可包括车辆环境、步行环境等等。

例如，当用户在车内时，用户可在语音信号处理设备提供的各选项中选择车辆环境。当用户选择了噪声环境时(S17)，语音信号处理设备就对应于所选的噪声环境设置区域的数目(S19)。

一旦设置了划分区域的数目，语音信号处理设备就根据上述用于语音片段检测的划分区域设置数目对临界频带作出划分。

图3是根据本发明示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图。图4是根据本发明示出了用于语音片段检测的典型帧结构的视图。

当施加工作电源时，语音信号处理设备通过载入来自存储器部分120的操作程序、应用程序和数据而进入就绪状态。

在需要检测语音片段的情况中(S21)，语音信号处理设备的临界频带划分部分130就如图4所示按帧对输入信号进行格式化(S23)。每一帧都具有临界频带的频率信号。

临界频带划分部分130将每一帧细分为特定数目的区域(S25)。这时可根据图2中设置的划分区域的数目划分每一帧，即临界频带。在此将结合把一帧划分成三个区域的实例进行描述。尽管如此，可以容易理解的是本发明也可应用于把每一帧划分为其他数目区域的情况。

首先，语音信号处理设备的信号阈值计算部分170和噪声阈值计算部分160考虑在输入信号的第一特定数目帧期间不包含语音信号的无声片段，并且对于考虑为无声片段的帧的第一特定数目而计算的每一区域，计算对数能量的初始平均值和初始标准差(S27)。如数学表达式1所示，信号阈值计算部分170通过使用对帧的特定数目算出的每一区域的对数能量的初始平均值和初始标准差，计算在无声片段之后输入的帧的每一区域的初始语音阈值。如数学表达式2所示，噪声阈值计算部分160通过使用对帧的特定数目算出的每一区域的对数能量的初始平均值和初始标准差，计算在无声片段之后输入的帧的每一区域的初始噪声阈值(S29)。

(数学表达式1)

T_s1＝μ_n1+α_s1*δ_n1

T_s2＝μ_n2+α_s2*δ_n2

T_sk＝μ_nk+α_sk*δ_nk

其中μ是平均值，δ是标准差的值，α是滞后值，而k是帧划分区域的数目。

(数学表达式2)

T_n1＝μ_n1+β_n1*δ_n1

T_n2＝μ_n2+β_n2*δ_n2

T_nk＝μ_nk+β_nk*δ_nk

其中μ是平均值，δ是标准差的值，β是滞后值，而k是帧划分区域的数目。

滞后值α和β由实验确定，并且存储在存储器部分120内。在本发明实例中，k等于3。

在移动终端等开机之后，存在至少持续100ms的无声持续时间的趋势，随后就有语音输入。如果在语音信号处理内使用的帧是20ms，那么100ms的帧将被划分为四至五个帧片段。因此，用于计算初始平均值和初始标准差的帧的第一特定数目可以是，例如，4或5。

例如，如果考虑为无声片段的帧的数目是4，那么临界频带划分部分130把在四个帧(即第一至第四个帧)之后输入的每个帧细分为三个区域。

其后，片段鉴别部分150按区域为每一帧计算对数能量。在第五次帧输入的情况下(第五帧)，片段鉴别部分150为第五帧的第一区域计算对数能量E1、为第五帧的第二区域计算对数能量E2，并且为第五帧的第三区域计算对数能量E3。

图4是根据本发明示出了用于语音片段检测的帧结构的视图。

片段鉴别部分150通过使用数学表达式3鉴别每一帧是语音片段还是噪声片段。

(数学表达式3)

IF(E₁＞T_s1 OR E₂＞T_s2 OR E₃＞T_s3)VOICE_ACTIVITY＝语音片段

ELSE IF(E₁＜T_n1 OR E₂＜T_n2 OR E₃＜T_n3)VOICE_ACTIVITY＝噪声片段

ELSE VOICE_ACTIVITY＝VOICE_ACTIVITY之前，

其中E是对数能量，Ts是信号阈值，而T_n是噪声阈值。

换句话说，片段鉴别部分150比较第五帧的每一区域的对数能量与其每一区域中的信号阈值T_s1和噪声阈值T_n1。如果至少存在一个对数能量大于信号阈值的区域，那么片段鉴别部分150就确定第五帧是语音片段，并将其设置为语音片段。如果没有对数能量大于语音阈值的区域，但是存在一个或多个对数能量小于噪声阈值的区域，那么片段鉴别部分150就确定第五帧是噪声片段，并将其设置为噪声片段(S31)。

由此，当完成对当前帧(第五帧)是噪声片段还是语音片段的鉴别时，信号处理部分110就可通过输出部分140输出当前帧(S33)。

其后，如果当前帧不是最后的帧(S35)，那么信号处理部分110控制信号阈值计算部分170或噪声阈值计算部分160从而可以更新信号阈值或噪声阈值。

换句话说，在把当前帧鉴别为语音片段的情况中(S37)，信号阈值计算部分170在信号处理部分110的控制下使用如数学表达式4示出的方法重新计算每一区域的语音对数能量的平均值和标准差，并且使算出的语音对数能量的平均值和标准差适用于数学表达式1，从而为每一区域更新信号阈值(S39)。这时不更新噪声阈值。

(数学表达式4)

μ_s1(t)＝γ*μ_s1(t-1)+(1-γ)*E₁

[E₁ ²]_mean(t)＝γ*[E₁ ²]mean(t-1)+(1-γ)*E₁ ²

δ_s1(t)＝root([E₁ ²]mean(t)-[μ_s1(t)]²)

μ_s2(t)＝γ*μ_s2(t-1)+(1-γ)*E₂

[E₂ ²]_mean(t)＝γ*[E₂ ²]_mean(t-1)+(1-γ)*E₂ ²

δ_s2(t)＝root([E₂ ²]_mean(t)-[μ_s2(t)]²)

μ_s3(t)＝γ*μ_s3(t-1)+(1-γ)*E₃

[E₃ ²]_mean(t)＝γ*[E₃ ²]_mean(t-1)+(1-γ)*E₃ ²

δ_s3(t)＝root([E₃ ²]_mean(t)-[μ_s3(t)]²)

其中μ是语音对数能量的平均值，δ是标准差的值，t是帧时间的值，γ是作为实验值的权值，而E₁、E₂和E₃是相应区域内的语音对数能量值。

在鉴别当前帧作为噪声片段的情况中(S41)，信号阈值计算部分170在信号处理部分110的控制下通过如数学表达式5所示的方法，为每一区域重新计算噪声对数能量的平均值和标准差，并且使算出的噪声对数能量的平均值和标准差适用于数学表达式2，从而为每一区域更新了信号阈值(S43)。

(数学表达式5)

μ_n2(t)＝γ*μ_n2(t-1)+(1-γ)*E₂

[E₂ ²]_mean(t)＝γ*[E₂ ²]_mean(t-1)+(1-γ)*E₂ ²

δ_n2(t)＝root([E₂ ²]_mean(t)-[μ_n2(t)]²)

μ_n3(t)＝γ*μ_n3(t-1)+(1-γ)*E₃

[E₃ ²]_mean(t)＝γ*[E₃ ²]_mean(t-1)+(1-γ)*E₃ ²

δ_n3(t)＝root([E₃ ²]_mean(t)-[μ_n3(t)]²)

其中μ是噪声对数能量的平均值，δ是标准差的值，t是帧时间的值，γ是作为实验值的权值，而E₁、E₂和E₃是相应区域内噪声对数能量值。

在数学表达式4和数学表达式5中，γ可以具有诸如0.95的值，并且存储在存储器部分120内。在数学表达式4和数学表达式5中，使用递归的方法计算每一区域对数能量的平均值从而能够算出自适应于输入信号的相应阈值，并且通过递归方法对平均值的计算也有利于语音片段处理器的实时处理。

尽管如此，在步骤S31中，参见相应帧每一区域的对数能量与每一区域信号阈值T_s1和噪声阈值T_s1间的比较结果，如果不存在对数能量大于信号阈值的区域，并且也不存在对数能量小于噪声阈值的区域，那么片段鉴别部分150就把前一帧鉴别出的片段应用于相应的帧(S45)。

换句话说，如果前一帧是语音片段，那么片段鉴别部分150就确定相应帧(当前帧)是语音片段，如果前一帧是噪声片段，那么片段鉴别部分150就确定相应帧是噪声片段。

一旦鉴别出相应帧(当前帧)的片段类型，信号处理部分110就行进到步骤S35。

如上所述，本发明通过为检测来自噪声环境内输入信号输入的语音片段而使用的快速实时处理，仅使用较小计算(操作)量就能够精确检测语音片段。

同时，下面将要描述根据本发明用于检测语音信号处理设备的语音片段的典型装置的另一个配置实例。

根据本发明用于检测语音信号处理设备的语音片段的装置包括：用于接收指示语音片段检测的用户控制命令的用户界面部分；用于根据所述用户控制命令接收输入信号的输入部分；以及处理器，它用于依据临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域对数能量与每一区域信号阈值和噪声阈值，并且根据比较的结果鉴别每一帧的语音片段是语音片段还是噪声片段。

用于检测语音片段的所述装置还包括：用于输出已检测语音片段的输出部分；以及用于存储语音片段检测操作要求的程序和数据的存储器部分。

能够按参考图2和图3解释的操作相同的(等效的或相似的)方法来执行根据本发明配置的用于检测语音信号处理设备的语音片段的装置的操作。

如上所述，本发明可以仅使用较小的操作量而实时检测从噪声环境内输入信号输入的语音片段。

本发明甚至可以在噪声环境中精确检测语音片段，因为它根据噪声的频率特性将临界频带细分为预定数目的区域，并且检测每一区域的语音片段。

本发明还可以通过根据噪声环境区分临界频带的多个划分区域而根据噪声的频率特性更精确地检测语音片段。

上述实施例和优点仅是示意性的，并且不应被解释为对本发明的限制。现有的教程也可方便地应用于其他类型的装置。本发明的描述旨在说明，并非限制权利要求的范围。更多的可选、修改和变化对本领域普通技术人员来说都是显而易见的。在权利要求中，方法加功能的条款旨在覆盖在此描述的执行所述功能的结构，并且不但覆盖结构性的等效物，也覆盖等效的结构。

Claims

1.一种用于检测语音信号的语音片段的装置，所述装置包括：

用于接收输入信号的输入部分；

用于控制语音片段检测的全部操作的信号处理部分；

用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分；

用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分；

用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分；以及

用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。

2.如权利要求1所述的装置，其特征在于，还包括：

用于输入指示语音片段检测的控制信号的用户界面部分；

用于输出检测到的语音片段的输出部分；以及

用于存储语音片段检测操作所需程序和数据的存储器部分。

3.如权利要求1所述的装置，其特征在于，如果噪声的频率特性涉及车辆噪声，那么将所述临界频带划分成的区域数目就是2。

4.如权利要求1所述的装置，其特征在于，如果噪声的频率特性涉及步行时产生的外围噪声，那么将所述临界频带划分成的区域数目就是3或4。

5.如权利要求1所述的装置，其特征在于，所述临界频带划分部分根据噪声环境的类型将所述临界频带分成不同数目的区域。

6.如权利要求1所述的装置，其特征在于，所述信号处理部分检查如果请求语音片段检查，用户请求是否要设置临界频带划分成的区域数目，并且根据用户所选的噪声环境类型设置声临界频带划分成的区域数目。

7.如权利要求1所述的装置，其特征在于，信号处理部分为了初始阶段特定帧输入数目而控制按区域计算能量对数的初始平均值和初始标准差的操作。

8.如权利要求7所述的装置，其特征在于，初始阶段帧输入的数目是4或5。

9.如权利要求1所述的装置，其特征在于，当由片段鉴别部分鉴别出相应帧是语音片段时，所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述信号阈值。

10.如权利要求9所述的装置，其特征在于，由以下数学表达式按区域更新信号阈值：

T_sk＝μ_sk+α_sk*δ_sk

其中μ是所述帧第k个区域的语音对数能量的平均值，δ是所述帧第k个区域的语音对数能量的标准差的值，α是滞后值，T_sk是信号阈值，而k的最大值是所述帧划分区域的数目。

11.如权利要求9所述的装置，其特征在于，由如下数学表达式算出所述平均值和标准差的值：

μ_sk(t)＝γ*μ_sk(t-1)+(1-γ)*E_k

{[E_{k}^{2}]}_{mean} (t) = γ * {[E_{k}^{2}]}_{mean} (t - 1) + (1 - γ) * E_{k}^{2}

δ_{sk} (t) = root ({[E_{k}^{2}]}_{mean} (t) - {[μ_{sk} (t)]}^{2})

其中μ_sk(t-1)是前一帧第k个区域的语音对数能量的平均值，Ek是所述帧(当前帧)第k个区域的语音对数能量，δ_sk(t)是所述帧第k个区域的语音对数能量的标准差的值，γ是加权值，而k的最大值是所述帧划分区域的数目。

12.如权利要求1所述的装置，其特征在于，当由片段鉴别部分鉴别出相应帧是噪声片段时，所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述信号阈值。

13.如权利要求12所述的装置，其特征在于，由以下数学表达式按区域算出噪声阈值：

T_nk＝μ_nk+β_nk*δ_nk

其中μ是所述帧第k个区域的噪声对数能量的平均值，δ是所述帧第k个区域的噪声对数能量的标准差的值，β_nk是所述帧第k个区域的滞后值，T_nk是噪声阈值，而k的最大值是所述帧划分区域的数目。

14.如权利要求12所述的装置，其特征在于，由如下数学表达式算出所述平均值和标准差的值：

μ_nk(t)＝γ*μ_nk(t-1)+(1-γ)*E_k

{[E_{k}^{2}]}_{mean} (t) = γ * {[E_{k}^{2}]}_{mean} (t - 1) + (1 - γ) * E_{k}^{2}

δ_{nk} (t) = root ({[E_{k}^{2}]}_{mean} (t) - {[μ_{nk} (t)]}^{2})

其中μ_nk(t-1)是前一帧第k个区域的噪声对数能量的平均值，Ek是所述帧(当前帧)第k个区域的噪声对数能量，δ_nk(t)是所述帧第k个区域的噪声对数能量的标准差的值，γ是加权值，而k的最大值是所述帧划分区域的数目。

15.如权利要求1所述的装置，其特征在于，片段鉴别部分为所述输入信号的所述帧的每一区域计算对数能量，并且如果存在至少一个具有的对数能量大于信号阈值的区域，就将该帧鉴别为语音片段。

16.如权利要求1所述的装置，其特征在于，片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量，并且如果不存在具有的对数能量大于信号阈值的区域但是存在至少一个具有的对数能量小于噪声阈值的区域，就将该帧鉴别为噪声片段。

17.如权利要求1所述的装置，其特征在于，片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量，并且在不存在具有的对数能量大于信号阈值的区域并且不存在具有的对数能量小于噪声阈值的区域的情况下，对于所述帧应用前一帧鉴别出的片段。

18.如权利要求1所述的装置，其特征在于，所述片段鉴别部分通过如下表达式鉴别帧的片段：

IF(E₁＞T_s1 OR E₂＞T_s2 OR E_k＞T_sk)，那么鉴别所述帧为语音片段

ELSE IF(E₁＜T_n1 OR E₂＜T_n2 OR E_k＜T_nk)，那么鉴别所述帧为噪声片段

ELSE，鉴别所述片段被前一帧所鉴别出的片段

其中E是每一区域的对数能量，Ts是用于每一区域的信号阈值，T_n是用于每一区域的噪声阈值，而k是所述帧划分区域的数目。

19.一种用于检测语音信号的语音片段的装置，所述装置包括：

用于接收指示语音片段检测的用户控制命令的用户界面部分；

用于根据所述用户控制命令接收输入信号的输入部分；以及

处理器，它用于通过所述临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域的对数能量与每一区域信号阈值和噪声阈值，并且根据比较结果鉴别每一帧的语音片段是语音片段还是噪声片段。

20.如权利要求19所述的装置，其特征在于，所述处理器检查在接收到用户控制命令时是否需要对所述帧划分区域的数目进行设置，并且根据用户所选的噪声环境类型设置所述临界频带划分成的区域数目。

21.如权利要求19所述的装置，其特征在于，所述处理器为了初始阶段帧输入的预定数目而计算用于每一区域的对数能量的初始平均值和初始标准差，并且通过使用所述初始平均值和初始标准差计算初始信号阈值和初始噪声阈值。

22.如权利要求19所述的装置，其特征在于，所述处理器通过如下表达式鉴别当前帧是语音片段还是噪声片段：

ELSE，鉴别所述片段为前一帧所鉴别出的片段

23.如权利要求22所述的装置，其特征在于，当鉴别所述帧为语音片段时，所述处理器为该帧的每一区域计算所述语音对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述信号阈值。

24.如权利要求22所述的装置，其特征在于，当鉴别所述帧为噪声片段时，所述处理器为该帧的每一区域计算所述噪声对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述噪声阈值。

25.一种检测语音信号的语音片段的方法，所述方法包括：

根据噪声的频率特性将输入信号的临界频带划分成预定数目的区域；

比较按区域不同地设置的自适应阈值与按区域计算的对数能量；以及

确定输入信号是否是语音片段。

26.如权利要求25所述的方法，其特征在于，还包括通过使用按区域计算出的所述对数能量的平均值和标准差以及根据确定结果来更新自适应阈值的步骤。

27.如权利要求26所述的方法，其特征在于，所述自适应阈值包括自适应信号阈值和自适应噪声阈值。

28.如权利要求27所述的方法，其特征在于，当确定输入信号是语音片段时，处理器通过使用按区域算出的所述对数能量的平均值和标准差来更新所述自适应信号阈值。

29.如权利要求28所述的方法，其特征在于，当确定输入信号是噪声片段时，处理器通过使用按区域算出的所述对数能量的平均值和标准差来更新所述自适应噪声阈值。

30.如权利要求25所述的方法，其特征在于，还包括如下步骤：

为了初始阶段输入的帧的预定数目而计算用于每一区域对数能量的初始平均值和初始标准差；以及

通过使用所述初始平均值和初始标准差为每一区域设置初始阈值。

31.一种用于检测语音信号的语音片段的方法，所述方法包括：

按临界频带的帧使所述输入信号格式化；

根据噪声的频率特性将当前帧划分成预定数目的区域；

比较按当前帧区域设置的信号阈值和噪声阈值以及按区域算出的对数能量；

确定当前帧是否是语音片段；以及

通过使用每个区域的对数能量选择性地更新所述信号阈值和噪声阈值。

32.如权利要求31所述的方法，其特征在于，所述方法还包括如下步骤：

通过使用为了在初始阶段输入的帧的预定数目按区域算出的对数能量的初始平均值和初始标准差，为每一区域设置初始信号阈值和初始噪声阈值。

33.如权利要求32所述的方法，其特征在于，帧的预定数目是3或4。

34.如权利要求31所述的方法，其特征在于，如果噪声的频率特性是车辆噪声的频率特性，那么所述临界频带的帧划分成的区域数目就是2。

35.如权利要求31所述的方法，其特征在于，如果噪声的频率特性是步行时产生外围噪声的频率特性，那么所述临界频带的帧划分成的区域数目就是3或4。

36.如权利要求31所述的方法，其特征在于，根据用户输入的噪声环境类型设置由临界频带的帧划分成的区域数目。

37.如权利要求31所述的方法，其特征在于，如果存在至少一个其对数能量大于信号阈值的区域，那么片段鉴别部分就将所述帧鉴别为语音片段。

38.如权利要求31所述的方法，其特征在于，如果不存在其对数能量大于信号阈值的区域但是存在至少一个其对数能量小于噪声阈值的区域，那么片段鉴别部分就将所述帧鉴别为噪声片段。

39.如权利要求31所述的方法，其特征在于，如果不存在其对数能量大于信号阈值的区域并且不存在其对数能量小于噪声阈值的区域，那么片段鉴别部分确定当前帧的片段与前一帧的片段相同。

40.如权利要求31所述的方法，其特征在于，所述片段鉴别部分通过如下表达式鉴别当前帧是语音片段还是噪声片段：

ELSE鉴别所述片段为前一帧所鉴别出的片段

其中E是每一区域的对数能量，Ts是用于每一区域的信号阈值，T_n是用于每一区域的噪声阈值，而k是所述帧被划分成的数目。

41.如权利要求31所述的方法，其特征在于，当确定所述帧是语音片段时，所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述信号阈值。

42.如权利要求41所述的方法，其特征在于，由以下数学表达式算出按区域更新的信号阈值：

T_sk＝μ_sk+α_sk*δ_sk

43.如权利要求41所述的方法，其特征在于，由如下数学表达式算出所述平均值和标准差的值：

μ_sk(t)＝γ*μ_sk(t-1)+(1-γ)*E_k

{[E_{k}^{2}]}_{mean} (t) = γ * {[E_{k}^{2}]}_{mean} (t - 1) + (1 - γ) * E_{k}^{2}

δ_{sk} (t) = root ({[E_{k}^{2}]}_{mean} (t) - {[μ_{sk} (t)]}^{2})

其中μ_sk(t-1)是前一帧第k个区域的语音对数能量的平均值，E_k是所述帧(当前帧)第k个区域的语音对数能量，δ_sk(t)是所述帧第k个区域的语音对数能量的标准差的值，γ是加权值，而k的最大值是所述帧划分区域的数目。

44.如权利要求31所述的方法，其特征在于，当鉴别所述当前帧为噪声片段时，所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差，并且通过使用算出的平均值和标准差来更新所述信号阈值。

45.如权利要求44所述的方法，其特征在于，由以下数学表达式算出按区域更新的信号阈值：

T_nk＝μ_nk+β_nk*δ_nk

其中μ是所述帧第k个区域的噪声对数能量的平均值，δ是所述帧第k个区域的噪声对数能量的标准差的值，β_nk是所述帧第k个区域的滞后值，T_nk是信号阈值，而k的最大值是所述帧划分区域的数目。

46.如权利要求45所述的方法，其特征在于，由如下数学表达式算出所述平均值和标准差的值：

μ_nk(t)＝γ*μ_nk(t-1)+(1-γ)*E_k

{[E_{k}^{2}]}_{mean} (t) = γ * {[E_{k}^{2}]}_{mean} (t - 1) + (1 - γ) * E_{k}^{2}

δ_{nk} (t) = root ({[E_{k}^{2}]}_{mean} (t) - {[μ_{nk} (t)]}^{2})

其中μ_nk(t-1)是前一帧第k个区域的噪声对数能量的平均值，E_k是所述帧(当前帧)第k个区域的噪声对数能量，δ_nk(t)是所述帧第k个区域的噪声对数能量的标准差的值，γ是加权值，而k的最大值是所述帧划分区域的数目。