CN107045870A

CN107045870A - 一种基于特征值编码的语音信号端点检测方法

Info

Publication number: CN107045870A
Application number: CN201710370540.2A
Authority: CN
Inventors: 张二华; 王满洪; 王明合; 唐振民; 许昊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2017-08-15
Anticipated expiration: 2037-05-23
Also published as: CN107045870B

Abstract

本发明公开了一种基于特征值编码的语音信号端点检测方法。该方法首先分帧提取短时能量和短时过零率特征参数，统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值，由统计结果和经验参数对短时能量设置4个阈值，对短时过零率设置1个阈值，根据这些阈值对语音特征进行编码，然后基于每帧的特征值编码，按照五级判定规则，对语音信号进行端点检测。本发明对有声段的短时能量设置了最低阈值的限制，对于模棱两可的疑似语音，结合相邻帧的特征按规则进行取舍，五级判别规则可有效应对各种复杂情况，避免误检和漏检，能显著提高语音信号端点检测的正确率。

Description

一种基于特征值编码的语音信号端点检测方法

技术领域

本发明属于语音信号处理领域，具体涉及一种基于特征值编码的语音信号端点检测方法。

背景技术

语音信号可以分为有声段和无声段，有声段又可辅音段、元音段以及辅音和元音之间的过渡段。在语音识别和说话人识别系统中，无声段的混入会显著降低系统的识别性能，必须将每一个有声段的起止位置检测出来，这就是语音信号的端点检测技术。

语音信号具有短时平稳的特征，通过分帧处理提取语音信号的短时特征，时间域的短时特征主要有短时能量、短时过零率等，可以根据这些短时特征进行端点检测。短时能量反映了语音信号的振幅或强度，一般元音段的短时能量较强，辅音段的短时能量较弱，无声段的短时能量更弱。短时过零率表示一帧语音信号的波形穿过横轴(零值)的次数，即语音数据的正负号改变的次数，过零率在一定程度上能反映频率信息，一般辅音段的短时过零率较高，元音段的短时过零率较低，无声段的短时过零率也较低。

迄今研究者提出了多种语音信号端点检测方法，如基于短时能量的方法、基于短时能量和短时过零率相结合的双门限法、基于谱熵的方法、基于梅尔倒谱相似度的方法、基于子带信噪比的方法等。上述端点检测方法主要适用于语音压缩与编码、语音增强、语音识别等，其特点是将全部有声段(包括辅音段和元音段)从语音信号中检测出来，目的是保持语音信号的完整度、自然度和可懂度。

端点检测方法中，最常用的是基于短时能量和短时过零率相结合的双门限法，该方法根据短时能量可以较准确地区分元音段和无声段(静音段)，但对于辅音段，由于其能量较弱，仅依据短时能量极易将低于能量门限的辅音段误判为无声段，此时可利用辅音段的短时过零率较高，无声段的短时过零率较低的特点，结合短时过零率综合判断。双门限法以短时能量为主，短时过零率为辅，对短时能量设置两个阈值，高能量阈值EH和低能量阈值EL，对短时过零率设置一个阈值ZH。

双门限法进行端点检测的主要步骤和特点如下：

(1)首先根据短时能量的高阈值EH对语音信号进行一次初判。由EH可求出短时能量曲线与高阈值界线的两个交点A1、A2，其中A1为起始点，A2为终止点，A1A2之间的部分可以肯定为有声段，一般对应于主音段，但精确的起止点还需在A1点之前、A2点之后进一步查找。

(2)再根据短时能量的低阈值EL，从A1点往前，A2点往后搜索短时能量曲线与低阈值界线的两个交点B1、B2，则B1B2之间仍能肯定为有声段，但还不是最终的起止点。在B1点之前、B2点之后可能还存在辅音段，其短时能量很弱，仅依据能量特征很难将辅音段与无声段区分开。由于辅音段的短时过零率明显高于无声段，可利用短时过零率特征进一步检测有声段的精确位置。

(3)根据短时过零率阈值ZH，从B1点往前，B2点往后进行搜索，查找短时过零率高于ZH的两个边界点C1、C2，则C1C2之间即为最后检测出来的有声段。

实践中发现，利用传统的双门限法检测辅音时，只要短时能量低于EL，且短时过零率高于ZH，就判断为辅音，忽略了有声段对短时能量的最低要求，常造成误检或漏检。此外还发现，有些辅音，起始段较明显，能量较强，尾部接近元音时能量反而减弱、过零率也有所降低，容易判定为无声段，造成辅音与元音中断，整个辅音段丢失。

另外，语音信号端点检测的结果严重依赖于短时能量和短时过零率的阈值，而这些阈值如何设定，目前还没有统一的、公认的方法，若阈值选取不当，极易造成误检或漏检，使端点检测的正确率明显下降。

发明内容

本发明的目的在于提供一种基于特征值编码的语音信号端点检测方法，用于克服语音信号端点检测中传统双门限法对短时能量设置的门限太少，常存在误检和漏检的缺陷。

实现本发明目的的技术解决方案为：一种基于特征值编码的语音信号端点检测方法，步骤如下：

(1)将语音信号采样序列分成固定长度的帧，相邻帧之间重合半帧，对每一帧语音提取短时能量、短时过零率两个特征参数；

(2)根据各帧的短时能量和短时过零率，统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值；

(3)根据短时能量的平均值和经验参数，对短时能量设置4个阈值；

(4)根据短时过零率的平均值、短时过零率的最大值及经验参数，对短时过零率设置1个阈值；

(5)根据短时能量和短时过零率的阈值，对每一帧语音生成一个1字节的特征值编码；

(6)根据每帧的特征值编码及五级判定规则，对语音信号进行端点检测。

本发明与现有技术相比，其显著优点为：(1)对有声段设置了最低短时能量阈值的限制，能防止将无声段误判为有声段。(2)对短时能量设置4个阈值，对短时过零率设置1个阈值，给出了阈值设置的经验参数，客观性强，自适应性好。

(3)根据短时能量和短时过零率的多个阈值，对每一帧语音生成一个1字节的特征值编码，端点检测直接根据特征值编码进行，占用存储空间少，检测速度快。

(4)与传统技术相比，在辅音段和无声段之间，增设了能量较低的疑似辅音。先将那些能量较弱的、不明显的、模棱两可的语音段作为疑似辅音，再根据相邻帧的特征进行综合判别，合理取舍，将部分疑似辅音合并到明显的辅音段中，将另一部分疑似辅音判别为无声段，能避免辅音段的漏检。(5)五级判定规则能有效应对各种复杂情况，避免误检和漏检，鲁棒性强，能显著提高语音信号端点检测的正确率。

附图说明

图1为语音帧的特征值编码方案图。

图2为基于特征值编码的语音信号端点检测流程图。

具体实施方式

语音信号可分为无声段和有声段，其中有声段又可分为辅音段、元音段及辅音与元音之间的过渡段，这些语音段特征比较明显，容易判别。在辅音段与无声段之间，还普遍存在不明显的、模棱两可的语音段，本发明先将这些语音段作为疑似辅音，再根据相邻帧的特征进行综合判别，最终将部分疑似辅音合并到明显的辅音段中，将另一部分疑似辅音判别为无声段。

本发明综合利用短时能量和短时过零率两种特征参数，提出了一种基于特征值编码的语音信号端点检测方法，根据音节的结构特点对短时能量设置4个阈值，对短时过零率设置1个阈值，并给出了这些阈值的设置方法，按照这些阈值对语音特征进行编码。然后根据每帧的特征值编码，按照五级判别规则进行端点检测。该方法对有声段的短时能量设置了最低阈值的限制，对模棱两可的疑似语音，结合相邻帧的特征进行综合判别，能有效应对各种复杂情况，显著提高端点检测的正确率。

本发明一种基于特征值编码的语音信号端点检测方法，包括如下步骤：

(1)将语音信号采样序列划分为一系列固定长度的帧，相邻帧之间重合半帧，对每一帧语音数据提取短时能量、短时过零率两个特征参数。

(2)根据各帧的短时能量和短时过零率，统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值。

(3)根据短时能量的平均值、短时过零率的平均值、短时过零率的最大值及经验参数，对短时能量设置4个阈值，从高到低依次为E_H、E_L、E_LL和E_LLL；

(4)根据短时过零率的平均值、短时过零率的最大值及经验参数，对短时过零率设置1个阈值Z_H。

(5)根据短时能量和短时过零率阈值，对每一帧语音生成一个1字节的特征值编码。

(6)根据每帧的特征值编码及五级判定规则，对语音信号进行端点检测，五级判定步骤如下：

(a)第一级判定，根据特征值编码直接判定明显的主音段和无声段。

(b)第二级判定，以判定的主音段为种子点，搜索紧邻主音段的中等能量语音帧及典型辅音帧，判定为有声段。

(c)第三级判定，搜索疑似辅音帧，根据左侧相邻帧的特征，将疑似辅音帧归于典型辅音段或判定为无声段。

(d)第四级判定，以判定的各有声段为种子点，搜索紧邻有声段的中等能量语音帧及典型辅音帧，判定为有声段。

(e)第五级判定，对所有余下的、仍处于待定状态的语音帧，判定为无声段。

下面结合附图和附表对本发明具体实施作进一步详细描述。

如图2所示，步骤1：分帧提取短时能量和短时过零率特征参数

语音是由声带的振动经声道的共振后发出的，在语音的发音过程中，声道处于变化状态，其变化速度与声带的振动速度相比要缓慢得多，语音信号是一种短时平稳信号，在较短的时间内(10～30ms)是相对平稳的，在较长的时间内是逐渐变化的。根据语音信号的短时平稳性，可将语音信号划分为一系列的时窗进行分析，在一个短时窗内语音信号是平稳的，一个时窗称为一帧。

将语音信号采样序列划分为一系列长度为10～32ms的帧，为了使帧与帧之间平滑过渡，保持其连续性，相邻帧之间重合半帧。对采样频率为16000Hz的语音信号，帧长设为512个数据，相邻帧之间重合256个数据。

通过分帧处理提取语音信号的短时特征，时间域的短时特征有短时能量和短时过零率，首先计算各帧的短时能量和短时过零率特征参数。

短时能量能反映语音信号的振幅或强度，一般元音的能量较强，辅音的能量较弱，无声段的能量更弱。

第i帧的短时能量定义为：

其中，N表示第i帧中包含的语音数据的个数；S_n表示第n个采样数据的值。

短时过零率表示一帧语音信号的波形穿过横轴(零值)的次数，即语音数据的正负号改变的次数。第i帧的短时过零率定义为：

其中，N表示第i帧中包含的语音数据的个数；S_n表示第n个采样数据的值；sgn为符号函数，定义为

短时过零率在一定程度上能反映语音信号的频率，一般辅音段的短时过零率较高，元音段的短时过零率较低，无声段的短时过零率也较低。

利用短时能量可以较准确地区分元音段和静音段，但对于辅音段，由于其能量较弱，仅依据短时能量极易将辅音段误判为无声段，此时可利用辅音段的短时过零率较高，无声段的短时过零率较低的特点，结合短时过零率综合判断。

步骤2：根据各帧的短时能量和短时过零率，统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值。

短时能量的平均值E_avg定义为:

其中，M表示语音段的总帧数，E_i表示第i帧的短时能量。

短时过零率的平均值Z_avg及最大值Z_max定义为:

Z_max＝max(Z_i,i＝1,2,...,M)

其中，M表示语音段的总帧数，Z_i表示第i帧的短时过零率。

步骤3：根据短时能量的平均值、短时过零率的平均值、短时过零率的最大值，对短时能量设置4个阈值，对短时过零率设置1个阈值。

(1)语音可划分为一个个音节，音节是发音时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段。音节由音素构成，音素分为元音和辅音。元音是在发音过程中气流通过口腔时不受阻碍发出的音，辅音是在发音过程中气流经过口腔或鼻腔时受到阻碍而形成的音。语音学中将发音时声带振动的音称为浊音，发音时声带不振动的音称为清音。发元音时声带振动，多数语言中的元音均为浊音，鼻音、边音、半元音也是浊音。发辅音时声带不一定振动，辅音分为清辅音和浊辅音。古汉语的辅音有清浊之分，而现代汉语(除吴语、老湘语)没有全浊辅音和部分次浊音，普通话仅有部分次浊音(如m、n、l)。汉语的声母清化过程伴随着声调的分化，汉语的声母清浊不辨后，靠声调来区别。

元音构成一个音节的主体，无论从音长还是从音强来看，元音在音节中都占主要成分。辅音因气流受到阻碍，发音不响亮，辅音的音长和音强与元音相比都很小，辅音依元音而存在，辅音与元音配合，构成音节。辅音只出现在音节的前端、后端或前后两端。

汉语是单音节字，一个汉字就是一个音节，一个音节包括声母和韵母。汉语音节一般由声母、韵母和声调三部分组成。每个汉字有四种音节结构：V、CV、VC₁、CVC₁。其中C是除了[nɡ]以外的全部辅音；V是单元音或复合元音；C₁是鼻辅音[n]或[nɡ]。C称为声母，V或VC₁称为韵母，这就是汉语的声-韵结构。元音和辅音是按音素发音时气流是否受到阻碍来分类的，浊音与清音是按发音时声带是否振动来分类的，声母和与韵母则是按汉语音节的结构来分类的。

汉语音节中的元音是音节的核心，是主音段，元音在音节中是必不可少的。在辅音和元音之间还存在过渡段，鼻韵尾是普通话里唯一能出现在音节末尾的辅音，其特征与声母里的鼻辅音基本相同。

汉语音节的这种结构特点既是连续语音音节切分的依据，也是语音信号端点检测的依据。本发明根据这些特点对短时能量设置4个阈值，对短时过零率设置一个阈值。

语音信号可分为无声段和有声段，其中有声段又可分为辅音段、元音段及辅音与元音之间的过渡段，这些语音段特征比较明显，容易判别。在辅音段与无声段之间，还普遍存在不明显的、模棱两可的语音段，本发明先将这些语音段作为疑似辅音，再根据相邻帧的特征进行综合判别，将部分疑似辅音合并到明显的辅音段中，将另一部分疑似辅音判别为无声段。

(2)本发明对短时能量设置4个阈值，分别为高阈值E_H、低阈值E_L、较低阈值E_LL和极低阈值E_LLL。这些阈值都有明确的含义。

E_H为短时能量的高阈值，若某帧的短时能量大于E_H，则可肯定为语音段，且是元音段，属于音节的主音段；

E_L为短时能量的低阈值，若某帧的短时能量大于E_L但小于E_H，一般为振幅较低的元音段，或辅音与元音之间的过渡段；

E_LL为辅音段的短时能量阈值，若某帧的短时能量大于E_LL但小于E_L，且短时过零率较大，则可判断为辅音段；

E_LLL为疑似辅音段的短时能量阈值，若某帧的短时能量大于E_LLL但小于E_LL，且短时过零率较大，则可作为疑似辅音。

若某帧的短时能量小于E_LLL，则可确定为无声段。

对一段语音，根据短时能量的平均值E_avg，按以下经验参数对短时能量设置4个阈值：

E_H＝0.165×E_avg；

E_L＝0.05×E_avg；

E_LL＝0.0146×E_avg；

E_LLL＝0.0048×E_avg；

(3)本发明对短时过零率设置1个阈值Z_H。其含义为，辅音的短时过零率较高，一般大于Z_H；元音的短时过零率较低，一般小于Z_H，无声段的短时过零率更低。

根据短时过零率的平均值Z_avg、短时过零率的最大值Z_max，按以下经验参数设置短时过零率的阈值Z_H。

Z_H＝Z_avg+0.015×(Z_max-Z_avg)

步骤4：对每帧生成一个1字节的特征值编码。

本发明对每一帧语音生成一个特征值编码，编码长度为8位，1个字节，从左向右依次为第7～0位，第7位代表最高位，第0位代表最低位。其中，第2～0位用于语音帧的短时能量编码，第3位用于语音帧的短时过零率编码，第7～6位用于语音帧的状态编码，第5～4位留作备用。语音帧特征值编码如图1。

(1)根据第i帧的短时能量E_i及4个阈值，按下列情况对第2～0位进行编码：

若E_i＜E_LLL，编码为000；

若E_LLL≤E_i＜E_LL，编码为001；

若E_LL≤E_i＜E_L，编码为010；

若E_L≤E_i＜E_H，编码为011；

若E≥E_H，编码为100。

编码101、110、111留作备用。

(2)根据第i帧的短时过零率Z_i及阈值Z_H，按下列情况对第3位进行编码：

若Z_i＜ZH，编码为0；

若Z_i≥ZH，编码为1。

(3)第7～6位为状态编码，用于标记端点检测的中间结果或最终结果，按下列情况进行编码：

若为无声帧，编码为00；

若为有声帧，编码为11；

若为待定帧，编码为01；

编码10留作备用。

各语音帧的初始状态全部设置为待定帧，编码为01；

(4)特征值编码的第5～4位备用，全部设置为00。

根据上述编码方法，对每一帧语音根据短时能量和短时过零率特征参数生成一个1字节的特征值编码，按帧号形成特征值编码序列，以后不再计算特征参数，后续的端点检测直接根据特征值编码进行多级综合判断。

有声段包括辅音段、元音段以及辅音与元音之间的过渡段。元音段的特点是短时能量强，但短时过零率较低低频。

辅音段的共同特点是短时过零率较高，本发明按短时能量的强弱将辅音分为以下三类：

第一类为典型辅音，其特点是短时过零率较高，短时能量较弱；

第二类为非典型辅音1，其特点为短时过零率较高，短时能量也较强，这类辅音很少见。实际上因其短时能量较强，可直接判定为有声段。

第三类为非典型辅音2，其特点为短时过零率较高，短时能量中等，主要为振幅较强的辅音，或辅音与元音之间的过渡段。

以上三类辅音统称为广义辅音。

对每一帧语音可根据短时能量和短时过零率得到一个编码，然后参照表1中的规则，对于明显的语音段和无声段，可根据编码直接判断；对于模棱两可的语音帧，需要将相邻几帧联系起来综合判断。

表1语音帧的特征值编码及判定规则

步骤5：第一级判定，根据特征值编码直接判定明显的主音段和无声段。

(1)搜索特征值编码的第3～0位为0100或1100的所有帧，这些语音帧是能独立构成音节的元音段，也是主音段，将这些语音帧直接判定为有声段，并将其特征值编码的第7～6位赋值为11。

这些主音段是与其相邻的过渡段或辅音段能否判定为有声段的依靠。若过渡段或辅音段能与主音段连通，则这些过渡段或辅音段也能判别为语音段；若过渡段或辅音段不能与主音段连通，则这些过渡段或辅音段就不能判别为语音段，只得判别为无声段。

(2)同时搜索特征值编码的第3～0位为0000、0001或1000的所有帧，将这些语音帧直接判别为无声段，并将其特征值编码的第7～6位赋值为00。

步骤6：第二级判定，以各主音段为种子点，搜索紧邻主音段的中等能量语音帧及典型辅音帧，判定为有声段。

本步骤的目的是搜索与主音段直接连通的中等能量语音帧及典型辅音帧，只要与已标记的有声段直接相邻，即可判断为有声段。其它未与主音段直接连通的中等能量语音段或典型辅音段，经过后续步骤的有序处理后，还可以通过疑似辅音段(需经过与广义辅音段合并)作为桥梁，再与主音段连通，这些语音段将在后续步骤中补充进来。追踪过程中须记下种子点的位置，防止重复追踪或遗漏。

该步骤的具体方法为：以各主音段为种子点，先向左侧，再向右侧，搜索紧邻的中等能量语音帧(特征值编码的第3～0位为0011或1011)及典型辅音帧(特征值编码的第3～0位为1010)，将这些语音帧判定为有声段，将其编码的第7～6位赋值为11，并沿原来的方向继续追踪，直至遇到已判定的有声帧(特征值编码的第7～6位为11)、疑似辅音帧(特征值编码的第3～0位为0010或1001)或已判定的无声帧(特征值编码的第7～6位为00)为止。

步骤7：第三级判定，搜索疑似辅音帧，根据左侧相邻帧的特征，将疑似辅音帧归于典型辅音段或判定为无声段。

由于汉语是单音节字，辅音主要出现在主音段的左侧，尽管鼻辅音出现在韵尾，但能量较强，可与主音段连通，疑似辅音段主要出现在主音段的左侧，因此辅音主要从主音段向左扩展。

先搜索出疑似辅音帧(特征值编码的第3～0位为0010或1001)，若其左侧为广义辅音段(特征值编码的第3～0位为1010、1011或1100)，且连续的疑似辅音帧数≤连续的广义辅音帧数，则这些连续的疑似辅音帧可与左侧连续的广义辅音帧合并，一起归于典型辅音帧，将其编码的第3～0位重置为1010。若疑似辅音帧的左侧无广义辅音段，或者连续的疑似辅音帧数>连续的广义辅音帧数，则这些疑似辅音帧不能与左侧的广义辅音帧合并，此时将这些连续的疑似辅音帧判定为无声段，并将其编码的7～6位赋值为00。

步骤8：第四级判定，以判定的各有声段为种子点，搜索紧邻有声段的中等能量语音帧及典型辅音帧，判定为有声段。

与步骤6类似，只不过将“与主音段直接连通”变为“与判定的有声段直接连通”(包括目前已判定为有声段的主音段、短时能量中等的有声段及典型辅音段)。

该步骤的具体方法为：以目前已判定的各有声段为种子点，先向左侧，再向右侧，搜索紧邻的中等能量语音帧(特征值编码的第3～0位为0011或1011)及典型辅音帧(特征值编码的第3～0位为1010)，将这些语音帧判定为有声段，将其编码的第7～6位赋值为11，并沿原来的方向继续追踪，直至遇到已判定的有声帧(特征值编码的第7～6位为11)或无声帧(特征值编码的第7～6位为00)为止。

追踪过程中须记下种子点的位置，防止重复追踪或遗漏。

步骤9：第五级判定，对所有余下的、仍处于待定状态的语音帧(特征值编码的第7～6位为01)，判定为无声段，并将其编码的第7～6位赋值为00。

步骤10：结果输出：将所有特征值编码的第7～6位为11的语音帧作为有声段输出，将所特征值编码的第7～6位为00的语音帧作为无声段输出。

Claims

1.一种基于特征值编码的语音信号端点检测方法，其特征在于包括如下步骤：

2.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(1)中所述提取短时能量和短时过零率的方法为：将语音信号采样序列划分为一系列长度为32ms的帧；分帧后，对每一帧分别提取短时能量和短时过零率特征参数。

3.如权利要求2所述的基于特征值编码的语音信号端点检测方法，其特征在于：所述短时能量特征参数的提取方法为：

在步骤(1)中，所提取的第i帧的短时能量为：

<mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <msub> <mi>S</mi> <mi>n</mi> </msub> <mn>2</mn> </msup> </mrow>

4.如权利要求2所述的基于特征值编码的语音信号端点检测方法，其特征在于：所述短时过零率特征参数的提取方法为：

在步骤(1)中，所提取的第i帧的短时过零率为：

<mrow> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow>

<mrow> <mi>sgn</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

5.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(2)中，统计短时能量的平均值E_avg，公式为:

<mrow> <msub> <mi>E</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>E</mi> <mi>i</mi> </msub> </mrow>

其中，M表示语音段的总帧数，E_i表示第i帧的短时能量；

统计短时过零率的平均值Z_avg，最大值Z_max，公式为:

<mrow> <msub> <mi>Z</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>Z</mi> <mi>i</mi> </msub> </mrow>

其中，M表示语音段的总帧数，Z_i表示第i帧的短时过零率。

6.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(4)中所述短时能量阈值的设置方法为：

对短时能量设置4个阈值，从高到低依次为E_H、E_L、E_LL和E_LLL，经验参数及公式为：

E_H＝0.165×E_avg

E_L＝0.05×E_avg

E_LL＝0.0146×E_avg

E_LLL＝0.0048×E_avg

其中，E_avg为短时能量的平均值。

7.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(4)中所述短时过零率阈值的设置方法为：

对短时过零率设置1个阈值Z_H，经验参数及公式为：

Z_H＝Z_avg+0.015×(Z_max-Z_avg)

其中，Z_avg为短时过零率的平均值，Z_max为最大值。

8.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(5)中所述对每一帧语音生成1个1字节的特征值编码：

(a)每一帧语音特征值编码的长度为8位，1个字节，从左到右依次为第7～0位，第7位为最高位，第0位为最低位；其中，第2～0位用于语音帧的短时能量特征编码，第3位用于语音帧的短时过零率特征编码，第7～6位用于语音帧的状态编码；

(b)根据语音帧的短时能量特征参数E_i，按下列情况对第2～0位进行编码：

若E_i＜E_LLL，编码为000；

若E_LLL≤E_i＜E_LL，编码为001；

若E_LL≤E_i＜E_L，编码为010；

若E_L≤E_i＜E_H，编码为011；

若E_i≥E_H，编码为100；

(c)根据语音帧的短时过零率特征参数Z_i，按下列情况对第3位进行编码：

若Z_i＜Z_H，编码为0；

若Z_i≥Z_H，编码为1；

(d)第7～6位为状态编码，用于标记端点检测的中间结果或最终结果，按下列情况进行编码：

若判定为无声段，编码为00；

若判定为有声段，编码为11；

若为待定状态，编码为01；

端点检测开始前，每帧的初始状态设置为01，为待定状态；

(e)若编码的第3～0位为0010或1001，称为疑似辅音；

若编码的第3～0位为1010，称为典型辅音；

若编码的第3～0位为1010、1011或1100，称为广义辅音。

9.如权利要求1所述的基于特征值编码的语音信号端点检测方法，其特征在于：步骤(6)所述的五级判定规则为：

(a)第一级判定：根据特征值编码直接判定明显的主音段和无声段；搜索特征值编码的第3～0位为0100或1100的所有帧，这些语音帧是能独立构成音节的主音段，将这些语音帧直接判定为有声段，并将其特征值编码的第7～6位赋值为11；同时搜索特征值编码的第3～0位为0000、0001或1000的所有帧，将这些语音帧直接判定为无声段，并将其特征值编码的第7～6位赋值为00；

(b)第二级判定：以各主音段为种子点，搜索紧邻主音段的中等能量语音帧及典型辅音帧，判定为有声段；

以各主音段为种子点，先向左侧，再向右侧，搜索紧邻的中等能量语音帧及典型辅音帧，中等能量语音帧的特征值编码的第3～0位为0011或1011，典型辅音帧的特征值编码的第3～0位为1010，将这些语音帧判定为有声段，将其编码的第7～6位赋值为11，并沿原来的方向继续追踪，直至遇到已判定的有声帧、疑似辅音帧或已判定的无声帧为止，已判定的有声帧的特征值编码的第7～6位为11，疑似辅音帧的特征值编码的第3～0位为0010或1001，已判定的无声帧的特征值编码的第7～6位为00；

(c)第三级判定，搜索疑似辅音帧，根据左侧相邻帧的特征，将疑似辅音帧归于典型辅音段或判定为无声段；

先搜索出疑似辅音帧，其特征值编码的第3～0位为0010或1001，若其左侧为广义辅音段，即特征值编码的第3～0位为1010、1011或1100，且连续的疑似辅音帧数≤连续的广义辅音帧数，则这些连续的疑似辅音帧可与左侧连续的广义辅音帧合并，一起归于典型辅音帧，将其编码的第3～0位重置为1010；若疑似辅音帧的左侧无广义辅音段，或者连续的疑似辅音帧数>连续的广义辅音帧数，则这些疑似辅音帧不能与左侧的广义辅音帧合并，此时将这些连续的疑似辅音帧判定为无声段，并将其编码的7～6位赋值为00；

(d)第四级判定，以判定的各有声段为种子点，搜索紧邻有声段的中等能量语音帧及典型辅音帧，判定为有声段；

以目前已判定的各有声段为种子点，先向左侧，再向右侧，搜索紧邻的中等能量语音帧及典型辅音帧，中等能量语音帧的特征值编码的第3～0位为0011或1011，典型辅音帧的特征值编码的第3～0位为1010，将这些语音帧判定为有声段，将其编码的第7～6位赋值为11，并沿原来的方向继续追踪，直至遇到已判定的有声帧或无声帧为止，已判定的有声帧的特征值编码的第7～6位为11，无声帧的特征值编码的第7～6位为00；

(e)第五级判定，对所有余下的、仍处于待定状态的语音帧，其特征值编码的第7～6位为01，判定为无声段，并将其编码的第7～6位赋值为00。