CN102110436A

CN102110436A - 一种基于语音包络特征的标志音识别方法及装置

Info

Publication number: CN102110436A
Application number: CN2009102627717A
Authority: CN
Inventors: 韩治; 陆上义; 朱振明
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2009-12-28
Filing date: 2009-12-28
Publication date: 2011-06-29
Anticipated expiration: 2029-12-28
Also published as: WO2011079624A1; EP2479748B1; CN102110436B; EP2479748A1; EP2479748A4

Abstract

本发明公开了一种基于语音包络特征的标志音识别方法及装置，涉及语音质量测试技术。本发明方法包括：从衰减样本中记录任一语音数据段，且该语音数据段的采样点数与标志音样本的采样点数相同，再从语音数据段的所有采样点中抽取包络特征采样点，若根据所抽取的包络特征采样点判断语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等，则判断语音数据段即为标志音。本发明技术方案解决了由于引入同频噪声导致标志音误判的问题。

Description

一种基于语音包络特征的标志音识别方法及装置

技术领域

本发明涉及无线(有线)通信领域的语音质量测试技术，具体涉及一种基于语音包络特征的标志音识别方法及装置。

背景技术

无线(有线)网络中语音质量测试都是通过对发送端发送的源音样本和接收端接到的衰减样本的比对来实现的。为了能客观地评估出网络的语音质量，需要源音样本与采集到的衰减样本准确对齐。通常，发送端在发送正式的源音样本前，会发送一段特征明显的语音数据来作为标志音，并在经过一段由发送端和接收端共同约定的时间后发送源音样本数据。接收端在识别出标志音后，等待相应时间，开始记录衰减样本。以此来实现源音样本和衰减样本的对齐。

在实际的测试过程中，发送端一般采用具有特殊频率的单音信号作为标志音。接收端在收到语音数据后，通过数据进行快速傅里叶变换(Fast FourierTransform，FFT)及滤波操作，来判断接收到的语音数据是否为标志音。在单纯的通信环境中，接收端通过FFT和滤波操作，能够滤除大部分的外界干扰。但是，在实际生活中网络环境复杂多变，往往存在着各种各样的干扰和噪声。测试过程中，一旦引入了与单音信号同频的噪声，则该噪声无法被滤除，接收端必然会发生对标志音误判，导致测试结果出现异常。

其次，单音信号所采用的频率通常超出了人耳可以听到的频率范围，测试人员没有主观感受。当出现样本对齐误差时，测试人员无法通过人工的方式去排查误差出现的原因。即便单音信号采用的频率在人耳可以听到的范围之内，它所发出的声音也是刺耳的尖啸声，极大的影响测试人员的听觉感受。

发明内容

本发明所要解决的技术问题是，提供一种基于语音包络特征的标志音识别方法及装置，从而避免对标志音的误判。

为了解决上述问题，本发明公开了一种基于语音包络特征的标志音识别方法，包括：

从衰减样本中记录任一语音数据段，且该语音数据段的采样点数与标志音样本的采样点数相同，再从所述语音数据段的所有采样点中抽取包络特征采样点，若根据所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等，则判断所述语音数据段即为标志音，其中，包络特征采样点包括包络上的波峰采样点和波谷采样点，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点。

进一步地，上述方法中，当所述语音数据段具有如下任一包络外形特征时，判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等：

包络外形特征一，所述语音数据段的包络上相邻两波峰采样点的间距，与源音样本中标志音的包络上相邻两波峰采样点的间距相等；

或者，所述语音数据段的包络上相邻两波谷采样点的间距，与源音样本中标志音的包络上相邻两波谷采样点的间距相等；

包络外形特征二，源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所述语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值，源音样本中标志音的包络上相应的波峰采样点的振幅与所述语音数据段的包络上波峰采样点的振幅的比值为第二比值，其中，所述第一比值与所述第二比值相等。

其中，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数S(D_DXi，D_OXi)计算结果为1时，判断所述语音数据段具有包络外形特征一：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}} \leq a) \\ 0 & etc \end{matrix}

上式中，D_DXi表示从所述语音数据段中抽取的包络上相邻两波峰或者相邻两波谷采样点的间距；

D_OXi表示源音样本中标志的包络上相邻两波峰或者相邻两波谷采样点的间距；

a表示相邻两波峰或者相邻两波谷采样点的间距的误差门限值。

优选地，对所述函数S(D_DXi，D_OXi)进一步计算，当满足如下公式要求时，才判断所述语音数据段具有包络外形特征一：

\frac{Σ_{i = 1}^{n - 1} S (D_{DXi}, D_{OXi})}{n - 1} &GreaterEqual; b

式中，n为所述语音数据段包络上波峰或者波谷采样点的个数，b为相邻两波峰或者相邻两波谷采样点的间距的有效率门限值。

将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数C(tg_di，tg_oi)计算结果为1时，判断所述语音数据段具有包络外形特征二：

式中，c为有效正切值的误差门限值；

表示所述第一比值；

表示采样点序号为偶数时的第二比值；

表示采样点序号为奇数时的第二比值。

优选地，对所述函数C(tg_di，tg_oi)进一步计算，当满足如下公式要求时，才判断所述语音数据段具有包络外形特征二：

\frac{Σ_{i = 1}^{2 (n - 1)} C ({tg}_{di}, {tg}_{oi})}{2 (n - 1)} &GreaterEqual; d

式中，n为所述语音数据段包络上波峰或者波谷采样点的个数，d为正切值有效率门限值。

从衰减样本中的有效音频数据中记录任一语音数据段，其中，确定衰减样本中的有效音频数据的过程如下；

当所述衰减样本一段音频数据的采样点数达到事先设定的数据有效门限V_t，且所述采样点中连续的无效采样点的个数小于事先设定的数据失效门限I_t，则确定该段音频数据为有效音频数据，所述采样点的振幅的绝对值小于事先设定的振幅门限A_t时，判断该采样点为无效采样点。

本发明还公开了一种基于语音包络特征的标志音识别装置，包括采样及抽取模块和判断处理模块，其中：

所述采样及抽取模块、用于从衰减样本中采样一语音数据段，以及用于从所述语音数据段的所有采样点中抽取包络特征采样点，其中，所采样的语音数据段的采样点数与标志音样本的采样点数相同，包络特征采样点包括包络上的波峰采样点和波谷采样点；

所述判断处理模块、用于根据所述采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻的包络特征采样点的间距是否与源音样本中标志音的相应的相邻的包络特征采样点的间距相等，如果相等，则判断所述语音数据段即为标志音，其中，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点。

进一步地，上述装置中，若所述判断处理模块确定所述语音数据段具有如下任一包络外形特征时，判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等：

其中，所述判断处理模块，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数S(DD_Xi，DO_Xi)计算结果为1时，判断所述语音数据段具有包络外形特征一：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}} \leq a) \\ 0 & etc \end{matrix}

所述判断处理模块，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数C(tg_di，tg_oi)计算结果为1时，判断所述语音数据段具有包络外形特征二：

式中，c为有效正切值的误差门限值；

表示所述第一比值；

表示采样点序号为偶数时的第二比值；

表示采样点序号为奇数时的第二比值。

采用本发明技术方案，在时域下进行标志音的识别，解决了由于引入同频噪声导致标志音误判的问题。另外，本发明技术方案对标志音的频率没有要求，因此，可以改善测试人员的听觉感受。

附图说明

图1是本发明提出的方法的特征1的原理示意图；

图2是本发明提出的方法的特征2的原理示意图；

图3是本发明在衰减样本中检查是否有效音频数据的流程图；

图4是本发明抽取波峰和波谷采样点流程图；

图5是本发明对衰减样本中有效音频数据的波峰间距进行检查的流程图；

图6是本发明对衰减样本中有效音频数据的正切值tg进行检查的流程图。

具体实施方式

本发明的主要构思是，由于语音信号在通信网络中传输时，语音信号的频率不会发生改变，因此，语音信号的周期也不会发生改变。如果发送端所发送的源音样本和接收端接收到的衰减样本均为离散信号，且发送端和接收端采用相同的采样间隔，则语音信号中相邻的两两采样点在X轴上的间距也不会发生改变。因此，本发明技术方案提出，从衰减样本中记录一语音数据段，从该语音数据段上抽取包络特征采样点(即包络上的波峰采样点和波谷采样点)，在所抽取的采样点中，若相邻的包络特征采样点的间距与源音样本中标志音的相应的相邻的包络特征采样点的间距相等，即可判断该语音数据段即为标志音，其中，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点，具体地，衰减样本中任一语音数据段具有如下任一个包络外形特征(即称为标志音的包络外形特征)时，即判断衰减样本中任一语音数据段中相邻的两个采样点的间距与源音样本中标志音的相邻两个采样点的间距相等：

标志音的包络外形特征1：衰减样本的语音数据段的包络上相邻两波峰(或者相邻两波谷)的采样点间距与源音样本中标志音的包络上相邻两波峰(或者相邻两波谷)的采样点间距相等；

例如，如图1所示，源音样本中标志音包络中存在n个波峰采样点{P_O1(x_o1，y_o1)，P_O2(x_o2，y_o2)...P_On(x_on，y_on)}，其中，P_Oi和P_O(i+1)为相邻波峰的采样点，则P_Oi和P_O(i+1)在x轴(时间轴)上的差，如公式(1)所示：

D_OXi＝x_o(i+1)-x_oi 公式(1)

若衰减样本的一段语音数据的包络中，也存在n个波峰采样点{P_D1(x_d1，y_d1)，P_D2(x_d2，y_d2)...P_Dn(x_dn，y_dn)}，其中P_Di和P_D(i+1)为相邻波峰的采样点，则P_Di和P_D(i+1)在x轴上的差，如公式(2)所示：

D_DXi＝x_d(i+1)-x_di 公式(2)

由于源音样本和衰减样本具有相同的频率，源音样本中标志音包络上相邻两波峰采样点在X轴上的间距应该与衰减样本中对应两采样点在X轴上的间距相等，此时，定义如公式(3)所示的函数S(D_DXi，D_OXi)：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}} \leq a) \\ 0 & etc \end{matrix}

(公式3)

式中，a为相邻两波峰采样点的间距的误差门限值，具体可根据测试环境的实际情况设置，当

不大于误差门限值时，则认为D_DXi为一有效波峰间距。对于所有的D_DX，如果满足公式(4)，则认为衰减样本中的该段数据符合标志音的包络外形特征1：

\frac{Σ_{i = 1}^{n - 1} S (D_{DXi}, D_{OXi})}{n - 1} &GreaterEqual; b

(公式4)

式中，b为相邻波峰采样点的间距的有效率门限值，具体可根据测试环境的实际情况设置。

标志音的包络外形特征2：源音样本包络上波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与衰减样本的语音数据段的包络上相应波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值，以及源音样本的波峰采样点的振幅与衰减样本的语音数据段的包络上相应波峰采样点的振幅的比值为第二比值，这两个比值相等。

例如，如图2所示，假设在标志音样本包络中存在n个波峰采样点{P_O1(x_po1，y_po1)，P_O2(x_po2，y_po2)...P_On(x_pon，y_pon)}，在任意相邻的两波峰采样点P_Oi和P_O(i+1)之间都存在一个波谷采样点T_O1(x_to1，y_to1)(y_to1＞0)，波谷采样点共有n-1个，集合为：{T_O1(x_to1，y_to1)，T_O2(x_to2，y_to2)...T_O(n-1)(x_to(n-1)，y_to(n-1))}。则T_Oi的X轴坐标点与波峰采样点的连线与X轴的正切值，如公式(5)所示：

{tg}_{oi} = \{\begin{matrix} \frac{y_{po (\frac{i + 1}{2})}}{| x_{to (\frac{i + 1}{2})} - x_{po (\frac{i + 1}{2})} |} & if i is odd \\ \frac{y_{po (\frac{i}{2} + 1)}}{| x_{to (\frac{i}{2})} - x_{po (\frac{i}{2} + 1)} |} & if i is even \end{matrix}

(公式5)

由上可以获知，源音样本中共有2×(n-1)个正切值，集合为：{tg_o1，tg_o2...tg_o(2n-3)，tg_o(2n-2)}；

若在衰减样本的一段语音数据的包络中，也存在n个波峰采样点，集合为{P_D1(x_pd1，y_pd1)，P_D2(x_pd2，y_pd2)...P_Dn(x_pdn，y_pdn)}，则在任意相邻的两波峰采样点P_Di和P_D(i+1)之间都存在一个波谷采样点T_Di，波谷采样点共有n-1个，集合为：{T_D1(x_td1，y_td1)，T_D2(x_td2，y_td2)...T_D(n-1)(x_td(n-1)，y_td(n-1))}，则T_DiX轴坐标点与P_Di的连线与X轴的正切值如公式(6)所示：

{tg}_{di} = \{\begin{matrix} \frac{y_{pd (\frac{i + 1}{2})}}{| x_{td (\frac{i + 1}{2})} - x_{pd (\frac{i + 1}{2})} |} & if i is odd \\ \frac{y_{pd (\frac{i}{2} + 1)}}{| x_{td (\frac{i}{2})} - x_{pd (\frac{i}{2} + 1)} |} & if i is even \end{matrix}

(公式6)

由上可以看出，衰减样本的这段数据中共有2×(n-1)个正切值，集合为：{tg_d1，tg_d2...tg_d(2n-3)，tg_d(2n-2)}。

将源音样本中标志音的正切值与衰减样本数据中对应的正切值按照公式(7)进行比较：

\frac{{tg}_{oi}}{{tg}_{di}} = \{\begin{matrix} \frac{y_{po (\frac{i + 1}{2})} \times | x_{td (\frac{i + 1}{2})} - x_{pd (\frac{i + 1}{2})} |}{y_{pd (\frac{i + 1}{2})} \times | x_{to (\frac{i + 1}{2})} - x_{po (\frac{i + 1}{2})}} & if i is odd \\ \frac{y_{po (\frac{i}{2} + 1)} | x_{td (\frac{i}{2})} - x_{pd (\frac{i}{2} + 1)} |}{y_{pd (\frac{i}{2} + 1)} | x_{to (\frac{i}{2})} - x_{po (\frac{i}{2} + 1)} |} & if i is even \end{matrix}

(公式7)

在上式中，由于源音样本与衰减样本的相邻采样点在X轴上的间距相同，即

等于

等于

于是得出如公式(8)所示的结果：

\frac{{tg}_{oi}}{{tg}_{di}} = \{\begin{matrix} \frac{y_{po (\frac{i + 1}{2})}}{y_{pd (\frac{i + 1}{2})}} & if i is odd \\ \frac{y_{po (\frac{i}{2} + 1)}}{y_{pd (\frac{i}{2} + 1)}} & if i is even \end{matrix}

(公式8)

此时，定义公式(9)所示的函数C(tg_di，tg_oi)：

(公式9)

式中，c为有效正切值的误差门限值，具体可根据测试环境的实际情况设置。如果

(当i为奇数时)或者

(当i为偶数时)小于误差门限的话，则认为该正切值为一有效正切值。对于所有的t_gd，如果满足公式(10)，则认为衰减样本中的该段数据符合标志音的包络外形特征2：

\frac{Σ_{i = 1}^{2 (n - 1)} C ({tg}_{di}, {tg}_{oi})}{2 (n - 1)} &GreaterEqual; d

(公式10)

式中，d为正切值有效率门限值，具体可根据测试环境的实际情况设置。

下面结合附图及具体实施例对本发明技术方案做进一步详细说明。

一种基于语音包络特征的标志音识别装置，至少包括采样及抽取模块和判断处理模块。下面介绍各模块的功能。

采样及抽取模块、用于从衰减样本中采样一语音数据段，以及用于从所述语音数据段的所有采样点中抽取包络特征采样点，其中，所采样的语音数据段的采样点数与标志音样本的采样点数相同，包络特征采样点包括包络上的波峰采样点和波谷采样点；

判断处理模块、用于根据采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距是否与源音样本中标志音的相应的相邻包络特征采样点的间距相等，如果相等，则判断所述语音数据段即为标志音，其中，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点。

其中，判断处理模块，可以通过对所采样的语音数据段判断是否具有如下任一包络外形特征，从而判断该语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等(即判断该语音数据段是否为标志音)：

包络外形特征一，所采样的语音数据段的包络上相邻两波峰采样点的间距，与源音样本中标志音的包络上相邻两波峰采样点的间距相等；

或者，所采样的语音数据段的包络上相邻两波谷采样点的间距，与源音样本中标志音的包络上相邻两波谷采样点的间距相等；

具体地，判断处理模块，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数S(D_DXi，D_OXi)计算结果为1时，则判断所述语音数据段具有包络外形特征一：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}}) \leq a \\ 0 & etc \end{matrix}

包络外形特征二，源音样本中标志音的包络上相应的波峰采样点与其相邻的波谷采样点的X轴坐标点的连线与X轴夹角的正切值与所采样的语音数据段的包络上波峰采样点与其相邻波谷采样点的X轴坐标点的连线与X轴夹角的正切值的比值为第一比值，源音样本中标志音的包络上相应的波峰采样点的振幅与所采样的语音数据段的包络上波峰采样点的振幅的比值为第二比值，第一比值与所述第二比值相等。

具体地，判断处理模块，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数C(tg_di，tg_oi)计算结果为1时，判断所述语音数据段具有包络外形特征二：

式中，c为有效正切值的误差门限值；

下面介绍上述装置识别标志音识别的具体过程，包括以下步骤：

步骤一：检查衰减样本中是否有有效音频数据，当有有效音频数据时，进入步骤二；

该步骤中，在无线通信语音质量测试中，发送端发送的语音数据格式如下：

静音阶段1+标志音[+静音阶段2]+源音样本...重复。

接收端在静音阶段1接收到非静音数据时，就认为是有效语音数据的开始，但是，由于信号在传输的过程中会受到外界的干扰，接收端接收到的衰减样本数据中不会存在绝对的静音数据(振幅为0)，同时还有可能存在“啸叫”现象。因此，本实施例对接收到的语音数据将排除干扰，具体过程，如图3所示，包括如下步骤：

步骤301、接收端设置振幅门限A_t、数据失效门限I_t和数据有效门限V_t，其中，接收端根据网络的实际质量设定各门限值；

其中：振幅门限A_t，用于表示当一个采样点的振幅的绝对值A大于或者等于A_t时，接收端则认为该采样点为有效采样点，当采样点的振幅的绝对值小于A_t时，接收端则认为该采样点为无效采样点；

数据失效门限I_t，用于表示当连续的无效采样点数超过了I_t时，接收端则认为之前的数据均为无效数据，需要从连续无效采样点数达到I_t的采样点开始重新进行验证；

数据有效门限V_t，V_t＞I_t，用于表示当衰减样本中采样点数达到V_t，且这V_t个采样点中无效采样点数小于I_t时，接收端则认为该段数据为有效数据。

步骤302，设置采样点计数器C＝0，连续无效采样点计数器C_i＝0；

步骤303、对当前采样点进行验证，首先对C加1，接着进行判断，如果当前采样点振幅的绝对值A小于A_t(即当前采样点为无效采样点)，且前一采样点为无效采样点，C_i加1；如果前一采样点为有效数据点，则将C_i置1。接着，如果C_i＞＝I_t，则认为之前数据无效，先将C、C_i置0，再从下一采样点开始重新验证；如果C_i＜I_t且C＞V_t，则认为当前数据为有效数据，流程结束，进入步骤二；如果C_i＜I_t且C＜V_t，从下一采样点开始重新开始验证。

步骤二：从衰减样本中抽取包络特征采样点，即包络上的波峰采样点和波谷采样点；

该步骤中，接收端从有效数据的起始点开始对之后的采样点进行记录，当记录采样点数达到标志音样本采样点数时，开始抽取包络的波峰采样点，具体操作过程如图4所示，其中，假设此时共有标志音样本有n个采样点，采样点集合S＝{s₁(x_s1，y_s1)，s₂(x_s2，y_s2)......s_n(x_sn，y_sn)}，标志音样本的包络上的波峰数为k，具体抽取过程包括如下步骤：

步骤401、对采样点集合S中的采样点逐个进行分析、抽取，如果y_si＞y_s(i-1)且y_si＞y_s(i+1)，则s_i为语音波形上的波峰采样点，将s_i加入到集合P_W中；

步骤402，集合P_W＝{p_w1(x_pw1，y_pw1)，p_w2(x_pw2，y_pw2)......P_wn(x_pwn，y_pwn)}，将P_W中的采样点按照步骤401的方法再次进行抽取，将抽取出的采样点存入集合P_E中，集合P_E＝{p_e1(x_pe1，y_pe1)，p_e2(x_pe2，y_pe2)......P_en(x_pek，y_pek)}，P_E即为包络上的波峰采样点集合；

步骤403，再次对集合PW中的数据进行分析，如果y_pwi＜y_pw(i-1)且y_pwi＜y_pw(i+1)，则将采样点p_wi加入集合T_E中，这时，集合T_E＝{t_e1(x_te1，y_te1)，t_e2(x_te2，y_te2)......t_e(k-1)(x_te(k-1)，y_te(k-1))}，T_E即为包络上的波谷采样点集合。

步骤三：根据抽取的波峰采样点和波谷采样点判断从衰减样本中采样的这段语音是否具有标志音包络外形特征，如果是，则表示该段语音中包含标志音，否则表示该段语音中不包含标志音。

该步骤中，接收端根据抽取的波峰采样点和波谷采样点判断出衰减样本的这段语音具有标志音的任一个包络外形特征，即可判断该段语音中包含标志音。在优选的场景中，接收端根据抽取的波峰采样点和波谷采样点判断出衰减样本的这段语音具有标志音所有的包络外形特征(即具有包络外形特征一和包络外形特征二)时，才判断该段语音中包含标志音；

其中，假设标志音样本的相邻波峰采样点的间距集合D_O＝{d_o1，d_o2......d_o(k-1)}，则对波峰波谷抽取完毕后，按照如图5所示的过程，判断从衰减样本中采样的这段语音是否具有标志音的包络外形特征一：

步骤501、设置一个有效间距计数N和游标计数i，N＝0，i＝1；

步骤502、按照公式(11)计算抽取的衰减样本包络的波峰采样点集合中，相邻波峰采样点的间距，即p_ei和p_e(i+1)的间距d_di；

d_di＝x_pe(i+1)-x_pei(0≤i≤k-1) (公式11)

步骤503、按照上文中公式(3)计算函数S(d_di，d_oi)，并计算有效间距计算N，N＝N+S(d_di，d_oi)；

步骤504、如果i≠k-1，则将i加1，重复执行步骤502；

如果i＝k-1，则按照公式(12)计算N与k-1的比值r_d，

r_{d} = \frac{N}{k - 1}

(公式12)

当r_d≥b时，认为衰减样本的这段语音数据符合标志音包络外形特征一，该段语音即为标志音；否则认为语音数据为无效数据。

假设标志音样本包络上波峰采样点与其相邻的Y轴正方向上的波谷采样点的X轴坐标点的连线与X轴夹角的正切值集合t_gO＝{tg_o1，tg_o2......tg_o(2k-3)，tg_o(2k-2)}，则按照图6所示流程，判断从衰减样本中采样的这段语音是否具有标志音的包络外形特征二，具体包括如下步骤：

步骤601、设置一个有效间距计数N和游标计数i，N＝0，i＝1。

步骤602、按照公式(13)计算衰减样本中波谷采样点t_ei和其相邻的采样序号为奇数的波峰采样点p_ei的正切值tg_d(2i-1)，以及按照公式(14)计算t_ei和其相邻的采序号为偶数的波峰采样点p_e(i+1)的正切值tg_d(2i)，其中：

{tg}_{d (2 i - 1)} = \frac{y_{pei}}{x_{tei} - x_{pei}}, (0 \leq i \leq k - 1)

(公式13)

{tg}_{d (2 i)} = \frac{y_{pe (i + 1)}}{x_{pe (i + 1)} - x_{tei}}, (0 \leq i \leq k - 1)

(公式14)

步骤603、按照上文公式(9)计算C(tg_d(2i-1)，tg_o(2i-1))和C(tg_d(2i)，tg_o(2i))，并计算有效间距计数N，N＝N+C(tg_d(2i-1)，tg_o(2i-1))+C(tg_d(2i)，tg_o(2i))；

步骤604、如果i≠k-1，则将i加1，重复步骤602；

如果i＝k-1，则按照公式(15)计算N与k-1的比值r_d，

r_{tg} = \frac{N}{2 (k - 1)}

(公式15)

如果r_d≥d，则认为衰减样本的这段语音数据符合标志音的包络外形特征二，该段语音数据即为标志音；否则认为语音数据为无效数据。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于语音包络特征的标志音识别方法，其特征在于，该方法包括：

从衰减样本中记录任一语音数据段，且该语音数据段的采样点数与标志音样本的采样点数相同，再从所述语音数据段的所有采样点中抽取包络特征采样点，若根据所抽取的包络特征采样点判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等，则判断所述语音数据段为标志音，其中，包络特征采样点包括包络上的波峰采样点和波谷采样点，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点。

2.如权利要求1所述的方法，其特征在于，

当所述语音数据段具有如下任一包络外形特征时，判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等：

3.如权利要求2所述的方法，其特征在于，

将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数S(D_DXi，D_OXi)计算结果为1时，判断所述语音数据段具有包络外形特征一：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}} \leq a) \\ 0 & etc \end{matrix}

4.如权利要求3所述的方法，其特征在于，

对所述函数S(D_DXi，D_OXi)进一步计算，当满足如下公式要求时，才判断所述语音数据段具有包络外形特征一：

\frac{Σ_{i = 1}^{n - 1} S (D_{DXi}, D_{OXi})}{n - 1} &GreaterEqual; b

5.如权利要求2所述的方法，其特征在于，

式中，c为有效正切值的误差门限值；

表示所述第一比值；

表示采样点序号为偶数时的第二比值；

表示采样点序号为奇数时的第二比值。

6.如权利要求5所述的方法，其特征在于，

对所述函数C(tg_di，tg_oi)进一步计算，当满足如下公式要求时，才判断所述语音数据段具有包络外形特征二：

\frac{Σ_{i = 1}^{2 (n - 1)} C ({tg}_{di}, {tg}_{oi})}{2 (n - 1)} &GreaterEqual; d

7.如权利要求1至6任一项所述的方法，其特征在于，

8.一种基于语音包络特征的标志音识别装置，其特征在于，该装置包括采样及抽取模块和判断处理模块，其中：

所述判断处理模块、用于根据所述采样及抽取模块所抽取的包络特征采样点判断所述语音数据段中相邻的包络特征采样点的间距是否与源音样本中标志音的相应的相邻的包络特征采样点的间距相等，如果相等，则判断所述语音数据段为标志音，其中，相邻包络特征采样点为包络上相邻的波峰采样点，或者为包络上相邻的波谷采样点，或者为包络上相邻的波峰采样点和波谷采样点。

9.如权利要求8所述的装置，其特征在于，

若所述判断处理模块确定所述语音数据段具有如下任一包络外形特征时，判断所述语音数据段中相邻包络特征采样点的间距与源音样本中标志音的相应的相邻包络特征采样点的间距相等：

10.如权利要求9所述的装置，其特征在于，

所述判断处理模块，将从所述语音数据段中抽取的波峰和波谷采样点按照如下公式计算，当函数S(D_DXi，D_OXi)计算结果为1时，判断所述语音数据段具有包络外形特征一：

S (D_{DXi}, D_{OXi}) = \{\begin{matrix} 1 & if (\frac{| D_{DXi} - D_{OXi} |}{D_{OXi}} \leq a) \\ 0 & etc \end{matrix}

11.如权利要求9所述的装置，其特征在于，

式中，c为有效正切值的误差门限值；

表示所述第一比值；

表示采样点序号为偶数时的第二比值；

表示采样点序号为奇数时的第二比值。