CN1809197A

CN1809197A - Tetra集群手机语音处理方法

Info

Publication number: CN1809197A
Application number: CNA2006100423618A
Authority: CN
Inventors: 魏崇毓; 宋道健; 宋敬彬; 张毅; 孔志强; 孙增国
Original assignee: Hisense Group Co Ltd; Qingdao Hisense Communication Co Ltd
Current assignee: Hisense Group Co Ltd; Qingdao Hisense Communication Co Ltd
Priority date: 2006-02-06
Filing date: 2006-02-06
Publication date: 2006-07-26
Anticipated expiration: 2026-02-06
Also published as: CN100548060C

Abstract

本发明公开了一种TETRA集群手机的语音处理方法，首先对采集到的语音数据进行活动语音判断，当为活动语音时，则对语音能量幅度进行修正，然后根据当前语音信号的能量大小调节采样麦克的增益，使采样得到的语音幅度稳定，当语音为非活动语音时，则用预先设定的背景音数据作为本次的语音采样数据，最终实现语音信号为活动语音时语音柔和，为非活动语音时听到舒适的背景音的效果。

Description

TETRA集群手机语音处理方法

技术领域

本发明属于集群通信终端技术领域，更具体地说涉及一种对TETRA集群手机的语音数据进行处理的技术领域。

背景技术

集群通信是实现移动中指挥调度通信最有效的手段之一，也是指挥调度最重要的通信方式之一。它是一种共享资源、分担费用、向用户提供优良服务的多用途、高效能的移动通信系统，集群通信系统随着技术的日趋成熟，应用越来越广泛，可以应用于智能交通、各种自然灾害的救险行动、机场民航、城市地铁等的指挥系统。

TETRA是一个强大的多功能数字集群移动通信系列标准，ETSI组织制定了TETRA标准的详细内容，其中的ETS 300 395-2规定了TETRA语音编解码的标准。上述标准并没有对语音信号的活动语音检测、能量调整等方面作出规定，

目前的TETRA集群手机存在的缺点，在于按照标准实现的系统对麦克采样获得的语音信号数据并不进行优化，直接对语音信号的原始数据进行处理，造成了语音能量起伏过大的情况：当外界语音能量高时，容易造成语音信号能量过高而尖锐刺耳，当外界的语音能量低时，则容易造成语音信号能量过低而听不清。

发明内容

本发明的目的就是为了解决目前TETRA集群手机的语音能量起伏过大的缺点，提供一种对TETRA集群手机的语音数据进行处理的方法，能够获得一种舒适的TETRA语音，本方法可以在TETRA语音编码的预处理阶段或者语音解码的后处理阶段或者预处理和后处理阶段都进行处理，对语音信号数据进行优化，使优化后的语音在TETRA手机用户通话时，听觉上达到舒适的效果。在不违背TETRA语音编解码标准的情况下很大程度上提高了语音感知上的舒适度。

为了实现上述目的，本发明包括以下步骤：

1、活动语音检测，对TETRA语音信号按帧进行阈值判断；

2、判断此帧数据为活动语音，对语音信号数据能量幅度进行调整；

3、判断此帧数据为非活动语音，则用预存储的舒适背景音覆盖原语音信号数据。

TETRA语音处理中活动语音的检测步骤，按照语音帧的能量和语音帧的过零率进行双参数判断，采用对能量决策规则和过零率决策规则给予不同加权权重的非均匀加权决策规则。

其中能量决策规则包括以下步骤：

计算语音信号的能量，统计一个语音帧中全部240个数据的能量幅度值；

设置活动语音检测用的能量门限值，包括能量上限值和能量下限值，对计算出的语音信号的能量进行阈值判断；

当语音帧信号的能量大于上限值时，判定该语音帧为活动语音，当语音帧信号的能量小于下限值时，判定该语音帧为非活动语音。

语音信号幅度值采用Q15量化，能量上限值范围为0800 0000h-1000 0000h，能量下限值范围为06000 000h-04000 000h。

其中过零率决策规则包括以下步骤：

计算语音信号的过零率ZCR值，统计一个语音帧中全部240个数据的ZCR值；

设置活动语音检测用的过零率门限值，包括过零率上限值和过零率下限值，对计算出的语音信号的过零率进行阈值判断；

当语音帧信号的过零率大于上限值时，判定该语音帧为非活动语音，当语音帧信号的过零率小于下限值时，判定该语音帧为活动语音。

过零率上限制的范围是16-30，过零率下限值的范围是8-10。

非均匀加权决策规则中能量决策的权重大于过零率决策的权重。

步骤2中对活动语音信号数据的能量幅度进行调整包括如下步骤：

计算当前活动语音帧的能量幅度值；

设置能量门限值，包括门限值上限和门限值下限，对计算出的活动语音帧的能量幅度进行判断；

如果活动语音帧的能量幅度值大于门限值上限，则按照设定的语音能量减幅系数来降低此帧语音数据中各个采样值的能量幅度；

如果活动语音帧的能量幅度值小于门限值下限，则按照设定的语音能量增加系数来增加此帧语音数据中各个采样值的能量幅度，其他情况能量幅度值不变。

门限值上限的选定范围在0.5-1.0内，门限值下限的选定范围在0-0.5内。

在TETRA语音编码的预处理阶段采用语音处理方法，则在步骤2中，对语音信号数据能量幅度进行调整的同时还要调整麦克的增益。

如果语音信号能量的幅度大于上限阈值，则对语音信号进行减幅处理的同时，减小麦克的增益；如果能量的幅度小于下限阈值，则对语音信号进行增幅处理的同时，增大麦克的增益；其他情况麦克增益保持不变。

舒适背景音的构造，根据本方法所采用的硬件和一般通话环境通过试验获得一个舒适背景音样本，用此提前获得的背景音数据填充数据缓冲区。

在TETRA语音编解码处理中，在语音编码的预处理阶段或者语音解码的后处理阶段或者在语音编码的预处理阶段和语音解码的后处理阶段进行语音的能量调整和舒适背景音的产生。

采用本发明中的语音处理方法，能够实现语音信号为活动语音时语音柔和，为非活动语音时听到舒适的背景音的效果，提高了TETRA集群手机通话时用户听觉上的舒适度。

附图说明

下面结合附图和实施例对本发明作进一步的描述。

图1是本发明中的硬件连接方框图；

图2是本发明中语音数据处理的流程图；

图3是非均匀加权决策规则的语音活动检测图。

具体实施方式

如图1所示，在TETRA手机中，语音信息经麦克风或者带麦克的耳机传递给音频声码器CODEC，声码器把模拟的语音信号转换成数字信号经串行总线传输到微处理器CPU中，并在DSP芯片中进行语音数字信号的编码处理。播放声音时，数字语音信号经串行总线传递到微处理器CPU中，并在DSP芯片中进行数字解码及语音处理，然后把处理后的数字语音信号在音频声码器中转换成模拟信号，经功率放大器放大后，通过扬声器输出声音信息。其中微处理器CPU负责控制、调度系统运行。

由于TETRA语音编解码标准部分中没有对活动语音检测和能量幅度调整等处理作出规定，而目前TETRA手机没有进行语音优化的处理，按照标准实现的系统的语音效果比较差，所以本发明的技术方案是在TETRA语音编码的预处理或语音解码的后处理中对语音信号数据进行优化处理，使处理后的语音在TETRA手机用户通话时，听觉上达到舒适的效果。

如图2所示，首先对语音信号进行活动语音检测，按照检测的结果对不同的情况进行相关的处理，如果检测为活动语音，则调整语音能量的幅度；如果检测为非活动语音，则发送预构建的舒适语音信号，同时调整麦克的采样增益，使得语音的幅度始终处于一个稳定的范围，在原始语音数据的能量幅度高时语音不刺耳，语音能量幅度低时语音清晰，获得舒适的语音；舒适语音处理在DSP芯片上实现，系统负载低，计算时间短，实用性高。

对要处理的语音信号数据进行活动语音检测处理中，由于TETRA集群手机实时通信的特点，本方案中对于是否活动语音的判断是按帧进行的，即对TETRA语音信号按帧对全部240个数据进行阈值判断，按照情况将整个帧判定为活动语音或者非活动语音。

如图3所示是非均匀加权决策规则的语音活动检测，活动语音检测采用能量、过零率双参数方法进行判断，包括能量决策规则和过零率决策规则，其中能量决策规则的处理方法步骤描述如下：

1-1、计算语音信号的能量E：

计算能量E时，统计一个语音帧的全部240个能量信号的幅度值，令目前的信号为s[n]，n＝0，2，3.....，239，则以dB为单位，语音能量的计算方法按照理论应该如下计算：

E = 10 lo g_{10} | Σ_{i = 0}^{239} {(s [i])}^{2} | (dB)

为了便于在DSP上实现，在本方法中其能量的计算方法修正如下：

E = Σ_{i = 0}^{239} {(s [i])}^{2}

1-2、活动语音的能量阈值判断：

选取出两个作为语音活动检测(VAD)判断用的能量门限值，第一个为能量上限值E_U，第二个为能量下限值E_L。当输入语音帧信号能量大于此上限值E_U时，将此语音帧判定为活动语音，当输入语音帧信号的能量小于此下限值E_L时，将此语音帧判定为非活动语音。令输出的结果为f_E，f_E值的计算方法总结成如下公式：

能量门限值E_U和E_L的设置根据语音信号幅度值的量化方式不同而不同，当语音信号幅度值的量化采用Q15量化时，E_U可在0800 0000h-1000 0000h范围内根据实际环境设置，E_L则可在0600 0000h-0400 0000h范围内根据实际环境设置。

而过零率决策规则的处理方法步骤描述如下：

2-1、计算过零率ZCR：

计算过零率ZCR值时，取语音帧的全部240个数据进行计算，如下式所示：

ZCR = \frac{1}{239} Σ_{i = 1}^{239} | sign (x [i]) - sign (x [i - 1]) |

其中函数sign(x[i])表示如下：

2-2、活动语音的过零率阈值判断；

选取出两个活动语音判断用的过零率门限值，第一个为过零率下限值Z_L，当输入语音帧信号的过零率小于此下限值时，将此语音帧判定为活动语音；第二个为过零率上限值Z_U，当输入语音帧信号的过零率大于此上限值时，将此语音帧判定为非活动语音。令过零率决策规则输出之结果为f_ZCR，f_ZCR的计算方法总结成如下公式：

由于过零率受硬件环境的影响，其门限值需要根据实际试验情况设置不同的数值，一般情况下，其参数可在如下范围内选取：过零率上限制Z_U的范围在16-30之间，过零率下限值Z_L的范围在8-10之间。

活动语音判断规则采用能量、过零率双参数方法，具体描述如下：

活动语音检测判断采用非均匀加权决策规则。非均匀加权决策规则的语音活动检测方法在找出上述两种决策规则的输出值后，给予其不同加权权重，得到活动语音检测参数F。上述情况可用如下的方程式表示：

F＝y(f_E，f_ZCR)

＝α_Ef_E+α_ZCRf_ZCR

其中α_E、α_ZCR分别为能量决策规则和过零率决策规则输出值的加权权重。若最后计算所得的活动语音检测参数数值F大于或等于上门限值F_th时，则判断此帧语音数据为活动语音；若计算所得的数值F小于下门限值F_tl时，则判断此帧语音数据为非活动语音；位于二者之间时语音帧的状态未定。

活动语音检测的能量决策规则和过零率决策规则的加权权重值根据具体的手机硬件按照试验结果进行确定，来确定不同参数在活动语音检测中的作用，并且根据所取值来选定活动语音判定时的上下门限值。一般情况下α_E、α_ZCR可采用非均匀权重进行计算，即α_E大于α_ZCR；而F_th的选定范围则可以在0.5-1.0内，F_tl的选定范围则可以在0-0.5内，具体取值根据硬件情况试验确定。

活动语音检测判断后，按照活动语音检测的判定结果再分别进行不同的处理。其中语音能量信号幅度的调整步骤：

当判定此帧数据为活动语音时，对语音信号数据能量幅度进行调整。计算当前帧的能量幅度值E，与能量门限值E_MU相比较，如果当前帧的能量幅度值E大于门限值上限，则按照设定的语音能量减幅系数f_dec来降低此帧语音数据的各个采样值的能量幅度；如果当前帧的能量幅度值E小于下限门限值E_ML，则按照设定的语音能量增加系数f_inc来增加此帧语音数据的各个采样值的能量幅度；其他情况能量幅度值不变。其计算公式如下：

对麦克增益的调整步骤：

因为TETRA集群手机中每帧语音的时间长度为30ms，而语音信号具有短时间内的平稳性，可以认为在很短的时间间隔内，相邻两帧语音信号的能量幅度值是一致的，因此在调整语音数据信号能量的同时要调整麦克的增益。麦克的调整规则如下：增大语音信号能量幅度的同时增大麦克的增益，减小语音信号能量幅度的同时减小麦克的增益；能量幅度值不变时麦克的增益也不变。

当判定当前语音帧为静音时，从语音的连续性和通话方的感受考虑，需用预先构建的舒适背景音数据填写当前语音帧，使通话方不致感到语音间隙之间的突兀和对通话方活动通话进行提示。因为受使用的硬件环境和语音环境的影响比较大，舒适背景音的构建方式采用试验的方法获得，根据使用环境的不同语音数据的内容存在差异。

当判定当前语音帧的状态未定时，不对语音帧进行处理。

本发明中的语音处理方法使用的位置可以在语音编码的预处理阶段或者语音解码的后处理阶段，由于TETRA编解码阶段本身的运算量的不同，后处理阶段的计算量较小，所以放在语音处理的后处理阶段对系统的影响较小，是一个优选的方案。

Claims

1.一种TETRA集群手机语音处理方法，其特征在于包括以下步骤：

1)活动语音检测，对TETRA语音信号按帧进行阈值判断；

2)判断此帧数据为活动语音，对语音信号数据能量幅度进行调整；

3)判断此帧数据为非活动语音，则用预存储的舒适背景音覆盖原语音信号数据。

2.根据权利要求1所述的TETRA集群手机语音处理方法，其特征在于活动语音检测步骤中，按照语音帧的能量和语音帧的过零率进行双参数判断，采用对能量决策规则和过零率决策规则给予不同加权权重的非均匀加权决策规则。

3.根据权利要求2所述的TETRA集群手机语音处理方法，其特征在于能量决策规则包括以下步骤：

当语音帧信号的能量大于上限值时，判定该语音帧为活动语音，当语音帧信号的能量小于下限值时，判定该语音帧为非活动语音，当语音帧信号的能量介于上下限二者之间时，状态未定。

4.根据权利要求3所述的TETRA集群手机语音处理方法，其特征在于语音信号幅度值采用Q15量化，能量上限值范围为0800 0000h-1000 0000h，能量下限值范围为0600 0000h-0400 0000h。

5.根据权利要求2所述的TETRA集群手机语音处理方法，其特征在于过零率决策规则包括以下步骤：

当语音帧信号的过零率大于上限值时，判定该语音帧为非活动语音，当语音帧信号的过零率小于下限值时，判定该语音帧为活动语音，当语音帧的过零率介于上下限二者之间时，状态未定。

6.根据权利要求5所述的TETRA集群手机语音处理方法，其特征在于过零率上限制的范围是16-30，过零率下限值的范围是8-10。

7.根据权利要求2所述的TETRA集群手机语音处理方法，其特征在于非均匀加权决策规则中能量决策的权重大于过零率决策的权重。

8.根据权利要求1所述的TETRA集群手机语音处理方法，其特征在于对活动语音信号数据的能量幅度进行调整包括如下步骤：

计算当前活动语音帧的能量幅度值；

如果活动语音帧的能量幅度值小于门限值下限，则按照设定的语音能量增加系数来增加此帧语音数据中各个采样值的能量幅度；

如果活动语音帧的能量幅度值介于上下限门限值之间，能量幅度值不变。

9.根据权利要求8所述的TETRA集群手机语音处理方法，其特征在于门限值上限的选定范围在0.5-1.0内，门限值下限的选定范围在0-0.5内。

10.根据权利要求1所述的TETRA集群手机语音处理方法，其特征在于语音处理方法的位置在语音编码预处理阶段，进行语音信号数据能量幅度调整的同时还要调整麦克的增益。