CN102376306B

CN102376306B - 语音帧等级的获取方法及装置

Info

Publication number: CN102376306B
Application number: CN2010102487574A
Authority: CN
Inventors: 刘加; 王林芳; 李明; 刘小青
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2010-08-04
Filing date: 2010-08-04
Publication date: 2013-01-23
Anticipated expiration: 2030-08-04
Also published as: CN102376306A

Abstract

本发明实施例提供一种语音帧等级的获取方法及装置，根据语音帧的编码参数，解码生成丢帧情况下和未丢帧情况下的两组解码语音信号，基于上述两组解码语音信号进行特征参数的提取，根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级，也就可以得到语音帧的等级。进一步地，在得到语音帧的等级后，可以对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

Description

语音帧等级的获取方法及装置

技术领域

本发明实施例涉及通信技术，尤其涉及一种语音帧等级的获取方法及装置。

背景技术

在语音通信系统中，利用语音活动检测(Voice Activity Detector，简称VAD)算法，可以将语音信号分为语音帧和静音帧。其中，接收端的解码语音质量主要取决于语音帧。由于无线信道和网络传输的不稳定性，语音帧的丢帧现象时有发生。

发明人发现现有技术中至少存在如下问题：现有技术无法获取语音帧的等级，从而可能使得在后续不能对语音帧进行有效的处理。

发明内容

本发明实施例提供一种语音帧等级的获取方法及装置，可以获取语音帧的等级。

本发明实施例提供了一种语音帧等级的获取方法，包括：

对语音帧的编码参数进行解码，生成第一解码语音信号和第二解码语音信号，所述第一解码语音信号为未丢帧情况下的解码语音信号，所述第二解码语音信号为丢帧情况下的解码语音信号；

提取所述第一解码语音信号的第一特征参数，并提取所述第二解码语音信号的第二特征参数；

根据所述第一特征参数和所述第二特征参数，获取所述语音帧的特征参数矢量；

其中，所述特征参数矢量包括第一特征参数，或者所述特征参数矢量包括第一特征参数和第二特征参数，或者所述特征参数矢量包括所述第二特征参数与所述第一特征参数的参数差值，或者所述特征参数矢量包括所述第二特征参数与所述第一特征参数的参数差值和第一特征参数，或者所述特征参数矢量包括所述第二特征参数与所述第一特征参数的参数差值和第二特征参数，或者所述特征参数矢量包括所述第二特征参数与所述第一特征参数的参数差值、第一特征参数和第二特征参数；

根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级。

本发明实施例还提供了一种语音帧等级的获取装置，包括：

参数解码模块，用于对语音帧的编码参数进行解码，生成第一解码语音信号和第二解码语音信号，所述第一解码语音信号为未丢帧情况下的解码语音信号，所述第二解码语音信号为丢帧情况下的解码语音信号；

参数提取模块，用于提取所述第一解码语音信号的第一特征参数，并提取所述第二解码语音信号的第二特征参数；

矢量获取模块，用于根据所述第一特征参数和所述第二特征参数，获取所述语音帧的特征参数矢量；

等级获取模块，用于根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级。

由上述技术方案可知，本发明实施例根据语音帧的编码参数，解码生成丢帧情况下和未丢帧情况下的两组解码语音信号，基于上述两组解码语音信号进行特征参数的提取，根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级，也就可以得到语音帧的等级。

进一步地，在得到语音帧的等级后，可以对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音帧等级的获取方法的流程示意图；

图2为本发明另一实施例提供的语音帧等级的获取方法的流程示意图；

图3为本发明一实施例提供的语音帧等级的获取装置的结构示意图；

图4为本发明另一实施例提供的语音帧等级的获取装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的语音帧等级的获取方法的流程示意图，如图1所示，本实施例的语音帧等级的获取方法可以包括以下步骤：

步骤101、对语音帧的编码参数进行解码，生成第一解码语音信号和第二解码语音信号；

其中，上述语音帧的编码参数是指对语音帧进行编码后得到的编码语音信号，也可以称为语音帧的编码参数，上述第一解码语音信号为未丢帧情况下的解码语音信号，上述第二解码语音信号为丢帧情况下的解码语音信号；

步骤102、提取上述第一解码语音信号的第一特征参数，并提取上述第二解码语音信号的第二特征参数；

其中，上述第一特征参数或上述第二特征参数可以包括帧能量、线性预测倒谱系数、美尔(Mel)频标倒谱系数、巴克(Bark)域感知响度中的至少一项。

步骤103、根据上述第一特征参数和上述第二特征参数，获取上述语音帧的特征参数矢量；

可以理解的是：上述特征参数矢量可以包括第一特征参数，或者还可以包括第一特征参数和第二特征参数，或者也可以包括上述第二特征参数与上述第一特征参数的参数差值，或者还可以包括上述第二特征参数与上述第一特征参数的参数差值和第一特征参数，或者也可以包括上述第二特征参数与上述第一特征参数的参数差值和第二特征参数，或者又可以包括上述第二特征参数与上述第一特征参数的参数差值、第一特征参数和第二特征参数；

例如：第一特征参数为[x1，y1，z1]，第二特征参数为[x2，y2，z2]，则对应的特征参数矢量可以为[x1，y1，z1，x2，y2，z2]，也可以为[x1-x2，y1-y2，z1-z2]，还可以为[x1-x2，y1-y2，z1-z2，x1，y1，z1]，也可以为[x1-x2，y1-y2，z1-z2，x2，y2，z2]，又可以为[x1-x2，y1-y2，z1-z2，x1，y1，z1，x2，y2，z2]。

本步骤中的参数差值可以为第二特征参数减去第一特征参数的差值及其差值变换，还可以为第一特征参数减去第二特征参数的差值及其变换，本发明实施例不做限制。

如上所述，第一特征参数或上述第二特征参数可以包括帧能量、线性预测倒谱系数、美尔(Mel)频标倒谱系数、巴克(Bark)域感知响度中的至少一项，也就是说，第一特征参数或者第二特征参数中可以包括以上几个分量。相应地，参数差值可以包括帧能量差异、线性预测倒谱距离、Mel频标倒谱距离、Bark域感知失真中的至少一项，也就是说，参数差值中可以包括以上几个分量。可以理解的是，当获取特征参数矢量时，第一特征参数和第二特征参数中包括相同的分量。

步骤104、根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和上述特征参数矢量，获取与上述特征参数矢量对应的语音帧细分等级。

本步骤中的数学模型可以包括高斯混合模型(Gaussian Mixture Model，简称GMM)、贝叶斯模型、人工神经网络等。上述数学模型可以通过多种方式建立，例如：可以根据预先指定一定数量的语音帧的解码语音信号平均意见评分(Mean Opinion Score，简称MOS)分值的下降值，将上述一定数量的语音帧分为N_c个语音帧细分等级，每个语音帧细分等级中语音帧的个数相同或相近，从而可以为每个语音帧细分等级上的语音帧的特征参数矢量分别建立的数学模型。根据预设准则，匹配出与获取的上述特征参数矢量对应的数学模型，从而获取上述数学模型对应的语音帧细分等级。

而此处的，预设准则是指在具体确定语音帧更符合哪个数学模型时采用的判断准则，例如：该准则可以为最大似然估计准则。

需要说明的是：可以认为语音帧细分等级的取值越大，语音帧的等级也就越高，例如：语音帧细分等级的取值为1即等级1表示语音帧具有最低的等级；当然，也可以是语音帧细分等级的取值越小，语音帧的等级也就越高，本实施例对此不做限定，只要能通过不同的语音帧细分等级的取值反映出语音帧的等级高低即可。进一步可以认为语音帧的等级越高，语音帧的重要程度也就越高，例如：等级1表示语音帧具有最低的重要程度；当然，也可以是等级越低，重要程度也就越高，本实施例对此不做限定，只要能通过不同的等级反映出语音帧的重要程度即可。或者，也可以通过预设的细分等级阈值(该阈值可以为多个)，根据语音帧的细分等级，将语音帧划分为不同的重要程度。例如，假设通过两个细分等级阈值，第一细分等级阈值，第二细分等级阈值将语音帧为重要，次重要，不重要三个重要程度。那么通过比较获取的语音帧的细分等级与细分等级阈值的关系可以知道该语音帧的重要程度。

进一步地，本发明实施例可以根据获取的语音帧细分等级，有效地对系统中的语音帧采取相应的保护策略，即可以根据获取的语音帧细分等级，对语音帧进行相应的发送或转发处理。例如：对于重要程度高的语音帧，可以采用较大的功率进行发送，以提高其抗信道噪声干扰能力，对于重要程度低的语音帧，可以采用较小的功率发送，可以使得在保持平均发送功率不变的前提下，能耗资源实现最优分配，从而可以有效地提高接收端的解码语音质量；当存在多余的带宽资源时，对于重要程度高的语音帧，可发送两次或多次，对于重要程度低的语音帧，可以只发送一次，通过冗余方式保证重要程度高的语音帧的信息不被丢失，从而可以有效地提高接收端的解码语音质量。

本实施例中，根据语音帧的编码参数，解码生成丢帧情况下和未丢帧情况下的两组解码语音信号，基于上述两组解码语音信号进行特征参数的提取，根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级，也就可以得到了语音帧的等级，那么也就知道了语音帧的重要程度。进一步地，可以对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

图2为本发明另一实施例提供的语音帧等级的获取方法的流程示意图，如图2所示，本实施例的语音帧等级的获取方法可以包括以下步骤：

步骤201、对语音帧的编码参数进行解码，生成未丢帧情况下的解码语音信号即正常解码语音信号和丢帧情况下的解码语音信号即丢帧补偿解码语音信号；

本步骤中，可以基于当前语音帧的编码参数，利用修正的语音解码器，分别生成丢帧情况下和未丢帧情况下的两组解码语音信号。

具体地，本步骤可以由一个正常的语音解码器即主体语音解码器来完成，该主体语音解码器处于正确解码第n-1帧，等待第n帧语音帧的编码参数输入的状态。可以假设输入的第n帧语音帧的编码参数为c_n(i)，其中，i＝1，...，m。

可以通过如下方式生成丢帧情况下的解码语音信号：

可以利用上述主体语音解码器的内置的丢帧错误隐藏方法，生成第n帧语音帧丢失情况下的替代语音帧的编码参数

其中，i＝1，...，l。建立一个临时的简单语音解码器，拷贝上述主体语音解码器的状态到上述简单语音解码器，也就是说可以将该简单语音解码器与上述主体语音解码器看做是一模一样的两个语音解码器。可以利用第n帧语音帧的丢帧替代的编码参数

为上述简单语音解码器的输入，进行语音解码，生成对应于第n帧语音帧的丢帧补偿解码语音信号，可以记为s_n，conc(i)，其中，i＝1，...，N。

可以通过如下方式生成未丢帧情况下的解码语音信号：

可以利用第n帧语音帧的编码参数c_n(i)为上述主体语音解码器的输入，进行语音解码，生成对应于第n帧语音帧的正常解码语音信号，可以记为s_n， _ori(i)，其中，i＝1，...，N。解码期间，上述主体语音解码器的状态能够得到正常更新。

可选地，本实施例中，若对语音帧的语音编码方案的帧长较短，例如：10ms左右，上述步骤101或者201中，可以进一步采用重复拓展方法或者延迟拓展方法，基于当前语音帧的编码参数和当前语音帧的下一语音帧的编码参数，利用修正的语音解码器，分别生成丢帧情况下和未丢帧情况下的两组解码语音信号。从而可以获得较多的解码语音信号的样点，以保证后续步骤中所提取的特征参数更加准确有效。

步骤202、提取上述正常解码语音信号的特征参数(可以称为正常特征参数)，并提取上述丢帧补偿解码语音信号的特征参数(可以称为丢帧补偿特征参数)；

其中，上述正常特征参数或上述丢帧补偿特征参数可以包括帧能量、线性预测倒谱系数、Mel频标倒谱系数、Bark域感知响度中的至少一项。也是说，特征参数可以是一个数组的形式(可以将这个数组看做一个矢量)。

其中，帧能量、线性预测倒谱系数与Mel频标倒谱系数的提取方法可以参考现有技术中的方法，此处不再赘述。上述Bark域也称为临界频带群，是一种频域的心理声学概念，反映了人耳的频率选择特性。基于Bark域的感知响度可以很好的描述人耳对语音信号的实际感应。Bark域感知响度的提取方法可以包括以下步骤：对于输入的语音信号，首先可以通过离散傅里叶变换，获得语音信号的频域表示，计算语音信号的功率谱，然后进行频域到Bark域的映射，获得各临界带内的音高功率谱密度，在此基础上可以根据Zwicker公式获得各临界频带内的感知响度。

步骤203、根据上述正常特征参数和上述丢帧补偿特征参数，获取上述语音帧的特征参数矢量；

可以理解的是：上述特征参数矢量可以包括正常特征参数，或者还可以包括正常特征参数和丢帧补偿特征参数，或者也可以包括上述丢帧补偿特征参数与上述正常特征参数的参数差值，或者还可以包括上述丢帧补偿特征参数与上述正常特征参数的参数差值和正常特征参数，或者也可以包括上述丢帧补偿特征参数与上述正常特征参数的参数差值和丢帧补偿特征参数，或者又可以包括上述丢帧补偿特征参数与上述正常特征参数的参数差值、正常特征参数和丢帧补偿特征参数；

如上所述，上述正常特征参数和上述丢帧补偿特征参数可以包括帧能量、线性预测倒谱系数、美尔(Mel)频标倒谱系数、巴克(Bark)域感知响度中的至少一项，也就是说，上述正常特征参数和上述丢帧补偿特征参数中可以包括以上几个分量。相应地，参数差值可以包括帧能量差异、线性预测倒谱距离、Mel频标倒谱距离、Bark域感知失真中的至少一项，也就是说，参数差值中可以包括以上几个分量。可以理解的是，当获取特征参数矢量时，上述正常特征参数和上述丢帧补偿特征参数中包括相同的分量。

其中，帧能量差异、线性预测倒谱距离、Mel频标倒谱距离的获取方法可以参考现有技术中的方法，此处不再赘述。而Bark域感知失真可以通过以下方式获取：根据上述步骤202提取出的当前帧对应的正确解码语音信号的各临界频带内的感知响度和丢帧补偿解码语音信号的各临界频带内的感知响度之后，可进一步计算这两组信号在各临界带内的感知响度差，并通过对各临界带内的感知响度差进行非线性加权平均，获得两组语音信号总体的感知失真。

需要说明的是：上述特征参数还可以根据具体情况，包括其他能够体现输入语音帧的重要性的特征参数，相应地，其对应的特征参数矢量还可以包括其他能够体现输入语音帧的重要性的特征参数的参数差值，例如：基频F0和F0差异、过零率和过零率变化等。

步骤204、利用线性鉴别分析技术或主成分分析技术，对上述特征参数矢量进行处理；

若上述步骤203获取的特征参数矢量的分量较多、且某些分量间具有较大相关性，则本步骤中可以采用线性鉴别分析技术或主成分分析技术对上述特征参数矢量进行处理，以达到有效提取最能反映不同等级之间差异的特征、去除特征分量间相关性、降低维数的目的，具体方法可以参考《多元统计分析》(作者：王静龙，出版社：科学出版社)中第八章第3节的相关内容、以及《现代模式识别(第2版)》(作者：孙即祥，出版社：高等教育出版社)中第三章的相关内容，此处不再赘述。

步骤205、根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和经过处理的上述特征参数矢量，获取与经过处理的上述特征参数矢量对应的语音帧细分等级；

本步骤可以利用一个分类器(例如：细分分类器)来实现，该分类器的设计原则是：根据其解码语音信号平均意见评分(Mean Opinion Score，简称MOS)分值的下降值，将所有用于训练该分类器的语音帧分在N_c个语音帧细分等级中，每一个语音帧细分等级中语音帧的个数可以根据需要设置，例如：可以是每一个语音帧细分等级中语音帧的个数相同或相近，也可以是不同等级中的语音帧的个数直接满足一定的比例等等，本实施例对此不做限定。一般，为了能够达到较好的训练效果用于训练该分类的语音帧的个数越多越好。而N_c的取值可以根据实际需要设置，例如：可以是10～20之间的任意整数。具体地，可以认为语音帧细分等级的取值越大，语音帧的等级也就越高，例如：语音帧细分等级的取值为1即等级1表示语音帧具有最低的等级，语音帧细分等级N_c表示语音帧具有最高的等级；当然，也可以是语音帧细分等级的取值越小，语音帧的等级也就越高，本实施例对此不做限定，只要能通过不同的语音帧细分等级的取值反映出语音帧的等级高低即可。进一步可以认为语音帧的等级越高，语音帧的重要程度也就越高，例如：等级1表示语音帧具有最低的重要程度，等级N_c表示语音帧具有最高的重要程度；当然，也可以是等级越低，重要程度也就越高，本实施例对此不做限定，只要能通过不同的等级反映出语音帧的重要程度即可。

具体地，上述分类器中可以为每一个语音帧细分等级上的语音帧的特征参数矢量建立一个对应的一个高斯混合模型(Gaussian Mixture Model，简称GMM)。其中，高斯混合模型可以采用最大似然方法进行训练，采用K均值法初始化模型，然后用Bauman-Welch算法进行迭代，直至收敛。

需要说明的是：本步骤中，对建立高斯混合模型的上述特征参数矢量也需要利用线性鉴别分析技术或主成分分析技术，以使建立的高斯混合模型适用于上述步骤204经过处理之后的特征参数矢量。

利用建立的上述高斯混合模型，获取与上述特征参数矢量对应的语音帧细分等级的规则如下：假设待分等级的语音帧对应的特征参数矢量为X，首先，计算该特征参数矢量在各高斯混合模型中的似然函数p(X|λ_i)，其中，i＝1，...，C，其中C为高斯混合模型个数，然后，选择似然函数的值最大的高斯混合模型对应的语音帧细分等级作为待分级语音帧的等级，也就是说，此处的预设准则为最大似然(maximum likelihood，简称ML)估计准则。当然，也可以采取其他的预设准则，例如：最大后验(maximum a posteriori，简称MAP)估计准则等。当采用其他准则时，得到语音帧的细分等级的方式与上述方法类似，此处不再赘述。

可选地，本步骤中的上述分类器建立的模型还可以采用贝叶斯模型、人工神经网络等。

至此，已经获取了语音帧细分等级，也就是说获取到语音帧的等级为N_c中的一个，如图1所示实施例中的描述，根据语音帧的细分等级可以对语音帧采取相应的保护策略。然而，在实际应用中，为了将上述语音帧细分等级进一步合并成更少的语音帧目标等级，本实施例的语音帧等级获取方法还可以包括以下步骤。

步骤206、根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与上述语音帧细分等级对应的语音帧目标等级。

本步骤也可以利用一个分类器(例如：阈值分类器)来实现，该分类器的训练阶段，确定上述步骤205中分类器中的模型参数后，将所有训练用的的语音帧输入上述步骤205中的分类器，根据每个细分等级中语音帧的个数可以获得分类器在训练集上各语音帧细分等级的实际比例r_n，其中，n＝1，...，N_c。根据预先设置的每个语音帧目标等级对应的语音帧个数的比例值即R₁、R₂、......、R_M，确定对应的阈值T_m，m＝1，...，M-1。假设上述步骤205中利用分类器划分的语音帧细分等级结果为n_1，out＝1，...，N_c，利用上述确定的阈值，即可以获取与上述语音帧细分等级对应的语音帧目标等级。语音帧目标等级的个数可以根据实际需要设置，例如：可以是2～4之间的任意整数，下面以语音帧目标等级的个数为2个为例进行说明。具体地，可以认为语音帧目标等级的取值越大，语音帧的等级也就越高，例如：语音帧目标等级的取值为1即等级1表示语音帧具有低等级，语音帧目标等级2表示语音帧具有高等级；当然，也可以是语音帧目标等级的取值越小，语音帧的等级也就越高，本实施例对此不做限定，只要能通过不同的语音帧目标等级的取值反映出语音帧的等级高低即可。进一步可以认为语音帧的等级越高，语音帧的重要程度也就越高，例如：等级1表示语音帧具有低重要程度(不重要)，等级2表示语音帧具有高重要程度(重要)；当然，也可以是等级越低，重要程度也就越高，本实施例对此不做限定，只要能通过不同的等级反映出语音帧的重要程度即可。或者，也可以通过预设的目标等级阈值(该阈值可以为多个)，根据语音帧的目标等级，将语音帧划分为不同的重要程度。例如，假设通过两个目标等级阈值，第一目标等级阈值，第二目标等级阈值将语音帧为重要，次重要，不重要三个重要程度。那么通过比较获取的语音帧的目标等级与目标等级阈值的关系可以知道该语音帧的重要程度。

例如：可以以语音帧细分等级/语音帧目标等级的取值越大，语音帧的等级越高，重要程度越高为例。假设上述步骤205中分类器将语音帧划分出了10个语音帧细分等级，语音帧细分等级1中的语音帧的个数是100个，语音帧细分等级2中的语音帧的个数是102个，语音帧细分等级3中的语音帧的个数是98个，语音帧细分等级4中的语音帧的个数是100个，语音帧细分等级5中的语音帧的个数是102个，语音帧细分等级6中的语音帧的个数是100个，语音帧细分等级7中的语音帧的个数是98个，语音帧细分等级8中的语音帧的个数是100个，语音帧细分等级9中的语音帧的个数是100个，语音帧细分等级10中的语音帧的个数是100个，若预先设置了两个语音帧目标等级(例如：目标等级为1和2)，若预先设置成语音帧目标等级1对应的语音帧的个数占80％，语音帧目标等级2对应的语音帧的个数占20％，那么，则可以将语音帧细分等级1～8对应的语音帧都划分到语音帧目标等级1上，即语音帧细分等级1～8对应的语音帧都为语音帧目标等级1，将语音帧细分等级9～10对应的语音帧都划分到语音帧目标等级2上，即语音帧细分等级9～10对应的语音帧都为语音帧目标等级2。

进一步的，本实施例中，在获取语音帧目标等级后，可以有效地对系统中的语音帧采取相应的保护策略，即可以根据语音帧目标等级对语音帧进行相应的处理(包括发送或转发)，例如：对于重要程度高(语音帧目标等级2)的语音帧，可以采用较大的功率进行发送，以提高其抗信道噪声干扰能力，也就是，语音帧的重要程度越高，就可以采用越大的发送功率；或者，对于重要程度低(语音帧目标等级1)的语音帧，可以采用较小的功率发送，可以使得在保持平均发送功率不变的前提下，能耗资源实现了最优分配，从而有效地提高了接收端的解码语音质量，那么发送功率可以随着语音帧的重要程度降低而降低；或者，当存在多余的带宽资源时，对于重要程度高(语音帧目标等级2)的语音帧，可发送两次或多次，对于重要程度低(语音帧目标等级1)的语音帧，可以只发送一次，通过冗余方式保证等级高的语音帧的信息不被丢失，从而有效地提高了接收端的解码语音质量，也就是说，语音帧的重要程度越高，发送次数就越多。

本实施例中，通过根据预先设置的每个语音帧目标等级对应的语音帧个数的比例值和已经获取的每个语音帧细分等级对应的语音帧个数，获取与所述语音帧细分等级对应的语音帧目标等级，也就可以得到了语音帧的等级，那么也就知道了语音帧的重要程度。进一步地，可以灵活对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

本发明实施例中，由于语音帧的丢失，能够导致解码语音信号平均意见评分(Mean Opinion Score，简称MOS)分值下降。其中，解码语音信号MOS分值下降越大，其重要程度越高，在本发明实施例中所体现的等级就越高。下面可以参见利用本发明实施例的方法进行的实验中的具体实验数据。在实验中采用美国国家标准技术研究院(National Institute of Standards andTechnology，简称NIST)美国国家标准技术研究所提供的用于语音识别、语种识别等评测项目的呼叫朋友(CallFriend)和呼叫家人(CallHome)数据库中的汉语(大陆和台湾普通话)、英语(美国南方和非南方口音)、德语、法语、西班牙语和阿拉伯语。该数据库为8kHz采样μ律压缩的电话对话语音。由库中的长语音文件切割出的长度为6-12秒的若干短语音文件，每个语种随机挑选20个短语音文件构成测试集，剩余的所有短语音文件构成训练集。得到训练语音库后，对所有训练语音帧进行丢帧解码，利用语音质量的感知评估(Perceptual Evaluation of Speech Quality，简称PESQ)程序进行评分测试，根据PESQ MOS分值的下降值排序进行训练语音帧细分等级标注。例如：利用本发明实施例的方法进行的实验中可以对语音帧设置三个等级，分别为非重要语音帧、次重要语音帧和重要语音帧，其实验结果可以如下所示：

在GSM全速率语音中，对测试语音文件中的语音帧进行随机丢帧，当丢帧率为5％时，解码语音的平均PESQ MOS评分为2.886；丢帧率为10％时，解码语音的平均PESQ MOS评分为2.485；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.22。利用本发明实施例提供的语音帧等级的获取方法获取出各个语音帧细分等级后，可以只丢失获取的非重要语音帧，那么当丢帧率为5％时，解码语音的平均PESQ MOS评分为3.505；丢帧率为10％时，解码语音的平均PESQ MOS评分为3.266；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.925。当重要帧比例设置为30％时，利用本发明实施例提供的语音帧等级的获取方法，对获取的所有重要语音帧进行保护以保证其不发生丢帧，当丢帧率为5％时，解码语音的平均PESQMOS评分为3.241；丢帧率为10％时，解码语音的平均PESQ MOS评分为2.994；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.804。当重要帧比例设置为30％时，利用本发明实施例提供的语音帧等级的获取方法，对获取的所有重要语音帧进行二次发送的冗余保护，当丢帧率为5％时，解码语音的平均PESQ MOS评分为3.22；丢帧率为10％时，解码语音的平均PESQ MOS评分为2.929；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.683。

在GSM半速率语音中，对测试语音文件中的语音帧进行随机丢帧，当丢帧率为5％时，解码语音的平均PESQ MOS评分为2.906；丢帧率为10％时，解码语音的平均PESQ MOS评分为2.578；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.336。利用本发明实施例提供的语音帧等级的获取方法，只丢失获取的非重要语音帧，当丢帧率为5％时，解码语音的平均PESQ MOS评分为3.337；丢帧率为10％时，解码语音的平均PESQ MOS评分为3.278；丢帧率为15％时，解码语音的平均PESQ MOS评分为3.191。当重要帧比例设置为30％时，利用本发明实施例提供的语音帧等级的获取方法，对获取的所有重要语音帧进行保护以保证其不发生丢帧，当丢帧率为5％时，解码语音的平均PESQ MOS评分为3.202；丢帧率为10％时，解码语音的平均PESQ MOS评分为3.057；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.927。当重要帧比例设置为30％时，利用本发明实施例提供的语音帧等级的获取方法，对获取的所有重要语音帧进行二次发送的冗余保护，当丢帧率为5％时，解码语音的平均PESQ MOS评分为3.182；丢帧率为10％时，解码语音的平均PESQ MOS评分为2.997；丢帧率为15％时，解码语音的平均PESQ MOS评分为2.814。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3为本发明一实施例提供的语音帧等级的获取装置的结构示意图，如图3所示，本实施例的语音帧等级的获取装置可以包括参数解码模块31、参数提取模块32、矢量获取模块33和等级获取模块34。其中，参数解码模块31对语音帧的编码参数进行解码，生成第一解码语音信号和第二解码语音信号，上述第一解码语音信号为未丢帧情况下的解码语音信号，上述第二解码语音信号为丢帧情况下的解码语音信号，参数提取模块32提取参数解码模块31生成的上述第一解码语音信号的第一特征参数，并提取参数解码模块31生成的上述第二解码语音信号的第二特征参数，矢量获取模块33根据参数提取模块32提取的上述第一特征参数与上述第二特征参数，获取上述语音帧的特征参数矢量，等级获取模块34根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和矢量获取模块33获取的上述特征参数矢量，获取与矢量获取模块33获取的上述特征参数矢量对应的语音帧细分等级。

上述本发明图1或图2所示实施例中的方法均可以由本发明实施例提供的语音帧等级的获取装置实现，而本发明实施例提供的语音帧处理装置中的各个模块的实现方式和交互过程可以参考方法实施例中的相应描述。此外，本发明实施例提供的语音帧处理装置可以为用户设备、基站和路由器等通信设备中的任意一种。

本实施例中，预先建立的数学模型可以包括高斯混合模型(GaussianMixure Model，简称GMM)、贝叶斯模型、人工神经网络等。上述数学模型可以通过多种方式建立，例如：可以根据预先指定一定数量的语音帧的解码语音信号平均意见评分(Mean Opinion Score，简称MOS)分值的下降值，将上述一定数量的语音帧分为N_c个语音帧细分等级，每个语音帧细分等级中语音帧的个数相同或相近，从而可以为每个语音帧细分等级上的语音帧的特征参数矢量分别建立的数学模型。根据预设准则，匹配出与获取的上述特征参数矢量对应的数学模型，从而获取上述数学模型对应的语音帧细分等级。而此处的，预设准则是指在具体确定语音帧更符合哪个数学模型时采用的判断准则，例如：该准则可以为最大似然估计准则。

具体地，当上述预设准则为最大似然估计准则，上述数学模型为上述高斯混合模型时，上述等级获取模块具体用于获取上述上述特征参数矢量与各个高斯混合模型的似然函数的值，选择似然函数的值最大的高斯混合模型对应的语音帧细分等级作为上述语音帧的语音帧细分等级。

本实施例中，参数解码模块根据语音帧的编码参数，解码生成丢帧情况下和未丢帧情况下的两组解码语音信号，参数提取模块基于上述两组解码语音信号进行特征参数的提取，等级获取模块根据预设准则、矢量获取模块根据参数提取模块提取的上述两组解码语音信号的特征参数获取的上述语音帧的特征参数矢量和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与上述特征参数矢量对应的语音帧细分等级，也就可以得到了语音帧的等级，那么也就知道了语音帧的重要程度。进一步地，可以对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

图4为本发明实施例四提供的语音帧等级的获取装置的结构示意图，如图4所示，与上一实施例相比，本实施例的语音帧等级的获取装置还可以进一步包括矢量处理模块41，可以用于利用线性鉴别分析技术或主成分分析技术对矢量获取模块33获取的上述特征参数矢量进行处理，以达到有效提取最能反映不同等级之间差异的特征、去除特征分量间相关性、降低维数的目的。相应地，等级获取模块34具体可以根据预设准则、矢量获取模块33获取的上述特征参数矢量和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与经过矢量处理模块41处理的上述特征参数矢量对应的语音帧细分等级，以使对上述语音帧采取相应的保护策略。

本实施例中，参数解码模块根据语音帧的编码参数，解码生成丢帧情况下和未丢帧情况下的两组解码语音信号，参数提取模块基于上述两组解码语音信号进行特征参数的提取，通过矢量处理模块利用线性鉴别分析技术或主成分分析技术，对矢量获取模块根据参数提取模块提取的上述两组解码语音信号的特征参数获取的上述语音帧的特征参数矢量进行处理，达到了有效提取最能反映不同等级之间差异的特征、去除特征分量间相关性、降低维数的目的，从而使得等级获取模块能够根据根据预设准则、经过矢量处理模块处理的矢量获取模块根据参数提取模块提取的上述两组解码语音信号的特征参数获取的上述语音帧的特征参数矢量和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与经过矢量处理模块处理的上述特征参数矢量对应的语音帧细分等级，也就可以得到了语音帧的等级。进一步地，可以对上述语音帧采取相应的保护策略，进一步能够实现对语音帧进行有效保护，从而可以有效保护语音信号中的重要信息，能够有效减少语音帧的丢帧现象的发生，提高接收端的解码语音质量。

进一步地，本实施例的语音帧等级的获取装置还可以进一步包括第一处理模块43，可以用于根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，采用越大的功率发送所述语音帧；或者还可以用于根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，对所述语音帧发送的次数越多。

进一步地，本实施例的语音帧等级的获取装置还可以进一步包括等级确认模块42，可以用于根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与等级获取模块34获取的上述语音帧细分等级对应的语音帧目标等级。具体地，等级确认模块42具体可以用于根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，确定上述每个语音帧目标等级对应的语音帧细分等级阈值，根据上述语音帧细分等级阈值，获取与等级获取模块34获取的上述语音帧细分等级对应的语音帧目标等级。

进一步地，本实施例的语音帧等级的获取装置还可以进一步包括第二处理模块44，可以用于根据所述语音帧目标等级，获知所述语音帧的重要程度，所述重要程度越高，采用越大的功率发送所述语音帧；或者还可以用于根据所述语音帧目标等级，获知所述语音帧的重要程度，所述重要程度越高，对所述语音帧发送的次数越多。

需要说明的是，本发明实施例提供的语音帧处理装置中的各个模块的实现方式和交互过程可以参考方法实施例中的相应描述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音帧等级的获取方法，其特征在于，包括：

根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级；其中，

所述根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级之后还包括：

根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，采用越大的功率发送所述语音帧；或者

根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，对所述语音帧发送的次数越多。

2.根据权利要求1所述的方法，其特征在于，所述对语音帧的编码参数进行解码，生成第一解码语音信号和第二解码语音信号包括：

利用第n帧语音帧的的编码参数c_n(i)为主体语音解码器的输入，进行语音解码，生成对应于第n帧语音帧的第一解码语音信号，其中，n为正整数；

利用所述主体语音解码器的内置的丢帧错误隐藏方法，生成第n帧语音帧丢失情况下的替代语音帧的编码参数

建立一个临时的简单语音解码器，拷贝所述主体语音解码器的状态到所述简单语音解码器，利用第n帧语音帧的丢帧替代的编码参数

为所述简单语音解码器的输入，进行语音解码，生成对应于第n帧语音帧的第二解码语音信号。

3.根据权利要求1所述的方法，其特征在于，所述第一特征参数或所述第二特征参数包括帧能量、线性预测倒谱系数、Mel频标倒谱系数、Bark域感知响度中的至少一项。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征参数和所述第二特征参数，获取所述语音帧的特征参数矢量之后还包括：利用线性鉴别分析技术或主成分分析技术对所述特征参数矢量进行处理；

所述根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级具体包括：根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与经过处理的所述特征参数矢量对应的语音帧细分等级。

5.根据权利要求1～4任一权利要求所述的方法，其特征在于，所述根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级之后还包括：根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与所述语音帧细分等级对应的语音帧目标等级。

6.根据权利要求5所述的方法，其特征在于，所述根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与所述语音帧细分等级对应的语音帧目标等级包括：

根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，确定所述每个语音帧目标等级对应的语音帧细分等级阈值；

根据所述语音帧细分等级阈值，获取与所述语音帧细分等级对应的语音帧目标等级。

7.根据权利要求5所述的方法，其特征在于，所述根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与所述语音帧细分等级对应的语音帧目标等级之后包括：

根据所述语音帧目标等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，采用越大的功率发送所述语音帧；或者

根据所述语音帧目标等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，对所述语音帧发送的次数越多。

8.根据权利要求1～4任一权利要求所述的方法，其特征在于，所述数学模型包括高斯混合模型、贝叶斯模型或人工神经网络。

9.根据权利要求8所述的方法，其特征在于，当所述预设准则为最大似然估计准则，所述数学模型为所述高斯混合模型时，所述根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级包括：

获取所述特征参数矢量在各个高斯混合模型中的似然函数的值；

选择似然函数的值最大的高斯混合模型对应的语音帧细分等级作为所述语音帧的语音帧细分等级。

10.一种语音帧等级获取装置，其特征在于，包括：

等级获取模块，用于根据预设准则、为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型和所述特征参数矢量，获取与所述特征参数矢量对应的语音帧细分等级；其中：

所述装置还包括，第一处理模块，用于根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，采用越大的功率发送所述语音帧；或者，

所述第一处理模块用于根据所述语音帧细分等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，对所述语音帧发送的次数越多。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括矢量处理模块，用于利用线性鉴别分析技术或主成分分析技术对所述特征参数矢量进行处理；

所述等级获取模块具体用于根据与经过处理的所述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型，获取与经过处理的所述特征参数矢量对应的语音帧细分等级。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括等级确认模块，用于根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，获取与所述语音帧细分等级对应的语音帧目标等级。

13.根据权利要求12所述的装置，其特征在于，所述等级确认模块具体用于根据每个语音帧目标等级对应的语音帧个数的比例值和每个语音帧细分等级对应的语音帧个数，确定所述每个语音帧目标等级对应的语音帧细分等级阈值，根据所述语音帧细分等级阈值，获取与所述语音帧细分等级对应的语音帧目标等级。

14.根据权利要求10所述的装置，其特征在于，当所述预设准则为最大似然估计准则，所述数学模型为高斯混合模型时，所述等级获取模块具体用于获取所述特征参数矢量在各个高斯混合模型中的似然函数的值，选择似然函数的值最大的高斯混合模型对应的语音帧细分等级作为所述语音帧的语音帧细分等级。

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：第二处理模块，用于根据所述语音帧目标等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，采用越大的功率发送所述语音帧；或者，

所述第二处理模块用于根据所述语音帧目标等级，获知所述语音帧的重要程度，所述语音帧的重要程度越高，对所述语音帧发送的次数越多。

16.根据权利要求10～15任一权利要求所述的装置，其特征在于，所述语音帧等级获取装置为用户设备、基站和路由器中的任意一种。