CN103915097B

CN103915097B - 一种语音信号处理方法、装置和系统

Info

Publication number: CN103915097B
Application number: CN201310001949.9A
Authority: CN
Inventors: 刘霖; 俞小良
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2017-03-22
Anticipated expiration: 2033-01-04
Also published as: CN103915097A

Abstract

本发明提供一种语音信号处理方法、装置和系统，根据设定的每个子信号包括的采样信号数量，将待编码语音信号划分为子信号。根据每个子信号在对数域的语音能量，将待编码语音信号划分为语音帧，划分出的语音帧包括的每个子信号在对数域的语音能量均不小于设定值，或者包括的每个子信号在对数域的语音能量均小于设定值。从而可以通过每个子信号在对数域的语音能量高低，更好地区分通信意义较高和通信意义较低的语音信号，实现语音帧划分。并可以针对通信意义较高的语音帧（第一类型语音帧），分配较高的编码比特，针对通信意义较低的语音帧（第二类型语音帧），分配较少的编码比特，从而减少编码比特，显著提升语音编码压缩效率，降低传输时延。

Description

一种语音信号处理方法、装置和系统

技术领域

本发明涉及通信领域，尤其涉及一种语音信号处理方法、装置和系统。

背景技术

随着移动网络的快速发展，移动终端上基于因特网协议（IP）域的语音应用逐步增多。除了传统的基于因特网协议的语音（VoIP）技术之外，近年来，与即时通信应用搭配使用的语音应用也得到快速发展。以腾讯公司的微信、小米公司的米聊以及中国移动的飞聊为代表，这些即时通信工具都搭配了语音应用，允许用户录制语音信号，并通过IP域发送给通信接收者。当前这些语音应用已经得到大量用户的接受，并被普遍认为是一种具有很大潜力的移动互联网发展方向。

对于这些即时通信工具搭配的语音应用来说，具有一个技术特点，即为存储后传输，并非即录即传。通常来讲，当录制语音较短时，传输的时延较小。以常用的8.8kbps编码率来说，录制3~5秒的语音信号，语音存储需要大约40kb，即使在Edget网络下，也几乎可以在几秒钟之间完成语音上传。但是，当录制的语音较长，例如，达到近10秒时，传输时间会较长，对于用户体验的影响较大。在这种情况下，对于语音编码方法的压缩效率，提出了比较大的挑战。

目前，在现有的语音应用中，普遍采用的语音编码方法，包括AMR-NB、iLBC等，都采用了时域均匀分帧，并可以采用定速率或变速率编码。

对于定速率语音编码，现有方案采用的方式是以固定时间长度分帧，例如以10ms或20ms划分语音帧，对于每个语音帧使用固定的比特数编码，从而完成定速率的语音编码过程。

对于变速率语音编码，现有技术采用的是语音激活检测/非连续发射（VAD/DTX）的方式，其基础仍然是按照固定的时间长度分帧，随后检测每个语音帧中语音信号的活动性，通过过零率、信号能量门限值控制等方法，判决一个语音帧中的语音信号是否具有通信意义，放弃没有通信意义的语音帧，无需对该语音帧编码，节省编码比特，提升压缩效率。

而即使采用了变速率语音编码，由于其对于语音帧活动性的判决是基于固定时间长度的语音帧，通过活动性检测的语音帧中仍然可能存在没有通信意义的语音信号，因此，不能有效提升语音编码压缩效率，传输时延降低的程度也比较有限。

发明内容

本发明实施例提供一种语音信号处理方法、装置和系统，用于显著提升语音编码压缩效率，降低传输时延。

一种语音信号处理方法，所述方法包括：

接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；

根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；

针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；

根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；

针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。

一种语音信号处理方法，所述方法包括：

接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；

根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；

根据解码后的每个语音帧，利用能量包络信息合成语音信号。

一种语音信号处理装置，所述装置包括：

接收模块，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；

子信号划分模块，用于根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；

确定模块，用于针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；

语音帧划分模块，用于根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；

编码模块，用于针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。

一种语音信号处理装置，所述装置包括：

接收模块，用于接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；

解码模块，用于根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；

合成模块，用于根据解码后的每个语音帧，利用能量包络信息合成语音信号。

一种语音信号处理系统，所述系统包括发送端设备和接收端设备，其中：

所述发送端设备，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值；发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定；

所述接收端设备，用于接收所述发送端设备发送的编码后的每个语音帧，每个语音帧包括的采样信号信息，以及能量包络信息；根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；根据解码后的每个语音帧，利用能量包络信息合成语音信号。

根据本发明实施例提供的方案，可以根据设定的每个子信号包括的采样信号数量，将待编码语音信号划分为子信号。并根据每个子信号在对数域的语音能量，将待编码语音信号划分为语音帧，划分出的语音帧包括的每个子信号在对数域的语音能量均不小于设定值，或者包括的每个子信号在对数域的语音能量均小于设定值。从而可以通过每个子信号在对数域的语音能量高低，更好地区分通信意义较高的语音信号和通信意义较低的语音信号，实现语音帧划分。并可以针对通信意义较高的语音帧（第一类型语音帧），分配较高的编码比特，针对通信意义较低的语音帧（第二类型语音帧），分配较少的编码比特，从而减少编码比特，显著提升语音编码压缩效率，降低传输时延。

附图说明

图1为本发明实施例提供的语音信号波形图；

图2为本发明实施例提供的语音信号能量曲线图；

图3为本发明实施例提供的对数域语音信号能量曲线图；

图4为本发明实施例一提供的语音信号处理方法的步骤流程图；

图5为本发明实施例二提供的语音信号处理方法的示意图；

图6为本发明实施例三提供的语音信号处理方法的步骤流程图；

图7为本发明实施例四提供的语音信号处理方法的示意图；

图8为本发明实施例五提供的语音信号处理装置的结构示意图；

图9为本发明实施例六提供的语音信号处理装置的结构示意图；

图10为本发明实施例七提供的语音信号处理系统的结构示意图。

具体实施方式

本案发明人通过研究发现，即使采用变速率技术的语音编码，其对于语音帧的划分方式是按照固定的时间长度分帧，而语音信号的特点是语音信号没有固定的时间间隔规律，因此，即使通过活动性检测的语音帧，仍然可能存在没有通信意义或通信意义较低的信号，对这部分信号的编码导致编码比特的浪费，使得变速率技术的语音编码无法显著提高语音编码压缩效率。

发明人认为，目前的语音编码技术没有很好地契合语音信号的特点，没有最大程度地降低语音信号的冗余性。而发明人进一步研究发现，对于语音信号而言，尤其是对于浊音信号（声带振动发声），语音信号的能量存在明显的特性。

例如，如图1所示，为语音信号波形图，基于图1所示的语音信号波形图，可以得到如图2所示的语音信号能量曲线，并可以进一步得到如图3所示的对数域语音信号能量曲线。从图1~图3可以明显看出，语音信号，尤其是典型的浊音信号，其能量信号在对数域非常平稳，事实上对于同一音节，约几十ms的范围内，语音信号总是呈现出比较固定的能量。因此，可以基于这一特性，实现语音信号（也可以理解为类语音信号，即类似语音信号的信号，通信意义较高的信号）和非语音信号（也可以理解为非类语音信号，即非类似语音信号的信号，通信意义较低的信号）的区分。

且由于语音能量相近的语音信号对于噪声的掩蔽能力是基本一致的，因此，可以对于语音能量相近的语音信号分配相同的编码比特，控制率失真。

基于以上的考虑，本发明实施例提出，可以根据语音信号在对数域的语音能量，在时域切分分帧，实现语音信号（也可以理解为类语音信号）和非语音信号（也可以理解为非类语音信号）的区分。并可以分别针对语音信号（也可以理解为类语音信号）和非语音信号（也可以理解为非类语音信号）进行编码，从而最大程度地降低语音信号的冗余性。

进一步的，本发明实施例还提出，可以根据分帧后，每个对应语音信号（也可以理解为类语音信号）的语音帧的语音能量高低，进一步实现可变码率编码，达到对于敏感区域重点编码的效果。

下面结合说明书附图和各实施例对本发明方案进行说明。

实施例一、

本发明实施例一提供一种语音信号处理方法，该方法的步骤流程可以如图4所示，包括：

步骤101、接收待编码语音信号。

在本步骤中，可以接收待编码语音信号，所述待编码语音信号包括至少两个采样信号。

步骤102、划分子信号。

在本步骤中，可以根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号，从而可以利用划分出的子信号在对数域的语音能量来表征语音信号的短时能量。所述设定的每个子信号包括的采样信号数量可以根据训练或者是经验值确定。

其中，设定的每个子信号包括的采样信号数量足够少，以反映语音信号的变化，且设定的每个子信号包括的采样信号数量足够多，以屏蔽语音信号的偶然扰动。

步骤103、确定子信号在对数域的语音能量。

在本步骤中，可以针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量。

较优的，可以通过以下公式确定一个子信号在对数域的语音能量，当然，还可以通过其他方式确定一个子信号在对数域的语音能量：

其中，

e_m,n表示一个子信号在对数域的语音能量；

m表示该子信号中的第一个采样信号在所述待编码语音信号中的排序；

n表示该子信号中的最后一个采样信号在所述待编码语音信号中的排序；

表示在所述待编码语音信号中，第k个的采样信号的语音能量。

步骤104、划分语音帧。

在本步骤中，可以根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值。

较优的，可以通过以下方式，根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧：

针对所述待编码语音信号包括的子信号：

若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；

若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；

并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音帧：

针对剩余的尚未确定所属的语音帧的子信号：

若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；

若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号。

即在本实施例中，假设确定出的每个子信号在对数域的语音能量用e_m,n表示，设定值用thre表示，则可以依次判断每个e_m,n是否大于thre，并可以将对应的e_m,n>=thre的子信号，和对应的e_m,n<thre的子信号作为分帧节点，实现语音帧的分帧。所述设定值可以根据训练或者是经验值确定。

步骤105、进行编码。

在本步骤中，针对语音帧帧中语音能量明显较小的语音帧，可以认为该语音帧通信意义较低，根据码率的要求，采用不编码或是粗略编码的方式，分配较少的编码比特。对其他语音帧，可以认为该语音帧通信意义较高，分配较多的编码比特。

具体的，针对每个第二类型语音帧，可以为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。

至此，可以契合语音信号在对数域的语音能量特点，减少为通信意义较低的语音信号分配的编码比特，由于可以更好地识别出通信意义较低的语音信号，因此可以最大程度地降低语音信号的冗余性，显著提升语音编码压缩效率。

进一步的，在本实施例中，还可以进一步按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；为属于同一个组的每个第一类型语音帧分配相同的编码比特。从而可以进一步针对具有较高通信意义的语音帧，根据每个语音帧语音能量的高低，每个语音帧的语音能量可以理解为该语音帧包括的所有子信号在对数域的语音能量之和，为每个语音帧分配不同的编码比特（可以理解为：为每个语音帧分配不同的每采样信号编码比特），进一步进行可变码率编码，达到对敏感区域重点编码的效果。

具体的，在编码时，可以利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。

进一步的，本实施例还可以包括以下步骤：

步骤106、发送编码后的语音帧。

在本步骤中，可以发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。

使得接收端设备可以解码和合成语音信号，得到编码前的待编码语音信号。

下面通过实施例二对本发明实施例一进行说明。

实施例二、

本发明实施例二提供的语音信号处理方法的示意图可以如图5所示，针对接收到的待编码语音信号，可以获得所述待编码语音信号在对数域的能量曲线，从而获得所述待编码语音信号的能量包络信息。并可以将待编码语音信号划分为子信号，获得每个子信号在对数域的语音能量，从而可以进行分帧长度判决。在经分帧长度判决决策出每个语音帧包括的子信号（可以理解为决策出每个语音帧包括的采样信号）之后，可以对待编码语音信号进行分帧，划分为多个语音帧。并可以对每个语音帧进行参数/波形/混合编码，得到编码参数。最终得到的编码码流中可以包括能量包络信息、编码参数和每个语音帧包括的采样信号信息。

实施例三、

本发明实施例三提供一种语音信号处理方法，该方法的步骤流程可以如图6所示，包括：

步骤201、接收信息。

在本步骤中，可以接收利用如实施例一所述的方法编码后的每个语音帧，每个语音帧包括的采样信号信息，以及能量包络信息（即实施例二中的编码码流）。

步骤202、进行解码。

在本步骤中，可以根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码。

步骤203、进行合成。

在本步骤中，可以根据解码后的每个语音帧，利用能量包络信息合成语音信号。从而可以得到编码前的待编码语音信号。

下面通过实施例四对本发明实施例三进行说明。

实施例四、

本发明实施例四提供的语音信号处理方法的示意图可以如图7所示，针对接收到的编码码流，可以从编码码流中识别出待解码数据，并可以根据编码码流中携带的每个语音帧包括的采样信号信息，利用参数/波形/混合解码方式进行解码（可以理解为与用编码方式相对应的解码方式进行解码），获得解码数据，并可以利用编码码流中的能量包络信息，对解码数据进行能量合成，得到解码后的语音信号，并可以输出解码后的语音信号。

与本发明实施例一~二基于同一发明构思，提供以下的装置。

实施例五、

本发明实施例五提供一种语音信号处理装置，该装置的结构可以如图8所示，包括：

接收模块11用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；子信号划分模块12用于根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；确定模块13用于针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；语音帧划分模块14用于根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；编码模块15用于针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。

所述语音帧划分模块14具体用于针对所述待编码语音信号包括的子信号：

针对剩余的尚未确定所属的语音帧的子信号：

所述确定模块13具体用于通过以下公式确定一个子信号在对数域的语音能量：

其中，

e_m,n表示一个子信号在对数域的语音能量；

所述编码模块15具体用于按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；为属于同一个组的每个第一类型语音帧分配相同的编码比特。

所述编码模块15具体用于利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。

所述装置还包括发送模块16：

发送模块16用于发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。

与本发明实施例三~四基于同一发明构思，提供以下的装置。

实施例六、

本发明实施例六提供一种语音信号处理装置，该装置的结构可以如图9所示，包括：

接收模块21用于接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；解码模块22用于根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；合成模块23用于根据解码后的每个语音帧，利用能量包络信息合成语音信号。

与本发明实施例一~六基于同一发明构思，提供以下的系统。

实施例七、

本发明实施例七提供一种语音信号处理系统，该系统的结构可以如图10所示，包括发送端设备31和接收端设备32，其中：

所述发送端设备31用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值；发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定；

所述接收端设备32用于接收所述发送端设备发送的编码后的每个语音帧，每个语音帧包括的采样信号信息，以及能量包络信息；根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；根据解码后的每个语音帧，利用能量包络信息合成语音信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值，包括：针对所述待编码语音信号包括的子信号：若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音帧：针对剩余的尚未确定所属的语音帧的子信号：若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；

2.如权利要求1所述的方法，其特征在于，针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量，具体包括：

通过以下公式确定一个子信号在对数域的语音能量：

e_{m, n} = l g (\frac{Σ_{m}^{n} s_{k}^{2}}{n - m})

其中，

e_m,n表示一个子信号在对数域的语音能量；

3.如权利要求1所述的方法，其特征在于，针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，具体包括：

按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；

为属于同一个组的每个第一类型语音帧分配相同的编码比特。

4.如权利要求1所述的方法，其特征在于，利用分配的编码比特对该语音帧进行编码，具体包括：

利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。

5.如权利要求1～4任一所述的方法，其特征在于，针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码之后，所述方法还包括：

发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。

6.一种语音信号处理方法，其特征在于，所述方法包括：

接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息，所述语音帧按照权利要求1～5任一权利要求所述的语音信号处理方法进行处理得到；

7.一种语音信号处理装置，其特征在于，所述装置包括：

语音帧划分模块，用于根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值，所述语音帧划分模块，具体用于针对所述待编码语音信号包括的子信号：若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音帧：针对剩余的尚未确定所属的语音帧的子信号：若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；

8.如权利要求7所述的装置，其特征在于，所述确定模块，具体用于通过以下公式确定一个子信号在对数域的语音能量：

e_{m, n} = \lg (\frac{Σ_{m}^{n} s_{k}^{2}}{n - m})

其中，

e_m,n表示一个子信号在对数域的语音能量；

9.如权利要求7所述的装置，其特征在于，所述编码模块，具体用于按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；

10.如权利要求7所述的装置，其特征在于，所述编码模块，具体用于利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。

11.如权利要求7～10任一所述的装置，其特征在于，所述装置还包括发送模块：

发送模块，用于发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。

12.一种语音信号处理装置，其特征在于，所述装置包括：

接收模块，用于接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息，所述语音帧按照权利要求1～5任一权利要求所述的语音信号处理方法进行处理得到；

13.一种语音信号处理系统，其特征在于，所述系统包括发送端设备和接收端设备，其中：

所述发送端设备，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，

语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值，包括：针对所述待编码语音信号包括的子信号：若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音帧：针对剩余的尚未确定所属的语音帧的子信号：若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值；发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定；