CN102385863B

CN102385863B - 一种基于语音音乐分类的声音编码方法

Info

Publication number: CN102385863B
Application number: CN2011103036904A
Authority: CN
Inventors: 陈长国
Original assignee: HANGZHOU NO IMAGE TECHNOLOGY Co Ltd
Current assignee: Hangzhou Sikai Data Technology Group Co ltd; Jiangsu Meiye Environmental Protection Technology Development Co ltd
Priority date: 2011-10-10
Filing date: 2011-10-10
Publication date: 2013-02-20
Anticipated expiration: 2031-10-10
Also published as: CN102385863A

Abstract

本发明公开了一种基于语音音乐分类的声音编码方法，旨在提供一种可以根据声音内容改变编码码率的声音编码方法。本方法主要包括以下步骤：步骤a、将声音信号进行非交叠的分帧；步骤b、将每一帧数据通过高通滤波器；步骤c、计算每一帧数据经过步骤b以后的能量；步骤d、对能量等于或超过阈值的帧认定为音乐帧；对能量低于阈值的帧认定为纯语音帧，对音乐帧采用的编码码率高于纯语音帧的编码码率。通过判断声音含有音乐还是纯语音，采用不同的编码码率，降低数据量，减少占用的通信资源，减少传输时间，提高数据的实时性。本发明适用于各语音传输的场合，尤其是手机电视服务器端等。

Description

一种基于语音音乐分类的声音编码方法

技术领域

本发明涉及一种数据编码方法，尤其是涉及一种基于语音音乐分类的声音编码方法。

背景技术

对于声音编码，通常都有好几种码率可选，例如自适应语音编码方案AMR-NB等，这些编码码率的选择与信道的状态有关。但是，在不知道信道状态的情况下，如何选择编码码率是一个问题。如果编码的语音内容混有背景音乐或者就是音乐，要想保持高的音质，编码器就倾向于选择一个较高的码率来编码。而高码率意味着较大的数据量，将会占用较多的通信资源和传输时间。

语音信号处理包括信号分帧、信号的滤波、频谱分析等方法。由于人说话的语音信号频谱一般分布在200-3400hz的频段，而音频信号，例如人唱歌，还有乐器，它的频谱分布分为范围很广。一般认为其频谱分布在20hz到20000hz，例如CD唱片的采样率为44100hz，根据采样定理，它所能保留的频谱最大为22050hz。

中华人民共和国国家知识产权局于2005年10月26日公开了公开号为CN1689069A的专利文献，名称是声音编码设备和声音编码方法，具体方案如下：通过下采样器将采样率FH的输入数据转换成低于采样率FH的采样率FL的数据。基本层编码器以预定的基本帧单位对采样率FL的输入数据进行编码。本地解码器对第一编码代码进行解码。上采样器将该解码信号的采样率提升到FH。减法器从输入信号减去该解码信号,以提供减法结果作为剩余信号。分帧器将剩余信号分成多个扩展帧,其中每个扩展帧在时间长度上短于基本帧。扩展层编码器对分成了扩展帧的剩余信号进行编码,并且将通过该编码而获得的第二编码代码输出到多路复用器。此方案得到的最终的数据还是采用了统一的编码码率。

发明内容

本发明主要是解决现有技术所存在的声音编码码率唯一的技术问题，提供一种可以根据声音内容改变编码码率的基于语音音乐分类的声音编码方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于语音音乐分类的声音编码方法，包括以下步骤：

步骤a、将声音信号进行非交叠的分帧；

步骤b、将每一帧数据通过高通滤波器；

步骤c、计算每一帧数据经过步骤b以后的能量；

步骤d、对能量等于或超过阈值的帧认定为音乐帧；对能量低于阈值的帧认定为纯语音帧，对音乐帧采用的编码码率高于纯语音帧的编码码率。

纯语音只需要能够清晰识别就可以，相对音乐帧来说质量要求低很多，所以采用比较低的编码码率，可以减少数据量。

作为优选，在步骤a之前将原始声音信号转换为16KHz采样率的单声道的数据。全部为16KHz的信号便于后续步骤的处理。

作为优选，每一帧的长度为320个PCM采样点。

作为优选，所述高通滤波器的采样率为16KHz，通带频率为4100Hz，阻带频率为3900Hz，过渡带宽为200Hz，阻带衰减为40分贝，通带波纹1分贝，密度因子为20。此高通滤波器基本可以将人说话的声音都过滤掉。

作为优选，步骤d中，当编码方式为AMR窄带语音编码时，音乐帧采用的编码码率不小于10.2kbps，纯语音帧采用的编码码率小于10.2 kbps；当编码方式为AMR宽带语音编码时，音乐帧采用的编码码率不小于15.85kbps，纯语音帧采用的编码码率小于15.85kbps；当编码方式为G723.1语音编码时，音乐帧采用的编码码率为6.3kbps，纯语音帧采用的编码码率为5.3kbps。其他编码方式可以使用合适的编码码率。

作为优选，阈值为1310720，能量计算公式为

Figure 2011103036904100002DEST_PATH_IMAGE002

式中，frame_len为每一帧长度，x _i为声音信号通过高通滤波器以后的值。每个信号值得平方之和即为一帧的能量值，如果含有音乐则信号通过高通滤波器以后还有足够的能量，能量值就可以超过阈值，被识别为音乐帧。

作为优选，步骤d中，只有前11帧和当前帧都为纯语音帧的时候，当前帧才采用低于音乐帧的编码码率。只有足够多的纯语音帧才开始使用低的编码码率，使得最终信号不会有太多有效信息被舍弃，保证识别率和最终信号的质量。

本发明带来的实质性效果是，可以判断声音含有音乐还是纯语音，从而采用不同的编码码率，降低数据量，减少占用的通信资源，减少传输时间，提高数据的实时性。

附图说明

图1是本发明的一种滤波器频率响应图；

图2是本发明的一种原始信号时域图；

图3是本发明的一种原始信号频谱图；

图4是本发明的一种原始信号通过滤波器以后的时域图；

图5是本发明的一种原始信号通过滤波器以后的频谱图；

图6为本发明的原始信号经过判别以后的结果示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：首先对输入的信号统一采用16k采样的单声道信号。如果不满足这一要求，需要做两件事情：采样率变换和单声道处理。

宽带语音编码标准的采样率采用16k，它能保留信号最高8k的频谱，而实际上对于纯语音，信号的频谱主要还是集中在4k一下。如果我们分析4k以上的频谱能量，就可以区分纯语音和音乐。

在时域上设计一高通滤波器，用于过滤4khz一下的频谱，滤波得到的信号仅仅包含4k到8k频谱的信号，在计算滤波后信号的能量，根据能量大小，设定一个阈值，就可以实现信号的分类。分类结果为0/1，即表明分析的信号是纯语音还是非纯语音。

为了过滤掉信号的0到4khz的低频成分，需要一个高通滤波器。我们采用具有线性相位的FIR滤波器来实现。高通滤波器的设计指标为：

采样率16K；

通带频率4100hz，阻带频率3900hz，即过渡带宽为200hz；

阻带衰减40分贝，通带波纹1分贝，等波纹方案；

密度因子20。

设计的滤波器的频率响应如图1所示。

输入信号在16KHz采样下的单声道的原始信号时域波形如图2所示，频谱图如图3所示。其中包含有4段纯语音。

原始信号通过高通滤波器以后的时域波形如图4所示，频谱图如图5所示。从时域上看，对应纯语音段的信号几乎为零，而非纯语音段的信号幅值仍较大；再从频谱上看，所有低于4khz的频谱几乎被滤除。

对每一帧信号，计算帧的能量，如果能量小于某一个阈值，就认为是纯语音信号。能量计算公式为

本实施例选择的阈值为1310720，帧长为320个PCM采样点，frame_len为320。

如果本帧是非纯语音段，则用一个很大整数标注，否则用一个很小的负数标识。为了消除很多非纯语音也被标识为纯语音，本实施例采用过滤操作。即如果有之前连续11帧和当前帧都被标识为纯语音的时候，才对当前帧标识为纯语音。判别结果如图6所示，高电平为非纯语音（音乐帧），低电平为纯语音（纯语音帧）。采用这一方案后，经过统计对非纯语音的误判率减小到10%之内。也就是说本实施例的判决准确率达到90%以上。

本实施例为AMR宽带语音编码，对于纯语音帧采用8.85kbps的编码码率，对音乐帧采用15.85kbps的编码码率。

实施例2：本实施例中，采用的编码方式为AMR窄带语音编码，对于纯语音帧采用5.15kbps的编码码率，对音乐帧采用10.2kbps的编码码率，其余与实施例1相同。

实施例3：本实施例中，采用的编码方式为G723.1语音编码，对于纯语音帧采用5.3kbps的编码码率，对音乐帧采用6.3kbps的编码码率，其余与实施例1相同。

本发明可以应用于语音通讯方面，例如手机电视服务器端，在保证码率基本不变的情况下，具有了更好的语音效果和更低的带宽占用。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了帧、能量等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于语音音乐分类的声音编码方法，其特征在于，包括以下步骤：

步骤a、将声音信号进行非交叠的分帧；

步骤b、将每一帧数据通过高通滤波器；

步骤c、计算每一帧数据经过步骤b以后的能量；

步骤d、对能量等于或超过阈值的帧认定为音乐帧；对能量低于阈值的帧认定为纯语音帧，对音乐帧采用的编码码率高于纯语音帧的编码码率；

在步骤a之前将原始声音信号转换为16KHz采样率的单声道的数据；

所述高通滤波器的采样率为16KHz，通带频率为4100Hz，阻带频率为3900Hz，过渡带宽为200Hz，阻带衰减为40分贝，通带波纹1分贝，密度因子为20。

2.根据权利要求1所述的一种基于语音音乐分类的声音编码方法，其特征在于，每一帧的长度为320个PCM采样点。

3.根据权利要求1所述的一种基于语音音乐分类的声音编码方法，其特征在于，步骤d中，当编码方式为AMR窄带语音编码时，音乐帧采用的编码码率不小于10.2kbps，纯语音帧采用的编码码率小于10.2 kbps；当编码方式为AMR宽带语音编码时，音乐帧采用的编码码率不小于15.85kbps，纯语音帧采用的编码码率小于15.85kbps；当编码方式为G723.1语音编码时，音乐帧采用的编码码率为6.3kbps，纯语音帧采用的编码码率为5.3kbps。

4.根据权利要求2所述的一种基于语音音乐分类的声音编码方法，其特征在于，阈值为1310720，能量计算公式为

Figure 2011103036904100001DEST_PATH_IMAGE001

式中，frame_len为每一帧长度，x _i为声音信号通过高通滤波器以后的值。

5.根据权利要求1至4中的任意一项所述的一种基于语音音乐分类的声音编码方法，其特征在于，步骤d中，只有前11帧和当前帧都为纯语音帧的时候，当前帧才采用低于音乐帧的编码码率。