CN102385863B - 一种基于语音音乐分类的声音编码方法 - Google Patents

一种基于语音音乐分类的声音编码方法 Download PDF

Info

Publication number
CN102385863B
CN102385863B CN2011103036904A CN201110303690A CN102385863B CN 102385863 B CN102385863 B CN 102385863B CN 2011103036904 A CN2011103036904 A CN 2011103036904A CN 201110303690 A CN201110303690 A CN 201110303690A CN 102385863 B CN102385863 B CN 102385863B
Authority
CN
China
Prior art keywords
frame
music
bit rate
encoder bit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011103036904A
Other languages
English (en)
Other versions
CN102385863A (zh
Inventor
陈长国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Sikai Data Technology Group Co ltd
Jiangsu Meiye Environmental Protection Technology Development Co ltd
Original Assignee
HANGZHOU NO IMAGE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU NO IMAGE TECHNOLOGY Co Ltd filed Critical HANGZHOU NO IMAGE TECHNOLOGY Co Ltd
Priority to CN2011103036904A priority Critical patent/CN102385863B/zh
Publication of CN102385863A publication Critical patent/CN102385863A/zh
Application granted granted Critical
Publication of CN102385863B publication Critical patent/CN102385863B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于语音音乐分类的声音编码方法,旨在提供一种可以根据声音内容改变编码码率的声音编码方法。本方法主要包括以下步骤:步骤a、将声音信号进行非交叠的分帧;步骤b、将每一帧数据通过高通滤波器;步骤c、计算每一帧数据经过步骤b以后的能量;步骤d、对能量等于或超过阈值的帧认定为音乐帧;对能量低于阈值的帧认定为纯语音帧,对音乐帧采用的编码码率高于纯语音帧的编码码率。通过判断声音含有音乐还是纯语音,采用不同的编码码率,降低数据量,减少占用的通信资源,减少传输时间,提高数据的实时性。本发明适用于各语音传输的场合,尤其是手机电视服务器端等。

Description

一种基于语音音乐分类的声音编码方法
技术领域
本发明涉及一种数据编码方法,尤其是涉及一种基于语音音乐分类的声音编码方法。
背景技术
对于声音编码,通常都有好几种码率可选,例如自适应语音编码方案AMR-NB等,这些编码码率的选择与信道的状态有关。但是,在不知道信道状态的情况下,如何选择编码码率是一个问题。如果编码的语音内容混有背景音乐或者就是音乐,要想保持高的音质,编码器就倾向于选择一个较高的码率来编码。而高码率意味着较大的数据量,将会占用较多的通信资源和传输时间。
语音信号处理包括信号分帧、信号的滤波、频谱分析等方法。由于人说话的语音信号频谱一般分布在200-3400hz的频段,而音频信号,例如人唱歌,还有乐器,它的频谱分布分为范围很广。一般认为其频谱分布在20hz到20000hz,例如CD唱片的采样率为44100hz,根据采样定理,它所能保留的频谱最大为22050hz。
中华人民共和国国家知识产权局于2005年10月26日公开了公开号为CN1689069A的专利文献,名称是声音编码设备和声音编码方法,具体方案如下:通过下采样器将采样率FH的输入数据转换成低于采样率FH的采样率FL的数据。基本层编码器以预定的基本帧单位对采样率FL的输入数据进行编码。本地解码器对第一编码代码进行解码。上采样器将该解码信号的采样率提升到FH。减法器从输入信号减去该解码信号,以提供减法结果作为剩余信号。分帧器将剩余信号分成多个扩展帧,其中每个扩展帧在时间长度上短于基本帧。扩展层编码器对分成了扩展帧的剩余信号进行编码,并且将通过该编码而获得的第二编码代码输出到多路复用器。此方案得到的最终的数据还是采用了统一的编码码率。
发明内容
本发明主要是解决现有技术所存在的声音编码码率唯一的技术问题,提供一种可以根据声音内容改变编码码率的基于语音音乐分类的声音编码方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于语音音乐分类的声音编码方法,包括以下步骤:
步骤a、将声音信号进行非交叠的分帧;
步骤b、将每一帧数据通过高通滤波器;
步骤c、计算每一帧数据经过步骤b以后的能量;
步骤d、对能量等于或超过阈值的帧认定为音乐帧;对能量低于阈值的帧认定为纯语音帧,对音乐帧采用的编码码率高于纯语音帧的编码码率。
纯语音只需要能够清晰识别就可以,相对音乐帧来说质量要求低很多,所以采用比较低的编码码率,可以减少数据量。
作为优选,在步骤a之前将原始声音信号转换为16KHz采样率的单声道的数据。全部为16KHz的信号便于后续步骤的处理。
作为优选,每一帧的长度为320个PCM采样点。
作为优选,所述高通滤波器的采样率为16KHz,通带频率为4100Hz,阻带频率为3900Hz,过渡带宽为200Hz,阻带衰减为40分贝,通带波纹1分贝,密度因子为20。此高通滤波器基本可以将人说话的声音都过滤掉。
作为优选,步骤d中,当编码方式为AMR窄带语音编码时,音乐帧采用的编码码率不小于10.2kbps,纯语音帧采用的编码码率小于10.2 kbps;当编码方式为AMR宽带语音编码时,音乐帧采用的编码码率不小于15.85kbps,纯语音帧采用的编码码率小于15.85kbps;当编码方式为G723.1语音编码时,音乐帧采用的编码码率为6.3kbps,纯语音帧采用的编码码率为5.3kbps。其他编码方式可以使用合适的编码码率。
作为优选,阈值为1310720,能量计算公式为
Figure 2011103036904100002DEST_PATH_IMAGE002
式中,frame_len为每一帧长度,x i 为声音信号通过高通滤波器以后的值。每个信号值得平方之和即为一帧的能量值,如果含有音乐则信号通过高通滤波器以后还有足够的能量,能量值就可以超过阈值,被识别为音乐帧。
作为优选,步骤d中,只有前11帧和当前帧都为纯语音帧的时候,当前帧才采用低于音乐帧的编码码率。只有足够多的纯语音帧才开始使用低的编码码率,使得最终信号不会有太多有效信息被舍弃,保证识别率和最终信号的质量。
本发明带来的实质性效果是,可以判断声音含有音乐还是纯语音,从而采用不同的编码码率,降低数据量,减少占用的通信资源,减少传输时间,提高数据的实时性。
附图说明
图1是本发明的一种滤波器频率响应图;
图2是本发明的一种原始信号时域图;
图3是本发明的一种原始信号频谱图;
图4是本发明的一种原始信号通过滤波器以后的时域图;
图5是本发明的一种原始信号通过滤波器以后的频谱图;
图6为本发明的原始信号经过判别以后的结果示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:首先对输入的信号统一采用16k采样的单声道信号。如果不满足这一要求,需要做两件事情:采样率变换和单声道处理。
宽带语音编码标准的采样率采用16k,它能保留信号最高8k的频谱,而实际上对于纯语音,信号的频谱主要还是集中在4k一下。如果我们分析4k以上的频谱能量,就可以区分纯语音和音乐。
在时域上设计一高通滤波器,用于过滤4khz一下的频谱,滤波得到的信号仅仅包含4k到8k频谱的信号,在计算滤波后信号的能量,根据能量大小,设定一个阈值,就可以实现信号的分类。分类结果为0/1,即表明分析的信号是纯语音还是非纯语音。
为了过滤掉信号的0到4khz的低频成分,需要一个高通滤波器。我们采用具有线性相位的FIR滤波器来实现。高通滤波器的设计指标为:
采样率16K;
通带频率4100hz,阻带频率3900hz,即过渡带宽为200hz;
阻带衰减40分贝,通带波纹1分贝,等波纹方案;
密度因子20。
设计的滤波器的频率响应如图1所示。
输入信号在16KHz采样下的单声道的原始信号时域波形如图2所示,频谱图如图3所示。其中包含有4段纯语音。
原始信号通过高通滤波器以后的时域波形如图4所示,频谱图如图5所示。从时域上看,对应纯语音段的信号几乎为零,而非纯语音段的信号幅值仍较大;再从频谱上看,所有低于4khz的频谱几乎被滤除。
对每一帧信号,计算帧的能量,如果能量小于某一个阈值,就认为是纯语音信号。能量计算公式为
Figure 162350DEST_PATH_IMAGE002
本实施例选择的阈值为1310720,帧长为320个PCM采样点,frame_len为320。
如果本帧是非纯语音段,则用一个很大整数标注,否则用一个很小的负数标识。为了消除很多非纯语音也被标识为纯语音,本实施例采用过滤操作。即如果有之前连续11帧和当前帧都被标识为纯语音的时候,才对当前帧标识为纯语音。判别结果如图6所示,高电平为非纯语音(音乐帧),低电平为纯语音(纯语音帧)。采用这一方案后,经过统计对非纯语音的误判率减小到10%之内。也就是说本实施例的判决准确率达到90%以上。
本实施例为AMR宽带语音编码,对于纯语音帧采用8.85kbps的编码码率,对音乐帧采用15.85kbps的编码码率。
实施例2:本实施例中,采用的编码方式为AMR窄带语音编码,对于纯语音帧采用5.15kbps的编码码率,对音乐帧采用10.2kbps的编码码率,其余与实施例1相同。
实施例3:本实施例中,采用的编码方式为G723.1语音编码,对于纯语音帧采用5.3kbps的编码码率,对音乐帧采用6.3kbps的编码码率,其余与实施例1相同。
本发明可以应用于语音通讯方面,例如手机电视服务器端,在保证码率基本不变的情况下,具有了更好的语音效果和更低的带宽占用。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了帧、能量等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (5)

1.一种基于语音音乐分类的声音编码方法,其特征在于,包括以下步骤:
步骤a、将声音信号进行非交叠的分帧;
步骤b、将每一帧数据通过高通滤波器;
步骤c、计算每一帧数据经过步骤b以后的能量;
步骤d、对能量等于或超过阈值的帧认定为音乐帧;对能量低于阈值的帧认定为纯语音帧,对音乐帧采用的编码码率高于纯语音帧的编码码率;
在步骤a之前将原始声音信号转换为16KHz采样率的单声道的数据;
所述高通滤波器的采样率为16KHz,通带频率为4100Hz,阻带频率为3900Hz,过渡带宽为200Hz,阻带衰减为40分贝,通带波纹1分贝,密度因子为20。
2.根据权利要求1所述的一种基于语音音乐分类的声音编码方法,其特征在于,每一帧的长度为320个PCM采样点。
3.根据权利要求1所述的一种基于语音音乐分类的声音编码方法,其特征在于,步骤d中,当编码方式为AMR窄带语音编码时,音乐帧采用的编码码率不小于10.2kbps,纯语音帧采用的编码码率小于10.2 kbps;当编码方式为AMR宽带语音编码时,音乐帧采用的编码码率不小于15.85kbps,纯语音帧采用的编码码率小于15.85kbps;当编码方式为G723.1语音编码时,音乐帧采用的编码码率为6.3kbps,纯语音帧采用的编码码率为5.3kbps。
4.根据权利要求2所述的一种基于语音音乐分类的声音编码方法,其特征在于,阈值为1310720,能量计算公式为
Figure 2011103036904100001DEST_PATH_IMAGE001
式中,frame_len为每一帧长度,x i 为声音信号通过高通滤波器以后的值。
5.根据权利要求1至4中的任意一项所述的一种基于语音音乐分类的声音编码方法,其特征在于,步骤d中,只有前11帧和当前帧都为纯语音帧的时候,当前帧才采用低于音乐帧的编码码率。
CN2011103036904A 2011-10-10 2011-10-10 一种基于语音音乐分类的声音编码方法 Expired - Fee Related CN102385863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103036904A CN102385863B (zh) 2011-10-10 2011-10-10 一种基于语音音乐分类的声音编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103036904A CN102385863B (zh) 2011-10-10 2011-10-10 一种基于语音音乐分类的声音编码方法

Publications (2)

Publication Number Publication Date
CN102385863A CN102385863A (zh) 2012-03-21
CN102385863B true CN102385863B (zh) 2013-02-20

Family

ID=45825229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103036904A Expired - Fee Related CN102385863B (zh) 2011-10-10 2011-10-10 一种基于语音音乐分类的声音编码方法

Country Status (1)

Country Link
CN (1) CN102385863B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6170172B2 (ja) * 2012-11-13 2017-07-26 サムスン エレクトロニクス カンパニー リミテッド 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
CN104700841A (zh) * 2015-02-10 2015-06-10 浙江省广电科技股份有限公司 一种基于音频内容分类的水印嵌入及检测方法
CN106992012A (zh) * 2017-03-24 2017-07-28 联想(北京)有限公司 语音处理方法及电子设备
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备
CN113192531B (zh) * 2021-05-28 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 检测音频是否是纯音乐音频方法、终端及存储介质
CN115171728B (zh) * 2022-07-29 2024-07-19 湖南映客互娱网络信息有限公司 违规音频流的识别方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227544A (ja) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd 音声信号記録方法および音声信号記録装置
US7130795B2 (en) * 2004-07-16 2006-10-31 Mindspeed Technologies, Inc. Music detection with low-complexity pitch correlation algorithm
CN101359978B (zh) * 2007-07-30 2014-01-29 向为 一种控制变速率多模式宽带编码速率的方法
CN101814289A (zh) * 2009-02-23 2010-08-25 数维科技(北京)有限公司 低码率dra数字音频多声道编码方法及其系统
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application

Also Published As

Publication number Publication date
CN102385863A (zh) 2012-03-21

Similar Documents

Publication Publication Date Title
CN102385863B (zh) 一种基于语音音乐分类的声音编码方法
JP7177185B2 (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
CN101305423B (zh) 自适应的基于时间/频率的音频编码和解码设备和方法
EP2259253B1 (en) Method and apparatus for processing audio signal
CN1942928B (zh) 用于处理音频信号的模块和方法
KR102237718B1 (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
CN101055720B (zh) 对音频信号编码和解码的方法和设备
CN102150202A (zh) 对音频/语音信号进行编码和解码的方法和设备
CN1117346C (zh) 编码离散信号和解码已编码的离散信号的方法和设备
EP2193348A1 (en) Method and device for efficient quantization of transform information in an embedded speech and audio codec
CN106409299A (zh) 信号编码和解码的方法和设备
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
CN107077855A (zh) 信号编码方法和装置以及信号解码方法和装置
CN102576534B (zh) 音频解码器、音频编码器、系统
AU2008312198B2 (en) A method and an apparatus for processing a signal
CN1240048C (zh) 音频编码
CN103915097B (zh) 一种语音信号处理方法、装置和系统
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
Nishimura Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec
WO2015196835A1 (zh) 编解码方法、装置及系统
KR20130116899A (ko) 오디오 코딩 방법 및 장치
Malvar Enhancing the performance of subband audio coders for speech signals
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
CN1229774C (zh) 有特殊步长适应的自适应差分脉码调制语音编码系统
JP4437011B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310000 room 1001, building 2, No. 2, ZIJINGHUA Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: HANGZHOU MEGA TECHNOLOGY Co.,Ltd.

Address before: 11, building 2, block B, The Union Buildings, No. 310013, Bauhinia Road, Hangzhou, Xihu District, Zhejiang

Patentee before: Hangzhou Mijia Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder

Address after: Room 1001, building 2, No.2 ZIJINGHUA Road, Xihu District, Hangzhou City, Zhejiang Province 310000

Patentee after: Hangzhou Sikai Data Technology Group Co.,Ltd.

Address before: Room 1001, building 2, No.2 ZIJINGHUA Road, Xihu District, Hangzhou City, Zhejiang Province 310000

Patentee before: HANGZHOU MEGA TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20210508

Address after: Room 10-2023, building 5, 6, 9, 10, No.3, Shenzhen East Road, Huaian Economic and Technological Development Zone, Jiangsu 223001

Patentee after: Jiangsu Meiye Environmental Protection Technology Development Co.,Ltd.

Address before: Room 1001, building 2, No.2 ZIJINGHUA Road, Xihu District, Hangzhou City, Zhejiang Province 310000

Patentee before: Hangzhou Sikai Data Technology Group Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130220

CF01 Termination of patent right due to non-payment of annual fee