CN102655000A - 一种清浊音分类方法和装置 - Google Patents

一种清浊音分类方法和装置 Download PDF

Info

Publication number
CN102655000A
CN102655000A CN2011100528911A CN201110052891A CN102655000A CN 102655000 A CN102655000 A CN 102655000A CN 2011100528911 A CN2011100528911 A CN 2011100528911A CN 201110052891 A CN201110052891 A CN 201110052891A CN 102655000 A CN102655000 A CN 102655000A
Authority
CN
China
Prior art keywords
sound
pressure level
tonal components
sound pressure
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100528911A
Other languages
English (en)
Other versions
CN102655000B (zh
Inventor
许丽净
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201110052891.1A priority Critical patent/CN102655000B/zh
Publication of CN102655000A publication Critical patent/CN102655000A/zh
Application granted granted Critical
Publication of CN102655000B publication Critical patent/CN102655000B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例公开了一种清浊音分类方法和装置,其中方法的实现包括:接收音频的帧的数据;对接收到的数据进行音调分量检测得到音调分量;统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。不用试各种可能的编码模式,减少计算复杂度,从而提高编码效率。

Description

一种清浊音分类方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种清浊音分类方法和装置。
背景技术
在中低编码速率(10kbits/s~32kbits/s)下,语音编码器及音频编码器不能完全适用于语音和音乐混合的内容(mixed contents of speech and music)的编码。语音编码器只考虑到语音信号的特点,对于音乐类的内容(music-likecontent)的编码效果欠佳;音频编码器是基于心理声学模型设计的,对于语音类的内容(speech-like content)的编码效果欠佳。针对上述问题,运动图像专家组(Moving Picture Experts Group,MPEG)音频组提出一个新的适用于语音和音乐混合的内容的语音音频编码(unified speech and audio coding,USAC)编码器。
USAC编码器的信号分类模块(Signal Classifier)需要输出两组分类结果:
speech/music分类结果(A):分析输入信号属于speech-like content,或是属于music-like content。对于music-like content,选择音频编码器进行编码;对于speech-like content,选择语音编码器进行编码。
voiced/unvoiced分类结果(B):针对speech-like content,进一步分析信号属于清音或是浊音。对于浊音信号,选择代数码激励线性预测(Algebraic CodeExcited Linear Prediction,ACELP)编码器;对于清音信号,选择变换编码激励(Transform Coded Excitation,TCX)编码器。
在实现上述分类结果B的过程中,为了确定编码模式,需要将各种可能的编码模式都运行一次,再基于信噪比(signal to noise,SNR)信息选择其一,计算复杂度是相当高,因而编码效率低。
发明内容
本发明实施例要解决的技术问题是提供一种清浊音分类方法和装置,提高编码效率。
一种清浊音分类方法,包括:
接收音频的帧的数据;
对接收到的数据进行音调分量检测得到音调分量;
统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
一种清浊音分类装置,包括:
接收单元,用于接收音频的帧的数据;
检测单元,用于对接收到的数据进行音调分量检测得到音调分量;
统计单元,用于统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
分类单元,用于根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
上述技术方案具有如下有益效果:通过对接收到的数据进行音调分量检测得到音调分量;统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。不用试各种可能的编码模式,减少计算复杂度,从而提高编码效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法流程示意图;
图2为本发明实施例方法流程示意图;
图3A为本发明实施例时域波形及对应的语谱示例图;
图3B为本发明实施例方法一音调检测结果示例图;
图3C为本发明实施例方法一音调检测结果示例图;
图4A为本发明实施例时域波形及对应的语谱示例图;
图4B为没有去除孤立点的音调检测结果示例图;
图4C为去除孤立点后的音调检测结果示例图;
图5A为时域波形及对应的语谱示例图;
图5B为全频带声压级曲线示例图;
图6A为时域波形及对应的语谱示例图;
图6B为全频带/高频声压级曲线示例图;
图7A为时域波形及对应的语谱示例图;
图7B为音调分量分布示例图;
图7C为全频带声压级曲线示例图
图8A为时域波形及对应的语谱示例图;
图8B为音调分量分布示例图;
图8C为全频带声压级曲线示例图;
图9A为时域波形示例图;
图9B为初始分类结果示例图;
图10本发明实施例方法流程示意图;
图11A平滑处理的实例图;
图11B平滑处理的实例图;
图12为本发明实施例装置结构示意图;
图13为本发明实施例装置结构示意图;
图14为本发明实施例装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种清浊音分类方法,如图1所示,包括:
101:接收音频的帧的数据;
102:对接收到的数据进行音调分量检测得到音调分量;
进一步地,在102中得到音调分量之后还包括:删除音调分量中的孤立点。这样可以提高后续步骤执行中数据的准确度。
更具体地,上述102的实现方案包括:对接收到的数据进行快速傅里叶变换(Fast Fourier Transform,FFT)得到功率密度谱;确定功率密度谱中的局部极大点;以局部极大点为中心获取设定频域区间内的局部极大点是否为音调分量;上述删除音调分量中的孤立点包括:根据低频的音调分量的分布特性识别孤立点。
更具体地,上述根据低频的音调分量的分布特性识别孤立点,包括:若基频的值处于设定范围以外,或者低频音调分量的分布不连续且不具有周期性,则确定为孤立点。
103:统计上述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
更具体地,上述全频带声压级包括:全频带总声压级、全频带音调分量声压级、全频带非音调分量声压级;上述高频声压级包括:高频总声压级、高频音调分量声压级、高频非音调分量声压级;
上述获取音调分量分布的周期性包括:检测获取的相邻音调分量间的间隔差是否在设定范围内,若是则确定具有周期性,否则确定为不具有周期性;
上述获取音调分量分布连续性包括:检测当前帧是否具有与其相邻帧处于相同或相邻频谱线的音调分量,若存在则确定音调分量分布连续,否则确定音调分量分布不具有连续性。
104:根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
通过对接收到的数据进行音调分量检测得到音调分量;统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。不用试各种可能的编码模式,减少计算复杂度,从而提高编码效率。
更具体地,在104的实现可以为:如果全频带音调分量声压级比全频带非音调分量的声压级大第一设定值以上,并且与全频带总声压级相差在第二设定值以内,则确定为浊音;全频带非音调分量声压级比全频带音调分量声压级大第三设定值以上,且与全频带总声压级相差第四设定值,则确定为清音;
如果高频音调分量声压级比高频非音调分量声压级大第五设定值,且与高频总声压级相差第六设定值以内,则确定为浊音;
如果音调分量分布具有周期性,则确定为浊音;
如果音调分量分布不具有连续性,则确定为清音;若音调分量分布具有连续性,则确定为浊音。
由于在编码的过程中接收到的帧和当前帧存在延迟的情况,上述方法进一步还可以:根据接收到的帧以及编码延时获取待编码的帧,利用当前帧对待编码帧的分类的结果进行修正。需要说明的是,如果在不允许引入延时处理的场景是可以不用修正的,对分类的效果影响不大。
更具体地,可以修正可能的错误,上述修正包括:若待编码帧被判为清音,并且相邻的帧均被判为浊音,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且相邻的帧均被判为清音,将待编码帧的类型修正为清音。
进一步地,可以修正延迟可能出现的错误,上述修正还包括:若待编码帧被判为清音,并且位于由清音至浊音的切换处,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且位于由浊音至清音的切换处,将待编码帧的类型修正为清音。
以下实施例将分别就以上步骤102~104进行举例说明,本实施例将以如图2所示步骤的顺序进行详细说明,如图2所示,
当前帧输入数据以后执行:
201:音调分量检测:检测可能的音调分量,去除孤立点;
202:特征提取,提取四种特征:分析音调分量分布的周期性以及连续性;计算全频带声压以及高频声压;
203:初始分类;
204:平滑得到待编码帧的分类结果。由于编码存在一定的延时,“当前帧”并非“待编码帧”。设当前帧为第i帧,编码延时为td,则待编码帧为第(i-td)帧。
以下对上述201进行介绍,音调分量检测可以包括两个步骤:
A:检测可能的音调分量
该步骤可以采用活动图像专家组(Moving Picture Expert Group,MPEG)心理声学模型1中的音调分量检测算法,详细描述参见ISO/IEC 11172-3,AnnexD.1(Psychoacoustic model 1)的步骤1及步骤4。检测可能的音调分量,针对当前帧输入数据,处理步骤为:进行FFT变换,获取功率密度谱;确定功率密度谱中的局部极大点;针对以局部极大点为中心的一段频域区间进行分析,进一步确定局部极大点是否为音调分量。
B:去除孤立点,在步骤A的基础上有效提高了音调分量检测精度。
如果确定的局部极大点不是音调分量就可以去掉这些孤立的点。
频域区间的划分是根据经验设定的。设输入信号采样率为48kHz,FFT变换大小为F,给出两种划分方式的举例:
方法1:用于MPEG心理声学模型1
0~1.5kHz:[-2,2]
1.5~3kHz:[-3,3]
3~6kHz:[-6,6]
6~12kHz:[-12,12]
方法2:用于本实施例
0~6kHz:[-2,2]
6~12kHz:[-3,3]
设功率密度谱的局部极大点为Pf(f∈(0,(F/2-1))),以方法1为例说明:
如果pf对应的频率范围是0~1.5kHz,分析pf与pf-2,pf-1,pf+1,pf+2的相对关系;
如果pf对应的频率范围是1.5~3kHz,分析pf与pf-3,pf-2,pf-1,pf+1,pf+2,pf+3的相对关系;
如果pf对应的频率范围是3~6kHz,分析pf与pf-6,pf-5,pf-4,pf-3,pf-2,pf-1,以及pf+1,pf+2,pf+3,pf+4,pf+5,pf+6的相对关系;
如果pf对应的频率范围是6~12kHz,分析pf与pf-12,pf-11,pf-10,pf-9,pf-8,pf-7,pf-6,pf-5,pf-4,pf-3,pf-2,pf-1,以及pf+1,pf+2,pf+3,pf+4,pf+5,pf+6,pf+7,pf+8,pf+9,pf+10,pf+11,pf+12的相对关系。
以下实施例用一段声音的实例为例,对以上两种划分方式的方法一及方法二的音调分量检测结果进行比较分析,如图3A、3B、3C所示:图3A给出时域波形及对应的语谱图;图3B、3C分别给出了使用方法1和方法2进行音调分量检测的结果。其中,横轴表示帧数;纵轴表示音调分量检测结果:
如果对应白色,表示对应帧在该谱线处未检测出音调分量;
如果对应黑色,表示对应帧在该谱线处检测出音调分量。
由图3B和图3C可见,与方法1相比,利用方法2可以检测出更多的音调分量,但同时也引入更多的无效的孤立点,如图3C的黑色圈所示。针对该问题,本发明给出了孤立点处理步骤。
去除孤立点处理步骤为:
A:根据低频音调分量的分布特性识别出哪些点是音调分量,哪些点是孤立点;音调分量应具备以下特征:
1、基频应处于合理范围内;
2、低频音调分量的分布应具有连续性;
3、如果低频音调分量的分布不具有连续性,则应具有一定的周期性。
B:去除孤立点。
仍以图3A的语音为例,去除孤立点后效果如图4C所示。
图4A给出时域波形及对应的语谱图;
图4B给出没有去除孤立点的音调检测结果;
图4C给出去除孤立点后的音调检测结果。被去除的孤立点主要集中在图4C的黑色圈内。
图4A给出时域波形及对应的语谱图。图4B给出音调分量检测结果。其中,如果对应白色,表示对应帧在该谱线处未检测出音调分量;如果对应黑色,表示对应帧在该谱线处检测出音调分量。从图4B和4C可以看到那些点被看作孤立点被删除了。
上述202中的特征提取具体为:
基于已经检测出的音调分量,本实施例提取三类特征:声压级;音调分量分布周期性;音调分量分布连续性。
A:声压级
A1:全频带声压级:
spl_total_full:全频带总的声压级;
spl_tonal_full:全频带音调分量的声压级;
spl_non_tonal_full:全频带非音调分量的声压级;
A2:高频声压级:
spl_total_hf:高频总的声压级spl_tonal_hf;
高频音调分量的声压级spl_non_tonal_hf;
高频非音调分量的声压级;
浊音部分以音调分量为主,因此浊音的音调分量的声压级更接近于总的声压级;反之,清音部分以非音调分量为主,清音的非音调分量的声压级应当更接近于总的声压级。
B:音调分量分布周期性
设当前帧共检测出N个音调分量,从低频至高频,依次标记为第0个、第1个、......、第(n-1)个、第n个、第(n+1)个、......、第(N-1)个音调分量。如果第n个音调分量与第(n-1)个音调分量及第(n+1)个音调分量是等间隔分布的,说明其分布具有周期性。记录当前帧音调分量出现周期性分布的次数,以num_tonal_periodicity表示。
与清音相比,浊音部分的音调分量分布具有一定的周期性。num_tonal_periodicity值越大,说明音调分量分布的周期性越好,浊音的特征越明显。
C:音调分量分布连续性
设当前帧为第i帧,如果第i帧的第n个音调分量与第(i-1)帧的某个音调分量(不一定是第n个音调分量)位于同一谱线或是相邻谱线,说明第i帧的第n个音调分量相对于前一帧的音调分量来说是连续分布的。如果第(i-1)帧的该音调分量与第(i-2)帧的某个音调分量也是相连的,依次类推......就可以构成一条连续分布的谱线。
针对当前帧的第n个音调分量,记录到达当前帧时,音调分量能够连续分布的帧个数,以tonal_continuity_num[n]表示。
与清音相比,浊音部分的音调分量分布具有一定的连续性。如果tonal_continuity_num[n]取值越大,说明音调分量分布的连续性越好,浊音的特征越明显。
上述203中初始分类具体为:
基于上述特征提取的结果,针对当前帧,本发明实施例给出以下的清浊音分类的依据:
1、如果全频带音调分量声压级明显大于非音调分量声压级,接近于全频带总声压级,则为浊音;反之,如果全频带非音调分量声压级明显大于音调分量声压级,接近于全频带总声压级,则为清音。
2、如果高频音调分量声压级明显大于非音调分量声压级,接近于高频总声压级,则为浊音。
3、如果音调分量分布具有明显的周期性,则为浊音。
4、如果音调分量分布完全不具备连续性,清音的可能性较大;反之,如果音调分量分布具有较好的连续性,浊音的可能性较大。
以一个语音实例为例用以说明上述依据1,如图5A~5B所示。图5A给出时域波形及对应的语谱图,图5B给出全频带声压级曲线图。对于声压级曲线图,横轴表示帧数,纵轴表示声压级。
由图5A~5B可见:
1、浊音以音调分量为主,因此全频带音调分量声压级明显大于非音调分量声压级,更加接近于总声压级。代表音调分量声压级的黑色实线基本上与代表总声压级的粗黑色点线相重合;
2、清音以非音调分量为主,因此全频带非音调分量声压级明显大于音调分量声压级,更加接近于总声压级。代表非音调分量声压级的黑色虚线基本上与代表总声压级的粗黑色点线相重合。
本发明实施例还给出了另一个语音实例用以说明上述依据2,如图6A~6B所示。图6A给出时域波形及对应的语谱图,图6B给出全频带/高频声压级曲线图。
基于图6A~6B,对于部分浊音片段,尽管全频带声压级特征不明显,高频声压级可能具有较明显的浊音特性。观察图6B黑色箭头部分的音调分布情况可知:
1、低频部分的音调分布的周期性并不是很好,因此全频带的声压级并没有表现出明显的浊音特征;
2、高频部分的音调分布的周期性很明显,因此高频音调分量声压级明显大于非音调分量声压级,更加接近于高频总声压级。代表高频音调分量声压级的粗黑色实线基本上与代表高频总声压级的粗黑色点线重合。
本发明实施例还给出了另一实例用以说明上述依据3,如图7A~7C所示。图7A给出时域波形及对应的语谱图,图7B给出音调分量分布图,图7C给出全频带声压级曲线图。
由图7A~7C可见:
1、对于部分浊音片段,如图7C黑色实线箭头所示,声压级特征可能并不明显,但是音调分布具有较明显的周期性,因此仍可以判断该处为浊音;
2、音调分布的周期性不够明显时,不能说明该处一定不是浊音,如图7C黑色虚线箭头所示。
本发明实施例还给出了另一个实例用以说明上述依据4,如图8A~8C所示。图8A给出时域波形及对应的语谱图,图8B给出音调分量分布图,图8C给出全频带声压级曲线图。
由图8A~8C可见:
1、位于浊音之间的清音部分不具有连续性,如图8B中的黑色实线圈所示;
2、但是音调分布具有一定的连续性时,也不能说明其一定是浊音,如图8C中的黑色箭头所示。在浊音结束的地方,音调分布仍然保持一定的连续性,但是声压级已经呈现出清音的特征,应将其判断为清音。
利用上述四个判断的依据进行初始分类的实例如图9A~9B所示。由上至下,分别给出时域波形及初始分类结果。对于初始分类结果,横轴表示样本点,纵轴表示分类结果。其中,正值对应浊音,负值对应清音,零值对应待定。四种线型的粗线分别代表利用全频带声压级、高频声压级、音调分布周期性及音调分布连续性得到的分类结果。将利用每个特征得到的结果综合起来,就得到了总的分类结果,如图9B的细的实线所示。
由图9A~9B可见,上述四个分类依据各有适用的范围,可以互为补充。
基于上述四条分类依据,本实施例处理流程如图10所示:
1001:处理流程开始(start),将分类结果初始化为TBD;
1002:num_tonal_continuity取值为0并且(spl_tonal_full-spl_non_tonal_full)相对较小?如果否(No)进入1003,如果是(Yes),确定为清音(UNVOICE)并结束(End)流程;
1003:(spl_tonal_hf-spl_non_tonal_hf)大于等于0?如果否(No)进入1004,如果是(Yes),确定为浊音(VOICE)并结束流程;
1004:num_tonal_periodicity足够大并且(spl_tonal_full-spl_non_tonal_full)相对较大?如果否(No)进入1005,如果是(Yes),确定为浊音(VOICE)并结束流程;
1005:(spl_tonal_full-spl_non_tonal_full)足够大?如果否(No)进入1006,如果是(Yes),确定为浊音(VOICE)并结束流程;
1006:(spl_tonal_full-spl_non_tonal_full)足够小?如果是(Yes)进入1007,如果否(No),确定为清音(UNVOICE)并结束流程;
1007:低频音调分具有一定的连续性并且(spl_tonal_full-spl_non_tonal_full)相对较大?如果是,确定为浊音(VOICE)并结束流程,如果否,确定为清音(UNVOICE)并结束流程。
上述204中平滑的处理具体如下:
由于编码存在一定的延时,图中的“当前帧”并不一定就是“待编码帧”。设当前帧为第i帧,编码延时为td,则待编码帧为第(i-td)帧。可以利用第(i-td+1)帧至第i帧的初始分类结果对待编码帧的初始分类结果进行修正。
平滑处理的实例如图11A、11B所示。
由图可见,平滑处理包括两类:
1、消除“毛刺”,如图11B黑色虚线箭头所示:
如果待编码帧被判为清音,而其前后帧均被判为浊音,将其修正为浊音;
如果待编码帧被判为浊音,而其前后帧均被判为清音,将其修正为清音。
2、修正清浊音切换处,如图11B黑色实线箭头所示:
如果待编码帧被判为清音,并且位于由清音至浊音的切换处,将其修正为浊音;
如果待编码帧被判为浊音,并且位于由浊音至清音的切换处,将其修正为清音。
需要说明的是,如果本发明实施例可能的应用场合中不允许引入额外延时,可以去掉平滑步骤,对于分类结果的影响不大。
本发明实施例还提供了一种清浊音分类装置,如图12,包括:
接收单元1201,用于接收音频的帧的数据;
检测单元1202,用于对接收到的数据进行音调分量检测得到音调分量;
统计单元1203,用于统计上述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
分类单元1204,用于根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
进一步地,如图13所示上述装置还包括:
删除单元1301,用于得到音调分量之后,删除音调分量中的孤立点。
更具体地,上述删除单元1301具体用于:对接收到的数据进行快速傅里叶变换FFT得到功率密度谱;确定功率密度谱中的局部极大点;以局部极大点为中心获取设定频域区间内的局部极大点是否为音调分量;根据低频的音调分量的分布特性识别孤立点,然后删除音调分量中的孤立点。
进一步地,如图14所示上述装置还包括:
帧获取单元1401,用于根据接收到的帧以及编码延时获取待编码的帧;
修正单元1402,用于利用当前帧对待编码帧的分类的结果进行修正。
更具体地,上述修正单元1402具体用于:若待编码帧被判为清音,并且相邻的帧均被判为浊音,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且相邻的帧均被判为清音,将待编码帧的类型修正为清音;若待编码帧被判为清音,并且位于由清音至浊音的切换处,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且位于由浊音至清音的切换处,将待编码帧的类型修正为清音。
更具体地,上述全频带声压级包括:全频带总声压级、全频带音调分量声压级、全频带非音调分量声压级;上述高频声压级包括:高频总声压级、高频音调分量声压级、高频非音调分量声压级;上述获取音调分量分布的周期性包括:检测获取的相邻音调分量间的间隔差是否在设定范围内,若是则确定具有周期性,否则确定为不具有周期性;上述获取音调分量分布连续性包括:检测当前帧是否具有与其相邻帧处于相同或相邻频谱线的音调分量,若存在则确定音调分量分布连续,否则确定音调分量分布不具有连续性;上述分类单元1204,用于如果全频带音调分量声压级比全频带非音调分量的声压级大第一设定值以上,并且与全频带总声压级相差在第二设定值以内,则确定为浊音;全频带非音调分量声压级比全频带音调分量声压级大第三设定值以上,且与全频带总声压级相差第四设定值,则确定为清音;
如果高频音调分量声压级比高频非音调分量声压级大第五设定值,且与高频总声压级相差第六设定值以内,则确定为浊音;
如果音调分量分布具有周期性,则确定为浊音;
如果音调分量分布不具有连续性,则确定为清音;若音调分量分布具有连续性,则确定为浊音。
以上实施例,通过对接收到的数据进行音调分量检测得到音调分量;统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。不用试各种可能的编码模式,减少计算复杂度,从而提高编码效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种清浊音分类方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种清浊音分类方法,其特征在于,包括:
接收音频的帧的数据;
对接收到的数据进行音调分量检测得到音调分量;
统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
2.根据权利要求1所述方法,其特征在于,得到音调分量之后还包括:
删除音调分量中的孤立点。
3.根据权利要求1所述方法,其特征在于,所述删除音调分量中的孤立点包括:
对接收到的数据进行快速傅里叶变换FFT得到功率密度谱;确定功率密度谱中的局部极大点;以局部极大点为中心获取设定频域区间内的局部极大点是否为音调分量;根据低频的音调分量的分布特性识别孤立点。
4.根据权利要求3所述方法,其特征在于,所述根据低频的音调分量的分布特性识别孤立点,包括:
若基频的值处于设定范围以外,或者低频音调分量的分布不连续且不具有周期性,则确定为孤立点。
5.根据权利要求1所述方法,其特征在于,还包括:根据接收到的帧以及编码延时获取待编码的帧,利用当前帧对待编码帧的分类的结果进行修正。
6.根据权利要求5所述方法,其特征在于,所述修正包括:
若待编码帧被判为清音,并且相邻的帧均被判为浊音,将待编码帧的类型修正为浊音;
若待编码帧被判为浊音,并且相邻的帧均被判为清音,将待编码帧的类型修正为清音。
7.根据权利要求6所述方法,其特征在于,所述修正还包括:
若待编码帧被判为清音,并且位于由清音至浊音的切换处,将待编码帧的类型修正为浊音;
若待编码帧被判为浊音,并且位于由浊音至清音的切换处,将待编码帧的类型修正为清音。
8.根据权利要求1至7任意一项所述方法,其特征在于,所述全频带声压级包括:全频带总声压级、全频带音调分量声压级、全频带非音调分量声压级;
所述高频声压级包括:高频总声压级、高频音调分量声压级、高频非音调分量声压级;
所述获取音调分量分布的周期性包括:检测获取的相邻音调分量间的间隔差是否在设定范围内,若是则确定具有周期性,否则确定为不具有周期性;
所述获取音调分量分布连续性包括:检测当前帧是否具有与其相邻帧处于相同或相邻频谱线的音调分量,若存在则确定音调分量分布连续,否则确定音调分量分布不具有连续性。
9.根据权利要求8所述方法,其特征在于,所述根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音包括:
如果全频带音调分量声压级比全频带非音调分量的声压级大第一设定值以上,并且与全频带总声压级相差在第二设定值以内,则确定为浊音;全频带非音调分量声压级比全频带音调分量声压级大第三设定值以上,且与全频带总声压级相差第四设定值,则确定为清音;
如果高频音调分量声压级比高频非音调分量声压级大第五设定值,且与高频总声压级相差第六设定值以内,则确定为浊音;
如果音调分量分布具有周期性,则确定为浊音;
如果音调分量分布不具有连续性,则确定为清音;若音调分量分布具有连续性,则确定为浊音。
10.一种清浊音分类装置,其特征在于,包括:
接收单元,用于接收音频的帧的数据;
检测单元,用于对接收到的数据进行音调分量检测得到音调分量;
统计单元,用于统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
分类单元,用于根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
11.根据权利要求10所述装置,其特征在于,还包括:
删除单元,用于得到音调分量之后,删除音调分量中的孤立点。
12.根据权利要求11所述装置,其特征在于,
所述删除单元具体用于:对接收到的数据进行快速傅里叶变换FFT得到功率密度谱;确定功率密度谱中的局部极大点;以局部极大点为中心获取设定频域区间内的局部极大点是否为音调分量;根据低频的音调分量的分布特性识别孤立点,然后删除音调分量中的孤立点。
13.根据权利要求10所述装置,其特征在于,还包括:
帧获取单元,用于根据接收到的帧以及编码延时获取待编码的帧;
修正单元,用于利用当前帧对待编码帧的分类的结果进行修正。
14.根据权利要求13所述装置,其特征在于,
所述修正单元具体用于:若待编码帧被判为清音,并且相邻的帧均被判为浊音,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且相邻的帧均被判为清音,将待编码帧的类型修正为清音;若待编码帧被判为清音,并且位于由清音至浊音的切换处,将待编码帧的类型修正为浊音;若待编码帧被判为浊音,并且位于由浊音至清音的切换处,将待编码帧的类型修正为清音。
15.根据权利要求11至14任意一项所述装置,其特征在于,所述全频带声压级包括:全频带总声压级、全频带音调分量声压级、全频带非音调分量声压级;所述高频声压级包括:高频总声压级、高频音调分量声压级、高频非音调分量声压级;所述获取音调分量分布的周期性包括:检测获取的相邻音调分量间的间隔差是否在设定范围内,若是则确定具有周期性,否则确定为不具有周期性;所述获取音调分量分布连续性包括:检测当前帧是否具有与其相邻帧处于相同或相邻频谱线的音调分量,若存在则确定音调分量分布连续,否则确定音调分量分布不具有连续性;所述分类单元,用于如果全频带音调分量声压级比全频带非音调分量的声压级大第一设定值以上,并且与全频带总声压级相差在第二设定值以内,则确定为浊音;全频带非音调分量声压级比全频带音调分量声压级大第三设定值以上,且与全频带总声压级相差第四设定值,则确定为清音;
如果高频音调分量声压级比高频非音调分量声压级大第五设定值,且与高频总声压级相差第六设定值以内,则确定为浊音;
如果音调分量分布具有周期性,则确定为浊音;
如果音调分量分布不具有连续性,则确定为清音;若音调分量分布具有连续性,则确定为浊音。
CN201110052891.1A 2011-03-04 2011-03-04 一种清浊音分类方法和装置 Expired - Fee Related CN102655000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110052891.1A CN102655000B (zh) 2011-03-04 2011-03-04 一种清浊音分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110052891.1A CN102655000B (zh) 2011-03-04 2011-03-04 一种清浊音分类方法和装置

Publications (2)

Publication Number Publication Date
CN102655000A true CN102655000A (zh) 2012-09-05
CN102655000B CN102655000B (zh) 2014-02-19

Family

ID=46730620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110052891.1A Expired - Fee Related CN102655000B (zh) 2011-03-04 2011-03-04 一种清浊音分类方法和装置

Country Status (1)

Country Link
CN (1) CN102655000B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143342A (zh) * 2013-05-15 2014-11-12 腾讯科技(深圳)有限公司 一种清浊音判定方法、装置和语音合成系统
CN104282315A (zh) * 2013-07-02 2015-01-14 华为技术有限公司 音频信号分类处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890108A (en) * 1995-09-13 1999-03-30 Voxware, Inc. Low bit-rate speech coding system and method using voicing probability determination
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN1912992A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 一种基于谐波特征的浊音检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890108A (en) * 1995-09-13 1999-03-30 Voxware, Inc. Low bit-rate speech coding system and method using voicing probability determination
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN1912992A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 一种基于谐波特征的浊音检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143342A (zh) * 2013-05-15 2014-11-12 腾讯科技(深圳)有限公司 一种清浊音判定方法、装置和语音合成系统
CN104282315A (zh) * 2013-07-02 2015-01-14 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备

Also Published As

Publication number Publication date
CN102655000B (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN1920947B (zh) 用于低比特率音频编码的语音/音乐检测器
Bachu et al. Separation of voiced and unvoiced using zero crossing rate and energy of the speech signal
Chou et al. Robust singing detection in speech/music discriminator design
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
US7778825B2 (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
CN102237085B (zh) 音频信号的分类方法及装置
Didiot et al. A wavelet-based parameterization for speech/music discrimination
Hu et al. Pitch‐based gender identification with two‐stage classification
CN102063904B (zh) 一种音频文件的旋律提取方法及旋律识别系统
CN102446504B (zh) 语音/音乐识别方法及装置
CN101221762A (zh) 一种mp3压缩域音频分割方法
CN101398825B (zh) 用于快速音乐分类和检索的方法和设备
KR20100115215A (ko) 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
Ebner et al. Audio inpainting with generative adversarial network
CN111696580A (zh) 一种语音检测方法、装置、电子设备及存储介质
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
CN101889306A (zh) 用于处理信号的方法和装置
CN102655000B (zh) 一种清浊音分类方法和装置
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
El-Maleh Classification-based Techniques for Digital Coding of Speech-plus-noise
Kos et al. On-line speech/music segmentation for broadcast news domain
CN115132183B (zh) 音频识别模型的训练方法、装置、设备、介质及程序产品
Sell et al. The information content of demodulated speech
KR100539176B1 (ko) 음악적 특징 추출 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140219

CF01 Termination of patent right due to non-payment of annual fee