CN102237085A - 音频信号的分类方法及装置 - Google Patents

音频信号的分类方法及装置 Download PDF

Info

Publication number
CN102237085A
CN102237085A CN 201010160326 CN201010160326A CN102237085A CN 102237085 A CN102237085 A CN 102237085A CN 201010160326 CN201010160326 CN 201010160326 CN 201010160326 A CN201010160326 A CN 201010160326A CN 102237085 A CN102237085 A CN 102237085A
Authority
CN
China
Prior art keywords
threshold value
signal
frame
music
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010160326
Other languages
English (en)
Other versions
CN102237085B (zh
Inventor
许丽净
杜正中
张清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 201010160326 priority Critical patent/CN102237085B/zh
Publication of CN102237085A publication Critical patent/CN102237085A/zh
Application granted granted Critical
Publication of CN102237085B publication Critical patent/CN102237085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例公开了一种音频信号的分类方法和装置。该分类方法包括:获得待分类音频信号的音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前帧进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。该分类方法算法复杂度低,分类准确性较高,适用性较广。

Description

音频信号的分类方法及装置
技术领域
本发明涉及通信技术领域语音频技术,尤其涉及一种音频信号的分类方法及装置。
背景技术
语音编码器擅长于在中低码率下对语音类型的音频信号进行编码,而对音乐类型的音频信号编码效果则欠佳;音频编码器适用于在高码率下对语音类型和音乐类型的音频信号进行编码,但在中低码率下对语音类型的音频信号编码效果不够理想。在现有技术当中,在中低编码速率下,目前还没有一种编码器能够完全适用于mixed contents ofspeech and music。针对该问题,MPEG音频组提出一个新的适用于中低编码速率的编码器USAC(unified speech and audiocoding),USAC编码器的处理流程为:
1)首先利用信号分类模块(Signal Classifier)判别信号属于speech-likecontent,或是属于music-like content;
2)根据信号类型的不同,在frame-per-frame基础上选择不同的编码方法:
对于speech-like content,选择基于ACELP/TCX的语音编码器;
对于music-like content,选择基于心理声学模型的音频编码器。
由此可以充分利用现有的语音编码器及音频编码器的优点,利用单一编码器就能为mixed contents of speech and music提供较好的编码质量。
其中,USAC编码器对于信号分类模块的要求主要有:
1)识别正确率较高,以便在后续编码过程中能够充分发挥语音编码器及音频编码器的作用;
2)实时分类,不为编码器引入额外延时;
3)低复杂度,不为编码器引入过多的计算复杂度。
现有技术中一种实时识别语音信号与音乐信号的方法包括:
1)利用窗函数将输入信号划分为一系列的overlapped frame;
2)利用FFT变换计算每帧的频谱系数;
3)基于频谱系数,对于每个segment,计算五个方面的特征参数:harmony、noise、tail、drag out及rhythm;
4)基于上述特征参数,把音频信号分为六类:SPEECH_TYPE、MUSIC_TYPE、NOISE_TYPE、SHOR_SEGM、UNDETER_TYPE及SHOR_UNDETER_TYPE。
在实现上述判别音频信号的类型的过程中,发明人发现现有技术中至少存在如下问题:该技术提取了较多的特征参数,对于信号的分类较为全面,但也会导致分类算法复杂度较高,难以满足实时编码低复杂度的需求;该技术将音频信号分为六类,不能完全满足USAC编码器的需求。
发明内容
本发明的实施例提供一种音频信号的分类方法及装置,在满足编码低复杂度情况下提高音频信号分类的准确性。
根据本发明的一实施例,提供一种音频信号的分类方法,包括:
获得待分类音频信号的音调特征;
根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
对当前帧进行初始边界分析,获得当前帧边界信息;
利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
根据本发明的另一实施例,提供一种音频信号的分类装置,包括:
特征获得单元,用于获得待分类音频信号的音调特征;
初步分类单元,用于根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
边界信息获得单元,用于对当前帧进行初始边界分析,获得当前帧边界信息;
平滑单元,用于利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
本发明实施例根据音调特征对音频信号进行初始分类,算法复杂度低,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,进一步提高分类准确度和适用范围。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的音频信号的分类方法一个实施例的流程示意图;
图2为本发明提供的音频信号的分类方法另一个实施例的流程示意图;
图3为频谱倾斜度均方差示意图;
图4为音调个数均值示意图;
图5为音调分量在低频的分布比率示意图;
图6为频谱倾斜度波动情况示意图;
图7为本发明提供的初始分类的一个实施例的流程示意图;
图8为本发明提供的初始分类的另一个实施例的流程示意图;
图9为本发明提供的初始分类的另一个实施例的流程示意图;
图10为本发明提供的初始分类的另一个实施例的流程示意图;
图11为本发明提供的初始分类的另一个实施例的流程示意图;
图12为本发明提供的平滑处理的一个实施例的流程示意图;
图13为本发明提供的音频信号的分类装置一个实施例的结构示意图;
图14为本发明提供的初步分类单元的一个实施例的结构示意图;
图15为本发明提供的平滑单元的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种音频信号的分类方法的一个实施例,该方法包括如下步骤:
S101:获得待分类音频信号的音调特征。
一般情况下,对当前帧音频信号及前若干帧音频信号作为待分类音频信号,进行分类。对每一帧音频信号,获得该音频信号的音调特征并进行分类。在一个实施例中音调特征包括:音调个数均值、音调分量在低频的分布比率。在另一个实施例中音调特征包括:音调分量在不同频带的分布比值。
S102:根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
初步分类可以有多种方法,在一个实施例中,采用如下方法进行分类:
音调个数均值大于第一门限值的音频信号,初步判定结果为音乐信号;
音调分量在低频的分布小于第二门限值的音频信号,初步判定结果为音乐信号;
其他信号为语音信号。其中,第一门限值和第二门限值一般根据经验值设定,例如第一门限值为15,第二门限值为0.935。
在另一种实施例中,在采用上述方法进行分类后,还可以采用较为严格的门限值将分类结果中的语音信号或音乐信号标示为确定类型。例如:
音调个数均值大于第一确定门限值的音频信号,为音乐信号,标示为确定类型;
音调个数均值小于第二确定门限值的音频信号,为语音信号,标示为确定类型;
音调分量在低频的分布小于第三确定门限值的音频信号,为音乐信号,标示为确定类型。其中,第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值。一般根据经验值设定,例如第一确定门限值为17,第二确定门限值为3,第三确定门限值为0.91。
S103:根据提取到的特征对当前帧进行初始边界分析,获得当前帧边界信息。边界信息表示音频信号类型变化的边界。边界信息包括三类:BORDER_SPEECH_MUSIC(语音音乐边界),由语音信号切换为音乐信号的边界;BORDER_MUSIC_SPEECH(音乐语音边界),由音乐信号切换为语音信号的边界;N0_BORDER(非边界),非信号切换处。
获取边界信息的一个实施例如下:利用长短时特征的相对变化情况进行初始边界分析:
如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为BORDER_MUSIC_SPEECH;
进一步的,可以根据初始分类结果修正边界信息:
如果当前帧的初始分类结果为MUSIC_DEFINITE,并且当前帧之前的若干帧均为语音信号,则边界分析结果为BORDER_SPEECH_MUSIC;
如果当前帧的初始分类结果为SPEECH_DEFINITE,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为BORDER_MUSIC_SPEECH。
S104:利用待编码帧的分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
在音频编码中,当前帧不会立即被编码,需要经过若干帧编码延时后才会被编码。例如,编码延时为5帧,当前帧为第n帧,那么待编码帧就是第(n-5)帧。平滑处理不能越过边界,用于避免误判扩散。
一个实施例中,利用前若干帧的初始分类结果和边界信息对待编码帧的初始分类结果进行平滑处理。
将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域进行平滑处理:分别统计该区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。如果音乐帧个数大于语音帧个数,则将分类结果修正为音乐信号;如果音乐帧个数小于语音帧个数,则将分类结果修正为语音信号。
分为三种情况说明:
1.如果待编码帧离边界帧较远,则可以在待编码帧和边界帧之间选取固定数量的信号帧组成待平滑区域。例如,待编码帧与边界帧之间大于100帧,那么就可以取待编码帧及前90帧组成一个待平滑区域,如下图标注有底纹的区域:
Figure BSA00000085171800061
2.如果待编码帧离边界较近,则可以将待编码帧和边界帧之间所有信号帧组成待平滑区域。例如,待编码帧与边界帧之间小于100帧,只有30帧,那么就取这30帧组成待平滑区域,如下图标注有底纹的区域:
3.如果待编码帧就是边界帧,则不进行平滑处理,直接将初始分类结果作为最终分类结果。
进一步的,当初始分类结果包含确定标识时,首先判断该音频信号初始分类结果是否包含确定标识,如果包含确定标识则不进行平滑处理;如果不包含确定标识,则进行平滑处理。
在另一个实施例中,利用前若干帧的初始分类结果和边界信息对待编码帧的初始分类结果进行平滑处理,输出初次平滑结果;利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,输出分类结果:
如果过去若干帧(属于经验数据,可以灵活设置)内存在静音帧,且待编码帧与当前帧之间出现边界的情况下,需要对初次平滑结果进行修正:如果该边界信息为BORDER_MUSIC_SPEECH,则将待编码帧的分类结果修正为语音;否则,将待编码帧的分类结果修正为音乐。
本发明实施例中,根据音调特征对音频信号进行初始分类,算法复杂度低,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,提高分类准确度和适用范围。进一步的,在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,不进行平滑处理,进一步提高分类准确度。
参照图2所示,一种音频信号的分类方法的另一个实施例,该方法包括如下步骤:
S201:将当前帧及前若干帧数据作为待分析数据,提取音调特征及频谱倾斜度特征;
一般情况下,对当前帧音频信号及前若干帧音频信号作为待分类音频信号,进行分类。对每一帧音频信号,获得该音频信号的音调特征。在一个实施例中音调特征包括:音调个数均值、音调分量在低频的分布比率。在另一个实施例中音调特征包括:音调个数均值、音调分量在不同频带的分布比值。频谱倾斜度特征可以包括频谱倾斜度均方差。
S202:根据音调特征值和频谱倾斜度特征对当前帧进行初始分类,输出初始分类结果;
初步分类可以有多种方法,在一个实施例中,采用如下方法进行分类:
频谱倾斜度均方差小于第三门限的,为音乐信号;
音调个数均值大于第一门限值的,为音乐信号;
音调分量在低频的分布小于第二门限值的,为音乐信号;
音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;
其他信号为语音信号。其中,第一门限值、第二门限值和第三门限值一般根据经验值设定,例如第一门限值为15,第二门限值为0.935,第三门限值为0.0002。
在另一种实施例中,在采用上述方法进行分类后,还可以采用较为严格的门限值将分类结果中的语音信号或音乐信号标示为确定类型。例如:
音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型;
音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;
音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型。
其中,第一确定门限值大于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,,第五确定门限值大于第三门限值。一般根据经验值设定各门限值,例如第一确定门限值为17,第二确定门限值为3,第三确定门限值为0.91;第四确定门限值为0.00004;第五确定门限值为0.01。
S203:根据提取到的特征对当前帧进行初始边界分析,获得当前帧边界信息。边界信息表示音频信号类型变化的边界。边界信息包括三类:BORDER_SPEECH_MUSIC(语音音乐边界),由语音信号切换为音乐信号的边界;BORDER_MUSIC_SPEECH(音乐语音边界),由音乐信号切换为语音信号的边界;NO_BORDER(非边界),非信号切换处。
获取边界信息的一个实施例如下:利用长短时特征的相对变化情况进行初始边界分析:
如果长时频谱倾斜度均方差保持语音特征,而短时频谱倾斜度均方差出现音乐特征,则边界分析结果为BORDER_SPEECH_MUSIC;
在相对较长的时间内保持音乐特征后,如果长/短时频谱倾斜度均方差均出现语音特征,则边界分析结果为BORDER_MUSIC_SPEECH;
如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为BORDER_MUSIC_SPEECH。
进一步的,可以根据初始分类结果修正边界信息:
如果当前帧的初始分类结果为MUSIC_DEFINITE,并且当前帧之前的若干帧均为语音信号,则边界分析结果为BORDER_SPEECH_MUSIC;
如果当前帧的初始分类结果为SPEECH_DEFINITE,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为BORDER_MUSIC_SPEECH。
S204:利用过去的初始分类结果及边界信息对待编码帧的初始分类结果进行平滑处理;
在音频编码中,当前帧不会立即被编码,需要经过若干帧编码延时后才会被编码。例如,编码延时为5帧,当前帧为第n帧,那么待编码帧就是第(n-5)帧。平滑处理不能越过边界,用于避免误判扩散。
将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域进行平滑处理:分别统计该待平滑区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。如果音乐帧个数大于语音帧个数,则将分类结果修正为音乐信号;如果音乐帧个数小于语音帧个数,则将分类结果修正为语音信号。
进一步的,当初始分类结果包含确定标识时,首先判断该音频信号初始分类结果是否包含确定标识,如果包含确定标识则不进行平滑处理,直接将待编码帧的初步分类结果作为待编码帧的分类结果输出;如果不包含确定标识,则进行平滑处理。
S205:相对于待编码帧而言,位于待编码帧与当前帧之间的若干帧初始分类结果均可被视为未来的信息。利用未来的初始分类结果及能量信息对待编码帧平滑结果进行进一步修正,得到待编码帧的分类结果。
如果过去若干帧内存在静音帧,且待编码帧与当前帧之间出现边界的情况下,需要对初次平滑结果进行修正,如果该边界信息为BORDER_MUSIC_SPEECH,则将待编码帧的分类结果修正为语音信号;否则,将待编码帧的分类结果修正为音乐信号。
本发明实施例中,根据音调特征和频谱倾斜度均方差对音频信号进行初始分类,能较好的反应语音信号与音乐信号的区别,相比于音调特征值分类方法进一步提高分类准确性;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,提高分类准确度和适用范围。进一步的,在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,不进行平滑处理,进一步提高分类准确度。进一步的,在平滑处理过程中利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,可以在一定程度上减少实际分类结果与理想分类结果之间的延时。
在一个实施例中,需要提取的音调特征包括:长时音调个数均值,短时音调个数均值;音调分量在低频的分布比率。
为了计算音调特征,首先需要利用1024点FFT运算得到功率密度谱,再利用功率密度谱检测出当前帧的音调分量。
长时音调个数均值,表示最近N1帧的音调分量个数的均值,其中N1是计算音调长时特征所需的长时区间的帧长,该特征用于表征长时区间内的音调分量是否丰富。如果长时区间内的音调分量较为丰富,则长时音调个数均值较大;反之较小。采用如下公式计算获得长时音调个数均值:
ave _ NTonal ( i ) = Σ n = i - N 1 - 1 i NTonal ( n ) N 1
其中,当前帧为第i帧,N7onal(i)表示检测出来的全带音调分量个数。
短时音调个数均值,表示最近N2帧的音调分量个数的均值,其中N2表示计算音调短时特征所需的短时区间的帧长;该特征用于表征短时区间内的音调分量是否丰富。如果短时区间内的音调分量较为丰富,则短时音调个数均值较大;反之较小。采用如下公式计算获得短时音调个数均值:
ave _ NTonal _ short ( i ) = Σ n = i - N 2 - 1 i NTonal ( n ) N 2
其中,当前帧为第i帧,NTonal(i)表示检测出来的全带音调分量个数。
音调分量在低频的分布比率,表示最近N1帧的音调分量在低频段上的分布情况,如果长时区间内的音调分量主要集中于低频段,则音调分量在低频的分布比率较大;反之较小。采用如下公式计算获得音调分量在低频的分布比率:
NTonal _ low _ frequency _ ratio ( i ) = Σ n = i - N 1 - 1 i NTonal _ low _ frequency ( n ) Σ n = i - N 1 - 1 i NTonal ( n )
其中,当前帧为第i帧,NTonal(i)表示检测出来的全带音调分量个数,NTonal_low_frequency(i)表示低带音调分量个数。
在另一个实施例中,除了提取音调特征外,还需要提取频谱倾斜度特征值。提取的频谱倾斜度特征可以包括:长时频谱倾斜度均方差;短时频谱倾斜度均方差。为了计算频谱倾斜度特征,首先需要计算当前帧的频谱倾斜度。设time_signal(n)表示第i帧输入信号,其中n表示样本点。第i帧频谱倾斜度表示为:
spec _ tilt ( i ) = Σ n = 0 N 3 - 1 time _ signal 2 ( n ) Σ n = 0 N 3 - 2 [ time _ signal ( n ) · time _ signal ( n + 1 ) ]
其中N3表示帧长,本实施例中为1024。
长时频谱倾斜度均方差,用于表征长时区间内的频谱倾斜度的变化情况。如果长时区间内的频谱倾斜度变化较为剧烈,则长时频谱倾斜度均方差较大;反之较小。
长时频谱倾斜度均值表示最近N4帧的频谱倾斜度的均值,其中N4表示计算频谱倾斜度长时特征所需的长时区间的帧长:
ave _ spec _ tilt ( i ) = Σ n = i - N 4 - 1 i spec _ tilt ( n ) N 4
长时频谱倾斜度均方差表示为:
msd _ spec _ tilt ( i ) = Σ n = i - N 4 - 1 i [ spec _ tilt ( n ) - ave _ spec _ tilt ( i ) ] 2 N 4
短时频谱倾斜度均方差,用于表征短时区间内的频谱倾斜度的变化情况。如果短时区间内的频谱倾斜度变化较为剧烈,则短时频谱倾斜度均方差较大;反之较小。
短时频谱倾斜度均值表示最近N5帧的频谱倾斜度的均值,其中N5表示计算频谱倾斜度短时特征所需的短时区间的帧长:
ave _ spec _ tilt _ short ( i ) = Σ n = i - N 5 - 1 i spec _ tilt ( n ) N 5
短时频谱倾斜度均方差表示为:
msd _ spec _ tilt _ short ( i ) = Σ n = i - N 5 - 1 i [ spec _ silt ( n ) - ave _ spec _ tilt _ short ( i ) ] 2 N 5
在初始分类中,使用长时音调个数均值和长时频谱倾斜度特征值,在边界分析过程中,则需要使用长时音调个数均值、短时音调个数均值和长时频谱倾斜度特征值、短时频谱倾斜度特征值。
在另一个实施例中,需要提取的音调特征包括:长时音调个数均值,短时音调个数均值;音调分量在不同频带的分布比值。
在检测音调分量时,会将信号带宽划分为四个频带。当采样率为24kHz时,频带划分为:
频带0:0kHz<f≤3kHz
频带1:3kHz<f≤6kHz
频带2:6kHz<f≤12kHz
频带3:12kHz<f≤24kHz
设当前帧为第i帧,NTonal(i)表示全带音调分量个数,NTonal_fr(i,j)(j=0,Λ,3)表示第i帧在第j个频带上的音调分量个数。举例说明:
如果NTonal_fr(i,0)=9,说明当前帧信号在(0kHz,3kHz]频率范围内有9个音调分量;
如果NTonal_fr(i,2)=2,说明当前帧信号在(6kHz,12kHz]频率范围内有2个音调分量。
音调分量在不同频带的分布比值表示最近N6帧的音调分量在第j(j=0,Λ,3)个频带上的分布比率。其中,N6表示计算音调长时特征所需的长时区间的帧长,该数值与实施例一中的N1的取值可以不相同。
NTonal _ fr ( i , j ) = Σ n = i - N 6 - 1 i NTonal _ fr ( n , j ) Σ n = i - N 6 - 1 i NTonal ( n ) , ( j = 0 , Λ , 3 )
该特征用于表征音调分量在不同频带的分布情况,一般情况下,语音信号的音调分量主要分布于低频部分,对应于频带0及频带1;音乐信号的音调分量在频域的分布情况较为复杂,随乐器的不同而不同。例如:低音管、低音吉他等的音调分量主要分布与低频部分;而钢琴、管风琴等的音调分量则可能在四个频带上均有分布。
在另一种实施例中,可以根据边界分析结果更新计算长时特征所需要的数据。设N表示计算长时特征所需要的数据帧长度:
如果未检测出由边界,利用当前帧及前(N-1)帧数据计算长时特征;
如果检测出边界,利用当前帧及位于边界之后的最近若干帧数据(少于N帧)计算长时特征。
由此可以降低语音对于音乐起始部分或是音乐对于语音起始部分的长时特征的影响。
音频信号的音调特征和频谱倾斜度特征存在如下规律:
(1)音乐信号的频谱倾斜度均方差可能很小,而语音信号的频谱倾斜度均方差通常较大。部分音乐信号短时变化很平缓,比如埙、大号及小提琴等;而绝大部分语音信号的短时变化较为剧烈。
例如,如图3所示:图a表示波形。其中,横轴表示时域样本点,纵轴表示归一化后的幅值。以绿色虚线为界,第一段为英语女声清唱,属于语音信号;第二段为男声合唱,属于音乐信号;图b表示频谱倾斜度曲线。其中,横轴表示帧数,纵轴表示频谱倾斜度大小;图c表示频谱倾斜度均方差曲线。其中,横轴表示帧数,纵轴表示频谱倾斜度均方差大小。
由图可见,第一段语音信号在时域上变化较为剧烈,对应的频谱倾斜度均方差很大;而第二段音乐信号在时域上变化平缓,对应的频谱倾斜度均方差很小。
(2)音乐信号的音调个数均值可能很大,而语音信号的音调个数均值可能很小。部分音乐信号的音调分量非常丰富,比如琵琶、笙等;而部分语音信号的音调分量很少,主要集中于男声。
例如,如图4所示:图a表示波形。以绿色虚线为界,第一段信号为英语女声,属于语音信号;第二段信号为朝鲜语男声,属于语音信号;第三段为定音管乐曲,属于音乐信号;图b表示频谱倾斜度曲线;图c表示频谱倾斜度均方差曲线;图d表示长时音调个数均值曲线。其中,横轴表示帧数,纵轴表示音调个数均值。
由图可见,部分朝鲜语男声的频谱倾斜度均方差是很小的,如图b、c中的红圈所示。在这种情况下,仅利用频谱倾斜度均方差特征,是无法完全将朝鲜语男声与音乐信号区分开的,需要考虑两者在音调特征上的不同。与定音管乐曲相比,朝鲜语男声的音调个数均值是很小的,如图d绿圈所示,由此就可以将朝鲜语男声与定音管乐曲区别开。
(3)音乐信号的音调分量在低频的分布比率相对较小,而语音信号的音调分量在低频的分布比率通常较大。部分音乐信号的音调分量分布于较宽的频率范围,比如钢琴、手风琴等;而绝大部分语音信号的音调分量主要分布于低频。
例如,如图5所示:图a为Carmen片段的语谱图,属于音乐信号。其中,横轴表示时域样本点;纵轴表示频率,取值范围为信号带宽0~24kHz;图b表示该段序列的音调分量在频域上的分布情况。其中,横轴表示频率,取值范围为信号带宽;纵轴表示不同频率点下的音调分量个数;图c为德语男声的语谱图,属于语音信号;图d表示该段序列的音调分量在频域上的分布情况。
由图可见,除了低频部分,te15片段的音调分量在较高频率也有分布;而德语男声的音调分量基本上完全分布在低频区域。由此就可以将二者区分开来。
(4)音乐信号倾向于在较长的时间内保持时域上的相对平稳,而语音信号只能在较短的时间内保持时域上的相对平稳。因此,音乐信号的频谱倾斜度均方差可能在较长时间内保持较小的值;而语音信号的频谱倾斜度均方差无法在较长时间内保持较小的值。举例说明,如图6所示:图a表示波形。以绿色虚线为界,第一段信号为音乐信号,第二段信号为法语女声;图b表示频谱倾斜度;图c表示频谱倾斜度均方差。
音乐信号中存在一段打击乐器演奏的片段,变化较为剧烈,导致相应的频谱倾斜度出现较大的波动,频谱倾斜度均方差取值较大,如图b、c红圈所示。如果仅考虑局部特征,很难将这段打击乐器演奏的片段与后边的语音信号区分开来。但是如果观察较长时间内的频谱倾斜度均方差的波动情况,就能看出明显区别:第一段音乐信号,总体趋势是平缓的,只是局部存在波动;第二段语音信号,尽管局部取值可能很小,但是总体波动趋势是很大的。
根据上述特点,可以根据音调特征和频谱倾斜度特征,采用阈值判决方法对音频信号进行分类:
频谱倾斜度均方差小于第三门限的,为音乐信号;
音调分量在低频的分布小于第二门限值的,为音乐信号;
音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;
音频信号的音调个数均值大于第一门限值的,为音乐信号;
其他信号为语音信号。
在另一个实施例中,可以先采用严格的阈值判决出MUSIC_DEFINITE(音乐信号,标示确定类型)及SPEECH_DEFINITE(语音信号,标示确定类型);再采用相对宽松的阈值判决音乐信号及语音信号。
音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型;
音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;
音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型。
频谱倾斜度均方差小于第三门限的,为音乐信号;
音调分量在低频的分布小于第二门限值的,为音乐信号;
音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;
其他信号为语音信号。
其中,第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值。一般根据经验值设定各门限值,例如,第一门限值为15,第二门限值为0.935,第三门限值为0.0002,第一确定门限值为17,第二确定门限值为3,第三确定门限值为0.91;第四确定门限值为0.00004;第五确定门限值为0.01。
参考图7,音调特征包括:音调个数均值、音调分量在低频的分布比率,利用音调特征进行初始分类的一个实施例,包括:
S301:将分类结果初始化为TBD(To Be Determined,待定信号);
S302:判断音频信号的音调个数均值是否大于第一门限值,如果大于第一门限值,则初始分类结果为音乐信号;
S303:判断音频信号的音调分量在低频的分布比率是否小于第二门限值,如果小于第二门限值,则初始分类结果为音乐信号;
S304:将剩余信号判决为语音信号。
本发明实施例中,根据音调特征对音频信号进行初始分类,算法简单易于实现,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高。
参考图8,音调特征包括:音调个数均值、音调分量在低频的分布比率,利用音调特征进行初始分类的另一个实施例,包括:
S401:将分类结果初始化为TBD;
S402:判断音频信号的音调个数均值是否大于第一确定门限值,如果大于第一确定门限值,则初始分类结果为音乐信号,并标示为确定类型;其中第一确定门限值大于第一门限值。
S403:判断音频信号的音调个数均值是否小于第二确定门限值,如果小于第二确定门限值,则初始分类结果为语音信号,并标示为确定类型;其中第二确定门限值小于第二门限值。
S404:判断音频信号的音调个数均值是否大于第一门限值,如果大于第一门限值,则初始分类结果为音乐信号;
S405:判断音频信号的音调分量在低频的分布比率是否小于第三确定门限值,如果小于第三确定门限值,则初始分类结果为音乐信号,并标示为确定类型;
S406:判断音频信号的音调分量在低频的分布比率是否小于第二门限值,如果小于第二门限值,则初始分类结果为音乐信号;
S407:将剩余信号判决为语音信号。
本发明实施例中,根据音调特征对音频信号进行初始分类,算法简单易于实现,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高。在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,后续不进行平滑处理,进一步提高分类准确度。
参考图9,音调特征包括:音调个数均值、音调分量在低频的分布比率,利用音调特征和频谱倾斜度均方差进行初始分类的一个实施例,包括:
S501:将分类结果初始化为TBD;
S502:判断音频信号的音调个数均值是否大于第一门限值,如果大于第一门限值,则初始分类结果为音乐信号;
S503:判断音频信号的频谱倾斜度均方差是否小于第三门限值,如果小于第三门限值,则分类结果为音乐信号;
S504:判断音频信号的音调分量在低频的分布比率是否小于第二门限值,如果小于第二门限值,则初始分类结果为音乐信号;
S505:判断音频信号的频谱均方差是否在预设的时间内取值小于第四门限值,如果预设的时间内取值小于第四门限值,则初始分类结果为音乐信号;其中,第四门限值大于第三门限值;
由于音乐信号倾向于在较长的时间内保持时域上的相对平稳,对于频谱均方差局部特征不明显的情况,观察较长时间内的频谱倾斜度均方差的波动情况,就能判断出是音乐信号还是语音信号。
S506:将剩余信号判决为语音信号。
本发明实施例中,根据音调特征和频谱倾斜度特征对音频信号进行初始分类,算法简单易于实现,分类准确性较高。
参考图10,音调特征包括:音调个数均值、音调分量在低频的分布比率,利用音调特征和频谱倾斜度均方差进行初始分类的另一个实施例,包括:
S601:将分类结果初始化为TBD;
S602:判断音频信号的音调个数均值是否大于第一确定门限值,如果大于第一门限值,则初始分类结果为音乐信号,并标示为确定类型;其中第一确定门限值大于第一门限值。
S603:判断音频信号的音调个数均值是否小于第二确定门限值,如果小于第二确定门限值,则初始分类结果为语音信号,并标示为确定类型;
S604:判断音频信号的频谱倾斜度均方差是否大于第五确定门限值,如果大于第五确定门限值为语音信号,标示为确定类型;
S605:判断音频信号的频谱倾斜度均方差是否小于第四确定门限值,如果小于第四确定门限值为音乐信号,标示为确定类型;
S606:判断音频信号的音调分量在低频的分布比率是否小于第三确定门限值,如果小于第三确定门限值,则初始分类结果为音乐信号,并标示为确定类型;
S607:判断判断音频信号的频谱倾斜度均方差是否小于第三门限值,如果小于第三门限值,则初始分类结果为音乐信号;
S608:判断音频信号的音调分量在低频的分布比率是否大于第二门限值,如果大于第二门限值,则初始分类结果为语音信号;
S609:判断音频信号的音调分量在低频的分布比率是否小于第二门限值,如果小于第二门限值,则初始分类结果为音乐信号;
S610:判断音频信号的频谱均方差是否在预设的时间内取值小于第四门限值,如果预设的时间内取值小于第四门限值,则初始分类结果为音乐信号;其中,第四门限值大于第三门限值;
由于音乐信号倾向于在较长的时间内保持时域上的相对平稳,对于频谱均方差局部特征不明显的情况,观察较长时间内的频谱倾斜度均方差的波动情况,就能判断出是音乐信号还是语音信号。
S611:将剩余信号判决为语音信号。
需要说明的是,以上流程中各个步骤之间的顺序并不是严格的,可以根据需要改变步骤顺序,例如可以在分析音调个数均值之前进行频谱倾斜度均方差的分析。在实施中,省略步骤608也不会影响初始分类结果。
本发明实施例中,根据音调特征和频谱倾斜度特征对音频信号进行初始分类,算法简单易于实现,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高。在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,后续不进行平滑处理,进一步提高分类准确度。
参考图11,音调特征包括:音调分量在不同频带的分布比值,利用音调特征和频谱倾斜度均方差进行初始分类的另一个实施例,包括:
S701:将分类结果初始化为TBD;
S702:判断音频信号的音调分量分布于频带0的比率是否大于第六确定门限值且分布于频带2的比率小于第七确定门限值,如果是,则初始分类结果为语音信号,并标示为确定类型;其中,第六确定门限值和第七确定门限值可以根据经验值设定,例如,第六确定门限值为0.7;第七确定门限值为0.1。
S703:判断音频信号的频谱倾斜度均方差是否大于第五确定门限值,如果大于第五确定门限值为语音信号,标示为确定类型;
S704:判断音频信号的频谱倾斜度均方差是否小于第四确定门限值,如果小于第四确定门限值为音乐信号,标示为确定类型;
S705:判断音频信号的频谱倾斜度均方差是否大于第三门限值,如果大于第三门限值,则初始分类结果为语音信号;
S706:判断音频信号的频谱倾斜度均方差是否小于第三门限值,如果小于第三门限值,则初始分类结果为音乐信号;
S707:判断音频信号的音调分量分布于频带0的比率是否大于第五门限值且分布于频带2的比率小于第六门限值,如果是,则初始分类结果为语音信号;其中,第五门限值和第六门限值可以根据经验值设定。例如,第五门限值为0.6,第六门限值为0.1459。
S708:将剩余信号判决为语音信号。
其中,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值,第六确定门限值大于第五门限值,第七确定门限值大于第六门限值。
需要说明的是,以上流程中各个步骤之间的顺序并不是严格的,可以根据需要改变步骤顺序,例如可以在分析音调个数均值之前进行频谱倾斜度均方差的分析。在实施中,省略步骤705和步骤707也不会影响初始分类结果。
使用音调分量在频带0及频带2的分布比值,结合频谱倾斜度均方差,获得初始分类结果,算法复杂度低,结果较为准确。在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,后续不进行平滑处理,进一步提高分类准确度。
平滑处理的一个实施例包括:利用过去信息进行平滑处理;利用未来信息进行平滑处理。平滑处理不能越过边界,用于避免误判扩散。将待编码帧及过去若干帧信息组成待平滑区域。如果该区域内的音乐信号居多,则将分类结果修正为音乐信号;否则将分类结果修正为语音信号。为了提高算法适用性,增加以下限制条件:
如果初始分类结果为MUSIC_DEFINITE或是SPEECH_DEFINITE,则保持原有分类结果,不进行平滑处理;
进一步的,可以利用位于待编码帧与当前帧之间的若干帧初始分类结果进行平滑处理,可以在一定程度上减少实际分类结果与理想分类结果之间的延时。
参考图12,平滑处理的一个实施例包括:
S801:将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,分别统计该区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。
S802:判断语音帧个数是否大于音乐帧个数,如果语音帧个数大于音乐帧个数,则进入步骤S803;如果音乐帧个数小于语音帧个数,则进入步骤S804;将分类结果修正为语音信号。
S803:判断初始分类结果是否标示为确定类型,如果是则进入步骤S805;如果初始分类结果未标示为确定类型,则将分类结果修正为语音信号;
S804:判断初始分类结果是否标示为确定类型,如果是则进入步骤S805;如果初始分类结果未标示为确定类型,则将分类结果修正为音乐信号;
S805:判断过去若干帧内是否存在静音帧且在位于待编码帧与当前帧之间的若干帧内是否出现边界;如果过去若干帧内不存在静音帧且或者位于待编码帧与当前帧之间的若干帧内未出现边界,则将前述步骤中的平滑结果作为分类结果输出;
S806:如果过去若干帧内存在静音帧且且位于待编码帧与当前帧之间的若干帧内出现边界,则获得边界信息,判断边界信息类型;
S806:如果该边界信息为BORDER_MUSIC_SPEECH,则将待编码帧的分类结果修正为语音;否则,将待编码帧的分类结果修正为音乐。
本实施例中,利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,对确定类型的初步分类结果不进行平滑处理,降低误判率,提高分类准确度和适用范围。在平滑处理过程中利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,可以在一定程度上减少实际分类结果与理想分类结果之间的延时。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
对应于上述音频信号的分类方法,本发明还提供音频信号的分类装置的实施例,应用于编码端,该分类装置或编码端可以应用于任何需要音频编码的装置。参考图13,本发明音频信号的分类装置的一个实施例包括:
特征获得单元901,用于获得待分类音频信号的音调特征;
初步分类单元902,用于根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
边界信息获得单元903,用于根据音调特征对当前帧进行初始边界分析,获得当前帧边界信息;
平滑单元904,用于利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
该分类装置利用音调特征进行初始分类,算法复杂度低,分类准确性较高。同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,进一步提高分类准确度和适用范围。
本发明音频信号的分类装置的另一个实施例包括:
特征获得单元901,用于获得待分类音频信号的音调特征和频谱倾斜度特征;
初步分类单元902,用于根据音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
边界信息获得单元903,用于根据音调特征值和频谱倾斜度特征对当前帧进行初始边界分析,获得当前帧边界信息;
平滑单元904,用于利用分界信息对初始分类结果进行平滑处理,输出待编码帧的分类结果。
该分类装置利用音调特征和频谱倾斜度特征进行初始分类,算法复杂度低,分类准确性较高。
参考图14,本发明初步分类单元的一个实施例包括:
第一分类单元9021,用于根据第一类门限值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
在另一个实施例中,初步分类单元还包括:
第二分类单元9022,用于根据第二类门限值判定所述待分类音频信号的类型,输出标示确定类型的音乐信号或标示确定类型的语音信号的初步判定结果,其中,第二类门限值比第一类门限值严格。
具体的,音调特征包括:音调个数均值和音调分量在低频的分布。第一分类单元9021可以进行如下处理:确定音调个数均值大于第一门限值的音频信号,初步判定结果为音乐信号;确定音调分量在低频的分布小于第二门限值的音频信号,初步判定结果为音乐信号;其他信号为语音信号。
第二分类单元9022可以进行如下处理:确定音调个数均值大于第一确定门限值的音频信号,为音乐信号,标示为确定类型;确定音调个数均值小于第二确定门限值的音频信号,为语音信号,标示为确定类型;确定音调分量在低频的分布小于第三确定门限值的音频信号,为音乐信号,标示为确定类型;其中第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值。
在另一个实施例中,音调特征包括:音调个数均值和音调分量在低频的分布。第一分类单元9021可以进行如下处理:确定频谱倾斜度均方差小于第三门限的,为音乐信号;确定音调个数均值大于第一门限值的,为音乐信号;确定音调分量在低频的分布小于第二门限值的,为音乐信号;确定音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;其他信号为语音信号。
第二分类单元9022可以进行如下处理:确定音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型;音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;确定音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型;确定频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;确定频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型;其中第一确定门限值大于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值。
在另一个实施例中,音调特征包括:。第一分类单元9021可以进行如下处理:确定音频信号的频谱倾斜度均方差小于第三门限值,则初始分类结果为音乐信号;确定音频信号的音调分量分布于频带0的比率大于第五门限值且分布于频带2的比率小于第六门限值,则初始分类结果为语音信号;其他信号为语音信号。
第二分类单元9022可以进行如下处理:确定音频信号的音调分量分布于频带0的比率大于第六确定门限值且分布于频带2的比率小于第七确定门限值,则初始分类结果为语音信号,并标示为确定类型;确定频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;确定频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型;其中,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值,第六确定门限值大于第五门限值,第七确定门限值大于第六门限值。
在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,后续不进行平滑处理,进一步提高分类准确度。
参考图15,本发明平滑单元的一个实施例包括:
第一平滑处理单元9042,用于将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理,将平滑处理结果作为待编码帧的分类结果输出。具体的,第一平滑处理单元9042,用于分别统计该待平滑区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。如果音乐帧个数大于语音帧个数,则将分类结果修正为音乐信号;如果音乐帧个数小于语音帧个数,则将分类结果修正为语音信号。
另一个实施例中,平滑处理单元还包括:判断单元9041,用于判断待编码帧是否标示确定类型,如果未标示确定类型则通知第一平滑处理单元进行平滑处理。如果标示确定类型,则不进行平滑处理,直接将待编码帧的初步分类结果作为待编码帧的分类结果输出。
另一个实施例中,平滑处理单元还包括:第二平滑处理单元9043,用于接收第一平滑处理单元的输出,如果过去若干帧内存在静音帧且位于待编码帧与当前帧之间的若干帧内出现边界,则获得该边界信息;如果该边界信息为音乐语音边界,则将待编码帧的分类结果修正为语音;如果该边界信息为语音音乐边界否则,将待编码帧的分类结果修正为音乐;如果过去若干帧内未存在静音帧或位于待编码帧与当前帧之间的若干帧内未出现边界,则直接第一平滑处理单元的输出作为分类结果输出。
本实施例中,利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,对确定类型的初步分类结果不进行平滑处理,降低误判率,提高分类准确度和适用范围。在平滑处理过程中利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,可以在一定程度上减少实际分类结果与理想分类结果之间的延时。
本发明实施例中的方法及装置可以应用到各种电子装置中或者与其相关联,例如:移动电话,无线装置,个人数据助理(PDA),手持式或便携式计算机,GPS接收机/导航器,照相机,音频/视频播放器,摄像机,录像机,监控设备等。
以上所述仅为本发明的几个实施例,本领域的技术人员依据申请文件公开的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。

Claims (19)

1.一种音频信号的分类方法,其特征在于,包括:
获得待分类音频信号的音调特征;
根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
对当前帧进行初始边界分析,获得当前帧边界信息;
利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
2.根据权利要求1所述的方法,其特征在于,根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括:
音调个数均值大于第一门限值的音频信号,初步判定结果为音乐信号;
音调分量在低频的分布小于第二门限值的音频信号,初步判定结果为音乐信号;
其他信号为语音信号。
3.根据权利要求2所述的方法,其特征在于,根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果还包括:
音调个数均值大于第一确定门限值的音频信号,为音乐信号,标示为确定类型;
音调个数均值小于第二确定门限值的音频信号,为语音信号,标示为确定类型;
音调分量在低频的分布小于第三确定门限值的音频信号,为音乐信号,标示为确定类型;其中第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值。
4.根据权利要求2所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息包括:
如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为音乐语音边界;否则为非边界。
5.根据权利要求1所述的方法,其特征在于,还包括:获得待分类音频信号的频谱倾斜度特征;
根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括:
根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
6.根据权利要求5所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括:
频谱倾斜度均方差小于第三门限的,为音乐信号;
音调分量在低频的分布小于第二门限值的,为音乐信号;
音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;
其他信号为语音信号。
7.根据权利要求6所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果还包括:
音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型;
音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;
音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型;其中第一确定门限值大于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值。
8.根据权利要求5所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括:
音频信号的音调分量分布于频带0的比率大于第六确定门限值且分布于频带2的比率小于第七确定门限值,则初始分类结果为语音信号,并标示为确定类型;
频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;
频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型;
音频信号的频谱倾斜度均方差小于第三门限值,则初始分类结果为音乐信号;
音频信号的音调分量分布于频带0的比率大于第五门限值且分布于频带2的比率小于第六门限值,则初始分类结果为语音信号;
其他信号为语音信号;其中,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值,第六确定门限值大于第五门限值,第七确定门限值大于第六门限值。
9.根据权利要求5所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息包括:
如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为音乐语音边界;
如果长时频谱倾斜度均方差保持语音特征,而短时频谱倾斜度均方差出现音乐特征,则边界分析结果为语音音乐边界;
在相对较长的时间内保持音乐特征后,如果长/短时频谱倾斜度均方差均出现语音特征,则边界分析结果为音乐语音边界;
否则为非边界。
10.根据权利要求3或7或8所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息还包括:利用初始分类结果确定边界信息,具体为:
如果当前帧的初始分类结果为音乐信号并标示确定类型,并且当前帧之前的若干帧均为语音信号,则边界分析结果为语音音乐边界;
如果当前帧的初始分类结果为语音信号并表示确定类型,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为音乐语音边界。
11.根据权利要求1所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理包括:
将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理。
12.根据权利要求1所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理包括:
将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理;
如果过去若干帧内不存在静音帧且或者位于待编码帧与当前帧之间的若干帧内未出现边界,则将前述步骤中的平滑结果作为分类结果输出;
如果过去若干帧内存在静音帧且位于待编码帧与当前帧之间的若干帧内出现边界,则获得边界信息;
如果该边界信息为音乐语音边界,则将待编码帧的分类结果修正为语音信号;否则,将待编码帧的分类结果修正为音乐信号。
13.根据权利要求3或8或9所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理还包括:
判断待编码帧是否标示确定类型,如果未标示确定类型则进行平滑处理。
14.一种音频信号的分类装置,其特征在于,包括:
特征获得单元,用于获得待分类音频信号的音调特征;
初步分类单元,用于根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
边界信息获得单元,用于对当前帧进行初始边界分析,获得当前帧边界信息;
平滑单元,用于利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
15.根据权利要求14所述的装置,其特征在于,所述特征获得单元还用于获得待分类音频信号的频谱倾斜度特征;所述初步分类单元,用于根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
16.根据权利要求14或15所述的装置,其特征在于,所述初步分类单元包括:
第一分类单元,用于根据第一类门限值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;
第二分类单元,用于根据第二类门限值判定所述待分类音频信号的类型,输出标示确定类型的音乐信号或标示确定类型的语音信号的初步判定结果,其中,第二类门限值比第一类门限值严格。
17.根据权利要求14所述的装置,其特征在于,所述平滑单元,包括:
第一平滑处理单元,用于将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理,将平滑处理结果作为待编码帧的分类结果输出。
18.根据权利要求17所述的装置,其特征在于,所述平滑单元还包括:
第二平滑处理单元,用于接收第一平滑处理单元的输出,如果过去若干帧内存在静音帧且位于待编码帧与当前帧之间的若干帧内出现边界,则获得该边界信息;如果该边界信息为音乐语音边界,则将待编码帧的分类结果修正为语音;如果该边界信息为语音音乐边界否则,将待编码帧的分类结果修正为音乐。
19.根据权利要求17所述的装置,其特征在于,所述平滑单元还包括:
判断单元,用于判断待编码帧是否标示确定类型,如果未标示确定类型则通知第一平滑处理单元进行平滑处理。
CN 201010160326 2010-04-26 2010-04-26 音频信号的分类方法及装置 Active CN102237085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010160326 CN102237085B (zh) 2010-04-26 2010-04-26 音频信号的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010160326 CN102237085B (zh) 2010-04-26 2010-04-26 音频信号的分类方法及装置

Publications (2)

Publication Number Publication Date
CN102237085A true CN102237085A (zh) 2011-11-09
CN102237085B CN102237085B (zh) 2013-08-14

Family

ID=44887673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010160326 Active CN102237085B (zh) 2010-04-26 2010-04-26 音频信号的分类方法及装置

Country Status (1)

Country Link
CN (1) CN102237085B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104091599A (zh) * 2013-07-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的处理方法及装置
WO2015000401A1 (zh) * 2013-07-02 2015-01-08 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104321815A (zh) * 2012-03-21 2015-01-28 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
CN106256001A (zh) * 2014-02-24 2016-12-21 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
CN108074584A (zh) * 2016-11-18 2018-05-25 南京大学 一种基于信号多特征统计的音频信号分类方法
CN111343540A (zh) * 2020-03-05 2020-06-26 维沃移动通信有限公司 一种钢琴音频的处理方法及电子设备
WO2020253694A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN112672153A (zh) * 2020-12-11 2021-04-16 北方信息控制研究院集团有限公司 融合视频特征分析的可伸缩编码视频码率自适应选择方法
CN112955954A (zh) * 2018-12-21 2021-06-11 华为技术有限公司 用于音频场景分类的音频处理装置及其方法
CN116612746A (zh) * 2023-07-17 2023-08-18 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别的系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002065457A2 (en) * 2001-02-13 2002-08-22 Conexant Systems, Inc. Speech coding system with a music classifier
CN1828722A (zh) * 1998-11-23 2006-09-06 艾利森电话股份有限公司 用于音频信号的改进的语音/噪音分类的复合信号激活探测
US20080147414A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
CN101515454A (zh) * 2008-02-22 2009-08-26 杨夙 一组用于语音、音乐、噪音自动分类的信号特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828722A (zh) * 1998-11-23 2006-09-06 艾利森电话股份有限公司 用于音频信号的改进的语音/噪音分类的复合信号激活探测
WO2002065457A2 (en) * 2001-02-13 2002-08-22 Conexant Systems, Inc. Speech coding system with a music classifier
US20080147414A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
CN101515454A (zh) * 2008-02-22 2009-08-26 杨夙 一组用于语音、音乐、噪音自动分类的信号特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《电声技术》 20100228 吴顺妹等 一种基于音调的语音/音乐实时分类算法 66-68 1,5,11,14,15,17,19 第34卷, 第2期 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
US9761238B2 (en) 2012-03-21 2017-09-12 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
US10339948B2 (en) 2012-03-21 2019-07-02 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
CN104321815A (zh) * 2012-03-21 2015-01-28 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
US11004458B2 (en) 2012-11-13 2021-05-11 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
CN104919524B (zh) * 2012-11-13 2018-01-23 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
US10468046B2 (en) 2012-11-13 2019-11-05 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
WO2015000401A1 (zh) * 2013-07-02 2015-01-08 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104282315A (zh) * 2013-07-02 2015-01-14 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104091599A (zh) * 2013-07-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的处理方法及装置
US10504540B2 (en) 2014-02-24 2019-12-10 Samsung Electronics Co., Ltd. Signal classifying method and device, and audio encoding method and device using same
CN106256001A (zh) * 2014-02-24 2016-12-21 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
CN108074584A (zh) * 2016-11-18 2018-05-25 南京大学 一种基于信号多特征统计的音频信号分类方法
CN112955954A (zh) * 2018-12-21 2021-06-11 华为技术有限公司 用于音频场景分类的音频处理装置及其方法
CN112955954B (zh) * 2018-12-21 2024-04-12 华为技术有限公司 用于音频场景分类的音频处理装置及其方法
US11776532B2 (en) 2018-12-21 2023-10-03 Huawei Technologies Co., Ltd. Audio processing apparatus and method for audio scene classification
WO2020253694A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN111343540B (zh) * 2020-03-05 2021-07-20 维沃移动通信有限公司 一种钢琴音频的处理方法及电子设备
CN111343540A (zh) * 2020-03-05 2020-06-26 维沃移动通信有限公司 一种钢琴音频的处理方法及电子设备
CN112672153B (zh) * 2020-12-11 2022-06-24 北方信息控制研究院集团有限公司 融合视频特征分析的可伸缩编码视频码率自适应选择方法
CN112672153A (zh) * 2020-12-11 2021-04-16 北方信息控制研究院集团有限公司 融合视频特征分析的可伸缩编码视频码率自适应选择方法
CN116612746A (zh) * 2023-07-17 2023-08-18 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别的系统
CN116612746B (zh) * 2023-07-17 2023-10-03 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别方法

Also Published As

Publication number Publication date
CN102237085B (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
CN102237085B (zh) 音频信号的分类方法及装置
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
CN1920947B (zh) 用于低比特率音频编码的语音/音乐检测器
CN102446504B (zh) 语音/音乐识别方法及装置
US7778825B2 (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
Didiot et al. A wavelet-based parameterization for speech/music discrimination
CN101206858B (zh) 一种孤立词语音端点检测的方法及系统
CN101599271A (zh) 一种数字音乐情感的识别方法
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
Menne et al. Analysis of deep clustering as preprocessing for automatic speech recognition of sparsely overlapping speech
CN111696580A (zh) 一种语音检测方法、装置、电子设备及存储介质
McClellan et al. Variable-rate CELP based on subband flatness
Shah et al. Robust voiced/unvoiced classification using novel features and Gaussian mixture model
Cao et al. An improved endpoint detection algorithm based on MFCC Cosine Value
He et al. Stress detection using speech spectrograms and sigma-pi neuron units
CN101889306A (zh) 用于处理信号的方法和装置
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Wei et al. RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music
CN102655000B (zh) 一种清浊音分类方法和装置
Kinsner et al. Amplification of signal features using variance fractal dimension trajectory
Kynych et al. Online Speaker Diarization Using Optimized SE-ResNet Architecture
RU2234746C2 (ru) Способ дикторонезависимого распознавания звуков речи
Sankar et al. Mel scale-based linear prediction approach to reduce the prediction filter order in CELP paradigm
Uzun et al. A preliminary examination technique for audio evidence to distinguish speech from non-speech using objective speech quality measures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant