CN102446504B - 语音/音乐识别方法及装置 - Google Patents
语音/音乐识别方法及装置 Download PDFInfo
- Publication number
- CN102446504B CN102446504B CN2010102996184A CN201010299618A CN102446504B CN 102446504 B CN102446504 B CN 102446504B CN 2010102996184 A CN2010102996184 A CN 2010102996184A CN 201010299618 A CN201010299618 A CN 201010299618A CN 102446504 B CN102446504 B CN 102446504B
- Authority
- CN
- China
- Prior art keywords
- frame
- present frame
- music
- coding mode
- described present
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008859 change Effects 0.000 claims abstract description 56
- 238000009527 percussion Methods 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 27
- 239000003550 marker Substances 0.000 claims description 26
- 230000004907 flux Effects 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 10
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种语音/音乐识别方法及装置,涉及音频技术领域,可以提高对音乐的识别准确率。包括:在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。本发明实施例主要应用于对音频进行语音/音乐识别的过程中,可以提高对音乐的识别准确率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种语音/音乐识别方法及装置。
背景技术
在数字音频编码技术发展过程中,由于语音和音乐各自具有不同的编码特点,因而在对语音和音乐进行编码时,通常需要采用适合其自身特点的编码技术。比如用于语音的编码技术有GSM和CELPC等,用于音乐的编码技术有MP3,AAC等。近些年,现有技术提出一种语音音乐联合编码技术,利用该技术在同时对语音和音乐进行编码时,首先需要对输入的音频信号进行识别,即识别出当前音频信号为语音内容还是音乐内容,然后对语音内容和音乐内容分别使用不同的编码方式。因而,能否正确地对语音和音乐进行识别将直接影响到音频编码的效果。
现有技术提供一种语音/音乐识别技术,利用语音和音乐在某些特征参数上的区别对音频信号进行识别。具体实现过程如下:预先将输入的音频信号划分为40ms长的帧,帧与帧之间有20ms的重叠。通过特征参数提取器对输入的当前帧进行特征参数的提取。该特征参数包括若干短时特征参数和长时特征参数。其中,短时特征参数如过零率等,可以从单一帧片段中提取;长时特征参数如4Hz调制能量,则必须在多个连续的帧片段中才能提取。
接着,特征参数提取器将提取出的特征参数集输出给特征参数选择器。由于过多的特征参数有时会降低分类的准确度,因而特征参数选择器会对输入的特征参数进行处理,例如会去掉一些特征参数。之后,经过特征参数选择器处理后的特征参数集将输出到分类器。该分类器可以采用不同的分类算法来识别出当前帧的编码模式,比如采用高斯分类器、k邻近算法、神经网络等分类算法。这些算法最初可以通过使用一些样本训练,学习根据特征参数集进行分类的规则。之后依据训练得到的分类规则对输入的特征参数集进行分类,从而识别出当前帧的编码模式为语音还是音乐。
为了防止上述分类器对个别帧的误识别,编码器不直接根据分类器识别出的结果进行编码,而是由编码模式选择器作进一步的判断。判断过程如下:首先,判断当前帧是否为静音片段,如果是静音片段就直接采用上一帧的编码模式;否则,进一步作如下判断:如果上述分类器得出的当前帧的编码模式和上一帧的编码模式不同,则将过去若干帧的编码模式信息进行平均,如果得出的平均值超过预设门限值,则切换编码模式,即采用分类器得出的当前帧的编码模式,否则继续使用上一帧的编码模式。
然而,发明人发现如果输入的音频信号为含有打击乐器声的音乐,在采用现有的语音/音乐识别技术对输入的音频信号进行识别时,通常会将该含有打击乐器声的音乐误判为语音,采用现有的语音/音乐识别技术对含有打击乐器声的音乐的识别准确率较低。
发明内容
本发明的实施例提供一种语音/音乐识别方法及装置,提高对音乐的识别准确率。
本发明实施例提供一种语音/音乐识别方法,包括:
在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;
在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
本发明实施例还提供一种语音/音乐识别装置,包括:
判断单元,用于在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;
第一确定单元,用于在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
由上述技术方案所描述的本发明实施例,在上一帧音频信号的编码模式为音乐模式时,对当前帧音频信号进行是否包含打击乐的检测,如果在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,说明此时当前帧为含有打击与的音乐,那么确定当前帧的编码模式为音乐模式。无论所述当前帧音频信号的分类结果如何,均采用音乐模式对当前帧进行编码,从而减少了对含有打击乐的音乐信号的误判,与现有技术容易将含有打击乐的音乐信号误判为语音相比,本发明实施例可以提高对含有打击乐的音乐识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音/音乐识别方法的流程图;
图2为本发明实施例提供的另一种语音/音乐识别方法的流程图;
图3为本发明实施例提供的一种根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式的方法的流程图;
图4为本发明实施例提供的一段含有打击音乐的音频信号的波形示意图;
图5为本发明实施例对当前帧进行分类时采用的决策树模型示意图;
图6为本发明实施例提供一种语音/音乐识别装置的结构图;
图7为本发明实施例提供另一种语音/音乐识别装置的结构图;
图8为本发明实施例提供又一种语音/音乐识别装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的本发明实施例提供一种语音/音乐识别方法,该方法包括如下步骤:
101、在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;
102、在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
本发明实施例提供的语音/音乐识别方法,在上一帧音频信号的编码模式为音乐模式时,对当前帧音频信号进行是否包含打击乐的检测,如果在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。如果当前帧音频信号为音乐信号,则无论所述当前帧音频信号的分类结果如何,均采用音乐模式对当前帧进行编码,从而减少了对含有打击乐的音乐信号的误判,与现有技术容易将含有打击乐的音乐信号误判为语音相比,本发明实施例可以提高对含有打击乐的音乐识别的准确率。
进一步地,为了更清楚、完整地描述本发明实施例提供的一种语音/音乐识别方法,下面详细介绍对一段音频信号的完整识别过程,如图2所示,具体包括如下步骤:
当一段音频信号输入时,该音频信号会被划分为若干音频信号帧,本发明实施例提供的语音/音乐识别方法需要对每一帧进行语音/音乐识别。
201、从当前帧提取出指定参数,并利用所述指定参数计算出所述当前帧的特征参数集。
对于每一帧音频信号均需要进行特征参数集的提取。具体地,所述提取出的指定参数包括:帧能量、谱倾斜、频率中心、谱通量、子带谱通量和子带能量比。这些指定参数需要根据相应的公式计算得出,具体如下:
谱倾斜的计算公式为:一般,语音中噪音及清音的谱倾斜均小于浊音,语音的谱倾斜会因为清音与浊音的交替而产生较大变化。
谱通量的计算公式为:其中,n为当前帧的帧号,norm为归一化参数。由于音乐具有良好的谐波特性,频谱波动不是很大,而语音中清音浊音的交替会使频谱波动很明显。因此,语音的谱通量变化一般大于音乐的谱通量变化。
子带能量比的计算公式为:其中,B1 U和B1 L为预设的低频子带上下边界,B2 U和B2 L为预设的高频子带上下边界。语音中的清音和浊音分布在频谱中不同的子带,一般,子带能量比在语音中是不断变化的,而音乐的频谱相对稳定,一般不会有明显的变化。
从每一帧提取出的上述各项指定参数暂时会被写入到缓存中,之后可以利用从当前帧提取出的上述指定参数计算出所述当前帧的特征参数集,所述当前帧的特征参数集包括:谱倾斜的变化率、频率中心的变化率、谱通量的变化率、子带谱通量的变化率、谱通量的变化率的动态平均值、子带谱通量的变化率的动态平均值和子带能量比的动态平均值。
202、根据所述特征参数集获取所述当前帧的分类结果,所述分类结果为语音或者音乐。
具体应用时,可以采用现有技术提供的分类器对当前帧进行分类。例如现有的分类器可以使用决策树进行分类。在对当前帧进行分类之前,分类器需要经过训练。训练的方法如下:
首先,建立训练样本。训练样本包括语音样本和音乐样本。其中,语音样本可以选择多种语言的语音片段,说话者包含:男女各半,语音样本尽量覆盖多种场合和环境。音乐样本可以选择多种风格的音乐,包括古典、流行、摇滚、电子、爵士和民谣等。所述语音样本和音乐样本均以帧为单位进行描述,在总体样本数量中尽量保持语音样本和音乐样本的数量相等。
接着,对上述训练样本中的每一帧的特征参数集标记为语音或音乐,使用该经过语音或音乐的标记后得到的训练样本对分类器进行训练,并进行适当优化,例如对决策树进行适当简直剪枝。
之后,分类器会按照被训练的规则对输入每一帧的特征参数集进行分类,输出每一帧的分类结果为语音或者音乐。
203、判断当前帧是否属于静音片段。
204、如果203中判断出当前帧的帧能量小于预设值,那么判定当前帧为静音片段,并使用所述当前帧的上一帧的编码模式对当前帧进行编码。
205、如果203中判断出所述当前帧的帧能量不小于预设值时,说明此时当前帧不是静音判断,还需要对当前帧做进一步的处理。
具体地,如果203中判断所述当前帧的帧能量不小于预设值时,并且在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件。
206、在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
具体地,在当前帧之前的指定个数帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述指定个数帧的帧能量的平均值的预设倍数时,确定当前帧的编码模式为音乐模式。
207、所述在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量不满足打击乐条件时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
具体地,在所述当前帧之前的指定个数帧的帧能量的变化率不大于第一预设门限值时,或者在所述当前帧的帧能量不大于所述指定个数帧的帧能量的平均值的预设倍数时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
本发明实施例提供的语音/音乐识别方法,在上一帧音频信号的编码模式为音乐模式时,对当前帧音频信号进行是否包含打击乐的检测,如果在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。如果当前帧音频信号为音乐信号,则无论所述当前帧音频信号的分类结果如何,均采用音乐模式对当前帧进行编码,从而减少了对含有打击乐的音乐信号的误判,与现有技术容易将含有打击乐的音乐信号误判为语音相比,本发明实施例可以提高对含有打击乐的音乐识别的准确率。
进一步地,实际应用时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式可以采用的一种实现方式如下,如图3所示,包括如下步骤:
301、分别计算所述当前帧之前的指定个数帧的分类结果对应数值的平均值和特定变换次数。
302、判断所述平均值是否小于预设音乐门限值。
在所述平均值小于预设音乐门限值时,设置所述当前帧的临时标记为音乐;
例如在所述平均值小于1.5时,设置所述当前帧的临时标记为音乐。
303、判断所述平均值是否大于预设语音门限值。
具体地,在所述平均值不小于预设音乐门限值时,判断所述平均值是否大于预设语音门限值。如果所述平均值大于预设语音门限值时,设置所述当前帧的临时标记为语音;
需要说明的是,如果所述平均值大于所述预设语音门限值时,将采用所述当前帧的上一帧的编码模式对所述当前帧进行编码。
304、判断所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式是否相同。
305、如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式相同时,确定所述当前帧的编码模式采用上一帧的编码模式;
306、如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式不相同时,则判断所述特定变换次数是否大于第二预设门限值;
其中,所述第二预设门限值的取值可以为6。
307、在所述特定变换次数不大于第二预设门限值时,确定所述当前帧的编码模式采用所述当前帧的临时标记所表示的编码模式。
另外,如果所述特定变换次数大于第二预设门限值时,确定所述当前帧的编码模式采用上一帧的编码模式。
现有技术提供一种编码模式选择方法,该方法利用当前帧之前的若干帧的编码模式数据进行累加平均,并将得出的平均值与设定的门限值进行比较,如果得出的平均值超出设定的门限值,则切换编码模式。然而,如果语音/音乐识别结果中出现比较集中的判断错误时,会导致得出的上述平均值的准确性较低,采用现有技术依然会出现错误识别。而采用本发明实施例提供的方法,通过所述当前帧之前的指定个数帧的分类结果对应数值的平均值,并进一步地判断所述当前帧之前的指定个数帧的分类结果的特定变换次数是否超出第二预设门限值,在所述特定变换次数不大于第二预设门限值时,将所述当前帧的编码模式切换为所述当前帧的临时标记所表示的编码模式,从而可以减少对当前帧的编码模式的误识别,也减少了由于识别错误导致的编码模式的切换次数。
为了更清楚的描述采用本发明实施例提供的语音/音乐识别方法所带来的有益效果,下面具体给出两个可能的应用场景,详细说明采用本发明实施例提供的语音/音乐识别方法对音频信号的处理过程及效果。
应用场景一:
如图4所示,输入的一段含有打击音乐的音频信号的波形示意图,获取上述输入的音乐信号中的第3031帧,那么经过201的处理后提取出的第3031帧的特征参数集如下:
var_tilt(谱倾斜的变化率)=0.0138
var_spectral_centroid(频率中心的变化率)=188764.128
var_spectral_Flux(谱通量的变化率)=7.009
var_sub_spectral_Flux(子带谱通量的变化率)=10.538
mov_var_Flux(谱通量的变化率的动态平均值)=4.06
mov_var_SFlux(子带谱通量的变化率的动态平均值)=4.429
mov_energy_ratio(子带能量比的动态平均值)=0.7189
之后,步骤202利用如图5所示的决策树对所述第3031帧进行分类,得出第3031帧分类结果为语音。如果上一帧采用的编码模式为音乐,此时需要判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件。具体地,如果上一帧采用的编码模式为音乐,在当前帧之前的指定个数帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述指定个数帧的帧能量的平均值的预设倍数时,说明此时该当前帧包括打击乐,则确定当前帧的编码模式为音乐模式。其中,所述第一预设值的取值可以为4.5,所述预设倍数的取值可以为3。
实际应用时,获取上述第3031帧之前10帧各自的帧能量分别为5.40、1.90、0.51、0.36、0.26、0.22、0.14、0.18、0.24、5.56。计算得出上述10帧的帧能量的变化率为4.7193、所述指定个数帧的帧能量的平均值为1.47,当前帧的帧能量为5.556。由于此时4.7193>4.5,并且5.556>3*1.47,亦即上述10帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述10帧的帧能量的平均值的预设倍数,那么确定所述第3031帧的编码模式为音乐。从而对步骤202的识别结果进行了修正,减少了对含有打击乐的音频信号的误判,提高了对音乐识别的准确率。
应用场景二:
输入一段音频信号,如果当前帧的分类结果被误判为音乐,所述当前帧之前的40帧的语音/音乐分类结果如下(1代表音乐,2代表语音):
2、2、2、2、2、2、2、2、2、2、2、2、2、2、1、1、2、1、1、1、1、1、1、1、1、1、2、1、1、1、1、1、1、2、1、1、2、1、1、2。
其中,当前帧的上一帧的语音/音乐分类结果是语音。则采用如图3所示的方法,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式具体执行过程如下:
根据计算所述40帧的分类结果的特定变换次数为10,其中所述xi表示第i帧的分类结果的数值,m表示指定个数。
由于所述40帧的分类结果的平均值1.475小于预设音乐门限值1.5(参见302的描述,此时设置所述当前帧的临时标记为音乐。
接着,由于所述当前帧的上一帧的编码模式为语音,此时说明所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式不相同,则进一步地,判断所述40帧的特定变换次数是否大于第二预设门限值;由于所述40帧的特定变换次数10大于第二预设门限值6(参见305中的描述),则确定所述当前帧的编码模式采用上一帧的编码模式,而不采用所述当前帧的分类结果所表示的编码模式,即采用语音编码模式而不是音乐编码模式,此时,不仅修正了当前帧的分类结果,同时也避免了对当前帧进行错误的编码模式切换。
相应地,如图6所示的实施例提供一种语音/音乐识别装置,包括:判断单元11和第一确定单元12。
其中,判断单元11用于在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;第一确定单元12用于在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
本发明实施例提供的语音/音乐识别装置,在上一帧音频信号的编码模式为音乐模式时,对当前帧音频信号进行是否包含打击乐的检测,如果在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。如果当前帧音频信号为音乐信号,则无论所述当前帧音频信号的分类结果如何,均采用音乐模式对当前帧进行编码,从而减少了对含有打击乐的音乐信号的误判,与现有技术容易将含有打击乐的音乐信号误判为语音相比,本发明实施例可以提高对含有打击乐的音乐识别的准确率。
需要说明的是,所述第一确定单元12具体用于在当前帧之前的指定个数帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述指定个数帧的帧能量的平均值的预设倍数时,确定当前帧的编码模式为音乐模式;
进一步地,如图7所示,所述的语音/音乐识别装置还包括:提取单元13和分类单元14。
提取单元13用于从当前帧提取出指定参数,并利用所述指定参数计算出所述当前帧的特征参数集;
分类单元14用于根据所述特征参数集获取所述当前帧的分类结果,所述分类结果为语音或者音乐。
进一步地,如图8所示,所述的语音/音乐识别装置还包括:第二确定单元15。
第二确定单元15用于在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量不满足打击乐条件时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
需要说明的是,所述第二确定15单元具体用于在所述当前帧之前的指定个数帧的帧能量的变化率不大于第一预设门限值时,或者在所述当前帧的帧能量不大于所述指定个数帧的帧能量的平均值的预设倍数时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
实际应用时,还可以对上述所述第二确定单元进行功能划分,(图未示)具体包括:计算模块、设置模块、第一确定模块、判断模块和第二确定模块。
所述计算模块用于分别计算所述当前帧之前的指定个数帧的分类结果对应数值的平均值和特定变换次数;
具体地,所述计算模块可以分别根据计算所述当前帧之前的指定个数帧的分类结果的平均值、根据计算所述当前帧之前的指定个数帧的分类结果的特定变换次数,其中,所述xi表示第i帧的分类结果的数值,m表示指定个数。
设置模块用于在所述平均值小于预设音乐门限值时,设置所述当前帧的临时标记为音乐;所述设置模块还用于在所述平均值大于预设语音门限值时,设置所述当前帧的临时标记为语音;
第一确定模块,用于如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式相同时,确定所述当前帧的编码模式采用上一帧的编码模式;
判断模块,用于如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式不相同时,则判断所述特定变换次数是否大于第二预设门限值;
第二确定模块,用于在所述特定变换次数大于第二预设门限值时,确定所述当前帧的编码模式采用上一帧的编码模式,在所述特定变换次数不大于第二预设门限值时,确定所述当前帧的编码模式采用所述当前帧的临时标记所表示的编码模式。
由于现有技术提供一种编码模式选择器,利用当前帧之前的若干帧的编码模式数据进行累加平均,并将得出的平均值与设定的门限值进行比较,如果得出的平均值超出设定的门限值,则切换编码模式。然而,如果语音/音乐识别结果中出现比较集中的判断错误时,会导致得出的上述平均值的准确性较低,采用现有的编码模式选择器依然会出现错误识别。而采用本发明实施例提供的装置,通过所述当前帧之前的指定个数帧的分类结果对应数值的平均值,并进一步地判断所述当前帧之前的指定个数帧的分类结果的特定变换次数是否超出第二预设门限值,在所述特定变换次数不大于第二预设门限值时,将所述当前帧的编码模式切换为所述当前帧的临时标记所表示的编码模式,从而可以减少对当前帧的编码模式的误识别,也减少了由于识别错误导致的编码模式的切换次数。
本发明实施例主要应用于对音频进行语音/音乐识别的过程中,可以提高对音乐的识别准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种语音/音乐识别方法,其特征在于,包括:
在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;
在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
2.根据权利要求1所述的语音/音乐识别方法,其特征在于,还包括:
从当前帧提取出指定参数,并利用所述指定参数计算出所述当前帧的特征参数集;
根据所述特征参数集获取所述当前帧的分类结果,所述分类结果为语音或者音乐。
3.根据权利要求2所述的语音/音乐识别方法,其特征在于,所述指定参数包括:帧能量、谱倾斜、频率中心、谱通量、子带谱通量和子带能量比;
所述当前帧的特征参数集包括:谱倾斜的变化率、频率中心的变化率、谱通量的变化率、子带谱通量的变化率、谱通量的变化率的动态平均值、子带谱通量的变化率的动态平均值和子带能量比的动态平均值。
4.根据权利要求2所述的语音/音乐识别方法,其特征在于,还包括:
在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量不满足打击乐条件时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
5.根据权利要求4所述的语音/音乐识别方法,其特征在于,所述在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时具体为:在当前帧之前的指定个数帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述指定个数帧的帧能量的平均值的预设倍数时;
所述在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量不满足打击乐条件时具体为:在所述当前帧之前的指定个数帧的帧能量的变化率不大于第一预设门限值时,或者在所述当前帧的帧能量不大于所述指定个数帧的帧能量的平均值的预设倍数时。
6.根据权利要求4所述的语音/音乐识别方法,其特征在于,所述根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式包括:
分别计算所述当前帧之前的指定个数帧的分类结果对应数值的平均值和特定变换次数;
在所述平均值小于预设音乐门限值时,设置所述当前帧的临时标记为音乐;
在所述平均值大于预设语音门限值时,设置所述当前帧的临时标记为语音;
如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式相同时,确定所述当前帧的编码模式采用上一帧的编码模式;
如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式不相同时,则判断所述特定变换次数是否大于第二预设门限值;
在所述特定变换次数大于第二预设门限值时,确定所述当前帧的编码模式采用上一帧的编码模式,在所述特定变换次数不大于第二预设门限值时,确定所述当前帧的编码模式采用所述当前帧的临时标记所表示的编码模式。
8.一种语音/音乐识别装置,其特征在于,包括:
判断单元,用于在上一帧音频信号的编码模式为音乐模式时,判断当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量是否满足打击乐条件;
第一确定单元,用于在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量满足打击乐条件时,确定当前帧的编码模式为音乐模式。
9.根据权利要求8所述的语音/音乐识别装置,其特征在于,还包括:
提取单元,用于从当前帧提取出指定参数,并利用所述指定参数计算出所述当前帧的特征参数集;
分类单元,用于根据所述特征参数集获取所述当前帧的分类结果,所述分类结果为语音或者音乐。
10.根据权利要求8所述的语音/音乐识别装置,其特征在于,还包括:
第二确定单元,用于在当前帧之前的指定个数帧的帧能量的变化率和所述当前帧的帧能量不满足打击乐条件时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
11.根据权利要求8或10所述的语音/音乐识别装置,其特征在于,所述第一确定单元具体用于在当前帧之前的指定个数帧的帧能量的变化率大于第一预设门限值,并且所述当前帧的帧能量大于所述指定个数帧的帧能量的平均值的预设倍数时,确定当前帧的编码模式为音乐模式;
所述第二确定单元具体用于在所述当前帧之前的指定个数帧的帧能量的变化率不大于第一预设门限值时,或者在所述当前帧的帧能量不大于所述指定个数帧的帧能量的平均值的预设倍数时,根据所述当前帧之前的指定个数帧的分类结果确定所述当前帧的编码模式。
12.根据权利要求10所述的语音/音乐识别装置,其特征在于,所述第二确定单元包括:
计算模块,用于分别计算所述当前帧之前的指定个数帧的分类结果对应数值的平均值和特定变换次数;
设置模块,用于在所述平均值小于预设音乐门限值时,设置所述当前帧的临时标记为音乐;
所述设置模块还用于在所述平均值大于预设语音门限值时,设置所述当前帧的临时标记为语音;
第一确定模块,用于如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式相同时,确定所述当前帧的编码模式采用上一帧的编码模式;
判断模块,用于如果所述当前帧的临时标记所表示的编码模式与所述当前帧的上一帧的编码模式不相同时,则判断所述特定变换次数是否大于第二预设门限值;
第二确定模块,用于在所述特定变换次数大于第二预设门限值时,确定所述当前帧的编码模式采用上一帧的编码模式,在所述特定变换次数不大于第二预设门限值时,确定所述当前帧的编码模式采用所述当前帧的临时标记所表示的编码模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102996184A CN102446504B (zh) | 2010-10-08 | 2010-10-08 | 语音/音乐识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102996184A CN102446504B (zh) | 2010-10-08 | 2010-10-08 | 语音/音乐识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102446504A CN102446504A (zh) | 2012-05-09 |
CN102446504B true CN102446504B (zh) | 2013-10-09 |
Family
ID=46008956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102996184A Active CN102446504B (zh) | 2010-10-08 | 2010-10-08 | 语音/音乐识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102446504B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708859A (zh) * | 2012-06-20 | 2012-10-03 | 太仓博天网络科技有限公司 | 一种实时音乐语音识别系统 |
RU2656681C1 (ru) | 2012-11-13 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов |
CN104112451B (zh) * | 2013-04-18 | 2017-07-28 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
CN104282315B (zh) * | 2013-07-02 | 2017-11-24 | 华为技术有限公司 | 音频信号分类处理方法、装置及设备 |
CN106409313B (zh) * | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN106571150B (zh) * | 2015-10-12 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种识别音乐中的人声的方法和系统 |
CN107146631B (zh) * | 2016-02-29 | 2020-11-10 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN106157973B (zh) * | 2016-07-22 | 2019-09-13 | 南京理工大学 | 音乐检测与识别方法 |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN108550364B (zh) * | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109147816B (zh) * | 2018-06-05 | 2021-08-24 | 安克创新科技股份有限公司 | 对音乐进行音量调节的方法及设备 |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN110827798B (zh) * | 2019-11-12 | 2020-09-11 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
CN111369982A (zh) * | 2020-03-13 | 2020-07-03 | 北京远鉴信息技术有限公司 | 音频分类模型的训练方法、音频分类方法、装置及设备 |
CN114283841B (zh) * | 2021-12-20 | 2023-06-06 | 天翼爱音乐文化科技有限公司 | 一种音频分类方法、系统、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842162A (en) * | 1996-03-08 | 1998-11-24 | Motorola, Inc. | Method and recognizer for recognizing a sampled sound signal in noise |
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0481968A (ja) * | 1990-07-24 | 1992-03-16 | Hitachi Ltd | 知的計画支援システム |
JP3678838B2 (ja) * | 1996-04-16 | 2005-08-03 | 株式会社コルグ | 音声認識によるリズム音発生装置 |
-
2010
- 2010-10-08 CN CN2010102996184A patent/CN102446504B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842162A (en) * | 1996-03-08 | 1998-11-24 | Motorola, Inc. | Method and recognizer for recognizing a sampled sound signal in noise |
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
Also Published As
Publication number | Publication date |
---|---|
CN102446504A (zh) | 2012-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102446504B (zh) | 语音/音乐识别方法及装置 | |
CN100483509C (zh) | 声音信号分类方法和装置 | |
CN1920947B (zh) | 用于低比特率音频编码的语音/音乐检测器 | |
CN108847217A (zh) | 一种语音切分方法、装置、计算机设备及存储介质 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
Bachu et al. | Voiced/unvoiced decision for speech signals based on zero-crossing rate and energy | |
Bachu et al. | Separation of voiced and unvoiced using zero crossing rate and energy of the speech signal | |
CN102982804B (zh) | 音频分类方法和系统 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN102982811B (zh) | 一种基于实时解码的语音端点检测方法 | |
CN102237085B (zh) | 音频信号的分类方法及装置 | |
CN104347067A (zh) | 一种音频信号分类方法和装置 | |
Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
CN102714034B (zh) | 信号处理的方法、装置和系统 | |
CN105931635A (zh) | 一种音频分割方法及装置 | |
CN109767776B (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN105869658B (zh) | 一种采用非线性特征的语音端点检测方法 | |
CN103489445A (zh) | 一种识别音频中人声的方法及装置 | |
CN102708861A (zh) | 基于支持向量机的不良语音识别方法 | |
Nwe et al. | Automatic Detection Of Vocal Segments In Popular Songs. | |
CN102376306B (zh) | 语音帧等级的获取方法及装置 | |
CN110610722B (zh) | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 | |
Thomas et al. | Acoustic and data-driven features for robust speech activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |