CN101202992A

CN101202992A - 双模的音乐检测方法

Info

Publication number: CN101202992A
Application number: CNA2006101657016A
Authority: CN
Inventors: 王立众; 胡洪涛; 张川
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2008-06-18

Abstract

一种双模的音乐检测方法，包括步骤：在参数调整单元中设置参数；至少一个模式单元根据设置的参数进行工作。本发明可广泛应用于不同需要的场合。其中模式1是具有高检测率的音乐检测方法，音乐信号的识别率为94.5％。

Description

双模的音乐检测方法

技术领域

本发明涉及语音识别，特别涉及移动通信中的双模的音乐检测方法。

背景技术

随着手机使用领域的扩大和利用手机听音乐的服务的活跃，通过手机来传送音乐的要求也越来越多。但是移动通信系统中用的语音编解码器，这对音乐信号会产生损伤。而很多对音乐信号处理的方法，又会损伤语音信号。这就要求对语音和音乐信号的处理需要采取不同的途径，这样就需要实现对语音和音乐信号进行区分的音乐信号检测方法。

要求区分语音和音乐信号的应用不光适用于移动通信领域，在其他很多方面都有着类似的需求。而业务的不同对音乐信号检测方法也有不同的要求。比如有的就是长时间的传送语音或者音乐，这就要求音乐信号检测方法对音乐有较高的检测率，而有的业务就是音乐和语音信号在短时间内互相交替，这就要求音乐信号检测方法能够快速的跟上语音和音乐的交替。

在移动通信系统中，目前一些语音编解码器采用了音乐检测方法，比如SMV算法。但是这个算法的检测率很低，平均检测率只有70％，这样使得在很多情况下，需要区分音乐和语音来做不同的处理，这样，音乐检测方法的低检测率会反而带来坏的影响。而且，在包括SMV算法在内的很多音乐检测方法，都只采用一种模式的音乐检测方法，不能够适用各种不同的要求。

现有技术都是采用一种模式的音乐检测方法，不能适应当前众多的系统的不同要求，应用场合受到较大的限制。而且大部分音乐检测方法检测率偏低，比如应用范围较广的SMV算法中的音乐检测方法，对音乐的检测率只有70％。SMV算法的音乐检测方法是设定一个音乐连续性参数，如果音乐连续性参数大于阈值，则对此参数进行累积。同时判断输入信号的非音乐参数，如果非音乐参数大于阈值，则对音乐连续性参数进行衰减。同时SMV算法的音乐检测方法只有一种模式，不能调整。

发明内容

本发明的目的是提供一种双模的音乐检测方法。

按照本发明的一方面，一种双模的音乐检测方法，包括步骤：

在参数调整单元中设置参数；

至少一个模式单元根据设置的参数进行工作。

按照本发明的另一方面，一种双模的音乐检测装置，包括：

参数调整单元，用于确定需要选择的模式；

多个模式单元，根据参数调整单元确定的模式工作。

本发明可广泛应用于不同需要的场合。其中模式1是具有高检测率的音乐检测方法，音乐信号的识别率为94.5％。

附图说明

图1是本发明的简要框图；

图2是本发明的模式1的框图；

图3是本发明的模式2的框图；

图4是本发明的简要流程图；

图5是本发明的模式1的流程图；

图6是本发明的模式2的流程图。

具体实施方式

本发明的构成如图1所示，包括一个参数调整单元101，模式1单元102，模式2单元103。

如图1所示，首先根据音乐检测装置应用的不同场合，确定需要选择的模式，然后根据选定的模式，本音乐检测装置会在参数调整单元101设置相应的参数，以使得音乐检测装置按照选定的模式工作。

参数调整单元101就是根据需求进行参数调整，以确定本发明的音乐检测装置是按照以高检测率为优先级还是快速跟踪音乐和语音的变化为优先级的。

根据参数设定的结果，如果是高检测率为优先级的，将按模式1单元102的方式进行工作。

如果是以快速反应为优先级的，将按模式2单元103的方式进行工作。

本发明在模式1单元的是以高检测率为优先级的。模式1是以SMV算法的音乐检测为基础，提出了增大语音特征参数的阈值V_flag，同时增大音乐持续性参数的阈值M_continue_flag的改变。

SMV算法的音乐检测是通过检测音乐特征参数，如果音乐特征参数大于其阈值M_flag，则累加音乐持续性参数，同时检测语音特征参数，如果语音特征参数大于其阈值V_flag，则对音乐持续性参数衰减。最后判断音乐持续性参数是否大于其阈值M_continue_flag来判断输出的指示为音乐还是语音。

由于采用一个参数来进行识别的话，会存在识别不准确的问题，这点在SMV算法的音乐检测方法上很突出，SMV算法的音乐检测方法的识别率只有70％。

为了改善这一问题，本发明的模式1的基本思想就是尽量减少语音和音乐特征的重复，拉大他们之间的差距。于是提出了增大语音特征参数的阈值V_flag，以使得音乐持续性参数得到较大的积累，拉开音乐和语音的重合区间，同时考虑到增大语音特征参数的阈值V_flag，即使在输入为语音的情况下，音乐持续性参数的值也维持在较高的范围，所以增大了音乐持续性参数的阈值M_continue_flag。

模式1的框图如图2所示，当音频信号输入时，音乐特征计算单元220和语音特征计算单元260开始计算信号的音乐特征和语音特征，然后在音乐特征参数比较单元230比较音乐特征参数和设定的阈值M_flag，如果大于阈值M_flag，在更新音乐持续性参数单元240对音乐持续性参数进行累加，如果小于阈值M_flag，保持音乐持续性参数不变。语音特征参数在语音特征参数比较单元270比较语音特征参数和设定的阈值V_flag，如果大于阈值V_flag，在更新音乐持续性参数单元240对音乐持续性参数衰减，如果小于阈值V_flag，则保持音乐持续性参数不变。最后，在音乐持续性参数判断单元250比较音乐持续性参数和阈值M_continue_flag，如果大于阈值M_continue_flag，输出判断为音乐，如果小于阈值M_continue_flag，输出判断为语音。

本发明在模式2单元是以快速跟踪音乐和语音的变化为优先级的。

本发明在模式2单元提出了在音乐持续性参数小于阈值M_continue_flag时加大音乐持续性的累积步长，以及在音乐持续性参数大于阈值M_continue_flag，对音乐持续性参数限幅的方法来保证本发明的模式2单元能快速跟踪音乐和语音的变化。

模式2的框图如图3所示，当音频信号输入时，音乐特征计算单元320和语音特征计算单元350开始计算信号的音乐特征和语音特征，然后在音乐特征参数比较单元330比较音乐特征参数和设定的阈值M_flag，如果大于阈值M_flag，在更新音乐持续性参数单元340对音乐持续性参数进行累加步长341判断，并对音乐持续性参数进行累加342，然后在对音乐持续性参数执行限幅343。如果音乐特征参数小于阈值M_flag，则保持音乐持续性参数不变。语音特征参数在语音特征参数比较单元360比较语音特征参数和设定的阈值V_flag，如果大于阈值V_flag，在更新音乐持续性参数单元340对音乐持续性参数衰减，如果小于阈值V_flag，则保持音乐持续性参数不变。最后，在音乐持续性参数判断单元380比较音乐持续性参数和阈值M_continue_flag，如果大于阈值M_continue_flag，输出判断为音乐，如果小于阈值M_continue_flag，输出判断为语音

下面参照图示对本发明的具体实施方式进行举例说明。从图1可以看出，本发明有三个模块构成。图4是本发明的流程图，从图4可以看出，本发明首先根据输入的参数进行模式选择410，确定当前应用场合是模式1还是模式2。然后根据选择的模式调整参数420，接下来就是根据所选择的参数进行判别，执行模式1判别430，或模式2判别440，最终输出判别结果450。

图2是模式1的框图。

图5是模式1的流程图。

下面结合图2和图5介绍一下模式1的工作方式。从图5中可以看到，输入的信号510首先要计算音乐特征参数520。

然后根据得到的音乐特征参数，比较其和阈值M_flag的大小530。

如果音乐特征参数小于阈值M_flag，则保持音乐持续性参数不变，并开始计算语音特征参数550。

如果音乐特征参数大于阈值M_flag，则对音乐持续性参数累加540。

然后计算语音特征参数550。

根据得到的语音特征参数，比较其和阈值V_flag的大小560。本发明针对原有方法的不足，提高了语音特征的阈值V_flag的值，由原来的V_flag＝0.8提高到V_flag＝1-2。

如果语音特征参数小于阈值V_flag，则保持音乐持续性参数不变。

如果语音特征参数大于阈值V_flag，则对音乐持续性参数衰减570。

然后，比较当前的音乐持续性参数和阈值M_continue_flag。

本发明针对原有技术的不足，在提高V_flag的同时，提高了M_continue_flag的值，由原来的M_continue_flag＝300提高为M_continue_flag＝400-440。

如果音乐持续性参数大于阈值M_continue_flag，则判别输出为音乐。

如果音乐持续性参数小于阈值M_continue_flag，则判别输出为语音。

图3是模式2的框图。

图6是模式2的流程图。

下面结合图3和图6介绍一下模式2的工作方式。

从图6中可以看到，输入的信号601首先要计算音乐特征参数602。

然后根据得到的音乐特征参数，比较其和阈值M_flag的大小603。如果音乐特征参数小于阈值M_flag，则保持音乐持续性参数不变，并开始计算语音特征参数607。

如果音乐特征参数大于阈值M_flag，则先判断对音乐持续性参数累加的步长604。

为了加快音乐持续性参数的累加速度，更快得跟踪音乐信号的变化，本发明设定如果音乐持续性参数小于阈值M_continue_flag，则其累加步长为180-220。如果大于阈值M_continue_flag，则其累加步长为1，最大不超过5。

根据得到的累加步长，对音乐持续性参数累加605。

累加完毕后，为了使得音乐持续性参数在语音信号到来时能及时衰减到阈值M_continue_flag以下，本发明提出要对音乐持续性参数限幅606，限幅操作是在累加之后判断音乐持续性参数是否大与限幅值(420)，如果大于则被限幅于420。

然后计算语音特征参数607。

根据得到的语音特征参数，比较其和阈值V_flag的大小608。

如果语音特征参数小于阈值V_flag，则保持音乐持续性参数不变.

如果语音特征参数大于阈值V_flag，则对音乐持续性参数衰减609。

然后，比较当前的音乐持续性参数和阈值M_continue_flag。

表1是本发明的检测率

音乐类型	检测率
音乐类型	检测率	Classical	92.94％
Electronic	95.04％	Classical	92.94％
Electronic	95.04％	jazz_blues	93.2％
metal_punk	96.02％	jazz_blues	93.2％
metal_punk	96.02％	rock_pop	95.87％
World	93.89％	rock_pop	95.87％
World	93.89％	语音	88.88％

表2是未采用本发明的检测率

音乐类型	检测率
音乐类型	检测率	Classical	89.63％
Electronic	55.79％	Classical	89.63％
Electronic	55.79％	jazz_blues	84.75％
metal_punk	42.87％	jazz_blues	84.75％
metal_punk	42.87％	rock_pop	69.01％
World	82.38％	rock_pop	69.01％
World	82.38％	语音	99.2％

模式2是一种快速跟踪音乐和语音转换的音乐检测方法。

Claims

1.一种双模的音乐检测方法，包括步骤：

在参数调整单元中设置参数；

至少一个模式单元根据设置的参数进行工作。

2.根据权利要求1所述的方法，其特征在于模式单元1工作在高检测率状态，模式单元2工作在快速跟踪音乐和语音的变化状态。

3.根据权利要求2所述的方法，其特征在于所述模式单元1工作在高检测率状态包括步骤：

计算信号的音乐特征和语音特征；

将音乐特征参数与设定的阈值M_flag进行比较，如果大于阈值M_flag，则对音乐持续性参数进行累加；

将语音特征参数与设定的阈值V_flag进行比较，如果大于阈值V_flag，则对音乐持续性参数进行衰减；

将音乐持续性参数与阈值M_continue_flag进行比较，如果大于阈值M_continue_flag，则判断输出为音乐，如果小于阈值M_continue_flag，则判断输出为语音。

4.根据权利要求3所述的方法，其特征在于所述阈值V_flag为1~2。

5.根据权利要求3所述的方法，其特征在于所述阈值M_continue_flag为400~440。

6.根据权利要求2所述的方法，其特征在于所述模式单元2工作在快速跟踪音乐和语音的变化状态包括步骤：

计算信号的音乐特征和语音特征；

将音乐特征参数与设定的阈值M_flag进行比较，如果大于阈值M_flag，判断音乐持续性参数累加步长，并对音乐持续性参数进行累加，然后，对音乐持续性参数限幅；

7.根据权利要求6所述的方法，其特征在于如果音乐持续性参数小于阈值M_continue_flag，则累加步长为180~220。

8.根据权利要求6所述的方法，其特征在于如果音乐持续性参数大于阈值M_continue_flag，则累加步长为不超过5。

9.一种双模的音乐检测装置，包括：

参数调整单元，用于确定需要选择的模式；

多个模式单元，根据参数调整单元确定的模式工作。

10.根据权利要求9所述的装置，其特征在于模式单元1工作在高检测率状态，模式单元2工作在快速跟踪音乐和语音的变化状态。

11.根据权利要求10所述的装置，其特征在于所述模式单元1包括：

音乐特征计算单元，用于计算信号的音乐特征；

音乐特征参数比较单元，将音乐特征参数与设定的阈值M_flag进行比较；

语音特征计算单元，计算信号的语音特征；

语音特征参数比较单元，将语音特征参数与设定的阈值V_flag进行比较；

更新音乐持续性参数单元，如果音乐特征参数大于设定的阈值M_flag，则对音乐持续参数进行累加，如果语音特征参数大于设定的阈值V_flag，则对音乐持续性参数进行衰减；

音乐参数持续性参数判断单元，将音乐持续性参数与阈值M_continue_flag进行比较，如果大于阈值M_continue_flag，则判断输出为音乐，如果小于阈值M_continue_flag，则判断输出为语音。

12.根据权利要求11所述的装置，其特征在于所述阈值V_flag为1~2。

13.根据权利要求11所述的装置，其特征在于所述阈值M_continue_flag为400~440。

14.根据权利要求10所述的装置，其特征在于所述模式单元2包括：

音乐特征计算单元，计算信号的音乐特征；

语音特征计算单元，计算信号的语音特征；

语音参数特征比较单元，将语音特征参数与设定的阈值V_flag进行比较；

更新音乐持续性参数单元，如果音乐特征参数大于阈值M_flag，判断音乐持续性参数累加步长，并对音乐持续性参数进行累加，然后，对音乐持续性参数限幅，如果语音特征参数大于阈值V_flag，则对音乐持续性参数进行衰减；

音乐持续性参数判断单元，将音乐持续性参数与阈值M_continue_flag进行比较，如果大于阈值M_continue_flag，则判断输出为音乐，如果小于阈值M_continue_flag，则判断输出为语音。

15.根据权利要求14所述的装置，其特征在于如果音乐持续性参数小于阈值M_continue_flag，则累加步长为180~220。

16.根据权利要求14所述的装置，其特征在于如果音乐持续性参数大于阈值M_continue_flag，则累加步长为不超过5。