CN1452100A

CN1452100A - 一种从声音数据中辩别音乐数据的方法

Info

Publication number: CN1452100A
Application number: CN 03108096
Authority: CN
Inventors: 陈淮琰; 罗玉堂
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: Inventec Besta Xian Co Ltd
Priority date: 2003-05-27
Filing date: 2003-05-27
Publication date: 2003-10-29

Abstract

本发明涉及一种从声音数据中辨别音乐数据的方法，其可根据音乐数据的特征点，达到自声音数据中识别音乐型态数据的目的，同时通过音乐型态数据的过滤，进而达到音乐型态数据于压缩、解压缩过程前有效识别的目的。本发明包括以下操作步骤：①定义低音量区的特征范围；②建立低音量区指标数据量以及非低音量区指标数据量；③搜寻声音数据中查找区间；④鉴别该查找区间的声音数据型态。

Description

一种从声音数据中辨别音乐数据的方法

一、技术领域：

本发明涉及一种辨别音乐数据的方法，尤其是涉及一种声音数据压缩技术中从声音数据中辨别音乐数据的方法。

二、背景技术：

声音是重要的传播媒介之一，随着多媒体传播的日新月异，声音在多媒体的应用上越来越广泛，不但声音以多元化的方式表现，处理声音数据的方式，特别是声音数据压缩方面，更处于百家争鸣的状态，然而压缩技术却常受限于真实度及压缩比无法兼顾的情况：声音数据的型态大致上可分为音乐及语音两部分，通常处理声音数据的应用程序如时下流行的压缩软件Voxware，其压缩比可以到达原容量的百分之一。然而另一方面，牺牲部分数据以达到高压缩比表现，对于语音数据来说，由于此压缩功能技巧性去除了声音数据中人类听觉不易察觉的部分，使得语音数据的规模得以在不影响表现的前提下做出精简的堆积储存，因此对于解压缩后语音数据的完整性与压缩前并无明显差异；但是对于数据结构庞杂的音乐类型数据而言，若以选择同一压缩方式进行压缩、解压缩的程序，则容易发现原本音乐数据中，不容忽视的细节受到压缩程序的重新编排后，已失去其表现的完整性，换句话说，由于音乐数据中关键表现的数据相对庞大，若要以同等的压缩程序处理，势必严重影响到音乐数据表现上的真实性；相对而言，若使用压缩程序在音乐型态数据的处理上能够顾及其完整性，其压缩效果不足却是显而易知的。综述上述情况，是任何声音数据皆以同一压缩程序处理的前提下所出现的问题，虽然此问题在现阶段软件工具尚未提出支持的情形下普遍由人工区分的方式获得改善，但是此问题衍生出的效率低下却牵制了声音数据的处理效果。

三、发明内容：

本发明为了解决上述背景技术中的不足之处，提供一种从声音数据中辨别音乐数据的方法，其可根据音乐数据的特征点，达到从声音数据中识别音乐型态数据的目的，同时通过音乐型态数据的过滤，进而达到音乐型态数据在压缩、解压缩过程前有效识别的目的。

为实现上述目的，本发明采用的技术方案为：

一种从声音数据中辨别音乐数据的方法，其特殊之处在于包括以下操作步骤：①定义低音量区的特征范围；②建立低音量区指标数据量以及非低音量区指标数据量；③搜寻声音数据中查找区间；④鉴别该查找区间的声音数据型态。

上述操作步骤还包括：

①取得声音波形中最大音量值；

②定义低音量区的特征范围；

③建立低音量区指标数据量以及非低音量区指标数据量；

④搜寻声音数据中查找区间；

⑤计算该查找区间的非低音量区数据量；

⑥鉴别该查找区间的声音数据型态；

⑦鉴别该查找区间的非低音量区数据量是否大于该非低音量区指标数据量；

⑧认定该查找区间的声音数据型态为音乐；

⑨确认是否剩余未被鉴别的声音数据。

上述声音波形中最大音量值由声音数据与声音数据音频幅度位元数差值的绝对值中取得。

上述定义低音量区的特征范围的方法为：利用最大音量值界定低音量区音量振荡区间的上限及下限，上限为声音数据音频幅度位元数加最大音量值，下限为声音数据音频幅度位元数减最大音量值。

上述建立低音量区指标数据量以及非低音量区指标数据量的方法为：通过声音数据中播放音数据平均每秒字节数信息换算出低音量区域在0.05秒内播放所需数据标准量以及非低音量区播放在1秒内播放所需数据量。

与现有技术相比，本发明具有的优点和效果如下：

本发明可根据音乐数据的特征点，达到从声音数据中有效识别音乐型态数据，在音乐型态数据的处理上能够顾及其完整性，同时达到优良的压缩效果，音乐型态数据的真实度及压缩比可同时兼顾，使音乐数据表现上的真实性经过压缩处理后不受影响。

四、附图说明：

图1为本发明的方法流程图；

图2为本发明实施例中一般语音数据的波形图；

图3为本发明实施例中音乐数据的波形图。

五、具体实施方式：

本发明为一种从声音数据(audio)中辨别音乐型态数据(music)的方法，根据音乐类型数据的特征点在一段声音数据中做出识别。参见图2，图3，图2为本发明实施例中一般语音数据的波形图，图3为本发明实施例中音乐数据的波形图，从中可以看出，音乐型态数据在音量上的变化较一般语音型态数据和缓，而且其波形较为连续。本发明用以识别的特征点是根据音乐型态数据在音量上的变化较一般语音型态数据和缓，而且其波形较为连续，即音乐在的高音量区和低音量区波峰差值较典型语音小，且其波峰差值相对一般语音数据较为平滑。

参见图1，本发明具体操作步骤如下：

步骤100 取得声音数据波形中最大音量值(MaxValue)

步骤200 定义低音量区的特征范围

步骤300 建立低音量区指标数据量(ValidLowVoiceNum)以及非低音量区指标数据量(MusicVoiceDataCheckLen)

步骤400 搜寻声音数据中的查找区间

步骤500 计算该查找区间的非低音量区数据量

步骤600 鉴别该查找区间的声音数据型态

步骤700 该查找区间的非低音量区数据量是否大于该非低音量区指标数据量

步骤800 认定该查找区间的声音数据型态为音乐

步骤900 是否剩余未被鉴别的声音数据

将上述操作步骤具体分析如下：首先取声音数据音频幅度位元数为8用以说明本实施例，在输入的声音数据中，在声音数据与0x80差值的绝对值中取得其最大音量值(MaxValue)(步骤100)；随后利用最大音量值(MaxValue)界定低音量区音量振荡区间的上限及下限，取MaxValue/8作为测量标准值，据此定义低音量区数据特征(步骤200)，即：

上限值：0x80+MaxValue/8

下限值：0x80-MaxValue/8

符合此区间的音量振荡值为低音量区域数据的特征。

另一方面，根据声音数据中播放音数据平均每秒字节数”(AvgBytesPerSec)信息换算出低音量区域在0.05秒内播放所需数据标准量：

播放音数据平均每秒字节数(AvgBytesPerSec)/20＝低音量区域在0.05秒内播放所需数据标准量(ValidLowVoiceNum)

以及非低音量区播放在1秒内播放所需数据量(步骤300)

播放音数据平均每秒字节数(AvgBytesPerSec)*12/10＝非低音量区播放在1秒内播放所需数据量(MusicVoiceDataCheckLen)

以此作为鉴别音乐型态数据的标准量，进而当作判断声音数据类型的指标，然后开始在声音数据中搜寻第一个符合低音量区特征的数据区间(步骤400)，在搜寻到低音量区特征数据起始点之后，随即测定低音量区的累计播放时间，不足0.05秒者则略过该低音量区持续测定下一个低音量区，若累计时间达0.05秒后即停止，则与声音数据搜寻起点形成有限数据区间，换算此数据区间相对应的数据量扣除区间内所包含低音量区数据量(步骤500)，其所得的非低音量区数据量，用以对于此段区间内声音数据类型进行鉴定(步骤600)，在与内部计算的数据标准量完成比较后，其显示结果便可以用来判断数据量与标准量的大小关系(步骤700)，若其数据量大于标准量则可判定此区间内数据型态为音乐型态(步骤800)，此处所指的标准量是原先通过声音数据中播放音数据平均每秒字节数(AvgBytesPerSec)信息换算出的音乐型态数据播放1秒所需数据量的标准。若其数据量小于标准量，则接下去测定此段通过鉴别程序数据区间之后是否尚存在未鉴别的声音数据区间(步骤900)，若存在则重复上述鉴别程序，整个辨别音乐型态数据方法流程在所有数据区间通过此鉴别程序后结束。

本发明并不局限于上述实施例，在不脱离本发明主要方法的范围内，可以作进一步的更动与变化，其均在本发明的保护范围之内。

Claims

1、一种从声音数据中辨别音乐数据的方法，其特征在于包括以下操作步骤：①定义低音量区的特征范围；②建立低音量区指标数据量以及非低音量区指标数据量；③搜寻声音数据中查找区间；④鉴别该查找区间的声音数据型态。

2、根据权利要求1所述的一种从声音数据中辨别音乐数据的方法，其特征在于包括以下操作步骤：