CN100373382C

CN100373382C - 基于内容的数字音乐检索旋律特征数据库及生成系统

Info

Publication number: CN100373382C
Application number: CNB2005100294951A
Authority: CN
Inventors: 吴亚栋; 赵芳
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2005-09-08
Filing date: 2005-09-08
Publication date: 2008-03-05
Anticipated expiration: 2025-09-08
Also published as: CN1737797A

Abstract

一种计算机应用技术领域的基于内容的数字音乐检索旋律特征数据库及生成系统，包括：数字音乐素材库存储部、数字音乐文件读取和旋律特征提取部、旋律分段特征音符检测部、旋律特征模板生成部、音乐旋律特征模板库存储部。数字音乐文件读取和旋律特征提取部读取数字音乐素材库存储部的音乐文件，经过旋律分段特征音符检测部对其进行旋律段位置特征的检测及标注后，被送至旋律特征模板生成部，得到旋律特征模板数据文件，并被保存到音乐旋律特征模板库存储部中，同时由旋律特征模板生成部发出生成流程完毕的通知给数字音乐文件读取和旋律特征提取部。本发明既能保持对用户哼唱输入的容错性，同时还能大幅度提高系统对哼唱输入的匹配检索速度。

Description

基于内容的数字音乐检索旋律特征数据库及生成系统

技术领域

本发明涉及的是一种计算机应用技术领域的数据库及系统，具体是一种基于内容的数字音乐检索旋律特征数据库及生成系统。

背景技术

基于哼唱输入的数字音乐检索方式简称哼唱检索(QBH：Query by Humming)，它允许用户通过哼唱的形式来检索所需要的歌曲。用户只要能回忆起其中的片段旋律，并通过麦克风哼唱出来，QBH检索系统就能为用户找到其所需要的歌曲。针对哼唱检索，国内外已提出的面向旋律匹配的技术包括有：近似符号串比较算法，典型的如DP(Dynamic Programming)法和快速近似匹配法，音高轮廓几何匹配法和线性对齐近似旋律匹配算法LAN(Linear Alignment Mahcing)等。在这些面向旋律匹配的方法中，旋律特征模式由音符特征序列来描述，而音符特征则一般由音符音高(或相对音高差)及音符长度(或相对音符长度比)来表征。由于在描述旋律特征模式的数据结构中不存在表征旋律分段(乐句)的信息，因此在对哼唱输入旋律片段与整首乐曲的标准旋律之间进行非等长音符特征序列的模式匹配时，都是按照音符移动单位将输入旋律片段的音符序列沿着乐曲的标准旋律的音符序列方向进行逐一连续移动匹配的。

经对现有技术的文献检索发现，刊登在《计算机研究与发展》2003年11月第40卷第11期，pp.1554-1560上的文章“线性对齐近似旋律匹配算法”中所提出的旋律特征模板的数据结构由旋律信息头和旋律音符特征序列两部分组成。其中每个音符特征的数据结构由用于记录该音符的音高特征值字段和用于记录该音符的音长特征值两个字段构成。而整个旋律摸板库结构则采用以摸板单位的链表结构来实现。在这种摸板库结构下，设当输入旋律片段沿着标准旋律的音符序列进行移动匹配并移动至第K个音符时，则先将输入旋律片段的头部音符与标准旋律的第K个音符对齐，并从以第K个音符为起点的标准旋律中取出长度为输入旋律片段长度1.3倍长的音符序列段作为在该头部音符对齐下的标准旋律匹配段；然后在时间轴上进行两旋律匹配段的线性对齐近似旋律匹配，最后，综合考虑节奏和音高两方面的相似度，给出输入旋律片段与该标准旋律音符序列段的匹配得分。输入旋律片段的头部音符将继续沿着标准旋律的音符序列向后移动一个音符，并重复上述步骤，直至移动到最后为止。线性对齐近似旋律匹配算法具有节奏容错性好、匹配精度高的优点，但是由于该文献没有涉及如何解决标准旋律分段的自动标注问题，而采用了原始的音符序列作为旋律特征数据结构，故使得这种基于音符移动单位的移动匹配方式的响应时间较长，不适于用作大规模数字音乐库的检索匹配。因此，随着数字音乐库的规模日益增大，面向旋律匹配检索的响应速度和检索精度之间的矛盾将会日益突出，成为基于哼唱输入的数字音乐检索系统迈向实用化的一大瓶颈。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于内容的数字音乐检索旋律特征数据库结构及其生成系统，使得基于内容的数字音乐检索系统在采用这种旋律特征数据结构时，既能保持对用户哼唱输入的容错性，同时还能大幅度提高系统对哼唱输入的匹配检索速度。

本发明是通过以下技术方案实现的，本发明基于内容的数字音乐检索旋律特征数据库生成系统包括：数字音乐素材库存储部、数字音乐文件读取和旋律特征提取部、旋律分段特征音符检测部、旋律特征模板生成部、音乐旋律特征模板库存储部。

数字音乐文件读取和旋律特征提取部读取保存在数字音乐素材库存储部中的数字音乐文件，并对其进行旋律特征提取，即提取出表征该旋律特征的音符特征序列；旋律分段特征音符检测部检测旋律特征提取部提取的旋律特征中的各旋律分段特征的音符位置并自动赋予标注，该旋律分段的检测是基于音符类别特征及其音符长度特征来进行的；旋律特征模板生成部根据旋律分段特征音符检测部的结果，自动生成带有旋律分段信息的、具有特定数据格式的面向大规模基于内容的数字音乐检索的旋律特征模板数据文件，并将其保存到音乐旋律特征模板库存储部中，即，由数字音乐文件读取和旋律特征提取部给出的乐曲标准旋律的音符特征序列，经过旋律分段特征音符检测部对其进行旋律段位置特征的检测及标注后，被送至旋律特征模板生成部，得到带有旋律分段信息的、具有特定数据格式的旋律特征模板数据文件，之后，所生成的旋律特征模板数据文件被保存到音乐旋律特征模板库存储部中，同时由旋律特征模板生成部发出生成流程完毕的通知给数字音乐文件读取和旋律特征提取部，由此完成从一个数字音乐文件生成其旋律特征模板数据文件的处理流程。

所述的数字音乐文件，可以是MIDI格式的音乐演奏数据文件、也可是WAVE、MP3等音频波形文件；旋律分段特征音符检测部是基于音符类别特征及其音符长度特征来进行的，并且，具有以下特征：旋律特征由表征音符特征即音高差、时间的矢量序列来描述。其中，作为音符音高特征的“音高差”指与前一个音符频率(音符音高信息)的差值，以适应不同旋律的起调和非特定人哼唱，并以半音(Semitone)为单位；作为音符音长特征的“时间”指该音符的起始时刻，其表达了旋律的节奏特征。然而，之所以选用音符起始时刻而非音符持续时间长度来作为表征旋律的节奏参数，是考虑到用户哼唱旋律时的节奏特征，即用户在进行哼唱时，一般比较容易把握音符的出现时刻，而对各个音符的持续长度不怎么敏感或差异较大。而若仅仅采用音高信息而忽略时间这一节奏信息，随着音乐库规模的扩大，匹配成功率势必会随之下滑，将变得越来越低。另外，考虑到单以音高信息为参数匹配的局限性，本发明选择音高差、时间的矢量序列来描述旋律的特征。旋律特征模板生成部生成的旋律特征模板并非为单纯以该旋律的音符特征序列来表达，而是由带有旋律分段信息的音符特征序列来表达，即在每个音符特征信息的数据结构中除了有表征音符音高特征信息和音符音长信息外，还自动地添加有表示该音符是否为表征旋律分段特征的特征音符的标注信息，每两个标注的特征音符间的音符特征序列即为一个旋律分段。因此，在对输入旋律片段与整首乐曲的标准旋律进行匹配时，若采用这种带有旋律分段信息数据结构的标准旋律特征模板就可以不按音符移动单位来将输入旋律片段的音符序列沿着整首乐曲旋律的音符序列方向来进行连续移动匹配，而是可以按照在每首乐曲旋律中预先标注的旋律分段为匹配移动单位来进行跨越式移动匹配，从而为实现大幅度提高基于内容的音乐检索匹配速度提供了一种切实可性的解决方法。

所述的旋律分段特征音符检测部，也可以由下述特征而构成。即，为避免过多的无意义的分段标注，先由消除可忽略静音段(等效于休止符)处理模块搜索标准旋律的音符特征序列，若查找到的休止音符长度小于某一预先设定的静音段长度阈值则将该休止音符加以删除，并将该休止段并入前一个音符的发音段。由于静音段长度阈值一般设得较低(如八分音符长度)，所以这种删除在匹配检索时对结果几乎没有影响。在删除了可忽略的静音段后，则由特征音符的检测处理模块根据音符类别特征及其音符长度特征来对标准旋律中的每个音符进行检测。特征音符类别分为定位类音符和休止类音符，对于这两类音符均按其各自的音符长度是否超过事先所设定的特征音符阈值来确定该音符是否为分段特征音符。

然而，这种基于特征音符自动进行旋律分段标注的技术方法，其依据及其用于哼唱检索的可行性是根据乐理基础知识及对大量乐曲旋律进行统计分析与验证的基础上得出的。首先，对于整首旋律的可划分位置，可考虑休止符位置为一种表征旋律分段特征的特征音符。但是，一般在主旋律中，休止符的数目并不是很多，仅考虑采用休止符作为旋律分段的切分位置势必将造成旋律分段过长，从而没有起到真正的分段作用。通过对大量乐曲旋律的音符特征分析，发现在乐曲，尤其歌曲中，连贯的旋律分段大都在二分音符/全音符处结束。之所以如此，这其中有一个意群的概念。意群是指一个具有相对独立意义的词组、短语或短句，任何的交流都是概念与概念的结合方式的交流。无概念的符号或声音是无意义的，也就不能成为语言。在书面表达里任何句子、文章都是由基本概念以一定的方式结构而成的。就如同日常交流一般，都是以一个一个完整的语句或者词组出现，而不会突然从一个词组的中间开始交流，哼唱也是一样，出于人们思维的惯式，拿某句歌词“五千年的风和雨”为例，哼唱人一般不会以“年的风和”这样的小段进行哼唱，因为这样的小段不构成一个独立的意群，在乐曲中，对应于一个个意群的多为一个个乐句，其间以较长的音符或休止符作为间隔的标记，以换取主旋律的交替，演奏中的间歇，实际也是意群的转变。所以可以将这些特征音符所处的位置作为检索匹配时跳跃匹配的基础。

所述的旋律特征模板生成部生成的旋律特征模板，为带有旋律分段信息的音符特征序列，其中每个音符特征包含音高特征(用音高差描述)、音长特征(用音符起始时刻描述)两个数值内容，但是若该音符为本发明所述的特征音符时，则该音符的音长特征值将被置成负值，并且还将在该音符特征信息数据结构中插入可选标注位，用于记录该特征音符的音符发音长度(音符持续时间)值。其中，当该特征音符为定位类特征音符时，可选标注位所记录的值即为就为该定位音符的实际发音持续时间；当特征音符为休止类特征音符时，当前的休止符将被删除，同时将此休止符段长度将会被并入前一个音符的发音段，即将前一个音符长度延长一个当前已被要删除的休止符段，并将该音符定义为休止类特征音符，同时将该音符的音长特征值置成负值，并且在该音符特征信息数据机构中插入可选标注位，记录该特征音符的音符实际发音长度(指发音持续时间)值。并通过将该特征模板文件ID号与数字音乐素材库中相应的数字音乐文件相关联的方式，将生成的旋律特征模板保存到音乐旋律特征模板库存储部中。

本发明基于内容的数字音乐检索旋律特征数据库由以下特征构成：由数字音乐素材库基本数据结构和对应于该音乐素材的数字音乐旋律特征库的数据结构构成。数字音乐素材库基本数据结构用于通常基于音乐文本属性的检索，而数字音乐旋律特征库的数据结构则可用于基于内容的音乐检索，如基于哼唱输入的音乐检索，两个数据结构可通过统一的乐曲编号(ID)关键字，实现两者之间的对应关系。所述的数字音乐旋律特征库的数据结构由表征旋律基本特征信息的表头数据块结构与该旋律所含音符数相同数目的、表征音符特征的音符数据块结构构成。音符特征除了包含音高和音长信息外，还包含该音符是否为表征旋律分段位置信息的标注特征。

其中，表头数据块结构包括乐曲ID、整首旋律的音符数、平均音高、音强、节拍及其它项等的关键字节，其中乐曲ID为主关键字节；音符数据块结构包括音高特征、音长特征和表征旋律分段特征位置的特征音符标注三个字段，其中音高特征字段记录音符音高(差)值、音长特征字段记录音符音长(音符起始时刻)值，当该音符为特征音符时，则该音符的音长特征字段的音长值将被置成负值，同时将在该音符特征信息快数据结构中插入可选标注位，用于记录该特征音符的持续时间。

因此，在对输入旋律片段与整首乐曲的标准旋律进行匹配时，若采用这种带有旋律分段信息数据结构的旋律特征模板，就可以不再按照音符移动单位来将输入旋律片段的音符序列沿着整首乐曲旋律的音符序列方向来进行连续移动匹配，而是可以按照在每首乐曲旋律中预先标注的旋律分段为匹配移动单位来进行跨越式移动匹配，从而为实现大幅度提高基于内容的音乐检索匹配速度提供了一种切实可性的解决方法。由于针对每次旋律段移动时的旋律段匹配，这种旋律特征摸板的数据结构便于引入基于线性对齐方式的节奏容错机制，这样就能使得整个旋律匹配过程具有既能保持对用户哼唱输入的容错性，同时还能大幅度提高系统对哼唱输入的匹配检索速度的特点。

在本发明应用于大型的数字音乐数据库后，对于音乐检索的性能可得到明显提高。按本发明而实施的基于哼唱输入的音乐检索系统的平均检索时间要比传统按照音符单位移动匹配检索方式的检索系统减少2/3左右，系统性能的改善效果非常显著。

附图说明

图1为本发明结构框图。

图2为本发明工作流程图。

图3为用于说明按本发明效果而在不同规模数字音乐素材库下所进行的哼唱检索平均使用时间的比较曲线。

图4A—图4F为用于说明按本发明的实施例1进行的定位类和休止类特征音符旋律段分段检测标注程序的图。

具体实施方式

如图1所示，本发明由数字音乐素材库存储部1、数字音乐文件读取和旋律特征提取部2、旋律分段特征音符检测部3、旋律特征模板生成部4、音乐旋律特征模板库存储部5组成。

数字音乐素材库存储部1是用于存储数字音乐素材文件的部件。数字音乐文件读取和旋律特征提取部2用于读取保存在数字音乐素材库存储部1中的数字音乐素材文件，并对其进行旋律特征提取，即提取出表征该旋律特征的音符特征序列。旋律分段特征音符检测部3用于检测旋律特征提取部2提取的旋律特征中的各旋律分段特征的音符位置并自动赋予标注，该旋律分段的检测是基于音符类别特征及其音符长度特征来进行的。旋律特征模板文件生成部4用于根据旋律分段特征音符检测部的结果，以特定的、适合于进行大规模音乐检索的数据格式自动生成面向大规模基于内容的数字音乐检索的旋律特征模板数据文件。音乐旋律特征模板库存储部5是用于存储与数字音乐素材文件相对应的音乐旋律特征模板数据文件的部件。即，由数字音乐文件读取和旋律特征提取部2读取保存在数字音乐素材库存储部1中的数字音乐素材文件，并对其进行旋律特征提取而得到的乐曲标准旋律的音符特征序列，经过旋律分段特征音符检测部3对其进行旋律段位置特征的检测及标注后，被送至旋律特征模板生成部4，得到带有旋律分段信息的、具有特定数据格式的旋律特征模板数据文件。之后，所生成的旋律特征模板数据文件被保存到音乐旋律特征模板库存储部5中，同时由旋律特征模板生成部4发出生成流程完毕的通知给数字音乐文件读取和旋律特征提取部2，由此完成从一个数字音乐文件生成其旋律特征模板数据文件的处理流程。

图2给出了图1中各个功能部分的工作流程。即，数字音乐文件读取和旋律特征读取对应数字音乐文件读取和旋律特征提取部2；旋律分段特征音符检测—最终音符判断为旋律分段特征音符检测部3的工作流程；旋律特征模板文件生成—最终音乐文件判断对应旋律特征模板生成部4。此外，图2中的输入节点①和输出节点②分别对应数字音乐素材库存储部1和音乐旋律特征模板库存储部5。

本发明基于内容的数字音乐检索旋律特征数据库，包括：数字音乐素材库基本数据结构和对应于该音乐素材的数字音乐旋律特征库的数据结构，数字音乐素材库基本数据结构用于基于音乐文本属性的检索，数字音乐旋律特征库的数据结构用于基于内容的音乐检索，两个数据结构通过统一的乐曲编号关键字，实现两者之间的对应关系，所述的数字音乐旋律特征库的数据结构由表征旋律基本特征信息的表头数据块与该旋律所含音符数相同数目的、表征音符特征的音符数据块构成，音符特征除了包含音高和音长信息外，还包含该音符是否为表征旋律分段位置信息的标注特征。

所述的表头数据块包括乐曲ID、整首旋律的音符数、平均音高、平均音强及其它项等的关键字节，其中乐曲ID为主关键字节。

所述的音符数据块包括音高特征字节、音符特征字节、表征旋律分段特征位置的特征音符标注字节，其中音高特征字节记录音符音高差值、音长特征字节记录音符起始时刻值，并且若该音符为特征音符时，则该音符的音长特征字节的音长值将被置成负值，同时将在该音符数据段中插入可选标注位，该可选标志位用于记录该特征音符的实际发音长度值。

作为音符音高特征的音高差以半音为单位，而作为音符音长特征的音长值则以tick为单位，即定义非特征音符的音符音长值为正的tick数，而如果音符音长值为负值，则表示该音符是一个表征旋律分段位置的特征音符。

实施例1

在图2中由数字音乐文件读取和旋律特征提取部2依次从数字音乐素材库存储部1读取数字音乐文件(MIDI格式)并通过对其提取旋律特征而得到的原始音符特征序列如图4A所示(音乐旋律：“莫斯科郊外的晚上”)。

图中横轴表示音符起始时间，其单位是MIDI文件中表示音符时间的特有单位TICK，而纵轴则表示音高，其单位是半音。由旋律分段特征音符检测部3对原始音符序列进行表征旋律分段特征位置的特征音符的检测。该检测是按其音符类别特征及其音符长度特征来进行的。表征分段特征的特征音符，其类别分为定位类特征音符和休止类特征音符，对于这两类特征音符均按其各自的音符长度是否超过各自预先所设定的阈值来确定该音符是否为分段特征音符。特征音符的类别判断由旋律分段特征音符检测部3进行。在本实施例中对于定位类特征音符的设定为：若其音符长度大于或等于二分音符长时则将该音符确定为分段特征音符，即由置音长值极性为负和插入可选标注位将当前定位音符的音长值置成负值，以作为旋律分段特征音符位置的标注，同时在该音符特征信息数据块结构中插入可选标注位，并记录该定位类音符的持续时间，以便于提高匹配精度。在整首标准旋律中每两个特征音符间的音符序列即被定义为一个旋律分段。如图4B所示，图4A所示的这段乐曲旋律就被检测到2个定位类特征音符(用涂色表示)并被分为两个旋律分段。

根据本发明，对于名为“莫斯科郊外的晚上”的数字音乐旋律，在图2中由旋律特征模板生成部4可以得到带有旋律分段特征音符标注的标准旋律特征模板，并保存在音乐旋律特征模板库存储部5中。该旋律特征模板的格式由旋律信息头和旋律音符特征序列组成。其中每个音符特征的数据结构的第一字段表示与前一音符的音高差值，但首音符在这一字段记录的是绝对音高值，虽然在匹配时不使用绝对音高值，然而这一首记录方式对于计算重现描述旋律特征的音高曲线是必需的(如实施例1中的音高曲线)；其第二字段记录的是用tick表示的该音符的发音起始时刻，如果该音符为普通音符，该值就是正值，而如果该音符为分段特征音符，那么就在该值前加负号，音符特征的第三字段为可选标注位，用于记录特征音符的实际发音时间，同样也是用tick表示。如下表所示，只有当音符为表征旋律分段的特征音符时，该音符的特征字段才会有3个字段，而不是所有音符都具有3个字段。

音乐ID	音符数	平均音高	音强	节拍	音符1	音符2	音符3
音乐ID	音符数	平均音高	音强	节拍	音符1	音符2	音符3	3309		18		69.39		127		2/4		69	0	3		48		4	96
音符4	音符5	音符6	音符7	音符8	音符9	音符10	音符11	3309		18		69.39		127		2/4		69	0	3		48		4	96
音符4	音符5	音符6	音符7	音符8	音符9	音符10	音符11	-4	144	2	192	-2	288	-1	336	5	432	-2	528	-5	-624		192	3	816

音符12		音符13		音符14		音符15		音符16		音符17		音符18
音符12		音符13		音符14		音符15		音符16		音符17		音符18				4	864	3	912	0	960	2	1008	-2	1104	-2	1152	-1	-1200	192

根据本发明，另外一种情况是，当音符特征序列中出现了静音段，即休止符时，也将被定义为乐曲旋律分段的节点。即，在整首标准旋律中相邻的定位类特征音符和休止符类间的音符序列，或者两个相邻休止类特征音符间的音符序列也将被定义为一个旋律分段。对休止符的处理，可能有两种情况，一种情况是静音段时间相对较短，另一种情况是静音段时间相对较长。对于前者，在本发明相关的算法中，通过统计发现，长度在八分音符以下的静音段可以忽略，该处理方法是将前一个音符的结束时间延长至下一个音符发音开始时刻为止，而对旋律分段特征音符标志位不作改动。图4C给出了由数字音乐文件读取和旋律特征读取从数字音乐素材库存储部1读取数字音乐文件(MIDI格式)并通过对其提取旋律特征而得到的原始音符特征序列(音乐旋律：“真心英雄”)。图4D给出了由旋律分段特征音符检测对其进行静音段消除处理后的该旋律特征的音符特征序列。

对于后者，即如果休止段时间较长，超过了预先所设定的用来判定特征音符的长度阈值(八分音符)，那么就会进入针对休止类特征音符的处理流程。在本实施例中对于休止类特征音符的设定为：若其音符长度大于或等于八分音符长时则将该音符确定为分段特征音符。此时，在图1中由旋律分段特征音符检测部3检测查出当前的特征音符为休止类特征音符时，将当前休止符前一个音符的音长特征值(音符起始时间)置成负值，以便将该音符作为分段标注的休止类特征音符，同时在该特征音符信息数据块中插入可选标注位，记录该音符的实际发音持续时间，以便于提高旋律段的匹配精度。图4E给出了由数字音乐文件读取和旋律特征读取从数字音乐素材库存储部1读取数字音乐文件(MIDI格式)并通过对其提取旋律特征而得到的原始音符特征序列(音乐旋律：“爱的就是你”)。通过由旋律分段特征音符检测部3对其进行旋律分段检测及标注处理后的该旋律特征的音符特征序列如图4F所示，其中，右斜线表示定位类特征音符，而左斜线表示休止类特征音符。由此完成一个带有旋律分段信息的音乐旋律特征摸板数据文件的生成。

为考察本实施例的效果，本实施例中，在实施此性能效果比较时，采用了从1000首MIDI音乐到10000首不等的不同规模的音乐素材库，并分别采用本发明技术生成对应于不同规模音乐素材库的、带有旋律分段信息的标准旋律特征模板库，然后将其在本发明实施下的平均匹配检索时间与原线性对齐近似匹配法(LAN)下的平均检索时间进行了比较，该比较是在同等实验条件下对相同的哼唱输入内容进行的。结果表明：按本发明而实施的基于哼唱输入的音乐检索系统的平均检索时间要比传统按照音符单位移动匹配检索方式的检索系统减少2/3左右，系统性能的改善效果非常显著(图3参考)。在检索“莫斯科郊外的晚上”哼唱输入段时，检索比较结果如下：

使用系统	检索结果(乐曲ID)	使用时间(毫秒)
使用系统	检索结果(乐曲ID)	使用时间(毫秒)	原线性对齐近似匹配法数据库生成系统	3309	4109
基于内容的数字音乐检索旋律特征数据库生成系统	3309	1110	原线性对齐近似匹配法数据库生成系统	3309	4109

Claims

1.一种基于内容的数字音乐检索乐曲旋律特征数据库生成系统，包括：数字音乐素材库存储部(1)、数字音乐文件读取和旋律特征提取部(2)、音乐旋律特征模板库存储部(5)，其特征在于，还包括：旋律分段特征音符检测部(3)、旋律特征模板生成部(4)，数字音乐文件读取和旋律特征提取部(2)读取保存在数字音乐素材库存储部(1)中的数字音乐文件，并对其进行旋律特征提取，即提取出表征该旋律特征的音符特征序列；旋律分段特征音符检测部(3)检测旋律特征提取部提取的旋律特征中的各旋律分段特征音符的位置并自动赋予标注，旋律特征模板生成部(4)根据旋律分段特征音符检测部的结果，自动生成带有旋律分段信息的、具有特定数据格式的面向大规模基于内容的数字音乐检索的旋律特征模板数据文件，并将其保存到音乐旋律特征模板库存储部(5)中，同时由旋律特征模板生成部(4)发出生成流程完毕的通知给数字音乐文件读取和旋律特征提取部。

2.根据权利要求1所述的基于内容的数字音乐检索乐曲旋律特征数据库生成系统，其特征是，所述的旋律分段特征音符检测部(3)，是基于音符类别特征及音符长度特征来进行的，旋律特征由表征音符特征即音高差、时间的矢量序列来描述，其中，作为音符音高特征的“音高差”指与前一个音符频率的差值，以适应旋律的起调和非特定人哼唱，并以半音为单位；作为音符音长特征的“时间”指该音符的起始时刻，其表达了旋律的节奏特征。

3.根据权利要求1或者2所述的基于内容的数字音乐检索乐曲旋律特征数据库生成系统，其特征是，所述的旋律分段特征音符检测部(3)，先由消除可忽略静音段处理模块搜索标准旋律的音符特征序列，若查找到的音符长度小于某一预先设定的静音段长度阈值则将该音符加以删除，并将该音符长度并入前一个音符的发音段，在删除了可忽略的静音段后，则由特征音符检测处理模块根据音符类别特征及音符长度特征来对标准旋律中的每个音符进行检测，特征音符类别分为定位类特征音符和休止类特征音符，对于这两类音符均按其各自的音符长度是否超过事先所设定的特征音符阈值来确定该音符是否为分段特征音符。

4.根据权利要求1所述的基于内容的数字音乐检索乐曲旋律特征数据库生成系统，其特征是，所述旋律特征模板生成部(4)生成的旋律特征模板，由带有旋律分段信息的音符特征序列来表达，即在每个音符特征信息数据块中都自动地添加有该音符是否为表征旋律分段特征的特征音符的标注信息，每两个标注的特征音符间的音符特征序列即为一个旋律分段，在对输入旋律片段与整首乐曲的标准旋律进行匹配时，按照在每首乐曲旋律中预先标注的旋律分段为匹配移动单位来进行跨越式移动匹配。

5.根据权利要求4所述的基于内容的数字音乐检索乐曲旋律特征数据库生成系统，其特征是，所述旋律特征模板生成部(4)生成的旋律特征模板，为带有旋律分段信息的音符特征序列，其中每个音符特征包含音高特征、音长特征两个数值内容，并且若该音符为特征音符时，则该音符的音长特征值将被置成负值，并且还将在该音符特征信息数据块中插入可选标注位，用于记录该特征音符的音符发音长度值，其中，当特征音符为定位类特征音符时，可选标注位所记录的值即为该定位特征音符的发音持续时间；当特征音符为休止类特征音符时，此休止符将被删除，并将此休止符段长度并入前一个音符的发音段，即将前一个音符长度延长一个已被决定要删除的休止符段，并将这与休止符合并后的音符定义为休止类特征音符，同时将该音符的音长特征值置成负值，并且在该音符特征信息数据块中插入可选标注位，记录该特征音符的音符实际发音长度值，并通过将该旋律特征模板数字文件序号与数字音乐素材库存储部(1)中相应的数字音乐文件相关联的方式，将生成的旋律特征模板数字文件保存到音乐旋律特征模板库存储部(5)中。

6.根据权利要求1或者4所述的基于内容的数字音乐检索乐曲旋律特征数据库生成系统，其特征是，所述的数字音乐文件，是MIDI格式的音乐演奏数据文件，或者音频波形文件。

7.一种基于内容的数字音乐检索旋律特征数据库，包括：数字音乐素材库基本数据结构和对应于该音乐素材的数字音乐旋律特征库的数据结构，其特征在于，数字音乐素材库基本数据结构用于基于音乐文本属性的检索，数字音乐旋律特征库的数据结构用于基于内容的音乐检索，两个数据结构通过统一的乐曲编号关键字，实现两者之间的对应关系，所述的数字音乐旋律特征库的数据结构由表征旋律基本特征信息的表头数据块以及与该旋律所含音符数相同数目的、表征音符特征的音符数据块构成，音符特征除了包含音高和音长信息外，还包含该音符是否为表征旋律分段位置信息的标注特征。

8.根据权利要求7所述的基于内容的数字音乐检索旋律特征数据库，其特征是，所述的表头数据块包括乐曲ID、整首旋律的音符数、平均音高、平均音强及其它项的关键字节，其中乐曲ID为主关键字节。

9.根据权利要求7所述的基于内容的数字音乐检索旋律特征数据库，其特征是，所述的音符数据块包括音高特征字节、音长特征字节、表征旋律分段特征位置的特征音符标注字节，其中音高特征字节记录音符音高差值、音长特征字节记录音符起始时刻值，并且若该音符为特征音符时，则该音符的音长特征字节的音长值将被置成负值，同时将在该音符数据块中插入可选标注位，该可选标志位用于记录该特征音符的实际发音长度值。

10.根据权利要求9所述的基于内容的数字音乐检索旋律特征数据库，其特征是，作为音符音高特征的音高差以半音为单位，而作为音符音长特征的音长值则以tick为单位，即定义非特征音符的音符音长值为正的tick数，而如果音符音长值为负值，则表示该音符是一个表征旋律分段位置的特征音符。