CN100397387C

CN100397387C - 数字声音数据的摘要制作方法和设备

Info

Publication number: CN100397387C
Application number: CNB028301307A
Authority: CN
Inventors: 徐常胜
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2002-11-28
Filing date: 2002-11-28
Publication date: 2008-06-25
Anticipated expiration: 2022-11-28
Also published as: AU2002368387A1; CN1720517A; US20060065102A1; JP2006508390A; EP1576491A1; EP1576491A4; WO2004049188A1

Abstract

本发明涉及为数字声音原始数据自动制作摘要，更具体地说是通过从音乐帧(73、74、75、76)中提取特征以分辨纯音乐和声乐(40、60)。设计分类器，利用适应性学习/训练算法(36)决定分类参数(20)，根据分类器将数字声音数据确定为纯音乐或声乐。对于纯音乐，通过计算时间性的、频谱的和倒频谱的特征将音乐内容特性化，以及使用适应性集群方法以根据计算出的特征而建构音乐内容。根据集群结果和基于领域的音乐知识(50，150)而建立摘要(22、24、26、48、52、70、72)。对于声乐，有关声音的特征会被提取并将音乐内容结构化，而类似地，根据结构化的内容和与音乐类型有关的启发式规则而建立音乐摘要。

Description

数字声音数据的摘要制作方法和设备

技术领域

本发明涉及数据分析，例如声音数据索引和分类。更具体地说，本发明涉及为了多种应用(例如基于内容的音乐检索和基于网络的在线音乐分销)而为数字音乐原始数据自动制作摘要。

背景技术

电脑网络和多媒体技术的突飞猛进使得数字多媒体数据集的规模飞速增长。为适应发展，有需要为大量的多媒体数据集制作简明而富信息的摘要，而该摘要应该能在大规模信息组织和处理中最好地收集原本内容里的重要元素。迄今为止，自动建立文字、语音和视像摘要的技术已经提出过很多，并且在不断发展中。然而，音乐摘要的制作指的是确定某一音乐最通俗显著的主旋律部分以代表该音乐且让听众易于识别。因为原始的数字音乐数据是没有特征的位元组，所以音乐摘要的制作与文字、语音和视像摘要的制作相比，是个特别的难题，也因此音乐摘要的制作仅限于高度无固定结构的单一性声音文件的形式。

2001年5月1日公告授予国际商用机器公司(IBM公司)的6,225,546号美国专利涉及音乐摘要的制作，其披露了用于乐器设计界面(MIDI)数据格式的摘要制作系统，该系统利用MIDI乐曲的反复性特征自动识别某一乐曲的主旋律部分。探测引擎利用算法并处理问题，而所用的算法将旋律识别和音乐摘要制作问题模型化为不同的字串处理问题。该系统在乐曲的MIDI格式音轨中识别最大长度而有非平凡的重复的部分。这些部分是乐曲的基本单元，并为候选的乐曲旋律。然而，MIDI格式数据并非经取样的原始声音数据，即不是真实声音。MIDI格式数据在复制声音数据时包含合成器指令(MIDI标记)。具体地说，合成器根据指令将MIDI格式数据变成真实的声音。就乐器和音响效果来说，和真实的声音相比，MIDI数据不能提供一般的重放体验和无限的音色。反过来，MIDI数据是结构化格式，根据其结构易于制作摘要。

因此，MIDI摘要制作在实时重放应用中并不实用。还有能从真实原始数字声音数据中建立音乐摘要的需要。

Beth Logan和Stephen Chu发表的题为“采用关键乐句制作音乐摘要”一文(2000年美国奥兰多关于声音、语音和信号处理的IEEE国际会议文集第2卷749页-752页)中披露的音乐摘要制作方法是通过使用在语音识别应用中已经采用的“梅尔倒频谱(Mel-cepstral)”特征将每首歌参数化实现的。语音识别出的这些特征可以结合许多集群技术一起用来找出声乐演唱乐曲的歌曲结构。之后采用启发式方法提取其中的关键乐句。该摘要制作方法适用于某些类型的声乐演唱音乐，例如摇滚乐或民间音乐，但该方法不大适用于纯音乐类或乐器类音乐，例如古典音乐或爵士乐。“梅尔倒频谱”特征不能唯一反映纯音乐例如器乐这类音乐内容的特点。特别是当要对各种类型的音乐制作摘要时，采用该方法制作的摘要的质量不能满足需要。

为此，需要提供一种为数字音乐原始数据的自动制作音乐摘要的方法，其可应用于所有音乐类型的音乐索引，而用途包括用于实时重放的应用如基于内容的音乐检索和基于网络的音乐分类的音乐检索。

发明内容

本发明各实施例提供了数字声音数据(例如本身结构性很强的音乐原始数据)摘要的自动制作方法。一个实施例提供了为纯音乐和/或声乐(例如古典音乐、爵士乐、流行音乐、摇滚乐或器乐)的声音文件制作摘要的方法。实施例的另一个特征是采用适应性训练算法来设计分类器以识别纯音乐和声乐。实施例的另一个特征是利用适应性集群算法并应用基于领域的音乐知识将音乐内容结构化，从而为纯音乐和声乐建立音乐摘要。

一个实施例给出数字声音原始数据的摘要自动制作方法，该摘要自动制作方法是用作识别数字声音数据中的纯音乐和声乐，该方法通过从音乐帧中提取特征，设计分类器及利用适应性学习/训练算法决定分类参数，及根据分类器将音乐识别成纯音乐或声乐。对于纯音乐，通过计算时间性的、频谱的和倒频谱的特征将音乐内容特性化，根据计算出的特征用适应性集群方法将音乐内容结构化。

根据集群结果和基于领域的音乐知识而建立摘要。对于声乐，提取有关声音的特征，并将音乐内容结构化，同样，根据结构化的内容和与音乐类型有关的启发式规则建立音乐摘要。

本发明一方面提供为数字声音数据制作摘要的方法，其包括以下步骤：分析声音数据从而识别出声音数据的代表而其该代表具有至少一个声音数据的计算特征的特性；根据该代表将声音数据分类成选自至少两种类别的其中一类；以及产生数字声音数据摘要的声信号代表，其中该摘要是取决于所选的类别。

在另一实施例中，分析步骤还可以包括将声音数据分成帧，及叠加帧，和/或分类步骤还可以包括通过从各帧收集训练数据，并由训练计算确定分类参数，将帧分类。

本发明另一个方面提供为数字声音数据制作摘要的设备，该设备包括接收声音数据并分析声音数据从而识别出声音数据的代表而其中具有至少一个声音数据的计算特征的特性的特征提取器；与特征提取器相联系的分类器，用作根据取自特征提取器的代表将声音数据分类成选自至少两种类别的其中一类；以及与分类器相联系的摘要制作器，用作产生数字声音数据摘要的声信号代表，其中该摘要是取决于分类器所选的类别。

在另一实施例中，设备还包括与特征提取器相联系的分割器，用作接收声音文件并将声音数据分割成帧，以及为特征提取器将帧叠加。设备还包括与分类器相联系的分类参数产生器，其中分类器通过从各帧收集训练数据及利用在分类参数产生器中的训练计算以确定分类参数，从而将每一帧分类。

本发明另一方面提供计算机程序产品，其包括能够制作数字声音数据摘要，具有编入介质的电脑可读程序代码装置的电脑可用介质，计算机程序产品包括电脑可读程序代码装置，该装置用于分析声音数据从而识别出声音数据的代表，而该代表具有至少一个声音数据的计算特征的特性；根据代表将声音数据分类成选自至少两种类别的其中一类的电脑可读程序代码；以及用作产生数字声音数据摘要的声信号代表的电脑可读程序代码，其中该摘要是取决于分类器所选的类别。

附图说明

本发明实施例的上述以及其他特征、目的和优点，通过下面结合附图的描述，将便于本领域普通技术人员更好的理解。

图1是本发明实施例产生声音文件摘要的系统框图；

图2是本发明实施例产生声音文件摘要的方法流程图；

图3是本发明实施例图1和图2中分类器产生分类参数的训练过程流程图；

图4是本发明实施例将图2更细化后表示制作纯音乐摘要的流程图；

图5是本发明实施例将图2更细化后表示制作声乐摘要的框图；

图6是本发明实施例将声音原始数据分割成叠加帧的图示；及

图7是本发明实施例图6的帧距离矩阵的二维表示。

具体实施方式

图1是本发明实施例产生声音摘要的系统100的部件和/或模块框图。该系统在分割器114接收声音文件例如音乐内容12。音乐序列12被分割成帧，在特征提取器116从各帧中提取特征。分类器118根据分类参数发生器120提供的分类参数，将被提取特征的帧分类，例如纯音乐序列140或声乐序列160。当音乐内容中没有歌声时定义为纯音乐，有歌声时定义为声乐。声音摘要在音乐摘要器122或124中生成，该音乐摘要器为该类别特地而设的声音内容制作摘要或为被分类器118分类的声音内容制作摘要；声音摘要亦可在声音内容中特定类别的信息的帮助下而计算得出，而声音内容是存储在声音知识模块或者查阅表150中。图1中有两个摘要器，不过只有一种音乐内容时，仅有一个摘要器便可以，譬如当所有声音文件只有一种音乐内容如只是纯音乐或只是声乐。图1中表示的两个摘要器可以实现为两种音乐制作摘要，例如一个是纯音乐摘要器122，一个是声乐摘要器124。之后系统提供声音序列摘要，例如音乐摘要26。

图1中描述的实施例及其方法可以在技术领域中众所周知的计算机体系结构中实现。本发明实施例中的功能可以由硬件或软件实现。就软件而言，该系统的部件通常是执行特定功用或相关功用的过程，包括程序或程序段。就硬件而言，部件是与其他部件一同使用的功能硬件单元。例如，可以是采用分散的电器元件实现的部件，也可以是完整的电子电路的一部分，如专用集成电路(ASIC)。还有众多其他的可能性，及本领域技术人员都知道该系统可实施为软硬件的结合。

个人电脑或服务器就是能够实现上述功能的计算机体系结构的例子。该计算机体系结构包括如具有微处理器的中央处理单位(CPU)、临时存储信息的随机存取存储器(RAM)、永久存储信息的只读存储器(ROM)以及大容量存储装置(例如硬盘驱动器、软盘或光盘只读存储器等)的部件和/或模块。该计算机体系还包括将部件互连的总线以及在部件之间受控制的信息和通信。还通常提供用户输入输出界面，例如键盘、鼠标、麦克风等供用户输入，显示器、打印机、喇叭等用于输出。通常，这些输入/输出界面通过控制器与总线连接并由控制器软件实现。显然，任何数量的输入/输出装置都能在该系统执行。计算机系统一般由常驻CPU的操作系统软件控制管理。现有多个普遍及众所周知的操作系统。本发明的实施例可以在此计算机体系结构中实现。

图2是本发明实施例自动创建声音摘要的系统和/或方法10的部件框图。该实施例从接收输入的声音数据开始。输入的声音数据如声音文件12可以包括例如音乐序列或内容。音乐内容首先在分割步骤14被分成帧。然后在特征提取步骤16中，提取特征如线性预测系数、零交叉率以及梅尔频率倒频谱系数(mel-frequencycepstral coefficients)，这些特征都用来计算并形成各帧的特征向量，以表示音乐内容的特征。整体音乐序列的各个帧的特征向量通过分类器分成类别如纯音乐或声乐。本发明容许使用任何类别数量。分类器18的分类参数20由图3所示的训练/分类过程确定。当分成声音类别如纯音乐40或声乐60后，各类音乐分别制作摘要，最终得到声音摘要26。例如，制作纯音乐摘要的步骤22在图4中详细描述。而制作声乐摘要的步骤24在图5中详细描述。

图3表示发明实施例的产生分类器18(如图2所示)的分类参数20的训练/分类参数过程38的设计框图。分类器18用于将音乐内容识别为不同类别，如纯音乐或声乐。分类器18的分类参数20通过训练过程38确定。训练过程分析音乐训练样本数据，从而找到最理想的方式对音乐帧进行分类，例如声乐类60或非声乐类40。训练声音30应要充分具有统计上的显著性，例如训练数据源于许多的原始资料并包括多种音乐类型。训练样本声音数据也可以分割32成固定长度，并在如图2中的分割器14进行帧的叠加。线性预测系数、零交叉率和梅尔频率倒频谱系数等特征从各帧中提取34。各帧中选出的最有助于分类的特征，例如选择声乐类特征时，该特征最能表示声乐类的特征。通过如隐藏式马尔可夫模型(hidden Markovmodel)、神经网络、支持向量机(support vector machine)等训练算法36将计算得出的特征进行集群，从而产生分类参数20。任何这样的训练算法都能采用，但一些训练算法可能对一些特定的应用更适合。例如支持向量机训练算法可以得到好的分类结果，但是训练时间比其他的训练算法长。训练过程只需要进行一次，也可以进行多次。得出的分类参数用于识别声音内容的不同类别，例如非声乐或纯音乐和声乐。

图4表示制作纯音乐摘要的实施例的设计框图，图5表示制作声乐摘要的实施例的设计框图。制作摘要的目的是对一定的如音乐序列的声音数据进行分析，并将反映音乐主旋律的重要帧提取出来。基于对各帧计算得出的特征，用适应性集群方法对音乐帧及音乐内容的结构进行分组。因为相邻的帧有叠加的部分，叠加部分的长度因应帧的分组而确定。在最初阶段，准确确定叠加部分的长度是很难的。如果集群的结果对帧的分组不理想，则可对叠加部分的长度进行适应性的调整。以下为通常的集群算法的例子：

(1)在分割器114或分割步骤42、62，如图6所示，将音乐信号分割成N个固定长度73、74、75、76，并如图6所示把帧的50％叠加77、78、79，将各帧编号i(i＝1、2、3…、N)，集群初始的集合包括全部帧。步骤42、62的分割过程也可以按图2和图3所示的分割步骤14、32那样进行。

(2)在特地为声音文件的个别类别而设的特征提取步骤44、64中，计算出特征的提取，例如线性预测系数、零交叉率和梅尔频率倒频谱系数形成特征向量：

V_i＝(LPC_i，ZCR_i，MFCC_i)i＝1，2，...，N (1)

其中LPC_i表示线性预测系数、ZCR_i表示零交叉率、MFCC_i表示梅尔频率倒频谱系数。

(3)利用例如马氏距离(Mahalanobis distance)计算每对音乐帧i和j之间的距离：

D_M(V_i，V_j)＝[V_i-V_j]R^-1[V_i-V_j]i+j (2)

其中R是特征向量的协方差矩阵。因为R^-1是对称的，R^-1是半或正矩阵。R^-1可以变成对角矩阵即R^-1＝P^T∧P，其中∧是对角矩阵，P是正交矩阵。根据欧氏距离(Euclidean distance)，公式(2)可化简为：

D_{M} ({\overset{&OverBar;}{V}}_{i}, {\overset{&OverBar;}{V}}_{j}) - D_{\overset{&OverBar;}{c}} (\sqrt{Λ} P {\overset{&OverBar;}{V}}_{i}, \sqrt{Λ} P {\overset{&OverBar;}{V}}_{j}) - - - (3)

因为∧和P可由R^-1直接计算出来，矢量距离计算的复杂性从O(n²)减少到O(n)。

(4)将计算出的距离填入图7所示的二维表示80。矩阵S 80有为全部的帧组合而计算出的相似度准则，因此可通过i和j对帧进行索引，即S的第i第j个元素为D(i，j)。

(5)对于二维矩阵S的每一排，如果任何两帧之间的距离小于之前定义的阈值，例如本实施例中预先确定的阈值为1.0，则帧被组合入同样的集群中。

(6)如果最后的集群结果不理想，就调整两个帧叠加部分的长度，并如图4中箭头45和图5中箭头65重复步骤(2)到(5)。例如在本实施例中，理想结果的意思是集群的数目在集群之后比最初的集群数目少得多。如果结果不理想，则通过改变重叠长度来调较，例如从50％到40％。

对于特定类别的集群，图4描述了制作纯音乐或非声乐摘要的过程，图5描述了制作声乐摘要的过程。图4中，纯音乐内容40首先被分割42成如上所述一定长度并叠加的帧，然后如上所述从各帧中进行特征提取44。提取出的特征可以包括振幅包络、功率频谱、梅尔频率倒频谱系数等，可以表示纯音乐内容在时域、频谱域和倒频谱域的特性。当然还可以从纯音乐内容中提取其他特征以表现其特性，而并不限于上述特征。基于计算得出的特征，用适应性集群46算法将帧组合起来并得到音乐内容的结构。其中分割和适应性集群算法如上所述。如果判断步骤47、69进行过一次后，发现集群结果不理想，则改变帧的叠加关系再次进行分割步骤42、62和特征提取步骤44、64。这些过程在查询步骤47、69重复进行，如箭头45、65所示，直到得到满意的分组结果。集群之后，同样特征的帧组成同样的集群，该集群代表音乐内容的结构。然后根据该结构和基于领域的音乐知识50实现摘要生成48。根据音乐知识，在一部完整的音乐作品中，最独特或具代表性的主旋律会重复出现。

摘要52的长度应足够长，从而能够表现整体音乐的特色。通常，对于三到四分钟的一支乐曲，摘要的长度为30秒合适。生成音乐作品摘要的例子如下：

(1)识别包括最大量的帧的集群。将这些帧编号为f₁，f₂......f_n，其中f₁＜f₂＜......＜f_n；

(2)按照下面的规则，从这些帧中选择最小标号f_i的帧：

m＝1到k，如果帧(f_i+m)和帧(f_j+m)属于相同的集群，i，j∈[1，n]，i＜j，k是确定摘要长度的数字；

(3)帧(f_i+1)，(f_i+2)，......(f_i+k)就是最终的音乐摘要。

图5是实施例的声乐摘要的设计框图。声乐内容60首先分割62成固定长度并叠加的帧，其做法可能是按照上述的方式。为每张帧进行特征提取64。提取出的特征包括线性预测系数、零交叉率、梅尔频率倒频谱系数等，这些特征可表现声乐内容的特性。当然，和上述的非声乐一样，还可以从声乐内容中提取其他特征去表现声乐内容的特性，并不限于上述特征。基于计算得出的特征，锁定有声乐的帧66，删除其他的非声乐的帧。适应性集群算法68用于组合声乐帧，并取得声乐内容的结构。分割和适应性集群算法与上述相同，例如，如果发现集群的结果不理想，则改变帧的叠加关系再次进行分割步骤62和特征提取步骤64。该过程重复进行，如图5所示的判断步骤69和支路65，直到得到满意的集群结果。最后，基于集群结果和与声乐有关的音乐知识50而建立音乐摘要70。

声乐摘要制作过程72与纯音乐的摘要制作过程相似，但有几个区别，其可以作为音乐知识50保存，例如图1中的音乐知识模块或查阅表150。第一个差异是特征提取。对于纯音乐，采用与功率有关的特征如振幅包络和功率频谱，因为与声音有关的特征更能代表纯音乐内容的特征。振幅包络在时间域中计算，功率频谱在频率域中计算。对于声乐，采用与嗓音有关的特征如线性预测系数、零交叉率和梅尔频率倒频谱系数，因为其能更好的代表声乐内容的特征。

纯音乐和声乐摘要制作过程之间的另一个区别是摘要的生成。对于纯音乐，摘要还是纯音乐。但是对于声乐，摘要要从有嗓音的部分开始，还希望有摘要中演唱的音乐名称。一些与音乐类型有关的规则可以作为音乐知识50储存。例如在流行音乐和摇滚乐中，主旋律部分一般以同样的方式重复，没有太大变化。流行音乐和摇滚乐通常遵循同样模式，如ABAB式，其中A表示独唱部，B表示副歌。主旋律(副歌)部分通常跟在独唱部、过渡乐节等之后。然而爵士乐通常包括音乐家的即兴创作，大多数部分都有变化，给确定主旋律部分制造了麻烦。由于爵士乐一般没有副歌，爵士乐的主要部分是独唱部。

实质上本发明的实施例基于实现音乐信息的表示，包括特性相对差值，提供表示、索引和/或检索音乐信息的相对简明和有代表性的手段。可以看出，对于无固定结构的庞大的音乐原始数字资料，这些相对差值提供了相对非复杂构造的代表。

如上所述，提供了为数字声音原始数据制作摘要的方法、系统和计算机程序产品。虽然仅描述了几个实施例。然而对于本领域技术人员来说，在本发明的范围内显然还有许多变化和/或改进。

Claims

1.数字声音数字声音数据摘要制作方法，包括以下步骤：

接收声音数据；

分割该数据；

提取特征，从而确定声音数据的分类参数，该声音数据具有至少一个计算出的能够体现声音数据特点的特征；

根据分类参数将声音数据分入至少纯音乐和声乐中的一种；以及

生成能代表数字声音数据摘要的声信号，其中摘要制作取决于所挑选的类别。

2.如权利要求1所述的方法，其特征在于：分割步骤还包括将声音数据分割成帧，并将帧叠加。

3.如权利要求2所述的方法，其特征在于：分类步骤还包括通过从各帧收集训练数据以及通过利用训练计算确定分类参数，将帧分类。

4.如权利要求3所述的方法，其特征在于：训练计算包括统计学的学习算法，其中统计学的学习算法是隐藏式马尔可夫模型、神经网络或支持向量机。

5.如前述任一权利要求所述的方法，其特征在于：声信号的种类为音乐。

6.如权利要求1-4任意一项所述的方法，其特征在于：声信号的种类为声乐或纯音乐。

7.如权利要求1-4任意一项所述的方法，其特征在于：计算出的特征是振幅包络、功率频谱或梅尔频率倒频谱系数。

8.如权利要求1-4任意一项所述的方法，其特征在于：根据与纯音乐或声乐相关的集群结果和启发式规则生成摘要。

9.如权利要求1-4任意一项所述的方法，其特征在于：计算出的特征是与纯音乐内容或声乐内容有关的线性预测系数、零交叉率或梅尔频率倒频谱系数。

10.用于为数字声音数据制作摘要的设备，包括：

特征提取器，该特征提取器用于接收声音数据并直接分析该声音数据从而确定声音数据分类参数，所述声音数据具有至少一个计算出的能够体现声音数据特点的特征；

与特征提取器联系的分割器，该分割器接收声音文件，以及将声音数据分割成帧，并为特征提取器叠加帧的分割器；

分类器，该分类器与特征提取器联系，用作根据来自特征提取器的分类参数将声音数据分入至少纯音乐和声乐中的一种；以及

和分类器联系的分类参数发生器，其中分类器通过从各帧收集训练数据并通过利用在分类参数发生器中的训练计算确定分类参数，将每一帧分类；

摘要器，该摘要器和分类器联系，用作生成能代表数字声音数据摘要的声信号，其中摘要制作取决于所挑选的类别。

11.如权利要求10所述的设备，其特征在于：训练计算包括统计学的学习算法，其中统计学的学习算法是隐藏式马尔可夫模型、神经网络或支持向量机。

12.如权利要求10或11所述的设备，其特征在于：声信号为音乐。

13.如权利要求10或11所述的设备，其特征在于：声信号为声乐或纯音乐。

14.如权利要求10或11所述的设备，其特征在于：计算出的特征是振幅包络、功率频谱或梅尔频率倒频谱系数。

15.如权利要求10或11所述的设备，其特征在于：摘要器根据与纯音乐或声乐相关的集群结果和启发式规则生成摘要。

16.如权利要求10或11所述的设备，其特征在于：计算出的特征是与纯音乐内容或声乐内容有关的线性预测系数、零交叉率或梅尔频率。