CN1300764C

CN1300764C - 哼唱编曲系统及其方法

Info

Publication number: CN1300764C
Application number: CNB2004100493289A
Authority: CN
Inventors: 施宣辉
Original assignee: Acer Inc; Ali Corp
Current assignee: Acer Inc; Ali Corp
Priority date: 2003-10-16
Filing date: 2004-06-11
Publication date: 2007-02-14
Anticipated expiration: 2024-06-11
Also published as: TW200515367A; TWI254277B; CN1607575A; US20050086052A1

Abstract

一种哼唱编曲系统及其方法，可将输入的哼唱信号编写为标准乐谱再次呈现出来。本发明利用一种统计式的音乐识别法以识别输入的哼唱信号，并将输入的哼唱信号塑造为音乐音符，且决定该输入的哼唱信号中每个音乐音符的音调值。本发明的哼唱编曲系统包含一输入装置、一哼唱数据库以及一统计式哼唱编曲区块，其中输入装置用以接收该输入的哼唱信号，而哼唱数据库则记录有一系列的哼唱数据以供训练音符模型与音调模型，而统计式哼唱编曲区块则将输入的哼唱信号编写为音乐乐谱，输入的哼唱信号内的音符符号藉由单音层级隐藏式马可夫模型所定义，而音符符号的音调值则由高斯混合模型来塑造，藉以输出音乐查询序列以供后续的音乐搜寻步骤中的音乐取回之用。

Description

哼唱编曲系统及其方法

技术领域

本发明涉及一种哼唱编曲系统及其方法，特别是涉及一种可将输入的哼唱信号改编为一种可识别的音乐表现(musical representation)以满足于音乐数据库中完成音乐搜寻任务的需求的哼唱编曲系统及其方法。

背景技术

对于需要四处奔忙于繁忙工作以谋取生活的现代人来说，适度的消遣(recreation)与娱乐(entertainment)乃是让他们的身体得以放松并使他们充满活力的重要因素。音乐通常被认为是一种可使得身体上与精神上压力获得舒缓以及抚慰人们灵魂的花费不高的消遣，随着数字音效处理技术的到来，音乐创作的呈现可存在于各种多变的规则当中，举例来说，音乐的呈现能以模拟的方式被保留在声音的录音带中，或者，也可被重新制作为数字音效的形式，而有利于散布在例如因特网这样的网际空间中。

由于音乐的盛行，有越来越多的音乐爱好者享受于在音乐商店中寻找音乐某一片段，且大部分的人都仅是知道他们想找的音乐中某几个较显著的片段而已，而并非真的了解整个音乐片段的特点，因此，音乐商店内的销售员就不知道顾客要找的是什么，也无法帮助顾客找到他们想要的音乐。如此一来，将会导致寻找音乐作品的过程中浪费太多时间，也因此带给音乐爱好者很大的困扰。

为了加速音乐检索的过程，「哼」与「唱」提供了一种最自然且最直接的方式以在音乐数据库中进行以内容为搜寻基准的系统查询(简称CBMR，Content-based Music Retrieval)。随着数字音效数据以及音乐呈现技术的快速成长，已经可自动的将声音讯号(acoustic signal)编写旋律而成为乐谱表现出来。利用一个综合以及较方便使用者使用的音乐查询系统，音乐爱好者可通过轻声哼唱所需要的音乐片段的主旋律的方式，轻易且有效率地在一个大型音乐数据库中找到他所想要的音乐片段，如此的通过使用者哼唱而获得音乐的音乐查询系统通常就是所谓的哼唱式查询(query by humming，QBH)系统。

较早期的QBH系统的其中之一是由葛希雅斯等人(Ghias et al.)在1995年所提出的。葛希雅斯等人提出了一种藉由自动关联算法(auto-correlation algorithm)来计算出音调区间(pitch period)以进行音乐查询的方法。另外，葛希雅斯等人的研究成果也已获得美国专利权(US5,874,686)，兹列于此以供参考。在此参考文献中，该技术提供一种QBH系统，其包含了一哼唱输入装置、一音调追踪装置、一查询引擎以及一旋律数据库。以葛希雅斯等人的研究为基础的QBH系统利用自动关联演算的方式追踪音调的信息，并将所哼唱的信号转换成粗略的旋律轮廓(melodiccontours)。包含转换为粗略旋律轮廓形式的乐器数字接口(MusicalInstrument Digital Interface，MIDI)文件的旋律数据库则用来供以进行音乐取回(music retrieval)，当然，在音乐检索的过程中，亦会利用以动态编程技术(dynamic programming technology)为基础的近似弦法(approximate string method)。然而，在上述参考文献中所介绍的通过人们哼唱接口所进行的音乐查询方式存在着很明显的问题，该问题就在于其所披露的技术仅仅是利用由音调流(pitch stream)所转换成的U、D、R形式(分别代表此音符高于、低于或是相等于前一个音符)的音调轮廓(pitchcontour)来表现旋律，但是，这样将会使得旋律的数据太过简略而导致无法正确的区别出音乐来。

其它不断对葛希雅斯等人所研究的QBH系统进行改进的专利文献以及学术刊物摘录如下。芬(Finn)等人在2003年的美国专利公开申请US PatentPublication No.2003/0023421中，提出了一种通过音乐文件数据库而有效进行音乐搜寻的装置。芦烈(Lie Lu)、尤鸿(Hong You)以及张宏江(Hong-Jiang Zhang)则在他们的文章“音乐检索中一种哼唱找歌的新方法”(A new approach to query by humming in music retrivel)中描述了一种使用由三连音符(triplet)以及分级音乐匹配法(hierarchical musicmatching method)所组成的新颖音乐表现的QBH系统。张智星(J.S.RogerJang)、李宏儒(Hong-Ru Lee)、以及高名扬(Ming-Yang Kao)则在他们的文章“一种利用线性变化与分支界限树搜寻的音乐内容查询”(Content-based music retrieval using linear scaling andbranch-and-bound tree search)中披露了一种音乐内容检索系统，其是通过使用线性变化(Linear scaling)与树状搜寻的方式，以有利于输入音调序列与预期歌曲之间的比对，并且加速最邻近搜寻(nearest neighborsearch，NNS)的流程。罗杰·麦可纳柏(Roger J.McNab)、瑞德·史密斯(Lloyd A.Smith)、以及安·威顿(Ian H.Witten)则在他们的文章“旋律编写的信号处理”(Signal processing for melody transcription)中述及一种关于旋律编写系统的声音信号处理。这些以上所述的已知技术皆完整地连同本发明的技术提供出来以供参考。

尽管过去一段时间里，各界都在致力于提升QBH系统的表现，但是必然地，在哼唱识别(humming recognition)的准确度上仍是有部分障碍无法克服，而因此也影响了QBH系统的可行性。一般来说，大多数已知的QBH系统乃是利用非统计信号处理来执行音符识别(note identification)与音调追踪程序。这些包含了以时间领域(time domain)、以频率领域(freqoencydomain)，以及以倒频谱领域(cepstral domain)为基础的各种方法，且大部分的已知技术大多较着重于利用时间领域为基础的方法。例如，葛希雅斯等人与张智星等人是利用自动关联方法来计算音调周期，而麦可纳柏等人则是将金-瑞宾勒算法(Gold-Rabiner algorithm)应用于经由能量为基础的分割法(energy-based segmentation)来取得的音符区段(note segment)的重迭帧(overlapping frame)上。就每个帧来说，这些运算法会产生出最大能量的频率，最后，再依这些帧层级值(frame level values)的长条形统计图(histogram statistics)来决定音符频率。利用这些非统计信号处理方法所产生的主要问题就在于对交叉对话的差异(inter-speakervariability)以及其它信号失真(signal distortion)上的强健度。使用者，尤其是那些拥有极少或根本没有过音乐训练的人，哼唱时的精确度(即指在音调与节拍上)一直在改变，因此大部分的测量方法皆倾向于仅使用一粗略的旋律轮廓，例如标示为升高/稳定/下降(rising/stable/falling)的相对音调变化。如此的音乐呈现虽然可使得将用来作为音乐查询及检索的音乐呈现中具有的潜在错误减到最少，但此方法的调适能力(scalability)仍是有限的，特别是，这类的音乐呈现太过粗略以致于无法适用于较高的音乐知识中。另一个非统计信号处理运算法所伴随的问题在于缺少实时(real-time)处理能力。大部分这些已知技术中的信号处理运算法皆须依靠缓冲的完全发声层级特征(full utterance level feature)来进行量测，因此才会限制住了实时处理(real-time processing)的能力。

本发明特别着重于提供一种划时代的技术，其是利用一统计式的哼唱编曲系统来将哼唱信号编成音乐查询序列。以下将详细地披露本发明的完整技术内容。

发明内容

本发明的目的为提供一种哼唱编曲系统及其方法，其实现了音乐搜寻与检索工作的前置处理。

本发明的另一目的为提供一种哼唱编曲系统及其方法，其是使用统计式哼唱识别方法将一输入的哼唱信号编写为可识别的乐谱图案。

本发明的又一目的为提供一种以统计塑造过程(statistical modelingprocess)为基础将输入的哼唱信号编写为音乐乐谱呈现的系统及其方法。

概括地说，本发明披露了一种统计式的哼唱识别与编曲方法，其可应用于哼唱信号以接收一哼唱信号并将该哼唱信号编写为乐谱呈现出来。更详细地说，该统计式的哼唱识别与编曲方法主要目的在于为哼唱信号提供一种数据驱动(data-driven)与音符层级(note-level)的译码装置。根据本发明的应用于哼唱编曲系统的哼唱编曲技术，其中该哼唱编曲系统包含一输入装置用以接受一哼唱信号、一哼唱数据库以记录一系列的哼唱数据，以及一哼唱编曲区块以将该输入哼唱信号编写为一音乐序列。其中，该哼唱编曲区块还包含一音符分割平台与一音调追踪平台，该音符分割平台是以音符模型产生器所定义的音符模型为基础来分割该输入哼唱信号中的音符符号，以及利用哼唱数据库中的哼唱数据来进行训练，其中音符模型产生器可为一高斯混合模型的隐藏式马可夫模型系统(GMM/HMM system)，并且该音符模型产生器可进一步定义出一寂静模型。而该音调追踪平台则以一统计模型，例如高斯模型(Gaussian Models)，所定义的音调模型为基础来决定该输入哼唱信号中的每一音符符号的音调以及利用哼唱数据库中的哼唱数据来进行训练。

本发明的另一目的则与一种将哼唱信号编写为音谱呈现的哼唱编曲方法有关。根据本发明所提出的哼唱编曲方法包含以下步骤：编译一哼唱数据库，其包含一系列的哼唱数据；输入一哼唱信号；根据一音符模型产生器所定义的音符模型分割该哼唱信号为多个音符符号；以及以一统计模型所定义的音调模型为基础决定每个音符符号的音调值。其中音符模型产生器可为一高斯混合模型的单音层级隐藏式马可夫模型系统(phone-level GMM/HMMsystem)，并且该音符模型产生器可进一步定义出一寂静模型。而统计模型为高斯模型(Gaussian Models)。

本发明的上述或其它特征与优点通过以下结合附图对本发明实施例的描述可以更深入的了解。

附图说明

图1为本发明哼唱编曲系统的概略系统图。

图2为本发明实施例的哼唱编曲区块结构的作用区块示意图。

图3为以“da”作为基本声音单元的哼唱信号的对数能量图。

图4为显示一三态左-右的单音层级隐藏式马可夫模型(phone-levelHidden Markov Model，HMM)的结构示意图。

图5为显示一三态左-右的HMM寂静模型的拓朴排列示意图。

图6为显示由音调区间D2至U2的高斯模型示意图。

图7为本发明的实施例中音乐语言模型设置于哼唱编曲区块的示意图。

附图符号说明

10：哼唱编曲系统 12：哼唱信号输入接口

14：哼唱编曲区块 16：哼唱数据库

21：音符分割平台 211：音符模型产生器

212：持续时间模型 213：音符译码器

22：音调追踪平台 221：音调检测器

222：音调模型

具体实施方式

本发明的哼唱识别与编曲系统及其方法所发展出来的实施例将详细说明于后。

请参考图1，本发明的哼唱编曲系统(humming transcriptionsystem)10包含一哼唱信号输入接口(humming signal input interface)12，通常是麦克风或任何一种声音接收装置，其是通过使用者的“哼”或“唱”来接收声波信号。其中，如图1所示，哼唱编曲系统10最好的情形是设置于计算器内，例如个人计算机(未图标)等，然而，可变化的，哼唱编曲系统10也可独立地设置于计算器外然后再通过相互连接接口来与计算器相连接。这两种实施的方式皆可包含于本发明所提出的技术方案的范畴中。

根据本发明，由哼唱信号输入接口12所接收的一输入哼唱信号被传送至哼唱编曲区块(humming transcription block)14中，而该哼唱编曲区块14可藉由塑造音符分割以及决定该输入哼唱信号的音调信息的方式，将该输入哼唱信号编写为标准音乐呈现出来。哼唱编曲区块14为典型的统计装置，其是利用统计运算法来处理该输入哼唱信号以及产生一音乐查询序列，该序列同时包含了旋律轮廓(melody contour)以及持续时间轮廓(durationcontour)，换句话说，哼唱编曲区块14的主要作用就是对哼唱信号执行统计式的音符塑造与音调检测，以使得哼唱信号得以于稍后在音乐数据库(未图标)的音乐索引与查询中进行音符编曲与弦图案识别。进一步地，根据已知技术的哼唱识别系统，是利用一单一平台译码器(single-stage decoder)来识别哼唱信号，以及利用单一隐藏式马可夫模型(HMM)来仿真音符的两个特征，也就是指持续时间(即一个音符的弹奏时间长短)以及音调(即一个音符的音调频率)。藉由将音调数据包含于音符的HMMs模型，已知技术的识别系统则必须处理大量的HMMs才能为不同的音调区间(pitch interval)进行计算。也就是说，每一个音调区间都需要一个HMM，由于加入了所有可能的音调区间，所需要的训练数据便变多了。为了克服已知技术的哼唱识别系统的缺点，本发明提出了一种哼唱编曲系统10，其可于较低计算的复杂度以及较少的训练数据来进行哼唱编曲。为此，本发明的哼唱编曲系统10的哼唱编曲区块14是以包含一音符分割平台(note segmentation stage)与一音调追踪平台(pitch tracking stage)的双平台音乐编曲模块(two-stagemusic transcription module)所组成。其中该音符分割平台用以识别该输入哼唱信号的音符符号，且以统计模块来检测该输入哼唱信号中每一音符符号的持续时间，以建立该输入哼唱信号的持续时间轮廓(duration contour)。而该音调追踪平台则用以在该输入哼唱信号的每半音之间追踪音调区间，并决定该输入哼唱信号中每一音符符号的音调值，以建立出该输入哼唱信号的旋律轮廓。通过统计式信号处理以及音乐识别技术的协助，以获得一个与需要的音乐片段最相近的音乐查询序列，以于后续的音乐搜寻与检索工作可容易地完成音乐查询。

为了帮助在哼唱识别技术领域中的技术人员能进一步地了解本发明内容并明了本发明的技术特征与所提出的已知技术之间的明显差异，以下将以示范性的实施例来说明，进而以意涵较深的方式来公开本发明所提出的哼唱编曲技术的核心。

请参考图2，其为本发明的实施例的哼唱编曲区块的详细实施的示意图。如图2所示，本发明的实施例的哼唱编曲区块14可进一步区分成数个模块件，其包含一音符模型产生器(note model generator)211、持续时间模型(duration models)212、一音符译码器(note decoder)213、一音调检测器(pitch detector)221以及音调模型(pitch models)222，这些模块件的结构与操作方式将逐步地说明于后。

1.哼唱数据库16的准备：

根据本发明了提供一哼唱数据库(humming database)16，其记录了一系列的哼唱数据以训练单音层级音符模型(phone-level note models)与音调模型(pitch models)。在此实施例中，包含在哼唱数据库16中的哼唱数据是收集自九位哼唱者，其中包含四位女性与五位男性。这些哼唱者被要求要利用一停顿子-元音音节(stop consonant-vowel syllable)作为基本的声音单位来哼出特定的旋律，例如是“da”或“la”，然而，亦可使用其它种类的声音单位。每一位哼唱者被要求要哼出三种不同的旋律，包含了一段升音C大调(ascending C major scale)、一段降音C大调(descending C majorscale)以及一段短的童谣。这些哼唱数据的录制工作在安静的工作环境下利用高品质接近对话式苏尔麦克风(high-quality close talking Shuremicrophone)(型号为SM12A-CN)在44.1千赫兹(kHz)以及高品质录音器来完成，且所录制的哼唱信号被送到计算机并且在8kHz下低通滤波以消除噪声以及其它在正常人哼唱范围之外的频率成分，接着，将信号进行下采样为16kHz。值得注意的是，在准备哼唱数据库16的过程中，其中之一的哼唱者的哼唱在经过非正式的聆听后会被认为极不正确，因此该哼唱者的哼唱数据就会被排除在该哼唱数据库16之外，这是因为该哼唱者所哼唱出的旋律并无法让大多数的听者识别出来其所代表的是哪一个预定旋律，因此需要将该部分的数据予以移除以避免降低了识别准确度。

2.数据编写：

如同一般所熟知的技术，假设哼唱信号为音符的序列，为了实现受监督的训练(supervised training)，这些音符会由听者来分割并予以记号。手动的分割音符的考虑为了提供信息给音调塑造以及与自动式的方法来进行比较。实际应用时，很少有人能以完美的音调能力来哼出所想要的特定音调，例如440赫兹的“A”音符。因此，使用绝对音调值(absolute pitch value)来分类音符的方式并不被认为是一个可行的选择。本发明提供一种较健全且普遍的方式，以着重于旋律轮廓中音调值的相对变化。如同前面所述，一个音符中具有两个很重要的特征，那就是音调(以声音的基础频率为评量)与持续时间。因此，音调区间(相对的音调值)可代替绝对音调值来将哼唱片段(humming piece)予以分类。

相同的分类方式也可被应用于分类音符的持续时间上。人类的耳朵对于音符的相对持续时间变化相当敏感，所以持续追踪每个音符的相对持续时间变化比持续追踪每个音符的正确持续时间来得有效。因此，持续时间模型212(其结构与操作将概述于后)可利用相对的持续时间变化来持续追踪哼唱信号中每一个音符的持续时间变化。关于音调分类的方式，目前有两种音调分类方法可用来供旋律轮廓使用，第一种就是以第一个音符音调作为参考来分类接下来的哼唱信号中的序列音符，以“R”来代表该参考音符，并以“Dn”与“Un”来分别代表低于或是高于该参考音符n个半音的音调。举例来说，一个do-re-mi-fa的哼唱信号就会被标记为“R-U2-U4-U5”，而一个do-ti-la-sol的哼唱信号就会被标记为“R-D1-D3-D5”，其中“R”为参考音符、“U2”则代表此音调值高于该参考音符两个半音，而“D1”则代表此音调值低于该参考音符一个半音。其中，接在“D”或“U”之后的数字是可改变且是根据哼唱数据而定。第二种音调标记的方法则以人类对于邻近音符的音调值会比第一个音符来的敏感的基本理论为基础，于是，do-re-mi-fa的哼唱信号就会被标记为“R-U2-U2-U1”而do-ti-la-sol的哼唱信号则会被标记为“R-D1-D2-D2”，其中利用“R”来标记第一音符，因为它并没有一个前置音符作为参考。所有的哼唱信号都会通过上述的两种标记方式所标示，且所包含的编曲内容也会记出每个音符符号的开始与结尾。这些数据被储存在分别的文件中，且会利用于受监督的单音层级音符模型的训练(单音层级音符模型的结构与操作方法及其训练过程将会于后面详述)以及提供参考编曲以评估识别结果。虽然以上的两种标记方法已被研究过，在本发明的实施例中，仅会利用第二种方法来分割以及标记该输入哼唱信号，其原因在于第二标记方法可根据试验结果而提出粗略的结果。

3.音符分割平台：

哼唱信号处理的第一个步骤就是音符分割(note segmentation)。在本发明的实施例中，哼唱编曲区块14提供一音符分割平台21以完成哼唱信号音符的分割操作。如图2所示，该音符分割平台21包含音符模型产生器21、持续时间模型212以及音符译码器213，而且由该音符分割平台21所执行的音符分割过程一般可区分成音符识别(译码)过程与训练过程。这些组件的结构与运作方式以及音符分割过程的细节将叙述于后：

3.1音符特征的选取：

为了实现一个强健而有效的识别结果，单音层级音符模型需经由哼唱数据的训练，才得以使音符模型产生器211(隐藏式马可夫模型，其结构与功用将详述于后)再次呈现哼唱信号内的音符。因此，音符特征在单音层级音符模型中的训练过程是需要的，选择良好的音符特征是求得良好的哼唱识别表现的关键。既然人声哼唱的产物是与谈话信号相似，用来在自动语音识别(automatic speech recognition，ASR)中识别音位的特征便被认为可用来塑造哼唱信号内的音符。这些音符特征是由该哼唱信号粹取出来以形成一特征组，这些使用于本发明实施例中的特征组为一个39个元素所组成的特征向量(39-element feature vector)，其包含了12个Mel-频率声谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)、一个能量量测以及他们的一次导函数与二次导函数。这些特征的本性(instinct)将描述如下。

利用MeL-频率声谱系数来描绘出哼唱音符的声音形状，其中MeL-频率声谱系数是藉由人类听觉机制所激发的非线性分析滤波器组(non-linearfilterbank)所获得，这些系数在自动语音识别中是很普遍被利用到的特征。利用MFCCs来仿真音乐的应用的技术已经在发表于2000年罗根(Logan)在音乐信息取回国际座谈会上(International Symposium on MusicInformation Retrieval)的文章“应用于音乐塑造的Mel-频率声谱系数(Mel-Frequency Cepstral Coefficient for music modeling)”中披露，声谱分析可将多重性的信号(multiplicative signal)转换成累加性的信号(additive signal)，而哼唱信号的声道特性(vocal tract properties)与音调周期效应(pitch period effects)会在频谱区域(spectrum domain)内被相乘在一块。因为声道特性有较慢的变化率，他们会落在倒频(cepstrum)的低频率区域中，相反地，音调周期效应则会集中在倒频的高频率区域中。将低通滤波应用于Mel-频率声谱系数便可提供声道特性，虽然，应用高通滤波于Mel-频率声谱系数会产生音调周期效应，但其分辨率尚不足以估算出音符的音调。因此，便需要其它的音调追踪方法，才能获得更好的音调估算，这部分将于后述内容中再作讨论。在本实施例中，是利用了26个分析滤波频道，且选定了最先的12个Mel-频率声谱系数作为特征。

能量量测在哼唱识别中是一个很重要的特征，特别是其可提供音符时间性的分割，以定义音符边界的方法将哼唱片段中的音符予以分割，进而获得哼唱信号的持续时间轮廓(duration contour)，而对数能量值则可由哼唱信号{Sn，n＝1，N}输入下列方程式而得

E = \log Σ_{n - 1}^{N} {S_{n}}^{2}

(方程式1)

一般来说，于一音符转调为另一音符的过程中，能量会发生明显的变化。如果哼唱者被要求利用以一停顿子音(stop consonant)与一元音(vowel)所组成的基本声音(例如“da”或“la”)来哼唱，这种能量明显变化的效应便会特别的剧烈。使用“da”的哼唱信号的对数能量图显示于图3之中，其中能量落差代表了音符的变化。

3.2音符模型产生器：

在哼唱信号处理的过程中，输入的哼唱信号被分割成为多个帧(frame)，且由每个帧中取出音符特征(note features)。在该实施例中，当取得所代表哼唱信号的音符特性的特征向量后，音符模型产生器211便定义出该音符的模型，用以塑造哼唱信号的音符以及利用已获得的特征向量为基础来训练音符模型。此音符模型产生器211设置于具有高斯混合模型(GaussianMixture Models，GMMs)的单音层级隐藏式马可夫模型(Phone-Level HiddenMarkov Models，HMMs)系统(GMM/HMM system)中，以便观察HMM内各状态的信息。单音层级HMMs利用与音符层级HMMs相同的结构以找出一部份的音符模型。通过使用HMM便可塑造出一音符的时间状态(temporal aspect)，特别是处理的时间弹性(time elasticity)。这些相应于HMM内的状态占用(state occupation)所产生的特征藉由两个高斯参数所组成的混合模型来塑造。在本发明的实施例中，可利用一个三态的左-右HMM(3-stateleft-to-right HMM)来作为音符模型产生器211，且其拓朴排列就如同图4所示。将单音层级HMM的概念应用于哼唱信号与应用在语音识别中的概念非常相似。因为一个停顿子音与一元音具有非常不同的声学特性，因此就可定义两个单音层级HMM为“d”与“a”，而将定义为“d”的HMM用来塑造哼唱信号的停顿子音，定义为“a”的HMM则用来塑造哼唱信号的元音，如此哼唱信号便可通过接在“a”之后“d”的HMM组合来再次呈现出来。

另外，当哼唱信号被哼唱信号输入接口12所接收时，背景噪声与其它的失真可能会造成音符分割错误的发生。在进一步的实施例中，可使用具有唯一状态以及双重朝前连结(double forward connection)的强健寂静模型(robust silence model，或休止模型(“Rest Model”))，且将其应用在单音层级HMMs 211中，以抵消由噪声与失真所造成的不利效应。三态左-右HMM的寂静模型的拓朴排列如图5所示，在此新的寂静模型之中，由状态1至状态3以及随后由状态3至状态1的额外转调(transition)加入至原有的三态左-右HMM之中。藉由如此的设计，该寂静模型可让每个模型在无须退出该寂静模型下吸收有冲动力的噪声(impulsive noise)，此时，一个一态短停顿“sp”模型(1-state short pause“sp”model)便得以形成，也就是所称的准备模型(tee-model)”，该准备模型具有由进入节点(entrynode)到出口节点(exit node)的直接转调(direct transition)。此发射状态(emitting state)是与新寂静模型的中央状态(center state)(状态2)绑在一起，就如同命名的意涵，在旋律中的“休止(Rest)”符号将由寂静模式的HMM所再次呈现出来。

3.3持续时间模型：

本发明是以相对持续时间变化代替绝对持续时间值来应用于持续时间标记的过程(duration labeling process)中，音符的相对持续时间变化是将前一音符为基础，其是以下列方程式计算而得：

(方程式2)

在编曲区块14的音符分割平台21中，持续时间模型212提供用来自动的塑造每个音符的相对持续时间。就持续时间模型212的格式来看，假设哼唱信号的最短音符是一个32阶音符，那么所有的11个持续时间模型便会是-5、-4、-3、-2、-1、0、1、2、3、4以及5，以涵盖一整个音符至第32阶音符间可能出现的所有差异。值得注意的是，持续时间模型212并未使用来自于哼唱数据库16的统计持续时间信息，其原因就在于哼唱数据库16对于所有可能的时间持续模型可能没有足够的哼唱数据。然而，持续时间模型212则可由哼唱数据库16所收集到的统计信息为基础而建立起来，因此利用高斯混合模型(GMM)来仿真音符的持续时间为一种可行的方法。

接着，以下将讨论单音层级音符模型的比对过程以及音符识别过程。

单音层级音符模型的训练过程：

为了利用隐藏式马可夫模型的优点，评估于可能观察的数据组内每一观察数据的可能性是非常重要的。为此，一个有效率且强健的再评估程序(re-estimation procedure)则用来自动性地决定音符模型的参数。只要提供足够数量的音符训练数据，所建构的隐藏式马可夫模型(HMMs)便可用来呈现音符。这些HMMs的参数是在使用最大概似法(maximum likelihoodapproach)连同包尔-威曲再评估公式(Baum-Welchre-estimation formula)的受监督训练过程(supervised training process)中被估算出来。确定HMM参数的第一步骤就在于初步地推估出他们的数值，接着利用包尔-威曲运算法来提高那些初始值于最大概似方向(maximum likelihood sense)的准确度。关于音符模型的建立，例如停顿子音模型“d”以及元音模型“a”，其是如前述一般利用自哼唱信号中所萃取出的特征向量，经由音符模型产生器211分别定义出代表停顿子音“d”的单音层级的HMM模型以及代表元音“a”的单音层级HMM模型，并且进一步定义出一寂静模型来消除噪音与噪声对哼唱信号的干扰。在训练的过程中，一个初始的三态左-右HMM预测模型是使用于前两个包尔-威曲选代法(Baum-Welch iteration)中以启动该寂静模型，取自于寂静模型中的准备模型(“sp”模型)以及一向后3-1状态的转调(backward 3-to-1 state transition)则会于第二包尔-威曲选代法之后被加进来。

音符识别过程：

在哼唱信号处理的识别阶段中，相同帧尺寸以及具有相同特征的帧均是由一输入哼唱信号萃取出来。在音符识别过程中的两个步骤，即音符译码(note decoding)与持续时间标示(duration labeling)，为了能在第一步骤中就识别出一个未知的音符，产生音符的每个模型的相似度(likelihood)会先被计算出来，而相似度最高的模型就会被选来代表该音符，当音符被译码之后，该音符的持续时间就会对应地被标记起来。

就音符译码的过程而言，音符译码器213，特别是应用维特比解码运算法(Viterbi decoding algorithm)的音符译码器，被拿来应用于音符译码的过程中，该音符译码器213可藉由找出最大概似度(maximum)的模型的序列状态来识别以及输出音符符号流(note symbol stream)。

持续时间的标记过程的操作如下所述。当音符被分割之后，相对持续时间变化就会经由前述的方程式2而被计算出来。接着，音符区段的相对持续时间变化就会根据持续时间模型212来做标记。音符区段的持续时间标记是由整数代表，该整数最接近所计算出来的相对持续时间变化。换句话说，如果相对持续时间变化被算出为2.2，那么此音符的持续时间便会被标记为2，当然，第一个音符持续时间会被标记为“0”，这是因为第一音符并不具有前一参考音符。

4.音调追踪平台：

在哼唱信号内的音符符号被识别且被分割后，其所产生的音符符号流便会被传送至音调追踪平台22以决定每个音符符号的音调值。在该实施例中，音调追踪平台22是由一音调检测器221与一音调模型222所组成。关于音调检测器221的功用与操作以及音调模型222的结构概述如下。

4.1音调特征选取：

第一泛音(first harmonic)，就是一般所熟知的基础频率或音调，提供了最重要的音调信息。音调检测器221可计算给予一音符区段(a wholenote segment)的音调的音调中位数(pitch median)。因为有噪声的缘故，在同一音符区段内所检测到的音调值将会出现随帧不同而异的变异性(frame-to-frame variability)。因为疏远的音调值会移动至距目标值非常远的位置上，取其平均值并不是一个好的办法，而根据本发明技术的实施例，就可证明了以音符区段的音调中位数值来做为代表应当是比较好的选择。

偏离的音调值相同的也会影响音符区段的标准差(standarddeviation)。为了克服这个问题，这些偏离的音调值应被退回到大部分音调值所属于的范围内。既然介在两个不同音符之间的最小值是一个半音，就可避免与中位数的差异超过一个半音以上的音调值会出现明显漂移的现象，而漂移超过一个半音的音调值也会被退回至中位数，接着，再计算标准差。由于，音符的音调值在频率领域中并不是呈现线性变化，事实上在对数频率领域中的分布中才是呈现线性变化，而且在对数尺度内计算标准差才是比较合理的，因此，音符区段的对数平均值(mean)与对数标准差便可通过音调检测器221而计算出来。

4.2音调分析：

本发明的音调检测器221是使用一短时自动关联运算法(shortautocorrelation algorithm)来引导出音调分析，使用短时自动关联运算法的优点在于，与其它目前的音调分析程序相比，短时动关联运算法具有较低的计算成本。以帧为基础的分析是于20毫秒(msec)的帧尺寸(其中有10毫秒(msec)的部分重迭)的音符区段上进行，分割音符的多重帧则可应用于音调模型的分析中。在这些帧进行自动关联后，便可取得音调特征，而这些所选取出来的音调特征包含帧的第一泛音、音符区段的音调中位数以及音符区段的音调对数标准偏差(log standard deviation)。

4.3音调模型：

音调模型222则是以半音为单位用来量测两邻近音符的半音差异。音调区间是藉下列方程式而获得：

(方程式3)

上述的音调模型涵盖了音调区间的两个八度音阶(octave)，其是从D12半音到U12半音。音调模型具有两个特质：即区间的长度(the length of theinterval，也就是半音的数目)以及区间内的音调对数标准差(pitch logstandard deviation)，且这两个特质皆利用高斯方程式来塑造。音调区间的边界信息与实地调查(ground truth)都是通过手动编曲来获得，并将所计算出来的音调区间与标准偏差予以收集，其中音调区间与标准偏差都是以实地调查的音调区间为基础而计算出来。

接着，以所收集到的信息为基础来组构出一高斯模型。请参阅图6，其是显示由D2半音到U2半音的音调区间的高斯模型，由于有效训练数据的限制，并不是每一个可能被两个八度音阶所涵盖的区间都会存在。假模型(pseudo models)就是用来填补所错过的音调模型的孔洞，n个区间的假模型是以U1的音调模型为基础，且音调区间的均值(mean)是移动至第n个音调模型的预测中心(predicted center)。

4.4音调检测器：

音调检测器221检测音调的变化，该变化就是对于前一音符的分割音符的音调区间。哼唱信号的第一音符通常是被标记为参考音符，且原则上并不需要对其进行检测，然而，该第一音符的音调却仍会被计算以做为参考，而哼唱信号的较后来的音符则会以音调检测器来检测，以计算出音调区间与音调对数标准差。这些计算出来的音调区间与音调对数标准偏差就可用来选取具有最高相似度数值的最佳模型以将其当作是检测到的结果。

5.编曲的产生：

经过音符分割平台21与音调追踪平台22的处理之后，哼唱信号就具有了编曲所需的所有信息。哼唱片段的编曲会产生一个长度为N的序列，其具有每个符号的两个特质，其中N代表了音符的数量，而这两个特质就是音符的持续时间变化(或是相对持续时间)以及音符的音调变化(或是音调区间)。因为“休止(Rest)”音符并不具有音调值，因此在音调区间特质中会标记为“休止”。以下是以“生日快乐歌(Happy birthday to you)”的前两个小节为例而作说明。

数字式的音乐乐谱：|1 1 2|1 4 3|

Nx2编曲：

持续时间变化：|0 0 1|0 0 1|

音调变化：|R R U2|D2 U5 D1|

6.音乐语言模型：

为了能进一步地改善哼唱识别的准确性，可加入音乐语言模型至哼唱编曲区块14中。就如同自动语音识别(ASR)领域的技术人员所知，语言模型用以改善ASR系统的识别结果。字符预测(word prediction)是一种广泛受到使用的语言模型，其是以前一字符的出现情况为基础，就如同说话语言(spoken language)以及书写语言(written language)，音乐也可有自己的文法以及规则，即所谓的音乐理论(music theory)。如果将音乐音符认定为说话字符，那么音符预测(note prediction)就是可预期的(predictable)。在实施例中，N阶模型(N-gram model)就是以前面N-1音符的统计外貌(statistical appearance)为基础，来预测目前音符的外貌。

下列说明是以「可利用来自于音乐数据库所习得的统计信息来塑造音乐音符序列」的假设为基础。该音符序列可包含音调信息、持续时间信息或是同时包含两者，一个N阶模型则被设计来采用于不同层级的信息。请参阅图7，其为音乐语言模型设置于本发明的哼唱编曲区块内的位置的示意图。如图7所示，举例来说，一N阶持续时间模型231(N-gram duration model)被设置在音符分割平台21的音符译码器213后端，以便以前一音符的相对持续时间为基础预测出目前音符的相对持续时间，同时一N阶音调模型(N-grampitch model)232亦可设置于音调追踪平台22的音调检测器221后端，以便以前一音符的相对音调为基础而预测出目前音符的相对音调。另一种组态为，当音符的音调与持续时间被识别出来之后，一N阶音调与持续时间模型(N-gram pitch and duration model)233可设置于音调检测器221的后端。以本发明的实施例为基础，值得注意的是，这些音乐语言模型是来自于真实的音乐数据库。N阶音乐语言模型的另一种解释则藉由以一倒退与折扣二元接续(backoff and discounting bigram)(N-元中的N乃等于2)为例而概述于后。

该二元接续的可能性是以10为底数的对数来计算。应用两个八度音阶所涵盖的25个音调模型(D12、D11、...R...、R11、R12)于音调预测的过程中，提供一个已取得的音符区段的音调特征，每个音调模型的机率就可藉由以10为底数的对数来计算出来，其中i与j都是1～25(25个音调模型)的正整数，且i与j为音调模型的指数(index number)。定义于以下的公式可决定最相似的音符序列：

\max_{i} P_{note} (i) + β P_{bigram} (j, i)

(方程式4)

其中P_note(i)是第i音调模型的机率，p_bigram(j，i)是接在第j音调模型之后的第i音调模型的机率，而β则是此文法公式的纯量(scalar)，其中该β决定了影响音调模型选取的二元接续的权重，而方程式4则用以选出具有最大机率的音调模型。

本发明的哼唱编曲系统已完整的描述于前，其应足以使本领域的技术人员能够实施本发明的哼唱编曲系统，并且可以执行本发明所建议而教导出的音乐识别运算法。

综上所述，本发明提供了一种与说话者无关的统计式哼唱识别方法。单音层级隐藏式马可夫模型可对哼唱音符做较佳的特性描述，所创造的强健的寂静(或是“休止(Rest)”)模型则是加入在该单音层级隐藏式马可夫模型之中，以便解决因背景噪声与信号失真所导致的意料之外的音符区段。在音符仿真过程中所使用的特征皆取自哼唱信号，且取自于哼唱信号的音调特征则以做为参考的前一音符为基础。N阶音乐语言模型则是预测音乐查询序列的次一音符，并被用来协助提高正确识别音符的机率。在此所披露的哼唱编曲技术并不只是单纯的增加了哼唱识别的准确性，其更可大幅减少统计计算的复杂度。

本发明的哼唱编曲方案已详细叙述于此，但应注意的是本领域的技术人员将会了解到各种不同的修饰都将在本发明的权利要求欲保护的精神与范围之内。

Claims

1.一种哼唱编曲系统，其包含：

一哼唱信号输入接口，其接收一输入哼唱信号；以及

一哼唱编曲区块，其将该输入哼唱信号编写为一音乐字符串，其中该哼唱编曲区块包含一音符分割平台与一音调追踪平台，该音符分割平台以一音符模型产生器所定义的音符模型为基础将该输入哼唱信号中的音符符号予以分割，而该音调追踪平台则以一统计模型所定义的音调模型为基础决定该输入哼唱信号中的音符符号的音调。

2.如权利要求1所述的哼唱编曲系统，其中还包含一哼唱数据库，其记录所提供用来训练该音符模型与该音调模型的一系列的哼唱数据。

3.如权利要求1所述的哼唱编曲系统，其中该音符模型产生器为含有高斯混合模型的单音层级隐藏式马可夫模型系统。

4.如权利要求3所述的哼唱编曲系统，其中该单音层级隐藏式马可夫模型系统进一步定义出一寂静模型，其避免对该输入哼唱信号的音符符号进行分割时由附加于该输入哼唱信号的噪声与信号失真所产生的错误。

5.如权利要求3所述的哼唱编曲系统，其中该单音层级隐藏式马可夫模型系统是以与输入哼唱信号的音符符号的特征相关的一特征向量为基础而定义该音符模型，并且其中该特征向量粹取自该输入哼唱信号。

6.如权利要求5所述的哼唱编曲系统，其中该特征向量由至少一个Mel-频率声谱系数、一能量量测以及其一次导函数与其二次导函数所构成。

7.如权利要求1所述的哼唱编曲系统，其中该音符分割平台还包含：

一音符译码器，其识别该输入哼唱信号的每一音符符号；以及

一持续时间模型，其检测该输入哼唱信号的每一音符符号的持续时间，并且相对前一音符符号地标记每一音符符号的持续时间。

8.如权利要求7所述的哼唱编曲系统，其中该音符译码器利用一维特比解码运算法来识别每一音符符号。

9.如权利要求1所述的哼唱编曲系统，其中该音符模型产生器利用一具有包尔-威曲再评估公式的最大概似法来训练该音符模型。

10.如权利要求1所述的哼唱编曲系统，其中该统计模型为高斯模型。

11.如权利要求1所述的哼唱编曲系统，其中该音调追踪平台还包含一音调检测器，其分析该输入哼唱信号的音调信息、粹取用以代表该输入哼唱信号的一旋律轮廓，以及以音调模型为基础来检测该输入哼唱信号的音符符号的相对音调。

12.如权利要求11所述的哼唱编曲系统，其中该音调检测器利用一短时自动关联算法分析该输入哼唱信号的音调信息。

13.如权利要求1所述的哼唱编曲系统，其中该哼唱编曲系统还包含一音乐语言模型，其是以该音乐字符串的前一音符符号为基础预测目前的音符符号。

14.如权利要求13所述的哼唱编曲系统，其中该音乐语言模型为一N阶持续时间模型，其是以该音乐字符串的前一音符符号相关的相对持续时间为基础，预测目前的音符符号相关的相对持续时间。

15.如权利要求13所述的哼唱编曲系统，其中该音乐语言模型包含一N阶音调模型，其是以该音乐字符串的前一音符符号相关的相对音调为基础，预测目前的音符符号相关的相对音调。

16.如权利要求13所述的哼唱编曲系统，其中该音乐语言模型乃包含一N阶音调与持续时间模型，其是以该音乐字符串的前一音符符号相关的相对持续时间为基础，预测目前的音符符号相关的相对持续时间，并且以该音乐字符串的前一音符符号相关的相对音调为基础，预测目前的音符符号相关的相对音调。

17.如权利要求1所述的哼唱编曲系统，其中该哼唱编曲系统设置于一计算器内。

18.一种处理哼唱信号的方法，其包含下列步骤：

编译一哼唱数据库，其记录一哼唱数据的一字符串；

输入一哼唱信号；

根据一音符模型产生器所定义的音符模型分割该哼唱信号为多个音符符号；以及

以一统计模型所定义的音调模型为基础测量该音符符号的音调值。

19.如权利要求18所述的处理哼唱信号的方法，其中分割该哼唱信号为多个音符符号的步骤还包含下列步骤：

粹取一特征向量，其包含多个特征，且该多个特征用以辨别该哼唱信号中的音符符号；

以该特征向量为基础定义该音符模型；

利用该音符模型，以一音效译码法为基础识别该哼唱信号中的每一音符符号；以及

于该哼唱信号中标记每一音符符号的相对持续时间。

20.如权利要求19所述的处理哼唱信号的方法，其中该音符模型产生器为一单音层级隐藏式马可夫模型系统，且其中该单音层级隐藏式马可夫模型系统包含有一高斯混合模型且该音符模型产生器更进一步定义出一寂静模型。

21.如权利要求19所述的处理哼唱信号的方法，其中该特征向量粹取于该哼唱信号。

22.如权利要求19所述的处理哼唱信号的方法，其中该音符模型由粹取于该哼唱信号中的哼唱数据所比对。

23.如权利要求19所述的处理哼唱信号的方法，其中该音效译码法为维特比运算法。

24.如权利要求18所述的处理哼唱信号的方法，其中测量每一音符符号的音调值的步骤还包含下列步骤：

分析该输入哼唱信号的音调信息；

粹取用以建立该哼唱信号的一旋律轮廓的特征；以及

以该音调模型为基础检测该输入哼唱信号的每一音符符号的相对音调区间。

25.如权利要求24所述的处理哼唱信号的方法，其中分析该输入哼唱信号的音调信息的步骤利用一短时自动关联运算法来完成。

26.如权利要求18所述的处理哼唱信号的方法，其中该统计模型为高斯模型。