CN101076849A

CN101076849A - 对构成音频信号基础的旋律的提取

Info

Publication number: CN101076849A
Application number: CNA2005800424173A
Authority: CN
Inventors: 弗兰克·斯特莱兴贝格尔; 马丁·魏斯; 克拉斯·德尔博温; 马库斯·克雷默
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-10-11
Filing date: 2005-09-23
Publication date: 2007-11-21
Also published as: DE102004049517B4; EP1787283A1; JP2008516288A; KR20070062551A; WO2006039992A1; DE102004049517A1

Abstract

可以明显地使旋律提取或自动编曲更加稳定，以及如果可应用，在考虑对主旋律是人类感知的最响亮和最精确的音乐作品的一部分的假设进行充分扩展时，甚至更加廉价。对于这一点，根据本发明，在确定音频信号的旋律时，首先通过以唯一的方式(即，根据特定实施例，导致了具有该帧处的最大强度的声音结果的实施例)将时间/频谱表达的一个频谱分量或一个频率点分别与每个时间部分或帧确切关联的事实来确定通过时间/频谱表达延伸的旋律线。

Description

对构成音频信号基础的旋律的提取

技术领域

本发明涉及对构成音频信号基础的旋律的提取。例如，这种提取可以用以获得模拟形式或数字采样形式的构成单音或多音音频信号基础的旋律的编曲表达(transcribed illustration)或音乐表达。因而，例如，旋律提取实现了从任何音频信号中生成用于移动电话的铃音，如歌声、蜂鸣声、口哨声等。

背景技术

一些年来，移动电话的信号音已经不再仅用于利用信号通知呼叫。随着移动设备与旋律相关的能力不断增长，移动电话的信号音成为了娱乐因素和青少年中的身份象征。

先前的移动电话部分地提供了在设备自身上编写单音铃音的可能。然而，这是复杂的，并经常使不具有音乐知识的用户感到为难，并且对结果不满意。因此，这种可能性和功能分别从新电话中大量地消失。

具体地，分别允许多音信号通知旋律或铃音的现代电话提供了丰富的组合，从而几乎不再可能在这种移动设备上独立地编写旋律。最多，可以最新地组合现成的旋律和伴奏样式，以便以限制的方式实现独立的铃音。

例如，在电话Sony-Ericsson T610中实现了这种现成旋律和伴奏样式的组合可能。然而除此之外，用户依靠在商业上购买可用的现成铃音。

将会期望能够提供直观可操作的界面，以向没有接受过高等音乐教育但是适于对自己的多音旋律进行转换的用户生成适合的信号通知旋律。

在目前的大多数键盘中，当预定了要使用的和弦时，存在自动地伴随旋律的称为所谓伴奏自动化的功能。除了这种键盘不可能提供经由界面向计算机传输具有伴奏的旋律、并将它转换为适合的移动电话格式以便能够使用与移动电话中相同的铃音这一事实之外，对于大多数用户来说，由于移动电话不能够操作该乐器，所以使用生成自己的用于移动电话的单音信号通知旋律的键盘并不是一个选择。

名为“Vorrichtung und Verfahren zum Liefern einerSignalisierungs-Melodie”的DE 102004010878.1(其申请人与本发明的申请人相同，该申请于2004年3月5日提交给德国专利商标局)描述了一种方法，使用该方法，在java小应用程序和服务器软件的帮助下，可以生成单音和多音铃音，并将它们发送至移动设备。然而，用于从音频信号中提取旋律的方式提出了存在易出现的差错或仅以受限方式可用。尤其，提出了通过从音频信号中提取特性特征以将该特征与预先存储旋律的相应特征进行比较，然后选择预先存储的旋律之一作为所生成的最佳匹配结果的旋律，从而获得音频信号的旋律。然而，这种方式固有地限制了对于预先存储的旋律组的旋律识别。

于同一天提交于德国专利商标局的名为“Verfahren undVorrichtung zur rhythmischen Aufbereitung von Audiosignalen”的DE102004033867.1和名为“Verfahren und Vorrichtung zur einer polyohonenMelodie”的DE 102004033829.9也提出了从音频信号中生成旋律，并不详细地考虑实际的旋律识别，而是考虑从旋律和旋律的节奏与和声相关的处理中得到伴奏的后续过程。

例如，Bello，J.P.，Towards the Automated Analysis of SimplePolyphonic Music：A Knowledge-based Approach，伦敦大学学位论文，2003年1月讨论了旋律识别的可能性，其中，基于时间信号中的局部能量或基于频域中的分析，描述了不同类型的对音符的时间起始点的识别。除此之外，还描述了用于旋律线(melody line)识别的不同方法。这些处理的共同点在于它们的复杂性：通过以下事实：最初在音频信号的时间/频谱表达中分别对多个轨迹进行处理并跟踪，以及仅在这些轨迹中分别做出对旋律线或旋律的选择，经由弯路(detour)获得最终获得的旋律。

在Martin，K.D.，A Blackboard System for Automatic Transcriptionof Simple Polyphonic Music，M.I.T.Media Laboratory PerceptualComputing Section Technical Report No.385，1996中，也对自动编曲的可能性进行了描述，其中，该编曲也基于对分别在音频信号的时间/频率表达或音频信号的声谱图中的多个和声轨迹的评估。

在Klapuri，A.P.：Signal Processing Methods for the AutomaticTranscription of Music，Tampere University of Technology，夏季学位论文，2003年12月，以及Klapuri，A.P.，Signal Processing Methods for theAutomatic Transcription of Music，Tampere University of Technology，学位论文，2003年12月，A.P.Klapuri，“Number Theoretical Means ofResolving a Mixture of several Harmonic Sounds”，Proceedings EuropeanSignal Processing Conference，Rhodos，Greece，1998，A.P.Klapuri，“Sound Onset Detection by Applying Psychoacoustic Knowledge”，Proceedings IEEE International Conference on Acoustics，Speech，andSignal Processing，Phoenix，Arizona，1999，A.P.Klapuri，“MultipitchEstimation and sound separation by the Spectral Smoothness Principle”，Proceedings IEEE International Conference on Acoustics，Speech，andSignal Processing，Salt Lake City，Utah，2001，Klapuri A.P.和Astola J.T.，“Efficient Calculation of a Physiologically-motivated Representation forSound”，in Proceedings 14th IEEE International Conference on DigitalSignal Processing，Santorin，Greece，2002，A.P.Klapuri，“MultipleFundamental Frequency Estimation based on Harmonicity and SpectralSmoothness”，IEEE Trans.Speech and Audio Proc.，11(6)，pp.804-816，2003，Klapuri A.P.，Eronen A.J.和Astola J.T.，“Automatic Estimation ofthe Meter of Acoustic Musical Signals”，Tempere University ofTechnology Institute of Signal Processing，Report 1-2004，Tampere，Finland，2004，ISSN：1459：4595，ISBN：952-15-1149-4中，对与音乐的自动编曲有关的不同方法进行了描述。

对于作为多音编曲的特定情况的主旋律提取领域中的基本研究，要注意Bauman，U.：Ein Verfahren zur Erkennung und Trennungmultipler akustischer Objekte，Diss.，Lehrstuhl fürMensch-Maschine-Kommunikation，Technische Universitt München，1995。

上述用于旋律识别或自动编曲的不同方式分别呈现了对于输入信号的特定需求。例如，它们仅允许钢琴音乐或仅允许特定数量的乐器，并排除打击乐器等。

到目前为止，用于现代和流行音乐的最实用的方式是Goto方式，例如，在Goto，M.：A Robust Predominant-FO Estimation Method forReal-time Detection of Melody and Bass Lines in CD Recordings，Proc.IEEE International Conference on Acoustics，Speech and SignalProcessing，pp.II-757-760，2000年7月中对该方式进行了描述。这种方法的目的是提取主旋律和低音和声(bass line)，其中，再次经由在多个轨道中的选择(即，使用所谓“代理”)而发生寻找旋律线的弯路。因此，该方法的代价高。

也通过Paiva R.P.et al.：A Methodology for Detection of Melody inPolyphonic Musical Signals，116th AES Convention，Berlin，2004年5月，对旋律检测进行处理。此外，在这里提出：使轨道跟踪的路径为时间/频谱表达。该文献还涉及单独轨迹的分段，直至将单独的轨迹后处理为音符序列。

将会期望一种用于分别地旋律提取或自动编曲的方法，该方法更加稳健并可靠地用于更多不同的音频信号。由于系统数据库参考文件将会自动编曲，所以这种稳健系统会导致在“蜂鸣询问”系统(即，在用户能够通过蜂鸣而在数据库中找到歌曲的系统中)中的高度时间和成本节约。还可以发现将稳健的编曲功能用作接收前端。还可以使用自动编曲作为对音频ID系统(即，以包含于音频文件中的指纹来识别音频文件的系统)的补充，例如，由于缺少指纹，自动编曲可以被用作评估输入音频文件的可选项。

稳定的自动编曲功能还将提供与其它音乐特征(例如，基调、和声和节奏)结合的相似性关系的制造，例如，“推荐引擎”。在音乐科学中，稳定的自动编曲可以提供新观点，并导致对于较老音乐的观点的评论。此外，为了通过音乐的客观比较而保持版权，可以使用在应用中稳定的自动编曲。

总之，分别地旋律识别或自动编曲的应用并不局限于以上提及的移动电话铃音的生成，而是通常可以用于音乐人以及对音乐感兴趣的人。

发明内容

本发明的目的是提供一种更加稳定的方案，分别用于更多音频信号的旋律识别或正确工作。

该目的通过根据权利要求1的设备和根据权利要求33的方法来实现。

本发明的发现在于，可以明显地使旋律提取或自动编曲更加稳定，以及如果充分考虑了主旋律是人感知到的一段音乐的一部分的这一设想，则如果可用，便甚至可以更加廉价。对于这一点，根据本发明，在确定音频信号的旋律时，首先通过以唯一的方式(即，根据特定实施例，导致了具有最大强度的声音结果的实施例)将时间/频谱表达的一个频谱分量或一个频率点分别与每个时间部分或帧确切关联的事实来确定通过时间/频谱表达延伸的旋律线。

根据本发明的优选实施例，针对两方面来考虑对上述音乐学的阐述(主旋律是人感知到的最大和最简明的一段音乐的一部分)。根据该是实施例，使用人类音量感知反映的相等的音量曲线，缩放感兴趣的音频信号的时间/频谱表达或频谱图，以基于所产生的感知相关时间/频谱表达来确定音频信号的旋律。更详细地，根据该实施例，首先将音频信号的频谱图对数化，从而对数频谱值指示声压等级。接下来，根据相应值和所属频谱分量，将对数频谱图的对数频谱值映射至感知相关频谱值。这样，分别地依据频谱分量或依据频率，将表示相等音量的曲线的功能作为音压，并与不同的音量相关。再次对感知相关频谱去对数，以便根据对预定频谱分量每帧去对数感知相关频谱值进行求和的结果而生成时间/声音频谱。这些和包括在各个频谱分量处的去对数感知相关频谱值、以及在形成相应频谱分量的倍音的频谱分量处的去对数频谱相关值。因而所获得的时间/声音频谱表示从这里推导出的时间/频谱表达的形式。

附图说明

以下，参照附图，对本发明的优选实施例进行说明，其中：

图1示出了用于生成多音旋律的设备的结构框图；

图2示出了图1设备的提取装置功能的流程图；

图3示出了在多音音频信号情况下的图1设备的提取装置功能的详细流程图；

图4示出了从图3的频率分析中得到的音频信号的相应时间/频谱表达或频谱图的典型示例；

图5示出了在对图3对数化之后得到的对数频谱图；

图6示出了相等音量曲线的图示，这些曲线构成了对图3中频谱图进行评估的基础；

图7示出了为获得对数化的参考值，在对图3实际对数化之前使用的音频信号图；

图8示出了在对图3中的图5频谱图进行评估之后获得的感知相关频谱图；

图9分别示出了通过图3的旋律线确定而从图8的感知相关频谱中得到的在时间/频谱域中表示的旋律线或功能；

图10示出了图3一般分段的流程图；

图11示出了时间/频谱域中的典型旋律线过程的示意性示例；

图12示出了图11的旋律线示例中的部分的示意性示例，用于示出图10的一般分段中的过滤操作；

图13示出了在图10的一般分段中的频率范围限制之后的图10的旋律线过程；

图14示出了示出旋律线的部分的示意图，用于示出图10一般分段中的倒数第二个步骤的操作；

图15示出了用于示出图10一般分段中的段分类操作的旋律线中的部分的示意图；

图16示出了用于示出图3中的间隙关闭(gap-closing)的流程图；

图17示出了用于示出对图3中可变半音矢量进行定位的过程的示意图；

图18示出了用于示出图16的间隙关闭的示意图；

图19示出了图3中和声映射的流程图；

图20示出了用于示出根据图19的和声映射操作的旋律线过程中的部分的示意图；

图21示出了用于示出图3中的颤音识别和颤音平衡的流程图；

图22示出了用于示出根据图21的过程的分段过程的示意性示例；

图23示出了用于示出图3中统计修正过程(statistic correction)的旋律线中的部分的示意性示例；

图24示出了用于示出图3中的启动识别和修正过程的流程图；

图25示出了用于根据图24的启动识别的示例性过滤器传输功能的图示；

图26示出了双路校正滤波音频信号(two-way rectified filteredaudio signal)及其包络的示意过程，它们用于图24中的启动识别和修正；

图27示出了单音音频输入信号情况下的图1提取装置功能的流程图；

图28示出了用于示出图27中的音调分离的流程图；

图29示出了音频信号频谱图的振幅过程(course)中的部分的示意性示例、以及用于示出根据图28的音调分离功能的段；

图30a和30b示出了音频信号频谱图的振幅过程中的部分的示意性示例，用于示出根据图28的音调分离功能的段；

图31示出了图27中音调平滑的流程图；

图32示出了用于示出根据图31的音调平滑过程的旋律线过程中的段的示意性示例；

图33示出了用于示出图27中的结束识别和修正的流程图；

图34示出了用于示出根据图33的过程的双路校正滤波音频信号及其内插的示意过程；以及

图35示出了潜在分段拉伸情况下的双路校正滤波音频信号及其内插中的部分。

具体实施方式

参照以下附图中的描述，应当注意，仅对于特定应用情况(即，从音频信号中生成多音铃声旋律)来对本发明进行描述。然而，在这点上要明确注意的是，本发明当然并不局限于这种应用情况，而是本发明的旋律提取和自动编曲分别还可以发现以下其它情况下使用，例如便于在数据库中进行搜索、仅对多段音乐进行识别、通过对多段音乐的客观比较来实现版权的维护等，或者，然而，为了使得能够向音乐人指示编曲结果，仅对音频信号进行编曲。

图1示出了用于从包含所期望旋律的音频信号中生成多音旋律的设备的实施例。换言之，图1示出了这样的设备，它用于重现节奏和和声、以及代表旋律的音频信号的新谱曲，以及用于通过适合的伴奏来补充所产生的旋律。

通常以300表示的图1的设备包括用于接收音频信号的输入。在本情况下，作为示例，假设设备300或输入302分别期望以时间采样(如，WAV文件)表达的音频信号。然而，音频信号还可以在输入302处以另一形式出现，如，以未压缩或压缩形式、或以频带表达出现。设备300还包括用于输出任何格式的多音旋律的输出304，其中，在本情况下，作为示例，采用MIDI格式的多音旋律的输出(MIDI＝乐器数字接口)。在输入302和输出304之间，依次串联连接提取装置304、节奏装置306、定调装置308、和声装置310和合成装置312。此外，装置300包括旋律存储器314。定调装置308的输出不仅与后续的和声装置310连接，而且还与旋律存储器314的输入连接。此外，和声装置310的输入不仅与在上游设置的定调装置308连接，而且与旋律存储器314的输出连接。将旋律存储器314的另一输入设置用于接收所提供的标识号ID。合成装置312的另一输入用于接收风格信息。风格信息和所提供的标识号的意义可以见以下功能性描述。提取装置304和节奏装置306共同形成节奏演绎装置316。

以上描述了图1设备300的建立，以下对它的功能进行描述。

将提取装置304实现为：使在输入302处接收到的音频信号分别受到音符提取或识别，以便从音频信号中获得音符序列。在本实施例中，经过提取装置304至节奏装置306的音符序列318以以下形式呈现：对于每个音符n，以秒为单位的音符初始时间t_n(例如，分别指示音调或音符开始)，音调或音符持续时间τ_n，分别指示例如以秒为单位的音符的音符持续时间，量化音符或音调音高，即，C、F升半音等，例如，MIDI音符、音符的音量Ln、以及音调或音符的确切频率f_n，分别包含于音调序列中，其中，n表示以顺序音符的次序增加的音符序列中的各个音符的索引(index)，或者分别表示音符序列中的各个音符的位置。

之后参照图2-35，对由用于生成音符序列318的装置304分别执行的旋律识别或音频编曲进行更加详细地说明。

音符序列318仍表示如由音频信号302所示出的旋律。然后，将音频序列418提供给节奏装置306。实现节奏装置306，以便对所提供的音符序列进行分析，用于确定时长、音符序列的弱拍(即，时间光栅)，因而将音符序列的单独音符调整为适合的时间量化的长度，如特定时间的全音符、二分音符、四分音符、八分音符等，并将音符的音符起始调整至时间光栅。因而，由节奏装置306输出的音符序列表示有节奏演绎的音符序列324。

在有节奏演绎的音符序列324处，定调装置308执行基调确定，和(如果可应用)基调修正。具体地，装置308基于音符序列324来确定主基调或由分别包括了模式(即，例如所唱曲段的大调或小调)的音符序列324或音频信号302分别表示的用户旋律的基调。之后，装置308识别分别在未包含于音阶中的音符序列114中的其它音调或音符，并对它们进行修正以产生和声的最终结果，即，有节奏演绎及基调修正后的音符序列700，将该音符序列700传递至和声装置310，并表示由用户请求的旋律的基调修正后的形式。

可以以不同的方式来实现与基调确定有关的装置324的功能。例如，可以以在论文Krumhansl，Carol L.：Cognitive Foundations ofMusical Pitch，Oxford University Press，1990，或在论文Temperley，David：The cognition of basical musical structures，The MIT Press，2001中所描述的方式来执行基调确定。

将和声装置310实现用于接收来自装置308的音符序列700，并用于发现由该音符序列700所表示的旋律的合适的伴奏。为此，装置310分别逐小节地演奏或操作。具体地，由于装置310通过由节奏装置306所确定的时间光栅来确定，所以装置310以每小节操作，从而创造了发生在相应时间中的音符T_n的相应音色或音调有关的统计量。然后，将出现的音色的统计量与由基调装置308所确定的主基调音阶的可能和弦进行比较。具体地，装置310在其音色与由统计量所指示的相应时间内的音色最佳匹配的可能和弦中选择和弦。这样，装置310每次确定一个和弦，该和弦最适合在例如所唱的相应时间内的相应音色或音符。换言之，装置310依据模式，将基调的和弦级与装置306所发现的时间相关联，从而和弦的连续形成了旋律的过程。除了包括NL的有节奏演绎和基调修正后的音符序列之外，在装置310的输出处，每次还将和弦级指示输出至合成装置312。

合成装置312使用用于执行合成(即，用于最终产生的多音旋律的人工生成)的可由用户输入的风格信息(如由案例702所指示)。例如，通过风格信息，用户可以从可生成该多音旋律的四种不同的风格或音乐方向(即，流行乐、电子舞曲、拉丁或瑞格舞曲)中进行相应地选择。对于这些风格中的每种，在合成装置312中存放任一或多个伴奏样式。为了生成伴奏，合成装置312现在使用由风格信息702所指示的伴奏样式。为了生成伴奏，合成装置312将每小节的伴奏样式串在一起，如果由装置310所确定的时间段中的和弦是和弦版本(其中已经出现了伴奏样式)，则合成装置312这次为伴奏简单地选择当前风格的相应伴奏样式。然而，如果在特定时间内，装置310所确定的和弦并不是在装置312中存放的伴奏样式，则合成装置312将伴奏样式的音符改变相应个数的半音、或在另一模式的情况下将第三音符改变半音、以及将第六和第五音符改变半音，即，在大三和弦的情况下将音符上提半音，以及在小三和弦的情况下以其它方式改变。

此外，合成装置312演奏由从和声装置310传递至合成装置312的音符序列700所表示的旋律，以获得主旋律并最终将伴奏与主旋律合成为多音旋律，该多音旋律在输出304处输出示例性的MIDI文件的形式。

进一步将定调装置308实现用于将音符序列700以所提供的标识号保存在旋律存储器314中。如果用户不满意在输出304处的多音旋律的结果，则他可以将所提供的标识号和新风格信息一起再次输入图1的设备中，因而，旋律存储器314将按照所提供的标识号存储的序列700继续传递至和声装置310，如上所述，和声装置310确定和弦，因而使用新风格信息的合成装置312依据和弦来生成新伴奏、并依据音符序列700来生成新的主旋律，并将它们在输出304处合成为新的多音旋律。

以下，参照图2-35来描述提取装置304的功能。这里，首先参照图2-26，对装置304输入处的多音音频信号302情况的旋律识别过程进行描述。

图2首先分别示出了旋律提取或自动编曲中的粗略过程。起始点是在步骤750中读入或输入音频文件(如上所述，可以是WAV文件)。之后，装置304在步骤752中，执行对音频文件的频率分析，以便相应地提供包含于文件中的音频信号的时间/频率表达或频谱。具体地，步骤752包括将音频信号分解为频带。这里，音频信号在对其加窗的范围内的优选时间上重叠的时间片段中是独立的，然后对它们进行相应地频谱上的分解，以便获得相应的每个频谱分量组的每个时间部分或每一帧的频谱值。频谱分量组取决于作为频谱分析752基础的编曲的选择，其中，以下参照图4对其特定实施例进行描述。

在步骤752之后，装置304在步骤754中相应地确定加权后的振幅频谱或感知相关频谱图。以下参照图3-8，对用于确定感知相关频谱图的确切过程进行详细描述。步骤754的结果是：使用等音量反射人类感觉曲线，从频率分析752中获得频谱图的比例重定(rescale)，以便将频谱图调整为人类感觉。

尤其，步骤754之后的过程756使用从步骤754中获得的感知相关频谱图，以最终获得在音符段中组织的旋律线形式(即，以之后的帧组相应地具有旋律线关联音调的形式)的输出信号的旋律，其中，这些组在时间上彼此间隔一个或多个帧，并不重叠，因而与单音旋律的音符段相对应。

在图2中，在三个子步骤758、760、762中组织过程756。在第一子步骤中，使用感知相关频谱图来从中获得时间/基频表达，并使用该时间/基频表达再次确定旋律线，从而相应地，一个频谱分量或一个频率点精确地与每个帧唯一关联。首先，为了执行每个帧的加和，以及对于经由在每个频率点处、以及在标识相应频率点的倍音的那些频率点处去对数感知相关频谱值的该频率点的时间/基频表达的加和，将步骤754的感知相关频谱图去对数，通过以上事实，时间/基频表达考虑将声音分为部分音调。其结果是每一帧一个声音范围。根据该声音范围，通过相应地选择每个帧的基调或频率或频率点(其中，声音的范围具有最大值)，来执行旋律线的确定。因此，步骤758的结果或多或少具有旋律线的功能，用于将一个频率点与每一帧确切地关联。该旋律线功能再次相应地定义了时间/频率域或在二维旋律矩阵中的旋律线过程，这在一方面相应地间隔可能的频谱分量或频点，另一方面间隔可能的帧。

提供以下子步骤760和762，以对连续的旋律线进行分段，因而产生了单独的音符。在图2中，依据分段是否发生在输入频率分辨率中(即，在频率点分辨率中)、或者分段是否发生在半音分辨率中(即，在将频率量化为半音频率之后)。

在步骤764中对过程756的结果进行处理，以从旋律线段中生成音符序列，其中，初始音符时间点、音符持续时间、量化音调、确切的音调等与每个音符关联。

在以上参照图2描述了图1提取装置304的功能之后，接下来参照图3，对于在输入302处的音频文件所表示的音乐是多音起点的情况，对提取装置304的功能进行更加详细地描述。多音和单音音频信号之间的差异由对单音音频信号频繁地来自音乐技能较少的人的观察中产生，因而包括请求与分段有关的略有不同的过程的音乐缺陷。

在前两个步骤750和752中，图3与图2相对应，即，首先提供音频信号750，然后对该音频信号进行频率分析752。根据本发明的一个实施例，例如，WAV文件以以下形式出现：以16kHz的采样频率对单独的音频采样进行采样。例如，这里，单独的采样以16比特的形式出现。此外，以下示例性地假设音频信号作为单音文件出现。

然后，例如，可以使用反卷(warpped)滤波器组和FFT(快速傅立叶变换)来执行频率分析752。具体地，在频率分析752中，音频值序列首先以512个采样的窗长进行加窗，其中，使用128个采样的跳距(hop size)，即，每128个采样便重复加窗。与16kHz的采样速率和16比特的量化分辨率一起，那些参数表示了时间和频率分辨率之间的良好折衷。利用这些示例性设置，一个时间部分或一帧相应地与8毫秒的时间段相对应。

根据频率范围上至约1,550Hz的特定实施例来使用反卷滤波器组。为了获得高频的足够好的分辨率，而需要该反卷滤波器组。对于良好的半音分辨率，充足的频带应当可用。利用在100Hz频率上以16kHz的采样速率的从-0.85起的λ值，大约二至四个频带与一个半音相对应。对于低频，每个频带可以与一个半音相关联。对于上至8kHz的频率范围，使用FFT。FFT的频率分辨率对于从大约1,550Hz起的良好半音表达是足够的。这里，大约二至六个频带与半音相对应。

在以上所描述的实施方式中，作为示例，应当注意反卷滤波器组的瞬时特性。优选地，由于这个原因，在两个变换的组合中执行时间同步。例如，丢弃滤波器组输出的前16个帧，就像不考虑输出频谱FFT的后16帧。在适合的解译中，滤波器组和FFT处的振幅等级是相同的，不需要被调整。

图4示意性地分别示出了音频信号的幅度频谱或者时间/频谱表达或者谱图，作为通过反卷滤波器组和FFT的组合所获得的。沿着图4的水平轴，时间t以s来表示，沿着垂直轴，频率f以Hz来表示，单个谱值的高低是以灰度表示的，换言之，音频信号的时间/频率表达是二维场，它是由一侧(垂直轴)上可能的频率点或者频谱分量在另一侧(水平轴)时间部分或者帧上扩展而成，其中谱值或者幅度分别与场中的帧和频率二元组的每个位置相关联。

根据特定实施例，由于反卷滤波器组所计算的振幅有时会对于后续处理来说不够精确，所以仍然在频率分析752的范围内对图4频谱中的振幅进行后处理。未精确位于频带中心频率上的频率具有比与频带中心频率精确对应的频率低的幅值。此外，在反卷滤波器组的输出频谱中，与相邻频带结果的串音也被相应地称为频点或频率点。

为了修正不合适的振幅，可以使用串音效应。在最大值处，这些缺陷影响了每个方向上的两个相邻频带。根据一个实施例，为此，在每帧中的图4的频谱图中，将相邻频点的振幅添加至中心频点的振幅上，以及这对所有频点都适用。由于存在以下危险：在音乐信号中的两个音调频率特别靠近彼此时计算错误的幅值，因而生成虚幻频率，它具有比两个原始正弦部分高的值，根据一个优选实施例，仅将直接相邻的频点的幅值添加至原始信号部分的幅值上。这表示准确性与由直接相邻的频点的添加所导致的侧效应的出现之间的折衷。由于在三个或五个频带的添加中可以忽略所计算的振幅的改变，不考虑幅值的低准确性，结合旋律提取，该折衷是可接受的。与之相反，虚幻频率的发展更加重要。虚幻频率的生成随着一段音乐中同时出现的声音数量而增加。在搜索旋律线的过程中，这会导致错误的结果。优选地，对于反卷滤波器组和FFT，均执行精确振幅的计算，从而在后续通过振幅等级在完全的频率谱上表示音乐信号。

来自反卷滤波器组和FFT的组合的信号分析的以上实施例实现了适应听觉的频率分辨率和每半音的足够频率点数的出现。对于该实施方式的更多详情，参照Claas Derboven 2003年在Technical Universityof Ilmenau中发表的题为“Implementierung und Untersuchung einesVerfahrens zur Erkennung von Klangobjekten aus polyphonenAudiosignalen”的学位论文，以及Olaf Schleusing 2002年在TechnicalUniversity of Ilmenau发表的题为“Untersuchung vonFrequenzbereichstransformationen zur Metadatenextraktion ausAudiosignalen”的学位论文。

如上所述，频率分析752的分析结果是频谱值的相应矩阵或字段。这些频谱值由振幅表示音量。然而，人类音量感知具有对数分割。因而可以感知将振幅频谱调整为该分割。这在步骤752之后的对数化770中执行。在对数化770中，将所有频谱值对数化为与人类的对数音量感知相对应的声压等级的等级。具体地，在对数化770为频谱图中的频谱值p(从频谱分析752中获得)的过程中，通过下式将p映射至声压等级值或对数化频谱值L

L [dB] = 20 Log (\frac{p}{p_{0}})

其中，p₀表示参考声压，即在1,000Hz处具有最小可感知声压的音量等级。

在对数化770内，必须首先确定该参考值。尽管在模拟信号分析中，使用了最小可感知声压p₀作为参考值，但是并不易于将该规则性转移至数字信号处理。为了确定参考值，根据一个实施例，为此使用如图7所示的采样音频信号。图7示出了时间t上的采样音频信号772，其中，沿Y方向以可以示出的最小数字单元绘出了振幅A。如所见，以一个LSB的幅值、或以可示出的最小数字值相应地呈现采样音频信号或参考信号772。换言之，参考信号772的振幅仅振动了一个比特。参考信号772的频率与人类听觉阈值的最高灵敏度的频率相对应。然而，依据情况，参考值的其它确定会是更加有利的。

在图5中，示例性地示出了图4频谱图的对数化770的结果。由于对数化而导致对数化频谱图的一部分应当位于负值范围内，为了获得完全频率范围内的正值，将这些负频谱或幅值相应地设为0dB，以避免进一步处理中的不明显结果。应当注意，仅作为防范，在图5中，以与图4中相同的方式示出对数化频谱值，即，在由时间t和频率f间隔的矩阵中进行设置，并依据值来进行灰度分级(即，相应的频谱值越高，则越暗)。

人类的音量评估是频率相关的。因此，从对数化770中产生的对数化频谱要在后续步骤772中进行评估，以便获得对这种人类的频率相关评估的调整。为此，使用等音量曲线774。具体地，由于根据人类感知，较低频率的幅值具有比较高频率的振幅低的评估，所以需要评估772，以将频率刻度上的音乐声音的不同振幅评估调整至人类感知。

对于等音量的曲线774，当前作为示例，使用DIN 45630第2页，Deutsches Institut für Normung e.V.，Grundlagen der Schallmessung，Normalkurven gleicher Lautstrke，1967中的曲线特性。图6中示出了曲线过程。如可从图6中所见，等音量774的曲线分别与电话中所指示的不同音量等级相关联。具体地，这些曲线774指示将以dB为单位的声压等级与每个频率相关联，从而位于相应曲线上的任何声压等级与相应曲线的相同声压等级相对应。

优选地，等音量曲线774以解析形式出现在装置204中，其中，当然还可以提供将音量等级值与每对频率点和声压量化值相关联的查找表。对于具有最低音量等级的音量曲线，可以使用例如以下公式

\frac{L_{T_{4}}}{dB} 3,64 {(\frac{f}{kHz})}^{- 0,8} - 6,5 \exp^{(- 0,6 {(\frac{f}{kHz} - 3,3)}^{2})} + 10^{- 3} {(\frac{f}{kHz})}^{4} - - - (2)

然而，在根据德国工业标准的该曲线形状和听觉阈值之间，在低和高频值范围内出现偏差。为了调整，可以根据以上等式来改变空闲听觉阈值的功能参数，以与上述图6的德国工业标准的最低音量曲线的形状相对应。然后，沿10dB间距的较高音量等级的方向垂直地平移该曲线，并将功能参数调整为功能曲线图774的相应特征。通过线性内插，以1dB的步距来确定中间值。优选地，具有最高值范围的功能可以评估100dB的等级。由于16比特的单词宽度与98dB的动态范围相对应，所以这是足够的。

基于相同音量的曲线774，在步骤772中，装置304依据每个对数化频谱值所属的频率f或频率点、以及依据表示声压等级的值，将每个对数化频谱值(即，图5阵列中的每个值)分别映射至表示音量等级的感知相关的频谱值。

在图8中示出了对图5的对数化频谱图进行处理的结果。如可以看出的，在图8的频谱图中，低频不再具有特别的重要性。通过该评估，更加强调更高的频率及其倍音。这还与用于评估不同频率音量的人类感知相对应。

以上描述的步骤770-774表示图2中的步骤754的可能子步骤。

在步骤776中的频谱评估772之后，相应地，以基频确定或音频信号中的每个声音的整体强度的计算来继续图3的方法。为此，在步骤776中，将每个基调的强度添加至关联和声。从物理角度来看，声音由关联泛音中的基调构成。这里，泛音是声音基频的整数倍。泛音或倍音还被称为和声。现在对于每个基调，为了将每个基调的强度和相应的关联和声相加，在步骤776中，使用和声光栅778，以对每个可能基调(即，每个频率点)的倍音或多个倍音(它们是相应基调的整数倍)进行搜索。对于作为基调的特定频率点，将与基调的频率点的整数倍相对应的其它频率点关联为倍音频率。

现在在步骤776中，对于所有可能的基调频率，在相应的基调及其倍音处添加音频信号频谱图中的强度。然而这样做，由于多个声音同时出现于一段音乐中而导致存在声音基调倍具有较低频率基调的另一声音的倍音所掩蔽的可能性，因而执行对单独的强度值的加权。

为了确定合成整体的声音音调，在步骤776中，基于MosatakaGoto模型原理来使用音调模型，并将它调整为频率分析752的频谱分辨率，其中，在Goto，M.：A Robust Predominant-F0 EstimationMethod for Real-time Detection of Melody and Bass Lines，in CDRecordings，Proc.IEEE International Conference on Acoustics，Speechand Signal Processing，Istanbul，Turkey，2000中描述了Goto的音调模型。

基于声音的可能基频，通过每个频带或频率点的和声光栅778，将属于它的倍音频率相应地关联。根据优选实施例，仅在一个特定频率点范围(如从80Hz至4,100Hz)内搜索基频的倍音。这样做，可以将不同声音的倍音与多个基频的音调模型相关联。通过该效应，实质上可以改变所搜索的声音的振幅比。为了削弱这种效应，利用半分高斯滤波器对泛音的振幅进行评估。这里，基调接收最高价。任何之后的泛音根据它们的次序来接收较低的加权，例如其中，加权以递增次序的高斯形状来减小。因此，掩蔽了实际的倍音的另一声音的倍音振幅对于所搜索声音的整体结果不具有特别的作用，随着较高频率频谱的频率分辨率的降低，(并不是对于较高阶的每个倍音)存在具有相应频率的点。由于与所搜索的倍音的频率环境的相邻频点的串音，所以使用高斯滤波器，可以在最靠近的频带上相对较好地再现所搜索倍音的振幅。因此，不必相应地在频率点的单元内确定此处的倍音频率或强度，而是可以使用内插来精确地确定倍音频率处的强度值。

然而，不在步骤772的感知相关频谱处直接执行强度值的求和。而是最初在步骤776中，首先在步骤770中的参考值的帮助下对图8的感知相关频谱去对数(delogarithmize)。结果得到了去对数后的感知相关频谱(delogrithmized perception-related spectrum)，即，频率点和帧的每个元组(tupel)的去对数后的感知相关频谱值的阵列。在该去对数后的感知相关频谱内，对于每个可能的基调，使用关联和声的和声光栅778来添加基调的频谱值以及(如果可应用)内插的频谱值，这导致了所有可能基调频率的频率范围内的声音强度值、以及每个帧的声音强度值(在以上示例中，仅在从80至4,000Hz的范围内)。换言之，步骤776的结果是声音频谱图，其中，步骤776本身与音频信号频谱图内的等级加法相对应。例如，将步骤776的结果输入新矩阵，该矩阵包括用于可能基调频率的频率范围内的每个频率点的一行、以及用于每一帧的列，其中，在每个矩阵元素中(即，在列和行的每个交叉点处)，将相应频率点的求和结果作为基调输入。

接下来，在步骤780中，执行对潜在旋律线的初步确认。旋律线与时间上的函数相对应，即，与将一个频带或一个频率点相应地与每个帧精确关联的函数相对应。换言之，在步骤780中确定的旋律线定义了步骤776的相应地沿声音频谱图或矩阵的定义范围的轨迹，其中，沿频率轴的轨迹决不会重叠或不明确。

在步骤780中执行确定，从而对于声音频谱图的完全频率范围内的每个帧，确定最大振幅，即，最高求和值。结果(即，旋律线)主要与作为音频信号302基础的音乐标题的旋律的基本过程相对应。

利用步骤772中的等音量曲线进行频谱图评估和在步骤780中对具有最大强度的声音结果的搜索支持了对主旋律是人类感知到的最响亮和最简明的音乐标题的一部分的音乐科学的陈述。

以上描述的步骤776至780呈现了图2步骤758的可能子步骤。

在步骤780的潜在旋律线中，定位不属于该旋律的段。在旋律休止符中或旋律音符之间，可以找到例如来自低音过程或其它伴奏乐器的主要段。必须通过图3的之后步骤来去除这些旋律休止符。除此之外，短的单独元素导致了可以不与标题的任何范围相关联。例如，使用3×3平均值滤波器将它们去除，这将在以下进行描述。

在步骤780中确定了潜在旋律线之后，在步骤782中，首先执行一般分段782，它关注的是要去除的、明显可以不属于实际旋律线的潜在旋律线。在图9中，例如，对于图8的感知相关频谱情况，将步骤780的旋律线确定的结果作为示例示出。图9示出了在沿x轴的时间t上或在帧序列上绘出的旋律线，其中，相应地指示了沿y轴的频率f或频率点。换言之，在图9中，以二进制图像阵列的形式示出了步骤780的旋律线，该二进制图像阵列在以下有时也被成为旋律矩阵，并包括用于每个频率点的行和用于每个帧的列。不出现旋律线的阵列的所有点相应地包括值0或是白色，而出现旋律线的阵列点相应地包括值1或是黑色。因而这些点通过步骤780的旋律线函数，彼此相关联地位于频率点和帧的元组处。

在图9的旋律线(由图9中的参考数字784指示)处，现在操作一般分段的步骤782，参照图10对其可能的实施方式进行更加详细的解释。

在步骤786中，利用表达的频率/时间范围内的旋律线784的滤波来启动一般分段782，在所述表达中，将如图9所示的旋律线784表示为通过一方面由频率点间隔、以及另一方面由帧间隔的阵列中的二进制轨迹。例如，图9的像素阵列是x乘y像素阵列，其中，x与帧数相对应，以及y与频率点数相对应。

现在，提供步骤786以相应地去除旋律线中的较小异常值或伪像。图11示例性地以示意形式示出了根据图9的表达中的旋律线784的可能形状。如可以看出的，像素阵列示出了区域788，其中，放置了单独的黑色像素元素，它们与由于短的持续时间而不确定属于实际旋律的潜在旋律线784的段相对应，因而应当被去除。

在步骤786中，由于相应地来自图9或图11的像素阵列(其中，以二进制方式示出了旋律线)的这个原因，最初通过输入与相应像素和与该像素相邻的像素处的二进制值之和相对应的每个像素的值，来生成第二像素阵列。为此，参照图12a。这里，示出了图9或图11的二进制图像中的旋律线过程的示例性部分。图12a的示例性部分包括五行(与不同的频率点1-5相对应)，以及五列A-E(与不同的相邻帧相对应)。通过将表示旋律线部分的相应像素元素用阴影线绘出的事实，以在图12中表征旋律线的过程。根据图12a的实施例，通过旋律线，频率点4与帧B关联，频率点3与帧C关联等。此外，通过旋律线将频率点与帧A关联，然而，这并不位于图12a部分中的五个频率点中。

在步骤786的滤波过程中，首先(已经提及)，对于每个像素790，将它们的二进制值与相邻像素的二进制值相加。例如，这在图12a中作为像素792的示例示出，其中，图中在794处绘出了环绕与像素792相邻的像素以及像素792本身的方块。对于像素792，由于在像素792周围的区域794中，仅放置了属于旋律线的两个像素(即，像素792本身和像素C3，即帧C和频点3处的像素)，因而将会产生和值2。通过平移任何其它像素的区域794来重复求和，从而产生了第二像素图像，以下有时也将它称为中间矩阵。

然后，对该第二像素图像进行逐像素地映射，其中，在像素图像中，将所有0或1的和值映射为0，以及将所有大于或等于2的和值映射为1。在图12a中，以图12a的示例性情况的单独像素790中的数字“0”或“1”示出了该映射的结果。如可以看出的，通过使用阈值2，3×3求和与至“1”和“0”的后续映射的组合导致了旋律线“模糊”的事实。该组合可谓作为低通滤波器来操作，这将是不期望的。因此，在步骤786的范围内，第一像素图像(即，来自图9或图11的图像)、或在图12中的由阴影线绘出的像素来表征的像素图像相应地与第二像素阵列(即，在图12a中由0或1表示的阵列)相乘。这种乘法通过滤波786防止了旋律线的低通滤波，此外，并保证了频率点与帧的不明确的关联。

对于图12a的部分的乘法的结果是：滤波786对于旋律线没有任何改变。由于旋律线明显在该区域内相干、以及步骤786的滤波仅提供用于去除相应地异常值或伪像788，所以这是所期望的。

为了示出滤波786的影响，图12b示出了相应地来自图9或图11的旋律矩阵的另一示例性部分。如可以从中看出的，求和和阈值映射的组合导致了中间矩阵，其中，两个单独的像素P4和R2获得了二进制值0，但是如可以通过图12b中的阴影线(用于指示在这些像素位置处出现旋律线)看出的，在这些位置处，旋律矩阵包括二进制值1。因此，在乘法之后，通过滤波来去除这些旋律线的偶然的“异常值”。

在步骤786之后，在一般分段782的范围内，进行步骤796，其中，通过忽略不位于预定频率范围之内的旋律线的那些部分的事实，来去除旋律线784的部分。换言之，在步骤796中，将步骤780的旋律线函数的值范围限制于预定频率范围。再换言之，在步骤796中，将相应的图9或图11的旋律矩阵的所有像素设为0，其中这些像素位于预定频率范围之外。在多音分析的情况下，当前采用例如从100-200至1,000-1,100Hz的范围的频率范围，优选地，从150-1,050Hz。在单音分析的情况下，参照图27及其后附图，采用例如从50-150至1,000-1,100Hz的范围的频率范围，优选地，从80至1,050Hz。将频率范围限制于该带宽支持了以下观察：主要通过位于该频率范围内(如，人类语言)的演唱来表达流行音乐中的旋律。

为了示出步骤796，在图9中示例性地通过底部截止频率线798和顶部截止频率线800来指示从150至1,050Hz的频率范围。图13示出了通过步骤786过滤、并通过步骤796剪辑的旋律线，这是利用图13中的参考数字802所提供的差别。

在步骤796之后，在步骤804中执行具有过小振幅的旋律线802部分的去除，其中，提取装置304回到步骤770的图5的对数频谱。具体地，提取装置304在图5的对数化频谱(logarithmized spectral)中查找每个频率点和帧元组的相应的对数化频谱值，通过该查找，旋律线802传递并确定相应的对数化频谱值是否小于图5的对数化频谱中的相应的最大振幅或最大对数化频谱值。在多音分析的情况下，优选地，该百分比在50到70％之间，以及优选为60％，而在单音分析中，优选地，该百分比在20到40％之间，以及优选为30％。忽略此种情况的旋律线802的部分。该过程相应地支持旋律通常总是近似为相同音量的情况、或者几乎不能预期突发极端音量波动的情况。换言之，因而在步骤804中，将图9或图17的旋律矩阵的所有像素相应地设为0，此处的对数化频谱值小于最大对数化频谱值的预定百分比。

在步骤804之后，在步骤806中，为了仅短时间地显示或多或少的连续旋律过程，剩余旋律线的那些部分的去除遵循沿频率方向不定期地改变旋律线的过程。为了对此进行解释，参照示出了从A-M后续帧的旋律矩阵中的部分的图14，其中，沿列设置帧，同时频率沿列方向从下至上增加。为了清楚，未在图14中示出频率点分辨率。

在图14中，示例性地以参考数字808示出了从步骤804中产生的旋律线。如可以看出的，在帧A-D中的频率点上持续保持旋律线808，以示出帧D与E之间的频跳，该频跳大于半音距离HT。在帧E和H之间，在一个频率点上再次持续保持旋律线808，从而再次从帧H至帧I下降多余半音的距离HT。大于半音距离HT的这种频率跳变还出现于帧J和K之间。从这里起，再次保持在帧J与M之间的频率点上持续保持旋律线808。

为了执行步骤806，装置304现在例如从前至后逐帧地扫描旋律线。在这样做的过程中，对于每个帧，装置304检查在该帧和后一帧之间的频跳是否大于半音距离HT。如果是这种情况，则装置302标出这些帧。在图14中，通过由圆圈环绕的相应帧(这里是帧D、H和J)示例性地示出了该标记的结果。在第二步骤中，装置304现在检查在哪些所标记的帧之间设置了小于预定个数的帧，其中，在该情况下，优选的预定个数是3。总之，通过这样做，选择旋律线808的部分，此处，旋律线808的部分跳过小于在直接连续的帧(但同时小于四个帧长)之间的半音。在该示例性情况中的帧D和H之间，放置了三个帧。这表示在帧E-H中，旋律线808跳过不多于一个半音。然而，在所标记的帧H和J之间，仅放置一个帧。这表示在帧I和J的区域内，旋律线808沿时间方向前跳和后跳了多于一个半音。因而，在旋律线的以下处理期间，忽略旋律线808的这部分(即，在帧I和J的区域中)。在当前的旋律矩阵中，为此在帧I和J处将相应的旋律线元素设为0，即变为白色。这种与非运算至多可以包括三个连续帧，与24ms相对应。然而，短于30ms的音调几乎不会出现在现今的音乐中，从而在步骤806之后的与非运算并不会导致编曲结果的恶化。

在步骤806之后，一般分段782范围内的过程前进至步骤810，其中，装置304将步骤780的前者潜在旋律线的剩余部分分为段序列。在分为段的过程中，相应地将旋律矩阵中的所有元素(直接相邻)统一为一个段或一个轨道。为了检查要将哪些矩阵元素814统一为一个段，例如，装置304按照以下方式进行扫描。首先，对于第一帧，装置304检查旋律矩阵是否包括所标记的矩阵元素814。如果不包括，则装置304继续对下面的矩阵元素进行处理，并对下一帧再次检查相应矩阵元素的出现。否则，即如果出现了作为矩阵线812的一部分的矩阵元素，则装置304对下一帧检查作为旋律线812的一部分的矩阵元素的出现。如果是这种情况，则装置304进一步检查该矩阵元素是否直接与前一帧的矩阵元素相邻。如果沿行方向它们彼此直接相邻、或者如果它们位于角对角的对角线上，则一个矩阵元素直接与另一个相邻。如果出现相邻关系，则装置304也对于下一帧执行相邻关系出现的测试。否则，即，在未出现相邻关系时，当前识别出的段以前一帧结束，以及新的段以当前帧开始。

图15中示出的旋律线812中的部分表示了不完全的段，其中，作为旋律线一部分、或沿它们进行处理的部分的所有矩阵元素814分别彼此直接相邻。

对这样发现的段进行编号，从而产生了段序列。

因而一般分段782的结果是旋律段序列，其中，每个旋律段覆盖了直接相邻的帧的序列。在每个段中，旋律线通过至多预定个数的频率点(在前述实施例中，通过至多一个频率点)，从一帧跳到另一帧。

在一般分段782之后，装置304以步骤816中的旋律提取继续。步骤816用于关闭相邻段之间的间隙，以处理由于例如步骤780旋律线中的冲击事件(percussive event)而不经意地在一般分段782中对其它声音部分进行识别和过滤的情况。参照图16对间隙关闭(gap-closing)816进行更加详细地解释，其中，间隙关闭816回到在步骤818中确定的半音向量，将参照图17对半音向量的确定进行更加详细的描述。

由于间隙关闭816再次使用了半音向量，以下首先参照图17，对可变半音向量的确定进行解释。图17示出了以输入旋律矩阵的形式从一般分段782中产生的不完整的旋律线812。在步骤818的半音向量确定中，现在装置304定义了旋律线812相应地多久一次或在多少帧内传递了哪些频率点。由案例820示出的该过程的结果是直方图822，它指示了每个频率点f的频率、旋律线812多久传递一次频率点、或者以相应的频率点设置多少作为旋律线812一部分的旋律矩阵的矩阵元素。从该直方图822中，装置304在步骤824中确定具有最大频率的频率点。这通过图17中的箭头826来指示。基于频率f₀的该频率点826，然后装置304确定频率f_i的向量，包括彼此的频率距离，以及具体地，与对应半音长度HT整数倍的频率f₀的距离。以下将半音向量中的频率称为半音频率。有时，还参考半音截止频率。这些在相邻的半音频率之间精确地定位(即，精确地以相邻的半音频率为中心)。通常在音乐中，将半音距离定义为有用频率f₀的2^1/12。通过在步骤818中确定半音向量，可以将沿其绘出了频率点的频率轴f分为半音区域828，该区域从半音截止频率延伸至相邻的截止频率。

如将在以下参照图16进行解释的，间隙关闭基于将频率轴f分为半音区域的这种划分。如已经提及的，在间隙关闭816中尝试关闭在旋律线812的相邻段之间的间隙，如以上所述，该间隙不经意地导致了旋律线识别780或一般分段782。在段中执行间隙关闭。对于当前的参考段，在间隙关闭816的范围内，首先在步骤830中确定参考段与下一段之间的间隙是否小于预定个数p帧。图18示例性地示出了具有来自旋律线812的部分的旋律矩阵中的部分。在示例性的有关情况下，旋律线812包括两个段812a和812b之间的间隙832，其中，段812a是上述参考段。如可以看出的，在图18的示例性情况下的间隙是六个帧。

在利用上述所示优选采样频率等的该示例情况下，p优选为4。在该情况下，因而间隙832不小于四个帧，从而为了检查间隙832是否等于或小于q帧，处理以步骤834继续进行，其中，q优选为15。当前是这种情况，它是处理以步骤836继续进行的原因，其中，检查参考段812a和与之面对的后续段812b的段结尾(即，段812a的结尾和后续段812b的开始)是否位于单个半音区域或相邻的半音区域中。在图18中，为了示出环境，如在步骤818中确定的，将频率轴f分为半音区域。如可以看出的，在图18的情况下，彼此面对的段812a和812b的段结尾位于单个半音区域838中。

对于步骤836中肯定检查的这种情况，间隔关闭范围内的过程以步骤840继续进行，其中，检查在步骤772的感知相关频谱中的哪些振幅差出现于参考段812a的结尾和后续段812b的开始的位置处。换言之，在步骤840中，装置304在步骤772的感知相关频谱中查询段812a的结尾和段812b的开始位置处的相应的感知相关频谱值，并确定两个频谱值的差异的绝对值。此外，装置304在步骤840中确定差异是否大于预定阈值r，其中，优选地，该差异是参考段812a结尾处的感知相关频谱值的20-40％，更优选地为30％。

如果在步骤840中的确定提供了肯定的结果，则间隔关闭以步骤842继续。这里，装置304确定在将参考段812a的结尾和后续段812b的开始直接组合的旋律矩阵中的间隔关闭线844。优选地，如图18所示，间隔关闭线是直线。具体地，连接线844是间隔832在其上延伸的帧的函数，其中，该函数将一个频率点与这些帧中的每个相关联，从而在旋律矩阵中，产生了所期望的连接线844。

沿着该连接线，装置304根据步骤772的感知相关频谱，通过在感知相关频谱中查找间隙关闭线844的频率点和帧的相应元组来确定相应的感知相关频谱值。经由沿间隙关闭线的这些感知相关频谱值，装置304确定了平均值，并在步骤842的范围内将该平均值与沿参考元素812a和后续段812b的感知相关频谱值的相应平均值进行比较。如果均产生比较，间隙关闭线的平均值相应地大于或等于参考或后续段812a或812b的平均值，则在步骤846中关闭间隙832，即相应地，通过将间隙关闭线844输入旋律矩阵或将间隙关闭线844的相应矩阵元素设为1。同时，为了将段812a和812b统一为一个公共段，在步骤846中改变段列表，从而完成参考段和后续段的间隙关闭。

在导致了间隙832小于4帧长的步骤830时，产生了沿间隙关闭线844的间隙关闭。在这种情况下，在步骤848中，关闭减小832，即，类似于步骤846的沿连接了段812a-812b的面对端的直接和优选为直线的间隙关闭线844的情况，从而完成了这两个段的间隙关闭，并继续处理后续的段(如果有)。尽管未在图16中示出，但是步骤848中的间隙关闭还依据与步骤836(即，两个面对段端位于相同或相邻的半音区域中)的间隙关闭相对应的一个条件。

如果步骤834、836、840或842之一导致了否定的检验效果，则完成参考段812a的间隙关闭，并再次执行后续段812b的间隙关闭。

因此，间隙关闭816的结果可能是相应地段或旋律线的缩短列表，包括旋律矩阵中某些位置处的间隔关闭线(如果可应用)。由于从前述讨论中产生，所以在小于4帧的间隙中，总是提供了在相同或相邻半音区域中的相邻段之间的连接。

和声映射850紧随间隙关闭816之后，其中，提供间隙关闭816，用于去除从通过在潜在旋律线780的确定过程中错误地确定了声音的错误主音或基调的事实而产生的旋律线中的错误。具体地，和声映射850逐段地进行操作，以在间隙关闭816之后产生的旋律线的单独段平移八度音程、五度音程或大三度音程，这将在以下进行更加详细地描述。如以下描述将示出的，限制条件，以便不会错误地平移频率中的段。以下参照图19和20，对和声映射850进行更加详细地描述。

如已经提及的，在段中执行和声映射850。图20示例性地示出了在间隙关闭816之后产生的旋律线的一部分。在图20中，以参考数字852表示该旋律线，其中，在图20的该部分中，可以看到旋律线852的三个段，即，段852a-c。再次以旋律矩阵中的轨迹来呈现出旋律线的示例，其中，然而应当再次注意，旋律线852是将频率点与单独的(同时不再对于所有)帧的唯一关联的函数，从而生成了图20中的轨迹。

位于段852a和852c之间的段852b看上去要被旋律线过程切断，这将通过段852a和852c产生。具体地，在该情况下，段852b示例性地在没有帧间隙的情况下与参考元素852a连接(这将由虚线854指示)。以相同的方式，示例性地，由段852覆盖的时间区域将会直接与由段852c覆盖的时间区域邻接(这将由虚线856指示)。

现在在图20中，在旋律矩阵或在时间/频率表达中，相应地示出了其它虚线、虚点线和虚点点线，它们由沿频率轴f的段852b的平移中产生。具体地，虚点线858平移了四个半音，即，通过大三度音程，移动至朝向更高频率的段852b。虚线858b沿频率方向f向下平移了12个半音，即平移了八度音程。对于这条线，再次示出了虚点线第三线858c和虚点点线第五线858d，即，向与线858b相关的更高频率平移了七个半音的线。

如可从图20中看出的，由于段852b在向下平移了一个八度音程时，将会被不太规律地插入相邻段852a和852c之间，所以看上去像是在旋律线确定780的范围内错误地确定了段852b。因此，和声映射850的任务是当在旋律中不太经常出现这种频跳时，检查是否将会出现这种“异常值”的平移。

和声映射850以在步骤860中使用平均值滤波器确定旋律中心线开始。具体地，步骤860包括利用沿时间方向t的段上的特定帧数来计算旋律过程852的滑动平均值，其中，例如，窗长是具有以上作为示例提及的8ms的帧长的80-120(优选为100)帧，即，具有另一帧长的相应不同的帧数。更详细地，为了确定旋律中心线，沿时间轴t，以帧来平移100帧的窗长。这样做，对与滤波器窗口内的帧关联的所有频率点通过旋律线852取平均，并将帧的该平均值输入滤波器窗口的中间，从而在图20的情况下在对后续帧进行了重复之后，旋律中心线862产生，这是将频率与单独的帧唯一关联的函数。旋律中心线862可以在音频信号的完整时间区域上延伸，其中，在这种情况下，必须在一段音乐的开始和结尾处、或者仅在以音频片断的开始和结尾间隔的区域上，相应地将滤波器窗口“缩减”为滤波器窗长的一半。

在后续步骤864中，装置304检查参考段852a是否与时间轴t上的后续段852b直接相邻。如果不相邻，则使用该后续段作为参考段再次执行该过程(866)。

然而，在图20的这种情况下，步骤864中的检查导致了肯定结果，从而以步骤868继续进行处理。在步骤868中，为了获得八度音程、五度音程和/或三度音程858a-d的线，事实上平移后续段852b。由于在流行音乐中主要仅使用大三和音，所以在流行音乐中，大调、三度音程、五度音程和八度音程的选择是有利的，其中，和弦的最高音和最低音具有大三度音程加小三度音程(即五度音程)的距离。可选地，以上过程当然还可以被应用于小调，在小调中，出现小三度音程及大三度音程的和弦。

在步骤870中，装置304为了获得沿参考段852a和八度音程、五度音程和/或三度音程线858a-d的相应最小感知相关频谱值，在步骤772的利用等音量或感知相关频谱的曲线进行评估的频谱中进行查找。在图20的示例性情况中，因而产生了五个最小值。

这些最小值用于后续的步骤872中，以选择八度音程、五度音程和/或三度音程平移线858a-d中的一个或零个，这取决于为相应的八度音程、五度音程和/或三度音程线而确定的最小值是否包括与参考段的最小值的预定关系。具体地，如果最小值小于参考段852a的最小值至多30％，则从线858a-d中选择八度音程线858b。如果为该线所确定的最小值至多比参考段852a的最小值小2.5％，则选择第五音程线858d。如果该线的相应最小值比参考段852a的最小值至少大10％，则使用第三音程线858c之一。

用作从线858a-858b中进行选择的标准的上述值当然可以改变，但是它们为流行音乐作品提供了非常好的结果。此外，不必要求相应地确定参考段或单独的线858a-d的最小值，但是例如，还可以使用单独的平均值。对于单独线的标准的差异的优点在于，通过该差异，可以考虑以下可能性：在旋律线确定780过程中，错误地出现了八度音程、五度音程或三度音程的跳跃，或者事实上在旋律中期望这种跳跃。

在后续步骤874中，装置304将段852b平移至所选线858a-858d，直至在步骤872中选择了这种线(假设平移点沿旋律中心线862的方向，即从后续段852b的角度)。在图20的示例性情况下，只要在步骤872中没有选择三度音程线858a，便将会执行后一条件。

在和声映射850之后，在步骤876中进行颤音识别和颤音平衡或均衡，将在以下参照图21和27对它们的功能进行更加详细地解释。

由于在和声映射850之后产生，所以对于旋律线中的每个段878，在段中执行步骤876。在图22中，示出放大的示例性段878，即，在示例中，与先前附图中的情况相同，水平轴与时间轴相对应，以及垂直轴与频率轴相对应。现在在颤音识别876范围内的第一步骤880中，首先对于局部极值检查参考段878。这样做，再次指示，为了形成段888，旋律线函数、因而也是与其中感兴趣段相对应的部分将该段上的帧映射至频率点。对于局部极值来检查该段函数。换言之，在步骤880中，对于包括频率方向的局部极值的那些位置(即，旋律线函数的梯度为0的位置)来检查参考段878。在图22中，通过垂直线882来示例性地指示这些位置。

在之后的步骤884中，检查是否这样设置了极值882，从而沿时间方向，在包括大于或小于或等于预定个数点(例如，在参照图4描述的频率分析的实施方式中的15至25、但优选为22个点，或者每半音区域大约2至6个点数)的频率间隔的频率点处设置相邻的局部极值882。在图22中，以双箭头886示例性地示出了22个频率点的长度。如可以看出的，极值882满足标准884。

在后续步骤888中，装置304检查在相邻的极值882之间的时间距离是否总是小于或等于预定个数的时间帧，其中，例如，预定个数为21。

如果如图22中可以在双箭头890(与21帧长相对应)处看出的示例中的情况，步骤888中的检查是肯定的，则在步骤892中检查极值882的个数是否大于或等于在本例中优选为5的预定个数。在图22的示例中，这是给定的。因而，如果在步骤892中的检查也是肯定的，则在后续步骤894中，由平均值来替换相应的参考部分878或所识别的颤音。在图22中以896来指示步骤894的结果。具体地，再不扎894中，在当前的旋律线上去除参考段878，并由参考段896来替换它，其中，参考段896经由与参考段878相同的帧延伸，沿固定频率点延展，然而，与通过其延展所替换参考段878的频率点的平均值相对应。如果检查884、888和892之一的结果为否定的，则相应地结束相应参考段的颤音识别或平衡。

换言之，根据图21的颤音识别和颤音平衡通过逐步执行的特征提取来执行颤音识别，其中，利用对于调制的可容许频率点数的限制和对于极值时间距离的限制(作为颤音，仅考虑至少5个极值的组)来搜索局部极值，即，局部最小值和最大值。然后，通过旋律矩阵中的平均值来替换所识别的颤音。

在步骤876中的颤音识别之后，在步骤898中，执行统计修正(也考虑了在旋律中不期望的短的和极值音调波动的观察)。参照图23，更加详细地解释根据898的统计修正。图23中示例性地示出了旋律线900的部分，它可以在颤音识别876之后产生。再次，示出将旋律线900的过程输入旋律矩阵，其中，该旋律矩阵通过频率轴f和时间轴t来标记刻度。在统计修正898中，首先与和声映射中的步骤860类似地确定旋律线900的旋律中心线。对于作出如步骤860情况下的确定，沿时间轴t逐帧地平移预定时间长度(例如，100帧的长度)的窗口902，以逐帧地计算频率点的平均值(这经过了窗口902内的旋律线900)，其中，平均值与作为频率点的窗口902中间的帧相关联，从而产生了要确定的频率中心线的点904。在图23中，通过参考数字906来指示所产生的频率中心线。

之后，图23中未示出的第二窗口沿时间轴t以帧进行平移，例如包括170个帧的窗长。对于每个帧，确定与旋律中心线906的旋律线900的标准偏差。将所产生的每帧的标准偏差乘以2并补充1个点。然后对于每个帧，将该值添加于此帧处的经过频率中心线902的相应频率点上，并从中减去该值，以获得上和下偏移线908a和908b。两个标准偏移线908a和908b定义了其间所允许的区域910。在统计修正898的范围内，现在去除完全位于允许区域910之外的旋律线900的所有部分。因而统计修正898的结果是段个数的减少。

在步骤898之后，进行半音映射912。逐帧地执行半音映射，其中为此，使用定义了半音频率的步骤818的半音向量。半音映射912的功能使得对于在此出现了从步骤898中产生的旋律线的每个帧，检查在半音区域的哪一个中出现了频率点，在半音区域的哪一个中旋律线经过相应的帧、或者旋律线函数将相应的帧相应地映射至哪个频率点。然后改变旋律线，从而在相应的帧中，将旋律线改变为与旋律线所经过的、出现了频率点的半音设置的半音频率相对应的频率值。

作为逐帧地半音映射或量化的替代，例如，也可以通过仅将每个段的频率平均值与半音区域之一相关联、因而以上述方式与相应的半音区域频率(然后，在相应段的整个时长上使用该半音区域频率作为频率)相关联的事实来执行逐段的半音量化。

因而步骤782，816，818，850，876，898和912与图2中的步骤760相对应。

在半音映射912之后，在步骤914中执行对于每个段出现的起始识别(onset recognition)和修正。参照图24-26对所述起始识别和修正进行更加详细地描述。

起始识别和修正914的目标是对于初始时间点，更加详细地相应地修正或指定由半音映射912产生的旋律线的单独段，其中，段越来越与所搜索旋律的单独音符相对应。为了这一目的，再次利用输入音频信号302或者在步骤750中提供的音频信号，这将在以下进行更加详细地描述。

在步骤916中，首先利用与在步骤912中将相应的参考段量化为的半音频率相对应的带通滤波器、或者利用包括呈现了相应段的量化后半音频率之间的截止频率的带通滤波器，对音频信号302进行滤波。优选地，将带通滤波器用作包括与所考虑的段所位于的半音区域的半音截止频率f_u和f_o相对应的截止频率的带通滤波器。再次优选地，作为带通滤波器，使用以与相应的半音区域相关联的截止频率f_u和f_o作为滤波器截止频率的IIR带通滤波器、或者其传输函数如图25所示的巴特沃斯带通滤波器。

接下来，在步骤918中，执行在步骤916中进行滤波的音频信号的双路校正，从而在步骤920中，内插在步骤918中获得的时间信号，并利用汉明滤波器包围内插后的时间信号，因而确定了相应的双路校正或滤波后的音频信号的包络。

再次参照图26来示出步骤916-920。图26示出了具有参考数字922的双路校正后的音频信号(在步骤918之后生成)，即，在图中，以虚拟单位(virtual unit)水平地绘出时间t，以及以虚拟单位垂直地绘出音频信号A的振幅。此外，在图中，示出了在步骤920中产生的包络924。

步骤916-920仅表示生成包络924的可能性，当然也可以改变以上步骤。无论如何，对于在其中相应地设置了当前旋律线的段或音符段的所有那些半音频率或半音区域，生成音频信号的包络924。对于每个这种包络924，然后执行图24的以下步骤。

首先，在步骤926中，确定潜在的初始时间点，这是作为包络924的局部最大值增量的位置。换言之，在步骤926中确定包括924中的拐点。在图26的情况下，以垂直线928示出了拐点的时间点。

对于所确定的潜在初始时间点或潜在斜度的以下评估，相应地，如果在步骤926的范围内可应用(未在图24中示出)，则执行对预处理的时间分辨率的降采样。应当注意，在步骤926中，不是必须相应地确定所有潜在初始时间点或所有拐点。也不是必须向以下的处理提供相应的所有确定的或建立的潜在初始时间点。还可以仅相应地建立或进一步处理作为潜在时间点的那些拐点，其中，在与作为确定包络924的基础的半音区域中设置的旋律线的段之一相对应的时间区域之前或之内的时间邻近中设置这些拐点。

现在在步骤928中，检查是否潜在时间点位于同该潜在时间点相对应的段的段起始之前。如果是这种情况，则以步骤930继续处理。否则，即，当潜在初始时间点在现有的段起始之后时，对于下一潜在初始时间点来重复步骤928，或者对于为另一半音区域所确定的下一包络来重复步骤926，或者对于下一段来逐段执行起始识别和修正。

在步骤930中，检查潜在初始时间点在相应段的起始之前是否多于x帧，其中，例如x在8和12之间，优选为10并具有8ms的帧长，其中，将必须相应地改变其它帧长的值。如果不是这种情况，即，如果潜在初始时间点或预定初始时间点相应地在感兴趣的段之前达到了10帧，则在步骤932中，相应地，将潜在初始时间点和先前的段起始之间的间隙关闭，或将先前的段起始修正为潜在初始时间点。为此，如果可应用，相应地缩短先前的段，或者将段结尾改变至潜在初始时间点之前的帧。换言之，步骤932包括沿前进方向的至潜在初始时间点的参考段的延展，以及在段结尾处的前一段长度的可能的缩短，以防止两个段的重叠。

然而，如果步骤930中的检查指示潜在初始时间点在相应段起始的前方x帧以内，则在步骤934中检查是否第一次为该潜在初始时间点进行步骤934。如果不是这种情况，则这里结束对于该潜在时间点及相应段的处理、以及对于另一潜在初始时间点的以步骤928仅需的起始识别的处理、或者对于另一包络的以步骤926进行的处理。

否则，在步骤936中，虚拟地向前平移感兴趣段的前一段的起始。为此，在感知相关频谱中查找位于段虚拟平移的初始时间点处的感知相关频谱值。如果在感知相关频谱中的这些感知相关频谱值的减小超过了特定值，则将出现该超过处的帧临时用作参考段的段起始，并再次重复步骤930。如果潜在初始时间点在相应段的步骤936中所确定的起始的前方不再多于x帧，则也关闭步骤932中的间隙(如上所述)。

因此，起始识别和修正914的效果在于以下事实：在对于时间扩展(即相应地，延展至前方或向后缩短)的当前旋律线中改变单独的段。

在步骤914中，然后进行长度分段938。在长度分段938中，对由于位于半音频率上的半音映射912而作为旋律矩阵中的水平线出现的旋律线的所有段进行扫描，并从小于预定长度的旋律线中去除那些段。例如，去除小于10-14帧(优选为12帧)、以及小于以上所采用的8ms帧长或相应帧数调整的段。以8毫秒的时间分辨率或帧长的12个帧与96毫秒相对应，这小于约1/64音符。

因而步骤914和938与图2的步骤762相对应。

然后，在步骤938中保持的旋律线由略有减小的个数的段构成，这些段确切地包括特定个数的后续帧上的相同半音频率。这些段可以与音符段唯一关联。然后在与图2的上述步骤764相对应的步骤940中，将该旋律线相应地转换为音符表达或midi文件。具体地，为了发现相应段中的第一帧，检查在长度分割938之后仍位于旋律线中的每个段。然后，该帧确定了与该段相对应的音符的音符初始时间点。对于音符，然后根据相应段在其上延伸的帧数来确定音符长度。从由于步骤912而在每个段中恒定的半音频率中，产生了音符的量化后音调。

然后，通过装置304的midi输出914产生了音调序列，基于该音符序列，节奏装置306执行以上所述的操作。

与图3-26有关的先前描述与对于多音音频片断302情况的在装置304中的旋律识别相关。然而，如果已知音频信号302是单音类型的(这是蜂鸣或哨音情况下的示例)，则为了生成铃音，如上所述，在可以防止由于原始音频信号302中的音乐缺点而导致的图3过程的相同错误的范围内，可以优选与图3中的过程相比略有改变的过程。

图27示出了与图3过程相比的单音音频信号所优选的装置304的可选功能，然而，该功能基本上也可以应用于多音音频信号。

根据图27的步骤782之前的步骤与图3中的步骤相对应，这是那些步骤使用与图3情况中相同的参考数字的原因。

与根据图3的过程相反，在根据图27过程中的步骤782之后，在步骤950中执行音调分离。可以参照图29来示出用于执行步骤950中音调分离的原因(将参照图28更加详细地解释)，其中，图29示出了用于在频率分析752之后产生的音频信号频谱图的频率/时间空间部分、用于在一般分段782之后产生的旋律线的预定段952、用于基调和用于倍音的频谱图形式。换言之，在图29中，沿频率方向f将示例性段952平移了相应频率的整数倍，以确定倍音线。图29现在仅示出了参考段952和相应倍音线954a-g的那些部分，此处，步骤752的频谱图包括超过了示例值的频谱值。

如可以看出的，在一般分段782中获得的参考段952的基调振幅连续在示例值之上。仅以上设置的倍音示出了大约在段中间的中断。尽管大约在段952的中间可能存在音符边界或界面，但是基调的连续性导致了在一般分段782中该段没有分为两个音符。这种错误主要仅在单音音乐时出现，这是仅在图27的情况下执行音调分离的原因。

以下参照图22、图29和图30a、b更加详细地解释音调分离950。在步骤958中，基于在步骤782中利用搜索倍音或那些倍音线(分别为954a-954g)所获得的旋律线来启动音调分离，沿所述倍音线，通过频率分析752获得的频谱图包括具有最大动态范围的振幅过程。图30a示例性地在图中(其中，x轴与时间轴t相对应，以及y轴相应地与频谱图的振幅或值相对应)示出了倍音线954a-954g之一的振幅过程960。根据过程960的最大频谱值与过程960内的最小值之间的差异来确定振幅过程960的动态范围。图30a示例性地示出了沿倍音线450a-450g的频谱图的振幅过程，该频谱图包括在所有那些振幅过程中的最大动态范围。在步骤958中，优选地，仅考虑阶数4到15的倍音。

在之后的步骤962中，因而在具有最大动态范围的振幅过程中，将那些位置识别为局部振幅最小值降至预定阈值之下的潜在分离位置。这在图20b中示出。在图30a或b的示例性情况下，相应地，仅有当然还示出了局部最小值的绝对最小值964降至在图30b中使用虚线966示例性示出的阈值之下。因而在图30b中，仅存在一个潜在分离位置，即，相应地在此处设置了最小值964的时间点或帧。

在步骤968中，在多个可能分离位置中，挑选出位于段起始972周围的边界区域970上、或位于段结尾976的边界区域974内的分离位置。对于剩余的潜在分离位置，在步骤978中，在振幅过程960中形成了与最小值964相邻的最小值964处的振幅最小值与局部最大值980或982的振幅平均值之间的差异。在图30b中通过双箭头984示出了该差异。

在后续步骤986中，检查差异984是否大于预定阈值。如果不是这种情况，则结束该潜在分离位置以及(如果可用)所关注的段960的音调分离。否则，在步骤988中，相应地，将参考段分为潜在分离位置或最小值964处的两个段，其中，一段从段起始972延伸至最小值964的帧，以及另一段在最小值964的帧或后续帧与段结尾976之间延伸。相应地，对段的列表进行延伸。分离988的不同可能性是提供了两个最新生成的段之间的间隙。例如在振幅过程960低于阈值的区域内，例如，在图30b中的时间区域990上。

单音音乐主要出现的另一问题在于，单独的音符受到了频率波动，这使得后续分段更加困难。由于这个原因，在步骤992的音调分离950之后，执行音调平滑，这将参照图31和32进行更加详细的解释。

图32示意性地示出了放大了的一个段994，它位于针对音调分离950所产生的旋律线上。图32中的示例使得在图32中，对于段994所经过的每个元组的频率点和帧，在相应的元组处提供图示。以下参照图31更加详细地解释该图示的分配。如可以看出的，在图32的示例性情况下的段994在4个频率点上波动并延伸了27帧。

音调平滑的目的是在段994在其间波动的频率点中选择一个频率点，对于所有帧来说，该频率点要恒定地与段994关联。

在步骤996中，以将计数器变量i初始化为1来开始音调平滑。在后续步骤998中，将计数器值z初始化为1。该计数器变量i表示图32中从左至右的段994的帧数。计数器变量z表示对在单个频率点中段994位于多少个连续帧进行计数的计数器。在图32中，为了便于理解后续步骤，z值已用于指示示出了图32中段994过程的图示形式中的单独的帧。

现在在步骤1000中，将计数器值z累积为段的第i帧的频率点之和。对于段994来回波动的每个频率点，相应地存在和或累积值。这里，由于与透明的过程和音符的起始相比，语音已经更好地被音调同化，所以为了在段的结尾处对要加和的部分进行更加强的加权，可以根据变化的实施例来对计数值进行加权(如利用因子f(i)，其中，f(i)是以i连续递增的函数)。图32方括号中的水平时间轴以下，示出了如f(i)的函数的示例，其中，在图32中，i沿时间轴递增，并指示在相邻段的帧中特定帧占据了哪个位置，以及通过在那些方括号中的数字，示出了采用了以沿时间轴的小垂直线指示的后续部分的示例性示出的函数的后续值。

在步骤1002中，检查第i帧是否是段994最后的帧。如果不是，则在步骤1004中使计数器变量i递增，即，执行至下一帧的跳跃。在后续步骤1006中，检查当前帧(即第i帧)中的段994是否位于相同的频率点处(如位于第(i-1)帧处)。如果是这种情况，则在步骤1008中使计数器变量z递增，从而处理再次在步骤1000处继续。如果第i帧和第(i-1)帧中的段994不再相同的频率点处，则处理以将计数器变量z初始化为1的步骤998继续。

如果最终在步骤1002中确定了第i帧是段994最后的帧，则对于段994所位于的每个频率点，如图32中在1010处所示，产生了和。

在步骤1012中，在步骤1012中确定最后的帧时，选择所累积的和1010最大的一个频率点。在图32的示例性情况下，这种段994所位于的四个频率点中的第二低频率点。在步骤1014中，然后通过将参考段994与一段(在该段中，段994所位于的每个帧同所选频率点相关联)进行交换，来平滑参考段994。对于所有段，逐段地重复图31的音调平滑。

换言之，因而音调平滑用于补偿歌唱开始和从较低或较高频率起始的音调的歌唱的开始，并通过确定与稳定状态音调频率相对应的音调的时间过程上的值来促进该补偿。为了根据振荡信号确定频率值，对频带的所有元素进行计数，从而将位于音符序列处的频带的所有累计元素相加。然后，在频带上绘出在音符序列的时间上具有最大和的音调。

在音调平滑992之后，接下来执行统计修正916，其中，统计修正的性能与图3中的相对应，即，具体与步骤898相对应。在统计修正1016之后，紧随与图3的半音映射912相对应的半音映射1018，以及还使用了在与图3之一的步骤818相对应的半音向量确定1020值确定的半音向量。

因而步骤950、992、1026、1018和1020与图2的步骤760相对应。

在半音映射1018之后，跟随基本上与图3的步骤914相对应的起始识别1022。仅优选地，在步骤932中相应地防止了间隙再次关闭、或者防止了音调分离950所作用的段再次关闭。

在起始识别1022之后，跟随结束识别和修正1024，这将参照图32-35进行更加详细地解释。与起始识别相反，结束识别和修正用于修正音符的结束时间点。结束识别1024用于防止单音音乐作品的回声。

在与步骤916类似的步骤1026中，首先利用与参考段的半音频率相对应的带通滤波器来对音频信号进行滤波，从而在与步骤918相对应的步骤1028中，对滤波后的音频信号进行双路校正。此外，在步骤1028中，再次执行校正后的时间信号的内插。该过程足以使结束识别和修正的情况来近似确定包络，从而可以省略起始识别的复杂步骤920。

图34在图(沿x轴以虚拟单位绘出了时间t，以及沿y轴以虚拟单位绘出了振幅A)中例如以参考数字1030示出了内插后的时间信号，以及示出了与具有参考数字1032的包络(在步骤920中的起始识别中确定)的比较。

现在在步骤1034中，在与参考段相对应的时间部分1036中，确定了内插后的时间信号1030的最大值，即具体地，在最大值1040处的内插时间信号1030的值。在步骤1042中，将潜在音符结束时间点确定为以下时间点，在该时间点处，校正后的音频信号在时间上的最大值1040之后降至最大值1040处值的预定百分比，其中，步骤1042中的百分比优选为15％。在图34中以虚线1044示出了潜在音符结尾。

在后续步骤1046中，检查潜在音符结尾1044是否在时间上在段结尾1048之后。如果不是这种情况(如图34中示例性示出的)，则缩短时间区域1036的参考段，以在潜在音符结尾1044处结束。然而，如果音符结尾在时间上在段结尾之前(如图35中示例性示出的)，则在步骤1050中检查潜在音符结尾10444与段结尾1048之间的时间距离小于当前段长度a的预定百分比，其中，步骤1050中的预定百分比优选为25％。如果检查1050的结果是肯定的，则使参考段延展1051长度a，以在潜在音符结尾1044处结束。为了防止与后续段的重叠，步骤1051还可以依据危险重叠，以在该情况、或者(如果特定距离可用)仅达到后续段的起始的情况下不执行该步骤。

然而，如果步骤1050中的检查是否定的，则不出现结束修正，以及对于相同半音频率的另一参考段，重复步骤1034及其后续步骤，或者对于其它半音频率，以步骤1026继续。

在结束识别1024之后，在步骤1052中，执行与图3的步骤938相对应的长度分割1052，从而跟随与图3的步骤940相对应的MIDI输出1054。步骤1022、1024和1052与图2的步骤762相对应。

参照图3-35的先前描述，现在注意以下问题。这里为旋律提取所提出的两个可选过程包括不必全部同时包含于旋律提取的操作处理中的不同方面。首先应当注意，基本上还可以通过仅使用查找表中的单个查找将频率分析752频谱图的频谱值转换为感知相关频谱值来组合步骤770-774。

基本上，当然还可以省略步骤770-774或仅步骤772和774，然而这将会导致步骤780中的旋律线确定的偏差，因而导致了旋律提取方法整体结果的偏差。

在基频确定776中，使用音调模型Goto。然而还可以使用相应的其它音调模型或倍音部分的其它加权，以及例如只要音频信号的起点或源已知(类似于在用户确定相加的铃音生成的实施例中时)，便可以相应地将其调整至音频信号的起点或源。

对于在步骤780中确定潜在旋律线，应当注意，根据音乐科学的上述提及的阐述，对于每一帧，仅选择最大声音部分的基频，然而对于每一帧，还可以不仅仅将选择限制于最大比例的唯一选择。例如，正如在Paiva中的情况，确定潜在旋律线780可以包括多个频率点与单个帧的关联。接下来，可执行多个轨迹的发现。这表示允许选择每个帧的多个基频或多种声音。当然将必须部分不同地执行后续分段，具体地，由于相应地将必须考虑并发现多个轨迹或段，所以后续分段将略微代价大些。相反地，在这种情况下，在也用于确定在时间上可能重叠的轨迹的情况的分段中，可以进行上述步骤或子步骤中的一些。具体地，一般分割的步骤786、796和804还以与被转移至该情况。如果步骤806在识别轨迹之后发生，则可以将步骤806转移至旋律线由时间上重叠的轨迹组成的情况。轨迹识别可以与步骤810类似，然而其中，可以执行修改，从而还可以跟踪时间上重叠的多个轨迹。此外，对于其间没有时间间隙存在的轨迹，可以以类似的方式执行间隙关闭。此外，可以在时间上直接相邻的两个轨迹之间执行和声映射。相应地，可以将颤音识别或颤音补偿容易地应用于单个轨迹(如同上述提及的非重叠旋律线段)。此外，还可以利用轨迹来应用起始识别和修正。对于音调分离、音调平滑以及对于结束识别和修正以及统计修正和长度分段同样适用。然而，在步骤780中的确定中，允许旋律线轨迹的时间重叠至少要求在实际的音符序列输出之前，必须在一些时间处去除轨迹的时间重叠。以参照图3和27的上述方式确定潜在旋律线的优点在于，在一般分段之后，提前将要检查的段个数限制于最重要的方面，以及甚至在步骤780中的旋律线确定本身也非常简单，并相应地导致了良好的旋律提取或音符序列生成或编曲。

一般分段的上述实施方式并不必包括所有子步骤786、796、804和806，而是还可以包括从中选择的子步骤。

在间隙关闭过程中，在步骤840和842中使用感知相关频谱。然而，基本上还可以使用对数化频谱或从这些步骤中的频率分析中直接获得的频谱图，然而其中，在这些步骤中的感知相关频谱的使用导致了旋律提取的最佳结果。对于和声映射的步骤870类似适用。

对于和声映射，应当注意，在平移868后续段时，可以提供和声映射用于执行仅沿旋律中心线方向的平移，所以可以省略步骤874中的第二条件。参照步骤872，应当注意，可以通过从中生成优先等级列表(例如，八度音程线在五度音程线之前，五度音程线在三度音程线之前，以及在相同线类型(八度音程、五度音程或三度音程线)的线中的更靠近后续段原始位置的线)的事实来实现对不同的八度音程、五度音程和/或三度音程线的选择中的明确性。

对于起始识别和结束识别，应当注意，还可以不同地执行作为替代在结束识别中使用的包络或内插后的时间信号的确定。仅必需的是，在起始和结束识别中，使用利用具有相应半音频率周围的传输特性的带通滤波器进行滤波的音频信号，以根据所形成的滤波后的信号包络的递增来识别初始时间点、或者使用包络的递减来识别音符的结束时间点。

对于图8-41中的流程图，应当注意，所述流程图示出了旋律提取装置304的操作，在该流程图中由方框示出的每个步骤可以在装置304的相应部分装置中实现。从而可以在作为ASIC电路部分的硬件中、或者在作为子例程的软件中实现各个步骤的实施方式。具体地，在这些图示中，写入方框的说明大致示出了与相应步骤相关的哪个过程与相应的方框相对应，同时方框之间的箭头示出了装置304中操作步骤的顺序。

具体地，应当注意，依据条件，还可以以软件来实现本发明的方案。可以在数字存储介质(具体地，具有可以与可编程计算机系统合作从而执行相应方法的电可读控制信号的软盘或CD)上执行实施方式。通常，本发明还由计算机程序产品构成，该计算机程序产品具有存储在机器可读载体上、用于在计算机程序产品在计算机上运行时执行本发明方法的程序代码。换言之，因而将本发明实现为具有当在计算机程序在计算机上运行时用于执行该方法的程序代码的计算机程序。

Claims

1、一种设备，用于提取作为音频信号(302)基础的旋律，所述设备包括：

用于提供音频信号(302)的时间/频谱表达的装置(750)，其中，用于提供的装置(750)被实现为提供时间/频谱表达，所述时间/频谱表达包括具有用于多个频谱分量中每个的频谱值序列的频带，以及所述时间/频谱表达包括用于在每个频带中音频信号时间部分序列的每个时间部分的频谱值；

用于基于音频信号(302)的时间/频谱表达，通过将一个频谱分量与时间/频谱表达、或从中推导出的时间/频谱表达形式精确地唯一关联，来确定音频信号的旋律线的装置(754，758)；以及

用于基于所述旋律线来确定音频信号的旋律的装置(760，762)。

2、如权利要求1所述的设备，其中，用于确定旋律线的装置包括：

用于使用反映了人类音量感知的等音量曲线来缩放时间/频谱表达，以获得感知相关时间/频谱表达的装置(754；770，772，774)；以及

用于基于所述感知相关时间/频谱表达来确定音频信号的旋律的装置(760，762)。

3、如权利要求2所述的设备，其中，用于缩放的装置包括：

用于使时间/频谱表达的频谱值对数化，以指示声压等级，从而获得了对数化时间/频谱表达的装置(770)；以及

用于依据对数化时间/频谱表达的对数频谱值的相应值和它们所属于的频谱分量，来将所述对数化时间/频谱表达的对数频谱值映射至感知相关频谱值，以获得感知相关的时间/频谱表达的装置(772)。

4、如权利要求3所述的设备，其中，用于映射的装置(772)被实现为基于表示等音量曲线的函数(774)来执行映射，将对数频谱值与指示声压等级的每个频谱分量相关联，并与不同的音量相关联。

5、如权利要求4所述的设备，其中，用于确定音频信号的旋律线的装置(756)被实现为

对感知相关频谱的频谱值去对数(776)，以获得具有去对数的感知相关频谱值的去对数感知相关频谱，

对于每个时间部分和对于每个频谱分量，对相应频谱分量的去对数感知相关频谱值和表示相应频谱分量的泛音的那些频谱分量的去对数感知相关频谱值进行求和(776)，以获得频谱声音值，从而获得时间/声音表达，以及

通过将频谱分量与每个时间部分唯一关联而生成(780)旋律线，其中，对于所述每个时间部分，对相应时间部分的求和导致了最大频谱声音值。

6、如权利要求5所述的设备，其中，用于确定音频信号旋律线的装置被实现为对相应频谱分量的去对数感知相关频谱值进行不同地加权，以及那些频谱分量的去对数感知相关频谱值示出了总和(780)中的相应频谱分量的泛音，从而对较高阶泛音的去对数感知相关频谱值进行较少地加权。

7、如权利要求5或6所述的设备，其中，用于确定音频信号旋律线的装置包括：

用于对旋律分割线(784)进行分段以获得段的装置(782，816，818，850，876，898，912，914，938；782，950，992，1016，1018，1020，1022，1024，1052)。

8、如权利要求7所述的设备，其中，用于分段的装置被实现为对状态中的旋律线进行预滤波(786)，其中，在一侧通过频谱分量间隔、以及另一侧通过时间部分间隔的矩阵位置的旋律矩阵中，将旋律线表示为二进制形式。

9、如权利要求8所述的设备，其中，用于分段的装置被实现为对预滤波(786)时输入所述装置的项和每个矩阵位置(792)的相邻矩阵位置进行求和，将所产生的信息值与阈值进行比较，并在中间矩阵中的相应矩阵位置处输入比较结果，以及接下来将旋律矩阵与中间矩阵相乘，以获得预滤波形式的旋律线。

10、如权利要求6至9之一所述的设备，其中，用于分段的装置被实现为在分段的后续部分期间，留下旋律线的一部分不考虑(796)，所述部分在预定频谱值(798，800)之外。

11、如权利要求10所述的设备，其中，用于分段的装置被实现为预定频谱范围从50-200Hz变化至1000-1200Hz。

12、如权利要求7至11之一所述的设备，其中，用于分段的装置被实现为在分段的后续部分中留下旋律线的一部分不考虑(804)，在所述分段的后续部分处，对数时间/频谱表达包括小于对数时间/频谱表达的最大对数频谱值的预定百分比的对数频谱值。

13、如权利要求7至12之一所述的设备，其中，用于分段的装置被实现为在分段的后续部分中留下旋律线的一部分不考虑(806)，在所述分段的后续部分处，根据旋律线，与相邻时间部分相关联的小于预定个数的频谱分量彼此具有小于半音距离的距离。

14、如权利要求10至13之一所述的设备，其中，用于分段的装置被实现为将减小了不考虑的部分的旋律线(812)分为段(812a，812b)，从而使得段个数尽可能小，以及根据其距离小于预定测量的旋律线，将段的相邻时间部分与频谱分量相关联。

15、如权利要求14所述的设备，其中，用于分段的装置被实现为

关闭(816)相邻段(12a，812b)之间的间隙(832)，以在所述间隙小于第一个数的时间部分(830)时、以及在通过位于相同半音区域(838)或在相邻半音区域(836)中的旋律线，将频谱分量与最靠近相邻段(12a，812b)中相应另一个的相邻段的时间部分相关联时，从相邻段中获得段，

在所述间隙大于或等于所述第一个数的时间部分、但小于第二个数的时间部分的情况下，当

通过位于相同半音区域(838)或在相邻半音区域(836)中

的频率线，将频谱分量与最靠近相邻段(812a，812b)中相应另

一个的相邻段的时间部分相关联，

在时间部分处的感知相关频谱值的差异(840)小于预定阈值；以及

沿相邻段(812a，812b)之间的连接线(844)的所有感知相

关频谱值大于或等于沿两个相邻段(842)的感知频谱值时，仅关闭间隙(836)，其中，所述第二个数大于第一个数(834)。

16、如权利要求15所述的设备，其中，用于分段的装置被实现为根据最频繁的旋律线，确定在与时间部分相关联的分段范围内的那些频谱分量(826)，以及确定(824)与该频谱分量相关联的一组半音，通过定义了半音区域(828)的半音边界来将所述组半音彼此分隔。

17、如权利要求15或16所述的设备，其中，用于分段的装置被实现为

通过直连接线(844)来执行间隙的关闭。

18、如权利要求14至17之一所述的设备，其中，用于分段的装置被实现为

沿频谱方向，将与其间没有时间部分的段的参考段(852a)直接相邻(864)的段的后续段(852b)在时间上平移(868)，以获得八度音程、五度音程和/或三度音程线；

依据沿参考段(852a)的感知相关频谱值中的最小值是否与沿八度音程、五度音程和/或三度音程线的感知相关频谱值中的最小值具有预定关系，来选择(872)八度音程、五度音程和/或三度音程线中的一个或零个；以及

如果选择了八度音程、五度音程和/或三度音程线，则将后续段最终平移至所选的八度音程、五度音程和/或三度音程线。

19、如权利要求14至18之一所述的设备，其中，用于分段的装置被实现为

确定旋律线的所有局部极值(882)在预定段(878)中；

确定所确定极值中的相邻极值序列，对于所确定的极值，在彼此间隔小于第一预定测量(886)的频谱分量处、以及在彼此间隔小于第二预定测量(890)的时间部分处设置所有相邻极值；以及

改变预定段(878)，从而使极值序列的时间部分和极值序列之间的时间部分与在这些时间部分处的旋律线的频谱分量的平均值相关联(894)。

20、如权利要求14至19之一所述的设备，其中，用于分段的装置被实现为根据频率线，确定将分段与时间部分最频繁关联的分段范围内确定频谱分量(832)，以及确定与该频谱分量(832)相关的一组半音，其中，所述组半音彼此间隔定义了半音区域的半音边界，以及用于分段的装置被实现为

对于每个段中的每个时间部分，将与所述时间部分相关联的频谱分量改变(912)为所述组半音的半音。

21、如权利要求20所述的设备，其中，用于分段的装置被实现为执行至半音的改变，从而所述组半音中的该半音最靠近要改变的频谱分量。

22、如权利要求20或21所述的设备，其中，用于分段的装置被实现为

利用带通滤波器(916)，对包括预定段的公共半音周围传输特性的音频信号进行滤波，以获得滤波后的音频信号(922)；

检查(918，920，926)，以确定在哪些时间点，滤波后的音频信号(922)的包络包括拐点，其中，这些时间点表示备选初始时间点，

依据预定备选初始时间点是否在第一段(928，930)之前小于预定时间段，将预定段向前方延展一个或多个其它时间部分(932)，以获得在大约预定备选初始时间点处结束的延展后的段。

23、如权利要求22所述的设备，其中，用于分段的装置被实现为在延展(932)预定段时向前缩短预定部分，通过这样做，防止了一个或多个时间部分上的段重叠。

24、如权利要求22或23所述的设备，其中，用于分段的装置被实现为

依据预定备选初始时间点是否在预定段(930)的第一时间部分之前大于第一预定时间段，沿预定段在到达虚拟时间点的备选初始时间点方向中的延展，来跟踪感知相关时间/频谱表达中的感知相关频谱值，在所述延展中，减小了多于预定的梯度(936)；然后，依据预定备选初始时间点是否在虚拟时间点之前大于第一预定时间段，将预定段向前延展(932)一个或多个另一时间部分，以获得在大约预定备选初始时间点处结束的延展后的段。

25、如权利要求22至24之一所述的设备，其中，用于分段的装置被实现为，以在执行了滤波、确定和补充之后，丢弃短于预定个数的时间部分的段(938)。

26、如权利要求7至25之一所述的设备，还包括用于将段转换为音符的装置(940)，其中，用于转换的装置被实现为向每个段分配于段的第一时间部分相对应的音符初始时间点、与乘以了时间部分时间段的段时间部分的个数相对应的音符持续时间、以及与段所经过的频谱分量的平均值相对应的音调。

27、如权利要求14至26之一所述的设备，其中，用于分段的装置被实现为

确定段中所预定的一个段(952)的倍音部分(954a-g)，

在倍音段中确定(958)音调段，沿所述倍音段，音频信号的时间/频谱表达包括最大动态范围，

在沿预定倍音部分的时间/频谱表达的过程(960)中确立(962)最小值(964)；

检查(986)最小值是否满足预定条件，以及

如果满足，则在将最小值放置于两个段中的时间部分处分离(988)预定段。

28、如权利要求27所述的设备，其中，用于分段的装置被实现为在检查最小值是否满足预定条件的过程中，将最小值(964)与沿预定倍音段的时间/频谱表达过程(960)的相邻局部最大值(980，982)的平均值进行比较(986)，并依据所述比较，将预定段分离(988)为两个段。

29、如权利要求14至28之一所述的设备，其中，用于分段的装置被实现为

对于预定段(994)，将数字(z)分配给段的每个时间部分(i)，从而对于通过旋律线与相同的频谱分量相关联的所有直接相邻的时间部分组，与不同的相邻时间部分相关联的数字是从1至直接相邻时间部分个数的不同数字，

对于与预定段时间部分之一相关联的每个频谱分量，将那些组的数字相加(1000)，其中，相应的频谱分量与预定段的时间部分相关联，

将平滑频谱分量确定(1012)为最大和结果的频谱分量；以及

通过将特定平滑频谱分量与预定段的每个时间部分相关联，来改变(1014)段。

30、如权利要求14至29之一所述的设备，其中，用于分段的装置被实现为

利用包括使预定段公共半音周围通过的频带的带通滤波器，对音频信号进行滤波(1026)，以获得滤波后的音频信号；

在滤波后的音频信号的包络中，将最大值定位(1034)于同预定段相对应的时间窗(1036)内；

将潜在段结尾确定(1042)为以下时间点，在所述时间点处，包络在最大值(1040)之后首先降至小于预定阈值的值，

如果潜在段结尾(1046)在时间上在预定段的实际段结尾之前，则缩短(1049)预定段。

31、如权利要求30所述的设备，其中，用于分段的装置被实现为

如果(1046)潜在段结尾在时间上在预定段的实际段结尾之后，则如果潜在段结尾(1044)与实际段结尾(1049)之间的时间距离不大于预定阈值(1050)，则延展(1051)所述预定段。

32、如前述权利要求之一所述的设备，其中，用于确定音频信号旋律线的装置(756)被实现为

对于每个时间部分和对于每个频谱分量，对相应的频谱分量的频谱值或者通过缩放从中获得的缩放后的频谱值、以及表示相应频谱分量的泛音的那些频谱分量的频谱值或者从中获得的缩放后的频谱值进行求和(776)，以获得频谱声音值，从而获得时间/应力表达，以及

通过将频谱分量与每个时间部分唯一关联来生成(780)频率线，其中，对相应时间部分的求和产生了最大频谱声音值。

33、一种方法，用于提取作为音频信号(302)基础的旋律，所述方法包括：

提供(750)音频信号(302)的时间/频谱表达，从而提供时间/频谱表达，所述时间/频谱表达包括具有用于多个频谱分量中每个的频谱值序列的频带，以及所述时间/频谱表达包括用于在每个频带中音频信号时间部分序列的每个时间部分的频谱值；

基于音频信号(302)的时间/频谱表达，通过将一个频谱分量与时间/频谱表达、或从中推导出的时间/频谱表达形式精确地唯一关联，来确定(754，758)音频信号的旋律线；以及

基于所述旋律线来确定(760，762)音频信号的旋律。

34、一种计算机程序，具有程序代码，当所述计算机程序在计算机上运行时，所述程序代码用于执行如权利要求33所述的方法。