CN102549575A

CN102549575A - 用于识别和播放录音的方法

Info

Publication number: CN102549575A
Application number: CN2010800436383A
Authority: CN
Inventors: A·雅克布森; E·福克斯恩兰德
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2009-09-30
Filing date: 2010-02-17
Publication date: 2012-07-04
Also published as: US20110077756A1; WO2011038942A1; EP2483806A1

Abstract

提供了一种用于识别和播放包括至少声乐成分的录音的方法，所述方法包括：输入(s10)包括至少声乐成分的声音；确定(s20)输入的声音与录音匹配；获取(s30)所述录音；识别(s40)所述输入的声音的所述声乐成分的至少一个特性；以及，播放(s50)利用所述至少一个特性改编的获取的录音。还公开了一种设备例如移动终端(60)以及计算机程序。

Description

用于识别和播放录音的方法

技术领域

本发明涉及一种用于识别和播放录音的方法。本发明还涉及被构造用于执行该方法的设备和配置为当在设备上运行时使得该设备执行该方法的计算机程序。所述设备例如可以是移动电话。

背景技术

在现有技术中已知用于基于声音或乐曲的样本来对其识别的方法，所述样本可能与原始记录的样本有一定程度的不同。所述声音或乐曲的样本可以是由与诸如移动终端、移动电话等这样的设备进行交互的用户通过唱、哼或吹哨的方式来完成。

在Jonathan T.Foote，“Content-Based Retrieval of Music and Audio”，MultimediaStorage and Archiving Systems II，Proceedings of SPLE，Vol.3229，1997，pp.138-147.中描述了现有技术中的一种已知方法。该文章描述了通过声学相似性来检索音频文件的一种系统。

关于选定项目的存储音乐的基于非文本的识别，在国际申请WO 2007/059420A2中描述了另一种方法。

在国际申请WO 02/27707A1中描述了又一种方法。该方法包括利用两个搜索标准来从一组存储曲调中识别出曲调。第一搜索标准是代表待识别的曲调的音频样本，第二标准包括与待识别的曲调有关的至少一个字。

理想的是，提供改善的方法，从而向试图识别录音的用户显著地提供更加丰富的输出结果。

发明内容

在独立权利要求中限定如此的方法、设备和计算机程序。在从属权利要求中限定有利的实施方式。

在本发明的一个实施方式中，提出了一种用于识别和播放包括至少声乐成分的录音的方法。所述方法包括：输入包括至少声乐成分的声音的步骤；确定输入的声音与录音匹配的步骤；获取录音的步骤；识别所述输入的声音的所述声乐成分的至少一个特性的步骤；以及播放利用所述至少一个特性改编后的获取的录音的步骤。

在本文中，构成识别录音的操作包括：从(即，基于和使用)包括与待检索的录音的样本有一定程度的相似的样本的声音，检索或获取录音的一个版本的副本，诸如原始录音的完整副本。包括至少声乐成分的录音是包括至少由人类或动物(诸如能够从它们的环境模仿包括人类语音的声音的鹦鹉或其它鸟类)发出的声音的录音。

而且，在本文中，确定输入的声音与录音匹配包括在一定的确信度或一定的可能性下确定输入的声音意在代表所述录音。

本发明的该实施方式不仅向已经输入该声音的用户提供很可能与输入的声音对应的录音，而且还为他或她提供获取的录音的改编版本。更具体地，利用输入的声音的声乐成分的至少一个特性来改编所述录音的版本。

如果用户使用他或她自己的语音来产生所述输入的声音，则用户然后可以被提供所述录音的改编版本，好像(即，如同)用户已经利用他或她自己的语音产生了改编的录音一样。录音的改编版本还可以或者选择性地可以是好像具有如下的语音特性的某个人已经产生了改编的录音一样，即，上述的语音特性介于已经输入声音的用户的语音特性和已经产生所述录音的人(诸如原歌唱者)的语音特性之间。即，录音可以朝着用户的语音特性改编。

更加丰富的输出然后可以提供给用户，以用于教育、娱乐或其它目的。一种可能的应用包括提高一个人的歌唱水平。

换句话说，该实施方式可以使得用户在不知道他或她的脑中记得的一首歌曲的标题的情况下，不仅查明这首歌的名字和实际上获取这首歌的录音，而且用户还被提供有比此更多的东西。由用户利用设备发出的一首歌曲或一次演说的样本或一部分对于他或她是已知的，并且通过实现了本发明的该实施方式的方法的设备来检索整首歌或演说。然后，原歌曲或演说或者其任何其它记录版本以朝着包括用户的声乐成分的所述输入的声音的特性改编的方式进行播放(如果用户使用他或她自己的语音来产生输入的声音)。

在一个实施方式中，方法如下，即，获取的录音在单独的音轨上包括声乐成分和器乐成分。此外，在该实施方式中，播放获取的录音的步骤包括：提取所述获取的录音的所述声乐成分；通过利用所述至少一个特性改编提取的声乐成分而对所述提取的声乐成分进行处理；以及，在所述获取的录音中利用经改编的声乐成分替换所述声乐成分。

该实施方式使得，当待识别的录音包括声乐成分和器乐成分两者时，利用所述输入的声音的所述声乐成分的所述至少一个特性来容易地并且方便地改编获取的原始录音的声乐成分。在本文中，单独的音轨可以指例如数据存储单元(例如闪存、RAM、ROM、硬盘驱动器等)的单独的位置或信号的单独的部分。

在一个实施方式中，所述录音是记录的乐曲。所述记录的乐曲可以是歌曲。

在一个实施方式中，输入声音的步骤包括利用麦克风记录包括声乐成分的声音，从而创建所述输入的声音。因此，如果该方法例如由移动终端执行，则移动终端的用户可以利用他或她自己的语音来发出他或她脑中记得的(例如)一首歌曲的样本，从而可以识别并且播放这首歌曲。麦克风可以与移动终端集成或者可以是单独的麦克风。麦克风可以是适合于向被构造为执行上述方法的设备提供输入的声音的任何一种类型的声音记录装置。

在一个实施方式中，输入声音的步骤包括从通信网络接收声音。通信网络可以是无线网络。通信网络或者可以是有线网络。通信网络还可以包括无线部分和有线部分两者。在该实施方式中，如果由用户终端执行该方法，则输入的声音不必是由该用户终端的用户发出的声音，而可以是从位于另外一个地方的另一个用户(例如另一个移动终端的用户)接收的声音。

在一个实施方式中，获取录音(即，被确定为与输入的声音匹配的录音)的步骤包括从通信网络下载录音。如针对前一实施方式所提到的，通信网络可以是无线网络、有线网络或者其组合。在该实施方式中，可以利用所述方法识别的多个录音可以存储在远程的音乐数据库服务器中，该服务器相对于被构造为执行所述方法的设备是遥远的。

在一个实施方式中，获取录音(即，被确定为与输入的声音匹配的录音)的步骤包括从本地数据存储单元检索录音。本地数据存储单元例如可以是闪存、RAM、ROM、硬盘驱动器等。在该实施方式中，可以利用所述方法识别的多个录音可以被存储在被构造为执行所述方法的设备(例如移动终端)中。在上述设备内设置本地音乐数据库是有利的，因为它提供了快速处理和识别。

在一个实施方式中，所述方法包括试图利用在所述设备内存储的本地音乐数据库来获取录音，并且如果不成功，则试图通过询问比所述设备存储更多的录音的远程服务器来获取录音。在兼顾到设备上的有限存储器空间的同时，这减少了在网络上执行的通信，因此节约了资源。

在一个实施方式中，输入的声音的声乐成分的至少一个特性可以包括音高、共振峰、节奏、音调、音量和力量中的至少一个。人语音的这些特性中的任何一个可以用来将录音朝着已经产生了包括声乐成分的输入的声音的用户的语音改编。然而该方法不限于这些特性。其它特性或者其组合可以用于改编录音。

在一个实施方式中，该方法由移动终端执行。移动终端例如可以是移动电话、便携式多媒体播放器、游戏控制台、便携式计算机或台式计算机、个人数字助理(PDA)、智能手机、掌上型计算机、平板计算机、电子书等。

本发明还涉及被构造用于执行根据前述实施方式中的任何一个所述的方法的设备。

本发明还涉及被构造用于识别和播放包括至少声乐成分的录音的设备。所述设备包括：输入单元，其被构造用于输入包括至少声乐成分的声音；确定单元，其被构造用于确定输入的声音与录音匹配；获取单元，其被构造用于获取所述录音；识别单元，其被构造用于识别所述输入的声音的所述声乐成分的至少一个特性；以及播放单元，其被构造用于播放通过利用所述至少一个特性改编后的获取的录音。

在一个实施方式中，上述设备中的任何一个为移动终端。

本发明还涉及计算机程序，所述计算机程序被构造为当在设备上运行时，使得所述设备执行上述方法中的任何一个方法。

附图说明

现在将结合附图描述本发明的实施方式，其中：

图1是根据本发明的一个实施方式的方法的流程图；

图2示意地示出在根据本发明的一个实施方式的方法中涉及的网络构造；

图3是例示在根据本发明的一个实施方式的方法中播放录音的步骤的一些详细内容的流程图；

图4a和4b是在根据本发明的两个可选实施方式的方法中输入声音的步骤的一些详细内容的流程图；以及

图5a和5b是在根据本发明的两个可选实施方式的方法中获取录音(即，被确定为与输入的声音匹配的录音)的步骤的一些详细内容的流程图。

具体实施方式

现在将结合具体实施方式描述本发明，可注意到的是，这些具体实施方式用来为本领域技术人员提供更好的理解，但是并不是要以任何方式限制由所附权利要求限定的本发明的范围。

图1是根据本发明的一个实施方式的方法的流程图。首先，执行输入声音的步骤s10。步骤s10可以由诸如移动终端这样的设备的用户通过激活用户界面的特定按钮或功能来触发。

步骤s10可以包括利用麦克风对包括声乐成分(vocal component)的声音进行记录s12，如在图4a的流程图上所示。或者，输入声音的步骤s10可以包括从通信网络接收s14声音，如在图4b中所示。

接下来，返回到图1，执行确定输入的声音与录音匹配的步骤s20。在Jonathan T.Foote，“Content-Based Retrieval of Music and Audio”(在“背景技术”部分中提到的完整参考文献)或在WO 2007/059420A2中描述的方法例如可以用于实施步骤s20。如果在那一步骤确定输入的声音不与任何可用的录音匹配，则可以通过在用户界面上出现的合适消息来相应地通知用户。用户然后可以试图再次记录声音，以识别他或她记得的录音。

在一个实施方式中，给予用户提供声音的机会，该声音与将通过和用户所记得的录音有关的一个或更多个字来识别的录音对应。这可以帮助设备查明输入的声音与哪一个录音对应。所述和用户所记得的录音有关的一个或更多个字可以是标题的一部分的任何一个字、歌词的一部分、歌唱者或乐队的名字，等等。

如果已经识别了录音，则然后执行获取录音的步骤s30。

获取录音的步骤s30可以包括从通信网络80下载s32录音，如在图5a中所示。或者，获取录音的步骤s30可以包括从本地存储单元检索s34录音，如在图5b中所示。

返回到图1，然后执行识别输入的声音的至少一个特性的步骤s40。

然后以改编的形式播放s50录音。录音的改编是基于输入的声音的一个或更多个识别的或选择的特性，即，录音的改编是利用输入的声音的一个或更多个识别的或选择的特性来执行的。

因此，在步骤s10中输入的声音(例如通过用户的语音发出的声音)用于两个目的。首先，输入的声音用于在步骤s20中识别录音，其次，输入的声音用于对录音进行改编或定制，从而在步骤s50中进行播放。

在这个背景下，由用户在步骤s10中输入的声音(可用于用户的语音特性的分析的输入素材)特别地适合于对识别的并且获取的录音的特性进行修改(即，改编)，因为可从用户语音获取的声音的类型一般地对应于在识别的并且获取的录音中的声音的类型(相同的词，相似的节奏，等等)。该方法的步骤因此协作地实现了相对于现有技术提供的改进，换句话说，该方法的组合的技术效果大于其单个步骤的技术效果的总和。

在一个实施方式中，在步骤s20之后或者在步骤s30之后，在中间的步骤(未示出)中要求用户确认他或她记得的录音对应于已经被确定为与输入的声音匹配的一个录音，或者对应于已经被确定为与输入的声音匹配并且已经获取的一个录音。

图2示意地示出其中可以执行根据本发明的一个实施方式的方法的网络构造。

声音输入s10到移动终端60。输入声音的用户没有被示出。也可以通过从通信网络接收声音文件或流来输入s10声音，如参考图4b所示。然后，移动终端60确定s20输入的声音是否与录音匹配。如果发现了匹配，则移动终端60向基站70发送s30.1询问以获取(并且特别地下载)识别的录音。该询问通过通信网络80转发s30.2到服务器90，该服务器90在数据库100中检索s30.3识别的录音。录音然后通过基站70发送回s30.4、s30.5移动终端60。

移动终端60然后识别s40输入的声音的至少一个特性。步骤s40也可以选择性在步骤s30之前执行、在步骤s20之前执行、或者与步骤s20和s30同时执行。换句话说，在图1的流程图中的步骤的顺序可以改变。

移动终端60然后基于输入的声音的被识别的特性而改编下载的录音。然后以改编的形式播放s50经改编的录音。

如上所述，可以在移动终端60中执行确定输入的声音与录音匹配的步骤s20。然而，这不一定必须要求所有完整的录音被存储在移动终端60中。可以基于在移动终端60中存储的录音的签名来执行确定步骤s20。在该情形中，签名意味着录音的可区别的方面、特征、标记或特性，或者录音的一组可区别的方面、特征、标记或特性。也可以在完整的录音远程地存储在服务器90、100上的同时，基于在移动终端60中存储的录音的摘选来执行确定步骤s20。

或者，可以通过远程服务器90而不是在移动终端60中执行确定输入的声音是否与录音匹配的步骤s20。在该情形中，输入的声音传送到基站70，并且通过网络80传送到服务器90。

获取s30录音因此包括由移动终端60从服务器90接收识别的录音。

在一个实施方式中，大多数被请求的录音可以在移动终端60上预取以改善方法的速度和效率。

在一个实施方式中，以视频剪辑的形式获取s30录音。播放s50录音可以包括利用改编的声轨在移动终端的屏幕上显示包括录音的视频剪辑。

在图2中示出的网络构造示例了一种可能的构造。在本发明的实施方式中，可以使用包括有线或无线连接、多互连网络等的其它类型的构造。

图3是例示在根据本发明的一个实施方式的方法中播放s50录音的步骤的一些详细内容的流程图。在该实施方式中，获取的录音在单独的或可分离的音轨上包括声乐成分和器乐成分。首先，提取s52获取的录音的声乐成分。然后改编s54提取的声乐成分。最后，用经改编的声乐成分替换s56在获取的录音中的声乐成分。然后可以将包括经改编的声乐成分的录音输出s58到扬声器。包括经改编的声乐成分的录音也可以或者可以另外地记录在存储器中，以便于之后的使用，或者用于在通信网络上将它发送给其他用户。

获取的录音还可以在单独的或可分离的音轨上包括(领唱的)主要声乐成分以及一个或更多个其它成分，可能地，包括(例如，合唱团的)次要声乐成分、器乐成分、背景声音等。替换s56的步骤然后包括替换所述主要声乐成分。

在一个实施方式中，获取的录音包括原歌唱者的声乐特性的预定特性(预先分析的特性)以使得改编处理容易。

输入的声音的声乐成分的至少一个特性可以包括音高、共振峰、节奏、音调、音量和力量中的至少一个。但是本发明不限于这些特性，并且可以选择其它可测量的特性(即，非主观的特性)，从而用作用于改编步骤s54的输入。此外，用户可以(例如，在移动终端的存储器中)预先确定或者(利用用户界面的菜单)参数化(原歌唱者的)多少原声乐成分以及(输入的声音的)用户的多少声乐成分被包括到经改编的录音中。用户还可以预先确定或者参数化哪些特性将用于改编s54录音。

包括输入单元、确定单元、获取单元、识别单元以及播放单元的根据本发明和/或其实施方式的物理实体可以包括或者存储计算机程序，该计算机程序包括指令，从而当在物理实体上运行计算机程序时，根据本发明的实施方式执行这些单元的功能、流程和步骤。本发明还涉及用于执行单元的功能的如此的计算机程序，以及涉及存储用于执行根据本发明的方法的计算机程序的任何计算机可读介质。

当术语“输入单元”、“确定单元”、“获取单元”、“识别单元”和“播放单元”用于本文献时，在这些元件可以分散的程度和这些元件可以聚集的程度方面，没有限制。即，以上输入单元、确定单元、获取单元、识别单元和播放单元的构件可以分布在不同的软件或硬件部件或者装置中，以产生预期的功能。多个截然不同的元件或单元也可以聚集在一起，以用于提供预期的多功能性。

上面提到的单元的任何一个可以以硬件、软件、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、固件、等来实施。

在本发明的其它实施方式中，上面提到的并且/或者要求保护的输入单元、确定单元、获取单元、识别单元和播放单元中的任何一个分别由输入装置、确定装置、获取装置、识别装置和播放装置替换，或者分别由输入器、确定器、获取器、识别器和播放器替换，以用于执行输入单元、确定单元、获取单元、识别单元和播放单元的功能。

在本发明的其它实施方式中，上述要求保护的步骤中任何一个可以利用计算机可读指令来实施，例如以计算机可理解的流程、方法等的形式，以任何一种计算机语音，和/或以在固件、集成电路等上的嵌入软件的形式。

虽然已经基于详细描述的示例描述了本发明，但是详细描述的示例仅用来为本领域技术人员提供更好的理解，并不是要限制本发明的范围。本发明的范围由所附权利要求限定。

Claims

1.一种用于识别和播放包括至少声乐成分的录音的方法，所述方法包括：

输入(s10)包括至少声乐成分的声音；

确定(s20)输入的声音与录音匹配；

获取(s30)所述录音；

识别(s40)所述输入的声音的所述声乐成分的至少一个特性；以及

播放(s50)利用所述至少一个特性改编后的获取的录音。

2.根据权利要求1所述的方法，其中，

所述获取的录音在单独的音轨上包括声乐成分和器乐成分；并且

播放(s50)所述获取的录音的步骤包括：

提取(s52)所述获取的录音的所述声乐成分；

通过利用所述至少一个特性改编提取的声乐成分而对所述提取的声乐成

分进行处理(s54)；以及

在所述获取的录音中用经改编的声乐成分替换(s56)所述声乐成分。

3.根据权利要求1或2所述的方法，其中，所述录音是记录的乐曲。

4.根据前述权利要求中的任何一项所述的方法，其中，输入(s10)声音的步骤包括利用麦克风记录(s12)包括声乐成分的声音，从而创建所述输入的声音。

5.根据权利要求1到3中的任何一项所述的方法，其中，输入(s10)声音的步骤包括从通信网络(80)接收(s14)所述声音。

6.根据前述权利要求中的任何一项所述的方法，其中，获取(s30)所述录音的步骤包括从通信网络(80)下载(s32)所述录音。

7.根据权利要求1到5中的任何一项所述的方法，其中，获取(s30)所述录音的步骤包括从本地数据存储单元检索(s34)所述录音。

8.根据前述权利要求中的任何一项所述的方法，其中，所述输入的声音的所述声乐成分的所述至少一个特性包括音高、共振峰、节奏、音调、音量和力量中的至少一个。

9.根据前述权利要求中的任何一项所述的方法，其中，所述方法由移动终端(60)来执行。

10.一种设备，所述设备被构造用于执行根据前述权利要求中的任何一项所述的方法。

11.根据权利要求10所述的设备，所述设备为移动终端(60)。

12.一种计算机程序，所述计算机程序被构造为当在设备上运行时，使得所述设备执行根据权利要求1到9中的任何一项所述的方法。