CN105874732A - 用于识别音频流中的一首音乐的方法和装置 - Google Patents

用于识别音频流中的一首音乐的方法和装置 Download PDF

Info

Publication number
CN105874732A
CN105874732A CN201580003535.7A CN201580003535A CN105874732A CN 105874732 A CN105874732 A CN 105874732A CN 201580003535 A CN201580003535 A CN 201580003535A CN 105874732 A CN105874732 A CN 105874732A
Authority
CN
China
Prior art keywords
music
audio stream
sound
song
sound characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580003535.7A
Other languages
English (en)
Other versions
CN105874732B (zh
Inventor
金泰殊
李敏秀
周俊澈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105874732A publication Critical patent/CN105874732A/zh
Application granted granted Critical
Publication of CN105874732B publication Critical patent/CN105874732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明揭示一种在电子装置中执行的用于跟踪音频流中的一首音乐的方法。所述方法可接收所述音频流的第一部分,且基于所述音频流的所述第一部分提取第一声音特征。并且,所述方法可基于所述第一声音特征来确定所述音频流的所述第一部分是否指示音乐。响应于确定所述音频流的所述第一部分指示音乐,可基于所述音频流的所述第一部分来识别一首音乐。另外,在接收到所述音频流的第二部分后,所述方法可即刻基于所述音频流的所述第二部分来提取第二声音特征,且确定所述音频流的所述第二部分是否指示第一首音乐。

Description

用于识别音频流中的一首音乐的方法和装置
相关申请案的交叉参考
本申请案主张2015年1月6日申请的标题为“跟踪音频流中的音乐(TRACKINGMUSIC IN AUDIO STREAM)”的第14/590,662号美国专利申请案、2014年1月7日申请的标题为“用于识别若干首音乐的方法和设备(METHOD AND APPARATUS FORIDENTIFYING PIECES OF MUSIC)”的第61/924,556号美国临时专利申请案,以及2014年9月17日申请的标题为“用于跟踪若干首音乐的方法和设备(METHOD ANDAPPARATUS FOR TRACKING PIECES OF MUSIC)”的第62/051,700号美国临时专利申请案的优先权,上述各项的整个内容以引入的方式并入本文中。
技术领域
本发明大体上涉及检测音频流中的音乐,且更具体来说,涉及在电子装置中跟踪音频流中的一首音乐。
背景技术
近年来,例如智能电话、平板计算机、个人计算机等电子装置的使用已变得广泛。此类电子装置可包含用于从输入声音捕获音乐并处理音乐的声音处理能力。举例来说,常规电子装置可经配置以捕获例如电视机、无线电、个人计算机、声音系统、扬声器等各种声音源输出的声音。
此类电子装置可配备有经配置以辨识所捕获声音中的歌曲的应用程序。在此情况下,应用程序可经由通信网络与外部服务器通信,以接收与所述歌曲相关联的标题和艺术家。在此类电子装置中,每当听到未辨识的歌曲时,用户可选择手动运行所述应用程序。然而,每当听到所关注的歌曲就手动运行所述应用程序对于用户来说可能不是非常方便。因此,用户可将所述应用程序设定成在背景模式下连续操作,以接收和辨识歌曲,使得用户免于手动操作所述应用程序的任务。
然而,连续操作所述应用程序通常需要大量的声音处理和网络通信,这可能导致相当大的电力消耗,尤其是在具有受限电力供应的移动电子装置中。举例来说,即使移动装置未接收到声音或歌曲,所述应用程序也可连续地处理声音并与外部服务器通信。此外,即使在已从输入声音辨识到歌曲之后,所述应用程序也可持续接收和处理已经辨识的所述歌曲的后续声音,并与服务器通信,以辨识后续声音中的同一歌曲,从而导致不需要的电力消耗。
发明内容
本发明提供用于识别和跟踪音频流中的一首音乐的方法和裝置。
根据本发明的一个方面,揭示一种在电子装置中执行的用于跟踪音频流中的一首音乐的方法。所述方法可接收所述音频流的第一部分,且基于所述音频流的所述第一部分提取第一声音特征。并且,所述方法可基于所述第一声音特征来确定所述音频流的所述第一部分是否指示音乐。响应于确定所述音频流的所述第一部分指示音乐,可基于所述音频流的所述第一部分来识别一首音乐。另外,在接收到所述音频流的第二部分后,所述方法可即刻基于所述音频流的所述第二部分来提取第二声音特征,且确定所述音频流的所述第二部分是否指示所述第一首音乐。本发明还描述了涉及此方法的设备、装置、系统、装置组合以及计算机可读媒体。
根据本发明的另一方面,揭示一种用于跟踪音频流中的一首音乐的电子装置。所述电子装置可包含:音乐检测单元,其经配置以接收所述音频流的第一部分,基于所述音频流的所述第一部分提取第一声音特征,且基于所述第一声音特征来确定所述音频流的所述第一部分是否指示音乐;音乐识别单元,其经配置以响应于确定所述第一部分指示音乐,基于所述音频流的所述第一部分来识别第一首音乐;以及音乐跟踪单元,其经配置以接收所述音频流的第二部分;基于所述音频流的所述第二部分来提取第二声音特征;以及确定所述音频流的所述第二部分是否指示所述第一首音乐。
附图说明
将在结合附图阅读时参照以下详细描述中理解本发明的实施例。
图1说明根据本发明的一个实施例的经配置以当在音频流中识别到一首音乐时显示关于所述首音乐的信息的电子装置。
图2说明根据本发明的一个实施例经配置以经由通信网络与服务器通信来获得与多首音乐相关联的识别信息的多个电子装置。
图3说明根据本发明的一个实施例的经配置以识别音频流中的一首音乐以用于更新存储单元中的音乐历史数据库的电子装置的框图。
图4说明根据本发明的一个实施例的所述电子装置中经配置以产生或获得一首音乐的音乐模型并基于所述音乐模型来跟踪所述首音乐的声音处理单元的较详细框图。
图5说明根据本发明的一个实施例的用于通过声音处理单元来跟踪输入声音流中的一首音乐以确定所述首音乐是否已结束的时序图。
图6说明根据本发明的一个实施例的用于对音频流中额一首音乐的一部分进行取样且确定所述音频流中的后续部分是否为所述首音乐的一部分的时序图。
图7是根据本发明的一个实施例的在电子装置中执行的用于识别和跟踪音频流中的一首音乐的方法的流程图。
图8说明根据本发明的一个实施例的用于基于从音频流的一部分提取的至少一个声音特征来识别一首音乐的具体方法。
图9说明根据本发明的一个实施例的用于基于与一首音乐相关联的音乐模型来跟踪所述首音乐的具体方法。
图10说明根据本发明的一个实施例的电子装置中经配置以接收一首音乐的识别信息,管理音乐历史数据库,且产生建议和通知的音乐管理单元的较详细框图。
图11说明根据一些实施例的其中可实施本发明的用于从音频流识别一首音乐并跟踪所述首音乐的方法和设备的无线通信系统中的移动装置的框图。
图12是说明根据一些实施例实施的可为先前描述的服务器中的任一者的用于搜索和提供关于一首音乐的信息的服务器系统的框图。
具体实施方式
现在将详细参考各种实施例,在附图中说明所述实施例的实例。在以下详细描述中,陈述众多具体细节以便提供对本发明的透彻理解。然而,对于所属领域的一般技术人员将是显而易见的是可在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1说明根据本发明的一个实施例的经配置以当在音频流中识别到一首音乐时显示与所述首音乐相关联的信息的电子装置120。如本文所使用,术语“音乐”可指可由节奏(例如拍子、节拍和发音)、音调(例如旋律以及和声)、力度(例如声音或音符的音量)等的一或多个元素表征的任何类型的声音,且可包含乐器、话音等的声音。另外,术语“一首音乐”在本文中可指唯一或不同音乐作品或作曲,且可包含以声音或音频形式(例如歌曲、曲调等)创建或再现此音乐作品或作曲。另外,术语“音频流”可指表示声音流的一或多个部分的一或多个电信号的序列,其可包含多首音乐、环境声音、语音、噪声等。
电子装置120可为配备有声音捕获和处理能力和通信能力的任何电子装置,例如蜂窝式电话、智能电话、可穿戴计算机、智能表、智能眼镜、个人计算机、膝上型计算机、平板计算机、智能电视机、游戏装置、多媒体播放器等。在所说明的实施例中,将电子装置120示出为智能电话,其可从扬声器150接收输入声音流,包含对应于一首音乐的声音,并将所述输入声音流转换为音频流。随着输入声音流被接收到并转换成音频流,电子装置120可检测声音和音乐,并识别所述音频流中的一首音乐。在一个实施例中,可基于预定阈值声音强度来在音频流中检测声音。在检测到声音后,电子装置120可开始检测音频流中的音乐。
一旦在音频流中检测到音乐,电子装置120就可获得一首音乐的识别信息,其与所述检测到的音乐相关联。可从外部装置(未图示)接收或从电子装置120的内部数据库(未图示)检索所述首音乐的识别信息。在获得识别信息后,电子装置120可即刻在显示屏幕130上显示所述识别信息。如本文所使用,术语“识别信息”可指可识别或描述一首音乐的任何信息,且可包含标题、艺术家、持续时间、到音乐视频的链接、评分、音乐封套、评论、下载状态等中的至少一者。在一个实施例中,电子装置120的用户110可检视扬声器150当前正播放的所述首音乐的识别信息。
在所说明的实施例中,电子装置120可在显示屏幕130上显示所述首音乐已被识别的通知132,以及包含所识别的所述首音乐的标题和艺术家名字的识别信息134。另外,电子装置120可显示所述首音乐的下载图标136、检视M/V(音乐视频)图标138和共享图标140。用户110可选择图标136、138和140(例如在所述图标上触摸)以分别下载所述首音乐,检视所述首音乐的音乐视频,以及与他人共享所述首音乐。举例来说,当选定图标136时,可将所识别的所述首音乐的音频文件或数据下载到电子装置120。在一些其它实例中,用户110可检视与所述首音乐相关联的音乐视频,其可通过选择图标138从外部服务器流式传输,或可通过选择图标140经由电子邮件、社交网络应用、云存储服务器等与朋友共享所述首音乐。
虽然所说明的实施例示出在显示屏幕130上显示已识别所述首音乐的通知132,但本发明不限于此。在一些实施例中,电子装置120可将与所识别的所述首音乐相关联的识别信息134存储在音乐历史数据库(其可在电子装置120的存储单元(未图示)中提供)中,以保持所述首音乐的记录。另外,电子装置120可包含音乐历史管理应用,以显示存储在音乐历史数据库中的多首音乐列表,以及基于所述音乐历史数据库的建议。在此情况下,用户110可激活音乐历史管理应用,以检视若干首音乐和建议的列表。
除如上文所描述获得所述首音乐的识别信息134之外,电子装置120还可跟踪所述音频流中的所述首音乐以检测所述首音乐的结束。换句话说,因为音频流是从输入声音流产生,因此可监视所述音频流,以确定同一首音乐是否仍在播放。举例来说,当整首音乐的再现完成时,或当所述首音乐变为另一首音乐而所述整首音乐未再现时,可检测所述首音乐的结束。
根据一些实施例,可产生或获得所述首音乐的音乐模型,以用于检测所述首音乐的结束。如本文所使用,术语“音乐模型”可与“声音模型”互换使用,且可指表示一首音乐的声音特性的模型,包含(但不限于)此类声音特性的统计模型。在一个实施例中,可从所述音频流的一部分提取至少一个声音特征,且接着可基于所述至少一个声音特征在电子装置120中产生所述首音乐的音乐模型。举例来说,所述声音特征可为音频指纹、MFCC(梅尔频率倒谱系数)向量等,且所述音乐模型可为GMM(高斯混合模型)等。在另一个实施例中,电子装置120可将至少一个声音特征发射到外部装置(未图示),其可包含多个音乐模型,且从所述外部装置接收所述多个音乐模型当中确定为与所述至少一个声音特征相关联的音乐模型。电子装置120还可从存储在电子装置120中的音乐模型数据库(未图示)检索所述首音乐的音乐模型。另外或替代地,在本发明的一些实施例中,所提取的至少一个声音特征(例如音频指纹、MFCC向量等)本身可用作音乐模型。
为了检测所述首音乐的结束,电子装置120可对所述音频流的至少一个部分进行取样,并基于所述音乐模型来确定所取样的部分是否指示所述首音乐。通过确定所取样的部分是否指示所述首音乐,可确定所取样的部分是否为所述首音乐的一部分,以及所述首音乐是否已结束。音频流的经取样部分可在音频流的从中已提取所述至少一个声音特征以用于产生或获得音乐模型的所述部分之后。在此过程中,电子装置120可连续地、周期性地或不定期地对音频流的多个部分进行取样,且确定所述经取样的部分中的至少一者是否不是所述首音乐的一部分,或经取样的部分中的至少一者是否是所述首音乐的一部分。如本文所使用,短语“确定音频流的一部分是否是一首音乐的一部分”可指确定音频流的所述部分是否指示所述首音乐,且可包含肯定测试(即确定音频流的一部分是否指示一首音乐)或否定测试(即确定音频流的一部分是否不指示一首音乐)。并且,短语“确定音频流的一部分是否不是一首音乐的一部分”可指确定所述音频流的所述部分是否指示不同声音,例如另一首音乐、语音、噪声、静默等。
在一些实施例中,扬声器150可连续地、周期性地、不定期地或间歇地输出多首音乐的一序列。在此情况下,电子装置120可连续地接收包含所述多首音乐的所述序列的输入声音流,并将所述输入声音流转换为音频流。当通过以如上文所描述的方式监视音频流来检测到若干首音乐中的一首的结束时,电子装置120可继续检测另一首音乐的声音和音乐。另外,电子装置120可循序地获得识别信息,以识别音频流中的多首音乐。所述多首音乐的识别信息可存储在音乐历史数据库中,以保持所识别的所述首音乐的记录。
图2说明根据本发明的一个实施例的多个电子装置210、220和230,其经配置以经由通信网络250与服务器240通信,以获得与多首音乐相关联的识别信息。通信网络250可包含一或多个有线和/或无线通信网络,例如因特网、其它广域网、局域网、城域网等。另外,电子装置210、220和230可通过使用各种通信技术(例如码分多址(CDMA)、全球移动通信系统(GSM)、宽带CDMA(W-CDMA)、长期演进(LTE)、LTE-高级、LTE直接、Wi-Fi、Wi-Fi直接、近场通信(NFC)、蓝牙、以太网等)经由通信网络250与服务器240通信。
服务器240可存储音乐数据库242,其可包含多首音乐的识别信息。所述识别信息可包含标题、艺术家、持续时间、到音乐视频的链接、评分、音乐封套、评论、下载状态等中的至少一者。在一些实施例中,音乐数据库242可包含多个识别信息项目,其中的每一者可与多首音乐中的一者相关联。
另外,音乐数据库242还可包含多个音乐模型,其中的每一者可指示多首音乐中的一者。音乐模型可为声音特性的统计模型,或可包含声音特性或声音特征(例如音频指纹、MFCC向量等)。尽管图2中说明三个电子装置210到230,但任何其它合适数目的电子装置(包含图1中的电子装置120)可经由通信网络250与服务器240通信。
在所说明的实施例中,电子装置210到230可定位于不同位置处,且连续地、周期性地或不定期地接收包含对应于不同首音乐的声音的不同输入声音流。电子装置210到230中的每一者可将接收到的输入声音流转换为音频流。当接收到输入声音流并将其转换成音频流时,电子装置210到230中的每一者可检测音频流中的声音,并开始检测音频流中的音乐。
一旦在音频串流中检测到音乐,电子装置210到230就可开始处理音频流,以识别相应音频流中的若干首音乐。举例来说,当检测到音乐时,电子装置210可开始从音频流提取至少一个声音特征。在一些实施例中,可使用任何合适的特征提取方案(例如音频指纹方法、MFCC方法等)提取至少一个声音特征。在此情况下,电子装置210可最初提取可用以识别音频流中的一首音乐的至少一个声音特征。接着可经由通信网络250将电子装置210中所提取的至少一个声音特征发射到服务器240。尽管参照电子装置210来描述图2的所说明实施例,但电子装置220和230还可经配置以便以与电子装置210类似的方式执行和操作。
在从电子装置210接收到至少一个声音特征后,服务器240可存取音乐数据库242以获得与所述至少一个声音特征相关联的识别信息。在一个实施例中,服务器240可将接收到的至少一个声音特征与音乐数据库242中的音乐模型进行比较,且识别对应于所述至少一个声音特征的音乐模型。服务器240接着可识别与所识别的音乐模型相关联的一首音乐,且从音乐数据库242检索所识别的所述首音乐的识别信息。可将为所述首音乐检索到的识别信息发射到电子装置210。
在接收到与所述首音乐相关联的识别信息后,电子装置210可获得电子装置210的位置以及接收到所述首音乐的时间,且用所述首音乐的所述识别信息、所述位置和时间来更新音乐历史数据库。一旦从服务器240接收到所述首音乐的所述识别信息,电子装置210就无法再与服务器240通信,直到在所述音频流中检测到不同首音乐的音乐为止。
在一些实施例中,服务器240还可将与所识别的所述首音乐相关联的音乐模型发射到电子装置210。在接收到音乐模型后,电子装置210可即刻开始在音频流中跟踪所述首音乐,以检测所述首音乐的结束。当从输入声音流产生音频流时,电子装置210可监视所述音频流,以检测音频流中的所述首音乐的结束。根据一个实施例,电子装置120可对音频流的一部分进行取样,且基于音乐模型来确定所取样的部分是否指示所述首音乐(即所取样的部分是否是所述首音乐的一部分)。
通过接收和存储多首音乐的识别信息以更新音乐历史数据库,电子装置210可提供与多首音乐有关的多种信息。在一个实施例中,电子装置210可基于音乐历史数据库产生频繁听的若干首音乐的列表,并向用户提供下载或购买一或多个首音乐的建议。另外或替代地,电子装置210可在频繁听的若干首音乐的列表中选择一首音乐,使得选定首音乐从外部服务器(例如服务器240或另一服务器)流式传输。另外,电子装置210可提供在一或多个时间段或位置中听到的若干首音乐的列表,以及与所述首音乐相关联的时间或位置。
在另一个实施例中,来自服务器240的一首音乐的识别信息可包含指示所述首音乐可用于免费下载或与特定类型的音乐视频(例如搞笑音乐视频、高评分音乐视频等)相关联的额外信息。在接收到所述首音乐的识别信息后,电子装置210可即刻在电子装置210的屏幕上输出额外信息。所述额外信息可与可用于经由通信网络250下载所述首音乐的音频文件或检视相关联的音乐视频的一或多个图标一起显示。
电子装置210到230可经配置以通过通信网络250或对等通信方案彼此通信。举例来说,电子装置210和220可彼此通信,以共享相应的音乐历史数据库或此类数据库的子集。从电子装置220的音乐历史数据库,电子装置210可确定与电子装置220的用户所听的若干首音乐有关的信息,例如电子装置220的频繁听的若干首音乐的列表以及最爱音乐列表。在另一个实施例中,电子装置210可通过通信网络250将音乐历史数据库或所述数据库的子集上载到社交网络服务(SNS)服务器(未图示)上,以与例如电子装置220和230等其它电子装置共享所述数据库。
图3说明根据本发明的一个实施例的经配置以识别音频流中的一首音乐以用于更新存储单元中的音乐历史数据库的电子装置300的框图。电子装置300可包含声音传感器310、I/O(输入/输出)单元320、通信单元330、处理器340、存储单元360、位置传感器370和时钟模块380。电子装置300可为配备有声音捕获和处理能力以及通信能力的任何合适装置,例如蜂窝式电话、智能电话、可穿戴计算机、智能表、智能眼镜、膝上型计算机、平板个人计算机、游戏装置、多媒体播放器等。另外,如上文参照图1和2所描述的电子装置120、210、220和230还可配置有如图3中所示的电子装置300的组件。
处理器340可为经配置以管理和操作电子装置300的任何类型的处理单元,包含(但不限于)AP(应用程序处理器CPU(中央处理单元)或使用一或多个处理核心的MPU(微处理器单元)。处理器340可包含:DSP(数字信号处理器)350,其经配置以处理音频流;音乐识别单元342,其经配置以从音频流识别一首音乐;以及音乐管理单元344,其经配置以管理所述首音乐的记录。在此配置中,DSP 350可包含声音处理单元352和缓冲存储器354。在一实施例中,DSP 350可为用于降低处理音频流的电力消耗的低电力处理器。尽管将DSP 350说明为包含于处理器340中,但在一些实施例中,DSP 350可与电子装置300中的处理器340分开布置。另外或替代地,音乐识别单元342和音乐管理单元344可为DSP 350内提供的软件单元。
存储单元360可包含可由处理器340存取的音乐模型数据库362和音乐历史数据库364。音乐模型数据库362可包含用于监视音频流且跟踪音频流中的一首音乐的一或多个音乐模型。举例来说,音乐模型数据库362可包含预定基础音乐模型,其用于产生所述首音乐的音乐模型,如下文将参看图4更详细地描述。如本文所使用,术语“基础音乐模型”可指指示一般来说可指示音乐的一般和/或常见声音特性(例如音调、节奏、力度等)的音乐模型。另外,可基于从指定首音乐提取的至少一个声音特征来将所述基础音乐模型修改为用于指定的一首音乐的音乐模型。
存储单元360中的音乐历史数据库364可包含已由电子装置300或由服务器识别的一或多首音乐的记录。举例来说,所识别的所述首音乐的记录可包含与所述首音乐相关联的识别信息,关于接收到所述首音乐的位置和时间的信息,以及类似信息。可通过位置传感器370和时钟模块380来获得关于位置和时间的信息,如下文将更详细地描述。另外,音乐历史数据库364可包含用户的最爱音乐列表、另一用户的最爱音乐列表等。存储单元260可为远程或本地存储装置,且可使用任何合适的存储或存储器装置来实施,例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)。
声音传感器310可经配置以连续地接收包含所述多首音乐的所述序列的输入声音流,并将所述输入声音流转换为音频流。声音传感器310可将音频流提供到DSP 350中的声音处理单元352。声音传感器310可包含可用于接收、捕获、感测、转换和/或检测输入声音流的一或多个麦克风或任何其它类型的声音传感器。另外,声音传感器310可使用任何合适的软件和/或硬件来执行此类功能。
为了降低电力消耗,声音传感器310可经配置以根据工作循环周期性地接收输入声音流,并将其转换为音频流。举例来说,声音传感器310可以10%工作循环操作,使得在所述时间的10%(例如,200ms周期中的20ms)接收到输入声音流,且可将输入声音流的接收到的部分转换成所述音频流的一部分。在此情况下,声音传感器310可从所述音频流的所述部分检测声音。举例来说,可确定音频流的所述部分的声音强度,并将其与预定阈值声音强度进行比较。如果音频流的所述部分的声音强度超过阈值声音强度,那么声音传感器310可去活工作循环功能,以继续接收输入声音流的其余部分,并将其转换为音频流的其余部分。另外,声音传感器310可激活DSP 350,并向DSP 350提供音频流的其余部分。
当DSP 350由声音传感器310激活时,声音处理单元352可经配置以从声音传感器310接收音频流的所述部分,并确定音频流的接收到的部分是否包含音乐(或音频流的接收到的部分是否指示音乐)。在一个实施例中,声音处理单元352可从音频流的接收到的部分提取至少一个声音特征,并确定所述至少一个所提取的声音特征是否指示所关注的声音,例如音乐。可使用任何合适的特征提取方案(例如音频指纹方法、MFCC方法等)来提取声音特征。
响应于从音频流检测到音乐,DSP 350可激活处理器340,这又可允许音乐识别单元342识别与所述检测到的音乐相关联的一首音乐。可从音频流的一部分提取至少一个声音特征,且可基于所述至少一个声音特征来识别所述首音乐。根据一些实施例,声音处理单元352可向音乐识别单元342提供已提取来用于检测音乐的至少一个声音特征,且音乐识别单元342接着可基于从声音处理单元352提供的至少一个声音特征来识别所述首音乐。
在一个实施例中,音乐识别单元342可通过经由通信单元330通过通信网络390将至少一个声音特征发射到外部装置(例如图2中的服务器240)来识别与检测到的音乐相关联的一首音乐。所述外部装置可包含具有多首音乐的识别信息的音乐数据库。在从电子装置300接收到至少一个声音特征后,外部装置可搜索音乐数据库以寻找与接收到的声音特征相关联的识别信息,并将所述识别信息发射到电子装置300。在另一个实施例中,电子装置300中的存储单元360可包含音乐数据库(未图示),其具有多首音乐的识别信息。在此情况下,音乐识别单元342可搜索存储单元360中的音乐数据库,以寻找与所述声音特征相关联的所述识别信息。
I/O单元320可经配置以接收来自电子装置300的用户的输入,和/或为所述用户输出信息。I/O单元320可为能够接收输入命令和/或输出信息的任何合适的装置,例如触摸屏、触摸垫、触摸传感器、按钮、键、触感传感照明传感运动传感麦克LCD显示器、扬声器等。当获得所述识别信息时,音乐识别单元342可将所述识别信息或与所述识别信息有关的任何信息提供到I/O单元320。另外,例如,I/O单元320还可显示用于下载和共享所述首音乐的图标,如图1中所示。在此情况下,可接收在所显示图标当中选择一图标的输入,且可响应于所述输入而执行与选定图标有关的功能。
位置传感器370可经配置以获得电子装置300的位置信息,用于更新所识别的一首音乐的音乐历史数据库364。举例来说,位置传感器370可通过确定当接收到或识别所述首音乐时(或当获得所述首音乐的识别信息时)移动装置所处的位置来获得位置信息。在确定电子装置300的位置信息时,位置传感器370可接收和使用GPS位置信息,如果此信息可用(例如在户外设定中)。如果GPS信息不可用(例如在室内设定中),那么位置传感器370可从Wi-Fi接入点或小区塔基站接收信号,并基于接收到的信号中的每一者的强度和/或使用任何合适的三角测量方法来确定电子装置300的位置。
时钟模块380可经配置以监视接收到或识别所述首音乐的时间。举例来说,时钟模块380可记录获得所述首音乐的所述识别信息的时间。根据一些实施例,识别所述首音乐的处理器340可包含时钟模块380。
在一些实施例中,一旦音乐识别单元342获得一首音乐的识别信息,就可将所述识别信息提供到音乐管理单元344。为了保持所述首音乐的记录,音乐管理单元344可将所述识别信息提供到音乐历史数据库364,使得所述识别信息可存储在音乐历史数据库364中。另外,音乐管理单元344可分别从位置传感器370和时钟模块380接收与所述首音乐相关联的位置信息和时间信息,且可将所述位置信息和时间信息连同所述首音乐的所述识别信息存储在音乐历史数据库364中。在一些实施例中,所述识别信息、所述位置信息和/或所述时间信息可分别从音乐识别单元342、位置传感器370和/或时钟模块380直接提供到音乐历史数据库364,而不经由音乐管理单元344。如下文将参看图10更详细地描述,音乐管理单元344还可经配置以为电子装置300的用户产生建议和通知。
除如上文所描述识别所述首音乐和更新音乐历史数据库364之外,当声音传感器310检测到音乐并激活DSP 350时,DSP 350中的声音处理单元352可产生或获得与所述检测到的音乐相关联的所述首音乐的音乐模型。根据一个实施例,声音处理单元352可从音频流的一部分提取至少一个声音特征,并基于所述至少一个声音特征产生所述首音乐的音乐模型。在此情况下,所述音频流的一部分可存储在缓冲存储器354中,且可从缓冲存储器354中的所存储的部分提取至少一个声音特征。在一些实施例中,声音处理单元352可从存储单元360中的音乐模型数据库362获得基础音乐模型,并基于至少一个声音特征来修改所述基础音乐模型以产生所述音乐模型。根据另一个实施例,声音处理单元352可经由通信单元330将至少一个声音特征发射到外部装置(例如,图2中的服务器240),且以如上文参看图2所描述的方式来接收与至少一个声音特征相关联的音乐模型。为所述首音乐产生或获得的音乐模型可存储在音乐模型数据库362中。
一旦为所述首音乐产生或获得音乐模型,声音处理单元352就可对音频流的至少一个部分进行样本(或接收),并基于所述音乐模型来确定所取样的部分是否指示所述首音乐(即,所取样的部分是所述首音乐的一部分)。举例来说,如果当声音处理单元352对音频流的一部分进行取样时,同一首音乐仍在播放,那么可确定所取样的部分指示所述首音乐。在此情况下,声音处理单元352可确定所述首音乐尚未结束。另一方面,如果当声音处理单元352对音频流的一部分进行取样时,所述首音乐已结束,那么可确定所取样的部分不指示所述首音乐。在此情况下,声音处理单元352可确定所述首音乐已结束。在一些实施例中,声音处理单元352可连续地、周期性地、不定期地或间或对音频流的多个部分进行取样。在此情况下,当确定所取样的部分(例如上一次取样的部分)中的至少一者不指示所述首音乐时,可检测到所述首音乐的结束。
在确定所述首音乐已结束后,声音传感器310可即刻开始根据工作循环周期性地接收输入声音流,将接收到的输入声音流转换为音频流,并检测音频流中的声音。在检测到音频流中的声音后,处理器340可继续检测音频流中的新的一首音乐的音乐,并识别所述新的一首音乐。另外,可产生或获得所述新的一首音乐的新音乐模型,且基于所述新音乐模型来跟踪所述新的一首音乐,以便以如上文所描述的方式检测所述新的一首音乐的结束。
图4说明根据本发明的一个实施例的经配置以产生或获得一首音乐的音乐模型并基于所述音乐模型来跟踪所述首音乐的声音处理单元352的较详细框图。声音处理单元352可包含音乐检测模块410、音乐模型管理模块420和音乐跟踪模块430。如图4中所示,声音处理单元352可存取DSP 350中的缓冲存储器354,以及存储单元360中的音乐模型数据库362。当声音传感器310检测音频流中的声音时,如上文参看图3所描述,声音传感器310可激活DSP 350中的声音处理单元352的音乐检测模块410。
当被激活时,音乐检测模块410可从声音传感器310接收所述音频流的至少一部分。音乐检测模块410可经配置以通过使用任何合适的声音分类方法(例如基于GMM的分类器、神经网络、基于HMM(隐式马尔可夫模型)的分类器、图解模型或SVM(支持向量机))来检测音频流的接收到的部分中的音乐。如果确定音频流的接收到的部分不指示音乐,那么音乐检测模块410可指令声音传感器310开始根据工作循环周期性地接收输入声音流,将接收到的输入声音流转换为音频流,且以如上文参看图3所描述的方式来检测音频流中的声音。在此情况下,可去活DSP 350以便降低电力消耗。另一方面,如果确定音频流的接收到的部分指示音乐,那么音乐检测模块410可激活音乐模型管理模块420。
当被激活时,音乐模型管理模块420可从声音传感器310接收所述音频流的至少一部分。举例来说,音频流的接收到的部分可为音频流的其中检测到音乐的部分,或在音频流的其中检测到音乐的部分之后的部分。基于音频流的接收到的部分,音乐模型管理模块420可产生一首音乐的音乐模型,其与音乐检测模块410检测到的音乐相关联。在一个实施例中,音乐模型管理模块420可从音频流的接收到的部分提取至少一个声音特征(例如音频指纹、MFCC向量等),且可基于所述至少一个声音特征产生所述首音乐的音乐模型。缓冲存储器354可存储音频流的一部分,且音乐模型管理模块420可存取缓冲存储器354中的所存储的部分,以提取至少一个声音特征,用于产生所述首音乐的音乐模型。
根据一些实施例,存储单元360中的音乐模型数据库362可包含预定基础音乐模型。在此情况下,音乐模型管理模块420可通过基于从音频流的所述部分提取的至少一个声音特征修改基础音乐模型来产生所述首音乐的音乐模型。一旦产生所述首音乐的音乐模型,音乐模型管理模块420就可激活音乐跟踪模块430,并将所述音乐模型提供到音乐跟踪模块430。在一个实施例中,音乐模型管理模块420可将所述首音乐的音乐模型存储在音乐模型数据库362中,使得音乐跟踪模块430可存取音乐模型数据库362,以获得所述首音乐的音乐模型。或者或另外,音乐模型管理模块420可以如上文参看图2所描述的方式,从外部装置(例如图2中的服务器240)获得所述首音乐的音乐模型,并将所述音乐模型提供到音乐跟踪模块430。
当被激活时,音乐跟踪模块430可接收音频流的后续部分,并基于所述首音乐的音乐模型来监视接收到的部分。在一些实施例中,可将音频流的后续部分存储在缓冲存储器354中,且音乐跟踪模块430可存取缓冲存储器354中的音频流的所存储部分。通过对音频流的至少一个部分进行取样(或接收),且基于音乐模型确定所取样的部分是否指示所述首音乐(即所取样的部分是否是所述首音乐的一部分),音乐跟踪模块430可跟踪所述首音乐,并检测所述首音乐的结束。
根据一些实施例,音乐跟踪模块430可基于所述首音乐的音乐模型以及从所取样的部分提取的至少一个声音特征来确定所述首音乐与所取样的部分之间的类似性值(或得分)。在一个实施例中,可基于音乐模型与从所取样的部分提取的至少一个声音特征之间的类似性值来确定所述类似性值。下文将参看图6更详细地描述用于确定类似性值的方案。
一旦确定所取样的部分的类似性值,就可将所述类似性值与可存储在存储单元360中的预定阈值进行比较。如果所述类似性值超过阈值,那么确定所取样的部分指示所述首音乐。在此情况下,音乐跟踪模块430可确定所取样的部分是所述首音乐的一部分,且所述首音乐尚未结束。另一方面,如果类似性值不超过阈值,那么确定所取样的部分不指示所述首音乐。在此情况下,音乐跟踪模块430可确定所取样的部分不是所述首音乐的一部分,且所述首音乐已结束。在一个实施例中,音乐跟踪模块430可连续地、周期性地或不定期地对音频流的多个部分进行取样,且确定所取样的部分中的每一者是否是所述首音乐的一部分。
一旦确定所取样的部分不是所述首音乐的一部分,音乐跟踪模块430就可指令声音传感器310开始根据工作循环周期性地接收输入声音流,将接收到的输入声音流转换成音频流,且检测音频流中的声音。在此情况下,可去活DSP 350以便降低电力消耗。如果在音频流中检测到声音,那么可以如上文所描述的方式来执行检测音频流中的音乐、为新的一首音乐产生或获得新的音乐模型,且基于所述新的音乐模型来跟踪所述新的一首音乐的过程。
图5说明根据本发明的一个实施例的用于跟踪输入声音流510中的一首音乐516以确定所述首音乐516是否已结束的时序图500。为了处理输入声音流510,电子装置300的声音传感器310可接收输入声音流510,其包含静默512、汽车噪声514、所述首音乐516和语音518的序列。在一个实施例中,声音传感器310可经配置以接收输入声音流510,并将其转换成可由声音处理单元352处理的音频流。
在一些实施例中,声音传感器310可经配置以根据预定工作循环,在预定时间周期内(例如介于10与30毫秒(ms)之间的任何合适时间周期,例如20ms,用于音频分析,例如快速傅里叶变换),以预定间隔T1(例如介于一百毫秒与若干秒之间的任何合适时间周期,例如180ms)周期性地接收输入声音流510。举例来说,在间隔T1的激活状态期间,声音传感器310可接收输入声音流的一部分,并将接收到的部分转换为音频流的一部分(例如S1、S2、S3等)。对于音频流部分中的每一者,例如S1、S2、S3等,声音传感器310可通过确定每一部分是否包含超过预定阈值声音强度的声音来检测声音。根据一些实施例,假定一首典型的音乐的长度可为约若干分钟(例如约三或四分钟),那么可将间隔T1设定成若干秒长。在此情况下,在间隔T1的非作用中状态下持续若干秒的输入声音流510的缺失部分(即输入声音流510的未由声音传感器310接收的部分)可不显著影响一首音乐中的声音的检测。本文提到的时间周期是仅出于示范性目的,且还可利用其它周期。
当在音频流部分S1、S2、S3等中检测到声音时,可去活工作循环功能,以允许声音传感器310继续接收输入声音流510的一或多个后续部分,并将接收到的部分转换成对应的一或多个音频流部分。在此情况下,可继续接收输入声音流的一或多个后续部分,并将其转换成对应的一或多个音频流部分,以用于通过音乐检测模块410来检测与所述首音乐516相关联的音乐,且如果检测到音乐,那么跟踪所述首音乐516以寻找所述首音乐516的结束。
如图5中所示,声音传感器310可根据工作循环接收输入声音流510的多个部分,其包含静默512、汽车噪声514、所述首音乐516和语音518的序列。最初,在间隔T1的激活状态期间接收输入声音流510中的静默512的一部分,并通过声音传感器310将其转换成音频流部分S1。在此情况下,声音传感器310可不从音频流部分S1检测声音,且在间隔T1的非作用中状态期间去活。在间隔T1结束时,可激活声音传感器310,以接收输入声音流510中的静默512的另一部分,并将接收到的部分转换为音频流部分S2。由于音频流部分S2对应于静默512的一部分,因此声音传感器310可能未检测到声音。
在间隔T1的下一激活状态期间,可激活声音传感器310,以接收输入声音流510中的汽车噪声514的另一部分,并将接收到的部分转换为音频流部分S3。在此情况下,声音传感器310可确定音频流部分S3超过预定阈值声音强度,且因此在音频流部分S3中检测到声音。在音频流部分S3中检测到声音后,声音传感器310可去活工作循环功能,以接收输入声音流510的之后部分,并将接收到的部分转换为表示为M1的音频流部分。另外,声音传感器310可激活DSP 350的声音处理单元352中的音乐检测模块410,并将音频流部分M1提供到音乐检测模块410。
当被激活时,音乐检测模块410可经配置以在预定时间周期(例如10秒)内接收音频流的一部分,如由M1或M2表示。在所说明的实施例中,当声音传感器310在音频流部分S3中检测到声音时,音乐检测模块410可接收对应于汽车噪声514的一部分的音频流部分M1,且可确定音频流部分M1并不包含音乐。在此情况下,音乐检测模块410可去活声音传感器310,以在预定时间周期T2内中断接收输入声音流510。在一个实施例中,当未检测到音乐时,可去活音乐检测模块410,以降低电力消耗。假定一首音乐通常可为若干分钟长,那么时间周期T2,其可长于间隔T1,可为例如介于10与30秒之间的任何合适的时间周期,因为声音传感器310和音乐检测模块410在此时间周期内的去活可能不显著影响一首音乐中的声音和音乐的检测。
当预定时间周期T2已逝去时,可根据工作循环来激活声音传感器310,以接收输入声音流510中的所述首音乐516的一部分,并将所述首音乐516的接收到的部分转换为音频流部分S4。声音传感器310可通过确定音频流部分S4包含超过预定阈值声音强度的声音来检测音频流部分S4中对应于所述首音乐516的一部分的声音。在音频流部分S4中检测到声音后,声音传感器310可去活工作循环功能,以接收输入声音流510的之后部分,并将接收到的部分转换为表示为M2的音频流部分。另外,声音传感器310可激活音乐检测模块410,并将音频流部分M2提供到音乐检测模块410。在一些实施例中,声音传感器310可持续接收输入声音流510的一或多个后续部分,并将所述部分转换成音频流部分(例如G1、N1、N2、N3等),直到确定音频流部分M2并不包含音乐或对应于输入声音流510的后续部分中的一者的音频流部分不是所述首音乐516的一部分为止。
在被激活后,音乐检测模块410可从声音传感器310接收对应于所述首音乐516的一部分的音频流部分M2,且可检测音频流部分M2中的音乐。响应于在音频流部分M2中检测到音乐,可激活音乐模型管理模块420以在预定时间周期(例如10秒)内接收在所述首音乐516的音频流部分M2之后的音频流部分G1。基于音频流部分G1和/或任何其它部分,音乐模型管理模块420可产生或获得所述首音乐516的音乐模型,如上文参看图4所描述。在一个实施例中,音乐模型管理模块420可从音频流部分G1提取至少一个声音特征,且基于所述至少一个声音特征产生所述首音乐516的音乐模型。在另一个实施例中,可以如上文参看图2所描述的方式,从外部装置接收与从音频流部分G1所提取的声音特征相关联的所述首音乐的音乐模型。
当在基于音频流部分G1产生或获得音乐模型之后逝去了预定时间周期T3时,可激活音乐跟踪模块430,以通过以预定间隔T4(例如介于2与30秒之间的任何合适时间周期)周期性地对一或多个后续音频流部分(例如N1、N2和N3)进行取样来跟踪所述首音乐516。在一些实施例中,在时间周期T3的结束之后,音乐跟踪模块430可经配置以在预定时间周期(例如10秒)内从声音传感器310接收音频流部分(例如N1、N2或N3)。尽管上文将音乐模型描述为是基于从图5中的音频流部分G1提取的声音特征而产生或获得,但可基于从已经用于检测音乐的音频流部分M2提取的声音特征来产生或获得音乐模型。在此情况下,预定时间周期T3可在对应于音频流部分M2的时间周期结束时开始。
当在用于跟踪的间隔T4的开头接收到音频流部分时,音乐跟踪模块430可基于与所述首音乐516相关联的音乐模型来确定所述音频流部分是否指示所述首音乐516(即所述音频流部分是所述首音乐516的一部分)。如果确定音频流部分不是所述首音乐516的一部分,那么音乐跟踪模块430可确定所述首音乐516已结束。在此情况下,音乐跟踪模块430(或DSP 350,或处理器340)可产生一或多个中断信号,用于检测音频流中的声音和音乐,识别下一首音乐和/或跟踪下一首音乐。举例来说,音乐跟踪模块430可产生中断信号,且将中断信号提供到声音传感器310,用于根据工作循环来接收输入声音流510,且在从输入声音流产生的音频流中检测声音。另一方面,如果确定音频流部分是所述首音乐516的指示所述首音乐516尚未结束的部分,那么音乐跟踪模块430可在间隔T4结束时接收下一音频流。在此情况下,音乐跟踪模块430(或DSP 350,或处理器340)可不产生用于识别一首音乐的中断信号。
在所说明的实施例中,音乐跟踪模块430可接收对应于所述首音乐516的一部分的音频流部分N1,且基于所述音乐模型来确定音频流部分N1是所述首音乐516的一部分。在间隔T4结束时,对应于所述首音乐516的后续部分的音频流部分N2可由音乐跟踪模块430接收,其可通过使用音乐模型来确定音频流部分N2是所述首音乐516的一部分。在下一间隔T4的开始,音乐跟踪模块430可接收音频流部分N3,其对应于输入声音流510中的语音518的一部分。由于音频流部分N3对应于语音518的所述部分,因此音乐跟踪模块430或替代地音乐检测模块410可基于音乐模型来确定音频流部分N3不是所述首音乐516的一部分,指示所述首音乐516已结束。如上文所描述,使用音频流部分(即N1、N2、N3等)来跟踪所述首音乐516以确定所述首音乐516是否已结束。因此,即使在所述首音乐516结束之后接收到第一音频流部分(即N1),也可能不会对确定所接收的音频串流部分不是所述首音乐516的一部分从而指示所述首音乐516已结束具有相当大的影响。因此,时间周期T3可为长于时间周期T2的任何合适时间周期,例如介于5秒与5分钟之间。
一旦确定音频流部分N3不是所述首音乐516的一部分(即,所述首音乐516已结束或不再可由声音传感器310检测),音乐跟踪模块430就可激活声音传感器310,以开始根据工作循环周期性地接收输入声音流510的一或多个部分。在图5中所示的实施例中,声音传感器310可接收输入声音流510中的语音518的一部分,并将接收到的部分转换为音频流部分S5。在此情况下,声音传感器310可确定音频流部分S5包含超过预定阈值声音强度的声音。在检测到声音后,可激活音乐检测模块410以接收后续音频流部分,并确定所述音频流部分并不包含音乐。输入声音流510或其它输入声音流的后续部分的处理可由声音传感器310、音乐检测模块410、音乐模型管理模块420和/或音乐跟踪模块430以如上文所描述的类似方式执行。尽管借助于实例以时间周期或间隔(例如T1、T2、T3、T4等)的特定时间参数和/或范围来描述以上实施例,但所述时间周期可不限于此类时间参数和范围,而是可设定成任何其它合适的时间参数和/或范围。另外,可根据各种实施方案(例如电子装置300的电池功率、电子装置300的计算资源和电力、所述首音乐516的预期长度等)视需要调整所述时间周期。
图6说明根据本发明的一个实施例的用于对音频流610中的一首音乐的音频流部分630进行取样且确定音频流610中的后续部分640是否是所述首音乐的一部分的时序图600。最初,可在音频流610的部分620中检测在音频流部分630之前或紧接在其之前的音乐。在检测到所述音乐后,音乐模型管理模块420可从音频流部分630提取至少一个声音特征650,且产生或获得与所述部分620相关联的所述首音乐的音乐模型。
接着可将所述首音乐的音乐模型提供到音乐跟踪模块430以用于跟踪所述首音乐。音乐跟踪模块430可对音频流610中的后续部分640进行取样,并从所取样的音频流部分640提取至少一个声音特征660。基于所述音乐模型声音特征660,可确定所取样的音频流部分640是否是所述首音乐的一部分。根据一些实施例,音乐跟踪模块430可确定所取样的音频流部分640与所述首音乐的音乐模型之间的相似性。举例来说,可计算指示所取样的音频流部分640与音乐模型之间的相似程度的类似性值(例如得分、置信度值等)。如果类似性值超过预定阈值,那么可确定所取样的音频流部分640是所述首音乐的一部分,指示所述首音乐尚未结束。另一方面,如果类似性值并不超过阈值,那么可确定所取样的音频流部分640不是所述首音乐的一部分,指示所述首音乐已结束。
在一个实施例中,可基于概率值(例如似然值)来确定音频流部分640与所述首音乐的音乐模型之间的类似性值。举例来说,可确定指示从音频流部分640提取的至少一个声音特征660指示音乐模型的可能性的第一概率值。另外,可确定指示至少一个声音特征660是指示基础音乐模型的可能性的第二概率值。在确定第一和第二概率值后,可通过从第一概率值减去第二概率值来确定音频流部分640与所述首音乐的音乐模型之间的类似性值,其可通过以下等式来表达:
类似性值=L(xsamplemusic)-L(xsamplebase)
其中xsample表示从音频流部分640提取的至少一个声音特征660,λmusic表示与所述首音乐相关联的音乐模型,λbase表示基础音乐模型,L(xsamplemusic)表示第一概率值(例如,在给定λmusic的情况下,xsample的记录可能性),且L(xsamplebase)表示第二概率值(例如,在给定λbase的情况下,xsample的记录可能性)。
在另一个实施例中,可使用贝叶斯(Bayesian)信息准则来确定类似性值。如上文所描述,可基于从音频流部分630提取的至少一个声音特征650来产生或获得所述首音乐的音乐模型。另外,可基于从所取样的音频流部分640提取的至少一个声音特征660来产生或获得另一音乐模型。举例来说,可通过基于至少一个声音特征660修改基础音乐模型来产生音频流部分640的音乐模型。根据此实施例,可为确指示至少一个声音特征650是指示所述首音乐的音乐模型的可能性的第一概率值。另外,可确定指示至少一个声音特征660是指示所取样的音频流部分640的其它音乐模型的可能性的第二概率值。此外,可确定指示声音特征650和660是指示基础音乐模型的可能性的第三概率值。在确定第一到第三概率值后,可通过将第三概率值从第一和第二概率值的总和减去来确定类似性值,其可通过以下等式来表达:
类似性值=L(xmusicmusic)+L(xsamplesample)-L(xmusic,xsamplebase)
其中xmusic表示从音频流部分630提取的至少一个声音特征650,xsample表示来自所取样的音频流部分640的至少一个声音特征660,λmusic表示与所述首音乐相关联的音乐模型,λsample表示与音频流部分640相关联的音乐模型,λbase表示基础音乐模型,L(xmusicmusic)表示第一概率值(例如,在给定λmusic的情况下,xmusic的记录可能性),L(xsamplesample)表示第二概率值(例如,在给定λsample的情况下,xsample的记录可能性),且L(xmusic,xsamplebase)表示第三概率值(例如,在给定λbase的情况下,xmusic和xsample的记录可能性)。
在以上实施例中,为了改进计算资源和电力的效率,当从所取样的音频流部分630提取每一声音特征时,可通过修改基础音乐模型来产生所取样的音频流部分640的音乐模型。替代地,可基于所有所提取的声音特征来修改基础音乐模型一次。并且,为了改进确定第一或第三概率值的效率,当已从音频流部分630提取多个声音特征时,可选择和存储所述多个声音特征的子集,以用于确定第三概率值。举例来说,可基于每一声音特征是音乐的可能性来选择声音特征的子集。
在另一个实施例中,可使用交叉可能性比率方法来确定类似性值。根据此实施例,可确定指示从音频流部分640提取的至少一个声音特征660是指示所述首音乐的音乐模型的可能性的第一概率值。另外,可确定指示从音频流部分630提取的声音特征650是指示音频流部分640的音乐模型的可能性的第二概率值。另外,还可确定指示至少一个声音特征650是指示基础音乐模型的可能性的第三概率值,以及指示至少一个声音特征660是指示基础音乐模型的可能性的第四概率值。在确定第一到第四概率值后,可通过将第三和第四概率值从第一和第二概率值的总和减去来确定类似性值,其可通过以下等式来表达:
类似性值=L(xsamplemusic)+L(xmusicsample)-L(xmusicbase)-L(xsamplebase)
其中xsample表示从音频流部分640提取的至少一个声音特征660,xmusic表示从音频流部分630提取的至少一个声音特征650,λmusic表示与所述首音乐相关联的音乐模型,λsample表示与音频流部分640相关联的音乐模型,λbase表示基础音乐模型,L(xsamplemusic)表示第一概率值(例如,在给定λmusic的情况下,xsample的记录可能性),L(xmusicsample)表示第二概率值(例如,在给定λbase的情况下,xmusic的记录可能性),且L(xsamplebase)表示第四概率值(例如,在给定λbase的情况下,xsample的记录可能性)。为了计算资源和电力的效率,可在确定类似性值之前,事先确定第三概率值。
在又一实施例中,可基于音乐模型之间的距离值来确定类似性值。举例来说,可将欧几里得距离、汉明距离、库尔贝克-莱伯尔(Kullback-Leibler,KL)发散等计算为音乐模型之间的距离值。在此实施例中,可确定音频流部分640的音乐模型与所述首音乐的音乐模型之间的第一距离值。另外,可确定所述首音乐的音乐模型与基础音乐模型之间的第二距离值,且可确定音频流部分640的音乐模型与基础音乐模型之间的第三距离值。在确定第一到第三距离值后,可通过将第二和第三距离值从第一距离值的成倍值减去来确定类似性值,其可通过以下等式来表达:
类似性值=2·D(λsamplemusic)-D(λmusicbase)-D(λsamplebase)
其中λsample表示音频流部分640的音乐模型,λmusic表示所述首音乐的音乐模型,λbase表示基础音乐模型,D(λsamplemusic)表示λsample与λmusic之间的第一距离值,D(λmusicbase)表示λmusic与λbase之间的第二距离值,且D(λsample,λbase)表示λsample与λbase之间的第三距离值。在上文所述的用于确定类似性值的实施例中,可进行任何合适的修改,以便改进计算资源和电力的效率。
图7是根据本发明的一个实施例的在电子装置中执行的用于识别和跟踪音频流中的一首音乐的方法700的流程图。电子装置(例如,图3中所示的电子装置300)可接收输入声音流,其包含对应于一首音乐的声音,并将所述输入声音流转换为音频流。在710处,电子装置可确定是否在音频流中检测到声音。在一个实施例中,可基于阈值声音强度在音频流中检测声音。如果未检测到声音(即,710处的“否”),那么方法700可继续进行返回到710,以确定是否在正从正接收到的输入声音流产生的音频流中检测到声音。
当检测到声音(即,710处的“是”)时,电子装置可在720处对音频流的一部分进行取样,且在730处基于音频流的所取样的部分来提取声音特征。在一些实施例中,可从音频流的所取样的部分提取多个声音特征。基于所述声音特征,电子装置可在740处,通过使用任何合适的声音分类方法来确定是否在音频流的所取样的部分中检测到音乐。如果未检测到音乐(即,740处的“否”),方法700可继续进行返回到710,以持续确定是否在正产生的音频流中检测到声音。
另一方面,当检测到音乐(即,740处的“是”)时,方法700可继续进行到750,以识别一首音乐,其与检测到的音乐相关联。根据一些实施例,可通过获得与所述首音乐相关联的识别信息来识别所述首音乐。如果电子装置未能识别所述首音乐(即,750处的“否”),那么方法700可继续进行返回到710,以确定是否在正产生的音频流中检测到声音。
另一方面,如果识别到所述首音乐(即,750处的“是”),那么用所识别的所述首音乐来更新电子装置中的音乐历史数据库。另外,方法700可继续进行到760,以跟踪所识别的所述首音乐,并检测所述首音乐的结束。根据一些实施例,电子装置可对音频流的一部分进行取样,并确定所取样的部分是否是所述首音乐的一部分。在此过程中,可使用所述首音乐的音乐模型,其是在电子装置中产生或从外部装置获得。如果未检测到所述首音乐的结束(即,760处的“否”),那么方法700进行到保持跟踪所述首音乐,举例来说通过对音频流的下一部分进行取样。否则,如果检测到所述首音乐的结束(即,760处的“是”),那么方法700可继续进行返回到710,以确定是否在正产生的音频流中检测到声音。尽管上文将方法700描述为在获得所述首音乐的识别信息之后跟踪所述首音乐,但即使电子装置未能获得此类识别信息,方法700也可基于音频流的一部分产生或获得一首音乐的音乐模型,并基于所述音乐模型来跟踪所述首音乐。
图8说明根据本发明的一个实施例的用于基于从音频流的一部分提取的至少一个声音特征来识别一首音乐的具体方法750。一旦在音频流的所取样的部分中检测到音乐,就在图7中的740处,方法750可在810处获得从音频流的一部分提取的至少一个声音特征。在一个实施例中,音乐检测模块410可向音乐识别单元342提供至少一个声音特征,其已从音频流的一部分提取且用于检测音乐。在另一个实施例中,音乐识别单元342可从音频流的一部分提取至少一个声音特征,所述部分在音乐检测模块410已提取声音特征来检测音乐的部分之后。
在820处,可将所获得的至少一个声音特征从电子装置(例如图3中的电子装置300)发射到服务器(例如图2中服务器240)。服务器可存储包含识别信息的音乐数据库。基于来自电子装置的声音特征,服务器可检索与对应于所述声音特征的一首音乐相关联的识别信息。如果服务器未能检索所述声音特征的此类识别信息,那么服务器可将指示未发现匹配的消息发射到电子装置。另一方面,如果服务器成功检索到所述声音特征的所述识别信息,那么服务器可将检索到的与所述首音乐相关联的识别信息发射到电子装置。
在830处,方法750可确定是否从服务器接收到所述首音乐的识别信息。当从服务器接收到与所述首音乐相关联的识别信息(即,830处的“是”)时,方法750进行到760,以跟踪所述首音乐并检测所述首音乐的结束。如果未从服务器接收到识别信息(例如,接收到指示未找到匹配的消息)(即,830处的“否”),方法750进行到710,以确定是否在正产生的音频流中检测到声音。根据一个实施例,服务器可包含用于多首音乐的多个音乐模型,并向电子装置发射所述多个音乐模型中的一者,其与从电子装置接收到的声音特征匹配。
图9说明根据本发明的一个实施例的用于基于与一首音乐相关联的音乐模型来跟踪所述首音乐的具体方法760。方法760可在910处,对音频流的一部分进行取样。可在从已对音频流的一部分(例如图5中的G1)进行取样以用于检测音乐起的预定时间周期(例如图5中的T3)之后,或在已对音频流的一部分(例如图5中的N1)进行取样以用于检测所述首音乐的结束之后的另一预定时间周期(例如图5中的T4)之后,对所述部分进行取样。另外,方法760可在920处,基于音频流的所取样的部分提取声音特征。在一些实施例中,可从音频流的所取样的部分提取多个声音特征。
方法750可在930处,基于所述首音乐的音乐模型和所提取的声音特征确定音频流的所取样的部分是否是所述首音乐的一部分。所述首音乐的音乐模型可在电子装置中产生或从外部装置接收。在一些实施例中,电子装置中的音乐跟踪模块430可确定声音特征与所述首音乐的音乐模型之间的类似性值。可通过例如使用任何合适的方案,以如上文参看图6所描述的方式来确定类似性值。可将类似性值与预定阈值进行比较。
如果确定所取样的部分不是所述首音乐的一部分(即,940处的“否”),那么方法760进行到710,以持续确定是否在正产生的音频流中检测到声音。另一方面,如果确定所取样的部分是所述首音乐的一部分(即,940处的“是”),方法760进行到910,以对音频流的下一部分进行取样。以此方式,音乐跟踪模块430可持续跟踪所述首音乐。
图10说明根据本发明的一个实施例的经配置以接收一首音乐的识别信息,管理音乐历史数据库364且产生建议和通知的电子装置300的处理器340中的音乐管理单元344的较详细框图。音乐管理单元344可包含音乐历史管理模块1010、建议模块1020和通知模块1030。如所示,音乐管理单元344可存取处理器340中的音乐识别单元342以及存储单元360中的音乐历史数据库364。
一旦音乐识别单元342获得一首音乐的识别信息,其就可将所述识别信息提供到音乐管理单元344中的音乐历史管理模块1010。音乐历史管理模块1010可存取音乐历史数据库364并用所述识别信息来更新音乐历史数据库364。另外,音乐历史管理模块1010可指令位置传感器370和时钟模块380确定电子装置300的位置信息以及用于更新音乐历史数据库的时间信息。所述位置和时间信息可连同音乐历史数据库364中的所述首音乐的识别信息一起存储。
在一个实施例中,音乐历史管理模块1010可基于存储在音乐历史数据库364中的识别信息来产生频繁听的若干首音乐的列表。举例来说,音乐历史管理模块1010可确定再指定时间间隔内一首音乐在音乐历史数据库364记录多少次。当识别所述首音乐超过预定次数时,音乐历史管理模块1010可确定所述首音乐是频繁听的一首音乐,并将其添加到频繁听的若干首音乐的列表。另外,音乐历史管理模块1010可连同与所述首音乐相关联的时间或位置一起产生在一或多个时间周期或位置中听到的若干首音乐的列表。
基于存储在音乐历史数据库364中的识别信息,建议模块1020可为用户产生建议。举例来说,当所识别的所述首音乐包含于频繁听的若干首音乐的列表中时,建议模块1020可产生并显示对用户的建议,以在I/O单元320上下载或购买所识别的所述首音乐。另外或替代地,建议模块1020可提供建议来从外部服务器流式传输频繁听的若干首音乐的列表中的所述首音乐。
通知模块1030可经配置以分析所述识别信息,并提供所识别的所述首音乐的通知。举例来说,识别信息可包含指示所述首音乐可用于免费下载或与特定类型的音乐视频(例如搞笑音乐视频、高评分音乐视频)相关联的额外信息。在此情况下,通知单元460可通知所述用户所述额外信息。在一些实施例中,当确定所识别的所述首音乐为另一用户的“最爱音乐”时,通知模块1030可通知所述用户所识别的所述首音乐是另一用户的最爱音乐。
图11说明根据一些实施例的其中可实施本发明的用于从音频流识别一首音乐并跟踪所述首音乐的方法和设备的无线通信系统中的移动装置1100的框图。移动装置1100可为蜂窝式电话、智能电话、可穿戴计算机、智能表、智能眼镜、平板个人计算机、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信系统可为CDMA系统、GSM系统、W-CDMA系统、LTE系统、LTE高级系统等。
移动装置1100可能够经由接收路径和发射路径提供双向通信。在接收路径上,基站发射的信号可被天线1112接收,并且被提供给接收器(RCVR)1114。接收器1114可调节并数字化所接收的信号,并将经调节且经数字化的数字信号提供到数字区段以供进一步处理。在发射路径上,发射器(TMTR)1116可从数字区段1120接收待发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线1112发射到基站。接收器1114和发射器1116可为可支持CDMA、GSM、W-CDMA、LTE、高级LTE等收发器的一部分。
数字区段1120可包含各种处理、接口和存储器单元,例如,举例来说,调制解调器处理器1122、精简指令集计算机/数字信号处理器(RISC/DSP)1124、控制器/处理器1126、内部存储器1128、通用音频/视频编码器1132、通用音频解码器1134、图形/显示处理器1136,和/或外部总线接口(EBI)1138。调制解调器处理器1122可执行用于数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP 1124可执行移动装置1100的通用和专用处理。控制器/处理器1126可执行数字区段1120内的各种处理和接口单元的操作。内部存储器1128可存储用于数字区段1120内的各种单元的数据和/或指令。
通用音频/视频编码器1132可对来自音频/视频源1142、麦克风1144、图像传感器1146等的输入信号执行编码。通用音频解码器1134可执行对经译码音频数据的解码,且可将输出信号提供到扬声器/头戴式耳机1148。图形/显示处理器1136可执行对可呈现到显示单元1150的图形、视频、图像和文本的处理。EBI 1138可促进数据在数字区段1120与主存储器1152之间的传送。
数字区段1120可用一或多个处理器、DSP、微处理器、RISC等来实施。数字区段1120还可制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
图12是说明根据一些实施例实施的可为先前描述的服务器中的任一者的用于搜索和提供关于一首音乐的信息的服务器系统1200的框图。服务器系统1200可包含一或多个处理单元(例如CPU)1202、一或多个网络或其它通信网接口、存储器1212,以及用于互连这些组件的一或多个通信总线1214。服务器系统1200还可包含具有显示装置和键盘的用户接口(未图示)。
存储器1212可为任何合适的存储器,例如高速随机存取存储器,(例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器裝置)。存储器1212可包含或可替代地为非易失性存储器(例如一或多个磁盘存储裝置、光盘存储装置、快闪存储器裝置,或其它非易失性固态存储装置)。在一些实施例中,存储器1212可包含离CPU 1202远程定位和/或远程定位于多处的一或多个存储装置。
由存储器1212表示的以上存储器装置中的任一者可存储对应于用于实施和/或执行先前描述的过程、操作和方法中的任一者的指令集的任何数目的模块或编程。举例来说,存储器1212可包含操作系统1216,其经配置以存储包含用于处置各种基本系统服务且用于执行硬件相关任务的程序的指令。所述存储器1212的网络通信模块1218可用于经由一或多个通信网络接口1210(有线或无线)和一或多个通信网络(例如因特网、其它广域网、局域网、城域网等)将服务器系统1200连接到其它计算机。
存储器1212还可包含音乐数据库1220,其经配置以包含音乐模型数据库、识别信息数据库等。音乐数据库中的数据库中的每一者可用于识别一首音乐和检测一首音乐的结束。音乐模型数据库中的每一音乐模型可与一首音乐相关联。操作系统1216可用通过网络通信模块1218从多个音乐提供者接收的多媒体流中的各种音乐来更新音乐数据库1220。操作系统1216还可经由网络通信模块1218将多首音乐的音乐模型和识别信息提供到多个电子装置。
一般来说,本文中所描述的任何装置可表示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
可通过各种手段来实施本文中所描述的技术。举例来说,这些技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的这种可互换性,上文已大体上关于其功能性描述了各种说明性组件、块、模块、电路和步骤。将此功能性实施为硬件还是软件取决于特定应用以及强加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为引起偏离本发明的范围。
对于硬件实施方案,用以执行所述技术的处理单元可在以下各项内实施:一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机,或其组合。
因此,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路是用经设计以执行本文所述的功能的通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器结合DSP核心,或任何其它此类配置。
如果实施于软件中,那么可将所述功能作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。作为举例且并不限于此,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于运载或存储呈指令或数据结构形式的所需程序代码且可由计算机存取的任何其它媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上的组合也应包含在计算机可读媒体的范围内。
提供本发明的前述描述是为了使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变化。因此,本发明无意限于本文中所描述的实例,而应被赋予与本文中所揭示的原理和新颖特征相一致的最宽范围。
尽管称示范性实施方案利用在一或多个独立计算机系统的上下文中的当前揭示的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。此外,当前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可类似地跨越多个装置实现存储。此类装置可包含PC、网络服务器和手持式装置。
尽管已经以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所定义的标的物未必限于上文所描述的具体特征或动作。确切地说,以实施权利要求书的实例形式来揭示上文所描述的特定特征及动作。
将了解,上文所识别的模块或程序(即指令集)不必实施为单独的软件程序、程序或模块,且因此在各种实施例中,可组合或以其它方式重新布置这些模块的各种子集。此外,存储器1212可存储上文未描述的额外模块和数据结构。
<本发明的方面>
在下文中,将另外陈述本发明的一些方面。
(实例1)根据本发明的一方面,提供一种用于跟踪音频流中的一首音乐的方法,其包含:接收所述音频流的第一部分;基于所述音频流的所述第一部分提取第一声音特征;基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;接收所述音频流的第二部分;基于所述音频流的所述第二部分提取第二声音特征;以及确定所述音频流的所述第二部分是否指示所述第一首音乐。
(实例2)在实例1的方法中,接收所述音频流的第一部分包含根据声音传感器的工作循环周期性地接收音频流的多个部分。
(实例3)实例1或2的方法进一步包含基于从音频流的第一部分提取的至少一个声音特征来产生指示第一首音乐的音乐模型。
(实例4)在实例1到3中的任一者的方法中,产生指示第一首音乐的音乐模型包含:将对指示第一首音乐的音乐模型的请求发送到外部装置,其中所述请求包含从音频流的第一部分提取的至少一个声音特征;以及从所述外部装置接收所述音乐模型。
(实例5)在实例1到4中的任一者的方法中,产生音乐模型包含基于从音频流的第一部分提取的至少一个声音特征来修改预定音乐模型。
(实例6)在实例1到5中的任一者的方法中,确定音频流的所述第二部分是否指示第一首音乐是基于所述音乐模型和从音频流的所述第二部分提取的至少一个声音特征。
(实例7)实例1到6中的任一者的方法进一步包含:响应于确定所述第二部分不指示第一首音乐,接收音频流的第三部分;基于音频流的第三部分提取第三声音特征;基于第三声音特征确定音频流的第三部分是否指示音乐;以及响应于确定所述音频流的所述第三部分指示音乐,基于所述音频流的所述第三部分识别第二首音乐。
(实例8)在实例1到7中的任一者的方法中,基于所述音频流的所述第三部分识别第二首音乐包含:将请求发送到外部装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;从外部装置接收与第二首音乐相关联的信息;以及基于从外部装置接收到的信息识别第二首音乐。
(实例9)在实例1到8中的任一者的方法中,识别第一首音乐包含从例如服务器等外部装置获得识别信息。
(实例10)实例1到9中的任一者的方法进一步包含响应于确定所述音频流的所述第二部分指示第一首音乐而接收音频流的第三部分。在此实例中,接收音频流的第三部分包含根据声音传感器的工作循环周期性地接收音频流的多个部分。
(实例11)根据本发明的另一方面,提供一种用于跟踪音频流中的一首音乐的电子装置,其包含:音乐检测单元,其经配置以接收音频流的第一部分;基于所述音频流的所述第一部分提取第一声音特征;以及基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;音乐识别单元,其经配置以响应于确定所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;以及音乐跟踪单元,其经配置以接收所述音频流的第二部分;基于所述音频流的所述第二部分提取第二声音特征;以及确定所述音频流的所述第二部分是否指示所述第一首音乐。
(实例12)在实例11的电子装置中,音乐检测单元经配置以根据声音传感器的工作循环周期性地接收音频流的多个部分。
(实例13)实例11或12的电子装置进一步包含音乐模型管理单元,其经配置以基于从音频流的第一部分提取的至少一个声音特征产生指示第一首音乐的音乐模型。
(实例14)在实例11到13中的任一者的电子装置中,音乐模型管理单元经配置以将对指示第一首音乐的音乐模型的请求发送到外部装置,其中所述请求包含从音频流的第一部分提取的至少一个声音特征;以及从外部装置接收所述音乐模型。
(实例15)在实例11到14中的任一者的电子装置中,音乐模型管理单元经配置以基于从音频流的第一部分提取的至少一个声音特征来修改预定音乐模型。
(实例16)在实例11到15中的任一者的电子装置中,响应于确定音频流的所述第二部分不指示所述首音乐,音乐检测单元经配置以接收音频流的第三部分;基于所述音频流的所述第三部分提取第三声音特征;以及基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐。在此实例中,响应于确定所述音频流的所述第三部分指示音乐,音乐识别单元经配置以基于所述音频流的所述第三部分识别第二首音乐。
(实例17)在实例11到16中的任一者的电子装置中,经配置以识别第二首音乐的音乐识别单元经配置以将请求发送到外部装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;从所述外部装置接收与第二首音乐相关联的信息;以及基于从外部装置接收到的信息来识别所述第二首音乐。
(实例18)在实例11到17中的任一者的电子装置中,音乐识别单元经配置以从外部装置获得识别信息。
(实例19)根据本发明的另一方面,提供一种用于跟踪音频流中的一首音乐的电子装置,其包含:用于接收所述音频流的第一部分的装置;用于基于所述音频流的所述第一部分提取第一声音特征的装置;用于基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐的装置;用于响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐的装置;用于接收所述音频流的第二部分的装置;用于基于所述音频流的所述第二部分提取第二声音特征的装置;以及用于确定所述音频流的所述第二部分是否指示第一首音乐的装置。
(实例20)在实例19的电子装置中,所述用于接收音频流的第一部分的装置包含用于根据声音传感器的工作循环周期性地接收所述音频流的多个部分的装置。
(实例21)实例19或20的电子装置进一步包含用于基于从所述音频流的所述第一部分提取的至少一个声音特征产生指示第一首音乐的音乐模型的装置。
(实例22)在实例19到21中的任一者的电子装置中,所述用于产生指示第一首音乐的音乐模型的装置包含:用于将对指示第一首音乐的音乐模型的请求发送到外部装置的装置。在此实例中,所述请求包含从所述音频流的所述第一部分提取的至少一个声音特征;以及用于从所述外部装置接收所述音乐模型的装置。
(实例23)在实例19到22中的任一者的电子装置中,所述用于产生所述音乐模型的装置包含用于基于从所述音频流的所述第一部分提取的所述至少一个声音特征来修改预定音乐模型的装置。
(实例24)在实例19到23中的任一者的电子装置中,所述用于确定所述音频流的所述第二部分是否指示所述第一首音乐的装置是基于所述音乐模型和从所述音频流的所述第二部分提取的至少一个声音特征。
(实例25)实例19到24中的任一者的电子装置进一步包含:用于响应于确定所述第二部分不指示所述第一首音乐而接收所述音频流的第三部分的装置;用于基于所述音频流的所述第三部分提取第三声音特征的装置;用于基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐的装置;以及用于响应于确定所述音频流的所述第三部分指示音乐而基于所述音频流的所述第三部分识别第二首音乐的装置。
(实例26)在实例19到25中的任一者的电子装置中,所述用于基于所述音频流的所述第三部分识别所述第二首音乐的装置包含:用于将请求发送到外部装置的装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;用于从所述外部装置接收与所述第二首音乐相关联的信息的装置;以及用于基于所述从所述外部装置接收到的信息识别所述第二首音乐的装置。
(实例27)在实例19到26中的任一者的电子装置中,所述用于识别所述首音乐的装置经配置以从例如服务器等外部装置获得识别信息。
(实例28)根据本发明的另一个方面,提供一种非暂时性计算机可读存储媒体,其包含致使电子装置的处理器执行以下操作的指令:接收音频流的第一部分;基于所述音频流的所述第一部分提取第一声音特征;基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;接收所述音频流的第二部分;基于所述音频流的所述第二部分提取第二声音特征;以及确定所述音频流的所述第二部分是否指示所述第一首音乐。
(实例29)在实例28的非暂时性计算机可读存储媒体中,接收所述音频流的所述第一部分包含根据声音传感器的工作循环周期性地接收所述音频流的多个部分。
(实例30)实例28或29的非暂时性计算机可读存储媒体进一步包含致使电子装置的处理器执行以下操作的指令:响应于确定所述第二部分不指示所述第一首音乐,接收所述音频流的第三部分;基于所述音频流的所述第三部分提取第三声音特征;基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐;以及响应于确定所述音频流的所述第三部分指示音乐,基于所述音频流的所述第三部分识别第二首音乐。

Claims (30)

1.一种在电子装置中执行的用于跟踪音频流中的一首音乐的方法,其包括:
从声音传感器接收所述音频流的第一部分;
基于所述音频流的所述第一部分提取第一声音特征;
基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;
响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;
接收所述音频流的第二部分;
基于所述音频流的所述第二部分提取第二声音特征;以及
确定所述音频流的所述第二部分是否指示所述第一首音乐。
2.根据权利要求1所述的方法,其中接收所述音频流的所述第一部分包括根据声音传感器的工作循环周期性地接收所述音频流的多个部分。
3.根据权利要求2所述的方法,其进一步包括基于从所述音频流的所述第一部分提取的至少一个声音特征产生指示所述第一首音乐的音乐模型。
4.根据权利要求3所述的方法,其中产生指示所述第一首音乐的所述音乐模型包括:
将对指示所述第一首音乐的所述音乐模型的请求发送到外部装置,其中所述请求包含从所述音频流的所述第一部分提取的所述至少一个声音特征;以及
从所述外部装置接收所述音乐模型。
5.根据权利要求3所述的方法,其中产生所述音乐模型包括基于从所述音频流的所述第一部分提取的所述至少一个声音特征来修改预定音乐模型。
6.根据权利要求3所述的方法,其中确定所述音频流的所述第二部分是否指示所述第一首音乐是基于所述音乐模型和从所述音频流的所述第二部分提取的至少一个声音特征。
7.根据权利要求2所述的方法,其进一步包括:
响应于确定所述第二部分不指示所述第一首音乐而接收所述音频流的第三部分;
基于所述音频流的所述第三部分提取第三声音特征;
基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐;以及
响应于确定所述音频流的所述第三部分指示音乐,基于所述音频流的所述第三部分识别第二首音乐。
8.根据权利要求7所述的方法,其中基于所述音频流的所述第三部分识别所述第二首音乐包括:
将请求发送到外部装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;
从所述外部装置接收与所述第二首音乐相关联的信息;以及
基于所述从所述外部装置接收到的信息识别所述第二首音乐。
9.根据权利要求1所述的方法,其中识别所述第一首音乐包括从外部装置获得识别信息。
10.根据权利要求2所述的方法,其进一步包括响应于确定所述音频流的所述第二部分指示所述第一首音乐而接收所述音频流的第三部分,其中接收所述音频流的所述第三部分包括根据所述声音传感器的所述工作循环周期性地接收所述音频流的多个部分。
11.一种用于跟踪音频流中的一首音乐的电子装置,其包括:
音乐检测单元,其经配置以:
接收所述音频流的第一部分;
基于所述音频流的所述第一部分提取第一声音特征;以及
基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;
音乐识别单元,其经配置以响应于确定所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;以及
音乐跟踪单元,其经配置以:
接收所述音频流的第二部分;
基于所述音频流的所述第二部分提取第二声音特征;以及
确定所述音频流的所述第二部分是否指示所述第一首音乐。
12.根据权利要求11所述的电子装置,其中所述音乐检测单元经配置以根据声音传感器的工作循环周期性地接收所述音频流的多个部分。
13.根据权利要求12所述的电子装置,其进一步包括音乐模型管理单元,所述音乐模型管理单元经配置以基于从所述音频流的所述第一部分提取的至少一个声音特征产生指示所述第一首音乐的音乐模型。
14.根据权利要求13所述的电子装置,其中所述音乐模型管理单元经配置以:
将对指示所述第一首音乐的所述音乐模型的请求发送到外部装置,其中所述请求包含从所述音频流的所述第一部分提取的所述至少一个声音特征;以及
从所述外部装置接收所述音乐模型。
15.根据权利要求13所述的电子装置,其中所述音乐模型管理单元经配置以基于从所述音频流的所述第一部分提取的所述至少一个声音特征来修改预定音乐模型。
16.根据权利要求12所述的电子装置,其中响应于确定所述音频流的所述第二部分不指示所述首音乐,所述音乐检测单元经配置以:
接收所述音频流的第三部分;
基于所述音频流的所述第三部分提取第三声音特征;以及
基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐,且
其中响应于确定所述音频流的所述第三部分指示音乐,所述音乐识别单元经配置以基于所述音频流的所述第三部分识别第二首音乐。
17.根据权利要求16所述的电子装置,其中经配置以识别所述第二首音乐的所述音乐识别单元经配置以:
将请求发送到外部装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;
从所述外部装置接收与所述第二首音乐相关联的信息;以及
基于所述从所述外部装置接收到的信息识别所述第二首音乐。
18.根据权利要求11所述的电子装置,其中所述音乐识别单元经配置以从外部装置获得识别信息。
19.一种用于跟踪音频流中的一首音乐的电子装置,其包括:
用于接收所述音频流的第一部分的装置;
用于基于所述音频流的所述第一部分提取第一声音特征的装置;
用于基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐的装置;
用于响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐的装置;
用于接收所述音频流的第二部分的装置;
用于基于所述音频流的所述第二部分提取第二声音特征的装置;以及
用于确定所述音频流的所述第二部分是否指示所述第一首音乐的装置。
20.根据权利要求19所述的电子装置,其中所述用于接收所述音频流的所述第一部分的装置包括用于根据声音传感器的工作循环周期性地接收所述音频流的多个部分的装置。
21.根据权利要求20所述的电子装置,其进一步包括用于基于从所述音频流的所述第一部分提取的至少一个声音特征产生指示所述第一首音乐的音乐模型的装置。
22.根据权利要求21所述的电子装置,其中所述用于产生指示所述第一首音乐的所述音乐模型的装置包括:
用于将对指示所述第一首音乐的所述音乐模型的请求发送到外部装置的装置,其中所述请求包含从所述音频流的所述第一部分提取的所述至少一个声音特征;以及
用于从所述外部装置接收所述音乐模型的装置。
23.根据权利要求21所述的电子装置,其中所述用于产生所述音乐模型的装置包括用于基于从所述音频流的所述第一部分提取的所述至少一个声音特征来修改预定音乐模型的装置。
24.根据权利要求21所述的电子装置,其中所述用于确定所述音频流的所述第二部分是否指示所述第一首音乐的装置是基于所述音乐模型和从所述音频流的所述第二部分提取的至少一个声音特征。
25.根据权利要求20所述的电子装置,其进一步包括:
用于响应于确定所述第二部分不指示所述第一首音乐而接收所述音频流的第三部分的装置;
用于基于所述音频流的所述第三部分提取第三声音特征的装置;
用于基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐的装置;以及
用于响应于确定所述音频流的所述第三部分指示音乐,基于所述音频流的所述第三部分识别第二首音乐的装置。
26.根据权利要求25所述的电子装置,其中所述用于基于所述音频流的所述第三部分识别所述第二首音乐的装置包括:
用于将请求发送到外部装置的装置,其中所述请求包含从所述音频流的所述第三部分提取的至少一个声音特征;
用于从所述外部装置接收与所述第二首音乐相关联的信息的装置;以及
用于基于所述从所述外部装置接收到的信息识别所述第二首音乐的装置。
27.根据权利要求19所述的电子装置,其中所述用于识别所述首音乐的装置经配置以从外部装置获得识别信息。
28.一种非暂时性计算机可读存储媒体,其包括致使电子装置的至少一处理器执行以下操作的指令:
接收音频流的第一部分;
基于所述音频流的所述第一部分提取第一声音特征;
基于所述第一声音特征确定所述音频流的所述第一部分是否指示音乐;
响应于确定所述音频流的所述第一部分指示音乐,基于所述音频流的所述第一部分识别第一首音乐;
接收所述音频流的第二部分;
基于所述音频流的所述第二部分提取第二声音特征;以及
确定所述音频流的所述第二部分是否指示所述第一首音乐。
29.根据权利要求28所述的非暂时性计算机可读存储媒体,其中接收所述音频流的所述第一部分包括根据声音传感器的工作循环周期性地接收所述音频流的多个部分。
30.根据权利要求28所述的非暂时性计算机可读存储媒体,其进一步包括致使所述电子装置的所述至少一处理器执行以下操作的指令:
响应于确定所述第二部分不指示所述第一首音乐而接收所述音频流的第三部分;
基于所述音频流的所述第三部分提取第三声音特征;
基于所述第三声音特征确定所述音频流的所述第三部分是否指示音乐;以及
响应于确定所述音频流的所述第三部分指示音乐,基于所述音频流的所述第三部分识别第二首音乐。
CN201580003535.7A 2014-01-07 2015-01-07 用于识别音频流中的一首音乐的方法和装置 Active CN105874732B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201461924556P 2014-01-07 2014-01-07
US61/924,556 2014-01-07
US201462051700P 2014-09-17 2014-09-17
US62/051,700 2014-09-17
US14/590,662 US20150193199A1 (en) 2014-01-07 2015-01-06 Tracking music in audio stream
US14/590,662 2015-01-06
PCT/US2015/010504 WO2015105893A1 (en) 2014-01-07 2015-01-07 Method and device for identifying a piece of music in an audio stream

Publications (2)

Publication Number Publication Date
CN105874732A true CN105874732A (zh) 2016-08-17
CN105874732B CN105874732B (zh) 2019-07-12

Family

ID=53495202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580003535.7A Active CN105874732B (zh) 2014-01-07 2015-01-07 用于识别音频流中的一首音乐的方法和装置

Country Status (6)

Country Link
US (1) US20150193199A1 (zh)
EP (1) EP3092734A1 (zh)
JP (1) JP2017509009A (zh)
KR (1) KR20160106075A (zh)
CN (1) CN105874732B (zh)
WO (1) WO2015105893A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068125A (zh) * 2017-03-31 2017-08-18 北京小米移动软件有限公司 乐器控制方法及装置
CN108198573A (zh) * 2017-12-29 2018-06-22 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
WO2023169258A1 (zh) * 2022-03-08 2023-09-14 北京字跳网络技术有限公司 音频检测方法、装置、存储介质及电子设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021440B (zh) * 2012-11-22 2015-04-22 腾讯科技(深圳)有限公司 一种音频流媒体的跟踪方法及系统
CN105721886B (zh) * 2016-04-15 2019-07-09 Oppo广东移动通信有限公司 一种音频信息显示方法、装置和播放设备
US10296638B1 (en) * 2017-08-31 2019-05-21 Snap Inc. Generating a probability of music using machine learning technology
CN110622155A (zh) * 2017-10-03 2019-12-27 谷歌有限责任公司 将音乐识别为特定歌曲
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
KR102274219B1 (ko) * 2019-08-08 2021-07-08 주식회사 인에이블파인드 소리 정보 판단 장치 및 그 방법
JPWO2021106694A1 (zh) * 2019-11-26 2021-06-03
DE102020116492A1 (de) 2020-06-23 2021-12-23 Insta Gmbh Verfahren zum Übertragen von Daten innerhalb eines zumindest teilweise funkbasierten Gebäudeinstallationssystems sowie Gebäudeinstallationssystem

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770156A (zh) * 2004-11-02 2006-05-10 微软公司 对多个同步化数据流加速数据库查找的系统和方法
CN1973209A (zh) * 2004-06-24 2007-05-30 兰德马克数字服务有限责任公司 表征两个媒体段的重叠的方法
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置
US20120029670A1 (en) * 2010-07-29 2012-02-02 Soundhound, Inc. System and methods for continuous audio matching

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101998A2 (en) * 2004-04-19 2005-11-03 Landmark Digital Services Llc Content sampling and identification
JP2009229921A (ja) * 2008-03-24 2009-10-08 Victor Co Of Japan Ltd 音響信号分析装置
JP2010078984A (ja) * 2008-09-26 2010-04-08 Sanyo Electric Co Ltd 楽曲抽出装置および楽曲記録装置
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置
CN1973209A (zh) * 2004-06-24 2007-05-30 兰德马克数字服务有限责任公司 表征两个媒体段的重叠的方法
CN1770156A (zh) * 2004-11-02 2006-05-10 微软公司 对多个同步化数据流加速数据库查找的系统和方法
US20120029670A1 (en) * 2010-07-29 2012-02-02 Soundhound, Inc. System and methods for continuous audio matching

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068125A (zh) * 2017-03-31 2017-08-18 北京小米移动软件有限公司 乐器控制方法及装置
CN108198573A (zh) * 2017-12-29 2018-06-22 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
WO2023169258A1 (zh) * 2022-03-08 2023-09-14 北京字跳网络技术有限公司 音频检测方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
WO2015105893A1 (en) 2015-07-16
EP3092734A1 (en) 2016-11-16
US20150193199A1 (en) 2015-07-09
KR20160106075A (ko) 2016-09-09
JP2017509009A (ja) 2017-03-30
CN105874732B (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN105874732A (zh) 用于识别音频流中的一首音乐的方法和装置
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
KR102571011B1 (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
CN110557589B (zh) 用于整合记录的内容的系统和方法
US9786296B2 (en) Method and apparatus for assigning keyword model to voice operated function
CN103370739B (zh) 用于辨识环境声音的系统和方法
EP3210205B1 (en) Sound sample verification for generating sound detection model
CN105580071B (zh) 用于训练声音识别模型数据库的方法和装置
CN110622155A (zh) 将音乐识别为特定歌曲
WO2013102696A1 (en) Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
JP2013254372A (ja) 情報処理装置、電子機器、情報処理方法、及びプログラム
CN108090140A (zh) 一种歌曲播放方法及移动终端
US20150066925A1 (en) Method and Apparatus for Classifying Data Items Based on Sound Tags
US9224388B2 (en) Sound recognition method and system
JP2006018551A (ja) 情報処理装置および方法、並びにプログラム
TWI574255B (zh) 語音辨識方法、電子裝置及語音辨識系統
CN115171629A (zh) 一种音乐生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant