CN104094580A

CN104094580A - 基于声音识别来控制移动装置

Info

Publication number: CN104094580A
Application number: CN201380006228.5A
Authority: CN
Inventors: 金泰殊; 黄奎雄; 真珉豪
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-02-08
Filing date: 2013-01-29
Publication date: 2014-10-08
Also published as: US20130201800A1; WO2013119418A1; KR20140133501A; JP2015508205A; EP2813061A1; US9524638B2

Abstract

本发明揭示一种用于在移动装置(130)中执行功能的方法和设备。俘获来自所述移动装置(130)外部的声音输出装置(140)的媒体声音，且从所述所俘获的媒体声音提取声音特征。通过基于所述所提取的声音特征在一组参考声音特征中识别至少一个参考声音特征来确定将在所述移动装置(130)中执行的功能，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联。此外，在所述移动装置(130)中执行所述所确定的功能。

Description

基于声音识别来控制移动装置

优先权主张

本专利申请案主张2012年2月8日申请的第61/596,576号美国临时申请案及2013年1月28日申请的第13/752,080号美国非临时申请案的优先权，所述申请案中的每一者转让给本案受让人(申请人)且在此明确以引用的方式并入本文中。

技术领域

本发明大体上涉及控制便携式计算装置上的功能。更具体来说，本发明涉及基于声音识别来控制移动装置。

背景技术

近年来，例如智能电话和平板计算机等移动装置的使用已变得普遍。这些装置通常提供无线网络上的话音和数据通信能力。另外，此些移动装置允许用户执行多种功能，例如浏览因特网、拍摄图片或视频，打电话或视频呼叫等。因此，大多数用户一直将此类移动装置带在身边以用于便利特征。

然而，移动装置常常在不合意的情形下操作。举例来说，移动装置的用户常常期望在例如电影院等某些情形中让他们的移动电话关掉。不管他们的最佳意图如何，一些用户可能忘记关掉他们的电话，这可能让附近的听众恼火。

此外，移动装置用户在他们的日常生活中经受多种信息。当用户希望找出关于感兴趣的主题的更多信息时，用户通常通过在他们的或她们的移动装置上手动地输入询问来执行对所述信息的搜索。对于在路上的用户来说，这可能不是非常便利的任务。

因此，需要一种可在不需要用户手动输入的情况下自动地在移动装置中执行功能的方法和设备。

发明内容

本发明提供用于基于声音识别来控制移动装置上的功能性的方法、系统和装置。

根据本发明的一个方面，揭示一种用于控制移动装置的方法。在所述方法中，俘获来自所述移动装置外部的声音输出装置的媒体声音，且从所述所俘获的媒体声音提取声音特征。将由所述移动装置执行的功能是通过基于所述所提取的声音特征在一组参考声音特征中识别至少一个参考声音特征来确定，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者以及多个功能中的至少一者相关联。在所述移动装置中执行所述所确定的功能。此外，所述方法可包含应用至少一个基础滤子以产生所述声音特征。本发明还描述与此方法相关的装置、系统、服务器、装置的组合，以及计算机可读媒体。

根据本发明的另一方面，揭示一种用于在移动装置中执行功能的方法。在所述方法中，通过多个声音传感器俘获包含至少一个媒体声音的复合声音。从所述复合声音分离所述至少一个媒体声音。而且，将在所述移动装置中执行的功能是通过基于所述至少一个所提取的声音特征在一组参考声音特征中识别至少一个参考声音特征来确定。所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者以及多个功能中的至少一者相关联。在所述移动装置中执行所述所确定的功能。本发明还描述与此方法相关的装置、系统、服务器、装置的组合，以及计算机可读媒体。

根据本发明的仍另一方面，一种服务器包含接收器、识别单元及功能确定单元。所述接收器经配置以接收声音特征，所述声音特征是从由所述移动装置俘获的媒体声音提取。所述识别单元经配置以基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者以及多个功能中的至少一者相关联。所述功能确定单元经配置以基于所述至少一个所识别的参考声音特征来确定将由所述移动装置执行的所述功能。

根据本发明的又另一方面，一种移动装置包含声音传感器、声音特征提取器、识别单元、功能确定单元及控制单元。所述声音传感器经配置以从所述移动装置外部的声音输出装置俘获媒体声音。所述声音特征提取器经配置以从所俘获的媒体声音提取声音特征。所述识别单元经配置以基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者以及多个功能中的至少一者相关联。所述功能确定单元经配置以基于所述至少一个所识别的参考声音特征来确定在所述移动装置中执行的功能。所述控制单元经配置以在所述移动装置中执行所述所确定的功能。

附图说明

在结合附图进行阅读时，参考以下详细描述将理解本发明的发明性方面的实施例。

图1说明电影院，其中根据一些实施例，移动装置经配置以俘获媒体声音来执行功能。

图2说明配备有移动装置的观看者，根据一些实施例，所述移动装置经配置以基于从电视俘获的媒体声音来执行功能。

图3说明配备有移动装置的观看者，根据一些实施例，所述移动装置分别经配置以基于来自电视的媒体声音而起始聊天功能。

图4说明配备有移动装置的驾驶者，根据一些实施例，所述移动装置可经配置以响应于来自汽车中的汽车音频的媒体声音而执行功能。

图5说明配备有移动装置的巴士上的乘客，根据一些实施例，所述移动装置可经配置以响应于来自巴士中的扬声器的媒体声音而执行功能。

图6A是说明系统的框图，根据一些实施例，所述系统经配置以基于从媒体声音提取的声音特征来确定将在移动装置中执行的功能。

图6B是说明系统的框图，在所述系统中，根据一些实施例，服务器经配置以基于从移动装置接收的媒体声音来确定将在移动装置中执行的功能。

图7说明移动装置的框图，根据一些实施例，所述移动装置包含用于确定将执行的功能的声音特征数据库。

图8是说明根据一个实施例的声音特征数据库的数据结构的框图。

图9是根据一些实施例的用于通过确定将在服务器中执行的功能而基于从媒体声音提取的声音特征来由移动装置执行所述功能的方法的流程图。

图10是根据一些实施例的由服务器执行以用于基于媒体声音的声音特征来确定将在移动装置中执行的功能的方法的流程图。

图11是根据一些实施例的由移动装置执行以用于基于媒体声音来确定并执行功能的方法的流程图。

图12说明根据一些实施例的由移动装置执行以用于基于基础滤子从媒体声音提取声音特征的方法的流程图。

图13说明根据一些实施例的用于从多个基础滤子选择至少一个基础滤子以用于提取声音特征的方法的流程图。

图14说明具有多个声音传感器的移动装置，其中根据一些实施例，所述移动装置经配置以响应于俘获多个媒体声音中的至少一者而执行至少一个功能。

图15说明根据一些实施例的在移动装置中的用于响应于选自多个声音的媒体声音而执行功能的方法的流程图。

图16说明根据一些其它实施例的在移动装置中的用于响应于多个媒体声音而执行至少一个功能的方法的流程图。

图17说明示范性移动装置的框图，其中根据一些实施例可实施用于基于声音识别来控制功能的方法和设备。

图18是服务器系统的框图，其中根据一些实施例可实施用于基于声音识别来控制功能的方法和设备。

具体实施方式

现在将详细参考各种实施例，在附图中说明所述实施例的实例。在以下描述中，陈述众多具体细节以便提供对本标的物的透彻理解。然而，所属领域的技术人员将明白，可在没有这些具体细节的情况下实践本标的物。在其它例子中，未详细描述众所周知的方法、程序、系统、组件，以便不没有必要地混淆各种实施例的各方面。

图1说明电影院100，其中根据一些实施例，移动装置130经配置以俘获媒体声音来执行功能。电影院100中的观看者120(例如，电影观众)可具有移动装置130。移动装置130可为任何合适的装置，例如蜂窝式电话、智能电话、膝上型计算机或配备声音俘获能力(例如，麦克风)和/或通过数据和/或通信网络的通信能力的平板个人计算机。观看者120可能忘记在电影院100里关掉移动装置130。

观看者120的移动装置130操作以俘获环境声音。在电影开始之前，电影院100可能通过一或多个扬声器140播放例如“请关掉您的电话”等媒体声音，且还可能在电影屏幕110上播放对应的视觉消息。移动装置130俘获媒体声音且从所俘获的媒体声音提取声音特征。

通过扬声器140播放的媒体声音是已被俘获和记录以用于回放的声音。如本文中所使用，媒体声音(例如，源声音或寄存在数据库中的声音)可为话音、音乐或可被记录到存储媒体(例如，光学磁性或数字媒体)上以供回放的任何类型的声音。媒体声音是由唯一地描述或表示声音的声音特征来表征且可包含音频指纹、声音签名或任何其它声音识别符。表征媒体声音的声音特征可与将由移动装置执行的功能相关联，所述功能例如为响应于媒体声音而关掉移动装置。术语“功能”(或替代地被称作“动作”)是指可在移动装置中执行的任何操作或操作的指令。

在从所俘获的媒体声音提取声音特征之后，移动装置130可确定与所提取的声音特征相关联的功能。在所说明的实例中，通告“请关掉您的电话”可由配音员预先记录以供在电影院100中回放。一旦确定所述功能，移动装置130便执行所述功能。举例来说，移动装置130可通过提供视觉、音频或触觉通知来执行提示观看者120关掉移动装置130的功能。在一些实施例中，移动装置130可经配置以自动地关掉移动装置130，而不需要观看者120介入。

图2说明配备有移动装置130的观看者120，根据一些实施例，所述移动装置经配置以基于从电视210俘获的媒体声音来执行功能。在所说明的实施例中，从电视210广播的某些声音可为媒体声音，所述媒体声音中的每一者是由与移动装置功能相关联的声音特征表征。当电视210广播媒体声音时，移动装置130俘获所述媒体声音且从所述媒体声音提取声音特征。

在一个实施例中，电视210可在屏幕上显示广告且同时通过电视210的一或多个扬声器240播放与所述广告相关联的媒体声音。举例来说，电视210可播放流行罐装饮料的广告，且移动装置130俘获与所述罐装饮料相关的已被预先记录的声音剪辑(例如，一人喝所述罐装饮料)。一旦经俘获，便数字地处理所述媒体声音以从所俘获的声音剪辑提取唯一声音特征。所述声音特征可与将由移动装置130执行的功能相关联，使得移动装置130可自动地执行对信息的搜索，例如因特网搜索。在罐装饮料广告实例中，移动装置130可例如经由搜索引擎自动地执行搜索以显示产品细节、优惠券，或与所述罐装饮料相关的搜索结果。在另一实例中，将由移动装置130执行的功能可为在观看者120在电视210上观看足球比赛时执行对关于足球运动员的最新统计数据的搜索。在又另一实例中，移动装置130可执行对观看者120正观看的电视节目的网站的搜索，例如新闻节目或早间节目。

图3说明分别配备有移动装置130A和130B的观看者120A和120B，根据一些实施例，所述移动装置经配置以基于来自电视312A和312B的媒体声音而起始聊天功能。在所说明的实施例中，观看者120A正在第一位置310A处观看电视312A，而观看者120B正在第二位置310B处观看电视312B。当观看者120A和120B正观看相同的电视节目(例如，表演、广告、体育事件等等)时，移动装置130A和130B经配置以分别俘获从电视312A和312B广播的媒体声音，且从所俘获的媒体声音提取声音特征。举例来说，当通过电视312A的扬声器320A播放媒体声音(例如，电视节目中的演员330的话音)时，移动装置130A可俘获演员330的话音的媒体声音。类似地，移动装置130B可通过扬声器320B俘获演员330的话音的相同媒体声音，因为观看者120A和120B正观看相同的电视节目。

一旦移动装置130A和130B俘获演员330的话音的媒体声音，移动装置130A和130B便可从所俘获的媒体声音提取声音特征且通过网络350将所提取的声音特征传输到服务器340。网络350可为任何类型的网络以及网络的任何组合，包含(但不限于)蜂窝式网络、电路交换网络、公共交换网络、局域网、广域网、无线网络，和/或包交换网络等。服务器340可存储从演员330的话音的媒体声音提取的参考声音特征。服务器340确定从移动装置130A和130B接收的声音特征以在两个声音特征被确定为与参考声音特征相同时表示相同的媒体声音。

服务器340随后确定与将由移动装置130A和130B执行的参考声音特征相关联的功能。举例来说，所述功能可为激活两个移动装置130A和130B上的类似操作的功能，例如起始话音或视频聊天会话、社交网络服务、文本和/或图片交换服务等。服务器340将识别将由移动装置执行的功能的信息(例如，数据或指令)传输到移动装置130A和130B。移动装置130A和130B可接收识别将被执行的功能的信息且执行所述功能。在一个实施例中，移动装置130A和130B执行所识别的功能以分别在移动装置130A和130B的观看者120A和120B之间起始通信会话(例如，话音或视频聊天会话)。

在一个实施例中，服务器340可能够通过确定由移动装置130A和130B俘获的声音是否为寄存在服务器340处的数据库中的媒体声音中的一者而在从声音输出装置输出的声音(即，媒体声音)与从除了声音输出装置之外的源输出的现场声音(即，不是媒体声音的声音)之间进行区分。举例来说，如果演员330物理地存在于第二位置310B处且在电视312B未开启的情况下向观看者120B讲话，那么移动装置130B可俘获演员330的现场话音(即，不是媒体声音的声音)且从所俘获的话音提取声音特征。另一方面，移动装置130A从电视312A俘获演员330的声音(即，媒体声音)以提取声音特征。移动装置130A和130B随后将所提取的声音特征传输到服务器340，所述服务器经配置以确定来自移动装置130A和130B的所提取的声音特征是否与相同的参考声音特征相关联。在第二位置310B处俘获的现场演员的话音的声音特征的情况下，服务器340处的数据库将不具有匹配的参考声音特征，且因此确定由移动装置130A俘获的声音不同于由移动装置130B俘获的现场演员的话音。因此，服务器340不提供识别将由移动装置130A和130B执行的功能的信息。

图4说明配备有移动装置130的驾驶者420，根据一些实施例，所述移动装置可经配置以响应于来自汽车410中的汽车音频430的媒体声音而执行功能。在所说明的实施例中，汽车音频430可广播已被预先记录的某一声音，例如广告、音乐、新闻或天气报告。举例来说，与产品相关的广告的声音剪辑可被移动装置130俘获为媒体声音。移动装置130可从所俘获的媒体声音提取声音特征且将所提取的声音特征传输到服务器，例如图3的服务器340。在一些实施例中，移动装置130还可通过使用移动装置130的位置跟踪特征(例如，全球定位系统(GPS))而将移动装置130的位置信息连同所提取的声音特征一起传输到服务器340。

在从移动装置130接收到声音特征之后，服务器340可确定所述声音特征是否与存储在服务器340中的参考声音特征相同。如果服务器340确定从移动装置130接收的声音特征与参考声音特征相同，那么服务器340可确定将由移动装置130执行的功能且将识别所述功能的信息传输到移动装置130。举例来说，所述功能可为提供位置列表，可在所述位置中购买通过媒体声音广告的产品。移动装置130从服务器340接收识别所述功能的信息且通过在地图中显示所述位置列表或提供详细的信息(例如，商店的名称、位置信息和电话号码)而执行所述功能。

在另一实施例中，服务器340可基于所广告的产品和/或移动装置130的位置来确定用以提供促销信息(例如，折扣代金券、免费服务优惠券等)的功能。将了解，基于可在汽车音频430上广播的任何媒体声音，移动装置130上的其它功能是可能的，且其不需要受限于广告。

图5说明配备有移动装置130的巴士510上的乘客520，根据一些实施例，所述移动装置可经配置以响应于来自巴士510中的扬声器540的媒体声音而执行功能。当乘客520在巴士510中时，例如通告等媒体声音可通过巴士510中的扬声器540发出以通知乘客下一站。乘客520的移动装置130可经配置以俘获此通告且处理所俘获的声音以提取声音特征，如先前所描述，可处理所述声音特征以在移动装置130上执行功能。

当发出下一站的通告时，在乘客520正在用耳机收听移动装置130上的音乐的情况下，乘客520可能未听到所述通告。因此，移动装置130可俘获所述通告且基于所述通告的所提取的声音特征而执行向乘客520通知下一站的功能，例如输出音频和/或视觉消息、触觉通知，或其任何组合。举例来说，移动装置130可经配置以停止向乘客520播放音乐且/或产生振动通知。此外，移动装置130可在移动装置130的屏幕上显示弹出消息(例如，“下一站是目的地”)。在一些实施例中，乘客520可用目的地信息预先配置移动装置130以在通告目的地站时接收通告。

移动装置130可经配置以基于媒体声音而执行其它功能。举例来说，移动装置130可经配置以基于目的地站的预先记录的通告而显示位置信息，例如地图或公共运输工具路线。在另一实例中，移动装置130可俘获经由巴士510的扬声器540通告的预先记录的广告且向乘客520通知与所广告的产品相关联的产品和/或位置信息。

将了解，在一些实施例中，移动装置130可在回放期间的任何时间处俘获媒体声音(例如，从收音机或电视节目、商业声音剪辑、扬声器通告等)。在一些实施例中，可由移动装置130以某些时间间隔俘获媒体声音。举例来说，在观看如图3中所说明的电视节目的情况下，如果观看者120B在比观看者120A稍后的时间处调掉相同的电视节目，那么移动装置130A和130B将在电视312B上播放具有相关联的声音特征的媒体声音时起始聊天服务。

图6A是说明系统600A的框图，根据一些实施例，所述系统经配置以基于从媒体声音提取的声音特征来确定将在移动装置130A中执行的功能。系统600A可包含经由网络350连接的移动装置130A和服务器340A。移动装置130A可包含声音传感器612、声音特征提取器614、发射器616、接收器618、控制单元620和输出电压622。声音传感器612经配置以俘获具有至少一个唯一声音特征的媒体声音，所述媒体声音可用于识别与所述媒体声音相关联的功能，例如关掉电话、发送通知，或在因特网上进行搜索且提供搜索结果。举例来说，声音传感器612可包含一或多个麦克风或用于检测、感测和/或俘获环境的周围声音的任何其它类型的声音传感器。声音传感器612可为建置到移动装置130A中以用于电话呼叫或记录视频的麦克风，或专用于接收周围声音的麦克风。声音特征提取器614从声音传感器612接收媒体声音且通过使用合适的信号处理方法(包含语音和音频译码、压缩、辨识和分析方法)从所述媒体提取唯一声音特征(例如，音频指纹或声音签名)。举例来说，所述方法包含频谱分析、MFCC(梅尔频率倒谱系数)、LPC(线性预测译码)和/或LSP(线谱对)技术，其为音频指纹法，语音辨识或语音和音频译码的众所周知的方法。而且，如下文更详细地描述，可通过将基础滤子应用于所俘获的媒体声音来提取唯一声音特征。

移动装置130A的发射器616经配置以经由网络350将所提取的声音特征发射到服务器340A。服务器340A处理从移动装置130A接收的声音特征以确定将由移动装置130A执行的功能且经由网络350将识别所述功能的信息提供给移动装置130A，如将在下文更详细地描述。移动装置130A的接收器618经配置以基于声音特征接收识别所述功能的信息且将识别所述功能的所述信息发射到控制单元620，所述控制单元经配置以在移动装置130A中执行所述功能。举例来说，控制单元620可通过关掉移动装置130A或通过输出单元622显示通知消息来执行所述功能。

服务器340A经配置以基于从移动装置130A接收的声音特征来确定将在移动装置130A上执行的功能。服务器340A可包含接收器642、功能确定单元644、声音特征数据库646、基础滤子产生器650、发射器648和样本声音数据库652。接收器642经配置以从移动装置130A接收声音特征且将所述声音特征提供给功能确定单元644以用于确定将由移动装置130A执行的功能。

功能确定单元644经配置以存取声音特征数据库646以识别与所接收的声音特征具有最大相似度的参考声音特征。声音特征数据库646包含多个参考声音特征，所述多个参考声音特征中的每一者已从媒体声音提取且与将由移动装置执行的功能相关联。在一个实施例中，所提取的声音特征或参考声音特征可由唯一地描述或表示媒体声音的任何合适组的值来表示。举例来说，所述组的值可对应于频域谱、功率域谱等。媒体声音是由唯一地描述或表示声音的声音特征来表征且可包含音频指纹、声音签名或任何其它声音识别符。因此，可从多个所提取的声音特征或参考声音特征建构声音特征数据库646，所述多个所提取的声音特征或参考声音特征中的每一者具有相关联的功能。如本文中所描述，当声音特征已从媒体声音提取且连同相关联的功能一起包含于声音特征数据库646中时，可将所述媒体声音视为已被寄存在声音特征数据库646中。因此，当已将输入媒体声音寄存在声音特征数据库646中时，可从声音特征数据库646识别将由移动装置执行的对应功能。

如下表1中所说明，声音特征数据库646可包含多个参考声音特征1到N，所述多个参考声音特征中的每一者与将被执行的功能相关联。举例来说，参考声音特征1与功能“关掉电话”相关联，而参考声音特征2可与在因特网上进行产品搜索且提供搜索结果的功能相关联。

表1

服务器340A中的基础滤子产生器650经配置以通过使用样本声音数据库652的样本声音而产生可应用于所提取的声音特征的一或多个基础滤子。此外，可使用所述基础滤子来更新声音特征数据库646以提高声音特征数据库646的准确度。下文更详细地提供基础滤子产生器650的特定操作。

基于所接收的声音特征，功能确定单元644存取声音特征数据库646且确定与所接收的声音特征具有最大相似度的参考声音特征。一旦已从声音特征数据库646识别参考声音特征，功能确定单元644便确定与来自声音特征数据库646的所识别的参考声音特征相关联的功能。服务器340A通过网络350经由发射器648将识别所述功能的信息发射到移动装置130A。移动装置130A的控制单元620经由接收器618从服务器340A接收识别所述功能的所述信息且例如通过关掉移动装置130A或通过输出单元622显示通知消息来在移动装置130A中执行所述功能。

在一个实施例中，移动装置130A或130B可经配置以自动地执行声音处理功能，而不需要用户介入。换句话说，用户不需要手动地起始移动装置130A或130B上的功能的执行。在此情况下，移动装置130A或130B的声音传感器612可例如连续地俘获环境声音以辨识所寄存的媒体声音，以便确定将在移动装置130A或130B上执行的功能。然而，在移动装置130A或130B操作以连续地俘获并处理环境声音时，一般消耗来自电池的电力，所述电池的容量通常是有限的。因此，为了节省电池，可通过在低功率模式中操作来减少移动装置130A或130B的电力消耗，如下文在一些实施例中所描述。

在一些实施例中，移动装置130A可以预定时间间隔俘获环境声音以减少电力消耗。在此情况下，移动装置130A中的用于俘获并处理环境声音的组件可以预定时间间隔被激活(例如，具有10ms的持续时间的声音以100ms的间隔)。举例来说，此类组件可经配置成处于“活动状态”中(即，高功率状态中)并持续10ms且处于“闲置状态”中(即，低功率状态或关断状态中)并持续接下来的90ms。在活动状态期间，移动装置130A俘获环境声音且确定所俘获的声音是否超过预定阈值声音水平(例如，功率水平)。如果所俘获的声音的声音水平超过阈值声音水平，那么移动装置130A可处理所俘获的声音以确定将在移动装置130A执行的功能。在闲置状态中，用于俘获或处理环境声音的组件在工作循环的90％内不活动。因此，在此情况下，移动装置130A可比连续地俘获并处理环境声音的情况在声音处理中节约多达90％的电力。

移动装置130A还可经配置以确定所俘获的声音是否为媒体声音，例如语音或音乐。在一个实施例中，声音传感器612可包含数字信号处理器(“DSP”)以确定所俘获的声音是否为媒体声音以与例如噪声等非媒体声音进行区分。举例来说，当确定所俘获的声音的声音水平超过阈值声音水平时，DSP可被激活以通过使用合适的信号处理方法(例如，具有MFCC(梅尔频率倒谱系数)的高斯混合模型)来确定所俘获的声音是否为媒体声音。如果DSP确定所俘获的声音是例如语音或音乐等媒体声音，那么将所俘获的声音提供给声音特征提取器614以供进一步处理，如上文所描述。另一方面，如果DSP确定所俘获的声音不是媒体声音，那么不进一步处理所俘获的声音。通过在声音处理的前端处识别并丢弃非媒体声音，移动装置130A可比处理所有所俘获的声音的情况节约实质性电力。

图6B是说明系统600B的框图，在所述系统中，根据另一实施例，服务器340B经配置以基于从移动装置130B接收的媒体声音来确定将在移动装置130B中执行的功能。如所说明，系统600B包含经由网络350连接的移动装置130B和服务器340B。在此实施例中，声音特征提取器643包含于服务器340B中而不是移动装置130B中，这与图6A的系统600A形成对比。在移动装置130B的声音传感器612俘获媒体声音之后，移动装置130B通过发射器616将所述媒体声音直接发射到服务器340B。

在服务器340B中，接收器642接收从移动装置130B发射的媒体声音且将所接收的媒体声音提供给声音特征提取器643。声音特征提取器643经配置以从所述媒体声音提取唯一声音特征。服务器340B可随后以与上文结合图6A所描述的相同方式处理所提取的声音特征，以确定将由移动装置130B执行的功能，且经由网络350将识别所述功能的信息提供给移动装置130B。

图7说明移动装置700的框图，根据一些实施例，所述移动装置包含用于确定将执行的功能的声音特征数据库740。移动装置700包含经配置以俘获具有至少一个唯一声音特征的媒体声音的声音传感器710及经配置以从声音传感器710接收所述媒体声音且从所俘获的媒体声音提取声音特征(例如，音频指纹)的声音特征提取器720。移动装置700另外包含功能确定单元730，其经配置以将所提取的声音特征与存储在声音特征数据库740中的多个参考声音特征进行比较。

功能确定单元730经配置以存取声音特征数据库740以识别与所接收的声音特征具有最大相似度的参考声音特征。如上文所描述，声音特征数据库740包含多个参考声音特征，所述多个参考声音特征中的每一者已从媒体声音提取且与将由移动装置执行的功能相关联。声音特征数据库740的所述多个参考声音特征可在移动装置700中在本地更新或与服务器通信地远程地更新。举例来说，用户可操作移动装置700以俘获媒体声音且将相关联的功能输入到移动装置700。移动装置700可随后从所俘获的媒体声音提取参考声音特征且将所提取的参考声音特征与相关联的功能存储在声音特征数据库740中。替代地，声音特征数据库740可从远程服务器下载参考声音特征与相关联的功能。功能确定单元730从声音特征数据库740确定与所识别的参考声音特征相关联的功能。基于来自功能确定单元730的所确定的功能，控制单元760在移动装置700中执行所述功能。

图8是说明根据一个实施例的声音特征数据库646的数据结构800的框图。虽然图6A和图6B的声音特征数据库646可通过数据结构800来描述，但图7的声音特征数据库740也可使用数据结构800。数据结构800包含多个元数据810A到810N，其分别包含参考声音特征812A到812N、功能814A到814N及背景信息816A到816N。背景信息816A到816N可分别提供参考声音特征812A到812N的额外信息或参数。因此，元数据810A到810N中的每一者描述对应的参考声音特征的特性。举例来说，媒体声音“请关掉电话”可由包含以下各者的元数据810A表示：从媒体声音提取的参考声音特征812A、将在移动装置上执行的功能814A(例如，关掉移动装置或将移动装置的配置调整为静默模式)，及识别可在其中俘获媒体声音的环境背景(例如，电影院)的背景信息816A。

元数据810A到810N可在服务器340或另一远程服务器中在本地预先产生，且存储在声音特征数据库646中。举例来说，可通过从目标媒体声音提取参考声音特征812A且将所需的功能提供为与参考声音特征812A相关联的功能814A而产生元数据810A。可将可描述或表征参考声音特征812A的额外信息或参数提供为背景信息816A。通过以上方式产生的元数据810A到810N可被上载到服务器340，且存储在声音特征数据库646中。

图9是根据一些实施例的用于通过确定将在服务器340中执行的功能而基于从媒体声音提取的声音特征来由移动装置130执行所述功能的方法900的流程图。起初，在910处，移动装置130俘获经由声音输出装置(例如，如图1中所示的电影院100中的扬声器140)回放的媒体声音。在920处，移动装置130处理所俘获的声音以从所俘获的媒体声音提取声音特征。在930处，移动装置130将所提取的声音特征发射到服务器340，所述服务器确定将由移动装置130执行的功能且经由网络将识别所述功能的信息发射到移动装置130。在940处，移动装置130从服务器340接收识别所述功能的信息且在950处执行所述功能。

图10是根据一些实施例的在服务器340中执行以用于基于媒体声音的声音特征来确定将在移动装置130中执行的功能的方法1000的流程图。在1010处，服务器340从移动装置130接收所提取的声音特征。随后在1020处，服务器340确定来自移动装置130的所提取的声音特征与来自声音特征数据库646的参考声音特征中的每一者之间的相似度值。在1030处，在确定所述相似度值之后，服务器340确定最大的相似度值且在声音特征数据库646中识别与所述最大的相似度值相关联的参考声音特征。在一个实施例中，如果最大相似度值小于预定阈值，那么不识别参考声音特征且因此服务器340可将指示尚未针对所发射的声音特征识别功能的响应发射到移动装置130。一旦已确定具有最大相似度值的参考声音特征，在1040处，服务器340便确定与来自声音特征数据库646的所识别的参考声音特征相关联的功能。随后在1050处，服务器340通过网络将识别所确定的功能的信息发射到移动装置130。

图11是根据一些实施例的由移动装置130执行以用于基于媒体声音来确定并执行功能的方法1100的流程图。移动装置130起初在1110处俘获媒体声音。在1120处，移动装置130处理所俘获的声音以从所俘获的媒体声音提取声音特征。随后在1130处，移动装置130确定所提取的声音特征与来自移动装置130中的声音特征数据库的参考声音特征中的每一者之间的相似度值。在1140处，在确定所述相似度值之后，移动装置130确定最大的相似度值且在声音特征数据库中识别与所述最大的相似度值相关联的参考声音特征。一旦已确定具有最大相似度值的参考声音特征，在1150处，移动装置130便确定与来自声音特征数据库的所识别的参考声音特征相关联的功能。随后在1160处，移动装置130执行所确定的功能。

图12说明根据一些实施例的由移动装置130执行以用于基于基础滤子从媒体声音提取声音特征的方法1200的流程图。移动装置130的声音传感器612起初在1210处俘获媒体声音。在1220处，移动装置130的声音特征提取器614从声音传感器612接收所俘获的媒体声音且将所述媒体声音分段为具有预定时间周期的多个帧(其还可被称作“窗化”)。在一个实施例中，邻近的帧被分段成重叠，使得所述帧的一部分是所述帧共用的。在此情况下，可预先确定所述重叠部分的时间周期。可调整所述帧和所述重叠部分的时间周期以实现声音唯一性中的所要水平的准确度。举例来说，所述帧和/或所述重叠部分的较小的时间周期可通过增强声音唯一性而导致更大的准确度。

在1230处，在将媒体声音分段为多个帧之后，通过使用例如快速傅立叶变换(FFT)而将每一帧转换为频域谱。或者，可使用若干其它变换过程(例如，包含(但不限于)离散余弦变换、哈尔变换或沃尔什-哈德马德变换)来转换所述帧。在一个实施例中，频域谱中的经转换的帧可用作所提取的声音特征或中间声音特征以用于产生所提取的声音特征。

在1240处，对于对应于一帧的每一频域谱，声音特征提取器614计算功率谱。在此过程中，可将每一帧的频域谱分段为频带，且将每一频带中的能量值(即，功率值)计算为相应频带的功率水平。因此，频带的计算出的能量值表示可用作中间声音特征的帧的功率谱以唯一地识别所述帧。

一旦已针对每一帧(即，每一帧的中间声音特征)获得功率谱，在1250处，声音特征提取器614便通过将基础滤子应用于每一功率谱而产生声音特征(即，所提取的声音特征)。如本文中所使用，“基础滤子”是指可应用于中间声音特征(例如，从媒体声音提取的功率谱)以产生比中间声音特征对噪声和失真更稳健的所提取的声音特征的一组值、向量或矩阵。通过应用基础滤子而从中间声音特征提取的声音特征可表示比中间特征更高水平的特征。举例来说，所提取的声音特征表示所俘获的声音的频率分量的改变或组合，而中间特征仅表示所俘获的声音的频率分量。在另一实例中，所提取的声音特征可表示所俘获的声音的开始或偏移。

上文所产生的所提取的声音特征可由表示所俘获的声音的一系列值组成。在1260处，随后可通过使用任何合适的二进制化算法将所提取的声音特征的值变换为二进制形式(例如，“0”或“1”)。在一个实施例中，可将所提取的声音特征的每一值与阈值进行比较以产生所提取的声音特征的二进制化形式。举例来说，如果所提取的声音特征的值等于或大于阈值，那么将把位“1”指派给所述值，而如果所述值小于阈值，那么将把位“0”指派给所述值。在另一实施例中，可选择所述一系列值中的预定数目的值，且指派值“1”，同时向剩余值指派值“0”。举例来说，可选择所述一系列值中的N个最大值，且指派值“1”，同时向剩余值指派值“0”。在二进制化之后，在1270处，将二进制化的声音特征输出为所提取的声音特征。

在一些实施例中，可通过计算值或矩阵以最小化参考声音与参考声音的失真声音之间的差来产生基础滤子。如本文中所使用，“参考声音”(或“样本声音”)及参考声音的失真声音(其可统称为“参考声音组”)是指不具有噪声的一组原始声音(即，未失真的参考声音)及具有噪声的原始声音(即，失真的参考声音)。举例来说，可从例如音乐或通告等不具有噪声的任何原始声音(即，未失真的参考声音)及具有噪声的相同原始声音(即，失真的参考声音)提取参考声音组。

根据一个实施例，可产生基础滤子M以最小化未失真的参考声音与其对应的失真的参考声音之间的误差E，且可以矩阵形式表达如下：

E = x_{i} - M \cdot x_{i}^{k}

其中，x_i是指示第i个未失真的参考声音的中间声音特征的向量，且是指示第k个未失真的参考声音的中间声音特征的向量。在以上等式中，可通过调整或优化基础滤子M的系数来减小误差E。在一些实施例中，可通过使用任何合适的技术(包含(但不限于)PCA(主分量分析)、OPCA(定向的主分量分析)、ICA(独立分量分析)、稀疏译码及其它类似算法)来产生基础滤子M。

基于以上基础滤子M，将基础滤子M应用于从媒体声音提取的中间声音特征会产生比中间声音特征对噪声和失真更稳健的声音特征。基础滤子M可由服务器340的基础滤子产生器650产生且经由发射器648提供给移动装置130以用于提取声音特征。或者，移动装置130可将中间声音特征发射到服务器340，所述服务器可使用基础滤子M来提取声音特征。在另一实施例中，移动装置130可将媒体声音发射到服务器340，所述服务器可从媒体声音提取中间声音特征且使用基础滤子M来提取声音特征。如上产生的基础滤子M可用于产生并更新声音特征数据库646中的参考声音特征。

在一些实施例中，当基础滤子是由OPCA方法产生时，所述基础滤子可通过具有四行基础滤子的矩阵来表征，且可根据以下等式产生声音特征C：

C = [\begin{matrix} a_{1} & a_{2} & . . . & a_{n} \\ b_{1} & b_{2} & . . . & b_{n} \\ c_{1} & c_{2} & . . . & c_{n} \\ d_{1} & d_{2} & . . . & d_{n} \end{matrix}] \cdot [\begin{matrix} f_{1} \\ {f_{2}} \\ . \\ . \\ . \\ f_{n} \end{matrix}]

其中行[a₁a₂…a_n]、[b₁b₂…b_n]、[c₁c₂…c_n]及[d₁d₂…d_n]分别指示第一基础滤子、第二基础滤子、第三基础滤子及第四基础滤子，而列[f₁f₂…f_n]指示从媒体声音提取的中间声音特征(例如，功率谱)。虽然使用四个基础滤子来说明基础滤子矩阵，但所述基础滤子矩阵可包含具有中间声音特征中的对应条目的任何合适数目的基础滤子。

如上文所描述，可通过比较未失真的参考声音和失真的参考声音来产生基础滤子(例如，基础滤子矩阵)，且将所述基础滤子用于从媒体声音提取噪声稳健的声音特征。在多个基础滤子的情况下，一些基础滤子可提供比其它基础滤子在减少噪声方面更好的结果，且因此可被选择用于提取声音特征。在以上基础滤子矩阵中，举例来说，可基于未失真的参考声音和失真的参考声音从第一基础滤子和第三基础滤子产生类似的声音特征。另一方面，与第一和第三基础滤子相比，可基于未失真的参考声音和失真的参考声音从第二基础滤子和第四基础滤子产生较不类似的声音特征。因此，可选择第一基础滤子和第三基础滤子(其还可被称作“更新”基础滤子)从媒体声音产生声音特征C，如下文所描述：

C = [\begin{matrix} a_{1} & a_{2} & . . . & a_{n} \\ b_{1} & b_{2} & . . . & b_{n} \\ c_{1} & c_{2} & . . . & c_{n} \\ d_{1} & d_{2} & . . . & d_{n} \end{matrix}] \cdot [\begin{matrix} f_{1} \\ {f_{2}} \\ . \\ . \\ . \\ f_{n} \end{matrix}] &RightArrow; C = [\begin{matrix} a_{1} & a_{2} & . . . & a_{n} \\ c_{1} & c_{2} & . . . & c_{n} \end{matrix}] \cdot [\begin{matrix} f_{1} \\ f_{2} \\ . \\ . \\ . \\ f_{n} \end{matrix}]

图13说明根据一些实施例的用于从多个基础滤子选择至少一个基础滤子以用于提取声音特征的方法1300的流程图。用于选择基础滤子的方法1300可由图6A和图6B的服务器340中的基础滤子产生器650或移动装置130中的基础滤子产生器执行。此外，用于选择基础滤子的方法1300可在于移动装置130中接收媒体声音之前执行，且在接收到媒体声音之后可使用选定的基础滤子从媒体声音提取声音特征。参考第一到第三样本声音来描述方法1300以用于阐释目的。

在所说明的方法1300中，基础滤子产生器650分别在1302、1304和1306处从样本声音数据库652接收第一样本声音、第二样本声音及第三样本声音。第一样本声音是不具有噪声的未失真的声音。第二样本声音是添加了噪声的第一样本声音的失真的声音且因此在声音内容方面类似于第一样本声音。第三样本声音是不具有噪声的另一未失真的声音且因此在声音内容方面不同于第一样本声音。举例来说，从通过扬声器(例如，具有最少噪声和失真的高保真扬声器)播放的音乐俘获的声音可被视为在内容方面类似于通过另一扬声器(例如，低保真扬声器)播放的相同音乐。另一方面，通过高保真扬声器播放的通告(例如，“请关掉您的电话”)可被视为在内容方面不类似于通过相同高保真扬声器播放的音乐。

在1308处，在从样本声音数据库652接收样本声音之后，基础滤子产生器650起初从多个基础滤子选择一基础滤子。在1310处，基础滤子产生器650从第一到第三样本声音中的每一者提取中间声音特征，例如上文所描述的功率谱。对于中间声音特征中的每一者，在1312处，基础滤子产生器650将选定的基础滤子应用于每一中间声音特征以产生比中间声音特征对噪声和失真更稳健的声音特征。

一旦已产生样本声音的声音特征，可通过使用任何合适的算法(例如，逐对提升(PB)算法)来计算一或多个置信度值，所述一或多个置信度值指示通过应用选定的基础滤子从一对样本声音提取的声音特征之间的相似度程度。当将选定的基础滤子应用于一对样本声音的中间声音特征时，所述置信度值还可指示噪声减少的程度。在一个实施例中，基础滤子产生器650可计算类似的样本声音的所提取的声音特征之间的差的置信度值及不类似的样本声音的所提取的声音特征之间的差的另一置信度值。具体来说，通过计算第一和第二样本声音的所提取的声音特征之间的差而在1314处确定基础滤子的第一置信度值。举例来说，给定第一和第二样本声音是类似的声音，如果通过将选定的基础滤子应用于第一和第二样本声音的中间声音特征而提取的声音特征之间的差较低，那么基础滤子的置信度值将较高。此外，通过计算第一和第三样本声音的所提取的声音特征之间的差而在1316处确定基础滤子的第二置信度值。在此情况下，给定第一和第三样本声音是不类似的声音，如果通过将选定的基础滤子应用于第一和第三样本声音而提取的声音特征之间的差较高，那么基础滤子的置信度值将较高。

在1318处，基础滤子产生器650基于第一和第二置信度值来确定选定的基础滤子的总置信度值。在一个实施例中，可通过将第一和第二置信度值相加来计算总置信度值。或者，可通过将经加权的第一和第二置信度值相加来计算总置信度值。

在产生选定的基础滤子的总置信度值之后，在1320处，基础滤子产生器650确定是否存在可被选择的另一基础滤子。如果是，那么方法1300回到1308以选择下一基础滤子来确定总置信度值。一旦已针对所有基础滤子计算出总置信度值，在1322处，基础滤子产生器650便基于所述总置信度值从多个基础滤子选择至少一个基础滤子。在一个实施例中，可选择具有最高的总置信度值的基础滤子。或者，可选择具有超过预定阈值的总置信度值的所有基础滤子。

图14说明具有多个声音传感器1440和1450的移动装置1430，其中根据一些实施例，移动装置1430经配置以响应于俘获多个媒体声音中的至少一者而执行至少一个功能。在移动装置1430中，两个声音传感器1440和1450可例如为两个麦克风。每一声音传感器1440和1450可从周围环境俘获包含多个声音的复合声音(例如，同时俘获来自TV1410的媒体声音及来自时钟1420的警报声音)。在一个实施例中，例如，由于声音传感器1440和1450在移动装置1430的不同位置中俘获声音，所以从声音传感器1440和1450中的每一者俘获的复合声音可彼此进行区分。基于从声音传感器1440和声音传感器1450接收的不同复合声音，移动装置1430可将复合声音分离为所述声音中的每一者。在所说明的实施例中，移动装置1430可俘获与来自TV1410的媒体声音及来自时钟1420的警报声音混合的复合声音。移动装置1430可将所述复合声音分别分离为来自TV1410的媒体声音及时钟1420的声音。

在根据源(例如，TV或警铃)分离复合声音之后，移动装置1430可从经分离的声音中的每一者提取声音特征且确定所提取的声音特征中的任一者是否与将在移动装置1430上执行的功能相关联。移动装置1430可执行与来自经分离的声音中的一者的所提取的声音特征相关联的功能。将了解，可从由声音传感器1440和1450俘获的多个媒体声音确定多个功能。

图15说明根据一些实施例的在移动装置1430中的用于响应于选自多个声音的媒体声音而执行功能的方法1500的流程图。在此方法1500中，在1510处，移动装置1430可通过声音传感器(例如，麦克风)俘获包含至少一个媒体声音的声音(即，复合声音)。随后，在1520处，移动装置1430从所俘获的复合声音分离所述至少一个媒体声音。在此实施例中，可通过使用独立分量分析(ICA)或盲源分离(BSS)来分离所俘获的声音，但不限于其。在分离所述声音之后，在1530处，移动装置1430可基于所述声音中的至少一者是媒体声音或有可能是媒体声音的识别而在多个经分离的声音中选择一个媒体声音。在一个实施例中，当移动装置1430位于电影院中且从电影院声音系统接收到声音(例如，通告“请关掉电话”)时，可将其它声音(例如，移动装置的响铃声音)视为噪声。在此情况下，移动装置1430可从电影院声音系统选择声音且在分离所俘获的声音之后忽视来自移动电话的其它声音。在1540处，移动装置1430从选定的媒体声音提取声音特征。在1550处，将所提取的特征发射到服务器。在1560处，基于来自移动装置1430的声音特征，服务器确定将在移动装置1430中执行的功能，且将识别所述功能的信息发送到移动装置1430。在1570处，在从服务器接收识别所述功能的所述信息之后，移动装置1430执行所述功能。

图16说明根据一些其它实施例的在移动装置1430中的用于响应于多个媒体声音而执行至少一个功能的方法1600的流程图。在此方法1600中，在1610处，移动装置1430可通过声音传感器俘获包含多个媒体声音的复合声音。随后，在1620处，移动装置1430将所述多个媒体声音从所俘获的复合声音分离。在分离所述复合声音之后，在1630处，移动装置1430可从经分离的媒体声音中的每一者提取声音特征，而不具体选择任何一个声音。在1640处，移动装置1430将所提取的声音特征发射到服务器。在电影院实例中，移动装置1430可从电影院声音系统的声音提取声音特征，且从移动装置的响铃声音提取声音特征，且将两个声音特征发送到服务器。随后，服务器将所接收的声音特征与存储在声音特征数据库中的参考声音特征进行比较，且识别与所提取的声音特征相关联的至少一个参考声音特征。在识别与参考声音特征的匹配之后，在1650处，服务器可将识别与所识别的至少一个参考声音特征相关联的至少一个功能的信息发送到移动装置1430。在1660处，移动装置1430在1660处执行所述至少一个功能。

图17说明无线通信系统中的移动装置1700的框图，其中根据一些实施例，可实施用于基于声音识别来控制功能的本发明的方法和设备。移动装置1700可以是蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等。

移动装置1700可能够经由接收路径和发射路径提供双向通信。在接收路径上，由基站发射的信号被天线1712接收且被提供给接收器(RCVR)1714。接收器1714调节并数字化所接收的信号，且将经调节和数字化的信号提供给数字区段1720以进行进一步处理。在发射路径上，发射器(TMTR)接收将从数字区段1720发射的数据、处理并调节所述数据，且产生调制信号，所述调制信号经由天线1712而被发射到基站。接收器1714和发射器1716是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的一部分。

数字区段1720包含各种处理、接口和存储器单元，例如，调制解调器处理器1722、精简指令集计算机/数字信号处理器(RISC/DSP)1724、控制器/处理器1726、内部存储器1728、一般化音频编码器1732、一般化音频解码器1734、图形/显示处理器1736和外部总线接口(EBI)1738。调制解调器处理器1722执行用于数据发射和接收的处理(例如，编码、调制、解调和解码)。RISC/DSP1724执行用于移动装置1700的一般和专门的处理。控制器/处理器1726控制数字区段1720内的各种处理和接口单元的操作。内部存储器1728存储用于数字区段1720内的各种单元的数据和/或指令。

一般化音频编码器1732执行对来自音频源1742、麦克风1743等的输入信号的编码。一般化音频解码器1734执行对经译码的音频数据的解码，且将输出信号提供给扬声器/耳机1744。应注意，不一定需要一般化音频编码器1732和一般化音频解码器1734来与音频源、麦克风1743及扬声器/耳机1744介接，且因此未在移动装置1700中展示。图形/显示处理器1736执行对图形、视频、图像和文本的处理，其呈现给显示单元1746。外部总线接口(EBI)1738促进在数字区段1720与主存储器1748之间传递数据。

用一或多个处理器、DSP、微处理器、RISC等实施数字区段1720。数字区段1720还被制造在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。

一般来说，本文中所描述的任何装置指示各种类型的装置，例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道进行通信的装置等。装置可具有各种名称，例如接入终端(AT)、接入单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动体、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器，以及硬件、软件、固件或其组合。

图18是说明可为根据一些实施例而实施的上文所描述的服务器中的任一者的服务器系统1800的框图，所述服务器系统用于基于声音识别来控制功能。服务器系统1800可包含一或多个处理单元(CPU)1802、一或多个网络或其它通信接口1810、存储器1812，及用于将这些组件互连的一或多个通信总线1814。服务器系统1800还可包含具有显示装置和键盘的用户接口(未图示)。

存储器1812可为任何合适的存储器，例如高速随机存取存储器(例如，DRAM、SRAM、DDR RAM或其它随机存取固态存储器装置)。存储器1812可包含或可替代地为非易失性存储器(例如一个或一个以上磁盘存储装置、光盘存储装置、快闪存储器装置，或其它非易失性固态存储装置)。在一些实施例中，存储器1812可包含与CPU1802远程定位和/或远程定位在多个站点中的一个或一个以上存储装置。

由存储器1812表示的以上存储器装置中的任一者可存储对应于用于实行和/或执行先前所描述的过程、操作和方法中的任一者的一组指令的任何数目的模块或程序。举例来说，存储器1812可包含经配置以存储指令的操作系统1816，所述操作系统包含用于处置各种基本系统服务且用于执行硬件相依任务的程序。存储器1812的网络通信模块1818可用于经由一或多个通信网络接口1810(有线或无线)及一或多个通信网络(例如，因特网、其它广域网、局域网、城域网等)将服务器系统1800连接到其它计算机。存储器1812还可包含功能确定引擎1844和基础滤子产生器1850，所述功能确定引擎经配置以从功能与其相关联的媒体声音的参考声音特征来确定所述功能，所述基础滤子产生器经配置以产生并更新基础滤子以用于提取声音特征。功能确定引擎1844和基础滤子产生器1850可存取经配置以存储参考声音特征数据、基础滤子数据和/或样本声音数据的数据库1848。

将了解，以上所识别的模块或程序(即，多组指令)无需实施为单独软件程序、过程或模块，且因此，在各种实施例中，这些模块的各种子集可经组合或以其它方式重新布置。此外，存储器1812可存储未在上文描述的额外模块和数据结构。

图17和18更既定为客户端系统和服务器系统的各种特征的功能描述而不是本文中所描述的实施例的结构示意图。实际上，且如所属领域的技术人员所认识到的，单独展示的项目可经组合且一些项目可被分离。举例来说，图18中单独展示的一些项目可实施于单个服务器上且单个项目可通过一或多个服务器来实施。此外，数据库1848可实施于一组不同的服务器上或服务器系统1800的其它组件中。用于实施服务器系统1800的服务器的实际数目及服务器间的特征的分配可在不同实施方案之间变化。

本文中所描述的技术由各种装置实施。举例来说，以硬件、固件、软件或其组合来实施这些技术。将进一步了解，结合本文中的揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件，或两者的组合。为清楚说明硬件与软件的此互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。可针对每一特定应用以不同的方式实施所描述的功能性，但此些实施决策不应被解释为导致与本发明的范围的偏离。

对于硬件实施方案来说，用以执行所述技术的处理单元可实施于一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合中。

如果以软件实施，则可将先前所描述的方法、操作和过程作为计算机可读媒体上的一或多个指令或代码而加以存储或传输。计算机可读媒体包含计算机存储媒体与包含促进计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。举例来说(且并非限制)，所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载送或存储呈指令或数据结构的形式的所要程序码且可由计算机存取的任何其它媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘，其中磁盘通常磁性地重现数据，而光盘使用激光光学地重现数据。以上各者的组合也应包含在计算机可读媒体的范围内。

提供本发明的先前描述以使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员将容易了解对本发明的各种修改，且本文中界定的一般原理可应用于其它变化而不背离本发明的精神或范围。因此，本发明无意限于本文中所描述的实例，而是应被赋予与本文中所揭示的原理和新颖特征一致的最广泛范围。

尽管已用结构特征和/或方法动作特有的语言描述了标的物，但应理解，所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。而是，上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。

Claims

1.一种用于在移动装置中执行功能的方法，所述方法包括：

从所述移动装置外部的声音输出装置俘获媒体声音；

从所述所俘获的媒体声音提取声音特征；

通过基于所述所提取的声音特征在一组参考声音特征中识别至少一个参考声音特征来确定将在所述移动装置中执行的所述功能，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；及

在所述移动装置中执行所述所确定的功能。

2.根据权利要求1所述的方法，其中所述至少一个参考声音特征与广告相关联，且其中执行所述所确定的功能包含在所述移动装置上显示所述广告。

3.根据权利要求1所述的方法，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中执行所述所确定的功能包含：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

4.根据权利要求1所述的方法，其中执行所述所确定的功能包含调整所述移动装置的配置。

5.根据权利要求1所述的方法，其中执行所述所确定的功能包含：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

6.根据权利要求1所述的方法，其中如果所述所俘获的媒体声音的声音水平大于预定声音水平，那么执行从所述所俘获的媒体声音提取所述声音特征及确定将由所述移动装置执行的所述功能。

7.根据权利要求1所述的方法，其中从所述所俘获的媒体声音提取所述声音特征包含：

从所述所俘获的媒体声音提取中间声音特征；及

将至少一个基础滤子应用于所述中间声音特征以产生所述声音特征。

8.根据权利要求7所述的方法，其中基于由多个基础滤子中的每一者从一对样本声音提取的声音特征之间的相似度程度来从所述多个基础滤子选择所述至少一个基础滤子。

9.根据权利要求1所述的方法，其中所述至少一个参考声音特征与包含将在所述移动装置上执行的所述功能及背景信息的元数据相关联。

10.一种用于在移动装置中执行功能的方法，所述方法包括：

通过多个声音传感器俘获包含至少一个媒体声音的复合声音；

从所述复合声音分离所述至少一个媒体声音；

从所述至少一个经分离的媒体声音提取至少一个声音特征；

通过基于所述至少一个所提取的声音特征在一组参考声音特征中识别至少一个参考声音特征来确定将在所述移动装置中执行的所述功能，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；及

在所述移动装置中执行所述所确定的功能。

11.根据权利要求10所述的方法，其中所述至少一个参考声音特征与广告相关联，且其中执行所述所确定的功能包含在所述移动装置上显示所述广告。

12.根据权利要求10所述的方法，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中执行所述所确定的功能包含：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

13.根据权利要求10所述的方法，其中执行所述所确定的功能包含调整所述移动装置的配置。

14.根据权利要求10所述的方法，其中执行所述所确定的功能包含：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

15.根据权利要求10所述的方法，其中从所述至少一个经分离的媒体声音提取所述至少一个声音特征包含：

从所述至少一个经分离的媒体声音选择媒体声音；及

从所述选定的媒体声音提取声音特征。

16.根据权利要求10所述的方法，其中从所述至少一个经分离的媒体声音提取所述至少一个声音特征包含从所有经分离的媒体声音提取声音特征。

17.一种用于确定将由移动装置执行的功能的服务器，所述服务器包括：

接收器，其经配置以接收声音特征，所述声音特征是从由所述移动装置俘获的媒体声音提取；

识别单元，其经配置以基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；及

功能确定单元，其经配置以基于所述至少一个所识别的参考声音特征来确定将由所述移动装置执行的所述功能。

18.根据权利要求17所述的服务器，其中所述至少一个参考声音特征与广告相关联，且其中所述功能确定单元经配置以将所述功能确定为在所述移动装置上显示所述广告。

19.根据权利要求17所述的服务器，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中所述功能确定单元经配置以将所述功能确定为：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

20.根据权利要求17所述的服务器，其中所述功能确定单元经配置以将所述功能确定为调整所述移动装置的配置。

21.根据权利要求17所述的服务器，其中所述功能确定单元经配置以将所述功能确定为：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

22.根据权利要求17所述的服务器，其中如果所述所俘获的媒体声音的声音水平大于预定声音水平，那么从所述所俘获的媒体声音提取所述声音特征。

23.根据权利要求17所述的服务器，其中通过从所述所俘获的媒体声音提取中间声音特征且将至少一个基础滤子应用于所述中间声音特征以产生所述声音特征，而从所述所俘获的媒体声音提取所述声音特征。

24.根据权利要求23所述的服务器，其进一步包括基础滤子产生器，所述基础滤子产生器经配置以基于由多个基础滤子中的每一者从一对样本声音提取的声音特征之间的相似度程度来从所述多个基础滤子选择所述至少一个基础滤子。

25.根据权利要求17所述的服务器，其中所述至少一个参考声音特征与包含将由所述移动装置执行的所述功能及背景信息的元数据相关联。

26.一种移动装置，其包括：

声音传感器，其经配置以从所述移动装置外部的声音输出装置俘获媒体声音；

声音特征提取器，其经配置以从所述所俘获的媒体声音提取声音特征；

识别单元，其经配置以基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；

功能确定单元，其经配置以基于所述至少一个所识别的参考声音特征来确定将由所述移动装置执行的功能；及

控制单元，其经配置以在所述移动装置中执行所述所确定的功能。

27.根据权利要求26所述的移动装置，其中所述至少一个参考声音特征与广告相关联，且其中所述控制单元经配置以在所述移动装置上显示所述广告。

28.根据权利要求26所述的移动装置，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中所述控制单元经配置以：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

29.根据权利要求26所述的移动装置，其中所述控制单元经配置以调整所述移动装置的配置。

30.根据权利要求26所述的移动装置，其中所述控制单元经配置以：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

31.根据权利要求26所述的移动装置，其中所述声音传感器进一步经配置以通过以预定时间间隔接收环境声音且确定所述所接收的环境声音是否为所述媒体声音而俘获所述媒体声音。

32.一种非暂时性计算机可读存储媒体，其存储用于在移动装置中执行功能的指令，所述指令致使处理器执行以下操作：

从所述移动装置外部的声音输出装置俘获媒体声音；

从所述所俘获的媒体声音提取声音特征；

在所述移动装置中执行所述所确定的功能。

33.根据权利要求32所述的媒体，其中所述至少一个参考声音特征与广告相关联，且其中执行所述所确定的功能包含在所述移动装置上显示所述广告。

34.根据权利要求32所述的媒体，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中执行所述所确定的功能包含：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

35.根据权利要求32所述的媒体，其中执行所述所确定的功能包含调整所述移动装置的配置。

36.根据权利要求32所述的媒体，其中执行所述所确定的功能包含：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

37.根据权利要求32所述的媒体，其中如果所述所俘获的媒体声音的声音水平大于预定声音水平，那么执行从所述所俘获的媒体声音提取所述声音特征及确定将由所述移动装置执行的所述功能。

38.根据权利要求32所述的媒体，其中从所述所俘获的媒体声音提取所述声音特征包含：

从所述所俘获的媒体声音提取中间声音特征；及

39.根据权利要求38所述的媒体，其中基于由多个基础滤子中的每一者从一对样本声音提取的声音特征之间的相似度程度来从所述多个基础滤子选择所述至少一个基础滤子。

40.根据权利要求32所述的媒体，其中所述至少一个参考声音特征与包含将在所述移动装置中执行的所述功能及背景信息的元数据相关联。

41.一种用于确定将由移动装置执行的功能的服务器，所述服务器包括：

用于接收声音特征的装置，所述声音特征是从由所述移动装置俘获的媒体声音提取；

用于基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征的装置，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；及

用于基于所述至少一个所识别的参考声音特征来确定将由所述移动装置执行的所述功能的装置。

42.根据权利要求41所述的服务器，其中所述至少一个参考声音特征与广告相关联，且其中所述用于确定的装置经配置以将所述功能确定为在所述移动装置上显示所述广告。

43.根据权利要求41所述的服务器，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中所述用于确定的装置经配置以将所述功能确定为：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

44.根据权利要求41所述的服务器，其中所述用于确定的装置经配置以将所述功能确定为调整所述移动装置的配置。

45.根据权利要求41所述的服务器，其中所述用于确定的装置经配置以将所述功能确定为：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。

46.根据权利要求41所述的服务器，其中如果所述所俘获的媒体声音的声音水平大于预定声音水平，那么从所述所俘获的媒体声音提取所述声音特征。

47.根据权利要求41所述的服务器，其中通过从所述所俘获的媒体声音提取中间声音特征且将至少一个基础滤子应用于所述中间声音特征以产生所述声音特征，而从所述所俘获的媒体声音提取所述声音特征。

48.根据权利要求47所述的服务器，其进一步包括用于基于由多个基础滤子中的每一者从一对样本声音提取的声音特征之间的相似度程度来从所述多个基础滤子选择所述至少一个基础滤子的装置。

49.根据权利要求41所述的服务器，其中所述至少一个参考声音特征与包含将由所述移动装置执行的所述功能及背景信息的元数据相关联。

50.一种移动装置，其包括：

用于从所述移动装置外部的声音输出装置俘获媒体声音的装置；

用于从所述所俘获的媒体声音提取声音特征的装置；

用于基于所述声音特征在一组参考声音特征中识别至少一个参考声音特征的装置，所述组参考声音特征中的每一参考声音特征与多个媒体声音中的至少一者及多个功能中的至少一者相关联；

用于基于所述至少一个所识别的参考声音特征来确定将由所述移动装置执行的功能的装置；及

用于在所述移动装置中执行所述所确定的功能的装置。

51.根据权利要求50所述的移动装置，其中所述至少一个参考声音特征与广告相关联，且其中所述用于执行的装置经配置以在所述移动装置上显示所述广告。

52.根据权利要求50所述的移动装置，其中所述至少一个参考声音特征与将由搜索引擎搜索的关键字相关联，且其中所述用于执行的装置经配置以：

将所述关键字发射到所述搜索引擎；

从所述搜索引擎接收搜索结果；及

在所述移动装置上输出所述搜索结果。

53.根据权利要求50所述的移动装置，其中所述用于执行的装置经配置以调整所述移动装置的配置。

54.根据权利要求50所述的移动装置，其中所述用于执行的装置经配置以：

输出将执行的所述功能的通知；

接收输入以执行所述功能；及

响应于所述所接收的输入来执行所述功能。