CN103620546A - 基于音频的应用程序体系结构 - Google Patents

基于音频的应用程序体系结构 Download PDF

Info

Publication number
CN103620546A
CN103620546A CN201280006837.6A CN201280006837A CN103620546A CN 103620546 A CN103620546 A CN 103620546A CN 201280006837 A CN201280006837 A CN 201280006837A CN 103620546 A CN103620546 A CN 103620546A
Authority
CN
China
Prior art keywords
audio frequency
information
user
equipment
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280006837.6A
Other languages
English (en)
Inventor
H·威廉姆斯
W·D·卡尔
C·杰尼丝
A·J·沃茨
J·H·伍德
K·J·加斯珀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN103620546A publication Critical patent/CN103620546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/613Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

一种应用程序体系结构包括一个或多个放置在用户处所内的音频接口。基于云的应用程序引擎接收来自所述接口的音频信息并且基于所述用户处所内的音频向基于云的应用程序提供信息。其它应用程序利用所述信息来向所述用户提供或加强服务。

Description

基于音频的应用程序体系结构
相关申请
本申请要求2011年1月28日提交的名称为“基于音频的应用体系结构(Audio-Based Application Architecture)”的美国发明专利申请13/016,009的优先权,所述申请的全部内容据此以引用方式并入。
背景技术
住宅和其它的用户处所越来越多地配备有永远在线(always-on)互联网或“云”连接性。在很多情况下,即使是移动用户也拥有恒定或几乎恒定的数据连接性。通过使用各种用户可接入的连接设备,网络通信的一般可用性已为服务和其它功能性创造了许多新的可能性。
附图说明
参照附图阐述详细描述。在图中,参考编号的最左边的数字辨别所述参考编号第一次出现所在的图。在不同图中使用的相同参考编号指示类似或相同的物品。
图1是示出操作环境的方框图,在所述操作环境中,应用程序可以利用应用程序引擎,并且可以响应来自用户处所的音频来为用户提供各种服务;
图2是示出关于图1的系统的其它细节的方框图;
图3是示出示例性进程的流程图,所述示例性进程可以在图1和图2的环境内实施;
图4是示出服务器的各种组件的方框图,所述服务器可用于实施本文所描述的许多技术。
具体实施方式
本文所描述的是用于利用可能已存在于住宅或其它位置内的音频信息的系统和技术。为收集音频信息,可以在住宅或用户处所内的不同活动中心处放置网络使能麦克风。所述麦克风可以整合在小型独立式单元中,所述单元具有无线网络连接功能并且可以被配置来向基于云的应用程序引擎或服务传输基于音频的信息。基于云的应用程序引擎可以监测所述基于音频的信息并且对其处理来辨别关于住宅内的当前活动的事件、状态或其它信息。所述应用程序引擎也可以辨别由住宅内的用户说出的命令。
在所描述的实施方案中,应用程序引擎暴露应用程序接口,其它的基于云的实体可以接入所述应用程序接口。所述应用程序接口允许其它实体接收关于住宅内活动、状态、命令等等的数据。使用授权和认证防护措施来确保仅通过用户授权的实体才能够接入这种信息。
授权的基于云的应用程序可以利用应用程序引擎的服务来为用户加强他们自己的服务。例如,基于云的应用程序可以与应用程序引擎通信来接收由用户说出的命令的通知,并且可以按照这些命令工作。作为一个更特定的示例,用户可以说出如“购买今晚《兰博(Rambo)》的电影票”的命令。应用程序引擎在接收到这个音频后可将它转换为文本流并且向应用程序提供所述文本流,所述应用程序响应于所述引擎接收到某些基于嗓音的命令而使用付款信息来为用户购买电影票,用户先前已提供所述付款信息并授权它的使用。响应于接收到所述文本流,所述应用程序可以购买所请求的电影票并且将所述电影票电子地传输至与用户相关联的设备,如用户的计算机或智能手机。
系统体系结构示例
图1示出可以实行这些技术的环境100。所述环境包括住宅或其它的用户处所102。用户处所可以包括房屋、办公室、汽车以及其它空间。虽然在图1中示出了单一住宅102,但是大多数的实施形式将包括多个处所和用户。
在住宅102内的是用户104以及一些与用户104相关联的设备。所示出的设备包括媒体设备106,其代表各种类型设备的任何一种或多种,如电视机、音频播放器、视频播放器等等。所示出的设备还包括计算机108,其代表各种类型设备的一种或多种,如膝上型计算机、台式计算机、平板计算机、上网本(netbook)、其它网络使能设备等等。个人计算设备110也可以与用户相关联,如智能手机、寻呼机、PDA(个人数字助理)、图书阅读器设备或其它类型的便携式设备,包括各种类型的电子通信设备。
注意,显示在住宅102内的设备仅仅是可以存在于用户处所内部或与用户相关联的各种各样设备的示例。许多这类设备可以具有某种网络连接性。在这种情况下,住宅内设备与路由器或接入点112连接,所述路由器或接入点又与公共网络114连接。住宅内设备与路由器112之间的连接可以通过有线技术或无线技术来实现。
虽然住宅102内的设备被示出为经由住宅内的路由器112与网络114进行连接,但是可以用各种其它的方式实施网络连接性。例如,一些住宅内设备可以使用蜂窝数据技术或通过其它类型的不涉及住宅内路由器或接入点的有线技术和无线技术来与网络114进行通信。因此,在图1中所示的具体配置仅仅作为一种可以实现网络连接性的可能方式的例示而提出。
网络114代表被称之为“云”的事物,其可以包括大量的基于网络的实体、服务器、客户端、应用程序及服务。网络114内的方框代表与本篇论述有关的基于云的应用程序和/或服务。
网络114可以是各种离散网络和系统的聚集形式,其以各种方式互连以便对于功能性目来说,所述网络和系统或多或少作为统一的网络出现。因此,网络114可以包括各种类型的通信网络,包括局域网络、广域网络、互联网、无线网络、有线电视网络、电话网络、蜂窝通信网络等。本文所论述的技术也可以在更小型网络中实行,所述更小型网络包括局部网络和/或私有网络。
用户的住宅102可以配备有一个或多个处所内音频监测设备116,其在本文中称为住宅内音频接口设备。在一些实施方案中,音频接口设备116可以包括具有麦克风和网络接口的设备。在某些实施方案中,所述接口设备也可以具有扬声器或其它形式的音频输出。
接口设备116可以是相对小的,以使得一些这类设备可以不显眼地放置在住宅102内的各种位置。作为一个示例,接口设备可以在类似冰球(hockeypuck)的小型圆柱形壳体中实施。
每个接口设备116可以具有电源连接来接收操作功率。在所描述的实施方案中,不需要其它连接。然而,在一些实施方案中,可以从外部来源向一个或多个音频接口设备116提供音频;所述接口设备116上可利用连接器、插座或端口来达到这个目的。
音频接口设备116可以放置在住宅102内以使得所述设备的麦克风检测住宅102内的周围声音或噪音。在很多情况下,将音频接口设备放置在住宅102内的媒体设备(如媒体设备106)附近可以是适宜的,以使得由这类媒体设备产生的音频由音频接口设备116检测并清晰地接收。将接口设备放置在活动中心(如在厨房中,桌子上等等)附近也可以是适宜的,以使得用户语音可以被清晰地接收。
在图1中所示的实施方案,接口设备116经由路由器112和网络114与基于云的应用程序服务或引擎118通信并且向其传输环境信息。如以上所提及,可以许多方式实施这种基于云的通信,并且不限于图1中所示的具体的基于路由器的配置。作为一个示例,接口设备可以使用蜂窝或其它无线数据通信技术来与应用程序引擎118进行通信。
图1也示出多个基于云的应用程序或服务120,其与应用程序引擎118交互并且至少部分地将它们的服务以从住宅内音频接口设备116获得或产生的信息为基础。应用程序120可以是对于用户来说可经由网络浏览器接入的基于web的应用程序,其连同计算机108或另一个互联网终端或接入设备一起进行操作。也可以使用各种移动设备和通信设备来接入这类应用程序。应用程序120中的一些可以用作程序的资源,所述程序在如计算机108或私人设备110的本地设备上执行。这种本地程序可以连同基于云的应用程序120一起进行操作来提供范围从邮件服务到游戏的各种不同的服务和功能性。基于云或基于网络的应用程序(如应用程序120)可以与各种各样网络连接设备进行通信并连同其一起进行操作,所述网络连接设备包括娱乐设备、游戏盒、媒体设备、家庭自动化和安全设备、通信设备等等。
在操作中,应用程序引擎118接收来自接口设备116的基于音频的信息。所述音频信息可以包括音频流、来源于有声话语的用户命令或通知、从处所内音频得到的环境信息等等。应用程序引擎118处理所述基于音频的信息来确定各种关于用户活动、状态、环境、命令等的数据。然后可以通过授权的应用程序120来获得这种数据,所述应用程序可以按照所述信息工作以便为用户104提供或加强服务。
图2示出关于所描述的设备与服务之间的交互的其它细节。如以上所提及,一个或多个住宅内音频接口设备116可以位于住宅102内。单独的接口设备116可以包括麦克风202,其被配置来检测周围噪音、声音及语音。接口设备102还可以包括网络接口204,其经由网络114促进与各种实体的网络通信,所述实体包括应用程序引擎118和一个或多个应用程序120。所述接口设备还可以包括扬声器206和操作逻辑208。操作逻辑208可以实施为一个或多个可编程处理单元、相关联的存储器以及存储在存储器中并且通过处理单元执行的适当指令。也可以使用其它类型的逻辑来配置接口设备116以便执行本文所描述的功能。
在一个实施方案中,接口设备116被配置来基于由接口设备116的麦克风202检测到的周围音频而向应用程序引擎118发送基于音频的信息210。所述基于音频的信息210可以包括连续的音频流或可以包括对应于住宅102内和接口设备116附近的不同时段的活动或噪音的独立音频流。例如,每当周围噪音等级超过最小阈值时,就可以传输音频流。
在其它实施方案中,接口设备116可以预处理来自麦克风202的音频,并且可以向应用程序引擎118传输更高等级的基于音频的信息。例如,接口设备116的操作逻辑208可以对周围音频执行语音识别,以及向应用程序引擎118传输解译的命令或文本流。作为另一个示例,操作逻辑208可以被配置来识别并辨别由媒体设备106中的一个所播放的音乐,以及向应用程序引擎118传输数据,从而指示或辨别当前正在播放的音乐。在一些实施方案中,接口设备116可以利用在线服务或基于云的服务(如音乐数据库)来执行它的功能。
注意,单独的接口设备116可以通过某种类型的初始化或注册规程而与各自的处所相关联,并且与接口设备的通信可以使用加密技术来认证。
应用程序引擎118被配置来接收基于音频的信息210。取决于所接收信息的类型或格式,应用程序引擎118处理所述信息来辨别并创建与住宅内活动有关的事件、状态和/或命令数据。在一些实施方案中,应用程序引擎118可以保持对数据对象或事件描述符的记录,每一个数据对象或事件描述符都代表并辨别一个离散事件或项目信息。作为示例,可以创建事件描述符对象来辨别或指示以下类型的信息:
由用户发出的口述命令;
住宅内正在播放的歌曲;
住宅内正在观看的电视节目;
正在上演或呈现的电影或其它媒体项目;
当前呈现的媒体项目的完成百分比。
如这样的信息可以借助于声音、嗓音和/或音乐识别技术来辨别。例如,可以使用嗓音识别技术来将用户语音转换成文本,接着可以对所述文本语法分析来辨别具体的命令或指令。音乐分辨技术可以将歌曲与已知的数据库进行比较来辨别所述歌曲,并且可能辨别表演者和其它关于所述歌曲的数据。可以使用相似的技术来将音频与其它已知媒体的数据库进行比较,所述其它已知媒体如电视节目、播客(podcast)、电影等等。除了辨别正在播放的具体媒体项目,应用程序引擎可以辨别或监测当前正在播放的媒体项目内的具体点。
如以上所提及,可以在接口设备116内处理音频,并且应用程序引擎可以接收高等级的事件通知、媒体等。然而,由应用程序引擎118接收的基于音频的信息210可以包括原始音频流,其可以由应用程序引擎118处理来产生事件描述符。因此,应用程序引擎可以包括音频识别逻辑212,如语音至文本转换逻辑和其它声音识别功能性来识别各种类型的声音和媒体。
在所描述的实施方案中,应用程序引擎118向基于云的应用程序120暴露一个应用程序接口214(也称为应用程序编程接口或API)。API214允许应用程序120获得已由应用程序引擎118创建的事件描述符。根据适当的认证,应用程序120可以通过API214查询应用程序引擎118来获得并接收关于住宅102内的事件和情况的事件描述符或通知216。对应用程序120接收关于具体住宅或设施的信息的授权通常是由与住宅相关联的用户授予—只有由用户授权的那些应用程序才被允许接入住宅内的信息。
应用程序120可以代表与住宅102相关联的用户使用来自事件通知216的信息来初始化或定制服务218。可以通过位于住宅中的媒体设备106中的任何一个来提供这类服务,同样可以通过其它应用程序设备220,包括计算机108、个人设备110以及其它用户可用的设备来提供这类服务。如以上所提及,服务218可以被提供为基于web的服务,所述服务可通过web或互联网浏览器连同使用任何合适的硬件来接入。也可以连同其它类型的系统一起来提供服务,所述系统包括电话系统、媒体播放器、自动化系统和设备等等。以下将描述应用程序120和相关联的服务218的示例。
应用程序引擎118的API214也可以允许应用程序120针对最后的传输而向接口设备116提供有待在扬声器206上播放的音频222。音频可以呈文本的形式,其中语音合成或文本至语音转换可以由应用程序引擎118或由接口设备116的操作逻辑108来执行。在图2中,应用程序引擎118被示出为具有语音合成模块224。替代地,来自应用程序120的音频222可以被提供作为数字音频流。
可以使用现有的网络连接协议和技术执行图2的组件之间的各种网络通信。可以用多种方式实施事件描述符216,如通过使用现有的数据库技术,并且可以使用数据库查询协议或其它协议进行通信。此外,一些实施方式可以使用各种推送技术(push technologies)来在描述符216被辨别时向应用程序120主动地传输所述描述符。音频和基于音频的信息可以被格式化为文件、音频流、数据对象、通知、文本流等等。
图3示出可根据本文描述的实施方案执行的动作。动作302包括接收来自与一个或多个用户相关联的处所的基于音频的信息,所述处所如住宅、办公室、汽车等。基于音频的信息可以包括音频流或从音频流得到的数据。可以通过住宅内或处所内接口、通过基于云的服务或应用程序引擎、通过其它基于云的服务或应用程序引擎或这些实体的组合来接收音频。
在304处,处理基于音频的信息来创建数据结构,所述数据结构辨别在用户处所内的当前用户特定性活动、事件、状态、环境、命令以及媒体。数据结构可以包括数据库记录或其它数据对象。处理304可以包括语音识别、语音至文本转换、音乐识别以及其它类型的音频识别,并且可以产生基于文本或基于代码的通知或命令。
在306处,向已被用户授权的应用程序报告所辨别的事件、命令等等。可以使用数据库通信协议或其它协议,使用推送模式或拉回模式来报告所述事件和命令。
在308处,应用程序接收所报告的事件和命令通知。在310处,应用程序基于所述通知来提供和/或加强它们的服务。例如,应用程序可以响应于接收到的命令来工作,或可以向用户提供与用户处所内的检测环境有关的特定信息。
示例的服务
可以利用以上所述的体系结构来提供各种各样的服务和功能性,以下是所述服务和功能性的简单示例。
基于云的应用程序可以被配置来接收来自用户的有声命令并且基于那些命令来执行操作。例如,用户可以说出食品杂货店订单,并且口述订单可以使用如以上描述的嗓音识别功能性来解译。一旦解译后,可以将所述订单提交至食品杂货店以便随后送货,或简单地记录成购物单,当在所述食品杂货店购物时,用户可以在他们的智能手机上查看所述购物单。如这样的应用程序可以对每个订单应用个性化设置,如优选的送货日程安排和历史份量(historical portion size)。
类似地,基于云的应用程序可以允许用户不需要计算机进行订票。用户可以告知应用程序他们想看什么电影。应用程序可以使用关于所述用户的预配置信息(如地点)来确定哪个电影院在所述用户附近。通过使用系统的语音合成功能性来就电影选择和时间询问所述用户,应用程序可以响应于口述命令来订电影票。
应用程序可以监测来自用户的环境的周围噪音以便确定当前正在呈现什么媒体(音乐、电影、电视等)。一旦辨别出媒体后,应用程序可以在用户的智能手机或计算机上触发扩展应用程序,所述扩展应用程序可以提供对丰富的元数据、推荐、链接、用户社区、特殊兴趣团体、讨论板等等的即时接入。
相似类型的应用程序可以辨别用户当前正在收听的歌曲,并且作为响应,所述应用程序可以提供关于相关作品的信息,提供试听,建议相关的音乐和播放列表,或提出允许用户购买单独的音乐曲目的信息。
应用程序可以响应于用户发出的问题而提供综合信息。用户可以提问,如“芥末蘸蛋(deviled egg)的配方是什么?”应用程序可通过发送邮件或以其它方式提供芥末蘸蛋的配方来响应。在一些情况下,应用程序可以使用系统的语音合成功能来提供对所提问题的音频回答。
类似地,用户可以询问到某个位置的方向指示。应用程序可以经由用户的个人通信设备向用户发送地图、文本方向指示和计算化路线,或可以向用户的导航设备发送关于所需位置的信息。
作为另一个示例,这样的应用程序可以允许用户查询航班或其它事件。通过经由与用户相关联的设备向用户发送信息,或通过由使用语音合成的可听响应,系统可以做出响应。
应用程序还可被设计来允许用户控制各种处所内设备和器材,如媒体器材和家庭自动化设备。例如,这样的应用程序可以接受来自用户的关于处所内设备的口述命令,并且可以通过经由可用网络连接与这类设备的交互来作出响应。
服务器示例
图4示出服务器400的有关组件,所述服务器可以用来实施应用程序引擎118和/或任何应用程序120的功能。一般来说,可以通过一个或多个服务器来实施这些实体中的任何一个,其中以上描述的各种功能性以各种方式分配在不同的服务器中。服务器可以定位在一起或独立地定位,并且被组织成虚拟服务器、服务器库和/或服务器群。可以通过单一实体或企业的服务器来提供所描述的功能性,或可以利用多个实体或企业的服务器和/或服务。
在非常基本的配置中,示例性服务器400可以包括由一个或多个处理器组成的处理单元402,以及存储器404。取决于服务器400的配置,存储器404可以是一类计算机存储介质并且可以包括易失性和非易失性存储器。因此,存储器404可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术。
可以使用存储器404来存储任何数量的功能组件,所述功能组件可通过处理单元402执行。在许多实施方案中,这些功能组件包括指令或程序,所述指令或程序可通过处理单元402执行并且在执行时实施操作逻辑以用于向内容服务108和摄取服务110执行以上所表征的动作。此外,存储器404可以存储由可执行程序引用的各种类型的数据,其包括提供给如电子阅读器104的消费设备的内容项目。
存储在存储器404中的功能组件可以包括操作系统406和数据库408,所述数据库用来存储与由服务器400提供的功能性有关的各种项目。服务器400的功能组件也可以包括web服务组件410,其与如计算机、媒体消费设备等等的远程设备交互。
存储器404还可以具有实施一个或多个API412的指令,所述API可以包括参照图2所描述的API214,其被配置来与如所描述的应用程序120进行对接。存储器还可以包括语音识别模块414和语音合成模块416,其也提供如以上所描述的功能性。
当然,服务器400可以包括许多未在图4中示出的其它逻辑、程序组件及物理组件。
结论
以上所描述的各种技术在给定示例中被假定为将在计算机可执行指令或软件的一般情境中实施,所述计算机可执行指令或软件(程序模块)由一个或多个计算机或其它设备来执行。一般来说,程序模块包括例行程序、程序、对象、组件、数据结构等,其用于执行具体任务或实施具体抽象的数据类型。
可以使用其它体系结构来实施所描述的功能性,并且意图属于本公开的范围之内。此外,尽管为了论述的目在以上定义了特定的职责分配,但是取决于具体的情况,各种功能和职责可以以不同的方式加以分配和划分。
类似地,可以各种方式并使用不同的装置来存储和分配软件,并且以上所描述的具体的软件存储和执行配置可以许多不同方式加以变化。因此,实施以上所描述的技术的软件可以分配在各种类型的计算机可读介质上,但不限于已明确描述的存储器形式。
虽然已经用对结构特征和/或方法动作特定的语言描述了主题,但是要理解的是在所附的权利要求中定义的主题并不一定限制于所描述的特定特征或动作。相反,特定的功能和动作是作为实施权利要求的说明性形式被公开。例如,方法动作不需要以本文所描述的顺序或组合来执行,并且可以一个或多个动作的任何组合来执行。
条款
1.一种系统,其包括:
一个或多个网络接口;
基于云的服务,其可通过处所内音频监测设备接入,以便经由所述一个或多个网络接口接收来自多个用户处所的基于音频的信息,所述用户处所分别与用户相关联;并且
其中所述基于云的服务向多个基于云的应用程序暴露一个或多个应用程序接口,所述基于云的应用程序至少部分地基于所述基于音频的信息向所述用户提供服务。
2.如条款1所述的系统,其中所述基于音频的信息包括音频流。
3.如条款1所述的系统,其中所述基于音频的信息包括从所述用户的有声话语得到的用户命令。
4.如条款1所述的系统,其中所述基于音频的信息包括至少部分地从处所内音频得到的环境信息。
5.如条款1所述的系统,其中一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户特定性活动的信息。
6.如条款1所述的系统,其中一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户媒体消费的信息。
7.如条款1所述的系统,其中一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户视频消费的信息。
8.如条款1所述的系统,其中一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户音频消费的信息。
9.如条款1所述的系统,其中所述基于云的服务至少部分地响应所述基于云的应用程序而经由所述一个或多个应用程序接口来响应,以便向所述处所内音频监测设备提供音频。
10.一种方法,其包括:
在一个或多个配置有可执行指令的计算系统的控制下,
接收来自位于多个用户的处所的处所内音频监测设备的基于音频的信息;
处理所述基于音频的信息来确定当前用户特定性信息;并且
向多个基于网络的应用程序报告所述当前用户特定性信息,所述基于网络的应用程序至少部分地基于所述用户特定性信息向所述用户提供服务。
11.如条款10所述的方法,其中所述基于音频的信息包括来自多个用户各自处所内的所述多个用户的连续接收的音频流。
12.如条款10所述的方法,其中所述基于音频的信息包括音频流,所述方法进一步包括处理所述音频流来辨别所述当前用户特定性信息。
13.如条款10所述的方法,其中所述基于音频的信息包括音频流,所述方法进一步包括处理所述音频流来辨别当前用户媒体消费。
14.如条款10所述的方法,其中所述基于音频的信息包括音频流,所述方法进一步包括对所述音频流执行嗓音识别以便辨别用户命令。
15.如条款10所述的方法,其中所述基于音频的信息指定当前用户媒体消费。
16.如条款10所述的方法,其进一步包括至少部分地响应于所述基于网络的应用程序向所述处所内音频监测设备提供音频。
17.一种基于网络的系统,其包括:
一个或多个处理器;
存储器,其含有指令,所述指令可通过一个或多个处理器执行以便执行动作,所述动作包括:
接收来自基于网络的服务的关于在多个用户处所中的多个用户的当前活动的信息,其中所述信息至少部分地基于来自所述用户处所内的音频监测;并且
至少部分地基于所接收到的关于在他们各自用户处所中的所述活动的信息向所述用户提供基于网络的服务。
18.如条款17所述的系统,其中所接收到的信息指示单独用户的当前媒体消费。
19.如条款17所述的系统,其中:
所接收到的信息指示单独用户的当前媒体消费;并且
所述基于网络的服务补充所述当前媒体消费。
20.如条款17所述的系统,其中:
所接收到的信息指示来自单独用户的口述命令;以及
所述基于网络的服务响应于所述口述命令来工作。
21.一种住宅内接口设备,其包括:
麦克风,其被配置来接收来自附近用户和来自附近媒体设备的音频;
网络接口,其被配置来与基于网络的应用程序服务进行通信;
其中所述住宅内接口设备被配置来经由所述网络接口和所述基于网络的应用程序服务向一个或多个基于网络的应用程序连续地传输环境信息,并且其中所述环境信息至少部分地基于所接收的音频。
22.如条款21所述的设备,其中所述环境信息包括音频流。
23.如条款21所述的设备,其进一步包括语音识别器,并且其中所述环境信息包括使用所述语音识别器至少部分地从用户话语得到的通知。
24.如条款21所述的设备,其进一步包括语音识别器,并且其中所述环境信息包括媒体辨别。

Claims (13)

1.一种系统,该系统包括:
一个或多个网络接口;
基于云的服务,该基于云的服务能够通过处所内音频监测设备接入,以便经由所述一个或多个网络接口接收来自多个用户处所的基于音频的信息,所述用户处所分别与用户相关联;以及
其中所述基于云的服务向多个基于云的应用程序暴露一个或多个应用程序接口,所述基于云的应用程序至少部分地基于所述基于音频的信息向所述用户提供服务。
2.如权利要求1所述的系统,其中所述基于音频的信息包括以下一者或多者:音频流、从所述用户的有声话语得到的用户命令、以及至少部分地从处所内音频得到的环境信息。
3.如权利要求1所述的系统,其中所述一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户特定的活动的信息。
4.如权利要求1所述的系统,其中所述一个或多个应用程序接口至少部分地基于所述基于音频的信息来提供关于当前用户媒体消费的信息。
5.如权利要求1所述的系统,其中所述基于云的服务至少部分地响应所述基于云的应用程序而经由所述一个或多个应用程序接口来响应,以便向所述处所内音频监测设备提供音频。
6.一种方法,该方法包括:
在一个或多个配置有可执行指令的计算系统的控制下,
接收来自位于多个用户的处所的处所内音频监测设备的基于音频的信息;
处理所述基于音频的信息以确定当前用户特定的信息;以及
向一个或多个基于网络的应用程序报告所述当前用户特定的信息,所述基于网络的应用程序至少部分地基于所述用户特定的信息向所述用户提供服务。
7.如权利要求6所述的方法,其中所述基于音频的信息包括来自多个用户各自处所内的所述多个用户的连续接收的音频流。
8.如权利要求6所述的方法,其中所述基于音频的信息包括音频流,所述方法还包括处理所述音频流以辨别以下一者或多者:所述当前用户特定的信息、以及当前用户媒体消费。
9.如权利要求6所述的方法,其中所述基于音频的信息包括音频流,所述方法还包括对所述音频流执行嗓音识别以便辨别用户命令。
10.如权利要求6所述的方法,该方法还包括至少部分地响应于所述基于网络的应用程序向所述处所内音频监测设备提供音频。
11.一种住宅内接口设备,该设备包括:
麦克风,被配置成接收来自附近用户和来自附近媒体设备的音频;
网络接口,被配置成与基于网络的应用程序服务进行通信;
其中所述住宅内接口设备被配置成经由所述网络接口和所述基于网络的应用程序服务向一个或多个基于网络的应用程序连续地传送环境信息,以及其中所述的环境信息至少部分地基于所接收的音频。
12.如权利要求11所述的设备,其中所述环境信息包括音频流。
13.如权利要求11所述的设备,该设备还包括语音识别器,以及其中所述环境信息包括使用所述语音识别器至少部分地从用户话语得到的通知。
CN201280006837.6A 2011-01-28 2012-01-26 基于音频的应用程序体系结构 Pending CN103620546A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/016,009 2011-01-28
US13/016,009 US10382509B2 (en) 2011-01-28 2011-01-28 Audio-based application architecture
PCT/US2012/022703 WO2012103321A2 (en) 2011-01-28 2012-01-26 Audio-based application architecture

Publications (1)

Publication Number Publication Date
CN103620546A true CN103620546A (zh) 2014-03-05

Family

ID=46578441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280006837.6A Pending CN103620546A (zh) 2011-01-28 2012-01-26 基于音频的应用程序体系结构

Country Status (5)

Country Link
US (1) US10382509B2 (zh)
EP (1) EP2668561A4 (zh)
JP (1) JP2014507030A (zh)
CN (1) CN103620546A (zh)
WO (1) WO2012103321A2 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD822716S1 (en) 2016-05-13 2018-07-10 Google Llc Voice interface device
US9423925B1 (en) * 2012-07-11 2016-08-23 Google Inc. Adaptive content control and display for internet media
US10713846B2 (en) 2012-10-05 2020-07-14 Elwha Llc Systems and methods for sharing augmentation data
US10269179B2 (en) 2012-10-05 2019-04-23 Elwha Llc Displaying second augmentations that are based on registered first augmentations
US9141188B2 (en) * 2012-10-05 2015-09-22 Elwha Llc Presenting an augmented view in response to acquisition of data inferring user activity
US10180715B2 (en) 2012-10-05 2019-01-15 Elwha Llc Correlating user reaction with at least an aspect associated with an augmentation of an augmented view
US9077647B2 (en) 2012-10-05 2015-07-07 Elwha Llc Correlating user reactions with augmentations displayed through augmented views
US9111383B2 (en) 2012-10-05 2015-08-18 Elwha Llc Systems and methods for obtaining and using augmentation data and for sharing usage data
US9196262B2 (en) 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
US9639964B2 (en) 2013-03-15 2017-05-02 Elwha Llc Dynamically preserving scene elements in augmented reality systems
US10109075B2 (en) 2013-03-15 2018-10-23 Elwha Llc Temporal element restoration in augmented reality systems
US10025486B2 (en) 2013-03-15 2018-07-17 Elwha Llc Cross-reality select, drag, and drop for augmented reality systems
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US9898250B1 (en) 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
EP3455719A1 (en) 2016-05-10 2019-03-20 Google LLC Implementations for voice assistant on devices
EP3457399A4 (en) 2016-05-13 2019-10-16 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
CN108604180A (zh) 2016-05-13 2018-09-28 谷歌有限责任公司 用于语音用户界面的视觉效果的led设计语言
WO2019182616A1 (en) * 2018-03-23 2019-09-26 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
US11164576B2 (en) 2018-09-04 2021-11-02 Google Llc Multimodal responses
CN110543290B (zh) 2018-09-04 2024-03-05 谷歌有限责任公司 多模态响应
JP6887409B2 (ja) * 2018-09-19 2021-06-16 Kddi株式会社 情報提供システム及び情報提供方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075900A1 (en) * 1999-06-07 2000-12-14 Strategic Vista International Inc. Programmable security alarm system
CN1349213A (zh) * 2001-12-18 2002-05-15 蔡磊 家用电器及照明的语音控制系统
US20080109905A1 (en) * 2006-11-03 2008-05-08 Grosse Eric H Methods and apparatus for detecting unwanted traffic in one or more packet networks utilizing string analysis
US20080282305A1 (en) * 2007-04-21 2008-11-13 Carpe Media Media Distribution System, Apparatus, Method and Software
CN201218985Y (zh) * 2008-05-31 2009-04-08 珠海格力电器股份有限公司 声控装置、家电遥控装置
US20100286985A1 (en) * 2002-06-03 2010-11-11 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002058013A (ja) 2000-05-30 2002-02-22 Ikuo Ota 放送情報コンテンツ配信システム、放送情報コンテンツ配信サイト、ユーザ受信端末、ユーザ受信プログラムを記録したコンピュータ読み取り可能な記録媒体及び放送情報コンテンツ配信方法
US6507727B1 (en) * 2000-10-13 2003-01-14 Robert F. Henrick Purchase and delivery of digital content using multiple devices and data networks
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US9137035B2 (en) * 2002-05-09 2015-09-15 Netstreams Llc Legacy converter and controller for an audio video distribution system
US8249071B2 (en) 2004-03-26 2012-08-21 Harman International Industries, Incorporated Audio related system communication protocol
US20070189544A1 (en) * 2005-01-15 2007-08-16 Outland Research, Llc Ambient sound responsive media player
BRPI0619197A2 (pt) 2005-11-29 2011-09-20 Google Inc detecção de conteúdo de repetição em mìdia de difusão
US20070139553A1 (en) * 2005-12-20 2007-06-21 Kister Thomas F Remote monitoring system and method responsive to a signal reaching a threshold
US20070203735A1 (en) * 2006-02-28 2007-08-30 Commonwealth Intellectual Property Holdings, Inc. Transaction Enabled Information System
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CA2701303C (en) * 2007-10-04 2014-07-29 Zos Communications, Llc Location-based messaging system
US20100226526A1 (en) * 2008-12-31 2010-09-09 Modro Sierra K Mobile media, devices, and signaling
JP5330005B2 (ja) 2009-02-03 2013-10-30 オリンパス株式会社 デジタルフォトフレーム、情報処理システム及び制御方法
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9445036B2 (en) * 2009-06-30 2016-09-13 Rovi Guides, Inc. Methods and systems for content scheduling across multiple devices
US8327269B2 (en) 2009-07-20 2012-12-04 Apple Inc. Positioning a virtual sound capturing device in a three dimensional interface
US20120303452A1 (en) * 2010-02-03 2012-11-29 Nokia Corporation Method and Apparatus for Providing Context Attributes and Informational Links for Media Data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075900A1 (en) * 1999-06-07 2000-12-14 Strategic Vista International Inc. Programmable security alarm system
CN1349213A (zh) * 2001-12-18 2002-05-15 蔡磊 家用电器及照明的语音控制系统
US20100286985A1 (en) * 2002-06-03 2010-11-11 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20080109905A1 (en) * 2006-11-03 2008-05-08 Grosse Eric H Methods and apparatus for detecting unwanted traffic in one or more packet networks utilizing string analysis
US20080282305A1 (en) * 2007-04-21 2008-11-13 Carpe Media Media Distribution System, Apparatus, Method and Software
CN201218985Y (zh) * 2008-05-31 2009-04-08 珠海格力电器股份有限公司 声控装置、家电遥控装置

Also Published As

Publication number Publication date
EP2668561A4 (en) 2016-04-13
JP2014507030A (ja) 2014-03-20
US20120198339A1 (en) 2012-08-02
WO2012103321A2 (en) 2012-08-02
US10382509B2 (en) 2019-08-13
WO2012103321A3 (en) 2013-10-17
EP2668561A2 (en) 2013-12-04

Similar Documents

Publication Publication Date Title
CN103620546A (zh) 基于音频的应用程序体系结构
CA2891742C (en) System and method for processing control commands in a voice interactive system
CN102204225B (zh) 传送振动信息的移动通信终端及其方法
US9552816B2 (en) Application focus in speech-based systems
CN109844856A (zh) 从单个设备访问多个虚拟个人助理(vpa)
CN101505317B (zh) 流式媒体中断与恢复系统
US20120224457A1 (en) Server for grouping devices based on sounds collected and method therefore
CN109313897B (zh) 利用多个虚拟助理服务的通信
CN105518645A (zh) 负载平衡的持久连接技术
EP2182707B1 (en) Ambient sound detection and recognition method
CN109634132A (zh) 智能家居管理方法、装置、介质及电子设备
CN101470757B (zh) 用于内容指纹过滤器的系统及方法
CN105141650A (zh) Sms代理
CN103443852A (zh) 音频交互的消息交换
CN108133707A (zh) 一种内容分享方法及系统
CN109036421A (zh) 信息推送方法及家电设备
CN110471735A (zh) 操作视图界面推送方法及装置
CN102750433A (zh) 用于会议系统位置知晓和供应的技术
Thyagaraju et al. Design and implementation of user context aware recommendation engine for mobile using Bayesian network, fuzzy logic and rule base
CN103812903A (zh) 通过互联网实现智能点歌的方法、系统与业务管理服务器
CN106028306A (zh) 一种终端设备恢复出厂设置的方法、装置及终端设备
Yang et al. An intelligent voice interaction system based on Raspberry Pi
CN103098449A (zh) 用户设备,服务器和操作条件设定系统
US11604675B2 (en) Enabling workers to swap between mobile devices
Varela-Aldás et al. Smart home control system using echo dot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305

RJ01 Rejection of invention patent application after publication