CN105723325B - 使用因用户而异的语法的媒体项选择的方法与设备 - Google Patents

使用因用户而异的语法的媒体项选择的方法与设备 Download PDF

Info

Publication number
CN105723325B
CN105723325B CN201480062283.0A CN201480062283A CN105723325B CN 105723325 B CN105723325 B CN 105723325B CN 201480062283 A CN201480062283 A CN 201480062283A CN 105723325 B CN105723325 B CN 105723325B
Authority
CN
China
Prior art keywords
user
media item
media
grading
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480062283.0A
Other languages
English (en)
Other versions
CN105723325A (zh
Inventor
V·萨池达南达姆
J·唐宁
C·奇林乔内
C·帕姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105723325A publication Critical patent/CN105723325A/zh
Application granted granted Critical
Publication of CN105723325B publication Critical patent/CN105723325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

存储机保持可由逻辑机执行以接收口述命令的数字表示的指令。该数字表示被提供给用因用户而异的语法库训练的语音识别器。逻辑机随后从语音识别器接收针对多个不同的媒体项中的每一者的置信度评级。置信度评级指示该媒体项在口述命令中被提及的可能性。逻辑机随后自动回放具有最大置信度评级的媒体项。

Description

使用因用户而异的语法的媒体项选择的方法与设备
背景
随着数字媒体已变得越来越普遍,用户媒体库已变得越来越难以管理。用户具有含数万或甚至数十万歌曲、电影、游戏等的媒体库并不少见。此外,各种服务向用户提供该库以即时地下载和/或流传送新媒体项。由于有这么多的选项,因此难以提供其中用户能够容易地选择一个或多个媒体项以供回放的有益用户体验。
概述
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。而且,所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
存储机保持可由逻辑机执行以接收口述命令的数字表示的指令。该数字表示被提供给用因用户而异的语法库训练的语音识别器。逻辑机随后从语音识别器接收针对多个不同的媒体项中的每一者的置信度评级。置信度评级指示该媒体项在口述命令中被提及的可能性。逻辑机随后自动回放具有最大置信度评级的媒体项。
附图简述
图1示出了根据本公开的一实施例的其中用户用口述命令来控制媒体项回放的环境的非限制性示例。
图2是示出根据本公开文本的一实施例的用于基于用户的口述命令来回放媒体项的方法的流程图。
图3是说明根据本公开的一实施例的用于解释并协调有歧义的结果的方法的流程图。
图4是示出根据本公开的一实施例的用于接收指示具有最大置信度评级的媒体项不是期望回放的媒体项的用户输入并对该用户输入作出响应的方法的流程图。
图5示意性地示出根据本公开的因用户而异的语法库。
图6示意性地示出根据本公开的包括多个媒体项以及父容器的媒体库。
图7示意性地示出根据本公开的一实施例的其中显示器被配置成指示可用于回放的多个媒体项的控制环境。
图8示意性地示出根据本公开的一实施例的其中显示器被配置成显示排队等待回放的媒体项的控制环境。
图9示意性地示出根据本公开的一实施例的计算系统。
详细描述
用户使用话音用户界面(VUI)来查找并回放正确的媒体项的任务可需要在准确性、步骤数和可能被需要作为该界面的一部分的直观且灵活的语音发音之间进行折衷。准确性可通过要求更多的过程步骤或限制可允许的语音输入来改善,但可用于阻止用户与VUI进行交互。
如本文中所描述的,通过使用由因用户而异的语法库来训练的语音识别器,可获得对用户语音的准确识别,而不需要许多步骤,同时允许将直观且灵活的语音发音用作命令。所公开的方法提供对具有最大置信度评级的媒体项的快速回放,同时允许用户在其中没有媒体项具有高于阈值的置信度评级或其中系统选择了不匹配用户期望的媒体项的场景中有用于选择特定媒体项的直观路径。
图1显示了示例控制环境10的各方面。所示出的控制环境是个人住处的起居室或家庭活动室。然而,本文中描述的方法可等同地适用于其他环境,诸如零售店和售货亭、餐馆、信息和公共服务站等。
图1的环境以家庭娱乐系统12为特色。家庭娱乐系统包括大规格显示器14 和扩音器16,两者均被操作地耦合到计算机系统18。在其他实施例(诸如近眼显示器变体)中,显示器可被安装在计算机系统的用户所佩戴的头饰或眼镜中。在其他实施例中,显示器可以是小规格显示器,诸如计算机监视器、膝上型计算机屏幕、平板计算机屏幕、智能电话屏幕等。
在一些实施例中,计算机系统18可以是视频游戏系统。在一些实施例中,计算机系统18可以是被配置成播放音乐和/或视频的多媒体系统。在一些实施例中,计算机系统18可以是用于因特网浏览和生产力应用(例如文字处理和电子表格应用)的通用计算机系统。一般来说,计算机系统18可被配置用于以上目的中的任一者或全部,而不背离本公开的范围。
计算机系统18被配置成经由用户输入子系统22来接受来自一个或多个用户 20的各种形式的用户输入。由此,诸如键盘、鼠标、触摸屏、游戏垫或操纵杆控制器之类的传统用户输入设备可被操作地耦合到计算机系统。不管传统的用户输入模式是否被支持,用户输入子系统22都可被配置成仲裁来自至少一个用户的所谓的自然用户输入(NUI)和/或话音用户输入(VUI)。
为了仲裁来自一个或多个用户的用户输入,用户输入子系统22是计算机系统 18可用的。用户输入子系统被配置成捕捉用户输入的各方面,并将相应的可操作输入提供给计算机系统。结果,用户输入子系统可接收来自外围传感器组件(其可包括视觉子系统24和监听子系统26)的低级输入。在所示的实施例中,视觉系统和监听系统共享公共外壳;在其他实施例中,它们可以是分开的组件。在又一些实施例中,视觉、监听和用户输入子系统可被集成在计算机系统内。计算机系统和视觉系统可经由有线通信链路(如附图中示出的)或按任何其他合适的方式耦合。虽然图1示出了被布置在显示器14顶上的传感器组件,但各种其他布置也被构想。例如,用户输入子系统22可被安装在头戴式显示系统的顶板或一部分上。
在图1所示的示例中,用户20被描绘为按口述命令30的形式提供用户输入。在该示例中,用户正请求计算机系统回放媒体项。如本文中使用的术语“媒体项”可指代数字媒体文件,诸如音频文件、视频文件、或音频/视频混合文件(例如,歌曲、音乐视频、电影、游戏等)。口述命令30可包括多个命令分量。口述命令 30可包括主要命令分量,其指引监听子系统以主动监听模式参与(例如,“计算机系统”)。口述命令30还可包括次要命令分量,其提供应用专用命令(例如“播放”)。在该示例中,次要命令分量指示用户的对回放媒体项的期望。应用专用命令可导致计算机系统18启动应用和/或确定要由计算机系统18及其组件和子系统处理的命令的路径,这可触发一个或多个方法,诸如图2-4所示的示例方法。在用户提供用户希望计算机系统回放的媒体项的标识信息(例如,“攻击和释放”)的情况下,口述命令30可包括第三级分量。
在一些示例中,口述命令30可不包括主要命令分量、次要命令分量和第三级命令分量中的每一者。相反,可推断一个或多个命令分量,或通过其他用户输入模块将其中继到用户输入子系统22。例如,断言监听模式的主要命令可基于用户的姿态、注视等来推断。监听模式还可通过用户对计算系统18的参与或经由正在计算系统18上运行的应用的上下文来推断。附加地或替换地,用户可通过其他用户输入模块,例如通过在键盘上按压按钮,来命令主动监听模式。在本文中并结合图 7进一步讨论其中口述命令30不包括第三级分量的示例。
口述命令30可被包括在监听子系统26中的一个或多个话筒接收到。口述命令 30的数字表示随后可由包括在监听子系统26和/或用户输入子系统22中的模数转换电路系统创建。口述命令30的数字表示可随后被呈现给包括在计算机系统18 中的逻辑机,如本文中并结合图2-4进一步描述的。
计算机系统18可向用户20提供口述命令30已被识别出以及该命令正在被处理的反馈。反馈可包括呈现在显示器14上的视觉反馈和/或通过扩音器16呈现的音频反馈。如果口述命令30或其数字表示不包含足够的信息来提示计算机系统18 的特定响应,则计算机系统18可提示用户20重申口述命令30。
在一些示例中,口述命令30的主要命令分量还可激励视觉子系统24以主动数据捕捉模式参与。视觉子系统24可收集涉及用户20所执行的姿势的数据和/或涉及在用户20正说出补充和完善计算机系统18所执行的语音识别的口述命令30时所执行的面部移动的数据。
口述命令30可在媒体回放程序或应用正主动地运行时被计算机系统18接收并处理,和/或可在另一程序或应用正主动地运行时被计算机系统18接收并处理。例如,用户20可主动地参与正在家庭娱乐系统12上播放的视频游戏,并递送具有通过扩音器16收听音乐的意图的口述命令30,而无需暂停或退出该视频游戏应用。
图2示出用于基于用户的口述命令来回放媒体项的示例方法200的流程图。例如,方法200可用于响应于用户20递送如图1中所描绘的口述命令30而在家庭娱乐系统12上回放媒体项。方法200可以以存储在存储机上并由逻辑机执行的指令的形式来实现,存储机和逻辑机为例如如图9所示的存储机920和逻辑机910。例如,计算机系统18可包括保持方法200的指令的存储机和被配置成执行这些指令的逻辑机。
在210,方法200可包括接收口述命令的数字表示。如参考图1讨论的,口述命令30可由监听子系统26接收,并且口述命令30的数字表示可由监听子系统26 和/或用户输入子系统22创建。
在220,方法200可包括将该数字表示提供给用因用户而异的语法库训练的语音识别器。例如,逻辑机910可将该数字表示提供给语音识别器925,如在本文中进一步描述并且在图9中示出的。语音识别器可用因用户而异的语法库来训练,该因用户而异的语法库可包含与可用于由计算机系统回放的媒体项有关的标识符。
如在本文中进一步描述并在图5中示出的,因用户而异的语法库500可包括与多个媒体项以及包括此多个媒体项的父容器有关的标识符。例如,因用户而异的语法库500可包括用户的媒体库510中的多个媒体项515的项标识符。因用户而异的语法库500可进一步包括多个父容器512的父容器标识符,此多个父容器512包括用户的媒体库510中的多个媒体项515。
在一些实施例中,如图9所示,计算机系统900可包括通信子系统970。通过该通信子系统,计算机系统可经由网络访问媒体服务器520。因用户而异的语法库 500可由此包括可经由媒体服务器520访问的多个媒体项525的项标识符。因用户而异的语法库500可进一步包括多个父容器522的父容器标识符,此多个父容器 522包括可经由媒体服务器520访问的多个媒体项525。媒体服务器520可包括可用于购买和/或可访问以供回放而无需购买的媒体项。媒体服务器520可包括可用于下载的媒体项和/或可经由流传送服务获得以供回放的媒体项。例如,媒体服务器520可包括聚焦于用户区域的流行音乐的在线音乐目录。因用户而异的语法库 500可由此包括可在音乐目录中获得的专辑、艺术家、播放列表、歌曲等的父容器标识符和媒体项标识符。
因用户而异的语法库500还可包含可经由用户的在线网络历史530、用户的计算机使用历史540、用户的社交图550和/或一个或多个在线社交网络570访问的媒体项和/或在其中提到的媒体项的项标识符和父容器标识符。在本文中并结合图5 和6进一步讨论因用户而异的语法库500的分量的更详细讨论。
返回图2,在230,方法200可包括从语音识别器接收多个不同的媒体项中的每一者的置信度评级,置信度评级指示媒体项在口述命令中被提及的可能性。例如,语音识别器可使用串音译来将在用户命令的数字表示中所标识的语音串(例如,音节、单词和短语)与用户的媒体库中的实际媒体项和/或可经由媒体服务器访问的媒体项的项标识符和父容器标识符进行匹配。
如图6所示,在媒体库600(用户的媒体库或可通过媒体服务器访问的媒体库) 中找到的每一媒体项601可包含多个项标识符和父容器标识符。例如,每一媒体项可以是表示不同歌曲的数字音频文件。媒体项601可具有例如表示歌曲标题的第一项标识符601a。多个媒体项可被包括在同一父容器中。例如,主要父容器625可表示音乐艺术家。同属于该音乐艺术家的媒体项可共享主要父容器标识符625a。每一主要父容器625可进一步包括多个次要父容器650。例如,次要父容器可表示父容器625所表示的音乐艺术家的专辑。同属于该专辑的媒体项可由此共享次要父容器标识符650a。父容器中的每一媒体项可包括第二项标识符以进一步区分不同的媒体项。例如,媒体项601可具有第二项标识符601b,从而表示媒体项601是次要父容器650所表示的专辑上的第一歌曲。类似地,媒体项602可被标识成该专辑上的第二歌曲,媒体项603可被标识为第三歌曲等等。其他项标识符可包括:媒体项长度,用户对该媒体项的评级,或使媒体项与用户、与用户的社交网络的成员等相关的其他有形信息(在本文中并结合图5进一步讨论)。
来自多个主要和/或次要父容器的媒体项可被一起编组在第三级父容器(诸如播放列表)中。例如,第三级父容器675包括来自主要父容器625和次要父容器 650的媒体项601和602以及媒体项610和620。由此,媒体项601包括第三级父容器标识符675a。包括第三级父容器的媒体项可包括专用于第三级父容器的项标识符,诸如歌曲在播放列表中的位置、交叉淡入淡出信息等。同一媒体项可出现在众多第三级歌曲容器中。第三级父容器标识符可进一步包括发布年份、记录产生者信息或可由用户或媒体文件生成器施加的其他标识符。
返回图2,语音识别器可使用项标识符和父容器标识符(包括因用户而异的语法库)来确定多个媒体项中的每一者的置信度评级。例如,语音识别器可使用串音译来相对于用户的库中的媒体项和/或可经由媒体服务器获得的媒体项驱动“模糊匹配”。“模糊匹配”可用于将在用户命令的数字表示中所标识的语音串与因用户而异的语法库中的项标识符和父容器标识符进行匹配。在一些实施例中,在相对于用户的媒体库的模糊匹配结果被与相对于可经由媒体服务器获得的媒体项的模糊匹配结果合并的情况下,用户的集合中的媒体项相比于可经由媒体服务器获得的媒体项可被更重的加权。
在240继续,方法200可包括自动地回放具有最大置信度评级的媒体项。通过这种方式,用户可说出与“播放<歌曲名称>”一样简单的话语,并可被直接带入回放针对来自用户的音乐库的项的最佳匹配媒体项和/或针对来自媒体服务器的项的最佳匹配媒体项。
在许多场景中,用户可具有其库中具有相似或相同项标识符的多个媒体项以及其库中具有相似或相同父容器标识符的多个父容器。此外,因用户而异的语法库可包括用于媒体项标识符和父容器标识符两者的相似或相同的术语。
图3示出用于解释和协调有歧义的结果的示例方法300的流程图。例如,方法 300可用于协调来自实现方法200的逻辑机的有歧义的结果,所述方法如在本文中并结合图2描述的。方法300可以以存储在存储机上并由逻辑机执行的指令的形式来实现,例如如图9所示的存储机920和逻辑机910。例如,计算机系统18可包括保持方法300的指令的存储机和被配置成执行这些指令的逻辑机。方法300可作为方法200的子例程来运行,或者可独立地运行。
在310,方法300可包括接收多个不同的媒体项中的每一者的置信度评级。置信度评级可接收自语音识别器、语音引擎、或考虑语音识别和搜索识别的集合置信度的模块。可接收位于用户的库中和/或位于媒体服务器上的媒体项的置信度评级。置信度评级可被表达为百分比、排序或其他合适的格式。
在320,方法300可包括确定媒体项的最大置信度评级是否大于阈值。这可包括个体媒体项的置信度评级以及父容器的置信度评级。阈值可以是预定的置信度评级,并且可基于语音识别的置信度和搜索识别的置信度两者。如果多个媒体项和/ 或父容器具有大于阈值的置信度评级,则具有最大置信度评级的媒体项或包括具有最大置信度评级的父容器的多个媒体项可排队等待自动回放。
如果媒体项和/或父容器的最大置信度评级大于阈值,则方法300可行进到 325。在325,方法300可包括确定父容器的置信度评级是否大于或等于个体媒体项的最大置信度评级。通过这种方式,该系统在确定要回放哪个媒体项时可将父容器加权或设定其优先级在各个体媒体项之上。例如,对于音乐文件,优先级可被给予播放列表、随后被给予各艺术家、随后被给予各专辑、随后被给予各个体歌曲。在一些实施例中,用户可被允许设置用户偏好来确定父容器优先级。例如,如果用户通常收听专辑,则将优先级给予具有大于或等于播放列表、艺术家或歌曲的置信度评级的置信度的专辑。可为其中最高置信度评级被给予表示艺术家的父容器的场景设置分开的用户偏好。例如,用户可指示随机地播放来自该艺术家的所有歌曲、依据专辑标题顺序地播放来自该艺术家的所有歌曲、依据发布日期顺序地播放来自该艺术家的所有歌曲等偏好。
如果父容器都不具有大于或等于个体项的最大置信度评级的置信度区间,则方法300可行进到327。在327,方法300可包括当最大置信度评级大于阈值时,自动回放具有最大置信度评级的媒体项。
返回325,如果父容器具有大于或等于个体项的最大置信度评级的置信度区间,则方法300可行进到328。在328,方法300可包括回放父容器中的多个媒体项。如上所述,对于音乐文件,父容器可以是播放列表、专辑、艺术家或其他所分配的父容器。用户偏好可确定父容器应当被随机播放还是按顺序播放。
返回步骤320,如果没有媒体项或父容器具有大于阈值的置信度评级,方法300 可行进到330。在330,方法300可包括向用户指示具有最接近于阈值的置信度评级的多个媒体项。例如,可对媒体项和父容器的所有置信度评级进行排序,并且可向用户呈现媒体项和父容器的具有最高阈值评级的子集。
图7示出其中显示器被配置成指示多个媒体项以供向用户呈现多个媒体项的控制环境的示例。此配置可被称为“消歧模式”。在该示例中,位于用户的库(701) 中的多个媒体项被呈现为在可在媒体服务器(702)上获得的多个媒体项旁边。在其他示例中,位于用户的库中的媒体项可被呈现为与可在媒体服务器上获得的媒体项混合。在一些示例中,诸如当计算机系统18正以离线模式操作时,仅来自用户的库的媒体项可被呈现。可以按置信度评级的次序呈现这些媒体项,或者如果众多媒体项具有相等或类似的置信度评级,则可以按顺序次序(诸如字母次序)呈现这些媒体项。各个体媒体项可被呈现在具有类似置信度评级的父容器旁边。这些项的 VUI标签可被配置成主动地对这些项进行消歧以允许当具有听起来类似的名称的媒体项出现在同一屏幕时,将正确地选择这些媒体项。在一些示例中,唯一标识信息可被附加到正常显示串(例如,歌曲标题)。如果这仍然导致听起来类似的项,则媒体项可被数字地标识。例如,图7示出了作为来自用户的库的选择的媒体项 710、720、730和740以及可从媒体服务器获得的媒体项750、760、770和780。
在一些示例中,具有最大置信度评级的多个媒体项可按非视觉方式呈现。例如,如果用户被参与视频游戏,则媒体项列表可通过扩音器16听觉地呈现,使得不打断对呈现在显示器14上GUI的呈现。
返回图3,在指示了具有最接近于阈值的置信度评级的多个媒体项后,方法300 可行进到340。在340,方法300可包括接收选择具有最接近于阈值的置信度评级的多个媒体项之一来回放的用户输入。用户输入可包括语音输入、姿势输入和/或来自诸如键盘、鼠标、触摸屏、游戏垫或操纵杆控制器之类的操作地耦合到计算机系统的传统用户输入设备的输入。
如图7所示,用户输入可包括语音命令703形式的语音输入。如针对如图1 所示的口述命令30所描述的,语音命令703可包括指引监听子系统以主动监听模式参与的主要命令分量、提供应用专用命令(例如,“播放”)的次要命令分量以及其中用户提供该用户希望计算机系统回放的媒体项(例如,“媒体项730”)的标识信息的第三级分量。在该示例中,监听子系统26被配置成在进入消歧模式之际自动地参与主动监听模式。由此,语音命令703可不必包括主要命令分量。
如参考图1所描述的,用户输入子系统22可能够推断出一个或多个命令分量,并可能够经由视觉子系统24和/或其他用户输入模块接收一个或多个命令分量。例如,视觉子系统24可使用注视跟踪来确定用户正看着哪个呈现在显示器14上的媒体项。用户可只是说“播放”并看着媒体项来开始回放。在一些实施例中,所指示的具有最大置信度评级的媒体项可在用户说“播放”之际自动回放。
在一些示例中,用户可能没有在所呈现的多个媒体项之中标识出期望要回放的媒体项。用户可随后用诸如语音命令(例如,“显示更多示例”)之类的命令或用诸如滑刷姿势之类的姿势来请求附加的或替换的媒体项。随后可向用户指示具有次大置信度评级的多个媒体项。在消歧模式期间,如果用户标识所指示的媒体项反映曲解的命令,则用户可重新输入请求媒体项以供回放的初始用户命令。在一些示例中,如果没有媒体项或父容器接收到大于基线阈值的置信度评级,则计算机系统18可提示用户重新输入初始用户命令。
返回图3,在接收到选择所指示的多个媒体项之一来回放的用户输入后,方法 300可行进到350。在350,方法300可包括回放所选的媒体项,或回放包括在所选的父容器中的多个媒体项。
图4示出用于接收指示具有最大置信度评级的媒体项不是期望回放的媒体项的用户输入并对该用户输入作出响应的示例方法400的流程图。方法400可按存储在存储机上并由逻辑机执行的指令的形式来实现,存储机和逻辑机为例如如图9 所示的存储机920和逻辑机910。例如,计算机系统18可包括保持方法400的指令的存储机和被配置成执行这些指令的逻辑机。方法400可作为方法200和/或300 的子例程来运行,或可独立地运行。
在410,方法400可包括接收指示用户期望回放的媒体项的用户命令的数字表示。如结合图1所描述的,用户命令可包括多个命令分量。用户命令可包括指引计算机系统按主动输入模式参与的主要命令分量。用户命令可随后包括提供例如指示用户回放媒体项的期望的应用专用命令的次要命令分量。用户命令可包括其中用户提供该用户期望计算机系统回放的媒体项的标识信息的第三级分量。用户命令可以是采用语音命令、姿势命令或通过耦合到计算机系统的传统用户输入设备的命令的形式的输入。用户命令可随后被视觉子系统24、监听子系统26和/或用户输入子系统22转换成数字表示。
在420,方法400可包括确定多个不同媒体项中的每一者的置信度评级。如结合图2描述的,置信度评级可指示媒体项在用户命令中被提及的可能性。多个不同的媒体项可包括用户的媒体库中的媒体项,并且可进一步包括可经由媒体服务器访问的媒体项。媒体项的置信度评级可包括将用户的媒体库中的媒体项加权得比可经由媒体服务器访问的媒体项更多。
在430,方法400可包括向用户指示具有最大置信度评级的媒体项被排队等待回放。如图8所示,向用户指示具有最大置信度评级的媒体项被排队等待回放可包括将具有最大置信度评级801的媒体项可视显示在显示器14上。媒体项可用提供该媒体项的唯一标识信息的文本和/或图形(例如,歌曲标题和专辑封面)来表示。附加地或替换地,可通过扩音器16听觉地向用户指示该媒体项。
向用户指示具有最大置信度评级的媒体项被排队等待回放可包括指示该媒体项在该媒体项的自动回放之前的排队区间。例如,GUI可在显示器上滚动该视觉表示。媒体项从屏幕滑出的平滑视觉动画可向用户指示对那个媒体项的回放即将要开始。在一些示例中,计时器或倒计时时钟可指示媒体项的回放即将要开始。通过这种方式,给予用户评估所选的媒体项并根据用户的期望确定计算机系统18是否选择了正确的媒体项的时间区间。
返回图4,在向用户指示具有最大置信度评级的媒体项被排队等待回放后,方法400可行进到440。在440,方法400可包括检测指示不要播放排队等待回放的媒体项的用户输入。这样的用户输入可采取口述命令、姿势命令、通过传统用户输入设备给出的命令的形式和/或其他合适的模态。使用图8的示例,用户可递送指示不要回放排队等待回放的媒体项的语音命令803(“别回放该媒体项”)。
返回图4,如果指示不要回放排队等待回放的媒体项的用户输入没有被检测到,则方法400可行进到445。在445,方法400可包括在排队时间区间后,自动回放具有最大置信度评级的媒体项。
如果检测到指示不要回放排队等待回放的媒体项的用户输入,则方法400可行进到450。在450,方法400可包括取消对具有最大置信度评级的媒体项的回放。回放可在排队时间区间期满之前或媒体项开始回放之后被取消。
在460继续,方法400可包括向用户指示具有次大置信度评级的多个媒体项。在一些实施例中,具有次大置信度评级的多个媒体项不包括具有最大置信度评级的媒体项。通过这种方式,被用户拒绝的媒体项不将被再次指示给用户。在一些实施例中,具有次大置信度评级的多个媒体项不包括媒体项的一个以上的副本。例如,如果媒体项既位于用户的媒体库又可经由媒体服务器访问,则该媒体项的仅一个实例将被指示给用户。
如本文中结合图7讨论的,来自用户的库701的多个媒体项可被视觉地显示在在在媒体服务器702上获得的多个媒体项旁边。在一些示例中,具有次大置信度评级的多个媒体项可按非视觉方式呈现。
返回图4,在指示具有次大置信度评级的多个媒体项后,方法400可行进到450。在450,方法400可包括接收选择多个媒体项之一来回放的用户输入。
如图7所示,用户输入可包括语音命令703形式的语音输入。在该示例中,监听子系统26在进入消歧模式之际以主动监听模式自动参与。由此,语音命令703 可不必包括主要命令分量。
在一个示例中,用户可能没有在所呈现的多个媒体项之中标识出期望回放的媒体项。用户可随后用诸如语音命令(例如,“显示更多示例”)之类的命令或用诸如滑刷之类的姿势命令来请求附加的或替换的媒体项。随后可向用户指示具有次大置信度评级的多个媒体项。
返回图4,在接收到选择所指示的多个媒体项之一以供回放的用户输入后,方法400可行进到460。在460,方法400可包括回放所选的媒体项或包括在父容器中的多个媒体项。接收指示不回放媒体项的用户输入可不限于排队时间区间。例如,在计算机系统已开始回放媒体项后,用户可指示不播放媒体项。在接收用户输入后,计算机系统可向用户指示具有次大置信度区间的多个媒体项。
类似地,指示播放媒体项的用户输入可在该流期间的任何点(包括在回放期间、在排队时间区间、在消歧模式期间等)被接收和解释。
可记录用户指示不播放媒体项的实例。如果用户随后选择另一媒体项供回放,则那个选择可作为因用户而异的语法库中的项标识符或父容器标识符被记录和使用以便在后续用户指令之际改善媒体项或父容器的置信度评级。
转至图5,如本文中所描述的,因用户而异的语法库500可包括位于用户的媒体库510中的媒体项515和父容器512的标识符,并且还可包括位于媒体服务器上的媒体项525和父容器522的标识符。此外,因用户而异的语法库可挖掘来自用户的在线网络历史530、用户的计算机使用历史540、用户的社交图550和/或用户的社交图之外的一个或多个在线社交网络570的数据,以便辨别附加项标识符和父容器标识符,和/或在置信度评级的生成期间给予媒体项和父容器附加的权重。本文中给出的用于媒体项标识符和父容器标识符的(可包括因用户而异的语法库)的示例是作为说明性表示来提供的,并且不应被看作可包括在任何这样的因用户而异的语法库中的术语的穷尽性列表。
因用户而异的语法库可包括与用户的在线网络使用历史530有关的媒体项标识符532和父容器标识符535。例如,用户可能最近浏览了艺术家网站、购买了音乐会的门票、阅读了专辑的评论文章等,这可指示用户对媒体项或父容器的兴趣。因用户而异的语法库可由此挖掘涉及这些媒体项和/或父容器的标识符,在确定置信度评级时给予这些媒体项和/或父容器附加权重。在另一示例中,用户可能已经观看了具有音轨的流传送视频。该信息可被因用户而异的语法库挖掘,使得用户可标识媒体项,而无需提及媒体项或父容器(例如,“播放来自猫之舞视频的歌曲”)。
因用户而异的语法库可包括与用户的在线计算机使用历史542有关的媒体项标识符542和父容器标识符545。例如,在确定置信度评级时,最近被选择供回放的媒体项和/或父容器可被加权得比最近尚未被回放的媒体项和/或父容器更多。在另一示例中,与其歌曲最近已被选择回放的各艺术家有关的或来自这些艺术家的相似流派的艺术家的优先级可被设定得高于不相关的艺术家。在又一示例中,用户可能最近已经观看了具有音轨的电影或者播放了具有音轨的视频游戏。该信息可被因用户而异的语法库挖掘,使得用户可标识媒体项,而无需提及媒体项或父容器(例如,“播放昨晚我观看的电影的片尾曲”)。用户的媒体消费历史可包括诸如音乐、电影、游戏等媒体项,其可被分类为用户的计算机使用历史和/或用户的网络使用历史的一部分。涉及用户的媒体消费历史的媒体项标识符和父容器标识符可包括来自用户的计算机使用历史和用户的网络使用历史的经合并的结果。通过这种方式,因用户而异的语法库可反映最近播放了视频游戏的用户更可能搜索该视频游戏的包括音轨的媒体项,而不管该视频游戏是在本地播放的还是通过网络播放的。
用户的社交图550可包括该用户的与该用户频繁通信和/或使用类似的用于媒体项回放的程序的朋友和亲戚。因用户而异的语法库可包括与属于用户的社交图 555的成员的媒体库有关的媒体项标识符559和父容器标识符557。例如,与该用户频繁在线通信的该用户的朋友可使其媒体库公开,和/或可用于进行数据挖掘。在用户的社交图的一个或多个成员的媒体库中找到的媒体项和父容器可被加权得比没有在用户的社交图的一个或多个成员的媒体库中找到的媒体项和父容器更多。在一些实施例中,用户的社交图的成员可能够共享来自其媒体库的媒体项。在这样的实施例中,来自社交图成员的媒体库的媒体项和父容器可被加权的比仅可通过媒体服务器访问的媒体项和父容器更多。附加权重可被给予被标识为属于用户的社交图的多个成员的媒体库的媒体项和/或父容器。
附加地,因用户而异的语法库可包括与用户的社交图的成员的网络活动有关的媒体项标识符565和父容器标识符562。例如,用户的社交图的成员可能最近浏览了艺术家的网站、购买了音乐会的门票、阅读了专辑的评论文章等,这可指示社交图成员对媒体项或父容器的兴趣。因用户而异的语法库可由此挖掘涉及这些媒体项和/或父容器的标识符,在确定置信度评级时给予这些媒体项和/或父容器附加权重。附加权重可被给予被标识为涉及多个社交图成员的网络活动的媒体项和/或父容器。
因用户而异的语法库可进一步包括与在线社交网络570上趋于在用户的社交图之外的媒体项有关的媒体项标识符575和父容器标识符572。在线社交网络570 可包括用户具有其账户的一个或多个社交网络和/或可包括与媒体服务器520有关的社交网络。因用户而异的语法库可挖掘涉及在线社交网络570上频繁提到的媒体项和父容器的数据,并可进一步包括涉及被频繁通过媒体服务器520下载或播放的媒体项和父容器的数据。通过这种方式,即使用户的社交图的成员还没讨论或回放特定媒体项或父容器,用户仍可标识出在线社区中流行的媒体项,而无需提及该媒体项或父容器(例如,“播放上周以来被最多下载的歌曲”)。此外,在以消歧模式呈现来自媒体服务器的结果时,被频繁讨论或从媒体服务器下载的项可被给予更高的权重。
在某些实施例中,本文所述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言,这样的方法和过程可以实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。
图9示意性地示出计算系统900的非限制性实施例,该计算系统可以进行上述方法和过程中的一个或多个。计算系统900以简化形式示出。计算系统900可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/ 或其他计算设备。
计算系统900包括逻辑机910和存储机920。计算系统900可任选地包括显示子系统930、用户输入子系统940、通信子系统970和/或图9中未示出的其他组件。用户输入子系统940可包括视觉子系统950,并且还可包括监听子系统960。
逻辑机910包括被配置成执行指令的一个或多个物理设备。例如,逻辑机可以被配置成执行指令,所述指令是一个或多个应用、服务、程序、例程、库、对象、部件、数据结构或其他逻辑构造的一部分。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。
逻辑机可以包括被配置成执行软件指令的一个或多个处理器。附加地或替换地,逻辑机可以包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核的或多核的,其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑机的个体组件可任选地分布在两个或更多个分开的设备之间,所述设备可以位于远程以及/或者被配置用于协同处理。逻辑机的各方面可以被在云计算配置中配置的远程可访问的、联网计算设备虚拟化和执行。
存储机920包括被配置成保持可由逻辑机执行的指令以实现此处描述的方法和过程的一个或多个物理设备。当实现这样的方法和过程时,存储机920的状态可以被变化--例如以保持不同的数据。
存储机920可以包括可移动和/或内置设备。存储机920可以包括光学存储器 (例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,RAM、EPROM、 EEPROM等)和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储机920可以包括易失性的、非易失性的、动态的、静态的、读/写的、只读的、随机存取的、依序存取的、位置可定址的、文件可定址的和/或内容可定址的设备。
将会理解,存储机920包括一个或多个物理设备。然而,此处描述的指令的各方面可替代地由未由物理设备持有达有限持续期的通信介质(例如,电磁信号、光学信号等)传播。
逻辑机910和存储机920的各方面可以被一起集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括例如场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统 (SOC)以及复杂可编程逻辑器件(CPLD)。
在包括显示子系统930时,显示子系统930可用于呈现由存储机920所保持的数据的视觉表示。该视觉表示可以采用图形用户界面(GUI)935的形式。由于此处描述的方法和过程改变了存储机所保持的数据、且因子转换了存储机的状态,因此显示子系统930的状态可同样地被转换以视觉地表示底层数据中的变化。显示子系统930可以包括使用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑机910和/或存储机920组合在共享封装中,或者此类显示设备可以是外围显示设备。
当被包括时,输入子系统940可包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中,输入子系统可以包括所选择的自然用户输入(NUI)部件955或与其对接。这样的部件可以是集成式的或者是外设,并且输入动作的转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语言和/或语音识别的话筒;用于机器视觉和/ 或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电场感测部件。
例如,用户输入子系统940和/或计算系统900可进一步包括视觉子系统950。视觉子系统950可包括被配置成获取包括一个或多个人类主体的场景的视频的红外光和深度相机(也被称为红外光相机)。视频可包括适于在此描述的目的的空间分辨率和帧速率的时间解析的图像序列。深度相机和/或协作计算系统(例如,计算系统900)可被配置成处理所获取的视频以标识用户的一个或多个姿态和/或姿势、确定用户的嘴、舌头和/或喉咙的位置并跟踪其移动、以及将这样的姿态和/或姿势解释成被配置成控制计算系统900的各方面的设备命令。视觉子系统950可进一步包括可见光相机(例如,RGB相机)。来自彩色和深度相机的时间解析的图像可被相互配准并可被组合来产生深度解析的彩色视频。相机的性质和数量在与本公开的范围一致的各深度相机中可以是不同的。一般而言,一个或多个相机可被配置成提供视频,通过下游处理来从该视频中获得时间解析的三维深度图序列。如在此使用的,术语“深度图”指代与成像场景的对应区域配准(register)的像素阵列,其中每个像素的深度值指示由那个像素成像的表面的深度。“深度”被定义为与深度相机的光轴平行的坐标,该坐标随着距深度相机的距离的增加而增加。
用户输入子系统940和/或计算系统900可进一步包括监听子系统960。监听子系统960可包括一个或多个话筒。一个或多个话筒可确定来自物理空间中的用户和 /或其他源的指向性和/或非指向性声音。音频数据可被一个或多个话筒记录。可以按任何合适的方式来确定这样的音频数据,而不背离本公开的范围。监听子系统 960和/或用户输入子系统940可被配置成将音频数据转换成该音频数据的数字表示。监听子系统960和/或用户输入子系统940可被配置成向逻辑机910提供音频数据的数字表示,该逻辑机910可进而向语音识别器925提供该音频数据的数字表示,语音识别器925可由因用户而异的语法库927训练以分析音频数据的数字表示,如本文中所描述的。
在包括通信子系统970时,通信子系统970可以被配置成将计算系统900与一个或多个其他计算设备通信耦合。通信子系统970可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络、或者有线或无线局域网或广域网来通信。在一些实施例中,通信子系统可允许计算系统900经由诸如因特网这样的网络980将消息发送至其他设备以及/或者从其他设备接收消息。
通信子系统970可被配置成经由网络980与媒体服务器990通信。媒体服务器 990可包括可用于下载到存储机920的多个媒体文件,和/或可包括在通信子系统 970主动参与同媒体服务器的通信时可被计算系统900访问的多个媒体文件。
将会理解,此处描述的配置和/或方法本质是示例性的,这些具体实施例或示例不应被视为限制性的,因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。
本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims (9)

1.一种计算机,包括:
逻辑机;以及
存储机,所述存储机保持能由所述逻辑机执行以进行以下的指令:
用话筒接收口述命令;
用模数转换电路系统创建口述命令的数字表示;
向用因用户而异的语法库训练的语音识别器提供所述数字表示;
从所述语音识别器接收针对多个不同媒体项中的每一者的置信度评级,所述置信度评级指示所述媒体项在所述口述命令中被提及的可能性;
基于所述因用户而异的语法库挖掘的一个或多个媒体项标识符来加权每个置信度评级,所述因用户而异的语法库包括所述媒体项标识符;
向所述用户指示具有最大置信度评级的媒体项被排队等待在排队时间区间后自动回放;
响应于没有检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入:
仅当所述最大置信度评级大于阈值时,在所述排队时间区间后,自动回放具有所述最大置信度评级的媒体项;
如果没有个体媒体项具有大于所述阈值的置信度评级,则向用户指示具有最接近于所述阈值的置信度评级的多个媒体项;
接收选择具有最接近于所述阈值的置信度评级的所述多个媒体项之一以供回放的用户输入;以及
回放所选的媒体项;
响应于检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入,删除具有所述最大置信度评级的媒体项的播放,并向所述用户指示不包括具有所述最大置信度评级的媒体项的多个具有次大置信度评级的媒体项。
2.如权利要求1所述的计算机,其特征在于,所述因用户而异的语法库包括针对用户的媒体库中的多个媒体项的项标识符。
3.如权利要求2所述的计算机,其特征在于,所述因用户而异的语法库进一步包括针对包括用户的媒体库中的所述多个媒体项的多个父容器的父容器标识符。
4.一种增加在存储在一个或多个计算机上的媒体库中的媒体选择的速度和准确性的方法,所述方法包括:
用话筒接收口述命令;
用模数转换电路系统创建所述口述命令的数字表示;
向用因用户而异的语法库训练的计算机语音识别器提供所述数字表示;
从所述计算机语音识别器接收针对多个不同媒体项中的每一者的置信度评级,所述置信度评级指示所述媒体项在所述口述命令中被提及的可能性;
基于所述因用户而异的语法库挖掘的一个或多个媒体项标识符来加权每个置信度评级,所述因用户而异的语法库包括所述媒体项标识符;
向所述用户指示具有最大置信度评级的媒体项被排队等待回放;
响应于没有检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入:
仅当所述最大置信度评级大于阈值时,在所述排队时间区间后,
自动地开始回放具有所述最大置信度评级的媒体项;
如果没有个体媒体项具有大于所述阈值的置信度评级,则向用户指示具有最接近于所述阈值的置信度评级的多个媒体项;
接收选择具有最接近于所述阈值的置信度评级的所述多个媒体项之一以供回放的用户输入;以及
回放所选的媒体项;
响应于检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入,删除具有所述最大置信度评级的媒体项的播放,并向所述用户指示不包括具有所述最大置信度评级的媒体项的多个具有次大置信度评级的媒体项。
5.如权利要求4所述的方法,其特征在于,所述因用户而异的语法库包括针对用户的媒体库中的多个媒体项的项标识符。
6.如权利要求5所述的方法,其特征在于,所述因用户而异的语法库进一步包括针对包括用户的媒体库中的所述多个媒体项的多个父容器的父容器标识符。
7.如权利要求6所述的方法,其特征在于,所述因用户而异的语法库包括在属于用户的社交图的成员的媒体库中找到的媒体项的项标识符和父容器标识符。
8.如权利要求7所述的方法,其特征在于,所述因用户而异的语法库包括在线社交网络上趋于在所述用户的社交图之外的媒体项的项标识符和父容器标识符。
9.如权利要求7所述的方法,其特征在于,所述因用户而异的语法库包括与用户的计算机使用历史和/或用户的在线网络使用历史有关的媒体项的项标识符和父容器标识符。
CN201480062283.0A 2013-11-13 2014-11-10 使用因用户而异的语法的媒体项选择的方法与设备 Active CN105723325B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/079,409 2013-11-13
US14/079,409 US10430024B2 (en) 2013-11-13 2013-11-13 Media item selection using user-specific grammar
PCT/US2014/064717 WO2015073340A1 (en) 2013-11-13 2014-11-10 Media item selection using user-specific grammar

Publications (2)

Publication Number Publication Date
CN105723325A CN105723325A (zh) 2016-06-29
CN105723325B true CN105723325B (zh) 2019-11-19

Family

ID=52023615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480062283.0A Active CN105723325B (zh) 2013-11-13 2014-11-10 使用因用户而异的语法的媒体项选择的方法与设备

Country Status (5)

Country Link
US (1) US10430024B2 (zh)
EP (1) EP3069227B1 (zh)
KR (1) KR102247642B1 (zh)
CN (1) CN105723325B (zh)
WO (1) WO2015073340A1 (zh)

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9002835B2 (en) * 2013-08-15 2015-04-07 Google Inc. Query response using media consumption history
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10417345B1 (en) * 2014-12-22 2019-09-17 Amazon Technologies, Inc. Providing customer service agents with customer-personalized result of spoken language intent
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9392324B1 (en) 2015-03-30 2016-07-12 Rovi Guides, Inc. Systems and methods for identifying and storing a portion of a media asset
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9990176B1 (en) * 2016-06-28 2018-06-05 Amazon Technologies, Inc. Latency reduction for content playback
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102391298B1 (ko) * 2017-04-24 2022-04-28 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10984799B2 (en) 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US10777203B1 (en) 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10573298B2 (en) * 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11908468B2 (en) * 2020-09-21 2024-02-20 Amazon Technologies, Inc. Dialog management for multiple users

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475366A (en) * 1988-12-05 1995-12-12 Prince Corporation Electrical control system for vehicle options
CN101467142A (zh) * 2006-04-04 2009-06-24 约翰逊控制技术公司 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3590577B2 (ja) * 1999-12-27 2004-11-17 ヴィジョネア株式会社 再生モード切替方法及びマルチメディア情報再生方法及びマルチメディア情報再生装置
US8332895B2 (en) 2002-09-16 2012-12-11 Touchtunes Music Corporation Digital downloading jukebox system with user-tailored music management, communications, and other tools
US8051130B2 (en) * 2006-02-18 2011-11-01 Logan James D Methods and apparatus for creating, combining, distributing and reproducing program content for groups of participating users
US7870142B2 (en) 2006-04-04 2011-01-11 Johnson Controls Technology Company Text to grammar enhancements for media files
DE602006005830D1 (de) * 2006-11-30 2009-04-30 Harman Becker Automotive Sys Interaktives Spracherkennungssystem
US9865240B2 (en) 2006-12-29 2018-01-09 Harman International Industries, Incorporated Command interface for generating personalized audio content
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8478592B2 (en) 2008-07-08 2013-07-02 Nuance Communications, Inc. Enhancing media playback with speech recognition
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US20100175026A1 (en) * 2009-01-05 2010-07-08 Bortner Christopher F System and method for graphical content and media management, sorting, and retrieval
US9015588B2 (en) * 2010-06-10 2015-04-21 At&T Mobility Ii Llc Advanced playback queue management
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US20130007043A1 (en) 2011-06-30 2013-01-03 Phillips Michael E Voice description of time-based media for indexing and searching
US10028028B2 (en) * 2013-09-30 2018-07-17 Sonos, Inc. Accessing last-browsed information in a media playback system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475366A (en) * 1988-12-05 1995-12-12 Prince Corporation Electrical control system for vehicle options
CN101467142A (zh) * 2006-04-04 2009-06-24 约翰逊控制技术公司 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法

Also Published As

Publication number Publication date
EP3069227B1 (en) 2019-12-25
KR102247642B1 (ko) 2021-05-04
US10430024B2 (en) 2019-10-01
WO2015073340A1 (en) 2015-05-21
US20150134334A1 (en) 2015-05-14
CN105723325A (zh) 2016-06-29
KR20160085277A (ko) 2016-07-15
EP3069227A1 (en) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105723325B (zh) 使用因用户而异的语法的媒体项选择的方法与设备
CN108965956B (zh) 提供视频呈现评论的方法、介质、服务器和系统
TWI558186B (zh) 基於環境感測之視訊選擇
CN103369391B (zh) 基于媒体偏好控制电子设备的方法和系统
CN103237248B (zh) 基于媒体反应来控制媒体节目
CN104756514B (zh) 通过社交网络共享电视和视频节目
US9344773B2 (en) Providing recommendations based upon environmental sensing
CN108702539A (zh) 用于媒体搜索和回放的智能自动化助理
CN107079186B (zh) 增强的交互式电视体验
WO2017124116A1 (en) Searching, supplementing and navigating media
US20130073675A1 (en) Managing related digital content
US20160012136A1 (en) Simultaneous Local and Cloud Searching System and Method
KR20180129886A (ko) 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
CN109842453A (zh) 通过观众反馈的广告选择
CN103207675A (zh) 制作媒体节目集锦或扩充媒体节目
US11212594B2 (en) Server device and storage medium for use therewith
CN104756145A (zh) 支持混合广告的和用户拥有的内容呈现
US20150154302A1 (en) Information processing apparatus and recording medium
CN110476162A (zh) 使用导航助记符控制显示的活动信息
CN104823424A (zh) 基于内容访问跟踪推荐内容
CN112104889B (zh) 用于网络平台的虚拟物品展示方法和设备
US20160357498A1 (en) Gamified Adaptive Digital Disc Jockey
US20230044057A1 (en) Method and apparatus for assisting watching video content
CN110507996A (zh) 使游戏网络中的用户体验个性化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant