CN105723325B

CN105723325B - 使用因用户而异的语法的媒体项选择的方法与设备

Info

Publication number: CN105723325B
Application number: CN201480062283.0A
Authority: CN
Inventors: V·萨池达南达姆; J·唐宁; C·奇林乔内; C·帕姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-11-13
Filing date: 2014-11-10
Publication date: 2019-11-19
Anticipated expiration: 2034-11-10
Also published as: EP3069227B1; KR102247642B1; US10430024B2; WO2015073340A1; US20150134334A1; CN105723325A; KR20160085277A; EP3069227A1

Abstract

存储机保持可由逻辑机执行以接收口述命令的数字表示的指令。该数字表示被提供给用因用户而异的语法库训练的语音识别器。逻辑机随后从语音识别器接收针对多个不同的媒体项中的每一者的置信度评级。置信度评级指示该媒体项在口述命令中被提及的可能性。逻辑机随后自动回放具有最大置信度评级的媒体项。

Description

使用因用户而异的语法的媒体项选择的方法与设备

背景

随着数字媒体已变得越来越普遍，用户媒体库已变得越来越难以管理。用户具有含数万或甚至数十万歌曲、电影、游戏等的媒体库并不少见。此外，各种服务向用户提供该库以即时地下载和/或流传送新媒体项。由于有这么多的选项，因此难以提供其中用户能够容易地选择一个或多个媒体项以供回放的有益用户体验。

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。而且，所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。

附图简述

图1示出了根据本公开的一实施例的其中用户用口述命令来控制媒体项回放的环境的非限制性示例。

图2是示出根据本公开文本的一实施例的用于基于用户的口述命令来回放媒体项的方法的流程图。

图3是说明根据本公开的一实施例的用于解释并协调有歧义的结果的方法的流程图。

图4是示出根据本公开的一实施例的用于接收指示具有最大置信度评级的媒体项不是期望回放的媒体项的用户输入并对该用户输入作出响应的方法的流程图。

图5示意性地示出根据本公开的因用户而异的语法库。

图6示意性地示出根据本公开的包括多个媒体项以及父容器的媒体库。

图7示意性地示出根据本公开的一实施例的其中显示器被配置成指示可用于回放的多个媒体项的控制环境。

图8示意性地示出根据本公开的一实施例的其中显示器被配置成显示排队等待回放的媒体项的控制环境。

图9示意性地示出根据本公开的一实施例的计算系统。

详细描述

用户使用话音用户界面(VUI)来查找并回放正确的媒体项的任务可需要在准确性、步骤数和可能被需要作为该界面的一部分的直观且灵活的语音发音之间进行折衷。准确性可通过要求更多的过程步骤或限制可允许的语音输入来改善，但可用于阻止用户与VUI进行交互。

如本文中所描述的，通过使用由因用户而异的语法库来训练的语音识别器，可获得对用户语音的准确识别，而不需要许多步骤，同时允许将直观且灵活的语音发音用作命令。所公开的方法提供对具有最大置信度评级的媒体项的快速回放，同时允许用户在其中没有媒体项具有高于阈值的置信度评级或其中系统选择了不匹配用户期望的媒体项的场景中有用于选择特定媒体项的直观路径。

图1显示了示例控制环境10的各方面。所示出的控制环境是个人住处的起居室或家庭活动室。然而，本文中描述的方法可等同地适用于其他环境，诸如零售店和售货亭、餐馆、信息和公共服务站等。

图1的环境以家庭娱乐系统12为特色。家庭娱乐系统包括大规格显示器14 和扩音器16，两者均被操作地耦合到计算机系统18。在其他实施例(诸如近眼显示器变体)中，显示器可被安装在计算机系统的用户所佩戴的头饰或眼镜中。在其他实施例中，显示器可以是小规格显示器，诸如计算机监视器、膝上型计算机屏幕、平板计算机屏幕、智能电话屏幕等。

在一些实施例中，计算机系统18可以是视频游戏系统。在一些实施例中，计算机系统18可以是被配置成播放音乐和/或视频的多媒体系统。在一些实施例中，计算机系统18可以是用于因特网浏览和生产力应用(例如文字处理和电子表格应用)的通用计算机系统。一般来说，计算机系统18可被配置用于以上目的中的任一者或全部，而不背离本公开的范围。

计算机系统18被配置成经由用户输入子系统22来接受来自一个或多个用户 20的各种形式的用户输入。由此，诸如键盘、鼠标、触摸屏、游戏垫或操纵杆控制器之类的传统用户输入设备可被操作地耦合到计算机系统。不管传统的用户输入模式是否被支持，用户输入子系统22都可被配置成仲裁来自至少一个用户的所谓的自然用户输入(NUI)和/或话音用户输入(VUI)。

为了仲裁来自一个或多个用户的用户输入，用户输入子系统22是计算机系统 18可用的。用户输入子系统被配置成捕捉用户输入的各方面，并将相应的可操作输入提供给计算机系统。结果，用户输入子系统可接收来自外围传感器组件(其可包括视觉子系统24和监听子系统26)的低级输入。在所示的实施例中，视觉系统和监听系统共享公共外壳；在其他实施例中，它们可以是分开的组件。在又一些实施例中，视觉、监听和用户输入子系统可被集成在计算机系统内。计算机系统和视觉系统可经由有线通信链路(如附图中示出的)或按任何其他合适的方式耦合。虽然图1示出了被布置在显示器14顶上的传感器组件，但各种其他布置也被构想。例如，用户输入子系统22可被安装在头戴式显示系统的顶板或一部分上。

在图1所示的示例中，用户20被描绘为按口述命令30的形式提供用户输入。在该示例中，用户正请求计算机系统回放媒体项。如本文中使用的术语“媒体项”可指代数字媒体文件，诸如音频文件、视频文件、或音频/视频混合文件(例如，歌曲、音乐视频、电影、游戏等)。口述命令30可包括多个命令分量。口述命令 30可包括主要命令分量，其指引监听子系统以主动监听模式参与(例如，“计算机系统”)。口述命令30还可包括次要命令分量，其提供应用专用命令(例如“播放”)。在该示例中，次要命令分量指示用户的对回放媒体项的期望。应用专用命令可导致计算机系统18启动应用和/或确定要由计算机系统18及其组件和子系统处理的命令的路径，这可触发一个或多个方法，诸如图2-4所示的示例方法。在用户提供用户希望计算机系统回放的媒体项的标识信息(例如，“攻击和释放”)的情况下，口述命令30可包括第三级分量。

在一些示例中，口述命令30可不包括主要命令分量、次要命令分量和第三级命令分量中的每一者。相反，可推断一个或多个命令分量，或通过其他用户输入模块将其中继到用户输入子系统22。例如，断言监听模式的主要命令可基于用户的姿态、注视等来推断。监听模式还可通过用户对计算系统18的参与或经由正在计算系统18上运行的应用的上下文来推断。附加地或替换地，用户可通过其他用户输入模块，例如通过在键盘上按压按钮，来命令主动监听模式。在本文中并结合图 7进一步讨论其中口述命令30不包括第三级分量的示例。

口述命令30可被包括在监听子系统26中的一个或多个话筒接收到。口述命令 30的数字表示随后可由包括在监听子系统26和/或用户输入子系统22中的模数转换电路系统创建。口述命令30的数字表示可随后被呈现给包括在计算机系统18 中的逻辑机，如本文中并结合图2-4进一步描述的。

计算机系统18可向用户20提供口述命令30已被识别出以及该命令正在被处理的反馈。反馈可包括呈现在显示器14上的视觉反馈和/或通过扩音器16呈现的音频反馈。如果口述命令30或其数字表示不包含足够的信息来提示计算机系统18 的特定响应，则计算机系统18可提示用户20重申口述命令30。

在一些示例中，口述命令30的主要命令分量还可激励视觉子系统24以主动数据捕捉模式参与。视觉子系统24可收集涉及用户20所执行的姿势的数据和/或涉及在用户20正说出补充和完善计算机系统18所执行的语音识别的口述命令30时所执行的面部移动的数据。

口述命令30可在媒体回放程序或应用正主动地运行时被计算机系统18接收并处理，和/或可在另一程序或应用正主动地运行时被计算机系统18接收并处理。例如，用户20可主动地参与正在家庭娱乐系统12上播放的视频游戏，并递送具有通过扩音器16收听音乐的意图的口述命令30，而无需暂停或退出该视频游戏应用。

图2示出用于基于用户的口述命令来回放媒体项的示例方法200的流程图。例如，方法200可用于响应于用户20递送如图1中所描绘的口述命令30而在家庭娱乐系统12上回放媒体项。方法200可以以存储在存储机上并由逻辑机执行的指令的形式来实现，存储机和逻辑机为例如如图9所示的存储机920和逻辑机910。例如，计算机系统18可包括保持方法200的指令的存储机和被配置成执行这些指令的逻辑机。

在210，方法200可包括接收口述命令的数字表示。如参考图1讨论的，口述命令30可由监听子系统26接收，并且口述命令30的数字表示可由监听子系统26 和/或用户输入子系统22创建。

在220，方法200可包括将该数字表示提供给用因用户而异的语法库训练的语音识别器。例如，逻辑机910可将该数字表示提供给语音识别器925，如在本文中进一步描述并且在图9中示出的。语音识别器可用因用户而异的语法库来训练，该因用户而异的语法库可包含与可用于由计算机系统回放的媒体项有关的标识符。

如在本文中进一步描述并在图5中示出的，因用户而异的语法库500可包括与多个媒体项以及包括此多个媒体项的父容器有关的标识符。例如，因用户而异的语法库500可包括用户的媒体库510中的多个媒体项515的项标识符。因用户而异的语法库500可进一步包括多个父容器512的父容器标识符，此多个父容器512包括用户的媒体库510中的多个媒体项515。

在一些实施例中，如图9所示，计算机系统900可包括通信子系统970。通过该通信子系统，计算机系统可经由网络访问媒体服务器520。因用户而异的语法库 500可由此包括可经由媒体服务器520访问的多个媒体项525的项标识符。因用户而异的语法库500可进一步包括多个父容器522的父容器标识符，此多个父容器 522包括可经由媒体服务器520访问的多个媒体项525。媒体服务器520可包括可用于购买和/或可访问以供回放而无需购买的媒体项。媒体服务器520可包括可用于下载的媒体项和/或可经由流传送服务获得以供回放的媒体项。例如，媒体服务器520可包括聚焦于用户区域的流行音乐的在线音乐目录。因用户而异的语法库 500可由此包括可在音乐目录中获得的专辑、艺术家、播放列表、歌曲等的父容器标识符和媒体项标识符。

因用户而异的语法库500还可包含可经由用户的在线网络历史530、用户的计算机使用历史540、用户的社交图550和/或一个或多个在线社交网络570访问的媒体项和/或在其中提到的媒体项的项标识符和父容器标识符。在本文中并结合图5 和6进一步讨论因用户而异的语法库500的分量的更详细讨论。

返回图2，在230，方法200可包括从语音识别器接收多个不同的媒体项中的每一者的置信度评级，置信度评级指示媒体项在口述命令中被提及的可能性。例如，语音识别器可使用串音译来将在用户命令的数字表示中所标识的语音串(例如，音节、单词和短语)与用户的媒体库中的实际媒体项和/或可经由媒体服务器访问的媒体项的项标识符和父容器标识符进行匹配。

如图6所示，在媒体库600(用户的媒体库或可通过媒体服务器访问的媒体库) 中找到的每一媒体项601可包含多个项标识符和父容器标识符。例如，每一媒体项可以是表示不同歌曲的数字音频文件。媒体项601可具有例如表示歌曲标题的第一项标识符601a。多个媒体项可被包括在同一父容器中。例如，主要父容器625可表示音乐艺术家。同属于该音乐艺术家的媒体项可共享主要父容器标识符625a。每一主要父容器625可进一步包括多个次要父容器650。例如，次要父容器可表示父容器625所表示的音乐艺术家的专辑。同属于该专辑的媒体项可由此共享次要父容器标识符650a。父容器中的每一媒体项可包括第二项标识符以进一步区分不同的媒体项。例如，媒体项601可具有第二项标识符601b，从而表示媒体项601是次要父容器650所表示的专辑上的第一歌曲。类似地，媒体项602可被标识成该专辑上的第二歌曲，媒体项603可被标识为第三歌曲等等。其他项标识符可包括：媒体项长度，用户对该媒体项的评级，或使媒体项与用户、与用户的社交网络的成员等相关的其他有形信息(在本文中并结合图5进一步讨论)。

来自多个主要和/或次要父容器的媒体项可被一起编组在第三级父容器(诸如播放列表)中。例如，第三级父容器675包括来自主要父容器625和次要父容器 650的媒体项601和602以及媒体项610和620。由此，媒体项601包括第三级父容器标识符675a。包括第三级父容器的媒体项可包括专用于第三级父容器的项标识符，诸如歌曲在播放列表中的位置、交叉淡入淡出信息等。同一媒体项可出现在众多第三级歌曲容器中。第三级父容器标识符可进一步包括发布年份、记录产生者信息或可由用户或媒体文件生成器施加的其他标识符。

返回图2，语音识别器可使用项标识符和父容器标识符(包括因用户而异的语法库)来确定多个媒体项中的每一者的置信度评级。例如，语音识别器可使用串音译来相对于用户的库中的媒体项和/或可经由媒体服务器获得的媒体项驱动“模糊匹配”。“模糊匹配”可用于将在用户命令的数字表示中所标识的语音串与因用户而异的语法库中的项标识符和父容器标识符进行匹配。在一些实施例中，在相对于用户的媒体库的模糊匹配结果被与相对于可经由媒体服务器获得的媒体项的模糊匹配结果合并的情况下，用户的集合中的媒体项相比于可经由媒体服务器获得的媒体项可被更重的加权。

在240继续，方法200可包括自动地回放具有最大置信度评级的媒体项。通过这种方式，用户可说出与“播放<歌曲名称>”一样简单的话语，并可被直接带入回放针对来自用户的音乐库的项的最佳匹配媒体项和/或针对来自媒体服务器的项的最佳匹配媒体项。

在许多场景中，用户可具有其库中具有相似或相同项标识符的多个媒体项以及其库中具有相似或相同父容器标识符的多个父容器。此外，因用户而异的语法库可包括用于媒体项标识符和父容器标识符两者的相似或相同的术语。

图3示出用于解释和协调有歧义的结果的示例方法300的流程图。例如，方法 300可用于协调来自实现方法200的逻辑机的有歧义的结果，所述方法如在本文中并结合图2描述的。方法300可以以存储在存储机上并由逻辑机执行的指令的形式来实现，例如如图9所示的存储机920和逻辑机910。例如，计算机系统18可包括保持方法300的指令的存储机和被配置成执行这些指令的逻辑机。方法300可作为方法200的子例程来运行，或者可独立地运行。

在310，方法300可包括接收多个不同的媒体项中的每一者的置信度评级。置信度评级可接收自语音识别器、语音引擎、或考虑语音识别和搜索识别的集合置信度的模块。可接收位于用户的库中和/或位于媒体服务器上的媒体项的置信度评级。置信度评级可被表达为百分比、排序或其他合适的格式。

在320，方法300可包括确定媒体项的最大置信度评级是否大于阈值。这可包括个体媒体项的置信度评级以及父容器的置信度评级。阈值可以是预定的置信度评级，并且可基于语音识别的置信度和搜索识别的置信度两者。如果多个媒体项和/ 或父容器具有大于阈值的置信度评级，则具有最大置信度评级的媒体项或包括具有最大置信度评级的父容器的多个媒体项可排队等待自动回放。

如果媒体项和/或父容器的最大置信度评级大于阈值，则方法300可行进到 325。在325，方法300可包括确定父容器的置信度评级是否大于或等于个体媒体项的最大置信度评级。通过这种方式，该系统在确定要回放哪个媒体项时可将父容器加权或设定其优先级在各个体媒体项之上。例如，对于音乐文件，优先级可被给予播放列表、随后被给予各艺术家、随后被给予各专辑、随后被给予各个体歌曲。在一些实施例中，用户可被允许设置用户偏好来确定父容器优先级。例如，如果用户通常收听专辑，则将优先级给予具有大于或等于播放列表、艺术家或歌曲的置信度评级的置信度的专辑。可为其中最高置信度评级被给予表示艺术家的父容器的场景设置分开的用户偏好。例如，用户可指示随机地播放来自该艺术家的所有歌曲、依据专辑标题顺序地播放来自该艺术家的所有歌曲、依据发布日期顺序地播放来自该艺术家的所有歌曲等偏好。

如果父容器都不具有大于或等于个体项的最大置信度评级的置信度区间，则方法300可行进到327。在327，方法300可包括当最大置信度评级大于阈值时，自动回放具有最大置信度评级的媒体项。

返回325，如果父容器具有大于或等于个体项的最大置信度评级的置信度区间，则方法300可行进到328。在328，方法300可包括回放父容器中的多个媒体项。如上所述，对于音乐文件，父容器可以是播放列表、专辑、艺术家或其他所分配的父容器。用户偏好可确定父容器应当被随机播放还是按顺序播放。

返回步骤320，如果没有媒体项或父容器具有大于阈值的置信度评级，方法300 可行进到330。在330，方法300可包括向用户指示具有最接近于阈值的置信度评级的多个媒体项。例如，可对媒体项和父容器的所有置信度评级进行排序，并且可向用户呈现媒体项和父容器的具有最高阈值评级的子集。

图7示出其中显示器被配置成指示多个媒体项以供向用户呈现多个媒体项的控制环境的示例。此配置可被称为“消歧模式”。在该示例中，位于用户的库(701) 中的多个媒体项被呈现为在可在媒体服务器(702)上获得的多个媒体项旁边。在其他示例中，位于用户的库中的媒体项可被呈现为与可在媒体服务器上获得的媒体项混合。在一些示例中，诸如当计算机系统18正以离线模式操作时，仅来自用户的库的媒体项可被呈现。可以按置信度评级的次序呈现这些媒体项，或者如果众多媒体项具有相等或类似的置信度评级，则可以按顺序次序(诸如字母次序)呈现这些媒体项。各个体媒体项可被呈现在具有类似置信度评级的父容器旁边。这些项的 VUI标签可被配置成主动地对这些项进行消歧以允许当具有听起来类似的名称的媒体项出现在同一屏幕时，将正确地选择这些媒体项。在一些示例中，唯一标识信息可被附加到正常显示串(例如，歌曲标题)。如果这仍然导致听起来类似的项，则媒体项可被数字地标识。例如，图7示出了作为来自用户的库的选择的媒体项 710、720、730和740以及可从媒体服务器获得的媒体项750、760、770和780。

在一些示例中，具有最大置信度评级的多个媒体项可按非视觉方式呈现。例如，如果用户被参与视频游戏，则媒体项列表可通过扩音器16听觉地呈现，使得不打断对呈现在显示器14上GUI的呈现。

返回图3，在指示了具有最接近于阈值的置信度评级的多个媒体项后，方法300 可行进到340。在340，方法300可包括接收选择具有最接近于阈值的置信度评级的多个媒体项之一来回放的用户输入。用户输入可包括语音输入、姿势输入和/或来自诸如键盘、鼠标、触摸屏、游戏垫或操纵杆控制器之类的操作地耦合到计算机系统的传统用户输入设备的输入。

如图7所示，用户输入可包括语音命令703形式的语音输入。如针对如图1 所示的口述命令30所描述的，语音命令703可包括指引监听子系统以主动监听模式参与的主要命令分量、提供应用专用命令(例如，“播放”)的次要命令分量以及其中用户提供该用户希望计算机系统回放的媒体项(例如，“媒体项730”)的标识信息的第三级分量。在该示例中，监听子系统26被配置成在进入消歧模式之际自动地参与主动监听模式。由此，语音命令703可不必包括主要命令分量。

如参考图1所描述的，用户输入子系统22可能够推断出一个或多个命令分量，并可能够经由视觉子系统24和/或其他用户输入模块接收一个或多个命令分量。例如，视觉子系统24可使用注视跟踪来确定用户正看着哪个呈现在显示器14上的媒体项。用户可只是说“播放”并看着媒体项来开始回放。在一些实施例中，所指示的具有最大置信度评级的媒体项可在用户说“播放”之际自动回放。

在一些示例中，用户可能没有在所呈现的多个媒体项之中标识出期望要回放的媒体项。用户可随后用诸如语音命令(例如，“显示更多示例”)之类的命令或用诸如滑刷姿势之类的姿势来请求附加的或替换的媒体项。随后可向用户指示具有次大置信度评级的多个媒体项。在消歧模式期间，如果用户标识所指示的媒体项反映曲解的命令，则用户可重新输入请求媒体项以供回放的初始用户命令。在一些示例中，如果没有媒体项或父容器接收到大于基线阈值的置信度评级，则计算机系统18可提示用户重新输入初始用户命令。

返回图3，在接收到选择所指示的多个媒体项之一来回放的用户输入后，方法 300可行进到350。在350，方法300可包括回放所选的媒体项，或回放包括在所选的父容器中的多个媒体项。

图4示出用于接收指示具有最大置信度评级的媒体项不是期望回放的媒体项的用户输入并对该用户输入作出响应的示例方法400的流程图。方法400可按存储在存储机上并由逻辑机执行的指令的形式来实现，存储机和逻辑机为例如如图9 所示的存储机920和逻辑机910。例如，计算机系统18可包括保持方法400的指令的存储机和被配置成执行这些指令的逻辑机。方法400可作为方法200和/或300 的子例程来运行，或可独立地运行。

在410，方法400可包括接收指示用户期望回放的媒体项的用户命令的数字表示。如结合图1所描述的，用户命令可包括多个命令分量。用户命令可包括指引计算机系统按主动输入模式参与的主要命令分量。用户命令可随后包括提供例如指示用户回放媒体项的期望的应用专用命令的次要命令分量。用户命令可包括其中用户提供该用户期望计算机系统回放的媒体项的标识信息的第三级分量。用户命令可以是采用语音命令、姿势命令或通过耦合到计算机系统的传统用户输入设备的命令的形式的输入。用户命令可随后被视觉子系统24、监听子系统26和/或用户输入子系统22转换成数字表示。

在420，方法400可包括确定多个不同媒体项中的每一者的置信度评级。如结合图2描述的，置信度评级可指示媒体项在用户命令中被提及的可能性。多个不同的媒体项可包括用户的媒体库中的媒体项，并且可进一步包括可经由媒体服务器访问的媒体项。媒体项的置信度评级可包括将用户的媒体库中的媒体项加权得比可经由媒体服务器访问的媒体项更多。

在430，方法400可包括向用户指示具有最大置信度评级的媒体项被排队等待回放。如图8所示，向用户指示具有最大置信度评级的媒体项被排队等待回放可包括将具有最大置信度评级801的媒体项可视显示在显示器14上。媒体项可用提供该媒体项的唯一标识信息的文本和/或图形(例如，歌曲标题和专辑封面)来表示。附加地或替换地，可通过扩音器16听觉地向用户指示该媒体项。

向用户指示具有最大置信度评级的媒体项被排队等待回放可包括指示该媒体项在该媒体项的自动回放之前的排队区间。例如，GUI可在显示器上滚动该视觉表示。媒体项从屏幕滑出的平滑视觉动画可向用户指示对那个媒体项的回放即将要开始。在一些示例中，计时器或倒计时时钟可指示媒体项的回放即将要开始。通过这种方式，给予用户评估所选的媒体项并根据用户的期望确定计算机系统18是否选择了正确的媒体项的时间区间。

返回图4，在向用户指示具有最大置信度评级的媒体项被排队等待回放后，方法400可行进到440。在440，方法400可包括检测指示不要播放排队等待回放的媒体项的用户输入。这样的用户输入可采取口述命令、姿势命令、通过传统用户输入设备给出的命令的形式和/或其他合适的模态。使用图8的示例，用户可递送指示不要回放排队等待回放的媒体项的语音命令803(“别回放该媒体项”)。

返回图4，如果指示不要回放排队等待回放的媒体项的用户输入没有被检测到，则方法400可行进到445。在445，方法400可包括在排队时间区间后，自动回放具有最大置信度评级的媒体项。

如果检测到指示不要回放排队等待回放的媒体项的用户输入，则方法400可行进到450。在450，方法400可包括取消对具有最大置信度评级的媒体项的回放。回放可在排队时间区间期满之前或媒体项开始回放之后被取消。

在460继续，方法400可包括向用户指示具有次大置信度评级的多个媒体项。在一些实施例中，具有次大置信度评级的多个媒体项不包括具有最大置信度评级的媒体项。通过这种方式，被用户拒绝的媒体项不将被再次指示给用户。在一些实施例中，具有次大置信度评级的多个媒体项不包括媒体项的一个以上的副本。例如，如果媒体项既位于用户的媒体库又可经由媒体服务器访问，则该媒体项的仅一个实例将被指示给用户。

如本文中结合图7讨论的，来自用户的库701的多个媒体项可被视觉地显示在在在媒体服务器702上获得的多个媒体项旁边。在一些示例中，具有次大置信度评级的多个媒体项可按非视觉方式呈现。

返回图4，在指示具有次大置信度评级的多个媒体项后，方法400可行进到450。在450，方法400可包括接收选择多个媒体项之一来回放的用户输入。

如图7所示，用户输入可包括语音命令703形式的语音输入。在该示例中，监听子系统26在进入消歧模式之际以主动监听模式自动参与。由此，语音命令703 可不必包括主要命令分量。

在一个示例中，用户可能没有在所呈现的多个媒体项之中标识出期望回放的媒体项。用户可随后用诸如语音命令(例如，“显示更多示例”)之类的命令或用诸如滑刷之类的姿势命令来请求附加的或替换的媒体项。随后可向用户指示具有次大置信度评级的多个媒体项。

返回图4，在接收到选择所指示的多个媒体项之一以供回放的用户输入后，方法400可行进到460。在460，方法400可包括回放所选的媒体项或包括在父容器中的多个媒体项。接收指示不回放媒体项的用户输入可不限于排队时间区间。例如，在计算机系统已开始回放媒体项后，用户可指示不播放媒体项。在接收用户输入后，计算机系统可向用户指示具有次大置信度区间的多个媒体项。

类似地，指示播放媒体项的用户输入可在该流期间的任何点(包括在回放期间、在排队时间区间、在消歧模式期间等)被接收和解释。

可记录用户指示不播放媒体项的实例。如果用户随后选择另一媒体项供回放，则那个选择可作为因用户而异的语法库中的项标识符或父容器标识符被记录和使用以便在后续用户指令之际改善媒体项或父容器的置信度评级。

转至图5，如本文中所描述的，因用户而异的语法库500可包括位于用户的媒体库510中的媒体项515和父容器512的标识符，并且还可包括位于媒体服务器上的媒体项525和父容器522的标识符。此外，因用户而异的语法库可挖掘来自用户的在线网络历史530、用户的计算机使用历史540、用户的社交图550和/或用户的社交图之外的一个或多个在线社交网络570的数据，以便辨别附加项标识符和父容器标识符，和/或在置信度评级的生成期间给予媒体项和父容器附加的权重。本文中给出的用于媒体项标识符和父容器标识符的(可包括因用户而异的语法库)的示例是作为说明性表示来提供的，并且不应被看作可包括在任何这样的因用户而异的语法库中的术语的穷尽性列表。

因用户而异的语法库可包括与用户的在线网络使用历史530有关的媒体项标识符532和父容器标识符535。例如，用户可能最近浏览了艺术家网站、购买了音乐会的门票、阅读了专辑的评论文章等，这可指示用户对媒体项或父容器的兴趣。因用户而异的语法库可由此挖掘涉及这些媒体项和/或父容器的标识符，在确定置信度评级时给予这些媒体项和/或父容器附加权重。在另一示例中，用户可能已经观看了具有音轨的流传送视频。该信息可被因用户而异的语法库挖掘，使得用户可标识媒体项，而无需提及媒体项或父容器(例如，“播放来自猫之舞视频的歌曲”)。

因用户而异的语法库可包括与用户的在线计算机使用历史542有关的媒体项标识符542和父容器标识符545。例如，在确定置信度评级时，最近被选择供回放的媒体项和/或父容器可被加权得比最近尚未被回放的媒体项和/或父容器更多。在另一示例中，与其歌曲最近已被选择回放的各艺术家有关的或来自这些艺术家的相似流派的艺术家的优先级可被设定得高于不相关的艺术家。在又一示例中，用户可能最近已经观看了具有音轨的电影或者播放了具有音轨的视频游戏。该信息可被因用户而异的语法库挖掘，使得用户可标识媒体项，而无需提及媒体项或父容器(例如，“播放昨晚我观看的电影的片尾曲”)。用户的媒体消费历史可包括诸如音乐、电影、游戏等媒体项，其可被分类为用户的计算机使用历史和/或用户的网络使用历史的一部分。涉及用户的媒体消费历史的媒体项标识符和父容器标识符可包括来自用户的计算机使用历史和用户的网络使用历史的经合并的结果。通过这种方式，因用户而异的语法库可反映最近播放了视频游戏的用户更可能搜索该视频游戏的包括音轨的媒体项，而不管该视频游戏是在本地播放的还是通过网络播放的。

用户的社交图550可包括该用户的与该用户频繁通信和/或使用类似的用于媒体项回放的程序的朋友和亲戚。因用户而异的语法库可包括与属于用户的社交图 555的成员的媒体库有关的媒体项标识符559和父容器标识符557。例如，与该用户频繁在线通信的该用户的朋友可使其媒体库公开，和/或可用于进行数据挖掘。在用户的社交图的一个或多个成员的媒体库中找到的媒体项和父容器可被加权得比没有在用户的社交图的一个或多个成员的媒体库中找到的媒体项和父容器更多。在一些实施例中，用户的社交图的成员可能够共享来自其媒体库的媒体项。在这样的实施例中，来自社交图成员的媒体库的媒体项和父容器可被加权的比仅可通过媒体服务器访问的媒体项和父容器更多。附加权重可被给予被标识为属于用户的社交图的多个成员的媒体库的媒体项和/或父容器。

附加地，因用户而异的语法库可包括与用户的社交图的成员的网络活动有关的媒体项标识符565和父容器标识符562。例如，用户的社交图的成员可能最近浏览了艺术家的网站、购买了音乐会的门票、阅读了专辑的评论文章等，这可指示社交图成员对媒体项或父容器的兴趣。因用户而异的语法库可由此挖掘涉及这些媒体项和/或父容器的标识符，在确定置信度评级时给予这些媒体项和/或父容器附加权重。附加权重可被给予被标识为涉及多个社交图成员的网络活动的媒体项和/或父容器。

因用户而异的语法库可进一步包括与在线社交网络570上趋于在用户的社交图之外的媒体项有关的媒体项标识符575和父容器标识符572。在线社交网络570 可包括用户具有其账户的一个或多个社交网络和/或可包括与媒体服务器520有关的社交网络。因用户而异的语法库可挖掘涉及在线社交网络570上频繁提到的媒体项和父容器的数据，并可进一步包括涉及被频繁通过媒体服务器520下载或播放的媒体项和父容器的数据。通过这种方式，即使用户的社交图的成员还没讨论或回放特定媒体项或父容器，用户仍可标识出在线社区中流行的媒体项，而无需提及该媒体项或父容器(例如，“播放上周以来被最多下载的歌曲”)。此外，在以消歧模式呈现来自媒体服务器的结果时，被频繁讨论或从媒体服务器下载的项可被给予更高的权重。

在某些实施例中，本文所述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，这样的方法和过程可以实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。

图9示意性地示出计算系统900的非限制性实施例，该计算系统可以进行上述方法和过程中的一个或多个。计算系统900以简化形式示出。计算系统900可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/ 或其他计算设备。

计算系统900包括逻辑机910和存储机920。计算系统900可任选地包括显示子系统930、用户输入子系统940、通信子系统970和/或图9中未示出的其他组件。用户输入子系统940可包括视觉子系统950，并且还可包括监听子系统960。

逻辑机910包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可以被配置成执行指令，所述指令是一个或多个应用、服务、程序、例程、库、对象、部件、数据结构或其他逻辑构造的一部分。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑机可以包括被配置成执行软件指令的一个或多个处理器。附加地或替换地，逻辑机可以包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核的或多核的，其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑机的个体组件可任选地分布在两个或更多个分开的设备之间，所述设备可以位于远程以及/或者被配置用于协同处理。逻辑机的各方面可以被在云计算配置中配置的远程可访问的、联网计算设备虚拟化和执行。

存储机920包括被配置成保持可由逻辑机执行的指令以实现此处描述的方法和过程的一个或多个物理设备。当实现这样的方法和过程时，存储机920的状态可以被变化--例如以保持不同的数据。

存储机920可以包括可移动和/或内置设备。存储机920可以包括光学存储器 (例如，CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如，RAM、EPROM、 EEPROM等)和/或磁性存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储机920可以包括易失性的、非易失性的、动态的、静态的、读/写的、只读的、随机存取的、依序存取的、位置可定址的、文件可定址的和/或内容可定址的设备。

将会理解，存储机920包括一个或多个物理设备。然而，此处描述的指令的各方面可替代地由未由物理设备持有达有限持续期的通信介质(例如，电磁信号、光学信号等)传播。

逻辑机910和存储机920的各方面可以被一起集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括例如场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统 (SOC)以及复杂可编程逻辑器件(CPLD)。

在包括显示子系统930时，显示子系统930可用于呈现由存储机920所保持的数据的视觉表示。该视觉表示可以采用图形用户界面(GUI)935的形式。由于此处描述的方法和过程改变了存储机所保持的数据、且因子转换了存储机的状态，因此显示子系统930的状态可同样地被转换以视觉地表示底层数据中的变化。显示子系统930可以包括使用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑机910和/或存储机920组合在共享封装中，或者此类显示设备可以是外围显示设备。

当被包括时，输入子系统940可包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中，输入子系统可以包括所选择的自然用户输入(NUI)部件955或与其对接。这样的部件可以是集成式的或者是外设，并且输入动作的转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/ 或姿势识别的红外、色彩、立体显示和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。

例如，用户输入子系统940和/或计算系统900可进一步包括视觉子系统950。视觉子系统950可包括被配置成获取包括一个或多个人类主体的场景的视频的红外光和深度相机(也被称为红外光相机)。视频可包括适于在此描述的目的的空间分辨率和帧速率的时间解析的图像序列。深度相机和/或协作计算系统(例如，计算系统900)可被配置成处理所获取的视频以标识用户的一个或多个姿态和/或姿势、确定用户的嘴、舌头和/或喉咙的位置并跟踪其移动、以及将这样的姿态和/或姿势解释成被配置成控制计算系统900的各方面的设备命令。视觉子系统950可进一步包括可见光相机(例如，RGB相机)。来自彩色和深度相机的时间解析的图像可被相互配准并可被组合来产生深度解析的彩色视频。相机的性质和数量在与本公开的范围一致的各深度相机中可以是不同的。一般而言，一个或多个相机可被配置成提供视频，通过下游处理来从该视频中获得时间解析的三维深度图序列。如在此使用的，术语“深度图”指代与成像场景的对应区域配准(register)的像素阵列，其中每个像素的深度值指示由那个像素成像的表面的深度。“深度”被定义为与深度相机的光轴平行的坐标，该坐标随着距深度相机的距离的增加而增加。

用户输入子系统940和/或计算系统900可进一步包括监听子系统960。监听子系统960可包括一个或多个话筒。一个或多个话筒可确定来自物理空间中的用户和 /或其他源的指向性和/或非指向性声音。音频数据可被一个或多个话筒记录。可以按任何合适的方式来确定这样的音频数据，而不背离本公开的范围。监听子系统 960和/或用户输入子系统940可被配置成将音频数据转换成该音频数据的数字表示。监听子系统960和/或用户输入子系统940可被配置成向逻辑机910提供音频数据的数字表示，该逻辑机910可进而向语音识别器925提供该音频数据的数字表示，语音识别器925可由因用户而异的语法库927训练以分析音频数据的数字表示，如本文中所描述的。

在包括通信子系统970时，通信子系统970可以被配置成将计算系统900与一个或多个其他计算设备通信耦合。通信子系统970可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络、或者有线或无线局域网或广域网来通信。在一些实施例中，通信子系统可允许计算系统900经由诸如因特网这样的网络980将消息发送至其他设备以及/或者从其他设备接收消息。

通信子系统970可被配置成经由网络980与媒体服务器990通信。媒体服务器 990可包括可用于下载到存储机920的多个媒体文件，和/或可包括在通信子系统 970主动参与同媒体服务器的通信时可被计算系统900访问的多个媒体文件。

将会理解，此处描述的配置和/或方法本质是示例性的，这些具体实施例或示例不应被视为限制性的，因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims

1.一种计算机，包括：

逻辑机；以及

存储机，所述存储机保持能由所述逻辑机执行以进行以下的指令：

用话筒接收口述命令；

用模数转换电路系统创建口述命令的数字表示；

向用因用户而异的语法库训练的语音识别器提供所述数字表示；

从所述语音识别器接收针对多个不同媒体项中的每一者的置信度评级，所述置信度评级指示所述媒体项在所述口述命令中被提及的可能性；

基于所述因用户而异的语法库挖掘的一个或多个媒体项标识符来加权每个置信度评级，所述因用户而异的语法库包括所述媒体项标识符；

向所述用户指示具有最大置信度评级的媒体项被排队等待在排队时间区间后自动回放；

响应于没有检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入：

仅当所述最大置信度评级大于阈值时，在所述排队时间区间后，自动回放具有所述最大置信度评级的媒体项；

如果没有个体媒体项具有大于所述阈值的置信度评级，则向用户指示具有最接近于所述阈值的置信度评级的多个媒体项；

接收选择具有最接近于所述阈值的置信度评级的所述多个媒体项之一以供回放的用户输入；以及

回放所选的媒体项；

响应于检测到指示不要在所述排队时间区间内播放具有所述最大置信度评级的媒体项的用户输入，删除具有所述最大置信度评级的媒体项的播放，并向所述用户指示不包括具有所述最大置信度评级的媒体项的多个具有次大置信度评级的媒体项。

2.如权利要求1所述的计算机，其特征在于，所述因用户而异的语法库包括针对用户的媒体库中的多个媒体项的项标识符。

3.如权利要求2所述的计算机，其特征在于，所述因用户而异的语法库进一步包括针对包括用户的媒体库中的所述多个媒体项的多个父容器的父容器标识符。

4.一种增加在存储在一个或多个计算机上的媒体库中的媒体选择的速度和准确性的方法，所述方法包括：

用话筒接收口述命令；

用模数转换电路系统创建所述口述命令的数字表示；

向用因用户而异的语法库训练的计算机语音识别器提供所述数字表示；

从所述计算机语音识别器接收针对多个不同媒体项中的每一者的置信度评级，所述置信度评级指示所述媒体项在所述口述命令中被提及的可能性；

向所述用户指示具有最大置信度评级的媒体项被排队等待回放；

仅当所述最大置信度评级大于阈值时，在所述排队时间区间后，

自动地开始回放具有所述最大置信度评级的媒体项；

回放所选的媒体项；

5.如权利要求4所述的方法，其特征在于，所述因用户而异的语法库包括针对用户的媒体库中的多个媒体项的项标识符。

6.如权利要求5所述的方法，其特征在于，所述因用户而异的语法库进一步包括针对包括用户的媒体库中的所述多个媒体项的多个父容器的父容器标识符。

7.如权利要求6所述的方法，其特征在于，所述因用户而异的语法库包括在属于用户的社交图的成员的媒体库中找到的媒体项的项标识符和父容器标识符。

8.如权利要求7所述的方法，其特征在于，所述因用户而异的语法库包括在线社交网络上趋于在所述用户的社交图之外的媒体项的项标识符和父容器标识符。

9.如权利要求7所述的方法，其特征在于，所述因用户而异的语法库包括与用户的计算机使用历史和/或用户的在线网络使用历史有关的媒体项的项标识符和父容器标识符。