CN106233384A

CN106233384A - 对话检测

Info

Publication number: CN106233384A
Application number: CN201580020195.9A
Authority: CN
Inventors: A·C·汤姆林; J·保罗维奇; E·M·圭布勒; J·斯科特; C·布朗; J·W·普鲁姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-04-17
Filing date: 2015-04-07
Publication date: 2016-12-14
Anticipated expiration: 2035-04-07
Also published as: RU2016140453A; KR102357633B1; CA2943446C; RU2685970C2; BR112016023776A2; US20150302867A1; JP6612250B2; WO2015160561A1; EP3132444B1; MX366249B; RU2016140453A3; JP2017516196A; AU2015248061A1; CN106233384B; MX2016013630A; US10529359B2; CA2943446A1; KR20160145719A; EP3132444A1; AU2015248061B2

Abstract

公开了涉及检测在计算设备上呈现内容期间的对话，并且响应于检测到所述对话采取一个或多个动作的各实施例。在一个示例中，音频数据流被从一个或多个传感器接收，基于该音频数据流检测第一用户和第二用户之间的对话，以及响应于检测到该对话通过该计算设备修改数字内容项的呈现。

Description

对话检测

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。而且，所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。

附图简述

图1示出了经由头戴式显示器(HMD)设备的数字内容项的呈现的示例。

图2示出了与另一人的对话的图1的HMD设备的佩戴者。

图3-5示出了响应于检测到佩戴者和另一人的对话可对图1的数字内容呈现做出的示例修改。

图6示出了数字内容项的另一示例呈现。

图7示出了与另一人进行对话的图6的用户。

图8示出了响应于检测到用户和另一人之间的对话可对图6的数字内容呈现做出的示例修改。

图9示出了对话检测处理流水线的示例。

图10示出了描绘用于检测对话的方法的示例的流程图。

图11示出了示例HMD设备。

图12示出示例计算系统。

详细描述

计算设备可被用来呈现各种形式的数字内容。在一些情况下，计算设备可按照令人沉浸并全神贯注的方式提供内容，诸如通过显示三维(3D)图像和/或全息图像。而且，这样的视觉内容可与音频内容的呈现相组合以提供更令人沉浸的体验。

随着计算设备变得更加便携，数字内容呈现可在不同于传统娱乐设定的设定中被消费。因此，在这种计算设备的用户可以在内容呈现期间参与与其他人的对话。取决于呈现的特性，呈现对于对话而言可能令人分心。

从而，本文公开了涉及自动检测用户之间的对话，并且在对话发生同时改变数字内容的呈现例如以降低对话期间呈现的可注意程度的实施例。通过检测对话，而不是仅检测人类语音的存在，此类计算设备可确定计算设备的用户至少部分从被显示的内容脱离(disengage)以便参与与另一人的对话的可能意图。而且，对内容的呈现的适当修改可被执行以促成用户从该内容的脱离。

可以按任何适当方式检测对话。例如，可通过检测第一用户说出人类语言的一片段(例如，至少几个词语)，随后第二用户说出人类语言的一片段，随后第一用户说出人类语言的一片段来检测用户之间的对话。换言之，对话可作为在不同源位置间交替的一系列人类语言片段而被检测到。

图1-5示出了物理环境100的示例场景，其中佩戴者102正与头戴式显示器(HMD)设备104形式的计算设备交互。HMD设备104可被配置成向佩戴者呈现一个或多个数字内容项，并且响应于检测到佩戴者和另一人之间的对话而修改该呈现。HMD设备104可使用例如从一个或多个传感器接收的音频和/或视频数据来检测对话，如下面更详细地讨论的。

在图1中，从佩戴者102的视角，全息对象106形式的多个数字内容项被描绘成被显示在HMD设备104的透视显示器108上。多个全息对象106可表现为围绕佩戴者102的虚拟对象，就像浮动在物理环境100中一样。在另一示例中，全息对象还可表现得就像悬挂在墙壁上或按其它方式与物理环境中的其它表面相关联。

在所描绘的实施例中，全息对象被显示为可被用来显示各种内容的“板(slate)”。此类板可包括任何适当的视频、图像或其它视觉内容。在一个示例中，第一板可呈现电子邮件门户，第二板可呈现社交网络门户，而第三板可呈现新闻订阅源。在另一示例中，不同板可呈现不同的电视频道，诸如不同的体育赛事。在又一示例中，一个板可呈现视频游戏而其它板可呈现该视频游戏的陪伴应用，诸如聊天室、社交联网应用、游戏统计和成就跟踪应用、或另一适当应用。在一些情况下，单个数字内容项可经由透视显示器被显示。要理解，图1的板是出于示例目的被描绘的，且全息内容可按任何其它适当方式被显示。

HMD设备104还可被配置成单独地或与视频内容相组合地向佩戴者102输出音频内容。例如，HMD设备104可包括用于播放音频内容的内置扬声器或耳机。

要理解，HMD设备可被配置成向佩戴者呈现任何适当类型和数量的数字内容项。可被呈现的数字内容的非限制性示例包括电影、电视节目、视频游戏、应用、歌曲、无线电广播、播客、网站、文本文档、图像、照片等。

在图2中，在佩戴者102正接洽经由透视显示器108显示的多个全息对象106时，另一人110进入物理环境100。在看到该另一人110之后，佩戴者102发起与该另一人的对话112。对话包括佩戴者和该另一人中的每一者向彼此说出人类语言的片段。从而，HMD设备可被配置成通过检测佩戴者在该另一人说话之前和之后均说话来检测对话。类似地，HMD设备可被配置成通过检测该另一人在该HMD设备的佩戴者说话之前和之后均说话来检测对话。

图3-5示出HMD设备可如何响应于检测到佩戴者和该另一人之间的对话来修改被显示的全息对象的呈现的非限制性示例。首先参考图3，响应于检测到对话，HMD设备104可被配置成隐藏该多个对象而不能在透视显示器108上查看。在一些实现中，透视显示器可被完全清空任何虚拟对象或覆盖层。同样，在一些实现中，对象可被隐藏而虚拟边界、覆盖层或仪表盘可保留显示在透视显示器上。在其中对象呈现视频和/或音频内容的情形中，此类内容可响应于板被隐藏而不能查看而被暂停。以此方式，当对话结束时，佩戴者可在内容被暂停的点处恢复对内容的消费。

在图4中示出的另一示例中，响应于检测到对话，HMD设备104可被配置成移动该多个对象中的一个或多个对象到透视显示器上的不同位置，该不同位置可在佩戴者的中心视野之外，并且从而较不可能阻挡佩戴者对该另一个人的查看。而且，在一些实现中，HMD设备可被配置成确定该另一人相对于佩戴者的位置，并将该多个对象移动至该透视显示器上不阻挡该另一人的方向的位置。例如，该另一人的方向可使用音频数据(例如，来自话筒阵列的有向音频数据)、视频数据(颜色、红外、深度等)、其组合、或任何其它适当数据来确定。

在图5中所示的另一示例中，响应于检测到对话，HMD设备104可被配置成改变被显示的对象的大小，并且将该多个对象移动至透视显示器上的一不同位置。作为一个非限制性示例，该多个对象中的每个对象的大小可被减小且该多个对象可被移动至该透视显示器的角落。该多个对象可被修改以表现为角落中的标签，该标签可担当该佩戴者在参与该对话之前正消费的内容的提醒，或可具有任何其它适当的外观。作为又一进一步示例，修改该多个对象的呈现可包括增加被显示对象的半透明度以允许佩戴者透过该透视显示器看到该另一人。

在上述情形中，经由透视显示器呈现的虚拟对象是相对于HMD设备的佩戴者主体锁定(body-locked)的。换言之，虚拟对象的位置相对于HMD设备的佩戴者的位置表现为固定或锁定的。因此，即使佩戴者在物理环境内移动，从佩戴者的视角看，主体锁定的虚拟对象可表现为保留在透视显示器上的相同位置。

在一些实现中，经由透视显示器呈现的虚拟对象对佩戴者而言可表现为世界锁定(world-locked)的。换言之，虚拟对象的位置相对于物理环境中的现实位置表现为固定的。例如，全息板可表现得就像挂在物理环境中的墙壁上一样。在一些情况下，世界锁定的虚拟对象的位置可干扰对话。相应地，在一些实现中，响应于检测到对话而修改虚拟对象的呈现可包括改变世界锁定的虚拟对象的现实世界位置。例如，位于HMD设备的佩戴者和另一用户之间的现实世界位置处的虚拟对象可被移动至不在该佩戴者和该用户之间的一不同现实世界位置。在一个示例中，位置可以是除了用户的方向之外的方向。

在一些实现中，HMD设备可被进一步配置成检测对话的结束。响应于检测到对话的结束，HMD设备可被配置成将透视显示器上的对象的视觉状态返回到在检测到对话之前其存在的状态(例如，未隐藏、较不透明、更位于中心等)。在其它实现中，佩戴者可提供手动命令(例如，按钮按下、语音命令、姿势等)来重新初始化该多个对象在该透视显示器上的显示。

如上所述的对话检测可与任何适当的计算设备一起使用，包括但不限于图1-5的HMD。图6-8示出另一示例场景，其中物理环境600中的第一用户602正与大尺寸显示器604交互。显示设备604可与娱乐计算设备606通信。而且，计算设备606可与包括一个或多个传感器的传感器设备608通信，该一个或多个传感器被配置成捕捉关于物理环境600的数据。传感器设备可包括用于捕捉音频数据流的一个或多个音频传感器。在一些实现中，传感器设备可包括用于捕捉视频数据流的一个或多个图像传感器(例如，深度图像传感器、红外图像传感器、可见光图像传感器等)。

娱乐计算设备606可被配置成控制一个或多个数字内容项经由显示器604向该另一人的呈现。而且，娱乐计算设备606可被配置成基于从传感器设备608接收的音频和/或视频数据检测用户之间的对话，以及响应于检测到对话修改该多个数字内容项中的一个或多个的呈现。尽管传感器设备、大尺寸显示器和娱乐计算设备被示出为独立的组件，然而在一些实现中，传感器设备、大尺寸显示器和娱乐计算设备可被组合到单一外壳中。

在图6中，第一用户602正在玩由娱乐计算设备606执行的视频游戏。当第一用户玩视频游戏时，传感器设备608捕捉代表物理环境600中的声音的音频数据。在图7中，在第一用户602参与玩显示在大尺寸显示器604上视频游戏时，第二用户610进入物理环境600。在看到第二用户610之后，第一用户602发起与第二用户的对话612。对话包括第一用户和第二用户中的每一者向彼此说出人类语言的片段。作为一个示例，对话可通过第一用户在第二用户说话之前和之后说话检测到，或通过第二用户在第一用户说话之前和之后说话检测到。

第一和第二用户之间的对话可被传感器设备608接收并作为音频数据流输出，且娱乐计算设备606可接收来自传感器设备608的音频数据流。娱乐计算设备606可被配置成基于该音频数据流检测第一用户602和第二用户610之间的对话，并且响应于检测到该对话修改该视频游戏的呈现，以便减少对话期间该视频游戏的可注意程度。

响应于检测到该对话，娱乐计算设备606可采取任何适当动作。在一个示例中，如图8中所示，娱乐计算设备606可通过暂停该视频游戏来修改该视频游戏的呈现。而且，在一些实现中，视觉指示符614可被显示以指示该视频游戏的呈现已被修改，其中该视觉指示符可向用户提供该娱乐计算设备正对该对话的检测做出反应的细微指示。作为另一示例，响应于检测到该对话，娱乐计算设备可使该视频游戏静音或降低该视频游戏的音量而不暂停该视频游戏。

在一些实现中，响应于检测到对话，数字内容项的呈现可基于一个或多个因素被不同地修改。在一个示例中，数字内容项的呈现可基于数字内容项的内容类型被不同地修改。例如，视频游戏可被暂停且实况电视节目可被缩短且音量可被减小。在另一个示例中，数字内容项的呈现可基于与数字内容项的涉足或参与程度而被不同地修改。例如，可实现用于基于各种传感器指示来估计参与程度的机制，诸如“涉足仪表(involvement meter)”。在一个示例中，如果确定用户具有高涉足程度，则数字内容项的呈现可通过仅调低音量来修改。另一方面，如果确定用户具有较低的涉足程度，则数字内容项的呈现可通过隐藏数字内容项并使数字内容项静音来修改。可被用来确定如何修改数字内容项的呈现的其它非限制性因素可包括一天中的时间、地理位置、和物理设定(例如，工作、家、咖啡馆等)。

对话的发生可用各种方式来确定。例如，可基于音频数据、视频数据或其组合来检测对话。图9示出对话处理流水线900的示例，其可在一个或多个计算设备中被实现来检测对话。对话处理流水线900可被配置成处理从捕捉关于物理环境的信息的多个不同传感器902接收的数据流。

在所描绘的实施例中，音频数据流904可被从话筒阵列904接收且图像数据流924可被从图像传感器906接收。音频数据流908可被传递通过语音活动检测(VAD)级910，其被配置成确定该音频数据流是否代表人类语音或其它背景噪声。被指示为包括语音活动912的音频数据可被从VAD级910输出并被馈送到被配置成从语音活动检测语言的部分的语言识别级914。语言识别级914可输出人类语言片段916。例如，人类语言片段可包括字词的部分和/或完整字词。

在一些实现中，语言识别级可输出与人类语言片段相关联的置信度水平。该对话处理流水线可被配置成设置置信度阈值(例如，该语言片段是字词的50％置信度)并可拒绝具有小于该置信度阈值的置信度水平的人类语言片段。

在一些实现中，语言识别级可被本地实现在计算设备上。在其它实现中，语言识别级可作为位于远程计算设备上的服务被实现(例如，实现在计算云网络中)，或在本地和远程设备间分布。

从语言识别级914输出的人类语言片段916可被馈送到语言源定位器级918，其被配置成确定人类语言片段的源位置。在一些实现中，源位置可通过比较话筒阵列904中的话筒的换能器音量和/或相位来估计。例如，阵列中的每个话筒可被校准以报告相对于阵列中的其它话筒的音量换能器电平和/或相位。使用数字信号处理，来自每个话筒换能器的被均方根的所感知的响度可被计算(例如，每20毫秒、或以另一适当间隔)以提供指示哪个话筒正报告更响的音量以及有多响的加权函数。阵列中的每个话筒的换能器音量水平的比较可被用来估计被捕捉的音频数据的源位置。

在一些实现中，波束成形空间滤波器可被应用于话筒阵列的多个音频样本来估计被捕捉的音频数据的源位置。在HMD设备的情况下，波束成形音频流可被从HMD设备直接向前瞄准以与佩戴者的嘴巴对齐。因此，来自佩戴者和在佩戴者正前方的任何人的音频可以是清楚的，即便在一定距离处。在一些实现中，换能器音量水平和波束成形空间滤波器的比较可相组合地使用以估计被捕捉的音频数据的源位置。

语言源定位器级918可将人类语言片段920的源位置馈送到对话检测器级922，其被配置成基于确定人类语言的片段在不同源位置之间交替而检测对话。交替模式可指示不同用户正在对话中对彼此来回说话。

在一些实现中，对话检测器级922可被配置成如果人类语言的片段在阈值时间段内在不同源位置之间交替或人类语言的片段在指定韵律范围内发生则检测到对话。阈值时间段和韵律可按任何适当方式设置。阈值时间段可确保人类语言的交替片段在时间上与对话足够邻近地发生，而不相干的语言片段则不如此。

在一些实现中，对话处理流水线900可被配置成分析音频数据流908来确定人类语言的一个或多个片段是否源自电子音频设备，诸如来自正在显示器上呈现的电影或电视节目。在一个示例中，该确定可基于标识电子音频设备的音频或音量签名来执行。在另一示例中，该确定可基于电子音频设备的已知源位置来执行。而且，对话处理流水线900可被配置成在确定人类语言的片段在不同源位置之间交替时主动忽略电子音频设备提供的人类语言的那一个或多个片段。以此方式，例如，在电影中的角色之间发生的对话可不被误认为真实人类用户之间的对话。

在一些实现中，对音频数据流的分析可通过分析从图像传感器906接收的图像数据流924来增强。例如，该图像数据流可包括可能参与对话的一个或两个说话者的图像(例如，从HMD设备的佩戴者的视角的用户的图像或从传感器设备的视角的两个用户的图像)。图像数据流924可被馈送至特征识别级926。特征识别级926可被配置成例如分析图像来确定用户的嘴巴是否正在移动。特征识别级926可输出被标识的特征、和/或指示用户正在说话的置信度水平的置信度水平930。置信度水平930可被对话检测器级922与对音频数据流的分析组合使用以检测对话。

图像数据流924也可被馈送至用户标识级928。用户标识级928可被配置成分析图像来识别正在说话的用户。例如，可将面部或身体结构与用户简档比较来标识用户。要理解，可基于任何适当视觉分析来标识用户。用户标识级928可将说话者932的身份以及反应该确定的置信度的置信度水平输出到对话检测器级922。对话检测器级922可使用说话者身份932来将人类语言的片段分类为由特别的被标识用户说出。以此方式，可提高对话检测的置信度。要理解，所描绘的对话处理流水线仅是分析音频数据流以检测对话的方式的一个示例，而任何合适方法都可被实现来检测对话而不背离本公开的范围。

图10示出描绘用于经由计算设备检测对话以便帮助减少内容呈现在对话期间的可注意程度的示例方法1000的流程图。方法1000可以例如由图1中示出的HMD设备104、图6中示出的娱乐计算设备606、或者由任何其它合适的计算设备来执行。

在1002，方法1000包括呈现一个或多个数字内容项。例如，呈现可包括在显示器上显示视频内容项。在另一示例中，呈现可包括播放音频内容项。而且，在1004，方法1000包括接收来自一个或多个传感器的音频数据流。在一个示例中，音频数据流可被从话筒阵列接收。

在1006，方法1000包括分析音频数据流以便发现语音活动，并且在1008，确定该音频数据流是否包括语音活动。如果音频数据流包括语音活动，则方法1000移动至1010。否则，方法1000回到其它操作。

在1010，方法1000包括分析语音活动以便发现人类语言片段，并且在1012，确定该语音活动是否包括人类语言片段。如果该语音活动包括人类语言片段，则方法1000移动至1014。否则，方法1000回到其它操作。

在1014，方法1000包括确定任何人类语言片段是否由电子音频设备提供。如果任何人类语言片段由电子音频设备提供，则方法1000移动至1016。否则，方法1000移至1018。在1016，方法1000包括主动忽略由电子音频设备提供的那些人类语言片段。换言之，可从对话检测的任何考虑中排除那些人类语言片段。在1018，方法1000包括确定音频数据流的每个人类语言片段的源位置。而且，在1020，方法1000包括确定人类语言片段是否在不同源位置之间交替。在一个示例中，当第一用户所说的人类语言片段在第二用户所说的人类语言片段之前或之后发生时可检测到对话。在另一示例中，当第二用户所说的人类语言片段在第一用户所说的人类语言片段之前或之后发生时可检测到对话。在一些实现中，这可包括确定交替的人类语言片段是否在指定时间段内。而且，在一些实现中，这可包括确定交替的人类语言片段是否在指定韵律范围内发生。如果人类语言片段在不同源位置之间交替(并且在指定时间段内并且在指定韵律范围内发生)，则检测到对话且方法1000移动至1022。否则，方法1000回到其它操作。

如果检测到对话，则在1022，方法1000包括：响应于检测到对话，修改该一个或多个内容项的呈现。例如，该呈现可被暂停，音频内容项的音量可被降低，一个或多个视觉内容项可被隐藏而不能在显示器上查看，一个或多个视觉内容项可被移动至显示器上的一不同位置，和/或显示器上的该一个或多个视觉内容项的大小可被修改。

通过响应于检测到用户之间的对话来修改数字内容项的呈现，可在对话期间使得数字内容项的呈现较不引人注意。而且，以此方式，当对话被发起时，用户不需要手动修改数字内容项的呈现，诸如手动暂停内容的回放、减小音量等。

本文描述的对话检测实现可用任何适当的计算设备实现。例如，在一些实施例中，所公开的实现可使用HMD设备来实现。图11示出了具有透明显示器1102的一副可穿戴眼镜形式的HMD设备1100的非限制性示例。将明白，HMD设备可以采取任何其他合适的形式，其中透明、半透明和/或不透明显示器被支撑在查看者的一只或两只眼睛前方。

HMD设备1100包括被配置成控制透视显示器1102的操作的控制器1104。透视显示器1102可以使得图像(诸如全息对象)被递送到HMD设备1100佩戴者的眼睛。透视显示器1102可被配置成向通过该透明显示器查看物理环境的佩戴者在视觉上增强现实世界物理环境的外观。例如，物理环境的外观可以由经由透明显示器1102来呈现以创建混合现实环境的图形内容来增强。在一个示例中，显示可被配置成显示一个或多个视觉数字内容项。在一些情况下，数字内容项可以是覆盖在现实世界环境中的虚拟对象。同样地，在一些情况下，数字内容项可合并通过透明显示器1102看到的现实世界的现实世界对象的元素。

任何合适的机制可被用于经由透明显示器1102来显示图像。例如，透明显示器1102可包括位于镜片1106内的图像生成元件(诸如例如透视有机发光二极管(OLED)显示器)。作为另一示例，透明显示器1102可包括位于HMD设备1100框架内的光调制器。在这一示例中，镜片1106可以担当用于将光从光调制器递送到佩戴者的眼睛的光导。这样的光导可使得佩戴者能够感知位于物理环境内的佩戴者正在查看的3D全息图像，同时还允许佩戴者查看物理环境中的物理对象，由此创建混合现实环境。

HMD设备1100还可包括用于向控制器1104提供信息的各种传感器和相关系统。这样的传感器可包括但不限于：话筒阵列、一个或多个面向外的图像传感器1108、以及惯性测量单元(IMU)1110。

作为非限制性示例，话筒阵列可包括位于HMD设备1100的不同部分上的6个话筒。在一些实现中，话筒1112和1114可位于镜片1106的顶部部分上，并且通常可面向前方。话筒1112和1114可以瞄准相对于HMD设备1100的前方方向45度角处。话筒1112和1114可进一步在HMD设备1100的平坦水平面中瞄准。话筒1112和1114可以是被配置成捕捉HMD设备1100前方的大致区域/方向中的声音的全向话筒，或者可采取任何其它适当形式。

话筒1116和1118可位于镜片1106的底部部分。作为一个非限制性示例，话筒1116和1118可以是面向前方并且向下瞄准以捕捉从佩戴者的嘴巴发出的声音。在一些实现中，话筒1116和1118可以是有向话筒。在一些实现中，话筒1112、1114、1116和1118可以位于镜片1106周围的镜架中。

话筒1120和1122可各自位于HMD设备1100的侧面镜架上。话筒1120和1122可瞄准相对于HDM设备1100的前方方向呈90度角处。话筒1120和1122可进一步在HMD设备1100的平坦水平面中瞄准。话筒1120和1122可以是被配置成捕捉HMD设备1100的每一侧上的大致区域/方向中的声音的全向话筒。要理解，除了上面描述的之外的任何其它适当的话筒阵列也可被使用。

如同上面所讨论的，话筒阵列可产生音频数据流，该音频数据流可被控制器1104分析来检测HMD设备的佩戴者和另一人之间的对话。在一个非限制性示例中，使用数字信号处理，来自每个话筒换能器的经均方根的被感知的响度可被计算，且加权函数可报告在左侧或右侧上的话筒是否正报告更响的声音，以及有多响。类似地，可报告“朝向嘴巴”和“远离嘴巴”、以及“前方对(vs)侧面”的值。此数据可被用来确定人类语言片段的源位置。而且，控制器1104可被配置成通过确定人类语言片段在不同源位置之间交替来检测到对话。

要理解，所描绘的话筒阵列仅是适当的话筒阵列的一个非限制性示例，且任何适当配置的任何适当数量的话筒可被实现而不背离本公开的范围。

该一个或多个面向外的图像传感器1108可被配置成捕捉来自HMD设备1100所位于的物理环境的视觉数据。例如，面向外的传感器1108可被配置成检测显示器1102视野内的移动，诸如视野内的佩戴者或人或物理对象所执行的移动。在一个示例中，面向外的传感器1108可检测用户正对HMD设备的佩戴者说话。面向外的传感器还可从物理环境和该环境内的物理对象捕捉2D图像信息和深度信息。如同上面所讨论的，该图像数据可被用来在视觉上识别用户正对佩戴者说话。这种分析可与音频数据流的分析相组合以增加对话检测的置信度。

IMU 1110可被配置成将HMD设备1100的定位和/或取向数据提供给控制器1104。在一个实施例中，IMU 1110可被配置为三轴或三自由度定位传感器系统。这一示例定位传感器系统可以例如包括用于指示或测量HMD设备1100在3D空间内绕三个正交轴(例如，x、y、z)(例如，滚转、俯仰、偏航)的定向变化的三个陀螺仪。从IMU的传感器信号得出的定向可被用来确定在对话中与HMD设备的佩戴者接洽的用户的方向。

在另一示例中，IMU 1110可被配置为六轴或六自由度定位传感器系统。这一配置可以包括三个加速度计和三个陀螺仪以指示或测量HMD设备1100沿三个正交轴的位置变化和绕该三个正交轴的设备取向变化。在一些实施例中，来自图像传感器1108和IMU 1110的定位和取向数据可以被结合使用以确定HMD设备100的定位和取向。

HMD设备1100可进一步包括被配置成向HMD设备的佩戴者输出声音的说话者1124和1126。说话者1124和1126可位于HMD设备的在佩戴者的耳朵附近的每个侧面镜架部分上。例如，说话者1124和1126可播放针对经由透视显示器1120显示的视觉内容的音频内容，诸如音乐，或音轨。在一些情况下，响应于佩戴者和另一人之间的对话被检测到，说话者的音量可被降低或静音。

控制器1104可包括可与HMD设备1100的各个传感器和显示器处于通信的逻辑机和存储机，如下文参考图12更详细地讨论的。在一个示例中，存储机可包括能够由逻辑机执行以接收来自一个或多个传感器(诸如话筒阵列)的音频数据流、基于该音频数据流检测该佩戴者和用户之间的对话、以及响应于检测到该对话而修改数字内容项的呈现的指令。

在一些实施例中，在此描述的方法和过程可以与一个或多个计算设备的计算系统绑定。尤其地，这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

图12示意性地示出可以执行上述方法和过程中的一个或多个的计算系统1200的非限制性实施例。以简化形式示出了计算系统1200。计算系统1200可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其它计算设备。例如，该计算系统可采取图1中示出的HMD设备104、图6中示出的娱乐计算设备606、或者任何其它合适的计算设备的形式。

计算系统1200包括逻辑机1202和存储机1204。计算系统1200可任选地包括显示子系统106、输入子系统1208、通信子系统1210和/或在图12中未示出的其他组件。

逻辑机1202包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其它逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其它方式得到期望结果。

逻辑机可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。逻辑机的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。逻辑机的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储机1204包括被配置成保存可由逻辑机执行以实现此处所述的方法和过程的指令的一个或多个物理设备。在实现这些方法和过程时，可以变换存储机1204的状态(例如，保存不同的数据)。

存储机1204可以包括可移动和/或内置设备。存储机1204可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。存储机1204可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，存储机1204包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机1202和存储机1204的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

应该理解，在此使用的“服务”是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序和/或其它服务。在某些实现中，服务可以在一个或多个服务器计算设备上运行。

在被包括时，显示子系统1206可用于呈现由存储机1204保存的数据的视觉表示。该视觉表示可采用图形用户界面(GUI)的形式。由于此处所描述的方法和过程改变了由存储机保持的数据，并由此变换了存储机的状态，因此同样可以转变显示子系统1206的状态以视觉地表示底层数据的改变。显示子系统1206可以包括使用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑机1202和/或存储器机1204组合在共享外壳中，或者此类显示设备可以是外围显示设备。

在包括输入子系统1208时，输入子系统1208可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中，输入子系统可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外被处理。NUI部件的示例可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。例如，输入子系统1208可被配置成接收来自图6中示出的传感器设备608的传感器数据流。

当包括通信子系统1210时，通信子系统1210可以被配置成将计算系统1200与一个或多个其它计算设备可通信地耦合。通信子系统1210可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，通信子系统可允许计算系统1200经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

将会理解，此处描述的配置和/或方法本质是示例性的，这些具体实施例或示例不应被视为限制性的，因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其它顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置以及此处公开的其它特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims

1.一种用于在计算设备上检测用户之间的对话的方法，所述方法包括：

接收来自一个或多个传感器的音频数据流；

基于所述音频数据流检测第一用户和第二用户之间的对话；以及

响应于检测到所述对话，修改数字内容项的呈现。

2.如权利要求1所述的方法，其特征在于，检测第一用户和第二用户之间的对话包括：

检测所述音频数据流中的语音活动，确定所述语音活动包括人类语言的片段，以及

确定人类语言的片段在不同源位置之间交替。

3.如权利要求2所述的方法，其特征在于，所述一个或多个传感器包括话筒阵列，所述话筒阵列包括多个话筒，并且其中确定人类语言的片段的源位置包括向所述话筒阵列的多个音频样本应用波束成形空间滤波器以估计所述不同源位置。

4.如权利要求2所述的方法，其特征在于，检测第一用户和第二用户之间的对话进一步包括确定人类语言的片段在指定韵律范围内出现。

5.如权利要求2所述的方法，其特征在于，检测第一用户和第二用户之间的对话进一步包括确定人类语言的片段在阈值时间段内在不同源位置之间交替。

6.如权利要求2所述的方法，其特征在于，进一步包括：

确定人类语言的一个或多个片段是由电子音频设备提供的，以及

在确定人类语言的片段在不同源位置之间交替时，忽略由所述电子音频设备提供的人类语言的一个或多个片段。

7.如权利要求1所述的方法，其特征在于，所述数字内容项包括音频内容项和视频内容项中的一者或多者，并且其中修改所述数字内容项的呈现包括暂停所述音频内容项或所述视频内容项的呈现。

8.如权利要求1所述的方法，其特征在于，所述数字内容项包括音频内容项，并且其中修改所述数字内容项的呈现包括降低所述音频内容项的音量。

9.如权利要求1所述的方法，其特征在于，所述数字内容项包括一个或多个视觉内容项，并且其中修改所述数字内容项的呈现包括以下的一者或多者：隐藏所述一个或多个视觉内容项以使其不能在显示器上查看、将所述一个或多个视觉内容项移动至所述显示器上的不同位置、改变所述一个或多个视觉内容项的半透明度、以及改变所述一个或多个视觉内容项在所述显示器上的大小。

10.一种头戴式显示器设备，包括：

被配置成捕捉音频数据流的一个或多个音频传感器；

被配置成捕捉场景的图像的光学传感器；

被配置成显示数字内容项的透视显示器；

逻辑机；以及

存储机，所述存储机保持能够由所述逻辑机执行的指令以：

当所述数字内容项正经由所述透视显示器被显示时，接收来自所述一个或多个音频传感器的所述音频数据流，

基于所述音频数据流来检测在所述头戴式显示器设备的佩戴者和另一人之间交替的人类语言片段，

从所述光学传感器接收包括所述另一人的所述场景的图像，

基于所述图像确认所述另一人正对所述佩戴者说话，

基于所述音频数据流和所述图像检测所述佩戴者和所述另一人之间的对话，以及

响应于检测到所述对话，修改经由所述透视显示器的所述数字内容项的呈现。