CN111936964A

CN111936964A - 非中断性nui命令

Info

Publication number: CN111936964A
Application number: CN201980023600.0A
Authority: CN
Inventors: E·巴达什; A·L·米勒; H·索姆奇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-03-30
Filing date: 2019-03-15
Publication date: 2020-11-13
Anticipated expiration: 2039-03-15
Also published as: CN111936964B; EP3776171A1; WO2019190769A1; US10388325B1

Abstract

本申请中描述的技术的各方面提供一种非中断性的自然用户界面(NUI)。在一些方面，在要发送到接收方的媒体中捕捉到NUI输入。传送的媒体中包括该NUI输入会导致观看或收听该媒体时对用户体验的中断。本申请中描述的技术的方面识别并移除或以其它方式模糊化该NUI输入，同时保留该媒体内容中不包括该NUI命令的周围部分。可以用在本申请中描述的技术中的示例媒体包括图像、视频和音频传输。可以在记录用于后续传输的媒体时或者在同步媒体通信会话期间提供非中断性的NUI输入。

Description

非中断性NUI命令

背景技术

自然用户界面(NUI)允许用户通过语音、手势、眼球运动和其它手段与计算机进行通信。自动语音识别(ASR)允许计算设备理解人的语言。除了其他的功能外，理解人的语言能够实现语音到文本的转录(transcription)和语音命令。相机能够捕捉手势(诸如手部运动)，并把它们翻译成计算机命令。

发明内容

提供本发明内容以便以简化方式引入一些概念，将在下面的具体实现方式中进一步描述这些概念。本概述并不意在识别所要求保护的主题的关键或必要特征，也不意在用于辅助确定所要求保护的主题的范围。

本申请中描述的技术的各方面提供一种非中断性的自然用户界面(NUI)。在一些方面，在要发送到接收方的媒体中捕捉到NUI输入。传送的媒体中包括该NUI输入会导致观看或收听该媒体时对用户体验的中断。例如，包括可听的命令从而增大音频通信中计算设备的音量会对收听该音频通信的用户体验造成中断。目前很难在用户提供控制输入在音频或视频媒体中进行捕捉时使用NUI控制。

本申请中描述的技术的方面识别并移除或以其它方式模糊化(obscure)该NUI输入，同时保留该媒体内容中不包括该NUI命令的周围部分。可以用在本申请中描述的技术中的示例媒体包括图像、视频和音频传输。

可以在记录用于后续传输的媒体时或者在同步媒体通信会话期间提供非中断性的NUI输入。例如，可以在记录用于上传到社交网络的视频的同时提供非中断性NUI输入。类似的，可以在直播电话会议、视频直播、视频会议等期间使用非中断性NUI输入。当在同步媒体通信会话期间使用非中断性NUI输入时，微小的时间延迟可被内置在媒体传输过程中，以允许媒体在被传送到其它设备之前进行编辑。

附图说明

在下面的详细描述中参考附图描述了该技术的各方面，其中：

图1是根据本申请中描述的技术各方面适合于使用非中断性自然用户界面(NUI)命令的示例性计算环境的框图；

图2是根据本申请中描述的技术的方面描绘能够用于处理基于语音的NUI命令的自动语音识别系统的示意图；

图3是根据本申请中描述的技术的方面描绘使用语音命令的非中断性NUI场景的示意图；

图4是根据本申请中描述的技术的方面描绘使用图像作为输入的非中断性NUI场景的示意图；

图5是根据本申请中描述的技术的方面描绘从使用图像作为输入的非中断性NUI场景生成的输出的示意图；

图6是根据本申请中描述的技术的方面描绘从使用图像作为输入的非中断性NUI场景生成的替代输出的示意图；

图7是根据本申请中描述的技术的方面描绘一种响应自然用户界面控制的方法的流程图；

图8是根据本申请中描述的技术的方面描绘一种响应自然用户界面控制的方法的流程图；

图9是根据本申请中描述的技术的方面描绘一种响应自然用户界面控制的方法的流程图；以及

图10是适用于实现本申请中描述的技术的方面的示例计算环境的框图。

具体实施方式

本申请中所描述的技术的主题是用本申请中用于满足法定需求的特征描述的。但是，描述本身并非意在限制本专利的范围。相反，发明人设想所要求保护的主题也可以以其它方式来具体化，以包括类似于本文中所描述的，与其它目前或未来的技术相结合的那些不同的步骤或步骤的组合。此外，尽管术语“步骤”和/或“块”可在本申请中用于指示所采用的方法的不同元素，但是除非并且除了明确描述各个步骤的顺序，该术语不应被解释为暗示本申请中所公开的各个步骤之中或之间的任何具体顺序。

本申请中描述的技术的各方面提供一种非中断性的自然用户界面(NUI)。在一些方面，NUI输入在要发送到接收方的媒体内进行捕捉。例如，演示者可能在与其它参与者进行视频演示期间暂停，以便指示他的计算设备增大扬声器音量。传送的媒体中包括该NUI输入会导致观看或收听该媒体时对用户体验的中断。例如，包括可听的命令从而增大音频通信中计算设备的音量会对收听该音频通信的用户体验造成中断。目前很难在用户提供控制输入在音频或视频媒体中进行捕捉时使用NUI控制。

本申请中描述的技术的方面识别并移除或以其它方式模糊化该NUI输入，同时保留该媒体内容中不包括该NUI命令的周围部分。可以用在本申请中描述的技术中的示例媒体包括图像、视频和音频传输。例如，可以在图像中、在视频中的音频命令或物理手势、或者在音频传输中的可听的命令中捕捉NUI输入。NUI输入(也被描述为命令或控制)可以包括音频命令、手势和手写输入(诸如写在白板或便条上的命令)。

计算环境

现在转到图1，除了未示出的其它组件，系统100包括网络110，其通信地耦合到一个或多个客户端设备102和104以及用户设备120。用户设备120提供非中断性NUI输入并且与其它设备(诸如客户端设备102和104)分享媒体。图1中示出的组件可以实现在一个或多个计算设备上(诸如关于图10描述的计算设备1000)或者使用其实现。网络110可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这样的网络环境在办公室、企业级计算机网络、内联网和互联网中是常见的。应当理解的是，可以在本申请中描述的技术的范围内在系统100中采用任何数量的数据源、存储组件或数据存储和客户端设备。每一个都可以包括单个设备或在分布式环境中协作的多个设备。另外，未示出的其它组件也可以包括在网络环境内。

示例系统100包括客户端设备102和104，其可以包括能够接收使用来自用户设备120的NUI输入生成的媒体的任何类型的计算设备。在一个方面，系统100中的所有设备都可以有NUI接口。客户端设备102和104可以是本申请中关于图10描述的一种类型的计算设备。举例而言而非限制性的，用户设备可以被体现为个人数据助理(PDA)、移动设备、智能电话、智能手表、智能眼镜(或其它可穿戴智能设备)、增强现实耳机、虚拟现实耳机、膝上型电脑、平板电脑、远程控制、娱乐系统、汽车计算机系统、嵌入式系统控制器、家电、家用计算机系统、安全系统、消费电子设备或其它类似的电子设备。

在一个实施例中，客户端设备能够接收由用户设备120在同步通信会话期间生成的媒体数据，诸如音频和图像信息。例如，客户端设备可以具有用于接收音频信息的麦克风或输入线路、用于接收视频或图像信息的相机、或用于从另一源(诸如互联网)接收这样的信息的通信组件(例如，Wi-Fi功能)。

用户设备120包括NUI接口122、NUI识别组件124、NUI移除组件126、NUI控制组件128、媒体传输组件130和同步媒体会话组件132。用户设备120能够生成媒体并至少部分地由NUI命令控制。用户设备120允许使用NUI控制而不将该NUI控制输入包括在发送到另一个计算设备的媒体中。用户设备120及其组件122、124、126、128、130和132可以被实现为一组经编译的计算机指令或功能、程序模块、计算机软件服务或在一个或多个计算机系统(诸如结合例如附图10描述的计算设备1000)上执行处理过程的排列。

用户设备120的组件、由这些组件执行的功能，或由这些组件所进行的服务可以在该计算系统的适当抽象层(诸如操作系统层、应用层、硬件层等)来实现。可替换地或另外地，这些组件的功能和/或本申请中描述的技术的实施例可以至少部分地由一个或多个硬件逻辑组件执行。例如，但不限于，可以使用的示例性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SoC)、复杂可编程逻辑设备(CPLD)等。

NUI接口122从NUI命令提取输入，并根据该命令将其传送到应用程序，以控制用户设备、应用程序、通信会话或者一些其它计算机功能。NUI接口还在将媒体传送给接收计算设备之前从该媒体移除该NUI命令。

NUI识别组件124识别要被传送到接收方计算设备的媒体中的NUI命令。如上所述，NUI命令和媒体内容是通过相同的传感器捕捉的。例如，捕捉到视频的同时做出的手势、在电话呼叫期间给出的音频命令，或图像中写入的文本。用于识别该NUI命令的方法可以根据媒体和NUI命令而不同。

如在图2中描述的音频分析可以被用于识别音频流中的语音命令。音频流可以由用户设备120上的麦克风捕捉。该音频流可以是视频的一部分或独立的音频的。无论哪种方式由麦克风捕捉的音频可以用于对语音命令的连续监测，该语音命令是NUI输入的一个示例。

图像分析可以被用于检测人做出的身体姿态。该姿态可以是用户的手部或身体的单个姿势或一系列姿势。在一个方面，深度相机被用于捕捉用户的3D图像。每个姿势或一系列姿势可以被映射到用于控制用户设备、通信会话等等的控制输入。

无论可听的还是可见的，NUI命令可以包括一个或多个注意提示(attentionprompt)、控制描述和控制操作。注意提示可以从其它媒体内容勾画出NUI命令。在一些实例中，NUI命令包括开始命令，随后跟着控制描述、控制操作和停止命令。开始命令和停止命令是注意提示的两个示例。该开始命令和停止命令可以与音频NUI命令或可见手势结合使用。音频命令可以在仅视频或音频媒体会话期间使用。当使用开始和停止命令时，该NUI命令从该开始命令被说出之前的时刻运行到停止命令被说出之后的时刻。

在一个音频示例中，开始命令包括用户设备上运行的个人助理应用程序的名称。例如，“Cortana”或“Cortana请”。类似的，停止命令可以是“谢谢Cortana”或类似的。停止命令也可以是接收该控制输入或不被识别为音频控制接口的一部分的单词或短语之后的静默持续时间。可以在视频或音频通信会话(诸如电话会议)期间使用可听的提示。一个完整的NUI命令可以是，“Cortana，将音量调高百分之10。谢谢Cortana”。在这个示例中，音量是控制描述，并且控制操作是“调高10％”。在组合中，可以处理这一NUI命令以将用户设备120上的有效音量控制调高10％。“谢谢Cortana”是停止命令。

在一个示例中，注意提示是由相机拍到的手势。例如，在相机前先把五个手指伸出手掌或者从左至右慢慢挥动可以被用作注意提示。如果竖起大拇指手势被映射到将音量调高10％(或一些其它量)，则该手势可以是控制描述和控制操作。手势可以具有组合的控制描述和控制操作。然而，也可以将它们分开。例如，在与多个用户在会议室中，第一手势(例如，手掌向下)可以是发言权控制的控制描述。指向不同的用户可以是控制操作并且将发言权(例如，在会议室中的演示设备的控制权)交给所指向的用户。

在另一示例中，注意提示是写在图像中的词语或短语。例如，由相机捕捉的图像中的短语“Cortana”可以是注意提示。书写的注意提示可以用在一个人对白板、笔记本或一些其它书写产品拍照的情况中。围绕NUI命令的圆圈或其它边界可以从周围内容勾画出NUI输入。

注意提示并不是在所有实施例中都使用。在一些方面，可以识别出可听的命令，而没有注意提示。类似的，不需要注意手势。可以识别独立的手势并采取动作。最后，写出的词语或短语可以被处理为不包括注意提示的非中断性NUI。例如，在被圈出的内容旁边写下给Bob Smith发邮件可以是一个完整的不使用注意提示的NUI命令。

一旦被识别，则该NUI可以被发送到NUI移除组件126和NUI控制组件128。这两个组件可以同时工作。在一个方面中，视频的传送被短暂地延迟，以允许NUI识别组件124识别NUI输入以及NUI移除组件126从媒体移除该NUI输入。该延迟可能是20ms、40ms、80ms或根据用户设备120的硬件和软件能力的一些其它延迟。在一个方面，该延迟是基于对识别手势所用的时间的分析来计算的。

NUI移除组件126移除、模糊化或不再强调媒体中的NUI输入。首先，识别NUI命令的边界。识别NUI命令的边界是根据媒体和NUI命令的属性而不同的。如前所述，语音命令可以具有开始点和结束点。可以通过删除该开始点和结束点之间包括该开始命令和结束命令(如果存在的话)在内的音频的一部分来移除音频命令。如果该音频命令是在视频期间给出的，则视频帧可以不被改变。

在另一方面，可以通过改变视频帧而不改变音频内容来移除或模糊化手势。在一个方面，将包括一手势的第一视频帧连同随后直到该手势结束的所有帧都删除。这些被删除的帧可以用第一被删除的视频帧之前的最后帧来替换。视频的接收方可能察觉到该视频短暂地定格(freeze)。可替代地，有可能可以放大该视频不包括该手势的一部分。裁剪是对允许该视频不包括要示出的手势的部分进行缩放的替换。

参考图4、图5和图6描述了从图像移除NUI命令。

NUI控制组128响应于NUI输入而改变用户设备120的状态。首先，NUI控制组件128将该输入映射到控制输出。例如，NUI控制组件128可具有映射到用户设备120上的多个控制的一组语音命令。在识别该语音命令之后，该输入被提供到控制，以同样的方式输入可以是通过鼠标、触摸屏、键盘或其它输入设备提供的。手势以类似方式工作，通过图像分析识别该手势并将其映射到已知控制。然后，将该控制输入提供给适当的控制。

媒体传输组件130将变更后的媒体传送到一个或多个接收方设备。

同步媒体会话组件132可以建立并管理同步媒体会话，诸如视频会议、电话会议、实时视频流或者其它类似的通信会话。

自动语音识别系统

现在转到图2，根据本申请中描述的技术的实施例示出了自动语音识别(ASR)系统的一个示例。图2中示出的ASR系统201仅仅是适用于识别用户特定语音信号，最后可被用于理解讲话者的话语，包括识别可听的NUI命令的ASR系统的一个示例。可以预期的是，可以使用ASR系统的其它变型，包括比示出的示例ASR系统包含更少的组件或包含图2中未示出额外组件的ASR系统。ASR系统可以被实现在具有处理器和存储器的计算设备上，诸如随后描述的计算设备1000。该存储器可以包括一旦被执行则配置该计算设备执行本申请中描述的ASR功能的计算机可执行代码。

ASR系统201示出了传感器250，其感测由用户-讲话者295提供的声学信息(可听的说出的词语或语音290)以及背景噪声。背景噪声可包括音乐、人群噪声等。传感器250可以包括一个或多个麦克风或声音传感器，其可以被嵌入用户设备上(诸如图1中描述的客户端设备102或104)。传感器250将语音290转换为声学信号信息253，其可以被提供给特征提取器255(或者在一些实施例中，可以被直接提供给解码器260)。在一些实施例中，该声学信号可以在特征提取255之前经历预处理(未示出)。特征提取器255通常执行特征分析，以确定语音信号的参数化的有用特征，同时降低噪声破坏或以其它方式丢弃多余的或不需要的信息。特征提取器255将该声学信号转换成适合于解码器260所使用的模型的特征258(其可以包括语音语料库)。特征258可以包括对应于语音290的特征。

解码器260包括声学模型(AM)265和语言模型(LM)270。AM 265可以使用神经网络模型或其它方法来从提供的特征258提取特征。一旦生成讲话者的特征集合，AM 265可以处理具体特征以识别文字和声音，诸如对应于NUI开始命令或停止命令的语音令牌。

AM 265包括组成一个单词的不同的声音的统计表示，其可以被分配称为“表型组”的标签。该AM 265可以将标签分配给声音。AM 265可以基于该语音特征模拟该表型组并向LM 270提供包括对应于该语音语料库的词语序列的语料库。作为替代，AM 265可以向LM270提供表型组的一个字符串。LM 270接收词语或表型组的语料库并确定识别的语音280，其可以包括词语、实体(类)、或短语，包括NUI命令。

在一些实施例中，LM 270可以反映语料库的特定子域或某些类型，诸如某些类别(例如，个人名称、位置、日期/时间、电影、游戏)、词语或词典、NUI命令、短语或这些的组合。

现在转到图3，用户环境300示出了根据本申请中描述的技术的一个方面的一种非中断性NUI命令。用户环境300示出了讲话者302和接收方314之间的通信会话。讲话者302通过发送笔记本电脑304与接收方314通信。接收方314通过接收笔记本电脑312接收通信。这两台笔记本电脑通过网络110连接。该通信会话可以是双向的，允许接收方314与讲话者302说话。但是，为了简单，在这一示例中只有讲话者302在讲话。

活跃的通信会话可以包括音频和视频内容。音频和视频内容可以通过两台笔记本电脑设备上的摄像头和麦克风捕捉。可替换地，可以使用诸如网络摄像头之类的外围设备(未示出)。在图3中只描绘了音频通信，但可听的NUI命令的音频处理可以针对只有音频的会话或音频和视频通信会话以同样的方式工作。

作为通信会话的一部分，讲话者302做出陈述303，它是通过接收笔记本电脑312中的扬声器的输出。接下来，讲话者302说出NUI命令308“Cortana，提高音量”。NUI命令308不通过接收笔记本电脑312传送给接收方314。然后，讲话者302做出第二陈述310，它也是通过接收笔记本电脑312的输出。

NUI命令308包括注意提示“Cortana”，随后跟着控制描述和控制操作。在这个示例中，音量是控制描述，而控制操作是“提高”。在一个方面，自动语音识别系统正针对注意提示，持续地监听通信会话内的音频信号。

一旦在音频信号中检测到NUI命令，两个过程被启动。这两个过程可以或多或少地并行运行。首先，启动音频编辑功能以从可听信号中移除NUI命令。其次，处理该NUI命令。对于NUI处理，文本“提高音量”可以用来调用笔记本电脑304中的音量控制功能并将音量增大指定的份额，诸如10％、20％、30％之类的。

音频编辑功能确定该音频信号中开始NUI命令的开始点。音频编辑功能还确定结束点。然后从通过笔记本电脑312输出的该音频信号中删除该音频信号中该开始点和结束点之间的部分。然后可以看到，笔记本电脑312输出第一语句303和第二语句310，但不输出NUI命令308。为了允许删除音频信号，可以在通信会话中内置一个延迟。在一个方面中，缓冲器被用于将音频和视频信号保持比自动语音识别系统处理音频信号并识别NUI命令所需要的稍微长一些的时间段。应当注意的是，在这个示例中视频信号不需要被中断或编辑。因此，接收方314将继续看到讲话者302的视频，但不会听到与NUI命令308相关联的音频。

该技术的各方面不限于控制发送笔记本电脑304的命令。也以相同的方式处理控制通信会话的NUI命令。如本申请中所用，改变该通信会话的命令改变发送笔记本电脑304的状态，因为讲话者302的用户界面可能因此改变。适用于控制通信会话的示例性NUI命令包括用于对一个或多个用户静音、用于准许一个或多个用户访问分享的内容、用于准许一个或多个用户访问该通信会话、用于给出发送笔记本304的一个或多个用户控制、用于改变该通信会话中示出的内容或屏幕之类的指令。

现在转到图4，根据本申请中描述的技术的一个方面，示出了其中由单个图像捕捉的非中断性NUI的用户环境400。用户环境400包括用户440，该用户用她的智能手机422为白板410拍照。该白板包括包围在手绘框414中的主要内容412。该白板410上还画出了由圆圈划定出的手绘NUI命令418。该圆圈可以帮助从内容中划定出该NUI命令418。

NUI命令418包括注意提示420“@Cortana”。在这一示例中，命令NUI 418包括作为箭头422的控制描述的音量，并且控制操作是连同内容识别箭头416一起的“Haim”424。在这一示例中，箭头422控制描述被解释为用于将指定内容传送给接收方的命令。在这一示例中，“Haim”424是接收方。

在一个方面，“Haim”可以映射到电子邮件地址、电话号码、社交媒体账户、或内容可以被发送到的其它目的地。在一个方面，Haim可以被匹配到用户440的联系人中的一个名字。如果找到多个名字为Haim的人，可以使用消除歧义处理过程。例如，已知要参加一个在期间白板410被拍摄照片的会议的Haim可以被选为假定接收方。类似地，通信的优选方法可以基于对用户440和Haim之间的先前通信的分析。在一个方面，在传送该内容之前准备好一个向Haim的草稿通信地址用于由用户440批准。

本技术的各方面可以在将由智能电话442捕捉到的图像传送给第二设备之前，从该图像移除该NUI命令418。在一个方面，该图像的包括NUI命令218的部分被编辑为匹配该部分的周围的背景。如果使用这一消息，接收方(在这个案例中是Haim)将接收到类似于图5中示出的图像500的图像。如可在图5中看到的，NUI命令218已经被移除，在传送到第二设备的图像500中留下内容412和框414。从图像中删除NUI命令同时留下该图像的未经编辑的剩余部分是实现非中断性NUI输入的一种方法。

在另一个方面，从该图像的剩余部分隔离出内容412，并且只分享指定内容412。聚焦于要被分享的内容而排除NUI控制是一种提供非中断性NUI控制的方法。如果只分享该内容，则NUI控制是不可见的。图6示出了图像600，其中响应于NUI命令418可以将白板410的图像转换成图像600。

现在转到图7，提供了示出响应自然用户界面控制的方法700的流程图。方法700可以在视频会议、网络电话、在线演示或与一个或多个远程用户近实时分享媒体内容的其它通信会话期间使用。其中用户能够近实时分享内容的通信会话可以被描述为同步通信会话。如本申请中所使用的，近实时意味着在生成内容(例如，捕捉视频或音频输入)和分享该内容之间具有小于五秒的延迟。

在步骤710处，在发送计算设备和接收计算设备之间的同步通信会话期间在发送计算设备处接收到媒体。该媒体在同步通信会话期间在计算机网络上从该发送计算设备传送到接收计算设备。同步媒体会话的示例可以包括视频会议、电话会议、实时视频流等等。

在步骤720处，通过在发送计算设备处分析媒体来在该媒体中的第一点处检测到NUI命令的起始。在步骤730处，通过在发送计算设备处分析该媒体来在该媒体中的第二点处检测到该NUI命令的终止。

如上所述，该NUI命令和媒体内容是通过相同的传感器捕捉的。例如，在视频被捕捉的同时做出手势，在电话呼叫期间给出音频命令，或者在图像中写入文本。用于识别NUI命令的方法可以根据媒体和NUI命令而不同。

诸如图2中描述的音频分析可以用于识别音频流中的语音命令。音频流可以由用户设备120上的麦克风来捕捉。该音频流可以是视频的一部分或独立的音频。无论哪种方式由麦克风捕捉的音频可以用于对语音命令的连续监测，该语音命令是NUI输入的一个示例。

无论可听的还是可见的，NUI命令可以包括一个或多个注意提示、控制描述和控制操作。注意提示可以从其它媒体内容勾画出NUI命令。在一些实例中，NUI命令包括开始命令，随后跟着控制描述、控制操作和停止命令。开始命令和停止命令是注意提示的两个示例。该开始命令和停止命令可以与音频NUI命令或可见手势结合使用。音频命令可以在仅视频或音频媒体会话期间使用。当使用开始和停止命令时，该NUI命令从该开始命令被说出之前的时刻运行到停止命令被说出之后的时刻。

在一个音频示例中，开始命令包括用户设备上运行的个人助理应用程序的名称。例如，“Cortana”或“Cortana请”。类似的，停止命令可以是“谢谢Cortana”或类似的。停止命令也可以是接收该控制输入或不被识别为音频控制接口的一部分的单词或短语之后的静默持续时间。可以在视频或音频通信会话(诸如电话会议)期间使用可听的提示。一个完整的NUI命令可以是，“Cortana，将音量调高百分之10。谢谢Cortana”。在这个示例中，音量是控制描述，而控制操作是“调高10％”。在组合中，可以处理这一NUI命令以将用户设备120上的有效音量控制调高10％。“谢谢Cortana”是停止命令。

在步骤740处，自动编辑媒体以从该媒体移除NUI命令以生成该NUI命令不显著的更改后媒体。可以通过删除该开始和结束点之间包括该开始命令和结束命令(如果存在的话)在内的部分来移除音频命令。如果该音频命令是在视频期间给出的，则视频帧可以不被改变。

在另一方面，可以通过改变视频帧而不改变音频内容来移除或模糊化手势。在一个方面，将包括一手势的第一视频帧连同随后直到该手势结束的所有帧都删除。这些被删除的帧可以用第一被删除的视频帧之前的最后帧来替换。视频的接收方可能察觉到该视频短暂地定格。可替代地，有可能可以放大该视频不包括该手势的一部分。裁剪是对允许该视频不包括要示出的手势的部分进行缩放的替换。

在步骤750处，从发送计算设备向接收计算设备发送更改后的媒体。

在步骤760处，响应于NUI命令改变发送计算设备的状态。首先，NUI控制组件128将该输入映射到控制输出。例如，NUI控制组件128可具有映射到用户设备120上的多个控制的一组语音命令。在识别该语音命令之后，该输入被提供到控制，以同样的方式输入可以是通过鼠标、触摸屏、键盘或其它输入设备提供的。手势以类似方式工作，通过图像分析识别该手势并将其映射到已知控制。然后，将该控制输入提供给适当的控制。

在一个方面，更改后的媒体的接收方是在NUI命令中指定的。例如，可听命令“将Jen加入视频会议”可以指定Jen作为该媒体的接收方。

现在转到图8，提供了示出响应自然用户界面控制的方法800的流程图。方法800可以用于响应图像或其它可视媒体中的NUI命令。例如，方法800可以被用于按照写在白板上的NUI命令采取动作，该NUI命令在该白板的照片中描绘。在步骤810处，在发送计算设备上接收到媒体。该媒体可以是由智能手机或其它相机对手写表面(诸如白板或记事本)拍摄的照片。

在步骤820处，通过在发送计算设备处分析媒体在该媒体中检测出NUI命令。如上所述，NUI命令和媒体内容是通过相同的传感器捕捉的。例如，在视频被捕捉的同时做出手势，在电话呼叫期间给出音频命令，或者在图像中写入文本。用于识别NUI命令的方法可以根据媒体和NUI命令而不同。

在另一实例中，注意提示是写在图像中的词语或短语。例如，由相机捕捉的图像中的短语“Cortana”可以是注意提示。书写的注意提示可以用在一个人对白板、笔记本或一些其它书写产品拍照的情况中。围绕NUI命令的圆圈或其它边界可以从周围内容勾画出NUI输入。在一个方面中，该NUI命令识别图像中的内容的接收方，如参考图4到图6所描述的。

在步骤830中，自动编辑媒体以从该媒体移除NUI命令以生成该NUI命令不显著的更改后媒体。首先，识别该NUI命令的边界。该NUI命令的边界的识别根据媒体和NUI命令的属性而不同。如前所述，语音命令可以有开始点和结束点。可以通过删除该开始和结束点之间包括该开始命令和结束命令(如果存在的话)在内的部分来移除音频命令。如果该音频命令是在视频期间给出的，则视频帧可以不被改变。

参照图4到图6示出了编辑图像。在一个示例中，该图像与NUI命令相关联的部分被删除，并用与图像的相邻背景色相匹配的填充来替代。在另一个示例中，通过将除了被分享的内容之外的所有都剪裁掉而只分享该图像的内容部分。

在步骤840处，从发送计算设备向接收计算设备发送更改后的媒体。

现在转到图9，提供了示出响应自然用户界面控制的方法900的流程图。在步骤910处，在发送计算设备处接收到媒体。该媒体可以是音频或视频媒体，诸如视频会议。在步骤920处，通过在发送计算设备处分析该媒体在该媒体中的第一点处检测到NUI命令的起始。这已经在前面参考图2和7描述过了。

在步骤930处，通过在发送计算设备处分析该媒体在该媒体中的第二点处检测到该NUI命令的终止。这已经在前面参考图2和7描述过了。

在步骤940处，自动编辑媒体以从该媒体移除NUI命令以生成该NUI命令不显著的更改后媒体。这已经在前面参考图2和7描述过了。

在步骤950处，从发送计算设备向接收计算设备发送更改后的媒体。

在步骤960处，响应于该NUI命令改变发送计算设备的状态。这已经在前面参考图2和7描述过了。

示例性操作环境

通常参照附图，并且首先具体参照图10，用于实现本申请中描述的技术的各方面的示例性操作环境被示出并一般地指定为计算设备100。计算设备1000只是适用的计算环境的一个示例，并不旨在建议对本申请中描述的技术的使用或功能性的范围的任何限制。也不应该将计算设备1000解释为具有关于示出的任何一个组件或组件的组合的任何依赖或要求。

本申请中所描述的技术可以在由计算机或其它机器(诸如个人数字助理或其它手持设备)执行的计算机代码或机器可使用指令，包括计算机可执行指令(诸如程序组件)的一般上下文中描述。一般而言，程序组件，包括例程、程序、对象、组件、数据结构等，值的是执行特定任务或实现特定抽象数据类型的代码。本申请中所描述的技术的各个方面可以在各种系统配置中实践，包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本申请中所描述的技术的各方面也可以在分布式计算环境中实践，其中，任务是由通过通信网络链接的远程处理设备执行的。

继续参照图10，计算设备1000包括总线1010，其直接或间接耦合以下设备：存储器1012、一个或多个处理器1014、一个或多个呈现组件1016、输入/输出(I/O)端口1018、I/O组件1020和说明性电源1022。总线1010表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)。尽管为了清楚起见用线示出了图10的各个块，但是在现实中，各组件的轮廓并不是那样清楚，打个比方，线条更精确地将是灰色的和模糊的。例如，可以将诸如显示设备之类的呈现组件看作是I/O组件。此外，处理器具有存储器。本发明人认识到这是本领域的特性，并且重申图10的示意图仅仅是可以结合本申请中描述的技术的一个或多个方面使用的示例性计算设备的说明。不区分诸如“工作站”、“服务器”、“笔记本电脑”、“手持式设备”等分类之间的差别，因为所有这些都可预期处于图1的范围之内，并且指代“计算机”或“计算设备”。

计算设备1000通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备1000访问的，并且包括易失性和非易失性介质、可移动和不可移动介质的任何可用介质。举例而言而非限制性的，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的存储的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。

计算机存储介质包括RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备。计算机存储介质不包括传播的数据信号。

通信介质通常包含计算机可读指令、数据结构、程序模块或诸如载波之类的经调制数据信号或其它传输机制中的其它数据，并且包括任何信息传递介质。术语“经调制数据信号”是指具有一个或多个其特征集合以将信息编码到信号中这样的方式被改变的信号。举例而言但不是限制性的，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、RF、红外之类的无线介质和其它无线介质。任何上述的组合也应包括在计算机可读介质的范围之内。

存储器1012包括易失性和/或非易失性存储器形式的计算机存储介质。存储器1012可以是可移动的、不可移动的或其组合。示例性存储器包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1000包括一个或多个处理器1014，其从诸如总线1010、存储器1012、或I/O组件1020之类的各个实体读取数据。呈现组件1016个向用户或其它设备呈现数据指示。示例性呈现组件1016包括显示设备、扬声器、打印组件、振动组件等。I/O端口1018允许计算设备1000在逻辑上耦合至包括I/O组件1020的其它设备，其中的一些可以是内置的。

说明性I/O组件包括麦克风、操纵杆、游戏板、卫星接收盘、扫描仪、打印机、显示设备、无线设备、控制器(诸如指示笔、键盘和鼠标)，自然用户界面(NUI)等。在实施例中，提供了数字笔(未示出)和随同的输入工具(也未示出，但其可以包括仅举例来说，笔或触笔)，以便数字化地捕捉手写用户输入。该数字比和处理器1014之间的连接可以是直接的或经由利用串行端口、并行端口和/或本领域公知的其它接口和/或系统总线的连接。此外，数字化输入组件可以是与输出组件(诸如显示设备)分开的不同组件，或者在一些实施例中，数字比的可用输入区域可以与显示设备的显示区域具有相同的范围、与显示设备集成，或者可以作为覆盖或者附着到显示设备上的单独的设备存在。任何及所有这样的变型，和它们的任意组合，都被预期处于本申请中描述的的技术的实施例的范围之内。

NUI处理空气手势、声音或由用户生成其它生理输入。适当的NUI输入可以被解释为用于与计算设备1000相关联的演示的墨迹。这些请求可以被发送到适当的网络元件进行进一步处理。NUI实现语音识别、触摸和触笔识别、面部识别、生物识别、在屏幕和相邻屏幕二者上的手势、空气手势、头部和眼睛跟踪以及与计算设备1000上的显示相关联的触摸识别的任何组合。计算设备1000可配备有深度相机，诸如立体相机系统、红外相机系统、RGB相机系统以及这些的组合，用于手势检测和识别。另外，计算设备1000可以配备有能够检测运动的加速计或陀螺仪。加速度计或陀螺仪的输出可被提供给计算设备1000的显示器以呈现身临其境的增强现实或虚拟现实。

计算设备可以包括无线电1024。无线1024发送和接收无线通信。该计算设备可以是适于在各种无线网络上接收通信和媒体的无线终端。计算设备1000可以经由诸如码分多址(“CDMA”)、全球移动系统(“GSM”)或时分多址(“TDMA”)及其它之类的通信协议通信，以便与其它设备通信。无线电通信可以是短程连接、远程连接，或短程和长程无线通信连接二者的组合。当我们提到“短”与“长”类型的连接时，我们的意思不是指两个设备之间的空间关系。相反，我们通常指的是短距离和长距离作为连接不同的类别或类型(即，主连接和副连接)。短距离连接可以包括到设备(例如，移动热点)的Wi-Fi连接，该设备提供到无线通信网络(诸如使用802.11协议的WLAN连接)的接入。到另一个计算设备的蓝牙连接是短程连接的第二个示例。远程连接可以包括使用CDMA、GPRS、GSM、TDMA802.16协议的一个或多个的连接。

实施例

本申请中描述的技术的各方面在此已被描述为是说明性的而非限制性的。应该理解的是，某些特征和子组合是有用的，并且可以不参考其它特征和子组合而被使用。这是可预期的并且是在权利要求的范围之内的。

Claims

1.一种或多种包括计算机可执行指令的计算机存储介质，当由计算设备执行所述指令时使得所述计算设备执行对自然用户界面控制进行响应的方法，包括：

在发送计算设备和接收计算设备之间的同步通信会话期间在所述发送计算设备处接收媒体，其中，所述媒体在所述同步通信会话期间在计算机网络上从所述发送计算设备传送到所述接收计算设备；

在所述媒体中的第一点处，通过在所述发送计算设备处分析所述媒体，检测所述媒体中自然用户界面(NUI)命令的起始；

在所述媒体中的第二点处，通过在所述发送计算设备处分析所述媒体，检测所述媒体中所述NUI命令的终止；

自动编辑所述媒体以从所述媒体中移除所述NUI命令，以生成所述NUI命令在其中并不显著的更改后媒体；

从所述发送计算设备向接收计算设备发送所述更改后媒体；以及

响应于所述NUI命令来改变所述发送计算设备的状态。

2.根据权利要求1所述的媒体，其中，所述媒体是视频。

3.根据权利要求2所述的媒体，其中，检测所述终止包括识别所述媒体中的停止手势，并且检测所述起始包括识别所述媒体中的开始手势。

4.根据权利要求3所述的媒体，其中，自动编辑包括删除所述媒体中的所述第一点和所述媒体中的所述第二点之间的视频帧。

5.根据权利要求1所述的媒体，其中，检测所述起始包括识别所述媒体中的可听的开始命令，并且检测所述终止包括识别所述媒体中的可听的停止命令。

6.根据权利要求5所述的媒体，其中，所述NUI命令是通过分析在所述可听的开始命令和所述可听的停止命令之间接收到的语音令牌来识别的。

7.根据权利要求5所述的媒体，其中，自动编辑包括删除所述媒体中的所述第一点和所述媒体中的所述第二点之间的音频内容，而不更改在所述媒体中的所述第一点和所述媒体中的所述第二点期间的可见的内容。

8.根据权利要求1所述的媒体，其中，所述NUI命令包括控制描述和控制操作。

9.一种对自然用户界面控制进行响应的方法，所述方法包括：

在发送计算设备处接收媒体；

通过在所述发送计算设备处分析所述媒体来检测所述媒体中的自然用户界面(NUI)命令；

自动编辑所述媒体以从所述媒体中移除所述NUI命令，以生成所述NUI命令在其中并不显著的更改后媒体；以及

从所述发送计算设备向接收计算设备发送所述更改后媒体。

10.根据权利要求9所述的方法，其中，所述发送是响应于所述NUI命令中的指令而发生的。

11.根据权利要求9所述的方法，其中，所述媒体是由所述发送计算设备捕捉的图像。

12.根据权利要求11所述的方法，其中，所述检测所述图像中的所述NUI命令包括使用图像分析来识别所述图像中的文本NUI注意词语或短语。

13.根据权利要求11所述的方法，其中，自动编辑包括删除所述图像中包括所述NUI命令的一部分。

14.根据权利要求9所述的方法，其中，自动编辑包括删除所述媒体中包括所述NUI命令的音频内容而不更改可见内容。

15.根据权利要求9所述的方法，还包括通过所述命令NUI识别所述接收计算设备。