CN107422856A

CN107422856A - 用于机器处理用户命令的方法、装置和存储介质

Info

Publication number: CN107422856A
Application number: CN201710557771.4A
Authority: CN
Inventors: 赵丽丽; 张骏峰
Original assignee: Shanghai Xiaoyi Technology Co Ltd
Current assignee: Shanghai Xiaoyi Technology Co Ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2017-12-01
Also published as: EP3428779A1; US20190011992A1

Abstract

本公开提供一种人机交互方法和设备。根据一些实施例，所述方法可包括获得图像数据。所述方法还可包括由机器分析图像数据以检测事件的发生。所述方法还可包括生成表示检测到第一事件的第一信号。所述方法可进一步包括在生成第一信号之后检测到第二事件的首次发生时执行操作。

Description

用于机器处理用户命令的方法、装置和存储介质

技术领域

本公开总体涉及人机交互技术，更具体地，涉及用于机器处理用户命令的方法、处理用户命令的装置和非暂态计算机可读存储介质。

背景技术

许多智能装置，如智能相机和智能手机，不具有用户界面(UI)或仅具有用于人机交互的有限能力。例如，智能装置的尺寸限制使得许多传统的输入接口是不切实际的，例如键盘、鼠标等。因此，对于用户而言，向这些装置输入命令或其他信息是麻烦的。

此外，传统的UI通过如下方式实现：按键组合、屏幕触摸、鼠标移动、鼠标点击和显示。即使传统的UI用于某些智能装置，它们通常要求用户进行精确的手眼协调，并且/或者要求多个用户动作来完成任务。而且，传统的UI通常要求用户极其靠近UI。例如，对于附接至天花板的监控相机，让用户伸手够到相机上的键盘或触摸屏是不现实的。因此，传统的UI可能是不直观的、迟缓的、呆板的并且累赘的。

此外，身体不健全的人们可能无法有效地使用传统的UI。例如，视觉受损的人无法查看显示在屏幕上的信息，并且无法如愿使用触摸屏或键盘。另例，手部或手指得关节炎的病人通常发现对按钮进行点击动作是困难、痛苦或者甚至不可能的。

所公开的方法和系统致力于解决以上列出的一个或多个要求。

发明内容

与本公开的一个实施例一致，提供了一种机器处理用户命令的方法。所述方法可包括获得图像数据。所述方法还可包括由机器分析图像数据以检测事件的发生。所述方法还可包括生成表示检测到第一事件的第一信号。所述方法可进一步包括，在生成第一信号之后检测到第二事件的首次发生时执行操作。

与本发明的另一个实施例一致，提供了一种包括存储器和处理器的装置。存储器可以存储指令。处理器可配置为执行如下指令：获得图像数据；分析图像数据以检测事件的发生；生成表示检测到第一事件的第一信号；在生成第一信号之后检测到第二事件的首次发生时执行操作。

与本公开的又一个实施例一致，提供了一种存储指令的非暂态计算机可读存储介质。所述指令使得机器的处理器执行人机交互方法。所述方法可包括获取图像数据。所述方法还可包括由机器分析图像数据以检测事件的发生。所述方法还可包括生成表示检测到第一事件的第一信号。所述方法可进一步包括，在生成第一信号之后检测到第二事件的首次发生时执行操作。

应当理解，前述的总体描述和以下详细描述均仅是示例性且说明性的，不对所要求保护的本发明构成限制。

附图说明

通过结合而构成本说明书一部分的附图图示了与本发明一致的实施例并与描述一起用于解释本公开的原理。

图1为根据示例性实施例的图示了人机交互系统的示意图。

图2为根据示例性实施例的图1所示的人机交互系统的成像装置的框图。

图3为根据示例性实施例的图1所示的人机交互系统的服务器的框图。

图4为根据示例性实施例的图1所示的人机交互系统的用户装置的框图。

图5为根据示例性实施例的图示了图1示出的人机交互系统的实施的示意图。

图6为根据示例性实施例的图示了基于多反馈信号的人机交互方法的示意图。

图7为根据示例性实施例的图示了基于多反馈信号的人机交互方法的示意图。

图8为根据示例性实施例的人机交互方法的流程图。

具体实施方式

现在将详细参照示例性实施例，其例子图示在附图中。以下参照附图进行描述，在附图中，除非另有注明，不同图中的同样标号表示同样的或类似的要素。以下对示例性实施例的描述中给出的实施方式不代表与本发明一致的全部实施方式。相反，它们仅为与在所附的权利要求中表述的本发明相关的各方面相一致的装置和方法的例子。

本公开使用的人机交互是自然交互形式的，例如手势或语音交互，以解决传统UI的问题。与触摸屏幕、操纵鼠标或遥控器、拧动旋钮或按压开关相比，手势或语音控制更加便利、直观并且不费力。

建立人与机器之间的交互要求准确的手势和/或语音识别系统，并要面对多种挑战。例如，一些手势/语音识别系统可能会因为图像/语音数据噪声而容易出错，对模棱两可的手势/声音容忍度低，在硬件和软件上存在限制等。一些系统还要求用户以一定的方式作出手势或讲话。然而，在这些系统不给出合适有效的反馈的情况下，用户通常不确定如何改进地生成所要求的手势和声音。此外，用户的疲劳会降低用户生成手势和声音的质量，并殃及基于手势/语音的交互的准确性。

特别是，基于手势的二维(2D)或三维(3D)图像，机器可通过识别用户进行的手势来理解用户命令。2D手势识别对硬件要求低，因此适合低预算的情况。然而，由于2D图像的显示，其通常错误率较高。例如，在没有深度信息的情况下，2D手势识别系统在估计人手的形状、移动速度和/或位置方面存在困难。3D手势识别能够实现更高的准确性，但要求专用的结构复杂的成像设备，例如具有两个以上透镜的立体相机。因此，3D手势识别系统更加昂贵并且阻却了其广泛使用。

本公开提供了一种基于反馈信号的准确的人机交互系统和方法。为便于图示起见，以基于2D的手势识别的人机交互系统来说明本公开的原理。不过，本领域技术人员将认识到，本公开的原理可应用于任何类型的人机交互系统，例如基于3D手势识别的系统、语音识别系统等。

例如，图1示出了示例性的人机交互系统100。参照图1，系统100可包括成像装置110、服务器130和用户装置150。系统100的部件可通过网络170进行通信。

成像装置110可以是数码相机、网络相机、智能手机、平板电脑、便携式电脑或者配备有网络相机的视频游戏控制台。在操作中，成像装置110可以感测并监视各种类型的环境信息，例如家、医院、办公楼、停车场等。例如成像装置110可包括配置为捕捉环境的图像或视频(即视觉信息)的图像传感器。成像装置110还可以配置为通过例如麦克风等声音传感器来捕捉声音信息。成像装置110可进一步配置为感测对象的运动、环境中的振动、对成像装置110的接触。本公开不限制成像装置110监测和/或感测的信息的类型。在下面的描述中，由成像装置110感测的视觉信息、语音信息、运动、振动、接触和其他类型的信息在可应用处总称为“媒介信息”。

成像装置110可用各种方式处理捕捉的媒介信息。例如，成像装置110可在本地实时地将捕捉的图像和/或视频显示给成像装置110的用户。作为另一个例子，成像装置110可以使图像和/或视频流动至位于其他处的显示装置，例如安全监控中心，以监测环境的状况。在又一例子中，成像装置110可将图像和/或视频保存在存储装置中用于之后的回放。

与公开的实施例一致，用户可作出手势命令来控制成像装置110。例如，可对捕捉的图像和视频进行分析以确定用户(下文称为“第一用户”)是否在成像装置110前方作出了某些预定的手势。取决于检测到的手势，成像装置110可执行各种操作，例如生成通知(或警报)并将通知发送给服务器130，服务器130再将该通知转发给用户装置150。在一些实施例中，成像装置110还可直接将通知发送给用户装置150，而不用牵涉到服务器130。

响应于通知，用户装置150的用户(下文称为“第二用户”)可决定采取何种动作。第二用户可忽略该通知，可将通知转发给另一装置或者第三方，或可从成像装置110、服务器130或可存储相关的媒介信息的任何其他装置检索对应于该通知的媒介信息。

与所公开的实施例一致，通知可实时或根据预定的日程传送给用户装置150。例如，成像装置110和/或服务器130以预定的时间间隔传送通知给用户装置150。作为另一个例子，第二用户可优选在一天的某个时间窗期间(例如下午10点到上午6点)不接收任何通知。因此，服务器130可设置为在这个时间窗期间不传送通知给用户装置150。

下面将分别结合图2-4描述成像装置110、服务器130和用户装置150的详细结构和配置。图2示出了成像装置110的示例性配置。成像装置110可包括处理器202、存储器208、通信端口210、用户接口212、图像传感器214、运动传感器216和声音传感器218。在操作中，处理器202执行计算机指令(程序代码)并执行根据这里描述的技术的功能。例如，处理器202可指示图像传感器214连续地捕捉视频。在其他实施例中，处理器202从运动传感器216或声音传感器218接收表示潜在(移动)对象的信号。处理器202然后指示图像传感器214捕捉一个或多个视频。处理器202包括已知的处理装置或为其一部分，例如微处理器。在一些实施例中，处理器202包括任何类型的单核或多核处理器、移动装置微控制器、中央处理单元等。

存储器208配置为存储待由处理器202执行以实行在此公开的示例性功能的一个或多个计算机程序。例如，存储器208配置为存储由处理器202执行的程序以从运动传感器216接收表示潜在特定事件的信号并指示图像传感器214捕捉视频。存储器208也配置为存储本公开描述的方法中由处理器202使用的数据和/或参数。例如，存储器208基于从运动传感器216和/或声音传感器接收的信号而存储用于检测潜在特定事件的阈值。处理器202可以访问到存储在存储器208中的阈值，并基于接收到的信号检测一个或多个潜在特定事件。存储器208可以是易失性的或者非易失性的、磁性的、半导体的带式的、光学的、可移除的、不可移除的、或者其他类型的存储装置或者有形的(即，非暂态的)计算机可读介质，包括但不限于只读存储器(ROM)、闪存、动态的随机存取存储器(RAM)和静态RAM。

通信端口210配置为在网络170上将数据传送至或接收自其他装置中的服务器130和用户装置150。网络170可以是任何类型的允许传送和接收数据的有线或无线网络。例如，网络170可以是有线网络，本地无线网络，(例如，蓝牙Bluetooth^TM，WiFi，近场通信NFC，等等)，蜂窝网络，因特网等等，或其组合。提供用于在分离的装置之间传送数据的媒介的其他已知的通信方法也是可以预期的。

在公开的实施例中，图像传感器214与处理器202通信并配置为捕捉视频。在一些实施例中，图像传感器214连续地捕捉视频。在其他实施例中，图像传感器214从处理器202接收控制信号，并根据接收的控制信号捕捉视频。图像传感器214将捕捉的视频存储在存储器208中。

在一些实施例中，成像装置110可包括一个或多个运动传感器216和一个或多个声音传感器218用于检测潜在特定事件。例如，运动传感器216包括超声波传感器，其配置为发射超声波信号，并基于反射的超声波信号检测成像装置110附近的对象(静止的或运动的)。运动传感器216然后生成用于指示对象存在(即潜在特定事件)的信号并传送至处理器202。在接收到信号后，处理器202指示图像传感器214开始捕捉图像或视频。在另一个例子中，声音传感器218包括麦克风，其配置为检测周围的声音等级和/或从用户接收语音输入。如果周围的声音等级超过了阈值，声音传感器218生成用于指示异常声音(即，潜在特定事件)的信号并传送给处理器202。在接收到信号后，处理器202指示图像传感器214开始捕捉视频。用于检测对象、运动对象和/或声音的其他类型的传感器也是可预期的。

与公开的实施例一致，处理器202可包括手势检测模块204，其配置为检测由第一用户作出的手势。如上所述，在一个实施例中，成像装置110可配置为通过图像传感器214连续地记录四周环境的视频。如此，当第一用户作出用于控制成像装置110的手势时，手势检测模块204可基于图像传感器214记录的视频自动检测并识别该手势。在另一实施例中，图像传感器214配置为在从处理器202接收到控制信号后开始记录视频。在这种情况下，在作出用于控制成像装置110的手势之前，第一用户可在成像装置110的附近产生动作(例如通过挥手)或声音(例如通过拍手)。该动作可由运动传感器216检测到，其后发送触发信号给处理器202。类似地，该声音可由声音传感器218检测到，其然后发送触发信号给处理器202。接收到触发信号后，处理器202可启动图像传感器214来记录图像/视频。接下来，第一用户可作出手势，该手势由图像传感器214捕捉到并由手势检测模块204检测。

处理器202还可以包括通知生成模块206。当手势检测模块204检测到由第一用户作出的手势匹配于预定手势时，通知生成模块206可生成通知并将通知直接或通过服务器130传送给用户装置150。通知可提示用户装置150侧的第二用户作出某些行动，例如重播由成像装置110摄取的视频，与第一用户通信等等。

上述描述假定第一用户能够通过手势与成像装置110并对其进行控制。备选地或附加地，第一用户还可以通过用户接口212将各种命令和/或数据输入成像装置110。例如，用户接口212可包括键盘、触摸屏等。

图3示出了服务器130的示例性配置。参见图3，除了其他部件之外，服务器130可包括处理器302、存储器304和通信端口306。在操作中，处理器302执行计算机指令(程序代码)并执行根据这里描述的技术的功能。例如，在一些实施例中，处理器302可配置为执行计算机指令以从成像装置110接收通知并将通知实时或以预定时间间隔传送给用户装置150。处理器302也可以通过通信端口306在网络170上从成像装置110接收用于上传一个或多个视频的请求。处理器302包括已知的处理装置或为其一部分，例如微处理器。在一些实施例中，处理器302包括任何类型的单核或多核处理器、移动装置微控制器、中央处理单元等。

存储器304配置为存储待由处理器302执行以实行在此公开的示例性功能的一个或多个计算机程序。存储器304可以是易失性的或者非易失性的、磁性的、半导体的带式的、光学的、可移除的、不可移除的、或者其他类型的存储装置或者有形的(即，非暂态的)计算机可读介质，包括但不限于ROM、闪存、动态RAM和静态RAM。

通信端口306配置为在网络170上将数据传送至或接收自其他装置中的成像装置110和/或用户装置150。

图4示出了用户装置150的示例性配置。参见图4，除了其他部件之外，用户装置150可包括处理器402，存储器406，通信端口406，输入端408和显示器410。在操作中，处理器402执行计算机指令(程序代码)并执行根据这里描述的技术的功能。例如，在一些实施例中，处理器402从成像装置110接收预览视频。处理器402还经由输入端408从用户接收输入，并且然后将预览视频经由显示器410呈现给用户。处理器402进一步请求访问由成像装置110捕捉的原始视频，该视频可存储在成像装置110和/或服务器130中。处理器402包括已知的处理装置或为其一部分，例如微处理器。在一些实施例中，处理器402可包括任何类型的单核或多核处理器、移动装置微控制器、中央处理单元等。

存储器404配置为存储待由处理器402执行以实行在此公开的示例性功能的一个或多个计算机程序。例如，存储器404配置为存储可由处理器402执行以将接收的视频呈现给用户的程序。存储器404也配置为存储本公开描述的方法中由处理器402使用的数据和/或参数。

通信端口406配置为在网络170上将数据传送至或接收数据自其他装置中的成像装置110和/或服务器130。

图5为根据示例性实施例的图示了人机交互系统300的实施的示意图。参照图5，成像装置110可安装在位置510，例如，在住宅、教室、病房中等等，并配置为记录代表位置510处的场景的图像或视频。用户511也在位置510处并可通过手势与成像装置110交互和/或控制成像装置110。此外，用户装置150可以是由用户521携带的移动终端(例如智能手机)。用户521和用户装置150均处于位置520，远离位置510。在一个例子中，用户511可以通过作出某个预定手势来控制成像装置110使得视频信号流动至服务器130。这样的手势也使得成像装置110生成通知并将通知直接或通过服务器130传送给用户装置150。该通知可提示用户521播放流动过来的视频。在另一例子中，用户511可通过在成像装置110前方作出预定手势来发起与用户521的视频会谈。检测到并识别出手势后，成像装置110可生成通知，用于邀请用户521进行与用户511的视频会谈。用户装置150可接收并播放该通知，使得用户521可以通过操作用户装置150来建立与成像装置110的连接而响应该通知。如此，成像装置110可使得表示位置510处的场景的视频直接或经由服务器130流动至用户装置150。

下面将结合附图6-8详细描述所公开的人机交互方法。图6为根据示例性实施例的图示了基于多反馈信号的人机交互方法600的示意图。例如，方法600可由成像装置110执行。参见图6，要启动方法600，成像装置110的用户可作出第一手势，例如在成像装置110前方摊开手掌(步骤602)。当成像装置110识别出第一手势，成像装置110可生成第一反馈信号，即反馈信号A，以表明第一手势已被识别出并提示用户作出第二手势(步骤604)。在接收到反馈信号A时，用户可作出第二手势，例如握拳(步骤606)。当成像装置110识别出第二手势，成像装置110可生成第二反馈信号，即反馈信号B，以表明第二手势也已识别，并将生成对应于第一和第二手势的序列的通知(步骤608)。成像装置110然后生成对应的通知并传送给服务器130(步骤610)，服务器130随后将该通知中转给用户装置150(步骤612)。在接收到通知时，用户装置150可接收并播放由成像装置110记录的媒介信息(例如，图像、视频、声音等等)。

图7为根据另一示例性实施例的图示了基于多反馈信号的人机交互方法700的示意图。例如，方法700可由成像装置110执行。参见图7，成像装置110包括至少两个信号灯A和B，用于向成像装置110的用户(例如用户511)提供反馈信号。在步骤702中，成像装置110的用户作出手势，例如摊开手掌。在步骤704中，图像传感器214记录表示手势的图像数据并将图像数据传送给处理器202用于进一步处理。在步骤706中，处理器202运行手势识别算法来分析接收到的图像数据。当处理器202识别出由图像数据表示的手势，处理器202进一步将识别出的手势与一个或多个预设手势进行比较。在步骤708中，当识别出的手势匹配于预定手势1，处理器202启动用于提示用户执行第二手势的信号灯A。随后，再次执行步骤702-706以捕捉并识别用户作出的第二手势。在步骤710中，当成像装置110确定第二手势匹配于预定手势2，处理器202启动信号灯B，表明将生成对应于手势1和手势2的序列的通知。

图8为根据示例性实施例的人机交互方法800的流程图。例如，方法800可由成像装置110执行。参照图8，方法800可包括以下步骤802-818。

在步骤802中，成像装置110可获得表示由用户作出的手势的手势数据。例如，手势数据可包括一个或多个图像帧。在一些实施例中，图像帧由图像传感器214在时间上连续捕捉并形成视频片段。图像帧可显示静态的手或手指手势、和/或手或手指的动态手势(即运动)。

在步骤804中，成像装置110可基于手势数据来识别手势。例如，成像装置110可使用任何合适的计算机视觉或手势识别算法来从手势数据中提取特征，并辨认由手势数据代表的手势。

在步骤806中，成像装置110可确定识别出的手势是否匹配于预设手势。例如，成像装置110可查询存储有多个预设手势的特征的数据库。当所识别的手势的所提取的特征匹配于第一预设手势的特征时，成像装置110断定所识别的手势匹配于第一预设手势。

在步骤808中，当所识别的手势匹配于第一预设手势，成像装置110将监测标记设定为“1”，表示已识别出第一预设手势。监测标记可存储在处理器202的高速缓冲储存器中。

在步骤810中，成像装置110将第一反馈信号呈示给用户，提示用户执行第二预定手势。第一反馈信号可以是光信号、声音信号、振动等的形式。接下来，再次执行步骤802-806。当成像装置110确定用户接下来执行的手势不是第一预定手势时，成像装置110进行至步骤812并确定该接下来的手势是否匹配于第二预定手势(步骤812)。当该接下来的手势匹配于第二预定手势时，成像装置110进行至步骤814。否则，方法800结束并且成像装置110可将监测标记设定为“0”。

在一些实施例中，成像装置110仅在如下情况下进行至步骤814：在检测到第一预定手势之后在预定时间窗口内检测到了第二预定手势。否则，方法800结束并且成像装置110可将监测标记设定为“0”。

在步骤814中，成像装置110检查监测标记当前是否设定为“1”。当监测标记当前被设定为“1”，表示上次识别出的手势为第一预设手势，成像装置110进行至步骤816。否则，方法800结束并且成像装置110可将监测标记设定为“0”。

在步骤816中，成像装置110将第二反馈信号呈示给用户，表明将生成与第一和第二预定手势的序列对应的命令，然后进行至步骤818。第二反馈信号不同于第一反馈信号，并且可以是光信号、声音信号、振动等形式。

在步骤818中，成像装置110将监测标记设定为“0”并执行与第一和第二预设手势的序列对应的上述命令。例如，基于该命令，成像装置110可以生成通知，并将该通知以及与该通知关联的媒介数据传送给服务器130。服务器130可以然后将该通知发送给用户装置150，提示用户装置150的用户播放媒介信息。如果用户装置150的用户选择回放媒介信息，则用户装置150可以从服务器130接收该媒介数据的流并播放该媒介信息。

根据对本公开说明书的考察和实践，本公开的其他实施例对于本领域技术人员而言是显而易见的。本申请旨在覆盖本公开的遵照其总体原理的以及偏离本公开但在本领域已知或惯用范围内的任意变型、使用或适应性改变。说明书和例子旨在仅作举例考虑，而本发明的真实范围和精神由随附的权利要求来表示。

应当理解，本公开不限于以上描述的和附图中图示的具体构建，在不偏离其范围的情况下可以做出多种修改和改变。本公开的范围应仅由随附的权利要求限定。

Claims

1.一种用于机器处理用户命令的方法，包括：

获得图像数据；

由所述机器分析所述图像数据以检测事件的发生；

生成表示检测到第一事件的第一信号；以及

在生成所述第一信号之后检测到第二事件的首次发生时执行操作。

2.如权利要求1所述的方法，其中，分析所述图像数据包括：

将所述图像数据与代表所述第一事件和所述第二事件的参考数据进行比较；以及

基于比较来检测所述第一事件和所述第二事件。

3.如权利要求1所述的方法，还包括：

在生成所述第一信号之后检测到所述第二事件的首次发生时，生成表示检测到所述第二事件的第二信号。

4.如权利要求1所述的方法，还包括：

仅在生成所述第一信号后在预定量的时间内检测到所述第二事件时执行所述操作。

5.如权利要求1所述的方法，其中，在生成所述第一信号之后检测第二事件的首次发生包括：

基于监测标记的值，在生成所述第一信号之后检测所述第二事件的首次发生。

6.如权利要求5所述的方法，还包括：

在检测到所述第一事件时，将所述监测标记设定为第一值。

7.如权利要求6所述的方法，还包括：

在生成所述第一信号之后预定量的时间内既检测不到所述第一事件又检测不到所述第二事件时，将所述监测标记设定为第二值。

8.如权利要求6所述的方法，还包括：

在检测到所述第二事件时，确定所述监测标记是否被设定为所述第一值；以及

在检测到所述监测标记被设定为所述第一值时，执行所述操作。

9.如权利要求6所述的方法，还包括：

在执行所述操作之后，将所述监测标记设定为第二值。

10.如权利要求1所述的方法，其中所述第一事件和所述第二事件分别对应于第一手势和第二手势。

11.如权利要求1所述的方法，其中所述第一信号包括视觉信号和声音信号中的至少一个。

12.一种处理用户命令的装置，包括：

存储器，其存储指令；以及

处理器，其配置为执行所述指令以：

获得图像数据；

分析所述图像数据以检测事件的发生；

生成表示检测到第一事件的第一信号；以及

13.如权利要求12所述的装置，其中所述处理器进一步配置为执行所述指令以：

14.如权利要求12所述的装置，其中所述处理器进一步配置为执行所述指令以：

15.如权利要求12所述的装置，其中所述处理器进一步配置为执行所述指令以：

16.如权利要求15所述的装置，其中所述处理器进一步配置为执行指令以：

在检测到所述第一事件时，将所述监测标记设定为第一值。

17.如权利要求16所述的装置，其中所述处理器进一步配置为执行所述指令以：

18.如权利要求16所述的装置，其中所述处理器进一步配置为执行所述指令以：

在执行所述操作之后，将所述监测标记设定为第二值。

19.如权利要求12所述的装置，其中所述第一事件和所述第二事件分别对应于第一手势和第二手势。

20.一种非暂态计算机可读存储介质，其存储指令，该指令在由机器的处理器执行时使得所述处理器执行包括如下步骤的方法：

获得图像数据；

分析所述图像数据以检测事件的发生；

生成表示所述机器检测到第一事件的第一信号；以及