CN108762512A

CN108762512A - 人机交互装置、方法及系统

Info

Publication number: CN108762512A
Application number: CN201810945168.8A
Authority: CN
Inventors: 吴坚
Original assignee: Zhejiang Nuclear Polymer Intelligent Technology Co Ltd
Current assignee: Zhejiang Nuclear Polymer Intelligent Technology Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2018-11-06

Abstract

本发明提供了一种人机交互装置、方法及系统，将图像采集模块与处理模块连接用于采集包含用户手势动作信息的图像；将音频采集模块与处理模块连接用于采集语音信息；将环境感知模块与处理模块连接用于采集周围环境信息；将处理模块和信息输出模块连接用于根据图像或语音信息生成待输出信息并将待输出信息发送给信息输出模块，信息输出模块将待输出信息输出；还可以根据环境信息生成设备控制指令控制外部设备。本发明通过设置图像采集模块、音频采集模块和环境感知模块使用户在需要向智能设备输入指令时无需使用传统的输入设备，解决了输入指令困难、耗时较长、使用起来不方便的技术问题，达到了可以从视觉、语音和环境感知等多方面实现人机交互的技术效果。

Description

人机交互装置、方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种人机交互装置、方法及系统。

背景技术

目前，随着人工智能技术的不断发展，一些智能设备逐渐走入人们的生活。用户一般使用键盘、鼠标和显示器等传统的输入输出设备与智能设备进行人机交互，例如，智能设备根据从输入设备接收到的指令作出响应，并将响应内容呈现在输出设备上。

然而，对于某些年龄较大、文化程度较低的人群，这类用户在需要向智能设备输入指令时，使用传统的输入设备输入指令可能非常慢，操作起来十分困难，耗时较长，使用起来非常不方便。

发明内容

有鉴于此，本发明的目的在于提供一种人机交互装置、方法及系统，以解决了在需要向智能设备输入指令时，使用传统的输入设备输入指令困难，耗时较长，使用起来不方便的技术问题。

第一方面，本发明实施例提供了一种人机交互装置，包括：图像采集模块、音频采集模块、环境感知模块、处理模块和信息输出模块；

所述图像采集模块与所述处理模块连接，用于采集包含用户手势动作信息的图像，并将所述图像发送给所述处理模块；

所述音频采集模块与所述处理模块连接，用于采集语音信息，并将所述语音信息发送给所述处理模块；

所述环境感知模块与所述处理模块连接，所述环境感知模块采集周围环境信息，并将所述环境信息发送给所述处理模块；

所述处理模块和所述信息输出模块连接，用于根据所述环境信息生成设备控制指令控制外部设备；并根据所述图像或所述语音信息生成待输出信息，并将所述待输出信息发送给所述信息输出模块；

所述信息输出模块将所述待输出信息输出。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述装置还包括：与外部设备通信连接的第一通信模块；

所述通信模块和所述处理模块连接，所述通信模块接收所述设备控制指令，并将所述设备控制指令发送给外部设备，以便于所述外部设备按照所述设备控制指令执行相应动作。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述信息输出模块包括：扬声器；

所述扬声器与所述处理模块连接，用于将所述待输出信息以语音方式输出。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述信息输出模块还包括：显示器；

所述显示器与所述处理模块连接，用于将所述待输出信息以视频或图像方式输出。

第二方面，本发明实施例还提供一种人机交互方法，应用于如第一方面所述的处理模块中，所述方法包括：

接收所述图像采集模块采集到的包含用户手势动作信息的图像或音频采集模块采集的用户语音信息；

接收所述环境感知模块采集的环境信息；

根据所述手势动作信息或所述语音信息生成待输出信息，并向所述信息输出模块输出所述待输出信息；

根据所述环境信息生成设备控制指令以用于控制外部设备。。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述根据所述手势动作信息生成待输出信息，包括：

获取包含用户手势动作图像特征的图像；

识别所述图像中的手势图像特征，得到手势动作信息；

若所述手势动作信息包括预设输出动作信息，根据所述手势动作信息生成待输出信息。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述方法还包括：

若所述手势动作信息为预设控制动作信息，根据所述手势动作生成设备控制指令，所述设备控制指令用于控制与所述手势动作信息对应的待控制外部设备。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，根据所述手势动作生成设备控制指令，包括：

若所述手势动作信息为语音输出动作信息，根据所述手势动作信息生成语音输出指令，所述语音输出指令用于控制外部设备输出与所述手势动作信息对应的语音信息；

若所述手势动作信息为视频输出动作信息，根据所述手势动作信息生成视频输出指令，所述视频输出指令用于控制外部设备输出与所述手势动作信息对应的视频或图像信息。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中，基于多个手势动作信息建立用户手势动作信息数据库，所述手势动作信息分为输出动作信息和控制动作信息。

第三方面，本发明实施例还提供一种人机交互系统，包括：外部设备、云端及如第一方面任一所述的人机交互装置；

所述外部设备内包括：第二通信模块和处理器；所述第二通信模块接收所述人机交互装置发送的所述设备控制指令；

所述处理器用于根据所述设备控制指令执行相应动作；

所述云端用于基于所述图像和所述设备控制指令，或者，基于所述图像和所述待输出信息进行深度学习并将学习结果反馈给所述处理模块。

本发明实施例带来了以下有益效果：首先令图像采集模块与所述处理模块连接，用于采集包含用户手势动作信息的图像，并将所述图像发送给所述处理模块；令所述音频采集模块与所述处理模块连接，用于采集语音信息，并将所述语音信息发送给所述处理模块；令所述环境感知模块与所述处理模块连接，所述环境感知模块采集周围环境信息，并将所述环境信息发送给所述处理模块；令所述处理模块和所述信息输出模块连接，用于根据所述图像或所述语音信息生成待输出信息，并将所述待输出信息发送给所述信息输出模块以便于所述信息输出模块将所述待输出信息输出；还可以用于根据所述环境信息生成设备控制指令控制外部设备。

本发明通过设置图像采集模块、音频采集模块和环境感知模块使用户在需要向智能设备输入指令时，无需使用传统的输入设备，解决了输入指令困难，耗时较长，使用起来不方便的技术问题，达到了可以从视觉、语音和环境感知等多方面实现人机交互的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人机交互装置结构图；

图2为本发明实施例提供的人机交互装置另一种结构图；

图3为本发明实施例提供的一种人机交互方法流程图；

图4为本发明实施例提供的一种人机交互系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

然而，对于某些年龄较大、文化程度较低的人群，这类用户在需要向智能设备输入指令时，使用传统的输入设备输入指令可能非常慢，操作起来十分困难，耗时较长，使用起来非常不方便，基于此，本发明实施例提供的一种人机交互装置、方法及系统，可以通过设置图像采集模块、音频采集模块和环境感知模块使用户在需要向智能设备输入指令时，无需使用传统的输入设备，解决了输入指令困难，耗时较长，使用起来不方便的技术问题，达到了可以从视觉、语音和环境感知等多方面实现人机交互的技术效果。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种人机交互装置进行详细介绍，如图1所示，所述人机交互装置可以包括：图像采集模块1、音频采集模块4、环境感知模块5、处理模块2和信息输出模块3；

所述图像采集模块1与所述处理模块2连接，用于采集包含用户手势动作信息的图像，并将所述图像发送给所述处理模块2；

所述音频采集模块4与所述处理模块2连接，用于采集语音信息，并将所述语音信息发送给所述处理模块2；

所述环境感知模块5与所述处理模块2连接，所述环境感知模块5采集周围环境信息，并将所述环境信息发送给所述处理模块2；

所述处理模块2和所述信息输出模块3连接，用于根据所述环境信息生成设备控制指令控制外部设备；并根据所述图像或所述语音信息生成待输出信息，并将所述待输出信息发送给所述信息输出模块3；

所述信息输出模块3将所述待输出信息输出。

本发明实施例通过设置图像采集装置、音频采集装置解决了在需要向智能设备输入指令时，使用传统的输入设备输入指令困难，耗时较长，使用起来不方便的技术问题。

在本发明实施例中，所述图像采集模块1可以指摄像头等，图像采集模块1采集到的可以是视频流，所以图像采集模块1向处理模块2发送的可以是视频流中的多帧图像或者一帧图像；图像采集模块1采集的也可以是单帧图像，发送给处理模块2的即为该采集到的单帧图像。

在本发明实施例中，所述音频采集模块4可以指麦克风，所述麦克风可以采集用户语音，将采集到的语音信息可以发送给所述处理模块2，所述处理模块2可以根据用户语音提取用户命令，并根据所述用户命令完成任务；示例性的用户通过语音表达想要听音乐，所述音频采集模块4就可以采集到用户想要听音乐的语音，并发送给所述处理模块2，所述处理模块2识别到听音乐的用户命令，从网络下载获取音乐，并通过所述信息输出模块3播放音乐，示例性的，所述信息输出模块3可以指扬声器。

在本发明实施例中，所述环境感知模块5可以指电子温度计和电子湿度等，可用来采集和发送温度信息和湿度信息。所述处理模块2可以将接收到的温度信息和湿度信息与预设温度阈值和预设湿度阈值进行判读，并根据判读结果生成设备控制指令。

示例性的，电子温度计采集到当前室内温度为28℃，所述电子温度计可以具有无线通信功能，通过无线通信将采集到的当前市内温度发送给所述处理模块2，而用户预先设置室温阈值为20℃～25℃，所述处理模块2判断出当前室内温度大于用户预设阈值，则可以生成温度控制指令，控制与所述人机交互装置无线通信连接的空调开启工作，降低室内温度。

在本发明的又一实施例中，如图2所示，所述人机交互装置可以还包括：与外部设备通信连接的第一通信模块6；

所述第一通信模块6可以和所述处理模块2连接，所述第一通信模块6可以接收所述设备控制指令，并将所述设备控制指令发送给外部设备，以便于所述外部设备按照所述设备控制指令执行相应动作。

在本发明又一实施例中，所述信息输出模块3可以包括：扬声器和显示器；

所述扬声器可以与所述处理模块2连接，用于将所述待输出信息以语音或音频方式输出；

所述显示器可以与所述处理模块2连接，用于将所述待输出信息以视频或图像方式输出。示例性的，所述显示器可以指电视或者电脑显示器。

在本发明实施例中，所述人机交互装置还可以设置包括：与云端通信的第三通信模块7；

所述第三通信模块7可以与云端通信连接，所述第三通信模块7还用于将所述视频流和所述控制指令发送给所述云端，或者，将所述视频流或图像和所述待输出信息发送给所述云端，以便于所述云端基于所述视频流或图像和所述控制指令，或者，基于所述视频流或图像和所述待输出信息进行深度学习并将学习结果反馈给所述处理模块2；通过本发明实施例，可以使所述人机交互装置越来越智能化，可以越来越精准的识别用户命令完成相应操作，越来越方便用户操作。

在本发明实施例中，所述人机交互装置还可以包括按键模块8；

所述按键模块8与所述处理模块2连接；所述按键模块8用于采集按键操作，并将所述按键操作对应的操作信息发送给所述处理模块2；

所述处理模块2还用于根据所述操作信息生成所述设备控制指令。

示例性的，可以在所述人机交互装置中设置电源键，用户通过按压所述电源键可以实现所述人机交互装置的开启和关闭；也可以设置直接用于控制外部设备开关的按键，可以直接通过所述人机交互装置控制外部设备。

在本发明实施例中，所述人机交互装置还包括存储模块9；

所述处理模块2还用于根据所述视频流或图像生成用户信息；

所述存储模块9与所述处理模块2连接，所述存储模块9存储所述用户信息及对外部设备的历史操作记录。

示例性的，用户通过所述人机交互装置选播电视节目，所述处理模块2可以通过当前用户的声音和脸部特征建立用户档案信息，记录该用户的观看电视节目的历史操作，以便于下次通过声音和脸部特征识别到同一用户登录时，按用户的喜好和习惯为用户推荐电视节目，提升用户体验。

在本发明实施例中，所述人机交互装置还可以包括电源模块10；

所述电源模块10分别与所述视频采集模块、所述处理模块2、所述第一通信模块6和第三通信模电连接，用于为所述人机交互装置供电。

在本发明的又一实施例中，还提供一种人机交互方法，所述人机交互方法可以应用于所述人机交互装置的处理模块2中，如图3所示，所述方法可以包括以下步骤：

步骤S1，接收所述图像采集模块1采集到的包含用户手势动作信息的图像或音频采集模块4采集的用户语音信息；

步骤S2，接收所述环境感知模块5采集的环境信息；

步骤S3，根据所述手势动作信息或所述语音信息生成待输出信息，并向所述信息输出模块输出所述待输出信息；

步骤S4，根据所述环境信息生成设备控制指令以用于控制外部设备。

在本发明实施例中，执行完步骤S1后可执行步骤S3，执行完步骤S2后可以执行步骤S4；步骤S1和步骤S2无先后顺序之分，步骤S3和步骤S4也没有先后顺序之分。本发明实施例所提供的方法，其产生的技术效果和前述装置实施例相同，为简要描述，方法实施例部分未提及之处，可参考前述装置实施例中相应内容。

为了根据所述手势动作信息生成待输出信息，在本发明的又一实施例中，步骤S2还可以包括以下步骤：

首先，对所述视频流中的多帧图像进行图像检测，得到包含用户手势动作的图像特征的图像帧；

然后，识别所述图像帧中的手势图像特征，得到手势动作信息；

最后，若所述手势动作信息包括预设输出动作信息，根据所述手势动作信息生成待输出信息。

为了通过所述人机交互装置控制外部设备，在本发明的又一实施例中，所述人机交互方法还可以包括：

若所述手势动作信息为预设控制动作信息，可以根据所述手势动作生成设备控制指令，所述设备控制指令用于控制与所述手势动作信息对应的待控制外部设备。

在本发明的又一实施例中，所述人机交互方法还可以包括：

若所述手势动作信息为语音或音频输出动作信息，根据所述手势动作信息生成语音或音频输出指令，所述语音或音频输出指令用于控制外部设备输出与所述手势动作信息对应的语音或音频信息；

若所述手势动作信息为视频输出动作信息，根据所述手势动作信息生成视频或图像输出指令，所述视频或图像输出指令用于控制外部设备输出与所述手势动作信息对应的视频和图像信息。

示例性的，用户作出代表播放音乐的手势动作，所述人机交互装置可以生成音频输出指令控制外部与所述人机交互装置通信连接的音箱等设备播放音乐；在本发明实施例中，用户作出代表播放音乐的手势动作时，所述人机交互装置也可以通过自身设置的扬声器来进行音频输出。同样的，若用户代表作出代表观看视频的手势，所述人机交互装置也可以生成视频输出指令控制外部与所述人机交互装置通信连接的电视、电脑等设备播放视频。示例性的，本发明实施例提供的人机交互装置可以包含IP音视频和DVB-C电视全部资源连接接口。

在识别所述图像帧中的手势图像特征，得到手势动作信息之前，在本发明的又一实施例中，所述人机交互方法还可以包括：

基于多个手势动作信息建立用户手势动作信息数据库，所述手势动作信息分为输出动作信息和控制动作信息。

在本发明的又一实施例中，如图4所示，还提供一种人机交互系统，包括：外部设备11、云端12及如前述实施例所述的人机交互装置13；

所述外部设备11内包括：第二通信模块111和处理器112；所述第二通信模块111接收所述人机交互装置13发送的所述设备控制指令；

所述处理器112用于根据所述设备控制指令执行相应动作；

所述云端12用于基于所述视频流或图像和所述设备控制指令，或者，基于所述视频流或图像和所述待输出信息进行深度学习并将学习结果反馈给所述处理模块2；通过本发明实施例，可以实现所述人机交互装置13、所述外部设备11、所述云端12和用户的通信交互，可以基于AI云端的深度学习优化所述通信交互过程，使所述人机交互装置可以更好的为用户服务，作为人类家庭生活助手方便用户的生活。

本发明实施例所提供的人机交互装置、方法及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人机交互装置，其特征在于，包括：图像采集模块、音频采集模块、环境感知模块、处理模块和信息输出模块；

所述处理模块和所述信息输出模块连接，用于根据所述图像或所述语音信息生成待输出信息，并将所述待输出信息发送给所述信息输出模块以便于所述信息输出模块将所述待输出信息输出；

根据所述环境信息生成设备控制指令控制外部设备。

2.根据权利要求1所述的人机交互装置，其特征在于，所述装置还包括：与外部设备通信连接的第一通信模块；

3.根据权利要求1所述的人机交互装置，其特征在于，所述信息输出模块包括：扬声器；

4.根据权利要求1所述的人机交互装置，其特征在于，所述信息输出模块还包括：显示器；

5.一种人机交互方法，其特征在于，应用于如权利要求1至4任一所述的处理模块中，所述方法包括：

接收所述环境感知模块采集的环境信息；

根据所述环境信息生成设备控制指令以用于控制外部设备。

6.根据权利要求5所述的人机交互方法，其特征在于，所述根据所述手势动作信息生成待输出信息，包括：

获取包含用户手势动作图像特征的图像；

识别所述图像中的手势图像特征，得到手势动作信息；

7.根据权利要求5所述的人机交互方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的人机交互方法，其特征在于，根据所述手势动作生成设备控制指令，包括：

9.根据权利要求5所述的人机交互方法，其特征在于，包括：

10.一种人机交互系统，其特征在于，包括：外部设备、云端及如权利要求1至4任一所述的人机交互装置；

所述处理器用于根据所述设备控制指令执行相应动作；