CN108594987A

CN108594987A - 基于多模态交互的多人机协同行为监控系统及其操控方法

Info

Publication number: CN108594987A
Application number: CN201810228909.0A
Authority: CN
Inventors: 刘禹; 白忠可; 刘代金; 王国鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-28

Abstract

本发明涉及人机交互领域，提供了一种基于多模态交互的多人协同行为监控系统，旨在解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题。为此目的，本发明中基于多模态交互的多人协同行为监控系统包括云端服务器和多个子系统；子系统包括用于采集当前空间图像的图像采集装置、用于识别人脸、语义分析、唤醒识别和声源定位的控制装置、功放装置和多个用于采集空间内声音和根据所采集的声音判断声源位置的收音装置；云端服务器用于依据多个子系统得到识别结果和分析结果，向多个子系统的各控制装置发送控制指令，控制装置依据控制指令控制对应的功放装置播放应答语音。通过本发明可以获取所有用户的交互行为并实现多人协同操作。

Description

基于多模态交互的多人机协同行为监控系统及其操控方法

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于多模态交互的多人协同行为监控系统及其操控方法。

背景技术

随着人工智能的快速发展，人机交互过程中机器对人的多模态的理解，在教育领域、指挥控制领域、工程制造领域等扮演越来越重要的角色。随着社会的发展，人机交互过程中需要多人的协作配合来共同完成一个任务。常规的应用更多的是汇聚多家单一技术嫁接到产品中，传统包括图像应用技术，语音识别技术如科大讯飞的语音，face++的图像算法等。人工智能的起点是对图像识别和语音的准确处理，确切了说就是人机交互过程中机器对人的多模态的理解，而对于多人协同的人机交互过程中，例如在教育领域、指挥控制领域、工程制造领域，都会存在多人协同完成一个任务的情况，那么对多人行为数据进行采集分析就很有价值，而机器如何准确的理解多人的动作和语言势必需要一种系统设备提供多模态的数据，以达到群里协同适应性的目的。

但是，要同时达到机器对多用户的全方位多模态数据的采集和多用户多节点的多模态理解，然后基于多用户信息交互下多模态的采集、分布式控制和学习，实现群体多模态对于动态复杂环境下多用户的适应的需求仍存在一定的空白。目前较为成熟的多模态集合体硬件系统和算法集合并没有真正协同起来。常规的人机交互监控和监测方式包括语音识别和动作监控，都是独立运行并且没有协同分析的，这样就不可避免的出现了对事件处理的关联性误差分析和准确度分析的缺失。

发明内容

为了解决现有技术中的上述问题，即为了解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题，本发明提供了一种基于多模态交互的多人协同行为监控系统。

在第一方面，本发明中的基于多模态交互的多人协同行为监控系统包括云端服务器和多个子系统；所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置，其中，所述图像采集装置设置在预设壳体的顶部，多个所述收音装置分布设置在所述预设壳体上，所述控制装置设置在所述预设壳体的内部，并分别与所述图像采集装置、功放装置和收音装置通信；

所述图像采集装置，配置为采集所述系统当前所在空间的图像，并依据所采集的图像，获取人脸图像信息和实时捕捉人体肢体动作信息；

所述收音装置，配置为采集所述空间内的声音和根据所采集的声音判断声源位置；所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块；所述人脸识别模块，配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别，并将识别结果发送到云端服务器；所述语音识别定位模块，配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位；所述语音分析模块，配置为对所述收音装置所采集的声音进行语义分析，并将分析结果发送到所述云端服务器；

所述云端服务器，配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果，向多个子系统的各控制装置发送控制指令，所述各控制装置依据该控制指令控制对应的功放装置播放应答语音；

所述功放装置，配置为对所述应答语音进行播放和声音放大。

优选地，所述控制装置还包括图像采集控制模块；所述图像采集控制模块包括图像跟踪单元和声音跟踪单元；

所述图像跟踪单元，配置为依据所述图像采集装置所获取的人脸图像信息和/人体肢体动作信息，确定用户所在区域，并控制所述图像采集装置获取该区域的图像；

所述声音跟踪单元，配置为获取所述语音识别定位模块通过声源定位确定的区域，并控制所述图像采集装置获取该区域的图像。

优选地，所述图像跟踪单元配置为采用跟踪算法确定用户所在的区域，并控制所述图像采集装置获取该区域的图像；所述声音跟踪单元配置为采用声源定位算法获取和确定声源所在的区域，并控制所述图像采集装置获取该区域的图像。

优选地，所述图像采集装置包括摄像头、云台和云台驱动模块；所述云台驱动模块包括驱动器；

所述摄像头通过所述云台安装在所述预设壳体的顶部；

所述驱动器，配置为控制所述云台沿预设水平方向转动和预设垂直方向转动，以驱动所述摄像头水平运动和驱动所述摄像头俯仰运动。

优选地，所述控制装置还包括启动控制模块；所述启动控制模块，配置为执行下述操作：

接收系统启动指令，并依据所接收的系统启动指令，进行系统自检；

在所述系统自检完成后，控制所述图像采集装置采集当前空间的图像，并判断所述图像是否包含人体特征信息；

若所述图像包含人体特征信息，则依据所述人体特征信息确定用户所在区域，并控制所述图像采集装置采集该区域的图像，以及启动距该区域最近的收音装置；

若所述图像未包含人体特征信息，则通过所述语音识别定位模块确定用户所在区域，并控制所述图像采集装置采集该区域的图像。

优选地，所述收音装置为六个，各收音装置360°均匀环绕于预设壳体的中部，并在同一水平面上。

优选地，所述收音装置为驻极体麦克风。

优选地，所述控制装置还包括回声消除模块；所述回声消除模块用于对所述各功放装置协同播放应答语音时并对所述应答语音进行回声消除。

优选地，所述子系统还包括供电装置，所述供电装置包括电源板和/或电池；所述电源板用于与外部电源连接以向子系统供电；所述电池用于直接向子系统供电。

优选地，所述子系统还包括反馈装置；所述反馈装置，配置为获取各用户对所述功放装置播放应答语音的反应，并传送至云端服务器。

在第二方面，本发明中的基于多模态交互的多人协同行为监控操控方法包括：

对所述基于多模态交互的多人协同行为监控系统进行初始化；

控制所述图像采集装置采集当前所在空间的图像和控制所述收音装置采集所述空间内的声音；

通过所述控制模块中的图像跟踪单元和/或声音跟踪单元，获取用户所在区域的图像；

通过所述控制模块中的人脸识别模块，和/或语音识别定位模块与语音分析模块，获取所述识别结果和分析结果；

基于多个所述子系统发送的识别结果和分析结果，并通过所述云端服务器向多个所述子系统的各控制装置发送控制指令，以使各所述控制装置依据该控制指令控制对应的功放装置播放应答语音。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1.本发明的基于多模态交互的多人协同行为监控系统中，通过云端服务器和多个子系统的数据交互，可以同时达到对多用户的全方位数据的采集，对多用户多节点多模态的理解，然后基于多用户信息交互下多模态采集、分布式指挥控制和学习，实现群体多模态对于动态复杂环境下多用户的适应性的需求，从而实现了多人协同行为的多模态采集和分析建模，为多人共同完成一件任务提供了有力的保障。

2.本发明的基于多模态交互的多人协同行为监控系统中，通过在控制装置中设置图像采集控制模块，不仅可以根据所获取的人脸图像信息和人体肢体动作信息实现实时追踪用户，而且还可以通过声源定位确定用户区域，实时追踪用户声音和动作，从而保证图像采集装置能够获取用户的图像，为多模态的人机交互奠定重要的基础。从而为多人协同行为分析的应用和人工智能涉及的信息采集和多模态行为建模作保障，更好地服务于人机交互过程中多人协同行为的多模态分析和应用。

附图说明

图1是本发明实施例的基于多模态交互的多人协同行为监控系统的主要框架示意图；

图2是本发明实施例的基于多模态交互的多人协同行为监控系统的子系统的主要硬件布局的示意图；

图3是本发明实施例的基于多模态交互的多人协同行为监控系统的主要工作流程示意图；

附图中标记为：1-云端服务器，2-子系统，21-图像采集装置，211-摄像头，2131-舵机，22-控制装置，221-人脸识别模块，222-语音分析模块，223-语音识别定位模块，225-设备控制板，23-功放装置，231-音响，24-收音装置，241-驻极体麦克风，25-散热风扇。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

下面结合附图，对本发明实施例中基于多模态交互的多人协同行为监控系统进行说明。

参阅附图1，图1示例性的示出了本发明实施例的基于多模态交互的多人协同行为监控系统的主要框架。如图1所示，本实施例中基于多模态交互的多人协同行为监控系统包括云端服务器1和多个子系统2；子系统2包括图像采集装置21、控制装置22、功放装置23和多个收音装置24，其中，图像采集装置21设置在预设壳体的顶部，多个收音装置24分布设置在预设壳体上，控制装置22设置在预设壳体的内部，并分别与图像采集装置21、功放装置23和收音装置24通信。

图像采集装置21可以配置为采集系统当前所在空间的图像，并依据所采集的图像，获取人脸图像信息和实时捕捉人体肢体动作信息。

进一步地，本实施例中图像采集装置21包括摄像头211、云台和云台驱动模块；云台驱动模块包括驱动器。

摄像头211通过云台安装在预设壳体的顶部。

驱动器可以配置为控制云台沿预设水平方向转动和预设垂直方向转动，以驱动摄像头211水平运动和驱动摄像头211俯仰运动。

具体地，本实施例中通过摄像头211采集图像，本实施例中的驱动器为舵机2131。通过控制云台转动舵机2131转动，从而控制摄像头211的拍摄方向。

收音装置24可以配置为采集所述空间内的声音和根据所采集的声音判断声源位置。

进一步地，本实施例中收音装置24为六个，各收音装置24采用360°均匀环绕于预设壳体的中部，并在同一水平面上。

具体地，本实施例中收音装置24为驻极体麦克风241，该主机体麦克风可以判断声音的方向。

具体地，本实施例中的功放装置23可以为音响231。

控制装置22包括人脸识别模块221、语音识别定位模块223和语音分析模块222。

其中，人脸识别模块221可以配置为依据图像采集装置21所获取的人脸图像信息进行人脸识别，并将识别结果发送到云端服务器1。

具体地，本实施例中通过人脸识别模块221，并采用人脸识别算法识别图像采集装置21所获取的人脸图像信息进行人脸识别。

语音识别定位模块223可以配置为依据所述收音装置24所采集的声音进行唤醒识别与声源定位。

具体地，本实施例中通过语音识别定位模块223对发声用户进行关键词唤醒识别，并采用声源定位算法定位发声用户的位置。

语音分析模块222可以配置为对收音装置24所采集的声音进行语义分析，并将分析结果发送到云端服务器1。

具体地，本实施例中通过语音分析模块222，并采用语音识别算法、语义理解算法和语音合成算法对所采集的声音进行语义分析并将分析结果发送到云端服务器1。

具体地，本实施例中控制装置22包括系统板、设备控制板225和麦克风阵列控制板。其中，系统板用于与云端服务器1进行数据存储和数据交互；设备控制板225用于控制舵机2131的转动，通过串口接收系统板传来的指令；麦克风阵列控制板主要用于判断声音方向并采集声音然后把声音采集至系统板进行识别，该麦克风阵列控制板还具有回声消除的功能。麦克风阵列控制板连接六个驻极体麦克风241，并连接音响231。本实施例中的控制装置22可以包括系统板和设备控制板225和麦克风阵列控制板中的一个或多个实施控制装置22的功能。

进一步地，本实施例中控制装置22还包括图像采集控制模块；图像采集控制模块包括图像跟踪单元和声音跟踪单元。

图像跟踪单元可以配置为依据图像采集装置21所获取的人脸图像信息和/人体肢体动作信息，确定用户所在区域，并控制图像采集装置21获取该区域的图像。

具体地，本实施例中图像跟踪单元采用动作捕捉算法确定用户所在区域，并控制图像采集装置21获取该区域的图像。

声音跟踪单元可以配置为获取语音识别定位模块223通过声源定位算法获取和确定声源所在的区域，并控制图像采集装置21获取该区域的图像。

进一步地，本实施例中控制装置22还可以包括启动控制模块；启动控制模块，配置为执行下述操作：

在系统自检完成后，控制图像采集装置21采集当前空间的图像，并判断图像是否包含人体特征信息；

若图像包含人体特征信息，则依据人体特征信息确定用户所在区域，并控制图像采集装置21采集该区域的图像，以及启动距该区域最近的收音装置24；图像采集装置21依据所采集的图像，获取人脸图像信息和实时捕捉人体肢体动作信息。

若图像未包含人体特征信息，则通过语音识别定位模块223确定用户所在区域，并控制图像采集装置21采集该区域的图像。

具体地，本实施例中当用户一键开启子系统2的电源后，该子系统2系统对每个传感器和功能驱动进行自检，自检过程中有云台的转动和语音的播放。自检完成后开启摄像头211。摄像头211开始捕捉用户图像和动作从而控制云台转动，使设备面朝用户并开启麦克风阵列中距离用户最近的一个，其他的用来屏蔽噪音；若用户不在摄像头211视野范围内，系统利用麦克风阵列自动判断用户发出的唤醒词声源位置，从而使摄像头211转向用户正对面同时开启距离用户最近的麦克。该子系统2通过完成以上流程开始进入正常工作状态。

进一步地，本实施例中控制装置22还可以包括回声消除模块，回声消除模块用于对各功放装置23协同播放应答语音时并对该应答语音进行回声消除。

具体地，本实施例中的回声消除模块采用回声消除算法进行回声消除，同时该回声消除模块还可以防止复杂环境下的噪声干扰。本实施例中的回声消除模块可以包括麦克风阵列和音响。

云端服务器1可以配置为利用多模态算法并依据多个子系统2发送的识别结果和分析结果，向多个子系统2的各控制装置22发送控制指令，各控制装置22依据该控制指令控制对应的功放装置23播放应答语音。

功放装置23可以配置为对应答语音进行播放和放大。

进一步地，本实施例中子系统2还包括供电装置，供电装置包括电源板和/或电池；电源板用于与外部电源连接以向子系统2供电；电池用于直接向子系统2供电。

在本实施例的一个优选实施方案中，可以将系统板、设备控制板、麦克风阵列控制板集成在一个电路板上，同时实现系统板、设备控制板、麦克风阵列控制板的功能，以节省空间。

进一步地，本实施例中还可以包括反馈装置；反馈装置可以配置为获取各用户对功放装置23播放的应答语音的反应，并传送至云端服务器1。

具体地，本实施例中的反馈装置是通过摄像头211和驻极体麦克风241来记录用户的反应的。

进一步地，本实施例中基于多模态交互的多人协同行为监控系统还可以包括散热风扇25，散热风扇25受设备控制板控制，该散热风扇25主要用于电源板和系统板的散热。

参阅附图2，图2示例性的示出了本发明实施例的基于多模态交互的多人协同行为监控系统的子系统2的主要硬件布局。如图2所示，摄像头211和舵机2131安置于最上层，驻极体麦克风位于第二层，设备控制板225位于第三层，音响231和散热风扇25位于最底层并两边分布。

参阅附图3，图3示例性的示出了本发明实施例的基于多模态交互的多人协同行为监控系统的主要工作流程。如图3所示，该系统的工作流程主要包括系统初始化、视频和声音数据采集、数据处理、定位跟踪、数据整合、协同指挥以及云计算。

其中，在系统工作之前首先要进行系统的初始化，包括开机初始化、摄像头初始化、麦克风阵列初始化和通信系统初始化。

视频和声音数据采集包括通过跟踪算法、动作捕捉算法等进行视频采集，通过声音定位算法进行声音采集。

数据处理包括通过语音识别算法、语义理解算法、语音合成算法进行语义理解，通过人脸识别算法和人脸匹配算法进行图像识别。

其中在数据处理的过程中，还包括对用户的定位跟踪。通过声源定位算法对用户的声音进行定位从而控制麦克风阵列实时追踪发生用户，通过动作捕捉算法对用户的表情和动作进行实时追踪，控制舵机的转动，从而控制摄像头实时追踪用户。数据处理过程中通过一系列的动作、声音的追踪，通过追踪指令追踪用户。

数据整合包括多语义整合、多图像整合和多模态模型整合。

云计算包括行为分析、协同分析和多模态建模。

基于多模态交互的多人协同行为监控系统，能够提供清晰的图像和语音，从而为多人协同行为分析的应用和人工智能设计的信息采集和多模态行为建模提供保证，从而更好的服务于人机交互过程中多人协同行为的多模态分析和协同指挥应用中。

基于与基于多模态交互的多人协同行为监控系统实施例相同的技术构思，本发明还提供了一种基于多模态交互的多人协同行为监控操控方法。下面对该基于多模态交互的多人协同行为监控操控方法进行具体说明。

本实例中基于多模态交互的多人协同行为监控操控方法包括：

对基于多模态交互的多人协同行为监控系统进行初始化；

控制图像采集装置采集当前所在空间的图像和控制所述收音装置采集所述空间内的声音；

通过控制模块中的图像跟踪单元和/或声音跟踪单元，获取用户所在区域的图像；

通过控制模块中的人脸识别模块，和/或语音识别定位模块与语音分析模块，获取所述识别结果和分析结果；

基于多个子系统发送的识别结果和分析结果，并通过云端服务器向多个子系统的各控制装置发送控制指令，以使各控制装置依据该控制指令控制对应的功放装置播放应答语音。

本领域技术人员可以理解，上述独权1中主题名称还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未示出。

本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多模态交互的多人协同行为监控系统，其特征在于，所述系统包括云端服务器和多个子系统；所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置，其中，所述图像采集装置设置在预设壳体的顶部，多个所述收音装置分布设置在所述预设壳体上，所述控制装置设置在所述预设壳体的内部，并分别与所述图像采集装置、功放装置和收音装置通信；

2.根据权利要求1所述的系统，其特征在于，所述控制装置还包括图像采集控制模块；所述图像采集控制模块包括图像跟踪单元和声音跟踪单元；

3.根据权利要求2所述的系统，其特征在于，所述图像跟踪单元配置为采用跟踪算法确定用户所在的区域，并控制所述图像采集装置获取该区域的图像；所述声音跟踪单元配置为采用声源定位算法获取和确定声源所在的区域，并控制所述图像采集装置获取该区域的图像。

4.根据权利要求1所述的系统，其特征在于，所述图像采集装置包括摄像头、云台和云台驱动模块；所述云台驱动模块包括驱动器

所述摄像头通过所述云台安装在所述预设壳体的顶部；

所述驱动器，配置为控制所述云台沿预设水平方向转动和预设垂直方向转动，以分别驱动所述摄像头水平运动和驱动所述摄像头俯仰运动。

5.根据权利要求1-4任一项所述的系统，其特征在于，所述控制装置还包括启动控制模块；所述启动控制模块，配置为执行下述操作：

6.根据权利要求1或2所述的系统，其特征在于，所述收音装置为六个，各收音装置360°均匀环绕于预设壳体的中部，并在同一水平面上。

7.根据权利要求6所述的系统，其特征在于，所述收音装置为驻极体麦克风。

8.根据权利要求1-4任一项所述的系统，其特征在于，所述控制装置还包括回声消除模块；所述回声消除模块用于对所述各功放装置协同播放应答语音时并对所述应答语音进行回声消除。

9.根据权利要求1-4任一项所述的系统，其特征在于，所述子系统还包括供电装置，所述供电装置包括电源板和/或电池；所述电源板用于与外部电源连接以向子系统供电；所述电池用于直接向子系统供电。

10.根据权利要求1-4任一项所述的系统，其特征在于，所述子系统还包括反馈装置；所述反馈装置，配置为获取各用户对所述功放装置播放应答语音的反应，并传送至云端服务器。

11.一种基于权利要求3-10任一项所述的基于多模态交互的多人协同行为监控系统的操控方法，其特征在，所述操控方法包括：