CN115100563A

CN115100563A - 一种基于视频分析的生产过程交互与监测智能场景

Info

Publication number: CN115100563A
Application number: CN202210670701.0A
Authority: CN
Inventors: 梅雪; 刘天驰; 翟天翔; 张启航; 何毅
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-23

Abstract

本发明公开了一种基于混合现实技术与人体动作行为等生物特征识别技术的智能场景系统，属于视频分析、模式识别及混合现实领域。包括以工业现场数据采集模块、双向传输及影像展示机制和数据处理中心为主体的基础架构，以及根据不同场景实际需求可个性化添置更改的动态模块空间；利用AR智能眼镜和工业工厂的摄像头装置获取现场工作图像与视频数据；采用通讯服务搭建的人机交互通道，将图像视频传递至后端数据处理中心，经过视频分析处理后再将反馈意见传输至现场工作人员；对有异常信息反馈的情况，现场工作人员选择是否接通专家系统等方式，进行实时监控生产质量。所述系统可以根据实际情况进行功能模块增减调整，以适应多种场景应用。本发明面向工业领域对视频应用需求，实现生产过程实时交互与监测的智能场景。

Description

一种基于视频分析的生产过程交互与监测智能场景

技术领域

本发明面向智能制造工业智能场景应用，涉及机器视觉、模式识别、无线网络等技术，具体涉及一种基于视频处理与分析的生产过程监测及交互场景及系统。

背景技术

随着全球新一轮科技革命和产业变革深入发展，“AI+智能制造”领域正形成爆发式增长的态势。目前我国企业在工厂设计、生产作业、质量管控等环节已形成智慧场景，但这些场景中，典型的模式主要集中在“车间智能排产”、“智能在线检测”、“能耗数据监测”等应用，场景的智能化程度、类型数量和人机交互的深度等都还需进一步改善。

目前大部分投入使用的智能场景系统都还停留在人机协同作业的层面，人与智能机器的交互程度为单向的“主仆”关系，多采用“人控制机器”的运作模式，而随着物联网的更新升级以及人工智能的飞速发展，人机关系即将迎来根本性的转变，即转为“伴侣”型双向交互的人机融合关系。

人工智能未来的方向是要构建开放协同的人工智能科技创新体系，如今人机交互智能系统在汽车、医疗、传统制造业等领域的应用已经走向成熟，在工业智能制造场景化方面，已有相关知识产权，例如申请号为CN201821183091.7的专利公开了一种项目精准配对体验的分布式智慧场景数据存储系统；申请号为CN202110953911.6的专利申请公开了一种智慧场景式公共气象融媒体智能感光播报系统；申请号为CN2015100310W 的专利公开了一种穿戴式人机交互装置、人机交互系统及方法。但这些专利方法大多针对特定的应用场景，而且需要使用特定的显示识别装置，系统设备的安装费用较高，对图像数据的要求苛刻，面临着场景可移植性欠缺、系统通用性低，和功能模块难以灵活改变等问题。

另外，当前与虚拟现实技术结合的智慧场景应用还处于萌芽阶段，真正在工厂中落地应用数量不多，已有的智慧场景相关专利多数采用“单向命令式”的操作模式，人机交互程度不高，数据信息与展示的方式较为单一。因此构建一套具有实时交互功能的混合现实智能场景，扩展场景功能、提升通用性，将其应用于复杂的、多样化的实际工厂环境是非常必要的。

发明内容

技术问题：面向工业生产过程实时监测、产品质量在线检测的需求，针对工业场景中生物特征识别、人机深度交互融合等问题，提出一种基于视频分析的人机实时交互性生产监测智能场景平台，旨在促进混合现实交互场景落地、提升工业企业智能化水平和生产效率。

技术方案：本发明第一方面，提供一种基于混合现实技术与人体动作行为等视频分析的生物特征识别技术的智能场景整体架构，包括：

以多视角工业现场数据采集模块、双向传输及影像展示机制和视频数据处理中心为主体的基础架构；

基于视频分析技术与行为动作识别技术，部署于后台服务器上的视频处理模块；

根据不同场景实际需求可个性化添置更改的动态模块空间。

进一步的，所述多视角工业现场数据采集模块，包括：

通过给操作人员配备虚拟现实智能眼镜，获取第一视角作业现场数据；

通过工厂的固定摄像头采集整体的全景数据信息，作为数据信息补充，形成多视角数据分析通道。

进一步的，所述双向传输及影像展示机制，包括：

将数据采集模块捕捉到的工作画面与生产视频传输至后端数据处理中心；

根据预先设置的特征识别算法，对静态图像进行特征提取与处理，对动态视频进行在线处理和分析；

将视频分析的结果实时反馈至现场工作人员，包括操作规范、产品合格、异常行为、操作失误等工作状态信息；

本发明的第二方面，提供一种以手势识别为基础的人机实时交互系统，包括：

利用手势识别和语音控制等识别控制技术，建立“视觉+语音”的多通道实时人机交互系统；

进一步的，上述手势识别技术，包括：

构建在背景音嘈杂或不便于语音等的工厂环境下手势识别系统，建立手势数据集；

利用混合现实眼镜采集手部动作，融合工厂中固定位置监控摄像头的信息进行识别，发出相关的指令；

手势提取过程中对工作人员所处环境背景、所站位置等没有特殊要求；

根据实际需求添加交互手势，扩大识别手势数据类型的规模；

进一步的，手势数据集包括简单操作语义的单手指令和较为复杂的双手指令；

交互中需求的手势表达不同时，增加训练样本，迁移应用场景；

嵌入手语识别模块，对于特殊使用人群，例如聋哑人士，实现手语翻译成文字及姿态生成的功能，满足交流的需求；

进一步的，上述多通道实时人机交互系统，包括：

利用语音控制来远程传输指令、控制硬件设备的启停等；

以用户为中心，以人体的生物特征为识别特征来建立多通道的人机交互系统。

进一步的，生产过程中遇到突发状况或无法解决的问题时，可由“请求支援”的手势向后端数据处理中心寻求帮助；

接收到求助信号后，后端数据处理中心利用通讯服务连接专家系统，将专家所在的设备以及操作人员所在的设备作为客户端接入服务器端；

实现专家与技术人员之间、客户端之间的通讯，满足共享视野、语音传输等功能；

不局限于人与机器之间的双向传输，建立“人-人”、“人-机器-人”等多类型循环双向传输机制，进一步加深信息交互程度。

本发明的第三方面，提供一种具备场景迁移功能的数据信息交互智能场景框架，包括：

以工业制造中的生产环节视频分析为出发点设计多功能的生产信息化系统，具备模块部署、信息交互、人机协同等功能；

利用工厂自身具有的摄像监控装置获取视频图像画面，配合AR智能眼镜的小型摄像头获取近距离操作画面；

进一步的，设计可添加模块的动态模块空间，包括：

设计工业制造中的生产环节视频分析为出发点的多功能生产信息化系统；

所述生产信息化系统包括模块部署功能，可以增加特定的视频、图像处理模块、增加数据集等；

所述数据信息交互智能场景框架能够应用在不同的工厂环境下，其框架拓展性可以适用于安装环节中不同的工序类别划分；

所述模块部署功能包括可以根据实际需求加以改造设计并添加实例化功能，应用于跨工业领域的多类场景。

有益效果：本发明与现有技术相比，具有以下优点：

本发明的系统与现有工业智能系统相比，融合混合现实技术，进行生产过程的检测，采用混合现实和全息投影技术，可以在云端重现工厂、车间、设备的实时场景，在工厂内也能随时随地利用投屏“查看”场景。投影显示的景象与真实世界一一对应，有利于协调生产计划、产品质量、设备状态等各种重要数据可视化，形成场景化系统平台。

本发明的系统更具有通用性和实用性设计，以人的基础生物特征比如语音和手势作为人机交互沟通桥梁，对使用人群的背景知识水平要求不高，更可以通过添加手语数据集、语音播报包等个性化模块来面向更多特殊使用群体，进一步降低人机交互的难度，简化操作步骤，提升系统的使用效率。另一方面，本系统结合了混合现实技术，借助虚拟现实智能眼镜的投影功能，将虚拟场景和现实场景交融，工人可以通过自然的行为方式，例如手势、语音等来进行人机交互，提升人机交融的自由度并模糊人机交互的边界感，为用户提供身临其境的场景化交互过程。

近年来，伴随着虚拟现实、机器视觉和人工智能等技术的发展和应用，“智慧工厂”的理念也随之变革，在实现自动化生产的基础上，将不断融入人类和社会的特征，人与机器的交互也从单向的“命令控制式”逐渐转变为双向的人机交融，形成人类和智能设备等共同组成的智能场景。智慧工厂的场景化能够进一步推动人类和机器智能的共融共生，通过更具大众化和普适性的视频数据获取方式，为工业生产注入更多智能化、多样化的元素，也将为企业构建智能决策、节约高效的智能制造新模式提供有力支撑。当前中国制造业人工智能解决方案的市场规模在不断攀升，不同制造行业之间存在差异，对于智能化工厂、智能场景的定制化要求在逐步提高，而且存在周期长、投资大的问题有待解决。本发明提供便于迁移、通用性强的智能场景解决方案，在未来智能制造领域有广泛需求，可以有效缓解当前定制化要求高、开发周期长的难题。

本发明以工业制造中的生产环节实时监管为出发点设计，只需根据实际需求加以改造设计，可以适应独特的制造和业务流程，能应用于多场景，在其他领域也能得到广泛应用，便于将研究成果产品化和个性化，快速推广应用。

附图说明：

图1为本发明搭建基于视频分析的生产过程交互与监测智能场景的工作步骤图；

图2为本发明实施例中智能场景整体架构图；

图3为本发明实施例中人机交互系统的逻辑架构图；

图4为本发明实施例中基于视觉感知的混合现实智能场景平台系统示意图；

图5为本发明实施例中智能场景平台视频实时分析的工作流程图；

图6为本发明实施例中混合现实智能场景平台总体架构分层示意图；

具体实施方式：

下面结合实施例和说明书附图对本发明作进一步的说明。

本发明第一方面，提供一种基于混合现实技术与人体动作行为等视频分析的生物特征识别技术的智能场景整体架构，如图1所示，本发明的示例中，该架构包括：

步骤S100：当应用场景为工业生产的全过程工序，搭建以工业现场数据采集模块、双向传输机制和数据处理中心为主体的基础架构，以及构建根据不同场景实际需求可个性化添置更改的动态模块空间。

更具体地，现场数据采集模块的硬件部分主要由工人佩戴的AR智能眼镜与工厂本身安置的摄像头组成，也可以根据工厂的现实条件选择多类别的摄像装置，进一步补充其他视角的工作画面。

更具体地，根据工厂的占地面积、GPS信号强弱、工序难易度等多方面的现实条件，选择适合传输数据精确度要求的通讯服务搭建双向传输机制，实现将工作画面传输至后端数据处理中心与数据分析结果信息反馈至现场工作人员的双向实时信息交互。

更具体地，数据处理中心以人体动作识别技术为基础，针对工人工作时的手部动作进行特征识别与视频在线分析。

更具体地，动态模块空间根据生产需求和工序特性来添加功能实例化模块，本示例中以一般的安装工序为例，添加手势识别模块。

步骤S200：在待检测的工序开始之前，为操作人员配备具有摄像和投影功能的AR智能眼镜，开启眼镜后操作人员做出“开始执行”的手势，AR智能眼镜将摄像头捕捉到的“开始执行”手势信息传递至数据处理中心，当目标装置和手势信息同时被检测到时，可判断为工序开始，数据处理中心返回“开始工作”的信息给现场工人，若提取不到肤色信息则停止截取，直到再次检测到肤色信息，循环该操作，最终得到有效的视频片段，随后开始对工序的整体过程和关键步骤进行实时检测。

通过AR智能眼镜的摄像装置获取第一视角的生产画面，可以精准感知工人的手部操作动作。工厂内本身设置的摄像头从工位侧边录取宏观视角的生产过程，补充眼镜第一视角画面的检测盲区。

手势提取过程中对工作人员所处环境背景、所站位置等没有特殊要求，而且轻便的 AR智能眼镜与位于高处的广角摄像头构建“场景化”摄像系统，无需在工位上单独安装摄像头，能够有削减轻摄像头的存在感，可使操作人员在无监视压力的状态下进行工作。

更具体地，AR智能眼镜是指包括摄像拍照、语音交流、投影显示等功能的智能眼镜，可以通过WIFI、蓝牙等多类网络通讯服务与后端数据处理中心连接，并且利用投影功能可以让工作人员随时随地置身于真实或虚拟的智慧场景中交互。

用户可以采用手势、语音和按键来实现第一视角的MR混合现实场景交互效果。其中，AR智能眼镜的信息输入主要为相机和多种传感器，相机为配备广角镜头的图像传感器，可拍摄视频和图像，并实时将图像通过可移动设备传输至后端服务器，其他传感器包括加速度、角度和地磁传感器，用来感应头部姿态。

AR智能眼镜可以批量购买市场上已有的商品款式，也可以根据工作条件和检测需求个性化定制。

本发明的第二方面，提供一种以手势识别为基础的人机实时交互系统，如图2所示，在本发明的示例中，该系统包括：

步骤S300：通过双向传输机制将采集到的现场数据信息，首先传递到后端数据处理中心，通过预先设置的识别算法对数据信息进行处理分析。

数据处理中心对现场工作的画面进行在线处理分析，包括识别现场发生的任务，判别工序动作的流畅运行以及检测工作的完成度和规范性，对工序进行整体性检测和关键步骤具体化检测，得出操作规范、产品合格、异常行为、操作失误等工作状态信息结论，对操作人员的工作表现和工序的完成度进行多维度评价分析。

更具体地，首先通过检测某一帧的目标位置、特定颜色或者姿态等信息来对视频中目标特征进行提取，目标的外观不会随着时间改变，遇到干扰情况可以使用上一帧的结果作为前提，对后几帧进行连续匹配，直到找到相似度匹配的新位置。

选用合适的时序检测网络模型，针对时序动作的需要，在每个感兴趣的视频段出现时识别动作，提取视频序列中工序动作的时序特征，使用视频序列信息来进行分类操作，以视频动作识别技术为基础，对操作画面进行监测，例如使用工具的顺序是否正确、每个子工序是否完整等等。

更具体地，本实施例中以手势作为生物特征进行识别控制，实际应用时可以添加多种以人体生物特征为识别目标的特征识别技术，例如语音识别和指纹识别等生物特征识别技术等，建立“视觉+语音+...”的多通道实时人机交互系统；

更具体地，考虑到多数工厂环境为高分贝嘈杂背景环境，工作过程中操作人员之间不便于通过语音交流。本实施例中根据一般的安装工序构建在背景音嘈杂或不便于语音等的工厂环境下手势识别系统，建立手势数据集，包括简单操作语义的单手指令和较为复杂的双手指令，例如手掌五指张开表示“停止”、左滑表示“伸出”、右滑表示“缩回”、利用虎口弧形的启合来表示“抓开抓关”等等。

另外工厂可以根据实际生产需求添加交互手势，扩大识别手势数据类型的规模。

对于不同行业，交互中需求的手势表达不同时，只需增加训练样本，就可以迁移至其他应用场景，例如智能会议场景中可以添加演讲者的手势数据集，智能家居场景中可以添加日常生活手势数据集。

本实施例中对于特殊使用人群例如聋哑人士，嵌入手语识别模块，实现手语翻译成文字及姿态生成的功能，满足聋哑人士交流的需求，扩展本系统的用户使用人群。

更具体地，本实施例中的工作手势简单易学且具有一定的通用性，方便中小型制造业直接使用，对操作人员的知识水平要求不高，面向更为广泛的用户群体。

步骤S400：将数据处理中心分析后得出的结论反向传输给数据采集层，通过智能AR眼镜的投影功能反馈给现场的工人，为进一步的决策提供关键信息参考，形成双向人机交互的沟通机制，如图3所示。

工人可以根据反馈的信息来调整工作进度，例如出现失误时可以对工位上的摄像头做出“暂停”的手势，然后对零件进行人工的二次检查和修正。

如果接收到设备工作异常的反馈信号，操作台的工作人员可以在收到指导信息之前先一步利用对摄像头做出设备启停的手势来进行手势管理生产设备的运行状况，避免由于距离和时间差异，设备管理人员收到告警信息无法立即赶到现场而产生的失误。

更具体地，当后端数据处理中心检测到操作异常时，反馈异常信息到作业现场，现场的工作人员可根据实际情况选择使用机器专家生成智能指导意见还是呼叫人工专家进行远程在线指导，操作流程如图5所示。

如果选择机器专家系统，数据处理中心根据识别分析出的异常情况寻找对应的解决智能方案，并将机器解决方案实时反馈给现场工作人员。如果选择人工专家系统，远程专家的通讯连接通过后端服务器实现，将专家所在的设备以及操作人员所在的设备作为客户端接入服务器端，实现专家与技术人员之间远程通讯与实时指导，实现共享视野、跨地域交流等功能。

更具体地，数据处理中心通过手势识别技术预先对操作过程进行粗略诊断，定位至异常视频段后，将异常的操作视频传输至远程专家端，再利用专家丰富的经验进行更细节的判断和指导，利用人脑智能和机器智能的差异性与互补性，促进人脑和人工智能的共融共生。

本发明的第三方面，提供一种具备场景迁移功能的数据信息交互智能场景框架，如图4所示，在本发明的示例中，包括：

步骤S500：采用分层设计与模块化设计相结合的方式设计系统总体框架，从上至下分为数据采集层、智能分析层、数据库层和通讯服务层，每个层包含功能不同的模块，其中功能模块可以动态增添删改。

在工业领域，工厂根据生产需求和硬件设备条件等多方面实际需求，个性化添加和改变功能模块，在发明示例中以智能分析层中添加工件序列号提取模块为实施例。

更具体地，现场工人完成工件的加工后，在工件出厂之前，利用AR智能眼镜对工件完成品进行拍摄，拍摄的图像数据由双向传输机制传输至后端数据处理中心。

数据处理中心对工件的静态图像进行关键信息提取，并将提取工件号信息录入到相关数据库中，省去人工记录的繁琐工作量。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护。

Claims

1.一种基于混合现实技术与人体动作视频分析等的生物特征识别技术的智能场景整体架构，其特征在于，包括：

设计以多视角工业现场数据采集模块、双向传输及影像展示机制和视频数据处理中心为主体的基础架构；

利用视频分析技术与行为动作识别技术，设计部署于后端数据处理中心；

根据不同场景实际需求可个性化添置动态更改模块的动态模块空间。

2.根据权利要求1所述的方法，其特征在于，所述多视角工业现场数据采集模块，包括：

通过工厂的固定摄像头采集整体的全景数据信息，作为数据信息补充；

根据工厂环境和实际需求选择多类型和多通道的数据采集方式，对工序操作过程的画面多角度提取，形成多视角视频信息数据融合分析通道；

通过双向传输机制将获取的现场画面数据实时传输至后端数据处理中心。

3.根据权利要求1所述的方法，其特征在于，所述双向传输与影像展示机制，包括：

实时传递现场工作画面数据和反馈后台分析结果；

利用虚拟现实眼镜的投影功能展示影像信息，信息动态交互；

远程在线专家指导系统，生产过程中遇到突发状况或无法解决的问题时，通过远程在线系统进行指导。

4.根据权利1所述的方法，其特征在于，所述利用视频分析技术与行为动作识别技术，设计部署于后端数据处理中心，包括：

利用基于视频分析的人体动作识别技术对工厂环境下特定行为的视频画面进行实时动态检测；

所述检测包括评价和反馈工序的完整性、操作步骤的顺序是否正确、关键性的工序步骤是否正确完成等多方面因素；

所述人体动作识别技术包括对视频与图像画面进行关键信息提取，实现目标特征提取与识别等其他实用功能；

所述视频分析包括对整个动态视频的分析提取采用逐帧处理的方式，完成对目标特征的筛选。

5.根据权利要求1所述的方法中，其特征在于，所述后端数据处理中心，包括：

所述后端数据处理中心包括对静态图像进行特征识别，从工厂杂乱的背景中提取关键信息，对二维图像进行处理分析；

所述后端数据处理中心包括能够实现对动态视频序列数据的在线处理与分析；

所述后端数据处理中心硬件系统采用模块化设计，包括信息传输模块、信息处理模块、信息存储模块和数据库；

所述后端数据处理中心硬件系统包括图像处理器(GPU)、摄像头、AR智能眼镜、储存卡、网络等等；

所述后端数据服务中心的接口包括采集接口、数据服务接口、级联接口和分析接口，也可以根据实际需求选用个性化接口标准。

6.一种以手势识别为基础的人机实时交互系统，其特征在于，包括：

利用混合现实眼镜采集手部动作并进行识别，发出相关的指令；

根据不同应用的实际需求添加交互手势的种类，扩大识别数据类型的规模；

语音识别控制与手势识别控制协作进行，以人体基础生物特征为识别特征，建立人机沟通的多类通道，以多种方式进行数据融合。

7.根据权利要求6所述方法，其特征在于，所述多通道实时人机交互系统，包括：

利用手势控制来远程传输指令、控制硬件设备的启停等；

通过识别手部动作指令来控制工厂内机器设备的运行状态，也可以将手势指令传递至其他工作人员，建立高分贝环境下无需语音的手势交互系统。

8.一种具备场景迁移功能的数据信息交互智能场景框架，其特征在于，包括：

利用工厂自身具有的摄像监控装置获取视频图像画面，配合AR智能眼镜的小型摄像头获取近距离操作画面。

9.根据权利要求8所述的方法，其特征在于，设计可添加模块的动态模块空间，包括：