CN116736979A

CN116736979A - 一种核电厂主控室的人机交互方法、系统及计算机设备

Info

Publication number: CN116736979A
Application number: CN202310722396.XA
Authority: CN
Inventors: 李婉婷; 吕冬宝; 吴宇翔; 田晖; 邓士光; 段鹏飞; 徐云龙; 王志敏行
Original assignee: China Nuclear Power Engineering Co Ltd
Current assignee: China Nuclear Power Engineering Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-12

Abstract

本发明公开一种核电厂主控室的人机交互方法、系统及计算机设备其中，核电厂主控室的人机交互方法包括：获取预设时间段内的操作员视频。根据操作员视频和手势识别网络，获取操作员当前手势的分类结果。根据预设的手势分类结果与控制任务的映射关系，获取与操作员当前手势的分类结果对应的当前控制任务。以及，根据操作员当前手势的分类结果与其对应的当前控制任务，实现与当前控制任务对应的控制功能。通过本发明提供的核电厂主控室的人机交互方法，操作员可以使用包括手势在内的多种方式与核电厂的系统进行信息交互，高效完成控制任务。

Description

一种核电厂主控室的人机交互方法、系统及计算机设备

技术领域

本发明涉及人机交互技术领域，尤其涉及一种核电厂主控室的人机交互方法、系统及计算机设备。

背景技术

目前在核电厂主控室大量使用的图形用户界面大多使用键盘和鼠标两种输入设备进行人机交互，操作员全部依赖于二维图形界面来输入和获取信息，人机交互的方式比较单一。

发明内容

本发明所要解决的技术问题是：现有技术中，核电厂主控室的人机交互的方式比较单一的问题。

针对现有技术的上述不足，提供一种核电厂主控室的人机交互方法、系统及计算机设备，在核电厂主控制室二维图形人机界面的基础上增加基于手势的交互方式，通过多元化人机交互方式提高人机交互的效率和多维度可靠性。

第一方面，本发明提供了一种核电厂主控室的人机交互方法，包括：获取预设时间段内的操作员视频。根据操作员视频和手势识别网络，获取操作员当前手势的分类结果。根据预设的手势分类结果与控制任务的映射关系，获取与操作员当前手势的分类结果对应的当前控制任务。以及，根据操作员当前手势的分类结果与其对应的当前控制任务，实现与当前控制任务对应的控制功能。其中，操作员视频包括操作员的多帧图像，操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息。

具体地，根据操作员视频和手势识别网络，获取操作员当前手势的分类结果，包括：根据操作员视频和手部区域检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像。根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像和手部关键点检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。以及，根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和动态手势识别网络，获取操作员当前手势的分类结果。

具体地，根据操作员视频和手部区域检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像，包括：在不同的照明条件下，分别获取多个操作员的多帧手部图像。在多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集。根据深度学习算法对手部区域图像的数据集进行训练，以获取手部区域检测网络。以及，将操作员的多帧图像输入至手部区域检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

具体地，根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像和手部关键点检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息，包括：在不同的照明条件下，分别获取多个操作员的多帧手部图像。在多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集。在手部区域图像的数据集中的每一帧手部区域图像中标记手部关键点，以制作手部关键点的数据集。根据深度学习算法对手部关键点的数据集进行训练，以获取手部关键点检测网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像输入至手部关键点检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。

具体地，根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和动态手势识别网络，获取操作员当前手势的分类结果，包括：分别获取多个操作员的多种手势类型的视频。根据多个操作员的多种手势类型的视频和手部关键点检测网络，获取动态手势数据集。根据深度学习算法对动态手势数据集进行训练，以获取动态手势识别网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至动态手势识别网络，获取操作员当前手势的分类结果。

具体地，根据多个操作员的多种手势类型的视频和手部关键点检测网络，获取动态手势数据集，包括：根据手部关键点检测网络获取第一手势类型的视频中每一帧图像的手部关键点信息。第一手势类型为多种手势类型中的任一种手势类型。根据第一手势类型的视频中每一帧图像的手部关键点信息生成第一手势类型的视频的关键点信息序列。以及，根据第一手势类型的视频的关键点信息序列和第一手势类型生成动态手势数据集。

具体地，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至动态手势识别网络，得出操作员当前手势的分类结果，包括：根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息生成关键点信息序列。以及，将关键点信息序列输入至动态手势识别网络，获取操作员当前手势的分类结果。

第二方面，本发明提供了一种核电厂主控室的人机交互系统，包括视频采集模块、手势分类模块、任务获取模块和任务实现模块。视频采集模块，其设置为获取预设时间段内的操作员视频。操作员视频包括操作员的多帧图像，操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息。手势分类模块，其设置为根据操作员视频和手势识别网络，获取操作员当前手势的分类结果。任务获取模块，其设置为根据预设的手势分类结果与控制任务的映射关系，获取与操作员当前手势的分类结果对应的当前控制任务。任务实现模块，其设置为根据操作员当前手势的分类结果与其对应的当前控制任务，实现与当前控制任务对应的控制功能。

具体地，手势识别网络包括手部区域检测网络、手部关键点检测网络以及动态手势识别网络。手势分类模块包括手部区域检测模块、手部关键点检测模块和动态手势检测模块。手部区域检测模块设置为根据操作员视频和手部区域检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像。手部关键点检测模块设置为根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像和手部关键点检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。动态手势检测模块设置为根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和动态手势识别网络，获取操作员当前手势的分类结果。

具体地，视频采集模块还设置为在不同的照明条件下，获取多个操作员的多帧手部图像。手部区域检测模块设置为在多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集。根据深度学习算法对手部区域图像的数据集进行训练，以获取手部区域检测网络。以及，将操作员的多帧图像中的每一帧图像输入至手部区域检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

具体地，手部关键点检测模块设置为：在手部区域图像的数据集中的每一帧手部区域图像中标记手部关键点，以制作手部关键点的数据集。根据深度学习算法对手部关键点的数据集进行训练，以获取手部关键点检测网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像输入至手部关键点检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息为关键点在操作员的多帧图像中每一帧图像的坐标。

具体地，动态手势检测模块设置为：分别获取多个操作员的多种手势类型的视频。根据多个操作员的多种手势类型的视频和手部关键点检测网络，获取动态手势数据集。根据深度学习算法对动态手势数据集进行训练，以获取动态手势识别网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至动态手势识别网络，得出操作员当前手势的分类结果。

具体地，动态手势检测模块设置为：根据手部关键点检测网络获取第一手势类型的视频中每一帧图像的手部关键点信息。第一手势类型为多种手势类型中的任一种手势类型。根据第一手势类型的视频中每一帧图像的手部关键点信息生成第一手势类型的视频的关键点信息序列。以及，动态手势数据集包括第一手势类型的视频的关键点信息序列和第一手势类型。

具体地，动态手势检测模块设置为：根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息生成关键点信息序列。以及，将关键点信息序列输入至动态手势识别网络，得出操作员当前手势的分类结果。

第三方面，本发明提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述核电厂主控室的人机交互方法的步骤。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，处理器执行上述核电厂主控室的人机交互方法的步骤。

本发明的有益效果为：通过本发明提供的核电厂主控室的人机交互方法，操作员可以使用包括手势在内的多种方式与核电厂的系统进行信息交互，这种多元化的交互方式可以大大提升操作员的交互体验，更加自然地与核电控制系统进行交互，高效完成控制任务。而在智能交互系统中，手势交互是一个重要的组成部分，手势作为人类交流的重要语言，以手势作为媒介进行辅助控制，可以有效弥补操作员交互效率不足的问题，减轻操作员的任务负担，提高操作员的工作效率。

附图说明

图1为本发明实施例中的一种核电厂主控室的人机交互方法的流程图；

图2为本发明实施例中的另一种核电厂主控室的人机交互方法的流程图；

图3为本发明实施例中的再一种核电厂主控室的人机交互方法的流程图；

图4为本发明实施例中的又一种核电厂主控室的人机交互方法的流程图；

图5为本发明实施例中的又一种核电厂主控室的人机交互方法的流程图；

图6为本发明实施例中的又一种核电厂主控室的人机交互方法的流程图；

图7为本发明实施例中的又一种核电厂主控室的人机交互方法的流程图；

图8为本发明实施例中的一个具体示例中的一种核电厂主控室的人机交互方法的流程图；

图9为本发明实施例中的一个具体示例中的手部关键点标记示意图；

图10为本发明实施例中的一种核电厂主控室的人机交互系统的框图；

图11为本发明实施例中的另一种核电厂主控室的人机交互系统的框图；

图12为本发明实施例中的一种计算机设备的框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面将结合附图对本发明实施方式作进一步地详细描述。

可以理解的是，此处描述的具体实施例和附图仅仅用于解释本发明，而非对本发明的限定。

可以理解的是，在不冲突的情况下，本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是，为便于描述，本发明的附图中仅示出了与本发明相关的部分，而与本发明无关的部分未在附图中示出。

可以理解的是，本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构，也可由多个实体结构组成，或者，多个单元、模块也可集成为一个实体结构。

可以理解的是，在不冲突的情况下，本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是，本发明的流程图和框图中，示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可代表一个单元、模块、程序段、代码，其包含用于实现规定的功能的可执行指令。而且，框图和流程图中的每个方框或方框的组合，可用实现规定的功能的基于硬件的系统实现，也可用硬件与计算机指令的组合来实现。

可以理解的是，本发明实施例中所涉及的单元、模块可通过软件的方式实现，也可通过硬件的方式来实现，例如单元、模块可位于处理器中。

随着目前计算机技术向智能化方向发展，人使用计算机完成的任务种类日趋多样化，人与计算机的联系也更加紧密，相应的人机交互方式也得以迅速发展，人机交互方式向多通道方向转变，语音、手势、眼动、人脸识别等新型交互方式纷纷出现，为主控室操作员智能交互系统的实现提供了可能性。使用快速精确的手势识别算法来进行手势交互是主控室智能人机交互系统实现的基础。

本发明的实施例提供一种核电厂主控室的人机交互方法，通过采集操作员的图像，基于深度学习算法实现手部区域的检测、手部关键点检测和动态手势的识别，根据预设的手势分类结果与控制任务的映射关系，获取与所述操作员当前手势的分类结果对应的当前控制任务，并实现与当前控制任务对应的控制功能。

如图1所示，本发明的实施例提供一种核电厂主控室的人机交互方法包括步骤101至步骤104。

步骤101、获取预设时间段内的操作员视频。

可以理解地，步骤101中，预设时间段内的操作员视频包括操作员的多帧图像，且操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息。预设时间段可以根据具体应用进行具体设置。

示例性的，可以使用单目彩色相机进行操作员视频的采集，在设置相机时，相机的视野范围应包含操作员上半身完整的图像。基于对安全性和成本的考虑，可以使用固定在操作员站的单目彩色相机(或称为RGB摄像机)作为手势信息(即操作员手部图像信息)的硬件采集设备，通过通用串行总线(Universal Serial Bus，USB)USB数据线与计算机进行通信，连续采集操作员上半身图像，可以为下面的手势识别算法提供原始数据。

在一些实施例中，步骤101的实现方法包括：实时采集操作台前方的图像，并在识别到操作台前有操作员时，获取预设时间段内的操作员视频。比如，在t1时刻识别到操作台前有操作员，预设时间为T1，则可以从t1时刻开始采集操作员图像，并获取t1时刻至t1+T时刻的操作员视频，以进行操作员手势的识别。接下来，从t1+T1时刻开始，每个当前时刻均获取该当前时刻之前的预设时间T1内的操作员视频，以进行操作员手势的识别。

可以理解地，仅在操作台前有操作员时再进行图像采集，可以减少采集装置的工作量，从而可以减少后续对图像进行处理的工作量，节约计算资源。

步骤102、根据操作员视频和手势识别网络，获取操作员当前手势的分类结果。

可以理解地，步骤102中，手势识别网络包括手部区域检测网络、手部关键点检测网络以及动态手势识别网络。

在一些实施例中，如图2所示，步骤102的实现方法可以包括步骤201至步骤203。

步骤201、根据操作员视频和手部区域检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

示例性地，可以在操作员的多帧图像中每一帧图像中划分出手部所在的矩形区域，方便对手势数据的进一步处理。

在一些实施例中，如图3所示，步骤201的实现方法包括步骤301至步骤304。

步骤301、在不同的照明条件下，分别获取多个操作员的多帧手部图像。

可以理解地，为了使网络准确检测并裁剪出手部所在的区域，需要使用安装好的相机进行主控室特定环境下的操作员图像采集，采集条件需要覆盖不同的照明条件和不同操作员个体。

步骤302、在多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集。

可以理解地，通过采集大量操作员手势图片并进行标注，则可以制作手部区域的数据集。

步骤303、根据深度学习算法对手部区域图像的数据集进行训练，以获取手部区域检测网络。

示例性地，可以试验基于深度学习的目标检测算法(YOLOv3算法)进行手部区域检测。比如，可以根据手部区域的数据集中手部区域尺寸特征的先验知识聚类出9个预设的锚框长宽比，将操作员图像输入网络后经过一系列卷积层和下采样层产生三种尺度的特征图，在三个特征图中分别进行预测框回归，产生大量目标预测框。之后使用非极大值抑制算法对预测框进行筛选，根据每个预测框的置信度和交并比排出冗余预测框，最终留下比较精确的手部所在的矩形区域。

示例性地，在根据深度学习算法进行训练时，可以先使用开源的手部区域的公共数据集进行预训练，网络收敛后再使用步骤302中制作手部区域图像的数据集进行参数微调，使之更适应于主控室的使用环境。

步骤304、将操作员的多帧图像中的每一帧图像输入至手部区域检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

可以理解地，在获取手部区域检测网络之后，将实时采集到的操作员的多帧图像中的每一帧图像作为手部区域检测网络的输入，手部区域检测网络即可输出操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

步骤202、根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像和手部关键点检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。

可以理解地，可以在检测到的手部图像中进一步提取出手部关键点，以构造手部骨骼模型。示例性地，可以将手部特征抽象为一个具有N个关键点的模型，N为大于1的整数，比如，N可以为20，或者可以为21。

在一些实施例中，如图4所示，步骤202的实现方法包括步骤401至步骤403。

步骤401、在手部区域图像的数据集中的每一帧手部区域图像中标记手部关键点，以制作手部关键点的数据集。

步骤402、根据深度学习算法对手部关键点的数据集进行训练，以获取手部关键点检测网络。

示例性地，步骤402中深度学习算法可以为基于沙漏网络的算法.比如,使用基于沙漏网络的手部关键点检测网络，经过编解码结构网络,从原始图像得到手部关键点预测热图，对热图进行处理后得到手部关键点，通过对手部关键点的位置在原始图形(即直接拍摄得到的图像)中的坐标即为手部关键点的数据。

可以理解地，对于手部关键点检测网络的训练同样先使用开源手部关键点数据集进行预训练，在网络收敛后使用自制的手部关键点数据集进行参数微调。

步骤403、将操作员的多帧图像中包含手部的每一帧图像的手部区域图像输入至手部关键点检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。

可以理解地，操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息为关键点在操作员的多帧图像中每一帧图像的坐标。示例性地，可以以操作员的多帧图像中每一帧图像的左上顶点为原点建立像素坐标系，关键点在操作员的多帧图像中每一帧图像的坐标为关键点在操作员的多帧图像中每一帧图像中的像素坐标。

步骤203、根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和动态手势识别网络，获取操作员当前手势的分类结果。

可以理解地，动态手势识别网络可以根据一段时间内的手部关键点位置变化推理出其代表的动态手势含义。

在一些实施例中，如图5所示，步骤203的实现方法包括步骤501至步骤504。

步骤501、分别获取多个操作员的多种手势类型的视频。

可以理解地，为了提高算法的精度，可以在采集时，针对某一个手势类型采集多个操作员的做该某一个首饰类型对应的动作的视频。比如，对于“摆手”这个手势类型，获取多个操作员做“握手”动作时的视频。

步骤502、根据多个操作员的多种手势类型的视频和手部关键点检测网络，获取动态手势数据集。

可以理解地，录制多个操作员的多种手势类型的视频，并进行标注，可以形成动态手势数据集。

在一些实施例中，如图6所示，步骤502的实现方法包括步骤601至步骤603。

步骤601、根据手部关键点检测网络获取第一手势类型的视频中每一帧图像的手部关键点信息。

可以理解地，第一手势类型为多种手势类型中的任一种手势类型。

步骤602、根据第一手势类型的视频中每一帧图像的手部关键点信息生成第一手势类型的视频的关键点信息序列。

步骤603、根据第一手势类型的视频的关键点信息序列和第一手势类型生成动态手势数据集。

也就是说，动态手势数据集包括多种手势类型和该多种手势类型中每一个手势类型对应的视频的关键点信息序列。该动态手势数据集中，第一收拾类型的视频的关键点信息序列可以作为输入数据，第一手势类型可以作为输出数据。

步骤503、根据深度学习算法对动态手势数据集进行训练，以获取动态手势识别网络。

示例性地，步骤503中的深度学习算法可以为时域卷积算法(Temporalconvolutional network，TCN)。比如，可以将动态手势数据集输入时域卷积网络进行训练，使时域卷积网络具有分类动态手势姿态的能力。

步骤504、将操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至动态手势识别网络，得出操作员当前手势的分类结果。

可以理解地，在进行实时识别时，将手部关键点信息的数据流实时输入至动态手势识别网络，即可得出操作员当前手势的分类结果。

在一些实施例中，如图7所示，步骤504的实现方法包括步骤701至步骤702。

步骤701、根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息生成关键点信息序列。

可以理解地，步骤701中的关键点信息序列包括按照采集时间排序的操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。

步骤702、将关键点信息序列输入至动态手势识别网络，得出操作员当前手势的分类结果。

步骤103、根据预设的手势分类结果与控制任务的映射关系，获取与操作员当前手势的分类结果对应的当前控制任务。

可以理解地，手势分类结果与控制任务的映射关系可以提前预设在核电厂主控室的系统中，便于实现相关的控制任务。

步骤104、根据操作员当前手势的分类结果与其对应的当前控制任务，实现与当前控制任务对应的控制功能。

示例性地，可以利用核电厂主控室计算机信息和控制系统(IIC系统)实现与当前控制任务对应的控制功能。比如，将上述手势识别方法应用于电厂现有的IIC系统之上，需要手势识别系统与核电厂主控室的控制系统进行通信，并为不同的手势赋予方便操作员使用的特定控制功能。

综上所述，通过本发明实施例提供的核电厂主控室的人机交互方法，操作员可以使用包括手势在内的多种方式与核电厂的系统进行信息交互，这种多元化的交互方式可以大大提升操作员的交互体验，更加自然地与核电控制系统进行交互，高效完成控制任务。而在智能交互系统中，手势交互是一个重要的组成部分，手势作为人类交流的重要语言，以手势作为媒介进行辅助控制，可以有效弥补操作员交互效率不足的问题，减轻操作员的任务负担，提高操作员的工作效率。

下面对本发明的实施例提供的一种核电厂主控室的人机交互方法中一个具体的示例进行说明。

如图8所示，该具体实例中基于深度学习的方法实现操作员手势识别和智能人机交互。总体流程分为以下几个步骤：首先使用单目RGB摄像机连续采集操作员上半身图像，获取预设时间段内的操作员视频。对于每一帧图像首先进行手部区域检测，得到手部所在的大致范围。之后在该范围内进行手部关节关键点检测，得到手部的骨架信息。将一段时间内的骨架信息作为特征向量输入时间卷积网络，得到每个时间点的手势识别结果。最后设计手势识别系统和IIC系统的交互规则，即设定手势分类结果与控制任务的映射关系。将手势识别方法应用于主控室计算机信息和控制系统之上，方便操作员使用手势进行便捷控制。

系统的设计与工作流程如下：

第一步，进行操作员手势信息采集。

基于对安全性和成本的考虑，使用固定在操作员站的单目RGB摄像机作为手势信息采集硬件设备，通过USB数据线与计算机进行通信，从而实现连续手势图像采集。摄像机安置后视野范围应完整包含操作员上半身图像。

第二步，制作手部区域数据集。

为了使网络准确检测并裁剪出手部所在的区域，需要使用安装好的摄像机进行主控室特定环境下的操作员图像采集，采集条件需要覆盖不同的照明条件和不同操作员个体。在图像采集完毕后需要对手部所在的矩形区域进行标注，生成手部区域数据集。

第三步，对第二步中获取的手部区域数据集进行训练，以获得手部区域检测网络。

手部区域检测基于YOLOv3算法，基础特征提取网络使用Darknet-53，其由53层卷积神经网络构成，使用多层小尺寸的卷积设计，可以使网络提取到更精细化的特征，对环境背景变化具有更强的鲁棒性。操作员图像经过特征提取网络后输出3个不同尺度的特征图。

手部区域检测算法采用锚框(anchor box)的思想，需要根据步骤2中采集的手部区域数据集内矩形框尺寸的先验知识，使用K-means算法聚类出9个锚框的长宽尺寸。接着遵循大尺度输出特征层预测小物体，小尺度输出特征层预测大物体的原则，将锚框平均分配到3个尺度的特征输出层上，每个特征输出层有三种锚框尺寸。以一张1920×1080的操作员图片为例，在输入特征提取网络之前，图片需被缩放到416×416大小，经过网络中一系列卷积层和下采样运算后，分别得到13×13、26×26、52×52三个尺度的特征图。针对每个特征图，需要设置三种尺寸的锚框，特征图上的每个像素点都根据这三个锚框进行预测目标框的回归，即在每个像素点产生三个预测目标框。

在产生大量目标预测框后，还需要使用非极大值抑制算法对预测框进行筛选。根据每个预测框的置信度与交并比来逐一排除冗余的预测框，最终留下精确的预测手部所在区域矩形框。

第四步，制作手部关键点数据集。

为了得到手掌的骨骼模型，需要采集并标注手部关键点。使用第二步中采集的手部区域数据集进一步进行手部关键点的标注，从而产生关键点数据集。如图9所示，操作员手部关键点模型将手部特征抽象为一个具有20个关键点的骨骼模型，其中每一个关键点都有一个在图像中的平面坐标(x，y)，则对于每一帧手部图像，都有20×2个特征值来代表手部的当前姿态。

在得到手部所在的区域后，裁剪出手部图像，并将该裁剪出的手部图像作为输入数据进行训练，可得到关键点检测网络，并得到手部的骨骼模型。

第五步，进行训练以得到关键点检测网络。

手部关键点检测网络使用沙漏型网络(Hourglass Network)，其结构中使用了编-解码结构，图像首先经过卷积计算进行下采样，在深层得到更多的语义信息，之后融合浅层信息并进行反卷积运算，通过上采样增加深层特征图的分辨率，并增加训练参数的数量，让模型具有更强的鲁棒性。沙漏型网络采用不断融合浅层特征图和高层特征图的方式，最终得到有着强语义和细节比较多的特征图来推理出关键点热力图。

经过手部关键点数据集训练后，沙漏型网络可以接受手部图片作为输入，并且输出20张热力图，每张热力图上值最大的点即为手部其中一个关节所在的点。

第六步，制作动态手势数据集。

使用固定摄像机进行动态手势图像的采集，连续拍摄不同类型手势的变化过程视频，拍摄范围需覆盖不同手掌角度和不同操作员。使用第五步中的关键点检测算法对视频中的手部关键点进行标注，并对个别检测不准确的关键点位置进行人工修正，产生每段视频的关键点信息序列。另外还需根据每段视频中动态手势的含义为视频的每一帧生成手势分类标签，每一帧的手部关键点位置序列和手势分类标签共同构成动态手势数据集。

第七步，建立动态手势识别网络。

在动态手势识别部分使用时域卷积网络(Temporal convolutional network，TCN)来处理时序数据。由于TCN网络融合了时域建模能力和低参数量卷积的特征提取能力，并使用了编解码结构，相比于其他时序网络有很多优点,例如其训练速度远快于传统循环神经网络，并且可以更准确地捕捉到两个时间点之间的局部信息，对时序依赖关系更加敏感。

将某个时间点t的手部关键点特征表示为p_t＝{x₁ ^t,y₁ ^t,…,x₂₀ ^t,y₂₀ ^t}，将一段时间T内的手部骨骼特征{p₁,p₂,…,p_T}拼接成一个特征向量序列，并按时间顺序输入时域卷积网络的每一个时间节点，最终网络的输出是每个时间节点上动态手势的识别分类结果序列。使用动态手势数据集对是域卷积网络进行训练后，网络可以准确输出每一帧的动态手势识别结果。

第八步，将手势类别映射为控制任务。

将动态手势识别应用于核电厂主控室的电厂计算机信息和控制系统中，并将手势与操作员的控制任务一一对应。经过调研，核电厂主控制室对于操作员手势控制的需求主要包括利用手势对屏幕信息进行切换、控制变量的调整与暂停、大屏投影推送等。在调研和分析后确定需要手势识别种类包括：

静态手势动作如各个手指的组合状态，包括数字1，2，…，10的静态手势表示、拇指竖起等静态动作。动态手势动作如单手向前拨动、单手向后拨动、单手向前推动、单手向后推动、手掌打开、手掌握拳、手指画线等。除此之外还需要识别手势的无意义动作，如静置、不规则摆动等，使系统可以辨别当前无手势控制命令。

通过以上手势动作，需要系统实现的控制任务包括设备控制功能、状态监视功能和其他功能。示例性的，设备控制功能如在阀门打开或加大的过程中通过手势暂停、进行画面切换、查询支持材料如逻辑图和模拟图、隔空模拟手势触点来对设备控制。状态监视功能如趋势图放大、缩小、删减、屏幕和画面的切换、参数调用及趋势查询等。其它功能如画面、图纸、视频在系统和设备之间的传送、画面在大屏幕的投影与显示器画面的切换、画面打印等。

按照人类习惯将手势识别结果映射为控制动作，通过调用电厂计算机信息和控制系统(IIC系统)接口实现相关控制功能。

第九步，在主控室中使用手势交互。

手势交互功能在电厂计算机信息和控制系统中使用时，需使用摄像头实时连续采集操作员视频。定义时间阈值T(预设时间段)，在每个时刻使用当前时刻t与前T时间内的视频输入动态手势识别算法，经过手部区域检测、关键点检测、手势识别步骤，输出当前时刻的手势分类结果。若当前时刻手势较前一时刻发生了变化则根据当前手势分类结果调用IIC系统接口，若与前一时刻的手势识别结果相同，则保持当前状态不变。

本发明的实施例提供了一种核电厂主控室的人机交互系统，如图10所示，核电厂主控室的人机交互系统1000包括视频采集模块1001、手势分类模块1002、任务获取模块1003和任务实现模块1004。

视频采集模块1001，其设置为获取预设时间段内的操作员视频。操作员视频包括操作员的多帧图像，操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息。

手势分类模块1002其设置为根据操作员视频和手势识别网络，获取操作员当前手势的分类结果。手势识别网络包括手部区域检测网络、手部关键点检测网络以及动态手势识别网络。和

任务获取模块1003，其设置为根据预设的手势分类结果与控制任务的映射关系，获取与操作员当前手势的分类结果对应的当前控制任务。

任务实现模块1004，其设置为根据操作员当前手势的分类结果与其对应的当前控制任务，实现与当前控制任务对应的控制功能。

在一些实施例中，视频采集模块1001设置为实时采集操作台前方的图像，并在识别到操作台前有操作员时，获取当前时刻之前的预设时间段内的操作员视频。

在一些实施例中，如图11所示，手势分类模块1002包括手部区域检测模块1021、手部关键点检测模块1022和动态手势检测模块1023。手部区域检测模块1021设置为根据操作员视频和手部区域检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像。手部关键点检测模块1022设置为根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像和手部关键点检测网络，获取操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。动态手势检测模块1023设置为根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和动态手势识别网络，获取操作员当前手势的分类结果。

在一些实施例中，视频采集模块还设置为在不同的照明条件下，获取多个操作员的多帧手部图像。手部区域检测模块1021设置为在多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集。根据深度学习算法对手部区域图像的数据集进行训练，以获取手部区域检测网络。以及，将操作员的多帧图像中的每一帧图像输入至手部区域检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

在一些实施例中，手部关键点检测模块1022设置为：在手部区域图像的数据集中的每一帧手部区域图像中标记手部关键点，以制作手部关键点的数据集。根据深度学习算法对手部关键点的数据集进行训练，以获取手部关键点检测网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像输入至手部关键点检测网络，得出操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息为关键点在操作员的多帧图像中每一帧图像的坐标。

在一些实施例中，动态手势检测模块1023设置为：获取多个操作员的多种手势类型的视频。根据多个操作员的多种手势类型的视频和手部关键点检测网络，获取动态手势数据集。根据深度学习算法对动态手势数据集进行训练，以获取动态手势识别网络。以及，将操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至动态手势识别网络，得出操作员当前手势的分类结果。

在一些实施例中，动态手势检测模块1023设置为：根据手部关键点检测网络获取第一手势类型的视频中每一帧图像的手部关键点信息。第一手势类型为多种手势类型中的任一种手势类型。根据第一手势类型的视频中每一帧图像的手部关键点信息生成第一手势类型的视频的关键点信息序列。以及，动态手势数据集包括第一手势类型的视频的关键点信息序列和第一手势类型。

在一些实施例中，动态手势检测模块1023设置为：根据操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息生成关键点信息序列。以及，将关键点信息序列输入至动态手势识别网络，得出操作员当前手势的分类结果。

本发明的实施例提供的一种核电厂主控室的人机交互系统的具体方案与有益效果可以参考上述核电厂主控室的人机交互方法的相关描述，此处不再赘述。

本发明的实施例提供了一种计算机设备，如图12所示，计算机设备1200包括存储器1201和处理器1202，存储器1201存储有计算机程序，处理器1202执行计算机程序时实现上述核电厂主控室的人机交互方法的步骤。

本发明的实施例提供的一种计算机设备1200的具体方案与有益效果可以参考上述核电厂主控室的人机交互方法的相关描述，此处不再赘述。

本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，处理器执行上述核电厂主控室的人机交互方法的步骤。

本发明的实施例提供的一种计算机可读存储介质的具体方案与有益效果可以参考上述核电厂主控室的人机交互方法的相关描述，此处不再赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种核电厂主控室的人机交互方法，其特征在于，所述方法包括：

获取预设时间段内的操作员视频；所述操作员视频包括操作员的多帧图像，所述操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息；

根据所述操作员视频和手势识别网络，获取操作员当前手势的分类结果；

根据预设的手势分类结果与控制任务的映射关系，获取与所述操作员当前手势的分类结果对应的当前控制任务；以及

根据所述操作员当前手势的分类结果与其对应的当前控制任务，实现与所述当前控制任务对应的控制功能。

2.根据权利要求1所述的核电厂主控室的人机交互方法，其特征在于，所述手势识别网络包括手部区域检测网络、手部关键点检测网络以及动态手势识别网络；所述根据所述操作员视频和手势识别网络，获取操作员当前手势的分类结果，包括：

根据所述操作员视频和所述手部区域检测网络，获取所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像；

根据所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像和所述手部关键点检测网络，获取所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息；以及

根据所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和所述动态手势识别网络，获取操作员当前手势的分类结果。

3.根据权利要求2所述的核电厂主控室的人机交互方法，其特征在于，所述根据所述操作员视频和所述手部区域检测网络，获取所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像，包括：

在不同的照明条件下，分别获取多个操作员的多帧手部图像；

在所述多个操作员的多帧手部图像中的每一帧手部图像中标记手部区域，以制作手部区域图像的数据集；

根据深度学习算法对所述手部区域图像的数据集进行训练，以获取所述手部区域检测网络；以及

将所述操作员的多帧图像输入至所述手部区域检测网络，得出所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像。

4.根据权利要求2所述的核电厂主控室的人机交互方法，其特征在于，所述根据所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像和所述手部关键点检测网络，获取所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息，包括：

在所述手部区域图像的数据集中的每一帧手部区域图像中标记手部关键点，以制作手部关键点的数据集；

根据深度学习算法对所述手部关键点的数据集进行训练，以获取所述手部关键点检测网络；以及

将所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像输入至所述手部关键点检测网络，得出所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息。

5.根据权利要求2所述的核电厂主控室的人机交互方法，其特征在于，所述根据所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息和所述动态手势识别网络，获取操作员当前手势的分类结果，包括：

分别获取多个操作员的多种手势类型的视频；

根据所述多个操作员的多种手势类型的视频和所述手部关键点检测网络，获取动态手势数据集；

根据深度学习算法对所述动态手势数据集进行训练，以获取所述动态手势识别网络；以及

将所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至所述动态手势识别网络，得出所述操作员当前手势的分类结果。

6.根据权利要求5所述的核电厂主控室的人机交互方法，其特征在于，所述根据所述多个操作员的多种手势类型的视频和所述手部关键点检测网络，获取动态手势数据集，包括：

根据所述手部关键点检测网络获取第一手势类型的视频中每一帧图像的手部关键点信息；所述第一手势类型为所述多种手势类型中的任一种手势类型；

根据所述第一手势类型的视频中每一帧图像的手部关键点信息生成第一手势类型的视频的关键点信息序列；以及

根据所述第一手势类型的视频的关键点信息序列和所述第一手势类型生成所述动态手势数据集。

7.根据权利要求5所述的核电厂主控室的人机交互方法，其特征在于，所述将所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息输入至所述动态手势识别网络，得出所述操作员当前手势的分类结果，包括：

根据所述操作员的多帧图像中包含手部的每一帧图像的手部区域图像的手部关键点信息生成关键点信息序列；以及

将所述关键点信息序列输入至所述动态手势识别网络，得出所述操作员当前手势的分类结果。

8.一种核电厂主控室的人机交互系统，其特征在于，包括：

视频采集模块，其设置为获取预设时间段内的操作员视频；所述操作员视频包括操作员的多帧图像，所述操作员的多帧图像中至少有一帧图像包括操作员的手部图像信息；

手势分类模块，其设置为根据所述操作员视频和手势识别网络，获取操作员当前手势的分类结果；所述手势识别网络包括手部区域检测网络、手部关键点检测网络以及动态手势识别网络；

任务获取模块，其设置为根据预设的手势分类结果与控制任务的映射关系，获取与所述操作员当前手势的分类结果对应的当前控制任务；和

任务实现模块，其设置为根据所述操作员当前手势的分类结果与其对应的当前控制任务，实现与所述当前控制任务对应的控制功能。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，所述处理器执行根据权利要求1至7中任一项所述方法的步骤。