CN116561663B - 地面无人装备人工干预程度分级方法、系统、计算设备 - Google Patents

地面无人装备人工干预程度分级方法、系统、计算设备

Info

Publication number
CN116561663B
CN116561663B CN202310552029.XA CN202310552029A CN116561663B CN 116561663 B CN116561663 B CN 116561663B CN 202310552029 A CN202310552029 A CN 202310552029A CN 116561663 B CN116561663 B CN 116561663B
Authority
CN
China
Prior art keywords
degree
hand operation
unmanned equipment
video
concentration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310552029.XA
Other languages
English (en)
Other versions
CN116561663A (zh
Inventor
侯军芳
李娟�
胡伟锋
王和平
梁媛媛
邓刚
梁梓
马金盾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unit 63966 Of Pla
Original Assignee
Unit 63966 Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unit 63966 Of Pla filed Critical Unit 63966 Of Pla
Priority to CN202310552029.XA priority Critical patent/CN116561663B/zh
Publication of CN116561663A publication Critical patent/CN116561663A/zh
Application granted granted Critical
Publication of CN116561663B publication Critical patent/CN116561663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种地面无人装备人工干预程度分级方法、系统、计算设备,通过四个指标来描述人工干预程度,分别为头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率。本发明的优点是:有利于提高对地面无人装备人工干预的评价客观性,基于视频图像深度学习智能处理技术,提高测试评价效率。根据视频数据采集整合及人员姿态和动作行为检测、识别、跟踪以及人机交互行为分析,实现对地面无人装备人工干预程度的定量评估,突破传统评价严重依赖于专家主观定性评价、定量化表达能力不足的局限,构建具备视频场景精准感知综合定量分析的地面无人装备人工干预程度评价体系,对地面无人装备自主性量化评估起到一定参考作用。

Description

地面无人装备人工干预程度分级方法、系统、计算设备
技术领域
本发明涉及地面无人装备技术领域,具体涉及一种地面无人装备人工干预程度分级方法、系统、计算设备。
背景技术
人机交互是指用户与系统之间的交流、互动,人机交互界面通常指用户可见的部分,如设备上的按钮、汽车仪表盘、机器人操控终端等,都是人机交互界面的典型案例。随着人工智能技术的发展,通过人机交互与人工智能的结合,使得交互技术产生极大的提升,未来人机交互技术是向人机融合、智能人机交互、自然人机交互的方向发展。未来军事行动将更多地需要无人系统与人员之间的协作,通过实现人机的无缝集成,减少人类操控的工作量,增强机器的自主智能决策能力,提高人机协同决策效率。目前,地面无人装备的人机交互方式以摇杆、按键、触控屏等利用实体交互为主,先进的人机协同交互系统对于提高无人装备自主性方面至关重要,更能提升无人装备的作战能力。
为了研究人—机、系统与平台之间的关系,科学严谨地确定人工干预程度评价指标,以便改进地面无人装备性能,减少操作成本和设计成本,提高现有装备对新环境的自适应能力,并加快其推进行程。亟待一种准确合理的地面无人装备人工干预程度分级方法出现。
发明内容
本发明提出了一种地面无人装备人工干预程度分级方法、系统、计算设备及存储介质,解决现有技术难以对地面无人装备人工干预程度进行准确分级的问题。
根据本发明的一个方面,提供了一种地面无人装备人工干预程度分级方法,其特征在于,包括:
构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级。
进一步地,计算头部姿态专注度的评价分值,包括:
获取操作人员头部视频,采用深度学习的方法,计算出操作人员头部的三个角度:仰俯角、偏航角、翻滚角;
选取操作人员头部的俯仰角、偏航角或者翻滚角小于一定的阈值的图像作为关注操作界面图像,确定关注操作界面图像的帧数;
将所述关注操作界面图像的帧数除以视频的总帧数,然后再乘以10,作为头部姿态专注度的评分值。
进一步地,计算表情专注度的评价分值,包括:
获取操作人员头部视频,通过深度迁移学习方法对操作人员的表情专注度进行识别,对每一帧的识别结果标识为专注或不专注;
将识别结果为专注的帧数除以视频的总帧数,然后再乘以10,作为表情专注度的评分值。
进一步地,计算手部操作时间占比的评价分值,包括:
获取操作人员手部操作视频,通过深度学习方法对视频中的手和屏幕进行检测,计算两者的交并比IOU;
通过IOU和设定的阈值进行比较,IOU大于等于阈值视为在进行操作,小于阈值视为并未进行操作,确定手部在进行操作的图像帧数;
将所述手部在进行操作的图像帧数除以视频的总帧数,然后再乘以10,作为手部操作时间占比的评分值。
进一步地,计算手部操作交互频率的评价分值,包括:
获取操作人员手部操作视频,计算视频中手部操作与不操作的交互次数;
统计本次视频的总秒数和交互次数,将所述交互次数乘以最快交互时间,再除以所述视频总秒数,然后再乘以10,作为手部操作交互频率的评分值。
进一步地,采用深度学习的方法,包括:采用多角度回归损失的设计,结合梯度优化和自适应的方法,使用卷积神经网络从图像强度估计3D头部姿势。
进一步地,通过深度迁移学习方法对操作人员的表情专注度进行识别,包括:采用DAN-main网络进行表情专注度检测,在测试时,首先对人脸进行裁剪,并通过opencv-python获得头部偏转角度,大于设定阈值的人脸图片属于不专注类别,对于在设定阈值范围下的人脸图片再输入到DAN-main网络中进行表情专注度检测。
根据本发明的另一方面,提供了一种地面无人装备人工干预程度分级系统,其特征在于,包括:
构建单元,用于构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
处理单元,用于计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
确定单元,用于根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级。
根据本发明的又一方面,提供了一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的地面无人装备人工干预程度分级方法对应的操作。
根据本发明的又一方面,提供了一种计算设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现所述的地面无人装备人工干预程度分级方法。
由上述本发明提供的技术发明可以看出,采用本发明提供的地面无人装备人工干预程度分级方法、系统,通过四个指标来描述地面无人装备人工干预程度,分别为头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率,有利于改善人与装备协作关系,同时,改进通信接口,提高应用程序的可用性和可靠性,可以减少系统操作人员的需求量,降低在缺乏人—机交互支持的情况下,设计不同系统显示或重新设计地面无人装备的成本。根据视频数据采集整合及人员姿态和动作行为检测、识别、跟踪以及人机交互行为分析,实现对地面无人装备人工干预程度的定量评估,突破传统评价严重依赖于专家主观定性评价、定量化表达能力不足的局限,构建具备视频场景精准感知综合定量分析的地面无人装备人工干预程度评价体系,对地面无人装备自主性量化评估起到一定参考作用。
上述说明仅是本发明技术发明的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的一种地面无人装备人工干预程度分级方法的流程图;
图2为本发明的卷积神经网络的结构示意图;
图3为本发明的头部姿态示意图;
图4为本发明的一种地面无人装备人工干预程度分级系统的结构示意图;
图5是本发明实施例中地面无人装备人工干预程度分级的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
下面对本发明所提供的一种地面无人装备人工干预程度分级方法、系统进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
参见图1,本发明的一种地面无人装备人工干预程度分级方法,包括:
S101,构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
S102,计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
S103,根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级。
具体的,本发明中地面无人装备人工干预程度表示对外界操作人员的依赖程度,人工干预程度越高表示对外界操作人员的依赖程度越高,地面无人装备自主能力越低。本发明设计了四个指标来描述地面无人装备人工干预程度,分别为头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率。
具体的,头部姿态专注度:通过深度学习的方法,可以计算出操作人员头部的三个角度:仰俯角(pitch)、偏航角(yaw)、翻滚角(roll);这里选取俯仰角和偏航角作为计算依据,在每一帧图像中,如果操作人员的俯仰角或者偏航角小于一定的阈值(比如15度),则认为操作人员是关注操作界面的;最终的头部姿态专注度的测试指标为关注操作界面的帧数除以视频的总帧数然后再乘以10,作为头部姿态专注度的指标评分值(量值处于0-10之间)。
具体的,常见的头部姿态估计的方法是基于人脸关键点的检测来完成,基于关键点的面部分析是通过建立关键点和3D头部模型之间的对应关系并执行对准来恢复头部的3D姿势的能力,这种使用卷积神经网络提取2D面部关键点的方法灵活性较好,但是这种方法并没有使用全部的面部信息,在未能检测到关键点的情况下,无法进行3D姿态估计。为了克服这种检测缺陷,本发明使用无关键点的姿态估计方法,采用多角度回归损失的设计,结合梯度优化和自适应的方法,提高头部姿态评估的准确性,与基于关键点的方法相比,使用卷积神经网络从图像强度估计3D头部姿势的直接整体方法提供了更高的准确性,本发明在文献的基础上,优化了梯度下降方法,使用深度残差网络RestNet 101,相比RestNet 50,具有更深层次的网络结构,在AFLW2000和300W-LP数据集上取得了更好的精度和效果。
图2所示的是一个基于CNN的图像分类网络模型,图中描述的网络结构中,包括2个卷积层、2个池化层和3个全连接层。具体过程表述如下:输入图像先经过3个卷积核的处理,卷积层1输出是原图像的3个特征图(feature map),然后使用非线性激活函数处理,再输入池化层1进行池化操作,得到了更小尺寸的特征图。其次,特征图在经过卷积层2和池化层2的处理后,把得到的好的特征图进行向量化并输入到全连接层,全连接层负责作特征的融合处理,最后,得到的特征向量输入SoftMax分类器进行图像分类,得到分类结果。
卷积神经网络中损失函数(Loss Function),表示样本预测值和样本真实值之间的偏差,作为深度学习网络中的优化目标,然后使用反向传播的方法优化卷积神经网络参数的训练。反向传播起到网络的负反馈作用,使用不断地迭代的方式,不断优化神经网络的参数学习。分类任务和回归任务是监督学习中两个基本的任务。
下面是分类和回归任务中损失函数上的具体表示,在头部姿态估计中,其实质也是在使用分类和回归的方法对姿态做预测,本文用到的方法也可以说二者的变换与结合。
分类任务的损失函数:分类问题是对离散值的处理,根据数据标签对样本中的类别分类,或者理解为离散变量分布的预测。交叉熵损失函数在分类任务中被经常使用,它表示样本值与真实值之间概率分布的误差。该函数可以将输出转换成概率的分布,然后使用softmax函数将神经网络前向传播的结果输出为概率得分,这也是当前卷积神经网络完成分类任务常用到的损失函数,公式如下:
回归任务的损失函数:回归任务的每个维度是实数值,不使用0或1表示。它是对连续变量的预测,回归任务可以处理连续值,得到定量的输出结果。回归任务需要使用均方误差(Mean Squared Error,MSE),如式所示,用以定量表示实际值与预测值的误差:
其中,y表示实际值,'y表示预测值。
具体的,本发明使用深度学习的方法,采用多角度回归损失的设计,结合梯度优化和自适应的方法,提高头部姿态评估的准确性,与基于关键点的方法相比,使用卷积神经网络从图像强度估计3D头部姿势的直接整体方法提供了更高的准确性,本发明在文献的基础上,优化了梯度下降方法,使用深度残差网络RestNet 101,相比RestNet 50,具有更深层次的网络结构,在AFLW2000和300W-LP数据集上取得了更好的精度和效果。
常见的头部姿态估计的方法是基于人脸关键点的检测来完成,基于关键点的面部分析是通过建立关键点和3D头部模型之间的对应关系并执行对准来恢复头部的3D姿势的能力,这种使用卷积神经网络提取2D面部关键点的方法灵活性较好,但是这种方法并没有使用全部的面部信息,在未能检测到关键点的情况下,无法进行3D姿态估计。为了克服这种检测缺陷,本发明使用无关键点的姿态估计方法。
具体的,采用欧拉角来评估人体头部姿态,采用单目摄像机拍摄的人体头部图像,可通过欧拉角来表示,即偏航角(yaw)、仰俯角(pitch)、旋转角(roll)三个角度来理解人体头部的空间姿态。使用卷积神经网络从图像强度估计3D头部姿势的直接整体方法提供了更高的准确性。使用更深的深度残差网络,将全连接层输出为198层,下面的部分是粗分类,上面的层数主要用作精细分类,并在训练网络中加入了梯度优化,用softmax的分类器,并计算出每层输出的交叉熵损失,经过最终的期望计算来获得三个角度上的均方误差,联合其他层的损失输出,来计算总损失。在训练网络模型时,加入梯度优化策略,减小深层网络中梯度退化带来的影响。在上层分类中计算得到期望值,下层分类的全连接中则只计算交叉熵损失。SoftMax回归是在逻辑回归的基础上得到的,属于有监督的学习方法,主要目的是解决多分类问题。通过在最后一层网络加入SoftMax函数,再结合深度学习技术,可以实现对输入的头部姿态角度类别的分类。头部姿态的评估类别有三个角度,每个角度做同样的处理。在Softmax回归后接入交叉熵所示的计算,交叉熵函数可以用MAE式得到:MAE(MeanAbsolute Error)表示平均绝对值误差,它用来表示预测值和真实值之间绝对误差的平均值,可以较好的反映预测值误差情况。式中所示:
y和y'分别表示真实值和预测值。它表示预测值和观测值之间绝对误差的平均值。
每个角度的损失用下式表示:
式中,L和MSE分别表示交叉熵损失和均方差损失函数,n表示分类的数量。
本发明通过深度迁移学习方法对操作人员的表情专注度进行识别,不仅能够解决样本数据少引起的无法训练的问题,数据标注困难和算法训练中的问题,而且能够提升机器学习学习效率,降低学习成本。对每一帧的识别结果为专注或不专注;最终的表情专注度指标为识别结果为专注的帧数除以视频的总帧数然后再乘以10,作为表情专注度的指标评分值(量值处于0-10之间)。
具体的,表情专注度检测采用DAN-main网络进行专注度检测。在测试时,首先对人脸进行裁剪,并通过opencv-python获得头部偏转角度,大于设定阈值的图片说明头部偏转过大,属于不专注类别;对于在设定阈值范围下的人脸再输入到DAN-main网络中进行表情专注度检测。采用迁移学习的思想。首先,DAN-main网络主要用于表情识别领域,利用迁移学习的思想,将其预训练权重初始化网络,进而训练自制数据集(不专注数据集和专注数据集),再把得到的最新的网络及权重再来分类新的图片。通过迁移学习,可以解决样本数据少的问题。从DAN-main网络的官网下载预训练权重,输入数据集数据集进行训练,使模型能更好的收敛。运行train.py,需要指定的参数有:--aff_pth:指定数据集的位置。--batch-size:根据计算机的算力资源,指定batchsize大小为256,即一次送入256张图片进行模型的训练。--lr:指定学习率。--epochs:设置迭代100个epoch。训练之前需要在网络框架中设置训练的参数,包括训练一个批次(batch)的输入图片的数量,训练的学习率以及卷积核的大小等参数。在深度学习的训练数据的过程中,学习率等参数的设置会直接影响到模型的优劣。当学习率设置的过大或步长过长时,容易造成梯度大的现象,从而导致错过极值点,从而不收敛。相反,当学习率设置的过小或步长过短时,就会导致迭代次数过多而止步不前,所以要在这之间找到一个平衡从而收敛到一个最优的极值点上。在测试过程中,由于主要是通过表情分析专注度,故先限定头部变换的角度,通过dilb检测头部偏转角度,得到头部偏转角度pitch_degree、yaw_degree、roll_degree,将所需要检测的视频送入预测模型中进行预测,并输出包含目标的视频中每一帧的类别,其中,需要指定的参数有:--txt_path:指定记录每一帧是否专注的txt文件路径。--test_path:指定要检测的视频路径。--pose_txt_path:指定保存每一帧头部姿态信息的txt文件路劲。--checkpoint:设置权重路径。将得到头部的三个偏转角度,则先判断三个值是否在一定阈值范围内,若不再设定的范围内,即头部偏转过大,则直接判断为不专注。若三个角度值在设定的范围内,再来用opencv-python检测人脸,若没有检测到人脸,则label设定为“null”,表示没有检测到人脸;若检测到人脸,则再输入到训练好的网络中去检测。
具体的,手部操作时间占比:通过深度学习方法对视频中的hand和screen进行检测,然后计算两者的交并比IOU。通过IOU和设定的阈值进行比较,IOU大于等于阈值视为在进行操作,小于阈值视为并未进行操作;最终手部操作时间占比为手部操作帧数除以总视频然后再乘以10作为手部操作时间占比的指标评分值(量值处于0-10之间)。
具体的,手部操作检测在yolov5s上采用迁移学习的方法,用在coco数据集上预训练的权重初始化,再在自己制作的数据集上微调。Yolov5s网络是Yolov5系列中深度最小,特征图的宽度最小的网络。由于本发明手部的目标识别检测,特征较为简单,环境也并不复杂,因此采用Yolov5s作为检测模型,进行训练,在保证训练精度的同时,可以保证训练速度的提升。首先模拟手部操作场景,用分辨率为1920*1080的相机进行数据集录制。录制了两段手部操作视频,其中一个视频作为训练集,一个视频作为测试。对于采集的训练集视频,以30fps的帧率进行间隔采样。训练数据集最重要的是标注样本,将图片的目标标注为yolo格式,对数据集进行标注可使用LabelImg进行,再将此数据集划分为train和val两部分,其中,训练集有1815张,验证集202张图片。之后,在得到对应的模型后,使用该手部数据集进行训练与检测。计算视频的总帧数,存为变量frames_all,总帧数为操作帧数run_frames、不操作帧数not_run_frames以及没有检测到其中的hand或screen的帧数not_detect三部分之和。手部操作时间占比即操作帧数run_frames除以总帧数frames_all。
具体的,手部操作交互频率:首先计算每个评估样本视频中手部操作与不操作的交互次数;统计本次视频的总秒数和交互次数,将所述交互次数乘以最快交互时间,再除以所述视频总秒数,然后再乘以10,作为手部操作交互频率的指标评分值(量值处于0-10之间)。首先,计算视频的总帧数,存为变量frames_all,计算手部操作的交互次数,存为变量run_times,手部操作与不操作交换最快时间设置为2秒(可以调整),然后计算手部操作交互频率,即操作交互次数run_times乘以最快交互时间除以总帧数frames_all。
请参照图4,本发明的一种地面无人装备人工干预程度分级系统,包括:
构建单元101,用于构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
处理单元102,用于计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
确定单元103,用于根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级。
可选地,地面无人车辆在运行过程中,根据人工干预程度将其划分为五个等级:一级(远程控制)无人装备的运行既不承担自我决策也不自主,所有的感知、理解、分析、规划和决策均由人来完成。无人装备的表现在很大的程度上受人影响。二级(智能辅助)无人装备感知周边环境并报告给操作者。所有的分析、规划和决策由人来完成,大部分感知由人来完成,操作者按照无人装备的参照标准控制其行动。三级(人为指导)无人装备感知其环境并报告给操作者。大部分的分析、规划和决策由人来完成,感知和执行行动由操作者和无人装备共同承担。四级(人为辅助)无人装备感知其环境并报告给操作者。分析、规划和决策由操作者和无人装备共同承担,大部分的感知和执行行动由无人装备来完成。五级(自主)在无人装备系统功能和限制的范围内,无人装备承担最大程度的独立和自主。地面无人装备的表现受操作者影响最小,不受人控制。地面无人装备感知其环境并报告给操作者,所有的感知和执行行动由无人装备来完成,大部分的分析、规划和决策由无人装备完成,协作可能要由人来完成。
因此,本发明将人工干预程度划分为五级:极低、低、中等、高、极高,即评估等级1级~5级,每个级别对应的指标量值分数如下表1所示。
表1
图5是本发明实施例中一种地面无人装备人工干预程度分级的计算设备的示例性硬件架构的结构图,所述地面无人装备人工干预程度分级的设备900包括输入设备901、输入接口902、中央处理器903、存储器904、输出接口905、以及输出设备906。其中,输入接口902、中央处理器903、存储器904、以及输出接口905通过总线910相互连接,输入设备901和输出设备906分别通过输入接口902和输出接口905与总线910连接,进而与地面无人装备人工干预程度分级的设备900的其他组件连接。
具体地,输入设备901接收来自外部的输入信息,并通过输入接口902将输入信息传送到中央处理器903;中央处理器903基于存储器904中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器904中,然后通过输出接口905将输出信息传送到输出设备906;输出设备906将输出信息输出到地面无人装备人工干预程度分级的设备900的外部供用户使用。
本发明实施例还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例的用户行为识别方法。
在示例性实施例中,计算设备900可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro ControllerUnit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本申请实施例的存储器904可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic RandomAccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic RandomAccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random AccessMemory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器904,上述计算机程序可由计算设备900的中央处理器903执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

Claims (6)

1.一种地面无人装备人工干预程度分级方法,其特征在于,包括:
构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级;
计算头部姿态专注度的评价分值,包括:
获取操作人员头部视频,采用深度学习的方法,计算出操作人员头部的三个角度:仰俯角、偏航角、翻滚角;
选取操作人员头部的俯仰角、偏航角或者翻滚角小于一定的阈值的图像作为关注操作界面图像,确定关注操作界面图像的帧数;
将所述关注操作界面图像的帧数除以视频的总帧数,然后再乘以10,作为头部姿态专注度的评分值;
计算表情专注度的评价分值,包括:
获取操作人员头部视频,通过深度迁移学习方法对操作人员的表情专注度进行识别,对每一帧的识别结果标识为专注或不专注;
将识别结果为专注的帧数除以视频的总帧数,然后再乘以10,作为表情专注度的评分值;
计算手部操作时间占比的评价分值,包括:
获取操作人员手部操作视频,通过深度学习方法对视频中的手和屏幕进行检测,计算两者的交并比IOU;
通过IOU和设定的阈值进行比较,IOU大于等于阈值视为在进行操作,小于阈值视为并未进行操作,确定手部在进行操作的图像帧数;
将所述手部在进行操作的图像帧数除以视频的总帧数,然后再乘以10,作为手部操作时间占比的评分值;
计算手部操作交互频率的评价分值,包括:
获取操作人员手部操作视频,计算视频中手部操作与不操作的交互次数;
统计本次视频的总秒数和交互次数,将所述交互次数乘以最快交互时间,再除以所述视频总秒数,然后再乘以10,作为手部操作交互频率的评分值。
2.根据权利要求1所述的地面无人装备人工干预程度分级方法,其特征在于,采用深度学习的方法,包括:采用多角度回归损失的设计,结合梯度优化和自适应的方法,使用卷积神经网络从图像强度估计3D头部姿势。
3.根据权利要求2所述的地面无人装备人工干预程度分级方法,其特征在于,通过深度迁移学习方法对操作人员的表情专注度进行识别,包括:采用DAN-main网络进行表情专注度检测,在测试时,首先对人脸进行裁剪,并通过opencv-python获得头部偏转角度,大于设定阈值的人脸图片属于不专注类别,对于在设定阈值范围下的人脸图片再输入到DAN-main网络中进行表情专注度检测。
4.一种采用权利要求1所述方法的人工干预程度分级系统,其特征在于,包括:
构建单元,用于构建地面无人装备人工干预程度评价体系,所述评价体系通过头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价指标进行表征;
处理单元,用于计算头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值;
确定单元,用于根据所述头部姿态专注度、表情专注度、手部操作时间占比、手部操作交互频率的评价分值将地面无人装备的人工干预程度确定为五个等级:远程控制级、智能辅助级、人为指导级、人为辅助级和自主级。
5.一种计算设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-3任意一项所述的地面无人装备人工干预程度分级方法。
6.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-3中任一项所述的地面无人装备人工干预程度分级方法对应的操作。
CN202310552029.XA 2023-05-16 2023-05-16 地面无人装备人工干预程度分级方法、系统、计算设备 Active CN116561663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310552029.XA CN116561663B (zh) 2023-05-16 2023-05-16 地面无人装备人工干预程度分级方法、系统、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310552029.XA CN116561663B (zh) 2023-05-16 2023-05-16 地面无人装备人工干预程度分级方法、系统、计算设备

Publications (2)

Publication Number Publication Date
CN116561663A CN116561663A (zh) 2023-08-08
CN116561663B true CN116561663B (zh) 2025-12-02

Family

ID=87485777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310552029.XA Active CN116561663B (zh) 2023-05-16 2023-05-16 地面无人装备人工干预程度分级方法、系统、计算设备

Country Status (1)

Country Link
CN (1) CN116561663B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119067313B (zh) * 2024-08-30 2025-04-08 中国人民解放军军事科学院系统工程研究院 一种无人系统人工干预度评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028742A (ja) * 2016-08-16 2018-02-22 マツダ株式会社 運転支援装置
CN111507592A (zh) * 2020-04-08 2020-08-07 山东大学 一种面向服刑人员的主动改造行为的评估方法
CN113850187A (zh) * 2021-09-24 2021-12-28 南京奥拓电子科技有限公司 一种超级柜台违规操作的监控方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012454A (ja) * 2017-06-30 2019-01-24 株式会社デンソー ドライバ監視支援装置、ドライバ監視支援制御装置、ドライバ監視支援方法、及びドライバ監視支援装置制御方法
CN111861128B (zh) * 2020-06-20 2024-03-22 清华大学 自动驾驶车辆人机协同操纵过程的接管舒适性评价方法、系统及存储介质
KR102340184B1 (ko) * 2021-08-23 2021-12-17 한화시스템 주식회사 콘솔 단말기에서 인공지능 학습기법을 이용하여 수동 표적을 추적하는 장치 및 방법
CN116029581A (zh) * 2022-11-18 2023-04-28 中国人民解放军海军士官学校 一种基于多源数据融合的在线教育用专注度评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028742A (ja) * 2016-08-16 2018-02-22 マツダ株式会社 運転支援装置
CN111507592A (zh) * 2020-04-08 2020-08-07 山东大学 一种面向服刑人员的主动改造行为的评估方法
CN113850187A (zh) * 2021-09-24 2021-12-28 南京奥拓电子科技有限公司 一种超级柜台违规操作的监控方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
地面无人装备自主作战效能评估方法研究;于丽莉,何明利,常书杰;军事运筹与系统工程;20200930;第34卷(第3期);第26-32页 *
基于深度学习的头部姿态估计方法研究;马中玉;中国优秀硕士学位论文全文数据库信息科技辑;20210115(第1期);第38-45页 *

Also Published As

Publication number Publication date
CN116561663A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN114332578B (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN106682696A (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN106897738A (zh) 一种基于半监督学习的行人检测方法
CN113111968A (zh) 图像识别模型训练方法、装置、电子设备和可读存储介质
KR20190029083A (ko) 신경망 학습 방법 및 이를 적용한 장치
CN119687918A (zh) 低置信度与特征相似环境下的导航避障方法及系统
CN119649257A (zh) 基于ai识别的无人机归还检测方法及系统
CN118010009B (zh) 一种教育机器人在复杂环境下的多模态导航系统
CN119027914B (zh) 一种基于知识蒸馏的车路协同3d目标检测方法及装置
CN104463207A (zh) 知识自编码网络及其极化sar影像地物分类方法
CN116561663B (zh) 地面无人装备人工干预程度分级方法、系统、计算设备
CN117437507A (zh) 一种用于评价图像识别模型的偏见性评估方法
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置
CN116777814A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN120011898A (zh) 无人机定位跟踪风险识别方法、存储介质及应用
CN116872961B (zh) 用于智能驾驶车辆的控制系统
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
Thevarasa et al. Weighted ensemble algorithm for aerial imaging based mosquito breeding sites classification
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
CN114283843B (zh) 神经网络模型融合监测方法及装置
CN118053174A (zh) 一种身体特征快速定位方法及系统
CN116503406A (zh) 基于大数据的水利工程信息管理系统
Al-Shalabi et al. Feasibility analysis and opposition white shark optimizer for optimizing modified EfficientNetV2 model for road crack classification: M. Al-Shalabi et al.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant