CN114462491A - 一种行为分析模型训练方法、行为分析方法及其设备 - Google Patents

一种行为分析模型训练方法、行为分析方法及其设备 Download PDF

Info

Publication number
CN114462491A
CN114462491A CN202111639231.3A CN202111639231A CN114462491A CN 114462491 A CN114462491 A CN 114462491A CN 202111639231 A CN202111639231 A CN 202111639231A CN 114462491 A CN114462491 A CN 114462491A
Authority
CN
China
Prior art keywords
human eye
eye
analysis model
behavior
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111639231.3A
Other languages
English (en)
Inventor
高康康
朱树磊
王宁波
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202111639231.3A priority Critical patent/CN114462491A/zh
Publication of CN114462491A publication Critical patent/CN114462491A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种行为分析模型训练方法、行为分析方法及其设备,该模型训练方法包括:构建连续帧人眼训练数据集;基于连续帧人眼训练数据集生成一个人眼簇图像;将人眼簇图像输入待训练分析模型,以获取连续帧人眼训练数据集的眼部行为分类,其中,眼部行为分类包括眼部行为类别及其第一预测概率;基于连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取待训练分析模型的第一预测损失,利用第一预测损失对待训练分析模型进行训练,以得到最终的行为分析模型。本申请的行为分析模型训练方法通过将连续帧人眼训练数据集的若干人眼图像帧编码到同一人眼簇图像,能够有效减少模型训练的参数冗余、复杂计算以及存储消耗,提升模型训练的效率。

Description

一种行为分析模型训练方法、行为分析方法及其设备
技术领域
本申请涉及数字图像识别技术领域,特别是涉及一种行为分析模型训练方法、行为分析方法及其设备。
背景技术
眨眼行为是一种正常的生理反应,该行为天然地体现了生物活性。为了避免眼睛过劳,同时反应人与外界良好的交互状态,眨眼难以避免。现实生活中随着智能技术的普及,眨眼行为被广泛应用到了活体检测,疲劳监测,微表情分析,测谎系统等场景。
然而,目前基于单帧空域特征的眨眼检测学术成果存在缺少时序信息,对于行为识别存在天然的信息丢失的问题;基于传感设备与装置的眨眼检测学术成果存在设备成本较高,应用场景较难扩展到通用场景中,实用性较低的问题;基于多帧时序加权融合的眨眼检测学术成果存在复杂计算和存储消耗会使算法使用难度加大的问题。
发明内容
本申请提供一种行为分析模型训练方法、行为分析方法及其设备。
为解决上述技术问题,本申请提供的第一个技术方案为:提供一种行为分析模型训练方法,所述行为分析模型训练方法包括:
构建连续帧人眼训练数据集,其中,所述连续帧人眼训练数据集包括若干连续的人眼图像帧;
基于所述连续帧人眼训练数据集生成一个人眼簇图像;
将所述人眼簇图像输入待训练分析模型,以获取所述连续帧人眼训练数据集的眼部行为分类,其中,所述眼部行为分类包括眼部行为类别及其第一预测概率;
基于所述连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取所述待训练分析模型的第一预测损失,利用所述第一预测损失对所述待训练分析模型进行训练,以得到最终的行为分析模型。
其中,所述构建连续帧人眼训练数据集,包括:
采用眼睛检测网络对所述监控视频流中的人眼图像进行检测,确定包括眼部区域的人眼图像作为起始帧;
基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集。
其中,所述基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集,包括:
基于所述起始帧按照预设帧步长选择连续预设帧数的人眼图像组成连续帧人眼训练数据集。
其中,所述基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集,包括:
基于起始帧选择连续多帧的人眼图像;
采用所述眼睛检测网络定位所述人眼图像中的眼部区域;
按照所述眼部区域对所述人眼图像进行裁剪,得到人眼区域图像;
基于连续多帧的人眼区域图像组成所述连续帧人眼训练数据集。
其中,所述按照所述眼部区域对所述人眼图像进行裁剪,得到人眼区域图像,包括:
采用人脸对齐算法将连续多帧的人眼图像进行矫正,以使得矫正后的人眼图像中眼部区域的方向一致;
按照所述眼部区域对矫正后的人眼图像进行裁剪,得到所述人眼区域图像。
其中,所述基于所述连续帧人眼训练数据集生成一个人眼簇图像,包括:
将所述连续帧人眼训练数据集中若干人眼图像帧按照预设图像编码规则编码到同一张图像中,以生成所述人眼簇图像。
其中,所述预设图像编码规则包括所述连续帧人眼训练数据集中若干人眼图像帧的采集时间顺序。
其中,所述待训练分析模型包括第一待训练分析模型和第二待训练分析模型;
所述分析模型训练方法,还包括:
将所述人眼簇图像输入第一待训练分析模型,以获取预测人眼状态逻辑线索特征图,其中,所述预测人眼状态逻辑线索特征图包括每一人眼图像帧的第一预测概率;
基于所述预测人眼状态逻辑线索特征图和真实人眼状态逻辑线索特征图获取所述第一待训练分析模型的第二预测损失,利用所述第二预测损失对所述第一待训练分析模型进行训练;
将所述预测人眼状态逻辑线索特征图输入第二待训练分析模型,以获取所述连续帧人眼训练数据集的眼部行为分类,其中,所述眼部行为分类包括眼部行为类别及其第三预测概率;
基于所述连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取所述第二待训练分析模型的第三预测损失,利用所述第三预测损失对所述第二待训练分析模型进行训练。
其中,所述第一待训练分析模型包括浅层卷积核和深层卷积核;
所述将所述人眼簇图像输入第一待训练分析模型,以获取预测人眼状态逻辑线索特征图,包括:
将所述人眼簇图像输入所述第一待训练分析模型;
通过所述浅层卷积核提取所述人眼簇图像的局部特征,所述局部特征表征相邻人眼图像帧的特征关系;
通过所述深层卷积核提取所述人眼簇图像的全局特征,所述全局特征表征人眼图像帧在人眼簇图像的特征关系;
基于所述人眼簇图像的局部特征和全局特征生成所述预测人眼状态逻辑线索特征图。
为解决上述技术问题,本申请提供的第二个技术方案为:提供一种行为分析方法,所述行为分析方法包括:
获取监控视频流;
将所述监控视频流输入所述行为分析模型,获取输出的行为分析类别,以及每一类别的预测概率;
选取预测概率最高的行为分析类别作为所述监控视频流的行为分析结果;
其中,所述行为分析模型由上述的行为分析模型训练方法训练得到。
其中,所述选取预测概率最高的行为分析类别作为所述监控视频流的行为分析结果,包括:
判断所述预测概率最高的行为分析类别的预测概率是否大于等于预设概率阈值;
若是,输出该行为分析类别作为所述监控视频流的行为分析结果;
若否,输出没有发生该行为分析类别事件的行为分析结果。
为解决上述技术问题,本申请提供的第三个技术方案为:提供一种终端设备,所述终端设备包括处理器、与所述处理器连接的存储器,其中,所述存储器存储有程序指令;所述处理器用于执行所述存储器存储的程序指令以实现上述的行为分析模型训练方法和/或行为分析方法。
为解决上述技术问题,本申请提供的第四个技术方案为:提供一种计算机可读存储介质,所述存储介质存储有程序指令,所述程序指令被执行时实现上述的行为分析模型训练方法和/或行为分析方法。
本申请提供的行为分析模型训练方法中,终端设备构建连续帧人眼训练数据集,其中,所述连续帧人眼训练数据集包括若干连续的人眼图像帧;基于所述连续帧人眼训练数据集生成一个人眼簇图像;将所述人眼簇图像输入待训练分析模型,以获取所述连续帧人眼训练数据集的眼部行为分类,其中,所述眼部行为分类包括眼部行为类别及其第一预测概率;基于所述连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取所述待训练分析模型的第一预测损失,利用所述第一预测损失对所述待训练分析模型进行训练,以得到最终的行为分析模型。本申请的行为分析模型训练方法通过将连续帧人眼训练数据集的若干人眼图像帧编码到同一人眼簇图像,能够有效减少模型训练的参数冗余、复杂计算以及存储消耗,提升模型训练的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的行为分析模型训练方法一实施例的流程示意图;
图2是本申请提供的行为分析模型算法训练和测试的流程示意图;
图3是本申请提供的人眼检测及空间姿态变换的示意图;
图4是本申请提供的人眼帧序列标注说明的示意图;
图5是本申请提供的人眼数据编码的示意图;
图6是本申请提供的行为分析模型训练方法另一实施例的流程示意图;
图7是本申请提供的行为分析模型的数据流示意图;
图8是本申请提供的人眼状态逻辑线索特征图的示例图;
图9是本申请提供的行为分析方法一实施例的流程示意图;
图10是本申请提供的终端设备一实施例的结构示意图;
图11是本申请提供的计算机可读存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本申请进行详细的说明。
请参见图1和图2,图1是本申请提供的行为分析模型训练方法一实施例的流程示意图,图2是本申请提供的行为分析模型算法训练和测试的流程示意图。
该行为分析模型训练方法可以在浏览器或应用程序中运行,具体可以应用于一种终端设备。其中,本申请的终端设备可以为服务器,也可以为由服务器和本地终端相互配合的系统。相应地,终端设备包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以分别设置于服务器和本地终端中。
进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。在一些可能的实现方式中,本申请实施例的异常运动状态检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
如图1所示,本申请实施例的行为分析模型训练方法的具体步骤如下:
步骤S11:构建连续帧人眼训练数据集,其中,连续帧人眼训练数据集包括若干连续的人眼图像帧。
在本申请实施例中,终端设备对于任意输入的人眼图像,需要截取连续多帧的人眼图像,组成连续帧人眼训练数据集,作为行为分析模型的训练集。
在截取连续多帧的人眼图像之前,终端设备需要先确定连续帧人眼训练数据集的起始帧。具体地,终端设备可以采用眼睛检测网络对监控视频流中的人眼图像进行检测,确定包括眼部区域的人眼图像作为起始帧。需要说明的是,本申请实施例的眼睛检测网络事先通过大量的眼睛图像以及非眼睛图像进行训练,使得眼睛检测网络能够对图像中的眼部区域进行检测识别。
另外,本申请实施例采用预先训练的眼睛检测网络对人眼图像中的眼部区域进行区域图像识别,相较于采用人脸关键点,如人眼关键点来对眼部区域进行定位和识别,本申请实施例直接对眼部区域进行图像识别,能够减少关键特征点定位精度的影响,也可以提高构建连续帧人眼训练数据集的效率。
具体地,本申请实施例获取人眼区域图像的方法包括但不限于以下四种:
(a)基于关键点定位眼睛区域后截取图像。
(b)基于眼睛检测网络检测人眼区域后截取图像。
(c)基于三维标准人脸对齐的方式定位眼睛区域后截取图像。
(d)基于传统特征定位眼部轮廓后经二值化处理提取眼睛图像等。
如图2所示,终端设备可以通过捕捉视频流中的人脸数据,通过人脸对齐方法,捕捉人眼区域,同时结合人眼状态标签,构建连续帧人眼训练数据集。具体地,对于任意输入的人眼图像,终端设备利用基于轻量级眼睛检测网路和空间姿态校正的人脸对齐算法,定位并矫正眼部区域,并根据人眼图像顺序对齐相邻人眼图像,截取人眼区域图像,生成人眼序列集,即连续帧人眼训练数据集。
进一步地,终端设备在确定起始帧后,选取连续n帧人眼图像,分别对所有人眼图像进行灰度化处理,进而生成人眼帧数据组D0。然后,终端设备可以设定帧步长,例如帧步长为1时,终端设备在人眼帧数据组D0中每间隔一帧选取人眼图像构建连续帧人眼训练数据集,从而选取出k组相同长度的连续帧人眼训练数据集D={Di|i=0,1,2,…,k},作为行为分析模型的训练集。
需要说明的是,在其他实施例中,连续帧人眼训练数据集也可以直接采用彩色图像,即不需要经过灰度化处理,行为分析模型也可以训练针对彩色图像的行为分析功能。不同的模型以及不同的算法对于图像数据的输入要求可能存在一定的差异,输入的图像数据诸如RGB彩图、灰度图、纹理特征图、红外光图、事件相机图像等。本申请实施例只是以灰度图为一种例子,同时也可以扩展为上述多种特征图。其中,灰度图可以视为RGB彩图的灰度化处理,为单通道图像。
具体地,如图3所示,终端设备采用人脸对齐算法将连续多帧的人眼图像进行矫正,例如,采用图3所示的旋转操作,对人眼图像进行空间姿态变换,使得矫正后的人眼图像中眼部区域的方向一致。
然后,终端设备可以根据眼部区域对矫正后的人眼图像进行裁剪,得到人眼区域图像,并利用人眼区域图像构建连续帧人眼训练数据集。具体地,终端设备在检测到的人眼区域,即图3中的人眼框的基础上,对人眼区域进行外扩,使得人眼框外扩至方形,即长宽比为1的人眼框,进而提取人眼区域图像。
进一步地,终端设备在准备好连续帧人眼训练数据集后,还需要人工对连续帧人眼训练数据集中每个人眼图像的状态进行标注,标注数值可以按照不同的需求或习惯进行调整。
具体地,如图4所示,图4是一组人眼帧序列的标注说明。图4包括帧序号从0至15的16帧人眼图像组成的人眼帧序列,其中,将表征睁眼的人眼图像的类标标注为0,将表征闭眼的人眼图像的类标标注为1。
其中,人眼帧序列标注即从起始帧开始,采集n帧样本后,人工根据每帧样本中人眼的状态,对人眼图像的状态值进行标注,如睁眼为0,闭眼为1,眯眼为0.5等。需要说明的是,待训练分析模型训练回归任务,回归值是必须的,其次,本申请对上述回归值的标注不仅限于0、0.5、1等数值,还可以是其他数值或表现形式,在此不一一列举。
步骤S12:基于连续帧人眼训练数据集生成一个人眼簇图像。
在本申请实施例中,终端设备对于连续帧人眼训练数据集D中每组人眼图像,将图像尺度放缩到统一大小,并按照一定图像编码规则生成特征图,即2D人眼簇图像。具体如图5所示,图5(a)为人眼簇图像,图5(b)为人眼图像的编码形式,图5(c)为真实眼部行为标签,由人眼帧序列的标注结果按照图像编码规则组合生成。
其中,图像编码规则具体可以为将连续帧人眼训练数据集中的若干人眼图像按照采集时间顺序进行排列,如图5(b)中,从上往下,从左往右,依次对图4的16帧人眼图像进行编码,从而生成图5(a)的人眼簇图像。
具体地,人眼簇图像编码即根据标注的连续帧人眼图像,按照一定编码规则生成一个新的图像,每个人眼图像对应原始帧序号如图5(b)所示。相应地,人眼簇图像中人工标注的像素级状态值如图5(c)所示,分别代表该区域内的人眼状态,包括睁眼、闭眼、眯眼等,以此来作为分析模型训练的依据。
需要说明的是,图像编码方式并非具有唯一性,例如,本申请也可以采用对图像进行旋转、翻转、镜像等方式,改变编码规则进行图像分布,从而获得不同的人眼簇图像。
另外,本申请基于时序的方式挑选连续图像,将挑选出的连续图像按照图5(b)的编码方式进行图像编码,组合成一张完整的人眼簇图像,而非一组图像。人眼簇图像即包含单张人眼图像的空间特征,又包含多张人眼图像的连续时序特征,可以解决三维卷积过程中参数冗余和网络耗时的问题。除此之外,本申请的行为分析模型仅需要单张人眼簇图像作为输入,而非人眼簇图像中的各个人眼图像作为输入,在性能上有一定的优势。
步骤S13:将人眼簇图像输入待训练分析模型,以获取连续帧人眼训练数据集的眼部行为分类,其中,眼部行为分类包括眼部行为类别及其第一预测概率。
在本申请实施例中,终端设备将步骤S12生成的人眼簇图像输入待训练分析模型,以提取人眼簇图像的图像特征,并按照人眼簇图像的图像特征输出连续帧人眼训练数据集的眼部行为分类,其中,眼部行为分类包括眼部行为类别及其预测概率。
具体地,本申请实施例中眼部行为类别包括但不限于:睁眼、闭眼、眨眼等。
步骤S14:基于连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取待训练分析模型的第一预测损失,利用第一预测损失对待训练分析模型进行训练,以得到最终的行为分析模型。
在本申请实施例中,待训练分析模型根据连续帧人眼训练数据集的眼部行为分类和人工标注的真实眼部行为标签的差异构建第一预测损失,并基于第一预测损失对待训练模型进行训练,从而训练出最终的行为分析模型。
在本申请实施例中,终端设备构建连续帧人眼训练数据集;基于连续帧人眼训练数据集生成一个人眼簇图像;将人眼簇图像输入待训练分析模型,以获取连续帧人眼训练数据集的眼部行为分类,其中,眼部行为分类包括眼部行为类别及其第一预测概率;基于连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取待训练分析模型的第一预测损失,利用第一预测损失对待训练分析模型进行训练,以得到最终的行为分析模型。本申请的行为分析模型训练方法通过将连续帧人眼训练数据集的若干人眼图像帧编码到同一人眼簇图像,能够有效减少模型训练的参数冗余、复杂计算以及存储消耗,提升模型训练的效率。
进一步地,本申请的行为分析模型具体可以划分为第一待训练分析模型,即状态逻辑线索感知网络,和第二待训练分析模型,即眨眼行为分析网络。
具体请参阅图6和图7,图6是本申请提供的行为分析模型训练方法另一实施例的流程示意图,图7是本申请提供的行为分析模型的数据流示意图。
如图6所示,本申请实施例的行为分析模型训练方法的具体步骤如下:
步骤S21:将人眼簇图像输入第一待训练分析模型,以获取预测人眼状态逻辑线索特征图,其中,预测人眼状态逻辑线索特征图包括每一人眼图像帧的第一预测概率。
在本申请实施例中,如图7所示,终端设备将人眼簇图像输入状态逻辑线索感知网络,以获取预测人眼状态逻辑线索特征图。其中,人眼状态逻辑线索特征图的示例图请参阅图8,图8为状态逻辑线索感知网络输出的人眼状态逻辑线索特征图在人眼簇图像上的可视化结果,区域A代表存在闭眼状态的区域,区域B代表存在睁眼状态的区域,区域C代表从睁眼状态到闭眼状态的过渡区域。
以人眼簇图像作为输入,经过以沙漏网络为主干的状态逻辑线索感知网络,回归出含闭眼状态的眼部区域,得到人眼状态逻辑线索特征图。
具体地,状态逻辑线索感知网络包括浅层卷积核和深层卷积核,利用浅层卷积核和深层卷积核提取人眼簇图像的图像特征。状态逻辑线索感知网络利用浅层卷积核在人眼簇图像上以固定步长提取浅层特征,即人眼簇图像的局部特征,用于表征相邻人眼图像的特征关系。状态逻辑线索感知网络利用深层卷积核提取深层特征,即全局特征,用于表征人眼图像在人眼簇图像的特征关系。其中,深层卷积核随感知区域的扩张,综合浅层纹理和深层时序特征,可以抽象出图像高阶语义。
由于人眼簇图像中具有同时表达单帧纹理信息以及连续间隔16帧的时序信息,因此,通过2D卷积、池化、上采样等处理,便可以最终输出与输入图像同一尺度的人眼状态逻辑线索特征图,如图8所示,其中区域A越大,表示为闭眼的概率越高,区域B越大,表示为睁眼的概率越高。
步骤S22:基于预测人眼状态逻辑线索特征图和真实人眼状态逻辑线索特征图获取第一待训练分析模型的第二预测损失,利用第二预测损失对第一待训练分析模型进行训练。
本申请实施例中,状态逻辑线索感知网络基于图8的预测人眼状态逻辑线索特征图以及图5(c)的真实人眼状态逻辑线索特征图计算预测损失,并利用预测损失进行模型训练。
步骤S23:将预测人眼状态逻辑线索特征图输入第二待训练分析模型,以获取连续帧人眼训练数据集的眼部行为分类,其中,眼部行为分类包括眼部行为类别及其第三预测概率。
在本申请实施例中,如图7所示,人眼状态逻辑线索特征图作为眨眼行为分析网络的输入,用于对输入视频帧序列中的眼部行为进行分类。过程中,状态逻辑线索感知网络以回归损失作为监督,而眨眼行为分析网络以交叉熵损失作为监督信号,促使网络优化和收敛。
需要说明的是,该状态逻辑线索感知网络是基于人眼簇图像的卷积神经网络,对人眼簇图像进行时序和空间上的特征抽象,提取序列行为变化及空间分布特征,从而判断一段时序中,指定动作是否发生,有别于基于图卷积的网络。除此之外,眨眼行为分析网络作为人眼状态逻辑线索特征图的分析工具,可以但不限于使用公开的分类网络,如VGG、ResNet等。
步骤S24:基于连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取第二待训练分析模型的第三预测损失,利用第三预测损失对第二待训练分析模型进行训练。
在本申请实施例中,尽可能避免过度使用特征点信息,依赖轻量级眼部检测网络和空间姿态矫正方法,获取人眼区域数据,从而避免特征点定位误差对算法性能的影响,提升算法准确率和鲁棒性;使用多帧数据来避免时序信息的丢失,同时,使用状态逻辑线索感知网络来感知该序列内的人眼状态,并完成眨眼行为分析,从而避免过于久远的历史状态的影响。该方法既降低了数据标签化难度,又可以引入有效的时序特征,从而提升算法性能;通过图像编码技术,避免3D卷积核的使用,转而利用2D卷积核共享参数的特性,避免模型参数的大量冗余现象,同时,保有时序和纹理上的特征。事实上,2D卷积相对于3D卷积而言,在参数冗余、复杂计算和存储消耗上均有较大改观,便于应用于实际场景;通过将连续帧人眼训练数据集编码成一张完整的图后一次性输入,从信息的有效编码、有效利用和性能上,有较大优势。
请继续参阅图9,图9是本申请提供的行为分析方法一实施例的流程示意图。
如图9所示,本申请实施例的行为分析模型训练方法的具体步骤如下:
步骤S31:获取监控视频流。
步骤S32:将监控视频流输入行为分析模型,获取输出的行为分析类别,以及每一类别的预测概率。
步骤S33:选取预测概率最高的行为分析类别作为监控视频流的行为分析结果。
对于任意输入的含人脸视频流,终端设备利用与训练过程相同的人脸对齐算法,定位和对齐人眼图像,并截取人眼区域。随后,在确定起始帧后,选取连续n帧人眼图像,分别对所有人眼图像进行灰度化处理,进而生成人眼帧数据组。最后用与训练过程相同的方法生成人眼簇图像。
终端设备加载已训练至收敛的状态逻辑线索感知网络及眨眼行为分析网络,并将人眼簇图像作为状态逻辑线索感知网络的输入,生成人眼状态逻辑线索特征图,并作为眨眼行为分析网络的输入,最终得到各行为类别的概率。
终端设备选取各行为中概率值最大的行为作为算法分析的结果,同时,以该概率值作为该行为发生的置信度,通过与阈值进行比对,输出最终的眨眼结果。
具体地,眨眼行为分析基于以人眼状态逻辑线索特征图作为输入的眨眼行为分析网络完成,该网络以状态逻辑线索感知网络输出的人眼状态图为输入,提取抽象特征,最终得到各眨眼行为概率。
本申请中,眨眼行为包括但不限于睁眼、闭眼、眯眼、眨眼等。落地层面上而言,将会选取概率最大的行为,随后当该行为概率值超出设定的阈值时,便认为该行为发生,否则认为眨眼事件没有发生。
以上实施例,仅是对本申请的其中一种常见案例而已,并非对本申请的技术范围做任何限制,故凡是依据本申请方案的实质对以上内容所做的任何细微修改、等同变化或者修饰,均仍属于本申请技术方案的范围内。
请参见图10,图10是本申请提供的终端设备一实施例的结构示意图。终端设备包括相互连接的存储器52和处理器51。
存储器52用于存储实现上述任意一项的行为分析模型训练方法和/或行为分析方法的程序指令。
处理器51用于执行存储器52存储的程序指令。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信令的处理能力。处理器51还可以是通用处理器、数字信令处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以为内存条、TF卡等,可以存储终端设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,终端设备才有记忆功能,才能保证正常工作。终端设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模型或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图11,为本申请计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有行为分析模型训练方法和/或行为分析方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (13)

1.一种行为分析模型训练方法,其特征在于,所述行为分析模型训练方法包括:
构建连续帧人眼训练数据集,其中,所述连续帧人眼训练数据集包括若干连续的人眼图像帧;
基于所述连续帧人眼训练数据集生成一个人眼簇图像;
将所述人眼簇图像输入待训练分析模型,以获取所述连续帧人眼训练数据集的眼部行为分类,其中,所述眼部行为分类包括眼部行为类别及其第一预测概率;
基于所述连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取所述待训练分析模型的第一预测损失,利用所述第一预测损失对所述待训练分析模型进行训练,以得到最终的行为分析模型。
2.根据权利要求1所述的行为分析模型训练方法,其特征在于,
所述构建连续帧人眼训练数据集,包括:
采用眼睛检测网络对所述监控视频流中的人眼图像进行检测,确定包括眼部区域的人眼图像作为起始帧;
基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集。
3.根据权利要求2所述的行为分析模型训练方法,其特征在于,
所述基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集,包括:
基于所述起始帧按照预设帧步长选择连续预设帧数的人眼图像组成连续帧人眼训练数据集。
4.根据权利要求2所述的行为分析模型训练方法,其特征在于,
所述基于起始帧选择连续多帧的人眼图像组成连续帧人眼训练数据集,包括:
基于起始帧选择连续多帧的人眼图像;
采用所述眼睛检测网络定位所述人眼图像中的眼部区域;
按照所述眼部区域对所述人眼图像进行裁剪,得到人眼区域图像;
基于连续多帧的人眼区域图像组成所述连续帧人眼训练数据集。
5.根据权利要求4所述的行为分析模型训练方法,其特征在于,
所述按照所述眼部区域对所述人眼图像进行裁剪,得到人眼区域图像,包括:
采用人脸对齐算法将连续多帧的人眼图像进行矫正,以使得矫正后的人眼图像中眼部区域的方向一致;
按照所述眼部区域对矫正后的人眼图像进行裁剪,得到所述人眼区域图像。
6.根据权利要求1或5所述的行为分析模型训练方法,其特征在于,
所述基于所述连续帧人眼训练数据集生成一个人眼簇图像,包括:
将所述连续帧人眼训练数据集中若干人眼图像帧按照预设图像编码规则编码到同一张图像中,以生成所述人眼簇图像。
7.根据权利要求6所述的行为分析模型训练方法,其特征在于,
所述预设图像编码规则包括所述连续帧人眼训练数据集中若干人眼图像帧的采集时间顺序。
8.根据权利要求1所述的行为分析模型训练方法,其特征在于,
所述待训练分析模型包括第一待训练分析模型和第二待训练分析模型;
所述分析模型训练方法,还包括:
将所述人眼簇图像输入第一待训练分析模型,以获取预测人眼状态逻辑线索特征图,其中,所述预测人眼状态逻辑线索特征图包括每一人眼图像帧的第一预测概率;
基于所述预测人眼状态逻辑线索特征图和真实人眼状态逻辑线索特征图获取所述第一待训练分析模型的第二预测损失,利用所述第二预测损失对所述第一待训练分析模型进行训练;
将所述预测人眼状态逻辑线索特征图输入第二待训练分析模型,以获取所述连续帧人眼训练数据集的眼部行为分类,其中,所述眼部行为分类包括眼部行为类别及其第三预测概率;
基于所述连续帧人眼训练数据集的眼部行为分类和真实眼部行为标签获取所述第二待训练分析模型的第三预测损失,利用所述第三预测损失对所述第二待训练分析模型进行训练。
9.根据权利要求8所述的行为分析模型训练方法,其特征在于,
所述第一待训练分析模型包括浅层卷积核和深层卷积核;
所述将所述人眼簇图像输入第一待训练分析模型,以获取预测人眼状态逻辑线索特征图,包括:
将所述人眼簇图像输入所述第一待训练分析模型;
通过所述浅层卷积核提取所述人眼簇图像的局部特征,所述局部特征表征相邻人眼图像帧的特征关系;
通过所述深层卷积核提取所述人眼簇图像的全局特征,所述全局特征表征人眼图像帧在人眼簇图像的特征关系;
基于所述人眼簇图像的局部特征和全局特征生成所述预测人眼状态逻辑线索特征图。
10.一种行为分析方法,其特征在于,所述行为分析方法包括:
获取监控视频流;
将所述监控视频流输入所述行为分析模型,获取输出的行为分析类别,以及每一类别的预测概率;
选取预测概率最高的行为分析类别作为所述监控视频流的行为分析结果;
其中,所述行为分析模型由权利要求1~9中任一项所述的行为分析模型训练方法训练得到。
11.根据权利要求10所述的行为分析方法,其特征在于,
所述选取预测概率最高的行为分析类别作为所述监控视频流的行为分析结果,包括:
判断所述预测概率最高的行为分析类别的预测概率是否大于等于预设概率阈值;
若是,输出该行为分析类别作为所述监控视频流的行为分析结果;
若否,输出没有发生该行为分析类别事件的行为分析结果。
12.一种终端设备,其特征在于,所述终端设备包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的程序指令以实现权利要求1~9任一项所述的行为分析模型训练方法和/或权利要求10~11任一项所述的行为分析方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令被执行时实现权利要求1~9任一项所述的行为分析模型训练方法和/或权利要求10~11任一项所述的行为分析方法。
CN202111639231.3A 2021-12-29 2021-12-29 一种行为分析模型训练方法、行为分析方法及其设备 Pending CN114462491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111639231.3A CN114462491A (zh) 2021-12-29 2021-12-29 一种行为分析模型训练方法、行为分析方法及其设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111639231.3A CN114462491A (zh) 2021-12-29 2021-12-29 一种行为分析模型训练方法、行为分析方法及其设备

Publications (1)

Publication Number Publication Date
CN114462491A true CN114462491A (zh) 2022-05-10

Family

ID=81406863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111639231.3A Pending CN114462491A (zh) 2021-12-29 2021-12-29 一种行为分析模型训练方法、行为分析方法及其设备

Country Status (1)

Country Link
CN (1) CN114462491A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524581A (zh) * 2023-07-05 2023-08-01 南昌虚拟现实研究院股份有限公司 一种人眼图像光斑分类方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524581A (zh) * 2023-07-05 2023-08-01 南昌虚拟现实研究院股份有限公司 一种人眼图像光斑分类方法、系统、设备及存储介质
CN116524581B (zh) * 2023-07-05 2023-09-12 南昌虚拟现实研究院股份有限公司 一种人眼图像光斑分类方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112651978B (zh) 舌下微循环图像分割方法和装置、电子设备、存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110674748A (zh) 图像数据处理方法、装置、计算机设备以及可读存储介质
CN110222718B (zh) 图像处理的方法及装置
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN112861917B (zh) 基于图像属性学习的弱监督目标检测方法
CN113642585B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN115577768A (zh) 半监督模型训练方法和装置
CN117475258A (zh) 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备
CN114462491A (zh) 一种行为分析模型训练方法、行为分析方法及其设备
CN116519106B (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
CN112906586A (zh) 时序动作提名生成方法和相关产品
CN117011416A (zh) 一种图像处理方法、装置、设备、介质及程序产品
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
CN113963202A (zh) 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN112215162A (zh) 一种基于mcnn网络的多标签多任务人脸属性预测方法
CN111491180A (zh) 关键帧的确定方法和装置
CN117894083B (zh) 一种基于深度学习的图像识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination