CN111507277A - 一种作业流程规范性识别模型的构建方法及应用 - Google Patents

一种作业流程规范性识别模型的构建方法及应用 Download PDF

Info

Publication number
CN111507277A
CN111507277A CN202010315545.7A CN202010315545A CN111507277A CN 111507277 A CN111507277 A CN 111507277A CN 202010315545 A CN202010315545 A CN 202010315545A CN 111507277 A CN111507277 A CN 111507277A
Authority
CN
China
Prior art keywords
video
historical
sub
sequence
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010315545.7A
Other languages
English (en)
Other versions
CN111507277B (zh
Inventor
王坤
姚兰波
吴松
王军燕
张永奈
曹世雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Anhui Electric Power Co Ltd filed Critical State Grid Anhui Electric Power Co Ltd
Priority to CN202010315545.7A priority Critical patent/CN111507277B/zh
Publication of CN111507277A publication Critical patent/CN111507277A/zh
Application granted granted Critical
Publication of CN111507277B publication Critical patent/CN111507277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种作业流程规范性识别模型的构建方法,基于历史数据建立建模数据集,包含工人的规范和非规范施工流程视频;获取视频序列中的关键点,并基于关键点的局部领域构建关键点的时空特征描述,可以有效减少视频数据规模,并且保留了有效信息;对数据集中每个视频进行时域划分,使之单个时域区间内的视频内容更具逻辑性,避免了长时序视频的处理复杂度;基于单个时域区间的关键点构建特征图,则每个视频将由一串顺序的特征图表示,既保留了空间位置信息,还包括一定时序信息;由视频的特征图序列来建模和优化SVM分类器,并应用训练后的分类器识别作业流程是否规范;可以有效应用于工人作业的操作规范流程鉴别。

Description

一种作业流程规范性识别模型的构建方法及应用
技术领域
本发明涉及基于视频数据的行为识别技术领域,尤其涉及一种作业流程规范性识别模型的构建方法及应用。
背景技术
由于不断发展的日常生活需求和各个行业用电需求,导致我国变电站呈现出数量大、分布广等特点,随之而来的管理难度也不断增加。由于变电站内的电气设备都带有高压、特高压,在对其进行日常维护、检修过程中,稍一不注意,就会引发重大安全事故,目前变电站管理引出了一套工作管理制度,对操作流程有严格的规定;但是其主要通过人工的方式进行监督,具有主观性,不能排除因监督者身体状态或精神不集中的原因导致监管不利的情况出现。为了避免和解决上述问题,我们希望利用机器来代替人工进行监管,其中最主要的就是视频监控,早期的视频监控仅仅是常规工作流程和维护的被动监控,只是相对提高了变电站工作流程和规范行为的管理效率,未对人员姿态、人员动态行为跟踪和所工作的区域及工作行为规范进行细分管理。
发明内容
本发明所要解决的技术问题在于提供一种能够同时关注行为的空间信息和时序信息的行为规范性识别模型的构建方法和应用该模型进行行为规范性识别的方法。
本发明是通过以下技术方案解决上述技术问题的:一种作业流程规范性识别模型的构建方法,包括以下步骤:
步骤A:获取工人作业的历史视频数据,并用户人工评判得到每个历史视频的标签信息;
步骤B:对所有历史视频提取时空特征点和jets描述子,并将每个历史视频划分成多个子视频;
步骤C:基于时空特征点和jets描述子为每个子视频构建特征图,基于所有子视频的特征图得到所有历史视频的特征图序列;
步骤D:将所有历史视频的特征图序列输入SVM分类器训练得到识别模型,其中SVM分类器中核函数采用动态时间规整函数DTW构建,即k(Gi,Gj)=DTW(Gi,Gj),Gi和Gj为任意两个历史视频的特征图序列表示。
本发明基于历史数据建立建模数据集,包含工人的规范和非规范施工流程视频;针对数据集中每个视频,采用时空特征点探测器获取视频序列中的关键点,并基于关键点的局部领域构建关键点的时空特征描述,以此可以有效减少视频数据规模,并且保留了有效信息;对数据集中每个视频进行时域划分,使之单个时域区间内的视频内容更具逻辑性,即表示一个子动作,从而避免了长时序视频的处理复杂度;然后基于单个时域区间的关键点构建特征图,其他视频区间同样类似处理,则每个视频将由一串顺序的特征图表示,即特征图序列,该表示方法不仅保留了空间位置信息,还包括一定时序信息;最后由数据集中视频的特征图序列来建模和优化SVM分类器,其中核函数是通过动态时间规整DTW函数构建;根据上述方法构建的工人作业视频特征表示及作业流程规范性识别方法,不仅包含操作行为的空间信息,还包含了时序逻辑信息,因此可以有效应用于工人作业的操作规范流程鉴别。
优选的,步骤A所述的历史视频数据还包括预处理成统一分辨率规格的步骤,得到历史视频数据集V={v1,v2,…,vN};基于作业标准对历史视频数据进行人工评判得到集合V的标签数据集Y={y1,y2,…,yN},其中vi和yi表示第i个作业视频和对应的标签信息,N为数据集规模。
优选的,步骤B中使用3D-Harris角点探测器提取所述时空特征点和jets描述子,
计算时空特征点:将一个历史视频看做一个函数映射
Figure BDA0002458258140000021
即f(x,y,t),表示t时刻视频帧图像中(x,y)处的像素值;
为了得到时空尺度上不变的时空特征点,需要将视频与高斯核函数进行卷积操作,得到视频f(x,y,t)在时空尺度上的表达式
Figure BDA0002458258140000022
Figure BDA0002458258140000023
其中,
Figure BDA0002458258140000024
表示空间尺度,
Figure BDA0002458258140000025
表示时间尺度,高斯核函数的形式为
Figure BDA0002458258140000026
Figure BDA0002458258140000027
进行一阶求偏导形成3×3的矩阵,并用高斯函数对其进行加权得到:
Figure BDA0002458258140000028
其中Lx、Ly和Lt为函数L(·)关于x、y和t的一阶偏导,
Figure BDA0002458258140000031
根据矩阵的特征值得到函数H:
H=det(μ)-k·trace3(μ)=λ1λ2λ3-k·(λ123)3
其中det(μ)为矩阵的行列式计算,trace(μ)为矩阵的迹,特征值λ1、λ2和λ3的大小体现了该点在时空邻域内的变化强度,在不同的时空尺度下,视频中的任意时空点均能计算出对应的H值,如果H值大于预设的阈值则该点为时空特征点;
计算jets特征描述子:将时空特征点对应的
Figure BDA0002458258140000032
进行1-4阶求偏导数,其数学表示为:
jet=(Lx,Ly,Lt
Lxx,Lxy,Lxt,Lyy,Lyt,Ltt
Lxxx,Lxxy,Lxxt,Lxyy,Lxyt,Lxtt,Lyyy,Lyyt,Lytt,Lttt
Figure BDA00024582581400000311
从而得到将jets描述子表示为34维特征向量。
优选的,步骤B中将历史视频划分为多个子视频的方法为:
步骤I:利用光流算法得到历史视频vi的水平方向光流场Ιx和垂直方向光流场Ιy,针对光流帧fj中任意一个像素q,分别计算q的角度θq和幅度ψq
Figure BDA0002458258140000033
Figure BDA0002458258140000034
接着在帧fi上以水平向右为起始方向,逆时针每隔
Figure BDA0002458258140000035
度作为统计区间,共形成χ个方向的光流幅度统计,得到χ维度的光流统计直方图
Figure BDA0002458258140000036
作为光流帧fj的特征表示,则历史视频vi可以表示为
Figure BDA0002458258140000037
其中M为历史视频vi的光流帧总数;
步骤II:对历史视频逐帧比较相似度,将相邻帧的相似度转化为对应光流统计直方图
Figure BDA0002458258140000038
Figure BDA0002458258140000039
的比较,即
Figure BDA00024582581400000310
Figure BDA0002458258140000041
大于事先设定的阈值时,对历史视频进行一次划分,由此将历史视频vi划分为Ki个子视频。
优选的,步骤C中为子视频构建特征图的方法为:
如果第i个历史视频的第l个子视频
Figure BDA0002458258140000042
中存在S个时空特征点P={p1,p2,···,ps},则以这些时空特征点为顶点构建全连接图,边权为
Figure BDA0002458258140000043
其中
Figure BDA0002458258140000044
表示pj和pk的欧式距离,则子视频
Figure BDA0002458258140000045
的特征图用矩阵表示为
Figure BDA0002458258140000046
其中S为图的顶点数;则历史视频vi的特征图序列表示为
Figure BDA0002458258140000047
优选的,步骤D所述的利用SVM分类器训练识别模型的方法为:
将历史视频的特征图序列Gi和标签数据集Y输入到SVM分类器中,SVM分类器的目标函数为:
Figure BDA0002458258140000048
其中,W、b为待求解的分类高维超平面的参数,φ(·)为映射函数;将上述问题的求解转化为其对偶的最优化问题,得到
Figure BDA0002458258140000049
Figure BDA00024582581400000410
其中αi为拉格朗日乘子,定义核函数为k(Gi,Gk)=φ(Gi)Tφ(Gk),则上述优化问题转化为:
Figure BDA00024582581400000411
约束条件不变;
利用DTW计算Gi和Gk的对齐程度作为核函数,即k(Gi,Gk)=DTW(Gi,Gk);以φ(·)为规整函数,则Gi和Gk的对齐可以描述子视频序号的对齐,
Figure BDA00024582581400000412
其中κ(r)∈[1,A],υ(r)∈[1,B],A=|Gi|,B=|Gk|,R=A+B,r∈[1,R];<κ(r),υ(r)>表示Gi的第κ(r)个子视频与Gk的第υ(r)个子视频的对齐序号对;通过寻找最优的规整函数φ(·)使得DTW(Gi,Gk)达到最小,实现Gi和Gk的对齐;
Figure BDA0002458258140000051
Figure BDA0002458258140000052
Figure BDA0002458258140000053
其中,
Figure BDA0002458258140000054
子视频特征图
Figure BDA0002458258140000055
Figure BDA0002458258140000056
的匹配计分,DTW(Gi,Gk)数值越小,表示特征图序列Gi和Gk越相似,即视频vi和vk越相似。
优选的,Γ(·,·)的计算方法为:
以gα和gβ表示两个子视频的特征图,gα和gβ的顶点数分别为m和n,匹配矩阵表示为X∈{0,1}m×n,其元素xij=1表示gα的第i个顶点与gβ的第j个顶点匹配,反之xij=0表示gα的第i个顶点与gβ的第j个顶点不匹配;
记集合Ω={(u,u′)|u∈gα,u′∈gβ},|Ω|=m*n,表示两个特征图中顶点之间所有可能对应的关系,以Ω中元素为顶点构建亲近关系矩阵M,其规模为|Ω|*|Ω|;矩阵中的元素为
M(a,b),a=(u,u′);b=(z,z′);u,z∈gα;u′,z′∈gβ
表示不同图结构顶点的匹配关系;从而将图匹配问题转化为一个带约束的优化问题:
Figure BDA0002458258140000057
其中,x为匹配矩阵X的列主序向量化为一个0-1指派向量,得到的最优指派向量为x*,即x*(t)=1表示Ω中第t个元素是正确的对应关系,反之则不匹配;
在求解过程中将x取值范围松弛到实数,同时对M进行特征值分解,得到最大特征值对应的特征向量x′,再将x′逆序主序向量化为m×n的矩阵X′,首先寻找矩阵X′中的最大值,并将其所在行和所在列的其他元素赋值为0,接着找次最大值,同样对所在行与所在列其他元素赋值为0,以此类推执行min{m,n}次,保留前min{m,n}个最大值,剩下其他元素全部赋值为0;最后对X′中非0元素赋值为1,并对其主序向量化得到近似最优的指派向量x*,根据公式Γ(gα,gβ)=(x*)TMx*得到子视频特征图gα和gβ的匹配计分。
本发明还提供了一种应用所述作业流程规范性识别模型进行作业流程规范性识别的方法,对待识别的视频经过步骤B和C的处理得到对应的特征图序列表示,并输入训练好的SVM分类器中进行识别,得到识别结果。
本发明提供的作业流程规范性识别模型的构建方法及应用的优点在于:基于历史数据建立建模数据集,包含工人的规范和非规范施工流程视频;针对数据集中每个视频,采用时空特征点探测器获取视频序列中的关键点,并基于关键点的局部领域构建关键点的时空特征描述,以此可以有效减少视频数据规模,并且保留了有效信息;对数据集中每个视频进行时域划分,使之单个时域区间内的视频内容更具逻辑性,即表示一个子动作,从而避免了长时序视频的处理复杂度;然后基于单个时域区间的关键点构建特征图,其他视频区间同样类似处理,则每个视频将由一串顺序的特征图表示,该表示方法不仅保留了空间位置信息,还包括一定时序信息;最后由数据集中视频的特征图序列来建模和优化SVM分类器,其中核函数是通过动态时间规整DTW函数构建;根据上述方法构建的工人作业视频特征表示及作业流程规范性识别方法,不仅包含操作行为的空间信息,还包含了时序逻辑信息,因此可以有效应用于工人作业的操作规范流程鉴别。
附图说明
图1为本发明的实施例提供的作业流程规范性识别模型构建方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,本实施例提供了一种作业流程规范性识别模型的构建方法,包括以下步骤:
步骤A:获取工人作业的历史视频数据,并用户人工评判得到每个历史视频的标签信息;
为了获取工作作业视频,需要在作业现场布置摄影装置,并将视频处理成统一分辨率规格,可采用现有技术中的插值法或下采样方法对视频帧处理成统一的高度和宽度,历史视频内容要尽量多样性,尽可能包括更多的作业工况,最终的到的历史视频数据集记为V={v1,v2,…,vN};基于作业标准对历史视频数据进行人工评判得到集合V的标签数据集Y={y1,y2,…,yN},其中vi和yi表示第i个作业视频和对应的标签信息,yi=1表示历史视频vi为合格操作,如果yi=-1则表示历史视频vi为不合格操作;N为数据集规模。
步骤B:对所有历史视频提取时空特征点和jets描述子,并将每个历史视频划分成多个子视频;
本实施例中使用3D-Harris角点探测器提取所述时空特征点和jets描述子,3D-Harris特征点检测具有尺度不变性,用来检测像素值在局部时空邻域内三个方向(2个空间方法和1个时域方向)上有显著变化的位置,从而得到相应的时空特征点;句、具体方法如下:
计算时空特征点:将一个历史视频看做一个函数映射
Figure BDA0002458258140000071
即f(x,y,t),表示t时刻视频帧图像中(x,y)处的像素值;
为了得到时空尺度上不变的时空特征点,需要将视频与高斯核函数进行卷积操作,得到视频f(x,y,t)在时空尺度上的表达式
Figure BDA0002458258140000072
Figure BDA0002458258140000073
其中,
Figure BDA0002458258140000074
表示空间尺度,
Figure BDA0002458258140000075
表示时间尺度,高斯核函数的形式为
Figure BDA0002458258140000076
Figure BDA0002458258140000077
进行一阶求偏导形成3×3的矩阵,并用高斯函数对其进行加权得到:
Figure BDA0002458258140000078
其中Lx、Ly和Lt为函数L(·)关于x、y和t的一阶偏导,
Figure BDA0002458258140000079
本实施例中选取的数值为
Figure BDA00024582581400000710
根据矩阵特征值得到函数H:
H=det(μ)-k·trace3(μ)=λ1λ2λ3-k·(λ123)3
其中det(μ)为矩阵的行列式计算,trace(μ)为矩阵的迹,特征值λ1、λ2和λ3的大小体现了该点在时空邻域内的变化强度,本实施例中常数k的取值范围为[0.04,0.06];在不同的时空尺度下,视频中的任意时空点均能计算出对应的H值,如果H值大于预设的阈值则该点为时空特征点,其中H值的阈值为经验值。
计算jets特征描述子:将时空特征点对应的
Figure BDA00024582581400000811
进行1-4阶求偏导数,其数学表示为:
jet=(Lx,Ly,Lt
Lxx,Lxy,Lxt,Lyy,Lyt,Ltt
Lxxx,Lxxy,Lxxt,Lxyy,Lxyt,Lxtt,Lyyy,Lyyt,Lytt,Lttt
Figure BDA00024582581400000810
从而得到将jets描述子表示为34维特征向量。
将历史视频划分为多个子视频的方法为:
步骤I:利用光流算法得到历史视频vi的水平方向光流场Ιx和垂直方向光流场Ιy,针对光流帧fj中任意一个像素q,分别计算q的角度θq和幅度ψq
Figure BDA0002458258140000081
Figure BDA0002458258140000082
接着在帧fi上以水平向右为起始方向,逆时针每隔
Figure BDA0002458258140000083
度作为统计区间,共形成χ个方向的光流幅度统计,得到χ维度的光流统计直方图
Figure BDA0002458258140000084
作为光流帧fj的特征表示,则历史视频vi可以表示为
Figure BDA0002458258140000085
其中M为历史视频vi的光流帧总数;
步骤II:对历史视频逐帧比较相似度,将相邻帧的相似度转化为对应光流统计直方图
Figure BDA0002458258140000086
Figure BDA0002458258140000087
的比较,即
Figure BDA0002458258140000088
Figure BDA0002458258140000089
大于事先设定的阈值时,对历史视频进行一次划分,由此将历史视频vi划分为Ki个子视频。
步骤C:基于时空特征点和jets描述子为每个子视频构建特征图,基于所有子视频的特征图得到所有历史视频的特征图序列;
为子视频构建特征图的方法为:如果第i个历史视频的第l个子视频
Figure BDA0002458258140000091
中存在S个时空特征点P={p1,p2,···,ps},则以这些时空特征点为顶点构建全连接图,边权为
Figure BDA0002458258140000092
其中
Figure BDA0002458258140000093
表示pj和pk的欧式距离,则子视频
Figure BDA0002458258140000094
的特征图用矩阵表示为
Figure BDA0002458258140000095
其中S为图的顶点数;则历史视频vi的特征图序列表示为
Figure BDA0002458258140000096
步骤D:将所有历史视频的特征图序列输入SVM分类器训练得到识别模型,其中SVM分类器中核函数采用动态时间规整函数DTW构建,即k(Gi,Gj)=DTW(Gi,Gj),Gi和Gj为任意两个历史视频的特征图序列表示;具体方法如下:
将历史视频的特征图序列Gi和标签数据集Y输入到SVM分类器中,SVM分类器的目标函数为:
Figure BDA0002458258140000097
其中,W、b为待求解的分类高维超平面的参数,φ(·)为映射函数;将上述问题的求解转化为其对偶的最优化问题,得到
Figure BDA0002458258140000098
其中αi为拉格朗日乘子,定义核函数为k(Gi,Gk)=φ(Gi)Tφ(Gk),则上述优化问题转化为:
Figure BDA0002458258140000099
约束条件不变;
利用DTW计算Gi和Gk的对齐程度作为核函数,即k(Gi,Gk)=DTW(Gi,Gk);以φ(·)为规整函数,则Gi和Gk的对齐可以描述子视频序号的对齐,
Figure BDA00024582581400000910
其中κ(r)∈[1,A],υ(r)∈[1,B],A=|Gi|,B=|Gk|,R=A+B,r∈[1,R];<κ(r),υ(r)>表示Gi的第κ(r)个子视频与Gk的第υ(r)个子视频的对齐序号对;通过寻找最优的规整函数φ(·)使得DTW(Gi,Gk)达到最小,实现Gi和Gk的对齐;
Figure BDA0002458258140000101
其中,
Figure BDA0002458258140000102
为子视频特征图
Figure BDA0002458258140000103
Figure BDA0002458258140000104
的匹配计分,DTW(Gi,Gk)数值越小,表示特征图序列Gi和Gk越相似,即视频vi和vk越相似。本实施例在计算时,对于任意r,令权重
Figure BDA0002458258140000105
于是时序归一化因子C=R。
其中匹配计分Γ(·,·)的计算方法如下:
以gα和gβ表示两个子视频的特征图,gα和gβ的顶点数分别为m和n,匹配矩阵表示为X∈{0,1}m×n,其元素xij=1表示gα的第i个顶点与gβ的第j个顶点匹配,反之xij=0表示gα的第i个顶点与gβ的第j个顶点不匹配;
记集合Ω={(u,u′)|u∈gα,u′∈gβ},|Ω|=m*n,表示两个特征图中顶点之间所有可能对应的关系,以Ω中元素为顶点构建亲近关系矩阵M,其规模为|Ω|*|Ω|;矩阵中的元素为
M(a,b),a=(u,u′);b=(z,z′);u,z∈gα;u′,z′∈gβ
表示不同图结构顶点的匹配关系;从而将图匹配问题转化为一个带约束的优化问题:
Figure BDA0002458258140000106
其中,x为匹配矩阵X的列主序向量化为一个0-1指派向量,得到的最优指派向量为x*,即x*(t)=1表示Ω中第t个元素是正确的对应关系,反之则不匹配;
在求解过程中将x取值范围松弛到实数,同时对M进行特征值分解,得到最大特征值对应的特征向量x′,再将x′逆序主序向量化为m×n的矩阵X′,首先寻找矩阵X′中的最大值,并将其所在行和所在列的其他元素赋值为0,接着找次最大值,同样对所在行与所在列其他元素赋值为0,以此类推执行min{m,n}次,保留前min{m,n}个最大值,剩下其他元素全部赋值为0;最后对X′中非0元素赋值为1,并对其主序向量化得到近似最优的指派向量x*,根据公式Γ(gα,gβ)=(x*)TMx*得到子视频特征图gα和gβ的匹配计分。
在训练完成SVM分类器的情况下,本实施例还进一步提供了应用该SVM分类器进行作业流程规范性识别的方法,具体为将待识别的视频经过步骤B和C的处理得到对应的特征图序列,并输入训练好的SVM分类器中即可得到识别结果。
本实施例基于历史数据建立建模数据集,包含工人的规范和非规范施工流程视频;针对数据集中每个视频,采用时空特征点探测器获取视频序列中的关键点,并基于关键点的局部领域构建关键点的时空特征描述,以此可以有效减少视频数据规模,并且保留了有效信息;对数据集中每个视频进行时域划分,使之单个时域区间内的视频内容更具逻辑性,即表示一个子动作,从而避免了长时序视频的处理复杂度;然后基于单个时域区间的关键点构建特征图,其他视频区间同样类似处理,则每个视频将由一串顺序的特征图表示,该表示方法不仅保留了空间位置信息,还包括一定时序信息;最后由数据集中视频的特征图序列来建模和优化支持向量机((Support Vector Machine,SVM))分类器,其中核函数是通过动态时间规整(Dynamic Time Warping,DTW)函数构建。根据上述方法构建的工人作业视频特征表示及作业流程规范性识别方法,不仅包含操作行为的空间信息,还包含了时序逻辑信息,因此可以有效应用于工人作业的操作规范流程鉴别。
本实施提供的方法能够自识别工人作业流程的规范性,并给出预警与提示,进而促进工人作业效率、规范性和安全性的提高;视频特征表示既包含了空间结构信息,有包含了时序性信息,同时显著压缩了要处理的视频数据规模,提高了算法效率;本实施例提供的方法可扩展性强,可以兼容不同的相似度度量方法、距离度量方法,图结构方法和时序对齐方法,并且本实施例包含的信息更加全面,避免了传统方法很难兼顾行为的空间信息和时序信息。

Claims (8)

1.一种作业流程规范性识别模型的构建方法,其特征在于:包括以下步骤:
步骤A:获取工人作业的历史视频数据,并用户人工评判得到每个历史视频的标签信息;
步骤B:对所有历史视频提取时空特征点和jets描述子,并将每个历史视频划分成多个子视频;
步骤C:基于时空特征点和jets描述子为每个子视频构建特征图,基于所有子视频的特征图得到所有历史视频的特征图序列;
步骤D:将所有历史视频的特征图序列输入SVM分类器训练得到识别模型,其中SVM分类器中核函数采用动态时间规整函数DTW构建,即k(Gi,Gj)=DTW(Gi,Gj),Gi和Gj为任意两个历史视频的特征图序列表示。
2.根据权利要求1所述的一种作业流程规范性识别模型的构建方法,其特征在于:步骤A所述的历史视频数据还包括预处理成统一分辨率规格的步骤,得到历史视频数据集V={v1,v2,···,vN};基于作业标准对历史视频数据进行人工评判得到集合V的标签数据集Y={y1,y2,···,yN},其中vi和yi表示第i个作业视频和对应的标签信息,N为数据集规模。
3.根据权利要求2所述的一种作业流程规范性识别模型的构建方法,其特征在于:步骤B中使用3D-Harris角点探测器提取所述时空特征点和jets描述子,
计算时空特征点:将一个历史视频看做一个函数映射
Figure FDA0002458258130000011
即f(x,y,t),表示t时刻视频帧图像中(x,y)处的像素值;
为了得到时空尺度上不变的时空特征点,需要将视频与高斯核函数进行卷积操作,得到视频f(x,y,t)在时空尺度上的表达式
Figure FDA0002458258130000012
Figure FDA0002458258130000013
其中,
Figure FDA0002458258130000014
表示空间尺度,
Figure FDA0002458258130000015
表示时间尺度,高斯核函数的形式为
Figure FDA0002458258130000016
Figure FDA0002458258130000017
进行一阶求偏导形成3×3的矩阵,并用高斯函数对其进行加权得到:
Figure FDA0002458258130000018
其中Lx、Ly和Lt为函数L(·)关于x、y和t的一阶偏导,
Figure FDA0002458258130000021
根据矩阵的特征值得到函数H:
H=det(μ)-k·trace3(μ)=λ1λ2λ3-k·(λ123)3
其中det(μ)为矩阵的行列式计算,trace(μ)为矩阵的迹,特征值λ1、λ2和λ3的大小体现了该点在时空邻域内的变化强度,在不同的时空尺度下,视频中的任意时空点均能计算出对应的H值,如果H值大于预设的阈值则该点为时空特征点;
计算jets特征描述子:将时空特征点对应的
Figure FDA0002458258130000022
进行1-4阶求偏导数,其数学表示为:
Figure FDA0002458258130000023
从而得到将jets描述子表示为34维特征向量。
4.根据权利要求3所述的一种作业流程规范性识别模型的构建方法,其特征在于:步骤B中将历史视频划分为多个子视频的方法为:
步骤I:利用光流算法得到历史视频vi的水平方向光流场Ιx和垂直方向光流场Ιy,针对光流帧fj中任意一个像素q,分别计算q的角度θq和幅度ψq
Figure FDA0002458258130000024
Figure FDA0002458258130000025
接着在帧fi上以水平向右为起始方向,逆时针每隔
Figure FDA0002458258130000026
度作为统计区间,共形成χ个方向的光流幅度统计,得到χ维度的光流统计直方图
Figure FDA0002458258130000027
作为光流帧fj的特征表示,则历史视频vi可以表示为
Figure FDA0002458258130000028
其中M为历史视频vi的光流帧总数;
步骤II:对历史视频逐帧比较相似度,将相邻帧的相似度转化为对应光流统计直方图
Figure FDA0002458258130000029
Figure FDA00024582581300000210
的比较,即
Figure FDA0002458258130000031
Figure FDA0002458258130000032
大于事先设定的阈值时,对历史视频进行一次划分,由此将历史视频vi划分为Ki个子视频。
5.根据权利要求4所述的一种作业流程规范性识别模型的构建方法,其特征在于:步骤C中为子视频构建特征图的方法为:
如果第i个历史视频的第l个子视频
Figure FDA0002458258130000033
中存在S个时空特征点P={p1,p2,···,ps},则以这些时空特征点为顶点构建全连接图,边权为
Figure FDA0002458258130000034
其中
Figure FDA0002458258130000035
表示pj和pk的欧式距离,则子视频
Figure FDA00024582581300000312
的特征图用矩阵表示为
Figure FDA0002458258130000036
其中S为图的顶点数;则历史视频vi的特征图序列表示为
Figure FDA0002458258130000037
6.根据权利要求5所述的一种作业流程规范性识别模型的构建方法,其特征在于:步骤D所述的利用SVM分类器训练识别模型的方法为:
将历史视频的特征图序列Gi和标签数据集Y输入到SVM分类器中,SVM分类器的目标函数为:
Figure FDA0002458258130000038
s.t.yi(WTφ(Gi)+b)≥1,i∈[1,N]
其中,W、b为待求解的分类高维超平面的参数,φ(·)为映射函数;将上述问题的求解转化为其对偶的最优化问题,得到
Figure FDA0002458258130000039
Figure FDA00024582581300000310
其中αi为拉格朗日乘子,定义核函数为k(Gi,Gk)=φ(Gi)Tφ(Gk),则上述优化问题转化为:
Figure FDA00024582581300000311
约束条件不变;
利用DTW计算Gi和Gk的对齐程度作为核函数,即k(Gi,Gk)=DTW(Gi,Gk);以φ(·)为规整函数,则Gi和Gk的对齐可以描述子视频序号的对齐,
Figure FDA0002458258130000041
其中κ(r)∈[1,A],υ(r)∈[1,B],A=|Gi|,B=|Gk|,R=A+B,r∈[1,R];<κ(r),υ(r)>表示Gi的第κ(r)个子视频与Gk的第υ(r)个子视频的对齐序号对;通过寻找最优的规整函数φ(·)使得DTW(Gi,Gk)达到最小,实现Gi和Gk的对齐;
Figure FDA0002458258130000042
Figure FDA0002458258130000043
Figure FDA0002458258130000044
其中,
Figure FDA0002458258130000045
为子视频特征图
Figure FDA0002458258130000046
Figure FDA0002458258130000047
的匹配计分,DTW(Gi,Gk)数值越小,表示特征图序列Gi和Gk越相似,即视频vi和vk越相似。
7.根据权利要求6所述的一种作业流程规范性识别模型的构建方法,其特征在于:Γ(·,·)的计算方法为:
以gα和gβ表示两个子视频的特征图,gα和gβ的顶点数分别为m和n,匹配矩阵表示为X∈{0,1}m×n,其元素xij=1表示gα的第i个顶点与gβ的第j个顶点匹配,反之xij=0表示gα的第i个顶点与gβ的第j个顶点不匹配;
记集合Ω={(u,u′)|u∈gα,u′∈gβ},|Ω|=m*n,表示两个特征图中顶点之间所有可能对应的关系,以Ω中元素为顶点构建亲近关系矩阵M,其规模为|Ω|*|Ω|;矩阵中的元素为
M(a,b),a=(u,u′);b=(z,z′);u,z∈gα;u′,z′∈gβ
表示不同图结构顶点的匹配关系;从而将图匹配问题转化为一个带约束的优化问题:
Figure FDA0002458258130000048
Figure FDA0002458258130000051
其中,x为匹配矩阵X的列主序向量化为一个0-1指派向量,得到的最优指派向量为x*,即x*(t)=1表示Ω中第t个元素是正确的对应关系,反之则不匹配;
在求解过程中将x取值范围松弛到实数,同时对M进行特征值分解,得到最大特征值对应的特征向量x′,再将x′逆序主序向量化为m×n的矩阵X′,首先寻找矩阵X′中的最大值,并将其所在行和所在列的其他元素赋值为0,接着找次最大值,同样对所在行与所在列其他元素赋值为0,以此类推执行min{m,n}次,保留前min{m,n}个最大值,剩下其他元素全部赋值为0;最后对X′中非0元素赋值为1,并对其主序向量化得到近似最优的指派向量x*,根据公式Γ(gα,gβ)=(x*)TMx*得到子视频特征图gα和gβ的匹配计分。
8.应用权利要求1-7任一项所述的作业流程规范性识别模型进行作业流程规范性识别的方法,其特征在于:对待识别的视频经过步骤B和C的处理得到对应的特征图序列表示,并输入训练好的SVM分类器中进行识别,得到识别结果。
CN202010315545.7A 2020-04-20 2020-04-20 一种作业流程规范性识别模型的构建方法及应用 Active CN111507277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010315545.7A CN111507277B (zh) 2020-04-20 2020-04-20 一种作业流程规范性识别模型的构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315545.7A CN111507277B (zh) 2020-04-20 2020-04-20 一种作业流程规范性识别模型的构建方法及应用

Publications (2)

Publication Number Publication Date
CN111507277A true CN111507277A (zh) 2020-08-07
CN111507277B CN111507277B (zh) 2023-05-09

Family

ID=71869600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315545.7A Active CN111507277B (zh) 2020-04-20 2020-04-20 一种作业流程规范性识别模型的构建方法及应用

Country Status (1)

Country Link
CN (1) CN111507277B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966593A (zh) * 2021-03-03 2021-06-15 河南鑫安利安全科技股份有限公司 基于人工智能和大数据的企业安全标准化运行方法及系统
CN114999103A (zh) * 2022-05-12 2022-09-02 刘帅 一种高速公路涉路作业安全智能预警系统及方法
CN116453245A (zh) * 2023-04-20 2023-07-18 东莞市伟创动力科技有限公司 一种电子锁解锁管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3364343A1 (en) * 2017-02-17 2018-08-22 Cogisen SRL Method for image processing for object detection
CN108509834A (zh) * 2018-01-18 2018-09-07 杭州电子科技大学 基于多元对数高斯分布下视频特征的图结构规约方法
CN110909672A (zh) * 2019-11-21 2020-03-24 江苏德劭信息科技有限公司 一种基于双流卷积神经网络和svm的抽烟动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3364343A1 (en) * 2017-02-17 2018-08-22 Cogisen SRL Method for image processing for object detection
CN108509834A (zh) * 2018-01-18 2018-09-07 杭州电子科技大学 基于多元对数高斯分布下视频特征的图结构规约方法
CN110909672A (zh) * 2019-11-21 2020-03-24 江苏德劭信息科技有限公司 一种基于双流卷积神经网络和svm的抽烟动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石爱辉;程勇;曹雪虹;: "结合码本优化和特征融合的人体行为识别方法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966593A (zh) * 2021-03-03 2021-06-15 河南鑫安利安全科技股份有限公司 基于人工智能和大数据的企业安全标准化运行方法及系统
CN112966593B (zh) * 2021-03-03 2024-03-15 河南鑫安利安全科技股份有限公司 基于人工智能和大数据的企业安全标准化运行方法及系统
CN114999103A (zh) * 2022-05-12 2022-09-02 刘帅 一种高速公路涉路作业安全智能预警系统及方法
CN114999103B (zh) * 2022-05-12 2023-07-25 刘帅 一种高速公路涉路作业安全智能预警系统及方法
CN116453245A (zh) * 2023-04-20 2023-07-18 东莞市伟创动力科技有限公司 一种电子锁解锁管理方法及系统
CN116453245B (zh) * 2023-04-20 2023-11-14 东莞市伟创动力科技有限公司 一种电子锁解锁管理方法及系统

Also Published As

Publication number Publication date
CN111507277B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111507277A (zh) 一种作业流程规范性识别模型的构建方法及应用
WO2017166933A1 (zh) 一种基于核机器学习的非负矩阵分解人脸识别方法及系统
CN104732200B (zh) 一种皮肤类型和皮肤问题的识别方法
Fazl-Ersi et al. Age and gender recognition using informative features of various types
CN102938065A (zh) 基于大规模图像数据的人脸特征提取方法及人脸识别方法
JP4087953B2 (ja) パターン認識装置及びその方法
WO2017190645A1 (zh) 一种微表情识别的方法、装置及存储介质
CN110287787B (zh) 图像识别方法、装置及计算机可读存储介质
CN111402224A (zh) 一种用于电力设备的目标识别方法
CN104573672A (zh) 一种基于邻域保持的鉴别嵌入人脸识别方法
CN114049589A (zh) 一种基于人工智能的变电站监测系统
CN114219687A (zh) 融合人机视觉的施工安全隐患智能识别方法
Boulahia et al. HIF3D: Handwriting-Inspired Features for 3D skeleton-based action recognition
CN110472605B (zh) 一种基于深度学习人脸分区的皮肤问题分类方法
CN107578005A (zh) 一种复数小波变换域lbp人脸识别方法
Guo et al. Palmprint Recognition Based on Local Fisher Discriminant Analysis.
Xiong et al. Semi-definite manifold alignment
Zhuang et al. F-DIT-V: An automated video classification tool for facial weakness detection
CN109598262A (zh) 一种儿童人脸表情识别方法
JP4929460B2 (ja) 動体の動作認識方法
Cai Human behavior recognition algorithm based on hog feature and SVM classifier
CN114037873A (zh) 基于人工智能的变电站二次回路保护压板检测系统及方法
CN106530300A (zh) 一种低秩分析的火焰识别算法
CN110363107A (zh) 人脸额头点位快速扩展方法、装置、储存介质和处理器
Wang et al. Gesture recognition based on BoF and its application in human-machine interaction of service robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant