CN112489092B - 细粒度工业运动模态分类方法、存储介质、设备和装置 - Google Patents
细粒度工业运动模态分类方法、存储介质、设备和装置 Download PDFInfo
- Publication number
- CN112489092B CN112489092B CN202011449815.XA CN202011449815A CN112489092B CN 112489092 B CN112489092 B CN 112489092B CN 202011449815 A CN202011449815 A CN 202011449815A CN 112489092 B CN112489092 B CN 112489092B
- Authority
- CN
- China
- Prior art keywords
- probability distribution
- target motion
- classification
- video sequence
- motion mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000009826 distribution Methods 0.000 claims abstract description 72
- 238000013145 classification model Methods 0.000 claims abstract description 60
- 230000003287 optical effect Effects 0.000 claims abstract description 53
- 238000010586 diagram Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种细粒度工业运动模态分类方法,包括:S1、获取待测视频序列及其光流图;S2、将视频序列输入第一分类模型,获得考虑全局空间特征对目标运动模态进行分类的第一概率分布,将光流图输入第二分类模型,获得考虑全局时域特征对目标运动模态进行分类的第二概率分布,将视频序列和光流图输入第三分类模型,获得考虑目标运动细节特征对目标运动模态进行分类的第三概率分布;S3、对第一概率分布、第二概率分布和第三概率分布进行加权融合,以根据融合后的结果输出目标运动模态的分类结果。能够对工业现场的运动模态进行细粒度识别。此外,本发明还提供一种细粒度工业运动模态分类装置、计算机设备和计算机可读存储介质。
Description
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。
背景技术
近年来,随着人工智能技术的发展,机器视觉系统的技术路线正慢慢地由原来传统的数字图像处理技术转向数字图像处理和深度卷积神经网络(Convolutional NeuralNetwork,CNN)相结合的方向发展。深度学习强大的特征拟合能力、泛化能力进一步提升了机器视觉技术的准确性和智能性。目前,机器视觉任务主要的应用对象都是基于单帧图像的识别,例如表面瑕疵检测、尺寸测量、仪表识别等,此类识别任务的总体解决方案主要是围绕单帧图像处理空间特征关系而不需要考虑检测对象多帧之间的时序特征关系。
然而,工业现场仍有许多运动模态的识别任务,例如流水线传送带上原料状态监控、药物生产过程中化学反应进度监控等,这些任务往往需要从连续的多帧图像中提取动态特征进行状态判别。
双流网络是常见的融合不同模态的视频编码特征的网络结构,该方法同时结合了视频输入的RGB图像信息和光流信息,对比纯粹的RGB图像输入,双流网络能够在其基础上进一步提升网络性能。双流网络采用了两路网络,分别提取RGB视频的单帧图像信息和对应帧的光流信息,将单帧RGB图像输入一路网络,将多帧光流信息输入另一路网络,然后将两路网络输出的结果进行特征融合,最后获得动作的类别。
某些特殊的运动模态识别任务具有背景单一、类间特征差异小的特点,需要对运动模态进行细粒度识别。在细粒度运动分析问题中,类别之间在整体上通常具有非常高的相似性,运动之间的区别往往存在于视频的局部区域,然而,目前基于双流网络的运动分析模型大都从视频的全局进行特征提取,旨在从整体上区分不同的运动类别,通常对类别间局部的差异不敏感。因此,现有双流网络架构算法存在细粒度的运动特征刻画功能不足的问题。
故,亟需一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。
发明内容
(一)要解决的技术问题
鉴于上述技术中存在的问题,本发明至少从一定程度上进行解决。为此,本发明的一个目的在于提出了一种细粒度工业运动模态分类方法,能够对工业现场的运动模态进行细粒度识别。
本发明的第二个目的在于提出一种工业运动模态分类装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
(二)技术方案
为了达到上述目的,本发明一方面提供一种工业运动模态分类方法,包括以下步骤:
步骤S1、获取待测视频序列,视频序列包括连续的视频帧,连续的视频帧存在目标运动模态;
步骤S2、根据视频序列,获取光流图;
步骤S3、将视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将视频序列和光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布;
步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
进一步地,第三分类模型还包括人工神经网络,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。
进一步地,在步骤S1之前,还包括:获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注;
根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。
进一步地,损失函数包括:
Loss=λclassLclass+λROILROI+λANNLANN
LANN=∑(ycon-con)2
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xij,yij,wij,hij)表示目标运动区域的预测值,表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λROI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
进一步地,第一分类模型包括多层卷积神经网络和Softmax层;根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。
进一步地,第二分类模型包括多层卷积神经网络和Softmax层;根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。
进一步地,第三分类模型还包括Softmax层,根据Softmax层对运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。
为达到上述目的,本发明另一方面提供的一种细粒度工业运动模态分类装置,包括获取模块、光流模块和分类模块;
获取模块用于获取待测视频序列,视频序列包括连续的视频帧,连续的视频帧存在目标运动模态;
光流模块用于根据视频序列,获取光流图;
分类模块用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
分类模块用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
分类模块用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布;
分类模块还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
此外,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,处理器执行工业运动模态分类程序时,实现如上所述的细粒度工业运动模态分类方法。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如上所述的细粒度工业运动模态分类方法。
(三)有益效果
本发明的有益效果是:
1、本发明实施例提供的工业运动模态分类方法及分类装置,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征,从而考虑了目标运动细节特征,然后根据全局空间特征、全局时域特征和目标运动细节特征对目标运动模态进行分类,能够从局部上区分不同的运动类别,实现对工业现场的运动模态进行细粒度识别。
2、在本发明实施例提供的工业运动模态分类方法中,通过引入基于神经网络回归的过渡态量化网络,将人工难以明确判定运动模态的过程赋予一种置信度的量化方式,不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。
附图说明
本发明借助于以下附图进行描述:
图1为根据本发明一个实施例的细粒度工业运动模态分类方法的流程图;
图2为根据本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。
【附图标记说明】
1:获取模块;
2:光流模块;
3:分类模块。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明实施例提出的工业运动模态分类方法和分类装置,通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征,从而考虑了目标运动细节特征,然后根据目标运动细节特征对目标运动模态进行分类,能够从局部上区分不同的运动类别,实现对工业现场的运动模态进行细粒度识别。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
下面就参照附图来描述根据本发明实施例提出的工业运动模态分类方法和工业运动模态分类装置。
本发明实施例提供的工业运动模态分类方法包括以下步骤:
步骤101、获取待测视频序列,该视频序列包括连续的视频帧,该连续的视频帧存在目标运动模态。
作为一个示例,待测视频序列包括连续的RGB图像帧。
步骤102、根据视频序列,获取光流图。
具体地,根据连续的RGB图像帧,采用Farneback光流法,获得光流图。当然,采用Farneback光流法获得光流图仅仅是优选,可以想见,采用Lucas-Kanade光流法或TV-L1光流法获得光流图,也可以实现类似的效果。
步骤103、将视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将视频序列和光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,如图1所示,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布。
其中,目标运动模态的感兴趣区域即为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域。
具体地,作为一个实施例,第一分类模型包括多层卷积神经网络和Softmax层,如图1所示;根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。进一步地,从视频序列的每一帧中提取全局空间特征,包括:根据残差网络ResNet50从视频序列的每一帧中提取全局空间特征。可见,本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中单帧图像的全局空间特征。
具体地,作为一个实施例,第二分类模型包括多层卷积神经网络和Softmax层,如图1所示;根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。进一步地,从光流图中提取全局时域特征,包括:根据残差网络ResNet50从光流图中提取全局时域特征。可见本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中多帧图像之间的全局时域特征。
进一步地,根据第一全卷积网络从视频序列中提取高维度空间特征,包括:根据第一U-net网络从视频序列中提取高维度空间特征;根据第二全卷积网络从光流图中提取高维度时间特征,包括:根据第二U-net网络从光流图中提取高维度时间特征。
进一步地,将高维度空间特征和高维度时间特征进行融合,包括:采用concatenate方法将高维度空间特征和高维度时间特征进行融合。
进一步地,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,包括:根据残差网络ResNet50对感兴趣区域进行特征提取,获得运动细节特征。其中,感兴趣区域为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域,实现了提取局部目标运动的注意力特征。
进一步地,第三分类模型还包括Softmax层,根据Softmax层对运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。可见,本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中的目标运动细节特征。
具体地,作为一个实施例,第三分类模型还包括人工神经网络,如图1所示,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。进一步地,人工神经网络采用四层的神经网络结构,输入层节点数为处理感兴趣区域的ResNet50网络特征拉伸后的长度,第一个隐藏层节点数为输入层的一半,第二个隐藏层节点为10,最后输出层节点数为1。通过引入基于神经网络回归的过渡态量化网络,将人工难以明确判定运动模态的过程赋予一种置信度的量化方式,不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。
步骤104、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
具体地,对第一概率分布、第二概率分布和第三概率分布进行加权融合,包括:
Prob=α1Probs+α2Probt+α3Probst
其中,Probs、Probt、Probst分别为第一概率分布、第二概率分布和第三概率分布,α1、α2、α3分别为第一概率分布的权重、第二概率分布的权重和第三概率分布的权重。
综上所述,本发明实施例提出的工业运动模态分类方法,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还考虑了待测视频序列中的目标运动细节特征,能够对工业现场的运动模态进行细粒度识别。
进一步地,在步骤101之前,还包括:
步骤100-1、获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注。
其中,标注的目标运动区域包括用矩形框标出视频序列中每一帧的目标运动区域(x,y,w,h),x、y、w、h分别表示矩形框的左上角横坐标、左上角纵坐标、宽度和高度。目标运动模态类型的置信度标注
其中,标注的目标运动模态类型的置信度若能明确判别目标运动模态类型,则置信度为1,若难以明确判别目标运动模态类型,则根据人工经验设置置信度。
进一步地,数据标注还包括像素点标注,属于目标运动区域内的像素点标记为M,属于目标运动区域外的像素点标记为
步骤100-2、根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。
具体地,作为一个实施例,损失函数包括:
Loss=λclassLclass+λROILROI+λANNLANN
LANN=∑(ycon-con)2
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xij,yij,wij,hij)表示目标运动区域的预测值,表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λROI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
图2为本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。
如图2所示,该工业运动模态分类装置包括:获取模块1、光流模块2和分类模块3。
其中,获取模块1用于获取待测视频序列,该视频序列包括连续的视频帧,该连续的视频帧存在目标运动模态。
光流模块2用于根据视频序列,获取光流图。
分类模块3用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;分类模块3用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;分类模块3用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布。
其中,第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布。
分类模块3还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
需要说明的是,本实施例提供的工业运动模态分类装置中各模块的具体功能,及工业运动模态分类装置流程,可参照上述实施例1提供的工业运动模态分类方法的详细描述,此处不再赘述。
综上所述,本发明实施例提供的细粒度工业运动模态分类装置,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还考虑了待测视频序列中的目标运动细节特征,能够对工业现场的运动模态进行细粒度识别。
此外,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,处理器执行工业运动模态分类程序时,实现如上所述的细粒度工业运动模态分类方法。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如上所述的细粒度工业运动模态分类方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (8)
1.一种细粒度工业运动模态分类方法,其特征在于,包括以下步骤:
步骤S1、获取待测视频序列,所述视频序列包括连续的视频帧,所述连续的视频帧存在目标运动模态;
步骤S2、根据所述视频序列,获取光流图;
步骤S3、将所述视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将所述光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将所述视频序列和所述光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
所述第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从所述视频序列中提取高维度空间特征,根据第二全卷积网络从所述光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对所述感兴趣区域进行特征提取,获得运动细节特征,根据所述运动细节特征,获得对目标运动模态进行分类的第三概率分布;
步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果;
在所述步骤S1之前,还包括:获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注;根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型;
所述损失函数包括:
Loss=λclassLclass+λROILROI+λANNLANN
LANN=∑(ycon-cin)2
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xij,yij,wij,hij)表示目标运动区域的预测值,表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λROI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
2.根据权利要求1所述的方法,其特征在于,所述第三分类模型还包括人工神经网络,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。
3.根据权利要求1所述的方法,其特征在于,所述第一分类模型包括多层卷积神经网络和Softmax层;
根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对所述全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。
4.根据权利要求1所述的方法,其特征在于,所述第二分类模型包括多层卷积神经网络和Softmax层;
根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对所述全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。
5.根据权利要求1所述的方法,其特征在于,所述第三分类模型还包括Softmax层,根据Softmax层对所述运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。
6.一种细粒度工业运动模态分类装置,其特征在于,包括获取模块(1)、光流模块(2)和分类模块(3);
获取模块(1)用于获取待测视频序列,所述视频序列包括连续的视频帧,所述连续的视频帧存在目标运动模态;
光流模块(2)用于根据所述视频序列,获取光流图;
分类模块(3)用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
分类模块(3)用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
分类模块(3)用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布;
所述第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从所述视频序列中提取高维度空间特征,根据第二全卷积网络从所述光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对所述感兴趣区域进行特征提取,获得运动细节特征,根据所述运动细节特征,获得对目标运动模态进行分类的第三概率分布;
分类模块(3)还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,所述处理器执行所述工业运动模态分类程序时,实现如权利要求1-5中任一项所述的细粒度工业运动模态分类方法。
8.一种计算机可读存储介质,其特征在于,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如权利要求1-5中任一项所述的细粒度工业运动模态分类方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449815.XA CN112489092B (zh) | 2020-12-09 | 2020-12-09 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
PCT/CN2021/126849 WO2022121543A1 (zh) | 2020-12-09 | 2021-10-27 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449815.XA CN112489092B (zh) | 2020-12-09 | 2020-12-09 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489092A CN112489092A (zh) | 2021-03-12 |
CN112489092B true CN112489092B (zh) | 2023-10-31 |
Family
ID=74941740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011449815.XA Active CN112489092B (zh) | 2020-12-09 | 2020-12-09 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112489092B (zh) |
WO (1) | WO2022121543A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489092B (zh) * | 2020-12-09 | 2023-10-31 | 浙江中控技术股份有限公司 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
CN112579824A (zh) * | 2020-12-16 | 2021-03-30 | 北京中科闻歌科技股份有限公司 | 视频数据分类方法、装置、电子设备及存储介质 |
CN113033682B (zh) * | 2021-03-31 | 2024-04-30 | 北京有竹居网络技术有限公司 | 视频分类方法、装置、可读介质、电子设备 |
CN113642639B (zh) * | 2021-08-12 | 2024-03-01 | 云知声智能科技股份有限公司 | 活体检测方法、装置、设备和存储介质 |
CN116630868B (zh) * | 2023-07-26 | 2023-11-14 | 上海蜜度信息技术有限公司 | 视频分类方法、视频分类装置、介质及电子设备 |
CN116912290B (zh) * | 2023-09-11 | 2023-12-15 | 四川都睿感控科技有限公司 | 一种记忆增强的难易视频运动小目标检测方法 |
CN117423032B (zh) * | 2023-10-20 | 2024-05-10 | 大连理工大学 | 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416288A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于全局与局部网络融合的第一视角交互动作识别方法 |
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN110188239A (zh) * | 2018-12-26 | 2019-08-30 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181195B2 (en) * | 2015-12-28 | 2019-01-15 | Facebook, Inc. | Systems and methods for determining optical flow |
CN110263666B (zh) * | 2019-05-29 | 2021-01-19 | 西安交通大学 | 一种基于非对称多流的动作检测方法 |
CN111784735A (zh) * | 2020-04-15 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 目标跟踪方法、装置和计算机可读存储介质 |
CN111627052B (zh) * | 2020-04-30 | 2023-05-23 | 沈阳工程学院 | 一种基于双流时空注意力机制的动作识别方法t-stam |
CN111709306B (zh) * | 2020-05-22 | 2023-06-09 | 江南大学 | 基于多层次时空特征融合增强的双流网络行为识别方法 |
CN111709351B (zh) * | 2020-06-11 | 2023-05-05 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN111860353A (zh) * | 2020-07-23 | 2020-10-30 | 北京以萨技术股份有限公司 | 基于双流神经网络的视频行为预测方法、装置及介质 |
CN111709410B (zh) * | 2020-08-20 | 2020-12-01 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种强动态视频的行为识别方法 |
CN112489092B (zh) * | 2020-12-09 | 2023-10-31 | 浙江中控技术股份有限公司 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
-
2020
- 2020-12-09 CN CN202011449815.XA patent/CN112489092B/zh active Active
-
2021
- 2021-10-27 WO PCT/CN2021/126849 patent/WO2022121543A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416288A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于全局与局部网络融合的第一视角交互动作识别方法 |
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN110188239A (zh) * | 2018-12-26 | 2019-08-30 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification;Jinrui Yang et. al;2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR);全文 * |
Two-Stream Collaborative Learning With Spatial-Temporal Attention for Video Classification;Yuxin Peng et al.;《IEEE Transactions on Circuits and Systems for Video Technology》;全文 * |
Two-Stream Convolutional Networks for Action Recognition in Videos;Karen Simonyan et. al;《arXiv》;全文 * |
基于光流法的深度学习在工业运动检测的应用;周曼 等;《自动化与仪表》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022121543A1 (zh) | 2022-06-16 |
CN112489092A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489092B (zh) | 细粒度工业运动模态分类方法、存储介质、设备和装置 | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN106897738A (zh) | 一种基于半监督学习的行人检测方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN106845513B (zh) | 基于条件随机森林的人手检测器及方法 | |
JP2018116364A (ja) | 辞書生成装置、評価装置、辞書生成方法、評価方法及びプログラム | |
CN113239869B (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN113420745B (zh) | 基于图像的目标识别方法、系统、存储介质及终端设备 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN111738054A (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
Ji et al. | Tam-net: Temporal enhanced appearance-to-motion generative network for video anomaly detection | |
CN112101114A (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
Patel et al. | A study on video semantics; overview, challenges, and applications | |
US11954917B2 (en) | Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof | |
CN112417974A (zh) | 一种公共卫生监控方法 | |
CN110363198A (zh) | 一种神经网络权重矩阵拆分与组合的方法 | |
CN116189286A (zh) | 一种视频图像暴力行为检测模型及检测方法 | |
CN112883868B (zh) | 一种基于关系建模的弱监督视频动作定位模型的训练方法 | |
CN115457620A (zh) | 用户表情识别方法、装置、计算机设备及存储介质 | |
CN114708653A (zh) | 基于行人重识别算法的指定行人动作检索方法 | |
CN112733686A (zh) | 用于云联邦的图像中的目标物识别方法及装置 | |
CN111882545A (zh) | 基于双向信息传递及特征融合的织物疵点检测方法 | |
CN113963249B (zh) | 一种星系图像的检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310053 No. 309 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Zhongkong Technology Co.,Ltd. Address before: 310053 No. 309 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: ZHEJIANG SUPCON TECHNOLOGY Co.,Ltd. |