CN112489092A - 细粒度工业运动模态分类方法、存储介质、设备和装置 - Google Patents

细粒度工业运动模态分类方法、存储介质、设备和装置 Download PDF

Info

Publication number
CN112489092A
CN112489092A CN202011449815.XA CN202011449815A CN112489092A CN 112489092 A CN112489092 A CN 112489092A CN 202011449815 A CN202011449815 A CN 202011449815A CN 112489092 A CN112489092 A CN 112489092A
Authority
CN
China
Prior art keywords
probability distribution
classification
target motion
video sequence
motion mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011449815.XA
Other languages
English (en)
Other versions
CN112489092B (zh
Inventor
刘志勇
周曼
陈梦迟
王得磊
刘得斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongkong Technology Co ltd
Original Assignee
Zhejiang Supcon Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Supcon Technology Co Ltd filed Critical Zhejiang Supcon Technology Co Ltd
Priority to CN202011449815.XA priority Critical patent/CN112489092B/zh
Publication of CN112489092A publication Critical patent/CN112489092A/zh
Priority to PCT/CN2021/126849 priority patent/WO2022121543A1/zh
Application granted granted Critical
Publication of CN112489092B publication Critical patent/CN112489092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种细粒度工业运动模态分类方法,包括:S1、获取待测视频序列及其光流图;S2、将视频序列输入第一分类模型,获得考虑全局空间特征对目标运动模态进行分类的第一概率分布,将光流图输入第二分类模型,获得考虑全局时域特征对目标运动模态进行分类的第二概率分布,将视频序列和光流图输入第三分类模型,获得考虑目标运动细节特征对目标运动模态进行分类的第三概率分布;S3、对第一概率分布、第二概率分布和第三概率分布进行加权融合,以根据融合后的结果输出目标运动模态的分类结果。能够对工业现场的运动模态进行细粒度识别。此外,本发明还提供一种细粒度工业运动模态分类装置、计算机设备和计算机可读存储介质。

Description

细粒度工业运动模态分类方法、存储介质、设备和装置
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。
背景技术
近年来,随着人工智能技术的发展,机器视觉系统的技术路线正慢慢地由原来传统的数字图像处理技术转向数字图像处理和深度卷积神经网络(Convolutional NeuralNetwork,CNN)相结合的方向发展。深度学习强大的特征拟合能力、泛化能力进一步提升了机器视觉技术的准确性和智能性。目前,机器视觉任务主要的应用对象都是基于单帧图像的识别,例如表面瑕疵检测、尺寸测量、仪表识别等,此类识别任务的总体解决方案主要是围绕单帧图像处理空间特征关系而不需要考虑检测对象多帧之间的时序特征关系。
然而,工业现场仍有许多运动模态的识别任务,例如流水线传送带上原料状态监控、药物生产过程中化学反应进度监控等,这些任务往往需要从连续的多帧图像中提取动态特征进行状态判别。
双流网络是常见的融合不同模态的视频编码特征的网络结构,该方法同时结合了视频输入的RGB图像信息和光流信息,对比纯粹的RGB图像输入,双流网络能够在其基础上进一步提升网络性能。双流网络采用了两路网络,分别提取RGB视频的单帧图像信息和对应帧的光流信息,将单帧RGB图像输入一路网络,将多帧光流信息输入另一路网络,然后将两路网络输出的结果进行特征融合,最后获得动作的类别。
某些特殊的运动模态识别任务具有背景单一、类间特征差异小的特点,需要对运动模态进行细粒度识别。在细粒度运动分析问题中,类别之间在整体上通常具有非常高的相似性,运动之间的区别往往存在于视频的局部区域,然而,目前基于双流网络的运动分析模型大都从视频的全局进行特征提取,旨在从整体上区分不同的运动类别,通常对类别间局部的差异不敏感。因此,现有双流网络架构算法存在细粒度的运动特征刻画功能不足的问题。
故,亟需一种细粒度工业运动模态分类方法、存储介质、计算机设备和装置。
发明内容
(一)要解决的技术问题
鉴于上述技术中存在的问题,本发明至少从一定程度上进行解决。为此,本发明的一个目的在于提出了一种细粒度工业运动模态分类方法,能够对工业现场的运动模态进行细粒度识别。
本发明的第二个目的在于提出一种工业运动模态分类装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
(二)技术方案
为了达到上述目的,本发明一方面提供一种工业运动模态分类方法,包括以下步骤:
步骤S1、获取待测视频序列,视频序列包括连续的视频帧,连续的视频帧存在目标运动模态;
步骤S2、根据视频序列,获取光流图;
步骤S3、将视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将视频序列和光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布;
步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
进一步地,第三分类模型还包括人工神经网络,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。
进一步地,在步骤S1之前,还包括:获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注;
根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。
进一步地,损失函数包括:
Loss=λclassLclassROILROIANNLANN
Figure BDA0002826367140000031
Figure BDA0002826367140000032
LANN=∑(ycon-con)
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xi,yi,wi,hi)表示目标运动区域的预测值,
Figure BDA0002826367140000033
表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λRoI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
进一步地,第一分类模型包括多层卷积神经网络和Softmax层;根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。
进一步地,第二分类模型包括多层卷积神经网络和Softmax层;根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。
进一步地,第三分类模型还包括Softmax层,根据Softmax层对运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。
为达到上述目的,本发明另一方面提供的一种细粒度工业运动模态分类装置,包括获取模块、光流模块和分类模块;
获取模块用于获取待测视频序列,视频序列包括连续的视频帧,连续的视频帧存在目标运动模态;
光流模块用于根据视频序列,获取光流图;
分类模块用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
分类模块用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
分类模块用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布;
分类模块还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
此外,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,处理器执行工业运动模态分类程序时,实现如上所述的细粒度工业运动模态分类方法。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如上所述的细粒度工业运动模态分类方法。
(三)有益效果
本发明的有益效果是:
1、本发明实施例提供的工业运动模态分类方法及分类装置,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征,从而考虑了目标运动细节特征,然后根据全局空间特征、全局时域特征和目标运动细节特征对目标运动模态进行分类,能够从局部上区分不同的运动类别,实现对工业现场的运动模态进行细粒度识别。
2、在本发明实施例提供的工业运动模态分类方法中,通过引入基于神经网络回归的过渡态量化网络,将人工难以明确判定运动模态的过程赋予一种置信度的量化方式,不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。
附图说明
本发明借助于以下附图进行描述:
图1为根据本发明一个实施例的细粒度工业运动模态分类方法的流程图;
图2为根据本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。
【附图标记说明】
1:获取模块;
2:光流模块;
3:分类模块。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明实施例提出的工业运动模态分类方法和分类装置,通过对待测视频序列在空间和时域两个方面进行约束以提取局部目标运动的注意力特征,从而考虑了目标运动细节特征,然后根据目标运动细节特征对目标运动模态进行分类,能够从局部上区分不同的运动类别,实现对工业现场的运动模态进行细粒度识别。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
下面就参照附图来描述根据本发明实施例提出的工业运动模态分类方法和工业运动模态分类装置。
本发明实施例提供的工业运动模态分类方法包括以下步骤:
步骤101、获取待测视频序列,该视频序列包括连续的视频帧,该连续的视频帧存在目标运动模态。
作为一个示例,待测视频序列包括连续的RGB图像帧。
步骤102、根据视频序列,获取光流图。
具体地,根据连续的RGB图像帧,采用Farneback光流法,获得光流图。当然,采用Farneback光流法获得光流图仅仅是优选,可以想见,采用Lucas-Kanade光流法或TV-L1光流法获得光流图,也可以实现类似的效果。
步骤103、将视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将视频序列和光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,如图1所示,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布。
其中,目标运动模态的感兴趣区域即为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域。
具体地,作为一个实施例,第一分类模型包括多层卷积神经网络和Softmax层,如图1所示;根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。进一步地,从视频序列的每一帧中提取全局空间特征,包括:根据残差网络ResNet50从视频序列的每一帧中提取全局空间特征。可见,本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中单帧图像的全局空间特征。
具体地,作为一个实施例,第二分类模型包括多层卷积神经网络和Softmax层,如图1所示;根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。进一步地,从光流图中提取全局时域特征,包括:根据残差网络ResNet50从光流图中提取全局时域特征。可见本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中多帧图像之间的全局时域特征。
进一步地,根据第一全卷积网络从视频序列中提取高维度空间特征,包括:根据第一U-net网络从视频序列中提取高维度空间特征;根据第二全卷积网络从光流图中提取高维度时间特征,包括:根据第二U-net网络从光流图中提取高维度时间特征。
进一步地,将高维度空间特征和高维度时间特征进行融合,包括:采用concatenate方法将高维度空间特征和高维度时间特征进行融合。
进一步地,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,包括:根据残差网络ResNet50对感兴趣区域进行特征提取,获得运动细节特征。其中,感兴趣区域为对待测视频序列在空间和时域两个方面进行约束后的敏感特征区域,实现了提取局部目标运动的注意力特征。
进一步地,第三分类模型还包括Softmax层,根据Softmax层对运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。可见,本发明实施例提供的工业运动模态分类方法考虑了待测视频序列中的目标运动细节特征。
具体地,作为一个实施例,第三分类模型还包括人工神经网络,如图1所示,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。进一步地,人工神经网络采用四层的神经网络结构,输入层节点数为处理感兴趣区域的ResNet50网络特征拉伸后的长度,第一个隐藏层节点数为输入层的一半,第二个隐藏层节点为10,最后输出层节点数为1。通过引入基于神经网络回归的过渡态量化网络,将人工难以明确判定运动模态的过程赋予一种置信度的量化方式,不同的工艺需求可以通过设置不同置信度阈值进行进一步的模式判别。
步骤104、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
具体地,对第一概率分布、第二概率分布和第三概率分布进行加权融合,包括:
Prob=α1Probs2Probt3Probst
其中,Probs、Probt、Probst分别为第一概率分布、第二概率分布和第三概率分布,α1、α2、α3分别为第一概率分布的权重、第二概率分布的权重和第三概率分布的权重。
综上所述,本发明实施例提出的工业运动模态分类方法,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还考虑了待测视频序列中的目标运动细节特征,能够对工业现场的运动模态进行细粒度识别。
进一步地,在步骤101之前,还包括:
步骤100-1、获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注。
其中,标注的目标运动区域包括用矩形框标出视频序列中每一帧的目标运动区域(x,y,w,h),x、y、w、h分别表示矩形框的左上角横坐标、左上角纵坐标、宽度和高度。目标运动模态类型的置信度标注
其中,标注的目标运动模态类型的置信度
Figure BDA0002826367140000091
若能明确判别目标运动模态类型,则置信度为1,若难以明确判别目标运动模态类型,则根据人工经验设置置信度。
进一步地,数据标注还包括像素点标注,属于目标运动区域内的像素点标记为M,属于目标运动区域外的像素点标记为
Figure BDA0002826367140000092
步骤100-2、根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。
具体地,作为一个实施例,损失函数包括:
Loss=λclassLclassROILROIANNLANN
Figure BDA0002826367140000101
Figure BDA0002826367140000102
LANN=∑(ycon-con)
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xi,yi,wi,hi)表示目标运动区域的预测值,
Figure BDA0002826367140000103
表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λROI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
图2为本发明一个实施例的细粒度工业运动模态分类装置的方框示意图。
如图2所示,该工业运动模态分类装置包括:获取模块1、光流模块2和分类模块3。
其中,获取模块1用于获取待测视频序列,该视频序列包括连续的视频帧,该连续的视频帧存在目标运动模态。
光流模块2用于根据视频序列,获取光流图。
分类模块3用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;分类模块3用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;分类模块3用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布。
其中,第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从视频序列中提取高维度空间特征,根据第二全卷积网络从光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对感兴趣区域进行特征提取,获得运动细节特征,根据运动细节特征,获得对目标运动模态进行分类的第三概率分布。
分类模块3还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
需要说明的是,本实施例提供的工业运动模态分类装置中各模块的具体功能,及工业运动模态分类装置流程,可参照上述实施例1提供的工业运动模态分类方法的详细描述,此处不再赘述。
综上所述,本发明实施例提供的细粒度工业运动模态分类装置,在考虑了待测视频序列中单帧图像的全局空间特征和多帧图像之间的全局时域特征的基础上,还考虑了待测视频序列中的目标运动细节特征,能够对工业现场的运动模态进行细粒度识别。
此外,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,处理器执行工业运动模态分类程序时,实现如上所述的细粒度工业运动模态分类方法。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如上所述的细粒度工业运动模态分类方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种细粒度工业运动模态分类方法,其特征在于,包括以下步骤:
步骤S1、获取待测视频序列,所述视频序列包括连续的视频帧,所述连续的视频帧存在目标运动模态;
步骤S2、根据所述视频序列,获取光流图;
步骤S3、将所述视频序列输入第一分类模型,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
将所述光流图输入第二分类模型,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
将所述视频序列和所述光流图输入第三分类模型,获得对目标运动模态进行分类的第三概率分布;
所述第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从所述视频序列中提取高维度空间特征,根据第二全卷积网络从所述光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对所述感兴趣区域进行特征提取,获得运动细节特征,根据所述运动细节特征,获得对目标运动模态进行分类的第三概率分布;
步骤S4、对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述第三分类模型还包括人工神经网络,根据人工神经网络对运动细节特征进行回归处理,输出第三概率分布的置信度。
3.根据权利要求2所述的方法,其特征在于,在所述步骤S1之前,还包括:
获取数据标注的视频序列作为训练集,数据标注包括目标运动区域标注、目标运动模态类型标注和目标运动模态类型的置信度标注;
根据训练集和损失函数训练第一分类模型、第二分类模型和第三分类模型。
4.根据权利要求3所述的方法,其特征在于,所述损失函数包括:
Loss=λclassLclassROILROIANNLANN
Figure FDA0002826367130000021
Figure FDA0002826367130000022
LANN=∑(ycon-con)2
其中,Lclass为三个分类模型的类交叉熵损失,LROI为感兴趣区域定位的位置损失,LANN为神经网络回归的均方误差损失;在Lclass中,C表示类别总数,x表示输入数据,yi表示输入数据所对应的类别标签,ps、pt、pst分别表示第一分类模型、第二分类模型和第三分类模型获得的概率分布;在LROI中,S2为全卷积网络输出的特征层尺寸,k为每段视频序列需要选取的感兴趣区域的数量,(xi,yi,wi,hi)表示目标运动区域的预测值,
Figure FDA0002826367130000023
表示目标运动区域的标定值;在LANN中,ycon为输出的置信度结果,con为置信度标定值;λclass、λROI、λANN分别为Lclass的权重、LROI的权重和LANN的权重。
5.根据权利要求1所述的方法,其特征在于,所述第一分类模型包括多层卷积神经网络和Softmax层;
根据多层卷积神经网络从视频序列的每一帧中提取全局空间特征,根据Softmax层对所述全局空间特征进行处理,获得对目标运动模态进行分类的第一概率分布。
6.根据权利要求1所述的方法,其特征在于,所述第二分类模型包括多层卷积神经网络和Softmax层;
根据多层卷积神经网络从光流图中提取全局时域特征,根据Softmax层对所述全局时域特征进行处理,获得对目标运动模态进行分类的第二概率分布。
7.根据权利要求1所述的方法,其特征在于,所述第三分类模型还包括Softmax层,根据Softmax层对所述运动细节特征进行处理,获得对目标运动模态进行分类的第三概率分布。
8.一种细粒度工业运动模态分类装置,其特征在于,包括获取模块(1)、光流模块(2)和分类模块(3);
获取模块(1)用于获取待测视频序列,所述视频序列包括连续的视频帧,所述连续的视频帧存在目标运动模态;
光流模块(2)用于根据所述视频序列,获取光流图;
分类模块(3)用于使用第一分类模型对视频序列进行处理,获得基于视频序列每一帧的全局空间特征对目标运动模态进行分类的第一概率分布;
分类模块(3)用于使用第二分类模型对光流图进行处理,获得基于光流图的全局时域特征对目标运动模态进行分类的第二概率分布;
分类模块(3)用于使用第三分类模型对视频序列和光流图进行处理,获得对目标运动模态进行分类的第三概率分布;
所述第三分类模型包括第一全卷积网络、第二全卷积网络和卷积神经网络,根据第一全卷积网络从所述视频序列中提取高维度空间特征,根据第二全卷积网络从所述光流图中提取高维度时间特征,将高维度空间特征和高维度时间特征进行融合后提取目标运动模态的感兴趣区域,根据卷积神经网络对所述感兴趣区域进行特征提取,获得运动细节特征,根据所述运动细节特征,获得对目标运动模态进行分类的第三概率分布;
分类模块(3)还用于对第一概率分布、第二概率分布和第三概率分布进行加权融合,根据融合后的结果输出目标运动模态的分类结果。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的工业运动模态分类程序,所述处理器执行所述工业运动模态分类程序时,实现如权利要求1-7中任一项所述的细粒度工业运动模态分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有工业运动模态分类程序,该工业运动模态分类程序被处理器执行时实现如权利要求1-7中任一项所述的细粒度工业运动模态分类方法。
CN202011449815.XA 2020-12-09 2020-12-09 细粒度工业运动模态分类方法、存储介质、设备和装置 Active CN112489092B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011449815.XA CN112489092B (zh) 2020-12-09 2020-12-09 细粒度工业运动模态分类方法、存储介质、设备和装置
PCT/CN2021/126849 WO2022121543A1 (zh) 2020-12-09 2021-10-27 细粒度工业运动模态分类方法、存储介质、设备和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011449815.XA CN112489092B (zh) 2020-12-09 2020-12-09 细粒度工业运动模态分类方法、存储介质、设备和装置

Publications (2)

Publication Number Publication Date
CN112489092A true CN112489092A (zh) 2021-03-12
CN112489092B CN112489092B (zh) 2023-10-31

Family

ID=74941740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011449815.XA Active CN112489092B (zh) 2020-12-09 2020-12-09 细粒度工业运动模态分类方法、存储介质、设备和装置

Country Status (2)

Country Link
CN (1) CN112489092B (zh)
WO (1) WO2022121543A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN113033682A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质、电子设备
CN113642639A (zh) * 2021-08-12 2021-11-12 云知声智能科技股份有限公司 活体检测方法、装置、设备和存储介质
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630868B (zh) * 2023-07-26 2023-11-14 上海蜜度信息技术有限公司 视频分类方法、视频分类装置、介质及电子设备
CN116912290B (zh) * 2023-09-11 2023-12-15 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416288A (zh) * 2018-03-04 2018-08-17 南京理工大学 基于全局与局部网络融合的第一视角交互动作识别方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10181195B2 (en) * 2015-12-28 2019-01-15 Facebook, Inc. Systems and methods for determining optical flow
CN110263666B (zh) * 2019-05-29 2021-01-19 西安交通大学 一种基于非对称多流的动作检测方法
CN111784735A (zh) * 2020-04-15 2020-10-16 北京京东尚科信息技术有限公司 目标跟踪方法、装置和计算机可读存储介质
CN111627052B (zh) * 2020-04-30 2023-05-23 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法t-stam
CN111709306B (zh) * 2020-05-22 2023-06-09 江南大学 基于多层次时空特征融合增强的双流网络行为识别方法
CN111709351B (zh) * 2020-06-11 2023-05-05 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111860353A (zh) * 2020-07-23 2020-10-30 北京以萨技术股份有限公司 基于双流神经网络的视频行为预测方法、装置及介质
CN111709410B (zh) * 2020-08-20 2020-12-01 深兰人工智能芯片研究院(江苏)有限公司 一种强动态视频的行为识别方法
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416288A (zh) * 2018-03-04 2018-08-17 南京理工大学 基于全局与局部网络融合的第一视角交互动作识别方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JINRUI YANG ET. AL: "Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) *
KAREN SIMONYAN ET. AL: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ARXIV》 *
YUXIN PENG ET AL.: "Two-Stream Collaborative Learning With Spatial-Temporal Attention for Video Classification", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
周曼 等: "基于光流法的深度学习在工业运动检测的应用", 《自动化与仪表》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN113033682A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质、电子设备
CN113033682B (zh) * 2021-03-31 2024-04-30 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质、电子设备
CN113642639A (zh) * 2021-08-12 2021-11-12 云知声智能科技股份有限公司 活体检测方法、装置、设备和存储介质
CN113642639B (zh) * 2021-08-12 2024-03-01 云知声智能科技股份有限公司 活体检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112489092B (zh) 2023-10-31
WO2022121543A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
CN112489092B (zh) 细粒度工业运动模态分类方法、存储介质、设备和装置
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN105574550A (zh) 一种车辆识别方法及装置
US11640714B2 (en) Video panoptic segmentation
CN112465880B (zh) 基于多源异构数据认知融合的目标检测方法
CN110648310A (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN113420745B (zh) 基于图像的目标识别方法、系统、存储介质及终端设备
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN114299000A (zh) 一种基于可微分神经网络架构搜索的缺陷检测方法及系统
JP2018116364A (ja) 辞書生成装置、評価装置、辞書生成方法、評価方法及びプログラム
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN112101114A (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN111882000A (zh) 一种应用于小样本细粒度学习的网络结构及方法
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
CN112417974A (zh) 一种公共卫生监控方法
CN111179278A (zh) 一种图像检测的方法、装置、设备和存储介质
Chen et al. Deep Learning Based Underground Sewer Defect Classification Using a Modified RegNet
CN116824291A (zh) 一种遥感图像学习方法、装置以及设备
CN115457620A (zh) 用户表情识别方法、装置、计算机设备及存储介质
CN114998360A (zh) 一种基于SUnet算法的脂肪细胞祖细胞分割方法
CN114677765A (zh) 一种交互式视频动作综合识别评价系统与方法
CN114510610A (zh) 面向多模态知识图谱构建的识别视觉概念的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310053 No. 309 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Zhongkong Technology Co.,Ltd.

Address before: 310053 No. 309 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: ZHEJIANG SUPCON TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder