CN113536898A - 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 - Google Patents
全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 Download PDFInfo
- Publication number
- CN113536898A CN113536898A CN202110603903.9A CN202110603903A CN113536898A CN 113536898 A CN113536898 A CN 113536898A CN 202110603903 A CN202110603903 A CN 202110603903A CN 113536898 A CN113536898 A CN 113536898A
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- cavity
- output
- receptive field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 42
- 230000003247 decreasing effect Effects 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 13
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 239000011800 void material Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质,属于视频理解与分析中的视频动作分割技术领域,为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题,将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出,效果是提高视频特征提取能力。
Description
技术领域
本发明属于视频理解与分析中的视频动作分割技术领域,涉及一种全面特征捕捉型时间卷积网络的视频动作分割方法。
背景技术
在大数据时代,视频凭借其广泛的应用性和丰富的表现能力成为十分重要的传播媒介,各个领域无时无刻不在使用视频传播与记录信息。视频理解已成为计算机视觉领域的研究热点,尤其是视频动作分割。动作分割任务适用于多种动作连续发生的细致场景,例如生产线上、视频监控等单一场景连续动作的检测与识别。专利《一种基于边界搜索智能体的时序动作片段分割方法》(公开号:CN111950393A),提出边界搜索智能体,生成动作单元所属动作片段的时序边界,结合动作发现网络,提升了时序动作片段分割的平均精度。专利《通过混合时域自适应的视频动作分割》(公开号:CN112528780A),公开了一种域自适应时间卷积网络,将动作标签分配给视频的帧,解决了繁琐的视频数据集密集标注问题。专利《一种基于混合时间卷积和循环网络的视频动作分割方法》(公开号:CN107423725A),提出一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架,可以处理不同压缩程度的视频信号,提供一个混合时间网络来解决视频动作分割,提高了动作内容识别精度与效率。
视频动作分割任务需要网络抓取长时依赖关系,对于现有的动作分割网络模型,其骨干网络都起源于时间卷积网络,通过感受野不断扩张的多层空洞卷积提取较长的时序特征,根据这些视频特征的长时信息,得出每一帧最终的预测结果。
尽管这些模型取得不错的预测效果,但由于其结构设计原因,导致扩张到高层的卷积核感受野很大,对特征序列提取间隔过大,必然会漏掉一些重要信息。这导致网络漏掉有助于预测正确的关键特征,对一些细微动作或者小目标的动作识别效果差。动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低。因此需要一种感受野补足的全面特征捕捉方法,实现对视频特征序列的完整利用。
发明内容
为了解决动作分割网络对于目标动作的漏检、错检会导致其在实际应用中的可靠性降低的问题,本发明提出如下方案:
全面特征捕捉型时间卷积网络的视频动作分割方法,包括如下步骤:S1.对单个视频采样,获取视频帧序列集合;S2.视频帧序列集合输入特征提取网络,获取帧级特征;S3.对帧级特征使用通道调整卷积,得到第一特征矩阵;S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积,分别提取特征后将两特征矩阵拼接;S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出。
有益效果
(1)提高视频特征提取能力
本发明通过使用感受野递增和递减的两种时间卷积的结合,能够互相弥补二者存在的缺失特征。针对未裁剪视频的动作分割任务,能够防止重要特征的丢失,提高特征丰富性,捕捉动作分类所需要的关键信息,对细微动作和小目标动作的识别更加精确。
(2)适用于时序信息处理任务
在涉及时序建模的多种任务中,如语音合成、自然语言处理、动作分割等,需要捕捉长时信息,本发明提供的全面特征捕捉型时间卷积对时序信息的提取更加全面,可以提高多种时序建模任务的准确性。
(3)适用于生产线机械手动作识别
本发明为计算机视觉视频理解技术中的动作分割,适用于背景单一的连续动作检测,能够对工厂中自动化生产线上的机械手进行动作识别,使计算机能够检测机械手做出的动作,对比程序设置的动作流程,自动检测机械手对动作指令的执行情况,进一步实现生产线的无人化管理。
(4)适用于生产线机械手故障检测
本发明适用于自动化生产线上的机械手故障检测,提供的全面特征捕捉型时间卷积网络,对特征捕捉更全面,避免特征丢失,不仅能够检测死机、冒烟等明显故障,对机械手执行动作指令中出现的卡顿、偏移等细微错误也有鉴别能力。
(5)适用于生产线机械手危险动作检测
本发明适用于自动化生产线上的机械手危险检测,在需要人为控制、调试或人机协作等有人参与的生产线中,保证人的安全是重中之重,依靠本发明对动作的识别精度和速度,能够迅速识别出机械手做出打中人体或夹住人手等威胁工人安全的行为,使系统立即停止对人类的伤害动作,保证参与生产的工人和技术人员安全。
附图说明
图1是本方法的整体框架示意图
图2是实施实例1中机械手动作识别结果图
图3是实施实例2中机械手故障检测结果图
图4是实施实例3中机械手危险动作检测结果图
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
全面特征捕捉型时间卷积网络,其逻辑如图1所示,利用其具体实施视频动作分割的步骤如下:
第2步:对第1步得到的帧级特征使用通道调整卷积,得到尺寸大小为64×T的特征矩阵,输入双通道时间卷积构成的基本单元中;
第3步:将第2步得到的特征矩阵输入感受野递增时间卷积中,经多层卷积提取后,使用通道调整卷积,得到尺寸大小为64×T的特征矩阵;
第4步:将第2步得到的特征矩阵输入感受野递减时间卷积中,经多层卷积提取后,使用通道调整卷积卷积,得到尺寸大小为64×T的特征矩阵;
第5步:将第3步和第4步得出的特征矩阵使用拼接处理,再使用通道调整卷积,得到尺寸大小为64×T的特征矩阵,将其输入下一基本单元;
第6步:连续使用N个基本单元后,对最后一个基本单元的输出特征使用通道调整卷积得到尺寸大小为C×T的特征矩阵,其中C为该视频动作总类数,再通过Softmax函数得出最终分类结果。
1.技术方案
通常情况下,用于动作分割的多层时间卷积网络随着层数增加其感受野不断递增。为满足对于视频特征序列的全面捕捉需求,本发明提出一种感受野递增与递减的双通道时间卷积结构组成的全面特征捕捉型时间卷积网络。感受野递增时间卷积由多层空洞卷积构成,每层空洞卷积的空洞率随着卷积层数的增加而增加,使每层卷积的感受野随着卷积层数增加而扩大。感受野递减时间卷积由多层空洞卷积构成,每层空洞卷积的空洞率随着卷积层数的增加而减小,使每层卷积的感受野随着卷积层数增加而缩小。全面特征捕捉型时间卷积网络由多个基本单元组成,一个基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。基本单元可以首尾连接使用,网络中基本单元的使用数量将决定网络对分割结果的优化程度。
2.全面特征捕捉型时间卷积网络
全面特征捕捉型时间卷积网络定义:全面特征捕捉型时间卷积网络由多个基本单元组成,一个基本单元包含一个感受野递增时间卷积和一个感受野递减时间卷积。全面特征捕捉型时间卷积网络的输入是帧特征集合其中T是输入视频的总帧数,mt是第t帧的特征向量,帧特征集合M包含每一视频帧的特征。对帧特征集合M使用通道调整卷积后得出特征集合将其输入第一个基本单元,其中x1 t表示第一个基本单元的输入特征中的第t帧特征向量。经过多个基本单元连续计算,对最后一个基本单元的输出添加神经网络通用分类器,得出全面特征捕捉型时间卷积网络的输出,即预测结果集合其中代表第t帧的分类结果。
(1)双通道时间卷积
定义1:双通道时间卷积构成的基本单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。
定义2:感受野递增时间卷积由多层空洞卷积组成,首先对特征集合X1使用感受野较小的第一层一维空洞卷积,密集提取视频特征,经过激活函数Relu和通道调整卷积后,为保持深度网络模型不退化,根据残差网络特性,将每一层空洞卷积的输出特征都与其输入特征相加,再使用通道调整卷积得到第一层输出的特征序列X2,其计算方式如下:
f1=D(R(w1X1+b1)) (1)
其中,f1表示第一层空洞卷积计算,R(·)表示激活函数Relu,D(·)代表通道调整卷积,w1是第一层空洞卷积的权重矩阵,b1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率提升使得感受野增加,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列X3。其计算方式如下:
f2=D{R(w2X2+b2)} (3)
fi=D{R(wiXi+bi)} (5)
其中,fi表示第i层空洞卷积计算,wi是第i层空洞卷积的权重矩阵,bi是第i层空洞卷积的偏置项,是第i层空洞卷积输出特征中的第t帧特征向量。随着卷积层数的增加,卷积核的感受野逐渐增大,感受野递增时间卷积的感受野计算公式如下:
P(i)=2i+1-1 (7)
其中,i代表卷积层数,P(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算,得出任意一个基本单元中感受野递增时间卷积的输出特征序列其中k为基本单元个数,为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量。
定义3:感受野递减时间卷积同样由多层空洞卷积组成,首先对特征集合X1使用感受野较大的第一层一维空洞卷积,大跨度提取视频特征,经过激活函数Relu、通道调整卷积和残差运算,再使用通道调整卷积得到第一层空洞卷积的输出特征序列O2,其计算方式如下:
g1=D{R(λ1X1+δ1)} (8)
其中,g1表示第一层空洞卷积计算,λ1是第一层空洞卷积的权重矩阵,δ1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量。将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率降低使得感受野缩小,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列O3,其计算方式如下:
g2=D{R(λ2X2+δ2)} (10)
gi=D{R(λiXi+δi)} (12)
Q(i)=2L-i+1-1 (14)
其中,L为总层数,Q(i)为第i层空洞卷积的感受野大小。经过多层空洞卷积的连续运算,得出第任意一个基本单元中的感受野递减时间卷积的输出其中k为基本单元个数,为第k个基本单元中的感受野递减时间卷积的输出特征中的第t帧特征向量。
定义4:基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成,对拼接结果使用通道调整卷积得出第k个基本单元的输出Yk,其计算方式如下:
(2)整体网络结构
定义5:全面特征捕捉型时间卷积网络由多个基本单元连接而成,任意一个由双通道时间卷积构成的基本单元Sk的计算方式如下:
其中,Fk表示第k个基本单元中的感受野递增时间卷积,Gk表示第k个基本单元中的感受野递减时间卷积。原始特征X1经过第一个基本单元S1计算,得出第一个基本单元的输出Y1,将其输入第二个基本单元S2,以此类推,可计算出最后一个基本单元的输出特征YN,N为网络总的基本单元总数。YN经过分类器计算得出最终动作分割结果
3约束条件
特征尺寸:
(1)全面特征捕捉型时间卷积网络的输入是视频帧特征,帧特征是尺寸大小为[2048×T]的二维矩阵,其中2048代表特征维度,T是视频帧数。
(2)感受野递增时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。
(3)感受野递增时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。
(4)感受野递减时间卷积输入特征是尺寸大小为[64×T]的二维矩阵。
(5)感受野递减时间卷积输出特征是尺寸大小为[64×T]的二维矩阵。
(6)全面特征捕捉型时间卷积网络的输出为[C×T]的二维矩阵,C为视频包含的动作类别数。
网络规模:
(7)感受野递增时间卷积的空洞卷积层数为12-15层,包括12、13、14、15层。
(8)感受野递减时间卷积的空洞卷积层数为12-15层,包括12、13、14、15层。
(9)使用的基本单元数在3-10之间,包括3、4、5、6、7、8、9、10个基本单元。
其他参数:
(10)感受野递增时间卷积和感受野递减时间卷积的卷积核大小都为3。
(11)通道调整卷积为1×1卷积,用于调整输入输出特征尺寸。
(12)分类器使用Softmax函数。
4.原理分析
全面特征捕捉型时间卷积网络的基本单元由感受野递增和递减的两个时间卷积组成。
感受野递增时间卷积在底层使用感受野最小的卷积核,对原始特征进行密集采集,随着卷积层数的增加,空洞卷积的空洞率扩大,使卷积核感受野逐渐增大,层数越高的卷积对特征的提取跨度越大,构成下层密集、上层稀疏的采样方式。
感受野递减时间卷积在底层使用感受野最大的卷积核,对原始特征进行大跨度采集,随着卷积层书的增加,空洞卷积的空洞率减小,使卷积核感受野逐渐减小,层数越高的卷积核对特征的提取越密集,构成下层稀疏、上层密集的采样方式。
基本单元的感受野递增和递减时间卷积分别构成下层密集、上层稀疏和下层稀疏、上层密集两种采样方式,使二者对特征的提取得到互补,弥补各自结构设计导致的特征缺失,同时又不会造成特征的重复提取。
全面特征捕捉型时间卷积网络利用多个基本单元的连接,对特征进行不断的优化处理,为防止网络加深导致模型能力退化,每个基本单元的感受野递增时间卷积和感受野递减时间卷积都采用残差思想,使用跳线连接,保持深度网络中的特征传输。最终经过分类器对特征分类得出动作分割结果。
此前的动作分割算法普遍采用单一种类的时间卷积网络,即感受野递增时间卷积,虽然其广泛的特征捕捉能力适用于时序问题的处理,但其对特征的提取不全面。有的工作致力于弥补感受野递增时间卷积的视野缺失,如MS-TCN++,提出感受野递减的时间卷积层,将时间卷积网络的每层卷积改为感受野递增的空洞卷积和感受野递减的空洞卷积二者的双层叠加,这样的方式弥补了常规的感受野递增时间卷积的感受野缺失,但该方法由于感受野递增卷积与感受野递减卷积是在一个时间卷积网络块中逐层联合使用,并未分别对两种感受野组成的时间卷积网络进行显式建模,没有充分发挥两种结构的优势,而且该方法在多阶段的网络结构中,仅在第一阶段使用了感受野递增卷积与感受野递减卷积的融合方式,后续阶段仍使用种类单一的感受野递增时间卷积。本发明提出的全面特征捕捉型时间卷积网络,对感受野递增时间卷积与感受野递减时间卷积分别建模,利用感受野递增空洞卷积和感受野递减空洞卷积分别组成感受野递增时间卷积和感受野递减时间卷积,将两种时间卷积并联形成一个基本单元,基本单元的输出为感受野递增时间卷积和感受野递减时间卷积的融合特征。一个基本单元中的两种时间卷积块,一个为感受野递增的多层卷积结构,一个为感受野递减的多层网络结构,充分提取两种不同类型特征后,将两种特征进行融合,分别发挥两种结构的优势,互相弥补,丰富了特征,提高特征表达能力。并且随着多个基本单元的叠加,逐渐对特征进行细致优化,使最终预测结果趋于准确。
为测试本发明提出的全面特征捕捉型时间卷积网络的有效性,表1中给出了本发明的网络于MS-TCN++的测试对比,测试指标包含帧级准确率(Acc)、分段编辑分数(Edit)和IoU阈值为10%、25%、50%的分段F1得分,表示为F1@k(k=10;25;50)。其中Acc为常用的准确率评判标准,但其对于不符合人体行为认知的错误时序片段不敏感,对于短暂的错误预测也不敏感,无法反映过分割错误。而分段编辑分数通过测量预测结果中动作分段顺序来惩罚过分割错误,F1分数由动作总数确定,同样惩罚过分割错误,使用这三种指标作为评价机制。
测试结果表明,在三个动作分割数据集中,全面特征捕捉型时间卷积网络表现优于具有同类性质的其他网络(MS-TCN++)。其中全面特征捕捉型时间卷积网络的F1分数在三个数据集上平均以4.2%优于MS-TCN++,Edit分数以2.4%优于MS-TCN++,Acc以2.1%优于MS-TCN++。实验结果表明,全面特征捕捉型时间卷积网络利用其提取特征的丰富性,提高特征表达能力,使动作段的预测结果更加准确。
表1测试结果对比
在一种实施例中,本发明涉及的方法步骤由软件实现,该实施例提供一种计算机系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机指令,所述处理器执行所述计算机指令以实现任一项所述的方法的步骤。并提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令在被处理器执行时,实现任一项所述的方法的步骤。
实施例1:
本实施实例为,将机械手工作流程视频输入到网络模型中,对机械手进行动作识别。机械手动作识别结果如图2。
实施例2:
本实施实例为,将机械手发生故障视频输入到网络模型中,对工作中的机械手进行故障检测。机械手故障检测结果如图3。
实施例3:
本实施实例为,将机械手做出威胁人体安全动作视频输入到网络模型中,对机械手进行危险动作识别。机械手危险动作识别结果如图4。
Claims (6)
1.一种全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,包括如下步骤:
S1.对单个视频采样,获取视频帧序列集合;
S2.视频帧序列集合输入特征提取网络,获取帧级特征;
S3.对帧级特征使用通道调整卷积,得到第一特征矩阵;
S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积,分别提取特征后将两特征矩阵拼接;
S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;
S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出。
3.如权利要求4所述的全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,
所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积;
感受野递增时间卷积由多层空洞卷积组成,对特征集合X1使用感受野较小的第一层一维空洞卷积,密集提取视频特征,经过激活函数Relu和通道调整卷积后,为保持深度网络模型不退化,根据残差网络特性,将每一层空洞卷积的输出特征都与输入特征相加,再使用通道调整卷积得到第一层输出的特征序列X2:
f1=D(R(w1X1+b1)) (1)
将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率提升使得感受野增加,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列X3:
f2=D{R(w2X2+b2)} (3)
将第i-1层空洞卷积的输出特征输入第i层一维空洞卷积,第i层空洞卷积输出为:
fi=D{R(wiXi+bi)} (5)
随着卷积层数的增加,卷积核的感受野逐渐增大,感受野递增时间卷积的感受野计算公式如下:
P(i)=2i+1-1 (7)
其中,i代表卷积层数,P(i)为第i层空洞卷积的感受野大小,经过多层空洞卷积的连续运算,得出任意一个基本单元中感受野递增时间卷积的输出特征序列其中k为基本单元个数,为第k个基本单元中的感受野递增时间卷积的输出特征中的第t帧特征向量;
感受野递减时间卷积同样由多层空洞卷积组成,对特征集合X1使用感受野较大的第一层一维空洞卷积大跨度提取视频特征,经过激活函数Relu、通道调整卷积和残差运算,再使用通道调整卷积得到第一层空洞卷积的输出特征序列O2:
g1=D{R(λ1X1+δ1)} (8)
将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率降低使得感受野缩小,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列O3:
g2=D{R(λ2X2+δ2)} (10)
将第i-1层空洞卷积的输出特征输入第i层一维空洞卷积,第i层空洞卷积输出为:
gi=D{R(λiXi+δi)} (12)
随着卷积层数的增加,卷积核的感受野逐渐减小,感受野递增时间卷积的感受野计算公式如下:
Q(i)=2L-i+1-1 (14)
其中,L为总层数,Q(i)为第i层空洞卷积的感受野大小;
基本单元的输出由感受野递增时间卷积和感受野递减时间卷积二者的输出拼接而成,对拼接结果使用通道调整卷积得出第k个基本单元的输出Yk,其计算方式如下:
以此类推,计算出每个基本单元的输出特征;
全面特征捕捉型时间卷积网络由多个基本单元连接而成,任意一个由双通道时间卷积构成的基本单元Sk的计算方式如下:
4.一种计算机系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机指令,所述处理器执行所述计算机指令以实现如权利要求1-3中任一项所述的方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令在被处理器执行时,实现如权利要求1-3中任一项所述的方法的步骤。
6.一种全面特征捕捉型时间卷积网络,其特征在于,网络包括若干单元,所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603903.9A CN113536898B (zh) | 2021-05-31 | 2021-05-31 | 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603903.9A CN113536898B (zh) | 2021-05-31 | 2021-05-31 | 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536898A true CN113536898A (zh) | 2021-10-22 |
CN113536898B CN113536898B (zh) | 2023-08-29 |
Family
ID=78124516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110603903.9A Active CN113536898B (zh) | 2021-05-31 | 2021-05-31 | 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536898B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
US20190354835A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Action detection by exploiting motion in receptive fields |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111859023A (zh) * | 2020-06-11 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 视频分类方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-05-31 CN CN202110603903.9A patent/CN113536898B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
US20190354835A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Action detection by exploiting motion in receptive fields |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111859023A (zh) * | 2020-06-11 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 视频分类方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
谈咏东;王永雄;陈姝意;缪银龙;: "(2+1)D多时空信息融合模型及在行为识别的应用", 信息与控制, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN113536898B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113034548B (zh) | 一种适用于嵌入式终端的多目标跟踪方法及其系统 | |
CN113076809B (zh) | 一种基于视觉Transformer的高空坠物检测方法 | |
CN101739568B (zh) | 基于分层观测向量分解的隐马尔科夫模型的行为识别方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN109919032B (zh) | 一种基于动作预测的视频异常行为检测方法 | |
Chen et al. | An improved Yolov3 based on dual path network for cherry tomatoes detection | |
CN110490174A (zh) | 基于特征融合的多尺度行人检测方法 | |
CN111862145B (zh) | 一种基于多尺度行人检测的目标跟踪方法 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN108830170A (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN113065515A (zh) | 基于相似度图神经网络的异常行为智能检测方法及系统 | |
CN111091101A (zh) | 基于一步法的高精度行人检测方法、系统、装置 | |
CN117009900A (zh) | 一种基于图神经网络的物联网信号异常检测方法和系统 | |
CN117115715A (zh) | 一种基于流重构和帧预测结合的视频异常检测方法 | |
CN116560341A (zh) | 工业机器人故障诊断模型及故障诊断方法 | |
CN112507778A (zh) | 一种基于线特征的改进词袋模型的回环检测方法 | |
CN115526852A (zh) | 基于目标检测的选区激光熔融过程中熔池与飞溅监测方法及应用 | |
CN110659630A (zh) | 一种基于骨架点轨迹动态分析的视频人体异常行为检测方法 | |
CN110111358B (zh) | 一种基于多层时序滤波的目标跟踪方法 | |
CN113536898A (zh) | 全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质 | |
CN113012193A (zh) | 一种基于深度学习的多行人跟踪方法 | |
CN115019389A (zh) | 一种基于运动显著性和SlowFast的行为识别方法 | |
CN113870320A (zh) | 一种基于深度神经网络的行人追踪监控方法及系统 | |
CN113537232B (zh) | 双通道交互时间卷积网络、近景视频动作分割方法、计算机系统和介质 | |
CN113762149A (zh) | 基于分割注意力的特征融合人体行为识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |