CN113269253B - 视频描述中视觉特征融合语义检测方法及系统 - Google Patents
视频描述中视觉特征融合语义检测方法及系统 Download PDFInfo
- Publication number
- CN113269253B CN113269253B CN202110580006.0A CN202110580006A CN113269253B CN 113269253 B CN113269253 B CN 113269253B CN 202110580006 A CN202110580006 A CN 202110580006A CN 113269253 B CN113269253 B CN 113269253B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- visual
- semantic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 115
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 20
- 230000014759 maintenance of location Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 19
- 238000012544 monitoring process Methods 0.000 description 17
- 238000007689 inspection Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种视频描述中视觉特征融合语义检测方法及系统,其在多层感知机的特征处理过程中融合视觉信息,丰富特征内容的多样性,复用视觉特征融合结构得到视觉特征融合语义检测单元,获取具备视觉信息和语义信息双重表达的语义特征,提升语义特征的表达能力。将视觉保持支路得到的视觉特征和语义增强支路得到的语义特征,级联后作为视频编码特征,输入到长短时记忆网络进行解码,得到视频的文本描述,该方法得到的语义特征可以提升视频描述的准确度。
Description
技术领域
本发明涉及深度学习视频理解技术领域,具体涉及一种视频描述中视觉特征融合语义检测方法及系统。
背景技术
随着信息技术的快速发展,安防监控设备被应用的越来越广泛,同时伴随短视频平台的大量涌现,使监控和短视频内容的自动审查成为当前研究的热点之一。目前对视频内容的审查主要依靠人工手段,计算机自动审查技术不够成熟,其不能实现对视频内容充分认识与理解。
现有的视频描述算法越来越多地以视频语义特征作为辅助,将其与视觉信息共同作为编码特征,在长短时记忆网络中输出相应文本描述。名称为一种提高视频文本描述准确性的编码器网络模型设计方法,公开号为CN111985612A的发明专利申请中公开了一种视频文本描述的编解码方法,利用视频特征获取视频的语义特征,并且采用S-LSTM网络解码得到视频的文本描述,在编码阶段通过增大单词之间的差异得到更准确的语义特征。名称为一种新的基于深度学习模型的视频语义提取方法,公开号为CN108921032A的发明专利申请中公开了一种视频语义特征的提取方法,对视频序列进行组合与分割得到可以被三维卷积处理的视频特征,采用三维卷积和反向传播方法进行训练,得到视频语义特征。视频语义特征同样应用在视频理解的其他任务中,名称为一种基于视频序列深度学习的人物行为语义识别方法,公开号为CN107038419A的发明专利申请中公开了一种视频中人物动作识别方法,该方法对视频提取关键帧后,充分利用人体轮廓信息,以轮廓信息作为RBF神经网络的输入特征,得到代表人物行为的语义特征。名称为一种基于语义分解的短视频事件检测方法,公开号为CN111723649A的发明专利申请中公开了一种语义分解的视频事件检测方法,将视频的词标签信息与多模态信息结合得到语义分解项,经过自动编码器和图神经网络两个处理单元,获取视频事件的检测结果。
上述利用语义特征和视觉特征实现视频文本描述的方法中,语义信息仅能表示视频单词标签的语义特征,如果语义信息不准确会影响视频的文本描述结果,不利于安防监控和短视频内容审查等应用。如何利用视觉特征得到内容更具多样性的语义特征,更好地应用于安防监控和短视频内容审查系统,成为一个热点问题。
发明内容
本发明提出一种视频描述中视觉特征融合语义检测方法及系统,采用多层感知机提取语义特征的过程中,将每一层输出的多层感知机特征与视觉信息融合,使生成的语义特征具备视频场景和语义分类双重表达,增强语义特征的表征能力,将得到的语义特征应用于视频描述任务,提升视频描述模型的精度,获得准确的视频文本描述结果,可以很好地应用于安防监控、短视频内容审查等领域。
为实现上述目的,本发明的技术方案为:视频描述中视觉特征融合语义检测方法,包括:
将视频进行卷积处理后得到原始视觉特征VF;
在视觉保持支路中,对所述原始视觉特征VF进行处理,即采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve;
再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征;
在语义增强支路中,采用多层感知机提取语义信息,并且将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF。
进一步的,采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve,具体实现过程为:
采用公式(1)获取第1层卷积后的特征;
其中,H1(VF,k1,s1)是视觉保持支路中,第1层一维卷积操作H1的具体表达,VF是输入的原始视觉特征,k1是第1层卷积处理的卷积核大小,且k1=1,s1表示卷积操作的步长,且s1=1;
将第1层卷积后的特征在第2层卷积进行处理,如公式(2)所示:
其中,H2(Ve1,k2,s2)是视觉保持支路中,第2层一维卷积操作H2的具体表达,以第1层卷积输出Ve1作为第2层卷积的输入,k2是第2层卷积处理的卷积核大小,且k2=1,s2代表卷积操作的步长,且s2=1;
······;
将第n-1层卷积后的特征在第n层卷积进行处理,如公式(3)所示:
其中,Hn(Ve(n-1),kn,sn)是视觉保持支路中,第n层一维卷积操作Hn的具体表达,以第n-1层卷积输出Ve(n-1)作为第n层卷积的输入,kn是第n层卷积处理的卷积核大小,且kn=1,sn代表卷积操作的步长,且sn=1;
对原始视觉特征VF进行上述n层卷积操作,最终在视觉保持支路中得到视觉保持特征Ve,其表达式如下:
进一步的,再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征,具体实现过程为:
采用公式(5)获取第1个视觉映射特征;
其中,H1(VF)是视觉保持支路第1层卷积处理,得到第1层输出特征Ve1;对该特征再次进行一维卷积操作,来得到相应尺寸的视觉映射特征,处理函数为M1,表达式如下:
其中,M1是一维卷积处理函数,km1是一维卷积的卷积核大小,sm1是一维卷积的步长;
同理,第i个视觉映射特征VFi如公式(7)所示:
其中,i=2,…,n;
经过以上操作,得到了n个视觉映射特征VF1,VF2,…,VFn。
进一步的,将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF,具体实现过程为:
首先,通过公式(8)获取特征向量a0;
如公式(8)所示为语义增强支路中,第1层多层感知机的全连接计算,输入特征为原始视觉特征VF,k1是权值矩阵,将权值矩阵的每一行向量k1(i)与原始视觉特征VF做乘法运算,输出特征向量a0,尺寸为q1*1;
然后,将得到的全连接计算结果添加偏置项,表达式如下:
其中,d1为偏置向量,尺寸为q1*1。
再将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(10),反之,则激活函数如公式(11)所示:
其中,函数A为激活函数,采用激活函数对特征进行非线性处理可以提升特征的有效性,且令
最后对激活后的特征做随机删除部分神经元操作,如表达式(12)所示:
其中,函数是对特征进行随机删除部分神经元处理,k是随机删除神经元的比例,最终得到的第1层多层感知机输出特征的尺寸为q1*1。
将第1层的多层感知机特征与第1个视觉映射特征相加融合,该操作表达式如下:
多层感知机的第2层、第3层、…、第n层进行上述处理后,输出语义特征SF,表达式如下:
本发明还提供一种视频描述中视觉特征融合语义检测系统,包括:
卷积模块,用于将视频进行卷积处理后得到原始视觉特征VF;
视觉保持特征获取模块,在视觉保持支路中,对所述原始视觉特征VF进行处理,即采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve;
视觉映射特征获取模块,再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征;
融合模块,在语义增强支路中,采用多层感知机提取语义信息,并且将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF。
本发明由于采用以上技术方案,能够取得如下的技术效果:
(1)适用于通过视觉信息获取语义特征情况
本发明中以视觉特征为输入,在采用多层感知机结构提取语义特征的过程中融合视觉信息,得到的语义特征具备视觉信息和语义信息的双重表达,增强语义特征的表达能力,适用于通过视觉信息获取语义特征的情况。
(2)适用于视频描述任务
本发明中可以获取表达能力更强的语义特征,将视频的语义特征和视觉保持特征,级联后作为视频编码输入,采用长短时记忆等网络进行解码,获取准确的视频文本描述结果。
(3)适用于图像描述任务
本发明可以有效提升视频描述模型性能,相对于视频序列,静态图像具有相对简单的目标、动作、属性等视觉因素,可以更好的应用于图像描述任务。
(4)适用于安防监控系统
本发明中可以得到表达能力较强的视频语义特征,将该语义特征应用于视频描述模型,提升模型性能,输出相对准确的文本描述,其中的目标、行为、属性等文本信息可以作为安防监控系统的提示信息,提升安防系统的工作效率。
(5)适用于短视频内容审查系统
本发明可以获取表达能力较强的语义特征,增强视频描述模型的性能,视频文本描述中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息,有效降低短视频中违法、违规、不具正能量的因素,构造良好的网络环境。
附图说明
图1是视觉特征融合结构示意图;
图2是视频描述中视觉特征融合语义检测方法原理框架;
图3是视觉保持支路示意图;
图4是语义增强支路示意图;
图5是实施实例1中安防监控室内场景情况示意图;
图6是实施实例2中安防监控室外场景情况示意图;
图7是实施实例3中短视频内容审查情况示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。下面的实施例可以使本专业的技术人员更全面地理解本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提出一种视频描述中视觉特征融合语义检测方法,如图1-4所示,具体实施步骤如下:
第1步:将视频进行卷积处理后得到的原始视觉特征向量VF作为输入,读取该特征向量,尺寸为1*q,VF的具体形式为VF={v1,v2,…,vq}。
第2步:将第1步读取的原始视觉特征VF在视觉保持支路中进行处理,采用n个尺寸为1的卷积核做1维卷积操作,输出的视觉保持特征Ve尺寸仍为1*q,如下所示为该操作具体细节表达。
其中,H1(VF,k1,s1)是视觉保持支路中,第1层一维卷积操作H1的具体表达,VF是输入的原始视觉特征,k1是第1层卷积处理的卷积核大小,且k1=1,s1表示卷积操作的步长,且s1=1。
将第1层卷积后的特征在第2层卷积进行处理,表达如公式(2)所示。
同理,H2(Ve1,k2,s2)是视觉保持支路中,第2层一维卷积操作H2的具体表达,以第1层卷积输出Ve1作为第2层卷积的输入,k2是第2层卷积处理的卷积核大小,且k2=1,s2代表卷积操作的步长,且s2=1。
······;
将第n-1层卷积后的特征在第n层卷积进行处理,如公式(3)所示:
同理,Hn(Ve(n-1),kn,sn)是视觉保持支路中,第n层一维卷积操作Hn的具体表达,以第n-1层卷积输出Ve(n-1)作为第n层卷积的输入,kn是第n层卷积处理的卷积核大小,且kn=1,sn代表卷积操作的步长,且sn=1。
经过对原始视觉特征VF进行上述n层卷积操作,最终在视觉保持支路中输出视觉保持特征Ve,表达如下。
由于在每一阶段卷积处理中,一维卷积的卷积核大小和步长为1,最终输出的视觉特征Ve与原始视觉特征VF的特征尺寸相同,且仍代表视频的视觉特征,保证了视觉特征处理前后的一致性并得到了有效增强。
第3步:在第2步每一层卷积操作后,再次采用尺寸为1的卷积核进行1维卷积来缩小特征尺寸,以适应语义增强支路中对应层的多层感知机特征尺寸。得到视觉映射特征VF1,VF2,…,VFn。具体操作细节的表达如下。
其中,H1(VF)是视觉保持支路第1层卷积处理,得到第1层输出特征Ve1。对该特征再次进行一维卷积操作,来得到相应尺寸的视觉映射特征,处理函数为M1,具体表达如下。
其中,M1是一维卷积处理函数,km1是一维卷积的卷积核大小,sm1是一维卷积的步长。
同理,第i个视觉映射特征VFi的表达如公式(7)所示。
其中,i=2,…,n;
经过以上操作,得到了n个视觉映射特征VF1,VF2,…,VFn。
第4步:在语义增强支路中采用多层感知机结构提取语义信息,并且将多层感知机的每一层输出,与第3步中得到的相应层的视觉映射特征相加融合,输出语义特征SF。具体操作的表达如下。
如公式(8)所示为语义增强支路中,第1层多层感知机的全连接计算,输入特征为原始视觉特征VF,k1是权值矩阵,将权值矩阵的每一行向量k1(i)与原始视觉特征VF做乘法运算,输出特征向量a0,尺寸为q1*1。
将得到的全连接计算结果添加偏置项做适当调整,表达如下。
其中,d1为偏置向量,尺寸为q1*1。
将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(10),反之,则激活函数如公式(11)所示。
其中,函数A为激活函数,采用激活函数对特征进行非线性处理可以提升特征的有效性,且令
最后对激活后的特征做随机删除部分神经元操作,表达如公式(12)所示。
其中,函数是对特征进行随机删除部分神经元处理,k是随机删除神经元的比例,随机删除部分神经元,具有防止过拟合等优点。最终得到的第1层多层感知机输出特征的尺寸为q1*1。
上述操作为语义增强支路中多层感知机的第1层处理,包括对特征进行全连接计算、非线性激活和随机删除部分神经元处理,得到第1层的多层感知机特征,将该特征与第3步中得到的第1个视觉映射特征相加融合,该操作表达如下。
以上为语义增强支路第1层的融合操作,多层感知机的第2层、第3层、…、第n层进行上述处理后,输出语义特征SF,表达如下。
该语义特征充分融合了视频的视觉信息,具备语义和视觉信息的双重表达,具备较强的表达能力,将其应用于视频描述任务中,提升模型性能,与第2步中得到的视觉保持特征级联后输入到长短时记忆网络,可以输出准确的文本描述结果。
本实施例还提供一种视频描述中视觉特征融合语义检测系统,包括:
卷积模块,用于将视频进行卷积处理后得到原始视觉特征VF;
具体的,输入的原始视觉特征VF,是视频经过卷积处理,并且即将输入到视觉特征融合语义检测单元的特征向量。
视觉保持特征获取模块,在视觉保持支路中,对所述原始视觉特征VF进行处理,即采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve;
具体的,输出的视觉保持特征Ve,是视觉保持支路中,原始视觉特征VF经过n个尺寸为1的卷积核进行1维卷积处理得到的特征向量,卷积处理函数为H1、H2、…、Hn。
视觉映射特征获取模块,再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征;
具体的,原始视觉特征经过i层卷积处理后,再次采用函数Mi进行卷积缩小尺寸得到的特征,以求与多层感知机第i层输出特征尺寸对应,等待在语义增强支路中进行融合处理,Mi是卷积核尺寸为1的1维卷积操作。
融合模块,在语义增强支路中,采用多层感知机提取语义信息,并且将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF。
具体的,在语义增强支路中,将原始视觉特征经过n层多层感知机函数F1、F2、…、Fn处理,得到n层多层感知机特征,F1、F2、…、Fn是多层感知机中全连接操作。将每一个的视觉映射特征VF1、VF2、…、VFn与对应的多层感知机特征相加融合。
本系统有两个支路,在视觉保持支路,对原始视觉特征进一步处理,在保证特征尺寸不变、视觉特征表示视频场景的属性不变情况下,提升视觉特征的表达能力,同时为语义增强支路提供视觉映射特征。在语义增强支路,将多层感知机特征与视觉映射特征相加,使生成的语义特征具备语义和视觉信息的双重表达,得到具备较强表达能力的语义特征。有利于视频描述任务中获取准确的视频文本描述结果。
本发明实施例的视频描述中视觉特征融合语义检测系统与上述视频描述中视觉特征融合语义检测方法一一对应,在上述视频描述中视觉特征融合语义检测方法的实施例阐述的技术特征及其有益效果均适用于本系统的实施例中。
本实施例中视觉保持支路的卷积层数和语义增强支路的多层感知机层数均为n,视觉保持支路每一层卷积处理后再次进行卷积缩小尺寸,得到n个视觉映射特征。为了在输入不同视觉特征的情况下均能得到较好模型,本专利采用5种单元规模,如n∈{5,6,7,8,9}。其特征尺寸约束条件可以为:
(1)输入的原始视觉特征的尺寸是[1*2048]维度的特征向量。
(2)视觉保持支路中输出的视觉保持特征的尺寸是[1*2048]维度的特征向量。
(3)语义增强支路中输出的语义特征的尺寸是[1*256]维度的特征向量。
(4)当n=5时,1到5层多层感知机输出特征尺寸为(1024,1024,512,512,256)。
(5)当n=6时,1到6层多层感知机输出特征尺寸为(1024,1024,512,512,256,256)。
(6)当n=7时,1到7层多层感知机输出特征尺寸为(1024,1024,1024,512,512,256,256)。
(7)当n=8时(n为特征尺寸约束条件所定义的表示),1到8层多层感知机输出特征尺寸为(1024,1024,1024,512,512,512,256,256)。
(8)当n=9时,1到9层多层感知机输出特征尺寸为(1024,1024,1024,512,512,512,256,256,256)。
实施例1:
安防监控室内场景情况
将本实例应用于安防监控的室内场景,获取表达能力较强的视频语义特征和视觉特征,将其在解码网络中解码得到文本描述。该文本信息可以有效防止室内危险事故的发生,并且可以提高排查监控视频的效率,安防监控室内场景情况如图5所示。
实施例2:
安防监控室外场景情况
将本实例应用于安防监控的室外场景,获取表达能力较强的视频语义特征和视觉特征,将其在解码网络中解码得到文本描述。该文本信息可以有效防止室外危险事故的发生,并且可以提高排查监控视频的效率,安防监控室外场景情况如图6所示。
实施例3:
短视频内容审查情况
将本实例应用于短视频内容审查系统中,获取表达能力较强的视频语义特征和视觉特征,将其在解码网络中解码得到文本描述。该文本信息可以有效防止短视频中违法、违规等负能量的内容,有利于构造良好的网络环境,短视频内容审查情况如图7所示。
本发明的实施例有较佳的实施性,并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的,它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现,且这应被发明实施例所属技术领域的技术人员所理解。
Claims (2)
1.视频描述中视觉特征融合语义检测方法,其特征在于,包括:
将视频进行卷积处理后得到原始视觉特征VF;
在视觉保持支路中,对所述原始视觉特征VF进行处理,即采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve;
再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征;
在语义增强支路中,采用多层感知机提取语义信息,并且将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF;
采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve,具体实现过程为:
采用公式(1)获取第1层卷积后的特征;
其中,H1(VF,k1,s1)是视觉保持支路中,第1层一维卷积操作H1的具体表达,VF是输入的原始视觉特征,k1是第1层卷积处理的卷积核大小,且k1=1,s1表示卷积操作的步长,且s1=1;
将第1层卷积后的特征在第2层卷积进行处理,如公式(2)所示:
其中,H2(Ve1,k2,s2)是视觉保持支路中,第2层一维卷积操作H2的具体表达,以第1层卷积输出Ve1作为第2层卷积的输入,k2是第2层卷积处理的卷积核大小,且k2=1,s2代表卷积操作的步长,且s2=1;
······;
将第n-1层卷积后的特征在第n层卷积进行处理,如公式(3)所示:
其中,Hn(Ve(n-1),kn,sn)是视觉保持支路中,第n层一维卷积操作Hn的具体表达,以第n-1层卷积输出Ve(n-1)作为第n层卷积的输入,kn是第n层卷积处理的卷积核大小,且kn=1,sn代表卷积操作的步长,且sn=1;
对原始视觉特征VF进行上述n层卷积操作,最终在视觉保持支路中得到视觉保持特征Ve,其表达式如下:
再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征,具体实现过程为:
采用公式(5)获取第1个视觉映射特征;
其中,H1(VF)是视觉保持支路第1层卷积处理,得到第1层输出特征Ve1;对该特征再次进行一维卷积操作,来得到相应尺寸的视觉映射特征,处理函数为M1,表达式如下:
其中,M1是一维卷积处理函数,km1是一维卷积的卷积核大小,sm1是一维卷积的步长;
同理,第i个视觉映射特征VFi如公式(7)所示:
其中,i=2,…,n;
经过以上操作,得到了n个视觉映射特征VF1,VF2,…,VFn;
将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF,具体实现过程为:
首先,通过公式(8)获取特征向量a0;
如公式(8)所示为语义增强支路中,第1层多层感知机的全连接计算,输入特征为原始视觉特征VF,k1是权值矩阵,将权值矩阵的每一行向量k1(i)与原始视觉特征VF做乘法运算,输出特征向量a0,尺寸为q1*1;
然后,将得到的全连接计算结果添加偏置项,表达式如下:
其中,d1为偏置向量,尺寸为q1*1;
再将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(10),反之,则激活函数如公式(11)所示:
其中,函数A为激活函数,采用激活函数对特征进行非线性处理可以提升特征的有效性,且令
最后对激活后的特征做随机删除部分神经元操作,如表达式(12)所示:
其中,函数是对特征进行随机删除部分神经元处理,k是随机删除神经元的比例,最终得到的第1层多层感知机输出特征的尺寸为q1*1;
将第1层的多层感知机特征与第1个视觉映射特征相加融合,该操作表达式如下:
多层感知机的第2层、第3层、…、第n层进行上述处理后,输出语义特征SF,表达式如下:
2.一种视频描述中视觉特征融合语义检测系统,用于实现权利要求1所述的方法,其特征在于,包括:
卷积模块,用于将视频进行卷积处理后得到原始视觉特征VF;
视觉保持特征获取模块,在视觉保持支路中,对所述原始视觉特征VF进行处理,即采用n个尺寸为1的卷积核进行1维卷积操作,得到视觉保持特征Ve;
视觉映射特征获取模块,再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸,得到视觉映射特征;
融合模块,在语义增强支路中,采用多层感知机提取语义信息,并且将所述多层感知机的每一层输出,与相应层的所述视觉映射特征相加融合,获取语义特征SF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580006.0A CN113269253B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征融合语义检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580006.0A CN113269253B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征融合语义检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269253A CN113269253A (zh) | 2021-08-17 |
CN113269253B true CN113269253B (zh) | 2023-08-22 |
Family
ID=77233113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110580006.0A Active CN113269253B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征融合语义检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269253B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577488A (zh) * | 2012-08-08 | 2014-02-12 | 莱内尔系统国际有限公司 | 用于增强的视觉内容数据库检索的方法和系统 |
CN110033008A (zh) * | 2019-04-29 | 2019-07-19 | 同济大学 | 一种基于模态变换与文本归纳的图像描述生成方法 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111859005A (zh) * | 2020-07-01 | 2020-10-30 | 江西理工大学 | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664981B (zh) * | 2017-03-30 | 2021-10-26 | 北京航空航天大学 | 显著图像提取方法及装置 |
-
2021
- 2021-05-26 CN CN202110580006.0A patent/CN113269253B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577488A (zh) * | 2012-08-08 | 2014-02-12 | 莱内尔系统国际有限公司 | 用于增强的视觉内容数据库检索的方法和系统 |
CN110033008A (zh) * | 2019-04-29 | 2019-07-19 | 同济大学 | 一种基于模态变换与文本归纳的图像描述生成方法 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111859005A (zh) * | 2020-07-01 | 2020-10-30 | 江西理工大学 | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 |
Non-Patent Citations (1)
Title |
---|
高翔 ; 陈志 ; 岳文静 ; 龚凯 ; .基于视频场景深度学习的人物语义识别模型.计算机技术与发展.2018,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113269253A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113468996B (zh) | 一种基于边缘细化的伪装物体检测方法 | |
Wang et al. | TRC‐YOLO: A real‐time detection method for lightweight targets based on mobile devices | |
CN113269093B (zh) | 视频描述中视觉特征分割语义检测方法及系统 | |
Kim et al. | Neuron merging: Compensating for pruned neurons | |
Irfan et al. | A novel lifelong learning model based on cross domain knowledge extraction and transfer to classify underwater images | |
CN113763327B (zh) | 一种基于CBAM-Res_Unet的电厂管道高压蒸汽泄露检测方法 | |
CN116152611B (zh) | 一种多级多尺度点云补全方法、系统、设备及存储介质 | |
CN116188836A (zh) | 基于空间与通道特征提取的遥感图像分类方法和装置 | |
CN114445336A (zh) | 配电设备缺陷检测方法、装置、计算机设备和存储介质 | |
Xia et al. | Combination of multi‐scale and residual learning in deep CNN for image denoising | |
Xu et al. | A hierarchical intrusion detection model combining multiple deep learning models with attention mechanism | |
CN117152441B (zh) | 一种基于跨尺度解码的生物图像实例分割方法 | |
CN114202473A (zh) | 一种基于多尺度特征和注意力机制的图像复原方法及装置 | |
CN117036361B (zh) | 一种电网输电线烟雾检测方法、系统、电子设备及介质 | |
Liang et al. | A lightweight method for face expression recognition based on improved MobileNetV3 | |
CN113269253B (zh) | 视频描述中视觉特征融合语义检测方法及系统 | |
CN115829962B (zh) | 医学图像分割装置、训练方法及医学图像分割方法 | |
Budiman et al. | Harvesting Natural Disaster Reports from Social Media with 1D Convolutional Neural Network and Long Short-Term Memory | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN113361445B (zh) | 一种基于注意力机制的文档二值化处理方法及系统 | |
Jiang et al. | PruneFaceDet: Pruning lightweight face detection network by sparsity training | |
Deshpande et al. | Abnormal Activity Recognition with Residual Attention-based ConvLSTM Architecture for Video Surveillance. | |
CN113051617A (zh) | 一种基于改进生成对抗网络的隐私保护方法 | |
Zhang et al. | SA‐BiSeNet: Swap attention bilateral segmentation network for real‐time inland waterways segmentation | |
CN114898280B (zh) | 少数民族舞蹈视频描述中视觉互参考语义检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |