CN113269093B - 视频描述中视觉特征分割语义检测方法及系统 - Google Patents
视频描述中视觉特征分割语义检测方法及系统 Download PDFInfo
- Publication number
- CN113269093B CN113269093B CN202110580008.XA CN202110580008A CN113269093B CN 113269093 B CN113269093 B CN 113269093B CN 202110580008 A CN202110580008 A CN 202110580008A CN 113269093 B CN113269093 B CN 113269093B
- Authority
- CN
- China
- Prior art keywords
- semantic
- features
- visual
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 82
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 18
- 238000012512 characterization method Methods 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频描述中视觉特征分割语义检测方法及系统,将视觉特征分割为多个代表局部信息的视觉分割特征,通过多层感知机提取局部语义信息,融合全局语义特征后,得到具备全局和局部的双重表达的语义信息,增强语义特征的表征能力,将得到的语义特征应用于视频描述任务,提升视频描述模型的精度,获得准确的视频文本描述结果,可以很好地应用于安防监控、短视频内容审查等领域。
Description
技术领域
本发明涉及深度学习视频理解技术领域,具体涉及一种视频描述中视觉特征分割语义检测方法及系统。
背景技术
随着信息技术的快速发展,安防监控设备被应用的越来越广泛,同时伴随短视频平台的大量涌现,使监控和短视频内容的自动审查成为当前研究的热点之一。目前对视频内容的审查主要依靠人工手段,计算机自动审查技术不够成熟,其不能实现对视频内容充分认识与理解。
现有的视频描述算法越来越多地以视频语义特征作为辅助,将其与视觉信息共同作为编码特征,在长短时记忆网络中输出相应文本描述。名称为一种提高视频文本描述准确性的编码器网络模型设计方法,公开号为CN111985612A的发明专利申请中公开了一种视频文本描述的编解码方法,利用视频特征获取视频的语义特征,并且采用S-LSTM网络解码得到视频的文本描述,在编码阶段通过增大单词之间的差异得到更准确的语义特征。名称为一种新的基于深度学习模型的视频语义提取方法,公开号为CN108921032A的发明专利申请中公开了一种视频语义特征的提取方法,对视频序列进行组合与分割得到可以被三维卷积处理的视频特征,采用三维卷积和反向传播方法进行训练,得到视频语义特征。视频语义特征同样应用在视频理解的其他任务中,名称为一种基于视频序列深度学习的人物行为语义识别方法,公开号为CN107038419A的发明专利申请中公开了一种视频中人物动作识别方法,该方法对视频提取关键帧后,充分利用人体轮廓信息,以轮廓信息作为RBF神经网络的输入特征,得到代表人物行为的语义特征。名称为一种基于语义分解的短视频事件检测方法,公开号为CN111723649A的发明专利申请中公开了一种语义分解的视频事件检测方法,将视频的词标签信息与多模态信息结合得到语义分解项,经过自动编码器和图神经网络两个处理单元,获取视频事件的检测结果。
上述利用语义特征和视觉特征实现视频文本描述的方法中,语义特征仅表达全局语义信息,容易丢失视频某一片段中重要的局部语义信息,语义信息的错误会影响视频文本描述结果,不利于安防监控和短视频内容审查等应用。如何利用视觉特征得到全局与局部双重表达的语义特征,更好地应用于安防监控和短视频内容审查系统,成为一个热点问题。
发明内容
本发明提出一种视频描述中视觉特征分割语义检测方法及系统,其将视觉特征分割为多个代表局部信息的视觉分割特征,通过多层感知机提取局部语义信息,融合全局语义特征后,得到具备全局和局部的双重表达的语义信息,增强语义特征的表征能力;将得到的语义特征应用于视频描述任务,提升视频描述模型的精度,获得准确的视频文本描述结果,可以很好地应用于安防监控、短视频内容审查等领域。
为实现上述目的,本发明的技术方案为:视频描述中视觉特征分割语义检测方法,包括:
将视频进行卷积处理后得到原始视觉特征VF;
在分割语义检测支路中,将所述原始视觉特征VF均匀分割为p份,得到p个视觉分割特征;
采用p个多层感知机网络,对每个所述视觉分割特征进行处理获得局部语义特征;
在标准语义检测支路中,采用多层感知机网络对所述原始视觉特征VF进行处理获得全局语义特征;
将所述局部语义特征和所述全局语义特征相加融合,得到语义增强特征。
本发明还提供一种视频描述中视觉特征分割语义检测系统,包括:
分割语义检测支路,获取表示局部信息的局部语义特征;
标准语义检测支路,获取表示全局信息的全局语义特征;
融合模块,将所述局部语义特征、全局语义特征融合后得到语义增强特征;
长短时记忆网络,将所述语义增强特征作为输入,输出视频文本描述。
本发明由于采用以上技术方案,能够取得如下的技术效果:
(1)适用于通过视觉信息获取语义特征情况
本发明中以视觉特征为输入,在两个支路中分别提取局部语义特征和全局语义特征,将二者相加融合得到的语义特征,具备局部和全局双重语义表达,其对语义特征进行了增强,适用于通过视觉信息获取语义特征的情况。
(2)适用于视频描述任务
本发明中将局部语义特征和全局语义特征结合,得到表达能力较强的语义增强特征,可以将该特征作为视频编码输入,采用长短时记忆等网络进行解码,获取准确的视频文本描述结果。
(3)适用于图像描述任务
本发明可以有效提升视频描述模型性能,相对于视频序列,静态图像具有相对简单的目标、动作、属性等视觉因素,可以更好的应用于图像描述任务。
(4)适用于安防监控系统
本发明中将局部语义特征和全局语义特征结合,得到表达能力较强的语义增强特征,可以将该特征应用于视频描述模型,提升模型性能,输出相对准确的文本描述,其中的目标、行为、属性等文本信息可以作为安防监控系统的提示信息,提升安防系统的工作效率。
(5)适用于短视频内容审查系统
本发明可以获取表达能力较强的语义特征,增强视频描述模型的性能,视频文本描述中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息,有效降低短视频中违法、违规、不具正能量的因素,构造良好的网络环境。
附图说明
图1是视频描述中视觉特征分割语义检测方法及系统原理框架;
图2是分割语义检测支路示意图;
图3是标准语义检测支路示意图;
图4是实施实例1中安防监控室内场景情况示意图;
图5是实施实例2中安防监控室外场景情况示意图;
图6是实施实例3中短视频内容审查情况示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。下面的实施例可以使本专业的技术人员更全面地理解本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提出一种视频描述中视觉特征分割语义检测方法,如图1-3所示,具体实施步骤如下:
第1步:将视频进行卷积处理后得到的原始视觉特征向量VF作为输入,读取该特征向量,VF的具体形式为VF={v1,v2,...vQ}的特征向量,尺寸为1*Q。
第2步:在分割语义检测支路中,将第1步中原始视觉特征VF均匀分割为p份,得到p个视觉分割特征。如公式(1)和公式(2)所示,分割后得到视觉分割特征VF1,VF2,...,VFp。
q=Q/p (2)
其中,Fa是均匀分割函数,Q为视觉特征VF的维度,将其均匀分为p份,得到的视觉分割特征VFi的维度均为q,视觉分割特征的具体形式均为VFi={vi1,vi2,...viq}。
第3步:采用p个多层感知机网络,对第2步中视觉分割特征进行处理,对第i个视觉分割特征VFi采用多层感知机进行处理的如下,现以多层感知机的第一层处理为例,如公式(3)~(8)所示。
其中,ki1(i)是第一层处理中权值矩阵的i行,尺寸为1*q。此时VFi的尺寸为q*1,将权值矩阵与视觉分割特征全连接计算后,得到特征a10,尺寸为q1*1。
将得到的全连接计算结果添加偏置项做适当调整,如下。
其中,di1为第一层处理的偏置向量,尺寸为q1*1。
将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(5),反之,则激活函数如公式(6)所示。
其中,函数A为激活函数,采用激活函数对特征进行非线性处理可以提升特征的有效性,且令
最后对激活后的特征做随机删除部分神经元操作,如公式(7)所示。
其中,是对特征进行随机删除部分神经元处理函数,k为随机删除神经元的比例,该操作可以防止网络出现过拟合。
视觉分割特征VFi经过以上全连接计算、非线性激活和随机删除部分神经元操作处理,得到多层感知机第一层输出特征s1(VFi)。
再进行第2层、第3层、…、第n层上述处理,如公式(8)所示,即可获得表示局部语义信息的特征Si(VFi)。
将p个该特征相加融合后得到局部语义特征S(VF),式如公式(9)所示,S(VF)的特征尺寸为1*qn。
第4步:在标准语义检测支路中,采用多层感知机网络,对第1步中原始视觉特征进行处理,多层感知机的网络层数为n,现对网络第一层处理做详细分析。如公式(10)~(14)所示。
首先对输入特征做全连接计算,如下。
其中,k1是第一层处理的权值矩阵,尺寸为Q1*Q。此时VF的尺寸为Q*1,将权值矩阵的每一行向量与原始视觉特征VF进行乘法运算,输出特征a0。
将得到的全连接计算结果添加偏置项做适当调整,如下。
其中,d1为第一层处理的偏置向量,尺寸为Q1*1。
将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(12),反之,则激活函数如公式(13)所示。
其中,函数A为激活函数,采用激活函数对特征进行非线性处理可以提升特征的有效性,且令
将非线性激活后的特征进行随机删除部分神经元处理,如公式(14)所示。
其中,是对特征进行随机删除部分神经元处理函数,k为随机删除神经元的比例,该操作可以防止网络出现过拟合。
以上为第一层多层感知机的全连接计算、非线性激活和随机删除部分神经元处理过程,第2层、第3层、…、第n层上述处理,即可获得全局语义特征的特征T(VF),如下。
第5步:将第3步中局部语义特征S(VF)和第4步中全局语义特征T(VF)相加融合,得到语义增强特征Se,如公式(16)所示。
其中,qn=Qn,分别是局部语义特征和全局语义特征的特征维度。
该语义增强特征Se具备全局和局部双重语义表达,具备较强的表达能力,将其应用于视频描述任务中,提升模型性能,输出准确的文本描述结果。
本实施例还提供一种视频描述中视觉特征分割语义检测系统,如图1-3所示,包括:
分割语义检测支路,获取表示局部信息的局部语义特征;
具体的,所述分割语义检测支路,输入一维的原始视觉特征VF,输出一维的局部语义特征S(VF),具体为:
(1)输入的原始视觉特征VF,是视频经过卷积处理,并且即将输入到分割语义检测支路的特征向量。
(2)进一步的,对上述原始视觉特征进行分割,将视觉特征均匀分割为p份,得到视觉分割特征VF1、VF2、…、VFp。
(3)进一步的,提取表示局部语义信息的语义特征,将原始视觉特征被分割为p份,则分割语义检测支路又被分成了p条小语义检测支路,i表示第i条小支路。每一条小支路采用多层感知机网络提取语义特征,多层感知机的层数均为n。则得到p个代表局部语义信息的特征S1(VF1)、S2(VF2)、…、Sp(VFp)。
(4)输出特征向量,是将p个代表局部语义信息的特征进行相加融合,得到局部语义特征S(VF)。
分割语义检测支路,将原始视觉特征均匀分割成多份后,对每份进行语义特征提取,将这些代表局部语义信息的特征相加融合后,得到局部语义特征,该特征可以和标准语义检测支路得到的全局语义特征进行融合,提升语义特征的表达能力。
标准语义检测支路,获取表示全局信息的全局语义特征;
具体的,所述标准语义检测支路,输入一维的原始视觉特征VF,输出一维的全局语义特征T(VF),具体为:
(1)输入的原始视觉特征VF,是视频经过卷积处理,并且即将输入到标准语义检测支路的特征向量。
(2)输出的全局语义特征T(VF),是标准语义检测支路中采用多层感知机网络,对表示视频全局信息的原始视觉特征进行处理,得到的表示全局语义信息的特征。
标准语义检测支路利用视频全局信息提取全局语义特征,该特征可以和分割语义检测支路获取的局部语义信息融合,得到具备全局和局部双重表达的语义特征。
融合模块,将所述局部语义特征、全局语义特征融合后得到语义增强特征;
具体的,将分割语义检测支路得到的局部语义特征,与标准语义检测支路得到的全局语义特征相加融合,得到表达能力更强的语义增强特征Se。
对语义信息进行增强,有利于视频描述任务中获取准确的视频文本描述结果。
长短时记忆网络,将所述语义增强特征作为输入,输出视频文本描述,得到的语义特征可以提升视频描述准确度。
本实施例分割语义检测支路中,采用p个多层感知机,对p份视觉分割特征进行处理,多层感知机的层数均为n,举例说明n=3。标准语义检测支路中,多层感知机的层数为n,举例说明n=3。在分割语义检测支路中,分割份数设为p,举例说明p∈{8,16,32}。其特征尺寸约束条件可以为:
(1)输入的原始视觉特征尺寸是[1*4096]维度的特征向量。
(2)输出的语义增强特征尺寸是[1*256]维度的特征向量。
(3)标准语义检测支路中,多层感知机网络1到3层输出的特征尺寸为(2048,512,256)。
(4)分割语义检测支路中,当分割份数p=8时,每一个视觉分割特征尺寸为[1*512]维度,分别作为8个多层感知机的输入特征。8个多层感知机的结构相同,1到3层输出的特征尺寸为(512,512,256)。
(5)分割语义检测支路中,当分割份数p=16时,每一个视觉分割特征尺寸为[1*256]维度,分别作为16个多层感知机的输入特征。16个多层感知机的结构相同,1到3层输出的特征尺寸为(256,256,256)。
(6)分割语义检测支路中,当分割份数p=32时,每一个视觉分割特征尺寸为[1*128]维度,分别作为32个多层感知机的输入特征。32个多层感知机的结构相同,1到3层输出的特征尺寸为(128,256,256)。
实施例1:
安防监控室内场景情况
将本实例应用于安防监控的室内场景,获取表达能力较强的视频语义特征,从而得到文本描述。该文本信息可以有效防止室内危险事故的发生,并且可以提高排查监控视频的效率,安防监控室内场景情况如图4所示。
实施例2:
安防监控室外场景情况
将本实例应用于安防监控的室外场景,获取表达能力较强的视频语义特征,从而得到文本描述。该文本信息可以有效防止室外危险事故的发生,并且可以提高排查监控视频的效率,安防监控室外场景情况如图5所示。
实施例3:
短视频内容审查情况
将本实例应用于短视频内容审查系统中,获取表达能力较强的视频语义特征,从而得到文本描述。该文本信息可以有效防止短视频中违法、违规等负能量的内容,有利于构造良好的网络环境,短视频内容审查情况如图6所示。
本发明的实施例有较佳的实施性,并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的,它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现,且这应被发明实施例所属技术领域的技术人员所理解。
Claims (4)
1.一种视频描述中视觉特征分割语义检测方法,其特征在于,包括:
将视频进行卷积处理后得到原始视觉特征VF;
所述原始视觉特征向量VF的具体形式为VF={v1,v2,...vQ},尺寸为1*Q;将其分割后得到视觉分割特征VF1,VF2,...,VFp,如公式(1)和公式(2)所示:
q=Q/p (2)
其中,Fa是均匀分割函数,Q为视觉特征VF的维度,将其均匀分为p份,得到的视觉分割特征VFi的维度均为q,所述视觉分割特征的具体形式均为VFi={vi1,vi2,...viq};
在分割语义检测支路中,将所述原始视觉特征VF均匀分割为p份,得到p个视觉分割特征;
采用p个多层感知机网络,对每个所述视觉分割特征进行处理获得局部语义特征,具体的:对第i个视觉分割特征VFi进行处理的数学表达如下:
其中,ki1(i)是第一层处理中权值矩阵的i行,尺寸为1*q;此时视觉分割特征VFi的尺寸为q*1,将所述权值矩阵与所述视觉分割特征全连接计算后,得到特征a10,尺寸为q1*1;
将得到的全连接计算结果添加偏置项,如下:
其中,di1为第一层处理的偏置向量,尺寸为q1*1;
将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(5),反之,则激活函数如公式(6)所示:
其中,函数A为激活函数,采用激活函数对特征进行非线性处理,且令
对激活后的特征做随机删除部分神经元操作,如下:
其中,是对特征进行随机删除部分神经元处理函数,k为随机删除神经元的比例;s1(VFi)为多层感知机第一层输出特征;
将多层感知机的第2层、第3层、…、第n层进行上述处理后,即可获得表示局部语义信息的特征Si(VFi),如下:
将p个该特征Si(VFi)相加融合后得到局部语义特征S(VF),如公式(9)所示,S(VF)的特征尺寸为1*qn;
在标准语义检测支路中,采用多层感知机网络对所述原始视觉特征VF进行处理获得全局语义特征,具体的:
多层感知机的网络层数为n,首先对输入的原始视觉特征做全连接计算,如下:
其中,k1是第一层处理的权值矩阵,尺寸为Q1*Q;此时原始视觉特征VF的尺寸为Q*1,将权值矩阵的每一行向量与原始视觉特征VF进行乘法运算,输出特征a0;
将得到的全连接计算结果添加偏置项,如下:
其中,d1为第一层处理的偏置向量,尺寸为Q1*1;
将得到的特征向量再做非线性激活处理,当待激活处理的特征值小于或等于0时,激活函数如公式(12),反之,则激活函数如公式(13)所示:
其中,函数A为激活函数,采用激活函数对特征进行非线性处理,且令
将非线性激活后的特征进行随机删除部分神经元处理,如下:
其中,是对特征进行随机删除部分神经元处理函数,k为随机删除神经元的比例;
将多层感知机的第2层、第3层、…、第n层进行上述处理后,即可获得全局语义特征T(VF),如下:
将所述局部语义特征和所述全局语义特征相加融合,得到语义增强特征,如下:
其中,qn=Qn,分别是局部语义特征和全局语义特征的特征维度。
2.一种视频描述中视觉特征分割语义检测系统,用于实现权利要求1所述的方法,其特征在于,包括:
分割语义检测支路,获取表示局部信息的局部语义特征;
标准语义检测支路,获取表示全局信息的全局语义特征;
融合模块,将所述局部语义特征、全局语义特征融合后得到语义增强特征;
长短时记忆网络,将所述语义增强特征作为输入,输出视频文本描述。
3.根据权利要求2所述一种视频描述中视觉特征分割语义检测系统,其特征在于,所述分割语义检测支路,输入一维的原始视觉特征VF,输出一维的局部语义特征S(VF),具体为:
视频经过卷积处理后得到原始视觉特征VF;
对所述原始视觉特征分割为p份,得到视觉分割特征VF1、VF2、…、VFp;
通过多层感知机网络提取语义特征,得到p个代表局部语义信息的特征S1(VF1)、S2(VF2)、…、Sp(VFp);
将p个代表局部语义信息的特征进行相加融合,得到局部语义特征S(VF)。
4.根据权利要求2所述一种视频描述中视觉特征分割语义检测系统,其特征在于,所述标准语义检测支路,输入一维的原始视觉特征VF,输出一维的全局语义特征T(VF),具体为:
视频经过卷积处理后得到原始视觉特征VF;
采用多层感知机网络,对表示视频全局信息的原始视觉特征VF进行处理,得到表示全局语义信息的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580008.XA CN113269093B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征分割语义检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580008.XA CN113269093B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征分割语义检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269093A CN113269093A (zh) | 2021-08-17 |
CN113269093B true CN113269093B (zh) | 2023-08-22 |
Family
ID=77233114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110580008.XA Active CN113269093B (zh) | 2021-05-26 | 2021-05-26 | 视频描述中视觉特征分割语义检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269093B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254158B (zh) * | 2022-02-25 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN114898280A (zh) * | 2022-06-15 | 2022-08-12 | 大连民族大学 | 少数民族舞蹈视频描述中视觉互参考语义检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180430A (zh) * | 2017-05-16 | 2017-09-19 | 华中科技大学 | 一种适用于语义分割的深度学习网络构建方法及系统 |
CN110956651A (zh) * | 2019-12-16 | 2020-04-03 | 哈尔滨工业大学 | 一种基于视觉和振动触觉融合的地形语义感知方法 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111985612A (zh) * | 2020-07-21 | 2020-11-24 | 西安理工大学 | 一种提高视频文本描述准确性的编码器网络模型设计方法 |
-
2021
- 2021-05-26 CN CN202110580008.XA patent/CN113269093B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180430A (zh) * | 2017-05-16 | 2017-09-19 | 华中科技大学 | 一种适用于语义分割的深度学习网络构建方法及系统 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN110956651A (zh) * | 2019-12-16 | 2020-04-03 | 哈尔滨工业大学 | 一种基于视觉和振动触觉融合的地形语义感知方法 |
CN111985612A (zh) * | 2020-07-21 | 2020-11-24 | 西安理工大学 | 一种提高视频文本描述准确性的编码器网络模型设计方法 |
Non-Patent Citations (1)
Title |
---|
赵小虎 ; 尹良飞 ; 赵成龙 ; .基于全局-局部特征和自适应注意力机制的图像语义描述算法.浙江大学学报(工学版).2020,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113269093A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bayar et al. | Design principles of convolutional neural networks for multimedia forensics | |
CN113269093B (zh) | 视频描述中视觉特征分割语义检测方法及系统 | |
CN108960261B (zh) | 一种基于注意力机制的显著物体检测方法 | |
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及系统 | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
CN113468996B (zh) | 一种基于边缘细化的伪装物体检测方法 | |
Kim et al. | Neuron merging: Compensating for pruned neurons | |
CN112668522A (zh) | 一种人体关键点与人体掩码联合检测网络及方法 | |
EP3591561A1 (en) | An anonymized data processing method and computer programs thereof | |
CN111274357A (zh) | 新闻舆情识别方法、设备及存储介质 | |
Villan et al. | Fake image detection using machine learning | |
CN112163493A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN112148997A (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
Shah et al. | On the robustness of human pose estimation | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN110705276A (zh) | 基于神经网络监控网络舆情的方法、装置及存储介质 | |
CN116110005A (zh) | 一种人群行为属性的计数方法、系统及产品 | |
Ghali et al. | CT-Fire: a CNN-Transformer for wildfire classification on ground and aerial images | |
CN113269253B (zh) | 视频描述中视觉特征融合语义检测方法及系统 | |
Gao et al. | Detecting adversarial examples by additional evidence from noise domain | |
CN113051617A (zh) | 一种基于改进生成对抗网络的隐私保护方法 | |
Yanqin et al. | Crowd density estimation based on conditional random field and convolutional neural networks | |
CN114898280A (zh) | 少数民族舞蹈视频描述中视觉互参考语义检测方法 | |
CN115905600B (zh) | 基于大数据平台的网络安全分析系统及方法 | |
Yuan et al. | A Novel Dense Generative Net Based on Satellite Remote Sensing Images for Vehicle Classification Under Foggy Weather Conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |