CN114898280A - 少数民族舞蹈视频描述中视觉互参考语义检测方法 - Google Patents

少数民族舞蹈视频描述中视觉互参考语义检测方法 Download PDF

Info

Publication number
CN114898280A
CN114898280A CN202210675177.6A CN202210675177A CN114898280A CN 114898280 A CN114898280 A CN 114898280A CN 202210675177 A CN202210675177 A CN 202210675177A CN 114898280 A CN114898280 A CN 114898280A
Authority
CN
China
Prior art keywords
semantic
features
feature
visual
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210675177.6A
Other languages
English (en)
Inventor
杨大伟
高航
毛琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202210675177.6A priority Critical patent/CN114898280A/zh
Publication of CN114898280A publication Critical patent/CN114898280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其将输入视觉特征经过视觉互参考语义检测结构进行处理,输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入,分别经3D语义检测支路和2D语义检测支路提取语义特征,在语义提取过程中将3D视觉特征引入2D语义检测支路,将2D视觉特征引入3D语义检测支路,实现3D和2D信息的交互作用,同时采用多阶段迭代操作进一步提升语义特征表达能力,将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码,可以得到较准确的视频文本描述。

Description

少数民族舞蹈视频描述中视觉互参考语义检测方法
技术领域
本发明涉及深度学习视频理解技术领域,具体涉及少数民族舞蹈视频描述中视觉互参考语义检测方法。
背景技术
近年来,我国在经济、技术等领域全面发展,少数民族地区的生活水平极大改善,少数民族文化宣传也成为重点工作之一,利用深度学习技术对少数民族舞蹈视频进行自动理解,有利于少数民族文化传播,同时伴随短视频平台的大量涌现,监控和自动审查短视频的内容也成为研究的热点问题。当前对于少数民族舞蹈视频的自动描述技术并不常见,对视频的自动审查也主要依靠人工手段,现有算法并不能实现对视频内容的充分认识和理解。
当前视频描述算法中越来越多地涉及到视频的语义特征,将语义特征作为编码特征,利用长短时记忆等网络对语义特征进行解析进而生成视频的文本描述结果。专利《一种提高视频文本描述准确性的编码器网络模型设计方法》(公开号: CN111985612A)公开了一种视频文本描述的编解码方法,利用视频特征获取语义特征,并且采用S-LSTM网络解码得到视频的文本描述,在编码阶段通过增大单词之间的差异得到更准确的语义特征。专利《基于目标空间语义对齐的视频描述方法》(公开号:CN114154016A)公开了一种视频描述方法,其利用时序高斯空洞卷积获取视频长期时序关系,通过语义重构网络得到句子级概率分布差异,增强视频内容和生成语句的内在关联,输出更准确的文本句子。
语义特征在其它视频理解任务中也应用广泛,专利《一种基于视频序列深度学习的人物行为语义识别方法》(公开号:CN107038419A)公开了一种视频中人物动作识别方法,该方法对视频提取关键帧后,充分利用人体轮廓信息,以轮廓信息作为RBF神经网络的输入特征,得到代表人物行为的语义特征。专利《双通道语义定位多粒度注意互增强的视频问答方法与系统》(公开号: CN114020891A)提出一种视频问答方法,采用多模块设计将不同粒度的特征信息定义为视觉和文本两个通道,并分别设计辅助定位机制,利用增强共享表征得到与问题最相关的特征信息。
上述利用语义特征获取视频文本描述的方法中,语义特征是一种多分类标签形式的特征表示,语义特征不准确会直接影响视频描述效果,不利于少数民族舞蹈视频的描述;不利于安防监控和短视频内容审查的实际应用。因此如何提升语义特征的表达能力,进而生成准确的文本描述成为一个热点问题。
发明内容
本发明的目的在于,提供一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其通过3D和2D信息的互参考增强语义有效性,并采用多阶段迭代操作提升特征表达能力。
为实现上述目的,本申请提出一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其将输入视觉特征经过视觉互参考语义检测结构进行处理,输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和 2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入,分别经 3D语义检测支路和2D语义检测支路提取语义特征,在语义提取过程中将3D视觉特征引入2D语义检测支路,将2D视觉特征引入3D语义检测支路,实现3D 和2D信息的交互作用,同时采用多阶段迭代操作进一步提升语义特征表达能力,将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码,可以得到较准确的视频文本描述。
所述视觉互参考语义检测结构包括3D语义检测支路和2D语义检测支路,其用于提取语义特征的基本单元均为语义检测单元。
所述视觉互参考语义检测结构输入3D视觉特征V3D和2D视觉特征V2D,输出语义特征S,三者均为一维特征向量,具体为:
(1)输入的3D视觉特征V3D,是视频经过3D卷积神经网络处理后输出,并且即将输入到3D语义检测支路的特征向量。
(2)输入的2D视觉特征V2D,是视频经过2D卷积神经网络处理后输出,并且即将输入到2D语义检测支路的特征向量。
(3)在3D语义检测支路中,对3D视觉特征采用语义检测单元A1处理,获取3D语义特征Sa1,将其与2D视觉特征V2D拼接融合,得到新3D语义特征 SA1
(4)在2D语义检测支路中,对2D视觉特征采用语义检测单元B1处理,获取2D语义特征Sb1,将其与3D视觉特征V3D拼接融合,得到新2D语义特征 SB1
(5)在3D语义检测支路中,将语义检测单元A1处理和特征拼接融合进行多阶段迭代操作,迭代m次后输出3D语义特征SAm。同理在2D语义检测支路中,将语义检测单元B1处理和特征拼接融合进行多阶段迭代操作,迭代m次后输出2D语义特征SBm
(6)在3D语义检测支路中,对3D语义特征SAm再次采用语义检测单元 End-A处理,得到该支路的输出—3D语义特征Send-A。在2D语义检测支路中,对2D语义特征SBm再次采用语义检测单元End-B处理,得到该支路的输出—2D 语义特征Send-B
(7)将3D语义特征Send-A和2D语义特征Send-B拼接融合,得到视觉互参考语义检测结构的最终输出—语义特征S。
具体的,视觉互参考语义检测结构有两个支路,在两个支路中均多次迭代使用语义检测单元生成语义特征,最终将两种语义特征拼接融合,提升语义特征的有效性。此外,在此过程中分别将3D视觉特征与2D语义特征拼接融合,2D视觉特征与3D语义特征拼接融合,实现3D和2D两支路信息的互参考,有效提升特征的表达能力。
具体的,所述语义检测单元是视觉互参考语义检测结构中,3D语义检测支路和2D语义检测支路的基本语义提取单元,除多层感知机的层数及相应层神经元个数可以不同外,两支路中语义检测单元结构均相同。以语义检测单元A1为例,输入3D视觉特征V3D,输出3D语义特征Sa1,具体为:
(1)输入的3D视觉特征V3D,是视频经过3D卷积神经网络处理后输出,并且即将输入到3D语义检测支路中语义检测单元A1的特征向量。
(2)将3D视觉特征V3D与相应权重进行全连接计算,得到中间特征M1
(3)将中间特征M1与相应偏置相加,输出中间特征N1
(4)对中间特征N1进行非线性激活操作,得到中间特征W1
(5)对中间特征W1进行随即删除神经元操作,得到中间特征X1
(6)上述全连接计算、偏置相加、非线性激活和随机删除神经元处理,属于语义检测单元的第1层,对以上操作进行多次迭代得到语义检测单元的第n 层特征Xn
(7)对特征Xn,进行Softmax多分类操作,得到3D语义特征Sa1
语义检测单元是3D语义检测支路和2D语义检测支路的基本单元,也是视觉互参考语义检测结构的最基本单元,该单元由多个特征提取层构成,可以生成表达多分类信息的语义特征。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:
(1)适用于少数民族舞蹈视频描述
本发明中可以通过提升语义特征的表达能力,提升视频描述性能,可以对少数民族舞蹈视频进行自动文本描述,有利于少数民族舞蹈文化的推广传播。
(2)适用于利用视觉特征获取语义特征的情况
本发明中以视频视觉特征作为输入,分为两个支路提取语义信息,通过3D 和2D信息的互参考增强语义有效性,并采用多阶段迭代操作提升特征表达能力;适用于通过视觉特征获取语义特征的情况。
(3)适用于视频描述任务
本发明中以视频经过卷积神经网络输出的视觉特征为输入,通过本发明提出的方法生成语义特征,将语义特征和视觉特征作为长短时记忆网络的输入,输出准确的视频文本描述。
(4)适用于图像描述任务
本发明可以提升视频描述性能,相对于视频序列,静态图像所包含的目标、动作、属性等视觉因素更为简单,所以也可以更好地应用于图像描述任务。
(5)适用于安防监控系统
本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征,将该特征输入至视频描述模型,可提升视频描述性能,自动生成准确的视频文本描述,其中目标、行为、属性等文本信息可以作为安防监控系统的提示信息,提升安防监控系统工作效率。
(6)适用于短视频内容审查系统
本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征,将该特征输入至视频描述模型,可提升视频描述性能,自动生成准确的视频文本描述,其中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息,高效降低短视频中违法、违规、不具正能量的因素,构造良好网络环境。
附图说明
图1是视觉互参考语义检测结构的示意图;
图2是语义检测单元示意图;
图3是3D语义检测支路示意图;
图4是2D语义检测支路示意图;
图5是实施例1中少数民族舞蹈视频描述场景情况示意图;
图6是实施例2中安防监控场景情况示意图;
图7是实施例3中短视频内容审查情况示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
本发明方法是在视觉互参考语义检测结构中实现的,如图1所示,该结构分为3D语义检测支路和2D语义检测支路,其均包括多层感知机形式的语义检测单元。两个支路分别对两种视觉特征初步提取语义信息,进一步与另一条支路的视觉信息融合,实现3D和2D信息的互参考,并通过多阶段迭代方式提升语义特征的有效性。互参考语义检测方法具体实施步骤如下:
第1步:将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到 3D视觉特征V3D和2D视觉特征V2D,尺寸分别为1*a和1*b,如V3D的具体形式为V3D={v1,v2,…,va};
第2步:所述3D视觉特征V3D在3D语义检测支路中进行特征提取、所述 2D视觉特征V2D在2D语义检测支路中进行特征提取,分别得到3D语义特征Sa1和2D语义特征Sb1
具体的,以3D视觉特征V3D在3D语义检测支路中进行特征提取为例进行说明:
首先利用语义检测单元A1提取语义特征,输出3D语义特征Sa1,其网络示意图如图2所示,具体操作如式(1)~(6);
Figure BDA0003696195640000051
如式(1)所示为语义检测单元A1的第1层全连接计算,其中U1,i是权重 U1的每一列向量,3D视觉特征V3D与U1,i做向量乘法计算,
Figure BDA0003696195640000052
表示特征的拼接融合,得到中间特征M1,M1的尺寸为1*q1
将得到的中间特征M1与偏置相加:
Figure BDA0003696195640000053
其中,D1是常数形式的偏置项,Bro1(·)是广播操作,通过拓展该常量数字与向量相加,得到中间特征N1,其尺寸为1*q1
所述中间特征N1进行非线性激活处理,当特征中的元素小于或等于1时,将其置为0,否则特征元素值不变;如式(3)所示:
Figure BDA0003696195640000061
其中,N1,i是N1的每一个特征元素,函数AReLU(·)是非线性激活函数,对特征非线性激活可以提升特征有效性,得到中间特征W1,其尺寸为1*q1
在以上操作基础上,进行随机删除神经元操作,如式(4)所示:
Figure BDA0003696195640000062
其中,函数
Figure BDA0003696195640000063
的作用是随机删除神经元操作,使其中的部分神经元暂时失去作用,在当前阶段不进行反向传播,防止过拟合。k1是保留参数,可以取 k1=0.9;得到第1层输出特征X1
对第1层输出特征X1提取过程进行多次循环操作,得到语义检测单元A1 的第1层、第2层、…、第n层输出特征:
Figure BDA0003696195640000064
对语义检测单元A1第n层特征进行Softmax多标签分类操作:
Figure BDA0003696195640000065
其中,Xn,i是特征Xn的每一个特征元素,函数exp(·)是指数函数表达,通过对该特征进行Softmax分类处理,得到多标签分类形式的语义特征向量Sa1,其向量尺寸是1*qn
以上操作由3D视觉特征V3D经过语义检测单元A1处理得到3D语义特征 Sa1,采用同样的处理方式,2D视觉特征V2D经过语义检测单元B1处理得到2D 语义特征Sb1
第3步:将所述3D语义特征Sa1和2D视觉特征V2D进行拼接融合获取新3D 语义特征:
Figure BDA0003696195640000066
其中,SA1为特征向量拼接得到的新3D语义特征,其尺寸为1*(qn+b)。
将所述2D语义特征Sb1和3D视觉特征V3D进行拼接融合获取新2D语义特征:
Figure BDA0003696195640000071
其中,SB1为特征向量拼接得到的新2D语义特征,其尺寸为1*(qn+a)。
上述操作将3D语义特征和2D视觉特征拼接融合,2D语义特征和3D视觉特征拼接融合,实现两条支路信息,即3D和2D信息的交互作用,提升特征的表达能力。
第4步:在3D语义检测支路中,对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下3D语义特征:
Figure BDA0003696195640000072
在2D语义检测支路中,对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下2D语义特征:
Figure BDA0003696195640000073
对上述语义提取和特征拼接融合操作进行多阶段迭代,可以逐步提升语义特征的表达能力。
第5步:在3D语义检测支路中,对3D语义特征SAm采用语义检测单元End-A 进行最后一次语义提取,获取3D语义特征Send-A;在2D语义检测支路中,对2D 语义特征SBm采用语义检测单元End-B进行最后一次语义提取,得到2D语义特征Send-B;其中语义检测单元End-A和语义检测单元End-B,与上述语义检测单元A1的特征提取方式相同。
第6步:将3D语义特征Send-A和2D语义特征Send-B进行拼接融合,输出尺寸为1*2qn的语义特征S:
Figure BDA0003696195640000074
对本发明中技术名词进行解释:(1)3D视觉特征:对少数民族舞蹈等视频进行3D卷积处理,并且即将输入到视觉互参考语义检测结构中的3D语义检测支路的特征向量。(2)2D视觉特征:对少数民族舞蹈等视频进行2D卷积处理,并且即将输入到视觉互参考语义检测结构中的2D语义检测支路的特征向量。(3) 语义特征:可以表示视频中所涉及词汇的多分类标签向量,本发明中语义特征也特指,视觉互参考语义检测结构的最终输出特征。(4)3D语义检测支路:视觉互参考语义检测结构中,以3D视觉特征为输入,在中间过程引入2D视觉特征,并且输出3D语义特征的通道。(5)2D语义检测支路:视觉互参考语义检测结构中,以2D视觉特征为输入,在中间过程引入3D视觉特征,并且输出2D语义特征的通道。(6)语义检测单元:单元的结构为多层感知机,用于在两个支路中提取3D语义特征或2D语义特征。(7)3D语义特征:3D语义检测支路中,每一个语义检测单元输出的特征。(8)2D语义特征:2D语义检测支路中,每一个语义检测单元输出的特征。
本实施例中迭代次数和单元层数约束条件可以为:(1)两个支路的语义检测单元均一一对应,特征拼接融合操作同样对应,即两个支路中语义检测单元的个数相同,均为m+1个。(2)为保证在输入视觉特征不同的情况下,均能得到较好的互参考语义检测结构,本发明采用4种迭代次数,即上述m∈{1,2,3,4}。 (3)为保证在输入特征不同的情况下,均能得到性能较好的语义检测单元,本发明采用5种特征提取层数,即层数n∈{2,3,4,5,6}。语义检测单元A1、语义检测单元A2、…、语义检测单元Am、语义检测单元End-A、语义检测单元B1、语义检测单元B2、…、语义检测单元Bm、语义检测单元End-B均可以选择5 种特征提取层数中的1种。
本实施例中特征尺寸约束条件可以为:(1)3D语义检测支路输入的3D视觉特征V3D尺寸是[1*a]的特征向量。该支路输出的3D语义特征Send-A尺寸是[1*qn] 的特征向量。其中a=1536,qn=300。(2)2D语义检测支路输入的2D视觉特征 V2D尺寸是[1*b]的特征向量。该支路输出的2D语义特征Send-B尺寸是[1*qn]的特征向量。其中b=2048,qn=300。(3)视觉互参考语义检测结构输出的语义特征 S是[1*2qn]维度的特征向量,是两支路输出特征的拼接融合操作所得,其中 2qn=600。(4)当n=2时(n为语义检测单元的特征处理层数),1到2层输出特征的尺寸分别为(1*512,1*300)。(5)当n=3时(n为语义检测单元的特征处理层数),1到3层输出特征的尺寸分别为(1*512,1*300,1*300)。(6) 当n=4时(n为语义检测单元的特征处理层数),1到4层输出特征的尺寸分别为(1*1024,1*512,1*300,1*300)。(7)当n=5时(n为语义检测单元的特征处理层数),1到5层输出特征的尺寸分别为(1*1024,1*512,1*512,1*300,1*300)。(8)当n=6时(n为语义检测单元的特征处理层数),1到6层输出特征的尺寸分别为(1*1024,1*1024,1*512,1*512,1*300,1*300)。
实施例1:
少数民族舞蹈视频描述场景情况
如图5所示,将本实例应用于少数民族舞蹈视频描述场景,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到舞蹈视频的文本描述,该文本信息可以让大众更熟悉少数民族舞蹈文化,有利于少数民族舞蹈文化的传播。
实施例2:
安防监控场景情况
如图6所示,将本实例应用于安防监控的场景,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到安防监控视频对应的文本描述,该文本信息可以有效防止危险和违法等情况的发生,并提高排查监控视频的效率。
实施例3:
短视频内容审查情况
如图7所示,将本实例应用于短视频内容审查,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到与短视频内容对应的文本描述,该文本信息可以有效防止短视频中违法、违规等负能量内容,有利于构造良好的网络环境。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (8)

1.少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,包括:
将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到3D视觉特征V3D和2D视觉特征V2D
所述3D视觉特征V3D在3D语义检测支路中进行特征提取、所述2D视觉特征V2D在2D语义检测支路中进行特征提取,分别得到3D语义特征Sa1和2D语义特征Sb1
将所述3D语义特征Sa1和2D视觉特征V2D进行拼接融合获取新3D语义特征;将所述2D语义特征Sb1和3D视觉特征V3D进行拼接融合获取新2D语义特征;
在3D语义检测支路中,对特征提取操作、拼接融合操作进行多阶段迭代,得到3D语义特征SAm;在2D语义检测支路中,对特征提取操作、拼接融合操作进行多阶段迭代,得到2D语义特征SBm
在3D语义检测支路中,对3D语义特征SAm采用语义检测单元End-A进行最后一次语义提取,获取3D语义特征Send-A;在2D语义检测支路中,对2D语义特征SBm采用语义检测单元End-B进行最后一次语义提取,得到2D语义特征Send-B
将所述3D语义特征Send-A和2D语义特征Send-B进行拼接融合,得到语义特征S。
2.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,所述3D视觉特征V3D在3D语义检测支路中进行特征提取、所述2D视觉特征V2D在2D语义检测支路中进行特征提取,具体为:
3D语义检测支路中利用语义检测单元A1提取语义特征,得到3D语义特征Sa1,具体操作如式(1)~(6)所示:
Figure FDA0003696195630000011
式(1)所示为语义检测单元A1的第1层全连接计算,其中U1,i是权重U1的每一列向量,3D视觉特征V3D与U1,i做向量乘法计算,⊕表示特征的拼接融合,得到中间特征M1
将所述中间特征M1与偏置相加,得到:
Figure FDA0003696195630000012
其中,D1是常数形式的偏置项,Bro1(·)是广播操作,通过拓展该常量数字与向量相加,得到中间特征N1
将所述中间特征N1进行非线性激活处理,当特征中的元素小于或等于1时,将其置为0,否则特征元素值不变;如式(3)所示:
Figure FDA0003696195630000021
其中,N1,i是N1的每一个特征元素,函数AReLU(·)是非线性激活函数,得到中间特征W1
然后进行随机删除神经元操作,如式(4)所示:
Figure FDA0003696195630000022
其中,函数
Figure FDA0003696195630000023
的作用是随机删除神经元操作,使其中的部分神经元暂时失去作用,在当前阶段不进行反向传播,k1是保留参数;得到第1层输出特征X1
对第一层输出特征X1提取过程进行多次循环操作,得到语义检测单元A1的第1层、第2层、…、第n层输出特征:
Figure FDA0003696195630000024
对语义检测单元A1第n层特征进行Softmax多标签分类操作:
Figure FDA0003696195630000025
其中,Xn,i是特征Xn的每一个特征元素,函数exp(·)是指数函数表达,通过对该特征进行Softmax分类处理,得到多标签分类形式的语义特征向量Sa1
采用上述的处理方式,2D语义检测支路中2D视觉特征V2D经过语义检测单元B1处理得到2D语义特征Sb1
3.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,将所述3D语义特征Sa1和2D视觉特征V2D进行拼接融合,具体为:
Figure FDA0003696195630000026
其中,SA1为特征向量拼接得到的新3D语义特征;
将所述2D语义特征Sb1和3D视觉特征V3D进行拼接融合,具体为:
Figure FDA0003696195630000031
其中,SB1为特征向量拼接得到的新2D语义特征。
4.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,在3D语义检测支路中,对特征提取操作、拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下3D语义特征:
Figure FDA0003696195630000032
在2D语义检测支路中,对特征提取操作、拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下2D语义特征:
Figure FDA0003696195630000033
5.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,将所述3D语义特征Send-A和2D语义特征Send-B进行拼接融合,得到语义特征S,具体为:
Figure FDA0003696195630000034
6.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,3D语义检测支路中语义检测单元A1的数量与2D语义检测支路中语义检测单元B1的数量相同。
7.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,所述3D语义检测支路输入的3D视觉特征V3D尺寸是[1*a]的特征向量,该支路输出的3D语义特征Send-A尺寸是[1*qn]的特征向量;2D语义检测支路输入的2D视觉特征V2D尺寸是[1*b]的特征向量,该支路输出的2D语义特征Send-B尺寸是[1*qn]的特征向量。
8.根据权利要求7所述少数民族舞蹈视频描述中视觉互参考语义检测方法,其特征在于,所述语义特征S是[1*2qn]维度的特征向量,是3D语义检测支路与2D语义检测支路输出的特征拼接融合所得。
CN202210675177.6A 2022-06-15 2022-06-15 少数民族舞蹈视频描述中视觉互参考语义检测方法 Pending CN114898280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210675177.6A CN114898280A (zh) 2022-06-15 2022-06-15 少数民族舞蹈视频描述中视觉互参考语义检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210675177.6A CN114898280A (zh) 2022-06-15 2022-06-15 少数民族舞蹈视频描述中视觉互参考语义检测方法

Publications (1)

Publication Number Publication Date
CN114898280A true CN114898280A (zh) 2022-08-12

Family

ID=82728315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210675177.6A Pending CN114898280A (zh) 2022-06-15 2022-06-15 少数民族舞蹈视频描述中视觉互参考语义检测方法

Country Status (1)

Country Link
CN (1) CN114898280A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269093A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269093A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高翔等: "基于视频场景深度学习的人物语义识别模型", 《计算机技术与发展》, no. 06, 7 February 2018 (2018-02-07), pages 54 *

Similar Documents

Publication Publication Date Title
Zhang et al. Comparison of backbones for semantic segmentation network
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113468996B (zh) 一种基于边缘细化的伪装物体检测方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
EP4336378A1 (en) Data processing method and related device
CN114926835A (zh) 文本生成、模型训练方法和装置
CN113221852B (zh) 一种目标识别方法及装置
Cao et al. Generative adversarial networks model for visible watermark removal
CN112712005B (zh) 识别模型的训练方法、目标识别方法及终端设备
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN113269093B (zh) 视频描述中视觉特征分割语义检测方法及系统
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN111241849A (zh) 一种文本语义分析方法及系统
CN115512399A (zh) 一种基于局部特征和轻量级网络人脸融合攻击检测的方法
CN113904844B (zh) 基于跨模态教师-学生网络的智能合约漏洞检测方法
Li Image semantic segmentation method based on GAN network and ENet model
Stoppa et al. AutoSourceID-Light-Fast optical source localization via U-Net and Laplacian of Gaussian
CN113726730A (zh) 基于深度学习算法的dga域名检测方法及系统
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN110490876B (zh) 一种基于轻量级神经网络的图像分割方法
CN116796287A (zh) 图文理解模型的预训练方法、装置、设备及存储介质
CN114898280A (zh) 少数民族舞蹈视频描述中视觉互参考语义检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination