CN115222768A - 视频中跟踪对象的定位方法、装置、电子设备及存储介质 - Google Patents
视频中跟踪对象的定位方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115222768A CN115222768A CN202210673113.2A CN202210673113A CN115222768A CN 115222768 A CN115222768 A CN 115222768A CN 202210673113 A CN202210673113 A CN 202210673113A CN 115222768 A CN115222768 A CN 115222768A
- Authority
- CN
- China
- Prior art keywords
- image
- current
- language
- characteristic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000004927 fusion Effects 0.000 claims abstract description 98
- 230000008569 process Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 52
- 230000000007 visual effect Effects 0.000 claims description 35
- 230000002776 aggregation Effects 0.000 claims description 23
- 238000004220 aggregation Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质,方法包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种视频中跟踪对象的定位方法、装置、电子设备及存储介质。
背景技术
随着科学技术的发展,图像识别技术变得越来越成熟。电子设备对图像中的跟踪对象进行定位时,通常利用指代表达理解,即根据自然语言描述语句对静态的跟踪对象进行定位,然而,该方法无法定位复杂且动态的跟踪对象进,也即,无法对视频中的跟踪对象进行定位。
现有的对视频中的跟踪对象进行定位的方法可包括:电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型对跟踪对象进行定位,或,该电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型对跟踪对象进行定位。然而,由于上述两种模型具有相应的局限性,导致该电子设备无法对视频中的跟踪对象进行准确定位。
发明内容
本发明提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质,用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
本发明提供一种视频中跟踪对象的定位方法,包括:
在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;
根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;
根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
根据本发明提供的一种视频中跟踪对象的定位方法,该获取该当前帧图像对应的当前图像特征,包括:获取该待处理视频中关键帧图像对应的第一图像特征,该关键帧图像为该待处理视频中每一帧图像中的任一帧图像;获取该关键帧图像的相邻帧图像对应的第二图像特征;根据该第一图像特征及该第二图像特征,基于预设的帧密集特征聚合网络,得到该当前帧图像对应的当前图像特征。
根据本发明提供的一种视频中跟踪对象的定位方法,该根据该第一图像特征及该第二图像特征,基于预设的帧密集特征聚合网络,得到该当前帧图像对应的当前图像特征,包括:基于预设的帧密集特征聚合网络,根据该第一图像特征及该第二图像特征,得到归一化权重矩阵;根据该第一图像特征和该归一化权重矩阵,确定该当前帧图像对应的当前图像特征。
根据本发明提供的一种视频中跟踪对象的定位方法,该根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征,包括:根据该当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征;根据该当前语言特征及该视觉向量特征,基于该预设的共享图像主干网络,得到第一相似度矩阵;根据该当前语言特征及该视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵;根据该当前语言特征和该第一相似度矩阵,确定该当前帧图像对应的融合图像特征;根据该视觉特征向量和该第二相似度矩阵,确定该当前帧图像对应的融合语言特征。
根据本发明提供的一种视频中跟踪对象的定位方法,在该根据该当前语言特征及该视觉向量特征,基于该预设的共享图像主干网络,得到第一相似度矩阵之后,该方法还包括:获取该跟踪对象在该当前图像特征中所对应的候选位置;根据该候选位置,向该第一相似度矩阵添加第一约束函数。
根据本发明提供的一种视频中跟踪对象的定位方法,该根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果,包括:根据该融合语言特征,确定语言表达句子特征;根据该语音表达句子特征,确定第一语言条件向量和第二语音条件向量;根据该融合图像特征、该第一语言条件向量和该第二语音条件向量,确定该跟踪对象的定位结果。
根据本发明提供的一种视频中跟踪对象的定位方法,该方法还包括:获取该第一相似度矩阵对应的第一约束函数及该第二相似度矩阵对应的第二约束函数;根据该第一约束函数和该第二约束函数,确定该预设的共享主干网络对应的定位回归损失函数;根据该定位回归损失函数,确定该预设的共享主干网络对应的总损失函数。
本发明还提供一种定位装置,包括:
获取模块,用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;
确定模块,用于根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频中跟踪对象的定位方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。
本发明提供的视频中跟踪对象的定位方法、装置、电子设备及存储介质,该方法可以包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;然后,根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征;最后,根据该融合图像特征及该融合语言特征,准确确定该跟踪对象的定位结果,从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频中跟踪对象的定位方法的流程示意图之一;
图2是本发明提供的视频中跟踪对象的定位方法的流程示意图之二;
图3本发明提供的视频中跟踪对象的定位方法的流程示意图之三;
图4本发明提供的定位装置的结构示意图;
图5本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,在电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型对跟踪对象进行定位的情况下,由于跟踪框架的性能取决于电子设备选择的跟踪模板的质量,所以,该电子设备通常采用待处理视频中第一帧图像对应的跟踪目标区域对跟踪模板进行初始化。然而,在没有标注数据辅助电子设备选择跟踪模板时,如果该电子设备仅利用图像指代表达理解模型对第一帧图像中的跟踪对象进行定位,那么,会导致定位结果不准确,进而导致该电子设备选择的跟踪模板质量较差。也就是说,电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型,无法对跟踪对象进行准确定位。
在电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型对跟踪对象进行定位的情况下,该电子设备仅采用了视频关键帧图像的相邻一帧图像进行图像特征协同学习。虽然电子设备对视频帧间的图像信息建立了联系,但由于相邻的两个视频帧图像的时序较近,两个视频帧图像分别对应的图像特征信息具有较强的相似性,导致该电子设备无法充分建立视频帧间的图像特征关系,从而无法准确获取动态的跟踪对象在视频帧中运动、外观等信息的变化。也即,电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型,无法对跟踪对象进行准确定位。
需要说明的是,本发明实施例所涉及的电子设备指的是,可以包括但不限于以下至少一项:电脑终端、移动终端及可穿戴设备等。
本发明实施例的执行主体可以是定位装置,也可以是电子设备,下面以电子设备为例对本发明实施例进行进一步地说明。
如1所示,明提供的视频中跟踪对象的定位方法的流程示意图,可以包括:
101、在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取当前帧图像对应的当前图像特征及当前语言特征。
其中,待处理视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。也即,该待处理视频可包括多帧图像。
当前帧图像指的是待处理视频中当前时刻对应的帧图像。
跟踪对象指的是电子设备需要定位的动态的所指物,该所指物在待处理视频中存在运动和/或外观等变化信息。
当前图像特征指的是跟踪对象在当前帧图像中的像素特征。
当前语言特征指的是跟踪对象在当前帧图像中的语言表达特征。
在一些实施例中,电子设备可以先在待处理视频的多帧图像中获取关键帧图像及该关键帧图像对应的第一图像特征,该关键帧图像为该多帧图像中的任一帧图像;然后,该电子设备再获取该关键帧图像的相邻帧图像及该相邻帧图像对应的第二图像特征;接着,该电子设备就可以根据该第一图像特征及该第二图像特征,预设的帧密集特征聚合网络,得到当前帧图像对应的当前图像特征。
其中,预设的帧密集特征聚合网络用于根据第一图像特征及第二图像特征,自适应地生成这两个图像特征对应位置点的加权值;再基于该加权值,建立关键帧图像与相邻帧图像的图像特征联系;然后,对关键帧图像对应的邻近时序内的视频帧图像进行帧密集加权聚合,得到较为准确的当前帧图像对应的当前图像特征。
在一些实施例中,预设的帧密集特征聚合网络可有效避免现有技术的一阶段物体检测的视频-自然语言指代表达理解模型中前后帧图像所指物定位不准确的问题。
在一些实施例中,电子设备基于预设的共享语言主干网络,得到当前帧图像对应的当前语言特征。
其中,预设的共享语言主干网络用于提取当前帧图像中的语言表达特征,该语音表达特征可包括描述语句特征。
102、根据当前图像特征及当前语言特征,基于预设的共享主干网络,得到当前帧图像对应的融合图像特征及融合语言特征。
其中,预设的共享主干网络可包括:预设的共享图像主干网络及预设的共享语言主干网络。
预设的共享图像主干网络用于确定当前帧图像对应的融合图像特征;预设的共享语言主干网络还用于提取该当前帧图像对应的融合语言特征。
在一些实施例中,预设的共享主干网络是一种基于多阶段图像-自然语言交叉生成融合的视频指代表达理解网络,该预设的共享主干网络采用了一阶段的物体检测框架,可有效避免现有技术的基于目标跟踪框架的视频-自然语言指代表达理解模型中对于跟踪模板进行选择的问题。
电子设备在获取当前图像特征及当前语言特征之后,由于该当前图像特征及当前语言特征无法准确对跟踪对象进行定位,所以,该电子设备就需要对该当前图像特征及该当前语言特征,按照不同的特征方法进行融合,得到相应的融合图像特征及融合语言特征,该融合图像特征及该融合语言特征是较为准确的,以便电子设备后续准确定位跟踪对象。
在一些实施例中,电子设备基于预设的共享主干网络中的语言-图像生成分支,根据当前语言特征,得到当前帧图像对应的融合图像特征;该电子设备基于预设的共享主干网络中的图像-语言生成分支,根据当前图像特征,得到当前帧图像对应的融合语言特征。其中,该融合图像特征的生成时序与该融合语言特征的生成时序不限。
电子设备可以以跨模态生成的方式,实现对当前帧图像的图像信息进行补充和完善,同时,实现对该当前帧图像的语言信息进行补充和完善,从而得到较为准确的融合图像特征及融合语言特征。
103、根据融合图像特征及融合语言特征,确定跟踪对象的定位结果。
电子设备基于较为准确的融合图像特征及融合语言特征,对跟踪对象进行准确地指代表达理解,从而准确得到该跟踪对象的定位结果。
其中,该指代表达理解指的是根据自然语言描述语句,对待处理视频所有帧图像中的跟踪对象进行定位,利用视频帧间信息解决该跟踪对象动态变化的问题。
可选的,定位结果可包括定位框预测结果。
在一些实施例中,电子设备可以先根据融合语言特征,在不同的两个语言条件下,得到相应的两个语言条件向量;然后,该电子设备再根据融合图像特征及这两个语言条件向量,准确确定跟踪对象的定位框预测结果。
可选的,步骤103之后,该方法还可以包括:电子设备输出定位结果,以确保用户可直观得到该定位结果。
在本发明实施例中,在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;然后,根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征;最后,根据该融合图像特征及该融合语言特征,准确确定该跟踪对象的定位结果,从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
如图2所示,是本发明提供的视频中跟踪对象的定位方法的流程示意图,可以包括:
201、获取待处理视频中关键帧图像对应的第一图像特征。
其中,关键帧图像为待处理视频中每一帧图像中的任一帧图像。
关键帧图像指的是待处理视频中关键帧It对应的图像。
可选的,该关键帧图像可以为当前帧图像。
202、获取关键帧图像的相邻帧图像对应的第二图像特征。
其中,相邻帧图像指的是关键帧It在邻近时序(t-τ,t+τ)内的相邻帧[It-τ,…,It+τ]所对应的图像。
可选的,临近时序可以是电子设备出厂前设置的,也可以用户自定义的,此处不作具体限定。
可选的,相邻帧图像可以为当前帧在邻近时序内的相邻帧所对应的图像。
在一些实施例中,电子设备基于预设的共享图像主干网络,可以从关键帧图像和相邻帧图像中,提取具有预设数量个尺寸的图像特征。
可选的,该预设数量可以是电子设备出厂前设置的,也可以是用户根据大量实验数据自定义的,此处不作具体限定。
示例性的,假设该预设数量为3,那么,该电子设备从关键帧图像和相邻帧图像中提取具有3个尺度的图像特征,分别为待处理视频的图像尺寸的1/32、1/16及1/8。
在一些实施例中,第一图像特征及第二图像特征为电子设备进行上采样,得到的最大尺度。
203、根据第一图像特征及第二图像特征,基于预设的帧密集特征聚合网络,得到当前帧图像对应的当前图像特征,并获取当前帧图像对应的当前语言特征。
在一些实施例中,电子设备将第一图像特征及第二图像特征以拼接方式进行融合,得到待处理视频各帧对应的图像特征,并将每个图像特征作为预设的帧密集特征聚合网络的输入参数。
可选的,电子设备根据第一图像特征及第二图像特征,基于预设的帧密集特征聚合网络,得到当前帧图像对应的当前图像特征,可以包括:电子设备基于预设的帧密集特征聚合网络,根据第一图像特征及第二图像特征,得到归一化权重矩阵;该电子设备根据第一图像特征和归一化权重矩阵,确定当前帧图像对应的当前图像特征。
可选的,电子设备基于预设的帧密集特征聚合网络,根据第一图像特征及第二图像特征,得到归一化权重矩阵,可以包括:电子设备基于预设的帧密集特征聚合网络中的权重公式,得到第一权重矩阵;该电子设备基于归一化公式,得到归一化权重矩阵。
其中,权重公式为:Wx→t=Ψ(Ω(3)([Fx;Ft]));
Wx→t表示第一权重矩阵;Fx表示第一图像特征;Ft表示第二图像特征;[;]表示特征向量拼接;Ω(3)(·)表示三个带线性整流(Rectified Linear Unit,ReLU)激活函数的卷积层;Ψ(·)表示不带激活函数的卷积层。
其中,归一化公式为∑x∈[t-τ,t+τ]wx→t=1,wx→t∈Wx→t;
wx→t为第一权重矩阵Wx→t中的任一矩阵。
电子设备基于预设的帧密集特征聚合网络,先将第一图像特征Fx及第二图像特征Ft进行拼接,再将拼接结果在三个带ReLU激活函数的卷积层及一个不带激活函数的卷积层进行相应处理,得到第一图像特征Fx及第二图像特征Ft间特征图空间上的第一权重矩阵Wx→t;然后,该电子设备将该第一权重矩阵Wx→t逐元素沿邻近时序(t-τ,t+τ)维度,利用柔性最大值传输(Softmax)函数进行归一化,得到归一化权重矩阵。
可选的,电子设备根据第一图像特征和归一化权重矩阵,确定当前帧图像对应的当前图像特征,可以包括:电子设备根据图像特征公式,得到当前帧图像对应的当前图像特征。
电子设备通过图像特征公式,即该电子设备通过以自适应生成加权矩阵的方式,在第一图像特征的空间位置上对第二图像特征进行加权聚合,可获得跟踪对象在邻近时序上每一帧图像中的运动和/或外观等变化信息,从而可辅助第一图像特征Fx在预设的帧密集特征聚合网络的特征学习。
204、根据当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征。
电子设备根据待处理视频,可以得到多个阶段的帧图像分别对应的当前图像特征;然后,该电子设备根据每个当前图像特征,基于预设的共享图像主干网络,得到每个当前图像特征分别对应的视觉向量特征。
可选的,电子设备根据当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征,可以包括:电子设备获取当前图像特征对应的位置坐标向量;该电子设备根据当前图像特征和位置坐标向量,基于预设的共享图像主干网络,得到视觉向量特征。
电子设备在获取当前图像特征之后,可以将该当前图像特征及位置坐标向量进行拼接;再将拼接结果在预设的共享图像主干网络中语言-图像生成分支的卷积层进行特征变换,得到该当前图像特征对应的视觉向量特征。
205、根据当前语言特征及视觉向量特征,基于预设的共享图像主干网络,得到第一相似度矩阵。
可选的,电子设备根据当前语言特征及视觉向量特征,基于预设的共享图像主干网络,得到第一相似度矩阵,可以包括:电子设备根据预设的共享图像主干网络中的第一相似度公式,得到第一相似度矩阵。
slv表示第一相似度矩阵,表示第k个阶段的当前帧图像对应的视觉向量特征;表示该第k个阶段的当前帧图像对应的当前语言特征;fv表示该视觉特征向量对应矩阵中的视觉特征元素;fl表示该当前语言特征对应矩阵中的语言特征元素;l表示该当前语言特征的长度。
在一些实施例中,第一相似度矩阵指的是语言-图像相似度矩阵。
电子设备可将视觉特征元素及语言特征元素进行逐元素计算,得到第一相似度矩阵;之后,该电子设备可以将该第一相似度矩阵沿着列向量维度以Softmax函数激活。在激活后的第一相似度矩阵中,列元素代表当前帧图像的元素位置上,每个元素与语言表达各个单词之间的相似度,且相似度之和为1。也就是说,电子设备得到当前帧图像中每个元素位置对应的元素特征,需要描述语句的每个单词提供多少特征信息。
可选的,步骤205之后,该方法还可以包括:电子设备获取跟踪对象在当前图像特征中所对应的候选位置;该电子设备根据候选位置,向第一相似度矩阵添加第一约束函数。
其中,第一约束函数为
N表示阶段数;yk(m)∈{0,1}表示定位真值模板矩阵的元素,其中,跟踪对象的定位真值所对应的候选位置处为1,非候选位置处为为0。
电子设备可以根据跟踪对象的定位真值在第k个阶段的当前帧图像中所对应的候选位置,在语言-图像生成分支中,对第一相似度矩阵添加第一约束函数,以提高图像特征与语言特征相互生成的能力。由于最佳候选位置可以是跟踪对象的定位真值框所对应的几何中心,所以,后续电子设备利用该第一约束函数可有效约束当前语言特征生成融合图像特征,以提高跟踪对象的定位准确度。
206、根据当前语言特征及视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵。
可选的,电子设备根据当前语言特征及视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵,可以包括:电子设备根据预设的共享语言主干网络中的第二相似度公式,得到第二相似度矩阵。
svl表示第二相似度矩阵。
在一些实施例中,第二相似度矩阵指的是图像-语言相似度矩阵。
第二相似度矩阵与第一相似度矩阵并不是转置矩阵的关系。第二相似度矩阵中的每一列,表示每个语言表达单词与当前图像特征中元素间的相似度关系,且该相似度之和为1,也就是说,电子设备得到当前帧图像中描述语句的每个词特征,该当前帧图像中每个元素需要贡献多少特征信息。
可选的,步骤206之后,该方法还可以包括:电子设备获取跟踪对象在当前语言特征中所对应的候选位置;该电子设备根据候选位置,向第二相似度矩阵添加第二约束函数。
其中,第二约束函数为
电子设备可以根据描述语句特征,在图像-语言生成分支中,对第二相似度矩阵svl添加第二约束函数,以提高图像特征与语言特征相互生成的能力,从而可有效约束后续电子设备根据当前图像特征生成融合语言特征,以提高跟踪对象的定位准确度。
207、根据当前语言特征和第一相似度矩阵,确定当前帧图像对应的融合图像特征。
可选的,电子设备根据视觉特征向量和第一相似度矩阵,确定当前帧图像对应的融合图像特征,可以包括:电子设备根据第一公式,得到当前帧图像对应的目标图像特征;该电子设备根据该目标图像特征,确定融合图像特征。
电子设备将语言-图像相似度矩阵与当前语言特征逐一建立联系,以跨模态生成的方式实现对当前帧图像的图像信息的进行补充。
在一些实施例中,电子设备在得到目标图像特征之后,先将该目标图像特征与视觉向量特征进行拼接;然后,该电子设备将拼接结果在一个卷积层进行特征变换;接着,该电子设备将特征变换后的结果通过残差连接后再与该视觉向量特征进行进行逐元素相加,得到融合图像特征这样一来,可有效保证该融合图像特征进行前向传递和梯度反向传播。
208、根据视觉特征向量和第二相似度矩阵,确定当前帧图像对应的融合语言特征。
可选的,电子设备根据视觉特征向量和第二相似度矩阵,确定当前帧图像对应的融合语言特征,可以包括:电子设备根据第二公式,得到当前帧图像对应的目标语言特征;该电子设备根据该目标语言特征,确定融合语言特征。
电子设备将图像-语言相似度矩阵与当前图像特征逐一建立联系,以跨模态生成的方式实现对当前帧图像的语言信息进行补充。
在一些实施例中,电子设备在得到目标语言特征之后,先将该目标语言特征与当前语言特征进行拼接;然后,该电子设备将拼接结果在ReLU激活函数的全连接层进行学习;接着,该电子设备将学习后的结果通过残差连接后再与该当前语言特征进行进行逐元素相加,得到k阶段的下一阶段对应的融合语言特征
209、根据融合语言特征,确定语言表达句子特征。
可选的,电子设备根据融合语言特征,确定语言表达句子特征,可以包括:电子设备根据聚合公式,得到语言表达句子特征。
210、根据语音表达句子特征,确定第一语言条件向量和第二语音条件向量。
可选的,电子设备根据语音表达句子特征,确定第一语言条件向量和第二语音条件向量,可以包括:电子设备根据第一语言公式,得到第一语言条件向量;该电子设备根据第二语言公式,得到第二语言条件向量。
其中,第一语言公式为γk=tanh(WγFw+bγ);
第二语言公式为βk=tanh(WβFw+bβ);
γk表示第一语言条件向量;βk表示第二语言条件向量;Wγ表示第一可学习参数矩阵;Wβ表示第二可学习参数矩阵;bγ表示第一可学习参数值;bβ表示第二可学习参数值。
在一些实施例中,γk指的是缩放尺度;βk指的是平移大小。
可选的,第一可学习参数据帧Wγ、第二可学习参数矩阵Wβ、第一可学习参数值bγ及第二可学习参数值bβ是电子设备预先训练学好的。
可选的,步骤210之后,该方法还可以包括:电子设备将第一语言条件向量和第二语言条件向量进行复制、拼接、尺寸调整后,得到新的第一语言条件向量和新的第二语言条件向量。
尺寸调整指的是电子设备将第一语言条件向量的尺寸和第二语言条件向量的尺寸,调整到与当前帧图像的尺寸相同的尺寸。
211、根据融合图像特征、第一语言条件向量和第二语音条件向量,确定跟踪对象的定位结果。
可选的,电子设备根据融合图像特征、第一语言条件向量和第二语音条件向量,确定跟踪对象的定位结果,可以包括:电子设备根据目标公式,得到跟踪对象对应的目标特征;该电子设备根据该目标特征,确定该跟踪对象的定位结果。
在本发明实施例中,在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,可以根据获取的关键帧图像对应的第一图像特征及相邻帧图像对应的第二图像特征,准确确定当前帧图像对应的当前图像特征,并获取该当前帧图像对应的当前语言特征;然后,根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征;最后,根据该融合图像特征及该融合语言特征,准确确定该跟踪对象的定位结果,从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
如图3所示,本发明提供的视频中跟踪对象的定位方法的流程示意图,可以包括:
301、获取待处理视频中关键帧图像对应的第一图像特征。
其中,关键帧图像为待处理视频中每一帧图像中的任一帧图像。
302、获取关键帧图像的相邻帧图像对应的第二图像特征。
303、根据第一图像特征及第二图像特征,基于预设的帧密集特征聚合网络,得到当前帧图像对应的当前图像特征,并获取当前帧图像对应的当前语言特征。
304、根据当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征。
305、根据当前语言特征及视觉向量特征,基于预设的共享图像主干网络,得到第一相似度矩阵。
306、根据当前语言特征及视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵。
307、根据视觉特征向量和第一相似度矩阵,确定当前帧图像对应的融合图像特征。
308、根据当前语言特征和第二相似度矩阵,确定当前帧图像对应的融合语言特征。
309、根据融合语言特征,确定语言表达句子特征。
310、根据语音表达句子特征,确定第一语言条件向量和第二语音条件向量。
311、根据融合图像特征、第一语言条件向量和第二语音条件向量,确定跟踪对象的定位结果。
需要说明的是,步骤301与311与图2所示的步骤201-211类似,此处不作具体赘述。
312、获取第一相似度矩阵对应的第一约束函数及第二相似度矩阵对应的第二约束函数。
需要说明的是,步骤312在图2所示的步骤205-206中已详细叙述,此处不作具体赘述。
313、根据第一约束函数和第二约束函数,确定预设的共享主干网络对应的定位回归损失函数。
其中,定位回归损失函数为
b∈{bx,by,bw,bh}表示定位框预测结果;p表示定位框预测结果b对应的置信度;b*表示定位框真值;p*表示定位框真值b*对应的置信度;Nb表示当前图像特征中每个网格的锚点(Anchor)的数量;Lbox(·)表示均方误差损失函数,对定位框进行回归;Lconf(·)表示交叉熵损失函数,对定位框对应的置信度进行回归。
314、根据定位回归损失函数,确定预设的共享主干网络对应的总损失函数。
其中,总损失函数为L=Ldet+λ(Llv+Lvl);
λ表示超参数,用于调节定位框回归损失与图像-语言相似度矩阵约束损失。
电子设备得到总损失函数,为了进一步提高当前帧图像中当前语言特征及当前图像特征之间的相互生成能力,也就是说,可进一步提高跨模态特征的生成能力。
在本发明实施例中,在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,可以根据获取的关键帧图像对应的第一图像特征及相邻帧图像对应的第二图像特征,准确确定当前帧图像对应的当前图像特征,并获取该当前帧图像对应的当前语言特征;然后,根据该当前图像特征及该当前语言特征,利用多个约束函数对基于预设的共享主干网络中的多个公式进行约束,可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征;最后,根据该融合图像特征及该融合语言特征,准确确定该跟踪对象的定位结果,从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
下面对本发明提供的定位装置进行描述,下文描述的定位装置与上文描述的视频中跟踪对象的定位方法可相互对应参照。
如图4所示,本发明提供的定位装置的结构示意图,可以包括:
获取模块401,用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;
确定模块402,用于根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
可选的,获取模块401,具体用于获取该待处理视频中关键帧图像对应的第一图像特征,该关键帧图像为该待处理视频中每一帧图像中的任一帧图像;获取该关键帧图像的相邻帧图像对应的第二图像特征;根据该第一图像特征及该第二图像特征,基于预设的帧密集特征聚合网络,得到该当前帧图像对应的当前图像特征。
可选的,确定模块402,具体用于基于预设的帧密集特征聚合网络,根据该第一图像特征及该第二图像特征,得到归一化权重矩阵;根据该第一图像特征和该归一化权重矩阵,确定该当前帧图像对应的当前图像特征。
可选的,确定模块402,具体用于根据该当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征;根据该当前语言特征及该视觉向量特征,基于该预设的共享图像主干网络,得到第一相似度矩阵;根据该当前语言特征及该视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵;根据该当前语言特征和该第一相似度矩阵,确定该当前帧图像对应的融合图像特征;根据该视觉特征向量和该第二相似度矩阵,确定该当前帧图像对应的融合语言特征。
可选的,获取模块401,还用于获取该跟踪对象在该当前图像特征中所对应的候选位置;
确定模块402,还用于根据该候选位置,向该第一相似度矩阵添加第一约束函数。
可选的,确定模块402,具体用于根据该融合语言特征,确定语言表达句子特征;根据该语音表达句子特征,确定第一语言条件向量和第二语音条件向量;根据该融合图像特征、该第一语言条件向量和该第二语音条件向量,确定该跟踪对象的定位结果。
可选的,获取模块401,具体用于获取该第一相似度矩阵对应的第一约束函数及该第二相似度矩阵对应的第二约束函数;
确定模块402,具体用于根据该第一约束函数和该第二约束函数,确定该预设的共享主干网络对应的定位回归损失函数;根据该定位回归损失函数,确定该预设的共享主干网络对应的总损失函数。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行视频中跟踪对象的定位方法,该方法包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视频中跟踪对象的定位方法,该方法包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视频中跟踪对象的定位方法,该方法包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频中跟踪对象的定位方法,其特征在于,包括:
在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取所述当前帧图像对应的当前图像特征及当前语言特征;
根据所述当前图像特征及所述当前语言特征,基于预设的共享主干网络,得到所述当前帧图像对应的融合图像特征及融合语言特征;
根据所述融合图像特征及所述融合语言特征,确定所述跟踪对象的定位结果。
2.根据权利要求1所述的定位方法,其特征在于,所述获取所述当前帧图像对应的当前图像特征,包括:
获取所述待处理视频中关键帧图像对应的第一图像特征,所述关键帧图像为所述待处理视频中每一帧图像中的任一帧图像;
获取所述关键帧图像的相邻帧图像对应的第二图像特征;
根据所述第一图像特征及所述第二图像特征,基于预设的帧密集特征聚合网络,得到所述当前帧图像对应的当前图像特征。
3.根据权利要求2所述的定位方法,其特征在于,所述根据所述第一图像特征及所述第二图像特征,基于预设的帧密集特征聚合网络,得到所述当前帧图像对应的当前图像特征,包括:
基于预设的帧密集特征聚合网络,根据所述第一图像特征及所述第二图像特征,得到归一化权重矩阵;
根据所述第一图像特征和所述归一化权重矩阵,确定所述当前帧图像对应的当前图像特征。
4.根据权利要求1-3中任一项所述的定位方法,其特征在于,所述根据所述当前图像特征及所述当前语言特征,基于预设的共享主干网络,得到所述当前帧图像对应的融合图像特征及融合语言特征,包括:
根据所述当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征;
根据所述当前语言特征及所述视觉向量特征,基于所述预设的共享图像主干网络,得到第一相似度矩阵;
根据所述当前语言特征及所述视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵;
根据所述当前语言特征和所述第一相似度矩阵,确定所述当前帧图像对应的融合图像特征;
根据所述视觉特征向量和所述第二相似度矩阵,确定所述当前帧图像对应的融合语言特征。
5.根据权利要求4所述的定位方法,其特征在于,在所述根据所述当前语言特征及所述视觉向量特征,基于所述预设的共享图像主干网络,得到第一相似度矩阵之后,所述方法还包括:
获取所述跟踪对象在所述当前图像特征中所对应的候选位置;
根据所述候选位置,向所述第一相似度矩阵添加第一约束函数。
6.根据权利要求1所述的定位方法,其特征在于,所述根据所述融合图像特征及所述融合语言特征,确定所述跟踪对象的定位结果,包括:
根据所述融合语言特征,确定语言表达句子特征;
根据所述语音表达句子特征,确定第一语言条件向量和第二语音条件向量;
根据所述融合图像特征、所述第一语言条件向量和所述第二语音条件向量,确定所述跟踪对象的定位结果。
7.根据权利要求5或6所述的定位方法,其特征在于,所述方法还包括:
获取所述第一相似度矩阵对应的第一约束函数及所述第二相似度矩阵对应的第二约束函数;
根据所述第一约束函数和所述第二约束函数,确定所述预设的共享主干网络对应的定位回归损失函数;
根据所述定位回归损失函数,确定所述预设的共享主干网络对应的总损失函数。
8.一种定位装置,其特征在于,包括:
获取模块,用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取所述当前帧图像对应的当前图像特征及当前语言特征;
确定模块,用于根据所述当前图像特征及所述当前语言特征,基于预设的共享主干网络,得到所述当前帧图像对应的融合图像特征及融合语言特征;根据所述融合图像特征及所述融合语言特征,确定所述跟踪对象的定位结果。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述视频中跟踪对象的定位方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频中跟踪对象的定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673113.2A CN115222768A (zh) | 2022-06-14 | 2022-06-14 | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673113.2A CN115222768A (zh) | 2022-06-14 | 2022-06-14 | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222768A true CN115222768A (zh) | 2022-10-21 |
Family
ID=83608209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210673113.2A Pending CN115222768A (zh) | 2022-06-14 | 2022-06-14 | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222768A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
-
2022
- 2022-06-14 CN CN202210673113.2A patent/CN115222768A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN116091551B (zh) * | 2023-03-14 | 2023-06-20 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723691B (zh) | 一种三维人脸识别方法、装置、电子设备及存储介质 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN114187624B (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN110096617B (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
CN113538235B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN115526259A (zh) | 一种多模态预训练模型的训练方法和装置 | |
CN112927209B (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN113326851B (zh) | 图像特征提取方法、装置、电子设备及存储介质 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN114897136A (zh) | 多尺度注意力机制方法及模块和图像处理方法及装置 | |
CN112183547A (zh) | 基于多模态数据的多任务学习方法及系统 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN113836303A (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN115222768A (zh) | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 | |
CN113379877B (zh) | 人脸视频生成方法、装置、电子设备及存储介质 | |
CN116980541B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
CN113569855A (zh) | 一种舌象分割方法、设备及存储介质 | |
CN113111684B (zh) | 神经网络模型的训练方法、装置和图像处理系统 | |
CN117315758A (zh) | 面部表情的检测方法、装置、电子设备及存储介质 | |
CN108460768B (zh) | 层次化时域切分的视频关注对象分割方法和装置 | |
CN113554550B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN114048284A (zh) | 指代表达定位与分割模型的构建方法和装置 | |
CN115457365A (zh) | 一种模型的解释方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |