CN116416649A - 一种基于多尺度分辨率对齐的视频行人重识别方法 - Google Patents
一种基于多尺度分辨率对齐的视频行人重识别方法 Download PDFInfo
- Publication number
- CN116416649A CN116416649A CN202310407317.6A CN202310407317A CN116416649A CN 116416649 A CN116416649 A CN 116416649A CN 202310407317 A CN202310407317 A CN 202310407317A CN 116416649 A CN116416649 A CN 116416649A
- Authority
- CN
- China
- Prior art keywords
- representing
- video
- scale
- network
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000003993 interaction Effects 0.000 claims description 27
- 239000004973 liquid crystal related substance Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度分辨率对齐的视频行人重识别方法,包括:构造多尺度的行人视频片段;将不同尺度的视频片段输入到有层次的多分支网络中提取特征;将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;构造交叉熵损失、三元组损失和相互信息损失来优化多分支网络;重复执行前述步骤直至模型收敛;训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。本发明充分利用不同空间尺度的行人视频片段中的有效信息,有效提升了识别准确率。
Description
技术领域
本发明属于模式识别和图像检索领域,更具体地涉及一种基于多尺度分辨率对齐的视频行人重识别方法。
背景技术
基于视频的行人重识别旨在从多个摄像机中检索出同一关键目标的视频片段。视频行人重识别技术在越来越多的监控相关应用中发挥着至关重要的作用。近年来,基于图像的行人重识别在方法和数据集方面都取得了较大进展。相关的研究大多将注意力放在从单一图像中学习可辨别特征。当关键目标被遮挡或出现较大的视觉外观变化时,基于图像的重识别性能会受到限制。相比之下,通过将多帧视频序列作为输入,基于视频的重识别可以利用更丰富的外观和时间信息。
受益于深度卷积神经网络的发展,视频重识别方法取得了令人振奋的进展。然而,大多数现有的基于视频的模型仅在单一空间尺度上处理关键目标的外表信息。这忽略了行人视频是在多种尺度下获取的事实。
现有的多尺度特征表示学习方法可以别分为两类:
(1)用多尺度卷积流学习特征。
该方法将所有输入图像调整为固定的分辨率,并将其送入到一个具有不同分辨率水平的过滤器的同一网络中。但这种设计忽略了其它不同尺度的潜在有用信息。
(2)从多尺度输入中学习特征。
该方法采用多分支网络从不同尺度的输入中学习特征。这类方法学习到的特征试图做到尺度不变,即输入对象的尺度变化被特征中的尺度变化所抵消。这样一来,实现跨尺度的信息交互并非易事,因为不同尺度分支在相同网络阶段中的特征空间分辨率是不同的。
发明内容
针对上述问题,本发明设计了一种有层次的多分支网络,此网络可以实现尺度间的特征分辨率匹配,以实现跨分支的信息交互,充分利用了不同空间尺度的行人视频片段中的有效信息,从而有效地提升了视频重识别的准确率。
为了达到上述目的,本发明提供如下技术方案:
一种基于多尺度分辨率对齐的视频行人重识别方法,包括以下步骤:
S1、构造多尺度的行人视频片段;
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征;
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;
S4、构造交叉熵损失、三元组损失和互信息损失来优化多分支网络;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
进一步的,所述的步骤S1具体过程如下:
S11、从每个视频序列中随机抽取4帧来形成一个原始的输入视频片段;
S12、将输入视频片段中的图像调整为固定大小;
进一步的,所述的步骤S2过程如下:
S21、构造多分支网络,网络包含三个前馈子网络分支其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4;
S22、在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图;多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图;
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
进一步的,所述的步骤S2中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小。
进一步的,所述的步骤S3过程如下:
S31、将三个尺度分支输出的特征图在时间维度上连接起来:
S32、利用全局平均池化层来生成最终的视频级特征向量:
其中,Foutput表示最终的视频级特征向量,fi,j,k表示Fall在(j,k,i)位置的向量,j,k,i分别表示三维坐标的X值,Y值和Z值。
进一步的,所述的步骤S4中构造损失函数来优化多分支网络,损失函数如下:
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明提出了一种基于视频的行人重识别框架,该框架从具有不同空间分辨率的输入视频片段中学习有辨别性和鲁棒性的视频特征表示,有效提高了视频行人重识别的准确率。
(2)本发明提出了一种有层次的多分支网络,该网络实现了尺度间的特征大小匹配,从而实现分支间的信息交互。
(3)本发明设计了空间信息交互模块和多尺度时间信息交互模块,这两个模块实现了多个特定尺度分支间的空间和时间的信息交互。
附图说明
图1为本发明方法的流程图;
图2是本发明的多分支网络的示意图;
图3是本发明的空间信息交互模块和多尺度时间信息交互模块的示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本实施例提供一种基于多尺度分辨率对齐的视频行人重识别方法,其流程如图1所示,该方法具体实现包括以下步骤:
S1、构造多尺度的行人视频片段,具体包括如下子步骤:
S11、从相机拍摄的每个视频序列中随机抽取4帧来形成一个原始的输入视频片段。
S12、将所有桢图像的分辨率调整为256像素×128像素。
S13、根据原始输入视频片段来构造多尺度的行人视频片段其中,Vs表示原始输入视频片段V的下采样版本,s表示尺度分支的索引号,V0中的图像分辨率为256像素×128像素,V1中的图像分辨率为128像素×64像素,V2中的图像分辨率为64像素×32像素。
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征,具体包括如下子步骤:
S21、构造多分支网络,网络包含三个前馈子网络分支其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4。
S22、参考图2和图3(图2中画出了第三个网络阶段多个交互模块架构图,本发明分支网络中第二个网络阶段架构与第三个网络阶段相同),在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图。多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图。
本发明中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小,比如0号分支中第三网络阶段输出的特征图和1号分支中第三网络阶段输出的特征图。
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量,具体包括如下子步骤:
S31、将三个尺度分支输出的特征图在时间维度上连接起来:
S32、利用全局平均池化层来生成最终的视频级特征向量:
其中,Foutput表示最终的视频级特征向量,fi,j,k表示Fall在(j,k,i)位置的向量,j,k,i分别表示三维坐标的X值,Y值和Z值;
S4、构造损失函数来优化多分支网络;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.一种基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,包括以下步骤:
S1、构造多尺度的行人视频片段;
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征;
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;
S4、构造交叉熵损失、三元组损失和互信息损失来优化多分支网络;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
3.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S2过程如下:
S21、构造多分支网络,网络包含三个前馈子网络分支其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4;
S22、在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图;多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
其中,和/>表示卷积操作,/>和/>表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图;
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
4.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S2中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310407317.6A CN116416649A (zh) | 2023-04-14 | 2023-04-14 | 一种基于多尺度分辨率对齐的视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310407317.6A CN116416649A (zh) | 2023-04-14 | 2023-04-14 | 一种基于多尺度分辨率对齐的视频行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416649A true CN116416649A (zh) | 2023-07-11 |
Family
ID=87051120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310407317.6A Pending CN116416649A (zh) | 2023-04-14 | 2023-04-14 | 一种基于多尺度分辨率对齐的视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416649A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612266A (zh) * | 2024-01-24 | 2024-02-27 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
-
2023
- 2023-04-14 CN CN202310407317.6A patent/CN116416649A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612266A (zh) * | 2024-01-24 | 2024-02-27 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
CN117612266B (zh) * | 2024-01-24 | 2024-04-19 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Video modeling with correlation networks | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110866953A (zh) | 地图构建方法及装置、定位方法及装置 | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN113807340B (zh) | 一种基于注意力机制的不规则自然场景文本识别方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN116416649A (zh) | 一种基于多尺度分辨率对齐的视频行人重识别方法 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN113673354A (zh) | 一种基于上下文信息与联合嵌入的人体关键点检测方法 | |
CN112396036B (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN110110775A (zh) | 一种基于超连接网络的匹配代价计算方法 | |
CN114170304A (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 | |
CN112949765A (zh) | 融合局部和全局信息的图像匹配方法 | |
CN111079585B (zh) | 图像增强结合伪孪生卷积神经网络的行人再识别方法 | |
CN117373062A (zh) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 | |
CN115631513B (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN115601791B (zh) | 基于Multiformer及离群样本重分配的无监督行人重识别方法 | |
CN112446245A (zh) | 一种基于运动边界小位移的高效运动表征方法及装置 | |
CN113283423A (zh) | 基于生成网络的自然场景扭曲文本图像矫正方法及系统 | |
CN116612385B (zh) | 基于深度高分辨率关系图卷积的遥感影像多类信息提取方法与系统 | |
Chen et al. | Fast and Accurate Homography Estimation Using Extendable Compression Network | |
JP7285479B2 (ja) | 画像認識装置、及び画像認識プログラム | |
CN116645726B (zh) | 利用三维人体恢复进行时空双分支融合的行为识别方法及系统 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |