CN113255630B - 一种运动目标识别训练方法、运动目标识别方法及装置 - Google Patents
一种运动目标识别训练方法、运动目标识别方法及装置 Download PDFInfo
- Publication number
- CN113255630B CN113255630B CN202110802833.XA CN202110802833A CN113255630B CN 113255630 B CN113255630 B CN 113255630B CN 202110802833 A CN202110802833 A CN 202110802833A CN 113255630 B CN113255630 B CN 113255630B
- Authority
- CN
- China
- Prior art keywords
- features
- layer
- feature
- static
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种运动目标识别训练方法、运动目标识别方法及装置,该运动目标识别训练方法包括:获得不同时间点拍摄的多张图像;获得每张所述图像中目标的第一类静态特征和第二类静态特征;将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征;将至少部分所述图像的所述融合特征进行分类训练直至整个网络收敛。通过上述方式,能够有效提高目标特征的丰富性,训练得到表征能力更强、鲁棒性更好的运动目标识别模型。
Description
技术领域
本申请涉及计算机视觉及机器学习技术领域,特别是涉及一种运动目标识别训练方法、运动目标识别方法及装置。
背景技术
运动目标识别是指利用行人在行走过程中的抓拍图像,对图像中的行人目标进行身份识别。目前比较前沿的行人识别技术主要分为两类,分别是行人重识别(Person Re-identification)和步态识别(Gait Recognition),前者主要依靠图像提取如行人的穿着、发型、背包、雨伞等静态外部特征;而后者则是从行人连续运动过程中学习如走路姿态、手臂摆幅、晃头耸肩、运动神经敏感度等动态特征。
本申请的发明人在长期研发中发现,通过现有技术执行运动目标识别任务时,往往依赖于较为单一的特征,如静态的RGB图像或轮廓图像等,特征的鲁棒性不强,导致识别结果的准确度不高;另外,现有的一些基于特征融合的运动目标识别技术方案,如利用RGB图像的全局特征与局部特征进行融合,同样存在特征模态较为单一的问题,在牺牲大量性能的同时,并不能获得预制匹配的准确率的提升。
发明内容
本申请主要解决的技术问题是提供一种运动目标识别训练方法、运动目标识别方法及装置,能够提高运动目标识别的鲁棒性和准确性。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种运动目标识别训练方法,包括:获得连续的多张图像;将每张所述图像依序输入双层ViT特征融合模型的内层输入端,以获得每张所述图像中目标的第一类静态特征和第二类静态特征;将每张所述图像中所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征;将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛。
其中,所述获得每张所述图像中目标的第一类静态特征和第二类静态特征包括:获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征。
其中,所述获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征包括:将所述目标分割为若干部分,依序输入双层ViT特征融合模型的内层第一输入端,获得所述细粒度静态特征;将所述目标的轮廓分割为若干部分,依序输入所述双层ViT特征融合模型的内层第二输入端,获得所述细粒度轮廓特征。
其中,所述将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征包括:将所述细粒度静态特征和所述细粒度轮廓特征在所述双层ViT特征融合模型的内层输出端进行加权平均融合,得到所述融合特征。
其中,所述将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练包括:将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行基于归一化指数损失的分类训练,其中嵌入层的维度设置为128的正整数倍,直至整个网络收敛。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种运动目标识别方法,包括:获取待识别目标连续的多张图像;将每张所述图像依序输入双层ViT特征融合模型的内层输入端,以获取每张所述图像中所述待识别目标的第一类静态特征和第二类静态特征;将每张所述图像中的所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征;将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行融合,得到动态特征;根据所述动态特征得到识别结果。
其中,所述根据所述动态特征得到识别结果包括:逐一计算所述动态特征与运动目标底库中的所有存储特征之间的余弦相似度;对所述余弦相似度进行排序,获取其中最大余弦相似度;判断所述最大余弦相似度是否大于预设的识别阈值;若是,则获取所述最大余弦相似度对应的所述存储特征,并将所述存储特征对应的身份信息作为所述待识别目标的识别结果。
其中,所述获取待识别目标不同时间点拍摄的多张图像之前还包括:建立所述运动目标底库,所述目标运动底库用于保存所有待存储目标的所述身份信息以及所述存储特征。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种运动目标识别装置,包括相互耦接的存储器和处理器,所述存储器存储有程序指令,所述程序指令用于被所述处理器执行以实现上述任一实施例所述的运动目标识别方法。
区别于现有技术的情况,本申请的有益效果是:本申请中提供一种运动目标识别训练方法、运动目标识别方法及装置,其中运动目标识别训练方法包括:获得不同时间点拍摄的多张图像;获得每张图像中目标的第一类静态特征和第二类静态特征;将每张图像中第一类静态特征和第二类静态特征进行融合得到融合特征;将至少部分图像的融合特征进行分类训练直至整个网络收敛。通过上述方式,提取单张图像中的两类静态特征并进行拼接融合,再将连续的多个融合特征输入至训练分类器中,同时关注了运动目标的静态特征和动态特征,有效提高了目标特征的丰富性,解决了现有技术中特征模态单一的问题,使得最终训练得到的运动目标识别模型的表征能力更强、鲁棒性能更好,利用该模型进行运动目标识别时能够提高识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请运动目标识别训练方法一实施方式的流程示意图;
图2是图1中步骤S102对应一实施方式的流程示意图;
图3是本申请运动目标识别训练方法一实施方式的网络结构示意图;
图4是本申请运动目标识别方法一实施方式的流程示意图;
图5是图4中步骤S305对应一实施方式的流程示意图;
图6是图5中步骤S401之前对应一实施方式的流程示意图;
图7是本申请运动目标识别装置一实施方式的框架示意图;
图8是本申请运动目标识别装置一实施方式的结构示意图;
图9是本申请计算机可读存储介质一实施方式的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请运动目标识别训练方法一实施方式的流程示意图。具体而言,可以包括如下步骤:
S101:获得连续的多张图像。
可选地,首先获取网络训练所需要的若干运动目标在自然状态下的行走视频数据,然后利用行人检测与行人跟踪工具将视频解析成连续帧的目标RGB图像序列。再将根据人体检测框裁剪出的多张RGB图像归一化处理,得到一份标准的目标RGB图像序列。复制一份上述标准的目标RGB图像序列,并对其前后背景进行标注以获得目标轮廓图像。在本实施例中,多张RGB图像进行归一化处理时,可等比例缩放至96*64尺寸;提取目标轮廓图像时,将行人区域标注为255,背景区域标注为0。最后对同一人的RGB图像以及轮廓图像标注身份信息。至此,通过上述步骤,利用同一组模板RGB图像,获取到标准的一组RGB图像以及一组轮廓图像,且连续的RGB图像以及连续的轮廓图像共同构成连续的多张图像。
S102:获得每张图像中目标的第一类静态特征和第二类静态特征。
可选地,利用步骤S101中获取的RGB图像中的细节特征,例如穿着、发型、背包等,获取目标的第一类静态特征;利用步骤S101中获取的轮廓图像,获取目标的第二类静态特征。在本实施例中,上述步骤S102中的第一类静态特征是指每张图像中目标的细粒度静态特征,而第二类静态特征是指细粒度轮廓特征。当然在其他实施方式中,还可以提取每张图像中目标的粗粒度静态特征以及粗粒度轮廓特征分别作为第一类静态特征和第二类静态特征,同样可以实现运动目标的识别。
可选地,请参阅图2,图2是图1中步骤S102对应一实施方式的流程示意图。上述步骤S102还可以包括以下步骤:
S201:将运动目标分割为若干部分,依序输入双层ViT特征融合模型的内层第一输入端,获得细粒度静态特征。
可选地,基于ViT(Vision Transformer)的双层特征融合模型能够处理目标连续的图像序列数据,相较于传统的卷积神经网络(CNN)算法,在计算精度相当的前提下,利用ViT算法进行训练和推理时计算量更小,更加轻量化。当然,在其他实施方式中,还可以利用基于卷积神经网络算法的特征融合模型对图像进行推理计算,同样可以获得目标对应的静态特征。
在本实施例中,请参阅图3,图3是本申请运动目标识别训练方法一实施方式的网络结构示意图。首先对目标进行分块处理,可按照目标的头部、中间半身和下半身的顺序将RGB图像分割为相同大小的6个部分,再依序输入到双层ViT特征融合模型的内层第一输入端,即RGB图像输入端中,以获得目标的细粒度静态特征。
S202:将目标的轮廓以上述分割方式分割为若干部分,依序输入双层ViT特征融合模型的内层第二输入端,获得细粒度轮廓特征。
可选地,请继续参阅图3,通过与步骤S201中RGB图像相同的分割方式,将目标轮廓分割为相同大小的6个部分,再依序输入ViT特征融合模型的内层第二输入端,即轮廓图像输入端中,以获得目标的细粒度轮廓特征。
S103:将每张图像中第一类静态特征和第二类静态特征进行融合得到融合特征。
可选地,在S103中,将基于单张RGB图像和单张轮廓图像获得的第一类静态特征和第二类静态特征进行拼接融合,兼顾运动目标的静态特征和轮廓特征,有效提高目标特征的丰富性。
在本实施例中,将细粒度静态特征和细粒度轮廓特征在双层ViT特征融合模型的内层输出端进行加权平均融合,得到融合特征。例如,将细粒度静态特征的权重系数设置为0.5,此时细粒度轮廓特征的权重系数为0.5,则融合特征为0.5与细粒度静态特征的乘积以及0.5与细粒度轮廓特征的乘积之和。
S104:将至少部分图像的融合特征进行分类训练直至整个网络收敛。
在S104中,至少部分图像是指S101中获得的所有图像中的连续多帧图像,通过连续的多帧图像对应的融合特征能够表征目标行人在行走过程中的动态特征,进而提高模型的表征能力。较佳地,选取连续的5帧RGB图像和轮廓图像进行分类训练,在保证识别结果准确度的同时,又尽可能的减少运算量。
在本实施例中,请继续参阅图3,将5帧图像的融合特征依序输入双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛。在一具体的实施场景中,利用基于归一化指数损失的分类训练,其中嵌入层的维度设置为128的正整数倍,例如128、512、1024等等,直至整个网络收敛得到达到预设条件的运动目标识别结果。
本申请实施例的运动目标识别训练方法通过提取单张RGB图像和单张轮廓图像中的细粒度静态特征和细粒度轮廓特征,充分利用两类静态特征,同时关注视频中连续帧序列蕴含的行人动态特征,解决了现有技术中特征模态单一的问题;利用双层架构的ViT特征融合模型将三者有机融合起来,使得最终训练得到的模型的表征能力更强,鲁棒性和区分力更好,利用该模型进行运动目标识别时能够提高识别结果的准确性。
请参阅图4,图4是本申请运动目标识别方法一实施方式的流程示意图。本申请所提供的运动目标识别方法包括如下步骤:
S301:获取待识别目标连续的多张图像。
可选地,首先获取待识别目标的行走视频并进行预处理,然后利用行人检测与行人跟踪工具获取目标RGB图像序列。再对RGB图像进行归一化处理,得到一份标准的目标RGB图像序列。复制一份上述标准的目标RGB图像序列,并对其前后背景进行标注以获得目标轮廓图像。
S302:获取每张图像中待识别目标的第一类静态特征和第二类静态特征。
可选地,在本实施例中,将S301中获取的RGB图像和轮廓图像进行相同方式的分割,并将其依序输入双层ViT特征融合模型的内层第一输入端,以获得细粒度静态特征以及细粒度轮廓特征。
S303:将每张图像中的第一类静态特征和第二类静态特征进行融合得到融合特征。
在本实施例中,S303与图1中的S103相类似,为简约起见,此处不再一一赘述。
S304:将至少部分图像的融合特征进行融合,得到动态特征。
可选地,将连续的多帧图像对应的融合特征输入双层ViT特征融合模型的外层输入端,融合后得到待识别目标对应的动态特征。其中嵌入层的维度设置为1024,则输出的动态特征为1024维的特征向量。
S305:根据动态特征得到识别结果。
请参阅图5,图5是图4中步骤S305对应一实施方式的流程示意图。上述步骤S305包括:
S401:逐一计算动态特征与运动目标底库中的所有存储特征之间的余弦相似度。
可选地,在本实施例中,运动目标底库中共存储有100个存储特征,则将待识别目标的动态特征与100个存储特征逐一比较,计算二者之间的余弦相似度,最终共计获得100个余弦相似度数值。
S402:对余弦相似度进行排序,获取其中最大余弦相似度。
在本实施例中,对上述100个余弦相似度数值进行排序,得到余弦相似度最大的数值。
S403:判断最大余弦相似度是否大于预设的识别阈值。
S404:若是,则获取最大余弦相似度对应的存储特征,并将存储特征对应的身份信息作为待识别目标的识别结果。
S405:若否,则结束识别。
在本实施例中,在上述步骤S401之前还包括:建立运动目标底库的过程。如图6所示,图6是图5中步骤S401之前对应一实施方式的流程示意图。建立运动目标底库的步骤包括:
S501:提供所有待存储目标在行走状态下的行走视频。
S502:对每一行走视频进行预处理,依次获取每个行走视频中连续的多张图像。
S503:将多张图像输入训练完成的双层ViT特征融合模型,获取每一待存储目标行人对应的动态特征。
S504:构建每一待存储行人与对应的动态特征之间的映射关系,并将映射关系存储至运动目标底库中。
本发明实施例的运动目标识别方法通过提取单张RGB图像和单张轮廓图像中的细粒度静态特征和细粒度轮廓特征,充分利用两类静态特征,同时关注视频中连续帧序列蕴含的行人动态特征,解决了现有技术中特征模态单一的问题;利用双层架构的ViT特征融合模型将三者有机融合起来,有效提高识别结果的准确性。
请参阅图7,图7是本申请运动目标识别装置一实施方式的框架示意图。该识别装置包括获取模块10、融合模块12和训练模块14。具体而言,获取模块10用于获得不同时间点拍摄的多张图像,还用于获得每张图像中目标的第一类静态特征和第二类静态特征。融合模块12用于将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征。训练模块14用于将至少部分所述图像的所述融合特征进行分类训练直至整个网络收敛。通过上述设计方式,提取单张图像中的两类静态特征并进行拼接融合,再将连续的多个融合特征输入至训练分类器中,有效提高目标特征的丰富性,同时关注了运动目标的静态特征和动态特征,解决了现有技术中特征模态单一的问题,使得最终训练得到的模型的表征能力更强,鲁棒性更好,利用该模型进行运动目标识别时能够提高识别结果的准确性。
请参阅图8,图8是本申请运动目标识别装置一实施方式的结构示意图。该装置20包括相互耦接的存储器100和处理器102,存储器100内存储有程序指令,处理器102用于执行程序指令以实现上述任一实施例中所提及的人脸图像的质量评价方法。
具体而言,处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(ApplicationSpecific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable GateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由多个集成电路芯片共同实现。
请参阅图9,图9是本申请计算机可读存储介质一实施方式的框架示意图。该计算机可读存储介质30存储有计算机程序300,能够被计算机所读取,计算机程序300能够被处理器执行,以实现上述任一实施例中所提及的质量评价方法。其中,该计算机程序300可以以软件产品的形式存储在上述计算机可读存储介质30中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。具有存储功能的计算机可读存储介质30可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种运动目标识别训练方法,其特征在于,包括:
获得连续的多张图像;
将每张所述图像依序输入双层ViT特征融合模型的内层输入端,以获得每张所述图像中目标的第一类静态特征和第二类静态特征;
将每张所述图像中所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征;
将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛,同时将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的所述外层输入端进行融合,得到动态特征。
2.根据权利要求1所述的运动目标识别训练方法,其特征在于,
所述获得每张所述图像中目标的第一类静态特征和第二类静态特征包括:
获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征。
3.根据权利要求2所述的运动目标识别训练方法,其特征在于,
所述获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征包括:
将所述目标分割为若干部分,依序输入双层ViT特征融合模型的内层第一输入端,获得所述细粒度静态特征;
将所述目标的轮廓分割为若干部分,依序输入所述双层ViT特征融合模型的内层第二输入端,获得所述细粒度轮廓特征。
4.根据权利要求3所述的运动目标识别训练方法,其特征在于,
所述将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征包括:
将所述细粒度静态特征和所述细粒度轮廓特征在所述双层ViT特征融合模型的内层输出端进行加权平均融合,得到所述融合特征。
5.根据权利要求1所述的运动目标识别训练方法,其特征在于,
所述将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练包括:
将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行基于归一化指数损失的分类训练,直至整个网络收敛。
6.一种运动目标识别方法,其特征在于,包括:
获取待识别目标连续的多张图像;
将每张所述图像依序输入双层ViT特征融合模型的内层输入端,以获取每张所述图像中所述待识别目标的第一类静态特征和第二类静态特征;
将每张所述图像中的所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征;
将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行融合,得到动态特征;
根据所述动态特征得到识别结果。
7.根据权利要求6所述的运动目标识别方法,其特征在于,
所述根据所述动态特征得到识别结果包括:
逐一计算所述动态特征与运动目标底库中的所有存储特征之间的余弦相似度;
对所述余弦相似度进行排序,获取其中最大余弦相似度;
判断所述最大余弦相似度是否大于预设的识别阈值;
若是,则获取所述最大余弦相似度对应的所述存储特征,并将所述存储特征对应的身份信息作为所述待识别目标的识别结果。
8.根据权利要求7所述的运动目标识别方法,其特征在于,
所述获取待识别目标连续的多张图像之前还包括:
建立所述运动目标底库,所述运动目标底库用于保存所有待存储目标的所述身份信息以及所述存储特征。
9.一种运动目标识别装置,其特征在于,包括相互耦接的存储器和处理器,所述存储器存储有程序指令,所述程序指令用于被所述处理器执行以实现权利要求6至8任一项所述的运动目标识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110802833.XA CN113255630B (zh) | 2021-07-15 | 2021-07-15 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
PCT/CN2021/128515 WO2023284182A1 (en) | 2021-07-15 | 2021-11-03 | Training method for recognizing moving target, method and device for recognizing moving target |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110802833.XA CN113255630B (zh) | 2021-07-15 | 2021-07-15 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255630A CN113255630A (zh) | 2021-08-13 |
CN113255630B true CN113255630B (zh) | 2021-10-15 |
Family
ID=77180490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110802833.XA Active CN113255630B (zh) | 2021-07-15 | 2021-07-15 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113255630B (zh) |
WO (1) | WO2023284182A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255630B (zh) * | 2021-07-15 | 2021-10-15 | 浙江大华技术股份有限公司 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
CN113688745B (zh) * | 2021-08-27 | 2024-04-05 | 大连海事大学 | 一种基于相关节点自动挖掘及统计信息的步态识别方法 |
CN116110131B (zh) * | 2023-04-11 | 2023-06-30 | 深圳未来立体教育科技有限公司 | 一种身体交互行为识别方法及vr系统 |
CN116844217B (zh) * | 2023-08-30 | 2023-11-14 | 成都睿瞳科技有限责任公司 | 用于生成人脸数据的图像处理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246518A (zh) * | 2019-06-10 | 2019-09-17 | 深圳航天科技创新研究院 | 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质 |
CN111160194A (zh) * | 2019-12-23 | 2020-05-15 | 浙江理工大学 | 一种基于多特征融合的静态手势图像识别方法 |
CN111582126A (zh) * | 2020-04-30 | 2020-08-25 | 浙江工商大学 | 基于多尺度行人轮廓分割融合的行人重识别方法 |
CN111860291A (zh) * | 2020-07-16 | 2020-10-30 | 上海交通大学 | 基于行人外观和步态信息的多模态行人身份识别方法和系统 |
CN112633058A (zh) * | 2020-11-05 | 2021-04-09 | 北京工业大学 | 基于特征融合的正面步态识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190095764A1 (en) * | 2017-09-26 | 2019-03-28 | Panton, Inc. | Method and system for determining objects depicted in images |
CN109766925B (zh) * | 2018-12-20 | 2021-05-11 | 深圳云天励飞技术有限公司 | 特征融合方法、装置、电子设备及存储介质 |
US10977525B2 (en) * | 2019-03-29 | 2021-04-13 | Fuji Xerox Co., Ltd. | Indoor localization using real-time context fusion of visual information from static and dynamic cameras |
CN110555406B (zh) * | 2019-08-31 | 2023-03-24 | 武汉理工大学 | 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法 |
CN111814857B (zh) * | 2020-06-29 | 2021-07-06 | 浙江大华技术股份有限公司 | 目标重识别方法及其网络训练方法、相关装置 |
CN112686193B (zh) * | 2021-01-06 | 2024-02-06 | 东北大学 | 基于压缩视频的动作识别方法、装置及计算机设备 |
CN113096131A (zh) * | 2021-06-09 | 2021-07-09 | 紫东信息科技(苏州)有限公司 | 基于vit网络的胃镜图片多标签分类系统 |
CN113255630B (zh) * | 2021-07-15 | 2021-10-15 | 浙江大华技术股份有限公司 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
-
2021
- 2021-07-15 CN CN202110802833.XA patent/CN113255630B/zh active Active
- 2021-11-03 WO PCT/CN2021/128515 patent/WO2023284182A1/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246518A (zh) * | 2019-06-10 | 2019-09-17 | 深圳航天科技创新研究院 | 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质 |
CN111160194A (zh) * | 2019-12-23 | 2020-05-15 | 浙江理工大学 | 一种基于多特征融合的静态手势图像识别方法 |
CN111582126A (zh) * | 2020-04-30 | 2020-08-25 | 浙江工商大学 | 基于多尺度行人轮廓分割融合的行人重识别方法 |
CN111860291A (zh) * | 2020-07-16 | 2020-10-30 | 上海交通大学 | 基于行人外观和步态信息的多模态行人身份识别方法和系统 |
CN112633058A (zh) * | 2020-11-05 | 2021-04-09 | 北京工业大学 | 基于特征融合的正面步态识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023284182A1 (en) | 2023-01-19 |
CN113255630A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255630B (zh) | 一种运动目标识别训练方法、运动目标识别方法及装置 | |
Kim et al. | Efficient facial expression recognition algorithm based on hierarchical deep neural network structure | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
Redmon et al. | You only look once: Unified, real-time object detection | |
US9552510B2 (en) | Facial expression capture for character animation | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
Yang et al. | Facial expression recognition based on dual-feature fusion and improved random forest classifier | |
Ekbote et al. | Indian sign language recognition using ANN and SVM classifiers | |
CN110598587B (zh) | 结合弱监督的表情识别网络训练方法、系统、介质及终端 | |
CN112861917A (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN114519877A (zh) | 人脸识别方法、人脸识别装置、计算机设备及存储介质 | |
Agha et al. | A comprehensive study on sign languages recognition systems using (SVM, KNN, CNN and ANN) | |
Lahiani et al. | Hand pose estimation system based on Viola-Jones algorithm for android devices | |
CN114359787A (zh) | 目标属性识别方法、装置、计算机设备及存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN111582382A (zh) | 状态识别方法、装置以及电子设备 | |
Selvi et al. | Kathakali face expression detection using deep learning techniques | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
US20220139113A1 (en) | Method and device for detecting object in image | |
CN114550298A (zh) | 短视频的动作识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |