CN111783506A - 目标特征的确定方法、装置和计算机可读存储介质 - Google Patents
目标特征的确定方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111783506A CN111783506A CN201910411768.0A CN201910411768A CN111783506A CN 111783506 A CN111783506 A CN 111783506A CN 201910411768 A CN201910411768 A CN 201910411768A CN 111783506 A CN111783506 A CN 111783506A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- frame
- image
- frame image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000037237 body shape Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种目标特征的确定方法、装置和计算机可读存储介质,涉及人工智能技术领域。该方法包括:提取各帧图像中目标的目标特征,各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像;利用注意力机制模型,提取各帧图像的目标特征之间的关联关系,以确定各帧图像的关联特征;根据各帧图像的关联特征,对待处理帧图像的目标特征进行优化,以确定待处理帧图像中目标的综合特征。本公开的技术方案能够优化从数据中学习的特征表达,从而提高特征确定的准确性。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及一种目标特征的确定方法、目标特征的确定装置和计算机可读存储介质。
背景技术
通过对视频中各帧图像进行处理,可以获取各帧图像中人的三维形状信息和姿态信息,从而实现人体三维模型的建立。利用人体三维模型可以用于实现诸如智能试衣、身份认证等。
在相关技术中,提取帧图像中人体的关键点,结合图像分割结果估计人体的三维形状信息和姿态信息。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:依赖于单帧图像的关键点提取精度和图像分割准确度,没有利用多帧图像之间的联系,导致特征确定的准确性低。
鉴于此,本公开提出了一种目标特征的确定技术方案,能够提高特征确定的准确性。
根据本公开的一些实施例,提供了一种目标特征的确定方法,包括:提取各帧图像中目标的目标特征,所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像;利用注意力机制模型,提取所述各帧图像的目标特征之间的关联关系,以确定所述各帧图像的关联特征;根据所述各帧图像的关联特征,对所述待处理帧图像的目标特征进行优化,以确定所述待处理帧图像中目标的综合特征。
在一些实施例中,所述提取各帧图像中目标的目标特征包括:根据所述各帧图像的特征向量,利用第一机器学习模型的第一特征提取模块,提取所述各帧图像中目标的总体特征信息;根据所述各帧图像的特征向量,利用所述第一机器学习模型的第二特征提取模块,提取所述各帧图像中目标的局部特征信息;融合所述总体特征信息和所述局部特征信息,确定所述目标特征。
在一些实施例中,所述第一特征提取模块为反卷积层,所述总体特征信息为所述目标的骨架模型信息。
在一些实施例中,所述第二特征提取模块为全连接层,所述局部特征信息包括局部形状特征和局部姿态特征。
在一些实施例中,所述局部特征信息包括所述目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。
在一些实施例中,所述融合所述总体特征信息和所述局部特征信息,确定所述目标特征包括:对所述总体特征信息和所述局部特征信息进行双线性变换,确定所述目标的形状特征和姿态特征作为所述目标特征。
在一些实施例中,所述注意力机制模型包括多个Transformer模块,所述多个Transformer模块之间串联连接。
在一些实施例中,所述确定所述待处理帧图像中目标的综合特征包括:按照所述各帧图像在视频中的固有顺序,对各关联特征进行排序;根据排序后的所述各帧图像的关联特征,利用TCN(Temporal Convolutional Net时间卷积网络)模型确定所述待处理帧图像中目标的综合特征,所述综合特征包括所述目标的形状特征和姿态特征。
在一些实施例中,所述注意力机制模型通过下面的步骤进行训练:
根据所述各帧图像的关联特征,生成关联特征队列,所述关联特征队列中各关联特征的排列顺序与所述各帧图像在视频中的固有顺序不同;利用第二机器学习模型,对所述关联特征队列中各关联特征进行排序;根据排序结果和所述固有顺序,对所述注意力机制模型进行训练。
根据本公开的另一些实施例,提供一种目标特征的确定装置,包括:目标特征提取单元,用于提取各帧图像中目标的目标特征,所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像;关联特征确定单元,用于利用注意力机制模型,提取所述各帧图像的目标特征之间的关联关系,以确定所述各帧图像的关联特征;综合特征确定单元,用于根据所述各帧图像的关联特征,对所述待处理帧图像的目标特征进行优化,以确定所述待处理帧图像中目标的综合特征。
根据本公开的又一些实施例,提供一种目标特征的确定装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的目标特征的确定方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的目标特征的确定方法。
在上述实施例中,利用注意力机制模型确定了待处理帧图像与相邻帧图像的关联特征,通过各关联特征优化待处理帧图像中的目标特征。这样,利用了各帧图像中目标形状的一致性和目标姿态的连续性,提高了目标特征确定的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的目标特征的确定方法的一些实施例的流程图;
图2示出图1中步骤110的一些实施例的流程图;
图3示出图1中步骤110的一些实施例的示意图;
图4示出图1中步骤120和步骤130的一些实施例的示意图;
图5示出本公开的目标特征的确定装置的一些实施例的框图;
图6示出本公开的目标特征的确定装置的另一些实施例的框图;
图7示出本公开的目标特征的确定装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的目标特征的确定方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,提取各帧图像的目标特征;步骤120,确定各帧图像的联合特征;和步骤130,确定待处理帧图像的综合特征。
在步骤110中,提取各帧图像中目标的目标特征。各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像。例如,可以将视频的第k帧图像作为待处理帧图像,将第k帧图像的前N帧和后N帧图像作为相邻帧图像,k和N都是大于0的整数。
在一些实施例中,目标可以是各帧图像中包含的人体,目标特征可以是人体的形状信息和姿态信息。例如,形状信息可以是SMPL(Skinned Multi-Person Linear,具有骨骼蒙皮的多人线性)人体形状模型的形状参数(如长度为10的向量),姿态信息可以是SMPL人体形状模型形状参数(如长度为72的向量)。
在一些实施例中,可以先对待处理帧图像进行人体检测(如采用AlphaPose算法),以获取待处理帧图像包含人体的矩形区域(可以称为目标区域);然后利用机器学习方法(如Resnet-50神经网络模型)从目标区域中提取待处理帧图像的特征向量。例如,可以采用相同的方法提取相邻帧图像的特征向量。
在一些实施例中,步骤110可以通过图2中的步骤实现。
图2示出图1中步骤110的一些实施例的流程图。
如图2所示,步骤110包括:步骤1110,提取各帧图像的目标特征;步骤1120,确定各帧图像的联合特征;和步骤1130,确定待处理帧图像的综合特征。
在步骤1110中,根据各帧图像的特征向量,利用第一机器学习模型的第一特征提取模块,提取各帧图像中目标的总体特征信息。
在一些实施例中,第一特征提取模块为反卷积层(如进行转置卷积处理),总体特征信息为目标的骨架模型信息。例如,骨架模型信息可以为人体模型关节点的位置坐标。
在步骤1120中,根据各帧图像的特征向量,利用第一机器学习模型的第二特征提取模块,提取各帧图像中目标的局部特征信息。
在一些实施例中,第二特征提取模块为全连接层,局部特征信息包括局部形状特征和局部姿态特征(如人体的手、头、脚等骨架模型无法体现的局部特征信息)、目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。局部特征信息还可以包括人体的形状信息。
在一些实施例中,可以通过图3中的实施例提取目标特征。
图3示出图1中步骤110的一些实施例的示意图。
如图3所示,利用图像特征提取模块31(如Resnet-50神经网络模型)提取第k帧图像的特征向量。例如,特征向量为一个16×512×7×7的向量,将该向量输入第一机器学习模型32。
根据特征向量,利用第一特征提取模块321提取目标的总体特征信息。根据特征向量,利用第二特征提取模块322提取目标的局部特征信息。
在一些实施例中,第一特征提取模块321可以为反卷积层。例如,第一特征提取模块321可以包含3个转置卷积层,将16×512×7×7的向量扩大为16×512×56×56的特征图(例如,特征图可以是描述人体关键点位置的heatmap)作为总体特征信息。
在一些实施例中,第二特征提取模块322可以为一个全连接层。例如,可以采用全局均值池化方法将16×512×7×7的向量转换为16×512的向量,再用一个全连接层,从16×512的向量中提取出同样大小的向量,用于描述局部特征信息(人体的细节信息)。
这样,可以将人体三维模型的建立算法分解为完成两个相对较简单的子任务——总体特征信息提取和局部特征信息提取,从而通过解耦的方式降低了算法的复杂度。
在一些实施例中,将总体特征信息和局部特征信息输入双线性变换层323,获取第k帧图像中的目标特征k。例如,总体特征信息为向量X1,局部特征信息为向量X2,通过训练可以得到双线性变换层323的权重参数W,则双线性变换层323的输出为T为转置运算。
这样,通过双线性变换层323融合总体特征信息和局部特征信息,能够保证两种信息互不影响、相互独立,在融合信息的同时保持两者的解耦状态,从而提高特征提取的准确性。
在一些实施例中,可以利用与上述实施例相同的方法,提取待处理的第k帧图像的相邻帧图像中的目标特征。例如,可以提取第k-1帧图像中的目标特征k-1,第k+1帧图像中的目标特征k+1等。
提取了各帧图像中的目标特征,就可以采用图1中的区域步骤确定目标的综合特征了。
在步骤120中,利用注意力机制模型,提取各帧图像的目标特征之间的关联关系,以确定各帧图像的关联特征。例如,可以提取待处理帧图像前4帧和后4帧图像中的目标特征(共9个连续帧图像中的目标特征)进行处理。
在一些实施例中,注意力机制模型包括多个相互串联的Transformer模块。这样,根据连续帧图像中目标形状的一致性和目标姿态的连续性,多次挖掘各目标特征之间的关联信息,优化从数据中学习的特征表达,从而提高特征确定的准确性。
在步骤130中,根据各帧图像的关联特征,对待处理帧图像的目标特征进行优化,以确定待处理帧图像中目标的综合特征。
在一些实施例中,按照各帧图像在视频中的固有顺序,对各关联特征进行排序。根据排序后的各帧图像的关联特征,利用TCN模型确定待处理帧图像中目标的综合特征。综合特征包括目标的形状特征和姿态特征。
在一些实施例中,可以通过图4中的实施例实现步骤120和130。
图4示出图1中步骤120和步骤130的一些实施例的示意图。
如图4所示,可以将提取的连续帧图像中的目标特征k-1、目标特征k、目标特征k+1,按照视频中各帧图像的顺序输入注意力机制模型41,得到相应的关联特征k-1、关联特征k、关联特征k+1。例如,注意力机制模型41包括串联的Transformer模块411和Transformer模块412。
这样,输出的各关联特征中包含了各目标特征之间的关联信息,根据各关联特征确定待处理帧图像中的综合特征,能够提高准确性。
在一些实施例中,将关联特征k-1、关联特征k、关联特征k+1输入TCN模型42,对目标特征k进行优化得到第k帧图像的综合特征k。
在一些实施例中,TCN模型42可以包括两个一维卷积层和一个一维卷积模块组成。TCN模型42可以通过第一卷积层对各关联特征进行信息引入,然后通过一维卷积模块进行处理,最后通过第二卷积层进行结果预测输出。例如,一维卷积模块可以包括残差连接的第三卷积层(进行一维卷积处理)、BN(Batch Normalization,批量归一化)层和激活层。
在一些实施例中,可以根据各帧图像的关联特征,生成关联特征队列,关联特征队列中各关联特征的排列顺序与各帧图像在视频中的固有顺序不同。利用第二机器学习模型43,对关联特征队列中各关联特征进行排序。根据排序结果和固有顺序,对注意力机制模型41进行训练。
例如,第二机器学习模型43为一个包括三个卷积层和三个全连接层的排序网络模型。可以将关联特征k-1、关联特征k、关联特征k+1打乱顺序后输入第二机器学习模型43进行排序。也就是说,可以用帧图像在视频中的固有顺序进行监督训练,以回归出正确的顺序,利用排序结果对注意力机制模型41进行训练。
采用这种对抗训练方法,能够使得注意力机制模型41深入理解各帧图像之间的顺序,从而得到更准确的特征确定结果。
在上述实施例中,利用注意力机制模型确定了待处理帧图像与相邻帧图像的关联特征,通过各关联特征优化待处理帧图像中的目标特征。这样,利用了各帧图像中目标形状的一致性和目标姿态的连续性,提高了目标特征确定的准确性。
图5示出本公开的目标特征的确定装置的一些实施例的框图。
如图5所示,目标特征的确定装置5包括目标特征提取单元51、关联特征确定单元52和综合特征确定单元53。
目标特征提取单元51提取各帧图像中目标的目标特征,各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像。
在一些实施例中,目标特征提取单元51根据各帧图像的特征向量,利用第一机器学习模型的第一特征提取模块,提取各帧图像中目标的总体特征信息。例如,第一特征提取模块为反卷积层,总体特征信息为目标的骨架模型信息。
在一些实施例中,目标特征提取单元51根据各帧图像的特征向量,利用第一机器学习模型的第二特征提取模块,提取各帧图像中目标的局部特征信息。例如,第二特征提取模块为全连接层,局部特征信息包括局部形状特征和局部姿态特征、目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。
在一些实施例中,目标特征提取单元51融合总体特征信息和局部特征信息,确定目标特征。目标特征提取单元51对总体特征信息和所述局部特征信息进行双线性变换,确定目标的形状特征和姿态特征作为目标特征。
关联特征确定单元52利用注意力机制模型,提取各帧图像的目标特征之间的关联关系,以确定各帧图像的关联特征。例如,注意力机制模型包括多个Transformer模块,多个Transformer模块之间串联连接。
在一些实施例中,注意力机制模型通过下面的步骤进行训练:根据各帧图像的关联特征,生成关联特征队列,关联特征队列中各关联特征的排列顺序与各帧图像在视频中的固有顺序不同;利用第二机器学习模型,对关联特征队列中各关联特征进行排序;根据排序结果和固有顺序,对注意力机制模型进行训练。
综合特征确定单元54根据各帧图像的关联特征,对待处理帧图像的目标特征进行优化,以确定待处理帧图像中目标的综合特征。例如,按照各帧图像在视频中的固有顺序,对各关联特征进行排序,根据排序后的各帧图像的关联特征,利用TCN模型确定待处理帧图像中目标的综合特征,综合特征包括目标的形状特征和姿态特征。
在上述实施例中,利用注意力机制模型确定了待处理帧图像与相邻帧图像的关联特征,通过各关联特征优化待处理帧图像中的目标特征。这样,利用了各帧图像中目标形状的一致性和目标姿态的连续性,提高了目标特征确定的准确性。
图6示出本公开的目标特征的确定装置的另一些实施例的框图。
如图6所示,该实施例的目标特征的确定装置6包括:存储器61以及耦接至该存储器61的处理器62,处理器62被配置为基于存储在存储器61中的指令,执行本公开中任意一个实施例中的目标特征的确定方法。
其中,存储器61例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图7示出本公开的目标特征的确定装置的又一些实施例的框图。
如图7所示,该实施例的目标特征的确定装置7包括:存储器710以及耦接至该存储器710的处理器720,处理器720被配置为基于存储在存储器710中的指令,执行前述任意一个实施例中的目标特征的确定方法。
存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
目标特征的确定装置7还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的目标特征的确定方法、目标特征的确定装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (12)
1.一种目标特征的确定方法,包括:
提取各帧图像中目标的目标特征,所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像;
利用注意力机制模型,提取所述各帧图像的目标特征之间的关联关系,以确定所述各帧图像的关联特征;
根据所述各帧图像的关联特征,对所述待处理帧图像的目标特征进行优化,以确定所述待处理帧图像中目标的综合特征。
2.根据权利要求1所述的确定方法,其中,所述提取各帧图像中目标的目标特征包括:
根据所述各帧图像的特征向量,利用第一机器学习模型的第一特征提取模块,提取所述各帧图像中目标的总体特征信息;
根据所述各帧图像的特征向量,利用所述第一机器学习模型的第二特征提取模块,提取所述各帧图像中目标的局部特征信息;
融合所述总体特征信息和所述局部特征信息,确定所述目标特征。
3.根据权利要求2所述的确定方法,其中,
所述第一特征提取模块为反卷积层,所述总体特征信息为所述目标的骨架模型信息。
4.根据权利要求2所述的确定方法,其中,
所述第二特征提取模块为全连接层,所述局部特征信息包括局部形状特征和局部姿态特征。
5.根据权利要求4所述的确定方法,其中,
所述局部特征信息包括所述目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。
6.根据权利要求2所述的确定方法,其中,所述融合所述总体特征信息和所述局部特征信息,确定所述目标特征包括:
对所述总体特征信息和所述局部特征信息进行双线性变换,确定所述目标的形状特征和姿态特征作为所述目标特征。
7.根据权利要求1所述的确定方法,其中,
所述注意力机制模型包括多个Transformer模块,所述多个Transformer模块之间串联连接。
8.根据权利要求1所述的确定方法,其中,所述确定所述待处理帧图像中目标的综合特征包括:
按照所述各帧图像在视频中的固有顺序,对各关联特征进行排序;
根据排序后的所述各帧图像的关联特征,利用时域卷积网络TCN模型确定所述待处理帧图像中目标的综合特征,所述综合特征包括所述目标的形状特征和姿态特征。
9.根据权利要求1-8任一项所述的确定方法,其中,所述注意力机制模型通过下面的步骤进行训练:
根据所述各帧图像的关联特征,生成关联特征队列,所述关联特征队列中各关联特征的排列顺序与所述各帧图像在视频中的固有顺序不同;
利用第二机器学习模型,对所述关联特征队列中各关联特征进行排序;
根据排序结果和所述固有顺序,对所述注意力机制模型进行训练。
10.一种目标特征的确定装置,包括:
目标特征提取单元,用于提取各帧图像中目标的目标特征,所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像;
关联特征确定单元,用于利用注意力机制模型,提取所述各帧图像的目标特征之间的关联关系,以确定所述各帧图像的关联特征;
综合特征确定单元,用于根据所述各帧图像的关联特征,对所述待处理帧图像的目标特征进行优化,以确定所述待处理帧图像中目标的综合特征。
11.一种目标特征的确定装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-9任一项所述的目标特征的确定方法。
12.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-9任一项所述的目标特征的确定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411768.0A CN111783506B (zh) | 2019-05-17 | 2019-05-17 | 目标特征的确定方法、装置和计算机可读存储介质 |
PCT/CN2020/089410 WO2020233427A1 (zh) | 2019-05-17 | 2020-05-09 | 目标的特征的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411768.0A CN111783506B (zh) | 2019-05-17 | 2019-05-17 | 目标特征的确定方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783506A true CN111783506A (zh) | 2020-10-16 |
CN111783506B CN111783506B (zh) | 2024-09-24 |
Family
ID=72755588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910411768.0A Active CN111783506B (zh) | 2019-05-17 | 2019-05-17 | 目标特征的确定方法、装置和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111783506B (zh) |
WO (1) | WO2020233427A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220859A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378973B (zh) * | 2021-06-29 | 2023-08-08 | 沈阳雅译网络技术有限公司 | 一种基于自注意力机制的图像分类方法 |
CN113673557A (zh) * | 2021-07-12 | 2021-11-19 | 浙江大华技术股份有限公司 | 特征处理方法、动作定位方法及相关设备 |
CN114299535B (zh) * | 2021-12-09 | 2024-05-31 | 河北大学 | 基于Transformer的特征聚合人体姿态估计方法 |
CN114170558B (zh) * | 2021-12-14 | 2024-08-13 | 北京有竹居网络技术有限公司 | 用于视频处理的方法、系统、设备、介质和产品 |
CN115936195B (zh) * | 2022-11-23 | 2024-07-12 | 合肥工业大学 | 智能小区能源优化方法、系统、电子设备和存储介质 |
CN117180952B (zh) * | 2023-11-07 | 2024-02-02 | 湖南正明环保股份有限公司 | 多向气流料层循环半干法烟气脱硫系统及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN109544554A (zh) * | 2018-10-18 | 2019-03-29 | 中国科学院空间应用工程与技术中心 | 一种植物图像分割及叶片骨架提取方法及系统 |
CN109583334A (zh) * | 2018-11-16 | 2019-04-05 | 中山大学 | 一种基于时空关联神经网络的动作识别方法及其系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9740949B1 (en) * | 2007-06-14 | 2017-08-22 | Hrl Laboratories, Llc | System and method for detection of objects of interest in imagery |
CN107066973B (zh) * | 2017-04-17 | 2020-07-21 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN109409165A (zh) * | 2017-08-15 | 2019-03-01 | 杭州海康威视数字技术股份有限公司 | 一种视频内容识别方法、装置及电子设备 |
CN109063626B (zh) * | 2018-07-27 | 2020-11-03 | 深圳市践一科技有限公司 | 动态人脸识别方法和装置 |
-
2019
- 2019-05-17 CN CN201910411768.0A patent/CN111783506B/zh active Active
-
2020
- 2020-05-09 WO PCT/CN2020/089410 patent/WO2020233427A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
CN109544554A (zh) * | 2018-10-18 | 2019-03-29 | 中国科学院空间应用工程与技术中心 | 一种植物图像分割及叶片骨架提取方法及系统 |
CN109583334A (zh) * | 2018-11-16 | 2019-04-05 | 中山大学 | 一种基于时空关联神经网络的动作识别方法及其系统 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
SHAOJIE BAI 等: "An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling", ARXIV:1803.01271V2, pages 1 - 14 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220859A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
CN113220859B (zh) * | 2021-06-01 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111783506B (zh) | 2024-09-24 |
WO2020233427A1 (zh) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783506B (zh) | 目标特征的确定方法、装置和计算机可读存储介质 | |
Chen et al. | Learning spatial attention for face super-resolution | |
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
US10936911B2 (en) | Logo detection | |
CN110569731B (zh) | 一种人脸识别方法、装置及电子设备 | |
US9020250B2 (en) | Methods and systems for building a universal dress style learner | |
JP4372051B2 (ja) | 手形状認識装置及びその方法 | |
CN110599395A (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN106228121B (zh) | 手势特征识别方法和装置 | |
CN113486708A (zh) | 人体姿态预估方法、模型训练方法、电子设备和存储介质 | |
CN110598715A (zh) | 图像识别方法、装置、计算机设备及可读存储介质 | |
CN113112518A (zh) | 基于拼接图像的特征提取器生成方法、装置和计算机设备 | |
CN113947810A (zh) | 基于姿态识别的太极拳评估方法及系统 | |
CN115083015A (zh) | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 | |
CN114387656A (zh) | 基于人工智能的换脸方法、装置、设备及存储介质 | |
CN114170403A (zh) | 虚拟试衣方法、装置、服务器及存储介质 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN111783497B (zh) | 视频中目标的特征确定方法、装置和计算机可读存储介质 | |
CN116798127A (zh) | 一种基于全卷积的太极拳全身姿态估计方法、设备和介质 | |
CN116958730A (zh) | 图像识别模型的训练方法和装置、存储介质及电子设备 | |
Horiuchi et al. | Spectral normalization and relativistic adversarial training for conditional pose generation with self-attention | |
KR101994311B1 (ko) | 자세 인식 장치 및 그 동작 방법 | |
CN112508776B (zh) | 动作迁移方法、装置和电子设备 | |
CN112801908B (zh) | 图像去噪方法、装置、计算机设备和存储介质 | |
JP2016103242A (ja) | 画像処理方法、画像処理装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |