CN113158982A - 一种半介入式的目标关键点标注方法 - Google Patents
一种半介入式的目标关键点标注方法 Download PDFInfo
- Publication number
- CN113158982A CN113158982A CN202110535014.3A CN202110535014A CN113158982A CN 113158982 A CN113158982 A CN 113158982A CN 202110535014 A CN202110535014 A CN 202110535014A CN 113158982 A CN113158982 A CN 113158982A
- Authority
- CN
- China
- Prior art keywords
- image
- self
- key point
- label
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000003086 colorant Substances 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000002372 labelling Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000004394 hip joint Anatomy 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Abstract
本发明提供了一种半介入式的目标对象关键点标注方法,包括:1采集待标记目标对象佩戴N个指定颜色的球状标签图像;2基于自编码器的图像去标签还原模型;3球状标签定位模型。本发明能通过对目标对象进行半介入式的关键点标注,可以更精确、更容易获取目标对象关键点标注信息,从而实现快速、高效、适应性强的目标对象关键点标注。
Description
技术领域
本发明涉及计算机技术领域,更具体地说是一种半介入式的目标对象关键点标注方法。
背景技术
随着计算机视觉领域的不断发展,关键点识别技术已经应用到了越来越多的不限于人脸、人体等不同领域,其他的动物、植物等特定场景下的目标关键点识别也成为了热门研究方向。如何快速、准确地获取其关键点信息,不仅要求标注人员保持统一标准,还要求采集的图像素材有较高的质量标准。但是由于在模型训练过程中所需的数据量极大,标注人员手工标注的方式往往面临标注速度慢、标注质量低等问题。目前,并没有通用的、能够适应不同场景不同目标的标注方法来对大量数据进行标注。
发明内容
本发明为克服现有技术的不足之处,提供了一种半介入式的目标对象关键点标注方法,以期能更精确、更容易获取目标对象关键点标注信息,从而实现快速、高效、适应性强的目标对象关键点标注。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种半介入式的目标关键点标注方法的特点在于,包括以下步骤:
步骤1,在标记对象的N个关键点位置上设置与所述标记对象自身颜色不同的N个颜色C1,C2,...,CN的球状标签,其中,CN表示第N种颜色;
步骤2,采集带有球状标签的标记对象的视频图像,记为D1={I1,I2,...,IM};IM表示第M个视频图像;M表示图像帧数;
步骤3,利用自编码器图像还原模型对所述视频图像D1进行去标签还原处理,得到去标签后的视频图像D2={I’1,I’2,...,I’M};I’M表示第M个去标签后的视频图像;
步骤4,利用训练后的球状标签定位模型对所述视频图像Itagged进行标签识别定位,得到关键点的坐标信息集合{P1(X1,Y1),P2(X2,Y2),...,PN(XN,YN)};PN(XN,YN)表示第N个关键点的坐标信息,N表示关键点数量。
本发明所述的半介入式的目标关键点标注方法的特点也在于:所述步骤3包括以下步骤:
步骤3.1,获取包含不同目标对象的M个关键点的图像数据集D3,利用M个颜色C1,C2,...,CM的球状标签对所述图像数据集D3上关键点的坐标位置进行标注,得到重绘后的图像数据集D4;其中,M大于等于N;
将重绘后的图像数据集D4与图像数据集D3合并得到对偶的标记-无标记图像训练集;
步骤3.2,建立自编码器网络结构,并初始化所述自编码器网络结构中的参数;其中,所述自编码器网络结构包括:由k个卷积层和k个最大值池化层所组成的编码器,以及由k+1个卷积层和k个上采样层组成的解码器;
以所述重绘后的图像数据集D4作为初始化后的自编码器网络结构的输入,以图像数据集D3作为初始化后的自编码器网络结构的输出,对所述初始化后的自编码器网络结构进行训练,并使用Euclidean损失函数对各个卷积层的参数进行更新,直到自编码器网络结构收敛为止,从而得到自编码器图像还原模型。
所述步骤4中的球状标签定位模型包括N个包含卷积模块以及M个全连接层;其中,每个卷积模块是由一个卷积层、一个激活层和一个池化层依次连接而成;
使用重绘后的图像数据集D4分批次输入球状标签定位模型中,并计算Euclidean损失函数,直至损失函数收敛为止,从而得到训练后的球状标签定位模型。
与现有技术相比,本发明的有益效果在于:
1、本发明提出了一种半介入式的目标对象关键点标注方法,保证了标注质量的同时提升了数据标注速度。
2、本发明提出了一种图像去标签还原方法,使用自编码器结构对图像上的标签进行擦除,能够较完整地恢复原图像内容。
3、本发明提出了一种球状标签定位方法,使用卷积神经网络结构对球状标签进行定位,提供了精准的球状标签坐标信息。
4、本发明提出了两阶段的级联神经网络骨骼关键点定位技术,检测速度更快,检测精度更高。
附图说明
图1示出本发明实施例的半介入式目标关键点标注方法流程图;
图2示出本发明实施例的图像去标签还原模型流程图;
图3示出本发明实施例的球状标签定位网络模型流程图。
具体实施方式
本实施例中,一种半介入式的目标关键点标注方法,包括:采集待标记目标对象佩戴N个指定颜色的球状标签图像;基于自编码器的图像去标签还原模型;球状标签定位模型。具体的说,是按如下步骤进行:
步骤1,在标记对象的N个关键点位置上设置与标记对象自身颜色不同的N个颜色C1,C2,...,CN的球状标签,其中,CN表示第N种颜色;
根据图1来在目标人体左肩关节、左髋关节、左膝关节分别佩戴红色、黄色、蓝色的球状标签,其中第一颜色球状标签作为第一个关键点标识,第二颜色球状标签作为第二关键点标识,以此类推,第N颜色球状标签作为第N关键点标识。
步骤2,采集带有球状标签的标记对象的视频图像,记为D1={I1,I2,...,IM};IM表示第M个视频图像;M表示图像帧数;
其中采集的图像数据中至少包括一个球状标签的数据为有效数据。
步骤3,利用自编码器图像还原模型对视频图像D1进行去标签还原处理,得到去标签后的视频图像D2={I’1,I’2,...,I’M};I’M表示第M个去标签后的视频图像;
步骤3.1,获取包含不同目标对象的M个关键点的图像数据集D3,利用M个颜色C1,C2,...,CM的球状标签对图像数据集D3上关键点的坐标位置进行标注,得到重绘后的图像数据集D4;其中,M大于等于N;
具体为使用球状标签颜色对已知关键点数据集每张图进行关键点绘制,其中绘制颜色位置为该样本中关键点位置,绘制样式为圆形,绘制尺寸为该图像宽度的1/80,形成新的伪标签数据。以开源COCO数据集为基础,使用红色、黄色、蓝色、绿色对COCO数据集中不同关键点位置进行绘制,绘制样式为圆形,绘制尺寸为该图像宽度的1/80,得到重绘的COCO数据集。组合重绘的COCO数据集和原始COCO数据集,对应构成成对的原始-重绘数据对,作为自编码器的训练数据。
将重绘后的图像数据集D4与图像数据集D3合并得到对偶的标记-无标记图像训练集,作为训练自编码器模型的输入数据;
步骤3.2,建立自编码器网络结构,并初始化自编码器网络结构中的参数;其中,自编码器网络结构包括:由k个卷积层和k个最大值池化层所组成的编码器,以及由k+1个卷积层和k个上采样层组成的解码器;
根据图2所示,初始化自编码器网络参数,使用重绘数据作为输入,一次经过卷积池化模块和上采样模块,得到输出与对应的原始数据计算得到Euclidean损失函数,并对网络参数进行反馈更新,直至第k批次图像数据使损失函数收敛至预设阈值,说明自编码器网络训练完成,得到针对红、黄、蓝、绿四色的图像去标签还原模型。初始化自编码器网络结构参数,其中包括3个卷积池化模块,卷积层和3个卷积上采样模块。其中3个卷积池化模块作为编码器对输入图像进行卷积池化操作,该中间结果作为输入到卷积层,依次再经过3个卷积上采样模块作为解码器,得到输出结果,与输入图像使用Euclidean损失函数对卷积层参数进行反馈更新,直至某一批次输入图像使损失函数收敛至预设阈值,则说明自编码器模型训练完成,得到最终的图像去标签还原模型。
以重绘后的图像数据集D4作为初始化后的自编码器网络结构的输入,以图像数据集D3作为初始化后的自编码器网络结构的输出,对初始化后的自编码器网络结构进行训练,并使用Euclidean损失函数对各个卷积层的参数进行更新,直到自编码器网络结构收敛为止,从而得到自编码器图像还原模型。
步骤4,利用训练后的球状标签定位模型对视频图像Itagged进行标签识别定位,得到关键点的坐标信息集合{P1(X1,Y1),P2(X2,Y2),...,PN(XN,YN)};PN(XN,YN)表示第N个关键点的坐标信息,N表示关键点数量。
具体的说,球状标签定位模型包括N个包含卷积模块以及M个全连接层;其中,每个卷积模块是由一个卷积层、一个激活层和一个池化层依次连接而成;
以重绘COCO数据集为基础,使用卷积神经网络结构,训练得到球状标签定位模型。根据如图3所示的卷积神经网络结构,构造球状标签定位模型,以重绘COCO数据集作为输入,依次经过卷积层和全连接层,与其对应的关键点坐标共同计算Euclidean损失函数并对网络参数进行反馈更新,直至第j批次输入数据使得损失函数收敛至预设阈值,说明卷积网络模型训练完成,得到球状标签定位模型。使用卷积神经网络对球状标签进行定位,使用伪标签数据集D4作为输入,初始化球状标签定位网络结构参数,其中包括尺寸为(5*5*8)、(3*3*16)、(3*3*16)、(3*3*24)的卷积层和(3*3*N)的全连接层。其中卷积层和全连接层对输入图像进行深层特征学习,并使用Euclidean损失函数对其参数进行反馈更新,直至某一批次输入图像使损失含税收敛至预设阈值,则说明球状标签定位网络模型训练完成,得到最终的球状标签定位网络模型。
使用重绘后的图像数据集D4分批次输入球状标签定位模型中,并计算Euclidean损失函数,直至损失函数收敛为止,从而得到训练后的球状标签定位模型。
Claims (3)
1.一种半介入式的目标关键点标注方法,其特征在于,包括以下步骤:
步骤1,在标记对象的N个关键点位置上设置与所述标记对象自身颜色不同的N个颜色C1,C2,...,CN的球状标签,其中,CN表示第N种颜色;
步骤2,采集带有球状标签的标记对象的视频图像,记为D1={I1,I2,...,IM};IM表示第M个视频图像;M表示图像帧数;
步骤3,利用自编码器图像还原模型对所述视频图像D1进行去标签还原处理,得到去标签后的视频图像D2={I’1,I’2,...,I’M};I’M表示第M个去标签后的视频图像;
步骤4,利用训练后的球状标签定位模型对所述视频图像Itagged进行标签识别定位,得到关键点的坐标信息集合{P1(X1,Y1),P2(X2,Y2),...,PN(XN,YN)};PN(XN,YN)表示第N个关键点的坐标信息,N表示关键点数量。
2.根据权利要求1所述的半介入式的目标关键点标注方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1,获取包含不同目标对象的M个关键点的图像数据集D3,利用M个颜色C1,C2,...,CM的球状标签对所述图像数据集D3上关键点的坐标位置进行标注,得到重绘后的图像数据集D4;其中,M大于等于N;
将重绘后的图像数据集D4与图像数据集D3合并得到对偶的标记-无标记图像训练集;
步骤3.2,建立自编码器网络结构,并初始化所述自编码器网络结构中的参数;其中,所述自编码器网络结构包括:由k个卷积层和k个最大值池化层所组成的编码器,以及由k+1个卷积层和k个上采样层组成的解码器;
以所述重绘后的图像数据集D4作为初始化后的自编码器网络结构的输入,以图像数据集D3作为初始化后的自编码器网络结构的输出,对所述初始化后的自编码器网络结构进行训练,并使用Euclidean损失函数对各个卷积层的参数进行更新,直到自编码器网络结构收敛为止,从而得到自编码器图像还原模型。
3.根据权利要求2所述的半介入式的目标关键点标注方法,其特征在于:所述步骤4中的球状标签定位模型包括N个包含卷积模块以及M个全连接层;其中,每个卷积模块是由一个卷积层、一个激活层和一个池化层依次连接而成;
使用重绘后的图像数据集D4分批次输入球状标签定位模型中,并计算Euclidean损失函数,直至损失函数收敛为止,从而得到训练后的球状标签定位模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535014.3A CN113158982A (zh) | 2021-05-17 | 2021-05-17 | 一种半介入式的目标关键点标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535014.3A CN113158982A (zh) | 2021-05-17 | 2021-05-17 | 一种半介入式的目标关键点标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158982A true CN113158982A (zh) | 2021-07-23 |
Family
ID=76876164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535014.3A Pending CN113158982A (zh) | 2021-05-17 | 2021-05-17 | 一种半介入式的目标关键点标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158982A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008114447A (ja) * | 2006-11-02 | 2008-05-22 | Canon Inc | インクジェット記録装置およびインクジェット記録方法 |
US20140185905A1 (en) * | 2011-04-22 | 2014-07-03 | General Electric Company | Analyzing the expression of biomarkers in cells with clusters |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
CN110069647A (zh) * | 2019-05-07 | 2019-07-30 | 广东工业大学 | 图像标签去噪方法、装置、设备及计算机可读存储介质 |
CN110180186A (zh) * | 2019-05-28 | 2019-08-30 | 北京奇思妙想信息技术有限公司 | 一种地形图转换方法及系统 |
CN110956147A (zh) * | 2019-12-05 | 2020-04-03 | 京东数字科技控股有限公司 | 生成训练数据的方法及装置 |
CN112101105A (zh) * | 2020-08-07 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 人脸关键点检测模型的训练方法、装置以及存储介质 |
CN112348747A (zh) * | 2019-08-08 | 2021-02-09 | 苏州科达科技股份有限公司 | 图像增强方法、装置及存储介质 |
CN112419135A (zh) * | 2020-11-19 | 2021-02-26 | 广州华多网络科技有限公司 | 水印识别在线训练、制样、去除方法及装置、设备、介质 |
CN112561902A (zh) * | 2020-12-23 | 2021-03-26 | 天津光电通信技术有限公司 | 一种基于深度学习的芯片逆还原方法及系统 |
CN112800958A (zh) * | 2021-01-28 | 2021-05-14 | 南京邮电大学 | 一种基于热点图的轻量级人体关键点检测方法 |
-
2021
- 2021-05-17 CN CN202110535014.3A patent/CN113158982A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008114447A (ja) * | 2006-11-02 | 2008-05-22 | Canon Inc | インクジェット記録装置およびインクジェット記録方法 |
US20140185905A1 (en) * | 2011-04-22 | 2014-07-03 | General Electric Company | Analyzing the expression of biomarkers in cells with clusters |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
CN110069647A (zh) * | 2019-05-07 | 2019-07-30 | 广东工业大学 | 图像标签去噪方法、装置、设备及计算机可读存储介质 |
CN110180186A (zh) * | 2019-05-28 | 2019-08-30 | 北京奇思妙想信息技术有限公司 | 一种地形图转换方法及系统 |
CN112348747A (zh) * | 2019-08-08 | 2021-02-09 | 苏州科达科技股份有限公司 | 图像增强方法、装置及存储介质 |
CN110956147A (zh) * | 2019-12-05 | 2020-04-03 | 京东数字科技控股有限公司 | 生成训练数据的方法及装置 |
CN112101105A (zh) * | 2020-08-07 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 人脸关键点检测模型的训练方法、装置以及存储介质 |
CN112419135A (zh) * | 2020-11-19 | 2021-02-26 | 广州华多网络科技有限公司 | 水印识别在线训练、制样、去除方法及装置、设备、介质 |
CN112561902A (zh) * | 2020-12-23 | 2021-03-26 | 天津光电通信技术有限公司 | 一种基于深度学习的芯片逆还原方法及系统 |
CN112800958A (zh) * | 2021-01-28 | 2021-05-14 | 南京邮电大学 | 一种基于热点图的轻量级人体关键点检测方法 |
Non-Patent Citations (1)
Title |
---|
袁建征,黄慧明,胡明飞: "高强度聚焦超声图像的去标记算法研究", 科技通报, vol. 32, no. 11, pages 151 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816725B (zh) | 一种基于深度学习的单目相机物体位姿估计方法及装置 | |
US11475247B2 (en) | System and method for adaptive generation using feedback from a trained model | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN108230337B (zh) | 一种基于移动端的语义slam系统实现的方法 | |
CN108335303B (zh) | 一种应用于手掌x光片的多尺度手掌骨骼分割方法 | |
Wang et al. | 3d pose estimation for fine-grained object categories | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN109740686A (zh) | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 | |
CN109919007B (zh) | 一种生成红外图像标注信息的方法 | |
CN110838105A (zh) | 一种业务流程模型图像识别与再构方法 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN110827304A (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN111563550A (zh) | 基于图像技术的精子形态检测方法和装置 | |
Porzi et al. | Depth-aware convolutional neural networks for accurate 3D pose estimation in RGB-D images | |
CN113222940A (zh) | 一种基于rgb-d图像和cad模型的机器人自动抓取工件方法 | |
CN110553650A (zh) | 一种基于小样本学习的移动机器人重定位方法 | |
CN112581483B (zh) | 基于自学习的植物叶片叶脉分割方法和装置 | |
CN113158982A (zh) | 一种半介入式的目标关键点标注方法 | |
Kiyokawa et al. | Efficient collection and automatic annotation of real-world object images by taking advantage of post-diminished multiple visual markers | |
CN111666954A (zh) | 一种显著区域的联合学习提取方法及系统 | |
EP3971767A1 (en) | Method for constructing farmland image-based convolutional neural network model, and system thereof | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
Song et al. | Bi-directional seed attention network for interactive image segmentation | |
CN108573226B (zh) | 基于级联姿势回归的果蝇幼虫体节关键点定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |