CN109241980A - 用于虚拟人物的识别方法及装置 - Google Patents
用于虚拟人物的识别方法及装置 Download PDFInfo
- Publication number
- CN109241980A CN109241980A CN201810974768.7A CN201810974768A CN109241980A CN 109241980 A CN109241980 A CN 109241980A CN 201810974768 A CN201810974768 A CN 201810974768A CN 109241980 A CN109241980 A CN 109241980A
- Authority
- CN
- China
- Prior art keywords
- virtual portrait
- classification
- image
- virtual
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种用于虚拟人物的识别方法及装置。该方法包括提取待识别图像中虚拟人物的位置信息;根据所述位置信息分割出虚拟人物图像;对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及根据分类处理结果识别出虚拟人物。本申请解决了缺乏有效地虚拟人物识别方法的技术问题。通过本申请能够提升虚拟人物识别准确率。
Description
技术领域
本申请涉及计算机视觉领域,具体而言,涉及一种用于虚拟人物的识别方法及装置。
背景技术
随着深度学习的的出现和快速发展,在计算机视觉领域中的物体检测和物体分类的准确率有了非常大幅度的提升。一方面是因为深度学习网络比传统机器学习在提取特征上有了更强的能力,另一方面是因为不断的有海量图片数据集的出现,使深度学习网络模型的训练不会造成过拟合。
发明人发现,对于虚拟人物的检测问题,由于公开数据集都是关于现实生活中的图片,因而没有关于虚拟人物的数据集。进而无法在大数据上进行提前训练,训练过程中容易发生过拟合。进一步,影响通过深度学习提取到的高级特征与虚拟人物特征不能适应。
针对相关技术中缺乏有效地虚拟人物识别方法的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于虚拟人物的识别方法及装置,以解决缺乏有效地虚拟人物识别方法的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于虚拟人物的识别方法。
根据本申请的用于虚拟人物的识别方法包括:提取待识别图像中虚拟人物的位置信息;根据所述位置信息分割出虚拟人物图像;对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及根据分类处理结果识别出虚拟人物。
进一步地,提取待识别图像中虚拟人物的位置信息包括:采集预设影像信息中的虚拟人物视频截图以及图像标注特征;根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;以及通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,其中,在所述深度学习网络模型中去除分类分支。
进一步地,根据所述位置信息分割出虚拟人物图像包括:根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。
进一步地,对所述虚拟人物图像执行虚拟人物预设分类包括:通过所述虚拟人物图像训练深度学习网络分类模型;根据深度学习网络分类模型提取虚拟人物的高级特征;以及检测出虚拟人物类别。
进一步地,对所述虚拟人物图像执行虚拟人物预设分类包括:提取待检测的虚拟人物图片中SIFT特征;根据所述SIFT特征和图像标注特征训练得到分类器;以及根据所述分类区分所述虚拟人物的类别。
为了实现上述目的,根据本申请的另一方面,提供了一种用于虚拟人物的识别装置。
根据本申请的用于虚拟人物的识别装置包括:提取模块,用于提取待识别图像中虚拟人物的位置信息;分割模块,用于根据所述位置信息分割出虚拟人物图像;分类模块,用于对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及识别模块,用于根据分类处理结果识别出虚拟人物。
进一步地,所述提取模块包括:采集单元,用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征;第一训练单元,用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;以及位置单元,用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,其中,在所述深度学习网络模型中去除分类分支。
进一步地,分割模块包括:分割单元,用于根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。
进一步地,所述分类模块包括:第二训练单元,用于通过所述虚拟人物图像训练深度学习网络分类模型;提取单元,用于根据深度学习网络分类模型提取虚拟人物的高级特征;以及第一分类单元,用于检测出虚拟人物类别。
进一步地,所述分类模块包括:特征提取单元,用于提取待检测的虚拟人物图片中SIFT特征;分类单元,用于根据所述SIFT特征和图像标注特征训练得到分类器;以及第二分类单元,用于根据所述分类区分所述虚拟人物的类别。
在本申请实施例中,采用提取待识别图像中虚拟人物的位置信息和根据所述位置信息分割出虚拟人物图像的方式,通过对所述虚拟人物图像执行虚拟人物预设分类,达到了根据分类处理结果识别出虚拟人物的目的,从而实现了既可以提取虚拟人物在图片中较为简单且易分类的整体特征也可以提取虚拟人物在图片中各自类别上的细小的高级特征,两者分类结合的结果会比单独使用深度学习或者传统计算机视觉进行分类在准确率上都有很大的提升的技术效果,进而解决了缺乏有效地虚拟人物识别方法的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于虚拟人物的识别方法示意图;
图2是根据本申请第二实施例的用于虚拟人物的识别方法示意图;
图3是根据本申请第三实施例的用于虚拟人物的识别方法示意图;
图4是根据本申请第四实施例的用于虚拟人物的识别方法示意图;
图5是根据本申请第一实施例的用于虚拟人物的识别装置示意图;
图6是根据本申请第二实施例的用于虚拟人物的识别装置示意图;
图7是根据本申请第三实施例的用于虚拟人物的识别装置示意图;以及
图8是根据本申请第四实施例的用于虚拟人物的识别装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
本申请中用于虚拟人物的识别方法,提取待识别图像中虚拟人物的位置信息通过去掉深度学习物体检测网络中的分类分支,将物体分类和物体位置检测的问题拆分,进而提高不同任务的准确率,降低深度学习模型对海量数据集的需求。同时,根据所述位置信息分割出虚拟人物图像,对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类在实际应用中减少了后续的不必要的重新训练模型去检测物体位置的任务。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102,提取待识别图像中虚拟人物的位置信息;
在整体的虚拟人物检测方法上,相比于用单独一个既检测类别又检测位置的网络模型,通过此步骤可以提取出待识别图像中虚拟人物的位置信息。
待识别图像可以是指虚拟动画片或者虚拟动画电影中的虚拟人物视频的截图。
同时,在进行位置信息提取时还需要进行特征数据标注,可以是图片中虚拟人物的位置信息和类别信息。
具体地,使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如,包括图片中虚拟人物的位置信息和类别信息。首先可以先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型,该深度学习网络模型中暂不考虑虚拟人物类别,模型结构为去分类的检测算法。
由于用于虚拟人物人别的公开数据集都是关于现实生活中的图片,没有关于虚拟人物的数据集。因此,对于虚拟人物检测的深度学习网络模型无法先在大数据集上预训练pre train,很容易造成深度学习网络模型在自己的小虚拟人物训练集上过拟合。通过首先可以先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型可以很好地解决过拟合的问题。
需要注意的是,在本申请中的深度学习网络模型,可以是先通过backbone主干提取图片特征,再通过提取backbone中多个不同尺度的特征图,并对每一个特征图各自接两层卷积层,用于做线性回归进而检测图片中的虚拟人物的具体位置比如,可以是紧贴虚拟人物的左上角和虚拟人物的长和宽。
步骤S104,根据所述位置信息分割出虚拟人物图像;
将上述步骤中训练好的去分类深度学习网络模型,用于提取视频图片中虚拟人物的位置信息,并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来。即可以抠出视频图片中的虚拟人物。
步骤S106,对所述虚拟人物图像执行虚拟人物预设分类,
所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景,对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。
具体地,可以利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示,结合标注数据用于训练分类器分类虚拟人物的类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉Surf特征,将所有虚拟人物图片用特征向量Surf表示,结合标注数据用于训练分类器分类虚拟人物的类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉Harris特征,将所有虚拟人物图片用特征向量Harris表示,结合标注数据用于训练分类器分类虚拟人物的类别。
可以理解,本领域技术人员传统计算机视觉特征可以被替换为其他特征,比如Surf,Harris等等。
可以理解,训练的分类器可以是前馈神经网络分类器或者其他分类器比如SVM。
步骤S108,根据分类处理结果识别出虚拟人物。
需要注意的是,通过图像深度学习分类和图像特征提取分类的分类结果,即结合传统计算机视觉和深度学习特征分别去分类虚拟人物,并加权平均结合两个结果作为最终分类结果。
优选地,可以结合分析步骤S106中训练出的深度学习网络模型和步骤S106中的传统前馈神经网络MLP的输出的类别预测概率结果,两者做加权平均作为最终分类结果。
相比于现实物体在图片中的特征,虚拟人物的特征更平滑和简单一些,比如脸部大部分的三通道颜色值大部分趋近于一致,而现实生活中人脸的颜色值会随着光照等其他因素而受到影响,因此会引发深度学习提取的高级特征不能完全适应虚拟人物的特征的问题。所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景,对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用提取待识别图像中虚拟人物的位置信息和根据所述位置信息分割出虚拟人物图像的方式,通过对所述虚拟人物图像执行虚拟人物预设分类,达到了根据分类处理结果识别出虚拟人物的目的,从而实现了既可以提取虚拟人物在图片中较为简单且易分类的整体特征也可以提取虚拟人物在图片中各自类别上的细小的高级特征,两者分类结合的结果会比单独使用深度学习或者传统计算机视觉进行分类在准确率上都有很大的提升的技术效果,进而解决了缺乏有效地虚拟人物识别方法的技术问题。
根据本申请实施例,优选地,如图2所示,提取待识别图像中虚拟人物的位置信息包括:
步骤S202,采集预设影像信息中的虚拟人物视频截图以及图像标注特征;
使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型,暂不考虑虚拟人物类别。
步骤S204,根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;
标注数据中主要包括图片中虚拟人物的位置信息和类别信息,可以根据不同场景进行选择和确定。从而将原有与线性回归对应的物体分类分支去掉。
步骤S206,通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,
在所述深度学习网络模型中去除分类分支。
通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置时还可以是检测左上角和右下角,中心点和长和宽。
通过去掉深度学习物体检测网络中的分类分支,将物体分类和物体位置检测的问题拆分,进而提高不同任务的准确率,降低深度学习模型对海量数据集的需求,同时在实际应用中减少了后续的不必要的重新训练模型去检测物体位置的任务。
优选地,根据所述位置信息分割出虚拟人物图像包括:根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。比如,比如SSD、Yolo、FasterRCNN等目标检测网络。
根据本申请实施例,优选地,如图3所示,对所述虚拟人物图像执行虚拟人物预设分类包括:
步骤S302,通过所述虚拟人物图像训练深度学习网络分类模型;
步骤S302,根据深度学习网络分类模型提取虚拟人物的高级特征;以及
步骤S302,检测出虚拟人物类别。
具体地,在实施上述步骤时,利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。通过上述步骤,提取虚拟人物在图片中各自类别上的细小的高级特征。
需要注意的是,由于采用了去掉分类分支的方式,在实际应用场景中,当虚拟人物的类别需要增加的时候,不再需要考虑重新训练模型去检测新增类别的虚拟人物物体位置,只需要对分类的模型进行微调fine-tune即可,减少了在实际使用中不必要的工作。
根据本申请实施例,优选地,如图4所示,对所述虚拟人物图像执行虚拟人物预设分类包括:
步骤S402,提取待检测的虚拟人物图片中SIFT特征;
步骤S404,根据所述SIFT特征和图像标注特征训练得到分类器;以及
步骤S406,根据所述分类区分所述虚拟人物的类别。
具体地,在实施上述步骤时,提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示,结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。
需要注意的是,上述传统计算机视觉SIFT特征可以被替换为其他特征,比如Surf,Harris等等。
此外,同时前馈神经网络分类器可以被替换为其他分类器比如SVM。
通过结合上述步骤中使用的传统计算机视觉的特征和上述步骤中使用的深度学习自动提取的高级特征,进而增加了图片中虚拟人物特征的表征范围,可以在虚拟人物的分类准确率上有很大的提升。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述用于虚拟人物的识别方法的装置,如图5所示,该装置包括:提取模块10,用于提取待识别图像中虚拟人物的位置信息;分割模块20,用于根据所述位置信息分割出虚拟人物图像;分类模块30,用于对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及识别模块40,用于根据分类处理结果识别出虚拟人物。
本申请实施例的提取模块10中在整体的虚拟人物检测方法上,相比于用单独一个既检测类别又检测位置的网络模型,通过此步骤可以提取出待识别图像中虚拟人物的位置信息。
待识别图像可以是指虚拟动画片或者虚拟动画电影中的虚拟人物视频的截图。
同时,在进行位置信息提取时还需要进行特征数据标注,可以是图片中虚拟人物的位置信息和类别信息。
具体地,使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如,包括图片中虚拟人物的位置信息和类别信息。首先可以先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型,该深度学习网络模型中暂不考虑虚拟人物类别,模型结构为去分类的检测算法。
由于用于虚拟人物人别的公开数据集都是关于现实生活中的图片,没有关于虚拟人物的数据集。因此,对于虚拟人物检测的深度学习网络模型无法先在大数据集上预训练pre train,很容易造成深度学习网络模型在自己的小虚拟人物训练集上过拟合。通过首先可以先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型可以很好地解决过拟合的问题。
需要注意的是,在本申请中的深度学习网络模型,可以是先通过backbone主干提取图片特征,再通过提取backbone中多个不同尺度的特征图,并对每一个特征图各自接两层卷积层,用于做线性回归进而检测图片中的虚拟人物的具体位置比如,可以是紧贴虚拟人物的左上角和虚拟人物的长和宽。
本申请实施例的分割模块20中将上述步骤中训练好的去分类深度学习网络模型,用于提取视频图片中虚拟人物的位置信息,并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来。即可以抠出视频图片中的虚拟人物。
本申请实施例的分类模块30中所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景,对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。
具体地,可以利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示,结合标注数据用于训练分类器分类虚拟人物的类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉Surf特征,将所有虚拟人物图片用特征向量Surf表示,结合标注数据用于训练分类器分类虚拟人物的类别。
此外,具体地,还可以提取所有虚拟人物图片中的传统计算机视觉Harris特征,将所有虚拟人物图片用特征向量Harris表示,结合标注数据用于训练分类器分类虚拟人物的类别。
可以理解,本领域技术人员传统计算机视觉特征可以被替换为其他特征,比如Surf,Harris等等。
可以理解,训练的分类器可以是前馈神经网络分类器或者其他分类器比如SVM。
本申请实施例的识别模块40中需要注意的是,通过图像深度学习分类和图像特征提取分类的分类结果,即结合传统计算机视觉和深度学习特征分别去分类虚拟人物,并加权平均结合两个结果作为最终分类结果。
优选地,可以结合分析步骤S106中训练出的深度学习网络模型和步骤S106中的传统前馈神经网络MLP的输出的类别预测概率结果,两者做加权平均作为最终分类结果。
相比于现实物体在图片中的特征,虚拟人物的特征更平滑和简单一些,比如脸部大部分的三通道颜色值大部分趋近于一致,而现实生活中人脸的颜色值会随着光照等其他因素而受到影响,因此会引发深度学习提取的高级特征不能完全适应虚拟人物的特征的问题。所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景,对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。
根据本申请实施例,优选地,如图6所示,所述提取模块10包括:采集单元101,用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征;第一训练单元102,用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;以及位置单元103,用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,其中,在所述深度学习网络模型中去除分类分支。
本申请实施例的采集单元101中使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型,暂不考虑虚拟人物类别。
本申请实施例的第一训练单元102中标注数据中主要包括图片中虚拟人物的位置信息和类别信息,可以根据不同场景进行选择和确定。从而将原有与线性回归对应的物体分类分支去掉。
本申请实施例的位置单元103中通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置时还可以是检测左上角和右下角,中心点和长和宽。
通过去掉深度学习物体检测网络中的分类分支,将物体分类和物体位置检测的问题拆分,进而提高不同任务的准确率,降低深度学习模型对海量数据集的需求,同时在实际应用中减少了后续的不必要的重新训练模型去检测物体位置的任务。
优选地,根据所述位置信息分割出虚拟人物图像包括:根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。比如,比如SSD、Yolo、FasterRCNN等目标检测网络。
根据本申请实施例,优选地,如图7所示,所述分类模块30包括:第二训练单元301,用于通过所述虚拟人物图像训练深度学习网络分类模型;提取单元302,用于根据深度学习网络分类模型提取虚拟人物的高级特征;以及第一分类单元303,用于检测出虚拟人物类别。
具体地,在实施上述步骤时,利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。通过上述步骤,提取虚拟人物在图片中各自类别上的细小的高级特征。
需要注意的是,由于采用了去掉分类分支的方式,在实际应用场景中,当虚拟人物的类别需要增加的时候,不再需要考虑重新训练模型去检测新增类别的虚拟人物物体位置,只需要对分类的模型进行微调fine-tune即可,减少了在实际使用中不必要的工作。
根据本申请实施例,优选地,如图8所示,所述分类模块30包括:特征提取单元304,用于提取待检测的虚拟人物图片中SIFT特征;分类单元305,用于根据所述SIFT特征和图像标注特征训练得到分类器;以及第二分类单元306,用于根据所述分类区分所述虚拟人物的类别。
具体地,在实施上述步骤时,提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示,结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。
需要注意的是,上述传统计算机视觉SIFT特征可以被替换为其他特征,比如Surf,Harris等等。
此外,同时前馈神经网络分类器可以被替换为其他分类器比如SVM。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
优选地,分割模块30包括:分割单元,用于根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。比如SSD、Yolo、FasterRCNN等目标检测网络。
本申请的原理具体如下,在下述原理中选用SSD检测网络为例,对本申请中的原理进行详细说明。
具体地,在整体的虚拟人物识别方法上,相比于用单独一个既检测类别又检测位置的网络模型,本申请首先可以通过将两个问题拆分,用不一样的稍小的模型针对性的分别做物体分类和位置检测,可以将各自相对应的任务的准确率提高,并且降低对海量数据集的需求。同时不仅如此,在实际应用场景中,当虚拟人物的类别需要增加的时候,不再需要考虑重新训练模型去检测新增类别的虚拟人物物体位置,只需要对分类的模型进行微调fine tune即可,减少了在实际使用中不必要的工作。
步骤一,使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如,可以包括图片中虚拟人物的位置信息和类别信息。先训练一个只用于检测图片中虚拟人物具体位置的深度学习网络模型,暂不考虑虚拟人物类别,深度学习网络模型结构为去分类的SSD检测网络。
可选地,步骤一中检测物体位置可以被替换为其他方式,比如检测左上角和右下角,中心点和长和宽。
可选地,深度学习网络模型改进的思想也可以被应用在其他物体检测的网络结构中,比如Yolo或者FasterRCNN。
具体地,深度学习网络模型是先通过backbone主干提取图片特征,再通过提取backbone中多个不同尺度的特征图,并对每一个特征图各自接两层卷积层,用于做线性回归进而检测图片中的虚拟人物的具体位置比如,紧贴虚拟人物的左上角和虚拟人物的长和宽,此外将原有与线性回归对应的物体分类分支去掉,此结构在本申请中称为去分类的SSD。
本申请中首先可以通过将位置检测和分类检测的问题进行拆分,使用不一样的稍小的模型针对性的分别做物体分类和位置检测,可以将各自相对应的任务的准确率提高,并且降低对海量数据集的需求。
步骤二,训练好的去分类SSD用于提取视频图片中虚拟人物的位置信息,并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来。通过此步骤抠出虚拟人物。
步骤三,利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。
可选地,深度学习网络分类模型的结构可以被替换为其他结构,比如Vgg16,Xception等等。
步骤四,提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示,结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。
可选地,采用传统计算机视觉特征可以被替换为其他特征,比如Surf,Harris等等。
可选地,同时前馈神经网络分类器可以被替换为其他分类器比如,SVM。
步骤五,使用机器学习中的模型融合ensemble model的方式,结合分析步骤三训练出的深度学习网络模型和步骤四的传统前馈神经网络MLP的输出的类别预测概率结果,两者做加权平均作为最终分类结果.。
本申请中通过在分类虚拟人物的问题上,结合传统计算机视觉特征提取方法和深度学习手段,既可以提取虚拟人物在图片中较为简单且易分类的整体特征也可以提取虚拟人物在图片中各自类别上的细小的高级特征,两者分类结合的结果会比单独使用深度学习或者传统计算机视觉进行分类在准确率上都有很大的提升。并且相较于深度学习,用于分类SIFT特征的前馈神经网络不需要过多的全连接层,因此在分类效率上不会对深度学习网络模型造成滞后的效果。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种用于虚拟人物的识别方法,其特征在于,包括:
提取待识别图像中虚拟人物的位置信息;
根据所述位置信息分割出虚拟人物图像;
对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及
根据分类处理结果识别出虚拟人物。
2.根据权利要求1所述的识别方法,其特征在于,提取待识别图像中虚拟人物的位置信息包括:
采集预设影像信息中的虚拟人物视频截图以及图像标注特征;
根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;以及
通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,其中,在所述深度学习网络模型中去除分类分支。
3.根据权利要求1所述的识别方法,其特征在于,根据所述位置信息分割出虚拟人物图像包括:
根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。
4.根据权利要求1所述的识别方法,其特征在于,对所述虚拟人物图像执行虚拟人物预设分类包括:
通过所述虚拟人物图像训练深度学习网络分类模型;
根据深度学习网络分类模型提取虚拟人物的高级特征;以及
检测出虚拟人物类别。
5.根据权利要求1所述的识别方法,其特征在于,对所述虚拟人物图像执行虚拟人物预设分类包括:
提取待检测的虚拟人物图片中SIFT特征;
根据所述SIFT特征和图像标注特征训练得到分类器;以及
根据所述分类区分所述虚拟人物的类别。
6.一种用于虚拟人物的识别装置,其特征在于,包括:
提取模块,用于提取待识别图像中虚拟人物的位置信息;
分割模块,用于根据所述位置信息分割出虚拟人物图像;
分类模块,用于对所述虚拟人物图像执行虚拟人物预设分类,其中,所述虚拟人物预设分类中至少包括:图像深度学习分类和图像特征提取分类;以及识别模块,用于根据分类处理结果识别出虚拟人物。
7.根据权利要求6所述的识别装置,其特征在于,所述提取模块包括:
采集单元,用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征;
第一训练单元,用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型;以及
位置单元,用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置,其中,在所述深度学习网络模型中去除分类分支。
8.根据权利要求6所述的识别装置,其特征在于,分割模块包括:
分割单元,用于根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。
9.根据权利要求6所述的识别装置,其特征在于,所述分类模块包括:
第二训练单元,用于通过所述虚拟人物图像训练深度学习网络分类模型;
提取单元,用于根据深度学习网络分类模型提取虚拟人物的高级特征;以及
第一分类单元,用于检测出虚拟人物类别。
10.根据权利要求6所述的识别装置,其特征在于,所述分类模块包括:
特征提取单元,用于提取待检测的虚拟人物图片中SIFT特征;
分类单元,用于根据所述SIFT特征和图像标注特征训练得到分类器;以及
第二分类单元,用于根据所述分类区分所述虚拟人物的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974768.7A CN109241980A (zh) | 2018-08-24 | 2018-08-24 | 用于虚拟人物的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974768.7A CN109241980A (zh) | 2018-08-24 | 2018-08-24 | 用于虚拟人物的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241980A true CN109241980A (zh) | 2019-01-18 |
Family
ID=65068262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810974768.7A Pending CN109241980A (zh) | 2018-08-24 | 2018-08-24 | 用于虚拟人物的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241980A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486201A (zh) * | 2021-06-21 | 2021-10-08 | 上海同温层智能科技有限公司 | 一种卡通人物图像分类处理方法与系统 |
CN113553911A (zh) * | 2021-06-25 | 2021-10-26 | 复旦大学 | 融合surf特征和卷积神经网络的小样本人脸表情识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095903A (zh) * | 2016-06-08 | 2016-11-09 | 成都三零凯天通信实业有限公司 | 一种基于深度学习技术的广播电视舆情分析方法及系统 |
CN107256386A (zh) * | 2017-05-23 | 2017-10-17 | 东南大学 | 基于深度学习的人类行为分析方法 |
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
US20180053041A1 (en) * | 2016-08-17 | 2018-02-22 | Hon Hai Precision Industry Co., Ltd. | Face recognition system and method |
CN107909005A (zh) * | 2017-10-26 | 2018-04-13 | 西安电子科技大学 | 基于深度学习的监控场景下人物姿态识别方法 |
-
2018
- 2018-08-24 CN CN201810974768.7A patent/CN109241980A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095903A (zh) * | 2016-06-08 | 2016-11-09 | 成都三零凯天通信实业有限公司 | 一种基于深度学习技术的广播电视舆情分析方法及系统 |
US20180053041A1 (en) * | 2016-08-17 | 2018-02-22 | Hon Hai Precision Industry Co., Ltd. | Face recognition system and method |
CN107256386A (zh) * | 2017-05-23 | 2017-10-17 | 东南大学 | 基于深度学习的人类行为分析方法 |
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
CN107909005A (zh) * | 2017-10-26 | 2018-04-13 | 西安电子科技大学 | 基于深度学习的监控场景下人物姿态识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486201A (zh) * | 2021-06-21 | 2021-10-08 | 上海同温层智能科技有限公司 | 一种卡通人物图像分类处理方法与系统 |
CN113553911A (zh) * | 2021-06-25 | 2021-10-26 | 复旦大学 | 融合surf特征和卷积神经网络的小样本人脸表情识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104166841B (zh) | 一种视频监控网络中指定行人或车辆的快速检测识别方法 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN110738101A (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN105095884B (zh) | 一种基于随机森林支持向量机的行人识别系统及处理方法 | |
CN103971091B (zh) | 飞机机号自动识别方法 | |
CN110705357A (zh) | 人脸识别方法和人脸识别装置 | |
CN105868708A (zh) | 一种图像目标识别方法及装置 | |
CN109919060A (zh) | 一种基于特征匹配的身份证内容识别系统及方法 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
CN109670517A (zh) | 目标检测方法、装置、电子设备和目标检测模型 | |
CN101447023B (zh) | 人头检测方法和系统 | |
CN112464797B (zh) | 一种吸烟行为检测方法、装置、存储介质及电子设备 | |
CN108647617A (zh) | 一种基于卷积神经网络的驾驶员手部定位和抓握分析方法 | |
CN107886110A (zh) | 人脸检测方法、装置及电子设备 | |
CN103544478A (zh) | 一种全方位人脸检测的方法及系统 | |
CN109241980A (zh) | 用于虚拟人物的识别方法及装置 | |
CN109977875A (zh) | 基于深度学习的手势识别方法及设备 | |
CN113191216A (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和系统 | |
CN109241952B (zh) | 拥挤场景下人物计数方法及装置 | |
CN110121723B (zh) | 人工神经网络 | |
Das et al. | Human face detection in color images using HSV color histogram and WLD | |
Sruthi et al. | Double-handed dynamic gesture recognition using contour-based hand tracking and maximum mean probability ensembling (MMPE) for Indian Sign language | |
KR102085070B1 (ko) | 딥러닝 기반 영상 정합 장치 및 방법 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN109711232A (zh) | 基于多目标函数的深度学习行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190118 Assignee: Apple R&D (Beijing) Co., Ltd. Assignor: BEIJING MOSHANGHUA TECHNOLOGY CO., LTD. Contract record no.: 2019990000055 Denomination of invention: Recognition methods and device for virtual portrait License type: Common License Record date: 20190211 |
|
EE01 | Entry into force of recordation of patent licensing contract |