CN110263724A - 图片识别方法、识别模型训练方法、装置及存储介质 - Google Patents

图片识别方法、识别模型训练方法、装置及存储介质 Download PDF

Info

Publication number
CN110263724A
CN110263724A CN201910544392.0A CN201910544392A CN110263724A CN 110263724 A CN110263724 A CN 110263724A CN 201910544392 A CN201910544392 A CN 201910544392A CN 110263724 A CN110263724 A CN 110263724A
Authority
CN
China
Prior art keywords
target
identification model
square
picture
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910544392.0A
Other languages
English (en)
Inventor
庄新瑞
李悦翔
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910544392.0A priority Critical patent/CN110263724A/zh
Publication of CN110263724A publication Critical patent/CN110263724A/zh
Priority to CN202010043334.2A priority patent/CN111046855A/zh
Priority to JP2021547115A priority patent/JP7233555B2/ja
Priority to PCT/CN2020/097273 priority patent/WO2020253852A1/zh
Priority to EP20825586.9A priority patent/EP3989109A4/en
Priority to KR1020217029414A priority patent/KR102645533B1/ko
Priority to US17/402,500 priority patent/US12112556B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片识别方法、识别模型训练方法、装置及存储介质。其中,该方法包括:获取待识别的目标3D图片;将待识别的目标3D图片输入到第一识别模型中,其中,第一识别模型用于对待识别的目标3D图片进行识别得到待识别的目标3D图片的图片类型,第一识别模型的卷积块与第二识别模型的卷积块相同,第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取第一识别模型输出的待识别的目标3D图片的第一类型。本发明解决了相关技术中模型训练效率低的技术问题。

Description

图片识别方法、识别模型训练方法、装置及存储介质
技术领域
本发明涉及计算机领域,具体而言,涉及一种图片识别方法、识别模型训练方法、装置及存储介质。
背景技术
相关技术中,在识别3D图像的类型时,通常需要使用大量的3D图片样本对3D模型进行训练,然后才可以使用训练好的3D模型识别3D图像的类型。
然而,若是使用上述方法,需要消耗大量的时间进行模型的训练,造成对模型的训练效率低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片识别方法、识别模型训练方法、装置及存储介质,以至少解决相关技术中模型训练效率低的技术问题。
根据本发明实施例的一个方面,提供了一种图片识别方法,包括:获取待识别的目标3D图片;将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型。
根据本发明实施例的另一方面,还提供了一种识别模型训练方法,包括:获取3D样本图片,从3D样本图片中分割出N个目标正方体;对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
根据本发明实施例的又一方面,还提供了一种图片识别装置,包括:第一获取单元,用于获取待识别的目标3D图片;第一输入单元,用于将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;第二获取单元,用于获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型。
作为一种可选的示例,上述装置还包括:第三获取单元,用于在上述获取待识别的目标3D图片之前,获取上述3D样本图片;第一确定单元,用于从上述3D样本图片中确定出原始正方体;拆分单元,用于将上述原始正方体拆分为上述N个目标正方体。
作为一种可选的示例,上述N为大于1的正整数的3次方,上述拆分单元包括:拆分模块,用于保持相邻的两个上述目标正方体之间间隔M个体素,从上述原始正方体中拆分出上述N个目标正方体,上述M为大于0且小于J-1的正整数,上述J为上述目标正方体的边长。
作为一种可选的示例,上述装置还包括:第四获取单元,用于上述获取待识别的目标3D图片之前,获取上述原始识别模型对上述目标训练样本进行识别后输出的识别结果,其中,上述识别结果中包括上述目标训练样本中上述目标正方体的各种排序顺序与每一个上述目标正方体的旋转角度的概率;第三确定单元,用于在上述识别结果满足第一目标函数的概率大于第一阈值时,将上述原始识别模型确定为上述第二识别模型。
作为一种可选的示例,上述装置还包括:第四确定单元,用于上述获取待识别的目标3D图片之前,将上述第二识别模型的卷积块确定为上述第一识别模型的卷积块;训练单元,用于使用第一训练样本对上述第一识别模型进行训练,直到上述第一识别模型的准确度大于第二阈值,其中,上述第一训练样本包括第一3D图片与上述第一3D图片的类型。
根据本发明实施例的又一方面,还提供了一种识别模型训练装置,包括:分割单元,用于获取3D样本图片,从3D样本图片中分割出N个目标正方体;处理单元,用于对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;训练单元,用于使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图片识别方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的图片识别方法。
在本发明实施例中,采用获取待识别的目标3D图片;将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型的方法。由于在上述方法中,预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果,解决了相关技术中模型训练效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图片识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的图片识别方法的流程示意图;
图3是根据本发明实施例的一种可选的图片识别方法的示意图;
图4是根据本发明实施例的另一种可选的图片识别方法的示意图;
图5是根据本发明实施例的又一种可选的图片识别方法的示意图;
图6是根据本发明实施例的又一种可选的图片识别方法的示意图;
图7是根据本发明实施例的又一种可选的图片识别方法的示意图;
图8是根据本发明实施例的又一种可选的图片识别方法的示意图;
图9是根据本发明实施例的又一种可选的图片识别方法的示意图;
图10是根据本发明实施例的一种可选的识别模型训练方法的结构示意图;
图11是根据本发明实施例的一种可选的图片识别装置的结构示意图;
图12是根据本发明实施例的一种可选的识别模型训练装置的结构示意图;
图13是根据本发明实施例的一种可选的电子装置的结构示意图;
图14是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
磁共振成像(Magnetic Resonance Imagin,简称为MRI):医学影像的一种。
电子计算机断层扫描(Computed Tomography,简称为CT):医学影像的一种,可用于多种疾病的检查。
卷积神经网络(convolution neural network,简称为CNN)
多模态脑部肿瘤分割(Multimodal Brain Tumor Segmentation,简称为BRATS)
Feature map:图像和滤波器进行卷积后得到的特征图。Feature map可以和滤波器进行卷积生成新的feature map。
Siamese网络:包含几个相同结构的卷积神经网络,各个网络之间能够权重参数共享
Hamming distance:汉明距离,衡量两个字符串对应位置的不同字符的数目
全卷积网络(Fully convolutional network,简称为FCN):图像分割技术最常用的一种卷积网络,完全由卷积层和池化层组成。
根据本发明实施例的一个方面,提供了一种图片识别方法,可选地,作为一种可选的实施方式,上述图片识别方法可以但不限于应用于如图1所示的环境中。
图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106,用于存储交互数据、处理器108,用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114,用于存储交互数据、处理引擎116,用于处理交互数据。用户设备104中包括有上述第一识别模型,用户设备104可以获取待识别的目标3D图片104-2,并对目标3D图片104-2进行识别,并输出目标3D图片104-2的第一类型104-4。
可选地,上述图片识别方法可以但不限于应用于可以计算数据的终端上,例如手机、平板电脑、笔记本电脑、PC机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
可选地,作为一种可选的实施方式,如图2所示,上述图片识别方法包括:
S202,获取待识别的目标3D图片;
S204,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S206,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,上述图片识别方法可以但不限于应用于图片识别领域。例如,将上述方法应用到识别3D图片的类型的过程中。如识别3D病症图片的中病症的类型的过程中。举例说明,在识别脑出血类型时,在获取到3D病症图片后(3D病症图片可以为MRI图片或者CT图片),将3D病症图片输入到第一识别模型中,使用第一模型对3D病症图片进行识别并输出3D病症图片的第一类型。如第一类型可以为健康,或者动脉瘤,动静脉畸形,烟雾病,高血压等。
在上述方法中,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
可选地,在上述方法中,在获取到目标3D图片之前,需要先对第二识别模型进行训练。在训练时,首先需要获取到3D样本图片。3D样本图片为未标签标注的图片。在获取到3D样本图片之后,需要从3D样本图片中提取原始正方体,并将原始正方体拆分为N个目标正方体。
可选地,在提取原始正方体时,可以先确定3D样本图片的几何中心。在确定几何中心后,以该几何中心为上述原始正方体的几何中心,并确定出原始正方体。上述原始正方体的边长小于3D样本图片的最小变的长度。
例如,如图3所示,对于一张3D样本图片302,首先确定出3D样本图片302的几何中心304,然后确定出以几何中心304为几何中心的原始正方体306。
可选地,在确定出3D样本图片的几何中心之后,还可以确定出一个半径r,然后以3D样本图片的几何中心为圆心,以半径r为半径做球,然后从球中选择任意一点作为上述原始正方体的几何中中心,确定上述原始正方体。需要说明的是,确定出的原始正方体是位于3D样本图片中的,不会超出3D样本图片的范围。
可选地,在确定出原始正方体之后,需要对原始正方体进行拆分,拆分得到N个目标正方体。在拆分时,可以使用任意方法,如从原始正方体中随机挖出N个目标正方体,或者将原始正方体的一部分拆分得到N个目标正方体。或者,将原始正方体平均拆分成N个目标正方体,N为正整数的三次方。以N为8为例,如图4所示,将一个原始正方体404延402-1、402-2、402-3的箭头所示的方向进行拆分,得到8个目标正方体(图4中的拆分方法仅为示例)。或者,在拆分时,每两个相邻的正方体之间间隔M个体素。例如,以M为2为例,如图5所示,将原始正方体502拆分为8个目标正方体504。原始正方体502的边长为10个体素,则目标正方体504的边长为4个体素。
可选地,在获取到N个目标正方体之后,还可以对N个目标正方体中的第一目标正方体旋转第一角度,如旋转90度,旋转180度等。第一目标正方体可以有一个或多个,每一个第一目标正方体旋转角度可以相同或不同。将旋转后的第一目标正方体与剩余未旋转的目标正方体进行排序,排序可以随机排序,排序后得到目标训练样本。
在获取到目标训练样本后,使用目标训练样本对原始识别模型进行训练,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。说明第二识别模型的准确度大于了第一阈值。如准确度达到99.95%以上。
使用上述训练方法大大提高了训练第二识别模型的效率。
可选地,在训练得到第二识别模型之后,可以获取第二识别模型中的卷积块,并将卷积块作为第一识别模型的卷积块,并使用第一训练样本对第一识别模型进行训练。第一训练样本为包括图片类型的3D图片。在第一识别模型的识别准确度大于第二阈值后,可以将第一识别模型投入到使用之中。如识别3D图片的病症类型。如图6所示,终端的显示界面602上显示有选择按钮602-1,用户可以选择待识别的目标3D图片604,终端对待识别的目标3D图片604进行识别,并输出待识别的目标3D图片的第一类型606。
以下结合一个具体示例进行说明。
如,识别脑部病症时,获取公开的BRATS-2018脑部神经胶质瘤分割数据集和从合作医院采集的脑出血分类数据集,上述数据作为实验数据。
BRATS-2018数据集包括285个病人的MRI影像,每个病人MRI影像包括4个不同的模态,分别是T1,T1Gd,T2,FLAIR,不同模态的数据均经过共同配准,每幅图像的大小为240x240x155。
脑出血数据集包括1486个脑出血的脑部CT扫描图像,脑出血类型分别为动脉瘤,动静脉畸形,烟雾病,高血压。每幅CT图像的大小均为230x270x30。
将上述图片用作第二识别模型的训练。如图7所示,对于一幅图,从图中提取出原始正方体并将原始正方体拆分为目标正方体。具体选择原始正方体的方法请参见上述示例,在此不做重复。在选择出原始正方体之后,为了鼓励网络通过魔方复原的代理任务学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,我们在切割原始正方体得到目标正方体时在相邻的两个目标正方体之间预留10个体素以内的随机间隔,之后对每个目标正方体内的体素进行[-1,1]归一化操作。得到目标训练样本。
在得到目标训练样本之后,需要对第二识别模型进行训练。如图7所示,孪生网络(Siamese网络)中包括X个互相共享权重的子网络,其中X表示目标正方体的数目。在实验中使用了有8个目标正方体输入的八合一Siamese网络,各个子网络具有相同的网络结构且互相共享权重。每个子网络的主干结构可以使用目前存在的各个类型的3D CNN,在实验中使用了3D VGG网络。将所有子网络最后一个全连接层的输出特征图featuremap进行叠加然后输入到不同的分支中,分别用于目标正方体的空间重排任务和目标正方体旋转判断任务。上述feature map为卷积模型中任意一个网络所输出的内容。
1、目标正方体的重排
对于本方案所提出的魔方复原任务,其第一步就是对目标正方体进行重排。以二阶魔方为例,如图7所示,其总共具有2x 2x 2=8个目标正方体,我们首先要生成8个目标正方体的所有排列组合序列P=(P1,P2,…,P8!),这些排列序列控制着魔方复原任务的复杂程度,如果两个排列序列相互之间过于相似,那么网络的学习过程就会变得非常简单,很难学习到复杂的特征信息。为了保证学习的有效性,使用Hamming distance作为衡量指标,依次选取相互之间差别更大的K个序列。对于每次魔方复原的训练输入数据,从K个序列中随机抽取一个,例如(2,5,8,4,1,7,3,6),然后将裁切好的8个目标正方体按照该序列的顺序进行重新排列,之后将重新排列好的目标正方体依次输入到网络中,最终网络要学习的目标就是要判断输入序列属于这K个序列中的哪一个,因此对于目标正方体重排其损失函数如下:
上式中的lj表示序列的真实标签one-hot标签,表pj示网络输出的对于各个序列的预测概率。
2、目标正方体的旋转
在3D魔方复原任务中增加一个新的操作,即目标正方体的旋转,通过这个操作能够让网络学习到3D图像块的旋转不变的特征。
目标正方体通常均为立方体结构,如果让一个目标正方体在空间中自由的旋转,会有3(旋转轴,x,y,z轴)x 2(旋转方向,顺时针,逆时针)x 4(旋转角度,0°,90°,180°,270°)=24种不同的可能。为了降低任务的复杂性,限制目标正方体的旋转选择,规定目标正方体只能沿水平或者垂直方向进行180°的旋转。如图2所示,魔方块3,4进行了水平180°旋转,魔方块5,7进行了垂直方向180°旋转,旋转之后的魔方块输入进网络后网络要判断每个目标正方体进行了何种形式的旋转,因此对于魔方块旋转任务其损失函数如下:
公式中M表示目标正方体的数目,gi hor表示目标正方体竖直方向旋转的one-hot标签,gi ver表示目标正方体水平方向旋转的one-hot标签,ri hor,ri ver分别表示网络在竖直、水平方向的预测输出概率。
根据前面的定义,模型的的目标函数为排列损失函数和旋转损失函数的线性加权,模型的整体损失函数如下:
loss=a*lossp+b*lossR (3)
其中a和b分别为两个损失函数的权重,控制了两个子任务之间的互相影响程度,在实验中将两个权重值均设置成0.5能够使预训练达到更好地效果。
经过上述训练后,可以得到第二识别模型。第二识别模型的准确度大于了第一阈值。
此时,可以将第二识别模型的卷积块提取出来,微调后用作其他目标任务。
例如,将第二识别模型的卷积块提取出来,用于第一识别模型的识别3D图片的类型。对于分类任务,只需要对CNN网络后面的全连接层进行重新训练,对于全连接层之前的卷积层可以使用更小的学习率进行微调。
或者将上述第二识别模型的卷积块用于分割任务。对于分割任务,预训练网络可以使用于在图像分割任务上较为常用的全卷积神经网络(FCN),例如3D U-Net结构,如图8所示。但是,由于前期魔方复原式的预训练只能针对U-Net的下采样阶段,对于U-Net上采样阶段的网络参数在训练时仍需要进行随机初始化,为了避免大量参数初始化对前期预训练效果带来的影响,使用了密集上采样卷积模块Dense Upsampling Convolution(DUC)模块来替代原有的转置卷积,对特征图进行上采样,恢复到图像原始输入大小,DUC模块的结构如图9所示。其中,C表示通道数量,d表示扩大倍数。H为特征图的长,W为特征图的宽。
通过本实施例,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
作为一种可选的实施方案,在所述获取待识别的目标3D图片之前,还包括:
S1,获取所述3D样本图片;
S2,从所述3D样本图片中确定出原始正方体;
S3,将所述原始正方体拆分为所述N个目标正方体。
可选地,在本方案中,3D样本图片与目标3D图片可以为相同的图片。即,在使用3D样本图片对第二识别模型进行训练之后,并将第二卷积块用作第一识别模型的卷积块之后,可以将3D样本图片输入到第一识别模型中,由第一识别模型识别3D样本图片的类型。3D样本图片在输入第二识别模型时,不需要输入3D样本图片的类型。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,获取N个目标正方体对第二识别模型进行训练,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述N为大于1的正整数的3次方,所述将所述原始正方体拆分为所述N个目标正方体包括:
S1,保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
可选地,在确定N个目标正方体时,两个相邻的目标正方体之间间隔M个体素,可以使第二识别模型学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,提高了第二识别模型的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,在所述获取待识别的目标3D图片之前,还包括:
S1,从所述N个目标正方体中确定出第一目标正方体;
S2,将所述第一目标正方体旋转第一角度;
S3,将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
可选地,上述排序可以为随机对N个目标正方体进行排序。上述旋转可以对N个目标正方体中的多个第一目标正方体进行旋转。旋转可以旋转任意角度。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,在获取N个目标正方体之后,对N个目标正方体中的第一目标正方体进行旋转,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,还包括:
S1,将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
通过本实施例,通过上述方法,从而提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述获取待识别的目标3D图片之前,还包括:
S1,获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
S2,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
可选地,对第二识别模型的训练不能一直持续,当第二识别模型的识别准确度大于一个值则认为第二识别模型符合要求。从而停止训练。
通过本实施例,通过设置一个挑出条件从而停止对第二识别模型的训练,提高了对第二识别模型进行训练的训练效率。
作为一种可选的实施方案,所述获取待识别的目标3D图片之前,还包括:
S1,将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
S2,使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
可选地,在对第一识别模型进行训练时,可以输入带有标签的第一样本图片。然后对第一识别模型进行训练,直到第一识别模型的识别准确度大于第二阈值,则第一识别模型可以投入到使用中。
通过本实施例,通过在使用第一识别模型之前对第一识别模型进行训练,从而提高了对第一识别模型进行训练的训练效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种识别模型训练方法。如图10所示,该方法包括:
S1002,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S1004,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S1006,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
可选地,上述方法可以但不限于应用于模型训练的过程中。在训练原始识别模型时,从一张3D样本图片中提取出N个目标正方体,将对N个目标正方体进行旋转与排序后得到N个正方体作为目标训练样本输入到原始识别模型中。具体提取、旋转、排序方法可以参见上述实施例中的方法,本实施例不再赘述。在训练原始识别模型时,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将当前的原始识别模型确定为训练成熟的模型。
通过上述方法,可以大大提高对原始识别模型的训练效率。
可选地,在训练得到成熟的原始识别模型之后,可以将原始识别模型的卷积块提取出来,添加新的全连接层之后,形成新的识别模型,并可以使用新的识别模型识别其他人物。新的识别模型经过少量样本的训练即可具备较高的识别准确度。例如,将新的识别模型应用到识别3D图片的类型的过程中,或者将新的识别模型应用到3D图片的分割等任务中,在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片识别方法的图片识别装置。如图11所示,该装置包括:
(1)第一获取单元1102,用于获取待识别的目标3D图片;
(2)第一输入单元1104,用于将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
(3)第二获取单元1106,用于获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,上述图片识别装置可以但不限于应用于图片识别领域。例如,将上述方法应用到识别3D图片的类型的过程中。如识别3D病症图片的中病症的类型的过程中。举例说明,在识别脑出血类型时,在获取到3D病症图片后,将3D病症图片输入到第一识别模型中,使用第一模型对3D病症图片进行识别并输出3D病症图片的第一类型。如第一类型可以为健康,或者动脉瘤,动静脉畸形,烟雾病,高血压等。
在上述方法中,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
可选地,在上述方法中,在获取到目标3D图片之前,需要先对第二识别模型进行训练。在训练时,首先需要获取到3D样本图片。3D样本图片为未标签标注的图片。在获取到3D样本图片之后,需要从3D样本图片中提取原始正方体,并将原始正方体拆分为N个目标正方体。
可选地,在提取原始正方体时,可以先确定3D样本图片的几何中心。在确定几何中心后,以该几何中心为上述原始正方体的几何中心,并确定出原始正方体。上述原始正方体的边长小于3D样本图片的最小变的长度。
例如,如图3所示,对于一张3D样本图片302,首先确定出3D样本图片302的几何中心304,然后确定出以几何中心304为几何中心的原始正方体306。
可选地,在确定出3D样本图片的几何中心之后,还可以确定出一个半径r,然后以3D样本图片的几何中心为圆心,以半径r为半径做球,然后从球中选择任意一点作为上述原始正方体的几何中中心,确定上述原始正方体。需要说明的是,确定出的原始正方体是位于3D样本图片中的,不会超出3D样本图片的范围。
可选地,在确定出原始正方体之后,需要对原始正方体进行拆分,拆分得到N个目标正方体。在拆分时,可以使用任意方法,如从原始正方体中随机挖出N个目标正方体,或者将原始正方体的一部分拆分得到N个目标正方体。或者,将原始正方体平均拆分成N个目标正方体,N为正整数的三次方。以N为8为例,如图4所示,将一个原始正方体404延402-1、402-2、402-3的箭头所示的方向进行拆分,得到8个目标正方体(图4中的拆分方法仅为示例)。或者,在拆分时,每两个相邻的正方体之间间隔M个体素。例如,以M为2为例,如图5所示,将原始正方体502拆分为8个目标正方体504。原始正方体502的边长为10个体素,则目标正方体504的边长为4个体素。
可选地,在获取到N个目标正方体之后,还可以对N个目标正方体中的第一目标正方体旋转第一角度,如旋转90度,旋转180度等。第一目标正方体可以有一个或多个,每一个第一目标正方体旋转角度可以相同或不同。将旋转后的第一目标正方体与剩余未旋转的目标正方体进行排序,排序可以随机排序,排序后得到目标训练样本。
在获取到目标训练样本后,使用目标训练样本对原始识别模型进行训练,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。说明第二识别模型的准确度大于了第一阈值。如准确度达到99.95%以上。
使用上述训练方法大大提高了训练第二识别模型的效率。
可选地,在训练得到第二识别模型之后,可以获取第二识别模型中的卷积块,并将卷积块作为第一识别模型的卷积块,并使用第一训练样本对第一识别模型进行训练。第一训练样本为包括图片类型的3D图片。在第一识别模型的识别准确度大于第二阈值后,可以将第一识别模型投入到使用之中。如识别3D图片的病症类型。如图6所示,终端的显示界面602上显示有选择按钮602-1,用户可以选择待识别的目标3D图片604,终端对待识别的目标3D图片604进行识别,并输出待识别的目标3D图片的第一类型606。
通过本实施例,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
作为一种可选的实施方案,所述装置还包括:
(1)第三获取单元,用于在所述获取待识别的目标3D图片之前,获取所述3D样本图片;
(2)第一确定单元,用于从所述3D样本图片中确定出原始正方体;
(3)拆分单元,用于将所述原始正方体拆分为所述N个目标正方体。
可选地,在本方案中,3D样本图片与目标3D图片可以为相同的图片。即,在使用3D样本图片对第二识别模型进行训练之后,并将第二卷积块用作第一识别模型的卷积块之后,可以将3D样本图片输入到第一识别模型中,由第一识别模型识别3D样本图片的类型。3D样本图片在输入第二识别模型时,不需要输入3D样本图片的类型。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,获取N个目标正方体对第二识别模型进行训练,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述N为大于1的正整数的3次方,所述拆分单元包括:
(1)拆分模块,用于保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
可选地,在确定N个目标正方体时,两个相邻的目标正方体之间间隔M个体素,可以使第二识别模型学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,提高了第二识别模型的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第二确定单元,用于在所述获取待识别的目标3D图片之前,从所述N个目标正方体中确定出第一目标正方体;
(2)旋转单元,用于将所述第一目标正方体旋转第一角度;
(3)排序单元,用于将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
可选地,上述排序可以为随机对N个目标正方体进行排序。上述旋转可以对N个目标正方体中的多个第一目标正方体进行旋转。旋转可以旋转任意角度。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,在获取N个目标正方体之后,对N个目标正方体中的第一目标正方体进行旋转,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第二输入单元,用于在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
通过本实施例,通过上述方法,从而提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第四获取单元,用于所述获取待识别的目标3D图片之前,获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
(2)第三确定单元,用于在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
可选地,对第二识别模型的训练不能一直持续,当第二识别模型的识别准确度大于一个值则认为第二识别模型符合要求。从而停止训练。
通过本实施例,通过设置一个挑出条件从而停止对第二识别模型的训练,提高了对第二识别模型进行训练的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第四确定单元,用于所述获取待识别的目标3D图片之前,将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
(2)训练单元,用于使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
可选地,在对第一识别模型进行训练时,可以输入带有标签的第一样本图片。然后对第一识别模型进行训练,直到第一识别模型的识别准确度大于第二阈值,则第一识别模型可以投入到使用中。
通过本实施例,通过在使用第一识别模型之前对第一识别模型进行训练,从而提高了对第一识别模型进行训练的训练效率。
根据本发明实施例的又一个方面,还提供了一种用于实施上述识别模型训练方法的识别模型训练装置。如图12所示,该装置包括:
(1)分割单元1202,用于获取3D样本图片,从3D样本图片中分割出N个目标正方体;
(2)处理单元1204,用于对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
(3)训练单元1206,用于使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
可选地,上述装置可以但不限于应用于模型训练的过程中。在训练原始识别模型时,从一张3D样本图片中提取出N个目标正方体,将对N个目标正方体进行旋转与排序后得到N个正方体作为目标训练样本输入到原始识别模型中。具体提取、旋转、排序方法可以参见上述实施例中的方法,本实施例不再赘述。在训练原始识别模型时,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将当前的原始识别模型确定为训练成熟的模型。
通过上述方法,可以大大提高对原始识别模型的训练效率。
可选地,在训练得到成熟的原始识别模型之后,可以将原始识别模型的卷积块提取出来,添加新的全连接层之后,形成新的识别模型,并可以使用新的识别模型识别其他人物。新的识别模型经过少量样本的训练即可具备较高的识别准确度。例如,将新的识别模型应用到识别3D图片的类型的过程中,或者将新的识别模型应用到3D图片的分割等任务中,在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片识别方法的电子装置,如图13所示,该电子装置包括存储器1302和处理器1304,该存储器1302中存储有计算机程序,该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的目标3D图片;
S2,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S3,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,本领域普通技术人员可以理解,图13所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图13中所示更多或者更少的组件(如网络接口等),或者具有与图13所示不同的配置。
其中,存储器1302可用于存储软件程序以及模块,如本发明实施例中的图片识别方法和装置对应的程序指令/模块,处理器1304通过运行存储在存储器1302内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图片识别方法。存储器1302可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1302可进一步包括相对于处理器1304远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1302具体可以但不限于用于存储待识别的目标3D图片等信息。作为一种示例,如图13所示,上述存储器1302中可以但不限于包括上述图片识别装置中的第一获取单元1102、第一输入单元1104与第二获取单元1106。此外,还可以包括但不限于上述图片识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1306包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1306为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1308,用于显示待识别的3D图片的第一类型;和连接总线1310,用于连接上述电子装置中的各个模块部件。
根据本发明实施例的又一个方面,还提供了一种用于实施上述识别模型训练方法的电子装置,如图14所示,该电子装置包括存储器1402和处理器1404,该存储器1402中存储有计算机程序,该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S2,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S3,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。。
可选地,本领域普通技术人员可以理解,图14所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图14中所示更多或者更少的组件(如网络接口等),或者具有与图14所示不同的配置。
其中,存储器1402可用于存储软件程序以及模块,如本发明实施例中的识别模型训练方法和装置对应的程序指令/模块,处理器1404通过运行存储在存储器1402内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的识别模型训练方法。存储器1402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1402可进一步包括相对于处理器1404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1402具体可以但不限于用于存储3D样本图片等信息。作为一种示例,如图14所示,上述存储器1402中可以但不限于包括上述识别模型训练装置中的分割单元1202、处理单元1204与训练单元1206。此外,还可以包括但不限于上述识别模型训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1406包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1406为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1408,用于显示原始识别模型的训练准确度等;和连接总线1410,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的目标3D图片;
S2,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S3,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
或者,可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S2,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S3,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种图片识别方法,其特征在于,包括:
获取待识别的目标3D图片;
将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别的目标3D图片之前,还包括:
获取所述3D样本图片;
从所述3D样本图片中确定出原始正方体;
将所述原始正方体拆分为所述N个目标正方体。
3.根据权利要求2所述的方法,其特征在于,所述N为大于1的正整数的3次方,所述将所述原始正方体拆分为所述N个目标正方体包括:保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
4.根据权利要求1所述的方法,其特征在于,在所述获取待识别的目标3D图片之前,还包括:
从所述N个目标正方体中确定出第一目标正方体;
将所述第一目标正方体旋转第一角度;
将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
5.根据权利要求4所述的方法,其特征在于,在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,还包括:
将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
6.根据权利要求1所述的方法,其特征在于,所述获取待识别的目标3D图片之前,还包括:
获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
7.根据权利要求1所述的方法,其特征在于,所述获取待识别的目标3D图片之前,还包括:
将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
8.一种识别模型训练方法,其特征在于,包括:
获取3D样本图片,从所述3D样本图片中分割出N个目标正方体;
对所述N个目标正方体执行预定操作,得到目标训练样本,其中,所述预定操作包括对所述N个目标正方体进行旋转和排序;
使用所述目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,所述原始识别模型用于输出对所述目标训练样本的识别结果,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
9.一种图片识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的目标3D图片;
第一输入单元,用于将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
第二获取单元,用于获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于在所述获取待识别的目标3D图片之前,获取所述3D样本图片;
第一确定单元,用于从所述3D样本图片中确定出原始正方体;
拆分单元,用于将所述原始正方体拆分为所述N个目标正方体。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于在所述获取待识别的目标3D图片之前,从所述N个目标正方体中确定出第一目标正方体;
旋转单元,用于将所述第一目标正方体旋转第一角度;
排序单元,用于将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二输入单元,用于在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
13.一种识别模型训练装置,其特征在于,包括:
分割单元,用于获取3D样本图片,从所述3D样本图片中分割出N个目标正方体;
处理单元,用于对所述N个目标正方体执行预定操作,得到目标训练样本,其中,所述预定操作包括对所述N个目标正方体进行旋转和排序;
训练单元,用于使用所述目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,所述原始识别模型用于输出对所述目标训练样本的识别结果,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
14.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序运行时执行所述权利要求1至7或8任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7或8任一项中所述的方法。
CN201910544392.0A 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质 Pending CN110263724A (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201910544392.0A CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质
CN202010043334.2A CN111046855A (zh) 2019-06-21 2020-01-15 图片识别方法、识别模型训练方法、装置及电子装置
JP2021547115A JP7233555B2 (ja) 2019-06-21 2020-06-20 画像認識方法、認識モデルのトレーニング方法及びその装置、並びにコンピュータプログラム
PCT/CN2020/097273 WO2020253852A1 (zh) 2019-06-21 2020-06-20 图片识别方法、识别模型训练方法、装置及存储介质
EP20825586.9A EP3989109A4 (en) 2019-06-21 2020-06-20 IMAGE IDENTIFICATION METHOD AND DEVICE, IDENTIFICATION PATTERN TRAINING METHOD AND DEVICE, AND STORAGE MEDIA
KR1020217029414A KR102645533B1 (ko) 2019-06-21 2020-06-20 이미지 식별 방법 및 기기, 식별 모델 훈련 방법 및 기기, 그리고 저장 매체
US17/402,500 US12112556B2 (en) 2019-06-21 2021-08-13 Image recognition method and apparatus, recognition model training method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544392.0A CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110263724A true CN110263724A (zh) 2019-09-20

Family

ID=67920476

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910544392.0A Pending CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质
CN202010043334.2A Pending CN111046855A (zh) 2019-06-21 2020-01-15 图片识别方法、识别模型训练方法、装置及电子装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010043334.2A Pending CN111046855A (zh) 2019-06-21 2020-01-15 图片识别方法、识别模型训练方法、装置及电子装置

Country Status (6)

Country Link
US (1) US12112556B2 (zh)
EP (1) EP3989109A4 (zh)
JP (1) JP7233555B2 (zh)
KR (1) KR102645533B1 (zh)
CN (2) CN110263724A (zh)
WO (1) WO2020253852A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110710986A (zh) * 2019-10-25 2020-01-21 华院数据技术(上海)有限公司 一种基于ct图像的脑部动静脉畸形检测方法及检测系统
CN111166070A (zh) * 2019-12-17 2020-05-19 五邑大学 一种基于指静脉认证的医疗储物柜及其管理方法
CN111242952A (zh) * 2020-01-15 2020-06-05 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像分割方法、装置及计算设备
CN111353580A (zh) * 2020-02-03 2020-06-30 中国人民解放军国防科技大学 目标检测网络的训练方法、电子设备及存储介质
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
WO2020253852A1 (zh) * 2019-06-21 2020-12-24 腾讯科技(深圳)有限公司 图片识别方法、识别模型训练方法、装置及存储介质
CN112241764A (zh) * 2020-10-23 2021-01-19 北京百度网讯科技有限公司 图像识别方法、装置、电子设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN112949583A (zh) * 2021-03-30 2021-06-11 京科互联科技(山东)有限公司 复杂城市场景的目标检测方法、系统、设备及存储介质
CN113362313B (zh) * 2021-06-18 2024-03-15 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN114092446B (zh) * 2021-11-23 2024-07-16 中国人民解放军总医院 基于自监督学习与M-Net的颅内出血参数获取方法及装置
CN114549904B (zh) * 2022-02-25 2023-07-07 北京百度网讯科技有限公司 视觉处理及模型训练方法、设备、存储介质及程序产品

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467495B2 (en) * 2015-05-11 2019-11-05 Siemens Healthcare Gmbh Method and system for landmark detection in medical images using deep neural networks
CN107025642B (zh) * 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
CN106960219B (zh) * 2017-03-10 2021-04-16 百度在线网络技术(北京)有限公司 图片识别方法及装置、计算机设备及计算机可读介质
CN107154043B (zh) * 2017-06-05 2020-03-24 杭州健培科技有限公司 一种基于3dcnn的肺结节假阳性样本抑制方法
AU2018313841B2 (en) * 2017-08-09 2023-10-26 Allen Institute Systems, devices, and methods for image processing to generate an image having predictive tagging
CN107977963A (zh) * 2017-11-30 2018-05-01 北京青燕祥云科技有限公司 肺结节的判定方法、装置和实现装置
CN108389201B (zh) * 2018-03-16 2020-06-30 北京推想科技有限公司 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN109147940B (zh) * 2018-07-05 2021-05-25 科亚医疗科技股份有限公司 从患者的医学图像自动预测生理状况的装置和系统
CN109063753B (zh) * 2018-07-18 2021-09-14 北方民族大学 一种基于卷积神经网络的三维点云模型分类方法
CN109886933B (zh) * 2019-01-25 2021-11-02 腾讯科技(深圳)有限公司 一种医学图像识别方法、装置和存储介质
CN110263724A (zh) * 2019-06-21 2019-09-20 腾讯科技(深圳)有限公司 图片识别方法、识别模型训练方法、装置及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12112556B2 (en) 2019-06-21 2024-10-08 Tencent Technology (Shenzhen) Company Limited Image recognition method and apparatus, recognition model training method and apparatus, and storage medium
WO2020253852A1 (zh) * 2019-06-21 2020-12-24 腾讯科技(深圳)有限公司 图片识别方法、识别模型训练方法、装置及存储介质
CN110710986B (zh) * 2019-10-25 2021-01-22 华院数据技术(上海)有限公司 一种基于ct图像的脑部动静脉畸形检测方法及检测系统
CN110710986A (zh) * 2019-10-25 2020-01-21 华院数据技术(上海)有限公司 一种基于ct图像的脑部动静脉畸形检测方法及检测系统
CN111166070A (zh) * 2019-12-17 2020-05-19 五邑大学 一种基于指静脉认证的医疗储物柜及其管理方法
CN111242952A (zh) * 2020-01-15 2020-06-05 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像分割方法、装置及计算设备
CN111242952B (zh) * 2020-01-15 2023-06-30 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像分割方法、装置及计算设备
CN111353580A (zh) * 2020-02-03 2020-06-30 中国人民解放军国防科技大学 目标检测网络的训练方法、电子设备及存储介质
CN111353580B (zh) * 2020-02-03 2023-06-20 中国人民解放军国防科技大学 目标检测网络的训练方法、电子设备及存储介质
CN111723868B (zh) * 2020-06-22 2023-07-21 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN112241764A (zh) * 2020-10-23 2021-01-19 北京百度网讯科技有限公司 图像识别方法、装置、电子设备及存储介质
CN112241764B (zh) * 2020-10-23 2023-08-08 北京百度网讯科技有限公司 图像识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3989109A4 (en) 2022-07-20
JP7233555B2 (ja) 2023-03-06
KR102645533B1 (ko) 2024-03-07
JP2022520390A (ja) 2022-03-30
US12112556B2 (en) 2024-10-08
WO2020253852A1 (zh) 2020-12-24
CN111046855A (zh) 2020-04-21
US20210374475A1 (en) 2021-12-02
EP3989109A1 (en) 2022-04-27
KR20210119539A (ko) 2021-10-05

Similar Documents

Publication Publication Date Title
CN110263724A (zh) 图片识别方法、识别模型训练方法、装置及存储介质
Gecer et al. Detection and classification of cancer in whole slide breast histopathology images using deep convolutional networks
Baker et al. Local features and global shape information in object classification by deep convolutional neural networks
CN110110617A (zh) 医学影像分割方法、装置、电子设备和存储介质
CN109685819A (zh) 一种基于特征增强的三维医学图像分割方法
CN109785334A (zh) 心脏磁共振图像分割方法、装置、终端设备及存储介质
CN110148142A (zh) 图像分割模型的训练方法、装置、设备和存储介质
CN109559300A (zh) 图像处理方法、电子设备及计算机可读存储介质
WO2016139183A1 (en) Computerized device and method for processing image data
CN110349156A (zh) 眼底图片中病变特征的识别方法和装置、存储介质
CN109800789A (zh) 基于图网络的糖尿病视网膜病变分类方法及装置
CN109313940A (zh) 医疗装置植入路径的虚拟评估
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
CN108986115A (zh) 医学图像分割方法、装置及智能终端
Mesejo et al. Automatic hippocampus localization in histological images using differential evolution-based deformable models
CN111144474A (zh) 基于多视图、多尺度、多任务肺结节分类方法
CN108717441A (zh) 问题模板所对应的谓词的确定方法及装置
CN109492547A (zh) 一种结节识别方法、装置和存储介质
CN110648309B (zh) 基于条件生成对抗网络合成红细胞图像的方法及相关设备
van Tulder et al. Learning features for tissue classification with the classification restricted Boltzmann machine
CN106682127A (zh) 图像搜索系统及方法
CN110276283B (zh) 图片识别方法、目标识别模型训练方法及装置
CN113392937A (zh) 一种3d点云数据分类方法及其相关装置
CN109460820A (zh) 一种神经网络训练方法、装置、计算机设备和存储介质
US20220284268A1 (en) Distributed processing of synaptic connectivity graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190920

WD01 Invention patent application deemed withdrawn after publication