CN111046855A - 图片识别方法、识别模型训练方法、装置及电子装置 - Google Patents

图片识别方法、识别模型训练方法、装置及电子装置 Download PDF

Info

Publication number
CN111046855A
CN111046855A CN202010043334.2A CN202010043334A CN111046855A CN 111046855 A CN111046855 A CN 111046855A CN 202010043334 A CN202010043334 A CN 202010043334A CN 111046855 A CN111046855 A CN 111046855A
Authority
CN
China
Prior art keywords
target
picture
recognition model
training
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010043334.2A
Other languages
English (en)
Inventor
庄新瑞
朱玖闻
李悦翔
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN111046855A publication Critical patent/CN111046855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片识别方法、识别模型训练方法、装置及电子装置。其中,该方法包括:获取待识别的目标3D图片;将待识别的目标3D图片输入到第一识别模型中,其中,第一识别模型用于对待识别的目标3D图片进行识别得到待识别的目标3D图片的图片类型,第一识别模型的卷积块与第二识别模型的卷积块相同,第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取第一识别模型输出的待识别的目标3D图片的第一类型。本发明解决了相关技术中模型训练效率低的技术问题。

Description

图片识别方法、识别模型训练方法、装置及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种图片识别方法、识别模型训练方法、装置及电子装置。
背景技术
相关技术中,在识别3D图像的类型时,通常需要使用大量的3D图片样本对3D模型进行训练,然后才可以使用训练好的3D模型识别3D图像的类型。
然而,若是使用上述方法,需要消耗大量的时间进行模型的训练,造成对模型的训练效率低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片识别方法、识别模型训练方法、装置及电子装置,以至少解决相关技术中模型训练效率低的技术问题。
根据本发明实施例的一个方面,提供了一种图片识别方法,包括:获取待识别的目标3D图片;将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型。
根据本发明实施例的另一方面,还提供了一种识别模型训练方法,包括:获取3D样本图片,从3D样本图片中分割出N个目标正方体;对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
根据本发明实施例的又一方面,还提供了一种图片识别装置,包括:第一获取单元,用于获取待识别的目标3D图片;第一输入单元,用于将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;第二获取单元,用于获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型。
作为一种可选的示例,上述装置还包括:第三获取单元,用于在上述获取待识别的目标3D图片之前,获取上述3D样本图片;第一确定单元,用于从上述3D样本图片中确定出原始正方体;拆分单元,用于将上述原始正方体拆分为上述N个目标正方体。
作为一种可选的示例,上述装置还包括:第二确定单元,用于在上述获取待识别的目标3D图片之前,从上述N个目标正方体中确定出第一目标正方体;旋转单元,用于将上述第一目标正方体旋转第一角度;排序单元,用于将上述N个目标正方体中,旋转上述第一角度之后的上述第一目标样本正方体与其他目标正方体进行排序,得到上述目标训练样本。
作为一种可选的示例,上述装置还包括:第二输入单元,用于在上述将上述N个目标正方体中,旋转上述第一角度之后的上述第一目标样本正方体与其他目标正方体进行排序,得到上述目标训练样本之后,将上述目标训练样本输入到上述原始识别模型中,以对上述原始识别模型进行训练,得到上述第二识别模型。
作为一种可选的示例,上述N为大于1的正整数的3次方,上述拆分单元包括:拆分模块,用于保持相邻的两个上述目标正方体之间间隔M个体素,从上述原始正方体中拆分出上述N个目标正方体,上述M为大于0且小于J-1的正整数,上述J为上述目标正方体的边长。
作为一种可选的示例,上述装置还包括:第四获取单元,用于上述获取待识别的目标3D图片之前,获取上述原始识别模型对上述目标训练样本进行识别后输出的识别结果,其中,上述识别结果中包括上述目标训练样本中上述目标正方体的各种排序顺序与每一个上述目标正方体的旋转角度的概率;第三确定单元,用于在上述识别结果满足第一目标函数的概率大于第一阈值时,将上述原始识别模型确定为上述第二识别模型。
作为一种可选的示例,上述装置还包括:第四确定单元,用于上述获取待识别的目标3D图片之前,将上述第二识别模型的卷积块确定为上述第一识别模型的卷积块;训练单元,用于使用第一训练样本对上述第一识别模型进行训练,直到上述第一识别模型的准确度大于第二阈值,其中,上述第一训练样本包括第一3D图片与上述第一3D图片的类型。
根据本发明实施例的又一方面,还提供了一种识别模型训练装置,包括:分割单元,用于获取3D样本图片,从3D样本图片中分割出N个目标正方体;处理单元,用于对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;训练单元,用于使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
根据本发明实施例的又一方面,还提供了一种模型训练方法,包括:将原始三维图片数据转化为三维立方体训练样本,其中,上述三维立方体训练样本中包括多个微立方体;对上述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,上述第一操作用于改变上述多个微立方体的顺序,上述第二操作用于改变上述多个微立方体中的第一对象微立方体的方向;利用上述目标训练样本进行训练,得到预训练网络模型,其中,上述预训练网络模型用于提取上述原始三维图片数据中的特征,还用于识别上述原始三维图片数据中的数据结构;为上述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;将待识别的目标三维图片数据输入到上述第一识别模型中,得到识别结果,其中,上述识别结果中包括上述目标三维图片数据中的异常区域。
根据本发明实施例的又一方面,还提供了一种模型训练装置,包括:转化单元,用于将原始三维图片数据转化为三维立方体训练样本,其中,上述三维立方体训练样本中包括多个微立方体;第一执行单元,用于对上述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,上述第一操作用于改变上述多个微立方体的顺序,上述第二操作用于改变上述多个微立方体中的第一对象微立方体的方向;训练单元,用于利用上述目标训练样本进行训练,得到预训练网络模型,其中,上述预训练网络模型用于提取上述原始三维图片数据中的特征,还用于识别上述原始三维图片数据中的数据结构;迁移单元,用于为上述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;输入单元,用于将待识别的目标三维图片数据输入到上述第一识别模型中,得到识别结果,其中,上述识别结果中包括上述目标三维图片数据中的异常区域。
作为一种可选的示例,上述第一执行单元包括:排列模块,用于对上述多个微立方体执行排列组合,得到K种微立方体组合;第一确定模块,用于从上述K种微立方体组合中确定出目标微立方体组合;第二确定模块,用于从上述目标微立方体组合中确定出上述第一对象微立方体;执行模块,用于对上述第一对象微立方体执行旋转操作,以得到上述目标训练样本。
作为一种可选的示例,上述装置还包括:确定单元,用于在对上述多个微立方体依次执行第一操作与第二操作之后,从上述多个微立方体中确定出第二对象微立方体;第二执行单元,用于对上述第二对象微立方体执行第三操作,以更新上述目标训练样本,其中,上述第三操作用于遮挡上述第二对象微立方体的部分区域。
作为一种可选的示例,上述第二执行单元包括:操作模块,用于将上述第二对象微立方体与目标矩阵相乘,其中,上述目标矩阵为与上述第二对象微立方体大小相同的三维矩阵。
作为一种可选的示例,上述转化单元包括:转换模块,用于将上述原始三维图片数据转换为原始三维立方体;拆分模块,用于将上述原始三维立方体拆分为多个原始微立方体;提取模块,用于从上述多个原始微立方体中提取出上述多个微立方体。
作为一种可选的示例,上述拆分模块包括:拆分子模块,用于拆分上述原始三维立方体,得到上述多个原始微立方体,其中,相邻的两个上述原始微立方体之间保持间隔M个体素,上述M为大于0且小于J-1的正整数,上述J为上述原始微立方体的边长。
作为一种可选的示例,上述装置还包括:构建单元,用于在上述利用上述目标训练样本进行训练,得到预训练网络模型之前,构建上述预训练网络模型的原始网络模型,其中,上述原始网络模型的全连接层中的目标函数包括:与上述第一操作对应的第一损失函数,与上述第二操作对应的第二损失函数,及与上述第三操作对应的第三损失函数;上述训练单元包括:输入模块,用于将上述目标训练样本输入上述原始网络模型进行训练,以得到上述预训练网络模型,其中,上述预训练网络模型的全连接层中的目标函数的输出结果已达到收敛条件。
作为一种可选的示例,上述迁移单元包括:获取模块,用于获取当前待处理的上述目标图片识别任务;第三确定模块,用于确定与上述目标图片识别任务相匹配的目标全连接层;替换模块,用于将上述预训练网络模型的全连接层替换为上述目标全连接层,以得到上述第一识别模型,其中,上述第一识别模型用于执行上述目标图片识别任务。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图片识别方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的图片识别方法。
在本发明实施例中,采用获取待识别的目标3D图片;将上述待识别的目标3D图片输入到第一识别模型中,其中,上述第一识别模型用于对上述待识别的目标3D图片进行识别得到上述待识别的目标3D图片的图片类型,上述第一识别模型的卷积块与第二识别模型的卷积块相同,上述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,上述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;获取上述第一识别模型输出的上述待识别的目标3D图片的第一类型的方法。由于在上述方法中,预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果,解决了相关技术中模型训练效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图片识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的图片识别方法的流程示意图;
图3是根据本发明实施例的一种可选的图片识别方法的示意图;
图4是根据本发明实施例的另一种可选的图片识别方法的示意图;
图5是根据本发明实施例的又一种可选的图片识别方法的示意图;
图6是根据本发明实施例的又一种可选的图片识别方法的示意图;
图7是根据本发明实施例的又一种可选的图片识别方法的示意图;
图8是根据本发明实施例的又一种可选的图片识别方法的示意图;
图9是根据本发明实施例的又一种可选的图片识别方法的示意图;
图10是根据本发明实施例的一种可选的识别模型训练方法的流程示意图;
图11是根据本发明实施例的一种可选的图片识别装置的结构示意图;
图12是根据本发明实施例的一种可选的识别模型训练装置的结构示意图;
图13是根据本发明实施例的一种可选的模型训练方法的流程示意图;
图14是根据本发明实施例的一种可选的模型训练方法的示意图;
图15是根据本发明实施例的一种可选的模型训练装置的结构示意图;
图16是根据本发明实施例的一种可选的电子装置的结构示意图;
图17是根据本发明实施例的一种可选的电子装置的结构示意图;
图18是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
磁共振成像(Magnetic Resonance Imagin,简称为MRI):医学影像的一种。
电子计算机断层扫描(Computed Tomography,简称为CT):医学影像的一种,可用于多种疾病的检查。
卷积神经网络(convolution neural network,简称为CNN)
多模态脑部肿瘤分割(Multimodal Brain Tumor Segmentation,简称为BRATS)
Feature map:图像和滤波器进行卷积后得到的特征图。Feature map可以和滤波器进行卷积生成新的feature map。
Siamese网络:包含几个相同结构的卷积神经网络,各个网络之间能够权重参数共享
Hamming distance:汉明距离,衡量两个字符串对应位置的不同字符的数目
ImageNet:ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库。其中有超过1400万的图像及其对应的标注信息
ResNet:Residual Neural Network,一种基于残差学习的卷积神经网络
VGG:由牛津大学计算机视觉团队和Google DeepMind公司研究员一起研发的一种深度卷积神经网络
one-hot:一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,在任意时候只有一位有效
全卷积网络(Fully convolutional network,简称为FCN):图像分割技术最常用的一种卷积网络,完全由卷积层和池化层组成。
根据本发明实施例的一个方面,提供了一种图片识别方法,可选地,作为一种可选的实施方式,上述图片识别方法可以但不限于应用于如图1所示的环境中。
图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106,用于存储交互数据、处理器108,用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114,用于存储交互数据、处理引擎116,用于处理交互数据。用户设备104中包括有上述第一识别模型,用户设备104可以获取待识别的目标3D图片104-2,并对目标3D图片104-2进行识别,并输出目标3D图片104-2的第一类型104-4。
可选地,上述图片识别方法可以但不限于应用于可以计算数据的终端上,例如手机、平板电脑、笔记本电脑、PC机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
可选地,作为一种可选的实施方式,如图2所示,上述图片识别方法包括:
S202,获取待识别的目标3D图片;
S204,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S206,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,上述图片识别方法可以但不限于应用于图片识别领域。例如,将上述方法应用到识别3D图片的类型的过程中。如识别3D病症图片的中病症的类型的过程中。举例说明,在识别脑出血类型时,在获取到3D病症图片后(3D病症图片可以为MRI图片或者CT图片),将3D病症图片输入到第一识别模型中,使用第一模型对3D病症图片进行识别并输出3D病症图片的第一类型。如第一类型可以为健康,或者动脉瘤,动静脉畸形,烟雾病,高血压等。
在上述方法中,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
可选地,在上述方法中,在获取到目标3D图片之前,需要先对第二识别模型进行训练。在训练时,首先需要获取到3D样本图片。3D样本图片为未标签标注的图片。在获取到3D样本图片之后,需要从3D样本图片中提取原始正方体,并将原始正方体拆分为N个目标正方体。
可选地,在提取原始正方体时,可以先确定3D样本图片的几何中心。在确定几何中心后,以该几何中心为上述原始正方体的几何中心,并确定出原始正方体。上述原始正方体的边长小于3D样本图片的最小变的长度。
例如,如图3所示,对于一张3D样本图片302,首先确定出3D样本图片302的几何中心304,然后确定出以几何中心304为几何中心的原始正方体306。
可选地,在确定出3D样本图片的几何中心之后,还可以确定出一个半径r,然后以3D样本图片的几何中心为圆心,以半径r为半径做球,然后从球中选择任意一点作为上述原始正方体的几何中中心,确定上述原始正方体。需要说明的是,确定出的原始正方体是位于3D样本图片中的,不会超出3D样本图片的范围。
可选地,在确定出原始正方体之后,需要对原始正方体进行拆分,拆分得到N个目标正方体。在拆分时,可以使用任意方法,如从原始正方体中随机挖出N个目标正方体,或者将原始正方体的一部分拆分得到N个目标正方体。或者,将原始正方体平均拆分成N个目标正方体,N为正整数的三次方。以N为8为例,如图4所示,将一个原始正方体404延402-1、402-2、402-3的箭头所示的方向进行拆分,得到8个目标正方体(图4中的拆分方法仅为示例)。或者,在拆分时,每两个相邻的正方体之间间隔M个体素。例如,以M为2为例,如图5所示,将原始正方体502拆分为8个目标正方体504。原始正方体502的边长为10个体素,则目标正方体504的边长为4个体素。
可选地,在获取到N个目标正方体之后,还可以对N个目标正方体中的第一目标正方体旋转第一角度,如旋转90度,旋转180度等。第一目标正方体可以有一个或多个,每一个第一目标正方体旋转角度可以相同或不同。将旋转后的第一目标正方体与剩余未旋转的目标正方体进行排序,排序可以随机排序,排序后得到目标训练样本。
在获取到目标训练样本后,使用目标训练样本对原始识别模型进行训练,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。说明第二识别模型的准确度大于了第一阈值。如准确度达到99.95%以上。
使用上述训练方法大大提高了训练第二识别模型的效率。
可选地,在训练得到第二识别模型之后,可以获取第二识别模型中的卷积块,并将卷积块作为第一识别模型的卷积块,并使用第一训练样本对第一识别模型进行训练。第一训练样本为包括图片类型的3D图片。在第一识别模型的识别准确度大于第二阈值后,可以将第一识别模型投入到使用之中。如识别3D图片的病症类型。如图6所示,终端的显示界面602上显示有选择按钮602-1,用户可以选择待识别的目标3D图片604,终端对待识别的目标3D图片604进行识别,并输出待识别的目标3D图片的第一类型606。
以下结合一个具体示例进行说明。
如,识别脑部病症时,获取公开的BRATS-2018脑部神经胶质瘤分割数据集和从合作医院采集的脑出血分类数据集,上述数据作为实验数据。
BRATS-2018数据集包括285个病人的MRI影像,每个病人MRI影像包括4个不同的模态,分别是T1,T1Gd,T2,FLAIR,不同模态的数据均经过共同配准,每幅图像的大小为240x240x155。
脑出血数据集包括1486个脑出血的脑部CT扫描图像,脑出血类型分别为动脉瘤,动静脉畸形,烟雾病,高血压。每幅CT图像的大小均为230x270x30。
将上述图片用作第二识别模型的训练。如图7所示,对于一幅图,从图中提取出原始正方体并将原始正方体拆分为目标正方体。具体选择原始正方体的方法请参见上述示例,在此不做重复。在选择出原始正方体之后,为了鼓励网络通过魔方复原的代理任务学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,我们在切割原始正方体得到目标正方体时在相邻的两个目标正方体之间预留10个体素以内的随机间隔,之后对每个目标正方体内的体素进行[-1,1]归一化操作。得到目标训练样本。
在得到目标训练样本之后,需要对第二识别模型进行训练。如图7所示,孪生网络(Siamese网络)中包括X个互相共享权重的子网络,其中X表示目标正方体的数目。在实验中使用了有8个目标正方体输入的八合一Siamese网络,各个子网络具有相同的网络结构且互相共享权重。每个子网络的主干结构可以使用目前存在的各个类型的3D CNN,在实验中使用了3D VGG网络。将所有子网络最后一个全连接层的输出特征图feature map进行叠加然后输入到不同的分支中,分别用于目标正方体的空间重排任务和目标正方体旋转判断任务。上述feature map为卷积模型中任意一个网络所输出的内容。
1、目标正方体的重排
对于本方案所提出的魔方复原任务,其第一步就是对目标正方体进行重排。以二阶魔方为例,如图7所示,其总共具有2x 2x 2=8个目标正方体,我们首先要生成8个目标正方体的所有排列组合序列P=(P1,P2,…,P8!),这些排列序列控制着魔方复原任务的复杂程度,如果两个排列序列相互之间过于相似,那么网络的学习过程就会变得非常简单,很难学习到复杂的特征信息。为了保证学习的有效性,使用Hamming distance作为衡量指标,依次选取相互之间差别更大的K个序列。对于每次魔方复原的训练输入数据,从K个序列中随机抽取一个,例如(2,5,8,4,1,7,3,6),然后将裁切好的8个目标正方体按照该序列的顺序进行重新排列,之后将重新排列好的目标正方体依次输入到网络中,最终网络要学习的目标就是要判断输入序列属于这K个序列中的哪一个,因此对于目标正方体重排其损失函数如下:
Figure BDA0002368512180000141
上式中的lj表示序列的真实标签one-hot标签,表pj示网络输出的对于各个序列的预测概率。
2、目标正方体的旋转
在3D魔方复原任务中增加一个新的操作,即目标正方体的旋转,通过这个操作能够让网络学习到3D图像块的旋转不变的特征。
目标正方体通常均为立方体结构,如果让一个目标正方体在空间中自由的旋转,会有3(旋转轴,x,y,z轴)x 2(旋转方向,顺时针,逆时针)x 4(旋转角度,0°,90°,180°,270°)=24种不同的可能。为了降低任务的复杂性,限制目标正方体的旋转选择,规定目标正方体只能沿水平或者垂直方向进行180°的旋转。如图2所示,魔方块3,4进行了水平180°旋转,魔方块5,7进行了垂直方向180°旋转,旋转之后的魔方块输入进网络后网络要判断每个目标正方体进行了何种形式的旋转,因此对于魔方块旋转任务其损失函数如下:
Figure BDA0002368512180000142
公式中M表示目标正方体的数目,gi hor表示目标正方体竖直方向旋转的one-hot标签,gi ver表示目标正方体水平方向旋转的one-hot标签,ri hor,ri ver分别表示网络在竖直、水平方向的预测输出概率。
根据前面的定义,模型的的目标函数为排列损失函数和旋转损失函数的线性加权,模型的整体损失函数如下:
loss=a*lossp+b*lossR (3)
其中a和b分别为两个损失函数的权重,控制了两个子任务之间的互相影响程度,在实验中将两个权重值均设置成0.5能够使预训练达到更好地效果。
经过上述训练后,可以得到第二识别模型。第二识别模型的准确度大于了第一阈值。
此时,可以将第二识别模型的卷积块提取出来,微调后用作其他目标任务。
例如,将第二识别模型的卷积块提取出来,用于第一识别模型的识别3D图片的类型。对于分类任务,只需要对CNN网络后面的全连接层进行重新训练,对于全连接层之前的卷积层可以使用更小的学习率进行微调。
或者将上述第二识别模型的卷积块用于分割任务。对于分割任务,预训练网络可以使用于在图像分割任务上较为常用的全卷积神经网络(FCN),例如3D U-Net结构,如图8所示。但是,由于前期魔方复原式的预训练只能针对U-Net的下采样阶段,对于U-Net上采样阶段的网络参数在训练时仍需要进行随机初始化,为了避免大量参数初始化对前期预训练效果带来的影响,使用了密集上采样卷积模块Dense Upsampling Convolution(DUC)模块来替代原有的转置卷积,对特征图进行上采样,恢复到图像原始输入大小,DUC模块的结构如图9所示。其中,C表示通道数量,d表示扩大倍数。H为特征图的长,W为特征图的宽。
通过本实施例,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
作为一种可选的实施方案,在所述获取待识别的目标3D图片之前,还包括:
S1,获取所述3D样本图片;
S2,从所述3D样本图片中确定出原始正方体;
S3,将所述原始正方体拆分为所述N个目标正方体。
可选地,在本方案中,3D样本图片与目标3D图片可以为相同的图片。即,在使用3D样本图片对第二识别模型进行训练之后,并将第二卷积块用作第一识别模型的卷积块之后,可以将3D样本图片输入到第一识别模型中,由第一识别模型识别3D样本图片的类型。3D样本图片在输入第二识别模型时,不需要输入3D样本图片的类型。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,获取N个目标正方体对第二识别模型进行训练,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述N为大于1的正整数的3次方,所述将所述原始正方体拆分为所述N个目标正方体包括:
S1,保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
可选地,在确定N个目标正方体时,两个相邻的目标正方体之间间隔M个体素,可以使第二识别模型学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,提高了第二识别模型的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,在所述获取待识别的目标3D图片之前,还包括:
S1,从所述N个目标正方体中确定出第一目标正方体;
S2,将所述第一目标正方体旋转第一角度;
S3,将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
可选地,上述排序可以为随机对N个目标正方体进行排序。上述旋转可以对N个目标正方体中的多个第一目标正方体进行旋转。旋转可以旋转任意角度。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,在获取N个目标正方体之后,对N个目标正方体中的第一目标正方体进行旋转,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,还包括:
S1,将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
通过本实施例,通过上述方法,从而提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述获取待识别的目标3D图片之前,还包括:
S1,获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
S2,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
可选地,对第二识别模型的训练不能一直持续,当第二识别模型的识别准确度大于一个值则认为第二识别模型符合要求。从而停止训练。
通过本实施例,通过设置一个挑出条件从而停止对第二识别模型的训练,提高了对第二识别模型进行训练的训练效率。
作为一种可选的实施方案,所述获取待识别的目标3D图片之前,还包括:
S1,将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
S2,使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
可选地,在对第一识别模型进行训练时,可以输入带有标签的第一样本图片。然后对第一识别模型进行训练,直到第一识别模型的识别准确度大于第二阈值,则第一识别模型可以投入到使用中。
通过本实施例,通过在使用第一识别模型之前对第一识别模型进行训练,从而提高了对第一识别模型进行训练的训练效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种识别模型训练方法。
如图10所示,该方法包括:
S1002,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S1004,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S1006,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
可选地,上述方法可以但不限于应用于模型训练的过程中。在训练原始识别模型时,从一张3D样本图片中提取出N个目标正方体,将对N个目标正方体进行旋转与排序后得到N个正方体作为目标训练样本输入到原始识别模型中。具体提取、旋转、排序方法可以参见上述实施例中的方法,本实施例不再赘述。在训练原始识别模型时,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将当前的原始识别模型确定为训练成熟的模型。
通过上述方法,可以大大提高对原始识别模型的训练效率。
可选地,在训练得到成熟的原始识别模型之后,可以将原始识别模型的卷积块提取出来,添加新的全连接层之后,形成新的识别模型,并可以使用新的识别模型识别其他人物。新的识别模型经过少量样本的训练即可具备较高的识别准确度。例如,将新的识别模型应用到识别3D图片的类型的过程中,或者将新的识别模型应用到3D图片的分割等任务中,在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片识别方法的图片识别装置。如图11所示,该装置包括:
(1)第一获取单元1102,用于获取待识别的目标3D图片;
(2)第一输入单元1104,用于将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
(3)第二获取单元1106,用于获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,上述图片识别装置可以但不限于应用于图片识别领域。例如,将上述方法应用到识别3D图片的类型的过程中。如识别3D病症图片的中病症的类型的过程中。举例说明,在识别脑出血类型时,在获取到3D病症图片后,将3D病症图片输入到第一识别模型中,使用第一模型对3D病症图片进行识别并输出3D病症图片的第一类型。如第一类型可以为健康,或者动脉瘤,动静脉畸形,烟雾病,高血压等。
在上述方法中,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
可选地,在上述方法中,在获取到目标3D图片之前,需要先对第二识别模型进行训练。在训练时,首先需要获取到3D样本图片。3D样本图片为未标签标注的图片。在获取到3D样本图片之后,需要从3D样本图片中提取原始正方体,并将原始正方体拆分为N个目标正方体。
可选地,在提取原始正方体时,可以先确定3D样本图片的几何中心。在确定几何中心后,以该几何中心为上述原始正方体的几何中心,并确定出原始正方体。上述原始正方体的边长小于3D样本图片的最小变的长度。
例如,如图3所示,对于一张3D样本图片302,首先确定出3D样本图片302的几何中心304,然后确定出以几何中心304为几何中心的原始正方体306。
可选地,在确定出3D样本图片的几何中心之后,还可以确定出一个半径r,然后以3D样本图片的几何中心为圆心,以半径r为半径做球,然后从球中选择任意一点作为上述原始正方体的几何中中心,确定上述原始正方体。需要说明的是,确定出的原始正方体是位于3D样本图片中的,不会超出3D样本图片的范围。
可选地,在确定出原始正方体之后,需要对原始正方体进行拆分,拆分得到N个目标正方体。在拆分时,可以使用任意方法,如从原始正方体中随机挖出N个目标正方体,或者将原始正方体的一部分拆分得到N个目标正方体。或者,将原始正方体平均拆分成N个目标正方体,N为正整数的三次方。以N为8为例,如图4所示,将一个原始正方体404延402-1、402-2、402-3的箭头所示的方向进行拆分,得到8个目标正方体(图4中的拆分方法仅为示例)。或者,在拆分时,每两个相邻的正方体之间间隔M个体素。例如,以M为2为例,如图5所示,将原始正方体502拆分为8个目标正方体504。原始正方体502的边长为10个体素,则目标正方体504的边长为4个体素。
可选地,在获取到N个目标正方体之后,还可以对N个目标正方体中的第一目标正方体旋转第一角度,如旋转90度,旋转180度等。第一目标正方体可以有一个或多个,每一个第一目标正方体旋转角度可以相同或不同。将旋转后的第一目标正方体与剩余未旋转的目标正方体进行排序,排序可以随机排序,排序后得到目标训练样本。
在获取到目标训练样本后,使用目标训练样本对原始识别模型进行训练,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。说明第二识别模型的准确度大于了第一阈值。如准确度达到99.95%以上。
使用上述训练方法大大提高了训练第二识别模型的效率。
可选地,在训练得到第二识别模型之后,可以获取第二识别模型中的卷积块,并将卷积块作为第一识别模型的卷积块,并使用第一训练样本对第一识别模型进行训练。第一训练样本为包括图片类型的3D图片。在第一识别模型的识别准确度大于第二阈值后,可以将第一识别模型投入到使用之中。如识别3D图片的病症类型。如图6所示,终端的显示界面602上显示有选择按钮602-1,用户可以选择待识别的目标3D图片604,终端对待识别的目标3D图片604进行识别,并输出待识别的目标3D图片的第一类型606。
通过本实施例,由于预先使用从3D图片中提取的正方体对第二识别模型进行训练,从而提高了第二识别模型的训练效率。进一步将第二识别模型的卷积块作为第一识别模型的卷积块,使用第一识别模型识别3D图片,实现了大大提高第一识别模型的训练效率的效果。
作为一种可选的实施方案,所述装置还包括:
(1)第三获取单元,用于在所述获取待识别的目标3D图片之前,获取所述3D样本图片;
(2)第一确定单元,用于从所述3D样本图片中确定出原始正方体;
(3)拆分单元,用于将所述原始正方体拆分为所述N个目标正方体。
可选地,在本方案中,3D样本图片与目标3D图片可以为相同的图片。即,在使用3D样本图片对第二识别模型进行训练之后,并将第二卷积块用作第一识别模型的卷积块之后,可以将3D样本图片输入到第一识别模型中,由第一识别模型识别3D样本图片的类型。3D样本图片在输入第二识别模型时,不需要输入3D样本图片的类型。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,获取N个目标正方体对第二识别模型进行训练,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述N为大于1的正整数的3次方,所述拆分单元包括:
(1)拆分模块,用于保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
可选地,在确定N个目标正方体时,两个相邻的目标正方体之间间隔M个体素,可以使第二识别模型学习到高级别的语义特征信息而非低级别的像素分布的统计特征信息,提高了第二识别模型的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第二确定单元,用于在所述获取待识别的目标3D图片之前,从所述N个目标正方体中确定出第一目标正方体;
(2)旋转单元,用于将所述第一目标正方体旋转第一角度;
(3)排序单元,用于将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
可选地,上述排序可以为随机对N个目标正方体进行排序。上述旋转可以对N个目标正方体中的多个第一目标正方体进行旋转。旋转可以旋转任意角度。
通过本实施例,通过上述方法,从而在使用第一识别模型之前,在获取N个目标正方体之后,对N个目标正方体中的第一目标正方体进行旋转,提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第二输入单元,用于在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
通过本实施例,通过上述方法,从而提高了对第二识别模型进行训练的训练效率,进一步提高了第一识别模型的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第四获取单元,用于所述获取待识别的目标3D图片之前,获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
(2)第三确定单元,用于在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
可选地,对第二识别模型的训练不能一直持续,当第二识别模型的识别准确度大于一个值则认为第二识别模型符合要求。从而停止训练。
通过本实施例,通过设置一个挑出条件从而停止对第二识别模型的训练,提高了对第二识别模型进行训练的训练效率。
作为一种可选的实施方案,所述装置还包括:
(1)第四确定单元,用于所述获取待识别的目标3D图片之前,将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
(2)训练单元,用于使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
可选地,在对第一识别模型进行训练时,可以输入带有标签的第一样本图片。然后对第一识别模型进行训练,直到第一识别模型的识别准确度大于第二阈值,则第一识别模型可以投入到使用中。
通过本实施例,通过在使用第一识别模型之前对第一识别模型进行训练,从而提高了对第一识别模型进行训练的训练效率。
根据本发明实施例的又一个方面,还提供了一种用于实施上述识别模型训练方法的识别模型训练装置。如图12所示,该装置包括:
(1)分割单元1202,用于获取3D样本图片,从3D样本图片中分割出N个目标正方体;
(2)处理单元1204,用于对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
(3)训练单元1206,用于使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
可选地,上述装置可以但不限于应用于模型训练的过程中。在训练原始识别模型时,从一张3D样本图片中提取出N个目标正方体,将对N个目标正方体进行旋转与排序后得到N个正方体作为目标训练样本输入到原始识别模型中。具体提取、旋转、排序方法可以参见上述实施例中的方法,本实施例不再赘述。在训练原始识别模型时,由原始识别模型输出目标训练样本中的目标正方体进行了哪种旋转以及排列的顺序的概率。上述概率可能满足第一目标函数也可能不满足第一目标函数。第一目标函数可以为损失函数。若是上述概率满足第一目标函数,则说明原始识别模型识别结果正确。若是上述概率不满足第一目标函数,则说明原始识别模型的识别结果不正确。在所述识别结果满足第一目标函数的概率大于第一阈值时,将当前的原始识别模型确定为训练成熟的模型。
通过上述方法,可以大大提高对原始识别模型的训练效率。
可选地,在训练得到成熟的原始识别模型之后,可以将原始识别模型的卷积块提取出来,添加新的全连接层之后,形成新的识别模型,并可以使用新的识别模型识别其他人物。新的识别模型经过少量样本的训练即可具备较高的识别准确度。例如,将新的识别模型应用到识别3D图片的类型的过程中,或者将新的识别模型应用到3D图片的分割等任务中,在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种模型训练方法,可选地,如图13所示,上述模型训练方法包括:
S1302,将原始三维图片数据转化为三维立方体训练样本,其中,所述三维立方体训练样本中包括多个微立方体;
S1304,对所述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,所述第一操作用于改变所述多个微立方体的顺序,所述第二操作用于改变所述多个微立方体中的第一对象微立方体的方向;
S1306,利用所述目标训练样本进行训练,得到预训练网络模型,其中,所述预训练网络模型用于提取所述原始三维图片数据中的特征,还用于识别所述原始三维图片数据中的数据结构;
S1308,为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;
S1310,将待识别的目标三维图片数据输入到所述第一识别模型中,得到识别结果,其中,所述识别结果中包括所述目标三维图片数据中的异常区域。可选地,上述提及的原始三维数据可以但不限于为本方案中的3D样本图片,上述三维立体训练样本可以但不限于为本方案中的原始正方体,上述多个微立方体可以但不限于为本方案中的N个目标正方体,上述第一操作可以但不限于为排序操作,上述第二操作可以但不限于为旋转操作,上述第一对象微立方体可以但不限于为本方案中的第一目标正方体,上述预训练网络模型可以但不限于为本方案中的第二识别模型,为上述第二识别模型更换目标全连接层,得到本方案中的第一识别模型。上述目标三维图片数据可以但不限于为本方案中的目标3D图片。
本方案中,在获取到原始三维图片数据后,将该数据转化为三微立方体训练样本,然后对改变三维立方体训练样本中的多个微立方体的顺序与第一对象微立方体的方向,将调整后的数据作为目标训练样本,得到与训练网络模型。此时,与训练网络模型的训练效率得到了提高。更换与训练网络模型的全连接层,得到第一识别模型,第一识别模型可用于识别三维图片数据中的异常区域。
作为一种可选的实施方案,所述对所述多个微立方体执行第一操作与第二操作包括:
对所述多个微立方体执行排列组合,得到K种微立方体组合;
从所述K种微立方体组合中确定出目标微立方体组合;
从所述目标微立方体组合中确定出所述第一对象微立方体;
对所述第一对象微立方体执行旋转操作,以得到所述目标训练样本。
可选地,上述对多个微立方体执行排列组合即对N个目标正方体进行排列组合。对第一对象微立方体执行旋转操作即对第一目标正方体执行旋转操作。
作为一种可选的实施方案,在对所述多个微立方体依次执行第一操作与第二操作之后,还包括:
从所述多个微立方体中确定出第二对象微立方体;
对所述第二对象微立方体执行第三操作,以更新所述目标训练样本,其中,所述第三操作用于遮挡所述第二对象微立方体的部分区域。
可选地,上述对第一对象微立方体执行第二操作后,还可以对多个微立方体中的第二对象微立方体执行第三操作。第三操作可以为遮挡操作。如,对于第二对象微立方体,生成与第二对象微立方体具有相同魔方块大小的3D矩阵(Ran),然后将第二对象微立方体与3D矩阵相乘,得到一个新的小方块。Ran矩阵由值0或1填充来。此步骤可被视为随机覆盖一个单元格中的某些区域。新的小方块即为遮挡后的第二对象微立方体。
作为一种可选的实施方案,所述对所述第二对象微立方体执行第三操作包括:
将所述第二对象微立方体与目标矩阵相乘,其中,所述目标矩阵为与所述第二对象微立方体大小相同的三维矩阵。
可选地,目标矩阵即为上述第二对象微立方体具有相同魔方块大小3D矩阵。
作为一种可选的实施方案,所述将原始三维图片数据转化为三维立方体训练样本包括:
将所述原始三维图片数据转换为原始三维立方体;
将所述原始三维立方体拆分为多个原始微立方体;
从所述多个原始微立方体中提取出所述多个微立方体。
作为一种可选的实施方案,所述将所述原始三维立方体拆分为多个原始微立方体包括:
拆分所述原始三维立方体,得到所述多个原始微立方体,其中,相邻的两个所述原始微立方体之间保持间隔M个体素,所述M为大于0且小于J-1的正整数,所述J为所述原始微立方体的边长。
作为一种可选的实施方案,在所述利用所述目标训练样本进行训练,得到预训练网络模型之前,还包括:构建所述预训练网络模型的原始网络模型,其中,所述原始网络模型的全连接层中的目标函数包括:与所述第一操作对应的第一损失函数,与所述第二操作对应的第二损失函数,及与所述第三操作对应的第三损失函数;
所述利用所述目标训练样本进行训练,得到预训练网络模型包括:将所述目标训练样本输入所述原始网络模型进行训练,以得到所述预训练网络模型,其中,所述预训练网络模型的全连接层中的目标函数的输出结果已达到收敛条件。
上述原始网络模型可以为本方案中的原始识别模型。
作为一种可选的实施方案,所述为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型包括:
获取当前待处理的所述目标图片识别任务;
确定与所述目标图片识别任务相匹配的目标全连接层;
将所述预训练网络模型的全连接层替换为所述目标全连接层,以得到所述第一识别模型,其中,所述第一识别模型用于执行所述目标图片识别任务。
以下结合一个具体示例进行说明。
首先进行数据的预处理。数据预处理的过程中,为了捕获3D体素信息并了解3D医学成像数据的内部特征。在这种情况下,靠近立方体边界的纹理信息可能会对网络训练造成干扰。因此,为了避免干扰,可以跳过或摈除这些信息。因此,在切割魔方块过程中在两个相邻的两个魔方块(目标正方体)之间留下间隙之后再对每个魔方块内的体素进行[-1,1]归一化操作。
本方案中的网络机构可以如图14所示。孪生网络中包括M个互相共享权重的子网络,其中M表示魔方块的数目。在2×2×2的魔方划分设定中使用了有8个魔方块输入的八合一孪生网络,在3×3×3的魔方划分设定中使用了有27个魔方块输入的八合一孪生网络,各个子网络具有相同的网络结构且互相共享权重。图14中的孪生网络包括8个子网络。每个子网络的主干结构可以使用3D CNN,或3D Resnet或3D VGG网络。将所有子网络最后的一个全连接层的输出叠加然后输入到不同的分支中,分别用于魔方块的重排任务、旋转判断和覆盖判断的任务。
在获取到魔方块之后,需要对魔方块进行重排、旋转与遮挡。
魔方块的旋转:由于重排操作时,存在3(轴)×2(方向)×4(角度)=24种自由的旋转方式。为了降低任务的复杂性,只允许两种类型的旋转,即180°水平和垂直方向的立方体旋转。在此过程中,随机选择旋转的小方块和旋转方向。例如,如图14所示,小方块6和小方块7是水平旋转,小方块4是垂直旋转。为了能够定向小方块旋转,网络需要发现并识别每个小方块是否旋转以及如何旋转。该任务可以看作是一个多标签分类任务,一种旋转类别使用一个1×M(M是小方块个数)的向量来表示,旋转的立方体的对应位置为1,反之为0。因此,预测任务可以用两个1×M向量(r)描述,它们分别表示每个立方体的水平和垂直旋转的可能性。旋转损失函数可以为:
Figure BDA0002368512180000301
公式中M表示目标魔方块的数目,g表示标签信息。r表示旋转矢量,rh表示水平旋转,rv表示垂直旋转,gih、rih、giv、riv是具有0或1值的1×M维的向量,i为正整数。
魔方块的遮挡:在立方体旋转之后,在的魔方复原任务中,引入了用于自监督学习的数据增强方式。具体来说,选择一个魔方块并生成具有相同魔方块大小的3D矩阵(Ran),然后将它们相乘得到一个新的小方块(第二正方体)。Ran矩阵由值0或1填充来。此步骤可被视为随机覆盖一个单元格中的某些区域。
由于在此步骤中仅覆盖一个小方块的一部分,因此在所选小方块和其他小方块之间存在明显差异。因此,还期望网络能够识别部分哪个小方块被部分遮挡。该问题可以看作是带有M标签的分类任务。预测可以描述为一个1×M的向量。然后遮挡损失可以定义为:
Figure BDA0002368512180000311
其中lc表示立方体遮挡的one-hot标签,C是覆盖遮挡向量,i为正整数。遮挡操作可以强制网络捕获更详细的信息,并了解有关局部区域的更多信息。
根据前面的定义,模型的的目标函数为排列损失函数和旋转损失函数的线性加权,模型的整体损失函数如下:
loss=a*loss1+b*loss2+c*loss3 (6)
其中a和b和c分别为三个损失函数的权重,它们控制了三个子任务之间的互相影响程度,在实验中将三个权重值设置成1:1:1,这能够使预训练达到更好地效果。
经过上述训练后,可以得到第二识别模型。第二识别模型的准确度大于了第一阈值。
此时,可以将第二识别模型的卷积块提取出来,微调后用作其他目标任务。
在魔方复原任务上预训练的网络可以捕获3D医学影像的隐藏的特征、识别3D医学影像数据的基础结构并得到强大的特征表示。在对代理任务进行一些迭代之后,可以将网络转移到目标任务中。
对于3D医学影像分类任务,迁移除了最终全连接层之外的预训练网络并添加另一个新的全连接层。然后可以在目标分类任务中微调网络。对于3D医学影像数据的分割任务,预训练网络的权重只能被迁移到全卷积神经网络(FCN)的编码器部分(下采样阶段),例如3D U-Net。全卷积神经网络的解码器部分(上采样阶段)仍需要随机初始化。在对编码器部分进行预训练之后,网络能够捕获有益信息,从而可以为解码器部分提供梯度方向。实验表明,与从头开始的训练相比,这种预训练任务可以提高分割性能。
由于前期魔方复原式的预训练只能针对U-Net的下采样阶段,对于U-Net上采样阶段的网络参数在训练时仍需要进行随机初始化,为了避免大量参数初始化对前期预训练效果带来的影响,使用了密集上采样卷积模块Dense Upsampling Convolution(DUC)模块来替代原有的转置卷积,对特征图进行上采样,恢复到图像原始输入大小,DUC模块的结构如图9所示。其中,C表示通道数量,d表示扩大倍数。H为特征图的长,W为特征图的宽。
通过本实施例,实现了提高模型训练效率的效果。
根据本发明实施例的又一个方面,还提供了一种模型训练装置。可选地,如图15所示,上述模型训练装置包括:
(1)转化单元1502,用于将原始三维图片数据转化为三维立方体训练样本,其中,所述三维立方体训练样本中包括多个微立方体;
(2)第一执行单元1504,用于对所述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,所述第一操作用于改变所述多个微立方体的顺序,所述第二操作用于改变所述多个微立方体中的第一对象微立方体的方向;
(3)训练单元1506,用于利用所述目标训练样本进行训练,得到预训练网络模型,其中,所述预训练网络模型用于提取所述原始三维图片数据中的特征,还用于识别所述原始三维图片数据中的数据结构;
(4)迁移单元1508,用于为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;
(5)输入单元1510,用于将待识别的目标三维图片数据输入到所述第一识别模型中,得到识别结果,其中,所述识别结果中包括所述目标三维图片数据中的异常区域。
可选地,上述提及的原始三维数据可以但不限于为本方案中的3D样本图片,上述三维立体训练样本可以但不限于为本方案中的原始正方体,上述多个微立方体可以但不限于为本方案中的N个目标正方体,上述第一操作可以但不限于为排序操作,上述第二操作可以但不限于为旋转操作,上述第一对象微立方体可以但不限于为本方案中的第一目标正方体,上述预训练网络模型可以但不限于为本方案中的第二识别模型,为上述第二识别模型更换目标全连接层,得到本方案中的第一识别模型。上述目标三维图片数据可以但不限于为本方案中的目标3D图片。
本方案中,在获取到原始三维图片数据后,将该数据转化为三微立方体训练样本,然后对改变三维立方体训练样本中的多个微立方体的顺序与第一对象微立方体的方向,将调整后的数据作为目标训练样本,得到与训练网络模型。此时,与训练网络模型的训练效率得到了提高。更换与训练网络模型的全连接层,得到第一识别模型,第一识别模型可用于识别三维图片数据中的异常区域。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片识别方法的电子装置,如图16所示,该电子装置包括存储器1602和处理器1604,该存储器1602中存储有计算机程序,该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的目标3D图片;
S2,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S3,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
可选地,本领域普通技术人员可以理解,图16所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图16其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图16中所示更多或者更少的组件(如网络接口等),或者具有与图16所示不同的配置。
其中,存储器1602可用于存储软件程序以及模块,如本发明实施例中的图片识别方法和装置对应的程序指令/模块,处理器1604通过运行存储在存储器1602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图片识别方法。存储器1602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1602可进一步包括相对于处理器1604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1602具体可以但不限于用于存储待识别的目标3D图片等信息。作为一种示例,如图16所示,上述存储器1602中可以但不限于包括上述图片识别装置中的第一获取单元1102、第一输入单元1104与第二获取单元1106。此外,还可以包括但不限于上述图片识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1608,用于显示待识别的3D图片的第一类型;和连接总线1610,用于连接上述电子装置中的各个模块部件。
根据本发明实施例的又一个方面,还提供了一种用于实施上述识别模型训练方法的电子装置,如图17所示,该电子装置包括存储器1702和处理器1704,该存储器1702中存储有计算机程序,该处理器1704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S2,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S3,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。。
可选地,本领域普通技术人员可以理解,图17所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图17其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图17中所示更多或者更少的组件(如网络接口等),或者具有与图17所示不同的配置。
其中,存储器1702可用于存储软件程序以及模块,如本发明实施例中的识别模型训练方法和装置对应的程序指令/模块,处理器1704通过运行存储在存储器1702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的识别模型训练方法。存储器1702可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1702可进一步包括相对于处理器1704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1702具体可以但不限于用于存储3D样本图片等信息。作为一种示例,如图17所示,上述存储器1702中可以但不限于包括上述识别模型训练装置中的分割单元1202、处理单元1204与训练单元1206。此外,还可以包括但不限于上述识别模型训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1706包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1706为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1708,用于显示原始识别模型的训练准确度等;和连接总线1710,用于连接上述电子装置中的各个模块部件。
根据本发明实施例的又一个方面,还提供了一种用于实施上述识别模型训练方法的电子装置,如图18所示,该电子装置包括存储器1802和处理器1804,该存储器1802中存储有计算机程序,该处理器1804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S2,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S3,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。。
可选地,本领域普通技术人员可以理解,图18所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图18其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图18中所示更多或者更少的组件(如网络接口等),或者具有与图18所示不同的配置。
其中,存储器1802可用于存储软件程序以及模块,如本发明实施例中的识别模型训练方法和装置对应的程序指令/模块,处理器1804通过运行存储在存储器1802内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的识别模型训练方法。存储器1802可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1802可进一步包括相对于处理器1804远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1802具体可以但不限于用于存储3D样本图片等信息。作为一种示例,如图18所示,上述存储器1802中可以但不限于包括上述识别模型训练装置中的转化单元1502、第一执行单元1504、训练单元1506、迁移单元1508与输入单元1510。此外,还可以包括但不限于上述识别模型训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1806包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1806为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1808,用于显示原始识别模型的训练准确度等;和连接总线1810,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的目标3D图片;
S2,将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
S3,获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
或者,可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取3D样本图片,从3D样本图片中分割出N个目标正方体;
S2,对N个目标正方体执行预定操作,得到目标训练样本,其中,预定操作包括对N个目标正方体进行旋转和排序;
S3,使用目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,原始识别模型用于输出对目标训练样本的识别结果,在识别结果满足第一目标函数的概率大于第一阈值时,将原始识别模型确定为第二识别模型。
或者,可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将原始三维图片数据转化为三维立方体训练样本,其中,所述三维立方体训练样本中包括多个微立方体;
S2,对所述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,所述第一操作用于改变所述多个微立方体的顺序,所述第二操作用于改变所述多个微立方体中的第一对象微立方体的方向;
S3,利用所述目标训练样本进行训练,得到预训练网络模型,其中,所述预训练网络模型用于提取所述原始三维图片数据中的特征,还用于识别所述原始三维图片数据中的数据结构;
S4,为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;
S5,将待识别的目标三维图片数据输入到所述第一识别模型中,得到识别结果,其中,所述识别结果中包括所述目标三维图片数据中的异常区域。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种图片识别方法,其特征在于,包括:
获取待识别的目标3D图片;
将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别的目标3D图片之前,还包括:
获取所述3D样本图片;
从所述3D样本图片中确定出原始正方体;
将所述原始正方体拆分为所述N个目标正方体。
3.根据权利要求2所述的方法,其特征在于,所述N为大于1的正整数的3次方,所述将所述原始正方体拆分为所述N个目标正方体包括:
保持相邻的两个所述目标正方体之间间隔M个体素,从所述原始正方体中拆分出所述N个目标正方体,所述M为大于0且小于J-1的正整数,所述J为所述目标正方体的边长。
4.根据权利要求1所述的方法,其特征在于,在所述获取待识别的目标3D图片之前,还包括:
从所述N个目标正方体中确定出第一目标正方体;
将所述第一目标正方体旋转第一角度;
将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本。
5.根据权利要求4所述的方法,其特征在于,在所述将所述N个目标正方体中,旋转所述第一角度之后的所述第一目标样本正方体与其他目标正方体进行排序,得到所述目标训练样本之后,还包括:
将所述目标训练样本输入到所述原始识别模型中,以对所述原始识别模型进行训练,得到所述第二识别模型。
6.根据权利要求1所述的方法,其特征在于,所述获取待识别的目标3D图片之前,还包括:
获取所述原始识别模型对所述目标训练样本进行识别后输出的识别结果,其中,所述识别结果中包括所述目标训练样本中所述目标正方体的各种排序顺序与每一个所述目标正方体的旋转角度的概率;
在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
7.根据权利要求1所述的方法,其特征在于,所述获取待识别的目标3D图片之前,还包括:
将所述第二识别模型的卷积块确定为所述第一识别模型的卷积块;
使用第一训练样本对所述第一识别模型进行训练,直到所述第一识别模型的准确度大于第二阈值,其中,所述第一训练样本包括第一3D图片与所述第一3D图片的类型。
8.一种识别模型训练方法,其特征在于,包括:
获取3D样本图片,从所述3D样本图片中分割出N个目标正方体;
对所述N个目标正方体执行预定操作,得到目标训练样本,其中,所述预定操作包括对所述N个目标正方体进行旋转和排序;
使用所述目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,所述原始识别模型用于输出对所述目标训练样本的识别结果,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
9.一种图片识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的目标3D图片;
第一输入单元,用于将所述待识别的目标3D图片输入到第一识别模型中,其中,所述第一识别模型用于对所述待识别的目标3D图片进行识别得到所述待识别的目标3D图片的图片类型,所述第一识别模型的卷积块与第二识别模型的卷积块相同,所述第二识别模型为使用目标训练样本对原始识别模型进行训练得到的模型,所述目标训练样本包括对从3D样本图片中获取的N个目标正方体进行旋转与排序后得到的正方体,N为大于1的自然数;
第二获取单元,用于获取所述第一识别模型输出的所述待识别的目标3D图片的第一类型。
10.一种识别模型训练装置,其特征在于,包括:
分割单元,用于获取3D样本图片,从所述3D样本图片中分割出N个目标正方体;
处理单元,用于对所述N个目标正方体执行预定操作,得到目标训练样本,其中,所述预定操作包括对所述N个目标正方体进行旋转和排序;
训练单元,用于使用所述目标训练样本对原始识别模型进行训练,得到第二识别模型,其中,所述原始识别模型用于输出对所述目标训练样本的识别结果,在所述识别结果满足第一目标函数的概率大于第一阈值时,将所述原始识别模型确定为所述第二识别模型。
11.一种模型训练方法,其特征在于,包括:
将原始三维图片数据转化为三维立方体训练样本,其中,所述三维立方体训练样本中包括多个微立方体;
对所述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,所述第一操作用于改变所述多个微立方体的顺序,所述第二操作用于改变所述多个微立方体中的第一对象微立方体的方向;
利用所述目标训练样本进行训练,得到预训练网络模型,其中,所述预训练网络模型用于提取所述原始三维图片数据中的特征,还用于识别所述原始三维图片数据中的数据结构;
为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;
将待识别的目标三维图片数据输入到所述第一识别模型中,得到识别结果,其中,所述识别结果中包括所述目标三维图片数据中的异常区域。
12.根据权利要求11所述的方法,其特征在于,所述对所述多个微立方体执行第一操作与第二操作包括:
对所述多个微立方体执行排列组合,得到K种微立方体组合;
从所述K种微立方体组合中确定出目标微立方体组合;
从所述目标微立方体组合中确定出所述第一对象微立方体;
对所述第一对象微立方体执行旋转操作,以得到所述目标训练样本。
13.根据权利要求11所述的方法,其特征在于,在对所述多个微立方体依次执行第一操作与第二操作之后,还包括:
从所述多个微立方体中确定出第二对象微立方体;
对所述第二对象微立方体执行第三操作,以更新所述目标训练样本,其中,所述第三操作用于遮挡所述第二对象微立方体的部分区域。
14.根据权利要求13所述的方法,其特征在于,所述对所述第二对象微立方体执行第三操作包括:
将所述第二对象微立方体与目标矩阵相乘,其中,所述目标矩阵为与所述第二对象微立方体大小相同的三维矩阵。
15.根据权利要求11所述的方法,其特征在于,所述将原始三维图片数据转化为三维立方体训练样本包括:
将所述原始三维图片数据转换为原始三维立方体;
将所述原始三维立方体拆分为多个原始微立方体;
从所述多个原始微立方体中提取出所述多个微立方体。
16.根据权利要求15所述的方法,其特征在于,所述将所述原始三维立方体拆分为多个原始微立方体包括:
拆分所述原始三维立方体,得到所述多个原始微立方体,其中,相邻的两个所述原始微立方体之间保持间隔M个体素,所述M为大于0且小于J-1的正整数,所述J为所述原始微立方体的边长。
17.根据权利要求13所述的方法,其特征在于,
在所述利用所述目标训练样本进行训练,得到预训练网络模型之前,还包括:构建所述预训练网络模型的原始网络模型,其中,所述原始网络模型的全连接层中的目标函数包括:与所述第一操作对应的第一损失函数,与所述第二操作对应的第二损失函数,及与所述第三操作对应的第三损失函数;
所述利用所述目标训练样本进行训练,得到预训练网络模型包括:将所述目标训练样本输入所述原始网络模型进行训练,以得到所述预训练网络模型,其中,所述预训练网络模型的全连接层中的目标函数的输出结果已达到收敛条件。
18.根据权利要求17所述的方法,其特征在于,所述为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型包括:
获取当前待处理的所述目标图片识别任务;
确定与所述目标图片识别任务相匹配的目标全连接层;
将所述预训练网络模型的全连接层替换为所述目标全连接层,以得到所述第一识别模型,其中,所述第一识别模型用于执行所述目标图片识别任务。
19.一种模型训练装置,其特征在于,包括:
转化单元,用于将原始三维图片数据转化为三维立方体训练样本,其中,所述三维立方体训练样本中包括多个微立方体;
第一执行单元,用于对所述多个微立方体依次执行第一操作与第二操作,得到目标训练样本,其中,所述第一操作用于改变所述多个微立方体的顺序,所述第二操作用于改变所述多个微立方体中的第一对象微立方体的方向;
训练单元,用于利用所述目标训练样本进行训练,得到预训练网络模型,其中,所述预训练网络模型用于提取所述原始三维图片数据中的特征,还用于识别所述原始三维图片数据中的数据结构;
迁移单元,用于为所述预训练网络模型迁移与目标图片识别任务相匹配的目标全连接层,以得到第一识别模型;
输入单元,用于将待识别的目标三维图片数据输入到所述第一识别模型中,得到识别结果,其中,所述识别结果中包括所述目标三维图片数据中的异常区域。
20.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7或8或11至18任一项中所述的方法。
CN202010043334.2A 2019-06-21 2020-01-15 图片识别方法、识别模型训练方法、装置及电子装置 Pending CN111046855A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019105443920 2019-06-21
CN201910544392.0A CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111046855A true CN111046855A (zh) 2020-04-21

Family

ID=67920476

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910544392.0A Pending CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质
CN202010043334.2A Pending CN111046855A (zh) 2019-06-21 2020-01-15 图片识别方法、识别模型训练方法、装置及电子装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910544392.0A Pending CN110263724A (zh) 2019-06-21 2019-06-21 图片识别方法、识别模型训练方法、装置及存储介质

Country Status (6)

Country Link
US (1) US20210374475A1 (zh)
EP (1) EP3989109A4 (zh)
JP (1) JP7233555B2 (zh)
KR (1) KR102645533B1 (zh)
CN (2) CN110263724A (zh)
WO (1) WO2020253852A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN112949583A (zh) * 2021-03-30 2021-06-11 京科互联科技(山东)有限公司 复杂城市场景的目标检测方法、系统、设备及存储介质
CN113362313A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN114549904A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 视觉处理及模型训练方法、设备、存储介质及程序产品

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263724A (zh) * 2019-06-21 2019-09-20 腾讯科技(深圳)有限公司 图片识别方法、识别模型训练方法、装置及存储介质
CN110710986B (zh) * 2019-10-25 2021-01-22 华院数据技术(上海)有限公司 一种基于ct图像的脑部动静脉畸形检测方法及检测系统
CN111166070A (zh) * 2019-12-17 2020-05-19 五邑大学 一种基于指静脉认证的医疗储物柜及其管理方法
CN111242952B (zh) * 2020-01-15 2023-06-30 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像分割方法、装置及计算设备
CN111353580B (zh) * 2020-02-03 2023-06-20 中国人民解放军国防科技大学 目标检测网络的训练方法、电子设备及存储介质
CN112241764B (zh) * 2020-10-23 2023-08-08 北京百度网讯科技有限公司 图像识别方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636659B (zh) 2015-05-11 2021-10-12 西门子保健有限责任公司 使用深度神经网络检测医学图像中的地标的方法和系统
CN107025642B (zh) * 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
CN106960219B (zh) * 2017-03-10 2021-04-16 百度在线网络技术(北京)有限公司 图片识别方法及装置、计算机设备及计算机可读介质
CN107154043B (zh) * 2017-06-05 2020-03-24 杭州健培科技有限公司 一种基于3dcnn的肺结节假阳性样本抑制方法
US10935773B2 (en) * 2017-08-09 2021-03-02 Allen Institute Systems, devices, and methods for image processing to generate an image having predictive tagging
CN107977963A (zh) * 2017-11-30 2018-05-01 北京青燕祥云科技有限公司 肺结节的判定方法、装置和实现装置
CN108389201B (zh) * 2018-03-16 2020-06-30 北京推想科技有限公司 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN109308495B (zh) * 2018-07-05 2021-07-02 科亚医疗科技股份有限公司 从患者的医学图像自动预测生理状况的装置和系统
CN109063753B (zh) * 2018-07-18 2021-09-14 北方民族大学 一种基于卷积神经网络的三维点云模型分类方法
CN109886933B (zh) * 2019-01-25 2021-11-02 腾讯科技(深圳)有限公司 一种医学图像识别方法、装置和存储介质
CN110263724A (zh) * 2019-06-21 2019-09-20 腾讯科技(深圳)有限公司 图片识别方法、识别模型训练方法、装置及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN111723868B (zh) * 2020-06-22 2023-07-21 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN112949583A (zh) * 2021-03-30 2021-06-11 京科互联科技(山东)有限公司 复杂城市场景的目标检测方法、系统、设备及存储介质
CN113362313A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN113362313B (zh) * 2021-06-18 2024-03-15 四川启睿克科技有限公司 一种基于自监督学习的缺陷检测方法及系统
CN114549904A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 视觉处理及模型训练方法、设备、存储介质及程序产品

Also Published As

Publication number Publication date
US20210374475A1 (en) 2021-12-02
EP3989109A1 (en) 2022-04-27
EP3989109A4 (en) 2022-07-20
JP2022520390A (ja) 2022-03-30
KR102645533B1 (ko) 2024-03-07
KR20210119539A (ko) 2021-10-05
JP7233555B2 (ja) 2023-03-06
CN110263724A (zh) 2019-09-20
WO2020253852A1 (zh) 2020-12-24

Similar Documents

Publication Publication Date Title
CN111046855A (zh) 图片识别方法、识别模型训练方法、装置及电子装置
Gecer et al. Detection and classification of cancer in whole slide breast histopathology images using deep convolutional networks
KR102607800B1 (ko) 의료 영상 세그먼트화 방법 및 디바이스, 전자 디바이스 및 저장 매체
CN109522874B (zh) 人体动作识别方法、装置、终端设备及存储介质
JP2019193776A (ja) ディープラーニングに基づいたコンピュータ断層撮影肺結節検出法
Wang et al. Laplacian pyramid adversarial network for face completion
CN108986115A (zh) 医学图像分割方法、装置及智能终端
CN110276741B (zh) 结节检测及其模型训练的方法和装置以及电子设备
CN110009656B (zh) 目标对象的确定方法、装置、存储介质及电子装置
CN111145147B (zh) 多模态医学图像的分割方法及终端设备
CN111932529B (zh) 一种图像分类分割方法、装置及系统
CN113688862B (zh) 一种基于半监督联邦学习的脑影像分类方法及终端设备
CN113392937B (zh) 一种3d点云数据分类方法及其相关装置
Shu et al. Medical image segmentation based on active fusion-transduction of multi-stream features
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN110570394A (zh) 医学图像分割方法、装置、设备及存储介质
Feng et al. Supervoxel based weakly-supervised multi-level 3D CNNs for lung nodule detection and segmentation
CN111612792A (zh) 基于VRDS 4D医学影像的静脉的Ai内镜分析方法及产品
CN115375548A (zh) 一种超分辨率的遥感图像生成方法、系统、设备和介质
Roy et al. Brain tumour segmentation using S-Net and SA-Net
CN110135428A (zh) 图像分割处理方法和装置
CN116310452B (zh) 一种多视图聚类方法及系统
CN110232695A (zh) 基于混合模态图像的左心室图像分割方法及系统
CN113409324B (zh) 一种融合微分几何信息的脑分割方法
CN115439713A (zh) 模型训练方法及装置、图像分割方法、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022301

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination