CN111598160B - 图像分类模型的训练方法、装置、计算机设备及存储介质 - Google Patents
图像分类模型的训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111598160B CN111598160B CN202010406667.7A CN202010406667A CN111598160B CN 111598160 B CN111598160 B CN 111598160B CN 202010406667 A CN202010406667 A CN 202010406667A CN 111598160 B CN111598160 B CN 111598160B
- Authority
- CN
- China
- Prior art keywords
- image
- classification model
- image classification
- sample
- sample image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 422
- 238000000034 method Methods 0.000 title claims abstract description 129
- 238000012549 training Methods 0.000 title claims abstract description 118
- 238000003709 image segmentation Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 29
- 230000011218 segmentation Effects 0.000 description 29
- 241001465754 Metazoa Species 0.000 description 27
- 208000010412 Glaucoma Diseases 0.000 description 25
- 238000013473 artificial intelligence Methods 0.000 description 19
- 206010008342 Cervix carcinoma Diseases 0.000 description 14
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 14
- 201000010881 cervical cancer Diseases 0.000 description 14
- 238000012804 iterative process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 241000282414 Homo sapiens Species 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 241000282472 Canis lupus familiaris Species 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 238000013508 migration Methods 0.000 description 8
- 230000005012 migration Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000001000 micrograph Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种图像分类模型的训练方法、装置、计算机设备及存储介质,属于机器学习技术领域。方法包括:基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;将具有图像分类标签的第二样本图像输入更新后的第二图像分类模型,输出第二样本图像的分类结果;基于第二样本图像的分类结果和第二样本图像的图像分类标签,更新第二图像分类模型;基于具有图像分类标签的第三样本图像,更新第一图像分类模型,基于更新后的第一图像分类模型继续训练,以得到训练完成的图像分类模型。在减少了对具有图像分类标签的样本图像的需求,也保证了图像分类模型的精确度。
Description
技术领域
本申请涉及机器学习领域,特别涉及一种图像分类模型的训练方法、图像分类方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的飞速发展,图像处理技术可应用的范围越来越广泛。通过图像处理技术,可以根据图像中包括的内容,基于图像分类模型对图像进行分类,该图像中包括的内容可以为动物、植物、风景、建筑物、人体器官甚至是细胞等。对图像进行分类的精确度通常与图像分类模型的训练程度相关。
目前,在训练图像分类模型时,通常会使用深度卷积网络对大量的经过标注的样本图像进行端到端的训练。经过充分训练的图像分类模型可以对图像进行较为精确的分类,如分辨动物的种类等。
上述技术方案存在的问题是,在某些专业领域,如医疗领域、绘画领域等,对样本图像进行标注需要由本领域的专家来完成,这就导致无法获取到大量的经过标注的样本图像,从而导致训练得到的图像分类模型的精确度不高。
发明内容
本申请实施例提供了一种图像分类模型的训练方法、图像分类方法、装置、计算机设备及存储介质,使第二图像分类模型可以得到充分的训练,在减少了训练过程中对具有图像分类标签的样本图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。所述技术方案如下:
一方面,提供了一种图像分类模型的训练方法,所述方法包括:
基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;
将具有图像分类标签的第二样本图像输入更新后的所述第二图像分类模型,通过所述第二图像分类模型对所述第二样本图像进行分类,输出所述第二样本图像的分类结果;
响应于所述第二样本图像的分类结果不符合第一目标条件,基于所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,更新所述第二图像分类模型;
基于具有图像分类标签的第三样本图像,更新所述第一图像分类模型,基于更新后的所述第一图像分类模型继续训练,以得到训练完成的图像分类模型。
另一方面,提供了一种图像分类方法,所述方法包括:
获取待分类图像;
将所述待分类图像输入图像分类模型,通过所述图像分类模型对所述待分类图像进行图像分类,输出所述待分类图像的分类结果;
根据所述待分类图像的分类结果,确定所述待分类图像所属的图像类型;
其中,所述图像分类模型基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到。
另一方面,提供了一种图像分类模型的训练装置,所述装置包括:
更新模块,用于基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;
图像分类模块,用于将具有图像分类标签的第二样本图像输入更新后的所述第二图像分类模型,通过所述第二图像分类模型对所述第二样本图像进行分类,输出所述第二样本图像的分类结果;
所述更新模块,还用于响应于所述第二样本图像的分类结果不符合第一目标条件,基于所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,更新所述第二图像分类模型;
所述更新模块,还用于基于具有图像分类标签的第三样本图像,更新所述第一图像分类模型,基于更新后的所述第一图像分类模型继续训练,以得到训练完成的图像分类模型。
在一种可选的实现方式中,所述更新模块,用于将第一样本图像和所述第一样本图像的图像分割信息输入所述第一图像分类模型,得到第一特征信息;将所述第一样本图像输入所述第二图像分类模型,得到第二特征信息;根据所述第一特征信息和所述第二特征信息之间的差异信息,更新所述第二图像分类模型。
在一种可选的实现方式中,所述更新模块,还用于将所述第三样本图像输入所述第二图像分类模型,通过所述第二图像分类模型对所述第三样本图像进行分类,输出所述第三样本图像的分类结果;根据所述第三样本图像的分类结果和所述第三样本图像的图像分类标签,更新所述第一图像分类模型。
在一种可选的实现方式中,所述装置还包括:
信息获取模块,还用于根据所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,获取所述第二样本图像的难度信息,所述难度信息用于表示所述第二样本图像被正确分类的难易程度;
所述信息获取模块,还用于根据权重系数、所述第二样本图像的图像分类标签、所述第二样本图像的难度信息以及激活函数,获取所述第二样本图像的概率信息;
图像获取模块,用于响应于根据所述第二样本图像的概率信息确定所述第二样本图像满足第二目标条件,将所述第二样本图像作为所述第三样本图像。
在一种可选的实现方式中,所述信息获取模块,还用于根据所述权重系数和所述第二样本图像的图像分类标签,确定第一参数;根据所述第二样本图像的难度信息,确定第二参数;根据所述激活函数包括的缩放系数、偏移系数以及平均难度信息,确定第三参数,所述平均难度信息用于表示多个样本图像被正确分类的平均难易程度;根据所述第一参数、所述第二参数以及所述第三参数,获取所述第二样本图像的概率信息。
在一种可选的实现方式中,所述第二目标条件包括:
所述第三样本图像的数量少于目标数量;或者,
所述第三样本图像的数量不少于目标数量,且所述第二样本图像的概率信息所指示的概率大于任一第三样本图像的概率信息所指示的概率。
在一种可选的实现方式中,所述装置还包括:
图像获取模块,用于获取多个具有图像分类标签的样本图像;
所述图像获取模块,还用于从所述多个样本图像中随机选择目标比例的样本图像作为所述第二样本图像,将剩余的样本图像作为所述第三样本图像。
另一方面,提供了一种图像分类装置,所述装置包括:
获取模块,用于获取待分类图像;
模型处理模块,用于将所述待分类图像输入图像分类模型,通过所述图像分类模型对所述待分类图像进行图像分类,输出所述待分类图像的分类结果;
确定模块,用于根据所述待分类图像的分类结果,确定所述待分类图像所属的图像类型;
其中,所述图像分类模型基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的图像分类模型的训练方法中所执行的操作,或者执行以实现本申请实施例中的图像分类方法中所执行的操作。
另一方面,提供了一种存储介质,所述存储介质中存储有至少一段程序代码,所述至少一段程序代码用于执行本申请实施例中的图像分类模型的训练方法,或者执行本申请实施例中的图像分类方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,通过具有图像分割信息的第一样本图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下一次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有图像分类标签的样本图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的一种图像分类模型的训练方法的实施环境示意图;
图2是本申请实施例提供的一种图像分类模型的训练方法的流程图;
图3是本申请实施例提供的一种图像分类方法的流程图;
图4是本申请实施例提供的另一种图像分类模型的训练方法的流程图;
图5是根据本申请实施例提供的一种图像分类模型的训练方法的结构示意图;
图6是本申请实施例提供的另一种图像分类模型的训练方法的流程图;
图7是本申请实施例提供的另一种图像分类模型的训练方法的流程图;
图8是本申请实施例提供的另一种图像分类模型的训练方法的流程图;
图9是根据本申请实施例提供的一种图像分类模型的训练装置的框图;
图10是根据本申请实施例提供的一种图像分类装置的框图;
图11是根据本申请实施例提供的一种终端的结构框图;
图12是根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面简单介绍一下本申请实施例可能用到的技术:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实与地图构建等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供了一种图像分类方法,可以基于人工智能技术实现。该方法可以应用于对图像分类的场景中。例如,对动物图像进行分类,对植物图像进行分类,对风景图像进行分类,对建筑物图像进行分类,对人体器官图像进行分类,以及对细胞图像进行分类等。通过将待分类的图像输入第一分类模型中,即可得到分类概率,根据该分类概率,即可确定待分类图像所属的图像类型。其中,该第一分类模型可以为二分类模型,也可以多分类模型,本申请实施例对此不进行限制。
下面介绍一下图像分类模型的训练方法的实施环境,图1是根据本申请实施例提供的一种图像分类模型的训练方法的实施环境示意图。该实施环境可以包括:终端110和服务器120。
终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110可以安装和运行有支持图像上传的应用程序。该应用程序可以是相册类应用程序、社交类应用程序以及图像检索类应用程序等。示意性的,终端110是用户使用的终端,终端110中运行的应用程序内登录有用户账户。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为支持图像上传的应用程序提供后台服务。可选地,服务器120承担主要分类工作,终端110承担次要分类工作;或者,服务器120承担次要分类工作,终端110承担主要分类工作;或者,服务器120或终端110分别可以单独承担分类工作。
可选地,服务器120可以由接入服务器、分类服务器和数据库服务器构成。接入服务器用于提供终端110提供接入服务。分类服务器用于提供图像分类服务。分类服务器可以是一台或多台。当分类服务器是多台时,存在至少两台分类服务器用于提供不同的服务,和/或,存在至少两台分类服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。分类服务器中可以设置有图像分类模型。
终端110可以泛指多个终端中的一个,本实施例仅以终端110来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述图像分类模型的训练方法的实施例中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在一种可能的实现方式中,本申请实施例提供的图像分类模型的训练方法,训练得到的图像分类模型,可用于对人体器官是否产生病变进行分类的场景,下面以对眼睛图像是否属于青光眼进行分类的场景进行介绍:
终端可以采集并上传青光眼眼底图像,该终端上传的青光眼眼底图像可以是标注有视杯视盘分割信息的青光眼眼底图像,也可以是眼科专家标注有青光眼诊断标签的青光眼眼底图像。在本申请实施例中,服务器在训练图像分类模型时,可以获取青光眼眼底图像以及该青光眼眼底图像的视盘视杯分割信息,将该青光眼眼底图像作为具有图像分割信息的第一样本图像;还可以获取青光眼眼底图像以及对应的青光眼诊断标签,将该青光眼眼底图像作为具有图像分类标签的第二样本图像和第三样本图像。基于该第一样本图像、第二样本图像和第三样本图像,按照本申请实施例提供的图像分类模型的训练方法,即可训练得到用于青光眼进行分类的图像分类模型。另外,在训练图像分类模型时,采用了教师-学生这一模型架构,将第一图像分类模型作为教师模型,将第二图像分类模型作为学生模型,通过教师模型来辅助学生模型的训练,并根据学生模型的训练情况,实时的调整教师模型的参数,以提高学生模型的训练效率。
在一种可能的实现方式中,本申请实施例提供的图像分类模型的训练方法,训练得到的图像分类模型,还可以用于对细胞是否产生病变进行分类的场景,下面以对宫颈基液涂片图像是否是包括宫颈癌细胞进行分类的场景进行介绍:
通过电子显微镜可以采集宫颈基液涂片的显微图像,该显微图像包括宫颈癌细胞,通过数据传输接口将该包括宫颈癌细胞的显微图像发送至服务器。在本申请实施例中,服务器在训练图像分类模型时,可以获取包括宫颈癌细胞的第一显微图像以及该第一显微图像的宫颈癌细胞和正常细胞的分割信息,将该宫颈癌细胞图像作为具有图像分割信息的第一样本图像;还可以获取包括宫颈癌细胞的第二显微图像以及宫颈癌诊断标签,将该包括宫颈癌细胞的第二显微图像作为具有图像分类标签的第二样本图像和第三样本图像。基于该第一样本图像、第二样本图像和第三样本图像,按照本申请实施例提供的图像分类模型的训练方法,即可训练得到用于宫颈癌细胞进行分类的图像分类模型。
在一种可能的实现方式中,本申请实施例提供的图像分类模型的训练方法,训练得到的图像分类模型,还可以用于分辨动物的种类的场景,下面以对猫和狗进行分类的场景进行介绍:
服务器可以获取大量包括猫以及包括狗的动物图像。对于任一动物图像,该样本图像对应有猫以及背景的分割信息,或者狗以及背景的分割信息。另外,服务器还获取有每个动物图像的标签信息,该标签信息用于指示动物图像中包含猫、狗还是其他动物。服务器在训练图像分类模型时,将上述动物图像作为具有分割信息的第一样本图像以及具有图像分类标签的第二样本图像和第三样本图像。基于该第一样本图像、第二样本图像和第三样本图像,按照本申请实施例提供的图像分类模型的训练方法,即可训练得到用于猫和狗进行分类的图像分类模型。
在一种可能的实现方式中,本申请实施例提供的图像分类模型的训练方法,训练得到的图像分类模型,还可以用于分辨建筑物所属的建筑风格的场景,下面以对建筑物进行分类的场景进行介绍:
服务器可以获取大量包括不同建筑风格的建筑物图像,该建筑物图像对应有建筑物和背景的分割信息。另外,服务器还可以获取由建筑领域专家标注有建筑风格标签的建筑物图像。在本申请实施例中,服务器在训练图像分类模型时,可以将对应有建筑物和背景的分割信息的建筑物图像作为具有图像分割信息的第一样本图像;还可以将对应有建筑风格标签的建筑物图像作为具有图像分类标签的第二样本图像和第三样本图像。基于该第一样本图像、第二样本图像和第三样本图像,按照本申请实施例提供的图像分类模型的训练方法,即可训练得到用于对建筑物进行分类的图像分类模型。
在本申请实施例中,可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方法,本申请实施例对此不作限定。图2是本申请实施例提供的一种图像分类模型的训练方法的流程图。该实施例以执行主体为服务器为例进行说明,参见图2,该实施例包括:
201、服务器基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型。
在本申请实施例中,第一样本图像为具有图像分割信息的样本图像,该图像分割信息可以用于标注该第一样本图像中包括的内容。例如,该第一样本图像可以为青光眼眼底图像,则该分割信息可以标注有该青光眼眼底图像的视杯视盘信息。该第一样本图像也可以为老年性黄斑眼底图像,该分割信息可以标注该老年性换班眼底图像的黄斑信息。该第一样本图像还可以是细胞涂片图像,该分割信息可以标注该细胞涂片图像中的鳞状细胞和宫颈细胞等。该第一图像分类模型可以作为教师模型,用于对作为学生模型的第二图像分类模型进行更新。
202、服务器将具有图像分类标签的第二样本图像输入更新后的该第二图像分类模型,通过该第二图像分类模型对该第二样本图像进行分类,输出该第二样本图像的分类结果。
在本申请实施例中,第二样本图像为具有图像分类标签的样本图像,该图像分类标签可以用于对第二图像分类模型进行有监督的训练。
203、响应于该第二样本图像的分类结果不符合第一目标条件,服务器基于该第二样本图像的分类结果和该第二样本图像的图像分类标签,更新该第二图像分类模型。
在本申请实施例中,该第一目标条件可以为该第二样本图像的分类结果与该第二样本图像的分类标签一致,或者误差在误差范围之内。如果分类结果不符合第一目标条件,表示该第二图像分类模型还未训练完成,服务器对该第二图像分类模型进行更新。
204、服务器基于具有图像分类标签的第三样本图像,更新该第一图像分类模型,基于更新后的第一图像分类模型继续训练,以得到训练完成的图像分类模型。
在本申请实施例中,服务器在更新第二图像分类模型时,也可以更新第一图像分类模型,使得在下一次迭代过程中,更新后的第一图像分类模型可以指导第二图像分类模型进行更新,以加快第二图像分类模型的收敛速度。
需要说明的是,上述步骤201至步骤204是一次迭代的过程,服务器可以基于更新后的第一图像分类模型继续训练,以得到训练完成的图像分类模型,即重复多次迭代过程,直到第二图像分类模型输出的第二样本图像的分类结果符合第一目标条件,或者满足其他训练结束条件,表示该第二图像分类模型训练完成,可以作为图像分类模型对待分类图像进行分类。
在本申请实施例中,通过具有图像分割信息的第一样本图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下一次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有图像分类标签的样本图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
在本申请实施例中,可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方法,本申请实施例对此不作限定。图3是本申请实施例提供的一种图像分类方法的流程图。该实施例以执行主体为服务器为例进行说明,参见图3,该实施例包括:
301、服务器获取待分类图像。
在本申请实施例中,该待分类图像可以为服务器从数据库中获取的图像,也可以为服务器接收的终端上传的图像。该待分类图像可以为包含动物的图像、包含植物的图像、包含风景的图像、包含人体器官的图像以及包含细胞的图像等,本申请实施例对此不进行限制。
302、服务器将该待分类图像输入图像分类模型,通过该图像分类模型对该待分类图像进行图像分类,输出该待分类图像的分类结果。
在本申请实施例中,该图像分类模型基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到。
303、服务器根据该待分类图像的分类结果,确定该待分类图像所属的图像类型。
在本申请实施例中,该待分类图像的分类结果用于表示该待分类图像属于各图像类型的概率,响应于该待分类图像属于任一图像类型的概率大于目标概率阈值,将该图像类型作为该待分类图像所属的图像类型。
在本申请实施例中,通过基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到的图像分类模型来确定待分类图像所属的图像类型,可以较为精确地对待分类图像进行分类。
在本申请实施例中,可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方法,本申请实施例对此不作限定。图4是本申请实施例提供的另一种图像分类模型的训练方法的流程图。该实施例以服务器进行一次迭代为例进行说明,参见图4,该实施例包括:
401、服务器基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型。
在本申请实施例中,服务器可以采用教师-学生模型架构来训练图像分类模型,第一图像分类模型可以作为教师模型,第二图像分类模型可以作为学生模型,第一图像分类模型可以用于指导第二图像分类模型的训练。
在一种可选的实现方式中,服务器可以指示第二图像分类模型通过知识迁移向第一图像分类模型学习,来对第二图像分类模型进行更新。相应的,服务器基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型的步骤可以为:服务器可以将第一样本图像和该第一样本图像的图像分割信息输入第一图像分类模型,得到第一特征信息。服务器可以将该第一样本图像输入第二图像分类模型,得到第二特征信息。服务器可以根据该第一特征信息和该第二特征信息之间的差异信息,更新该第二图像分类模型。其中,服务器可以根据该差异信息确定的知识迁移损失,基于该知识迁移损失来更新第二图像分类模型。由于通过两个图像分类模型对同一第一样本图像分别提取特征信息,然后基于特征信息之间的差异信息来对第二图像分类模型进行更新,不需要具有图像分类标签的样本图像即可实现对第二图像分类模型的更新。
例如,第一特征信息可以用多维的第一特征向量来表示,第二特征信息可以用多维的第二特征向量来表示。服务器可以计算和的格拉姆矩阵之间的CKA(CenteredKernel Alignment,中心核对齐)作为相似性指数,将该相似性指数作为差异信息,也即知识迁移损失来更新第二图像分类模型。该知识迁移损失可以通过公式(1)来确定。
其中,表示知识迁移损失,CKA()表示计算相似性指数,表示第一特征向量,表示第二特征向量,T表示矩阵转置,表示的格拉姆矩阵,表示的格拉姆矩阵,||.||F表示弗罗贝尼乌斯范数(Frobenius范数)。
402、服务器将具有图像分类标签的第二样本图像输入更新后的第二图像分类模型,通过第二图像分类模型对该第二样本图像进行分类,输出该第二样本图像的分类结果。
在本申请实施例中,服务器可以获取多个具有图像分类标签的样本图像,从该多个样本图像中随机选择目标比例的样本图像作为第二样本图像,将剩余的样本图像作为第三样本图像。该第二样本图像可以用于更新第二图像分类模型,该第三样本图像可以用于更新第一图像分类模型。其中,目标比例可以为90%、80%以及70%等,本申请实施例对此不进行限制。服务器可以将获取到的第二样本图像输入第二图像分类模型,有该第二图像分类模型对该第二样本图像进行分类。如果第二图像分类模型输出的分类结果符合第一目标条件,则服务器可以执行步骤403,完成模型训练;如果第二图像分类模型输出的分类结果不符合该第一目标条件,则服务器可以执行步骤404和步骤405,完成本次迭代过程。
在一种可选的实现方式中,服务器在训练过程中,还可以动态的调整第二样本图像和第三样本图像,根据样本图像被分类正确的难易程度,将较难正确分类的样本图像作为第三样本图像,剩下的作为第二样本图像。相应的,服务器在输出第二样本图像的分类结果之后,还可以根据该第二样本图像的分类结果和该第二样本图像的图像分类标签,获取该第二样本图像的难度信息,该难度信息用于表示该第二样本图像被正确分类的难易程度。服务器可以根据权重系数、该第二样本图像的图像分类标签、该第二样本图像的难度信息以及激活函数,获取该第二样本图像的概率信息。响应于根据该第二样本图像的概率信息确定该第二样本图像满足第二目标条件,服务器可以将该第二样本图像作为该第三样本图像。其中,第二目标条件可以为当前第三样本图像的数量少于目标数量;或者,该第三样本图像的数量不少于目标数量,且该第二样本图像的概率信息所指示的概率大于任一第三样本图像的概率信息所指示的概率。由于将较难被正确分类的样本图像作为第三样本图像,使得可以模拟教师选择较难的习题作为考试题目来对学生进行考试的场景,从而提高第二图像分类模型对第三样本图像分类的能力。
需要说明的是,服务器可以通过三个参数来获取第二样本图像的概率信息。服务器可以根据权重系数和第二样本图像的图像分类标签,确定第一参数;服务器可以根据第二样本图像的难度信息,确定第二参数;服务器可以根据激活函数包括的缩放系数、偏移系数以及平均难度信息,确定第三是参数,该平均难度信息用于表示多个样本图像被正确分类的平均难易程度。服务器可以根据该第一参数、第二参数以及该第三参数,获取该第二样本图像的概率信息。其中,权重系数用于过滤部分负样本,可以设置为0.7、0.8等,本申请实施例对此不进行限制。调和系数用于筛选难度更高的样本图像,可以设置为2、3等,本申请实施例对此不进行限制。缩放系数和偏移系数用于对于sigmoid(S型长曲线)函数进行缩放和平移,使得第三样本图像难度较高时保持稳定,第三样本图像难度较低时,难度较高的第二样本图像可以更容易的成为第三样本图像。
该概率信息所指示的概率P可以通过公式(2)来计算得到。
其中,P表示概率信息所指示的概率,(α(1-y)+y)表示第一参数,α表示权重系数,y表示图像分类标签,(ψs)γ表示第二参数,ψs表示难度信息所指示的难度,γ表示调和系数,表示第三参数,σ表示缩放系数、表示平均难度信息所指示的平均难度,μ表示偏移系数。
另外,ψs可以通过公式(3)来计算得到。
ψs=(1-y)y’+y(1-y’) (3);
其中,ψs表示难度信息所指示的难度,y表示图像分类标签,y’表示第二图像分类模型输出的分类结果。
需要说明的是,第三样本图像的数量可以保持目标数量不变,每当一个第二样本图像满足第二目标条件,则服务器可以将第三样本图像中概率信息所指示的概率最小的第三样本图像作为第二样本图像。
403、响应于该第二样本图像的分类结果符合第一目标条件,服务器将该第二图像分类模型作为训练完成的图像分类模型,流程结束。
在本申请实施例中,该第一目标条件可以为该第二样本图像的分类结果与该第二样本图像的分类标签一致,或者二者之间的误差在误差范围之内。此时表示该第二图像分类模型已训练完成,服务器可以将该第二图像分类模型作为图像分类模型,图像分类模型的训练流程结束。
需要说明的是,服务器还可以通过其他训练结束条件来结束迭代过程,得到图像分类模型,该其他训练结束条件可以为达到目标迭代次数、模型收敛等,本申请实施例对此不进行限制。
404、响应于该第二样本图像的分类结果不符合第一目标条件,服务器基于该第二样本图像的分类结果和该第二样本图像的图像分类标签,更新该第二图像分类模型。
在本申请实施例中,如果第二样本图像的分类结果不符合第一目标条件,表示该第二图像分类模型还未训练完成。服务器可以根据第二图像分类模型输出的分类结果和图像分类标签之间的二元交叉熵损失来更新该第二图像分类模型。其中,该二元交叉熵损失可以通过公式(4)计算得到。
405、服务器基于具有图像分类标签的第三样本图像,更新第一图像分类模型。
在本申请实施例中,服务器可以通过以知识迁移的方式学习教学(Learning ToTeach with Knowledge Transfer,L2T-KT)的训练方式来更新第一图像分类模型。
下面通过一个例子来介绍一下L2T-KT的实现方式:
其中,表示更新后的第二图像分类模型的参数,θs表示更新前的第二图像分类模型的参数,λs表示第二图像分类模型的学习率,表示求偏导,表示第一图像分类模型和第二图像分类模型之间的知识迁移损失,可以通过上述公式(1)计算得到。
L2T-KT的第二步是将第三样本图像q输入第二图像分类模型,通过该第二图像分类模型对该第三样本图像进行分类,输出第三样本图像的分类结果表示为根据该第三样本图像的分类结果和该第三样本图像的图像分类标签,通过公式(6)来更新该第一图像分类模型的参数θt。
其中,表示跟新后的第一图像分类模型的参数,θt表示更新前的第一图像分类模型的参数,λt表示第一图像分类模型的学习率,表示求偏导,表示第二图像分类模型输出的第三样本图像q的分类结果和图像分类标签之间的二元交叉熵损失,可以通过上述公式(4)计算得到,表示第三样本图像的分类结果,yq表示第三样本图像q的图像分类标签。
需要说明的是,上述第二图像分类模型的学习率λs和第一图像分类模型的学习率λt,均可以设置为3×10-4,用科学计数法表示为3e-4。当然还可以设置为4×10-4、4×10-5等,本申请实施例对此不进行限制。
需要说明的是,上述步骤401至步骤405是本申请实施例提供的图像分类模型的训练方法的可选实现方式,相应的,还有其他可选的实现方式可以实现上述图像分类模型的训练方法,如在步骤402执行完毕后,无论第二样本图像的分类结果是否符合第一目标条件,都执行步骤405基于具有图像分类标签的第三样本图像,更新第一图像分类模型的步骤。本申请实施例对此不进行限制。
需要说明的是,服务器可以在图像分类模型完成训练之前,不断重复步骤401至步骤405描述的迭代过程,下一次迭代过程以本次迭代结束时得到的第一图像分类模型和第二图像分类模型为基础进行训练,除最后一次迭代以外的每次迭代过程,都分为三个阶段,第一个阶段和第二个阶段是更新第二图像分类模型,第三个阶段是更新第一图像分类模型,也即在一次迭代过程中,第二图像分类模型更新两次,第一图像分类模型更新一次。在以分类结果是否符合第一目标条件来判断是否训练结束时,若分类结果符合第一目标条件,则本次迭代为最后一次迭代,可以不继续训练,此时第二图像分类模型经过了第一阶段的更新,不需要再对第二图像分类模型和第一图像分类模型进行更新。当然,如果以迭代次数作为训练结束条件,当达到迭代次数时,可以停止迭代,则每次迭代均经过上述三个阶段。
在本申请实施例中,通过具有图像分割信息的第一样本图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下一次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有图像分类标签的样本图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
本申请实施例提供的图像分类模型的训练方法,一次迭代过程可以划分为三个阶段,第一个阶段是通过知识迁移损失,更新第二图像分类模型;第二个阶段是通过具有图像分类标签的第二样本图像,更新第二图像分类模型;第三个阶段是通过具有图像分类标签的第三样本图像,更新第一图像分类模型。下面结合图5进行说明。图5是根据本申请实施例提供的一种图像分类模型的训练方法的结构示意图,如图5所示。第一阶段包括三个子步骤:5011、将第一样本图像和对应的图像分割信息输入第一图像分类模型,得到第一特征向量5012、将第一样本图像输入第二图像分类模型,得到第二特征向量5013、计算知识迁移损失更新第二图像分类模型。第二阶段包括三个子步骤:5021、将第二样本图像输入第二图像分类模型,输出该第二样本图像的分类结果;5022、如果分类结果不符合第一目标条件,计算分类结果和该第二样本图像的图像分类标签之间的二元交叉熵损失5023、基于该二元交叉熵损失更新第二图像分类模型;5024、如果分类结果符合第一目标条件,训练结束。第三阶段,包括三个子步骤:5031、将第三样本图像输入第二图像分类模型,输出该第三样本图像的分类结果;5032、计算分类结果和该第三样本图像的图像分类标签之间的二元交叉熵损失5033、基于该二元交叉熵损失更新第一图像分类模型。需要说明的是,上述第二阶段和第三阶段可以同时进行,且使用的都是第一阶段更新后的第二图像分类模型,不同点在于,第二阶段输出的分类结果更新了第二图像分类模型,第三阶段输出的分类结果未更新第二图像分类模型而是用于更新第一图像分类模型。
图6是本申请实施例提供的另一种图像分类模型的训练方法的流程图。该实施例以训练用于对宫颈癌细胞进行分类的图像分类模型的一次迭代过程为例进行说明,参见图6,该实施例包括:
601、服务器基于具有图像分割信息的第一显微图像和第一图像分类模型,更新第二图像分类模型。
第一显微图像为包括宫颈癌细胞且对应有宫颈癌细胞和正常细胞的分割信息的显微图像。本步骤可以参见上述步骤401,在此不再赘述。
602、服务器将具有图像分类标签的第二显微图像输入更新后的第二图像分类模型,通过第二图像分类模型对该第二显微图像进行分类,输出该第二青光眼眼底图像的分类结果。
第二显微图像为包括宫颈癌细胞且对应有医疗领域专家标注有宫颈癌诊断标签的显微图像。本步骤可以参见上述步骤402,在此不再赘述。
603、响应于该具有图像分类标签的第二显微图像的分类结果符合第一目标条件,服务器将该第二图像分类模型作为训练完成的图像分类模型,流程结束。
本步骤可以参见上述步骤403,在此不再赘述。
604、响应于该具有图像分类标签的第二显微图像的分类结果不符合第一目标条件,服务器基于该第二显微图像的分类结果和该第二显微图像的图像分类标签,更新该第二图像分类模型。
本步骤可以参见上述步骤404,在此不再赘述。
605、服务器基于其他具有图像分类标签的第二显微图像,更新第一图像分类模型。
本步骤可以参见上述步骤405,在此不再赘述。
服务器可以在图像分类模型完成训练之前,不断重复步骤601至步骤605描述的迭代过程,下一次迭代过程以本次迭代结束时得到的第一图像分类模型和第二图像分类模型为基础进行训练,除最后一次迭代以外的每次迭代过程,都分为三个阶段,第一个阶段和第二个阶段是更新第二图像分类模型,第三个阶段是更新第一图像分类模型,也即在一次迭代过程中,第二图像分类模型更新两次,第一图像分类模型更新一次。在以分类结果是否符合第一目标条件来判断是否训练结束时,若分类结果符合第一目标条件,则本次迭代为最后一次迭代,可以不继续训练,此时第二图像分类模型经过了第一阶段的更新,不需要再对第二图像分类模型和第一图像分类模型进行更新。当然,如果以迭代次数作为训练结束条件,当达到迭代次数时,可以停止迭代,则每次迭代均经过上述三个阶段。
在本申请实施例中,通过具有图像分割信息的第一显微图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有宫颈癌诊断标签的第二显微图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
图7是本申请实施例提供的另一种图像分类模型的训练方法的流程图。该实施例以训练用于对动物图像,如包括猫狗的动物图像进行分类的图像分类模型的一次迭代过程为例进行说明,参见图7,该实施例包括:
701、服务器基于具有图像分割信息的第一动物图像和第一图像分类模型,更新第二图像分类模型。
该第一动物图像可以为对应有猫和背景的分割信息,或者狗和背景的分割信息的动物图像。本步骤可以参见上述步骤401,在此不再赘述。
702、服务器将具有图像分类标签的第二动物图像输入更新后的第二图像分类模型,通过第二图像分类模型对该第二动物图像进行分类,输出该第二动物图像的分类结果。
该第二动物图像为对应有猫或者狗的分类标签的动物图像。本步骤可以参见上述步骤402,在此不再赘述。
703、响应于该具有图像分类标签的第二动物图像的分类结果符合第一目标条件,服务器将该第二图像分类模型作为训练完成的图像分类模型,流程结束。
本步骤可以参见上述步骤403,在此不再赘述。
704、响应于该具有图像分类标签的第二动物图像的分类结果不符合第一目标条件,服务器基于该第二动物图像的分类结果和该第二动物图像的图像分类标签,更新该第二图像分类模型。
本步骤可以参见上述步骤404,在此不再赘述。
705、服务器基于其他具有图像分类标签的第二动物图像,更新第一图像分类模型。
本步骤可以参见上述步骤405,在此不再赘述。
服务器可以在图像分类模型完成训练之前,不断重复步骤701至步骤705描述的迭代过程,下一次迭代过程以本次迭代结束时得到的第一图像分类模型和第二图像分类模型为基础进行训练,除最后一次迭代以外的每次迭代过程,都分为三个阶段,第一个阶段和第二个阶段是更新第二图像分类模型,第三个阶段是更新第一图像分类模型,也即在一次迭代过程中,第二图像分类模型更新两次,第一图像分类模型更新一次。在以分类结果是否符合第一目标条件来判断是否训练结束时,若分类结果符合第一目标条件,则本次迭代为最后一次迭代,可以不继续训练,此时第二图像分类模型经过了第一阶段的更新,不需要再对第二图像分类模型和第一图像分类模型进行更新。当然,如果以迭代次数作为训练结束条件,当达到迭代次数时,可以停止迭代,则每次迭代均经过上述三个阶段。
在本申请实施例中,通过具有图像分割信息的第一动物图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练。也即该图像分类模型的训练方法可以适用于图像分割信息对分类有帮助的任务,提高了适用范围。
图8是本申请实施例提供的另一种图像分类模型的训练方法的流程图。该实施例以训练用于对建筑物进行分类的图像分类模型的一次迭代过程为例进行说明,参见图8,该实施例包括:
801、服务器基于具有图像分割信息的第一建筑物图像和第一图像分类模型,更新第二图像分类模型。
该第一建筑物图像为对应有建筑物和背景的分割信息的建筑物图像。本步骤可以参见上述步骤401,在此不再赘述。
802、服务器将具有图像分类标签的第二建筑物图像输入更新后的第二图像分类模型,通过第二图像分类模型对该第二建筑物图像进行分类,输出该第二建筑物图像的分类结果。
该第二建筑物图像为对应有建筑领域专家标注有建筑风格标签的建筑物图像。本步骤可以参见上述步骤402,在此不再赘述。
803、响应于该具有图像分类标签的第二建筑物图像的分类结果符合第一目标条件,服务器将该第二图像分类模型作为训练完成的图像分类模型,流程结束。
本步骤可以参见上述步骤403,在此不再赘述。
804、响应于该具有图像分类标签的第二建筑物图像的分类结果不符合第一目标条件,服务器基于该第二建筑物图像的分类结果和该第二建筑物图像的图像分类标签,更新该第二图像分类模型。
本步骤可以参见上述步骤404,在此不再赘述。
805、服务器基于其他具有图像分类标签的第二建筑物图像,更新第一图像分类模型。
本步骤可以参见上述步骤405,在此不再赘述。
服务器可以在图像分类模型完成训练之前,不断重复步骤801至步骤805描述的迭代过程,下一次迭代过程以本次迭代结束时得到的第一图像分类模型和第二图像分类模型为基础进行训练,除最后一次迭代以外的每次迭代过程,都分为三个阶段,第一个阶段和第二个阶段是更新第二图像分类模型,第三个阶段是更新第一图像分类模型,也即在一次迭代过程中,第二图像分类模型更新两次,第一图像分类模型更新一次。在以分类结果是否符合第一目标条件来判断是否训练结束时,若分类结果符合第一目标条件,则本次迭代为最后一次迭代,可以不继续训练,此时第二图像分类模型经过了第一阶段的更新,不需要再对第二图像分类模型和第一图像分类模型进行更新。当然,如果以迭代次数作为训练结束条件,当达到迭代次数时,可以停止迭代,则每次迭代均经过上述三个阶段。
在本申请实施例中,通过具有图像分割信息的第一建筑物图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件是,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有建筑风格标签的第二建筑物图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
图9是根据本申请实施例提供的一种图像分类模型的训练装置的框图。该装置用于执行上述图像分类模型的训练方法执行时的步骤,参见图9,装置包括:更新模块901、图像分类模块902。
更新模块901,用于基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;
图像分类模块902,用于将具有图像分类标签的第二样本图像输入更新后的该第二图像分类模型,通过该第二图像分类模型对该第二样本图像进行分类,输出该第二样本图像的分类结果;
该更新模块901,还用于响应于该第二样本图像的分类结果不符合第一目标条件,基于该第二样本图像的分类结果和该第二样本图像的图像分类标签,更新该第二图像分类模型;
该更新模块901,用于基于具有图像分类标签的第三样本图像,更新该第一图像分类模型,基于更新后的所述第一图像分类模型继续训练,以得到训练完成的图像分类模型。
在一种可选的实现方式中,该更新模块901,还用于将第一样本图像和该第一样本图像的图像分割信息输入该第一图像分类模型,得到第一特征信息;将该第一样本图像输入该第二图像分类模型,得到第二特征信息;根据该第一特征信息和该第二特征信息之间的差异信息,更新该第二图像分类模型。
在一种可选的实现方式中,该更新模块901,还用于将该第三样本图像输入该第二图像分类模型,通过该第二图像分类模型对该第三样本图像进行分类,输出该第三样本图像的分类结果;根据该第三样本图像的分类结果和该第三样本图像的图像分类标签,更新该第一图像分类模型。
在一种可选的实现方式中,该装置还包括:
信息获取模块,还用于根据该第二样本图像的分类结果和该第二样本图像的图像分类标签,获取该第二样本图像的难度信息,该难度信息用于表示该第二样本图像被正确分类的难易程度;
该信息获取模块,还用于根据权重系数、该第二样本图像的图像分类标签、该第二样本图像的难度信息以及激活函数,获取该第二样本图像的概率信息;
图像获取模块,用于响应于根据该第二样本图像的概率信息确定该第二样本图像满足第二目标条件,将该第二样本图像作为该第三样本图像。
在一种可选的实现方式中,该信息获取模块,还用于根据该权重系数和该第二样本图像的图像分类标签,确定第一参数;根据该第二样本图像的难度信息,确定第二参数;根据该激活函数包括的缩放系数、偏移系数以及平均难度信息,确定第三参数,该平均难度信息用于表示多个样本图像被正确分类的平均难易程度;根据该第一参数、该第二参数以及该第三参数,获取该第二样本图像的概率信息。
在一种可选的实现方式中,该第二目标条件包括:
该第三样本图像的数量少于目标数量;或者,
该第三样本图像的数量不少于目标数量,且该第二样本图像的概率信息所指示的概率大于任一第三样本图像的概率信息所指示的概率。
通过具有图像分割信息的第一样本图像和第一图像分类模型来对第二图像分类模型进行一次更新,然后在该第二图像分类模型输出的分类结果不符合目标条件时,再次对该第二图像分类模型进行更新,并对上述第一图像分类模型进行更新,使得在下一次迭代时,更新后的第一图像分类模型可以对上述第二图像分类模型进行进一步的更新,使第二图像分类模型可以得到充分的训练,从而在减少了训练过程中对具有图像分类标签的样本图像的需求量的同时,也保证了训练得到的图像分类模型的精确度。
需要说明的是:上述实施例提供的图像分类模型的训练装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像分类模型的训练装置与图像分类模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是根据本申请实施例提供的一种图像分类装置的框图。该装置用于执行上述图像分类方法执行时的步骤,参见图10,装置包括:获取模块1001、模型处理模块1002、确定模块1003。
获取模块1001,用于获取待分类图像;
模型处理模块1002,用于将该待分类图像输入图像分类模型,通过该图像分类模型对该待分类图像进行图像分类,输出该待分类图像的分类结果;
确定模块1003,用于根据该待分类图像的分类结果,确定该待分类图像所属的图像类型;
其中,该图像分类模型基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到。
在本申请实施例中,通过基于多个具有分割信息的第一样本图像、另一个图像分类模型、多个具有图像分类标签的第二样本图像以及多个具有图像分类标签的第三样本图像训练得到的图像分类模型来确定待分类图像所属的图像类型,可以较为精确地对待分类图像进行分类。
需要说明的是:上述实施例提供的图像分类装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
另外,为了验证本申请实施例提供的图像分类模型的训练方法的技术效果,本申请实施例还设计了实验来进行验证。实验过程中,使用EfficientNet(高效网络)作为第一图像分类模型和第二图像分类模型的主干网络,同时设置经过具有图像分类标签的第二样本图像进行过端到端训练的全监督网络作为对照网络。实验设置了三个主要的数据集,第一个是私有的带有青光眼诊断标签的数据集,将该数据集划分为训练集、试验集以及测试集三个部分,相当于上述具有图像分类标签的第二样本图像和第三样本图像。第二个是青光眼分割数据集,只有分割信息二没有图像分类标签,相当于上述具有图像分割信息的第一样本图像。第三个是公有的带有诊断标签,也即图像分类标签的青光眼分类数据集,相当于上述具有图像分类标签的第二样本图像和第三样本图像,用于测试技术效果。实验过程中设置了精确度、敏感度、特异度以及接受者操作特性曲线下面积四个指标,来体现方法的优劣。
首先,对比使用静态数据和动态数据的不同,静态数据指的是按照目标比例从具有图像分类标签的样本图像中随机抽取目标比例的样本图像作为第三样本图像;动态数据指的是按照样本图像的概率信息指示的概率确定的第三样本图像。实验结果参见表1所示。
表1
通过表1可知,在使用静态数据时,本申请实施例训练得到的图像分类模型就比对照网络在各方面均有所提高,尤其是精确度和接受者操作特性曲线下面积,分别提高了2.39%和2.33%,说明通过没有诊断标签的数据也能提升模型的分类能力。在使用动态数据后,在敏感度有了较大的提升,这是由于动态数据更加偏向于正样本,更贴合与临床上漏检风险比错检风险大的场景,从而更具有临床价值。
随后,基于不同的具有图像分割信息的数据集进行了对比,同时还尝试使用了神经网络生成的伪标签(Psd)来作为图像分割信息。实验对比了Li等人通过全监督训练的模型,用Li et al.(supervised)表示;Fu等人通过全监督训练的模型,用Fu et al.(supervised)表示;Pinto等人通过使用上述第二个青光眼分割数据集或者训练集作为半监督训练数据的半监督算法那性能,用Pointo et al.(semi)表示;Pinto等人通过上述第二个青光眼分割数据集或者测试集作为半监督训练数据的半监督算法性能,用Pointo etal.(trans)表示;Ghamdi等人通过使用上述第二个青光眼分割数据集或者训练集作为半监督训练数据的半监督算法那性能,用Ghamdi et al.(semi)表示;Ghamdi等人通过上述第二个青光眼分割数据集或者测试集作为半监督训练数据的半监督算法性能,用Ghamdi etal.(trans)表示;上述第二个青光眼分割数据集和图像分类标签作为第一样本图像训练得到的模型,用Auxiliary-GT表示;上述第二个青光眼分割数据集和伪标签作为第一样本图像训练得到的模型,用Auxiliary-Psd表示;上述第一个带有青光眼诊断标签的数据集的测试集和伪标签作为第一样本图像训练得到的模型,用Transductive表示。实验结果参见表2所示。
表2
通过表2可知,在使用可伪标签时接受者操作特性曲线下面积这一参数相比于使用真实的图像分类标签,在两个数据集上分别下降了0.17%和0.45%,在使用测试集的数据时,在两个数据集上接受者操作特性曲线下面积这一参数,分别达到了99.51以及98.41,表示本申请实施例提供的方法训练得到的模型具有很强的场景适用性。
在本申请实施例中,计算机设备可被配置为终端或者服务器,当计算机设备被配置为终端时,可以由终端作为执行主体来实施本申请实施例提供的技术方案,当计算机设备被配置为服务器时,可以由服务器作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方法,本申请实施例对此不作限定。
计算机设备被配置为终端时,图8是根据本申请实施例提供的一种终端1100的结构框图。该终端1100可以是:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的图像分类模型的训练方法或图像分类方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
计算机设备被配置为服务器时,图12是根据本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1201和一个或一个以上的存储器1202,其中,该存储器1202中存储有至少一条指令,该至少一条指令由该处理器1201加载并执行以实现上述各个方法实施例提供的图像分类模型的训练方法或者图像分类方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一段程序代码,该至少一段程序代码用于被处理器执行并实现本申请实施例中的图像分类模型的训练方法中计算机设备所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一段程序代码,该至少一段程序代码用于被处理器执行并实现本申请实施例中的图像分类方法中计算机设备所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像分类模型的训练方法,其特征在于,所述方法包括:
在本轮迭代中,基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;
将具有图像分类标签的第二样本图像输入更新后的所述第二图像分类模型,通过所述第二图像分类模型对所述第二样本图像进行分类,输出所述第二样本图像的分类结果;
响应于所述第二样本图像的分类结果不符合第一目标条件,基于所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,更新所述第二图像分类模型;
基于具有图像分类标签的第三样本图像,更新所述第一图像分类模型;
在下一轮迭代中,基于更新后的所述第一图像分类模型继续训练所述第二图像分类模型,直至所述第二图像分类模型输出的分类结果符合所述第一目标条件;
将所述第二图像分类模型作为训练完成的图像分类模型。
2.根据权利要求1所述的方法,其特征在于,所述基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型,包括:
将第一样本图像和所述第一样本图像的图像分割信息输入所述第一图像分类模型,得到第一特征信息;
将所述第一样本图像输入所述第二图像分类模型,得到第二特征信息;
根据所述第一特征信息和所述第二特征信息之间的差异信息,更新所述第二图像分类模型。
3.根据权利要求1所述的方法,其特征在于,所述基于具有图像分类标签的第三样本图像,更新所述第一图像分类模型,包括:
将所述第三样本图像输入所述第二图像分类模型,通过所述第二图像分类模型对所述第三样本图像进行分类,输出所述第三样本图像的分类结果;
根据所述第三样本图像的分类结果和所述第三样本图像的图像分类标签,更新所述第一图像分类模型。
4.根据权利要求1所述的方法,其特征在于,所述将具有图像分类标签的第二样本图像输入更新后的所述第二图像分类模型,通过所述第二图像分类模型对所述第二样本图像进行分类,输出所述第二样本图像的分类结果之后,所述方法还包括:
根据所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,获取所述第二样本图像的难度信息,所述难度信息用于表示所述第二样本图像被正确分类的难易程度;
根据权重系数、所述第二样本图像的图像分类标签、所述第二样本图像的难度信息以及激活函数,获取所述第二样本图像的概率信息;
响应于根据所述第二样本图像的概率信息确定所述第二样本图像满足第二目标条件,将所述第二样本图像作为所述第三样本图像。
5.根据权利要求4所述的方法,其特征在于,所述根据权重系数、所述第二样本图像的图像分类标签、所述第二样本图像的难度信息以及激活函数,获取所述第二样本图像的概率信息,包括:
根据所述权重系数和所述第二样本图像的图像分类标签,确定第一参数;
根据所述第二样本图像的难度信息,确定第二参数;
根据所述激活函数包括的缩放系数、偏移系数以及平均难度信息,确定第三参数,所述平均难度信息用于表示多个样本图像被正确分类的平均难易程度;
根据所述第一参数、所述第二参数以及所述第三参数,获取所述第二样本图像的概率信息。
6.根据权利要求4所述的方法,其特征在于,所述第二目标条件包括:
所述第三样本图像的数量少于目标数量;或者,
所述第三样本图像的数量不少于目标数量,且所述第二样本图像的概率信息所指示的概率大于任一第三样本图像的概率信息所指示的概率。
7.根据权利要求1所述的方法,其特征在于,所述基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型之前,所述方法还包括:
获取多个具有图像分类标签的样本图像;
从所述多个样本图像中随机选择目标比例的样本图像作为所述第二样本图像,将剩余的样本图像作为所述第三样本图像。
8.一种图像分类方法,其特征在于,所述方法包括:
获取待分类图像;
将所述待分类图像输入图像分类模型,通过所述图像分类模型对所述待分类图像进行图像分类,输出所述待分类图像的分类结果;
根据所述待分类图像的分类结果,确定所述待分类图像所属的图像类型;
其中,所述图像分类模型基于所述权利要求1至7任一项所述的图像分类模型的训练方法训练得到。
9.一种图像分类模型的训练装置,其特征在于,所述装置包括:
更新模块,用于在本轮迭代中,基于具有图像分割信息的第一样本图像和第一图像分类模型,更新第二图像分类模型;
图像分类模块,用于将具有图像分类标签的第二样本图像输入更新后的所述第二图像分类模型,通过所述第二图像分类模型对所述第二样本图像进行分类,输出所述第二样本图像的分类结果;
所述更新模块,还用于响应于所述第二样本图像的分类结果不符合第一目标条件,基于所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,更新所述第二图像分类模型;
所述更新模块,还用于基于具有图像分类标签的第三样本图像,更新所述第一图像分类模型;
所述更新模块,还用于在下一轮迭代中,基于更新后的所述第一图像分类模型继续训练所述第二图像分类模型,直至所述第二图像分类模型输出的分类结果符合所述第一目标条件;将所述第二图像分类模型作为训练完成的图像分类模型。
10.根据权利要求9所述的装置,其特征在于,所述更新模块,用于将第一样本图像和所述第一样本图像的图像分割信息输入所述第一图像分类模型,得到第一特征信息;将所述第一样本图像输入所述第二图像分类模型,得到第二特征信息;根据所述第一特征信息和所述第二特征信息之间的差异信息,更新所述第二图像分类模型。
11.根据权利要求9所述的装置,其特征在于,所述更新模块,还用于将所述第三样本图像输入所述第二图像分类模型,通过所述第二图像分类模型对所述第三样本图像进行分类,输出所述第三样本图像的分类结果;根据所述第三样本图像的分类结果和所述第三样本图像的图像分类标签,更新所述第一图像分类模型。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
信息获取模块,还用于根据所述第二样本图像的分类结果和所述第二样本图像的图像分类标签,获取所述第二样本图像的难度信息,所述难度信息用于表示所述第二样本图像被正确分类的难易程度;
所述信息获取模块,还用于根据权重系数、所述第二样本图像的图像分类标签、所述第二样本图像的难度信息以及激活函数,获取所述第二样本图像的概率信息;
图像获取模块,用于响应于根据所述第二样本图像的概率信息确定所述第二样本图像满足第二目标条件,将所述第二样本图像作为所述第三样本图像。
13.一种图像分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类图像;
模型处理模块,用于将所述待分类图像输入图像分类模型,通过所述图像分类模型对所述待分类图像进行图像分类,输出所述待分类图像的分类结果;
确定模块,用于根据所述待分类图像的分类结果,确定所述待分类图像所属的图像类型;
其中,所述图像分类模型基于所述权利要求1至7任一项所述的图像分类模型的训练方法训练得到。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行权利要求1至7任一项所述的图像分类模型的训练方法,或者执行权利要求8所述的图像分类方法。
15.一种存储介质,其特征在于,所述存储介质用于存储至少一段程序代码,所述至少一段程序代码用于执行权利要求1至7任一项所述的图像分类模型的训练方法,或者执行权利要求8所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010406667.7A CN111598160B (zh) | 2020-05-14 | 2020-05-14 | 图像分类模型的训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010406667.7A CN111598160B (zh) | 2020-05-14 | 2020-05-14 | 图像分类模型的训练方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598160A CN111598160A (zh) | 2020-08-28 |
CN111598160B true CN111598160B (zh) | 2023-04-07 |
Family
ID=72190808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010406667.7A Active CN111598160B (zh) | 2020-05-14 | 2020-05-14 | 图像分类模型的训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598160B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163635B (zh) * | 2020-10-14 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于深度学习的图像分类方法、装置、服务器及介质 |
CN113569894B (zh) * | 2021-02-09 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、图像分类方法、装置及设备 |
CN113326764B (zh) * | 2021-05-27 | 2022-06-07 | 北京百度网讯科技有限公司 | 训练图像识别模型和图像识别的方法和装置 |
CN113505797B (zh) * | 2021-09-09 | 2021-12-14 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN114897875B (zh) * | 2022-06-02 | 2022-11-11 | 杭州电子科技大学 | 基于深度学习的微通道下大肠杆菌与微球的三维定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410220A (zh) * | 2018-10-16 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN110147456A (zh) * | 2019-04-12 | 2019-08-20 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、可读存储介质及终端设备 |
CN110210486A (zh) * | 2019-05-15 | 2019-09-06 | 西安电子科技大学 | 一种基于素描标注信息的生成对抗迁移学习方法 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
CN111091166A (zh) * | 2020-03-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、图像处理方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247989B (zh) * | 2017-06-15 | 2020-11-24 | 北京图森智途科技有限公司 | 一种实时的计算机视觉处理方法及装置 |
-
2020
- 2020-05-14 CN CN202010406667.7A patent/CN111598160B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410220A (zh) * | 2018-10-16 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN110147456A (zh) * | 2019-04-12 | 2019-08-20 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、可读存储介质及终端设备 |
CN110210486A (zh) * | 2019-05-15 | 2019-09-06 | 西安电子科技大学 | 一种基于素描标注信息的生成对抗迁移学习方法 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
CN111091166A (zh) * | 2020-03-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、图像处理方法、设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
Annan Li 等 .Integrating Holistic and Local Deep Features for Glaucoma Classification.《2016 EMBC》.2016,1328-1331. * |
Lijun Wu 等.Learning to Teach with Dynamic Loss Functions.《arXiv》.2018,1-15. * |
Yifan Liu 等.Structured Knowledge Distillation for Semantic Segmentation.《2019 CVPR》.2020,2604-2613. * |
吴迪 等.基于显著性检测和迁移学习的花卉图像分类.《北京信息科技大学学报》.2019,第34卷(第1期),55-63. * |
程俊华 等.基于深度学习的复杂背景图像分类方法研究.《电子科技》 .2020,第33卷(第12期),59-66. * |
邓棋 等.用于肺炎图像分类的优化卷积神经网络方法.《计算机应用》.2019,第40卷(第1期),71-76. * |
郑远攀 等.深度学习在图像识别中的应用研究综述.《计算机工程与应用》.2019,第55卷(第12期),20-36. * |
Also Published As
Publication number | Publication date |
---|---|
CN111598160A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598160B (zh) | 图像分类模型的训练方法、装置、计算机设备及存储介质 | |
CN111325726A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN111739035B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111091166B (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
WO2020224479A1 (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN111476783B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN113610750B (zh) | 对象识别方法、装置、计算机设备及存储介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN112749728A (zh) | 学生模型训练方法、装置、计算机设备及存储介质 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
CN111598168B (zh) | 图像分类方法、装置、计算机设备及介质 | |
WO2022193973A1 (zh) | 图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111930964B (zh) | 内容处理方法、装置、设备及存储介质 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN111597922A (zh) | 细胞图像的识别方法、系统、装置、设备及介质 | |
CN114283299A (zh) | 图像聚类方法、装置、计算机设备及存储介质 | |
CN114359225A (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN113257412B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN114333997A (zh) | 数据处理、数据处理模型的训练方法、装置、设备及介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN113821658A (zh) | 对编码器进行训练的方法、装置、设备及存储介质 | |
CN113569052A (zh) | 知识图谱的表示学习方法及装置 | |
CN113723164A (zh) | 获取边缘差异信息的方法、装置、设备及存储介质 | |
CN110990549A (zh) | 获取答案的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40027934 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |