CN111598144A - 图像识别模型的训练方法和装置 - Google Patents
图像识别模型的训练方法和装置 Download PDFInfo
- Publication number
- CN111598144A CN111598144A CN202010344641.4A CN202010344641A CN111598144A CN 111598144 A CN111598144 A CN 111598144A CN 202010344641 A CN202010344641 A CN 202010344641A CN 111598144 A CN111598144 A CN 111598144A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- recognition model
- model
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000012549 training Methods 0.000 title claims abstract description 88
- 239000000284 extract Substances 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 38
- 238000012545 processing Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 12
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 20
- 238000002591 computed tomography Methods 0.000 description 17
- 238000012804 iterative process Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000002595 magnetic resonance imaging Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 230000003902 lesion Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000003325 tomography Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像识别模型的训练方法、图像识别方法、装置、服务器及存储介质,属于图像处理领域。通过本申请提供的图像识别模型的训练方法,服务器可以采用第一样本图像的“内容”和第二样本图像的“风格”合成第一参考图像,对第一参考图像进行识别,得到第一样本对象在第一参考图像中的位置,根据第一样本对象在第一参考图像中的位置与第一目标位置之间的差异信息,训练图像识别模型。训练过程中通过合成的第一参考图像来进行训练,提高图像识别模型对于不同图像域图像的识别能力,在后续使用图像识别模型进行图像识别的过程中,无论图像为高信息量图像还是低信息量图像,均可以或得较好的识别效果,减轻“域下降”的问题。
Description
技术领域
本申请涉及图像处理领域,特别涉及一种图像识别模型的训练方法、图像识别方法、装置、服务器及存储介质。
背景技术
随着计算机技术的发展,图像识别技术的应用范围越来越广泛,例如图像识别技术可以应用在人脸识别场景,采用图像识别模型对包含人脸的图像进行识别,可以得到与人脸对应的身份信息;或者应用在医学场景,采用图像识别模型对医学影像进行识别,发现一些人眼无法识别的病变现象,从而辅助医生确定治疗方案。然而,在图像识别过程中,所识别的图像可以是不同图像域的图像,比如是基于不同的采集手段获取到的图像,例如,通过核磁共振(Magnetic Resonance Imaging,MRI)获取的图像或者通过断层扫描(ComputedTomography,CT)获取的图像。由于MRI和CT的设备参数和成像方式不同,导致MRI生成的图像数据与CT生成的图像数据的模态不同,举例来说,MRI图像和CT图像均为灰度图像,而MRI在生成图像的过程中获取的参数的取值范围与灰度值的范围相同,均为0-255;而CT在生成图像的过程中获取的参数的取值范围可以是零到几万,这样导致CT在生成图像的过程中需要将参数进行归一化,把零到几万的参数归一化到0-255的范围内,这就导致了生成的CT图像损失了成像的信息。换句话说,MRI图像的信息量比CT图像的信息量高。
采用通过高信息量的MRI图像训练的图像识别模型对低信息量的CT图像进行识别的过程中,可以取得较好的图像识别精度;而采用低信息量的CT图像训练的图像识别模型对高信息量的MRI图像进行识别的过程中,模型识别的精度较低,这种现象也称之为“域下降”。因此,亟需一种能够缓解“域下降”现象的图像识别模型。
发明内容
本申请实施例提供了一种图像识别模型的训练方法、图像识别方法、装置、服务器及存储介质,可以缓解“域下降”的现象,提升图像识别模型的识别效果。
所述技术方案如下:
一方面,提供了一种图像识别模型的训练方法,所述方法包括:
获取第一样本图像和第二样本图像,所述第一样本图像包括第一样本对象,所述第一样本图像和所述第二样本图像属于不同图像域;
基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第二样本图像相同的第一参考图像,所述第一参考图像包括所述第一样本对象;
将所述第一参考图像输入图像识别模型,通过所述图像识别模型对所述第一参考图像进行图像识别,输出所述第一样本对象在所述第一参考图像的第一目标位置;
若所述第一目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息符合目标条件,将所述图像识别模型作为训练完成的图像识别模型。
一方面,提供了一种图像识别方法,所述方法包括:
获取第一图像,所述第一图像中包括第一对象;
将所述第一图像输入图像识别模型,通过所述图像识别模型提取所述第一图像的第一内容特征,其中,所述图像识别模型基于多个样本图像以及所述多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到;根据所述第一内容特征,输出所述第一对象在所述第一图像的第一位置。
一方面,提供了一种图像识别模型的训练装置,所述装置包括:
获取单元,用于获取第一样本图像和第二样本图像,所述第一样本图像包括第一样本对象,所述第一样本图像和所述第二样本图像属于不同图像域;
生成单元,用于基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第二样本图像相同的第一参考图像,所述第一参考图像包括所述第一样本对象;
识别单元,用于将所述第一参考图像输入图像识别模型,通过所述图像识别模型对所述第一参考图像进行图像识别,输出所述第一样本对象在所述第一参考图像的第一目标位置;
调整单元,用于若所述第一目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息符合目标条件,将所述图像识别模型作为训练完成的图像识别模型。
在一种可能的实施方式中,所述第二样本图像包括第二样本对象,所述生成单元还用于基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第一样本图像相同的第二参考图像,所述第二参考图像包括所述第二样本对象;
所述识别单元,还用于对所述第二参考图像进行图像识别,输出所述第二样本对象在所述第二参考图像的第二目标位置;
所述调整单元,还用于根据所述第二目标位置与所述第二样本对象在所述第二样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
在一种可能的实施方式中,所述生成单元还用于将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第一样本内容特征和所述第一样本风格特征,生成第三参考图像;
所述识别单元,还用于将所述第三参考图像输入所述图像识别模型,通过所述图像识别模型,对所述第三参考图像进行图像识别,输出所述第一样本对象在所述第三参考图像的第三目标位置;
所述调整单元,还用于根据所述第三目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
在一种可能的实施方式中,所述装置还包括:
输入单元,用于将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像对应的第一样本内容特征;
所述输入单元,还用于将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第一样本内容特征和所述第一样本风格特征,生成第三参考图像;
输入单元,还用于将所述第三参考图像输入所述图像识别模型,通过所述图像识别模型提取所述第三参考图像对应的第三参考内容特征;
所述调整单元,还用于根据所述第一样本内容特征和所述第三参考内容特征之间的差异信息,调整所述图像识别模型的模型参数。
在一种可能的实施方式中,所述调整单元还用于将所述第三参考图像输入所述图像生成模型,通过所述图像生成模型提取所述第三参考图像的第三参考风格特征;根据所述第一样本风格特征和所述第三参考风格特征之间的差异信息,调整所述图像生成模型的模型参数。
在一种可能的实施方式中,所述生成单元还用于将所述第二样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第二样本图像的第二样本内容特征;将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第二样本内容特征和所述第一样本风格特征,生成第二参考图像;
所述装置还包括判别单元,所述判别单元用于将所述第一样本图像和所述第二参考图像输入判别器,所述判别器用于判别图像是否为合成图像;
所述调整单元还用于响应于所述判别器判别所述第二参考图像为合成图像,调整所述图像生成模型的模型参数。
在一种可能的实施方式中,所述生成单元还用于将所述第二样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第二样本图像的第二样本内容特征;将所述第二样本图像输入图像生成模型,通过所述图像生成模型提取所述第二样本图像的第二样本风格特征;根据所述第二样本内容特征和所述第二样本风格特征,生成第四参考图像;通过所述图像识别模型提取所述第二样本图像的第二样本图像特征以及所述第四参考图像的第四参考图像特征,所述图像特征包括内容特征和风格特征;
所述调整单元还用于根据所述第二样本图像特征和第四参考图像特征之间的差异信息,调整所述图像识别模型的模型参数。
在一种可能的实施方式中,所述识别单元还用于将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;根据所述第一样本内容特征,预测所述第一样本对象在所述第一样本图像中所在的第四目标位置;
所述调整单元还用于根据所述第四目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
一方面,提供了一种图像识别装置,所述装置包括:
第一图像获取单元,用于获取第一图像,所述第一图像中包括第一对象;
第一图像输入单元,用于将所述第一图像输入图像识别模型,通过所述图像识别模型提取所述第一图像的第一内容特征;其中,所述图像识别模型基于多个样本图像以及所述多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到;
第一位置输出单元,用于通过所述图像识别模型根据所述第一内容特征,输出所述第一对象在所述第一图像的第一位置。
一方面,提供了一种服务器,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述图像识别模型的训练方法,或所述图像识别方法所执行的操作。
一方面,提供了一种存储介质,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现所述图像识别模型的训练方法,或所述图像识别方法所执行的操作。
通过本申请提供的图像识别模型的训练方法,服务器可以采用第一样本图像的“内容”和第二样本图像的“风格”合成第一参考图像,对第一参考图像进行识别,得到第一样本对象在第一参考图像中的位置,根据第一样本对象在第一参考图像中的位置与第一目标位置之间的差异信息,训练图像识别模型。训练过程中通过合成的第一参考图像来进行训练,提高图像识别模型对于不同图像域图像的识别能力,在后续使用图像识别模型进行图像识别的过程中,无论图像为高信息量图像还是低信息量图像,均可以或得较好的识别效果,减轻“域下降”的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像识别模型的训练方法的实施环境的示意图;
图2是本申请实施例提供的一种图像识别模型的结构示意图;
图3为本申请实施例提供的一种图像生成模型的结构示意图;
图4为本申请实施例提供的一种图像识别模型的训练方法流程图;
图5是本申请实施例提供的一种图像识别模型和图像生成模型交互的示意图;
图6是本申请实施例提供的一种图像识别模型的训练方法流程图;
图7是本申请实施例提供的一种图像识别模型的训练方法流程图;
图8是本申请实施例提供的一种图像识别模型的训练方法流程图;
图9是本申请实施例提供的一种图像识别模型的训练方法流程图;
图10是本申请实施例提供的一种图像识别模型的训练方法流程图;
图11是本申请实施例提供的一种图像识别模型的训练方法流程图;
图12是本申请实施例提供的一种图像识别模型的训练方法流程图;
图13是本申请实施例提供的实验过程中采用的图像识别模型的训练方法流程图示意图;
图14是本申请实施例提供的一种反映图像识别模型的训练方法训练出图像识模型的识别能力的直方图;
图15是本申请实施例提供的一种不同训练方法训练出图像识模型的识别效果对比图;
图16是本申请实施例提供的一种图像识别方法流程图;
图17是本申请实施例提供的一种图像识别模型的训练装置的结构示意图;
图18是本申请实施例提供的一种图像识别装置的结构示意图;
图19是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第三图像是指两个或两个以上的第三图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
图1是本申请实施例提供的一种图像识别模型的训练方法的实施环境示意图,参见图1,该实施环境中可以包括终端110、拍摄设备120和服务器140。
终端110通过无线网络或有线网络与服务器110相连。终端110可以是智能手机、平板电脑、便携计算机、医疗用计算机、材料检测计算机等设备。终端110安装和运行有支持图像识别技术的应用程序。
拍摄设备120可以为具有图像拍摄能力的设备,例如电子计算机断层扫描(Computed Tomography,CT)设备或核磁共振成像(Magnetic Resonance Imaging,MRI)设备等;也可以进行材料分析测试时的拍摄设备,例如光学显微镜(Optical Microscope,OM)或扫描电子显微镜(Scanning Electron Microscope,SEM)等;当然也可以是其他能够获取图像的设备,例如数控机床中用于观察产品加工情况的摄像头,甚至是智能手机上的摄像头,本申请实施例对于拍摄设备的类型和数量不作限定。终端110可以与拍摄设备120通过无线网络或有线网络相连。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在本申请实施例中,可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方法,本申请实施例对此不作限定。下面将以执行主体为服务器为例进行说明:
在本申请实施例中,图像识别模型可以用于识别图像中的对象,得到对象在图像中所处的区域、对象所属的类型以及置信度等信息。例如在CT图像中标注出病灶所在的区域或者在CT图像中确定病灶的类型。在本申请实施例中,训练的图像识别模型仅关注从图像中识别出对象所在的区域,对于能够实现的其他功能不做限定。在训练图像识别模型的过程中,服务器还可以借助图像生成模型和判别器来提升图像识别模型对于不同图像域图像的识别能力。图像生成模型除了可以用于生成图像,还可以用于识别图像的图像风格,图像风格可以包括图像的亮度、纹理以及对比度等信息。
为了更清楚地对本申请提供的图像识别模型的训练方法进行说明,首先对本申请实施例提供的图像识别模型的结构进行说明,参见图2,图像识别模型可以包括:输入层201、内容特征提取层202以及输出层203。
其中,输入层201用于向模型中输入图像。内容特征提取层202用于提取对象的内容特征,内容特征可以为图像中对象的特征,例如对象的位置特征、形状特征、纹理特征以及颜色特征等。输出层203用于对内容特征进行全连接处理,之后服务器可以根据全连接处理的结果确定图像中每个像素点是否属于对象,将属于对象的像素点进行组合,得到对象在图像中所处的区域,整个过程也可以称之为图像分割。
当然,上述图像识别模型的结构仅仅是为了示例性描述而示出的,在其他可能的实现方式中,也可以存在其他结构的模型,本申请实施例对于模型的结构不做限定。
如上所述,服务器可以借助图像生成模型来进行图像合成,得到一些变更了图像风格的参考图像,根据这些参考图像对图像识别模型进行训练,可以提升图像识别模型对于不同风格(图像域)图像的识别能力,下面对本申请实施例提供的图像生成模型的结构进行说明,参见图3,图像生成模型可以包括:输入层301、风格特征提取层302以及生成器303。
其中,输入层301用于向模型中输入图像。风格特征提取层302用于对图像的风格进行识别,得到图像的风格特征,风格特征可以反映图像的亮度、纹理以及对比度等特征。风格特征提取层302可以用于提升内容特征提取层202对于不同图像域图像的识别能力。生成器303用于根据内容特征提取层202提取的内容特征和风格特征提取层302提取的风格特征生成参考图像。当然,上述图像生成模型的结构也仅仅是为了示例性描述而示出的,在其他可能的实现方式中,也可以存在其他结构的模型,本申请实施例对于模型的结构不做限定。
服务器除了可以借助图像生成模型来提升图像识别模型对于不同图像域图像的识别能力之外,还可以通过判别器来进一步提升图像识别模型对于不同图像域图像的识别能力,下面结合上述两个模型的结构对本申请实施例提供的判别器的功能进行说明:判别器用于对生成器303生成的参考图像进行识别,判别参考图像是否为合成图像,其中,合成图像与样本图像相对,样本图像为通过拍摄设备实际获取的图像,而合成图像为服务器根据内容特征和风格特征合成的图像。判别器可以用于提高生成器303生成图像的质量。具体来说判别器实际上是一个“裁判”,会对生成器303生成的参考图像进行“打分”;生成器303可以根据判别器打出的分数,对自身参数进行调整,“期望”下次生成的参考图像可以获得更高的分数。在生成器303调整自身参数获得更高分数的过程中,也需要内容特征提取层202和风格特征提取层302提供更加精确的内容特征和风格特征,因此判别器也可以对内容特征提取层202和风格特征提取层302的参数产生影响,提高内容特征提取层202和风格特征提取层302提取特征的能力。
上述说明过程是将图像识别模型、图像生成模型以及判别器作为独立的个体进行说明的,在一些可能的实现方式中,图像识别模型、图像生成模型以及判别器可以作为一个模型整体来实现本申请提供的图像识别模型的训练方法,本申请实施例对此不做限定。
在上述图像识别模型和图像生成模型结构的基础上,下面对图像识别模型的训练方法进行说明,可以理解的是,图像识别模型的训练过程可能涉及多次迭代过程,下面仅以一次迭代为例进行说明,参见图4和图5,模型的训练方法可以包括:
401、服务器获取第一样本图像和第二样本图像,第一样本图像包括第一样本对象,第一样本图像和第二样本图像属于不同图像域。
其中,图像域可以是指获取图像的场景,例如室内场景获取的图像和室外场景获取的图像属于不同图像域的图像,也可以是指获取图像的采集设备,例如通过MRI获取的图像和通过CT获取的图像就属于不同图像域的图像。
在一种可能的实施方式中,服务器可以通过第一拍摄设备获取多个第一样本图像,通过第二拍摄设备获取多个第二样本图像。第一样本图像中可以包括样本对象,第一拍摄设备和第二拍摄设备可以具有不同的设备参数,其中,样本对象可以根据图像识别模型的用途进行确定。举例来说,若图像识别模型用于识别人脸,那么样本对象也就可以为人脸,相应的第一样本图像可以为手机拍摄的人脸图像,第二样本图像可以为交通摄像头拍摄的人脸图像;若图像识别模型用于识别病灶,那么样本对象也就可以为病灶,相应的第一样本图像可以为通过MRI获取的图像,第二样本图像可以为通过CT获取的图像。
在一种可能的实施方式中,服务器可以从网络上获取第一图像集和第二图像集,其中第一图像集中的图像与第二图像集中的图像属于不同图像域。服务器可以从第一图像集中获取第一样本图像,从第二图像集中获取第二样本图像。当然,服务器还可以从网络上获取多个图像,根据图像的图像域对图像进行分类,生成至少两个图像集,每个图像集中的图像属于同一图像域。服务器可以从至少两个图像集中确定第一图像集和第二图像集。服务器可以从第一图像集中获取第一样本图像,从第二图像集中获取第二样本图像。在这种实现方式下,服务器可以直接采用网络上获取的图像集进行模型训练,无需再通过拍摄设备获取样本图像,缩短了模型训练的周期。
服务器获取第一样本图像和第二样本图像之后,可以对第一样本图像和第二样本图像进行裁剪,得到尺寸相同的样本图像。技术人员可以对裁剪后的样本图像进行筛选,将不包含样本对象的样本图像剔除。基于尺寸相同的样本图像训练图像识别模型,可以保证图像识别模型的模型参数中所有数值均可以经过大量训练得到,可以提高图像识别模型识别图像的准确性。
除此之外,技术人员可以对至少一个图像域的样本图像进行标注,确定样本对象在样本图像中所处的区域。在这种实现方式下,服务器可以采用技术人员标注的样本图像进行训练,由于技术人员在对样本图像进行标注的过程中会参考后续的用途,对于样本图像的标注也就更加具有针对性,服务器采用这样的样本图像训练的模型可以获得更加精确的识别效果。
402、服务器将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。
其中,第一样本内容特征可以为第一样本图像的局部特征,也即是第一样本图像中第一样本对象的特征。第一样本内容特征可以包括第一样本对象的位置特征、形状特征、纹理特征以及颜色特征。其中,第一样本对象的位置特征用于表示第一样本对象在第一图像中的位置,该位置特征可以为相对位置特征或绝对位置特征;相对位置特征可以为第一样本对象对应的像素点与其他样本对象对应的像素点之间的相对坐标;绝对位置特征可以为第一样本对象对应像素点在第一样本图像中的位置坐标,也即是绝对坐标;第一样本对象的形状特征用于表示第一样本对象的形状,例如可以采用至少一个函数对第一样本对象的边界进行拟合,得到拟合后的函数以及函数对应的参数值;纹理特征可以用于反映第一样本对象的纹理,纹理特征可以通过第一样本对象对应的至少两个像素点之间的变化关系得到;当然,颜色特征用于表示第一样本对象的颜色。
在一种可能的实施方式中,服务器可以通过图像识别模型的输入层201将第一样本图像输入图像识别模型,通过图像识别模型的内容特征提取层202对第一样本图像进行卷积处理,得到第一样本图像特征,随后通过归一化处理,得到第一样本图像特征中与第一样本对象对应的特征,该特征也即是第一样本内容特征。以第一样本图像中一个像素点对应的值[1,2,3,4]为例进行说明,服务器可以通过内容特征提取层202对该像素点进行卷积处理,得到该像素点对应的样本图像特征,例如[2,4,5,6],随后可以对样本图像特征[2,4,5,6]进行归一化处理,例如采用归一化指数函数(Softmax)函数进行归一化,得到样本图像特征[2,4,5,6]对应的归一化参数[0.12,0.24,0.28,0.36],由于像素点对应的值[1,2,3,4]中4对应的归一化参数0.36最大,那么服务器可以将像素点对应的值[1,2,3,4]中4对应特征确定为样本内容特征。
403、服务器将第二样本图像输入图像生成模型,通过图像生成模型提取第二样本图像的第二样本风格特征,根据第一样本内容特征和第二样本风格特征,生成第一参考图像。
其中,第二样本风格特征可以为第二样本图像的全局特征,第二样本风格特征可以包括第二样本图像的亮度特征、纹理特征以及对比度特征。其中,第二样本图像的亮度特征用于反映第二样本图像的亮度,该亮度特征可以为绝对亮度特征和相对亮度特征,绝对亮度特征用于表示第二样本图像整体的亮度,相对亮度特征用于表示第二样本图像中不同区域之间的亮度差异;第二样本图像的纹理特征与第一内容特征中的纹理特征属于同一原理;对比度特征可以用于反映第二样本图像的对比度。
在一种可能的实施方式中,服务器可以通过图像生成模型的输入层301将第二样本图像输入图像生成模型,通过图像生成模型的风格特征提取层302对第二样本图像进行卷积处理,得到第二样本图像特征。服务器可以从第二样本图像中获取第二样本风格特征,将第一样本内容特征和第二样本风格特征输入图像生成模型的生成器303中,通过生成器303对第一样本内容特征和第二样本风格特征进行组合,得到第一组合特征,根据第一组合特征,生成第一参考图像。
需要说明的是,上述通过上述过程合成的第一参考图像为后续用于训练图像识别模型的图像。第一参考图像具有与第一样本图像相同的内容和第二样本图像的图像风格,换句话说,第一参考图像可以为变换图像风格的第一样本图像。通过第一参考图像对图像识别模型进行训练,可以提升图像识别模型对于不同图像风格图像的识别能力。
404、服务器将第一参考图像输入图像识别模型,通过图像识别模型对第一参考图像进行图像识别,输出第一样本对象在第一参考图像的第一目标位置。
在一种可能的实施方式中,服务器可以通过图像识别模型的输入层201将第一参考图像输入图像识别模型,通过图像识别模型的内容特征提取层202对第一参考图像进行卷积处理,得到第一参考图像的第一参考内容特征,将第一参考内容特征输入图像识别模型的输出层203,通过输出层203对第一参考内容特征进行处理,在第一图像中确定至少两个对应于第一样本对象的像素点。服务器可以对至少两个对应于第一样本对象的像素点进行组合,得到第一样本对象在第一样本图像中的第一目标位置。
405、服务器根据第一目标位置与第一样本对象在第一样本图像中的位置确定差异信息。
在一种可能的实施方式中,第一目标位置可以为第一样本对象对应像素点在第一参考图像中的坐标。服务器可以获取第一样本对象对应像素点在第一样本图像中的坐标,确定第一样本对象对应像素点在第一样本图像中的坐标与第一目标位置的坐标差值,该坐标差值也即是差异信息。服务器可以构建公式(1)来确定坐标差值。
C1=L1(X1,A1) (1)
其中,C1为坐标差值,L1()为基于坐标差值的损失函数,X1为第一目标位置,A1为第一样本对象在第一样本图像中的位置。
在一种可能的实施方式中,服务器可以采用第一比值表示第一目标位置,第一比值为第一参考图像的目标区域内第一样本对象对应像素点数量与第一参考图像的目标区域内所有像素点数量之间的比值,目标区域为包含第一样本对象的区域。服务器可以获取第一样本图像的目标区域内所有像素点数量,从第一样本图像的目标区域内进一步获取第一样本对象对应像素点的数量,确定第一样本图像的目标区域内第一样本对象对应像素点数量与第一样本图像的目标区域内所有像素点数量之间的第二比值。服务器可以确定第一比值和第二比值之间的比值差值,该比值差值也即是差异信息。服务器可以构建公式(2)来确定比值差值。
C2=L2(X2,A2) (2)
其中,C2为比值差值,L2()为基于比值差值的损失函数,X2为第一比值,A2为第二比值。
在一种可能的实施方式中,服务器还可以将上述公式(1)和公式(2)结合,构建如公式(3),所示的联合差值。相较于公式(1)所示的坐标差值和公式(2)所示的比值差值,公式(3)所示的联合差值的限制条件更多,采用公式(3)所示的联合差值训练出的模型具有更加强的图像识别能力。
C3=L1(X1,A1)+L2(X2,A2) (3)
其中,C3为联合差值。
在步骤405之后,响应于差异信息不符合目标条件,服务器可以执行步骤406,其中,差异信息不符合目标条件可以是指坐标差大于坐标差异阈值或比值差值大于比值差异阈值;响应于差异信息符合目标条件,服务器可以执行步骤407。
406、响应于差异信息不符合目标条件,服务器根据差异信息调整图像识别模型的模型参数,从训练集中重新获取第一样本图像和第二样本图像继续训练图像识别模型。
服务器根据重新挑选第一样本图像和第二样本图像训练图像识别模型的步骤可以参见上述步骤401-405,具体过程不再赘述。
在一种可能的实施方式中,服务器可以采用梯度下降法根据差异信息来对图像识别模型的模型参数进行调整,其中梯度下降法可以为随机梯度下降法(Stochasticgradient descent,SGD)、批量梯度下降(Batch Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)等,本申请实施例对此不做限定。除此之外,服务器还可以同时采用梯度下降法和多项式学习率衰减策略来调整图像识别模型的模型参数。在这种实现方式下,服务器可以根据训练的进程动态调节学习率,提高图像识别模型的训练效果。
407、响应于差异信息符合目标条件,服务器将图像识别模型作为训练完成的图像识别模型。
通过本申请提供的图像识别模型的训练方法,服务器可以采用第一样本图像的“内容”和第二样本图像的“风格”合成第一参考图像,对第一参考图像进行识别,得到第一样本对象在第一参考图像中的位置,根据第一样本对象在第一参考图像中的位置与第一目标位置之间的差异信息,训练图像识别模型。训练过程中通过合成的第一参考图像来进行训练,提高图像识别模型对于不同图像域图像的识别能力,在后续使用图像识别模型进行图像识别的过程中,无论图像为高信息量图像还是低信息量图像,均可以或得较好的识别效果,减轻“域下降”的问题。
为了进一步提升图像识别模型的训练效果,提高图像识别模型的识别准确性,在得到训练完成的图像识别模型之前,本申请还进一步提供了如下方法:
步骤401-407采用的是由第一样本图像的“内容”和第二样本图像的“风格”生成的第一参考图像来训练图像识别模型,为了进一步提升图像识别模型的图像识别能力,服务器还可以采用第一样本图像的“风格”和第二样本图像的“内容”生成的第二参考图像来训练图像识别模型。模型的训练可以包括多个迭代过程,下述步骤601-603可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤601-603,本申请实施例对此不做限定。
601、服务器基于第一样本图像和第二样本图像,生成风格与第一样本图像相同的第二参考图像,第二参考图像包括第二样本对象。
在一种可能的实施方式中,服务器可以将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征。服务器将第二样本图像输入图像识别模型,通过图像识别模型提取第二样本图像的第二样本内容特征,根据第一样本风格特征和第二样本内容特征,生成第二参考图像。举例来说,服务器可以通过图像生成模型的输入层301将第一样本图像输入图像生成模型,通过图像生成模型的风格特征提取层302对第一样本图像进行卷积处理,得到第一样本风格特征。服务器可以通过图像识别模型的输入层201将第二样本图像输入图像识别模型,通过图像识别模型的内容特征提取层202对第二样本图像进行卷积处理,得到第二样本图像特征,随后通过归一化处理,得到第二样本图像特征中与第二样本对象对应的特征,该特征也即是第二样本内容特征。服务器可以将第一样本风格特征和第二样本内容特征输入图像生成模型的生成器303中,通过生成器303对第一样本风格特征和第二样本内容特征进行组合,得到第二组合特征,根据第二组合特征,生成第二参考图像。
602、服务器对第二参考图像进行图像识别,输出第二样本对象在第二参考图像的第二目标位置。
在一种可能的实施方式中,服务器可以通过图像识别模型的输入层201将第二参考图像输入图像识别模型,通过图像识别模型的内容特征提取层202对第二参考图像进行卷积处理,得到第二参考图像的第二参考内容特征,将第二参考内容特征输入图像识别模型的输出层203,通过输出层203对第二参考内容特征进行处理,在第二参考图像中确定至少两个对应于第二样本对象的像素点。服务器可以对至少两个对应于第一样本对象的像素点进行组合,得到第二样本对象在第二参考图像中的第二目标位置。
603、服务器根据第二目标位置与第二样本对象在第二样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
在一种可能的实施方式中,第二目标位置可以为第二样本对象对应像素点在第二参考图像中的坐标。服务器可以获取第二样本对象对应像素点在第二样本图像中的坐标,确定第二样本对象对应像素点在第二样本图像中的坐标与第二目标位置的坐标差值,该坐标差值也即是差异信息。服务器可以构建如公式(4)来确定坐标差值。
C4=L1(X3,A3) (4)
其中,C4为坐标差值,X3为第二目标位置,A3为第二样本对象在第二样本图像中的位置。
在一种可能的实施方式中,可以采用第三比值表示第二目标位置,第三比值为第二参考图像的目标区域内第二样本对象对应像素点数量与第二参考图像的目标区域内所有像素点数量之间的比值,目标区域为包含第二样本对象的区域。服务器可以获取第二样本图像的目标区域内所有像素点数量,从第二样本图像的目标区域内进一步获取第二样本对象对应像素点的数量,确定第二样本图像的目标区域内第二样本对象对应像素点数量与第二样本图像的目标区域内所有像素点数量之间的第四比值。服务器可以确定第三比值和第四比值之间的比值差值,该比值差值也即是差异信息。服务器可以构建如公式(5)来确定比值差值。
C5=L2(X4,A4) (5)
其中,C5为比值差值,X4为第三比值,A4为第四比值。
在一种可能的实施方式中,服务器还可以将上述公式(4)和公式(5)结合,构建如公式(6)所示的联合差值。相较于公式(4)所示的坐标差值和公式(5)所示的比值差值,公式(6)所示的联合差值的限制条件更多,采用公式(6)所示的联合差值训练出的模型具有更加强的图像识别能力。
C6=L1(X3,A3)+L2(X4,A4) (6)
其中,C6为联合差值。
需要说明的是,上述步骤601-603是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用601-603所示的步骤对图像识别模型的模型参数进行调整。
另外,服务器在采用上述步骤601-603对图像识别模型的模型参数进行调整时,也可以将步骤401-406中的差异信息和步骤601-603中的差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤601-603,服务器可以通过图像生成模型,采用第一样本图像的“风格”和第二样本图像的“内容”合成第二参考图像,并联合第二参考图像同时或先后训练图像识别模型。步骤601-603也即是相当于样本增强过程,相较于步骤401-406采用第一参考图像来训练图像识别模型来说,训练模型时的“风格”和“内容”的类型更多,模型的训练效果更好。
与上述步骤601-603类似,模型的训练可以包括多个迭代过程,下述步骤701-704也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤701-704,下述步骤还可以与步骤601-603同时执行,本申请实施例对此不做限定。图像内容特征的提取很大程度上会影响图像识别模型的图像识别能力,为了进一步提升图像识别模型提取内容特征的准确性,还可以包括如下步骤701-704。需要说明的是,下述步骤701-704是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
701、服务器将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。
702、服务器将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征,根据第一样本内容特征和第一样本风格特征,生成第三参考图像。
生成第三参考图像的方法与生成第一参考图像和第二参考图像属于同一发明构思,可以参见上述对于生成第一参考图像和第二参考图像的说明。
703、服务器将第三参考图像输入图像识别模型,通过图像识别模型提取第三参考图像的第三参考内容特征。
704、服务器根据第一样本内容特征和第三参考内容特征之间的差异信息,调整图像识别模型的模型参数。
在一种可能的实施方式中,第一样本内容特征和第三参考内容特征之间的差异信息可以为第一内容特征差值,服务器可以构建如公式(7)来确定第一内容特征差值。
C7=L3(Cs,Cs ^)=|Cs-Cs ^| (7)
其中,C7为第一内容特征差值,L3为第一内容特征差值对应的损失函数,Cs为第一样本内容特征,Cs ^为第三参考内容特征。
需要说明的是,上述步骤701-704是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用701-704所示的步骤对图像识别模型的模型参数进行调整。
另外,服务器在采用上述步骤701-704对图像识别模型的模型参数进行调整时,也可以将步骤701-704中的差异信息与401-406和步骤601-603中的任一种或全部差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤701-704,服务器可以通过图像识别模型和图像生成模型分别提取第一样本图像的第一样本内容特征和第一样本风格特征,再通过图像生成模型根据第一样本内容特征和第一样本风格特征合成第三参考图像,随后再次提取第三参考图像的第三参考内容特征,根据第一样本内容特征和第三参考内容特征之间的差异信息,来联合训练图像识别模型。在提升图像生成模型的图像生成能力的基础上,进一步提高图像识别模型提取内容特征的能力,从而提高图像识别模型的图像识别能力。
除了步骤701-704之外,服务器还可以通过如下步骤来提升图像识别模型提取内容特征的能力。与上述步骤601-603类似,模型的训练可以包括多个迭代过程,下述步骤801-804也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤801-804,下述步骤还可以与步骤601-603、701-704中的任一种或两种训练方法同时执行,本申请实施例对此不做限定。需要说明的是,下述步骤801-804是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
801、服务器将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。
802、服务器将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征。根据第一样本内容特征和第一样本风格特征,生成第三参考图像。
803、服务器将第三参考图像输入图像识别模型,通过图像识别模型,对第三参考图像进行图像识别,输出第一样本对象在第三参考图像的第三目标位置。
804、服务器根据第三目标位置与第一样本对象在第一样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
需要说明的是,上述步骤801-804是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用801-804所示的步骤对图像识别模型的模型参数进行调整。
另外,服务器在采用上述步骤801-804对图像识别模型的模型参数进行调整时,也可以将步骤801-804中差异信息,与上述其他步骤中任一种或任意多种差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤801-804,服务器可以通过图像识别模型和图像生成模型分别提取第一样本图像的第一样本内容特征和第一样本风格特征,再通过图像生成模型根据第一样本内容特征和第一样本风格特征合成第三参考图像,随后通过第三参考图像来联合训练图像识别模型。可以在提升图像生成模型的图像生成能力的基础上,进一步提高图像识别模型提取内容特征的能力,从而提高图像识别模型的图像识别能力。
在训练过程中,图像生成模型可以用于提升图像识别模型的对于不同图像域图像的识别能力,因此图像生成模型提取风格特征的能力也需要进过训练来提高,从而间接的提高图像识别模型的图像识别能力。提升图像生成模型风格特征提取能力的方法可以包括如下步骤。与上述步骤601-603类似,模型的训练可以包括多个迭代过程,下述步骤901-904也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤801-804,下述步骤还可以与步骤601-603、701-704以及步骤801-804中的任意N种训练方法同时执行,N≤3,本申请实施例对此不做限定。需要说明的是,下述步骤901-904是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
901、服务器将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。
902、服务器将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征,根据第一样本内容特征和第一样本风格特征,生成第三参考图像。
903、服务器将第三参考图像输入图像生成模型,通过图像生成模型提取第三参考图像的第三参考风格特征。
904、服务器根据第一样本风格特征和第三参考风格特征之间的差异信息,调整图像生成模型的模型参数。
在一种可能的实施方式中,第一样本风格特征和第三参考风格特征之间的差异信息可以为第一风格特征差值,服务器可以构建如公式(8)来确定第一风格特征差值。
C8=L4(Ps,Ps ^)=|Ps-Ps ^| (8)
其中,C8为第一风格特征差值,L4为第一风格特征差值对应的损失函数,Ps为第一样本风格特征,Ps ^为第三参考风格特征。
需要说明的是,上述步骤901-904是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用901-904所示的步骤对图像识别模型的模型参数进行调整。
另外,服务器在采用上述步骤901-904对图像识别模型的模型参数进行调整时,也可以将步骤901-904中差异信息,与上述其他步骤中任一种或任意多种差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤901-904,服务器可以通过图像识别模型和图像生成模型分别提取第一样本图像的第一样本内容特征和第一样本风格特征,再通过图像生成模型根据第一样本内容特征和第一样本风格特征合成第三参考图像,随后通过图像生成模型提取第三参考图像的第三参考风格特征,根据第一样本风格特征和第三参考风格特征之间的差异信息来训练图像生成模型,提高图像生成模型的风格特征提取能力。
如上所述,图像生成模型可以用于提升图像识别模型的对于不同图像域图像的识别能力,因此图像生成模型生成图像的能力也需要进过训练来提高,从而间接的提高图像识别模型的图像识别能力,提升图像生成模型生成图像能力的方法可以包括如下步骤1001-1004。与上述步骤601-603类似,模型的训练可以包括多个迭代过程,在一次迭代过程中,下述步骤1001-1004也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤801-804,下述步骤还可以与步骤601-603、701-704、801-804以及步骤901-904中的任意N种训练方法同时执行,N≤4,本申请实施例对此不做限定。需要说明的是,下述步骤1001-1004是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
1001、服务器将第二样本图像输入图像识别模型,通过图像识别模型提取第二样本图像的第二样本内容特征。
1002、服务器将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征,根据第二样本内容特征和第一样本风格特征,生成第二参考图像。
1003、服务器将第一样本图像和第二参考图像输入判别器,判别器用于判别图像是否为合成图像。
1004、服务器响应于判别器判别第二参考图像为合成图像,调整图像生成模型的模型参数。
在一种可能的实施方式中,服务器可以通过判别器可以提取第一样本图像和第二参考图像的第一样本图像特征和第二参考图像特征,以第一样本图像为基准,判断第一样本图像特征与第二参考图像特征之间的第一图像特征差值,响应于第一图像特征差值大于图像特征差值阈值,确定第二参考图像为合成图像。服务器可以构建如公式(9)所示的损失函数来确定第一图像特征差值。
L5=log(1-D(G2 ^))+logD(G1) (9)
其中,L5为第一图像特征差值对应的损失函数,D为判别器,G1为第一样本图像特征,G2 ^为第二参考图像特征。
需要说明的是,上述步骤1001-1004是以判别器判别第二参考图像为合成图像为例进行说明的,在模型训练过程中,可能出现判别器判别第二参考图像不为合成图像的情况,那么响应于判别器判别第二参考图像不为合成图像,服务器可以不采用1001-1004所示的步骤对图像识别模型的模型参数进行调整。还有,上述步骤1001-1004仅仅是以第一样本图像和第二参考图像为例进行说明的,在其他可能的实现方式中,也以替换为第二样本图像和第一参考图像来进行模型的训练,本申请实施例对此不做限定。
另外,服务器在采用上述步骤1001-1004对图像识别模型的模型参数进行调整时,也可以将步骤1001-1004中第一图像特征差值,与上述其他步骤中任一种或任意多种差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤1001-1004,服务器可以通过图像识别模型和图像生成模型分别提取第一样本图像的第一样本内容特征和第一样本风格特征,再通过图像生成模型根据第一样本内容特征和第一样本风格特征合成第三参考图像,随后通过判别器来比较第一样本图像和第三参考图像,识别第三参考图像是否为生成的图像,也就是说生成器和判别器之间形成了“对抗”,生成器致力于生成判别器判别为非合成的图像,判别器致力于识别出生成器生成的图像,在上述对抗过程中,提高图像生成模型的生成图像的能力。
当然,服务器也可以采用与使用过程中相同的方式来通过图像识别模型对第一样本图像进行识别,得到识别结果,并根据识别结果来调整图像识别模型的模型参数。与上述步骤601-603类似,模型的训练可以包括多个迭代过程,下述步骤1101和1102也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤801-804,下述步骤还可以与步骤601-603、701-704、801-804、901-904以及步骤1001-1004中的任意N种训练方法同时执行,N≤5,本申请实施例对此不做限定。需要说明的是,下述步骤1101-1102是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
1101、服务器将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征,根据第一样本内容特征,预测第一样本对象在第一样本图像中所在的第四目标位置。
1102、服务器根据第四目标位置与第一样本对象在第一样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
需要说明的是,上述步骤1101-1102是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用1101-1102所示的步骤对图像识别模型的模型参数进行调整。
另外,服务器在采用上述步骤1101-1102对图像识别模型的模型参数进行调整时,也可以将步骤1101-1102中差异信息,与上述其他步骤中任一种或任意多种差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练,训练步骤可以参见步骤406,在此不再赘述。
通过步骤1101-1102,服务器可以采用与使用过程中相同的方式来训练图像识别模型,进一步提升图像识别模型的图像识别能力。
由于内容特征和风格特征均属于图像特征的一部分,上述训练过程均是采用内容特征和风格特征来训练图像识别模型的,除此之外,本申请还提供了一种通过图像特征来训练图像识别模型的方法,从而提升图像识别模型对于图像的整体识别能力,方法包括如下步骤1201-1204。与上述步骤601-603类似,模型的训练可以包括多个迭代过程,下述步骤1201-1204也可以与上述步骤402-406在同一次迭代过程中同时进行,将不同模型参数调整方式对应的差异信息进行组合,得到联合差异信息,通过联合差异信息对图像识别模型进行训练。当然,也可以在步骤406之后执行下述步骤801-804,下述步骤还可以与步骤601-603、701-704、801-804、901-904、1001-1004以及步骤1102和1102中的任意N种训练方法同时执行,N≤6,本申请实施例对此不做限定。需要说明的是,下述步骤1201-1204是以一次迭代过程为例进行说明的,模型的训练可以包括多个迭代过程。
1201、服务器将第二样本图像输入图像识别模型,通过图像识别模型提取第二样本图像的第二样本内容特征。
1202、服务器将第二样本图像输入图像生成模型,通过图像生成模型提取第二样本图像的第二样本风格特征,根据第二样本内容特征和第二样本风格特征,生成第四参考图像。
1203、服务器通过图像识别模型提取第二样本图像的第二样本图像特征以及第四参考图像的第四参考图像特征,图像特征包括内容特征和风格特征。
1204、服务器根据第二样本图像特征和第四参考图像特征之间的差异信息,调整图像识别模型的模型参数。
在一种可能的实施方式中,第二样本图像特征和第四参考图像特征之间的差异信息可以为第二图像特征差值,服务器可以构建如公式(10)来确定第二图像特征差值。
C9=L6(Gs,Gs ^)=|Gs-Gs ^| (10)
其中,C9为第二图像特征差值,L6为第二图像特征差值对应的损失函数,Gs为第二样本图像特征,Gs ^为第四参考图像特征。
需要说明的是,上述步骤1201-1204是以差异信息不符合目标条件为例进行说明的,在模型训练过程中,可能出现差异信息符合目标条件的情况,那么响应于差异信息符合目标条件,服务器可以不采用1201-1204所示的步骤对图像识别模型的模型参数进行调整。还有,上述步骤1201-1204仅仅是以第二样本图像和第四参考图像为例进行说明的,在其他可能的实现方式中,也以替换为第一样本图像和第三参考图像来进行模型的训练,本申请实施例对此不做限定。
另外,服务器在采用上述步骤1201-1204对图像识别模型的模型参数进行调整时,也可以将步骤1201-1204中差异信息,与上述其他步骤中任一种或任意多种差异信息进行组合,得到联合差异信息,并根据联合差异信息来对图像识别模型的进行训练。具体的训练步骤可以参见步骤406,在此不再赘述。
通过步骤1201-1204,服务器可以通过图像识别模型和图像生成模型分别提取第二样本图像的第二样本内容特征和第二样本风格特征,再通过图像生成模型根据第二样本内容特征和第二样本风格特征合成第四参考图像。服务器可以通过图像识别模型提取第二样本图像的第二样本图像特征和第四参考图像的第四参考图像特征,根据第二样本图像特征和第四参考图像特征之间的差异信息,调整图像识别模型的模型参数,提高图像识别模型对于整体图像特征的提取能力。
参见图13,在实验过程中采用了在同一次迭代过程中同时执行上述所有的步骤的图像识别模型的训练方法来训练图像识别模型,采用Pytorch框架创建模型,在NvidiaTesla P40显卡上运行。样本图像采用了Multi-Modality Whole Heart Segmentation(MMWHS)2017挑战赛的数据集。该数据集包含20组MRI图像和20组CT图像。实验过程中随机抽取80%的图像用于训练,20%的图像用于测试。损失函数为上述损失函数的集合,也即是L1+L2+…..+L6。测试过程中使用Dice系数和F1指标作为评判指标,Dice系数用来计算两个集合的相似性的(也可以度量字符串的相似性);F1指标是用来衡量二分类模型精确度的一种指标,同时考虑到分类模型的准确率和召回率,可以看作是准确率和召回率的一种加权平均。因为不同图像域图像的标注精度上限不同,我们使用实际精度与上限精度的差值(即下降值,越低越好)在两个图像域上的平均值作为评判标准。测试结果可以参见表1,一系列对比实验证明,采用本申请提供的图像识别模型训练方法训练得到的图像识别模型的图像识别能力远远超过其他方法。
表1
其中,方法1表示采用传统的标注方法,位置可以表示样本对象的不同位置。
为了进一步探究本申请提供的图像识别模型训练方法在解决域下降问题的效果,分别计算了各种方法在两个图像域图像的实验结果和下降差值,并用直方图列出,如图14。可以看出,采用本申请提供的图像识别模型训练方法训练得到的图像识别模型在两个图像域图像之间的差距非常小,而且远好过其他方法。同时也给出了分割结果,如图15,用于量化分析。可以直观的看出,采用本申请提供的图像识别模型训练方法训练得到的图像识别模型分割得到的图像边缘最平滑,分割结果噪点最少,最贴近实际标注。
除了上述图像识别模型的训练方法之外,本申请实施例还提供了一种图像识别方法,该图像识别方法的是基于上述图像识别模型的训练方法训练出的图像识别模型实现的,方法如下:
图16是本申请实施例提供的一种图像识别方法的流程图,参见图16,方法包括:
1601、服务器获取第一图像,第一图像中包括第一对象。
其中,第一对象可以与第一样本对象或第二样本对象属于同一类型的对象。第一图像可以为属于任意图像域的图像。
1602、服务器将第一图像输入图像识别模型,通过图像识别模型提取第一图像的第一内容特征,其中,图像识别模型基于多个样本图像以及多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到。
1603、服务器通过图像识别模型,根据第一内容特征,输出第一对象在第一图像的第一位置。
由于图像识别模型是基于不同图像域的图像训练而成的,具有识别不同图像域图像中的对象的能力,因此采用该图像识别模型进行图像识别,无论第一图像属于哪种图像域,都可以得到较为精准的图像识别效果。
图17是本申请实施例提供的一种图像识别模型的训练装置的结构示意图,参见图17,装置包括获取单元1701、生成单元1702、识别单元1703以及调整单元1704。
获取单元1701,用于获取第一样本图像和第二样本图像,第一样本图像包括第一样本对象,第一样本图像和第二样本图像属于不同图像域。
生成单元1702,用于基于第一样本图像和第二样本图像,生成图像风格与第二样本图像相同的第一参考图像,第一参考图像包括第一样本对象。
识别单元1703,用于将第一参考图像输入图像识别模型,通过图像识别模型对第一参考图像进行图像识别,输出第一样本对象在第一参考图像的第一目标位置。
调整单元1704,用于若第一目标位置与第一样本对象在第一样本图像中位置之间的差异信息符合目标条件,将图像识别模型作为训练完成的图像识别模型。
在一种可能的实施方式中,生成单元用于将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。将第二样本图像输入图像生成模型,通过图像生成模型提取第二样本图像的第二样本风格特征。根据第一样本内容特征和第二样本风格特征,生成第一参考图像。
在一种可能的实施方式中,第二样本图像包括第二样本对象,生成单元还用于基于第一样本图像和第二样本图像,生成图像风格与第一样本图像相同的第二参考图像,第二参考图像包括第二样本对象。
识别单元,还用于对第二参考图像进行图像识别,输出第二样本对象在第二参考图像的第二目标位置。
调整单元,还用于根据第二目标位置与第二样本对象在第二样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
在一种可能的实施方式中,生成单元还用于将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征。根据第一样本内容特征和第一样本风格特征,生成第三参考图像。
识别单元,还用于将第三参考图像输入图像识别模型,通过图像识别模型,对第三参考图像进行图像识别,输出第一样本对象在第三参考图像的第三目标位置。
调整单元,还用于根据第三目标位置与第一样本对象在第一样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
在一种可能的实施方式中,装置还包括:
输入单元,用于将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像对应的第一样本内容特征。
输入单元,还用于将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征。根据第一样本内容特征和第一样本风格特征,生成第三参考图像。
输入单元,还用于将第三参考图像输入图像识别模型,通过图像识别模型提取第三参考图像对应的第三参考内容特征。
调整单元,还用于根据第一样本内容特征和第三参考内容特征之间的差异信息调整图像识别模型的模型参数。
在一种可能的实施方式中,调整单元还用于将第三参考图像输入图像生成模型,通过图像生成模型提取第三参考图像的第三参考风格特征。根据第一样本风格特征和第三参考风格特征之间的差异信息调整图像生成模型的模型参数。
在一种可能的实施方式中,生成单元还用于将第二样本图像输入图像识别模型,通过图像识别模型提取第二样本图像的第二样本内容特征。将第一样本图像输入图像生成模型,通过图像生成模型提取第一样本图像的第一样本风格特征。根据第二样本内容特征和第一样本风格特征,生成第二参考图像。
装置还包括判别单元,判别单元用于将第一样本图像和第二参考图像输入判别器,判别器用于判别图像是否为合成图像。
调整单元还用于响应于判别器判别第二参考图像为合成图像,调整图像生成模型的模型参数。
在一种可能的实施方式中,生成单元还用于将第二样本图像输入图像识别模型,通过图像识别模型提取第二样本图像的第二样本内容特征。将第二样本图像输入图像生成模型,通过图像生成模型提取第二样本图像的第二样本风格特征。根据第二样本内容特征和第二样本风格特征,生成第四参考图像。通过图像识别模型提取第二样本图像的第二样本图像特征以及第四参考图像的第四参考图像特征,图像特征包括内容特征和风格特征。
调整单元还用于根据第二样本图像特征和第四参考图像特征之间的差异信息调整图像识别模型的模型参数。
在一种可能的实施方式中,识别单元还用于将第一样本图像输入图像识别模型,通过图像识别模型提取第一样本图像的第一样本内容特征。根据第一样本内容特征,预测第一样本对象在第一样本图像中所在的第四目标位置。
调整单元还用于根据第四目标位置与第一样本对象在第一样本图像中位置之间的差异信息,调整图像识别模型的模型参数。
通过本申请提供的图像识别模型的训练装置,服务器可以采用第一样本图像的“内容”和第二样本图像的“风格”合成第一参考图像,对第一参考图像进行识别,得到第一样本对象在第一参考图像中的位置,根据第一样本对象在第一参考图像中的位置与第一目标位置之间的差异信息,训练图像识别模型。训练过程中通过合成的第一参考图像来进行训练,提高图像识别模型对于不同图像域图像的识别能力,在后续使用图像识别模型进行图像识别的过程中,无论图像为高信息量图像还是低信息量图像,均可以或得较好的识别效果,减轻“域下降”的问题。
图18是本申请实施例提供的一种图像识别装置的结构示意图,参见图18,装置包括:第一图像获取单元1801、第一图像输入单元1802以及第一位置输出单元1803。
第一图像获取单元1801,用于获取第一图像,第一图像中包括第一对象。
第一图像输入单元1802,用于将第一图像输入图像识别模型,通过图像识别模型提取第一图像的第一内容特征,其中,图像识别模型基于多个样本图像以及多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到。
第一位置输出单元1803,用于通过图像识别模型根据第一内容特征,输出第一对象在第一图像的第一位置。
由于图像识别模型是基于不同图像域的图像训练而成的,具有识别不同图像域图像中的对象的能力,因此采用该图像识别模型进行图像识别,无论第一图像属于哪种图像域,都可以得到较为精准的图像识别效果。
图19是本申请实施例提供的一种服务器的结构示意图,该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1901和一个或多个的存储器1902,其中,所述一个或多个存储器1902中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1900还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的图像识别模型的训练方法或图像识别方法。例如,该存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于一种存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像识别模型的训练方法,其特征在于,所述图像识别模型的训练方法包括:
获取第一样本图像和第二样本图像,所述第一样本图像包括第一样本对象,所述第一样本图像和所述第二样本图像属于不同图像域;
基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第二样本图像相同的第一参考图像,所述第一参考图像包括所述第一样本对象;
将所述第一参考图像输入图像识别模型,通过所述图像识别模型对所述第一参考图像进行图像识别,输出所述第一样本对象在所述第一参考图像的第一目标位置;
若所述第一目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息符合目标条件,将所述图像识别模型作为训练完成的图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第二样本图像相同的第一参考图像包括:
将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;
将所述第二样本图像输入图像生成模型,通过所述图像生成模型提取所述第二样本图像的第二样本风格特征;根据所述第一样本内容特征和所述第二样本风格特征,生成所述第一参考图像。
3.根据权利要求1所述的方法,其特征在于,所述第二样本图像包括第二样本对象,所述方法还包括:
基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第一样本图像相同的第二参考图像,所述第二参考图像包括所述第二样本对象;
对所述第二参考图像进行图像识别,输出所述第二样本对象在所述第二参考图像的第二目标位置;
根据所述第二目标位置与所述第二样本对象在所述第二样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
4.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像之后,所述方法还包括:
将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;
将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第一样本内容特征和所述第一样本风格特征,生成第三参考图像;
将所述第三参考图像输入所述图像识别模型,通过所述图像识别模型,对所述第三参考图像进行图像识别,输出所述第一样本对象在所述第三参考图像的第三目标位置;
根据所述第三目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
5.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像之后,所述方法还包括:
将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;
将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第一样本内容特征和所述第一样本风格特征,生成第三参考图像;
将所述第三参考图像输入所述图像识别模型,通过所述图像识别模型提取所述第三参考图像的第三参考内容特征;
根据所述第一样本内容特征和所述第三参考内容特征之间的差异信息,调整所述图像识别模型的模型参数。
6.根据权利要求5所述的方法,其特征在于,所述生成第三参考图像之后,所述方法还包括:
将所述第三参考图像输入所述图像生成模型,通过所述图像生成模型提取所述第三参考图像的第三参考风格特征;
根据所述第一样本风格特征和所述第三参考风格特征之间的差异信息,调整所述图像生成模型的模型参数。
7.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像之后,所述方法还包括:
将所述第二样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第二样本图像的第二样本内容特征;
将所述第一样本图像输入图像生成模型,通过所述图像生成模型提取所述第一样本图像的第一样本风格特征;根据所述第二样本内容特征和所述第一样本风格特征,生成第二参考图像;
将所述第一样本图像和所述第二参考图像输入判别器,所述判别器用于判别图像是否为合成图像;
响应于所述判别器判别所述第二参考图像为合成图像,调整所述图像生成模型的模型参数。
8.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像之后,所述方法还包括:
将所述第二样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第二样本图像的第二样本内容特征;
将所述第二样本图像输入图像生成模型,通过所述图像生成模型提取所述第二样本图像的第二样本风格特征;根据所述第二样本内容特征和所述第二样本风格特征,生成第四参考图像;
通过所述图像识别模型提取所述第二样本图像的第二样本图像特征以及所述第四参考图像的第四参考图像特征,所述图像特征包括内容特征和风格特征;
根据所述第二样本图像特征和第四参考图像特征之间的差异信息,调整所述图像识别模型的模型参数。
9.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像之后,所述方法还包括:
将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;根据所述第一样本内容特征,预测所述第一样本对象在所述第一样本图像中所在的第四目标位置;
根据所述第四目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息,调整所述图像识别模型的模型参数。
10.一种图像识别方法,其特征在于,所述图像识别方法包括:
获取第一图像,所述第一图像中包括第一对象;
将所述第一图像输入图像识别模型,通过所述图像识别模型提取所述第一图像的第一内容特征;
其中,所述图像识别模型基于多个样本图像以及所述多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到;
根据所述第一内容特征,输出所述第一对象在所述第一图像的第一位置。
11.一种图像识别模型的训练装置,其特征在于,所述图像识别模型的训练装置包括:
获取单元,用于获取第一样本图像和第二样本图像,所述第一样本图像包括第一样本对象,所述第一样本图像和所述第二样本图像属于不同图像域;
生成单元,用于基于所述第一样本图像和所述第二样本图像,生成图像风格与所述第二样本图像相同的第一参考图像,所述第一参考图像包括所述第一样本对象;
识别单元,用于将所述第一参考图像输入图像识别模型,通过所述图像识别模型对所述第一参考图像进行图像识别,输出所述第一样本对象在所述第一参考图像的第一目标位置;
调整单元,用于若所述第一目标位置与所述第一样本对象在所述第一样本图像中位置之间的差异信息符合目标条件,将所述图像识别模型作为训练完成的图像识别模型。
12.根据权利要求11所述的装置,其特征在于,所述生成单元用于将所述第一样本图像输入所述图像识别模型,通过所述图像识别模型提取所述第一样本图像的第一样本内容特征;将所述第二样本图像输入图像生成模型,通过所述图像生成模型提取所述第二样本图像的第二样本风格特征;根据所述第一样本内容特征和所述第二样本风格特征,生成所述第一参考图像。
13.一种图像识别装置,其特征在于,所述图像识别装置包括:
第一图像获取单元,用于获取第一图像,所述第一图像中包括第一对象;
第一图像输入单元,用于将所述第一图像输入图像识别模型,通过所述图像识别模型提取所述第一图像的第一内容特征,其中,所述图像识别模型基于多个样本图像以及所述多个样本图像所生成的与原样本图像具有不同图像风格的参考图像训练得到;
第一位置输出单元,用于通过所述图像识别模型根据所述第一内容特征,输出所述第一对象在所述第一图像的第一位置。
14.一种服务器,其特征在于,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的图像识别模型的训练方法,或权利要求10所述的图像识别方法所执行的操作。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的图像识别模型的训练方法,或权利要求10所述的图像识别方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344641.4A CN111598144B (zh) | 2020-04-27 | 2020-04-27 | 图像识别模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344641.4A CN111598144B (zh) | 2020-04-27 | 2020-04-27 | 图像识别模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598144A true CN111598144A (zh) | 2020-08-28 |
CN111598144B CN111598144B (zh) | 2023-11-07 |
Family
ID=72190809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010344641.4A Active CN111598144B (zh) | 2020-04-27 | 2020-04-27 | 图像识别模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598144B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686275A (zh) * | 2021-01-04 | 2021-04-20 | 上海交通大学 | 融合知识蒸馏的生成回放框架式的持续型图像识别系统和方法 |
CN117036305A (zh) * | 2023-08-16 | 2023-11-10 | 郑州大学 | 一种用于咽喉检查的图像处理方法、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084562A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | SEMANTICALLY COHERENT IMAGE STYLE TRANSFER |
CN109919831A (zh) * | 2019-02-13 | 2019-06-21 | 广州视源电子科技股份有限公司 | 一种用于将视网膜眼底图像在不同图像域中迁移的方法、电子设备及计算机可读存储介质 |
CN110135574A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 神经网络训练方法、图像生成方法及计算机存储介质 |
CN110399856A (zh) * | 2019-07-31 | 2019-11-01 | 上海商汤临港智能科技有限公司 | 特征提取网络训练方法、图像处理方法、装置及其设备 |
CN110796199A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及电子医疗设备 |
CN110838084A (zh) * | 2019-09-24 | 2020-02-25 | 咪咕文化科技有限公司 | 一种图像的风格转移方法、装置、电子设备及存储介质 |
-
2020
- 2020-04-27 CN CN202010344641.4A patent/CN111598144B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084562A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | SEMANTICALLY COHERENT IMAGE STYLE TRANSFER |
CN110135574A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 神经网络训练方法、图像生成方法及计算机存储介质 |
CN109919831A (zh) * | 2019-02-13 | 2019-06-21 | 广州视源电子科技股份有限公司 | 一种用于将视网膜眼底图像在不同图像域中迁移的方法、电子设备及计算机可读存储介质 |
CN110399856A (zh) * | 2019-07-31 | 2019-11-01 | 上海商汤临港智能科技有限公司 | 特征提取网络训练方法、图像处理方法、装置及其设备 |
CN110838084A (zh) * | 2019-09-24 | 2020-02-25 | 咪咕文化科技有限公司 | 一种图像的风格转移方法、装置、电子设备及存储介质 |
CN110796199A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及电子医疗设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686275A (zh) * | 2021-01-04 | 2021-04-20 | 上海交通大学 | 融合知识蒸馏的生成回放框架式的持续型图像识别系统和方法 |
CN112686275B (zh) * | 2021-01-04 | 2022-09-20 | 上海交通大学 | 融合知识蒸馏的生成回放框架式的持续型图像识别系统和方法 |
CN117036305A (zh) * | 2023-08-16 | 2023-11-10 | 郑州大学 | 一种用于咽喉检查的图像处理方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111598144B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Salient region detection via integrating diffusion-based compactness and local contrast | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN112801057B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN110163111A (zh) | 基于人脸识别的叫号方法、装置、电子设备及存储介质 | |
EP4181059A1 (en) | Medical image processing method, apparatus, device, storage medium, and product | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN109034218B (zh) | 模型训练方法、装置、设备及存储介质 | |
CN111898561A (zh) | 一种人脸认证方法、装置、设备及介质 | |
CN111598144B (zh) | 图像识别模型的训练方法和装置 | |
CN113781387A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及系统 | |
CN113033305B (zh) | 活体检测方法、装置、终端设备和存储介质 | |
CN114548213A (zh) | 模型训练方法、图像识别方法、终端设备及计算机介质 | |
CN112818774A (zh) | 一种活体检测方法及装置 | |
CN113723310B (zh) | 基于神经网络的图像识别方法及相关装置 | |
CN116188956A (zh) | 一种深度伪造人脸图像检测的方法及相关设备 | |
CN111651626B (zh) | 图像分类方法、装置及可读存储介质 | |
Li et al. | Video image moving target recognition method based on generated countermeasure network | |
CN114299572A (zh) | 人脸年龄估计方法、装置及电子设备 | |
CN113222989A (zh) | 一种图像分级方法、装置、存储介质及电子设备 | |
CN114519729A (zh) | 图像配准质量评估模型训练方法、装置和计算机设备 | |
CN112329606B (zh) | 一种活体检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40027311 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |