CN113591893A - 基于人工智能的图像处理方法、装置和计算机设备 - Google Patents
基于人工智能的图像处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113591893A CN113591893A CN202110105794.8A CN202110105794A CN113591893A CN 113591893 A CN113591893 A CN 113591893A CN 202110105794 A CN202110105794 A CN 202110105794A CN 113591893 A CN113591893 A CN 113591893A
- Authority
- CN
- China
- Prior art keywords
- domain
- features
- classification model
- feature
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 284
- 238000012549 training Methods 0.000 claims abstract description 151
- 238000001914 filtration Methods 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 52
- 230000004913 activation Effects 0.000 claims description 39
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000002591 computed tomography Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 238000010422 painting Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 101710204517 Very long-chain acyl-CoA synthetase Proteins 0.000 description 3
- 102100023048 Very long-chain acyl-CoA synthetase Human genes 0.000 description 3
- 101710085308 Very long-chain fatty acid transport protein Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004043 dyeing Methods 0.000 description 3
- 230000003211 malignant effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241000283080 Proboscidea <mammal> Species 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于人工智能的图像处理方法、装置、计算机设备和存储介质。所述方法包括:获取至少两个领域对应的样本图像;在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;通过选取的领域特定网络和所述初始特征,生成特征掩码图;根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;基于过滤后剩余的特征训练本轮的所述分类模型;在满足迭代停止条件后,得到领域通用的分类模型。采用本方法能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种基于人工智能的图像处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术和人工智能的迅速发展,基于计算机视觉的图像处理技术也不断成熟,出现了一些基于机器学习的神经网络进行图像处理。相关技术中,通过在训练网络模型时,屏蔽掉响应最高单元的方式来激活更多有用的特征让网络可以加强学习之前不敏感的特征。或直接把目标网络暴露给特定的领域网络,将样本数据与网络进行跨域训练,以增强网络模型的鲁棒性。
然而,上述方式中,过滤掉响应最高的特征需要人为设定屏蔽的强度。而直接将样本数据与网络跨域进行训练的方式,在训练时会引入较多领域噪声,影响模型的性能,从而导致图像识别处理的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高图像识别处理的准确性的基于人工智能的图像处理方法、装置、计算机设备和存储介质。
一种基于人工智能的图像处理方法,所述方法包括:
获取至少两个领域对应的样本图像;
在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;
通过选取的领域特定网络和所述初始特征,生成特征掩码图;
根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
基于过滤后剩余的特征训练本轮的所述分类模型;
在满足迭代停止条件后,得到领域通用的分类模型。
一种基于人工智能的图像处理装置,所述装置包括:
图像获取模块,用于获取至少两个领域对应的样本图像;
特征提取模块,用于在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
特征过滤模块,用于从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;通过选取的领域特定网络和所述初始特征,生成特征掩码图;根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
迭代训练模块,用于基于过滤后剩余的特征训练本轮的所述分类模型;在满足迭代停止条件后,得到领域通用的分类模型。
在一个实施例中,所述待训练的分类模型包括主干网络和门控分支网络;所述门控分支网络包括与所述至少两个领域分别对应的已训练的领域特定网络;所述特征提取模块还用于通过本轮待训练的分类模型中的主干网络,提取所述样本图像的初始特征;所述特征过滤模块还用于通过从所述门控分支网络中选取的领域特定网络和所述初始特征,生成特征掩码图。
在一个实施例中,所述特征过滤模块还用于将所述初始特征输入至所述门控分支网络中选取的所述领域特定网络,通过所述领域特定网络提取所述初始特征对应的特征权重矩阵;根据所述特征权重矩阵和所述初始特征,生成特征掩码图。
在一个实施例中,所述特征过滤模块还用于获取所述初始特征在所述领域特定网络中进行传播生成的梯度信息;对所述初始特征对应的梯度信息进行聚合处理,得到特征权重矩阵。
在一个实施例中,所述门控分支网络包括跨领域激活层;所述特征过滤模块还用于将所述特征权重矩阵和所述初始特征输入至所述跨领域激活层,通过所述跨领域激活层根据所述特征权重矩阵,激活所述初始特征中的领域化特征;从所述初始特征中筛选所述领域化特征,根据筛选的所述领域化特征生成特征掩码图。
在一个实施例中,所述样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签;所述主干网络包括初始特征提取层、特征卷积层和分类层;所述特征提取模块还用于通过本轮待训练的分类模型的主干网络中的初始特征提取层,提取所述样本图像的初始特征;所述迭代训练模块还用于通过本轮待训练的分类模型的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别;基于所述预测对象类别与所述对象类别标签的差异,调整本轮的所述分类模型的主干网络中所述特征卷积层和所述分类层的参数,将下一轮作为本轮继续进行迭代训练。
在一个实施例中,所述迭代训练模块还用于根据满足迭代停止条件后的主干网络,生成领域通用的分类模型。
在一个实施例中,所述特征过滤模块还用于将所述初始特征输入至所述选取的领域特定网络进行跨领域特征提取处理,以从所述初始特征中提取领域化特征;将所述领域化特征输入至所述分类模型中的分类层,获取所述领域化特征在所述分类层中进行传播生成的梯度信息;根据所述梯度信息得到的特征权重矩阵和所述初始特征,生成特征掩码图。
在一个实施例中,所述特征过滤模块还用于根据所述特征掩码图中的激活位置,定位所述初始特征中领域化且与分类无关的特征;过滤掉所定位的所述特征,得到过滤后剩余的特征。
在一个实施例中,所述样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域对应的样本图像具有相同的类别标签;所述迭代训练模块还用于通过本轮所述待训练的分类模型,对过滤后剩余的特征进行分类处理,得到预测对象类别;基于所述预测对象类别与所述类别标签的差异,调整本轮的所述分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
在一个实施例中,上述基于人工智能的图像处理装置还包括图像分类模块,由于获取待处理图像;将所述待处理图像输入至所述领域通用的分类模型,通过所述分类模型对所述待处理图像进行分类处理,得到所述待处理图像的对象分类结果。
在一个实施例中,所述图像分类模块还用于通过所述分类模型的初始特征提取层,提取待处理图像的初始特征;通过所述分类模型的特征卷积层,提取所述待处理图像的目标特征;通过所述分类模型的分类层,根据所述目标特征对所述待处理图像进行分类处理,得到所述待处理图像的对象分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少两个领域对应的样本图像;
在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;
通过选取的领域特定网络和所述初始特征,生成特征掩码图;
根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
基于过滤后剩余的特征训练本轮的所述分类模型;
在满足迭代停止条件后,得到领域通用的分类模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少两个领域对应的样本图像;
在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;
通过选取的领域特定网络和所述初始特征,生成特征掩码图;
根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
基于过滤后剩余的特征训练本轮的所述分类模型;
在满足迭代停止条件后,得到领域通用的分类模型。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令时实现以下步骤:
获取至少两个领域对应的样本图像;
在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;
通过选取的领域特定网络和所述初始特征,生成特征掩码图;
根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
基于过滤后剩余的特征训练本轮的所述分类模型;
在满足迭代停止条件后,得到领域通用的分类模型。
上述基于人工智能的图像处理方法、装置、计算机设备和存储介质,获取至少两个领域对应的样本图像后,在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征,从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。由于选取的领域特定网络相较于样本图像是跨领域的领域特定网络,由此通过选取的领域特定网络和初始特征,能够生成跨领域激活的、与领域有关的特定领域信息对应的特征掩码图。进一步根据特征掩码图对初始特征进行过滤,从而能够有效过滤掉初始特征中领域化且与分类无关的特征,使得过滤后剩余的特征更加专注于与类别相关的特征信息。进而基于过滤后剩余的特征训练本轮待训练的分类模型,使得分类模型更加关注与类别相关的信息,从而学习到针对领域更通用的特征表达能力。在满足迭代停止条件后,得到领域通用的分类模型,由此能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
附图说明
图1为一个实施例中基于人工智能的图像处理方法的应用环境图;
图2为一个实施例中基于人工智能的图像处理方法的流程示意图;
图3为另一个实施例中基于人工智能的图像处理方法的流程示意图;
图4为另一个实施例中逐通道聚合方式和空间聚合方式的可视化示意图;
图5为又一个实施例中基于人工智能的图像处理方法的流程示意图;
图6为一个实施例中迭代训练中的分类模型的结构示意图;
图7为再一个实施例中基于人工智能的图像处理方法的流程示意图;
图8为一个实施例中获取的三个数据集中其中一部分图像的示意图;
图9为一个实施例中图像分类处理方法的流程示意图;
图10为一个实施例中基于人工智能的图像处理装置的结构框图;
图11为另一个实施例中基于人工智能的图像处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于人工智能的图像处理方法,可以应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是,本申请提供的基于人工智能的图像处理方法可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
本申请提供的基于人工智能的图像处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。
具体地,终端102采集至少两个领域对应的样本图像,将样本图像上传至服务器104。服务器104也可以从网络中爬取样本图像,并存储至数据库中。服务器104获取样本图像后,在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征,从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络;通过选取的领域特定网络和初始特征,生成特征掩码图;根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征;基于过滤后剩余的特征训练本轮的分类模型;在满足迭代停止条件后,得到领域通用的分类模型。
可以理解,本申请各实施例中的图像分割方法,采用人工智能技术中的计算机视觉技术以及机器学习技术等,能够有效实现自动识别出图像中的对象类别。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。可以理解,本申请正是使用计算机视觉技术,从图像中识别出图像中的对象的类别。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解,在本申请一些实施例中使用到的分类模型,以及各领域分别对应的领域特定网络,就是使用机器学习技术训练得到的,基于该机器学习技术训练得到的分类模型,能够更加精准地对图像中对象的类别进行分类。
在一个实施例中,如图2所示,提供了一种基于人工智能的图像处理方法,以该方法应用于计算机设备为例进行说明,该计算机设备具体可以是图1中的终端或服务器,可以理解的是,该方法还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,包括以下步骤:
S202,获取至少两个领域对应的样本图像。
其中,领域是指一种特定的范围或区域。本实施例中的领域,是针对图像的领域,指图像的领域范围,不同领域数据,是指同一类别的对象外观差异比较大的数据。不同领域的图像,通常外观表现上差异较大。例如,图像的领域,包括各种风格领域和各种场景领域等。其中,各种风格领域包括摄影图像、艺术图像、动画图像、手绘图像等各种风格对应的图像风格领域。各种场景领域包括各种设备采集生成的图像,或在各种环境场景下生成的图像。例如,对于医学场景的图像,利用不同设备或不同染色方式生成的图像,即为不同场景领域的图像。
可以理解,样本图像,是作为模型训练样本数据的图像,用于对训练过程中的分类模型调试参数。样本图像具体可以是包括目标对象的图像。其中,样本图像中可以包括标注有类别标签的样本图像,也可以包括未标注的样本图像。由此,在训练分类模型时,可以采用有监督训练、无监督训练或半监督训练的方式训练分类模型。
其中,样本图像可以直接从互联网获取或从存储器读取,或者通过拍摄装置所采集的图像作为样本图像。在其中一个实施例中,样本图像中可以包括人工采集和从公开数据集或有授权的网站上爬取获得的图像。
计算机设备获取至少两个领域对应的样本图像后,则利用至少两个领域对应的样本图像训练分类模型。
S204,在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征。
其中,迭代是重复反馈过程的活动,迭代训练,是指基于机器学习,重复反馈每一轮的训练结果并继续进行下一轮的训练的过程,目的是为了使待训练的分类模型不断拟合收敛,以接近并到达所需的目标或结果。每一次对过程的重复被称为一次迭代,而每一次迭代得到的结果会被用来作为下一次迭代的初始值。具体地,训练方式包括但不限于有监督训练、半监督训练和无监督训练。
可以理解,基于机器学习对待训练的分类模型进行训练的过程中,需要对样本数据进行多轮的迭代训练。每轮的迭代训练是通过调整本轮的分类模型的模型参数,来使得分类模型逐步收敛,以达到预期的效果,从而得到最终的分类模型。其中,本轮是进行模型训练过程中的当前轮次。
其中,待训练的分类模型是需要进行训练的初始的分类模型,通过利用样本图像对分类模型进行训练,以使训练后的领域通用的分类模型,具有对各种领域的图像中的对象进行分类处理功能。具体地,分类模型可以为采用基于CNN(Convolutional NeuralNetworks,卷积神经网络)、ResNet(深度残差卷积网络)、DenseNet(紧密卷积网络)、DPN(Dual Path Network,双通道卷积网络)等神经网络的机器学习模型。
计算机设备获取样本图像后,首先将样本图像输入至本轮训练的分类模型中,通过分类模型对样本图像进行初步的特征提取处理,提取样本图像的初始特征。可以理解的是,初始特征可以为样本图像中包含的底层特征,例如,底层特征可以包括轮廓特征、边缘特征、颜色特征、纹理特征和形状特征等。
其中,初始特征可以是经过特征提取得到的特征图(Fature Map),即将图像输入至分类模型后,通过分类模型中的神经网络卷积产生的结果,表征的是神经空间内的特征。初始特征可以包多个特征图,例如颜色特征对应的特征图,通常包括与红绿蓝颜色分别对应的3个特征图。
在其中一个实施例中,待训练的分类模型,是完全未经过训练的初始神经网络模型。
在另一个实施例中,待训练的分类模型,还可以是已经具有图像分类能力的神经网络模型。具体还可以是经过训练的具有图像分类能力的神经网络模型,通过本实施例的方式对分类模型进行再训练,使得训练得到分类模型能够过更加专注于与类别相关的信息,具有更好的领域泛化性能。
S206,从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。
可以理解,至少两个表示两个以上,至少两个即为多个。
其中,领域特定网络(Domain-Specific Network),是指利用同一领域的图像数据训练的针对该领域特定的卷积神经网络。各个领域对应的已训练的领域特定网络,也可是具有识别相应领域图像中对象的类别的能力的机器学习模型。可以理解的是,针对多个不同的领域,预先训练有分别针对每个领域对应的领域特定网络。各领域对应的领域特定网络,是利用各领域一一对应的领域图像训练得到的。也就是每一个领域特定网络,都是只采用一种领域对应的领域图像训练得到的。
具体地,计算机设备获取至少两个领域对应的样本图像后,则获取与至少两个领域分别对应的已训练的领域特定网络。
计算机设备提取样本图像的初始特征后,则从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。例如,以至少两个领域对应的样本图像包括i领域、j领域和k领域分别对应的样本图像的为例,领域特定网络,则包括i领域对应的领域特定网络、j领域对应的领域特定网络和k领域对应的领域特定网络。若所进行初始特征提取的当前的样本图像属于i领域时,计算机设备则从j领域或k领域中选择其中一个领域对应的领域特定网络,以通过所选择的领域特定网络对当前i领域的样本图像对应的初始特征进行处理。
S208,通过选取的领域特定网络和初始特征,生成特征掩码图。
其中,图像中的掩码(Mask),是一种单通道图像,通常是由0和1组成的二进制图像,也称为二值图。图像掩码通常用于对处理的图像的全部特征或者局部特征进行遮挡,以控制图像处理的区域或处理过程。例如,可以用于提取图像中的兴趣区域、屏蔽图像中的特定区域、结构特征提取、特征过滤等。
例如,在通过应用掩码对图像进行处理时,在二值图对应的掩码矩阵中,1值区域表示需要进行处理,被屏蔽的0值区域则不进行处理。此外,还可以通过指定的数据值、数据范围、有限或无限值、感兴趣区域和注释文件等来定义图像掩码,也可以基于上述选项的任意组合来生成掩码。
具体地,计算机设备选取领域特定网络后,进而将通过本轮待训练的分类模型提取的样本图像的初始特征输入至选取的领域特定网络。领域特定网络则对该初始特征在卷积神经网络中进行传播,以进行跨领域特征提取,进而获取该初始特征在领域特定网络中得到的权重或得到的特征。计算机设备则根据在领域特定网络中得到的权重或得到的特征,以及初始特征,生成特征掩码图。其中,生成的特征掩码图的大小,可以与初始特征中的特征图的大小一致。
例如,可以将在领域特定网络中得到的权重与初始特征进行融合处理,生成特征掩码图。或者将在领域特定网络中得到的特征在输入至分类模型中,以根据在分类模型的卷积神经网络中进行传播得到的权重,与初始特征进行融合处理,生成特征掩码图。
S210,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。
可以理解的是,由于选取的领域特定网络所针对的领域,是与样本图像所属领域不同的领域,通过选取的领域特定网络对样本图像的初始特征初进行跨领域特征提取,从而能够捕捉到样本图像中跨领域激活的特征,即与领域有关的特定领域信息。因此,生成的特征掩码图中则包含了领域化且与分类无关的特征。
计算机设备得到基于跨领域激活的特征掩码图后,则根据特征掩码图对初始特征进行过滤。具体地,通过将生成的特征掩码图与初始特征进行点乘处理,以得到过滤后的特征。由于特征掩码图中包含领域化且与分类无关的特征,通过特征掩码图对初始特征进行过滤,从而能够有效过滤掉初始特征中领域化且与分类无关的特征。因此,过滤后剩余的特征,则不包括领域化且与分类无关的特征,由此使得过滤后剩余的特征更加专注于与类别相关的特征信息。
在一个实施例中,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征,包括:根据特征掩码图中的激活位置,定位初始特征中领域化且与分类无关的特征;过滤掉所定位的特征,得到过滤后剩余的特征。
其中,激活位置是表示对初始特征进行跨领域特征提取时所响应的特征的位置,也就是领域化特征所对应的位置。领域化特征,即样本图像中的领域化且与分类无关的特征。
具体地,计算机设备将初始特征输入至所选取的领域特定网络中,使得初始特征在领域特定网络中进行传播,并捕获初始特征在领域特定网络中进行反向传播时响应的、针对领域化特征的激活位置以及梯度信息。计算机设备进而根据捕获的针对领域化特征的激活位置以及梯度信息,生成特征权重矩阵,并根据特征权重矩阵和初始特征生成特征掩码图。
计算机设备由此可以根据特征掩码图中的激活位置,定位初始特征中领域化且与分类无关的特征,进而过滤掉所定位的特征,得到过滤后剩余的特征。因此,通过生成具有领域化特征的特征掩码图对初始特征进行过滤,就能过有效地过滤掉初始特征中领域化且与分类无关的特征。
S212,基于过滤后剩余的特征训练本轮的分类模型。
计算机设备利用特征掩码图对初始特征进行过滤后,进而利用过滤后剩余的特征训练本轮的分类模型。具体地,计算机设备本轮待训练的分类模型,对过滤后剩余的特征进行分类处理,以识别样本图像中的对象的类别,得到预测对象类别。计算机设备得到预测对象类别后,则调整分类模型的参数,以训练本轮待训练的分类模型。
其中,若采用有监督的训练方式,计算机设备则可以基于预测对象类别与样本图像对应的对象类别标签的差异,调整本轮待训练的分类模型的参数。若采用无监督的训练方式,计算机设备则可以采用预设的无监督学习算法,根据得到的预测对象类别调整本轮待训练的分类模型的参数。
通过根据过滤后剩余的特征训练本轮的分类模型,能够使得分类模型更加关注与类别相关的信息,激活更多有用的特征,从而使得分类模型不断学习领域泛化的特征表达能力。
S214,在满足迭代停止条件后,得到领域通用的分类模型。
其中,迭代停止条件是指满足模型训练的结束条件,例如迭代停止条件可以是达到预设的迭代次数,也可以是调整参数后的分类模型的图像分类性能的指标达到预设指标。例如,预设指标可以包括对图像中的对象的分类准确率等。
当本轮未满足迭代停止条件时,则进入下一轮训练,并将下一轮作为本轮,继续通过分类模型提取本轮的样本图像的初始特征,根据选取的与该样本图像所属领域不同的领域特定网络,以及初始特征生成特征掩码图,并根据特征掩码图对初始特征进行过滤,进而根据过滤后剩余的特征训练本轮的分类模型,并继续进行迭代训练。具体地,在训练本轮的分类模型,基于过滤后剩余的特征,调整本轮待训练的分类模型的参数。
例如,在调整分类模型的参数时,可以采用基于SGD(Stochastic GradientDescent,随机梯度下降)的梯度下降法求解分类模型的权重参数并进行调整。
当满足迭代停止条件时,则停止迭代训练,从而得到训练好的领域通用的分类模型。例如,迭代停止条件可以为迭代训练30次。
可以理解,训练完成的领域通用的分类模型,是一种具有对各种领域的图像中的对象进行分类的能力的机器学习模型,能够对图像所属的领域进行泛化,从而能够更加精准地识别图像中对象的类别。由此,分类模型在对新领域的图像进行分类处理时,能够有效地提取领域泛化后的与类别更相关的特征,进而能够更加精准地对图像中的对象进行分类。
上述基于人工智能的图像处理方法中,计算机设备获取至少两个领域对应的样本图像后,在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征,从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。由于选取的领域特定网络相较于样本图像是跨领域的领域特定网络,由此通过选取的领域特定网络和初始特征,能够生成跨领域激活的、与领域有关的特定领域信息对应的特征掩码图。计算机设备则根据特征掩码图对初始特征进行过滤,从而能够有效过滤掉初始特征中领域化且与分类无关的特征,使得过滤后剩余的特征更加专注于与类别相关的特征信息。计算机设备进而基于过滤后剩余的特征训练本轮的分类模型,使得分类模型更加关注与类别相关的信息,从而学习到针对领域更通用的特征表达能力。在满足迭代停止条件后,得到领域通用的分类模型,由此能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
在一个实施例中,待训练的分类模型包括主干网络和门控分支网络;门控分支网络包括与至少两个领域分别对应的已训练的领域特定网络。其中,通过本轮待训练的分类模型提取样本图像的初始特征,包括:通过本轮待训练的分类模型中的主干网络,提取样本图像的初始特征。通过选取的领域特定网络和初始特征,生成特征掩码图,包括:通过从门控分支网络中选取的领域特定网络和初始特征,生成特征掩码图。
其中,主干网络是分类模型的主体部分,即起决定作用的部分,也就是对图像进行特征提取以及分类处理的核心网络。主干网络可以为卷积神经网络,能够对样本图像进行特征提取并进行分类处理,以识别出样本图像中对象的类别。可以理解,计算机设备在训练分类模型的过程中,可以仅调整分类模型的主干网络的参数。
门控分支网络,是训练分类模型过程中,待训练的分类模型的一个分支网络,用于辅助训练分类模型。其中,门控分支网络中包括与样本图像所属的至少两个领域相应的,针对每个领域对应的领域特定网络。分类模型的网络结构则包括主干网络和门控分支网络。
可以理解的是,在分类模型中采用门控分支网络,也就是对分类模型进行训练的过程中,采用跨领域激活的门控机制进行训练。其中,门控机制用于控制神经网络中信息的传递,可以用来控制网络记忆单元中信息有多少需要保留,有多少需要丢弃,新的状态信息又有多少需要保存到记忆单元中等。这使得门控循环神经网络可以学习跨度相对较长的依赖关系,从而能够有效避免出现梯度消失和梯度爆炸的问题。
具体地,计算机设备可以预先将多个领域分别对应的领域特定网络,加载至分类模型的门控分支网络中。由此,在每轮的训练中,计算机设备首先将样本图像输入至本轮待训练的分类模型中的主干网络,进而通过主干网络提取样本图像的初始特征。通过主干网络提取样本图像的初始特征后,计算机设备则从门控分支网络中的与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。进而根据选取的领域特定网络和初始特征生成特征掩码图。
本实施例中,通过采用跨领域激活的门控机制对分类模型进行训练,能够更好地学习通用特征,并且能够有效降低对特定领域特征进行学习导致过拟合的风险。通过门控分支网络生成的特征掩码图对初始特征进行过滤,能够有效地过滤掉原来的初始特征中与分类无关且无用的特定领域信息,使得分类模型更多地关注与类别相关的信息,激活更多有用的特征,从而使得所训练的分类模型具有领域更通用的特征表达能力。
在一个实施例中,如图3所示,提供了另一种基于人工智能的图像处理方法,本实施例中,包括以下步骤:
S302,获取至少两个领域对应的样本图像。
S304,在每轮迭代训练中,通过本轮待训练的分类模型中的主干网络提取样本图像的初始特征;待训练的分类模型包括主干网络和门控分支网络;门控分支网络包括与至少两个领域分别对应的已训练的领域特定网络。
S306,从门控分支网络中的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。
S308,将初始特征输入至门控分支网络中选取的领域特定网络,通过领域特定网络提取初始特征对应的特征权重矩阵。
S310,根据特征权重矩阵和初始特征,生成特征掩码图。
S312,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。
S314,基于过滤后剩余的特征训练本轮的分类模型。
S316,在满足迭代停止条件后,得到领域通用的分类模型。
其中,特征权重,是表示各特征项对应的权重,也就是样本图像的各个特征所对应的重要程度。
计算机设备从门控分支网络中选取领域特定网络后,则将初始特征输入至门控分支网络中选取的领域特定网络,并将初始特征在领域特定网络中进行传播。其中,领域特定网络中可以包括前馈网络,具体传播方式可以为前馈反向传播。计算机设备提取在领域特定网络传播时各初始特征的特征图所对应的特征权重,进而基于特征图对应的特征权重能够,得到与特征图大小一致的特征权重矩阵。计算机设备进而根据特征权重矩阵和初始特征,生成特征掩码图。
本实施例中,利用不同领域的领域特定网络,通过跨领域激活引入不同领域的知识,并捕捉初始特征在领域特定网络中传播的特征权重矩阵,进而根据特征权重矩阵和初始特征生成特征掩码图,由此能够有效得到一个筛选出领域化信息的掩码。
在一个实施例中,通过领域特定网络提取初始特征对应的特征权重矩阵,包括:获取初始特征在领域特定网络中进行传播生成的梯度信息;对初始特征对应的梯度信息进行聚合处理,得到特征权重矩阵。
其中,梯度是一个向量,也即矢量,表示某一函数在该点处的方向沿着该方向取得最大值。可以理解的是,图像的梯度,可以表示为图像函数在像素点的梯度是一个具有大小和方向的矢量,梯度的方向也就是函数变化最快的方向。例如,当图像中存在边缘时,一定有较大的梯度值;相反,当图像中有比较平滑的部分时,灰度值变化较小,则相应的梯度也较小。
计算机设备将初始特征输入至门控分支网络中选取的领域特定网络中,以通过领域特定网络提取初始特征对应的特征权重矩阵。具体地,将初始特征输入至领域特定网络后,领域特定网络则对初始特征进行传播,具体可以为反向传播。对初始特征进行传播的过程,也就是对初始特征进行反向传播求导操作。例如,求导操作不仅能够捕获对象轮廓、人影和一些纹理等信息,还能进一步弱化光照的影响。
在其中一个实施例中,样本图像标注有对象类别标签,对象类别标签中预先标注了样本图像中的对象所属的类别。通过领域特定网络提取初始特征对应的特征权重矩阵的过程中,通过领域特定网络对初始特征进行反向传播求导操作时,通过该样本图像的对象类别标签来指导反向传播求导操作,从而能够有效地捕捉到与类别相关的且具有领域化特征信息的梯度信息。可以理解的是,在通过领域特定网络对初始特征进行反向传播,不需要调整领域特定网络的参数。
由于领域特定网络是针对特定领域的,由此具有提取图像的领域化特征信息的能力。计算机设备通过捕捉领域特定网络对初始特征进行传播时的梯度信息,能够获取到针对领域化特征的梯度信息。计算机设备进一步对初始特征对应的梯度信息进行聚合处理,从而能够得到与初始特征相应的、包括了领域化特征信息的特征权重矩阵。
具体地,计算机设备捕捉到初始特征在领域特定网络中传播时的梯度信息后,可以采用逐通道聚合(channel-wise)方式或空间聚合(spatial-wise)方式,对捕捉的梯度信息进行聚合处理。其中,逐通道聚合方式,即对每个梯度通道取平均值,由此可以得到一个与初始特征对应的特征图的数量一致的一维向量。例如,可以通过对一张梯度图进行取平均得到一个常数,作为对应特征图的系数,如果有64个特征图,对梯度进行取平均值,就会得到64个常数组成的权重向量。
空间聚合方式,即基于初始特征对应的特征图上的某一个位置,跨特征图取平均值,最后可以得到一个与特征图的大小一致的矩阵。计算机设备进而将特征图中各像素点的梯度信息进行聚合处理后,从而能够得到与初始特征相应的特征权重矩阵。例如,可以通过对所有的64个梯度图按照通道进行取平均,计算得到一个一通道的矩阵作为权重。
可以理解,领域特定网络中包括多个卷积核,每个卷积核都可以对初始特征的特征图进行特征提取生成另一幅特征图。例如,有两个卷积核就可以生成两幅特征图,这两幅特征图可以看做是样本图像所对应的不同的通道。其中,领域特定网络中可以包括多输入通道,且领域特定网络中卷积核通道数与输入通道数一致,即卷积核的通道数要和输入通道数一样才能进行互相关运算。通过逐通道计算完结果然后进行相加即得到输出。当输入通道有多个时,由于对各个通道的结果做了累加,由此不论输入通道数是多少,输出通道数总是为1。
在领域特定网络中进行学习时,将初始特征输入到相对应的逐通道卷积层,全部逐通道卷积层的梯度信息,联合输出后作为最终的特征权重。具体而言,对于输入的初始特征,领域特定网络首先为每个通道独立采用全局平均池化,然后使用全连接层以及非线性函数来生成通道权重,从而得到初始特征在领域特定网络中的特征权重矩阵。
空间聚合方式则是对不同位置的特征进行聚合统计。空间聚合是通过使用线和面积要素的加权平均计算得出的,可计算输入图层与边界图层重叠区域的统计数据通过空间聚合的方式计算特征图中其中一个区域上的某个特定特征的平均值或最大值。通过空间聚合统计得到的特征不仅具有低得多的维度,相比使用所有提取得到的特征,同时还会改善结果,不容易过拟合。例如,可以通过对图中每个顶点以及邻居顶点进行采样,根据聚合函数聚合邻居顶点蕴含的信息,得到图中目标顶点的向量表示。
例如,可以通过以特征点为中心取16×16的邻域作为采样窗口,基于直方图方式绘制在每4×4的像素块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成8×8个箱格,每个箱格即可形成一个种子点。每个兴趣点可以取4×4共16个种子点,每个种子点含8个方向信息,由此得到一个128维度的“尺度不变特征转换”特征点,以描述特征点邻域内点的梯度方向信息。
如图4所示,为一个实施例中逐通道聚合方式和空间聚合方式的可视化示意图。其中,通过对特征图中的8个方向的梯度进行可视化绘制,得到8个方向的梯度方向直方图42。通过分别采用逐通道聚合方式和空间聚合方式对梯度方向直方图42进行聚合,得到聚合后的梯度方向直方图44。其中,在采用逐通道聚合方式对特征图对应的梯度进行聚合的过程中,在特征图的其中一个通道42a中,通道42a中的深色像素块42a1,表示通道42a中的关键点42a1。在聚合后的梯度方向直方图44中,可以看出哪些是关键点42a1。另外,在采用空间聚合方式对特征图对应的梯度进行聚合的过程中,在特征图的其中一个区域42b中,区域42b中白色像素块42b1,表示42b区域中的关键点42b1,以及关键点42b1在区域42b中的位置。从聚合后的梯度方向直方图44中可以直观地看出,逐通道聚合更关注关键点是什么,而空间聚合则倾向关键点在哪里。
在其中一个实施例中,在训练分类模型的过程中,从逐通道聚合方式和空间聚合方式中,随机选取其中一种聚合方式进行聚合处理。通过采用随机选择聚合方式,能够均衡两种不同聚合方式的优点,从而能够达到最好权重聚合效果。
在一个实施例中,门控分支网络包括跨领域激活层;如图5所示,提供了另一种基于人工智能的图像处理方法,本实施例中,包括以下步骤:
S502,获取至少两个领域对应的样本图像。
S504,在每轮迭代训练中,通过本轮待训练的分类模型中的主干网络提取样本图像的初始特征;待训练的分类模型包括主干网络和门控分支网络;门控分支网络包括与至少两个领域分别对应的已训练的领域特定网络,以及跨领域激活层。
S506,从门控分支网络中的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络。
S508,将初始特征输入至门控分支网络中选取的领域特定网络,通过领域特定网络提取初始特征对应的特征权重矩阵。
S510,将特征权重矩阵和初始特征输入至跨领域激活层,通过跨领域激活层根据特征权重矩阵,激活初始特征中的领域化特征;从初始特征中筛选领域化特征,根据筛选的领域化特征生成特征掩码图。
S512,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。
S514,基于过滤后剩余的特征训练本轮的分类模型。
S516,在满足迭代停止条件后,得到领域通用的分类模型。
可以理解的是,跨领域激活层是用于对提取的初始特征进行跨领域激活操作的处理层。具体地,跨领域激活层可以是不具有网络结构的数据处理层。其中,领域化特征,也就是初始特征中领域化且与分类无关的特征。
由于通过领域特定网络提取初始特征对应的特征权重矩阵中,包含了初始特征在领域特定网络中进行反向传播时响应的、针对领域化特征的激活位置。计算机设备通过领域特定网络提取初始特征对应的特征权重矩阵后,则将特征权重矩阵和初始特征输入至门控分支网络中的跨领域激活层,跨领域激活层进而根据特征权重矩阵,从而能够激活初始特征中的领域化特征。
具体地,计算机设备可以通过跨领域激活层将特征权重矩阵与初始特征进行点乘处理,从而能够得到跨领域的激活特征,也即初始特征中的领域化特征。计算机设备进而从初始特征中筛选领域化特征,并根据筛选的领域化特征生成特征掩码图。因此,通过生成具有领域化特征的特征掩码图对初始特征进行过滤,就能过有效地过滤掉初始特征中领域化且与分类无关的特征。
具体地,将特征权重矩阵与初始特征进行点乘处理的表达式可以如下:
C=fi⊙Wy
其中,C表示跨领域激活的激活特征,fi为本轮的分类模型所提取的初始特征,Wy为领域特定网络提取的特征权重矩阵,⊙表示逐元素乘积。通过将特征权重矩阵与初始特征进行点乘处理,能够有效激活初始特征中跨领域的激活特征。
进一步地,通过跨领域激活得到的特征掩码图,可以表示如下:
通过将特征权重矩阵与初始特征进行点乘处理,对结果为正数的位置进行二值化得到特征掩码图,即用于过滤领域化特征的门控掩码。其中,C>0表示特征图中被激活的部分,即对特定领域的领域特定网络进行分类有帮助的信息,也就是针对领域化的领域特定信息。
如图6所示,为其中一个实施例中迭代训练中的分类模型的结构示意图。分类模型包括主干网络62和门控分支网络64。以样本图像中包括i、j、k三个领域为例。在每轮迭代训练中,若本轮的当前的样本图像的领域为i领域时,通过本轮待训练的分类模型提取样本图像60的初始特征。其中,62a为主干网络中的初始特征提取层。计算机设备则从j领域和k领域分别对应的已训练的领域特定网络中,选取与i领域不同的领域所对应的领域特定网络。以选取的领域特定网络64a的领域为j领域为例,计算机设备然后通过j领域的领域特定网络和初始特征,提取初始特征对应的梯度和,以获得特征权重矩阵。计算机设备进而将特征权重矩阵和初始特征输入至跨领域激活层64b。参照图6中的右上侧的跨领域激活层64b的具体示意图,通过跨领域激活层根据特征权重矩阵,激活初始特征中的领域化特征,生成特征掩码图,并根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征,得到过滤后剩余的特征。其中,W1,W2,W3...Wn,表示初始特征在领域特定网络中进行反向传播时的梯度信息;⊙表示逐元素乘积。
计算机设备进而将过滤后剩余的特征输回分类模型的主干网络62中。其中,62b为主干网络中的门控层,用于获取过滤后的特征。然后计算机设备进而基于过滤后剩余的特征训练本轮的分类模型;在满足迭代停止条件后,得到训练好的领域通用的分类模型。其中,Loss表示训练分类模型过程中的损失。根据损失不断调整分类模型的主干网络的参数,从而能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
本实施例中,通过跨领域激活层将特征权重矩阵与初始特征进行点乘处理,从而能够有效激活初始特征中的跨领域激活的领域化特征,进而能够有效地筛选出领域化特征并生成特征掩码图,由此能够有效地利用具有领域化特征的特征掩码图对初始特征进行过滤,进而能够有效地过滤掉初始特征中领域化且与分类无关的特征。
在一个实施例中,样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签;分类模型的主干网络包括初始特征提取层、特征卷积层和分类层;通过本轮待训练的分类模型提取样本图像的初始特征,包括:通过本轮待训练的分类模型的主干网络中的初始特征提取层,提取样本图像的初始特征;
基于过滤后剩余的特征训练本轮的分类模型,包括:通过本轮待训练的分类模型的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别;基于预测对象类别与对象类别标签的差异,调整本轮的分类模型的主干网络中的特征卷积层和分类层的参数,将下一轮作为本轮继续进行迭代训练。
其中,每一个样本图像标均注有对应的对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签。例如,训练数据中可以包括多个样本图像组,其中,每个样本图像组中包括对象类别相同的至少两个领域对应的样本图像,因此,每个样本图像组具有相同的对象类别标签。
其中,分类模型包括初始特征提取层、特征卷积层和分类层,初始特征提取层用于提取图像的初始特征,即图像的低层特征信息;特征卷积层用于跟初始特征进一步提取图像的深层次特征信息;分类层则用于根据得到的深层次的特征对图像中的对象进行分类。
具体地,计算机设备在训练分类模型的过程中,首先通过本轮的主干网络中的初始特征提取层,提取样本图像的初始特征。然后通过选取的领域特定网络和初始特征,生成特征掩码图。其中,所选取的领域特定网络根据样本图像的对象类别标签的直到,对提取的初始特征进行反向传播,以捕捉初始特征具有领域化信息的特征权重矩阵,进而根据特征权重矩阵和初始特征生成特征掩码图。可以理解的是,在训练的过程中,不对该领域特定网络的参数进行调参,只调整待训练的分类模型的参数。
进一步地,计算机设备生成特征掩码图后,则利用特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。计算机设备进而通过本轮的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别。
计算机设备则基于预测对象类别与对象类别标签的差异,调整本轮的分类模型中特征卷积层和分类层的参数,将下一轮作为本轮继续进行迭代训练。即重复执行在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征的步骤,以对待训练的分类模型进行迭代训练,直到得到训练好的领域通用的分类模型。
本实施例中,通过在训练分类模型的过程中,通过仅调整初始特征提取层之后的网络层的参数,不仅能够有效保证训练的分类模型的领域泛化性能,还能有效减少需要调整的网络参数,从而能够有效提高分类模型的训练效率和精准度。
在另一个实施例中,计算机设备在迭代训练的过程中,还可以基于预测对象类别与对象类别标签的差异,调整本轮的分类模型的整体网络参数,然后继续进行迭代训练,直到得到训练好的领域通用的分类模型。
在一个实施例中,如图7所示,提供了另一种基于人工智能的图像处理方法,本实施例中,包括以下步骤:
S702,获取至少两个领域对应的样本图像;样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签。
S704,在每轮迭代训练中,通过本轮待训练的分类模型的主干网络中的初始特征提取层,提取样本图像的初始特征;待训练的分类模型包括主干网络和门控分支网络;主干网络包括初始特征提取层、特征卷积层和分类层。
S706,从门控分支网络中的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络;门控分支网络包括与至少两个领域分别对应的已训练的领域特定网络。
S708,将初始特征输入至门控分支网络中选取的领域特定网络,通过领域特定网络提取初始特征对应的特征权重矩阵。
S710,根据特征权重矩阵和初始特征,生成特征掩码图。
S712,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。
S714,通过本轮待训练的分类模型的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别。
S716,基于预测对象类别与对象类别标签的差异,调整本轮的分类模型的主干网络中的特征卷积层和分类层的参数,将下一轮作为本轮继续进行迭代训练基于过滤后剩余的特征训练本轮的分类模型。
S716,根据满足迭代停止条件后的主干网络,生成领域通用的分类模型。
可以理解,分类模型的主干网络中的初始特征提取层是用于提取图像的低层特征信息,即基本图像特征信息,且用于提取图像低层信息的网络已经较为成熟。因此,初始特征提取层中的网络层可以为固定的网络结构,在训练分类模型的过程中,则不需要调整初始特征提取层中的网络参数。
分类模型的主干网络中的特征卷积层和分类层,分别用于对初始特征进行进一步特征提取,以及根据进一步提取的特征进行分类处理。因此,在训练分类模型的过程中,特征卷积层和分类层,需要根据通过特征掩码图过滤后的特征,进行学习,以学习领域更通用的特征表达能力,使得分类模型更加关注与类别相关的信息,以有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
本实施例中,通过引入用于辅助训练的门控分支网络,并基于门控分支网络得到的过滤后剩余的特征训练分类模型的主干网络,由此能够有效地训练分类模型的主干网络,使得根据满足迭代停止条件后的主干网络得到的领域通用的分类模型,具体较好的领域特征泛化能力和较为精准的对象分类能力。
在一个实施例中,通过选取的领域特定网络和初始特征,生成特征掩码图,包括:将初始特征输入至选取的领域特定网络进行跨领域特征提取处理,以从初始特征中提取领域化特征;将领域化特征输入至分类模型中的分类层,获取领域化特征在分类层中进行传播生成的梯度信息;根据梯度信息得到的特征权重矩阵和初始特征,生成特征掩码图。
可以理解,分类模型与领域特定网络还可以是相互独立的网络。其中,分类模型中的分类层中还可以包括特征卷积层,用于对输入特征进行卷积处理,并进一步进行分类处理。
计算机设备获取至少两个领域的样本图像后,则获取与至少两个领域分别对应的已训练的至少两个领域特定网络。在每轮迭代训练中,计算机设备首先通过本轮待训练的分类模型提取样本图像的初始特征。然后从至少两个领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络,并将提取的初始特征输入至选取的领域特定网络中,通过领域特定网络对初始特征进行跨领域特征提取处理,以从初始特征中提取出领域化特征。
计算机设备进一步将提取的领域化特征输入至分类模型中的分类层,获取领域化特征在分类层中进行传播生成的梯度信息。计算机设备进而根据梯度信息得到的特征权重矩阵和初始特征,生成特征掩码图。然后再进一步根据特征掩码图对初始特征进行过滤,以过滤掉初始特征中领域化且与分类无关的特征。进而基于过滤后剩余的特征训练本轮的分类模型。
具体地,计算机设备通过分类层根据过滤后剩余的特征对样本图像中的对象进行分类处理,得到预测对象类别。计算机设备则基于预测对象类别与对象类别标签的差异,调整本轮的分类模型的整体网络参数,或只调整本轮的分类模型中分类层的参数,然后继续进行迭代训练,直到得到训练好的领域通用的分类模型。
本实施例中,通过选取的领域特定网络对初始特征进行跨领域特征提取,能够有效获得与领域有关的特定领域信息,并生成跨领域激活的特征掩码图。通过特征掩码图对初始特征进行过滤,从而能够有效过滤掉初始特征中领域化且与分类无关的特征,并基于过滤后剩余的特征训练本轮的分类模型,使得分类模型更加专注于与类别相关的特征信息,从而学习到针对领域更通用的特征表达能力。
在一个实施例中,样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域对应的样本图像具有相同的类别标签;基于过滤后剩余的特征训练本轮的分类模型,包括:通过本轮待训练的分类模型,对过滤后剩余的特征进行分类处理,得到预测对象类别;基于预测对象类别与类别标签的差异,调整本轮的分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
可以理解的是,本实施例中待训练的分类模型与领域特定网络是相互独立的网络。
计算机设备基于领域特定网络和初始特征生成特征掩码图,并利用特征掩码图,过滤掉初始特征中领域化且与分类无关的特征后,计算机设备则通过本轮待训练的分类模型,对过滤后剩余的特征进行分类处理,得到预测对象类别。进而基于预测对象类别与类别标签的差异,调整本轮的分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
本实施例中,通过引入用于辅助训练的多个领域对应的领域特定网络,并基于领域特定网络和初始特征生成的特征掩码图,得到过滤后剩余的特征,然后利用滤后剩余的特征训练分类模型,由此能够有效地训练得到领域通用的分类模型,使得分类模型具体较好的领域特征泛化能力和较为精准的对象分类能力。
在其中一个实施例中,在训练分类模型的过程中,计算机设备可以混合训练方式,即采用跨领域门控方式进行训练,同时还采用混合所有领域的样本图像进行普通训练的方式。其中,跨领域门控方式,也就是采用多个跨领域的领域特定网络生成门控掩码的方式,门控掩码也即特征掩码图,即上述的分类模型的训练方式,在此不再赘述。
混合所有领域的样本图像进行普通训练的方式,即将多个领域的样本图像输入至分类模型,通过分待训练的类模型提取样本图像的特征并进行分类,得到预测对象类别。然后基于预测对象类别与类别标签的差异,调整本轮的分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
具体地,计算机设备在训练分类模型的过程中,将这两种方式结合起来进行训练,计算机设备可以通过一个概率超参数P来分配参与比例。其中,概率超参数P是通过实验测试得到的。例如,通过多个数据集的实验测试,得出P=0.3时有最好的模型训练效果。
通过结合上述两种方式进行混合训练,可以让分类模型在训练时不会损失过多信息,导致学习不到有效的特征表达。特别地,为了进一步降低训练过程中丢弃信息带来的损失,通过采用保留底层特征信息的过滤方式,即通过先提取样本图像的初始特征,然后再利用生成的特征掩码图对初始特征进行过滤,然后基于过滤后剩余的特征训练分类模型,由此可以在特征信息更丰富的领域数据上获得很好的领域泛化性能。
进一步地,待训练的分类模型包括初始特征提取层、特征卷积层和分类层。当使用跨领域门控方式时,不更新底层的网络参数,只更新门控层之后的参数。其中,新门控层之后的网络层,即分类模型的特征卷积层和分类层。也就是不更新分类模型的初始特征提取层的参数,只更新分类模型的特征卷积层和分类层的参数。当混合所有领域的样本图像数据进行普通训练时,更新整个分类模型的参数。通过结合上述两种方式进行混合训练,能够使得训练好的领域通用的分类模型,可以在丰富的领域上表现出很好的泛化性能。
在一个实施例中,通过获取三个公开的领域泛化数据集进行实验,分别是Office-Home数据集、VLCS数据集和PACS数据集。其中,Office-Home数据集是由CVPR(IEEEConference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议)发布的新的数据集,包括65种类别的物体,以及各种领域的图像,例如Artisticimages(艺术图)、ClipArt(剪贴画)、Product images(产品图)、以及Real-World images(现实世界的图像)等领域的图像。
VLCS数据集是区域图像分类的数据集,包括四个领域的图像,即V(VOC,VisualObject Classes,可视化对象类的图像)、L(LabelMe,采用LableMe工具标注的图像)、C(Caltech,手工筛选的类别图像)和S(Scene UNderstanding,场景理解图像)。
PACS数据集,即(Pattern Analysis,Statical Modeling and ComputationalLearning,模式分析、静态建模与计算学习)所对应的数据集,PACS数据集中包括多种对象类别的图像,以及各种领域的图像,例如Photo(照片)、Art Painting(艺术绘画)、Cartoon(卡通画)、以及Sketch(简笔画)等领域分别对应的图像,可以用于视觉对象的分类学习。三个数据集都包括有4个领域分别对应的图像,不同领域的图像之间有比较明显的视觉差异,尤其是PACS数据集中的图像。
如图8所示,为获取的三个数据集中其中一部分图像的示意图,每个数据集中分别包括4个领域下的,3个不同类别对应的图像。其中,Office-Home数据集中包括艺术画、剪贴画、产品图和真实图分别对应的领域下的图像,每个领域下分别包括类别对象为笔记本电脑、桌子和鼠标对应的图像。VLCS数据集中包括可视化对象图、标注图、手工筛选图和场景图分别对应的领域下的图像,每个领域下分别包括类别对象为狗、车辆和鸟对应的图像。PACS数据集中包括照片、艺术绘画、卡通画和简笔画分别对应的领域下的图像,每个领域下分别包括类别对象为大象、房子和人物对应的图像。
具体地,在测试分类模型并评估分类模型的效果时,可以采用留一法(Leave-One-Out Cross Validation,交叉验证法),即轮流用其中3个数据集作为训练集数据,另1个数据集作为测试集数据,所有领域的图像数据进行4轮测试,取平均准确率作为最后的结果。
例如,对于PACS这个数据集中,一共有4个领域数据,分别是普通照片、艺术画、卡通图片和素描简笔画。这四个数据都是有相同的几个对象类别,比如大象、房子、人等等。在进行实验测试验证时,从中选取一个领域作为没有见过的领域,比如素描简笔画。然后通过其他三个领域的数据(照片、艺术画、卡通图片)训练一个领域通用的分类模型,使这个分类模型在没见过的素描画领域的图像上也能有比较高的分类准确率,也就是泛化能力。
通过采用基于跨领域门控方式训练得到的领域通用的分类模型,具有领域泛化能力。由此使得分类模型在遇到新的领域测试图像数据时,可以不需要使用目标领域数据来二次进行训练就可以获得很好的预测性能。并且通常也无法及时获得可以用来训练的目标领域数据,因此,采用基于跨领域门控的领域泛化训练方式,能够有利于模型快速迁移到未知场景进行使用,从而能够精准地识别各种领域或者未知领域的图像中对象的类别。
在一个实施例中,上述方法还包括:获取待处理图像;将待处理图像输入至领域通用的分类模型,通过分类模型对待处理图像进行分类处理,得到待处理图像的对象分类结果。
可以理解,待处理图像是指需要进行分类处理的图像。待处理图像可以是各种领域下的图像,也可以是未知领域下的图像。
计算机设备得到训练好的领域通用的分类模型后,则可以利用该领域通用的分类模型对待处理图像进行分类。具体地,计算机设备将待处理图像输入至已训练的领域通用的分类模型,通过分类模型对待处理图像进行分类处理,以识别图像中的对象的类别,从而得到待处理图像的对象分类结果。
本实施例中,由于已训练的领域通用的分类模型具有领域泛化的特征表达能力,使得分类模型更加关注与类别相关的信息、且具有分类准确度较高的分类能力。通过利用已训练的领域通用的分类模型,对各种领域下的图像进行分类处理,从而能够精准地识别各种领域下的图像中对象的类别。
在一个实施例中,如图9所示,提供了一种图像分类处理方法。本实施例中,包括以下步骤:
S902,获取待处理图像。
S904,将待处理图像输入至领域通用的分类模型,通过分类模型的初始特征提取层,提取待处理图像的初始特征。
S906,通过分类模型的特征卷积层,提取待处理图像的目标特征。
S908,通过分类模型的分类层,根据目标特征对待处理图像进行分类处理,得到待处理图像的对象分类结果。
可以理解,本实施例中的分类模型包括初始特征提取层、特征卷积层和分类层。初始特征提取层用于提取图像的初始特征,即图像的低层特征信息;特征卷积层用于跟初始特征进一步提取图像的深层次特征信息;分类层则用于根据得到的深层次的特征对图像中的对象进行分类。其中,深层次特征信息不包含领域化且与分类无关的特征。
计算机设备通过已训练的领域通用的分类模型,对待处理图像进行分类处理时,首先将待处理图像输入至领域通用的分类模型,通过分类模型的初始特征提取层,提取待处理图像的初始特征。然后将初始特征输入至特征卷积层,通过特征卷积层根据初始特征提取待处理图像的目标特征。
其中,目标特征为深层次特征,且目标特征中过滤掉了领域化且与分类无关的特征。计算机设备进而将目标特征输入至分类层,通过分类层根据目标特征识别图像中的对象的类别,从而得到待处理图像的对象分类结果。
本实施例中,由于已训练的领域通用的分类模型具有领域泛化的特征表达能力,使得分类模型更加关注与类别相关的信息、且具有分类准确度较高的分类能力。通过领域通用的分类模型的特征卷积层,能够有效提取领域泛化的且与类别相关的深层次特征,进而通过分类模型的分类层根据提取的深层次特征进行分类处理,从而能够精准地识别各种领域下的图像中对象的类别。
在一个具体的应用场景中,图像的不同领域可以包括普通照片、艺术画、卡通图片和素描简笔画等。计算机设备获取普通照片领域、艺术画领域和卡通图片领域分别对应的图像数据,作为训练数据中的样本图像,以训练领域通用的分类模型。其中,训练数据中可以包括多个样本图像组,其中,每个样本图像组中包括对象类别相同的至少两个领域对应的样本图像,因此,每个样本图像组具有相同的对象类别标签。例如,其中一组样本图像组中,包括对象类别为狗的普通照片领域、艺术画领域和卡通图片领域分别对应的样本图像。
具体地,在每轮迭代训练中,计算机设备通过本轮待训练的分类模型提取样本图像的初始特征。若本轮的当前的样本图像的领域为普通照片领域时,计算机设备则从艺术画领域和卡通图片领域分别对应的已训练的领域特定网络中,选取与当前的样本图像所属领域不同的领域所对应的领域特定网络。计算机设备然后通过选取的领域特定网络和初始特征,生成特征掩码图,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。计算机设备进而基于过滤后剩余的特征训练本轮的分类模型;在满足迭代停止条件后,得到训练好的领域通用的分类模型。从而能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
进一步地,计算机设备可以将图像的领域为简笔画领域、图中的对象为狗的待处理图像,输入至已训练的领域通用的分类模型中,通过分类模型对待处理图像进行特征提取并进行分类处理后,能够准确地识别出图像中的对象的类别为狗。由于训练好的分类模型更加关注与类别相关的信息,具有领域更通用的特征表达能力和较为精准的对象分类能力,从而能够在分类模型没有见过的领域也具有较高的分类准确率。
在另一个具体的应用场景中,上述基于人工智能的图像处理方法,可以应用于不同医学场景领域的图像处理。具体地,可以用于对医学图像中的肿瘤或细胞对象的进行良心与恶性的区分,也就是识别图像中的肿瘤或细胞的类别为良性还是恶性。例如,不同医学场景领域的图像,包括采用不同设备或不同染色方式生成的图像。例如,通过内窥镜采集的图像;通过激光造影技术采集的图像,如眼底图像;通过CT(Computed Tomography,即电子计算机断层扫描)采集的图像;通过MR(Magnetic Resonance,核磁共振)采集到的图像。其中,CT采集的图像是利用精确准直的X线束、γ射线、超声波等,与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描,生成的断面或立体的图像。MR采集的图像,即采用核磁共振成像检查生成的图像。
具体地,计算机设备获取至少两个领域的样本医学图像,样本医学图像中标注有对象类别标签,例如对象类别标签可以为良性标签、恶性标签等。比如采用内窥镜、造影图像、CT、MR领域的图像在进行肿瘤的良/恶性区分时,有对象类别标签的种类相同对样本医学图像进行约束,即所有的样本医学图像的对象类别标签都可以是属于这两种标签。
在每轮迭代训练中,计算机设备通过本轮待训练的分类模型提取样本医学图像的初始特征。从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本医学图像所属领域不同的领域所对应的领域特定网络。计算机设备然后通过选取的领域特定网络和初始特征,生成特征掩码图,根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。计算机设备进而基于过滤后剩余的特征训练本轮的分类模型;在满足迭代停止条件后,得到训练好的领域通用的分类模型。从而能够有效地训练得到领域泛化性能较好、且分类准确度较高的分类模型。
不同医学场景领域的图像,由于是通过不同设备采集的图像或是采用不同染色方式采集生成的图像,因此这些图像数据在颜色或明暗程度上存在差异性。通过在分类模型训练中过滤掉特定场景对分类任务无用的信息,可以学习到更好的领域不变表达。最终对新的场景数据,比如不同型号差异比较大的设备,或使用不同的染色方式得到的图像,即使是在没有训练数据的情况下,也能获得比较好的泛化性能和分类准确率,从而能够有效提高各种不同领域的图像终端对象的分类准确率。
应该理解的是,虽然图2、3、5、7、9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、5、7、9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种基于人工智能的图像处理装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像获取模块1002、特征提取模块1004、特征过滤模块1006和迭代训练模块1008,其中:
图像获取模块1002,用于获取至少两个领域对应的样本图像。
特征提取模块1004,用于在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征。
特征过滤模块1006,用于从与至少两个领域分别对应的已训练的领域特定网络中,选取与样本图像所属领域不同的领域所对应的领域特定网络;通过选取的领域特定网络和初始特征,生成特征掩码图;根据特征掩码图,过滤掉初始特征中领域化且与分类无关的特征。
迭代训练模块1008,用于基于过滤后剩余的特征训练本轮的分类模型;在满足迭代停止条件后,得到领域通用的分类模型。
在一个实施例中,待训练的分类模型包括主干网络和门控分支网络;门控分支网络包括与至少两个领域分别对应的已训练的领域特定网络;特征提取模块1004还用于通过本轮待训练的分类模型中的主干网络,提取样本图像的初始特征;特征过滤模块还用于通过从门控分支网络中选取的领域特定网络和初始特征,生成特征掩码图。
在一个实施例中,特征过滤模块1006还用于将初始特征输入至门控分支网络中选取的领域特定网络,通过领域特定网络提取初始特征对应的特征权重矩阵;根据特征权重矩阵和初始特征,生成特征掩码图。
在一个实施例中,特征过滤模块1006还用于获取初始特征在领域特定网络中进行传播生成的梯度信息;对初始特征对应的梯度信息进行聚合处理,得到特征权重矩阵。
在一个实施例中,门控分支网络包括跨领域激活层;特征过滤模块1006还用于将特征权重矩阵和初始特征输入至跨领域激活层,通过跨领域激活层根据特征权重矩阵,激活初始特征中的领域化特征;从初始特征中筛选领域化特征,根据筛选的领域化特征生成特征掩码图。
在一个实施例中,样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签;主干网络包括初始特征提取层、特征卷积层和分类层;特征提取模块1004还用于通过本轮待训练的分类模型的主干网络中的初始特征提取层,提取样本图像的初始特征;迭代训练模块1008还用于通过本轮待训练的分类模型的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别;基于预测对象类别与对象类别标签的差异,调整本轮的分类模型的主干网络中特征卷积层和分类层的参数,将下一轮作为本轮继续进行迭代训练。
在一个实施例中,迭代训练模块1008还用于根据满足迭代停止条件后的主干网络,生成领域通用的分类模型。
在一个实施例中,特征过滤模块1004还用于将初始特征输入至选取的领域特定网络进行跨领域特征提取处理,以从初始特征中提取领域化特征;将领域化特征输入至分类模型中的分类层,获取领域化特征在分类层中进行传播生成的梯度信息;根据梯度信息得到的特征权重矩阵和初始特征,生成特征掩码图。
在一个实施例中,特征过滤模块1006还用于根据特征掩码图中的激活位置,定位初始特征中领域化且与分类无关的特征;过滤掉所定位的特征,得到过滤后剩余的特征。
在一个实施例中,样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域对应的样本图像具有相同的类别标签;迭代训练模块还1008用于通过本轮待训练的分类模型,对过滤后剩余的特征进行分类处理,得到预测对象类别;基于预测对象类别与类别标签的差异,调整本轮的分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
在一个实施例中,如图11所示,上述基于人工智能的图像处理装置1000还包括图像分类模块1010,由于获取待处理图像;将待处理图像输入至领域通用的分类模型,通过分类模型对待处理图像进行分类处理,得到待处理图像的对象分类结果。
在一个实施例中,图像分类模块1010还用于通过分类模型的初始特征提取层,提取待处理图像的初始特征;通过分类模型的特征卷积层,提取待处理图像的目标特征;通过分类模型的分类层,根据目标特征对待处理图像进行分类处理,得到待处理图像的对象分类结果。
关于基于人工智能的图像处理装置的具体限定可以参见上文中对于基于人工智能的图像处理方法的限定,在此不再赘述。上述基于人工智能的图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本图像、领域特定网络等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的图像处理方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种基于人工智能的图像处理方法,其特征在于,所述方法包括:
获取至少两个领域对应的样本图像;
在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;
通过选取的领域特定网络和所述初始特征,生成特征掩码图;
根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
基于过滤后剩余的特征训练本轮的所述分类模型;
在满足迭代停止条件后,得到领域通用的分类模型。
2.根据权利要求1所述的方法,其特征在于,所述待训练的分类模型包括主干网络和门控分支网络;所述门控分支网络包括与所述至少两个领域分别对应的已训练的领域特定网络;
所述通过本轮待训练的分类模型提取样本图像的初始特征,包括:
通过本轮待训练的分类模型的主干网络,提取所述样本图像的初始特征;
所述通过选取的领域特定网络和所述初始特征,生成特征掩码图,包括:
通过从所述门控分支网络中选取的领域特定网络和所述初始特征,生成特征掩码图。
3.根据权利要求2所述的方法,其特征在于,所述通过从所述门控分支网络中选取的领域特定网络和所述初始特征,生成特征掩码图,包括:
将所述初始特征输入至所述门控分支网络中选取的所述领域特定网络,通过所述领域特定网络提取所述初始特征对应的特征权重矩阵;
根据所述特征权重矩阵和所述初始特征,生成特征掩码图。
4.根据权利要求3所述的方法,其特征在于,所述通过所述领域特定网络提取所述初始特征对应的特征权重矩阵,包括:
获取所述初始特征在所述领域特定网络中进行传播生成的梯度信息;
对所述初始特征对应的梯度信息进行聚合处理,得到特征权重矩阵。
5.根据权利要求3所述的方法,其特征在于,所述门控分支网络包括跨领域激活层;所述根据所述特征权重矩阵和所述初始特征,生成特征掩码图包括:
将所述特征权重矩阵和所述初始特征输入至所述跨领域激活层,通过所述跨领域激活层根据所述特征权重矩阵,激活所述初始特征中的领域化特征;
从所述初始特征中筛选所述领域化特征,根据筛选的所述领域化特征生成特征掩码图。
6.根据权利要求2所述的方法,其特征在于,所述样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域下的样本图像具有相同的对象类别标签;所述主干网络包括初始特征提取层、特征卷积层和分类层;
所述通过本轮待训练的分类模型的主干网络,提取所述样本图像的初始特征,包括:
通过本轮待训练的分类模型的主干网络中的初始特征提取层,提取所述样本图像的初始特征;
所述基于过滤后剩余的特征训练本轮的所述分类模型,包括:
通过本轮待训练的分类模型的主干网络中的特征卷积层和分类层,根据过滤后剩余的特征进行分类处理,得到预测对象类别;
基于所述预测对象类别与所述对象类别标签的差异,调整本轮的所述分类模型的主干网络中的所述特征卷积层和所述分类层的参数,将下一轮作为本轮继续进行迭代训练。
7.根据权利要求6所述的方法,其特征在于,所述在满足迭代停止条件后,得到领域通用的分类模型,包括:
根据满足迭代停止条件后的主干网络,生成领域通用的分类模型。
8.根据权利要求1所述的方法,其特征在于,所述通过选取的领域特定网络和所述初始特征,生成特征掩码图,包括:
将所述初始特征输入至所述选取的领域特定网络进行跨领域特征提取处理,以从所述初始特征中提取领域化特征;
将所述领域化特征输入至所述分类模型中的分类层,获取所述领域化特征在所述分类层中进行传播生成的梯度信息;
根据所述梯度信息得到的特征权重矩阵和所述初始特征,生成特征掩码图。
9.根据权利要求1所述的方法,其特征在于,所述根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征,包括:
根据所述特征掩码图中的激活位置,定位所述初始特征中领域化且与分类无关的特征;
过滤掉所定位的所述特征,得到过滤后剩余的特征。
10.根据权利要求1所述的方法,其特征在于,所述样本图像标注有对象类别标签,对应于同一对象类别的至少两个领域对应的样本图像具有相同的类别标签;所述基于过滤后剩余的特征训练本轮的所述分类模型,包括:
通过所述本轮待训练的分类模型,对过滤后剩余的特征进行分类处理,得到预测对象类别;
基于所述预测对象类别与所述类别标签的差异,调整本轮的所述分类模型的参数,并将下一轮作为本轮继续进行迭代训练。
11.根据权利要求1至10中任意一项所述的方法,其特征在于,所述方法还包括:
获取待处理图像;
将所述待处理图像输入至所述领域通用的分类模型,通过所述分类模型对所述待处理图像进行分类处理,得到所述待处理图像的对象分类结果。
12.根据权利要求11所述的方法,其特征在于,所述通过所述分类模型对所述待处理图像进行分类处理,得到所述待处理图像的对象分类结果,包括:
通过所述分类模型的初始特征提取层,提取待处理图像的初始特征;
通过所述分类模型的特征卷积层,提取所述待处理图像的目标特征;
通过所述分类模型的分类层,根据所述目标特征对所述待处理图像进行分类处理,得到所述待处理图像的对象分类结果。
13.一种基于人工智能的图像处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取至少两个领域对应的样本图像;
特征提取模块,用于在每轮迭代训练中,通过本轮待训练的分类模型提取样本图像的初始特征;
特征过滤模块,用于从与所述至少两个领域分别对应的已训练的领域特定网络中,选取与所述样本图像所属领域不同的领域所对应的领域特定网络;通过选取的领域特定网络和所述初始特征,生成特征掩码图;根据所述特征掩码图,过滤掉所述初始特征中领域化且与分类无关的特征;
迭代训练模块,用于基于过滤后剩余的特征训练本轮的所述分类模型;在满足迭代停止条件后,得到领域通用的分类模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105794.8A CN113591893B (zh) | 2021-01-26 | 2021-01-26 | 基于人工智能的图像处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105794.8A CN113591893B (zh) | 2021-01-26 | 2021-01-26 | 基于人工智能的图像处理方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591893A true CN113591893A (zh) | 2021-11-02 |
CN113591893B CN113591893B (zh) | 2024-06-28 |
Family
ID=78238132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110105794.8A Active CN113591893B (zh) | 2021-01-26 | 2021-01-26 | 基于人工智能的图像处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591893B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150242461A1 (en) * | 2014-02-25 | 2015-08-27 | Hsiang-Tsung Kung | Systems, Apparatuses, and Methods for Feature Searching |
CN109712165A (zh) * | 2018-12-29 | 2019-05-03 | 安徽大学 | 一种基于卷积神经网络的同类前景图像集分割方法 |
CN109740668A (zh) * | 2018-12-29 | 2019-05-10 | 北京市商汤科技开发有限公司 | 深度模型训练方法及装置、电子设备及存储介质 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112017301A (zh) * | 2020-07-24 | 2020-12-01 | 武汉纺织大学 | 用于服装图像特定相关区域的风格迁移模型及方法 |
CN112231592A (zh) * | 2020-11-09 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于图的网络社团发现方法、装置、设备以及存储介质 |
-
2021
- 2021-01-26 CN CN202110105794.8A patent/CN113591893B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150242461A1 (en) * | 2014-02-25 | 2015-08-27 | Hsiang-Tsung Kung | Systems, Apparatuses, and Methods for Feature Searching |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
CN109712165A (zh) * | 2018-12-29 | 2019-05-03 | 安徽大学 | 一种基于卷积神经网络的同类前景图像集分割方法 |
CN109740668A (zh) * | 2018-12-29 | 2019-05-10 | 北京市商汤科技开发有限公司 | 深度模型训练方法及装置、电子设备及存储介质 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
CN112017301A (zh) * | 2020-07-24 | 2020-12-01 | 武汉纺织大学 | 用于服装图像特定相关区域的风格迁移模型及方法 |
CN112231592A (zh) * | 2020-11-09 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于图的网络社团发现方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
王醒策: "基于全局LBF水平集模型的脑血管层次粗分割", 光学精密工程, 15 December 2013 (2013-12-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113591893B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | Deep unified model for face recognition based on convolution neural network and edge computing | |
Ale et al. | Deep learning based plant disease detection for smart agriculture | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
Luo et al. | Fire smoke detection algorithm based on motion characteristic and convolutional neural networks | |
CN108764308B (zh) | 一种基于卷积循环网络的行人重识别方法 | |
CN110555481B (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN111754396B (zh) | 脸部图像处理方法、装置、计算机设备和存储介质 | |
CN111738231B (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN110033023A (zh) | 一种基于绘本识别的图像数据处理方法及系统 | |
CN113705290A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN112651333A (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
Fan | Research and realization of video target detection system based on deep learning | |
Sun et al. | Scene categorization using deeply learned gaze shifting kernel | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
Liu | RETRACTED ARTICLE: Video Face Detection Based on Deep Learning | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
Wang et al. | Salient object detection using biogeography-based optimization to combine features | |
CN116701706B (zh) | 一种基于人工智能的数据处理方法、装置、设备及介质 | |
CN113591893B (zh) | 基于人工智能的图像处理方法、装置和计算机设备 | |
Surendar | Evolution of gait biometric system and algorithms-A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055316 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |