CN114283290A - 图像处理模型的训练、图像处理方法、装置、设备及介质 - Google Patents
图像处理模型的训练、图像处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114283290A CN114283290A CN202111138476.8A CN202111138476A CN114283290A CN 114283290 A CN114283290 A CN 114283290A CN 202111138476 A CN202111138476 A CN 202111138476A CN 114283290 A CN114283290 A CN 114283290A
- Authority
- CN
- China
- Prior art keywords
- image
- image processing
- processing model
- sequence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 391
- 238000012549 training Methods 0.000 title claims abstract description 170
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 137
- 238000000605 extraction Methods 0.000 claims description 68
- 230000008569 process Effects 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 238000005516 engineering process Methods 0.000 description 21
- 238000002591 computed tomography Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 206010035664 Pneumonia Diseases 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 210000004072 lung Anatomy 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000002595 magnetic resonance imaging Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013170 computed tomography imaging Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007917 intracranial administration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了图像处理模型的训练、图像处理方法、装置、设备及介质,属于人工智能技术领域。该图像处理模型的训练方法包括:获取三维的样本图像;调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果;调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果;利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数,得到更新后的图像处理模型;基于更新后的图像处理模型,获取目标图像处理模型。此种方法,利用第一分类结果和第二分类结果之间的损失函数提供监督信号,能够在减少对三维的图像的标签的依赖的基础上实现对图像处理模型的较为可靠的训练,从而提高图像处理的可靠性。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像处理模型的训练、图像处理方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,调用图像处理模型对三维的待处理图像进行处理的应用场景越来越多,在调用图像处理模型对三维的待处理图像进行处理之前,需要先对图像处理模型进行训练。
相关技术中,利用图像处理模型输出的处理结果与三维的图像的标签之间的损失函数提供模型训练所需的监督信号。此种方式需要大量具有标签的三维的图像才能训练得到较为可靠的图像处理模型,由于三维的图像的标签的获取难度较高,所以相关技术中的图像处理模型的训练方式受到的限制较大。因此,如何在减少对三维的图像的标签的依赖的基础上,对图像处理模型进行较为可靠的训练,以提高图像处理的可靠性,是亟需解决的问题。
发明内容
本申请实施例提供了一种图像处理模型的训练、图像处理方法、装置、设备及介质,可用于在减少对三维的图像的标签的依赖的基础上,对图像处理模型进行较为可靠的训练,以提高图像处理的可靠性。所述技术方案如下:
一方面,本申请实施例提供了一种图像处理模型的训练方法,所述方法包括:
获取三维的样本图像;
调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,所述第一图像数据序列通过按照第一角度对所述样本图像进行切分得到,所述第一角度为各个候选角度中的任一角度;
调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度为所述各个候选角度中与所述第一角度不同的任一角度;
利用所述第一分类结果和所述第二分类结果之间的损失函数更新所述第一图像处理模型的参数,得到更新后的图像处理模型;基于所述更新后的图像处理模型,获取目标图像处理模型。
还提供了一种图像处理方法,所述方法包括:
获取三维的待处理图像和目标图像处理模型,所述目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,所述第一分类结果通过调用所述第一图像处理模型对第一图像数据序列进行分类得到,所述第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,所述第一图像数据序列通过按照第一角度对样本图像进行切分得到,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度和所述第一角度为各个候选角度中的任两个不同的角度;
调用所述目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,所述目标图像数据序列通过按照所述各个候选角度中的任一角度对所述待处理图像进行切分得到。
另一方面,提供了一种图像处理模型的训练装置,所述装置包括:
获取单元,用于获取三维的样本图像;
分类单元,用于调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,所述第一图像数据序列通过按照第一角度对所述样本图像进行切分得到,所述第一角度为各个候选角度中的任一角度;
所述分类单元,还用于调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度为所述各个候选角度中与所述第一角度不同的任一角度;
更新单元,用于利用所述第一分类结果和所述第二分类结果之间的损失函数更新所述第一图像处理模型的参数,得到更新后的图像处理模型;
所述获取单元,还用于基于所述更新后的图像处理模型,获取目标图像处理模型。
在一种可能实现方式中,所述第一图像处理模型包括编码模型、注意力模型和预测模型,所述分类单元,用于调用所述编码模型对所述第一图像数据序列进行特征提取,得到第一图像特征序列;调用所述注意力模型对所述第一图像特征序列进行特征提取,得到目标图像特征序列;调用所述预测模型对所述目标图像特征序列进行预测,得到所述第一分类结果。
在一种可能实现方式中,所述注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型,所述分类单元,用于调用所述位置注意力子模型和所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第二图像特征序列;调用所述神经网络子模型对所述第二图像特征序列进行特征提取,得到第三图像特征序列,基于所述第三图像特征序列,获取所述目标图像特征序列。
在一种可能实现方式中,所述分类单元,用于将所述第一图像特征序列转换为第一位置特征序列;调用所述位置注意力子模型对所述第一位置特征序列进行特征提取,得到第二位置特征序列;基于所述第二位置特征序列,获取第四图像特征序列;调用所述空间注意力子模型对所述第四图像特征序列进行特征提取,得到第五图像特征序列;基于所述第五图像特征序列,获取所述第二图像特征序列。
在一种可能实现方式中,所述分类单元,用于将所述第二位置特征序列转换为第六图像特征序列;将所述第六图像特征序列与所述第一图像特征序列进行融合,得到所述第四图像特征序列。
在一种可能实现方式中,所述分类单元,用于调用所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第七图像特征序列;基于所述第七图像特征序列,获取第三位置特征序列;调用所述位置注意力子模型对所述第三位置特征序列进行特征提取,得到第四位置特征序列;基于所述第四位置特征序列,获取所述第二图像特征序列。
在一种可能实现方式中,所述获取单元,还用于响应于所述更新后的图像处理模型满足参考条件,将所述更新后的图像处理模型作为所述目标图像处理模型。
在一种可能实现方式中,所述获取单元,还用于响应于所述更新后的图像处理模型满足参考条件,将所述更新后的图像处理模型作为预训练模型;获取三维的训练图像和所述训练图像对应的标签;利用所述训练图像和所述训练图像对应的标签对所述预训练模型进行调整,得到所述目标图像处理模型。
在一种可能实现方式中,所述获取单元,还用于按照所述第一角度对所述样本图像进行切分,得到各个切片;基于所述各个切片,确定所述样本图像在所述第一角度下对应的各帧子图像,由所述各帧子图像的图像数据构成所述第一图像数据序列。
还提供了一种图像处理装置,所述装置包括:
获取单元,用于获取三维的待处理图像和目标图像处理模型,所述目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,所述第一分类结果通过调用所述第一图像处理模型对第一图像数据序列进行分类得到,所述第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,所述第一图像数据序列通过按照第一角度对样本图像进行切分得到,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度和所述第一角度为各个候选角度中的任两个不同的角度;
处理单元,用于调用所述目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,所述目标图像数据序列通过按照所述各个候选角度中的任一角度对所述待处理图像进行切分得到。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的图像处理模型的训练方法或图像处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的图像处理模型的训练方法或图像处理方法。
另一方面,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现上述任一所述的图像处理模型的训练方法或图像处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案,利用第一分类结果和第二分类结果之间的损失函数提供模型训练所需的监督信号,此种模型训练方式能够减少对三维的图像的标签的依赖,有利于扩展图像处理模型的训练方法的应用场景。此外,由于第一分类结果和第二分类结果是基于不同的图像数据序列得到的,且不同的图像数据序列是通过按照不同的角度对同一样本图像进行切分得到的,所以,第一分类结果和第二分类结果之间的损失函数提供的监督信号为通过关注样本图像本身的特征得到的监督信号,利用此种监督信号能够在减少对三维的图像的标签的依赖的基础上实现对图像处理模型的较为可靠的训练,从而提高图像处理的可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种图像处理模型的训练方法的流程图;
图3是本申请实施例提供的一种调用编码模型对第一图像数据序列进行特征提取,得到第一图像特征序列的过程的示意图;
图4是本申请实施例提供的一种调用注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列的过程的示意图;
图5是本申请实施例提供的一种图像处理模型的训练过程的示意图;
图6是本申请实施例提供的一种图像处理方法的流程图;
图7是本申请实施例提供的一种图像处理模型的训练装置的示意图;
图8是本申请实施例提供的一种图像处理装置的示意图;
图9是本申请实施例提供的一种服务器的结构示意图;
图10是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在示例性实施例中,本申请实施例提供的图像处理模型的训练方法和图像处理方法能够应用于人工智能技术领域。接下来对人工智能技术进行介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例提供的图像处理模型的训练方法和图像处理方法涉及计算机视觉技术和机器学习技术。
计算机视觉(Computer Vision,CV)技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three Dimensional,三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在示例性实施例中,本申请实施例中提供的图像处理模型的训练方法和图像处理方法在区块链系统中实现,本申请实施例提供的图像处理模型的训练方法中涉及的样本图像、第一分类结果、第二分类结果以及目标图像处理模型等,以及图像处理方法中涉及的待处理图像、目标处理结果等均保存在区块链系统中的区块链上,供区块链系统中的各个节点设备应用,以保证数据的安全性和可靠性。
图1示出了本申请实施例提供的实施环境的示意图。该实施环境包括:终端11和服务器12。
本申请实施例提供的图像处理模型的训练方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的图像处理模型的训练方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
本申请实施例提供的图像处理方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的图像处理方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
本申请实施例提供的图像处理模型的训练方法和图像处理方法可以由相同的设备执行,也可以由不同的设备执行,本申请实施例对此不加以限定。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(Pocket PC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、车载终端等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种图像处理模型的训练方法,该图像处理模型的训练方法由计算机设备执行,该计算机设备可以为服务器12,也可以为终端11,本申请实施例对此不加以限定。如图2所示,本申请实施例提供的图像处理模型的训练方法包括如下步骤201至步骤204。
在步骤201中,获取三维的样本图像。
样本图像是指训练图像处理模型所需的图像,在本申请实施例中,样本图像为三维的图像,以保证样本图像能够通过按照不同的角度进行切分得到不同的图像数据序列,进而通过不同的图像数据序列对应的预测结果之间的一致性来提供模型训练所需的监督信号,实现减少依赖图像的标签的自监督学习过程。自监督学习是无监督学习的一种,它的目标是在考虑在缺少标签或者完全没有标签的情况下,依然学习到能够表示原始图像的良好有意义的特征。
本申请实施例对样本图像的类型不加以限定,只要保证样本图像为三维的图像即可。示例性地,样本图像的类型为CT(Computed Tomography,电子计算机断层扫描)医学图像,或者,样本图像的类型为MRI(Magnetic Resonance Imaging,磁共振成像)医学图像。示例性地,CT是一种十分重要的医疗诊断设备,它的基本原理是通过x射线对人体进行扫描,根据人体不同组织对x射线吸收系数进的差异进行成像,CT成像技术广泛应用于不同的疾病诊断,包括颅内肿瘤、新冠肺炎诊断等。因此,对CT医学图像的图像处理的研究也成为图像处理领域的热点。
示例性地,在不同的应用场景下,样本图像的类型可能不同。例如,在训练一个用于对脑部CT医学图像进行分类的图像处理模型的应用场景下,样本图像为脑部CT医学图像;在训练一个用于对肺部CT医学图像进行分类的图像处理模型的应用场景下,样本图像为肺部CT医学图像。
需要说明的是,本申请实施例中提到的样本图像是指更新一次模型参数所利用的样本图像,样本图像的数量可以为一个,也可以为多个,本申请实施例对此不加以限定。示例性地,样本图像的数量为多个,以保证模型的训练效果。
在示例性实施例中,计算机设备获取样本图像的方式为:计算机设备从图像库中提取样本图像。
在示例性实施例中,计算机设备获取样本图像的方式为:计算机设备将某公开数据集中的三维的训练图像作为样本图像。例如,计算机设备将国际上公开的新冠肺炎数据集中的训练图像作为样本图像,该新冠肺炎数据集中包含307例三维肺部CT医学图像,该307例三维肺部CT医学图像包括171例类别为新冠肺炎(也即新冠肺炎阳性)的三维肺部CT医学图像,76例类别为正常的三维肺部CT医学图像,以及60例类别为其他肺炎的三维肺部CT医学图像。
在示例性实施例中,计算机设备获取样本图像的方式为:计算机设备对图像采集设备(如,CT设备、MRI设备等)采集的三维的原始图像进行处理,得到样本图像。此种情况下,原始图像从图像库中提取,或者由人工上传等,本申请实施例对此不加以限定。对原始图像进行处理的方式包括但不限于裁剪、数据增强等,数据增强包括但不限于随机旋转、添加噪音等。
在示例性实施例中,在获取样本图像后,可以获取样本图像在各个候选角度下分别对应的图像数据序列,以便于后续使用。各个候选角度为对样本图像进行切分的角度。示例性地,各个候选角度是指样本图像对应的各个切面对应的角度,示例性地,样本图像对应的切面分别为冠状面(Coronal plane)、横截面(Transverse plane)以及矢状面(Sagittalplane),则候选角度分别为冠状面对应的角度、横截面对应的角度以及矢状面对应的角度。示例性地,某一切面对应的角度可以是指朝着与该切面垂直的两个方向中的任一方向对样本图像进行切分的角度。
示例性地,样本图像在每个角度下对应的图像数据序列均用于指示样本图像在一个角度下的表征数据。需要说明的是,虽然样本图像在不同角度下的表征数据有所不同,但由于表征数据表征的都是同一个样本图像,所以基于表征数据获取的样本图像对应的处理结果应该是一致的,在此种先验信息的基础上,能够在多角度一致性约束下实现对图像处理模型的自监督训练。
在示例性实施例中,将各个候选角度中的任一角度称为第一角度,将通过按照第一角度对样本图像进行切分得到的图像数据序列称为样本图像在第一角度下对应的第一图像数据序列。获取第一图像数据序列的方式为:按照第一角度对样本图像进行切分,得到各个切片;基于各个切片,确定样本图像在第一角度下对应的各帧子图像,由各帧子图像的图像数据构成第一图像数据序列。
示例性地,按照第一角度对样本图像进行切分的过程是指将样本图像沿着第一角度对应的方向展开成切片的过程。示例性地,样本图像为灰度图像,则每个切片的通道数均为1。示例性地,以样本图像的尺寸为H×W×L(像素)(H、W、L均为正整数)、第一角度为与H×W的切面对应的切分角度为例,按照第一角度对样本图像进行切分能够得到L个切片,每个切片的尺寸为H×W×1。示例性地,各个切片是按照展开顺序依次排列的,将第一个展开的切片称为第一个切片。
在得到各个切片后,基于各个切片确定样本图像在第一角度下对应的各帧子图像。各帧子图像为将样本图像在第一角度下进行序列化后的基本处理单元。本申请实施例对基于各个切片确定样本图像在第一角度下对应的各帧子图像的方式不加以限定,这与基本处理单元的设定有关。示例性地,一个基本处理单元为一个切片,则基于各个切片确定样本图像在第一角度下对应的各帧子图像的方式为:将每个切片均作为样本图像在第一角度下对应的一帧子图像。
示例性地,考虑到相邻切片之间的相似性,一个基本处理单元为将参考数量个切片进行堆叠得到的图像,此种情况下,基于各个切片确定样本图像在第一角度下对应的各帧子图像的方式为:从第一个切片开始,以步长为参考数量进行采样,依次将相邻的参考数量个切片进行堆叠,得到各帧子图像。参考数量根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定,示例性地,参考数量为2,或者,参考数量为3。
示例性地,以一个切片的尺寸为H×W×1,参考数量为3为例,则将相邻的3个切片进行堆叠得到一帧子图像,该一帧子图像的尺寸为H×W×3。
在得到样本图像在第一角度下对应的各帧子图像后,由各帧子图像的图像数据构成第一图像数据序列。示例性地,一帧子图像的图像数据是指一帧子图像中的各个像素点的像素值构成的矩阵,将各帧子图像的图像数据按照各帧子图像的先后顺序依次排列,即可得到第一图像数据序列。此种情况下,第一图像数据序列为矩阵构成的序列。示例性地,各帧子图像的先后顺序为确定各帧子图像所依据的切片的先后顺序。
获取样本图像对应的各个图像数据序列的原理相同,根据获取第一图像数据序列的方式,能够获取样本图像在各个候选角度下分别对应的图像数据序列。
示例性地,本申请实施例的图像处理模型的训练过程可视为一个自监督学习任务(又称为代理任务)的实现过程,代理任务是指在无标注数据集中人为地创造标注或者说把数据本身看作是一种标签来通过自监督学习的方式实现模型的训练,将训练得到的模型看作是下游任务的预训练模型的任务。对于将参考数量个切片进行堆叠得到的子图像作为基本处理单元的情况,能够增加输入数据的变化,让整个代理任务变得更为困难,有利于整个自监督训练过程。
在步骤202中,调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,第一图像数据序列通过按照第一角度对样本图像进行切分得到,第一角度为各个候选角度中的任一角度。
第一图像处理模型是指需要利用样本图像进行训练的模型,第一图像处理模型的结构根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定,只要能够输出分类结果即可。示例性地,在利用样本图像对第一图像处理模型进行训练之前,第一图像处理模型的参数可以是指初始化的参数,也可以是指在初始化的参数的基础上更新一次或多次后的参数,本申请实施例对此不加以限定。
调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,该第一分类结果是指第一图像处理模型根据第一图像数据序列预测的样本图像的分类结果。第一图像数据序列通过按照第一角度对样本图像进行切分得到,第一图像数据序列的获取方式参见步骤201中的相关内容,此处不再赘述。需要说明的是,在此步骤202中,第一角度为各个候选角度中的任一角度。对于不同的样本图像,第一角度可以相同,也可以不同,本申请实施例对此不加以限定。
调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果的过程为第一图像处理模型的内部处理过程,与第一图像处理模型的结构有关,本申请实施例对此不加以限定。
在一种可能实现方式中,第一图像处理模型的结构为:第一图像处理模型包括编码模型、注意力模型和预测模型。在此种情况下,调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果的过程包括以下步骤2021至步骤2023:
步骤2021:调用编码模型对第一图像数据序列进行特征提取,得到第一图像特征序列。
编码模型用于对第一图像数据序列进行特征提取,对第一图像数据序列进行特征提取的过程为编码模型的内部处理过程,与编码模型的结构有关,本申请实施例对此不加以限定。在调用编码模型对第一图像数据序列进行特征提取后,得到第一图像特征序列。第一图像特征序列由样本图像在第一角度下对应的各帧子图像分别对应的第一图像特征构成。第一图像特征序列中的一个第一图像特征是通过调用编码模型对第一图像数据序列中的一个图像数据进行特征提取得到的。也就是说,编码模型的作用是将输入的图像数据序列逐帧映射到特征空间,调用编码模型对构成第一图像数据序列的各个图像数据分别进行特征提取,得到各帧子图像分别对应的第一图像特征,由各帧子图像分别对应的第一图像特征构成第一图像特征序列。
在示例性实施例中,编码模型包括依次连接的至少一个卷积子模型,每个卷积子模型包括依次连接的一个或多个卷积层以及一个激活层。调用编码模型对第一图像数据序列进行处理的过程为:调用依次连接的至少一个卷积子模型对第一图像数据序列进行处理。示例性地,第一图像特征序列中包括的第一图像特征的数量与第一图像数据序列中包括的图像数据的数量相同,第一图像特征序列中包括的每个第一图像特征的尺寸相同,每个第一图像特征的尺寸与卷积子模型中的卷积层中的卷积核的尺寸有关,本申请实施例对此不加以限定。
在示例性实施例中,对于一帧子图像的尺寸为H×W×3,且一帧子图像的图像数据是指一帧子图像中的各个像素点的像素值构成的矩阵的情况,第一图像数据序列中的每个图像数据的尺寸均为H×W×3,在调用编码模型对每个图像数据进行特征提取之后,得到的每个第一图像特征的尺寸可以为H/32×W/32×512,通过这样的方式,可以提取到丰富的特征。示例性地,以第一图像数据序列中的图像数据的数量(也即第一图像数据序列的序列长度)为M(M为不小于1的整数)为例,则第一图像特征序列的尺寸为M×H/32×W/32×512。
示例性地,调用编码模型对第一图像数据序列进行特征提取,得到第一图像特征序列的过程如图3所示。编码模型包括四个依次连接的卷积子模型,调用第一个卷积子模型对第一图像数据序列300进行特征提取,得到第一中间图像特征序列301;调用第二个卷积子模型对第一中间图像特征序列301进行特征提取,得到第二中间图像特征序列302;调用第三个卷积子模型对第二中间图像特征序列302进行特征提取,得到第三中间图像特征序列303;调用第四个卷积子模型对第三中间图像特征序列303进行特征提取,得到第一图像特征序列304。
步骤2022:调用注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列。
注意力模型通过考虑全局信息提取特征,以使提取的特征更加全面。本申请实施例中,注意力模型能够将编码模型输出的第一图像特征序列进行整合,得到目标图像特征序列。目标图像特征序列由各帧子图像分别对应的目标图像特征构成。
在示例性实施例中,注意力模型的数量可能为一个或多个,本申请实施例对此不加以限定。对于注意力模型的数量为多个的情况,调用多个注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列。
示例性地,调用多个注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列的过程为:调用第一个注意力模型对第一图像特征序列进行特征提取,得到第一个注意力模型输出的图像特征序列;从第二个注意力模型开始,调用下一个注意力模型对上一个注意力模型输出的图像特征序列进行特征提取,得到下一个注意力模型输出的图像特征序列,直至得到最后一个注意力模型输出的图像特征序列,将最后一个注意力模型输出的图像特征序列作为目标图像特征序列。调用每个注意力模型对输入的图像特征序列进行特征提取,得到输出的图像特征序列的原理相同。
本申请实施例对注意力模型的类型不加以限定,只要能够通过考虑全局信息提取特征即可,示例性地,注意力模型的类型为Transformer(转换器)。Transformer是新提出来的一种深度学习网络结构,包括正则化层,注意力子模型,以及残差连接等。当然,注意力模型还可以为其他类型,如,神经图灵机(Neural Turing Machines)。
本申请实施例以注意力模型的数量为一个为例进行说明。在一种可能实现方式中,注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型。其中,位置注意力子模型和空间注意力子模型均是基于注意力机制实现的模型,位置注意力子模型用于从位置的维度进行注意力学习,空间注意力子模型用于从空间的维度进行注意力学习。示例性地,位置注意力子模型和空间注意力子模型均是基于自注意力机制实现的模型。
对于注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型的情况,调用注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列的过程包括以下步骤2022A和步骤2022B:
步骤2022A:调用位置注意力子模型和空间注意力子模型对第一图像特征序列进行特征提取,得到第二图像特征序列。
本申请实施例对位置注意力子模型和空间注意力子模型的调用顺序不加以限定,可以先调用位置注意力子模型后调用空间注意力子模型,也可以先调用空间注意力子模型后调用位置注意力子模型。在不同的调用顺序下,该步骤2022A的实现过程有所不同。
在一种可能实现方式中,在先调用位置注意力子模型后调用空间注意力子模型的情况下,该步骤2022A的实现过程包括以下步骤1至步骤3:
步骤1:将第一图像特征序列转换为第一位置特征序列。
第一位置特征序列由各个候选位置分别对应的第一位置特征构成,各个候选位置根据第一图像特征序列中的某一第一图像特征中的各个子特征所处的位置确定。示例性地,第一图像特征序列为三维矩阵构成的序列,则一个第一图像特征利用一个三维矩阵表示,三维矩阵中的每个矩阵元素均表示一个子特征,每个子特征处于一个位置,此种情况下,可以将每个子特征所处的位置均作为一个候选位置,也可以将多个子特征所处的位置作为一个候选位置,本申请实施例对此不加以限定,只要能够保证一个第一图像特征由处于各个候选位置的特征构成即可。示例性地,处于一个候选位置的特征可以是指一个子特征,也可以是指多个子特征构成的特征,这与候选位置的选取方式有关。
由于第一图像特征序列中的各个第一图像特征的形式均相同,所以每个第一图像特征均由处于各个候选位置的特征构成。将第一图像特征序列转换为第一位置特征序列的方式为:在第一图像特征序列中的各帧子图像分别对应的第一图像特征中分别抽取出处于某一候选位置的特征,将抽取出的各个特征按照所依据的第一图像特征对应的子图像的排列顺序进行排列,得到该候选位置对应的第一位置特征,根据此种方式得到各个候选位置分别对应的第一位置特征,然后由各个候选位置分别对应的第一位置特征按照位置的排列顺序进行排列,得到第一位置特征序列。示例性地,位置的排列顺序根据经验设置,本申请实施例对此不加以限定。
示例性地,第一位置特征序列中的第一位置特征的数量,也即第一位置特征序列的长度与候选位置的数量相同。
步骤2:调用位置注意力子模型对第一位置特征序列进行特征提取,得到第二位置特征序列;基于第二位置特征序列,获取第四图像特征序列。
位置注意力子模型用于对位置特征序列进行处理,在获取第一位置特征序列后,调用位置注意力子模型对第一位置特征序列进行特征提取,得到第二位置特征序列。示例性地,第二位置特征序列由各个候选位置分别对应的第二位置特征构成。位置注意力子模型从全局信息的角度出发,对一个候选位置对应的第一位置特征进行特征提取,得到该一个候选位置对应的第二位置特征,由各个候选位置对应的第二位置特征构成第二位置特征序列。示例性地,位置注意力子模型对输入的第一位置特征序列中的各个第一位置特征并行进行特征提取,以提高效率。示例性地,第二位置特征序列的尺寸与第一位置特征序列的尺寸相同。
在示例性实施例中,调用位置注意力子模型对第一位置特征序列中的每个第一位置特征进行特征提取的实现过程为位置注意力子模型的内部处理过程,本申请实施例中的位置注意力子模型为三维注意力子模型,三维注意力子模型的内部处理过程与二维注意力子模型的内部处理过程原理相同,本申请实施例以二维注意力子模型的内部处理过程为例进行说明。
在二维注意力子模型中,对于输入的特征为y∈RD×N(D和N均为正整数)的情况,注意力子模型的内部处理过程通过公式1实现:首先通过一个投影矩阵Uqkv对输入的y进行投影,得到q、k和v三个向量,通过q和k计算相似性得到注意力图A,最后通过注意力图对输入v进行重新加权得到最后的输出特征SA(y)。
在公式1中,Dh(Dh为正整数)表示投影之后的每个向量的维度;D表示输入的特征的维度;N表示输入的特征中的维度为D的子特征的数量。
在得到第二位置特征序列之后,基于第二位置特征序列,获取第四图像特征序列。第四图像特征序列是指需要输入空间注意力子模型的特征序列,第四图像特征序列由各帧子图像分别对应的第四图像特征构成。
在一种可能实现方式中,基于第二位置特征序列,获取第四图像特征序列的方式为:将第二位置特征序列转换为第六图像特征序列,基于第六图像特征序列,获取第四图像特征序列。
将第二位置特征序列转换为第六图像特征序列的过程与将第一图像特征序列转换为第一位置特征序列的逆过程相同。第二位置特征序列中的某一候选位置对应的第二位置特征包括分别属于各帧子图像的一个特征,在第二位置特征序列中的各个候选位置分别对应的第二位置特征中分别抽取出属于某一帧子图像的特征,将抽取出的各个特征按照所依据的第二位置特征对应的候选位置进行排列,得到该帧子图像对应的第六图像特征,根据此种方式得到各帧子图像分别对应的第六图像特征,然后由各帧子图像分别对应的第六图像特征按照各帧子图像的排列顺序进行排列,得到第六图像特征序列。
在获取第六图像特征序列之后,基于第六图像特征序列,获取第四图像特征序列。在示例性实施例中,基于第六图像特征序列,获取第四图像特征序列的方式为:将第六图像特征序列作为第四图像特征序列。在示例性实施例中,注意力模型中存在用于将位置注意力子模型的输入特征和输出特征进行跨越连接的残差连接层,则基于第四图像特征序列,获取第六图像特征序列的方式为:将第六图像特征序列与第一图像特征序列进行融合,得到第四图像特征序列。示例性地,第六图像特征序列与第一图像特征序列的尺寸相同,将第六图像特征序列与第一图像特征序列进行融合是指将第六图像特征序列与第一图像特征序列中的对应位置处的子特征相加。
步骤3:调用空间注意力子模型对第四图像特征序列进行特征提取,得到第五图像特征序列;基于第五图像特征序列,获取第二图像特征序列。
空间注意力子模型用于对图像特征序列进行处理,在获取第四图像特征序列后,调用空间注意力子模型对第四图像特征序列进行特征提取,得到第五图像特征序列。示例性地,第五图像特征序列由各帧子图像分别对应的第五图像特征构成。空间注意力子模型从全局信息的角度出发,对一帧子图像对应的第四图像特征进行特征提取,得到该一帧子图像对应的第五图像特征,由各帧子图像分别对应的第五图像特征构成第五图像特征序列。示例性地,空间注意力子模型对输入的第四图像特征序列中的各个第四图像特征并行进行特征提取,以提高效率。示例性地,第五图像特征序列的尺寸与第四图像特征序列的尺寸相同。
示例性地,本申请实施例先在位置维度进行注意力学习。具体而言,首先从图像特征序列中抽取每个候选位置对应的位置特征,随后将抽取的特征进行注意力学习,这样做的目的,是让网络能整合不同帧的信息。经过位置注意力子模型之后,输出特征序列会在每一帧内部进行空间注意力计算,也即针对每帧子图像的图像特征进行空间注意力计算。
在获取第五图像特征序列后,基于第五图像特征序列获取第二图像特征序列,该第二图像特征序列为需要输入神经网络子模型的特征序列。在示例性实施例中,基于第五图像特征序列获取第二图像特征序列的方式为:将第五图像特征序列作为第二图像特征序列。在示例性实施例中,注意力模型中存在用于将空间注意力子模型的输入特征和输出特征进行跨越连接的残差连接层,则基于第五图像特征序列获取第二图像特征序列的方式为:将第五图像特征序列与第四图像特征序列进行融合,得到第二图像特征序列。
在一种可能实现方式中,在先调用空间注意力子模型后调用位置注意力子模型的情况下,该步骤2022A的实现过程包括以下步骤a和步骤b:
步骤a:调用空间注意力子模型对第一图像特征序列进行特征提取,得到第七图像特征序列;基于第七图像特征序列,获取第三位置特征序列。
调用空间注意力子模型对第一图像特征序列进行特征提取,得到第七图像特征序列的实现过程参见上述步骤3中调用空间注意力子模型对第四图像特征序列进行特征提取,得到第五图像特征序列的实现过程,此处不再赘述。示例性地,第七图像特征序列由各帧子图像分别对应的第七图像特征构成。示例性地,第七图像特征序列的尺寸与第一图像特征序列的尺寸相同。
在获取第七图像特征序列后,基于第七图像特征序列,获取第三位置特征序列,该第三位置特征序列为需要输入位置注意力子模型的特征序列。在一种可能实现方式中,基于第七图像特征序列,获取第三位置特征序列的方式为:将第七图像特征序列转换为第五位置特征序列;基于第五位置特征序列,获取第三位置特征序列。将第七图像特征序列转换为第五位置特征序列的实现方式参见上述步骤1中将第一图像特征序列转换为第一位置特征序列的实现过程,此处不再赘述。
在一种可能实现方式中,基于第五位置特征序列,获取第三位置特征序列的方式为:将第五位置特征序列作为第三位置特征序列。在另一种可能实现方式中,基于第五位置特征序列,获取第三位置特征序列的方式为:将第一图像特征序列转换为第六位置特征序列,将第六位置特征序列与第五位置特征序列进行融合,得到第三位置特征序列。第六位置特征序列与第五位置特征序列的尺寸相同,将第六位置特征序列与第五位置特征序列进行融合是指将第六位置特征序列与第五位置特征序列中的对应位置处的子特征相加。
步骤b:调用位置注意力子模型对第三位置特征序列进行特征提取,得到第四位置特征序列;基于第四位置特征序列,获取第二图像特征序列。
调用位置注意力子模型对第三位置特征序列进行特征提取,得到第四位置特征序列的实现方式参见上述步骤2中调用注意力子模型对第一位置特征序列进行特征提取,得到第二位置特征序列的实现方式,此处不再赘述。示例性地,第四位置特征序列的尺寸与第三位置特征序列的尺寸相同。
在获取第四位置特征序列后,基于第四位置特征序列,获取第二图像特征序列。在示例性实施例中,基于第四位置特征序列,获取第二图像特征序列的方式为:将第四位置特征序列转换为第八图像特征序列;基于第八图像特征序列,获取第二图像特征序列。
在一种可能实现方式中,基于第八图像特征序列,获取第二图像特征序列的方式为:将第八图像特征序列作为第二图像特征序列。在另一种可能实现方式中,基于第八图像特征序列,获取第二图像特征序列的方式为:将第三位置特征序列转换为第九图像特征序列,将第八图像特征序列与第九图像特征序列进行融合,得到第二图像特征序列。
步骤2022B:调用神经网络子模型对第二图像特征序列进行特征提取,得到第三图像特征序列,基于第三图像特征序列,获取目标图像特征序列。
神经网络子模型是一种由输入层、隐含层和输出层构成的结构,示例性地,神经网络子模型还可以称为MLP(Multilayer Perceptron,多层感知机器)。将第二图像特征序列输入神经网络子模型的输入层,经过神经网络子模型中的隐含层的处理后,能够得到神经网络子模型的输出层输出的第三图像特征序列。第三图像特征序列由各帧子图像分别对应的第三图像特征构成,也就是说,神经网络子模型用于对第二图像特征序列中的各帧子图像分别对应的第二图像特征分别进行特征提取,得到各帧子图像分别对应的第三图像特征,由各帧子图像分别对应的第三图像特征构成第三图像特征序列。示例性地,第三图像特征序列的尺寸与第二图像特征序列的尺寸相同。
在获取第三图像特征序列之后,基于第三图像特征序列,获取目标图像特征序列,该目标图像特征序列即为需要输入预测模型进行预测的图像特征序列。
在示例性实施例中,基于第三图像特征序列,获取目标图像特征序列的方式为:将第三图像特征序列作为目标图像特征序列。在示例性实施例中,注意力模型中存在用于将神经网络子模型的输入特征和输出特征进行跨越连接的残差连接层,则基于第三图像特征序列,获取目标图像特征序列的方式为:将第二图像特征序列与第三图像特征序列进行融合,得到目标图像特征序列。
在示例性实施例中,注意力模型不改变特征序列的尺寸,也就是说,注意力模型输出的目标图像特征序列的尺寸与输入注意力模型的第一图像特征序列的尺寸相同。例如,若第一图像特征序列的尺寸为M×H/32×W/32×512,则目标图像特征序列的尺寸同样为M×H/32×W/32×512。其中,M是指第一图像特征序列中的第一图像特征的数量,也即第一图像特征序列的序列长度。
在示例性实施例中,对于注意力模型的数量为多个的情况,能够通过交替堆叠位置注意力子模型和空间注意力子模型实现多轮的基于注意力机制的特征提取,提高提取的特征的可靠性。此种既包括位置注意力子模型又包括空间注意力子模型的注意力模型结构,不仅可以挖掘每一帧子图像内部的信息,还可以挖掘整个不同帧之间的长范围信息(long-range information)。
需要说明的是,以上所述仅以注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型为例进行了说明,本申请实施例并不局限于此,示例性地,注意力模型仅包括位置注意力子模型和空间注意力子模型,则直接将步骤2022A得到的第二图像特征序列作为目标图像特征序列。示例性地,注意力模型还可以仅包括空间注意力子模型和神经网络子模型。
示例性地,在注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型,且先调用位置注意力子模型后调用空间注意力子模型的情况下,调用注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列的过程如图4所示。将第一图像特征序列z(l-1)转换为第一位置特征序列,调用位置注意力子模型对第一位置特征序列进行特征提取,得到第二位置特征序列;将第二位置特征序列转换成第六图像特征序列,将第六图像特征序列与第一图像特征序列z(l-1)进行融合,得到第四图像特征序列;调用空间注意力子模型对第四图像特征序列进行特征提取,得到第五图像特征序列;将第五图像特征序列与第四图像特征序列进行融合,得到第二图像特征序列;调用神经网络子模型(MLP)对第二图像特征序列进行特征提取,得到第三图像特征序列;将第三图像特征序列与第二图像特征序列进行融合,得到目标图像特征序列z(l)。
如图4所示,输入位置注意力子模型的位置特征序列中的每个位置特征均由M个尺寸为H/32×W/32×512的图像特征中处于一个相同的候选位置(黑色标记的左上方位置)的特征构成。输入空间注意力子模型的图像特征序列由M帧子图像对应的M个尺寸为H/32×W/32×512的图像特征构成。
步骤2023:调用预测模型对目标图像特征序列进行预测,得到第一分类结果。
在获取目标图像特征序列后,调用预测模型对目标图像特征序列进行预测,以得到第一分类结果。预测模型的作用是将目标图像特征序列映射到概率空间,进行分类的概率预测。第一分类结果包括各个候选类别分别与样本图像的匹配概率。候选类别的设定与应用场景有关,本申请实施例对此不加以限定,例如,若样本图像是新冠肺炎数据集中的训练图像,则候选类别可以设定为新冠肺炎、其他肺炎、正常等。
调用预测模型对目标图像特征序列进行处理的过程为预测模型的内部处理过程,与预测模型的结构有关,本申请实施例对此不加以限定。示例性地,预测模型包括神经网络子模型(如,MLP)和激活层(如,softmax(一种激活函数)激活层)。在示例性实施例中,预测模型会将输入的图像特征序列调整至统一尺寸,然后再经过激活层输出分类结果。也就是说,即使输入预测模型的目标图像特征序列的尺寸不同,也均能够得到相同形式的分类结果。
需要说明的是,以上所述仅为第一图像处理模型包括编码模型、注意力模型和预测模型的情况下,调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果的实现过程。本申请实施例并不局限于此。在示例性实施例中,第一图像处理模型还可能仅包括编码模型和预测模型,此种情况下,调用编码模型对第一图像数据序列进行特征提取,得到第一图像特征序列,然后调用预测模型对第一图像特征序列,得到第一分类结果。当然,第一图像处理模型的结构还可能为其他情况,在其他情况下,调用第一图像处理模型对第一图像数据序列进行分类的实现方式也有所不同。
在步骤203中,调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,第二图像数据序列通过按照第二角度对样本图像进行切分得到,第二角度为各个候选角度中与第一角度不同的任一角度。
第二图像处理模型用于对第二图像数据序列进行分类,以得到用于与第一图像处理模型输出的第一分类结果进行比对的第二分类结果,进而得到训练第一图像处理模型所需的监督信号。第二图像数据序列通过按照第二角度对样本图像进行切分得到,第二图像数据序列的获取方式参见步骤201中的相关内容,此处不再赘述。需要说明的是,第二角度为各个候选角度中与第一角度不同的任一角度,对于第一角度固定的情况下,第二角度可能有所不同。
示例性地,第二图像处理模型与第一图像处理模型结构相同。例如,若第一图像处理模型包括编码模型、注意力模型和预测模型,则第二图像处理模型同样包括编码模型、注意力模型和预测模型,以保证两个图像处理模型输出相同形式的分类结果。
由于第二图像处理模型与第一图像处理模型结构相同,所以调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果的实现过程与调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果的实现过程的原理相同,此处不再赘述。
需要说明的是,第二图像处理模型的参数可能与第一图像处理模型的参数相同,也可能与第一图像处理模型的参数不同,本申请实施例对此不加以限定。示例性地,第一图像处理模型可以称为Online Net(线上网络),第二图像处理模型可以称为Target Net(目标网络)。示例性地,第二图像处理模型的参数可以是指随机初始化的参数,也可以是指对随机初始化的参数更新一次或多次后的参数,本申请实施例对此不加以限定。
在步骤204中,利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数,得到更新后的图像处理模型;基于更新后的图像处理模型,获取目标图像处理模型。
在本申请实施例中,损失函数的获取过程不依赖样本图像对应的标签,而是根据第一分类结果和第二分类结果获取的。也就是说,利用基于样本图像对应的其他图像数据序列获取的分类结果以及第一图像处理模型输出的分类结果之间的损失函数提供监督信号。由于基于样本图像对应的不同的图像数据序列理论上应该得到相同的分类结果,所以此种损失函数能够从样本图像的本质方面提供监督信号,从而在减少对标签的依赖的基础上实现较为可靠的自监督学习。
第一分类结果和第二分类结果之间的损失函数用于从缩小第一分类结果与第二分类结果之间的差异的方向更新第一图像处理模型的参数,示例性地,该损失函数还可以称为一致性约束损失函数,用于约束第二分类结果与第一分类结果的一致性。本申请实施例对第一分类结果和第二分类结果之间的损失函数的获取方式不加以限定,示例性地,获取第一分类结果和第二分类结果之间的交叉熵损失函数;或者,获取第一分类结果和第二分类结果之间均方误差损失函数等。
在获取损失函数之后,利用损失函数更新第一图像处理模型的参数,得到更新后的图像处理模型。示例性地,利用损失函数采用梯度下降法更新第一图像处理模型的参数。
在示例性实施例中,在模型训练的过程中,除了需要更新第一图像处理模型的参数外,还需要更新第二图像处理模型的参数,以保证第二图像处理模型输出的第二分类结果的可靠性。在示例性实施例中,更新第二图像处理模型的参数的方式与更新第一图像处理模型的参数的方式一致,也即利用第一分类结果和第二分类结果之间的损失函数更新第二图像处理模型的参数,此种方式,第一图像处理模型的参数与第二图像处理模型的参数利用相同的损失函数进行更新。
在示例性实施例中,更新第二图像处理模型的参数的方式为:响应于更新后的图像处理模型满足第一条件,基于更新后的图像处理模型具有的参数,更新第二图像处理模型的参数。示例性地,更新后的图像处理模型满足第一条件是指需要更新第二图像处理模型的参数的时机,根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。
示例性地,更新后的图像处理模型满足第一条件是指得到更新后的图像处理模型时已经执行的参数更新次数为参考次数的整数倍,此种情况下,随着第一图像处理模型的参数的更新,可能会有多个更新后的图像处理模型满足第一条件,每有一个更新后的图像处理模型满足第一条件,则基于该一个更新后的图像处理模型具有的参数,更新第二图像处理模型的参数。参考次数根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,参考次数为1,或,参考次数为100等。示例性地,参考次数是指利用样本图像集中的每个样本图像均对第一图像处理模型的参数更新过一次所需的参数更新次数。
在示例性实施例中,基于更新后的图像处理模型具有的参数,更新第二图像处理模型的参数的方式为:将更新后的图像处理模型具有的参数与第一权重的乘积以及第二图像处理模型当前的参数与第二权重的乘积的和,作为第二图像处理模型的更新后的参数。示例性地,此种更新第二图像处理模型的参数的方式是指基于滑动平均(ExponentialMoving Average,EMA)策略进行更新的方式。
在得到更新后的图像处理模型之后,基于更新后的图像处理模型,获取目标图像处理模型,目标图像处理模型为执行图像处理任务所利用的图像处理模型。示例性地,基于更新后的图像处理模型,获取目标图像处理模型的方式与图像处理任务有关。图像处理任务根据实际的应用场景灵活设定,本申请实施例对此不加以限定。
在一种可能实现方式中,图像处理任务是指对与样本图像相同类型的图像进行分类的任务,则基于更新后的图像处理模型,获取目标图像处理模型的方式为:响应于更新后的图像处理模型满足参考条件,将更新后的图像处理模型作为目标图像处理模型。此种方式下,直接通过利用第一分类结果和第二分类结果之间的损失函数对第一图像处理模型的参数进行迭代更新,得到目标图像处理模型,目标图像处理模型的获取过程完全无需依赖标签,训练成本较低。
示例性地,更新后的图像处理模型还可能不满足参考条件,响应于更新后的图像处理模型不满足参考条件,基于步骤201至步骤204的方式再次获取更新后的图像处理模型,以此类推,直至得到满足参考条件的图像处理模型。需要说明的是,在基于步骤201至步骤204的方式获取再次更新后的图像处理模型的过程中,利用的样本图像可能相同,也可能不同。示例性地,由于第一角度和第二角度是从各个候选角度中随机选定的,所以在不同轮获取更新后的图像处理模型的过程中,第一角度可能相同,也可能不同;第二角度可能相同,也可能不同,本申请实施例对此不加以限定。
更新后的图像处理模型不满足参考条件用于说明该更新后的图像处理模型具有较为可靠的图像处理效果,示例性地,更新后的图像处理模型满足参考条件是指得到更新后的图像处理模型时已经执行的参数更新次数达到次数阈值;或者,更新后的图像处理模型满足参考条件是指得到更新后的图像处理模型所利用的损失函数收敛或者小于损失函数阈值。
在一种可能实现方式中,图像处理任务是指除对与样本图像相同类型的图像进行分类的任务外的其他任务,如,对与训练图像相同类型的图像进行分类或分割的任务等,此种情况下,基于更新后的图像处理模型,获取目标图像处理模型的方式为:响应于更新后的图像处理模型满足参考条件,将更新后的图像处理模型作为预训练模型;获取三维的训练图像和训练图像对应的标签;利用训练图像和训练图像对应的标签对预训练模型进行调整,得到目标图像处理模型。此种方式下,利用第一分类结果和第二分类结果之间的损失函数对第一图像处理模型的参数进行迭代更新后得到的是预训练模型,通过对预训练模型进行调整,得到目标图像处理模型,此种方式得到的目标图像处理模型的可靠性更高。
三维的训练图像是指训练得到用于实现图像处理任务的图像处理模型所需利用的图像,训练图像对应的标签是指与图像处理任务匹配的标签,例如,若图像处理任务是指对与训练图像相同类型的图像进行分类的任务,则训练图像对应的标签是指分类标签;若图像处理任务是指对与训练图像相同类型的图像进行分割的任务,则训练图像对应的标签是指分割标签。
在利用训练图像和训练图像对应的标签对预训练模型进行调整的过程中,可以不更改预训练模型的结构,只更新预训练模型的参数;也可以改变预训练模型的部分结构(例如,将用于输出分类结果的预测模型改变为用于输出分割结果的预测模型等),然后更新部分结构改变后的模型的参数等,本申请实施例对此不加以限定。更新参数的过程为利用输出结果与标签之间的损失函数提供的监督信号进行更新的过程。在利用训练图像和训练图像对应的标签对预训练模型进行调整之后,得到图像处理模型。
在示例性实施例中,训练图像为三维的图像,候选角度的数量为三个;利用训练图像和训练图像对应的标签对预训练模型进行调整,得到目标图像处理模型的方式包括以下步骤(ⅰ)至步骤(ⅳ):
步骤(ⅰ):调用预训练模型(或改变预训练模型的部分结构之后得到的模型)对训练图像在第一个候选角度下对应的图像数据序列进行处理,得到第一处理结果;利用第一处理结果和训练图像对应的标签之间的损失函数更新预训练模型(或改变预训练模型的部分结构之后得到的模型)的参数;响应于参数更新过程满足第一终止条件,得到第一模型。其中,训练图像在第一个候选角度下对应的图像数据序列通过按照第一个候选角度对训练图像进行切分得到。
步骤(ⅱ):调用预训练模型(或改变预训练模型的部分结构之后得到的模型)对训练图像在第二个候选角度下对应的图像数据序列进行处理,得到第二处理结果;利用第二处理结果和训练图像对应的标签之间的损失函数更新预训练模型(或改变预训练模型的部分结构之后得到的模型)的参数;响应于参数更新过程满足第二终止条件,得到第二模型。其中,训练图像在第二个候选角度下对应的图像数据序列通过按照第二个候选角度对训练图像进行切分得到。
步骤(ⅲ):调用预训练模型(或改变预训练模型的部分结构之后得到的模型)对训练图像在第三个候选角度下对应的图像数据序列进行处理,得到第三处理结果;利用第三处理结果和训练图像对应的标签之间的损失函数更新预训练模型(或改变预训练模型的部分结构之后得到的模型)的参数;响应于参数更新过程满足第三终止条件,得到第三模型。其中,训练图像在第三个候选角度下对应的图像数据序列通过按照第三个候选角度对训练图像进行切分得到。
步骤(ⅳ):将第一模型的参数、第二模型的参数和第三模型的参数的融合参数作为目标参数,将与预训练模型(或改变预训练模型的部分结构之后得到的模型)的结构相同且具有目标参数的模型作为目标图像处理模型。
第一终止条件、第二终止条件和第三终止条件可以相同,也可以不同,本申请实施例对此不加以限定。示例性地,第一终止条件是指参数更新次数达到第一次数阈值、第一处理结果和训练图像对应的标签之间的损失函数收敛或小于第一损失函数阈值中的任一项;第二终止条件是指参数更新次数达到第二次数阈值、第二处理结果和训练图像对应的标签之间的损失函数收敛或小于第二损失函数阈值中的任一项;第三终止条件是指参数更新次数达到第三次数阈值、第三处理结果和训练图像对应的标签之间的损失函数收敛或小于第三损失函数阈值中的任一项。
在示例性实施例中,利用训练图像和训练图像对应的标签对预训练模型进行调整,得到目标图像处理模型的方式为:调用预训练模型(或改变预训练模型的部分结构之后得到的模型)对训练图像在各个候选角度中的任一角度下对应的图像数据序列进行处理,得到参考处理结果;利用参考处理结果和训练图像对应的标签之间的损失函数更新预训练模型(或改变预训练模型的部分结构之后得到的模型)的参数;响应于参数更新过程满足目标终止条件,得到目标图像处理模型。
示例性地,目标终止条件是指参数更新次数达到第四次数阈值、目标处理结果和训练图像对应的标签之间的损失函数收敛或小于第四损失函数阈值中的任一项。
此种在基于自监督学习得到的预训练的模型的基础上进行调整,得到目标图像处理模型的过程,能够减少模型训练所需的标签数量,减少人工标注成本,还能够缩短训练时长。
本申请实施例的核心思想是样本图像是三维的图像,从不同的角度对同一个三维的图像进行切分,能够得到不同角度下对应的图像数据序列,同一个样本图像在不同角度下对应的图像数据序列的最后预测值应该是一致的,也就是多角度的特征一致性。基于此思想,提出了基于注意力模型的多角度自监督学习方案,该方案为一个不依赖数据标签的代理任务,该方法的优点在于,可以充分挖掘样本图像本质特性,从全局信息中学习到有意义的特征表达,从而有利于提高自监督训练得到的网络泛化能力。
示例性地,本申请实施例提出的图像处理模型的训练过程如图5所示。先使用多角度数据划分子模型获取样本图像在各个候选角度(角度1、角度2和角度3)下分别对应的图像数据序列,各个候选角度下分别对应的图像数据序列在经过包括编码模型、注意力模型和预测模型的图像处理模型的处理之后,均对应一个预测结果(预测1、预测2和预测3),通过获取基于不同角度下对应的图像数据序列得到的预测结果之间的一致性约束损失函数,来实现对图像处理模型的自监督训练。
在示例性实施例中,本申请实施例提供了一种CT医学图像的自监督表征学习方法,它不依赖人工标注,就可以学习到泛化能力好的特征表达。具体来说可以应用以下几个场景中:1)基于CT医学图像的图像处理系统,基于本申请实施例提供的方法可以训练得到一个很好的预训练网络,然后在目标数据上进行调整,即可得到用于对CT医学图像进行处理的图像处理模型,能够减少人工标注的成本,还能够缩短训练时间。2)部署在开放平台中,可以让用户定制网络训练,灵活多变,可行性强。
示例性地,本申请实施例提供的方案可作为网络训练的热启动(也即预训练),进行参数预更新;其次,可以部署在云服务器上,让用户上传自己的数据,自定义训练网络。
本申请实施例提供的方法,利用第一分类结果和第二分类结果之间的损失函数提供模型训练所需的监督信号,此种模型训练方式能够减少对三维的图像的标签的依赖,有利于扩展图像处理模型的训练方法的应用场景。此外,由于第一分类结果和第二分类结果是基于不同的图像数据序列得到的,且不同的图像数据序列是通过按照不同的角度对同一样本图像进行切分得到的,所以,第一分类结果和第二分类结果之间的损失函数提供的监督信号为通过关注样本图像本身的特征得到的监督信号,利用此种监督信号能够在减少对三维的图像的标签的依赖的基础上实现对图像处理模型的较为可靠的训练,从而提高图像处理的可靠性。
基于上述图1所示的实施环境,本申请实施例提供一种图像处理方法,该图像处理模型的训练方法由计算机设备执行,该计算机设备可以为服务器12,也可以为终端11,本申请实施例对此不加以限定。如图6所示,本申请实施例提供的图像处理方法包括如下步骤601和步骤602。
在步骤601中,获取三维的待处理图像和目标图像处理模型,目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,第一分类结果通过调用第一图像处理模型对第一图像数据序列进行分类得到,第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,第一图像数据序列通过按照第一角度对样本图像进行切分得到,第二图像数据序列通过按照第二角度对样本图像进行切分得到,第二角度和第一角度为各个候选角度中的任两个不同的角度。
目标图像处理模型是基于图2所示的实施例中的步骤201至步骤204训练得到的模型,由于目标图像处理模型是在多角度一致性约束下训练得到的模型,所以目标图像处理模型具有根据图像在各个候选角度中的任一角度下对应的图像数据序列,输出图像的较为精准的处理结果的功能。需要说明的是,此处的获取目标图像处理模型可以是指提取预先训练并存储的目标图像处理模型,也可以是指根据图2所示的实施例中的步骤201至步骤204的方式实时训练得到目标图像处理模型,本申请实施例对此不加以限定。
在示例性实施例中,对于直接将满足参考条件的更新后的图像处理模型作为目标图像处理模型的情况,待处理图像是指与图2所示的实施例中的步骤201中的样本图像同类型的三维的图像,以保证目标图像处理模型的处理效果。
在示例性实施例中,对于将满足参考条件的更新后的图像处理模型作为预训练模型,然后通过利用训练图像和训练图像对应的标签对预训练模型进行调整得到目标图像处理模型的情况,待处理图像是指与训练图像同类型的图像,以保证目标图像处理模型的处理效果。
示例性地,计算机设备获取待处理图像的方式包括但不限于:计算机设备从图像库中提取待处理图像;计算机设备接收图像采集设备采集的待处理图像;计算机设备接收人为上传的待处理图像等。
在步骤602中,调用目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,目标图像数据序列通过按照各个候选角度中的任一角度对待处理图像进行切分得到。
在获取待处理图像后,能够获取待处理图像在各个候选角度中的任一角度下对应的目标图像数据序列,以利用该任一角度下对应的目标图像数据序列对待处理图像进行表征,待处理图像在任一角度下对应的目标图像数据序列通过按照该任一角度对待处理图像进行切分得到,目标图像数据序列的获取过程参见上述步骤201中的相关内容,此处不再赘述。
在获取目标图像数据序列之后,调用目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果。目标处理结果与图像处理任务相关联。示例性地,若图像处理任务为一种分类任务,则目标处理结果为一种分类结果;若图像处理任务为一种分割任务,则目标处理结果为一种分割结果。
本申请实施例提供的图像处理方法,目标图像处理模型是在减少对三维的图像的标签的依赖的基础上通过较为可靠的训练得到的模型,利用目标图像处理模型获取的目标处理结果的可靠性较高,有利于扩展图像处理方法的应用场景。
参见图7,本申请实施例提供了一种图像处理模型的训练装置,该装置包括:
获取单元701,用于获取三维的样本图像;
分类单元702,用于调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,第一图像数据序列通过按照第一角度对样本图像进行切分得到,第一角度为各个候选角度中的任一角度;
分类单元702,还用于调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,第二图像数据序列通过按照第二角度对样本图像进行切分得到,第二角度为各个候选角度中与第一角度不同的任一角度;
更新单元703,用于利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数,得到更新后的图像处理模型;
获取单元701,还用于基于更新后的图像处理模型,获取目标图像处理模型。
在一种可能实现方式中,第一图像处理模型包括编码模型、注意力模型和预测模型,分类单元702,用于调用编码模型对第一图像数据序列进行特征提取,得到第一图像特征序列;调用注意力模型对第一图像特征序列进行特征提取,得到目标图像特征序列;调用预测模型对目标图像特征序列进行预测,得到第一分类结果。
在一种可能实现方式中,注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型,分类单元702,用于调用位置注意力子模型和空间注意力子模型对第一图像特征序列进行特征提取,得到第二图像特征序列;调用神经网络子模型对第二图像特征序列进行特征提取,得到第三图像特征序列,基于第三图像特征序列,获取目标图像特征序列。
在一种可能实现方式中,分类单元702,用于将第一图像特征序列转换为第一位置特征序列;调用位置注意力子模型对第一位置特征序列进行特征提取,得到第二位置特征序列;基于第二位置特征序列,获取第四图像特征序列;调用空间注意力子模型对第四图像特征序列进行特征提取,得到第五图像特征序列;基于第五图像特征序列,获取第二图像特征序列。
在一种可能实现方式中,分类单元702,用于将第二位置特征序列转换为第六图像特征序列;将第六图像特征序列与第一图像特征序列进行融合,得到第四图像特征序列。
在一种可能实现方式中,分类单元702,用于调用空间注意力子模型对第一图像特征序列进行特征提取,得到第七图像特征序列;基于第七图像特征序列,获取第三位置特征序列;调用位置注意力子模型对第三位置特征序列进行特征提取,得到第四位置特征序列;基于第四位置特征序列,获取第二图像特征序列。
在一种可能实现方式中,获取单元701,还用于响应于更新后的图像处理模型满足参考条件,将更新后的图像处理模型作为目标图像处理模型。
在一种可能实现方式中,获取单元701,还用于响应于更新后的图像处理模型满足参考条件,将更新后的图像处理模型作为预训练模型;获取三维的训练图像和训练图像对应的标签;利用训练图像和训练图像对应的标签对预训练模型进行调整,得到目标图像处理模型。
在一种可能实现方式中,获取单元701,还用于按照第一角度对样本图像进行切分,得到各个切片;基于各个切片,确定样本图像在第一角度下对应的各帧子图像,由各帧子图像的图像数据构成第一图像数据序列。
本申请实施例提供的装置,利用第一分类结果和第二分类结果之间的损失函数提供模型训练所需的监督信号,此种模型训练方式能够减少对三维的图像的标签的依赖,有利于扩展图像处理模型的训练方法的应用场景。此外,由于第一分类结果和第二分类结果是基于不同的图像数据序列得到的,且不同的图像数据序列是通过按照不同的角度对同一样本图像进行切分得到的,所以,第一分类结果和第二分类结果之间的损失函数提供的监督信号为通过关注样本图像本身的特征得到的监督信号,利用此种监督信号能够在减少对三维的图像的标签的依赖的基础上实现对图像处理模型的较为可靠的训练,从而提高图像处理的可靠性。
参见图8,本申请实施例提供了一种图像处理装置,该装置包括:
获取单元801,用于获取三维的待处理图像和目标图像处理模型,目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,第一分类结果通过调用第一图像处理模型对第一图像数据序列进行分类得到,第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,第一图像数据序列通过按照第一角度对样本图像进行切分得到,第二图像数据序列通过按照第二角度对样本图像进行切分得到,第二角度和第一角度为各个候选角度中的任两个不同的角度;
处理单元802,用于调用目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,目标图像数据序列通过按照各个候选角度中的任一角度对待处理图像进行切分得到。
本申请实施例提供的装置,目标图像处理模型是在减少对三维的图像的标签的依赖的基础上通过较为可靠的训练得到的模型,利用目标图像处理模型获取的目标处理结果的可靠性较高,有利于扩展图像处理方法的应用场景。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以使该计算机设备实现上述任一种图像处理模型的训练方法或图像处理方法。该计算机设备可以为服务器,也可以为终端,本申请实施例对此不加以限定。接下来,分别对服务器和终端的结构进行介绍。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)901和一个或多个存储器902,其中,该一个或多个存储器902中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器901加载并执行,以使该服务器实现上述各个方法实施例提供的图像处理模型的训练方法或图像处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
图10是本申请实施例提供的一种终端的结构示意图。示例性地,该终端可以是:PC、手机、智能手机、PDA、可穿戴设备、PPC、平板电脑、智能车机、智能电视、智能音箱、车载终端等。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有GPU,GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行,以使该终端实现本申请中方法实施例提供的图像处理模型的训练方法或图像处理方法。
在一些实施例中,终端还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。射频电路1004用于接收和发射RF(RadioFrequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。摄像头组件1006用于采集图像或视频。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。定位组件1008用于定位终端的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。电源1009用于为终端中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。陀螺仪传感器1012可以检测终端的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端的3D动作。压力传感器1013可以设置在终端的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。光学传感器1015用于采集环境光强度。接近传感器1016,也称距离传感器,通常设置在终端的前面板。接近传感器1016用于采集用户与终端的正面之间的距离。
本领域技术人员可以理解,图10中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以使计算机实现上述任一种图像处理模型的训练方法或图像处理方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令由处理器加载并执行,以使计算机实现上述任一的图像处理模型的训练方法或图像处理方法。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以上示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像处理模型的训练方法,其特征在于,所述方法包括:
获取三维的样本图像;
调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,所述第一图像数据序列通过按照第一角度对所述样本图像进行切分得到,所述第一角度为各个候选角度中的任一角度;
调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度为所述各个候选角度中与所述第一角度不同的任一角度;
利用所述第一分类结果和所述第二分类结果之间的损失函数更新所述第一图像处理模型的参数,得到更新后的图像处理模型;基于所述更新后的图像处理模型,获取目标图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述第一图像处理模型包括编码模型、注意力模型和预测模型,所述调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,包括:
调用所述编码模型对所述第一图像数据序列进行特征提取,得到第一图像特征序列;
调用所述注意力模型对所述第一图像特征序列进行特征提取,得到目标图像特征序列;
调用所述预测模型对所述目标图像特征序列进行预测,得到所述第一分类结果。
3.根据权利要求2所述的方法,其特征在于,所述注意力模型包括位置注意力子模型、空间注意力子模型和神经网络子模型,所述调用所述注意力模型对所述第一图像特征序列进行特征提取,得到目标图像特征序列,包括:
调用所述位置注意力子模型和所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第二图像特征序列;
调用所述神经网络子模型对所述第二图像特征序列进行特征提取,得到第三图像特征序列,基于所述第三图像特征序列,获取所述目标图像特征序列。
4.根据权利要求3所述的方法,其特征在于,所述调用所述位置注意力子模型和所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第二图像特征序列,包括:
将所述第一图像特征序列转换为第一位置特征序列;
调用所述位置注意力子模型对所述第一位置特征序列进行特征提取,得到第二位置特征序列;基于所述第二位置特征序列,获取第四图像特征序列;
调用所述空间注意力子模型对所述第四图像特征序列进行特征提取,得到第五图像特征序列;基于所述第五图像特征序列,获取所述第二图像特征序列。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二位置特征序列,获取第四图像特征序列,包括:
将所述第二位置特征序列转换为第六图像特征序列;
将所述第六图像特征序列与所述第一图像特征序列进行融合,得到所述第四图像特征序列。
6.根据权利要求3所述的方法,其特征在于,所述调用所述位置注意力子模型和所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第二图像特征序列,包括:
调用所述空间注意力子模型对所述第一图像特征序列进行特征提取,得到第七图像特征序列;基于所述第七图像特征序列,获取第三位置特征序列;
调用所述位置注意力子模型对所述第三位置特征序列进行特征提取,得到第四位置特征序列;基于所述第四位置特征序列,获取所述第二图像特征序列。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述更新后的图像处理模型,获取目标图像处理模型,包括:
响应于所述更新后的图像处理模型满足参考条件,将所述更新后的图像处理模型作为所述目标图像处理模型。
8.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述更新后的图像处理模型,获取目标图像处理模型,包括:
响应于所述更新后的图像处理模型满足参考条件,将所述更新后的图像处理模型作为预训练模型;
获取三维的训练图像和所述训练图像对应的标签;利用所述训练图像和所述训练图像对应的标签对所述预训练模型进行调整,得到所述目标图像处理模型。
9.根据权利要求1-6任一所述的方法,其特征在于,所述调用第一图像处理模型对第一图像数据序列进行分类之前,所述方法还包括:
按照所述第一角度对所述样本图像进行切分,得到各个切片;
基于所述各个切片,确定所述样本图像在所述第一角度下对应的各帧子图像,由所述各帧子图像的图像数据构成所述第一图像数据序列。
10.一种图像处理方法,其特征在于,所述方法包括:
获取三维的待处理图像和目标图像处理模型,所述目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,所述第一分类结果通过调用所述第一图像处理模型对第一图像数据序列进行分类得到,所述第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,所述第一图像数据序列通过按照第一角度对样本图像进行切分得到,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度和所述第一角度为各个候选角度中的任两个不同的角度;
调用所述目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,所述目标图像数据序列通过按照所述各个候选角度中的任一角度对所述待处理图像进行切分得到。
11.一种图像处理模型的训练装置,其特征在于,所述装置包括:
获取单元,用于获取三维的样本图像;
分类单元,用于调用第一图像处理模型对第一图像数据序列进行分类,得到第一分类结果,所述第一图像数据序列通过按照第一角度对所述样本图像进行切分得到,所述第一角度为各个候选角度中的任一角度;
所述分类单元,还用于调用第二图像处理模型对第二图像数据序列进行分类,得到第二分类结果,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度为所述各个候选角度中与所述第一角度不同的任一角度;
更新单元,用于利用所述第一分类结果和所述第二分类结果之间的损失函数更新所述第一图像处理模型的参数,得到更新后的图像处理模型;
所述获取单元,还用于基于所述更新后的图像处理模型,获取目标图像处理模型。
12.一种图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取三维的待处理图像和目标图像处理模型,所述目标图像处理模型通过利用第一分类结果和第二分类结果之间的损失函数更新第一图像处理模型的参数得到,所述第一分类结果通过调用所述第一图像处理模型对第一图像数据序列进行分类得到,所述第二分类结果通过调用第二图像处理模型对第二图像数据序列进行分类得到,所述第一图像数据序列通过按照第一角度对样本图像进行切分得到,所述第二图像数据序列通过按照第二角度对所述样本图像进行切分得到,所述第二角度和所述第一角度为各个候选角度中的任两个不同的角度;
处理单元,用于调用所述目标图像处理模型对目标图像数据序列进行处理,得到目标处理结果,所述目标图像数据序列通过按照所述各个候选角度中的任一角度对所述待处理图像进行切分得到。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至9任一所述的图像处理模型的训练方法,或者如权利要求10所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至9任一所述的图像处理模型的训练方法,或者如权利要求10所述的图像处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现如权利要求1至9任一所述的图像处理模型的训练方法,或者如权利要求10所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138476.8A CN114283290B (zh) | 2021-09-27 | 2021-09-27 | 图像处理模型的训练、图像处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138476.8A CN114283290B (zh) | 2021-09-27 | 2021-09-27 | 图像处理模型的训练、图像处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114283290A true CN114283290A (zh) | 2022-04-05 |
CN114283290B CN114283290B (zh) | 2024-05-03 |
Family
ID=80868621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138476.8A Active CN114283290B (zh) | 2021-09-27 | 2021-09-27 | 图像处理模型的训练、图像处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283290B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919209A (zh) * | 2019-02-26 | 2019-06-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种领域自适应深度学习方法及可读存储介质 |
CN110163234A (zh) * | 2018-10-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
WO2020168647A1 (zh) * | 2019-02-21 | 2020-08-27 | 平安科技(深圳)有限公司 | 图像识别方法及相关设备 |
US20200293830A1 (en) * | 2018-04-03 | 2020-09-17 | Alibaba Group Holding Limited | Article damage detection |
US20210019551A1 (en) * | 2018-08-23 | 2021-01-21 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, computer-readable storage medium, and computer device |
CN112381164A (zh) * | 2020-11-20 | 2021-02-19 | 北京航空航天大学杭州创新研究院 | 一种基于多分支注意力机制的超声图像分类方法和装置 |
US10990852B1 (en) * | 2019-10-23 | 2021-04-27 | Samsung Sds Co., Ltd | Method and apparatus for training model for object classification and detection |
CN112884770A (zh) * | 2021-04-28 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置及计算机设备 |
-
2021
- 2021-09-27 CN CN202111138476.8A patent/CN114283290B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200293830A1 (en) * | 2018-04-03 | 2020-09-17 | Alibaba Group Holding Limited | Article damage detection |
US20210019551A1 (en) * | 2018-08-23 | 2021-01-21 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, computer-readable storage medium, and computer device |
CN110163234A (zh) * | 2018-10-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
WO2020168647A1 (zh) * | 2019-02-21 | 2020-08-27 | 平安科技(深圳)有限公司 | 图像识别方法及相关设备 |
CN109919209A (zh) * | 2019-02-26 | 2019-06-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种领域自适应深度学习方法及可读存储介质 |
US10990852B1 (en) * | 2019-10-23 | 2021-04-27 | Samsung Sds Co., Ltd | Method and apparatus for training model for object classification and detection |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN112381164A (zh) * | 2020-11-20 | 2021-02-19 | 北京航空航天大学杭州创新研究院 | 一种基于多分支注意力机制的超声图像分类方法和装置 |
CN112884770A (zh) * | 2021-04-28 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
侯振杰, 麻硕士, 裴喜春, 潘新: "一种骨髓细胞识别方法的研究", 计算技术与自动化, no. 03, 30 September 2005 (2005-09-30) * |
张文涛;陈婵娟;王泽荔;: "一种多尺度轻量化的人脸识别算法", 现代计算机(专业版), no. 30, 25 October 2018 (2018-10-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN114283290B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210241109A1 (en) | Method for training image classification model, image processing method, and apparatuses | |
CN111402143B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
CN115205949A (zh) | 图像生成方法以及相关设备 | |
CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN114283351A (zh) | 视频场景分割方法、装置、设备及计算机可读存储介质 | |
CN110781894A (zh) | 点云语义分割方法、装置及电子设备 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN114495916B (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
CN117094362B (zh) | 一种任务处理方法及相关装置 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113723164A (zh) | 获取边缘差异信息的方法、装置、设备及存储介质 | |
CN112183303A (zh) | 变电设备图像分类方法、装置、计算机设备和介质 | |
CN114283290B (zh) | 图像处理模型的训练、图像处理方法、装置、设备及介质 | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN115131291A (zh) | 对象计数模型的训练方法、装置、设备以及存储介质 | |
CN115115699A (zh) | 姿态估计方法、装置、相关设备和计算机产品 | |
CN114283461A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |