CN114842270A - 一种目标图像的分类方法、装置、电子设备及介质 - Google Patents
一种目标图像的分类方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114842270A CN114842270A CN202210609664.2A CN202210609664A CN114842270A CN 114842270 A CN114842270 A CN 114842270A CN 202210609664 A CN202210609664 A CN 202210609664A CN 114842270 A CN114842270 A CN 114842270A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- target
- sub
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 86
- 210000004087 cornea Anatomy 0.000 claims abstract description 65
- 230000004927 fusion Effects 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 201000002287 Keratoconus Diseases 0.000 description 13
- 238000012795 verification Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 208000001491 myopia Diseases 0.000 description 3
- 230000004379 myopia Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000022873 Ocular disease Diseases 0.000 description 1
- 210000002159 anterior chamber Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于人工智能技术领域,提供了一种目标图像的分类方法、装置、电子设备及介质,其中,方法包括:获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;构建初始图像分类模型,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;获取三维目标角膜图像,将其输入目标图像分类模型,输出目标分类结果;解决了现有技术中图像分类模型的分类精度低的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种目标图像的分类方法、装置、电子设备及介质。
背景技术
随着计算机算力的不断增强,人工智能算法的不断发展,基于深度学习的图像分类技术开始被运用在各个领域。基于大规模数据训练得到的图像分类模型,能够对图像进行分类。其中,图像分类模型的分类精度往往依赖于数据集的质量和难度,如何提高图像分类模型的精度,是一个需要研究的问题。目前,图像分类模型能够较为准确的对自然图像进行分类,如将自然图像分类为动物图像、风景图像或者建筑图像等。然而,由于医学图像与自然图像的成像方式不同,且医学图像包含更多的分类特征,导致图像分类模型在对医学图像进行分类时的分类精度不高。
发明内容
本发明提供一种目标图像的分类方法、装置、电子设备及介质,以解决现有技术中图像分类模型的分类精度低的问题。
本发明提供的目标图像的分类方法,包括:
获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;
构建初始图像分类模型,采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,所述初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;
获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将所述二维目标深度图输入所述目标图像分类模型,输出目标分类结果。
可选地,所述采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,包括:
对二维样本深度图进行通道拼接,采用所述第一组件对所述通道拼接后的二维样本深度图进行特征提取,得到样本特征;
基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征;
采用所述第三组件对融合特征进行分类,得到分类结果;
采用交叉熵损失函数获取所述分类结果与预设结果的分类误差,并采用所述分类误差反向传播更新所述初始图像分类模型,获取目标图像分类模型。
可选地,所述基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征,包括:
获取所述样本特征的位置信息,得到位置特征;
根据自注意力机制和所述位置特征对所述样本特征进行跨通道特征融合,得到融合特征。
可选地,所述样本特征由多维矩阵组成,所述采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征,包括:
根据预设拆分规则将所述样本特征拆分为若干个矩阵,得到子样本特征;
分别获取两个子样本特征之间的关联特征;
根据注意力机制和关联特征确定目标子样本特征;
对所述目标子样本特征进行跨通道特征融合,得到融合特征。
可选地,所述目标子样本特征zi的数学表达为:
其中,zi为第i个目标子样本特征,i为目标子样本特征的标号,x为样本特征,x=(x1,x2,...,xn),x1为第一个子样本特征,x2为第二个子样本特征,xn为第n个子样本特征,n为子样本特征的总数,j为子样本特征的标号,xj为第j子样本特征,xi为第i子样本特征,αij为子样本特征xi与子样本特征xj的关联特征,V为自注意力机制的输入矩阵,Wv为V所对应的权重矩阵;
子样本特征xi与子样本特征xj的关联特征的数学表达为:
其中,eij为子样本特征xi与子样本特征xk的关联数据,eik为子样本特征xi与子样本特征xk的关联数据;
eij的数学表达为:
eij=(xiWQ)(xjWK)T;
其中,Q、K均为自注意力机制的输入矩阵,WQ为Q所对应的权重矩阵,WK为K所对应的权重矩阵,T为矩阵的转置。
可选地,所述采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征包括:
根据所述位置特征对目标子样本特征、关联特征和关联数据进行更新;
更新后的目标子样本特征的数学表达为:
其中,zi’为更新后的第i个目标子样本特征,a′ij为更新后的子样本特征xi与子样本特征的关联特征,为V所对应的子样本特征xi与子样本特征xj的位置特征权重,e’ij为更新后的子样本特征xi与子样本特征xk的关联数据;
更新后的子样本特征xi与子样本特征xj的关联特征的数学表达为:
其中,e’ij为更新后的子样本特征xi与子样本特征xj的关联数据,e’ik为更新后的子样本特征xi与子样本特征xk的关联数据;
e’ij的数学表达为:
可选地,所述第一组件包括卷积神经网络模型,所述第二组件包括transformer模型,所述第三组件包括softmax分类模型。
本发明还提供了一种目标图像的分类装置,包括:
数据获取模块,用于获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;
模型训练模块,用于构建初始图像分类模型,采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,所述初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;
图像分类模块,用于获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将所述二维目标深度图输入所述目标图像分类模型,输出目标分类结果,所述数据获取模块、所述模型训练模块和所述图像分类模块相连接。
本发明还提供一种电子设备,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述目标图像的分类方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述目标图像的分类方法。
本发明的有益效果:本发明中的目标图像的分类方法,首先通过获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;然后构建包括第一组件、第二组件和第三组件的初始图像分类模型,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型;将获取到的三维目标角膜图像映射为若干个通道的二维目标深度图,并将二维目标深度图输入目标图像分类模型,输出目标分类结果,从而实现了三维目标角膜图像的准确分类,解决了现有技术中图像分类模型的分类精度低的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中目标图像的分类方法的流程示意图;
图2是本发明实施例中目标图像分类模型的获取方法的流程示意图;
图3是本发明实施例中目标图像的分类装置的模块示意图;
图4是本发明实施例中电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
圆锥角膜是一种以角膜扩张、中央角膜向前突出并变薄,呈圆锥形特征的先天性眼病,其发病率约为两千分之一,多发于青少年。圆锥角膜早期特征不明确,难以诊断,而当潜在圆锥角膜人群进行近视手术后,会诱使圆锥角膜提前发病,甚至加重病情。因此,在近视手术前,需要通过Pentacam三维眼前节分析仪对受术者进行角膜地形图建模,再根据设备内统计分析出的数据指标进行判断。然而Pentacam诊断系统在计算数据指标时所参考对比的大样本数据库大多来源于欧洲人种,对于具有更小角膜半径的亚洲人来说并不具备针对性,因此在我国临床使用时,往往诊断出较多的假阳性案例,远高于圆锥角膜的发病率。随着计算机算力的不断增强,人工智能算法的不断发展,基于深度学习的图像分类技术开始被运用在各个领域,不仅如此,图像分类技术本身也有了长足的发展。如果能够通过人工智能的前沿技术能提高圆锥角膜早期诊断的准确性性,降低误差率与假阳性率,为早期筛查及治疗提供真实有效的指导作用,那么这将是一项极具意义的工作。然而,目前,对于三维角膜图像的分类准确性较低,为了解决上述问题,本申请提供了一种目标图像的分类方法,装置、电子设备及介质。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明在一实施例中提供的目标图像的分类方法的流程示意图。
如图1所示,上述目标图像的分类方法,包括步骤S110-S130:
S110,获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集。
首先需要说明的是,三维样本角膜图像可以通过拍摄设备采集,然后将采集到的三维样本角膜样本图像映射为表示角膜前表面高度的二维样本深度图、表示角膜后表面高度的二维样本深度图、表示角膜前表面曲率的二维样本深度图、表示角膜后表面曲率的二维样本深度图、表示全角膜的屈光度的二维样本深度图和表示角膜厚度数据的二维样本深度图、表示前房深度的二维样本深度图这七种类型(七个通道)的二维样本深度图。具体地,可以通过Pentacam内置的Scheimpflug相机在匀速旋转状态下拍摄而成,然后在系统中可直接导出多个角膜相关的数据,在进一步筛选出与圆锥角膜相关的文件后,将文件内的角膜圆形数据填充变换为矩形,便可获得这七种类型(七个通道)的二维样本深度图。
需要说明的是,在样本的选取上,由于圆锥角膜的症状往往是单眼先发,双眼一体,所以在圆锥角膜患者的三维样本角膜图像采集时,往往只选取单眼作为样本。为了防止类别不平衡问题,在收集样本时尽量保证正负样本的均衡,即阳性病例、阴性病例、假阳性病例样本的数量比例为1:1:1。
应当理解的是,形成样本数据集的步骤中是根据若干个通道的二维样本深度图形成样本数据集,在形成样本数据集之前,还需要对三维样本角膜图像进行标注,标注正常角膜和圆锥角膜。
S120,构建初始图像分类模型,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型。
需要说明的是初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件。
可以理解的是,采用样本数据集训练初始图像分类模型,获取目标图像分类模型时,可以按照一定的比例将样本数据集划分为训练数据集、验证数据集和测试数据集。例如,按照6:2:2的比例将样本数据集划分为训练数据集、验证数据集和测试数据集。训练集和验证集的划分采用4折交叉的方式,以此来获取不同模型的平均误差,确定合适的超参数。按照一定的比例,将所有数据划分为训练集、验证集与测试集三部分。训练集和验证集的划分采用N折交叉的方式,以此来获取不同模型的平均误差,确定合适的超参数。超参数确定之后,再将训练集与验证集进行合并,训练出最终模型,最后再用测试集测试模型的泛化能力。
需要说明的是,在验证环节,收集医生根据先验知识判断为阴性而pentacam判断为阳性的病例,分别输入到训练好的目标图像分类模型中,检测该个体是否患有圆锥角膜。通过采用此种类型的样本图像对初始图像分类模型进行训练,从而提高了目标分类模型对此类假阳性病例的判别能力。
应当理解的是,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型的实现方法请参阅图2,图2是在本发明在一实施例中目标图像分类模型的获取方法的流程示意图。
如图2所示,目标图像分类模型的获取方法可以包括以下步骤S210-S240:
S210,对二维样本深度图进行通道拼接,采用第一组件对通道拼接后的二维样本深度图进行特征提取,得到样本特征。
需要说明的是,对二维样本深度图进行通道拼接,得到样本矩阵;采用第一组件对样本矩阵进行特征提取,得到由多维矩阵组成的样本特征。具体地,可以第一组件可以是卷积神经网络模型,采用卷积神经网络模型对通道拼接后的二维样本深度图进行特征提取时,可以采用多次卷积与跳跃连接的方式对其进行特征提取。跳跃连接保证了梯度的反向传播,解决网络较深时梯度消失的问题,加快训练过程。卷积操作则负责获取各自的局部区域特征,例如局部的高度、曲率及厚度。具体地,采用卷积神经网络模型对样本矩阵进行特征提取时,可以三次卷积与跳跃连接的方式对其进行特征提取,将特征以瓶颈层的方式降维后再升维,在减少计算量的同时更好的提高了特征的特异性;三次卷积的卷积核尺寸可以分别为1x1,3x3,1x1。S220,基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征。
需要说明的是,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征的实现方法可以包括根据预设拆分规则将样本特征拆分为若干个矩阵,得到子样本特征;分别获取两个子样本特征之间的关联特征;根据注意力机制和关联特征确定目标子样本特征;对目标子样本特征进行跨通道特征融合,得到融合特征。
需要说明的是,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征的实现方法还可以包括获取样本特征的位置信息,得到位置特征;根据自注意力机制和位置特征对所述样本特征进行跨通道特征融合,得到融合特征。获取样本特征的位置信息时,不仅可以获取样本特征中各个子样本特征的绝对位置信息,还可以获取样本特征中各个子样本特征的相对位置信息。
目标子样本特征zi的数学表达为:
其中,zi为第i个目标子样本特征,i为目标子样本特征的标号,x为样本特征,x=(x1,x2,...,xn),x1为第一个子样本特征,x2为第二个子样本特征,xn为第n个子样本特征,n为子样本特征的总数,j为子样本特征的标号,xj为第j子样本特征,xi为第i子样本特征,αij为子样本特征xi与子样本特征xj的关联特征,V为自注意力机制的输入矩阵,Wv为V所对应的权重矩阵;
子样本特征xi与子样本特征xj的关联特征的数学表达为:
关联特征可以由softmax函数计算而成,这里的softmax函数的作用主要是把权重从任意实数转换为正数,并且归一化,eij可以衡量子样本特征xi与子样本特征xj之间的相互关联性。
其中,eij为子样本特征xi与子样本特征xk的关联数据,eik为子样本特征xi与子样本特征xk的关联数据;
eij的数学表达为:
eij=(xiWQ)(xjWK)T;
其中,Q、K均为自注意力机制的输入矩阵,WQ为Q所对应的权重矩阵,WK为K所对应的权重矩阵,T为矩阵的转置。
采用自注意力机制对样本特征进行跨通道融合,得到融合特征包括:根据位置特征对目标子样本特征、关联特征和关联数据进行更新;
更新后的目标子样本特征的数学表达为:
其中,zi’为更新后的第i个目标子样本特征,a′ij为更新后的子样本特征xi与子样本特征的关联特征,为V所对应的子样本特征xi与子样本特征xj的位置特征权重,e’ij为更新后的子样本特征xi与子样本特征xk的关联数据;
更新后的子样本特征xi与子样本特征xj的关联特征的数学表达为:
其中,e’ij为更新后的子样本特征xi与子样本特征xj的关联数据,e’ik为更新后的子样本特征xi与子样本特征xk的关联数据;
e’ij的数学表达为:
应当理解的是,第二组件包括transformer模型。将第一组件提取得到的样本特征输入到transformer模型中,进行特征的编码解码以及基于自注意力机制的融合多头自注意力(multi-head self-attention,MHSA)特征筛选与融合。经过多次的Transformer模块后,再对所有特征图进行均值池化,并与全连接网络相连。不同于循环神经网络,作为非递归的Transformer结构无法隐式考虑序列中元素的顺序,因此在很多任务中可能导致位置信息丢失,需要显式地提供编码位置信息。因此,本发明为模型显式的进行了绝对位置编码与相对位置编码,使得自注意力操作不仅关注到内容信息,而且能够关注到不同位置的特征之间的绝对距离或相对距离,从而能够有效地将跨对象的信息与位置感知相关联。将Transformer结构的深度学习模型应用到了圆锥角膜的分类中,降低分类的误差率,解决Pentacam系统在实际应用中出现的假阳性率过高的问题。
可以理解的是,多头自注意力操作是一种自注意力机制,它能以并行的方式进行矩阵计算,可以更好的捕捉数据内部相关性以及学习远距离依赖关系。当一张特征图输入到多头自注意力网络后,自注意力机制将输出一个相关性矩阵,表征包括自身在内的任意两个通道之间的关联性;接着,再将相关性矩阵(V、Q、K)作用于输入特征图(本申请中的样本特征),便可以实现任一通道与所有通道之间的跨通道特征融合。利用自注意力机制,将远距离的依赖关系进行更好的融合,以此充分利用多维度的特征,提高分类的准确率。使用多头自注意力网络,帮助模型实现多组数据的并行计算,与传统网络相比加快了计算效率。利用transformer模型内部的Contraction、Expansion及自注意力机制,从而实现长距离跨通道特征融合。在特征融合时加入绝对位置编码与相对位置编码信息,从而提高了目标分类模型的分类准确性。
S230,采用第三组件对融合特征进行分类,得到分类结果。
需要说明的是,第三组件包括softmax分类模型,将经过第二组件进行跨通道特征融合处理后的融合特征输入softmax分类模型,softmax层将输出两个概率值,输出概率最大值所对应的类别即是模型预测的样本类别。具体地,可以将样本特征经过多次的Transformer模块后,再对所有特征图进行均值池化,并与全连接网络相连,得到融合特征最后输入softmax分类模型,输出目标分类结果。
交叉熵损失函数L的数学表达为:
其中,yi表示样本i的标签,正类为1,负类为0;pi表示样本i预测为正类的概率。
S240,采用交叉熵损失函数获取分类结果与预设结果的分类误差,并采用分类误差反向传播更新初始图像分类模型,获取目标图像分类模型。
应当理解的是,预设结果为上述三维样本角膜图像的标注类别,通过交叉熵损失函数以及随机梯度下降算法对模型参数进行迭代更新,最终模型参数固定,达到收敛的状态。
S130,获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将二维目标深度图输入目标图像分类模型,输出目标分类结果。
应当理解的是,三维目标角膜图像为需要分类的三维角膜图像,可以采用上述三维样本角膜图像的获取方式获取三维目标角膜图像。获取到三维目标角膜图像后,还需要将其映射为若干个通道的二维目标深度图,二维目标深度图的获取方式可以参照上述二维样本深度图,在此不再赘述。将二维目标深度图输入目标图像分类模型,即是将二维目标深度图依次输入第一组件、第二组件和第三组件,输出目标分类结果。
本施例提供了一种目标图像的分类方法,首先通过获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;然后构建包括第一组件、第二组件和第三组件的初始图像分类模型,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型;将获取到的三维目标角膜图像映射为若干个通道的二维目标深度图,并将二维目标深度图输入目标图像分类模型,输出目标分类结果,从而实现了三维目标角膜图像的准确分类,解决了现有技术中图像分类模型的分类精度低的问题。为近视手术的术前准备工作提供更精确的结果,为圆锥角膜的早期筛查提供真实有效的指导作用。
基于与上述目标图像的分类方法相同的发明构思,相应的,本实施例还提供了一种目标图像的分类装置。
图3为本发明提供的目标图像的分类装置的模块示意图。
如图3所示,上述目标图像的分类装置包括:31数据获取模块、32模型训练模块以及33图像分类模块。
其中,数据获取模块,用于获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;
模型训练模块,用于构建初始图像分类模型,采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,所述初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;
图像分类模块,用于获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将所述二维目标深度图输入所述目标图像分类模型,输出目标分类结果。
在该示例性的目标图像的分类装置中,首先通过获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;然后构建包括第一组件、第二组件和第三组件的初始图像分类模型,采用样本数据集训练初始图像分类模型,获取用于角膜图像分类的目标图像分类模型;将获取到的三维目标角膜图像映射为若干个通道的二维目标深度图,并将二维目标深度图输入目标图像分类模型,输出目标分类结果,从而实现了三维目标角膜图像的准确分类,解决了现有技术中图像分类模型的分类精度低的问题。
在一些示例性实施例中,模型训练模块包括:
特征提取单元,用于对二维样本深度图进行通道拼接,采用所述第一组件对所述通道拼接后的二维样本深度图进行特征提取,得到样本特征;
特征融合单元,用于基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征;
特征分类单元,用于采用所述第三组件对融合特征进行分类,得到分类结果;
模型更新单元,用于采用交叉熵损失函数获取所述分类结果与预设结果的分类误差,并采用所述分类误差反向传播更新所述初始图像分类模型,获取目标图像分类模型。
在一些示例性实施例中,特征融合单元包括:
位置特征子单元,用于获取所述样本特征的位置信息,得到位置特征;
特征融合子单元,用于根据自注意力机制和所述位置特征对所述样本特征进行跨通道特征融合,得到融合特征。
在一些示例性实施例中,特征融合单元还包括:
特征拆分子单元,用于根据预设拆分规则将所述样本特征拆分为若干个矩阵,得到子样本特征;
关联特征子单元,用于分别获取两个子样本特征之间的关联特征;
样本特征子单元,用于根据注意力机制和关联特征确定目标子样本特征;
特征融合子单元,用于对所述目标子样本特征进行跨通道特征融合,得到融合特征。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
在一个实施例中,请参见图4,本实施例还提供了一种电子设备400,包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序,所述处理器402执行所述计算机程序时实现如上任一项实施例所述方法的步骤。
本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的电子设备,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子设备执行如上方法的各个步骤。
在本实施例中,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、“在一些示例性实施例”或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态RAM(DRAM))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种目标图像的分类方法,其特征在于,包括:
获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;
构建初始图像分类模型,采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,所述初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;
获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将所述二维目标深度图输入所述目标图像分类模型,输出目标分类结果。
2.根据权利要求1所述的目标图像的分类方法,其特征在于,所述采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,包括:
对二维样本深度图进行通道拼接,采用所述第一组件对所述通道拼接后的二维样本深度图进行特征提取,得到样本特征;
基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征;
采用所述第三组件对融合特征进行分类,得到分类结果;
采用交叉熵损失函数获取所述分类结果与预设结果的分类误差,并采用所述分类误差反向传播更新所述初始图像分类模型,获取目标图像分类模型。
3.根据权利要求2所述的目标图像的分类方法,其特征在于,所述基于所述第二组件,采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征,包括:
获取所述样本特征的位置信息,得到位置特征;
根据自注意力机制和所述位置特征对所述样本特征进行跨通道特征融合,得到融合特征。
4.根据权利要求2所述的目标图像的分类方法,其特征在于,所述样本特征由多维矩阵组成,所述采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征,包括:
根据预设拆分规则将所述样本特征拆分为若干个矩阵,得到子样本特征;
分别获取两个子样本特征之间的关联特征;
根据注意力机制和关联特征确定目标子样本特征;
对所述目标子样本特征进行跨通道特征融合,得到融合特征。
5.根据权利要求4所述的目标图像的分类方法,其特征在于,所述目标子样本特征zi的数学表达为:
其中,zi为第i个目标子样本特征,i为目标子样本特征的标号,x为样本特征,x=(x1,x2,...,xn),x1为第一个子样本特征,x2为第二个子样本特征,xn为第n个子样本特征,n为子样本特征的总数,j为子样本特征的标号,xj为第j子样本特征,xi为第i子样本特征,αij为子样本特征xi与子样本特征xj的关联特征,V为自注意力机制的输入矩阵,Wv为V所对应的权重矩阵;
子样本特征xi与子样本特征xj的关联特征的数学表达为:
其中,eij为子样本特征xi与子样本特征xk的关联数据,eik为子样本特征xi与子样本特征xk的关联数据;
eij的数学表达为:
eij=(xiWQ)(xjWK)T;
其中,Q、K均为自注意力机制的输入矩阵,WQ为Q所对应的权重矩阵,WK为K所对应的权重矩阵,T为矩阵的转置。
6.根据权利要求3或5任一项所述的目标图像的分类方法,其特征在于,所述采用自注意力机制对所述样本特征进行跨通道特征融合,得到融合特征包括:
根据所述位置特征对目标子样本特征、关联特征和关联数据进行更新;
更新后的目标子样本特征的数学表达为:
其中,zi’为更新后的第i个目标子样本特征,a′ij为更新后的子样本特征xi与子样本特征的关联特征,为V所对应的子样本特征xi与子样本特征xj的位置特征权重,e’ij为更新后的子样本特征xi与子样本特征xk的关联数据;
更新后的子样本特征xi与子样本特征xj的关联特征的数学表达为:
其中,e’ij为更新后的子样本特征xi与子样本特征xj的关联数据,e’ik为更新后的子样本特征xi与子样本特征xk的关联数据;
e’ij的数学表达为:
7.根据权利要求1所述的目标图像的分类方法,其特征在于,所述第一组件包括卷积神经网络模型,所述第二组件包括transformer模型,所述第三组件包括softmax分类模型。
8.一种目标图像的分类装置,其特征在于,包括:
数据获取模块,用于获取三维样本角膜图像,将其映射为若干个通道的二维样本深度图,并形成样本数据集;
模型训练模块,用于构建初始图像分类模型,采用所述样本数据集训练所述初始图像分类模型,获取用于角膜图像分类的目标图像分类模型,所述初始图像分类模型包括用于特征提取的第一组件、用于特征融合的第二组件和用于特征分类的第三组件;
图像分类模块,用于获取三维目标角膜图像,将其映射为若干个通道的二维目标深度图,并将所述二维目标深度图输入所述目标图像分类模型,输出目标分类结果,所述数据获取模块、所述模型训练模块和所述图像分类模块相连接。
9.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-7中任一项所述的目标图像的分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如权利要求1-7中任一项所述的目标图像的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609664.2A CN114842270A (zh) | 2022-05-31 | 2022-05-31 | 一种目标图像的分类方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609664.2A CN114842270A (zh) | 2022-05-31 | 2022-05-31 | 一种目标图像的分类方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842270A true CN114842270A (zh) | 2022-08-02 |
Family
ID=82571342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210609664.2A Pending CN114842270A (zh) | 2022-05-31 | 2022-05-31 | 一种目标图像的分类方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842270A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309299A (zh) * | 2022-09-14 | 2022-11-08 | Oppo广东移动通信有限公司 | 桌面卡片的显示方法、装置、终端、存储介质及程序产品 |
CN115880283A (zh) * | 2023-01-19 | 2023-03-31 | 北京鹰瞳科技发展股份有限公司 | 用于检测角膜类型的装置、方法和计算机可读存储介质 |
CN116246331A (zh) * | 2022-12-05 | 2023-06-09 | 苏州大学 | 一种圆锥角膜自动分级方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726743A (zh) * | 2018-12-12 | 2019-05-07 | 苏州大学 | 一种基于三维卷积神经网络的视网膜oct图像分类方法 |
CN112418329A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 |
CN114022858A (zh) * | 2021-10-18 | 2022-02-08 | 西南大学 | 一种针对自动驾驶的语义分割方法、系统、电子设备及介质 |
-
2022
- 2022-05-31 CN CN202210609664.2A patent/CN114842270A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726743A (zh) * | 2018-12-12 | 2019-05-07 | 苏州大学 | 一种基于三维卷积神经网络的视网膜oct图像分类方法 |
CN112418329A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 |
CN114022858A (zh) * | 2021-10-18 | 2022-02-08 | 西南大学 | 一种针对自动驾驶的语义分割方法、系统、电子设备及介质 |
Non-Patent Citations (2)
Title |
---|
JUNQIU WEI ET AL.: "NEZHA Neural Contextualized Representation for Chinese Language Understanding", 《ARXIV》, 5 September 2019 (2019-09-05), pages 1 - 9 * |
敖弟华等: "基于机器深度学习算法的圆锥角膜智能化诊断模型研究", 《国际眼科杂志》, vol. 23, no. 2, 28 February 2023 (2023-02-28), pages 299 - 304 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309299A (zh) * | 2022-09-14 | 2022-11-08 | Oppo广东移动通信有限公司 | 桌面卡片的显示方法、装置、终端、存储介质及程序产品 |
CN115309299B (zh) * | 2022-09-14 | 2024-02-23 | Oppo广东移动通信有限公司 | 桌面卡片的显示方法、装置、终端、存储介质及程序产品 |
CN116246331A (zh) * | 2022-12-05 | 2023-06-09 | 苏州大学 | 一种圆锥角膜自动分级方法、装置及存储介质 |
CN115880283A (zh) * | 2023-01-19 | 2023-03-31 | 北京鹰瞳科技发展股份有限公司 | 用于检测角膜类型的装置、方法和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3961484B1 (en) | Medical image segmentation method and device, electronic device and storage medium | |
CN114842270A (zh) | 一种目标图像的分类方法、装置、电子设备及介质 | |
CN109829894A (zh) | 分割模型训练方法、oct图像分割方法、装置、设备及介质 | |
US20220254134A1 (en) | Region recognition method, apparatus and device, and readable storage medium | |
US20210406687A1 (en) | Method for predicting attribute of target object based on machine learning and related device | |
CN111860528B (zh) | 基于改进U-Net网络的图像分割模型及训练方法 | |
EP4322056A1 (en) | Model training method and apparatus | |
US20200237284A1 (en) | System and method for mri image synthesis for the diagnosis of parkinson's disease using deep learning | |
CN113096137B (zh) | 一种oct视网膜图像领域适应分割方法及系统 | |
CN111598866B (zh) | 一种基于眼部b超图像的晶状体关键特征定位方法 | |
CN113920123B (zh) | 一种成瘾性脑网络分析方法及装置 | |
WO2023108418A1 (zh) | 脑图谱构建及神经环路检测的方法和相关产品 | |
US20230077726A1 (en) | Classification processing of an electrophysiological signal based on spatial locations of channels of the signal | |
Xie et al. | Optic disc and cup image segmentation utilizing contour-based transformation and sequence labeling networks | |
CN115760807B (zh) | 一种视网膜眼底图像配准方法及系统 | |
CN110443105A (zh) | 自体免疫抗体的免疫荧光影像型态识别方法 | |
CN110503636B (zh) | 参数调整方法、病灶预测方法、参数调整装置及电子设备 | |
CN110007764B (zh) | 一种手势骨架识别方法、装置、系统及存储介质 | |
Laddi et al. | An augmented image gradients based supervised regression technique for iris center localization | |
CN111311565A (zh) | 基于眼部oct图像的视杯和视盘定位点检测方法及装置 | |
CN112750110A (zh) | 基于神经网络对肺部病灶区进行评估的评估系统和相关产品 | |
CN116309465B (zh) | 一种基于改进的YOLOv5的自然环境下舌像检测定位方法 | |
CN116468702A (zh) | 黄褐斑评估方法、装置、电子设备及计算机可读存储介质 | |
CN114092427B (zh) | 一种基于多序列mri图像的克罗病与肠结核分类方法 | |
CN114649092A (zh) | 基于半监督学习和多尺度特征融合的辅助诊断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |