CN116612339B - 一种核性白内障图像分级模型的构建装置及分级装置 - Google Patents
一种核性白内障图像分级模型的构建装置及分级装置 Download PDFInfo
- Publication number
- CN116612339B CN116612339B CN202310897664.1A CN202310897664A CN116612339B CN 116612339 B CN116612339 B CN 116612339B CN 202310897664 A CN202310897664 A CN 202310897664A CN 116612339 B CN116612339 B CN 116612339B
- Authority
- CN
- China
- Prior art keywords
- level
- cataract
- sequence
- classification
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010007759 Cataract nuclear Diseases 0.000 title claims abstract description 70
- 208000029552 nuclear cataract Diseases 0.000 title claims abstract description 70
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 60
- 208000002177 Cataract Diseases 0.000 claims abstract description 33
- 230000010354 integration Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 40
- 238000012937 correction Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 4
- 238000012014 optical coherence tomography Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- VXPSARQTYDZXAO-CCHMMTNSSA-N (4s,4ar,5s,5ar,12ar)-4-(dimethylamino)-1,5,10,11,12a-pentahydroxy-6-methylidene-3,12-dioxo-4,4a,5,5a-tetrahydrotetracene-2-carboxamide;hydron;chloride Chemical compound Cl.C=C1C2=CC=CC(O)=C2C(O)=C2[C@@H]1[C@H](O)[C@H]1[C@H](N(C)C)C(=O)C(C(N)=O)=C(O)[C@@]1(O)C2=O VXPSARQTYDZXAO-CCHMMTNSSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 201000008525 senile cataract Diseases 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Abstract
本发明提供了一种核性白内障图像分级模型的构建装置及分级装置,涉及医学图像处理技术领域,所述构建装置包括:获取单元,其用于获取原始训练数据集;训练集生成单元,其用于获取核性白内障的级别序列,并采用多种划分方式将级别序列划分为两个子级别序列,分别根据各种划分方式对应的两个子级别序列将原始训练数据集进行两个类别的标注,得到各种划分方式对应的训练数据集;训练单元,其用于基于各种划分方式对应的训练数据集,训练各种划分方式对应的二分类模型,确定各二分类模型的优先级顺序;整合单元,其用于生成白内障图像分级模型,白内障图像分级模型包括按照优先级顺序整合的各二分类模型。本发明能提高核性白内障分级的准确性。
Description
技术领域
本发明涉及医学图像处理技术领域,具体而言,涉及一种核性白内障图像分级模型的构建装置及分级装置。
背景技术
医学影像技术的迅速发展,极大地推动了眼科领域医疗水平的提高。通过如OCT(光学相干断层扫描)设备、视网膜摄影仪等医学影像设备能够捕捉眼部结构和眼部组织的高分辨率图像,为眼部状况分析提供良好的数据基础。
核性白内障是一种常见的老年性白内障,这种白内障最先发生的部位在眼球晶状体的中心地带。当前,在通过医学图像采集设备采集眼球影像之后,由专业人员人工观察眼球影像,并根据经验确定该眼球影像对应的核性白内障级别。然而,专业人员的经验、精力以及主观认知水平等因素均可能干扰最终的白内障定级结果,导致这种白内障人工定级方法存在准确率不稳定的问题。
发明内容
本发明解决的问题是如何提高核性白内障分级的准确性。
为解决上述问题,本发明提供一种核性白内障图像分级模型的构建装置,包括:
获取单元,其用于获取原始训练数据集,其中,所述原始训练数据集包括带有级别属性的白内障图像;
训练集生成单元,其用于获取核性白内障的级别序列,并采用多种划分方式将所述级别序列划分为两个子级别序列,分别根据各种划分方式对应的所述两个子级别序列将所述原始训练数据集进行两个类别的标注,得到各种划分方式对应的训练数据集;其中,所述级别序列包括核性白内障级别从低到高的序列或者核性白内障级别从高到低的序列;
训练单元,其用于基于各种划分方式对应的训练数据集,训练各种划分方式对应的二分类模型,确定各所述二分类模型的优先级顺序;
整合单元,其用于生成所述白内障图像分级模型,其中,所述白内障图像分级模型包括按照所述优先级顺序整合的各所述二分类模型。
可选地,所述训练单元,其还用于在所述确定各所述二分类模型的优先级顺序之后,执行如下操作:
根据所述优先级顺序,构建各所述二分类模型对应的再训练数据子集;
采用所述再训练数据子集,对各所述二分类模型进行再训练。
可选地,所述训练集生成单元其具体还用于执行如下操作:
确定当前的分界级别,其中,所述分界级别指作为所述级别序列划分界限的核性白内障级别;
采用所述分界级别将所述级别序列划分为两个子级别序列;
判断是否还存在未采用的分界级别;
若是,则返回执行所述确定当前的分界级别的操作。
可选地,所述训练单元,其具体还用于执行如下操作:
根据所述二分类模型的性能指标确定各所述二分类模型的优先级顺序,其中,所述二分类模型的性能指标与优先级顺序呈正相关关系。
可选地,所述二分类模型包括依次连接的多尺度特征序列生成模块、多尺度特征融合矫正模块以及分类模块;所述多尺度特征融合矫正模块包括多头自注意力模块、外部注意力模块以及矫正模块;
所述构建装置还包括构建单元,其用于:通过所述多尺度特征序列生成模块从白内障图像中提取多尺度特征,生成多尺度特征序列,将所述多尺度特征序列输出至所述多头自注意力模块;通过所述多头自注意力模块融合所述多尺度特征序列后,输出至所述外部注意力模块,再通过所述外部注意力模块输出至所述矫正模块,通过所述矫正模块接收所述外部注意力模块输出的特征后,将所述特征分为两个子特征,将该两个子特征分别进行线性变换,生成全局信息向量和全局注意门,根据所述全局信息向量和所述全局注意门生成注意力信息,将所述注意力信息输出至所述分类模块。
可选地,所述多尺度特征序列生成模块包括ResNet-34骨干网络,所述ResNet-34骨干网络包括卷积层、池化层以及四个密集块;所述构建单元具体还用于执行如下操作:
通过所述ResNet-34骨干网络的各个密集块从所述白内障图像中提取所述多尺度特征,将两个或两个以上的所述密集块输出的特征图分别进行压缩,并将压缩后的特征平铺成一维序列,将所有压缩后的特征序列串联,得到所述多尺度特征序列。
可选地,所述构建单元具体还用于执行如下操作:为所述多尺度特征序列中的每个元素添加位置编码。
可选地,所述构建单元具体还用于执行如下操作:在所述多尺度特征序列中添加不同尺度级别的位置嵌入。
可选地,所述构建单元具体还用于执行如下操作:
通过所述分类模块将所述注意力信息分割并重塑为二维特征图,在所述二维特征图上应用一个全局平均池层,通过所述全局平均池层在每个通道上计算所有元素的平均值,以捕获图像中的局部-全局特征表示,沿通道将所述局部-全局特征表示串联起来,将所述局部-全局特征表示输入到全连接层中进行分类,生成二元决策结果。
本发明还提出一种核性白内障图像分级装置,包括:
获取单元,其用于获取待分级的眼底图像;
分级单元,其用于将所述眼底图像输入如上所述的核性白内障图像分级模型的构建装置构建的白内障图像分级模型,得到所述眼底图像对应的核性白内障分级结果。
与现有技术相比,本发明至少具有如下技术效果:
通过采用级间数据集划分的思想扩大毗邻核性白内障级别间数据特征差异,采用多级排序思想划分数据集子集,对每个子数据集训练一个二分类模型,并将所得的多个二分类模型按照优先级顺序依次提取相应级别的核性白内障,最终整合得到最终分级结果,从而提高核性白内障分级的准确性。
附图说明
图1为本发明实施例中多种级别划分方式的一示例示意图;
图2为本发明实施例中各二分类模型优先级顺序的一示例示意图;
图3为本发明实施例中二分类模型一结构示意图;
图4为本发明实施例中多尺度特征融合矫正模块结构一结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”;术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“可选地”表示“可选的实施例”。
本发明实施例所述核性白内障图像分级模型的构建装置,包括:
获取单元,其用于获取原始训练数据集,其中,原始训练数据集包括带有级别属性的白内障图像;
训练集生成单元,其用于获取核性白内障的级别序列,并采用多种划分方式将级别序列划分为两个子级别序列,分别根据各种划分方式对应的两个子级别序列将原始训练数据集进行两个类别的标注,得到各种划分方式对应的训练数据集;其中,级别序列包括核性白内障级别从低到高的序列或者核性白内障级别从高到低的序列;
训练单元,其用于基于各种划分方式对应的训练数据集,训练各种划分方式对应的二分类模型,确定各二分类模型的优先级顺序;
整合单元,其用于生成白内障图像分级模型,其中,白内障图像分级模型包括按照优先级顺序整合的各二分类模型。
具体而言:
获取单元,其用于获取原始训练数据集,其中,原始训练数据集包括带有级别属性的白内障图像。
其中,原始训练数据集包括带有级别属性的核性白内障图像集,其中的核性白内障图像为oct图像(光学相干断层扫描,opticalcoherencetomography)或者as-oct图像(眼前节光学相干断层成像图像,anteriorsegmentopticalcoherencetomography)。
级别属性,即核性白内障图像对应的核性白内障级别。原始训练数据集中包含的所有核性白内障图像均带有级别属性,且每个级别的核性白内障图像的数量相近,使训练出的模型对不同级别均能有较好的识别能力。例如,假设核性白内障共6级,对核性白内障1级的图像标注1级,对核性白内障2级的图像标注2级,以此类推,对每个核性白内障图像标注相应的级别。
训练集生成单元,其用于获取核性白内障的级别序列,并采用多种划分方式将级别序列划分为两个子级别序列,分别根据各种划分方式对应的两个子级别序列将原始训练数据集进行两个类别的标注,得到各种划分方式对应的训练数据集;其中,级别序列包括核性白内障级别从低到高的序列或者核性白内障级别从高到低的序列。
其中,假设核性白内障共6级,则级别序列为1、2、3、4、5、6,或者6、5、4、3、2、1。
对于具有N个级别的级别序列,有N-1种将其划分成两个子序列的方式,例如,如图1,假设核性白内障共6级,级别序列为1、2、3、4、5、6,则有:划分方式一{(1),(2-6)},划分方式二{(1-2),(3-6)},划分方式三{(1-3),(4-6)},划分方式四{(1-4),(5-6)},划分方式五{(1-5),(6)}。在实际应用中,可采用其中的两种或两种以上划分方式,分别将级别序列划分为两个子级别序列。
一实施方式中,所述采用多种划分方式将所述级别序列划分为两个子级别序列包括:确定当前的分界级别,其中,分界级别指作为级别序列划分界限的核性白内障级别;采用分界级别将级别序列划分为两个子级别序列;判断是否还存在未采用的分界级别;若是,则返回执行所述确定当前的分界级别的操作;若否,则说明已遍历完所有的划分方式,停止划分。
其中,分界级别,指将级别序列划分成两个子级别序列时的分界级别,比如,上文中的划分方式一{(1),(2-6)},其分界级别为1/2,划分方式二{(1-2),(3-6)}的分界级别为2/3。
可预设多个分界级别,并分别基于各个分界级别将级别序列划分为两个子级别序列。譬如,假设核性白内障共6级,级别序列为1、2、3、4、5、6,预设分界级别1/2,3/4,5/6,分别基于该三种分界级别将级别序列划分为两个子级别序列。
对于分别根据各种划分方式对应的两个子级别序列将原始训练数据集进行两个类别的标注,举例而言,假设有两种划分方式,分别为上文中的划分方式一和二,根据上文中的划分方式一所得的两个子级别序列:(1),(2-6),可将原始训练数据集中级别为1的核性白内障图像标注为一类,将剩下的核性白内障图像标注为另一类,并将标注完的数据集作为划分方式一对应的训练数据集;根据上文中的划分方式二所得的两个子级别序列:(1-2),(3-6),可将原始训练数据集中级别为1-2的核性白内障图像标注为一类,将剩下的核性白内障图像标注为另一类,将标注完的数据集作为划分方式二对应的训练数据集。
训练单元,其用于基于各种划分方式对应的训练数据集,训练各种划分方式对应的二分类模型,确定各二分类模型的优先级顺序。
以上文中的划分方式一和划分方式二为例,根据划分方式一对应的训练数据集训练出的二分类模型,能够识别眼底图像属于1级还是2-6级,根据划分方式二对应的训练数据集训练出的二分类模型,能够识别眼底图像属于1-2级还是3-6级。
各二分类模型的优先级顺序,指后续实际应用中的分类优先级。各二分类模型的优先级顺序,可人为设定,也可根据二分类模型的性能指标确定,其中,二分类模型的性能指标与优先级顺序呈正相关关系。
一实施方式中,性能指标指AUC值,根据各二分类模型的AUC值确定优先级顺序。AUC值越高,二分类模型的性能越佳,其分类准确性越高,分类优先级也就越高,从而使得整个核性白内障图像分级模型的分级准确性越高。
进一步地,训练单元,其还可用于在确定各二分类模型的优先级顺序之后,执行如下操作:根据优先级顺序,构建各二分类模型对应的再训练数据子集,采用再训练数据子集,对各二分类模型进行再训练。
具体地,根据优先级顺序筛选相应二分类模型实际应用中所需划分的级别。以上文给出的各种划分方式为例,假定优先级顺序包括:划分方式一>划分方式四>划分方式三>划分方式二,则根据划分方式一可确定划分方式四实际所需划分的级别,根据划分方式一、划分方式四可确定划分方式三实际所需划分的级别,根据划分方式一、划分方式四、划分方式三可确定划分方式二实际所需划分的级别,参照图2,对于一个输入X,通过划分方式一可确定其属于(1)还是(2-6),如果属于(1),就无需用到后面的划分方式(二分类模型),如果属于(2-6),就需要继续采用划分方式四对应二分类模型,判断X是属于(2-4)还是(5-6),假如属于(2-4),则需要继续采用划分方式三对应二分类模型,判断X是属于(2-3),(4)中的哪一个,假如属于(2-3),则需要继续采用划分方式二对应二分类模型判断X是属于(2)还是(3)。
在确定相应二分类模型实际应用中所需划分的级别之后,根据各二分类模型实际应用中所需划分的级别构建各二分类模型对应的再训练数据子集。例如,在上文给出的示例中,划分方式四需判断X是属于(2-4)还是(5-6),则选取2-6级别的白内障图像训练集,将其中2-4级和5-6级的图像分两类进行标注,形成划分方式四对应二分类模型的再训练数据子集;划分方式三需判断X是属于(2-3)还是(4),则选取2-4级别的白内障图像训练集,将其中2-3级和4级的图像分两类进行标注,形成划分方式三对应二分类模型的再训练数据子集。
通过两次训练,可以训练出更符合实际应用的二分类模型,提高二分类模型的准确性。
整合单元,其用于生成白内障图像分级模型,其中,白内障图像分级模型包括按照优先级顺序整合的各二分类模型。
将训练好的各个二分类模型按照优先级顺序整合,得到白内障图像分级模型。举例而言,参照图1,其中,二分类模型1用于区分(1)与(2-6),二分类模型2用于区分(1-2)与(3-6),二分类模型3用于区分(1-3)与(4-6),二分类模型4用于区分(1-4)与(5-6),二分类模型5用于区分(1-5)与(6),图2示出了一种优先级顺序:(二分类)模型1>(二分类)模型4>(二分类)模型3=(二分类)模型5>(二分类)模型2,对于一个输入X,首先采用二分类模型1将其分类,若将其分类到(1),则输入X的级别为1,若将其分类到(2-6),则进一步采用二分类模型4将其分类,若将其分类到(2-4),则继续采用二分类模型3将其分类,若将其分类到(5-6),则继续采用二分类模型5分类,以此类推,直至将输入X细分类到某一级别。
由于核性白内障级间差异性较小,本发明通过采用级间数据集划分的思想扩大毗邻核性白内障级别间数据特征差异,采用多级排序思想划分数据集子集,对每个子数据集训练一个二分类模型,并将所得的多个二分类模型按照优先级顺序依次提取相应级别的核性白内障,最终整合得到最终分级结果,从而提高核性白内障分级的准确性。
可选地,参照图3,所述二分类模型包括依次连接的多尺度特征序列生成模块、多尺度特征融合矫正模块以及分类模块;如图4,多尺度特征融合矫正模块包括多头自注意力模块、外部注意力模块以及矫正模块;构建装置还包括构建单元,其用于:通过多尺度特征序列生成模块从核性白内障图像中提取多尺度特征,生成多尺度特征序列,将多尺度特征序列输出至多头自注意力模块;通过多头自注意力模块融合多尺度特征序列后,输出至外部注意力模块,再通过外部注意力模块输出至矫正模块,通过矫正模块接收外部注意力模块输出的特征后,将特征分为两个子特征,将该两个子特征分别进行线性变换,生成全局信息向量和全局注意门,根据全局信息向量和全局注意门生成注意力信息,将注意力信息输出至分类模块。
其中,如图4,假设S是多尺度特征序列,首先将其经过相应的线性投影可计算得到它的查询向量、键向量和值向量Q、K和V:
其中,、/>、/>分别代表查询向量、键向量和值向量的权重矩阵。
根据多头自注意力模块将多尺度特征序列的查询向量、键向量和值向量、/>和/>分别投影到H个不同的子空间中,其中H可选8,C为通道数,D为维度,/>指向量空间,使用一个缩放的点积对每个子空间的查询向量Qi,键向量Ki, 值向量Vi计算权重向量,其中/>,i指子空间的序号,然后将每个子空间的值向量拼接在一起,最终通过一个线性变换得到每个元素的自注意力表示。对于每一个切片而言它的维度为/>,即每一个切片中,查询向量的维度/>=键向量的维度/>=值向量的维度/>。多头自注意力/>可以被表述为:
其中,指第i个子空间内的查询向量,/>指第i个子空间内的键向量,/>指第i个子空间内的键向量的转置,/>指第i个子空间内的值向量,/>指第i个子空间内查询向量Q的权重矩阵,/>指第i个子空间内键向量K的权重矩阵,/>指第i个子空间内值向量V的权重矩阵,/>指第i个子空间的自注意力表示,其中,/>指键向量的维度。这里的投影分别代表/>,/>,/>参数矩阵,/>指查询向量的维度,/>指值向量的维度。通过自注意力融合模块构建从低到高层次的分层动态融合关系,提升了核性白内障分级的准确性。
多尺度特征之间的信息是相互交互的,为了实现优势互补,提高集成特征的判别能力,构建单元通过外部注意力模块以及矫正模块在对核性白内障分级前对白内障图像的多尺度信息进行整合,捕捉低级和高级信息与判别特征之间的关系。通过首先采用一个多头自注意力模块融合多尺度特征序列,然后将其输入到外部注意力中学习外部特征,最后对多尺度特征序列进行矫正,过滤掉一些对白内障分级不相关的特征。
具体地,首先采用外部注意模块学习全局信息。假设多头自注意力模块的输出和查询矩阵是FM和Q,则外部注意力模块的输入为QE=Concat(FM,Q),外部注意力模块可以表述为:
其中,代表/>的第j行,/>中的T指转置,/>代表/>的第j行,/>代表QE的第/>行。/>代表/>和/>之间的相似度得分,/>和/>是两个可学习的外部记忆单元,其中N是元素的数量,d是特征维度的数量,/>指外部注意力模块的输出,其中,/>指外部注意力模块的输入QE的行顺序,j是/>、/>的行顺序。通过这两个记忆单元,外部注意力可以学习整个训练数据中元素的关系。
在自注意力中如果Q和K/V的关系不合理,那么自注意力可能会产生不合理的权重,导致模型关注不相关的信息或者误导的信息。通过矫正模块(CalibrationModule, CM)建立查询向量Q的注意力门来过滤掉不相关的自注意结果。具体地,即外部注意力模块的输出特征为OE=EA(QE),先将其均匀地分为两部分,并将其通过两个单独的线性变换的转换,产生全局信息向量e和全局注意门/>。然后,将对全局信息向量应用全局注意力门,通过使用元素乘法,得到注意力信息/>:
其中,e表示全局信息向量,⊙表示元素相乘,是Sigmoid函数。通过矫正模块可以得到更好的注意力信息。
参见图4,在得到注意力信息之后,将矫正模块的输入与输出相加之后进行归一化,通过前馈层降维再输出。
可选地,参见图3,多尺度特征序列生成模块包括ResNet-34骨干网络,ResNet-34骨干网络包括卷积层、池化层以及四个密集块;构建单元在执行多尺度特征序列生成模块从白内障图像中提取多尺度特征,生成多尺度特征序列时,具体执行如下操作:通过ResNet-34骨干网络的各个密集块从白内障图像中提取多尺度特征,将两个或两个以上的密集块输出的特征图分别进行压缩,并将压缩后的特征平铺成一维序列,将所有压缩后的特征序列串联,得到多尺度特征序列。
其中,ResNet-34为现有网络结构,其包括卷积层、池化层以及四个密集块,本领域技术人员知晓的是,第一个密集块指第1-3个残差块,第二个密集块指第4-7个残差块,第三个密集块指第8-13个残差块,第四个密集块指第14-16个残差块。
本发明实施例可将该四个密集块中两个或两个以上的密集块输出的特征图分别进行压缩,比如,如图3所示,将第二个密集块、第三个密集块以及第四个密集块输出的特征图分别进行压缩,此处可使用一个卷积核大小为3×3的卷积层将每一层的特征图压缩到相同的维度,再将压缩后的特征分别平铺成一维序列,再串联,得到多尺度特征序列。
可选地,构建单元在得到多尺度特征序列之后,将多尺度特征序列输出至多头自注意力模块之前,具体还用于执行如下操作:为多尺度特征序列中的每个元素添加位置编码,并在多尺度特征序列中添加不同尺度级别的位置嵌入。
为了能够将多尺度特征序列送入到融合矫正模块中,采用位置编码来为多尺度特征序列中的每个元素添加位置编码PE。其公式如下:
其中,是位置编码的位置,r指向量维度的索引,/>是向量的维度,这个公式中的10000是一个超参数,它控制着位置编码中不同位置之间的差异程度。位置编码PE是一个可学习的参数,可以随着训练过程进行调整,这使得模型能够适应不同长度和位置分布的输入序列。
此外,为了确定每个特征值所处的特征级别,在多尺度特征序列中添加一个不同尺度级别的位置嵌入,尺度级位置嵌入随机初始化,并与网络共同训练。
可选地,构建单元在将注意力信息输出至分类模块之后,具体还用于执行如下操作:
分类模块将注意力信息分割并重塑为二维特征图,在二维特征图上应用一个全局平均池层,通过全局平均池层在每个通道上计算所有元素的平均值,以捕获图像中的局部-全局特征表示,沿通道将局部-全局特征表示串联起来,将局部-全局特征表示输入到全连接层中进行分类,生成二元分类结果。
其中,矫正模块输出的注意力信息为一维特征图,将一维特征图中的元素重新排列为二维矩阵中的行和列,以重塑为二维特征图,其中/>。然后,在这个二维特征图/>上应用一个全局平均池层,全局平均池层可以在每个通道上计算所有元素的平均值,以捕获图像中的局部-全局特征表示/>,其中C为通道数。随后,沿通道将局部-全局特征表示串联起来。最后,将这个特征向量输入到全连接层(FC层)中进行分类,从而获得二元分类结果。全连接层将学习将输入特征映射到输出标签的函数,以便分类任务的执行。
本发明实施例中,所述核性白内障图像分级装置还包括:
获取单元,其用于获取待分级的眼底图像。
分级单元,其用于将眼底图像输入如上所述的核性白内障图像分级模型的构建装置构建的白内障图像分级模型,得到眼底图像对应的白内障分级结果。
其相对于现有技术的有益效果与上述核性白内障图像分级模型的构建装置构建的白内障图像分级模型基本一致,此处不赘述。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (9)
1.一种核性白内障图像分级模型的构建装置,其特征在于,包括:
获取单元,其用于获取原始训练数据集,其中,所述原始训练数据集包括带有级别属性的白内障图像;
训练集生成单元,其用于获取核性白内障的级别序列,并采用多种划分方式将所述级别序列划分为两个连续子级别序列,分别根据各种划分方式对应的所述两个连续子级别序列将所述原始训练数据集进行两个类别的标注,得到各种划分方式对应的训练数据集;其中,所述级别序列包括核性白内障级别从低到高的序列或者核性白内障级别从高到低的序列;
训练单元,其用于基于各种划分方式对应的训练数据集,训练各种划分方式对应的二分类模型,确定各所述二分类模型的优先级顺序;
整合单元,其用于生成白内障图像分级模型,其中,所述白内障图像分级模型包括按照所述优先级顺序整合的各所述二分类模型;
所述训练集生成单元其具体还用于执行如下操作:
确定当前的分界级别,其中,所述分界级别指作为所述级别序列划分界限的核性白内障级别;
采用所述分界级别将所述级别序列划分为两个连续子级别序列;
判断是否还存在未采用的分界级别;
若是,则返回执行所述确定当前的分界级别的操作。
2.如权利要求1所述的核性白内障图像分级模型的构建装置,其特征在于,所述训练单元,其还用于在所述确定各所述二分类模型的优先级顺序之后,执行如下操作:
根据所述优先级顺序,构建各所述二分类模型对应的再训练数据子集;
采用所述再训练数据子集,对各所述二分类模型进行再训练。
3.如权利要求1所述的核性白内障图像分级模型的构建装置,其特征在于,所述训练单元,其具体还用于执行如下操作:
根据所述二分类模型的性能指标确定各所述二分类模型的优先级顺序,其中,所述二分类模型的性能指标与所述优先级顺序呈正相关关系。
4.如权利要求1至3中任一项所述的核性白内障图像分级模型的构建装置,其特征在于,所述二分类模型包括依次连接的多尺度特征序列生成模块、多尺度特征融合矫正模块以及分类模块;所述多尺度特征融合矫正模块包括多头自注意力模块、外部注意力模块以及矫正模块;
所述构建装置还包括构建单元,其用于:通过所述多尺度特征序列生成模块从白内障图像中提取多尺度特征,生成多尺度特征序列,将所述多尺度特征序列输出至所述多头自注意力模块;通过所述多头自注意力模块融合所述多尺度特征序列后,输出至所述外部注意力模块,再通过所述外部注意力模块输出至所述矫正模块,通过所述矫正模块接收所述外部注意力模块输出的特征后,将所述特征分为两个子特征,将该两个子特征分别进行线性变换,生成全局信息向量和全局注意门,根据所述全局信息向量和所述全局注意门生成注意力信息,将所述注意力信息输出至所述分类模块。
5.如权利要求4所述的核性白内障图像分级模型的构建装置,其特征在于,所述多尺度特征序列生成模块包括ResNet-34骨干网络,所述ResNet-34骨干网络包括卷积层、池化层以及四个密集块;所述构建单元具体还用于执行如下操作:
通过所述ResNet-34骨干网络的各个密集块从所述白内障图像中提取所述多尺度特征,将两个或两个以上的所述密集块输出的特征图分别进行压缩,并将压缩后的特征平铺成一维序列,将所有压缩后的特征序列串联,得到所述多尺度特征序列。
6.如权利要求5所述的核性白内障图像分级模型的构建装置,其特征在于,所述构建单元具体还用于执行如下操作:为所述多尺度特征序列中的每个元素添加位置编码。
7.如权利要求5所述的核性白内障图像分级模型的构建装置,其特征在于,所述构建单元具体还用于执行如下操作:在所述多尺度特征序列中添加不同尺度级别的位置嵌入。
8.如权利要求4所述的核性白内障图像分级模型的构建装置,其特征在于,所述构建单元具体还用于执行如下操作:
通过所述分类模块将所述注意力信息分割并重塑为二维特征图,在所述二维特征图上应用一个全局平均池层,通过所述全局平均池层在每个通道上计算所有元素的平均值,以捕获图像中的局部-全局特征表示,沿通道将所述局部-全局特征表示串联起来,将所述局部-全局特征表示输入到全连接层中进行分类,生成二元决策结果。
9.一种核性白内障图像分级装置,其特征在于,包括:
获取单元,其用于获取待分级的眼底图像;
分级单元,其用于将所述眼底图像输入如权利要求1至8中任一项所述的核性白内障图像分级模型的构建装置构建的白内障图像分级模型,得到所述眼底图像对应的核性白内障分级结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897664.1A CN116612339B (zh) | 2023-07-21 | 2023-07-21 | 一种核性白内障图像分级模型的构建装置及分级装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897664.1A CN116612339B (zh) | 2023-07-21 | 2023-07-21 | 一种核性白内障图像分级模型的构建装置及分级装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612339A CN116612339A (zh) | 2023-08-18 |
CN116612339B true CN116612339B (zh) | 2023-11-14 |
Family
ID=87682298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310897664.1A Active CN116612339B (zh) | 2023-07-21 | 2023-07-21 | 一种核性白内障图像分级模型的构建装置及分级装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132777B (zh) * | 2023-10-26 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011025451A1 (en) * | 2009-08-24 | 2011-03-03 | Singapore Health Services Pte Ltd | A method and system of determining a grade of nuclear cataract |
CN111095261A (zh) * | 2017-04-27 | 2020-05-01 | 视网膜病答案有限公司 | 眼底图像自动分析系统和方法 |
CN113361482A (zh) * | 2021-07-07 | 2021-09-07 | 南方科技大学 | 核性白内障识别方法、装置、电子设备以及存储介质 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
CN115272743A (zh) * | 2022-06-16 | 2022-11-01 | 上海市第十人民医院 | 一种基于深度学习的二维IOLmaster晶状体图像分级方法和装置 |
CN115731203A (zh) * | 2022-11-25 | 2023-03-03 | 南方科技大学 | 白内障图像识别方法、装置、计算机设备和可读存储介质 |
CN115937085A (zh) * | 2022-06-28 | 2023-04-07 | 哈尔滨学院 | 一种基于神经网络学习的核性白内障图像处理方法 |
CN116229178A (zh) * | 2023-03-14 | 2023-06-06 | 安徽大学 | 一种基于Transformer针对少量训练样本的图像分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
CN111751763B (zh) * | 2020-06-08 | 2021-08-10 | 武汉大学 | 一种基于GSMallat-NIN-CNN网络的电力变压器绕组故障诊断方法 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
-
2023
- 2023-07-21 CN CN202310897664.1A patent/CN116612339B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011025451A1 (en) * | 2009-08-24 | 2011-03-03 | Singapore Health Services Pte Ltd | A method and system of determining a grade of nuclear cataract |
CN102984997A (zh) * | 2009-08-24 | 2013-03-20 | 新加坡保健服务集团有限公司 | 一种确定核性白内障级别的方法及系统 |
CN111095261A (zh) * | 2017-04-27 | 2020-05-01 | 视网膜病答案有限公司 | 眼底图像自动分析系统和方法 |
CN113361482A (zh) * | 2021-07-07 | 2021-09-07 | 南方科技大学 | 核性白内障识别方法、装置、电子设备以及存储介质 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
CN115272743A (zh) * | 2022-06-16 | 2022-11-01 | 上海市第十人民医院 | 一种基于深度学习的二维IOLmaster晶状体图像分级方法和装置 |
CN115937085A (zh) * | 2022-06-28 | 2023-04-07 | 哈尔滨学院 | 一种基于神经网络学习的核性白内障图像处理方法 |
CN115731203A (zh) * | 2022-11-25 | 2023-03-03 | 南方科技大学 | 白内障图像识别方法、装置、计算机设备和可读存储介质 |
CN116229178A (zh) * | 2023-03-14 | 2023-06-06 | 安徽大学 | 一种基于Transformer针对少量训练样本的图像分类方法 |
Non-Patent Citations (2)
Title |
---|
医学研究中的数据描述与结果报告;姚晨;;北京大学学报(医学版)(第01期);全文 * |
面向上下文注意力联合学习网络的方面级情感分类模型;杨玉亭;冯林;代磊超;苏菡;;模式识别与人工智能(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612339A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Unsupervised discovery of object landmarks as structural representations | |
US10706333B2 (en) | Medical image analysis method, medical image analysis system and storage medium | |
Zhao et al. | Supervised segmentation of un-annotated retinal fundus images by synthesis | |
WO2020253629A1 (zh) | 检测模型训练方法、装置、计算机设备和存储介质 | |
Acharya et al. | TallyQA: Answering complex counting questions | |
CN107247971B (zh) | 一种超声甲状腺结节风险指标的智能分析方法及系统 | |
CN111243730B (zh) | 一种基于乳腺超声影像的乳腺病灶智能分析方法及系统 | |
US9330336B2 (en) | Systems, methods, and media for on-line boosting of a classifier | |
CN107851194A (zh) | 用于脑肿瘤分类的视觉表示学习 | |
US11302094B2 (en) | System and method for segmenting normal organ and/or tumor structure based on artificial intelligence for radiation treatment planning | |
CN109410184B (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
CN116612339B (zh) | 一种核性白内障图像分级模型的构建装置及分级装置 | |
CN106056141B (zh) | 一种使用空间稀疏编码的目标识别与角度粗估计算法 | |
CN111444844A (zh) | 一种基于变分自编码器的液基细胞人工智能检测方法 | |
Zhou et al. | Attention transfer network for nature image matting | |
CN111797705A (zh) | 一种基于人物关系建模的动作识别方法 | |
Xue et al. | Gender detection from spine x-ray images using deep learning | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
CN116433679A (zh) | 一种基于空间位置结构先验的内耳迷路多级标注伪标签生成与分割方法 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN116188435A (zh) | 一种基于模糊逻辑的医学图像深度分割方法 | |
CN112949728B (zh) | 基于切片图像筛选和特征聚合的mri图像分类方法 | |
CN114861731A (zh) | 一种可跨场景通用的肌电模式识别方法 | |
Cao et al. | Understanding 3D point cloud deep neural networks by visualization techniques | |
CN116188879B (zh) | 图像分类、图像分类模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |