CN111582366B - 图像处理方法、装置及设备 - Google Patents
图像处理方法、装置及设备 Download PDFInfo
- Publication number
- CN111582366B CN111582366B CN202010375986.6A CN202010375986A CN111582366B CN 111582366 B CN111582366 B CN 111582366B CN 202010375986 A CN202010375986 A CN 202010375986A CN 111582366 B CN111582366 B CN 111582366B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- tag set
- tag
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 37
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 30
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 20
- 210000004204 blood vessel Anatomy 0.000 description 16
- 210000001525 retina Anatomy 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 208000010412 Glaucoma Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000004256 retinal image Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000399 orthopedic effect Effects 0.000 description 2
- 230000002792 vascular Effects 0.000 description 2
- 208000002177 Cataract Diseases 0.000 description 1
- 206010025421 Macule Diseases 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像处理方法、装置及设备,该方法包括:根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本图像和第一样本标签集;根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果。在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集。提高了文本描述图像内容的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置及设备。
背景技术
在医学领域,可以通过医疗设备获取人体部位的医学图像,医生可以根据医学图像对病人进行诊疗。
在相关技术中,在通过医疗设备获取人体部位的医学图像之后,需要通过人工标注来描述医疗图像中的内容,造成人力资源的浪费,并且人工标注的准确性较低,导致文本无法准确的描述图像中的内容。
发明内容
本申请实施提供一种图像处理方法、装置及设备,提高了文本描述图像内容的准确性。
第一方面,本申请实施例提供了一种图像处理方法,所述方法包括:
根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本图像和第一样本标签集;
根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果。
在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集。
在一种可能的实施方式中,根据第一模型对第一图像进行处理,得到第一标签集,包括:
通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征;
通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值;
根据所述多个图像特征和每个图像特征对应的特征值确定所述第一标签集。
在一种可能的实施方式中,所述第一模型包括特征提取部分;通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征,包括:
通过所述特征提取部分对所述第一图像进行特征提取,得到所述第一图像的多个图像特征。
在一种可能的实施方式中,所述特征提取部分包括多个特征提取单元,每个特征提取单元包括卷积层和池化层。
在一种可能的实施方式中,所述第一模型包括分类部分;通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值,包括:
通过所述分类部分对所述多个图像特征进行分类,得到每个图像特征对应的特征值。
在一种可能的实施方式中,根据第二模型对所述第一标签集进行处理,得到第一判断结果之前,所述方法还包括:
根据第三模型对所述第一标签集进行降噪处理,所述第三模型为降噪自动编码机。
在一种可能的实施方式中,所述第一模型为对多组第一样本和多个预设标签集进行学习得到的,所述预设标签集在标签集库中的出现概率大于预设阈值。
在一种可能的实施方式中,所述第二模型包括多个卷积层和全连接层。
第二方面,本发明实施例提供一种图像处理装置,包括第一确定模块、第二确定模块和判断模块,其中:
所述第一确定模块用于,根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本图像和第一样本标签集;
所述第二确定模块用于,根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果。
所述判断模块用于,在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集。
在一种可能的实施方式中,所述第一确定模块具体用于:
通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征;
通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值;
根据所述多个图像特征和每个图像特征对应的特征值确定所述第一标签集。
在一种可能的实施方式中,所述第一模型包括特征提取部分;所述第一确定模块具体用于:
通过所述特征提取部分对所述第一图像进行特征提取,得到所述第一图像的多个图像特征。
在一种可能的实施方式中,所述特征提取部分还包括多个特征提取单元,每个特征提取单元包括卷积层和池化层。
在一种可能的实施方式中,所述第一模型包括分类部分;所述第一确定模块具体用于:
通过所述分类部分对所述多个图像特征进行分类,得到每个图像特征对应的特征值。
在一种可能的实施方式中,所述分类部分包括多个全卷积层。
在一种可能的实施方式中,所述第一模型为对多组第一样本和多个预设标签集进行学习得到的,所述预设标签集在标签集库中的出现概率大于预设阈值。
在一种可能的实施方式中,所述第二模型包括多个卷积层和全连接层。
第三方面,本申请实施例提供一种图像处理装置,包括:存储器、处理器和通信接口,所述存储器用于存储程序指令,所述处理器用于调用存储器中的程序指令执行如第一方面任一项所述的图像处理方法。
第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如第一方面任一项所述的图像处理方法。
本发明实施例提供的图像处理的方法、装置及设备,在终端设备接收到输入的第一图像之后,第一模型可以对第一图像进行特征的提取、分类,并根据上述分类结果输出第一标签集。第二模型接收到第一模型输出的第一标签集之后,可以准确的判断第一标签集是否为第一图像对应的标签集。在上述过程中,第一模型结合标签之间的关系,可以有效的克服标签之间的矛盾性,第二模型可以判断出第一图像对应的标签集,输出具有正确标签间关系的标签集,进而可以提高文本描述图像内容的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像处理方法的架构图;
图2为本申请实施例提供的训练第一模型的方法流程示意图;
图3为本申请实施例提供的第一模型的结构示意图;
图4为本申请实施例提供的训练第二模型的方法流程示意图;
图5为本申请实施例提供的第二模型的结构示意图;
图6为本申请实施例提供的图像处理方法的流程示意图;
图7为本申请实施例提供的另一种图像处理方法的架构图;
图8为本申请实施例提供的另一数据处理方法的流程示意图;
图9为本申请实施例提供的第三模型结构示意图;
图10为本申请实施例提供的一种图像处理装置的结构示意图;
图11为本申请实施例提供的另一种图像处理装置的结构示意图;
图12为本申请提供的图像处理装置的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例提供的一种图像处理方法的架构图,请参见图1,包括终端设备101。其中,终端设备101中包括第一模型102和第二模型103。其中,第一模型102包括特征提取部分和分类部分。第一模型102为对多组第一样本学习得到的,每组第一样本包括样本图像和第一样本标签集,根据第一模型102可以确定第一标签集。例如,第一模型102可以对第一图像中的特征进行提取和分类,进而确定第一标签集。第二模型103为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果,根据第二模型103可以确定第一标签集是否为第一图像对应的标签集。
在本申请中,终端设备101接收到输入的第一图像之后,第一模型102可以对第一图像进行特征的提取、分类,并根据上述分类结果输出第一标签集。第二模型103接收到第一模型102输出的第一标签集之后,可以准确的判断第一标签集是否为第一图像对应的标签集。在上述过程中,第一模型102结合标签之间的关系,可以有效的克服标签之间的矛盾性,第二模型103可以准确的判断第一标签集是否为第一图像对应的标签集,进而通过第一图像对应的标签集描述第一图像中的内容,提高了文本描述图像内容的准确性。
为了便于理解,下面,对第一模型和第二模型的训练过程进行说明。
下面,结合图2对第一模型的训练过程进行说明。
图2为本申请实施例提供的训练第一模型的方法流程示意图。请参见图2,该方法可以包括:
S201、获取多组第一样本数据。
其中,第一样本数据包括样本图像和第一样本标签集。
样本图像可以包括交通图像、医学图像。例如,眼底视网膜图像,骨科图像等。可以从数据库采集第一样本。例如,可以从医院数据库采集眼底图像数据集作为样本图像。
第一样本标签集中包括多个标签和每个标签的标签值,标签与样本图像特征相对应,标签值与样本图像特征的特征值相对应。
样本图像特征是指样本图像中固有的、本质的及重要的属性。例如,眼底视网膜图像中的特征可以包括视盘、黄斑区、眼球内血管等。
特征值是特征的取值,每一个特征具有不同的取值。例如,眼底视网膜图像中视盘的取值可以为正常或者异常,黄斑区的取值可以为正常或者异常,血管的取值可以为正常或者异常。
多组样本可以为预先标记的样本,例如,对于样本图像1,获取样本图像1对应的样本标签集1,得到一组样本,该组样本包括图像1和标签集1。采用该种方式,可以得到多组样本。例如,多组样本可以如表1所示:
表1
多组样本 | 样本图像 | 样本标签集 |
第一组样本 | 样本图像1 | 样本标签集1 |
第二组样本 | 样本图像2 | 样本标签集2 |
第三组样本 | 样本图像3 | 样本标签集3 |
…… | …… | …… |
需要说明的是,表1只是以示例的形式示意多组样本,并非对多组样本的限定。
例如,假设输入的第一图像为一种眼底视网膜的图像,而和第一图像相同的样本图像对应的样本标签集为视盘正常、黄斑区正常、血管正常,则可以确定第一模型输出的第一标签集为视盘正常、黄斑区正常、血管正常。
可选的,第一样本数据可以包括多个预设标签集,其中预设标签集是反映标签之间相关性的标签集。
标签之间的相关性是指两个标签之间相互关联的性质。例如,眼底视网膜图像中确诊为青光眼的图像标签可以包括视盘、黄斑区,这两个特征标签就具有标签之间的相关性。
可选的,预设标签集在标签集库中的出现概率大于预设阈值。
标签集库是指多组第一样本的集合,可以从数据库采集第一样本。例如,可以从医院数据库采集眼底图像数据集,眼底图像数据集中包括患有青光眼和白内障等各种眼科疾病的图像。每张眼底图像都有描述该图像的文本。例如,描述图像的文本可以包括视盘正常,但是黄斑区域有出血,血管迂曲。
可以从每个图像的描述文本中提取第一样本。例如,图像1的描述文本为视盘正常,但是黄斑区有出血,血管迂曲。可以确定第一样本:图像1的标签集为视盘正常、黄斑区异常、血管异常,其它特征标签为正常。
若任意标签集在标签集库中的出现概率大于预设阈值,则该标签集为预设标签集。可选的预设阈值可以为任意设定的值。
例如,假设预设阈值为0.5,标签集为:视盘正常、黄斑区异常、血管异常,而这些特征标签所组成的标签集在标签集库中的出现概率为0.7,则该标签集为预设标签集。
可选的,可以采用FP-growth挖掘算法来确定预设标签集。
S202、对多组第一样本数据进行学习,得到第一模型。
可以根据如下方式得到第一模型:根据预设标签集和损失函数学习多组第一样本,得到第一模型。
损失函数是将随机事件的取值映射为非负实数以表示该随机事件的“损失”的函数。
本申请所对应的损失函数为0-1损失函数,可以衡量第一模型输出的第一标签集的准确度。图像i对应的标签集正常的概率为Q为图像i中特征的序号,其中/>表示图像i中第q个特征正常的概率。如果该特征正常的概率值大于给定阈值,则该特征取值为1,否则取值为0,取值为1表示该特征正常,取值为0表示该特征异常。例如,假设给定阈值为0.5,在眼底视网膜图像中,若第一模型输出视盘正常的概率为0.7,则视盘取值为1,即视盘正常。
第i个图像的真实标签集为本申请通过计算交叉熵来衡量第一模型输出的第一标签集和真实标签集之间的差距。
可选的,损失函数公式可以为:
其中Q是特征的数量,j是特征序号,D是图像的数量,i是图像的序号,为第i个图像的第j个特征取值,/>为第i个图像的第j个特征正常的概率,loss1为第一损失函数。
通过该损失函数训练第一模型,可以让第一模型输出和真实标签集相似度高的第一标签集。
结合不同特征标签之间的相关性,本申请在交叉熵损失函数的基础上引入预设标签集作为一种约束。可选的,预设标签集可以包括两种特征标签,即只考虑两个特征标签间关系。例如,预设标签集可以包括视盘正常和黄斑区异常。
假设S是仅有两种特征标签的预设标签集的集合,C是标签集库,s={ck,cl}是一个预设标签集,其中s∈S,ck∈C,cl∈C,ck是第k个特征的取值,cl是第l个特征的取值。由于标签集s是预设标签集,这表明s中的两个特征标签在标签集库中频繁的共同出现,因此,确定将预设标签集作为约束的损失函数。由于s、ck和cl中的标签为正值(1)或负值(0),则损失函数公式为:
其中,N是图像的数量,i是图像的序号,S是预设标签集库,ck是第k个特征的取值,cl是第l个特征的取值,是图像i中第k个特征取值为正常的概率,/>是图像i中第l个特征取值为正常的概率,loss2为第二损失函数。
结合公式一和公式二,可以确定总损失函数公式:
losscNN=loss1+βloss2 公式三
其中,lossCNN为总损失函数,β用于协调两种损失函数的相对重要性。
公式三通过计算交叉熵来衡量第一模型输出的第一标签集和真实标签集之间的差距,同时将预设标签集作为约束条件,结合了标签间的关系,可以让第一模型输出和真实标签集相似度高的第一标签集,进而提高文本描述图像内容的准确性。
下面,结合图3,对第一模型的结构进行说明。
图3为本申请实施例提供的第一模型的结构示意图。请参见图3,第一模型包括:特征提取部分和分类部分。
特征提取部分包括多个特征提取单元,每个特征提取单元包括卷积层和池化层。
特征提取部分可以提取出第一图像中的特征,得到第一图像的多个图像特征。例如,第一模型中的特征提取部分可以从眼底视网膜图像中提取出视盘、血管、黄斑区等特征。
分类部分包括多个全卷积层,可以对多个图像特征进行分类。分类部分可以对特征提取部分输出的多个图像特征进行分类,得到每个图像特征对应的特征值。可选的,同一特征可以包括两个不同的特征值,例如正常和异常。
可选的,分类部分得到的每个图像特征对应的特征值是唯一的,例如,眼底视网膜图像中视盘对应的特征值可以包括正常、异常,而对于视盘的特征值,分类部分仅会输出正常或者异常,不会同时输出正常和异常两个特征值。
可选的,可以根据多个图像特征和每个图像特征对应的特征值确定图像的第一标签集。例如,眼底视网膜图像中包括特征视盘、黄斑区和血管,而其对应的特征值为正常、异常、正常。则可以确定图像的第一标签集可以包括:视盘正常、黄斑区异常、血管正常。
下面,结合图4对第二模型的训练过程进行说明。
图4为本申请实施例提供的训练第二模型的方法流程示意图。请参见图4,该方法可以包括:
S401、获取多组第二样本数据。
其中,第二样本数据包括第二样本标签集和样本判断结果。
第二样本标签集是真实标签集,具有正确的标签间关系。标签间关系可以包括标签之间的相关性、矛盾性。
标签之间的相关性是指两个标签之间相互关联的性质。例如,眼底视网膜图像中确诊为青光眼的图像的标签集可以包括视盘正常、黄斑区异常,这两个标签就具有标签之间的相关性。
标签之间的矛盾性是指同一特征中两个标签值之间相互排斥、相互分离的性质。例如,眼底视网膜图像中视盘的标签值可以包括正常和异常,而对于视盘的标签值,正常和异常具有矛盾性,不应同时出现在同一张图像对应的标签集中。
样本判断结果用于指示第二样本标签集是否具有正确的标签间关系。可以通过人工操作获取样本判断结果。例如,医生可以通过观看第二样本标签集来判断其是否具有正确的标签间关系。
多组样本可以为预先标记的样本,例如,对于样本标签集1,获取样本标签集1对应的样本判断结果为正确,得到一组样本,该组样本包括样本标签集1和正确。采用该种方式,可以得到多组样本。例如,多组样本可以如表2所示:
表2
多组样本 | 样本标签集 | 样本判断结果 |
第一组样本 | 样本标签集1 | 正确 |
第二组样本 | 样本标签集2 | 错误 |
第三组样本 | 样本标签集3 | 正确 |
…… | …… | …… |
需要说明的是,表2只是以示例的形式示意多组样本,并非对多组样本的限定。
例如,假设输入的第一标签集为视盘正常、黄斑区正常、血管正常,而样本标签集中具有相同标签和标签值的样本判断结果为正确,则可以确定第二模型输出的判断结果为正确。
S402、对多组第二样本数据进行学习,得到第二模型。
可以根据如下方式得到第二模型:根据对抗学习的方法学习多组第二样本,得到第二模型。
基于对抗学习的思想,本实施例设计了用于训练第一模型和第二模型的损失函数公式:
其中y是真实标签集,D(y;θd)是y属于真实标签集的概率,Y是真实标签向量集的集合,是第一标签集,/>是/>属于真实标签集的概率,/>是第一标签集的集合,losssim是损失函数。
在具体实施过程中,第一模型的目的是减少相似性损失,第二模型的目的是增加相似性损失,其中相似性损失用于指示第一标签集和真实标签集的区别。
由于真实标签集y包括正确的标签间关系,因此如果第一标签集不包含正确的标签间关系,则第二模型会很容易地区分真实标签集和第一标签集,y属于真实标签的概率较高,而/>属于真实标签的概率较低,因此公式四中定义的损失函数较高。由于第一模型需要降低这种损失,因此第一模型将更新其参数以生成更接近真实标签的第一标签集,从而使得第二模型难以区分真伪。接着,第二模型将更新参数以增加损失值,即获取更强的区别真实标签集和第一标签集的能力。接着,第一模型再次更新参数以降低损失值,输出和真实标签集更加接近的第一标签集。
在第一模型和第二模型的这种循环对抗中,第一模型输出的第一标签集的标签间关系将与正确的标签间关系越来越相似,因此可以提高第一模型输出第一标签集的准确性,进而也可以提高第二模型判断的准确性,这样可以输出更加准确的标签集,可以提高文本描述图像内容的准确性。
下面,结合图5,对第二模型的结构进行说明。
图5为本申请实施例提供的第二模型的结构示意图。请参见图5,第二模型包括:卷积层和全连接层。
第二模型用于接收第一模型生成的第一标签集,可以判断第一标签集中的标签之间是否具有正确的标签间关系。
可选的,第二模型可以按照Radford等人提出的DCGAN的设计原则来设计,在全连接层中采用Sigmoid函数获得输入为真实标签的概率。
下面,通过具体实施例对本申请所示的方案进行详细说明。
图6为本申请实施例提供的图像处理方法的流程示意图。请参见图6,该方法可以包括:
S601、根据第一模型对第一图像进行处理,得到第一标签集。
本申请实施例的执行主体可以为电子设备,也可以为设置在电子设备中的图像处理装置。电子设备可以包括电脑、服务器等设备。图像处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
其中,第一标签集是多个图像特征和每个图像特征对应的特征值的集合,第一标签集中包括多个标签和每个标签的标签值。
第一图像可以包括交通图像、医学图像。例如,眼底视网膜图像,骨科图像等。
图像中的特征是指图像中固有的、本质的及重要的属性。例如,眼底视网膜图像中的特征可以包括视盘、黄斑区、眼球内血管等。
特征值是特征的取值,每一个特征具有不同的标签值。例如,眼底视网膜图像中视盘的取值可以为正常或者异常,黄斑区的取值可以为正常或者异常,血管的取值可以为正常或者异常。
可选的,可以根据多个图像特征和每个图像特征对应的特征值确定第一标签集。
根据第一模型的特征提取部分对第一图像进行特征提取,得到第一图像的多个图像特征,通过第一模型的分类部分对多个图像特征进行分类,得到每个图像特征对应的特征值。根据多个图像特征和每个图像特征对应的特征值确定所述第一标签集。例如,在眼底视网膜图像中,特征提取部分可以提取图像中的特征,可以包括视盘、黄斑区、血管,分类部分可以对三个特征的特征值进行分类,可以包括正常、异常、异常,那么第一模型输出的第一标签集可以包括视盘正常、黄斑区异常、血管异常。
根据上述训练后的第一模型,可以输出具有正确标签间关系的第一图像的第一标签集。
S603、根据第二模型对第一标签集进行处理,得到第一判断结果。
其中,第一判断结果是第二模型对第一标签集的判断结果,用于指示第一模型输出的第一标签集中标签之间是否具有正确的标签间关系。
第二模型用于对第一标签集进行处理,可以包括多个卷积层和全连接层。
第二模型对第一标签集的处理可以包括获取第一标签集中标签之间的关系,判断其是否具有正确的标签间关系。例如,第一标签集为视盘正常、视盘异常,而视盘正常和视盘异常为错误的标签间关系,此时第二模型会判断出第一模型输出的第一标签集为异常标签集。
根据上述训练完成后的第二模型,可以判断出第一标签集中标签之间是否具有正确的标签间关系。
S605、在第一判断结果指示第一标签集正确时,将第一标签集确定为第一图像对应的标签集。
第一图像对应的标签集是第一图像中所有标签和标签值的集合。例如,眼底视网膜图像中青光眼的图像对应的标签集可以包括:视盘正常、黄斑区异常、血管异常以及其他特征取值为正常。
可选的,第一判断结果为正确时,第一模型输出的第一图像的第一标签集为第一图像对应的标签集,可以根据第一图像对应的标签集获取第一图像中的内容。例如,在眼底视网膜图像对应的标签集为视盘正常、黄斑区异常、血管异常、其他特征正常,可以得出该眼底视网膜图像可以确诊为青光眼。
可选的,第一判断结果为错误时,第一模型输出的第一图像的第一标签集不是第一图像对应的标签集,此时无法通过第一标签集获取图像中的内容。
在本申请中,终端设备接收到输入的第一图像之后,第一模型可以对第一图像进行特征的提取、分类,并根据上述分类结果输出第一标签集。第二模型接收到第一模型输出的第一标签集之后,可以准确的判断第一标签集是否为第一图像对应的标签集。在上述过程中,第一模型结合标签之间的关系,可以有效的克服标签之间的矛盾性,第二模型可以准确的判断第一标签集是否为第一图像对应的标签集,进而可以提高文本描述图像内容的准确性。
图7为本申请实施例提供的另一种图像处理方法的架构图,请参见图7,包括第一模型、第二模型和第三模型。其中,第一模型包括特征提取部分和分类部分。特征提取部分可以提取出第一图像中的特征,分类部分可以对多个图像特征进行分类,第一模型可以对第一图像进行处理得到第一标签集。第三模型可以对第一模型生成的第一标签集进行降噪处理,进一步消除第一标签集中标签之间的矛盾性。第二模型包括卷积层和全连接层,第二模型可以接收第三模型输出的降噪处理后的第一标签集,进而判断降噪处理后的第一标签集的标签之间是否具有正确的标签间关系。
图8为本申请实施例提供的另一种图像处理方法的流程示意图。图8基于图7所示的架构执行的方法,图8是在图6所示实施例的基础上,进一步地,在S603之前,还包括:S602,如下所示:
S602、根据第三模型对第一标签集进行降噪处理。
第三模型为降噪自动编码机,用于进一步消除第一标签集中标签之间的矛盾性。例如,第一模型生成的第一标签集中可能依然存在标签之间的矛盾性,需要进一步的对第一标签集进行处理,以保证第一标签集具有正确的标签间关系。
可选的,可以将标签之间的矛盾性视为第一标签集中的噪音,根据第三模型对第一标签集进行降噪处理,消除第一标签集中标签之间的矛盾性。这样可以进一步的保证第一标签集具有正确的标签间关系,进而可以提高文本描述图像内容的准确性。
下面结合图9对第三模型的结构进行说明。图9为本申请实施例提供的第三模型结构示意图,请参见图9,第三模型包括编码器和解码器。其中,编码器和解码器由全连接层组成。如图9所示,第三模型可以对第一标签集进行降噪处理,进一步消除第一标签集中标签之间的矛盾性。
在本申请中,终端设备接收到输入的第一图像之后,第一模型可以对第一图像进行特征的提取、分类,并根据上述分类结果输出第一标签集。第三模型接收到第一模型输出的第一标签集之后,可以对第一标签集进行降噪处理,进一步消除第一标签集中标签之间的矛盾性。第二模型接收到第三模型输出的降噪之后的第一标签集后,可以准确的判断第一标签集是否为第一图像对应的标签集。在上述过程中,第一模型结合标签间的关系,可以有效的克服标签间的矛盾性,同时第三模型可以进一步的对第一标签集进行降噪处理,输出具有更加准确的标签间关系的第一标签集。第二模型可以准确的判断第一标签集是否为第一图像对应的标签集,进而可以提高文本描述图像内容的准确性。
图10为本申请实施例提供的一种图像处理装置的结构示意图。该装置可以设置在终端设备中。请参见图10,所述图像处理装置10包括第一确定模块11、第二确定模块12、判断模块13,其中:
所述第一确定模块11用于,根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本学习得到的,每组第一样本包括样本图像和第一样本标签集;
所述第二确定模块12用于,根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果。
所述判断模块13用于,在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集。
本申请实施例提供的图像处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述第一确定模块11,具体用于:
通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征;
通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值;
根据所述多个图像特征和每个图像特征对应的特征值确定所述第一标签集。
在一种可能的实施方式中,所述第一模型包括特征提取部分;所述第一确定模块11具体用于:
通过所述特征提取部分对所述第一图像进行特征提取,得到所述第一图像的多个图像特征。
在一种可能的实施方式中,所述特征提取部分还包括多个特征提取单元,每个特征提取单元包括卷积层和池化层。
在一种可能的实施方式中,所述第一模型包括分类部分;所述第一确定模块11具体用于:
通过所述分类部分对所述多个图像特征进行分类,得到每个图像特征对应的特征值。
在一种可能的实施方式中,所述第一模型为对多组第一样本和多个预设标签集进行学习得到的,所述预设标签集在标签集库中的出现概率大于预设阈值。
在一种可能的实施方式中,所述第二模型包括多个卷积层和全连接层。
本申请实施例提供的图像处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图11为本申请实施例提供的另一种图像处理装置的结构示意图,在图10所示实施例的基础上,请参见图11,图像处理装置10还包括,处理模块14,其中,所述处理模块14用于:
根据第三模型对所述第一标签集进行降噪处理,所述第三模型为降噪自动编码机。
图12为本申请提供的图像处理装置的硬件结构示意图。请参见图12,该图像处理装置20可以包括:处理器21和存储器22,其中,处理器21和存储器22可以通信;示例性的,处理器21和存储器22通过通信总线23通信,所述存储器22用于存储程序指令,所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的图像处理方法。
可选的,设备控制装置20还可以包括通信接口,通信接口可以包括发送器和/或接收器。
可选的,上述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本申请提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如上述任意实施例所述的设备控制方法。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,使得计算机执行上述设备控制方法。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
在本申请中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
Claims (8)
1.一种图像处理方法,其特征在于,包括:
根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本和多个预设标签集进行学习得到的,每组第一样本包括样本图像和第一样本标签集,所述预设标签集在标签集库中的出现概率大于预设阈值;
根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果;
在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集;
根据第二模型对所述第一标签集进行处理,得到第一判断结果之前,所述方法还包括:
根据第三模型对所述第一标签集进行降噪处理,所述第三模型为降噪自动编码机。
2.根据权利要求1所述的方法,其特征在于,根据第一模型对第一图像进行处理,得到第一标签集,包括:
通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征;
通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值;
根据所述多个图像特征和每个图像特征对应的特征值确定所述第一标签集。
3.根据权利要求2所述的方法,其特征在于,所述第一模型包括特征提取部分;通过所述第一模型对所述第一图像进行特征提取,得到所述第一图像的多个图像特征,包括:
通过所述特征提取部分对所述第一图像进行特征提取,得到所述第一图像的多个图像特征。
4.根据权利要求3所述的方法,其特征在于,所述特征提取部分包括多个特征提取单元,每个特征提取单元包括卷积层和池化层。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述第一模型包括分类部分;通过所述第一模型对所述多个图像特征进行分类,得到每个图像特征对应的特征值,包括:
通过所述分类部分对所述多个图像特征进行分类,得到每个图像特征对应的特征值。
6.一种图像处理装置,其特征在于,包括第一确定模块、第二确定模块、判断模块和处理模块,其中:
所述第一确定模块用于,根据第一模型对第一图像进行处理,得到第一标签集,所述第一标签集中包括多个标签和每个标签的标签值;所述第一模型为对多组第一样本和多个预设标签集进行学习得到的,每组第一样本包括样本图像和第一样本标签集,所述预设标签集在标签集库中的出现概率大于预设阈值;
所述第二确定模块用于,根据第二模型对所述第一标签集进行处理,得到第一判断结果;所述第二模型为对多组第二样本学习得到的,每组第二样本包括第二样本标签集和样本判断结果;
所述判断模块用于,在所述第一判断结果指示所述第一标签集正确时,将所述第一标签集确定为所述第一图像对应的标签集;
所述处理模块用于,根据第三模型对所述第一标签集进行降噪处理,所述第三模型为降噪自动编码机。
7.一种终端设备,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述权利要求1-5任一项所述的图像处理方法。
8.一种可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机上运行时,如上述权利要求1-5任一项所述的图像处理方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375986.6A CN111582366B (zh) | 2020-05-07 | 2020-05-07 | 图像处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375986.6A CN111582366B (zh) | 2020-05-07 | 2020-05-07 | 图像处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111582366A CN111582366A (zh) | 2020-08-25 |
CN111582366B true CN111582366B (zh) | 2023-10-31 |
Family
ID=72113310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010375986.6A Active CN111582366B (zh) | 2020-05-07 | 2020-05-07 | 图像处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582366B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734035B (zh) * | 2020-12-31 | 2023-10-27 | 成都佳华物链云科技有限公司 | 一种数据处理方法及装置、可读存储介质 |
CN113312451B (zh) * | 2021-06-15 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本标签确定方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN109214410A (zh) * | 2018-07-10 | 2019-01-15 | 上海斐讯数据通信技术有限公司 | 一种提升多标签分类正确率的方法及系统 |
JP2019144639A (ja) * | 2018-02-16 | 2019-08-29 | 株式会社日立製作所 | 画像に対応するタグセットを表すベクトルを出力するモデルを訓練する方法 |
CN110363138A (zh) * | 2019-07-12 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、终端及存储介质 |
CN110427542A (zh) * | 2018-04-26 | 2019-11-08 | 北京市商汤科技开发有限公司 | 分类网络训练及数据标注方法和装置、设备、介质 |
CN110543891A (zh) * | 2019-07-23 | 2019-12-06 | 百度(中国)有限公司 | 数据标注方法、装置、系统及存储介质 |
CN110807495A (zh) * | 2019-11-08 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 多标签分类方法、装置、电子设备及存储介质 |
CN111027707A (zh) * | 2019-11-22 | 2020-04-17 | 北京金山云网络技术有限公司 | 模型的优化方法、装置及电子设备 |
-
2020
- 2020-05-07 CN CN202010375986.6A patent/CN111582366B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
JP2019144639A (ja) * | 2018-02-16 | 2019-08-29 | 株式会社日立製作所 | 画像に対応するタグセットを表すベクトルを出力するモデルを訓練する方法 |
CN108416384A (zh) * | 2018-03-05 | 2018-08-17 | 苏州大学 | 一种图像标签标注方法、系统、设备及可读存储介质 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN110427542A (zh) * | 2018-04-26 | 2019-11-08 | 北京市商汤科技开发有限公司 | 分类网络训练及数据标注方法和装置、设备、介质 |
CN109214410A (zh) * | 2018-07-10 | 2019-01-15 | 上海斐讯数据通信技术有限公司 | 一种提升多标签分类正确率的方法及系统 |
CN110363138A (zh) * | 2019-07-12 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、终端及存储介质 |
CN110543891A (zh) * | 2019-07-23 | 2019-12-06 | 百度(中国)有限公司 | 数据标注方法、装置、系统及存储介质 |
CN110807495A (zh) * | 2019-11-08 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 多标签分类方法、装置、电子设备及存储介质 |
CN111027707A (zh) * | 2019-11-22 | 2020-04-17 | 北京金山云网络技术有限公司 | 模型的优化方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
Thibaut Durand et al..Learning a Deep ConvNet for Multi-Label Classification With Partial Labels.《IEEE Xplore》.2020,全文. * |
张钢 ; 钟灵 ; 黄永慧 ; .一种病理图像自动标注的机器学习方法.计算机研究与发展.2015,(第09期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111582366A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949968B2 (en) | Systems and methods for detecting an indication of a visual finding type in an anatomical image | |
CN110136788B (zh) | 一种基于自动检测的病历质检方法、装置、设备及存储介质 | |
CN110111887A (zh) | 临床辅助决策方法及装置 | |
CN112365987A (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
Wiharto et al. | The comparison of clustering algorithms k-means and fuzzy c-means for segmentation retinal blood vessels | |
CN111080643A (zh) | 基于眼底图像的糖尿病及相关疾病的分类方法及设备 | |
CN111582366B (zh) | 图像处理方法、装置及设备 | |
CN109635669B (zh) | 图像分类方法、装置及分类模型的训练方法、装置 | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
CN112883962A (zh) | 眼底图像识别方法、装置、设备、存储介质以及程序产品 | |
US20210056672A1 (en) | Fracture detection method, electronic device and storage medium | |
CN107705853A (zh) | 临床营养风险筛查方法及系统 | |
CN112052874B (zh) | 一种基于生成对抗网络的生理数据分类方法及系统 | |
Sofian et al. | Calcification detection using convolutional neural network architectures in intravascular ultrasound images | |
CN107145715A (zh) | 一种基于推举算法的临床医学智能判别装置 | |
CN109545370B (zh) | 基于样本处理的病种确定方法、装置及终端 | |
Jemima Jebaseeli et al. | Retinal blood vessel segmentation from depigmented diabetic retinopathy images | |
Reddy et al. | Discovering optimal algorithm to predict diabetic retinopathy using novel assessment methods | |
CN108877924A (zh) | 一种哮喘概率的确定方法及装置 | |
CN111128327A (zh) | 一种低血糖预警方法和装置 | |
US11475561B2 (en) | Automated identification of acute aortic syndromes in computed tomography images | |
CN112233742A (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
CN114494263B (zh) | 融合临床信息的医学影像病变检测方法、系统及设备 | |
US20230037183A1 (en) | Storage medium, adjustment method, and information processing apparatus | |
CN115526882A (zh) | 一种医学图像的分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |