CN111126454B - 图像处理方法、装置、存储介质及电子设备 - Google Patents
图像处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111126454B CN111126454B CN201911235741.7A CN201911235741A CN111126454B CN 111126454 B CN111126454 B CN 111126454B CN 201911235741 A CN201911235741 A CN 201911235741A CN 111126454 B CN111126454 B CN 111126454B
- Authority
- CN
- China
- Prior art keywords
- image
- sequence
- data
- target image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000000306 recurrent effect Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 230000007613 environmental effect Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种图像处理方法、装置、存储介质及电子设备,能够在耗费较少计算力的同时提取图像的三维特征。所述方法包括:获取与待处理图像对应的目标图像序列;将目标图像序列输入至图像分类模型,获得图像分类模型输出的图像类别,图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;循环神经网络RNN根据目标图像序列得到第一输出数据,第一输出数据反映目标图像序列沿序列方向的图像特征;卷积神经网络CNN根据第一输出数据得到第二输出数据,第二输出数据反映目标图像序列沿图像平面以及沿序列方向的图像特征;全连接网络根据第二输出数据确定目标图像序列的图像类别;将目标图像序列的图像类别确定为待处理图像的图像类别。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种图像处理方法、装置、存储介质及电子设备。
背景技术
目前,一般使用卷积神经网络对二维图像进行处理,例如,对图像分类。而在对三维图像进行处理时,若利用2D卷积神经网络进行图像特征提取,提取的图像特征仅能提取图像本身的特征,也就是三维图像横截面图像特征,提取出的图像特征不够全面,导致后续的图像分类不够准确。而要想得到三维图像的更准确的图像特征,还需要提取三维图像的纵截面图像特征。相关技术中,多使用3D卷积神经网络对三维图像进行处理,使用3D卷积核,提取出三维图像的三维特征,而这需要耗费极大的计算量,处理速度慢,应用受到局限。
发明内容
本公开的目的是提供一种图像处理方法、装置、存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种图像处理方法,所述方法包括:
获取与待处理图像对应的目标图像序列;
将所述目标图像序列输入至图像分类模型,获得所述图像分类模型针对所述目标图像序列输出的图像类别,其中,所述图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;所述循环神经网络RNN用于根据所述目标图像序列得到第一输出数据,所述第一输出数据能够反映所述目标图像序列沿序列方向的图像特征;所述卷积神经网络CNN用于根据所述第一输出数据得到第二输出数据,所述第二输出数据能够反映所述目标图像序列沿图像平面以及沿序列方向的图像特征;所述全连接网络用于根据所述第二输出数据确定所述目标图像序列的图像类别;
将所述目标图像序列的图像类别确定为所述待处理图像的图像类别。
可选地,所述循环神经网络RNN将输入的所述目标图像序列转换为第一序列数据,并根据所述第一序列数据得到所述第一输出数据,其中,所述第一序列数据包括多组数据,所述第一序列数据的数据组数的行数与为所述目标图像序列的图像数量相同,所述第一序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第一序列数据中的第M+1组数据为第M组数据的下一状态。在所述目标图像序列的方向上,目标图像在目标图像序列的下一图像为该目标图像的下一状态。
可选地,所述循环神经网络RNN用于根据所述目标图像序列、以及所述目标图像序列中各个像素点的环境信息,得到所述第一输出数据,其中,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息。
可选地,所述循环神经网络RNN将输入的所述目标图像序列和所述目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据所述第二序列数据得到所述第一输出数据,其中,所述第二序列数据包括多组数据,所述第二序列数据的数据组数与所述目标图像序列的图像数量相同,所述第二序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第二序列数据中的第M+1组数据为第M组数据的下一状态。
可选地,所述图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。
可选地,所述待处理图像为三维CT图像。
根据本公开的第二方面,提供一种图像处理装置,所述装置包括:
获取模块,用于获取与待处理图像对应的目标图像序列;
处理模块,用于将所述目标图像序列输入至图像分类模型,获得所述图像分类模型针对所述目标图像序列输出的图像类别,其中,所述图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;所述循环神经网络RNN用于根据所述目标图像序列得到第一输出数据,所述第一输出数据能够反映所述目标图像序列沿序列方向的图像特征;所述卷积神经网络CNN用于根据所述第一输出数据得到第二输出数据,所述第二输出数据能够反映所述目标图像序列沿图像平面以及沿序列方向的图像特征;所述全连接网络用于根据所述第二输出数据确定所述目标图像序列的图像类别;
确定模块,用于将所述目标图像序列的图像类别确定为所述待处理图像的图像类别。
可选地,所述循环神经网络RNN将输入的所述目标图像序列转换为第一序列数据,并根据所述第一序列数据得到所述第一输出数据,其中,所述第一序列数据包括多组数据,所述第一序列数据的数据组数与所述目标图像序列的图像数量相同,所述第一序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第一序列数据中的第M+1组数据为第M组数据的下一状态。
可选地,所述循环神经网络RNN用于根据所述目标图像序列、以及所述目标图像序列中各个像素点的环境信息,得到所述第一输出数据,其中,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息。
可选地,所述循环神经网络RNN将输入的所述目标图像序列和所述目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据所述第二序列数据得到所述第一输出数据,其中,所述第二序列数据包括多组数据,所述第二序列数据的数据组数与所述目标图像序列的图像数量相同,所述第二序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第二序列数据中的第M+1组数据为第M组数据的下一状态。
可选地,所述图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。
可选地,所述待处理图像为三维CT图像。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,获取与待处理图像对应的目标图像序列,将目标图像序列输入至图像分类模型,获得图像分类模型针对目标图像序列输出的图像类别,并将目标图像序列的图像类别确定为待处理图像的图像类别。其中,图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络。循环神经网络RNN用于根据目标图像序列得到第一输出数据,第一输出数据能够反映目标图像序列沿序列方向的图像特征。卷积神经网络CNN用于根据第一输出数据得到第二输出数据,第二输出数据能够反映目标图像序列沿图像平面以及沿序列方向的图像特征。全连接网络用于根据第二输出数据确定目标图像序列的图像类别。由此,通过循环神经网络RNN提取目标图像序列在序列方向上的图像特征后,卷积神经网络CNN基于循环神经网络RNN输出的结果进一步提取图像在图像平面的图像特征,实现了三维图像空间特征的融合,这样,输入至全连接网络的数据既包含目标图像序列在图像平面的图像特征(三维图像的横截面特征)、又包含图像序列沿图像序列方向的图像特征(三维图像的纵截面特征),最终得到的图像类别更加贴近待处理图像,从而提升图像分类精度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是卷积神经网络提取图像特征的示意图;
图2是根据本公开的一种实施方式提供的图像处理方法的流程图;
图3是根据本公开提供的图像处理方法中,目标图像序列的一种示例性示意图;
图4是循环神经网络的网络结构的示意图;
图5是根据本公开的一种实施方式提供的图像处理装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在现有技术中,使用卷积神经网络对图像特征进行提取的过程可以如图1所示,其中,图像K1为待提取特征的图像(5*5),K2为卷积核(3*3),假设卷积核K2以步长1在图像K1滑动以提取特征,输出的3*3矩阵K3就是该图像K1对应的特征图。卷积核K2有9个神经元,每个神经元仅与图像的局部有关联,关联区域被称作神经元的感受野。感受野越大意味着其能关联的图像范围越大,也代表该神经元蕴含着更高语义层次的特征,因此感受野大小可用来判断每一层的抽象度。
在卷积神经网络中,随着网络深度的增加,神经元感受野也会逐渐增大,让网络学习到更高层次的语义特征,但是每个卷积核的感受野仅适用于二维图像,无法提取到三维特征。例如,若对含K个图像的图像序列进行特征提取,输入的是这K个图像,输出的特征图的表达式如下:
其中,YK为K个图像对应的特征图,Pi为第i个图像。可见,特征图仅由每个图像的卷积结果简单相加得到,也就是图像平面方向特征的简单叠加,而对于图像序列的方向上的特征并未关注,特征提取不够全面,导致无法为后续的处理处理提供准确的数据支持。
因此,在现有技术中,还将本来用于视频分类和动作识别任务中的3D卷积神经网络引入到三维图像处理中来,在特征提取层中引入更多的卷积操作来保存图像序列的纵截面特征(也就是图像序列方向上的图像特征),即在每一层的特征提取操作中,对多个特征图使用分段式卷积。但是,这样的空间特征融合方法需要大量的计算力来支撑,适用性不强,局限性较大。
因此,本方案提供一种图像处理方法,既能较为全面地提取出三维图像的三维图像特征,又无需占用过多的计算资源。
图2是根据本公开的一种实施方式提供的图像处理方法的流程图。如图2所示,该方法可以包括以下步骤。
在步骤21中,获取与待处理图像对应的目标图像序列。
待处理图像为三维图像,如具有空间的位置先后关系的一组图像(例如,三维CT图像)、具有时间先后关系的一组图像(例如,视频的连续多帧图像)。对于待处理图像,可以对待处理图像进行预处理,将待处理图像转化为便于处理的格式,从而得到与待处理图像对应的目标图像序列。
示例地,可以预先统一目标图像序列的数据的格式,例如规定目标图像序列的图像数量以及每一图像的大小。一般情况下,目标图像序列的图像数量和每一图像的大小可以设置得大一些,在获得待处理图像后,对于不足的部分进行补零处理,从而使得目标图像序列尽可能多地包含待处理图像,以在后续的处理中更加全面地提取出待处理图像的图像特征。
在步骤22中,将目标图像序列输入至图像分类模型,获得图像分类模型针对目标图像序列输出的图像类别。
其中,图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络。循环神经网络RNN用于根据目标图像序列得到第一输出数据,第一输出数据能够反映目标图像序列沿序列方向的图像特征。卷积神经网络CNN用于根据第一输出数据得到第二输出数据,第二输出数据能够反映目标图像序列沿图像平面以及沿序列方向的图像特征。全连接网络用于根据第二输出数据确定目标图像序列的图像类别。
循环神经网络(Recurrent Neural Network)是一种用于对序列数据建模的神经网络,常被应用于自然语言处理中,例如命名体识别、机器翻译等,它的核心思想在于认为前后的输入存在关系。因此,根据目标图像序列,循环神经网络RNN能够提取有关于目标图像序列中先后图像之间的关联的信息,进而得到能够反映目标图像序列沿序列方向的图像特征的第一输出数据。而卷积神经网络基于第一输出数据进行数据处理,也就是对已经带有目标图像序列沿序列方向的图像特征的数据进一步处理,进一步提取沿图像平面的图像特征,并得到第二输出数据,此时,第二输出数据既带有目标图像序列沿序列方向的图像特征、又带有图像平面的图像特征。之后,全连接网络根据第二输出数据确定目标图像序列的图像类别,由此,全连接网络是基于目标图像序列所对应的三维图像特征而得到的图像类别确定结果。
如图3所示,为目标图像序列的一种简单示例,其中,目标图像序列的格式为5*5*3,也就是目标图像序列中每个图像大小为5*5,目标图像序列的图像数量为3。若目标图像序列为P,在图3中,P1、P2、P3依次为目标图像序列P中的图像,箭头方向就是目标图像序列的序列方向。由此,图像分类模型中的循环神经网络RNN根据目标图像序列P得到第一输出数据,该第一输出数据反映目标图像序列P沿图3中箭头方向的图像特征,之后,图像分类模型中的卷积神经网络CNN根据第一输出数据得到第二输出数据,第二输出数据反映目标图像序列在图像平面(P1、P2、P3)的图像特征,最后,图像分类模型中的全连接网络根据第二输出数据,得到目标图像序列的图像类别。
其中,图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。在训练图像分类模型时,将历史图像序列作为图像分类模型的输入数据、并将该历史图像序列对应的图像类别作为输出数据,基于上述结构的神经网络进行训练,以得到图像分类模型。
在步骤23中,将目标图像序列的图像类别确定为待处理图像的图像类别。
在一种可能的场景中,若待处理图像为医学的三维CT图像,则图像分类模型可以用于对医学领域的三维CT图像进行分类。在模型训练阶段,多组历史图像序列可以取自不同的医学CT图像,各组历史图像对应的图像类别可以是医学CT图像对应的疾病类别(可人工标注,例如,肺结节等)。在实际应用时,获取到三维CT图像后,利用上述方法,可以确定出该三维CT图像所对应的疾病类别。
在另一种可能的场景中,若待处理图像为视频的连续多帧图像,则图像分类模型可以用于对视频进行分类。在模型训练阶段,多组历史图像序列可以取自不同的视频,各组历史图像对应的图像类别可以是视频所对应的类别(可人工标注,例如,美景、美食等)。在实际应用时,在获取到视频后,利用上述方法,可以确定出该视频所对应的类别。
通过上述技术方案,获取与待处理图像对应的目标图像序列,将目标图像序列输入至图像分类模型,获得图像分类模型针对目标图像序列输出的图像类别,并将目标图像序列的图像类别确定为待处理图像的图像类别。其中,图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络。循环神经网络RNN用于根据目标图像序列得到第一输出数据,第一输出数据能够反映目标图像序列沿序列方向的图像特征。卷积神经网络CNN用于根据第一输出数据得到第二输出数据,第二输出数据能够反映目标图像序列沿图像平面以及沿序列方向的图像特征。全连接网络用于根据第二输出数据确定目标图像序列的图像类别。由此,通过循环神经网络RNN提取目标图像序列在序列方向上的图像特征后,卷积神经网络CNN基于循环神经网络RNN输出的结果进一步提取图像在图像平面的图像特征,实现了三维图像空间特征的融合,这样,输入至全连接网络的数据既包含目标图像序列在图像平面的图像特征(三维图像的横截面特征)、又包含图像序列沿图像序列方向的图像特征(三维图像的纵截面特征),最终得到的图像类别更加贴近待处理图像,从而提升图像分类精度。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上文中的相应步骤及相关概念进行详细的说明。
首先对本方案所使用的循环神经网络进行介绍,由于本方案所使用的循环神经网络与现有技术原理相似,因此仅作简单介绍。循环神经网络的网络结构可以如图4所示,其函数表达式如下所示:
ht=f(UXt+Wht-1)
其中,X、O、h依次对应循环神经网络的输入层、输出层、隐藏层,Xt是t时刻的输入,Ot是t时刻的输出,ht是t时刻的隐状态,U、W、V分别为矩阵,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵,W是上一次的隐状态到这一次的隐状态的权重矩阵,f为激活函数(例如,非线性激活函数)。另外,循环神经网络的各层共享同样的参数(U、W、V),因此,网络中需要学习的参数很少,数据处理方面存在优势。
基于上文所述,若目标图像序列的图像数量为K,则第一输出数据包含O1~OK,其中,Oi=RNN(Pi,Oi-1),Pi为第i个图像,1≤i≤K。
从而,在利用卷积网络进行特征提取时,使用的不再是图像序列数据,而是循环神经网络输出的第一输出数据,因此,公式中,不再是conv(Pi),而是conv(Oi),即/>
在一种可能的实施方式中,循环神经网络RNN将输入的目标图像序列转换为第一序列数据,并根据第一序列数据得到第一输出数据,其中,第一序列数据包括多组数据,第一序列数据的数据组数的行数与目标图像序列的图像数量相同,第一序列数据中的第N组数据对应于目标图像序列中的第N张图像,以及,第一序列数据中的第M+1组数据为第M组数据的下一状态。
如上所述,循环神经网络是对序列建模的数据,因此,循环神经网络无法对目标图像序列直接进行处理,需要首先将目标图像序列转换为第一序列数据,之后再根据第一序列数据得到第一输出数据。其中,第一序列数据中的每一组数据对应于目标图像序列中的一个图像。
例如,若目标图像序列的格式为512*512*K(K个512*512大小的图像),则首先将其转换为262144*K(262144=512*512)的第一序列数据,可以为262144*K的矩阵,矩阵中的每一行对应于目标图像序列中的一个图像,每一行包含该行对应的图像的262144个像素。在使用循环神经网络RNN时,分别将K组数据分别作为循环神经网络的输入数据(相当于前文给出的Xt,其状态的前后关系参照目标图像序列的顺序确定),以得到循环神经网络RNN的第一输出数据。
采用上述方式,将图像序列数据转化为序列数据形式,供循环神经网络使用,从而使循环神经网络能够对图像数据进行处理,在图像处理中借助循环神经网络本身的优势,达到快速处理数据的目的。
在另一种可能的实施方式中,循环神经网络RNN用于根据目标图像序列、以及目标图像序列中各个像素点的环境信息,得到第一输出数据,其中,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息。
也就是说,循环神经网络的输入除了包括目标图像序列之外,还包含目标图像序列中各个像素点的环境信息。示例地,像素点的环境信息可以是该像素点所在图像上、以该像素点为中心的9个像素点的像素点信息。另外,对于不足的像素点,可以进行补零处理。
在上述实施方式中,循环神经网络RNN将输入的目标图像序列和目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据第二序列数据得到第一输出数据,其中,第二序列数据包括多组数据,第二序列数据的数据组数与目标图像序列的图像数量相同,第二序列数据中的第N组数据对应于目标图像序列中的第N张图像,以及,第二序列数据中的第M+1组数据为第M组数据的下一状态。
其中,将输入的目标图像序列和目标图像序列中各个像素点对应的环境信息转换为第二序列数据与上文中给出的转换成第一序列数据的原理相似,此处不赘述。需要说明的是,在第二序列数据中,每一个像素点在第二序列数据中对应的数据不仅包括该像素点本身的像素点信息,还包括该像素点对应的环境信息。例如,若像素点A5的环境信息是该像素点所在图像上、以该像素点为中心的9个像素点(A1~A9)的像素点信息,则像素点A5在第二序列数据中对应的数据可以为A5以及A1~A9所构成的十维向量[A5,A1,A2,A3,A4,A5,A6,A7,A8,A9]。
采用上述方式,除了利用目标图像序列中各图像的信息外,还结合其中各个像素点的环境信息提取图像特征,使得提取出的图像的特征更加能够反映图像本身,为后续的数据处理提供更加准确的数据支持。并且,将图像序列数据转化为序列数据形式,供循环神经网络使用,从而使循环神经网络能够对图像数据进行处理,在图像处理中借助循环神经网络本身的优势,达到快速处理数据的目的。
图5是根据本公开的一种实施方式提供的图像处理装置的框图,如图5所示,所述装置50包括:
获取模块51,用于获取与待处理图像对应的目标图像序列;
处理模块52,用于将所述目标图像序列输入至图像分类模型,获得所述图像分类模型针对所述目标图像序列输出的图像类别,其中,所述图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;所述循环神经网络RNN用于根据所述目标图像序列得到第一输出数据,所述第一输出数据能够反映所述目标图像序列沿序列方向的图像特征;所述卷积神经网络CNN用于根据所述第一输出数据得到第二输出数据,所述第二输出数据能够反映所述目标图像序列沿图像平面以及沿序列方向的图像特征;所述全连接网络用于根据所述第二输出数据确定所述目标图像序列的图像类别;
确定模块53,用于将所述目标图像序列的图像类别确定为所述待处理图像的图像类别。
可选地,所述循环神经网络RNN将输入的所述目标图像序列转换为第一序列数据,并根据所述第一序列数据得到所述第一输出数据,其中,所述第一序列数据包括多组数据,所述第一序列数据的数据组数与所述目标图像序列的图像数量相同,所述第一序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第一序列数据中的第M+1组数据为第M组数据的下一状态。
可选地,所述循环神经网络RNN用于根据所述目标图像序列、以及所述目标图像序列中各个像素点的环境信息,得到所述第一输出数据,其中,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息。
可选地,所述循环神经网络RNN将输入的所述目标图像序列和所述目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据所述第二序列数据得到所述第一输出数据,其中,所述第二序列数据包括多组数据,所述第二序列数据的数据组数与所述目标图像序列的图像数量相同,所述第二序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第二序列数据中的第M+1组数据为第M组数据的下一状态。
可选地,所述图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。
可选地,所述待处理图像为三维CT图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备的框图。如图6所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的图像处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的图像处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的图像处理方法。
图7是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1900可以被提供为一服务器。参照图7,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的图像处理方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的图像处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的图像处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (12)
1.一种图像处理方法,其特征在于,所述方法包括:
获取与待处理图像对应的目标图像序列,其中,所述待处理图像为具有空间的位置先后关系的一组图像;
将所述目标图像序列输入至图像分类模型,获得所述图像分类模型针对所述目标图像序列输出的图像类别,其中,所述图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;所述循环神经网络RNN用于根据所述目标图像序列、以及所述目标图像序列中各个像素点的环境信息,得到第一输出数据,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息,所述第一输出数据能够反映所述目标图像序列沿序列方向的图像特征;所述卷积神经网络CNN用于根据所述第一输出数据得到第二输出数据,以实现所述目标图像序列空间特征的融合,所述第二输出数据能够反映所述目标图像序列沿图像平面以及沿序列方向的图像特征;所述全连接网络用于根据所述第二输出数据确定所述目标图像序列的图像类别;
将所述目标图像序列的图像类别确定为所述待处理图像的图像类别。
2.根据权利要求1所述的方法,其特征在于,所述循环神经网络RNN将输入的所述目标图像序列转换为第一序列数据,并根据所述第一序列数据得到所述第一输出数据,其中,所述第一序列数据包括多组数据,所述第一序列数据的数据组数与所述目标图像序列的图像数量相同,所述第一序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第一序列数据中的第M+1组数据为第M组数据的下一状态。
3.根据权利要求1所述的方法,其特征在于,所述循环神经网络RNN将输入的所述目标图像序列和所述目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据所述第二序列数据得到所述第一输出数据,其中,所述第二序列数据包括多组数据,所述第二序列数据的数据组数与所述目标图像序列的图像数量相同,所述第二序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第二序列数据中的第M+1组数据为第M组数据的下一状态。
4.根据权利要求1所述的方法,其特征在于,所述图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述待处理图像为三维CT图像。
6.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取与待处理图像对应的目标图像序列,其中,所述待处理图像为具有空间的位置先后关系的一组图像;
处理模块,用于将所述目标图像序列输入至图像分类模型,获得所述图像分类模型针对所述目标图像序列输出的图像类别,其中,所述图像分类模型包括循环神经网络RNN、卷积神经网络CNN以及全连接网络;所述循环神经网络RNN用于根据所述目标图像序列、以及所述目标图像序列中各个像素点的环境信息,得到第一输出数据,像素点的环境信息为该像素点周边预设范围内像素点的像素点信息,所述第一输出数据能够反映所述目标图像序列沿序列方向的图像特征;所述卷积神经网络CNN用于根据所述第一输出数据得到第二输出数据,以实现所述目标图像序列空间特征的融合,所述第二输出数据能够反映所述目标图像序列沿图像平面以及沿序列方向的图像特征;所述全连接网络用于根据所述第二输出数据确定所述目标图像序列的图像类别;
确定模块,用于将所述目标图像序列的图像类别确定为所述待处理图像的图像类别。
7.根据权利要求6所述的装置,其特征在于,所述循环神经网络RNN将输入的所述目标图像序列转换为第一序列数据,并根据所述第一序列数据得到所述第一输出数据,其中,所述第一序列数据包括多组数据,所述第一序列数据的数据组数与所述目标图像序列的图像数量相同,所述第一序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第一序列数据中的第M+1组数据为第M组数据的下一状态。
8.根据权利要求6所述的装置,其特征在于,所述循环神经网络RNN将输入的所述目标图像序列和所述目标图像序列中各个像素点对应的环境信息转换为第二序列数据,并根据所述第二序列数据得到所述第一输出数据,其中,所述第二序列数据包括多组数据,所述第二序列数据的数据组数与所述目标图像序列的图像数量相同,所述第二序列数据中的第N组数据对应于所述目标图像序列中的第N张图像,以及,所述第二序列数据中的第M+1组数据为第M组数据的下一状态。
9.根据权利要求6所述的装置,其特征在于,所述图像分类模型根据多组历史图像序列、以及与各组历史图像序列对应的图像类别训练得到。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述待处理图像为三维CT图像。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911235741.7A CN111126454B (zh) | 2019-12-05 | 2019-12-05 | 图像处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911235741.7A CN111126454B (zh) | 2019-12-05 | 2019-12-05 | 图像处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126454A CN111126454A (zh) | 2020-05-08 |
CN111126454B true CN111126454B (zh) | 2024-03-26 |
Family
ID=70496159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911235741.7A Active CN111126454B (zh) | 2019-12-05 | 2019-12-05 | 图像处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126454B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201126A (zh) * | 2010-03-24 | 2011-09-28 | 联想(北京)有限公司 | 一种图像处理方法、系统及终端 |
CN108664848A (zh) * | 2017-03-30 | 2018-10-16 | 杭州海康威视数字技术股份有限公司 | 图像目标的识别方法及装置 |
CN108985376A (zh) * | 2018-07-17 | 2018-12-11 | 东北大学 | 一种基于卷积-循环神经网络的回转窑序列工况识别方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN110111848A (zh) * | 2019-05-08 | 2019-08-09 | 南京鼓楼医院 | 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 |
CN110276408A (zh) * | 2019-06-27 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 3d图像的分类方法、装置、设备及存储介质 |
WO2019215605A1 (en) * | 2018-05-07 | 2019-11-14 | Zebra Medical Vision Ltd. | Systems and methods for analysis of anatomical images |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11049018B2 (en) * | 2017-06-23 | 2021-06-29 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
-
2019
- 2019-12-05 CN CN201911235741.7A patent/CN111126454B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201126A (zh) * | 2010-03-24 | 2011-09-28 | 联想(北京)有限公司 | 一种图像处理方法、系统及终端 |
CN108664848A (zh) * | 2017-03-30 | 2018-10-16 | 杭州海康威视数字技术股份有限公司 | 图像目标的识别方法及装置 |
WO2019215605A1 (en) * | 2018-05-07 | 2019-11-14 | Zebra Medical Vision Ltd. | Systems and methods for analysis of anatomical images |
CN108985376A (zh) * | 2018-07-17 | 2018-12-11 | 东北大学 | 一种基于卷积-循环神经网络的回转窑序列工况识别方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN110111848A (zh) * | 2019-05-08 | 2019-08-09 | 南京鼓楼医院 | 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 |
CN110276408A (zh) * | 2019-06-27 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 3d图像的分类方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
CNN and RNN mixed model for image classification;Qiwei Yin等;《MATEC Web of Conferences》;20190131;第1-7页 * |
基于CNN-LSTMs 混合模型的人体行为识别方法;陈飞等;《浙江大学学报(理学版)》;20190531;第46卷(第3期);第370-379页 * |
基于循环神经网络(RNN)和卷积神经网络(CNN)对电子邮件的作者识别;米硕;《科技创新与应用》;20181231;第24-25页 * |
王思宇.基于CNN-RNN的微表情识别.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,I138-4579. * |
罗福成等.《彩色多普勒超声诊断学》.人民军医出版社,2002,第62-72页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111126454A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551333B2 (en) | Image reconstruction method and device | |
WO2020238560A1 (zh) | 视频目标跟踪方法、装置、计算机设备及存储介质 | |
KR102591961B1 (ko) | 모델 트레이닝 방법 및 장치, 및 이를 위한 단말 및 저장 매체 | |
CN109766840B (zh) | 人脸表情识别方法、装置、终端及存储介质 | |
CN111476709B (zh) | 人脸图像处理方法、装置及电子设备 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN111797882B (zh) | 图像分类方法及装置 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
KR102095097B1 (ko) | 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법 | |
US20220019843A1 (en) | Efficient refinement neural network for real-time generic object-detection systems and methods | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
EP4293631A1 (en) | Method and apparatus for image clustering, computer device, and storage medium | |
CN114936377A (zh) | 模型训练和身份匿名化方法、装置、设备及存储介质 | |
CN112884648A (zh) | 多类模糊图像超分辨率重建的方法和系统 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN115546549A (zh) | 点云分类模型构建方法、点云分类方法、装置及设备 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN107274425A (zh) | 一种基于脉冲耦合神经网络的彩色图像分割方法及装置 | |
CN111476060A (zh) | 人脸清晰度分析方法、装置、计算机设备及存储介质 | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN117372465A (zh) | 基于背景图像的分割方法、模型训练方法、介质和设备 | |
CN111126454B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN116168393A (zh) | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |