发明内容
本发明提出了用于图像分类的方法、装置和计算机可读存储介质以及用于生成图像分类模型的方法、装置和计算机可读介质以至少部分地解决现有技术的上述及其它潜在问题。
本公开的第一方面提供了一种用于图像分类的方法。所述方法可以包括:将影像文件按照时间序列分解成多个图像帧;利用所述影像文件的元信息,基于所述多个图像帧来合成图片;使用分类模型对所合成的图片进行分类以生成分类结果。
本公开的第二方面提供了一种用于图像分类的装置。所述装置可以包括:分解单元,其将影像文件按照时间序列分解成多个图像帧;合成单元,其利用所述影像文件的元信息,基于所述多个图像帧来合成图片;以及分类单元,其使用分类模型对所合成的图片进行分类以生成分类结果。
在上述方法和装置的一些实施方式中,将影像文件按照时间序列分解成多个图像帧可以包括:读取所述影像文件并解析所述影像文件的元信息;以及基于所述元信息来输出所述多个图像帧。所述元信息可以包括:影像信息、拍摄时间信息、拍摄机位角度信息、拍摄设备信息、或其组合。
在上述方法和装置的一些实施方式中,利用所述影像文件的元信息,基于所述多个图像帧来合成图片可以包括:根据所述拍摄设备信息,对所述多个图像帧进行预处理;根据所述拍摄机位角度信息,按照拍摄机位对经预处理的所述多个图像帧进行划分;根据所述拍摄设备信息,选择经预处理的所述多个图像帧中的一个或多个图像帧;以及使用所选择的一个或多个图像帧来合成图片。
在上述方法和装置的一些实施方式中,使用分类模型对所合成的图片进行分类以生成分类结果可以包括:针对所合成的图片,使用基于神经网络的分类模型进行识别,其中,所述分类模型是根据已标注种类的历史影像文件来生成的;以及根据识别结果,生成所述分类结果。
在上述方法和装置的一些实施方式中,根据所述分类结果对图像进行配准可以包括:将第一拍摄机位的分类结果和第二拍摄机位的分类结果的种类进行匹配;以及根据图像在时间上的接近度将具有匹配的种类的所述第一拍摄机位的图像和所述第二拍摄机位的图像进行配准。
本公开的第三方面提供了一种用于生成图像分类模型的方法。所述方法可以包括:根据已标注种类的历史影像文件,按照指定的参数对图像进行划分;将所述历史影像文件按照时间序列分解成多个图像帧;利用所述历史影像文件的元信息,基于所述多个图像帧来合成图片;将所合成的图片的至少一部分划分为训练集;以及根据所述训练集,利用神经网络进行训练来生成分类模型。
在一个实施方式中,所述方法还可以包括:对所合成的图片进行图形增强以扩展所述训练集。
在一个实施方式中,所述方法还可以包括:将所合成的图片的至少一部分划分为验证集;以及基于所述验证集来调整所述神经网络的参数,所述参数包括学习率、批大小、模型块、层数。
在一个实施方式中,所述神经网络可以包括深度神经网络、循环神经网络、卷积神经网络、或其组合。
本公开的第四方面提供了一种用于图像分类的装置。所述装置包括:存储器,其用于存储指令;以及处理器,其耦合到所述存储器,所述处理器被配置为基于所述指令来执行如上所述的用于图像分类的方法。
本公开的第五方面提供了一种用于生成图像分类模型的装置。所述装置包括:存储器,其用于存储指令;以及处理器,其耦合到所述存储器,所述处理器被配置为基于所述指令来执行如上所述的用于生成图像分类模型的方法。
本公开的第六方面提供了一种其上存储有指令的计算机可读存储介质。所述指令在被执行时用于实现如上所述的方法。
根据本发明的用于图像分类的方法、装置和计算机可读介质以及用于生成图像分类模型的方法、装置和计算机可读介质,能够针对各种不同拍摄位置的不同种类的图像进行准确的分类识别,并自动将其各种位置的相同种类图像进行配准,节省了技术人员和研究人员的宝贵时间,给研究带来便利。
具体实施方式
以下参考附图详细描述本公开的各个示例性实施例。虽然以下描述示例性方法、装置包括在其它组件当中硬件上执行的软件和/或固件,但应注意,这些示例仅仅是说明性的,不应看作限制。例如,考虑在硬件中独占地、在软件中独占地、或在硬件和软件的任何组合中可以实施任何或所有硬件、软件和固件组件。因此,虽然以下描述示例性方法和装置,但本领域技术人员应容易理解,提供的示例不仅仅是用于实现这些方法和装置方式。
此外,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
本文使用词语“示例性”表示“充当示例、实例或举例说明”。本文中被描述为“示例性”的任何实施例都并非必然解释为对于其它实施例而言是优选的或有优势的。
在本说明书中,术语“影像文件”指的是时间序列上的多个图像帧,其可以包括视频或一组离散的图像帧。
图1示出依据本发明实施例的用于图像分类的示例性方法100的流程图。如流程图所示,方法100包括以下步骤:
步骤S101:将影像文件分解成多个图像帧。在该步骤中,一个影像文件包括多个图像帧,因此需要将多个影像文件中的每个影像文件分解成多个图像帧以进行后续处理。可选地,步骤S101可以进一步包括:读取影像文件并解析影像文件的元信息;以及基于元信息来输出多个图像帧。例如,可以从外部设备(如影像生成设备或其它存储设备)读取影像文件。在一个实施例中,元信息可以包括影像信息、拍摄时间信息、拍摄机位角度信息、拍摄设备信息、或其组合。例如,可以根据元信息中的影像信息来输出多个图像帧。
步骤S102:利用所述影像文件的元信息,基于多个图像帧来合成图片。在该步骤中,利用所述影像文件的元信息,基于多个图像帧来合成图片可以有效地得到图像的特征,以减小原始图像不佳对后续分类操作的影响。例如,可以合成一个或多个图片。可选地,步骤S102可以进一步包括:根据拍摄设备信息,对多个图像帧进行预处理(例如,由于不同拍摄设备的精度、采样率和输出数据可能存在差异,执行预处理以便后续一致地处理);根据拍摄机位角度信息,按照拍摄机位对经预处理的所述多个图像帧进行划分(例如,每个影像文件表示了一个拍摄机位角度的图像,如正位、侧位、斜位);根据拍摄设备信息,选择经预处理的多个图像帧中的一个或多个图像帧(例如,截取序列图像中各阶段图);使用所选择的一个或多个图像帧来合成图片(例如,按照一定规则,对所选择的图像帧进行叠加、相减等操作,来生成若干个不同效果的合成图)。
步骤S103:使用分类模型对所合成的图片进行分类以生成分类结果。可选地,步骤S103可以进一步包括:针对所合成的图片,使用基于神经网络的分类模型进行识别,其中,分类模型是根据已标注种类的历史影像文件来生成的;以及根据识别结果,来生成分类结果。例如,分别对生成的单张合成图使用指定的分类模型进行分类识别,并基于识别结果可以得到精准的分类(例如,采用投票和相应规则来生成分类结果)。
可选地,方法100还包括以下步骤:根据分类结果对图像进行配准。在该步骤中,可以把不同拍摄位置的具有相同分类结果(例如,相同种类)的图像进行配准。该步骤可以进一步包括:将第一拍摄机位的分类结果和第二拍摄机位的分类结果的种类进行匹配;以及根据图像在时间上的接近度将具有匹配的种类的第一拍摄机位的图像和第二拍摄机位的图像进行配准。例如,假设第一拍摄机位为正位并且第二拍摄机位为侧位,将生成的正位分类结果不分左右和侧位生成结果的图像种类匹配,根据拍摄时间信息来按照最近邻原则将相同图像种类的正位图像和侧位图像进行配准(即,将在时间上最接近的正位图像和侧位图像进行配准),从而能够准确查找定位所需要的图像,节省了时间。
图2示出依据本发明实施例的用于生成图像分类模型的示例性方法200的流程图。如流程图所示,方法200包括以下步骤:
步骤S201:根据已标注种类的历史影像文件,按照预定参数对图像进行划分。例如,根据影像文件的元信息中的拍摄机位角度信息可以将图像划分为正位、侧位等。在其它示例中,指定的参数可以是其它信息。
步骤S202:将历史影像文件按照时间序列分解成多个图像帧。步骤S202类似于方法100中的步骤S101。
步骤S203:利用历史影像文件的元信息,基于多个图像帧来合成图片。步骤S203类似于方法100中的步骤S102。
步骤S204:将所合成的图片的至少一部分划分为训练集。例如,可以将合成图按照一定比例分为训练集、测试集和验证集。
步骤S205:根据训练集,利用神经网络进行训练来生成分类模型。可选地,该神经网络包括深度神经网络、循环神经网络、卷积神经网络、或其组合。神经网络是一种人为设计的网络结构,其本质是多层感知机。感知机由若干神经元构成,每个神经元从外部或其它节点收到输入信号,并通过激活函数得到输出信号,就像大脑中神经元的信号传递。神经元按层相连,形成网络结构。与神经细胞不同,人工神经元的信号能够反向传播,这种反馈机制让感知机具备学习功能。除了学习功能,多层感知机可以表示非线性映射,因此神经网络能够帮助人们解决一些相对复杂的问题,如图像分类、自动控制、决策评估等。
可选地,方法200还包括:对所合成的图片进行图形增强以扩展训练集。例如,考虑到图像的特点,可以采用包括图像水平翻转、图像平移、图像缩放等的图像增强来增大训练集,以减小由于合成图片数量不足而造成的对训练分类模型的影响。
可选地,方法200还包括:将所合成的图片的至少一部分划分为验证集;以及基于所述验证集来调整所述神经网络的参数,所述参数包括学习率、批大小、模型块、层数。在该步骤中,通过调整参数可以优化神经网络对分类模型的训练。
图3示出依据本发明实施例的用于图像分类的示例性装置300的框图。
装置300可以包括:分解单元301、合成单元302、分类单元303。分解单元301、合成单元302、分类单元303分别可以被配置为实现如图1关于方法100所描述的步骤S101、S102、S103。可选地,装置300还可以包括配准单元304,配准单元304可以被配置为根据分类单元303的分类结果对图像进行配准。配准单元304可以通过执行如上文关于方法100所描述的类似步骤来根据分类结果对图像进行配准。应当理解,在其它实施方式中,这些单元中的一个或多个可以进行组合,例如,分解单元301和合成单元302可以进行组合,分类单元303和配准单元304可以进行组合。
图4示出依据本发明实施例的用于运载班次分类的示例性装置200的示意图。装置400可以包括:存储器401和耦合到存储器401的处理器402。存储器401用于存储指令,处理器402被配置为基于存储器401存储的指令来实现针对图1或图2所描述的方法的步骤中的任何步骤中的一个或多个。
如图4所示,装置400还可以包括通信接口403,用于与其它设备进行信息交互。此外,装置400还可以包括总线404,存储器401、处理器402和通信接口403通过总线404来彼此进行通信。
存储器401可以包括易失性存储器,也可以包括非易失性存储器。处理器402可以是中央处理器(CPU)、微控制器、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、或是被配置为实现本发明的实施例的一个或多个集成电路。
为了更好地表达本发明的构思,下面结合一个具体的示例来进行说明。
图5示出依据本发明的实施例的用于图像分类的方法的一个具体示例500。在该示例500中,影像文件以DSA图像文件为例。为便于说明,图6示出了DSA图像文件的完整序列图像帧显示图600,图7示出了图6的图像帧的不同合成图700。
DSA通过数字化处理,把不需要的组织影像删除掉,只保留血管影像,其特点是图像清晰,分辨率高,对观察血管病变,血管狭窄的定位测量,诊断及介入治疗提供了真实的立体图像,为各种介入检查和治疗提供了必备条件。DSA图像文件可以以符合特定标准(例如,DICOM(Digital Imaging and Communications in Medicine)即医学数字成像和通信,其是医学图像和相关信息的国际标准(ISO 12052))的数据格式进行数字化存储。现有的多种DSA图像查看软件,如在Microsoft Windows系列平台上RadiAnt公司的DICOM Viewer,在Apple OSX/IOS平台上OsiriX的DICOM Viewer,虽然都能提供各种DSA图像文件读取、管理及显示功能,但无法直接对各序列DSA图像文件进行自动分类。虽然DSA图像文件会记录很多Meta信息(元信息),如病人信息、影像信息及设备信息,但往往影像操作人员并不会把具体的影像序列详细信息录入,这就造成之后医务或研究人员查看不方便,不能直接查找定位所需要的DSA图像。此外,即使医生和研究人员凭借经验通过人眼识别出单个DSA图像的血管类型,也无法将其对应的不同拍摄位置造影进行正确匹配,这会占用临床医生的宝贵时间,也不便于医疗研究。
在该示例500中,DSA图像文件以DICOM文件为例。应当理解,该示例是用于说明而非限制,其它格式的DSA图像文件也适用于本发明所描述的方法和装置。如流程图所示,方法500包括以下步骤:
在步骤S501:输入某病人的某天一系列DSADICOM文件,其包括多个DSADICOM文件,每个DSADICOM文件包括时间序列上的多个图像帧。
在步骤S502:逐个读取DICOM文件,解析DICOM元信息,获得影像信息、拍摄时间信息、拍摄机位角度信息以及拍摄设备信息等。例如,例如,影像信息可以包括(Image Type,Cine Rate,Number of Frames,Rows,Columns)等属性,拍摄时间信息可以包括(StudyDate,Content Date,Content Time)等属性,拍摄机位角度信息可以包括(PositionerPrimary Angle,Positioner Secondary Angle,Table Angle)等属性,拍摄设备信息可以包括(Modality,Manufacturer,Manufacturer’s Model Name)等属性。
在步骤S503:根据影像信息输出DSA的序列图像帧,如图6所示,该显示图600包括40个图像帧,描绘了不同时间上的血管造影情形,例如从造影尚未开始到造影结束。
在步骤S504:基于拍摄设备信息对序列图像帧根据多种叠加方式获得各合成图并进行预处理。例如,选取DSA造影成像的不同阶段(动脉期、毛细血管期、静脉期、静脉窦期)或者其它方式规则叠加或减去图像,形成某个方法的单张合成图,然后进行预处理,如根据之后的深度神经网络分类模型进行图像大小放缩。图7示出了图6的图像帧的3个不同合成图700。
在步骤S505:根据拍摄机位角度信息(拍摄位置)使用指定的深度神经网络(例如,VGG/DenseNet)分类模型对各个合成图进行分类识别。具体地,通过卷积层、激活函数、最大池化层,逐步提取各个维度的图像特征,然后在全连接层以一定的阈值维度输出并结合dropout处理,最后通过softmax回归模型得出识别结果。
在步骤S506:对得到的多个分类结果进行投票以及执行其它规则得到精准分类结果。具体地,针对同一DICOM文件的若干个不同组合叠加方式的合成图使用模型得到分类结果(造影血管种类,例如,颈内血管、颈外血管等),取结果出现次数最多的结果为确定结果。如果最多次数有多个结果,则按照一定规则选出某一结果为确定结果。
在步骤S507:判断是否是最后一个DSADICOM文件。如果S507的结果为是,则进行到步骤S508,否则如果S507的结果为否,则跳转到步骤S502继续前述步骤。
在步骤S508:根据拍摄时间信息对不同拍摄位置的相同输出分类结果进行配准。例如,根据拍摄时间信息来按照最近邻原则将相同造影血管种类的正位DSA图像和侧位DSA图像进行配准。
本发明的上述实施例具有如下优点:通过影像文件的元信息对图像文件的指定参数(例如拍摄角度)进行预分类,包括正位,侧位,斜位以及多角度环形拍摄位等。接着,对某一角度拍摄位的照片进行多种方式叠加合成,并针对各合成图像应用不同的模型进行训练及测试,尽可能让模型算法能学习到序列图像帧中不同阶段的各种特征,并根据预测结果按照投票以及规则优化分类结果,提升识别性能。最后,通过拍摄时间信息根据最近邻原则对各不同位置进行配准,相较于人类肉眼识别大幅提高效率和准确率。
此外,替代地,上述的用于图像分类或用于生成图像分类模型的方法的流程还代表机器可读指令,该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中,该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代地,图1、图2和图5中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
此外,用于执行本公开的各个方面的计算机可读程序指令或者计算机程序产品也能够存储在云端,在需要调用时,用户能够通过移动互联网、固网或者其它网络访问存储在云端上的用于执行本公开的各个方面的计算机可读程序指令,从而实施依据本公开的各个方面所公开的技术方案。
以上所述仅为本公开的可选实施例,并不用于限制本公开的实施例,对于本领域的技术人员来说,本公开的实施例可以有各种更改和变化。凡在本公开的实施例的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的实施例的保护范围之内。
虽然已经参考若干具体实施例描述了本公开的实施例,但是应该理解,本公开的实施例并不限于所公开的具体实施例。本公开的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。