CN110651277B - 计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品 - Google Patents
计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品 Download PDFInfo
- Publication number
- CN110651277B CN110651277B CN201980001313.XA CN201980001313A CN110651277B CN 110651277 B CN110651277 B CN 110651277B CN 201980001313 A CN201980001313 A CN 201980001313A CN 110651277 B CN110651277 B CN 110651277B
- Authority
- CN
- China
- Prior art keywords
- residual
- output
- convolutional
- blocks
- residual blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
提供了一种计算机实现的方法。计算机实现的方法包括:使用包括残差网络的分类模型对图像进行分类。使用分类模型对图像进行分类包括:将输入图像输入至残差网络中,残差网络具有:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N‑1)个池化层;以及分别连接至N个残差块中的第一至第(N‑1)残差块的(N‑1)个卷积层;分别通过(N‑1)个卷积层处理来自N个残差块中的第一至第(N‑1)残差块的输出;对分别来自(N‑1)个卷积层的输出进行矢量化,以生成(N‑1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出。
Description
技术领域
本发明涉及图像处理技术,更具体地,涉及计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品。
背景技术
已针对各种目的(比如对数据的表征学习)将机器学习和神经网络用于分析图像。已经开发了机器学习和神经网络方法来识别图像中描画的对象。神经网络是具有至少一个隐藏层的网络,并且可以通过组合较低级别的特征来形成表示属性类别的抽象高级特征,以便找到数据的分布式表示。
发明内容
一方面,本发明提供了一种计算机实现的方法,包括:使用包括残差网络的分类模型对图像进行分类;其中,使用分类模型对图像进行分类包括:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出。
可选地,计算机实现的方法还包括:对来自第n残差块的输出进行池化,以生成第n中间图像;以及通过第(n+1)残差块处理第n中间图像,1≤n≤(N-1);其中,通过(N-1)个卷积层分别处理来自N个残差块中的第一至第(N-1)残差块的输出而不进行池化。
可选地,(N-1)个池化层是(N-1)个最大池化层。
可选地,(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
可选地,使用分类模型对图像进行分类还包括:通过全连接层处理连接输出。
可选地,N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。
可选地,M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,第一卷积层包括1*1卷积核,第二卷积层包括3*3卷积核,并且第三卷积层包括1*1卷积核。
可选地,将输入图像输入至残差网络中包括:通过位于N个残差块中的第一残差块之前的包括7*7卷积核的卷积层来处理输入图像;对来自位于第一残差块之前的卷积层的输出进行池化;以及,输出中间图像作为到第一残差块的输入。
可选地,计算机实现的方法还包括:通过将多个训练图像输入至残差网络中来预训练分类模型;将分别对应于所述多个训练图像的多个训练类别输入至分类模型中;将所述多个训练图像中的对应一个分类为一个或多个预测类别;通过将所述一个或多个预测类别与所述多个训练类别中的指定给所述多个训练图像中的对应一个的一个或多个训练类别进行比较,来计算损耗;以及,基于损耗来调整残差网络。
可选地,通过下式计算损耗: 其中,C表示所述多个训练类别的总数量,yn表示所述多个训练类别中的指定给所述多个训练图像中的对应一个的所述一个或多个训练类别,并且xn表示所述一个或多个预测类别。
可选地,所述计算机实现的方法还包括:在将所述多个训练图像中的对应一个分类为所述一个或多个预测类别之前,预处理所述多个训练图像。
另一方面,本发明提供了一种计算机实现的诊断方法,包括:根据本文所述的计算机实现的方法将医疗图像分类为多个类别中的一个或多个;其中,所述多个类别包括与正常状态以及多种不同疾病的疾病状态相对应的类别。
可选地,医疗图像是人眼的眼底图像;并且,所述多种不同疾病包括青光眼、糖尿病视网膜病变、高血压性视网膜病变。
另一方面,本发明提供了一种图像分类设备,包括:存储器;一个或多个处理器;其中,存储器和所述一个或多个处理器彼此连接;并且,存储器存储有计算机可执行指令以控制所述一个或多个处理器:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出;基于来自残差网络的输出,存储器存储计算机可执行指令以控制所述一个或多个处理器:使用包括残差网络的分类模型对输入图像进行分类。
可选地,存储器还存储计算机可执行指令以控制所述一个或多个处理器:对来自第n残差块的输出进行池化,以生成第n中间图像;以及,通过第(n+1)残差块处理第n中间图像,1≤n≤(N-1);其中,通过(N-1)个卷积层分别处理来自N个残差块中的第一至第(N-1)残差块的输出而不进行池化。
可选地,(N-1)个池化层是(N-1)个最大池化层。
可选地,(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
可选地,存储器还存储计算机可执行指令以控制所述一个或多个处理器:通过全连接层处理连接输出。
可选地,N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。
可选地,M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,第一卷积层包括1*1卷积核,第二卷积层包括3*3卷积核,并且第三卷积层包括1*1卷积核。
可选地,存储器还存储计算机可执行指令以控制所述一个或多个处理器:通过位于N个残差块中的第一残差块之前的包括7*7卷积核的卷积层来处理输入图像;对来自位于第一残差块之前的卷积层的输出进行池化;以及,输出中间图像作为到第一残差块的输入。
另一方面,本发明提供了一种计算机程序产品,其包括其上具有计算机可读指令的非暂时性有形计算机可读介质,所述计算机可读指令由处理器可执行,以使得处理器执行:使用包括残差网络的分类模型对图像进行分类;其中,所述计算机可读指令由处理器可执行,以使得处理器执行:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出。
附图说明
以下附图仅为根据所公开的各种实施例的用于示意性目的的示例,而不旨在限制本发明的范围。
图1是示出根据本公开的一些实施例中的分类模型中的残差网络的示意图。
图2示出了根据本公开的一些实施例中的分类模型中的残差网络中的N个残差块中的对应一个的结构。
图3是示出根据本公开的一些实施例中的分类模型中的残差网络的示意图。
图4是示出根据本公开的一些实施例中的使用具有残差网络的分类模型对图像进行分类的方法的流程图。
图5是示出根据本公开的一些实施例中的图像分类设备的结构的示意图。
具体实施方式
现在将参照以下实施例更具体地描述本公开。需注意,以下对一些实施例的描述仅针对示意和描述的目的而呈现于此。其不旨在是穷尽性的或者受限为所公开的确切形式。
如本文所用,术语“卷积核”指的是在卷积处理中使用的二维矩阵。可选地,二维矩阵中的多项中的对应一项具有特定值。
如本文所用,术语“卷积”指的是处理图像的过程。卷积核用于卷积。例如,输入图像的每个像素具有值,卷积核从输入图像的一个像素处开始并且顺序地移动穿过输入图像的每个像素。在卷积核的每个位置处,卷积核基于卷积核的大小与图像上的多个像素重叠。在卷积核的位置处,多个被重叠的像素中的一个像素的值被乘以卷积核的对应一个值,以获得多个被重叠的像素中的一个像素的乘值(multiplied value)。随后,将被重叠的像素的全部乘值相加,以获得与卷积核在输入图像上的位置相对应的总值。通过将卷积核移动穿过输入图像的每个像素,收集与卷积核的全部位置相对应的全部总值,并且将其输出以形成输出图像。在一个示例中,卷积处理可以使用不同卷积核来提取输入图像的不同特征。在另一个示例中,卷积处理可以使用不同卷积核来将更多特征添加到输入图像。
如本文所用,术语“卷积层”指的是卷积神经网络中的层。卷积层用于对输入图像执行卷积以获得输出图像。可选地,使用不同卷积核对相同输入图像执行不同卷积。可选地,使用不同卷积核对相同输入图像的不同部分执行卷积。可选地,使用不同卷积核对不同输入图像执行卷积,例如,将多个图像输入卷积层中,对应的卷积核用于执对多个图像中的图像执行卷积。可选地,根据输入图像的不同情况使用不同卷积核。
如本文所用,术语“激活层”指的是卷积神经网络中的层。激活层可以对从卷积层输出的输出信号执行非线性映射。可选地,卷积层包括激活层。可以在激活层中使用各种函数。适于在激活层中采用的函数的示例包括但不限于REL和sigmoid函数。
如本文所用,术语“下采样”指的是提取输入图像的特征并且输出具有更小尺寸(scale)的输出图像的处理。
如本文所用,术语“池化”指的是下采样的类型。各种方法可用于池化。适于池化的方法的示例包括但不限于:最大池化(max-pooling)、平均池化(avg-polling)、抽取(decimation)和分接输出(demuxout)。
如本文所用,术语“上采样”指的是向输入图像添加更多信息并且输出具有更大尺寸的输出图像的处理。
如本文所用,术语“复合层(Muxer layer)”指的是卷积神经网络中的层。复合层执行一种类型的上采样。在一个示例中,多个输入图像被输入到复合层中。复合层将所述多个输入图像重新排列,并且输出多个输出图像。所述多个输入图像的数量等于所述多个输出图像的数量。所述多个输出图像中的对应一个的大小大于所述多个输入图像中的一个的大小。在另一个示例中,2*2复合层输出多个输出图像,所述多个输出图像的大小是所述多个输入图像的大小的四倍。例如,大小为2*2的四个输入图像被输入到2*2复合层中,该四个输入图像中的全部像素被组合并重新排列为大小为4*4的四个图像,并且从2*2复合层输出大小为4*4的四个输出图像。复合层的示例包括但不限于中国专利申请公布No.CN107124609A和No.CN107122826A以及美国专利申请公布No.US2018315165A1中所讨论的复用层;这些专利申请的内容通过引用整体并入本文。
如本文所用,术语“神经网络”指的是用于解决人工智能(AI)问题的网络。神经网络包括多个隐藏层。所述多个隐藏层中的对应一个包括多个神经元(例如,节点)。所述多个隐藏层中的对应一个中的多个神经元与所述多个隐藏层中的相邻一个中的多个神经元连接。神经元之间的连接具有不同权重。神经网络具有模拟生物神经网络的结构的结构。神经网络可以使用不确定性方式解决问题。
神经网络的参数可以通过预训练来调整,例如,将大量问题输入神经网络中,并且从神经网络获得结果。关于这些结果的反馈被反馈回到神经网络中,从而允许神经网络调整神经网络的参数。预训练允许神经网络具有更强的问题解决能力。
如本文所用,术语“卷积神经网络”指的是深度前馈人工神经网络。可选地,卷积神经网络包括多个卷积层、多个上采样层和多个下采样层。例如,所述多个卷积层中的对应一个可以处理图像。上采样层和下采样层可以将输入图像的尺寸改变为与特定卷积层对应的尺寸。随后,可以通过对应尺寸的卷积层处理来自上采样层或下采样层的输出。这使得卷积层能够添加或提取尺寸与输入图像的尺寸不同的特征。
通过预训练,可以调整卷积神经网络的卷积层的参数,包括但不限于卷积核、偏差和权重。因此,可以在诸如图像识别、图像特征提取和图像特征添加之类的各种应用中使用卷积神经网络。
如本文所用,术语“分析网络”指的是用于提取特征的深度神经网络。分析网络等同于图像分类网络的特征提取部分。分析网络包括顺序连接的多个卷积层。所述多个卷积层中的各卷积层具有不同的尺寸。分析网络还包括在所述多个卷积层中的两个相邻卷积层之间布置的下采样部分。下采样部分将输入信号变换为输出信号,该输出信号的尺寸与下个相邻卷积层的尺寸相同。
如本文所用,术语“残差”指的是输入与估计值或拟合值之间的差值。可以通过将各卷积级的输出和输入相加并且激活修正线性单元(ReLU)来获得残差网络的输出。在该示例中,卷积层的输出的相位与卷积层的输入的相位相同。
结合本文所公开的配置描述的各种说明性神经网络、残差块、层(例如,卷积层)、部分、单元、通道、模块、块(例如,卷积块)、核(例如,卷积核)以及其它操作可以实现为电子硬件、计算机软件、或两者的组合。这样的神经网络、残差块、层(例如,卷积层)、部分、单元、通道、模块、块(例如,卷积块)、核(例如,卷积核)以及操作可以用设计为产生本文所公开的配置的以下各项来实现或执行:通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、或它们的任意组合。例如,这样的配置可以至少部分地实现为硬连线电路、实现为制造成专用集成电路的电路配置、或者实现为加载到非易失性存储中的固件程序或作为机器可读代码从数据存储介质中加载或加载到数据存储介质中的软件程序,所述代码是由逻辑元件阵列可执行的指令,所述逻辑元件诸如为专用处理器或其它数字信号处理单元。通用处理器可以为微处理器,替代性地,处理器可以为任何常规的处理器、控制器、微控制器或状态机。处理器还可以实现为计算装置的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它此类配置。软件模块可以存在于非暂时性存储介质中,诸如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(诸如闪速RAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动盘、或CD-ROM;或者可以存在于本领域已知的任何其它形式的存储介质中。说明性的存储介质耦接至处理器,使得处理器可以从存储介质读取信息或将信息写入到存储介质中。替代性地,存储介质可以集成到处理器。处理器和存储介质可以存在于ASIC中。ASIC可以存在于用户终端中。替代性地,处理器和存储介质可作为用户终端中的分立组件存在。
传统的疾病监测和分类模型通常仅可检测特定疾病。为了检测多种疾病,需要训练与多种疾病分别对应的多个疾病分类模型,并且使用多个训练图像集合来分别训练多个疾病分类模型。
因此,本公开特别提供了计算机实现的方法、计算机实现的诊断方法、图像分类设备和计算机程序产品,其实质上消除了由于相关技术的限制和缺陷而导致的问题中的一个或多个。一方面,本公开提供了一种计算机实现的方法。在一些实施例中,计算机实现的方法包括:使用包括残差网络的分类模型对图像进行分类。在一些实施例中,使用分类模型对图像进行分类的步骤包括:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出。
图1是示出根据本公开的一些实施例中的分类模型中的残差网络的示意图。参照图1,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层。通过N个残差块顺序地处理输入图像。在一些实施例中,残差网络还包括分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层。来自N个残差块中的第一至第(N-1)残差块的对应一个的输出被输入至(N-1)个卷积层中的对应一个中。通过(N-1)个卷积层分别处理来自N个残差块中的第一至第(N-1)残差块的输出。随后,对分别来自(N-1)个卷积层的输出分别进行矢量化,以生成(N-1)个矢量化输出。对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出。矢量化操作将输入矩阵转换为矢量,减少了维度。例如,56*56*1的输入矩阵可以矢量化为大小为3136的输出矢量。将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出(concatenated output)。可选地,通过全连接层处理连接输出,从而生成输入图像的分类。可选地,来自全连接层的输出包括一个或多个分类矢量。
参照图1,一些实施例中,残差网络还包括分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层。在一些实施例中,所述方法包括:对来自第n残差块的输出进行池化,以生成第n中间图像;以及,通过第(n+1)残差块处理第n中间图像,1≤n≤(N-1)。在一个示例中,(N-1)个池化层是(N-1)个最大池化层。例如,在将来自第n残差块的输出输入至第(n+1)残差块之前,对其执行最大池化操作。最大池化操作表示将预定大小范围内的最大值设置为该范围的代表值的操作。例如,响应于对输入图像执行2*2最大池化操作,输入图像的2*2范围的最大值被设置为2*2范围的代表值。并且将其它值忽略。
如图1所示,通过(N-1)个卷积层分别处理的来自N个残差块中的第一至第(N-1)残差块的输出分别是来自N个残差块中的第一至第(N-1)残差块的未池化的输出。例如,来自第n残差块的输出被并行地输入至N个卷积层中的第n卷积层而未被池化,并且输入至(N-1)个池化层中的第n池化层。
在一些实施例中,(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
在一些实施例中,残差网络还包括位于N个残差块中的第一残差块之前的卷积层。如图1所示,可选地,位于第一残差块之前的卷积层中的卷积核的大小为7*7。位于第一残差块之前的卷积层将输入图像改变为适当形式以由N个残差块接收。
在一些实施例中,残差网络还包括将位于第一残差块之前的卷积层与第一残差块连接的池化层。该池化层接收来自位于第一残差块之前的卷积层的输出作为输入,并且输出用于输入至第一残差块中的中间图像。在一个示例中,将位于第一残差块之前的卷积层与第一残差块连接的池化层是用于执行最大池化操作的最大池化层。
图1示出了其中残差网络包括总共四个残差块的示例。残差网络中的残差块的总数量可以变化。可选地,N=5。可选地,N=6。可选地,N=8。
在一些实施例中,残差网络中的N个残差块具有类似或相同的结构。可选地,残差网络中的N个残差块具有相同的结构,例如,N个残差块中的每一个中的卷积核的总数量相同。可选地,残差网络中的N个残差块具有类似的结构,例如,N个残差块中的每一个中的卷积核的总数量可以变化。
图2示出了根据本公开的一些实施例中的分类模型中的残差网络中的N个残差块中的对应一个的结构。参照图2,在一些实施例中,N个残差块中的对应一个包括具有残差跳跃连接(skip connection)的M个卷积块。图2示出了其中N个残差块中的对应一个包括总共三个卷积块的示例。卷积块的总数量可以变化。可选地,M=4。可选地,M=5。可选地,M=6。
再次参照图2,在一些实施例中,M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,第一卷积层包括1*1卷积核,第二卷积层包括3*3卷积核,并且第三卷积层包括1*1卷积核。在一个示例中,首先通过1*1卷积核对输入至M个卷积块中的对应一个的图像执行卷积操作。通过3*3卷积核再次执行卷积操作。随后,3*3卷积核的卷积操作的结果经受另一1*1卷积核的卷积操作。
在一些实施例中,N个残差块中的对应一个还包括一个或多个跳跃连接,其跳过M个卷积块中的一个或多个卷积块以执行恒等映射(identity mapping)(参见,例如,K.He,X.Zhang,S.Ren,和J.Sun,深度残差网络中的恒等映射(Identity mappings in deepresidual networks),2016年7月25日发布于arxiv.org/pdf/1603.05027.pdf;该文献的全部内容通过引用并入于此)。可选地,跳跃连接是其中输入和输出具有相同尺寸的跳跃连接(如图2中实线表示的跳跃连接)。可选地,跳跃连接是其中输入和输出具有不同尺寸的跳跃连接,例如,具有尺寸减小的跳跃连接(如图2中虚线表示的跳跃连接)。参照图2,N个残差块中的对应一个还包括跳过M个卷积块中的第一卷积块的具有尺寸减小的跳跃连接。
图3是示出根据本公开的一些实施例中的分类模型中的残差网络的示意图。参照图3,残差网络包括四个残差块,每一个残差块包括三个卷积块。残差网络还包括位于输入层和第一残差块之间的第一池化层、位于第一残差块和第二残差块之间的第二池化层、位于第二残差块和第三残差块之间的第三池化层、以及位于第三残差块和第四残差块之间的第四池化层。例如,每个池化层可以为最大池化层。每个池化层将输入图像转换为不同尺寸的输出图像。例如,第一池化层将大小为112的输入图像转换为大小为56的输出图像,第二池化层将大小为56的输入图像转换为大小为28的输出图像,第三池化层将大小为28的输入图像转换为大小为14的输出图像,并且第四池化层将大小为14的输入图像转换为大小为7的输出图像。在由第二池化层进行池化之前,来自第一残差块的输出被并行地输入至卷积层而未被池化,并且被卷积层处理。在由第三池化层进行池化之前,来自第二残差块的输出被并行地输入至卷积层而未被池化,并且被卷积层处理。在由第四池化层进行池化之前,来自第三残差块的输出被并行地输入至卷积层而未被池化,并且被卷积层处理。这些卷积层中的每一个可以是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。来自这些卷积层中的每一个的输出被矢量化。并行地,来自最后一个残差块(第四残差块)的输出也被矢量化。通过对来自三个卷积层的输出分别进行矢量化获得的三个矢量化输出以及通过对来自第四个残差块的输出进行矢量化获得的最后一个矢量化输出被连接在一起,其结果被输入至全连接层。可选地,来自全连接层的输出的大小为1000。通过这种结构,不仅是来自最后一个残差块的卷积结果输出,而且来自全部先前残差块的卷积结果输出,均可以输入至全连接层。通过本残差网络可以实现增强的准确性。
参照图3,残差网络包括与第一残差块相关联的三个跳跃连接,具体地,跳过第一残差块的第一卷积块的跳跃连接、跳过第一残差块的第二卷积块的跳跃连接、以及跳过第一残差块的第三卷积块的跳跃连接,全部这三个跳跃连接是其中输入和输出具有相同尺寸的跳跃连接(如图3中用实线表示的跳跃连接sc)。
残差网络包括与第二残差块相关联的三个跳跃连接,具体地,跳过第二池化层和第二残差块的第一卷积块的跳跃连接、跳过第二残差块的第二卷积块的跳跃连接、以及跳过第二残差块的第三卷积块的跳跃连接。跳过第二池化层和第二残差块的第一卷积块的跳跃连接是其中输入和输出具有不同尺寸的跳跃连接,例如,具有尺寸减小的跳跃连接(如图3中用虚线表示的跳跃连接sc’)。其它两个跳跃连接是其中输入和输出具有相同尺寸的跳跃连接(如图3中实线表示的跳跃连接sc)。
残差网络包括与第三残差块相关联的三个跳跃连接,具体地,跳过第三池化层和第三残差块的第一卷积块的跳跃连接、跳过第三残差块的第二卷积块的跳跃连接、以及跳过第三残差块的第三卷积块的跳跃连接。跳过第三池化层和第三残差块的第一卷积块的跳跃连接是其中输入和输出具有不同尺寸的跳跃连接,例如,具有尺寸减小的跳跃连接(如图3中用虚线表示的跳跃连接sc’)。其它两个跳跃连接是其中输入和输出具有相同尺寸的跳跃连接(如图3中实线表示的跳跃连接sc)。
残差网络包括与第四残差块相关联的三个跳跃连接,具体地,跳过第四池化层和第四残差块的第一卷积块的跳跃连接、跳过第四残差块的第二卷积块的跳跃连接、以及跳过第四残差块的第三卷积块的跳跃连接。跳过第四池化层和第四残差块的第一卷积块的跳跃连接是其中输入和输出具有不同尺寸的跳跃连接,例如,具有尺寸减小的跳跃连接(如图3中用虚线表示的跳跃连接sc’)。其它两个跳跃连接是其中输入和输出具有相同尺寸的跳跃连接(如图3中实线表示的跳跃连接sc)。
在一些实施例中,所述方法还包括:预训练分类模型。图4是示出根据本公开的一些实施例中的使用具有残差网络的分类模型对图像进行分类的方法的流程图。参照图4,在一些实施例中,预训练分类模型的步骤包括:将多个训练图像输入至残差网络中;将分别对应于所述多个训练图像的多个训练类别输入至分类模型中;将所述多个训练图像中的对应一个分类为一个或多个预测类别;通过将所述一个或多个预测类别与所述多个训练类别中的指定给所述多个训练图像中的对应一个的一个或多个训练类别进行比较,来计算损耗;以及,基于损耗来调整残差网络。
在一些实施例中,通过式(1)计算损耗:
其中,C表示所述多个训练类别的总数量,yn表示所述多个训练类别中的指定给所述多个训练图像中的对应一个的所述一个或多个训练类别,并且xn表示所述一个或多个预测类别。
在一些实施例中,来自全连接层的输出包括一个或多个分类预测矢量。所述方法将所述一个或多个分类预测矢量与同输入训练图像相关联的一个或多个预指定分类矢量进行比较。
本方法可用于对各种适当的图像进行分类。在一些实施例中,所述方法用于对医疗图像进行分类,并且所述多个训练图像是预先分类好的多个医疗图像。在一些实施例中,所述方法用于对人眼的眼底图像进行分类,并且所述多个预训练图像是预先分类为属于正常状态或疾病状态的人眼眼底的多个图像。通常,疾病状态下人眼眼底的图像包括各种大小的损害。本方法有利地保存并保留了与各种大小的损害相对应的各种大小的特征,因此本方法特别有利于对人眼眼底图像的分类。
在一些实施例中,所述方法还包括:在将所述多个训练图像中的对应一个分类为所述一个或多个预测类别之前,预处理所述多个训练图像。预处理所述多个训练图像可使训练图像标准化,具有更一致的图像质量。预处理方法的示例包括:图像去冗余、图像自适应色彩平衡、图像对齐和色彩校正。可以在图像去冗余期间裁切图像的冗余部分。在图像自适应色彩平衡期间,可以使亮度重新分布,并且可以改善对比度,从而增强细节。可选地,为了提高分类模型的稳健性和通用性,例如,可以使用多种数据增强方法,通过对输入图像进行随机裁切、翻转、亮度调整、旋转和仿射变换,来随机地扩充数据集合。
在一些实施例中,预训练分类模型的步骤可以重复多次,并且可以多次调整残差网络以进一步改善分类模型的准确性。分类模型的可以被调整的参数的示例包括模型学习速度、损耗函数权重、以及梯度下降方法。
在一些实施例中,在使用分类模型对图像进行分类之前,还可以通过上述各种预处理方法和数据增强方法来预处理输入图像。
另一方面,本公开提供了一种通过如上所述地对医疗图像进行分类进行的计算机实现的诊断方法。在一些实施例中,所述计算机实现的诊断方法包括:根据本文所述的计算机实现的方法将医疗图像分类为多个类别中的一个或多个。所述多个类别包括与正常状态以及多种不同疾病的疾病状态相对应的类别。在一个示例中,医疗图像是人眼的眼底图像;并且所述多种不同疾病是人眼疾病。可选地,使用本诊断方法可以诊断的人眼疾病包括:青光眼、糖尿病视网膜病变、高血压性视网膜病变。
传统的疾病监测和分类模型通常仅可检测特定疾病,例如,单一人眼疾病。为了检测多种疾病,需要训练与多种疾病分别对应的多个疾病分类模型,并且使用多个训练图像集合来分别训练多个疾病分类模型。本诊断方法使得能够使用单个分类模型对多种疾病状态进行检测和分类,极大地降低了传统方法中准备训练数据和训练多个分类模型的时间和精力。例如,本公开使得能够使用具有本文所述的改进残差网络的单个分类模型诊断多种人眼疾病。
另一方面,本公开提供了一种图像分类设备。图5是示出根据本公开的一些实施例中的图像分类设备的结构的示意图。参照图5,在一些实施例中,图像分类设备100包括一个或多个处理器10、存储器20、以及本文所述的残差网络30。存储器20和所述一个或多个处理器10彼此连接。在一些实施例中,存储器20存储有计算机可执行指令以控制所述一个或多个处理器10:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出。基于来自残差网络的输出,存储器20存储计算机可执行指令以控制所述一个或多个处理器10:使用包括残差网络的分类模型对输入图像进行分类。可选地,存储器20还存储计算机可执行指令以控制所述一个或多个处理器10:通过全连接层处理连接输出。
在一些实施例中,存储器20还存储计算机可执行指令以控制所述一个或多个处理器10:对来自第n残差块的输出进行池化以生成第n中间图像;以及通过第(n+1)残差块处理第n中间图像,1≤n≤(N-1)。在池化之前,分别输出通过(N-1)个卷积层分别处理的来自N个残差块中的第一至第(N-1)残差块的输出。可选地,(N-1)个池化层是(N-1)个最大池化层。
可选地,(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
可选地,N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。可选地,M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,第一卷积层包括1*1卷积核,第二卷积层包括3*3卷积核,并且第三卷积层包括1*1卷积核。
另一方面,本公开提供了一种计算机程序产品,其包括其上具有计算机可读指令的非暂时性有形计算机可读介质。在一些实施例中,所述计算机可读指令由处理器可执行,以使得处理器执行:使用包括残差网络的分类模型对图像进行分类;在一些实施例中,所述计算机可读指令由处理器可执行,以使得处理器执行:将输入图像输入至残差网络中,残差网络包括:顺序连接的N个残差块,N≥2;分别位于N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;分别通过(N-1)个卷积层处理来自N个残差块中的第一至第(N-1)残差块的输出;对分别来自(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;对来自N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及,将(N-1)个矢量化输出与最后一个矢量化输出连接在一起,以生成连接输出。可选地,所述计算机可读指令由处理器可执行,以使得处理器执行:通过全连接层处理连接输出。
在一些实施例中,所述计算机可读指令由处理器可执行,以使得处理器执行:对来自第n残差块的输出进行池化以生成第n中间图像;以及,通过第(n+1)残差块处理第n中间图像,1≤n≤(N-1)。在池化之前,分别输出通过(N-1)个卷积层分别处理的来自N个残差块中的第一至第(N-1)残差块的输出。可选地,(N-1)个池化层是(N-1)个最大池化层。
可选地,(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
可选地,N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。可选地,M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,第一卷积层包括1*1卷积核,第二卷积层包括3*3卷积核,并且第三卷积层包括1*1卷积核。
计算机程序产品的示例包括各种适当的非暂时性和/或有形介质,诸如软盘、CD-ROM、硬盘驱动器、通用串行总线(USB)驱动器、云、或任何其它机器可读存储介质。
出于示意和描述目的已示出对本发明实施例的上述描述。其并非旨在穷举或将本发明限制为所公开的确切形式或示例性实施例。因此,上述描述应当被认为是示意性的而非限制性的。显然,许多修改和变形对于本领域技术人员而言将是显而易见的。选择和描述这些实施例是为了解释本发明的原理和其最佳方式的实际应用,从而使得本领域技术人员能够理解本发明适用于特定用途或所构思的实施方式的各种实施例及各种变型。本发明的范围旨在由所附权利要求及其等同形式限定,其中除非另有说明,否则所有术语以其最宽的合理意义解释。因此,术语“发明”、“本发明”等不一定将权利范围限制为具体实施例,并且对本发明示例性实施例的参考不隐含对本发明的限制,并且不应推断出这种限制。本发明仅由随附权利要求的精神和范围限定。此外,这些权利要求可涉及使用跟随有名词或元素的“第一”、“第二”等术语。这种术语应当理解为一种命名方式而非意在对由这种命名方式修饰的元素的数量进行限制,除非给出具体数量。所描述的任何优点和益处不一定适用于本发明的全部实施例。应当认识到的是,本领域技术人员在不脱离随附权利要求所限定的本发明的范围的情况下可以对所描述的实施例进行变化。此外,本公开中没有元件和组件是意在贡献给公众的,无论该元件或组件是否明确地记载在随附权利要求中。
Claims (21)
1.一种计算机实现的分类方法,包括:使用包括残差网络的分类模型将人眼的眼底图像分类为多个类别中的一个或多个,所述多个类别包括与正常状态以及多种不同疾病的疾病状态相对应的类别;
其中,使用所述分类模型对所述眼底图像进行分类包括:
将所述眼底图像作为输入图像输入至所述残差网络中,所述残差网络包括:顺序连接的N个残差块,N≥2;分别位于所述N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至所述N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;
分别通过所述(N-1)个卷积层处理来自所述N个残差块中的第一至第(N-1)残差块的输出;
对分别来自所述(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;
对来自所述N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及
将所述(N-1)个矢量化输出与所述最后一个矢量化输出连接在一起,以生成连接输出。
2.根据权利要求1所述的计算机实现的分类方法,还包括:
对来自第n残差块的输出进行池化,以生成第n中间图像;以及
通过第(n+1)残差块处理所述第n中间图像,1≤n≤(N-1);
其中,通过所述(N-1)个卷积层分别处理来自所述N个残差块中的第一至第(N-1)残差块的输出而不进行池化。
3.根据权利要求2所述的计算机实现的分类方法,其中,所述(N-1)个池化层是(N-1)个最大池化层。
4.根据权利要求1至3中任一项所述的计算机实现的分类方法,其中,所述(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
5.根据权利要求1至4中任一项所述的计算机实现的分类方法,其中,使用所述分类模型对图像进行分类还包括:通过全连接层处理所述连接输出。
6.根据权利要求1至5中任一项所述的计算机实现的分类方法,其中,所述N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。
7.根据权利要求6所述的计算机实现的分类方法,其中,所述M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层包括1*1卷积核,所述第二卷积层包括3*3卷积核,并且所述第三卷积层包括1*1卷积核。
8.根据权利要求1至7中任一项所述的计算机实现的分类方法,其中,将所述输入图像输入至所述残差网络中包括:
通过位于所述N个残差块中的第一残差块之前的包括7*7卷积核的卷积层来处理所述输入图像;
对来自位于所述第一残差块之前的所述卷积层的输出进行池化;以及
输出中间图像作为到所述第一残差块的输入。
9.根据权利要求1至8中任一项所述的计算机实现的分类方法,还包括通过以下步骤预训练所述分类模型:
将多个训练图像输入至所述残差网络中;
将分别对应于所述多个训练图像的多个训练类别输入至所述分类模型中;
将所述多个训练图像中的对应一个分类为一个或多个预测类别;
通过将所述一个或多个预测类别与所述多个训练类别中的指定给所述多个训练图像中的所述对应一个的一个或多个训练类别进行比较,来计算损耗;以及
基于所述损耗来调整所述残差网络。
10.根据权利要求9所述的计算机实现的分类方法,其中,通过下式计算所述损耗:
其中,C表示所述多个训练类别的总数量,yn表示所述多个训练类别中的指定给所述多个训练图像中的所述对应一个的所述一个或多个训练类别,并且xn表示所述一个或多个预测类别。
11.根据权利要求9所述的计算机实现的分类方法,还包括:在将所述多个训练图像中的所述对应一个分类为所述一个或多个预测类别之前,预处理所述多个训练图像。
12.根据权利要求1至11中任一项所述的计算机实现的分类方法,其中,所述多种不同疾病包括青光眼、糖尿病视网膜病变、高血压性视网膜病变。
13.一种图像分类设备,包括:
存储器;
一个或多个处理器;
其中,所述存储器和所述一个或多个处理器彼此连接;并且
所述存储器存储计算机可执行指令以控制所述一个或多个处理器使用包括残差网络的分类模型将人眼的眼底图像分类为多个类别中的一个或多个,所述多个类别包括与正常状态以及多种不同疾病的疾病状态相对应的类别;
其中,使用所述分类模型对所述眼底图像进行分类包括:
将所述眼底图像作为输入图像输入至所述残差网络中,所述残差网络包括:顺序连接的N个残差块,N≥2;分别位于所述N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至所述N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;
分别通过所述(N-1)个卷积层处理来自所述N个残差块中的第一至第(N-1)残差块的输出;
对分别来自所述(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;
对来自所述N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及
将所述(N-1)个矢量化输出与所述最后一个矢量化输出连接在一起,以生成连接输出;
基于来自所述残差网络的输出,所述存储器存储计算机可执行指令以控制所述一个或多个处理器:使用包括所述残差网络的分类模型对所述输入图像进行分类。
14.根据权利要求13所述的设备,其中,所述存储器还存储计算机可执行指令以控制所述一个或多个处理器:
对来自第n残差块的输出进行池化,以生成第n中间图像;以及
通过第(n+1)残差块处理所述第n中间图像,1≤n≤(N-1);
其中,通过所述(N-1)个卷积层分别处理来自所述N个残差块中的第一至第(N-1)残差块的输出而不进行池化。
15.根据权利要求14所述的设备,其中,所述(N-1)个池化层是(N-1)个最大池化层。
16.根据权利要求13至15中任一项所述的设备,其中,所述(N-1)个卷积层中的对应一个是包括1*1卷积核的卷积层,并且配置为将输入数据通道的总数量降低至1。
17.根据权利要求13至16中任一项所述的设备,其中,所述存储器还存储计算机可执行指令以控制所述一个或多个处理器:通过全连接层处理所述连接输出。
18.根据权利要求14至17中任一项所述的设备,其中,所述N个残差块中的对应一个包括具有残差跳跃连接的M个卷积块。
19.根据权利要求18所述的设备,其中,所述M个卷积块中的对应一个包括顺序连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层包括1*1卷积核,所述第二卷积层包括3*3卷积核,并且所述第三卷积层包括1*1卷积核。
20.根据权利要求13至19中任一项所述的设备,其中,所述存储器还存储计算机可执行指令以控制所述一个或多个处理器:
通过位于所述N个残差块中的第一残差块之前的包括7*7卷积核的卷积层来处理所述输入图像;
对来自位于所述第一残差块之前的所述卷积层的输出进行池化;以及
输出中间图像作为到所述第一残差块的输入。
21.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令由处理器可执行,以使得处理器执行:使用包括残差网络的分类模型将人眼的眼底图像分类为多个类别中的一个或多个,所述多个类别包括与正常状态以及多种不同疾病的疾病状态相对应的类别;
其中,所述计算机可读指令由所述处理器可执行,以使得所述处理器执行:
将所述眼底图像作为输入图像输入至所述残差网络中,所述残差网络包括:顺序连接的N个残差块,N≥2;分别位于所述N个残差块中的两个相邻残差块之间的(N-1)个池化层;以及分别连接至所述N个残差块中的第一至第(N-1)残差块的(N-1)个卷积层;
分别通过所述(N-1)个卷积层处理来自所述N个残差块中的第一至第(N-1)残差块的输出;
对分别来自所述(N-1)个卷积层的输出进行矢量化,以生成(N-1)个矢量化输出;
对来自所述N个残差块中的最后一个残差块的输出进行矢量化,以生成最后一个矢量化输出;以及
将所述(N-1)个矢量化输出与所述最后一个矢量化输出连接在一起,以生成连接输出。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/099771 WO2021022543A1 (en) | 2019-08-08 | 2019-08-08 | Computer-implemented method, computer-implemented diagnosis method, apparatus for classifying image, and computer-program product |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110651277A CN110651277A (zh) | 2020-01-03 |
CN110651277B true CN110651277B (zh) | 2023-08-01 |
Family
ID=69014736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980001313.XA Active CN110651277B (zh) | 2019-08-08 | 2019-08-08 | 计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11410000B2 (zh) |
CN (1) | CN110651277B (zh) |
WO (1) | WO2021022543A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4053747A4 (en) * | 2019-10-31 | 2022-12-28 | Panasonic Intellectual Property Management Co., Ltd. | NEURONAL NETWORK, CALCULATION METHOD, AND PROGRAM |
CN111368937B (zh) * | 2020-03-19 | 2024-05-28 | 京东方科技集团股份有限公司 | 图像分类方法、装置、及其训练方法、装置、设备、介质 |
US11664090B2 (en) * | 2020-06-11 | 2023-05-30 | Life Technologies Corporation | Basecaller with dilated convolutional neural network |
CN111931054B (zh) * | 2020-08-14 | 2024-01-05 | 中国科学院深圳先进技术研究院 | 一种基于改进残差结构的序列推荐方法和系统 |
CN112529799A (zh) * | 2020-12-07 | 2021-03-19 | 中国工程物理研究院流体物理研究所 | 一种基于fpga卷积神经网络结构的光学像差畸变校正系统 |
CN112617850B (zh) * | 2021-01-04 | 2022-08-30 | 苏州大学 | 心电信号的早搏心拍检测系统 |
CN113505629A (zh) * | 2021-04-02 | 2021-10-15 | 上海师范大学 | 一种基于轻量网络的智能仓储物件识别装置 |
CN117621145B (zh) * | 2023-12-01 | 2024-10-01 | 安徽大学 | 一种基于fpga的水果成熟度检测柔性机械臂系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102631381B1 (ko) * | 2016-11-07 | 2024-01-31 | 삼성전자주식회사 | 컨볼루션 신경망 처리 방법 및 장치 |
CN108073876B (zh) * | 2016-11-14 | 2023-09-19 | 北京三星通信技术研究有限公司 | 面部解析设备和面部解析方法 |
US10528846B2 (en) | 2016-11-14 | 2020-01-07 | Samsung Electronics Co., Ltd. | Method and apparatus for analyzing facial image |
CN107124609A (zh) * | 2017-04-27 | 2017-09-01 | 京东方科技集团股份有限公司 | 一种视频图像的处理系统、其处理方法及显示装置 |
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
IL299565B2 (en) * | 2017-10-16 | 2024-07-01 | Illumina Inc | Classifies pathogenic variants using a recurrent neural network |
CN108764317B (zh) * | 2018-05-21 | 2021-11-23 | 浙江工业大学 | 一种基于多路特征加权的残差卷积神经网络图像分类方法 |
CN110163215B (zh) * | 2018-06-08 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN108830330B (zh) * | 2018-06-22 | 2021-11-02 | 西安电子科技大学 | 基于自适应特征融合残差网的多光谱图像分类方法 |
US11823033B2 (en) * | 2018-09-13 | 2023-11-21 | Intel Corporation | Condense-expansion-depth-wise convolutional neural network for face recognition |
CN109635842A (zh) * | 2018-11-14 | 2019-04-16 | 平安科技(深圳)有限公司 | 一种图像分类方法、装置及计算机可读存储介质 |
CN109872325B (zh) | 2019-01-17 | 2022-11-15 | 东北大学 | 基于双路三维卷积神经网络的全自动肝脏肿瘤分割方法 |
US10646156B1 (en) * | 2019-06-14 | 2020-05-12 | Cycle Clarity, LLC | Adaptive image processing in assisted reproductive imaging modalities |
-
2019
- 2019-08-08 CN CN201980001313.XA patent/CN110651277B/zh active Active
- 2019-08-08 WO PCT/CN2019/099771 patent/WO2021022543A1/en active Application Filing
- 2019-08-08 US US16/959,119 patent/US11410000B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN110651277A (zh) | 2020-01-03 |
US11410000B2 (en) | 2022-08-09 |
US20210406590A1 (en) | 2021-12-30 |
WO2021022543A1 (en) | 2021-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110651277B (zh) | 计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品 | |
US11508146B2 (en) | Convolutional neural network processing method and apparatus | |
US11017267B2 (en) | System and method for expanding and training convolutional neural networks for large size input images | |
CN109635141B (zh) | 用于检索图像的方法、电子设备和计算机可读存储介质 | |
US11227364B2 (en) | Computer-implemented method using convolutional neural network, apparatus for generating composite image, and computer-program product | |
CN109784153B (zh) | 情绪识别方法、装置、计算机设备及存储介质 | |
US20190087726A1 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
CN110047069B (zh) | 一种图像检测装置 | |
JP6744838B2 (ja) | エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム | |
Mungra et al. | PRATIT: a CNN-based emotion recognition system using histogram equalization and data augmentation | |
CN113767415B (zh) | 计算机实现方法、装置和计算机程序产品 | |
CN111183455A (zh) | 图像数据处理系统与方法 | |
US11830187B2 (en) | Automatic condition diagnosis using a segmentation-guided framework | |
WO2020062809A1 (en) | Computer-implemented method, apparatus, and computer-program product | |
US11875898B2 (en) | Automatic condition diagnosis using an attention-guided framework | |
Jhang et al. | CNN training for face photo based gender and age group prediction with camera | |
JP2021170284A (ja) | 情報処理装置及びプログラム | |
Kumawat et al. | Local phase U-Net for fundus image segmentation | |
EP3499406B1 (en) | Methods of processing and generating image data in a connectionist network | |
US20230401679A1 (en) | Computer-implemented image-processing method, image-enhancing convolutional neural network, and computer product | |
Meruva et al. | Risk Level Prediction of Diabetic Retinopathy based on Retinal Images using Deep Learning Algorithm | |
Mohammed et al. | The diagnosis of COVID-19 in CT images using hybrid machine learning approaches (CNN & SVM) | |
WO2023122927A1 (en) | Computer-implemented method, apparatus, and computer-program product | |
Inamati et al. | Customer Feedback System Based On Facial Expressions | |
Mahale et al. | Detection of Plant Diseases Using Convolutional Neural Network Architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |