CN115049734A - 在图像中定位目标物的方法和装置 - Google Patents
在图像中定位目标物的方法和装置 Download PDFInfo
- Publication number
- CN115049734A CN115049734A CN202210965580.2A CN202210965580A CN115049734A CN 115049734 A CN115049734 A CN 115049734A CN 202210965580 A CN202210965580 A CN 202210965580A CN 115049734 A CN115049734 A CN 115049734A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- bottleneck layer
- model
- feature information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种在图像中定位目标物的方法和装置,以及相应的计算设备、存储介质、和计算机程序产品。所述方法包括:确定所述图像中的内容区域的轮廓;为所述内容区域的轮廓确定最小外接矩形;确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。该方法将目标定位问题转换为目标检测问题,拥有更高的检测精度。模型具有优秀的特征提取能力,且模型参数相对较少。
Description
技术领域
本申请涉及计算视觉的领域,尤其涉及一种在图像中定位目标物的方法和装置,以及相应的计算设备、存储介质、和计算机程序产品。
背景技术
目标定位,也就是在图像中确定目标物的位置,是计算视觉领域中的重要任务。在相关的目标定位方法中,受制于图像采集时的光照情况、图像内容本身的易分辨程度、目标定位模型的训练数据集量等限制,目标定位的准确性仍有待提高。尤其是对于图像中尺寸小的目标物来说,由于其包含的信息更少,对其进行定位的难度更大,准确度更低。
发明内容
根据本申请的一方面,提供了一种在图像中定位目标物的方法。所述方法包括:确定所述图像中的内容区域的轮廓;为所述内容区域的轮廓确定最小外接矩形;确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。
在一些实施例中,对所述目标图像进行目标检测操作,以得到输出图像包括:对所述目标图像进行第一标准卷积操作,以得到第一特征信息;将所述第一特征信息输入到瓶颈层模型组以得到第二特征信息,其中所述瓶颈层模型组包括按信息流顺序连接的多个瓶颈层模型,所述多个瓶颈层模型中的最前的瓶颈层模型接收所述第一特征信息,且所述多个瓶颈层模型中的最后的瓶颈层模型输出所述第二特征信息,其中每个瓶颈层模型包括至少一个子模型,每个子模型包括按照信息流顺序布置的升维层、深度卷积层、和降维层;对所述第二特征信息进行第二标准卷积操作,以得到第三特征信息;对所述第三特征信息与所述多个瓶颈层模型中的至少部分瓶颈层模型输出的特征信息进行特征融合操作,以得到至少一个特征图;以及,基于所述至少一个特征图,确定所述目标框在所述输出图像中的位置,以得到所述输出图像。
在一些实施例中,所述特征融合操作包括:对所述第三特征信息进行第一残差卷积操作,以得到第一加强特征信息;对所述第一加强特征信息进行第一通道调整操作,以得到所述至少一个特征图中的第一特征图。
在一些实施例中,所述特征融合操作还包括:对所述第一加强特征信息进行第一上采样操作,以得到第一上采样特征信息,其中所述第一上采样特征信息的尺度与所述多个瓶颈层模型中的第一瓶颈层模型输出的特征信息的尺度相同,所述第一瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息的尺度不同的特征信息的瓶颈层模型;将所述第一上采样特征信息与所述第一瓶颈层模型输出的特征信息进行拼接,以得到第一拼接特征信息;对所述第一拼接特征信息进行第二残差卷积操作,以得到第二加强特征信息;对所述第二加强特征信息进行第二通道调整操作,以得到所述至少一个特征图中的第二特征图。
在一些实施例中,所述第一瓶颈层模型是所述多个瓶颈层模型中的倒数第三个瓶颈层模型。
在一些实施例中,所述特征融合操作还包括:对所述第二加强特征信息进行第二上采样操作,以得到第二上采样特征信息,其中所述第二上采样特征信息的尺度与所述多个瓶颈层模型中的第二瓶颈层模型输出的特征信息的尺度相同,所述第二瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息和所述第二加强特征信息的尺度不同的特征信息的瓶颈层模型;将所述第二上采样特征信息与所述第二瓶颈层模型输出的特征信息进行拼接,以得到第二拼接特征信息;对所述第二拼接特征信息进行第三残差卷积操作,以得到第三加强特征信息;对所述第三加强特征信息进行第三通道调整操作,以得到所述至少一个特征图中的第三特征图。
在一些实施例中,所述第二瓶颈层模型是所述多个瓶颈层模型中的倒数第四个瓶颈层模型。
在一些实施例中,所述多个瓶颈层模型包括七个瓶颈层模型,并且,在所述七个瓶颈层模型中,前五个瓶颈层模型分别包括至少32个通道、至少48个通道、至少64个通道、至少128个通道、和至少192个通道。
在一些实施例中,所述方法还包括:训练用于进行所述目标检测操作的目标检测模型,其包括:获取训练图像;在所述训练图像中标记所述目标物的点位置;以所述目标物的点位置为中心,构建具有第二预设尺寸的标签框;基于所述标签框,按照所述目标检测模型的格式生成标签文件;将所述训练图像输入到待训练的目标检测模型,以得到预测目标框;根据所述标签框和预测目标框,确定所述目标检测模型的损失函数;基于所述损失函数更新所述目标检测模型的参数,使得所述目标检测模型达到收敛,以完成所述目标检测模型的训练。
在一些实施例中,所述图像是眼底图像,所述内容区域是所述眼底图像的眼球部分,所述目标物是黄斑的中央凹。
根据本发明的另一方面,提供了一种在图像中定位目标物的装置。所述装置包括:轮廓确定模块,其配置成确定所述图像中的内容区域的轮廓;最小外接矩形确定模块,其配置成为所述内容区域的轮廓确定最小外接矩形;尺寸判断模块,其配置成确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;目标图像截取模块,其配置成响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;以及,目标检测模块,其配置成对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。
根据本发明的另一方面,提供了一种计算设备。所述计算设备包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行根据本申请任一实施例所述的在图像中定位目标物的方法。
根据本发明的另一方面,提供了一种计算机可读存储介质。该计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行根据本申请任一实施例所述的在图像中定位目标物的方法。
根据本发明的另一方面,提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令,其中所述计算机可执行指令被处理器执行时执行根据本申请任一实施例所述的在图像中定位目标物的方法。
附图说明
现在将更详细并且参考附图来描述本申请的实施例,其中:
图1示意性地示出了根据本申请的实施例的技术方案可以实施在其中的示例性应用场景;
图2示意性地示出了根据本申请实施例的在图像中定位目标物的方法的流程图;
图3示意性地示出了可以应用根据本申请实施例的方法的图像;
图4示意性地示出了根据本申请实施例的经过截取操作后所得到的目标图像;
图5示意性地示出了根据本申请实施例的方法所得到的输出图像;
图6示意性地示出了根据本申请实施例的方法所得到的输出图像中示出的目标物的位置;
图7示意性地示出了根据本申请实施例的用于执行目标检测操作的目标检测模型的结构;
图8示意性地示出了根据本申请实施例的标准卷积模型的内部结构;
图9示意性地示出了根据本申请实施例的瓶颈层模型中的子模型的内部结构;
图10示意性地示出了根据本申请实施例的残差卷积模型的内部结构;
图11示意性地示出了根据本申请实施例的在图像中定位目标物的装置的示例性结构框图;
图12示意性地示出了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。基于本申请的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例都属于本申请保护的范围。
为了提高目标定位的准确度,本申请提供了一种在图像中定位目标物的方法。图1示意性地示出了根据本申请的实施例的技术方案可以实施在其中的示例性应用场景。如图1所示,场景100可以包括服务器110、图像采集设备120、计算设备130,以及可选地还可以包括用于存放图像数据的数据库设备140。这些服务器或设备可以经由网络150实现彼此通信。
服务器110可以是单个服务器,也可以是服务器的集群。图像采集设备120、计算设备130、以及数据库设备140可以分别通过网络150与服务器110进行连接,以便各自与服务器110进行数据交互。当采用多个服务器时,各服务器可能通过网络彼此连接,以便获取彼此上的数据。多个服务器上可以存储不同的数据,或者执行不同的操作。服务器110可以接收所上传的图像数据、或将其他类型的数据转换成图像数据,并根据本申请的各种实施例的方法,对存储在服务器中的模型进行训练,或者使用训练好的模型对图像进行指定操作。服务器110还可以运行其他应用程序以及存储其他数据。例如,服务器110可以包括多个虚拟主机,用以运行不同的应用程序并提供不同服务。本申请中的服务器110例如还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。
此外,在本申请中,网络150可以是经由诸如电缆、光纤等连接的有线网络,也可以是诸如2G、3G、4G、5G、Wi-Fi、蓝牙、ZigBee、Li-Fi等的无线网络。
根据本申请实施例的在图像中定位目标物的方法可以在服务器110中完成,也可以在服务器110与计算设备130的组合体中完成,还可以仅在计算设备130中完成。下面以计算设备130与服务器110之间的通信为例,描述本申请的实施例中,各个设备能够实现的操作。
在本申请实施例中,所涉及的图像(包括样本图像和检测图像)可以由图像采集设备120采集。所采集的图像可以传输到计算设备130,并可以通过计算设备130的显示接口向用户显示。用户可以通过计算设备130对图像进行编辑,例如为样本图像添加标签(包括例如在样本图像中标记目标物的位置)。本申请实施例的模型可以设置在服务器110中。在训练阶段,具有标签的样本图像被传输到服务器110,以用于训练该模型。在检测阶段,图像采集设备120采集的检测图像可以传输到服务器110,并输入到已经完成训练的模型中。该模型可以提供输出图像,其中标记了目标物的位置。该输出图像可以传输到计算设备130,并通过计算设备130的显示接口向用户显示。虽然上述实施例的模型训练过程和应用过程在服务器内实现,且图像数据来自于图像采集设备120,但本申请不限于此。例如,模型可以布置在计算设备130内,使得模型训练过程和应用过程也可以在计算设备130内实现。而且,所需图像数据除了可以由图像采集设备120实时采集之外,还可以使用预先存储在服务器110或数据库设备140中的图像数据。
示例性地,计算设备130可以包括图形处理器,该图形处理器可以包括用于执行不同任务的多个子系统,例如,可以包括图形处理子系统(图形处理子单元或图形处理核,支持各种图形数据处理)、高性能计算子系统、视频处理(编解码)子系统、音视频输出子系统等等。该图形处理器可以用于执行模型训练过程和/或应用过程。需要说明的是,计算设备130中用于执行模型训练过程和/或应用过程的处理器还可以是神经网络加速器等,计算设备130还可以包括中央处理器,本公开对此不作限制。
图2示意性地示出了根据本申请实施例的在图像中定位目标物的方法200的流程图。如图2所示,所述方法200包括如下步骤:
在步骤S205中,确定所述图像中的内容区域的轮廓;
在步骤S210中,为所述内容区域的轮廓确定最小外接矩形;
在步骤S215中,确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;
在步骤S220中,响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;
在步骤S225中,对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。
下面对这些步骤进行具体描述。
首先,在得到需要在其中定位目标物的图像后,确定该图像中的内容区域的轮廓(步骤S205)。本申请实施例用于处理的图像可以是包含内容区域和背景区域的图像。内容区域具有相对丰富的内容,包含了大量可用于进行分析的数据(比如轮廓、边缘、颜色、纹理和形状特征等),也可以称为图像的有效区域。背景区域具有相对单调的内容,所包含的信息对于数据分析的作用不大。因此,通过在图像中识别出内容区域,可以减少干扰和计算量,进而提高检测精度。为此,可以先确定内容区域的轮廓。在具体的实施例中,可以使用轮廓检测函数来确定内容区域的轮廓。轮廓检测函数可能得到多个轮廓,需要从这些轮廓中找到最外围的轮廓,而忽略包含在该最外围的轮廓内的内部轮廓。具体的,可以将轮廓检测函数检测到的多个轮廓中的轮廓点数最多的轮廓作为所述内容区域的轮廓。
接下来,在确定内容区域的轮廓后,可以为该内容区域的轮廓确定最小外接矩形(步骤S210)。术语“最小外接矩形”是指,根据内容区域在两个维度上的最大范围而限定的区域。例如,最小外接矩形可以是以所述内容区域的轮廓上的各点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标确定边界的矩形。该最小外接矩形可以以其中心点坐标、宽度、高度来进行标记。
然后,确定该最小外接矩形的尺寸是否大于或等于第一预设尺寸(步骤S215)。一般来说,如果图像的采集是成功的,那么图像的内容区域的尺寸会大于一定的尺寸阈值。该尺寸阈值可以根据具体情况被预先设定为第一预设尺寸。因此,通过确定该最小外接矩形的尺寸是否大于或等于第一预设尺寸,能够验证图像采集是否成功。如果该最小外接矩形的尺寸小于第一预设尺寸,则可能意味着图像采集是失败的,或者前述步骤是所得到的轮廓并不是内容区域的轮廓。其原因可能是,所得到的图像是模糊的、不易分辨的。
如果该最小外接矩形的尺寸大于或等于所述第一预设尺寸,则可以按照所述最小外接矩形截取所述图像,以得到目标图像(步骤S220)。具体的,可以利用前面提到的用于标记最小外接矩形的中心点坐标、宽度、高度等参数来定义截取的区域,以得到目标图像。如果最小外接矩形的尺寸小于所述第一预设尺寸,则可以人工从图像中按照内容区域截取目标图像,以用于后续操作。
接下来,对所述目标图像进行目标检测操作,以得到输出图像(步骤S225)。所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。因此能够理解,本申请将图像中目标物的定位问题转换为目标检测问题,也就是通过目标检测的方法实现目标物的定位。在计算视觉的领域中,目标定位和目标检测是两个不同的应用。目标定位的目的是在图像中确定某一目标物在该图像中的位置。在目标定位中,通常只有一个或固定数目的目标物。目标检测的目的是识别出图像中的目标物的具体类型和标识出目标物(例如采用目标框)。在目标检测中,图像中出现的目标种类和数目都不固定。目标检测的输出结果包括用于标识目标物的目标框,该目标框的尺寸取决于目标物的大小,以能完全包围目标物为准,并且在此原则下,目标框越小,则表示目标检测的结果越准确。虽然本申请实施例的目标定位方法中输出的图像也包括目标框,但是,本申请将该目标框的中心点的位置确定为所述目标物的位置。这与常规的目标检测不同,因为在常规目标检测中,在得到的目标框后,不会认为该目标框的中心点有任何特殊的意义,目标物的位置也不是由目标框的中心点来定义的,而是由目标框的框体本身定义的(事实上,在常规的目标检测中,目标物的位置并不一定位于目标框的中心)。在此基础上应理解,本申请只要求在目标框的中心点处出现目标物,并不要求目标框的尺寸与目标物的尺寸相适应。这意味着,本申请的目标框所框出的范围可以远大于目标物的范围。这样,在确定目标物的位置时,所依据的特征将不仅是目标物本身的特征,而且还可以是目标物周围的大量其他语义特征,使得能够借助更多的语义信息来进行目标物的定位,所得到的定位位置具有更高的精度。这对于小尺寸的目标物、含有信息量较少的目标物的定位来说是尤为有利的。甚至在一些情况下,即使目标物的尺寸小到难以用人眼分辨出来,也可以通过本申请的方法基于目标物周围的语义特征来确定目标物的位置。在一些实施例中,步骤S225中得到的输出图像中的目标框具有固定尺寸。该尺寸可以根据所述图像的具体内容来预先设置。例如,在训练用于进行目标检测操作的目标检测模型时,在制作样本图像的标签时,以同一尺寸在样本图像中确定标签框。这样,目标检测模型输出的各个输出图像中的目标框的尺寸也是一样的,而不是取决于目标物的尺寸而得到不同尺寸的目标框。这样可以确定一个比目标物本身更大的语义信息范围,使得即使目标物的尺寸很小,也能够借助更多的语义信息来进行目标物的定位。
根据本申请实施例的方法可以应用在多种场景中,例如包括在眼底图像中为黄斑中央凹定位。为了更容易理解本申请的实施例,下面将以在眼底图像中为黄斑中央凹定位为例,进一步描述根据本申请实施例的在图像中定位目标物的方法。
据世界视觉报告,全球至少有22亿人视力受损,其中,至少10亿人的视力损伤本可以预防,或尚有治愈的可能。由于人口增长、老龄化和生活方式的改变,眼科疾病的患者将会更多。为了减轻医生的看诊压力,将计算机和人工智能技术应用于眼科疾病的辅助诊断和筛查是未来的发展方向。
眼底图像是视网膜疾病最为常见的成像手段,也是医生进行诊断的重要依据。图3示意性地示出了一种眼底图像。如图3所示,眼底图像中包含黄斑、视杯视盘和血管等主要结构。黄斑区域无血管。因色素上皮细胞中含有较多色素,因此黄斑区的颜色较暗。黄斑中央处有一小凹陷,被称为中央凹。中央凹是视网膜上视觉最敏锐的部位。中心凹的尺寸非常小,在眼底图像中看起来是一个反光点。中央凹的准确定位对病情诊断具有非常重要的意义。例如,黄斑中央凹在眼球的位置比较固定,可以用来判断视盘的位置。
现有的黄斑中央凹定位方法主要包括两种。一种方法是基于模板特征的方法,其高度依赖视网膜结构的相对位置来定位黄斑中央凹的位置,其定位精度受其他结构特征的影响较大,且鲁棒性差,当眼球有出血情况时可能导致失败。另一种方法是基于阈值分割的方法,其对光照变化较为敏感,可能因为光照变化、对比度不均等因素导致误差较大,无法有效应用于眼科疾病的辅助检测。总体来说,当前眼底图像黄斑中央凹检测方法存在抗干扰弱、精度低和耗时长的缺点,无法满足实际应用。将本申请的在图像中定位目标物的方法用于在眼底图像中定位黄斑中央凹可以有效地改善上述问题。
在具体的实施例中,首先可以利用专用的眼底照相机拍摄,得到类似于图3的眼底图像。眼底图像包括内容区域305和背景区域310。内容区域305就是图3中的眼球部分,其中可以看到黄斑、视盘、血管等图案。背景区域310就是内容区域305外部的纯色无图案区域。应理解,每张眼底图像都包括内容区域305和背景区域310,其中各眼底图像的背景区域310是基本相同的,都是黑色的纯色区域,而内容区域305依个人的身体情况显然各有不同。接下来,将确定眼底图像中的内容区域305的轮廓。可以将眼底图像输入到用于确定轮廓的模型中,根据轮廓函数找到眼底图像中具有最多轮廓点的轮廓作为内容区域305的轮廓。
然后,为该轮廓确定最小外接矩形315。该最小外接矩形315可以由其中心点坐标、宽和高来表示。例如,可以以向量(x,y,w,h)来标记该轮廓的最小外接矩形315,其中,x,y代表该最小外接矩形的中心点坐标,w,h代表该最小外接矩形的宽和高。
然后,确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸。该第一预设尺寸可以以像素数量来表示。具体的像素值可以根据眼底图像的数据集中的图像大小来设置。一般来说,一个数据集中的眼底图像是由同一个摄像机拍摄的,其内容区域的尺寸基本是一致的,因此可以按照该内容区域的大小设置第一预设尺寸,例如可以比该数据集中的眼底图像的内容区域的尺寸稍小即可。这样,在确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸后,能保证前述步骤得到的最小外接矩形就是眼底图像的眼球部分的外接矩形。
当最小外接矩形的尺寸大于或等于所述第一预设尺寸时,也就是确定该最小外接矩形圈出的是眼底图像的眼球部分时,可以按照该最小外接矩形截取眼底图像,以得到眼底图像的目标图像。该目标图像的水平方向的范围是x-w/2到x+w/2,竖直方向的范围是y-h/2到y+h/2。图4示意性地示出了经过截取操作后所得到的目标图像。如图4所示,目标图像恰好按照矩形将眼球部分从眼底图像中截出,这可以减少眼底图像的背景部分对中央凹定位的干扰。如果最小外接矩形的尺寸小于第一预设尺寸,则表示轮廓检测算法检测失败,原因可能是眼底疾病导致眼底浑浊。此时可以由专业人员检测该图像,并从中截取出目标图像。
然后,对该目标图像进行目标检测操作,以得到输出图像。图5示意性地示出了根据本申请实施例的方法所得到的输出图像。如图5所示,在输出图像中包括了目标框505。该目标框505所圈出的范围即不是黄斑、也不是中央凹。实际上,本申请实施例得到的目标框并不用于示出图像中的任何元素的范围或尺寸,其仅用于示出目标物的位置。具体的,本申请实施例以目标框的中心点作为目标物的位置。图6示意性地示出了根据本申请实施例的方法所确定的目标物的位置。如图6所示,在矩形的目标框中,以该矩形的两条对角线的交点确定了其中心点,进而得到了中央凹的位置。在上述场景中,即使中央凹的尺寸很小,甚至可能人眼无法在显示接口上直接观察到中央凹,也可以凭借目标框及其中点位置,确定中央凹的位置。
下面将描述对目标图像进行目标检测操作以得到输出图像的具体过程。图7示意性地示出了用于执行目标检测操作的目标检测模型的结构。为了更直观地表示与图像有关的特征信息在模型内的变化方式,图7以具有512像素×512像素的尺度,并且具有R、G、B三通道的目标图像作为示例,并给出了各个模型输出的特征信息的尺度。应理解,图7中所示的各数据仅仅是示例性的,仅用于促进对本申请原理的理解,并不意图由这些数据对本申请进行限定,并且随着输入图像尺寸的变化以及对模型结构的调整,这些数据可能发生变化。如图7所示,首先,目标图像701被输入到第一标准卷积模型705中,以用于进行标准卷积操作(简称为,第一标准卷积操作)。图8示意性地示出了标准卷积模型的内部结构。如图8所示,标准卷积模型内包含标准卷积层805、归一化层810、以及激活函数层815,分别进行标准卷积操作、归一化操作、以及输入输出映射操作。其中,激活函数层815可以选择ReLU激活函数,其可以解决所谓的“梯度消失”问题,以及加快收敛速度。在对所述目标图像进行第一标准卷积操作后,可以得到第一特征信息。当目标图像具有512像素×512像素的尺度,并且具有R、G、B三通道时,经过第一标准卷积操作后,所得到的第一特征信息具有2562×64的尺度。
接下来,第一特征信息被输入到瓶颈层模型组710,以得到第二特征信息。其中,瓶颈层模型组710包括按信息流顺序连接的多个瓶颈层模型(例如,瓶颈层模型711、瓶颈层模型712、瓶颈层模型713、瓶颈层模型714、瓶颈层模型715、瓶颈层模型716、瓶颈层模型717)。所述多个瓶颈层模型中的最前的瓶颈层模型(例如瓶颈层模型711)接收所述第一特征信息,且最后的瓶颈层模型(例如瓶颈层模型717)输出所述第二特征信息。术语“最前”和“最后”是按照信息流的方向定义的瓶颈层模型的顺序。每个所述瓶颈层模型包括至少一个子模型。例如,在图7所示的实施例中,瓶颈层模型711具有1个子模型、瓶颈层模型712具有2个子模型、瓶颈层模型713具有3个子模型、瓶颈层模型714具有4个子模型、瓶颈层模型715具有3个子模型、瓶颈层模型716具有3个子模型、瓶颈层模型717具有1个子模型。
图9示意性地示出了子模型的内部结构。如图9所示,每个子模型包括按照信息流的顺序布置的升维层905、深度卷积层910、和降维层915。也就是说,当特征信息被输入到子模型时,会先经历升维操作(也称扩张操作),然后再进行深度卷积操作,最后再进行降维操作(也称压缩操作)。深度卷积本身没有改变通道的能力,输入的通道数量与输出的通道数量相同。如果输入的通道很少,那么深度卷积只能在低维度上工作,这样可能导致较差的效果。在本申请的实施例中,在进行深度卷积操作之前,可以先按照一定的倍增系数进行升维操作(例如利用逐点卷积),可以使得深度卷积在一个更高维的空间中进行卷积操作来提取特征,改善了特征提取的效果。还可以看到,子模型具有残差结构,解决了模型退化的问题。另外,在升维层905和深度卷积层910中,都含有归一化层和激活函数层,且激活函数选择ReLU 6激活函数。然而,降维层915的激活函数层选择了线性激活函数(linear),实际上是不对输入特征进行任何改变(因此图9中省略了该激活函数层),以避免ReLU激活函数导致的信息损耗。
表1示出了在根据本申请的实施例中各个瓶颈层模型的参数。
输入尺度 | 输出尺度 | 子模型重复次数 | 输出通道数 | 倍增系数 | |
瓶颈层模型711 | 256<sup>2</sup>×64 | 256<sup>2</sup>×32 | 1 | 32 | 1 |
瓶颈层模型712 | 256<sup>2</sup>×32 | 128<sup>2</sup>×48 | 2 | 48 | 6 |
瓶颈层模型713 | 128<sup>2</sup>×48 | 64<sup>2</sup>×64 | 3 | 64 | 6 |
瓶颈层模型714 | 64<sup>2</sup>×64 | 64<sup>2</sup>×128 | 4 | 128 | 6 |
瓶颈层模型715 | 64<sup>2</sup>×128 | 32<sup>2</sup>×192 | 3 | 192 | 6 |
瓶颈层模型716 | 32<sup>2</sup>×192 | 16<sup>2</sup>×160 | 3 | 160 | 6 |
瓶颈层模型717 | 16<sup>2</sup>×160 | 16<sup>2</sup>×320 | 1 | 320 | 6 |
表1:各瓶颈层模型的参数。
在该模型中,前五个瓶颈层模型的输出通道数分别至少被设置为32、48、64、128和192。这几个瓶颈层模型的位置靠前,所提取的特征是底层特征。在本申请的实施例中,在这些瓶颈层模型中按照上述数量区设置通道实际上是一种通道数量较高的设置,这可以使得高层特征融合的过程具有丰富的特征,提升网络的特征提取性能。
在瓶颈层模型组710输出第二特征信息后,第二特征信息被输入到第二标准卷积模型720中,以进行第二标准卷积操作。第二标准卷积模型720的内部结构也可以采用如图8所示的标准卷积模型的内部结构,即,第二特征信息按顺序进行标准卷积操作、归一化操作、以及输入输出映射操作。在一个具体的示例中,所得到的第三特征信息具有162×1280的尺度。
接下来,将对所述第三特征信息与所述多个瓶颈层模型中的至少部分瓶颈层模型输出的特征信息进行特征融合操作,以得到至少一个特征图。下面对该特征融合操作进行介绍。
首先,第三特征信息可以被输入到第一残差卷积模型725中,以对第三特征信息进行第一残差卷积操作,以得到第一加强特征信息。图10示意性地示出了第一残差卷积模型725可以采用的残差卷积模型的结构。如图10所示,该残差卷积模型可以包括多个子模型726,例如5个子模型。每个子模型分别包含标准卷积层、归一化层、以及激活函数层。此外,第一残差卷积模型725还包括残差结构,以防止网络退化,保证特征的有效融合。
接下来,第一加强特征信息被输入到第一通道调整模型730,以对所述第一加强特征信息进行第一通道调整操作,以得到第一特征图。在一些实施例中,所述第一通道调整模型730对第一加强特征信息先用3×3的卷积提取特征,然后再用1×1的卷积降通道,最终得到第一特征图。这样既可以提高非线性程度增加泛化性能提高网络精度,又能减少参数提高实时性。
在一些实施例中,第一加强特征信息还用于与瓶颈层模型输出的特征信息进行拼接以得到与第一特征图尺度不同的第二特征图。例如,在一些实施例中,所述特征融合操作还包括将所述第一加强特征信息输入到第一上采样模型735中,以对所述第一加强特征信息进行第一上采样操作,以得到第一上采样特征信息。在第一上采样操作中,首先对第一加强特征信息进行卷积操作,改变其通道数量,然后进行上采样,以得到第一上采样特征信息。第一上采样特征信息的尺度与待进行拼接的由瓶颈层模型输出的特征信息的尺度一致,以便进行拼接。在具体的实施例中,第一上采样特征信息应当与这样的瓶颈层模型输出的特征信息进行拼接,该瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息的尺度不同的特征信息的瓶颈层模型。比如,在图7所示的实施例中,第一加强特征信息的尺度为16×16,在各个瓶颈层模型中,按照从后往前的顺序,瓶颈层模型717和瓶颈层模型716输出的特性信息的尺度都为16×16,而瓶颈层模型715(也就是倒数第三个瓶颈层模型)是第一个输出非16×16的特性信息的瓶颈层模型。因此可以将第一加强特征信息与瓶颈层模型715输出的特征信息进行拼接。在第一加强特征信息的尺度为16×16的情况下,经过上采样后,得到的第一上采样特征信息的尺度变为32×32,与瓶颈层模型715输出的特征信息的尺度相同,可以进行拼接。
然后,将第一上采样特征信息和瓶颈层模型715输出的特征信息输入到第一拼接模型740中以使这两个特征信息进行拼接,以得到第一拼接特征信息。在上述实施例中,瓶颈层模型715输出的特征信息是与第一加强特征信息的尺度不同的最高层的瓶颈层模型的特征信息。较低层的瓶颈层模型主要提取的是一些底层信息,比如轮廓、边缘、颜色、纹理和形状特征,而较高层的瓶颈层模型主要提取的是非视觉特征。非视觉特征的分辨能力更强,与第一加强特征信息进行拼接后的效果更好。
接下来,将第一拼接特征信息输入到第二残差卷积模型745中,以对所述第一拼接特征信息进行第二残差卷积操作,以得到第二加强特征信息。第二残差卷积模型745也可以采用如图10所示的残差卷积模型,例如其可以包括多个子模型,并且还包括残差结构,以实现与第一残差卷积模型725类似的效果。然后,通过第二通道调整模型750对所述第二加强特征信息进行第二通道调整操作,以得到第二特征图。第二通道调整模型750与第一通道调整模型730的结构类似,也是先对第二加强特征信息用3×3的卷积提取特征,然后再用1×1的卷积降通道,最终得到第二特征图。
在一些实施例中,与通过将第一加强特征信息与瓶颈层模型输出的特征信息进行拼接以得到第二特征图类似,特征融合操作还包括将上述第二加强特征信息与瓶颈层模型输出的特征信息进行拼接以得到第三特征图的过程。具体的,首先通过第二上采样模型755对第二加强特征信息进行第二上采样操作,以得到第二上采样特征信息。与第一上采样模型735类似,首先对第二加强特征信息进行卷积操作,改变其通道数量,然后进行上采样,以得到第二上采样特征信息。所得到的第二上采样特征信息的尺度应与待进行拼接的由瓶颈层模型输出的特征信息的尺度一致,以便进行拼接。在具体的实施例中,第二上采样特征信息应当与这样的瓶颈层模型输出的特征信息进行拼接,该瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息和所述第二加强特征信息的尺度不同的特征信息的瓶颈层模型。比如,在图7所示的实施例中,第一加强特征信息的尺度为16×16,第二加强特征信息的尺度为32×32,在各个瓶颈层模型中,按照从后往前的顺序,瓶颈层模型717和瓶颈层模型716输出的特性信息的尺度都为16×16,瓶颈层模型715输出的特性信息的尺度为32×32,而瓶颈层模型714(也就是倒数第四个瓶颈层模型)是第一个输出既非16×16又非32×32的特性信息的瓶颈层模型。因此可以将第二加强特征信息与瓶颈层模型714输出的特征信息进行拼接。尺度为32×32的第二加强特征信息经过第二上采样操作后,尺度变为64×64,与瓶颈层模型714输出的特征信息的尺度相同,可以进行拼接。瓶颈层模型714输出的特征信息是与第一和第二加强特征信息的尺度不同的最高层的特征信息,与该层的特征信息进行拼接的效果更好。
然后,将第二上采样特征信息与瓶颈层模型714输出的特征信息输入到第二拼接模型760中以使这两个特征信息进行拼接,以得到第二拼接特征信息。接下来,将第二拼接特征信息输入到第三残差卷积模型765中,以对所述第二拼接特征信息进行第三残差卷积操作,以得到第三加强特征信息。第三残差卷积模型765也可以采用如图10所示的残差卷积模型,其内部过程不再赘述。之后,通过第三通道调整模型770对所述第二加强特征信息进行第二通道调整操作,以得到第三特征图。第三通道调整模型770与第一通道调整模型730的结构类似,同样不再赘述。
通过上述过程,得到了3个不同尺度的特征图,可以实现在多个尺度的融合特征图上分别独立做检测,这在小目标的检测上具有优异的效果。
以上描述了通过特征融合操作得到至少一个特征图的过程。在本申请实施例的方法中,接下来,基于所述至少一个特征图,确定所述目标框在所述输出图像中的位置,从而得到所述输出图像。例如,在一些实施例中,该步骤可以具体包括基于所述第一特征图、所述第二特征图、和所述第三特征图,确定所述目标框在所述输出图像中的位置,从而得到所述输出图像。将特征图映射成图像中的位置以得到目标框的方法可以采用本领域内已知的方法,在此不再详细描述。在得到目标框的位置后,可以在计算设备的显示接口上显示带有目标框的图像,该目标框的中点即为目标物的位置。
发明人经过实验发现,将上述目标检测模型用于在眼底图像中确定中央凹位置的应用中时,例如以图7中所示的各参数为例时,模型参数量仅为10.333M,所需算力仅为11.600GFLOPS(Giga Floating-point Operations Per Second,即每秒10亿次的浮点运算数),说明本方法涉及的网络参数非常少,有利地提升了运行速度。
本申请实施例的方法在目标检测模型内完成目标检测操作,下面描述该目标检测模型的训练方法。
首先,获取训练图像,也就是样本图像。训练图像可以由图像采集设备即时采集,也可以采用数据库内预先存储的图像。然后,在所述训练图像中标记出目标物的点位置。“点位置”是一个点的坐标。这说明在本申请的实施例所适用的场景中,仅用单个点就足以指出目标物的位置。接下来,以所述目标物的点位置为中心,构建具有第二预设尺寸的标签框。第二预设尺寸可以是根据具体引用场景设定的固定尺寸。例如,在眼底图像中识别中央凹的应用中,第二预设尺寸可以近似于黄斑的尺寸,以容纳足够语义信息为准。应注意,这并不表示基于第二预设尺寸的标签框所框出的范围恰好是黄斑的范围。上述步骤说明,所得到的标签框并不是标签制作者圈出的,而是基于标签制作者提供的点位置而生成的。然后,基于所述标签框,按照所述目标检测模型的格式生成标签文件。在准备好训练图像和标签文件后,将所述训练图像输入到待训练的目标检测模型,以得到预测目标框。接下来,根据所述标签框和预测目标框,确定所述目标检测模型的损失函数。例如,在本申请的实施例中,可以使用Focal loss损失函数。Focal loss损失函数可以解决正负样本不均衡的情况,这是在眼底图像中定位中央凹时经常遇到的问题。在该应用中,正样本是指预测的目标框与标记的标签框的IoU(Intersection over Union,重叠度)超过一定阈值的样本,负样本是指IoU小于该阈值的样本。该阈值可以根据检测效果进行调整。之后,基于所述损失函数更新所述目标检测模型的参数,使得所述目标检测模型达到收敛,以完成所述目标检测模型的训练。
综上所述,本申请提供了一种在图像中定位目标物的方法。该方法将目标定位问题转换为目标检测问题,通过神经网络为目标物提取更多的语义特征,从而实现更精准的定位。该方法的模型参数较少,避免了过拟合问题,且所需算力更少,并具有提升的特征提取性能,而且由于对提取的特性信息进行了残差卷积操作,可以防止网络退化,保证特征的有效融合。本申请提供的方法可以用于在眼底图像中定位黄斑中央凹,并且相对于常规的定位中央凹的方法,本申请提供的方法能够克服光照不均匀、病变干扰、眼底数据集少等问题。
根据本申请的另一方面,还提供了一种在图像中定位目标物的装置。图11示意性地描绘了根据本申请的一个实施例的一种在图像中定位目标物的装置1100的示例性结构框图。如图11所示,所述在图像中定位目标物的装置1100包括轮廓确定模块1105、最小外接矩形确定模块1110、尺寸判断模块1115、目标图像截取模块1120、以及目标检测模块1125。轮廓确定模块1105配置成确定所述图像中的内容区域的轮廓。最小外接矩形确定模块1110配置成为所述内容区域的轮廓确定最小外接矩形。尺寸判断模块1115配置成确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸。目标图像截取模块1120配置成响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像。目标检测模块1125配置成对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。所述在图像中定位目标物的装置1100可以实现根据本申请任一实施例所述在图像中定位目标物的方法。
图12图示了示例系统1200,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备130。计算设备130可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图11描述的在图像中定位目标物的装置1100可以采取计算设备130的形式。替换地,在图像中定位目标物的装置1100可以以应用1216的形式被实现为计算机程序。
如图示的示例计算设备130包括彼此通信耦合的处理系统1211、一个或多个计算机可读介质1212以及一个或多个I/O接口1213。尽管未示出,但是计算设备130还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统1211代表使用硬件执行一个或多个操作的功能。因此,处理系统1211被图示为包括可被配置为处理器、功能块等的硬件元件1214。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1214不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质1212被图示为包括存储器/存储装置1215。存储器/存储装置1215表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1215可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置1215可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质1212可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口1213代表允许用户使用各种输入设备向计算设备130输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,显示器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备130可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备130还包括应用1216。应用1216可以例如是在图像中定位目标物的装置1100的软件实例,并且与计算设备130中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件1214和计算机可读介质1212代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1214体现的一个或多个指令和/或逻辑。计算设备130可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件1214,可以至少部分地以硬件来实现将模块实现为可由计算设备130作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备130和/或处理系统1211)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备130可以采用各种不同的配置。例如,计算设备130可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备130还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备130还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备130的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1222而在“云”1220上全部或部分地实现。
云1220包括和/或代表用于资源1224的平台1222。平台1222抽象云1220的硬件(例如,服务器)和软件资源的底层功能。资源1224可以包括在远离计算设备130的服务器上执行计算机处理时可以使用的应用和/或数据。资源1224还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台1222可以抽象资源和功能以将计算设备130与其他计算设备连接。平台1222还可以用于抽象资源的分级以提供遇到的对于经由平台1222实现的资源1224的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统1200内。例如,功能可以部分地在计算设备130上以及通过抽象云1220的功能的平台1222来实现。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的在图像中定位目标物的方法。
应当理解,为清楚起见,参考不同的功能单元对本申请的实施例进行了描述。然而,将明显的是,在不偏离本申请的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本申请可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本申请,但是其不旨在被限于在本文中所阐述的特定形式。相反,本申请的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。
Claims (14)
1.一种在图像中定位目标物的方法,其特征在于,所述方法包括:
确定所述图像中的内容区域的轮廓;
为所述内容区域的轮廓确定最小外接矩形;
确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;
响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;
对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。
2.如权利要求1所述的方法,其特征在于,对所述目标图像进行目标检测操作,以得到输出图像包括:
对所述目标图像进行第一标准卷积操作,以得到第一特征信息;
将所述第一特征信息输入到瓶颈层模型组以得到第二特征信息,其中所述瓶颈层模型组包括按信息流顺序连接的多个瓶颈层模型,所述多个瓶颈层模型中的最前的瓶颈层模型接收所述第一特征信息,且所述多个瓶颈层模型中的最后的瓶颈层模型输出所述第二特征信息,其中每个瓶颈层模型包括至少一个子模型,每个子模型包括按照信息流顺序布置的升维层、深度卷积层、和降维层;
对所述第二特征信息进行第二标准卷积操作,以得到第三特征信息;
对所述第三特征信息与所述多个瓶颈层模型中的至少部分瓶颈层模型输出的特征信息进行特征融合操作,以得到至少一个特征图;以及
基于所述至少一个特征图,确定所述目标框在所述输出图像中的位置,以得到所述输出图像。
3.如权利要求2所述的方法,其特征在于,所述特征融合操作包括:
对所述第三特征信息进行第一残差卷积操作,以得到第一加强特征信息;
对所述第一加强特征信息进行第一通道调整操作,以得到所述至少一个特征图中的第一特征图。
4.如权利要求3所述的方法,其特征在于,所述特征融合操作还包括:
对所述第一加强特征信息进行第一上采样操作,以得到第一上采样特征信息,其中所述第一上采样特征信息的尺度与所述多个瓶颈层模型中的第一瓶颈层模型输出的特征信息的尺度相同,所述第一瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息的尺度不同的特征信息的瓶颈层模型;
将所述第一上采样特征信息与所述第一瓶颈层模型输出的特征信息进行拼接,以得到第一拼接特征信息;
对所述第一拼接特征信息进行第二残差卷积操作,以得到第二加强特征信息;
对所述第二加强特征信息进行第二通道调整操作,以得到所述至少一个特征图中的第二特征图。
5.如权利要求4所述的方法,其特征在于,所述第一瓶颈层模型是所述多个瓶颈层模型中的倒数第三个瓶颈层模型。
6.如权利要求4所述的方法,其特征在于,所述特征融合操作还包括:
对所述第二加强特征信息进行第二上采样操作,以得到第二上采样特征信息,其中所述第二上采样特征信息的尺度与所述多个瓶颈层模型中的第二瓶颈层模型输出的特征信息的尺度相同,所述第二瓶颈层模型是所述多个瓶颈层模型中按照从后往前的顺序第一个输出与所述第一加强特征信息和所述第二加强特征信息的尺度不同的特征信息的瓶颈层模型;
将所述第二上采样特征信息与所述第二瓶颈层模型输出的特征信息进行拼接,以得到第二拼接特征信息;
对所述第二拼接特征信息进行第三残差卷积操作,以得到第三加强特征信息;
对所述第三加强特征信息进行第三通道调整操作,以得到所述至少一个特征图中的第三特征图。
7.如权利要求6所述的方法,其特征在于,所述第二瓶颈层模型是所述多个瓶颈层模型中的倒数第四个瓶颈层模型。
8.如权利要求2所述的方法,其特征在于,所述多个瓶颈层模型包括七个瓶颈层模型,并且,在所述七个瓶颈层模型中,前五个瓶颈层模型分别包括至少32个通道、至少48个通道、至少64个通道、至少128个通道、和至少192个通道。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:训练用于进行所述目标检测操作的目标检测模型,其包括:
获取训练图像;
在所述训练图像中标记所述目标物的点位置;
以所述目标物的点位置为中心,构建具有第二预设尺寸的标签框;
基于所述标签框,按照所述目标检测模型的格式生成标签文件;
将所述训练图像输入到待训练的目标检测模型,以得到预测目标框;
根据所述标签框和预测目标框,确定所述目标检测模型的损失函数;
基于所述损失函数更新所述目标检测模型的参数,使得所述目标检测模型达到收敛,以完成所述目标检测模型的训练。
10.如权利要求1所述的方法,其特征在于,所述图像是眼底图像,所述内容区域是所述眼底图像的眼球部分,所述目标物是黄斑的中央凹。
11.一种在图像中定位目标物的装置,其特征在于,所述装置包括:
轮廓确定模块,其配置成确定所述图像中的内容区域的轮廓;
最小外接矩形确定模块,其配置成为所述内容区域的轮廓确定最小外接矩形;
尺寸判断模块,其配置成确定所述最小外接矩形的尺寸是否大于或等于第一预设尺寸;
目标图像截取模块,其配置成响应于所述最小外接矩形的尺寸大于或等于所述第一预设尺寸,按照所述最小外接矩形截取所述图像,以得到目标图像;以及
目标检测模块,其配置成对所述目标图像进行目标检测操作,以得到输出图像,其中所述输出图像包括目标框,所述目标框的中心点的位置是所述目标物的位置。
12.一种计算设备,其特征在于,所述计算设备包括:
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行根据权利要求1至10中的任一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可执行指令,其中所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210965580.2A CN115049734A (zh) | 2022-08-12 | 2022-08-12 | 在图像中定位目标物的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210965580.2A CN115049734A (zh) | 2022-08-12 | 2022-08-12 | 在图像中定位目标物的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115049734A true CN115049734A (zh) | 2022-09-13 |
Family
ID=83167513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210965580.2A Pending CN115049734A (zh) | 2022-08-12 | 2022-08-12 | 在图像中定位目标物的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049734A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN108185984A (zh) * | 2017-12-28 | 2018-06-22 | 中山大学 | 眼底彩照进行眼底病灶识别的方法 |
CN109493954A (zh) * | 2018-12-20 | 2019-03-19 | 广东工业大学 | 一种基于类别判别定位的sd-oct图像视网膜病变检测系统 |
CN109886955A (zh) * | 2019-03-05 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 用于处理眼底图像的方法和装置 |
CN110428421A (zh) * | 2019-04-02 | 2019-11-08 | 上海鹰瞳医疗科技有限公司 | 黄斑图像区域分割方法和设备 |
CN111046717A (zh) * | 2019-10-11 | 2020-04-21 | 平安科技(深圳)有限公司 | 眼底图像黄斑中心定位方法、装置、电子设备及存储介质 |
US20200260944A1 (en) * | 2019-02-19 | 2020-08-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for recognizing macular region, and computer-readable storage medium |
CN112017187A (zh) * | 2020-11-02 | 2020-12-01 | 平安科技(深圳)有限公司 | 眼底图像黄斑中心定位方法及装置、服务器、存储介质 |
CN112541883A (zh) * | 2020-10-16 | 2021-03-23 | 天津大学 | 基于深度学习的眼底视盘及中央凹实时检测装置和方法 |
CN112926463A (zh) * | 2021-03-02 | 2021-06-08 | 普联国际有限公司 | 一种目标检测方法和装置 |
CN113327283A (zh) * | 2021-04-30 | 2021-08-31 | 中国人民解放军军事科学院国防科技创新研究院 | 图像数据目标检测矩形框自动标注方法及系统 |
CN114387209A (zh) * | 2021-12-03 | 2022-04-22 | 依未科技(北京)有限公司 | 眼底结构特征确定的方法、装置、介质和设备 |
CN114511738A (zh) * | 2022-01-25 | 2022-05-17 | 阿里巴巴(中国)有限公司 | 眼底病变识别方法、装置、电子设备和可读存储介质 |
CN114821189A (zh) * | 2022-05-18 | 2022-07-29 | 重庆邮电大学 | 一种基于眼底图像的病灶图像分类与识别方法 |
-
2022
- 2022-08-12 CN CN202210965580.2A patent/CN115049734A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN108185984A (zh) * | 2017-12-28 | 2018-06-22 | 中山大学 | 眼底彩照进行眼底病灶识别的方法 |
CN109493954A (zh) * | 2018-12-20 | 2019-03-19 | 广东工业大学 | 一种基于类别判别定位的sd-oct图像视网膜病变检测系统 |
US20200260944A1 (en) * | 2019-02-19 | 2020-08-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for recognizing macular region, and computer-readable storage medium |
CN109886955A (zh) * | 2019-03-05 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 用于处理眼底图像的方法和装置 |
CN110428421A (zh) * | 2019-04-02 | 2019-11-08 | 上海鹰瞳医疗科技有限公司 | 黄斑图像区域分割方法和设备 |
CN111046717A (zh) * | 2019-10-11 | 2020-04-21 | 平安科技(深圳)有限公司 | 眼底图像黄斑中心定位方法、装置、电子设备及存储介质 |
CN112541883A (zh) * | 2020-10-16 | 2021-03-23 | 天津大学 | 基于深度学习的眼底视盘及中央凹实时检测装置和方法 |
CN112017187A (zh) * | 2020-11-02 | 2020-12-01 | 平安科技(深圳)有限公司 | 眼底图像黄斑中心定位方法及装置、服务器、存储介质 |
CN112926463A (zh) * | 2021-03-02 | 2021-06-08 | 普联国际有限公司 | 一种目标检测方法和装置 |
CN113327283A (zh) * | 2021-04-30 | 2021-08-31 | 中国人民解放军军事科学院国防科技创新研究院 | 图像数据目标检测矩形框自动标注方法及系统 |
CN114387209A (zh) * | 2021-12-03 | 2022-04-22 | 依未科技(北京)有限公司 | 眼底结构特征确定的方法、装置、介质和设备 |
CN114511738A (zh) * | 2022-01-25 | 2022-05-17 | 阿里巴巴(中国)有限公司 | 眼底病变识别方法、装置、电子设备和可读存储介质 |
CN114821189A (zh) * | 2022-05-18 | 2022-07-29 | 重庆邮电大学 | 一种基于眼底图像的病灶图像分类与识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874594B (zh) | 基于语义分割网络的人体外表损伤检测方法及相关设备 | |
US20220189142A1 (en) | Ai-based object classification method and apparatus, and medical imaging device and storage medium | |
CN109753978B (zh) | 图像分类方法、装置以及计算机可读存储介质 | |
CN110705583B (zh) | 细胞检测模型训练方法、装置、计算机设备及存储介质 | |
WO2021227726A1 (zh) | 面部检测、图像检测神经网络训练方法、装置和设备 | |
WO2021082691A1 (zh) | 眼部oct图像病灶区域的分割方法、装置及终端设备 | |
CN108198184B (zh) | 造影图像中血管分割的方法和系统 | |
US20210118144A1 (en) | Image processing method, electronic device, and storage medium | |
US11200416B2 (en) | Methods and apparatuses for image detection, electronic devices and storage media | |
CN112233125B (zh) | 图像分割方法、装置、电子设备及计算机可读存储介质 | |
TW202014984A (zh) | 一種圖像處理方法、電子設備及存儲介質 | |
CN112017185B (zh) | 病灶分割方法、装置及存储介质 | |
US11967181B2 (en) | Method and device for retinal image recognition, electronic equipment, and storage medium | |
CN111860169B (zh) | 皮肤分析方法、装置、存储介质及电子设备 | |
CN111986202B (zh) | 青光眼辅助诊断装置、方法及存储介质 | |
JP7391267B2 (ja) | 医用画像処理方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN111667468A (zh) | 基于神经网络的oct图像病灶检测方法、装置及介质 | |
CN111652887A (zh) | 图像分割模型训练方法、装置、计算机设备及存储介质 | |
CN109919915A (zh) | 基于深度学习的视网膜眼底图像异常区域检测方法及设备 | |
CN111899247B (zh) | 脉络膜血管的管腔区域识别方法、装置、设备及介质 | |
CN117058676B (zh) | 一种基于眼底检查影像的血管分割方法、装置和系统 | |
CN113658165A (zh) | 杯盘比确定方法、装置、设备及存储介质 | |
CN110473176B (zh) | 图像处理方法及装置、眼底图像处理方法、电子设备 | |
WO2021179822A1 (zh) | 人体特征点的检测方法、装置、电子设备以及存储介质 | |
CN111862034B (zh) | 图像检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |