CN112513935A

CN112513935A - 图像处理方法及图像处理装置

Info

Publication number: CN112513935A
Application number: CN201880096219.2A
Authority: CN
Inventors: 安藤淳
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-03-16
Also published as: US20210142512A1; WO2020031380A1; JPWO2020031380A1; JP6986160B2

Abstract

图像处理装置(100)从图像检测物体的前端。图像处理装置(100)具备受理图像的输入的图像输入部(110)、通过对图像应用卷积运算而生成特征映射的特征映射生成部(112)、通过对特征映射应用第1转换而生成第1输出的第1转换部(114)、通过对特征映射应用第2转换而生成第2输出的第2转换部(116)、以及通过对特征映射应用第3转换而生成第3输出的第3转换部(118)。第1输出表示与在图像上预先决定的数量的候选区域相关的信息，第2输出表示在候选区域是否存在物体的前端的似然度，第3输出表示与存在于候选区域的物体的前端的方向相关的信息。

Description

图像处理方法及图像处理装置

技术领域

本发明涉及图像处理方法及图像处理装置。

背景技术

近年来，作为具有深层网络层的神经网络的深度学习备受瞩目。例如在专利文献1中提出了将深度学习应用于检测处理的技术。

在专利文献1所记载的技术中，通过学习如下内容来实现检测处理：在图像上等间隔地配置的多个区域的各个区域是否包括检测对象，包括检测对象的话，如何使区域移动、变形能更加适合检测对象。

现有技术文献

非专利文献

非专利文献1：Shaoqing Ren，Kaiming He，Ross Girshick and Jian Sun“FasterR-CNN：Towards Real-Time Object Detection with Region Proposal Networks”，Conference on Neural Information Processing Systems(NIPS)，2015

发明内容

发明要解决的问题

在物体的前端的检测处理中，除了其位置之外，有时方向也是重要的，但在专利文献1所记载的现有技术中，未能够考虑方向。

本发明是鉴于这种状况而完成的，其目的在于，提供一种在物体的前端的检测处理中除了考虑其位置之外也能够考虑方向的技术。

用于解决问题的手段

为了解决上述问题，本发明的某个方案的图像处理装置用于从图像检测物体的前端，具备：图像输入部，其受理图像的输入；特征映射生成部，其通过对图像应用卷积运算而生成特征映射；第1转换部，其通过对特征映射应用第1转换而生成第1输出；第2转换部，其通过对特征映射应用第2转换而生成第2输出；以及第3转换部，其通过对特征映射应用第3转换而生成第3输出，第1输出表示与在图像上预先决定的数量的候选区域相关的信息，第2输出表示在候选区域是否存在物体的前端的似然度，第3输出表示与存在于候选区域的物体的前端的方向相关的信息。

本发明的另一方案也是图像处理装置。该装置用于从图像检测物体的前端，具备：图像输入部，其受理图像的输入；特征映射生成部，其通过对图像应用卷积运算而生成特征映射；第1转换部，其通过对特征映射应用第1转换而生成第1输出；第2转换部，其通过对特征映射应用第2转换而生成第2输出；以及第3转换部，其通过对特征映射应用第3转换而生成第3输出，第1输出表示与在图像上预先决定的数量的候选点相关的信息，第2输出表示在候选点的附近是否存在物体的前端的似然度，第3输出表示与存在于候选点的附近的物体的前端的方向相关的信息。

本发明的又一方案是图像处理方法。该方法是用于从图像检测物体的前端的图像处理方法，包括：图像输入步骤，受理图像的输入；特征映射生成步骤，通过对图像应用卷积运算而生成特征映射；第1转换步骤，通过对特征映射应用第1转换而生成第1输出；第2转换步骤，通过对特征映射应用第2转换而生成第2输出；以及第3转换步骤，通过对特征映射应用第3转换而生成第3输出，第1输出表示与在图像上预先决定的数量的候选区域相关的信息，第2输出表示在候选区域是否存在物体的前端的似然度，第3输出表示与存在于候选区域的物体的前端的方向相关的信息。

另外，将以上的结构要素的任意的组合、本发明的表现在方法、装置、系统、记录介质、计算机程序等之间进行转换而得到的方案作为本发明的方案也是有效的。

发明的效果

根据本发明，可提供在物体的前端的检测处理中除了考虑位置之外也能够考虑方向的技术。

附图说明

图1是示出实施方式的图像处理装置的功能结构的框图。

图2是用于说明在由图1的候选区域判别部进行的候选区域是否包括处置器具的前端的判别中，考虑处置器具的前端的方向的可靠度的效果的图。

图3是用于说明在要删除的候选区域的决定中考虑处置器具的前端的方向的效果的图。

具体实施方式

以下，基于优选实施方式，参照附图对本发明进行说明。

图1是示出实施方式的图像处理装置100的功能结构的框图。这里所示的各块在硬件方面能够由以计算机的CPU(central processing unit：中央处理单元)、GPU(GraphicsProcessing Unit：图形处理单元)为代表的元件或机械装置实现，在软件方面能够由计算机程序等实现，但这里描绘通过它们的协同配合而实现的功能块。因此，接触到本说明书的本领域技术人员应理解这些功能块通过硬件、软件的组合，能够以各种形式实现。

以下，以将图像处理装置100用于检测内窥镜的处置器具的前端的情况为例进行说明，但本领域技术人员应清楚，也能够将图像处理装置100应用于检测除此以外的物体的前端，具体而言，例如机械臂、显微镜下的针、运动中使用的棒状道具等其他物体的前端。

图像处理装置100是用于根据内窥镜图像来检测内窥镜的处置器具的前端的装置。图像处理装置100具备图像输入部110、正解输入部111、特征映射生成部112、区域设定部113、第1转换部114、第2转换部116、第3转换部118、综合得分计算部120、候选区域判别部122、候选区域删除部124、权重初始化部126、整体误差计算部128、误差传播部130、权重更新部132、结果提示部133、以及权重系数存储部134。

首先，针对通过学习完毕的图像处理装置100从内窥镜图像来检测处置器具的前端的应用过程进行说明。

图像输入部110例如从与内窥镜连接的视频处理器或其他装置受理内窥镜图像的输入。特征映射生成部112对图像输入部110受理到的内窥镜图像应用使用了规定的权重系数的卷积运算，由此生成特征映射。权重系数在后述的学习过程中得到，被存储在权重系数存储部134中。在本实施方式中，作为卷积运算，使用以VGG-16为基础的卷积神经网络(CNN：Convolutional Neural Network：卷积神经网络)，但不限于此，也能够使用其他的CNN。例如，作为卷积运算，也能够使用导入了Identity Mapping(IM)的Residual Network(残差网络)。

区域设定部113在图像输入部110受理到的内窥镜图像上，例如等间隔地设定预先决定的数量的多个区域(以下称为“初始区域”)。

第1转换部114通过对特征映射应用第1转换，生成与分别对应于多个初始区域的多个候选区域相关的信息(第1输出)。在本实施方式中，与候选区域相关的信息是包括用于使初始区域的基准点(例如中心点)更接近前端的位置变动量在内的信息。另外，与候选区域相关的信息不限于此，例如也可以是包括为了更加适合于处置器具的前端而使初始区域移动后的区域的位置及尺寸在内的信息。在第1转换中，使用利用了规定的权重系数的卷积运算。权重系数在后述的学习过程中得到，被存储在权重系数存储部134中。

第2转换部116通过对特征映射应用第2转换，生成在多个初始区域的各个区域是否存在处置器具的前端的似然度(第2输出)。另外，第2转换部116也可以生成在多个候选区域的各个候选区域是否存在处置器具的前端的似然度。在第2转换中，使用利用了规定的权重系数的卷积运算。权重系数在后述的学习过程中得到，被存储在权重系数存储部134中。

第3转换部118通过对特征映射应用第3转换，生成与分别存在于多个初始区域的处置器具的前端的方向相关的信息(第3输出)。另外，第3转换部118也可以生成与分别存在于多个候选区域的处置器具的前端的方向相关的信息。在本实施方式中，与处置器具的前端的方向相关的信息是以处置器具的前端为起点的、沿着前端部的延伸方向的延长线而延伸的方向向量(v_x，v_y)。在第3转换中，使用利用了规定的权重系数的卷积运算。权重系数在后述的学习过程中得到，被存储在权重系数存储部134中。

综合得分计算部120基于由第2转换部116生成的似然度、以及由第3转换部118生成的与处置器具的前端的方向相关的信息的可靠度，计算多个初始区域各自的综合得分或者多个候选区域各自的综合得分。在本实施方式中，与方向相关的信息的“可靠度”是指前端的方向向量的大小。综合得分计算部120尤其是根据似然度与方向的可靠度的加权和，具体而言根据以下的式(1)，计算综合得分(Score_total)。

[数式1]

这里，Score₂是似然度，w₃是与方向向量的大小相乘的权重系数。

候选区域判别部122基于综合得分，针对多个候选区域分别判别是否包括处置器具的前端，其结果是，确定(推测为)处置器具的前端所在的候选区域。具体而言，候选区域判别部122针对综合得分为规定的阈值以上的候选区域，判别为存在处置器具的前端。

图2是用于说明在由候选区域判别部122进行的候选区域是否包括处置器具的前端的判别中使用综合得分的效果、即在候选区域的判别中不仅考虑似然度还考虑处置器具的前端的方向向量的大小的效果的图。在该例中，处置器具10为二股状，在分支为二股的分支部具有突起12。突起12具有一部分与处置器具的前端相似的形状，因此，包括突起12的候选区域20的似然度有时被输出为较高。在该情况下，当仅使用似然度来判别是否为处置器具10的前端14所在的候选区域时，可能将候选区域20判别为处置器具10的前端14所在的候选区域，即，将分支部的突起12误检测为处置器具的前端。对此，在本实施方式中，如上所述，除了考虑似然度之外，还考虑前端的方向向量的大小来判别是否为处置器具10的前端14所在的候选区域。由于并非处置器具10的前端14的分支部的突起12的方向向量的大小趋向于变小，因此，通过除了考虑似然度之外还考虑方向向量的大小，能够提高检测精度。

返回图1，候选区域删除部124在由候选区域判别部122判别为在多个候选区域存在处置器具的前端的情况下，计算这多个候选区域间的相似度。然后，在相似度为规定的阈值以上且与这多个候选区域对应的处置器具的前端的方向实质上一致的情况下，认为它们是检测到相同的前端的候选区域，因此，候选区域删除部124留下对应的综合得分较高的候选区域，删除综合得分较低的候选区域。另一方面，在相似度小于规定的阈值的情况下，或者在与这多个候选区域对应的处置器具的前端的方向互不相同的情况下，认为它们是检测到不同的前端的候选区域，因此，候选区域删除部124任意一个候选区域都不删除，全部留下。另外，关于处置器具的前端的方向实质上一致的情况，除了指彼此的前端的方向平行的情况之外，还指彼此的前端的方向所成的锐角为规定的阈值以下的情况。此外，在本实施方式中，对于相似度，使用候选区域间的重复度(Intersection over Union：交叠率)。即，候选区域彼此越重叠，相似度越高。另外，相似度不限于此，例如也可以使用候选区域间的距离的倒数。

图3是用于说明在要删除的候选区域的决定中考虑前端的方向的效果的图。在该例中，第1候选区域40检测到第1处置器具30的前端，第2候选区域42检测到第2处置器具32的前端。在第1处置器具30的前端与第2处置器具32的前端接近、进而第1候选区域40与第2候选区域42接近的情况下，当仅通过它们的相似度来决定是否删除时，尽管第1候选区域40和第2候选区域42是检测到不同的处置器具的前端的候选区域，但是还是可能决定为删除其一方的候选区域。即，认为第1候选区域40与第2候选区域42检测到相同的前端而删除其一方的候选区域。与此相对，本实施方式的候选区域删除部124除了考虑相似度之外还考虑前端的方向，来决定是否删除候选区域，因此，即便第1候选区域40与第2候选区域42接近而相似度较高，由于它们所检测到的第1处置器具30的前端的方向D1与第2处置器具32的前端的方向D2不同，因此，哪个候选区域也不删除，因此，能够检测接近的第1处置器具30的前端和第2处置器具32的前端。

返回图1，结果提示部133将处置器具的前端的检测结果例如提示给显示器。结果提示部133提示由候选区域判别部122判别为存在处置器具的前端且未被候选区域删除部124删除而留下的候选区域，作为检测处置器具的前端的候选区域。

接下来，说明对在图像处理装置100的各卷积运算中使用的各权重系数进行学习(优化)的学习过程。

权重初始化部126将成为学习对象的各权重系数初始化，各权重系数是在特征映射生成部112、第1转换部114、第2转换部116及第3转换部118的各处理中使用的权重系数。具体而言，权重初始化部126在初始化中使用平均0、标准偏差wscale/√(c_i×k×k)的正态随机数。wscale是尺度(scale)参数，c_i是卷积层的输入通道数，k是卷积核尺寸。此外，作为权重系数的初始值，也可以使用根据与本学习所使用的内窥镜图像DB不同的大规模图像DB而学习完毕的权重系数。由此，即便在学习所使用的内窥镜图像的数量较少的情况下，也能够学习权重系数。

图像输入部110例如从用户终端或其他装置受理学习用的内窥镜图像的输入。正解输入部111从用户终端或其他装置受理与学习用的内窥镜图像对应的正解数据。在与第1转换部114的处理的输出对应的正解中，使用如下的位置变动量，该位置变动量用于使由区域设定部113设定在学习用的内窥镜图像上的多个初始区域各自的基准点(中心点)与处置器具的前端一致，即，该位置变动量表示如何使多个初始区域的各个初始区域移动能更接近处理器具的前端。在与第2转换部116的处理的输出对应的正解中，使用表示在初始区域是否存在处置器具的前端的2值。在与第3转换对应的正解中，使用表示存在于初始区域的处置器具的前端的方向的单位方向向量。

特征映射生成部112、第1转换部114、第2转换部116及第3转换部118在学习过程中的处理与应用过程中的处理相同。

整体误差计算部128基于第1转换部114、第2转换部116、第3转换部118的各输出以及与它们对应的各正解数据，计算处理整体的误差。误差传播部130基于整体误差，计算特征映射生成部112、第1转换部114、第2转换部116及第3转换部118的各处理中的误差。

权重更新部132基于由误差传播部130计算出的误差，更新在特征映射生成部112、第1转换部114、第2转换部116及第3转换部118的各卷积运算中使用的权重系数。另外，在基于误差更新权重系数的方法中，例如也可以使用概率的梯度下降法。

接下来，说明如上那样构成的图像处理装置100的应用过程中的动作。

图像处理装置100首先对受理到的内窥镜图像设定多个初始区域。接下来，图像处理装置100对内窥镜图像应用卷积运算而生成特征映射，对特征映射应用第1运算而生成与多个候选区域相关的信息，对特征映射应用第2运算而生成在多个初始区域的各个初始区域存在处置器具的前端的似然度，对特征映射应用第3运算而生成与分别存在于多个初始区域的处置器具的前端的方向相关的信息。然后，图像处理装置100计算各候选区域的综合得分，将综合得分为规定的阈值以上的候选区域判别为检测到处置器具的前端的候选区域。此外，图像处理装置100计算判别出的候选区域间的相似度，基于该相似度，删除检测到相同的前端的候选区域中的似然度较低的候选区域。最后。图像处理装置100提示未删除而留下的候选区域，作为检测处理器具的前端的候选区域。

根据以上说明的图像处理装置100，在处置器具的前端所在的候选区域的判别即处置器具的前端的检测中，考虑与前端的方向相关的信息。由此，能够更高精度地检测处置器具的前端。

以上，基于实施方式对本发明进行了说明。该实施方式是例示，本领域技术人员应理解能够对它们的各结构要素或各处理过程的组合实施各种变形例，并且，这样的变形例也处于本发明的范围内。

作为变形例，也可以是，图像处理装置100在内窥镜图像上例如等间隔地设定预先决定的数量的多个点(以下称为“初始点”)，通过对特征映射应用第1转换而生成与分别对应于多个初始点的多个候选点相关的信息(第1输出)，通过应用第2转换而生成在初始点各自的附近或者多个候选点各自的附近(例如从各点起的规定的范围内)是否存在处置器具的前端的似然度(第2输出)，通过应用第3转换而生成与在多个初始点各自的附近或者多个候选点各自的附近存在的处置器具的前端的方向相关的信息(第3输出)。

在实施方式及变形例中，图像处理装置也可以包括处理器、存储器等储存器。关于这里的处理器，例如各部的功能可以由独立的硬件实现，或者各部的功能也可以由一体的硬件实现。例如，处理器包括硬件，该硬件能够包括处理数字信号的电路及处理模拟信号的电路中的至少一方。例如，处理器能够由安装于电路基板的1个或多个电路装置(例如IC等)、1个或多个电路元件(例如电阻、电容器等)构成。处理器例如也可以为CPU(CentralProcessing Unit：中央处理单元)。但是，处理器不限于CPU，能够使用GPU(GraphicsProcessing Unit：图形处理单元)或DSP(Digital Signal Processor：数字信号处理器)等各种处理器。另外。处理器也可以为基于ASIC(Application Specific IntegratedCircuit：专用集成电路)或FPGA(Field-programmable Gate Array：现场可编程门阵列)的硬件电路。另外，处理器也可以包括处理模拟信号的放大器电路或滤波器电路等。存储器可以为SRAM、DRAM等半导体存储器，也可以为寄存器，也可以为硬盘装置等磁存储装置，还可以为光盘装置等光学式存储装置。例如，存储器存储有可由计算机读取的命令，通过处理器执行该命令而实现图像处理装置的各部的功能。这里的命令可以是构成程序的命令集的命令，也可以是对处理器的硬件电路指示动作的命令。

此外，在实施方式及变形例中，图像处理装置的各处理部例如也可以通过通信网络这样的数字数据通信的任意的型式或介质而连接。通信网络的例子例如包括LAN、WAN、以及形成因特网的计算机及网络。

标号说明

100图像处理装置，110图像输入部，112特征映射生成部，114第1转换部，116第2转换部，118第3转换部。

产业上的可利用性

本发明涉及图像处理方法及图像处理装置。

Claims

1.一种图像处理装置，其用于从图像检测物体的前端，其特征在于，

所述图像处理装置具备：

图像输入部，其受理图像的输入；

特征映射生成部，其通过对所述图像应用卷积运算而生成特征映射；

第1转换部，其通过对所述特征映射应用第1转换而生成第1输出；

第2转换部，其通过对所述特征映射应用第2转换而生成第2输出；以及

第3转换部，其通过对所述特征映射应用第3转换而生成第3输出，

所述第1输出表示与在所述图像上预先决定的数量的候选区域相关的信息，

所述第2输出表示在所述候选区域是否存在所述物体的前端的似然度，

所述第3输出表示与存在于所述候选区域的所述物体的前端的方向相关的信息。

2.一种图像处理装置，用于从图像检测物体的前端，其特征在于，

所述图像处理装置具备：

图像输入部，其受理图像的输入；

所述第1输出表示与在所述图像上预先决定的数量的候选点相关的信息，

所述第2输出表示在所述候选点的附近是否存在所述物体的前端的似然度，

所述第3输出表示与存在于所述候选点的附近的所述物体的前端的方向相关的信息。

3.根据权利要求1或2所述的图像处理装置，其特征在于，

所述物体是内窥镜的处置器具。

4.根据权利要求1或2所述的图像处理装置，其特征在于，

所述物体是机械臂。

5.根据权利要求1至4中的任意一项所述的图像处理装置，其特征在于，

在与所述方向相关的信息中包含与所述物体的前端的方向及该方向的可靠度相关的信息。

6.根据权利要求5所述的图像处理装置，其特征在于，

所述图像处理装置还具备综合得分计算部，该综合得分计算部基于所述第2输出所示的似然度和所述方向的可靠度，计算所述候选区域的综合得分。

7.根据权利要求6所述的图像处理装置，其特征在于，

与所述方向相关的信息所包含的与方向的可靠度相关的信息是表示所述物体的前端的方向的方向向量的大小，

所述综合得分是所述似然度与所述方向向量的加权和。

8.根据权利要求6或7所述的图像处理装置，其特征在于，

所述图像处理装置还具备候选区域判别部，该候选区域判别部基于所述综合得分，判别所述物体的前端所在的候选区域。

9.根据权利要求1所述的图像处理装置，其特征在于，

在与所述候选区域相关的信息中，包含用于使对应的初始区域的基准点接近所述物体的前端的位置变动量。

10.根据权利要求1所述的图像处理装置，其特征在于，

所述图像处理装置还包括候选区域删除部，该候选区域删除部计算所述候选区域中的第1候选区域与第2候选区域的相似度，基于该相似度以及与对应于所述第1候选区域和所述第2候选区域的所述方向相关的信息，决定是否删除所述第1候选区域和所述第2候选区域中的任意一方。

11.根据权利要求10所述的图像处理装置，其特征在于，

所述相似度是所述第1候选区域与所述第2候选区域之间的距离的倒数。

12.根据权利要求10所述的图像处理装置，其特征在于，

所述相似度是所述第1候选区域与所述第2候选区域的重复度。

13.根据权利要求1至12中的任意一项所述的图像处理装置，其特征在于，

所述第1转换部、第2转换部及第3转换部分别对所述特征映射应用卷积运算。

14.根据权利要求13所述的图像处理装置，其特征在于，

所述图像处理装置还具备：

整体误差计算部，其根据所述第1转换部的输出、第2转换部的输出和第3转换部的输出、以及预先准备的正解，计算处理整体的误差；

误差传播步骤，其基于所述处理整体的误差，计算所述特征映射生成部、所述第1转换部、所述第2转换部及所述第3转换部的各处理中的误差；以及

权重更新部，其基于所述各处理中的误差，更新在所述各处理的卷积运算中使用的权重系数。

15.一种图像处理方法，其用于从图像检测物体的前端，其特征在于，

所述图像处理方法包括：

图像输入步骤，受理图像的输入；

特征映射生成步骤，通过对所述图像应用卷积运算而生成特征映射；

第1转换步骤，通过对所述特征映射应用第1转换而生成第1输出；

第2转换步骤，通过对所述特征映射应用第2转换而生成第2输出；以及

第3转换步骤，通过对所述特征映射应用第3转换而生成第3输出，