CN111724336B

CN111724336B - 图像处理装置、图像处理方法及图像处理系统

Info

Publication number: CN111724336B
Application number: CN202010082137.1A
Authority: CN
Inventors: 秋良直人; 邓紫薇; 孔全; 村上智一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-03-20
Filing date: 2020-02-07
Publication date: 2024-05-14
Anticipated expiration: 2040-02-07
Also published as: CN111724336A; JP2020154773A; JP7082587B2; US11482001B2; EP3712850A1; US20200302173A1

Abstract

在当前的图像处理环境中，对于用户操作的反馈的提供较慢，用户不能实时地确认操作的结果。因此，用户每当确认反馈时，不得不中断操作，图像处理的作业时间拉长。本发明提供图像处理装置、图像处理方法以及图像处理系统。图像处理装置的指导信息生成部(204)从用户取得用于将被输入的图像中的图像目标分离的轨道信息，通过基于该轨道信息生成表示用户希望的分离区域的指导信息，能够实时地提示与用户的意图相应的分离区域，能够提供顺畅且持续性的目标分离手段。

Description

图像处理装置、图像处理方法及图像处理系统

技术领域

本发明涉及图像处理装置、图像处理方法及图像处理系统。

背景技术

近年来，随着IT化的进展，社会中配置有许多传感器，储存了极其大量的数据。在这样的过程中，研究了利用集积的图像数据的各种对策。特别是，随着照片、运动图像、图像等影像内容的增加，自如地确定该影像中的目标并从图像的背景或其他目标分离的需求变高。

以往，为了将影像中的目标分离，采用用户使用笔、手指、鼠标等的指针设备手动地指定显示在显示画面上的目标的轮廓或与其他目标的边界线的方法。

但是，在用手指等来指定应分离的目标的轮廓线的手动的目标分离方法中，花费用户的工夫，而且有因误操作等而分离结果的精度下降的情况。所以，要求不描绘目标的轮廓而正确地指定希望的目标，节省用户的工夫。

其中，开发了通过由计算机对目标分离的操作进行辅助来节省用户的工夫的“半自动目标分离”(Semi－automatic Object Segmentation)方法。

例如，在国际公开号WO2008/052226A2(专利文献1)中，记载了以下的技术：“系统为了将用于对分离进行修正的用户的意图模型化，在反复的图像段中对由用户输入的笔划(stroke)进行分析。在用户意图模型中，各笔划的颜色表示用户对像素标签的前景或背景的变化的预想，笔划的位置表示用户的关注区域，之前的针对分段边界的笔划的位置表示用户要进行调整的分段错误。”

专利文献1：国际公开号WO2008/052226A2

发明内容

在上述专利文献1中，记载了一种通过对用户输入的笔划的颜色、位置及距前次的分离区域的边界线的相对距离等的信息进行分析、来预测用户希望的分离结果的图像处理装置。

但是，在专利文献1中，使用用于指定用户的意图想要分离的目标的笔划整体来预测用户希望的分离区域。即，对于用户而言，在指定目标的笔划的中途不能表示作为反馈的分离区域。这样，向用户的反馈的提供延迟，所以用户不能实时地看到操作的结果，为了确认反馈，必须将用于指定目标的笔划中断。

所以，本发明的目的是提供一种在指定目标的笔划的中途阶段也提示与用户的意图相应的分离区域(也称作“分离结果”“分离案”)，由此能够顺畅地进行目标的指定的手段。

为了解决上述课题，代表性的本发明的图像处理装置之一，根据用户为了指定想要分离的目标而输入的轨道信息，生成用户希望的分离区域信息。

发明效果

根据本发明，能够顺畅地提供与用户的意图相应的分离区域。

上述以外的课题、结构及效果通过以下的实施方式的说明会变得清楚。

附图说明

图1是用于实施本发明的实施方式的计算机系统的框图。

图2是表示有关本发明的实时目标分离系统的结构的一例的框图。

图3是表示有关本发明的实时目标分离处理的时间序列的一例的图。

图4是表示有关本发明的实时目标分离处理的一例的流程图。

图5是表示有关本发明的指导信息生成部的结构的一例的图。

图6是表示有关本发明的计算位置映射及方向映射的处理的一例的图。

图7是表示有关本发明的生成意图映射的处理的一例的图。

图8是表示有关本发明的指导信息的结构的一例的图。

图9是表示有关本发明的描绘处理及删除处理的一例的图。

图10是表示有关本发明的用于进行实时目标分离的用户接口的一例的图。

图11是表示有关本发明的用于进行实时目标分离的用户接口的一例的图。

图12是表示有关本发明的实时目标分离训练系统的一例的图。

图13是表示有关本发明的实时目标分离训练方法的一例的图。

图14是表示有关本发明的用户输入模拟的一例的图。

图15是表示有关本发明的实时目标分离处理的触摸操作的一例的图。

标号说明

200 实时目标分离系统

201 对象图像

202 图像目标分离部

203 用户接口

204 指导信息生成部

205 修正部

具体实施方式

以下，参照附图对本发明的实施方式进行说明。另外，本发明并不由该实施方式限定。此外，在附图的记载中，对相同部分赋予相同标号来表示。

(硬件结构)

关于本发明的多个形态，作为由计算机设备执行的动作的次序进行说明。此外，在本说明书中说明的各种动作也可以通过特定电路(例如，面向特定用途的集成电路(ASIC))、由1个或多个处理器执行的程序命令或该两者的组合来执行。进而，本说明书所记载的动作的次序也可以作为计算机命令的集合保存在任意的计算机可读存储介质中，在执行时使处理器执行与该动作次序相应的功能。因而，本发明的各种形态也可以由多个不同的形态具体化，它们的全部包含在本件发明的技术的范围中。

本发明的实施方式的形态涉及神经网络。通常，“神经网络”指的是具有机器学习及图案识别等功能的计算模型。神经网络也可以应用于本地装置、服务器/客户端结构、分散型网络等各种动作环境。

接着，参照图1，对用于实施本发明的实施方式的计算机系统300进行说明。在本说明书中公开的各种实施方式的机构及装置也可以应用于任意的适当的计算系统。计算机系统300的主要组件包括1个以上的处理器302、存储器304、终端接口312、存储设备接口314、I/O(输入输出)设备接口316及网络接口318。这些组件也可以经由存储器总线306、I/O总线308、总线接口单元309及I/O总线接口单元310而相互连接。

计算机系统300也可以包括被统称为处理器302的1个或多个通用可编程中央处理装置(CPU)302A及302B。在某实施方式中，计算机系统300也可以具备多个处理器，此外，在其他实施方式中，计算机系统300也可以是单一的CPU系统。各处理器302也可以执行保存在存储器304中的命令，包含板载高速缓存。

在一实施方式中，存储器304也可以包括用于存储数据及程序的随机访问半导体存储器、存储装置或存储介质(易失性或非易失性中的任一种)。存储器304也可以保存实施本说明书中说明的功能的程序、模块及数据构造的全部或一部分。例如，存储器304也可以保存目标分离应用350。在一实施方式中，目标分离应用350也可以包括在处理器302上执行后述的功能的命令或记述。

在一实施方式中，目标分离应用350也可以代替基于处理器的系统、或除了基于处理器的系统以外，经由半导体器件、芯片、逻辑门、电路、电路卡及/或其他的物理硬件设备而由硬件实施。在一实施方式中，目标分离应用350也可以包括命令或记述以外的数据。在一实施方式中，也可以以与总线接口单元309、处理器302或计算机系统300的其他硬件直接通信的方式提供相机、传感器或其他数据输入设备(未图示)。

计算机系统300也可以包括进行处理器302、存储器304、显示系统324、及I/O总线接口单元310间的通信的总线接口单元309。I/O总线接口单元310也可以与用于在与各种I/O单元之间传送数据的I/O总线308连结。I/O总线接口单元310也可以经由I/O总线308与被周知为I/O处理器(IOP)或I/O适配器(IOA)的多个I/O接口单元312、314、316及318进行通信。

显示系统324也可以包括显示控制器、显示存储器或该两者。显示控制器能够向显示装置326提供视频、音频或该两者的数据。此外，计算机系统300也可以包括构成为收集数据并将该数据提供给处理器302的1个或多个传感器等设备。

例如，计算机系统300也可以包括收集心拍数数据及紧张水平数据等的生物计量传感器、收集湿度数据、温度数据、压力数据等的环境传感器、以及收集加速度数据、运动数据等的运动传感器等。也可以使用其以外的类型的传感器。显示系统324也可以被连接到单独的显示器画面、电视机、平板电脑或便携型设备等的显示装置326。

I/O接口单元具备与各种存储设备或I/O设备进行通信的功能。例如，终端接口单元312能够安装视频显示装置、扬声器、电视机等的用户输出设备，键盘、鼠标、小键盘、触摸板、跟踪球、按钮、光笔或其他的指针设备等的用户输入设备那样的用户I/O设备320。用户也可以通过使用用户接口对用户输入设备进行操作，对用户I/O设备320及计算机系统300输入输入数据及指示，接受来自计算机系统300的输出数据。也可以将用户接口例如经由用户I/O设备320显示在显示装置上、或由扬声器再现、或经由打印机印刷。

存储设备接口314是能够进行1个或多个盘驱动器或直接访问存储装置322(通常是磁盘驱动器存储装置，但也可以安装构成为可看成单一的盘驱动器的盘驱动器的阵列或其他的存储装置)。在一实施方式中，存储装置322也可以作为任意的二次存储装置安装。也可以将存储器304的内容存储到存储装置322中，并根据需要从存储装置322读出。I/O设备接口316也可以提供对于打印机、传真机等其他I/O设备的接口。网络接口318也可以提供通信路径，以使得计算机系统300能够与其他设备相互通信。该通信路径例如也可以是网络330。

在一实施方式中，计算机系统300也可以是接收来自多用户主架构计算机系统、单用户系统或服务器计算机等的不具有直接的用户接口的其他计算机系统(客户端)的请求的设备。在其他实施方式中，计算机系统300也可以是台式计算机、便携型计算机、笔记本电脑、平板电脑、口袋计算机、电话、智能电话或任意的其他适当的电子设备。

[实施例1]

接着，对本发明的实施方式进行说明。本发明涉及通过使用用户在图像编辑环境中输入的笔划的一部分中包含的轨道信息、将图像目标正确地分离的处理。

这里，“笔划”是指用户用手指、笔、鼠标等的指针设备等表示的、指定将图像中的两个点相连的“线”的动作。

在本发明中，通过对用户输入的笔划的一部分、例如在5毫秒等的一定时间中输入的笔划段的位置信息及方向性信息进行分析，能够预测用户想怎样分离图像目标这样的意图，生成与用户的意图相应的分离区域。

因此，通过将用户输入的笔划中包含的许多笔划段实时地分析，并持续性地提示分离区域，得到提高目标分离精度、并且缩短用户的操作时间的效果。

接着，参照图2，对有关本发明的实时目标分离系统200的结构进行说明。

如图2所示，有关本发明的实时目标分离系统200由生成第1分离区域的图像目标分离部202、用户接口203、根据用户的输入生成指导信息的指导信息生成部204和基于指导信息生成第2分离区域的修正部205构成。

图像目标分离部202是对于从用户输入的对象图像生成作为最初的反馈的第1分离区域的功能部。图像目标分离部202通过使用例如基于深度学习的分离方法、图形分割(Graph Cut)、渐进分割(Progressive Cut)、聚类方法、边缘检测等的既有的目标分离算法生成第1分离区域。将这里生成的第1分离区域经由用户接口203向用户提示。

用户接口203例如是图像编辑程序中的操作画面等的用于在分离系统200与用户之间进行信息的收发的GUI(例如，参照图10～图11)。用户能够经由用户接口203确认第1分离区域，输入关于第1分离区域的评价(是否认可)，或确认作为反馈的第2分离区域。

例如，在第1分离区域中有错误(没有正确地分离的目标等)的情况下，用户也可以使用手指、笔、鼠标等的指针设备经由用户接口203输入用于将第1分离区域修正的笔划。

指导信息生成部204是指如下功能部：提取用户经由用户接口203输入的笔划中包含的笔划段的轨道信息(位置信息及方向性信息)，使用该轨道信息及对象图像生成表示用户想怎样分离图像目标的指导信息。关于该指导信息，参照图8在后面叙述详细情况。

另外，这里说明了由指导信息生成部204进行对与用户输入的笔划有关的笔划信息进行分析、并计算该笔划的轨道信息的处理的结构，但也可以是由用户接口203进行取得或分析与笔划有关的笔划信息的处理的结构。

修正部205是指使用从指导信息生成部204输入的指导信息生成基于用户的输入进行修正后的第2分离区域的功能部。修正部205例如也可以是被应用于图像处理及目标分离等的编码器/解码器网络。如果从指导信息生成部204输入指导信息，则修正部205生成第2分离区域，经由上述用户接口203向用户提示。该第2分离区域是根据意图生成的分离结果，该意图是基于用户输入的笔划段来预测的。

另外，在本说明书中，为了区分修正前的分离区域与修正后的分离区域，使用“第1分离区域”和“第2分离区域”等的用语来说明有关本发明的处理，但这不是分离区域被限定于2个的主旨。实际上，也可以在用户编辑图像的期间，实时地生成许多分离区域。

以上说明的有关本发明的实时目标分离系统200的功能部例如可以是构成图1所示的目标分离应用350的软件模块，也可以是独立的专用硬件设备。

此外，在上述中说明的功能部既可以在相同的计算环境中被实施，也可以在分散的计算环境中被实施。例如，也可以是将图像目标分离部202安装到远程的服务器、并将用户接口203、指导信息生成部204及修正部205安装到客户端终端等的本地设备的结构。此外，作为其他例，也可以是将图像目标分离部202和用户接口203安装到客户端终端、并将指导信息生成部201和修正部205安装到远程的服务器的结构。

接着，参照图3，基于时间序列说明有关本发明的实时目标分离处理。

在图像目标分离处理中，为了得到高精度的分离区域，将对于用户的操作的结果在视觉上迅速地向用户反馈是重要的。所以，在有关本发明的实时目标分离中，目的是在作为用户的编辑操作的笔划的输入完成之前，使用该笔划中包含的笔划段预测最终的分离区域并将其迅速地向用户反馈。

如图3所示，上述的目标分离系统读入在期间Δt1中输入的、作为笔划360的一部分的笔划段360a，期间Δt1是从用户开始输入笔划360的时间点起到经过了一定时间(例如5毫秒)的时间为止的期间。基于该笔划段360a所表示的轨道信息，通过后述的处理生成第1分离区域，向用户反馈。

接着，用户也可以根据所提示的第1分离区域，将笔划360的路径(位置及方向性)在笔划的中途从最初心里所想的笔划轨道变更。如果这样，则与上述期间Δt1后的处理同样，目标分离系统读入从笔划段360a结束的时间点起到经过了一定时间(例如5毫秒)的时间为止的期间Δt2中输入的笔划段360b。然后，目标分离系统基于该笔划段360b的轨道信息将第1分离区域进行修正，由此生成表示更新后的分离区域的第2分离区域，向用户提示。该处理也可以反复进行n次，直到笔划360的输入结束或直到用户认可分离区域。

这样，用户在输入笔划360的过程中能够实时地确认作为反馈的分离区域，所以用户能够一边确认该反馈一边将笔划360的路径在中途适当地变更，指定希望的分离区域而顺畅地得到希望的分离结果。

接着，参照图4对有关本发明的实时目标分离处理进行说明。

首先，在步骤S401中，图像目标分离部(例如，图2的图像目标分离部202)受理对象图像(例如，图2的对象图像201)的输入。该对象图像例如也可以是用户在图像编辑环境中编辑的对象的图像。

接着，在步骤S402中，图像目标分离部生成对于对象图像的第1分离区域。具体而言，生成第1分离区域是指使用基于深度学习的分离方法、图形分割(Graph Cut)、渐进分割(Progressive Cut)、聚类方法、边缘检测等的既有的算法检测拍摄在对象图像中的目标，将属于相同目标的像素分组。

但是，在通过以往的分离方法生成的该第1分离区域中，没有拍摄在图像中的各个目标被正确地分组的保证，残留没有被正确地分离的目标的可能性高。因此，第1分离区域只不过是暂定的结果，通过将该第1分离区域用有关本发明的目标分离方法修正，能够得到精度更高的分离结果。

接着，在步骤S403中，将由步骤S402生成的第1分离区域经由用户接口(例如，图2的用户接口203)向用户提示。这里，用户确认第1分离区域，判定各个图像目标是否如希望那样被分离。

在各个图像目标如希望那样被分离的情况下，用户认可第1分离区域，第1分离区域成为对象图像的最终分离结果。然后，本处理向步骤S410前进(步骤S403：是)。

另一方面，在第1分离区域包含没有如用户希望那样被分离的目标的情况下，用户不认可第1分离区域，本处理向步骤S404前进(步骤S403：否)。

接着，在步骤S404中，用户选择第1分离区域中的想要修正的对象目标。如后述那样，该对象目标的选择例如也可以通过由用户使用笔、手指、鼠标等的指针设备将显示在图像编辑环境的画面上的第1分离区域中的对象目标点击、或指定坐标、或选择与对象目标对应的实例来进行。

接着，在步骤S405中，用户使用用户接口，对于在步骤S404中选择的对象目标，输入表示想怎样分离该目标的笔划。该笔划例如也可以用鼠标引线而指定想要分离的图像区域，也可以是用手指或笔(铁笔)滑动(swipe)的动作，只要是表示想要分离的图像区域的动作，就没有被特别限定。

接着，在步骤S406中，指导信息生成部(例如，图2的指导信息生成部204)读入在从笔划的输入开始的时间点起到经过了一定时间(例如5毫秒)的时间为止的期间Δt中输入的、作为笔划的一部分的笔划段。

并且，指导信息生成部提取该笔划段的轨道信息。然后，指导信息生成部使用该轨道信息及对象图像，生成表示用户想怎样分离图像目标的指导信息(详细情况参照图8)。

接着，在步骤S407中，修正部(例如，图2的指导信息生成部204)基于在步骤S406中生成的指导信息对第1分离区域进行修正，从而生成第2分离区域，通过用户接口向用户提示。

接着，在步骤S408中，用户确认由用户接口显示的分离区域，判定在步骤S404中选择的对象目标是否如希望那样被分离。

在对象目标没有如用户希望那样被分离的情况下，或在有其他想要修正的分离区域的情况下，用户通过用户接口表示该情况，本处理向步骤S404返回。

在所选择的对象目标如用户希望那样被分离的情况下，用户认可对象目标的分离区域，本处理向步骤S409前进。

接着，在步骤S409中，用户判定在对象图像中是否有其他想要对分离区域进行修正的目标。在判定为在对象图像中有其他想要对分离区域进行修正的目标的情况下(步骤S409：否)，本处理向步骤S404返回。

在判定为在对象图像中没有其他想要对分离区域进行修正的目标的情况下(步骤S409：是)，本处理向步骤S410前进。

接着，在步骤S410中，在有下一个对象图像的情况下，本处理向步骤S401返回。此外，在没有下一个对象图像的情况下，本处理结束。

如以上说明那样，在有关本发明的实时目标分离处理中，用户能够基于自己的输入(笔划等)，将预测出的操作的结果作为反馈而实时地确认，所以可得到提高目标分离精度、并且缩短用户的操作时间的效果。

接着，参照图5对有关本发明的指导信息生成部204的结构进行说明。

如上述那样，指导信息生成部204接收表示轨道信息的笔划等那样的用户输入501，基于该轨道信息、对象图像506、以及由图像目标分离部(例如，图2的图像目标分离部202)生成的第1分离区域507，生成指导信息508。

如图5所示，有关本发明的指导信息生成部204由轨道变换部502、删除检测部503、RNN(Recurrent Neural Network，循环神经网络)特征提取部504和指导信息计算部505构成。

轨道变换部502是提取用户输入501中包含的轨道信息、基于该轨道信息通过后述的处理生成位置映射和方向映射的功能部。位置映射(map)，是表示在用户输入的笔划中包含的1个笔划段的路径在对象图像中经过的像素的矩阵(Matrix)。

此外，方向映射是表示在用户输入的笔划中包含的1个笔划段的路径的方向性的矩阵。通过由后述的RNN特征提取部对位置映射和方向映射进行处理，能够预测用户想怎样分离图像目标的意图，生成表示该意图的意图映射。

删除检测部503是用于检测用户将以前输入的笔划段删除、并输入轨道信息不同的笔划段的意图的功能部。具体而言，删除检测部503将在时间上连续的多个位置映射(例如，对应于Δt1的位置映射和对应于Δt2的位置映射)比较，计算这两个位置映射的欧几里得距离下的类似度。

此外，删除检测部503对与在类似度的计算中使用的各个位置映射对应的方向映射进行比较，计算笔划的路径的背离。

通过这些计算，在类似度为规定的类似度基准(例如80％)以上、且判定为方向性实质上相反(即，满足逆行基准)的情况下，删除检测部503将用户输入的紧前的笔划段删除，提示最后的分离结果。由此，能够自动地检测用户想要将笔划段删除的意图，将分离区域实时地更新，所以用户能够容易地修正由操作失误等带来的错误。

另外，在没有检测到删除的意图的情况下，轨道变换部502的输出(位置映射和方向映射)直接向RNN特征提取部504前进。

RNN特征提取部504是基于由轨道变换部502生成的位置映射和方向映射，预测用户想怎样分离图像目标的意图，并生成表示该意图的意图映射的功能部。

该RNN特征提取部504例如是被设计为对时间序列数据等的带顺序的数据的样式进行识别、并预测其下一个样式的数据的递归模型。

如后述的图6所示，RNN特征提取部504通过对基于笔划中包含的笔划段生成的位置映射和方向映射进行分析，预测下一个笔划段的轨道信息，生成表示该预测出的轨道信息的“意图映射”。

指导信息计算部505是通过将由RNN特征提取部504生成的意图映射(没有例示)、对象图像和第1分离区域结合来生成指导信息508的功能部。

指导信息508指的是表示被预测为用户希望的分离区域的信息。如上述那样，修正部(例如，图2的修正部205)基于该指导信息508生成与用户的预测的意图相应的第2分离区域并提示，由此用户能够实时地对反馈进行确认。

接着，参照图6，对有关本发明的计算位置映射604及方向映射605的处理进行说明。如上述那样，生成位置映射604及方向映射605的处理是由图5的轨道变换部502进行的处理。

如上述那样，轨道变换部首先提取用户输入的笔划中包含的各个笔划段的轨道信息601。在提取该轨道信息601后，轨道变换部对于各个笔划段，生成表示该段的位置信息的位置映射604和表示该段的方向性信息的方向映射605作为二维的矩阵。

位置映射604和方向映射605都具有与被输入了笔划的对象图像的区域603相同的维度，所以对象图像的区域603的各个像素与位置映射604和方向映射605的矩阵各自的要素对应。

位置映射604的矩阵的各要素的值表示用户输入的笔划段的路径经过该像素的概率。将与笔划段的路径经过的像素对应的位置映射604的要素被设定为“1”。

此外，为了提高位置映射的鲁棒性，通过由以下的数式1表示的具有标准偏差σ的高斯函数计算其他的矩阵的要素的值。

[数式1]

数式1的V_T(p)是基于某笔划段T生成的位置映射604中的像素p的概率值，N是笔划段的路径经过的像素数，d(p，t_n)是笔划段T中的点t_n与像素p之间的欧几里得距离。

如上述那样，方向映射605是表示用户输入的笔划段的路径的方向性的矩阵。将与作为笔划段的路径的结束点的像素对应的方向映射605的要素被设定为“1”。此外，其以外的要素由以下的数式2计算。

[数式2]

数式2的D_T(p)是基于某笔划段T生成的方向映射605中的像素p的值，n表示笔划段T中的像素p是从开始点起数第几个像素，N是笔划段的路径经过的像素数，S_e是结束点的值。例如，在经过了3像素的笔划段T(即，N＝3的情况下)中的像素p是从开始点起数第2个像素的情况下，由于n/N为2/3，所以D_T(p)为0.67。

接着，参照图7对有关本发明的生成意图映射703的处理进行说明。如上述那样，生成意图映射703的处理是由图5的RNN特征提取部进行的处理。

RNN特征提取部基于由轨道变换部502生成的位置映射及方向映射(这里，表示为输入x₀701)，预测可能在作为输入x₀701的来源的笔划段的下一个被输入的笔划段的路径的轨道信息，生成该预测的轨道信息的概率分布作为意图映射(这里，输出x₀703)。通过对1个笔划中包含的各段进行该处理，生成与各个不同的期间对应的多个意图。

例如，如图7所示，通过将从开始点起到t1的期间中输入的笔划段x₀、从t1到t2的期间中输入的笔划段x₁、以及从t2到t3的期间中输入的笔划段x₂分别用RNN特征提取部进行处理，生成3个意图映射y₀、y₁及y₂。

如后述那样，能够基于这些意图映射、第1分离区域和对象图像，生成与用户的意图相应的分离区域。

另外，这里说明了生成3个意图映射的例，但本发明并不限定于此，只要至少有1个意图映射，就能够生成指导信息。

接着，参照图8，对本发明的指导信息750的结构进行说明。如上述那样，指导信息750是表示为了得到用户希望的分离结果而用户的笔划应沿着的路径的信息。

如图8所示，基于根据笔划段生成的1个以上的意图映射742、由图像目标分离部生成的第1分离区域744和原来的对象图像746而生成指导信息750。通过将意图映射742、第1分离区域744和对象图像746变换为相同的维度(即，像素的行和列相同的状态)并叠加，将用户的笔划与第1分离区域744比较而示出在对象图像746中可能经过的像素。

通过使用表示预测该用户的笔划会经过的路径的指导信息750，上述的修正部能够将第1分离区域进行修正，生成与用户的意图相应的第2分离区域。

接着，参照图9，对有关本发明的描绘处理810及删除处理820进行说明。

在上述中，将在对象图像中将属于相同目标的像素分组为独立的“目标掩码”的处理称作“目标分离”而进行了说明，但实际上，将目标分离的处理由将属于对象目标的像素包含在同一个组中的“描绘处理”810和将不属于对象目标的像素从组中排除的“删除处理”这两个处理构成。

以下，使用图9所示的一例对这些处理进行说明。此外，这里以菜刀、移动电话和喷雾器局部地重叠的对象图像为例进行说明。

首先，对描绘处理810进行说明。在步骤A中，假设对象图像被图像目标分离部(例如，图2的图像目标分离部202)处理的结果是提供了第1分离区域801。在该第1分离区域801中，菜刀的目标掩码被移动电话的目标掩码遮挡，不是用户希望的分离结果，所以用户不认可第1分离区域801(相当于图4的步骤S403：否)。

接着，在步骤B中，用户为了将第1分离区域801修正，输入在菜刀的目标掩码中具有开始点、经过想包含到菜刀的目标掩码中的区域的笔划802。

接着，在步骤C中，生成与在从开始了笔划802的时间点到经过一定时间(例如5毫秒)的时间为止的期间Δt中输入的笔划段相应的第2分离区域803，在笔划802刚开始后向用户提示。

但是，在该第2分离区域803中，还没有将用户想要包含到菜刀的目标掩码中的像素全部包括，所以用户继续画笔划802。

接着，在步骤D中，生成与用户输入的笔划段相应的第3分离区域804，作为反馈向用户提供。在该第3分离区域804中包含了全部的用户想要包含到菜刀的目标掩码中的像素，所以用户认可第3分离区域804。然后，第3分离区域804作为最终结果(最终分离区域)而被输出。

接着，对删除处理820进行说明。假设在步骤A中，向用户提供了菜刀的目标掩码被包含在移动电话的目标掩码中的第1分离区域821。在该第1分离区域821中，菜刀的目标掩码与移动电话的目标掩码混合，不是用户希望的分离结果，所以用户不认可第1分离区域821(相当于图4的步骤S403：否)。

接着，在步骤B中，作为将菜刀的目标掩码从移动电话的目标掩码排除的修正操作，用户对第1分离区域821输入沿着想要排除的区域与不想排除的区域的边界线的笔划822。

接着，在步骤C中，生成与用户的步骤B的输入相应的第2分离区域823，向用户提示。在该第2分离区域823中，在菜刀的目标掩码中包含有不需要的区域。于是，为了将该不需要的区域删除，用户输入向与在步骤B中输入的笔划相反的方向的笔划。如上述那样，删除检测部(例如，图5的删除检测部503)判定为该输入表示删除处理，将菜刀的目标掩码中包含的不需要的区域删除。

接着，在步骤D中，向用户提示将菜刀的目标掩码中包含的不需要的区域删除后的第3分离区域824。并且，用户输入在菜刀的目标掩码中具有开始点、经过想要包含到菜刀的目标掩码中的区域的笔划825。

接着，在步骤E中，生成与用户的步骤D的输入相应的第4分离区域826，作为反馈向用户提供。在该第4分离区域中，菜刀的目标掩码和移动电话的目标掩码如用户希望的那样被分离，所以用户认可第4分离区域826。然后，第4分离区域826作为最终分离结果而被输出。

另外，将上述的“笔划”及“笔划段”设为独立的操作而进行了说明，但这些输入也可以在中途不中断，而作为1个笔划持续地输入。

接着，参照图10对有关本发明的用于实时进行目标分离的用户接口900进行说明。该用户接口例如是用于在图像编辑程序中对在RGB图像或伦琴射线图像等中拍摄的目标进行标记的GUI。

如图10所示，用户接口900由自动窗口901、图像编辑窗口902、标记信息窗口903和信息编辑窗口904构成。如果对象图像(例如，通过用户的选择)被读入到图像编辑程序(图4的步骤S401)，则生成上述的第1分离区域(图4的步骤S402)，向自动窗口901提示。例如，图10所示的对象图像是拍摄有3个移动电话和1个钱包的基于X射线的摄影图像。

在标记信息窗口903中，显示拍摄在对象图像中的目标的实例ID、类型及坐标信息。用户通过在标记信息窗口903中选择想要编辑的目标的实例，能够在信息编辑窗口904中编辑所选择的目标的详细信息。

例如，在信息编辑窗口904中，用户能够选择目标的类型、或定义新的类型、或输入用于指定目标在图像中的位置的坐标信息。

在被提示到自动窗口901的第1分离区域不是用户希望的分离区域的情况下(图4的步骤S403：否)，用户选择作为编辑对象的目标(图4的步骤S404：否)，输入用于对目标的目标掩码进行编辑的笔划(图4的步骤S405)。

例如，在用户使用的指针设备是鼠标的情况下，用户也可以通过鼠标的左击来描绘目标掩码，通过鼠标的右击来删除目标掩码。

接着，基于用户的输入，通过上述的处理生成第2分离区域(图4的步骤S406及S407)，显示在图像编辑窗口902中。这样，用户能够一边输入用于将第1分离区域修正的笔划，一边实时地确认与该修正输入相应的反馈。

接着，参照图11，对有关本发明的用于进行实时目标分离的用户接口1000进行说明。该用户接口1000例如是用于在图像编辑程序中进行将图像的层(前景或背景)整理并将目标分离的操作的GUI。

如图11所示，用户接口1000由自动窗口1001、区域显示窗口1003和设定窗口1006构成。

在图11所示的图像中，在自动窗口1001中显示了两个人物的目标掩码混合的第1分离区域1002。该第1分离区域1002不是用户希望的分离区域，所以用户输入用于将混合的目标各自分离的笔划。

例如，用户也可以在设定窗口1006中，从前景切断1008、背景切断1009及实例切断1010中选择想要进行的处理(在此情况下是实例切断1010)和修正刷1007的喜好的尺寸后，使用该刷输入笔划。

基于该输入，在第1分离区域中混合的目标掩码通过上述的处理被分离为两个独立的目标掩码1004、1005，作为第2分离区域显示。这样，用户能够一边确认用于将第1分离区域修正的笔划，一边实时地确认与该修正输入相应的反馈。

如上述那样，有关本发明的实时目标分离系统中的图像目标分离部(例如，图2的图像目标分离部202)及修正部(例如，图2的修正部205)也可以作为编码器/解码器网络等的能够进行机器学习的模型实现。因而，通过将该图像目标分离部及修正部通过机器学习的反复训练方法训练，能够使图像目标的分离精度提高。

接着，参照图12对有关本发明的目标分离训练系统1100进行说明。图12所示的训练系统与使用图2说明的实时目标分离系统实质上是同样的，所以省略同样的构成要素的说明，以不同的要素为中心进行说明。

图12的目标分离训练系统1100在代替用户接口而具有输入模拟部1101这一点上与图2的目标分离系统200不同。该输入模拟部1101是自动地生成用户对于对象图像的输入(用于将分离区域修正的笔划)的功能部。例如，如后述的图12所示，输入模拟部1101也可以生成在对象图像中的目标的目标掩码内具有开始点的笔划。

代替来自用户的输入，通过上述的处理生成基于输入模拟部1101的模拟信息的分离区域。基于该模拟信息的分离区域成为目标分离系统的训练方法的软指标(softtarget，软目标)1103。这里，软指标是指表示当前的网络的分离精度的作为中途结果使用的信息。通过将软指标1103与表示被设定为“正确”的分离区域的信息即教师信息1102比较，能够估计当前的网络的分离精度相对于希望的分离精度的距离。通过将该比较的结果作为反馈而将网络进行反复训练，能够使图像目标的分离精度提高。

接着，参照图13对有关本发明的实时目标分离训练方法1200进行说明。

首先，在步骤S1201中，上述的图像目标分离部(例如，图12的图像目标分离部)生成对于规定的对象图像的第1分离区域。接着，将该第1分离区域与上述的表示希望的分离区域的教师信息进行比较，计算第1分离区域相对于教师信息的损失。通过将该损失作为反馈而将图像目标分离部反复训练，能够使图像目标分离部的目标分离精度提高。

接着，在步骤S1202中，输入模拟部(例如，图12的输入模拟部1101)模拟对于由已训练的图像目标分离部生成的第1分离区域的用户输入。关于用户输入的模拟处理，参照图13进行说明，所以省略这里的说明。

接着，在步骤S1203中，指导信息生成部(例如，图12的输入模拟部)基于由已训练的图像目标分离部生成的第1分离区域和在步骤1202中模拟的用户输入，生成上述的指导信息。

接着，在步骤S1204中，修正部(例如，图12的修正部)基于在步骤S1203中生成的指导信息将第1分离区域修正，生成作为训练方法中的软指标的第2分离区域。并且，与步骤S1201同样，将该第2分离区域与上述的表示希望的分离区域的教师信息进行比较，计算第2分离区域相对于教师信息的损失。通过将该损失作为反馈而将修正部反复训练，能够使修正部的目标分离精度提高。

接着，在步骤S1205中，判定由已训练的修正部生成的第2分离区域是否达到了规定的分离精度基准。该判定例如也可以通过利用既有的图像类似度计算算法计算第2分离区域与表示希望的分离结果的教师信息的类似度、并将计算出的类似度与规定的目标类似度基准(例如90％)比较来进行。在第2分离区域没有达到规定的目标类似度基准的情况下，本处理向步骤S1206前进。在第2分离区域达到规定的目标类似度基准的情况下，训练方法结束。

在判定为第2分离区域没有达到规定的目标类似度基准的情况下，接着，在步骤S1206中，通过已训练的修正部的输出将图像目标分离部进行再训练(基于所谓的“分段信息蒸馏”的训练)。具体而言，将基于训练用的对象图像生成的修正部的分离区域作为软指标，将图像目标分离部的分离区域相对于该软指标和表示希望的分离区域的教师信息比较，由此能够计算图像目标分离部的分离区域中的损失。由图像目标分离部带来的损失L_seg通过以下的数式3求出。

[数式3]

L_seg(i，θ)＝L_gt(i，θ)+λL_soft(i，θ)

如数式3所示，由图像目标分离部带来的损失L_seg是图像目标分离部的分离区域相对于教师信息的损失L_gt(i，θ)、和图像目标分离部的分离区域相对于软指标的损失L_soft的和。这里，i表示训练用的对象图像，θ表示被训练的对象的参数，λ是规定的平衡系数。

通过将图像目标分离部用已训练的修正部的输出进行再训练，能够将图像目标分离部进行微调(Fine Tune)，能够使分离精度进一步提高。此外，能够基于再训练后的图像目标分离部的分离结果生成指导信息，将修正部进行再训练。该“分段信息蒸馏”的训练手段也可以反复进行直到达到目标的分离精度。

接着，参照图14对有关本发明的用户输入模拟进行说明。

如上述那样，在有关本发明的目标分离训练方法中，代替用户的输入而使用自动地模拟用户的输入的输入模拟部。由此，能够将有关本发明的图像目标分离部及修正部没有用户的输入而自动地进行。

首先，输入模拟部接收由图像目标分离部生成的第1分离区域。接着，输入模拟部在第1分离区域的对象目标的目标掩码与想要在该目标掩码中含有或排除的区域的边界线附近，随机地生成笔划的开始点1401。然后，输入模拟部按生成的每个开始点，生成许多笔划段1402。对于各个开始点生成的笔划段1402的数量、长度及方向也可以任意地设定。通过这样生成基于随机地生成的笔划段1402的分离结果并进行反复训练，能够使目标分离部及修正部的分离精度提高。

接着，参照图15对有关本发明的实时目标分离处理的触摸操作进行说明。如上述那样，有关本发明的实时目标分离处理中的用户输入也可以通过笔、手指、鼠标等任意的指针设备进行。以下，对输入手段是触摸操作的情况进行说明。

在输入手段是触摸操作的情况下，用户能够用手指同时输入多个笔划。另外，这里，以实例分离1501、实例结合1502及删除1503这三个触摸操作为例进行说明，但本发明的触摸操作没有被特别限定，也可以实施其他的触摸操作。

首先，对实例分离1501进行说明。实例分离1501是用于将混合的多个目标掩码分离的触摸操作。在实例分离1501中，用户通过用两根手指(例如，拇指和食指)夹着想要分离的目标掩码的边界线，将各个手指朝向远离的方向滑动(swipe)，能够将混合的1个目标掩码分离为2个独立的目标掩码。

接着，对实例结合1502进行说明。实例结合1502是用于使独立的多个目标掩码结合的触摸操作。在实例结合1502中，用户通过用两根手指(例如，拇指和食指)夹着想要结合的目标掩码的边界线，将各个手指朝向接近的方向滑动，能够使独立的2个目标掩码结合为1个目标掩码。

接着，对删除1503进行说明。删除1503是用于将包含在目标掩码中的不需要的区域从该目标掩码中排除的操作。在删除1503中，用户在用一根手指(例如拇指)将想要保留的区域长按的状态下，用另一根手指(例如食指)描画不需要的区域，由此将描画的区域从目标掩码删除。

另外，上述的触摸操作在多个笔划同时被输入这一点上与利用鼠标或笔等的输入不同。通过同时受理多个笔划输入，与利用鼠标或笔等的输入相比，得到能够使分离区域更迅速地完成、并且分离精度提高的效果。

但是，在多个笔划同时被输入的情况下，参照图6说明的位置映射及方向映射的生成方法不同。例如，在输入了2个笔划的情况下，与某个笔划在图像中经过的像素对应的位置映射的要素被设定为“1”。此外，其以外的要素的值通过上述的数式1来计算。并且，在方向映射中，与2个笔划的结束点对应的要素分别被设定为“1”和“2”，其以外的要素的值通过上述的数式2来计算。

此外，在多个笔划同时被输入的情况下，上述的“删除检测部”的处理不同。例如，在输入了2个笔划的情况下，在判定为某个笔划的路径的方向性与紧接着之前的笔划的方向性相比实质上相反的情况下，检测到“删除”的意图。

上述中，对通过装置、方法或系统等的形态实现有关本发明的处理的结构进行了说明，但本发明并不限定于此，也可以作为电子电路或软件程序实现。例如，在一形态中，本发明是一种图像处理计算机程序，由图像处理装置执行，其特征在于，上述图像处理装置具备指导信息生成部；上述计算机程序包括程序命令；上述程序命令使处理器执行由上述指导信息生成部根据用户输入的用于将图像目标分离的轨道信息生成用户希望的分离区域的工序。

以上，对本发明的实施方式进行了说明，但本发明并不限定于上述的实施方式，能够在不脱离本发明的主旨的范围内进行各种变更。

Claims

1.一种图像处理装置，用于将图像目标分离，其特征在于，

上述图像处理装置具备指导信息生成部；

上述指导信息生成部根据用户输入的用于将图像目标分离的轨道信息，生成用户希望的分离区域；

上述指导信息生成部检测对于图像中的上述图像目标输入的笔划，并提取与上述笔划的在一定时间内输入的部分即笔划段对应的位置信息及方向信息，作为上述轨道信息；

上述指导信息生成部还具备轨道变换部、RNN特征提取部、指导信息计算部、修正部以及删除检测部，RNN为循环神经网络；

上述轨道变换部根据由上述轨道信息表示的上述位置信息，计算表示上述笔划段在上述图像中经过的路径的位置映射；

上述轨道变换部根据由上述轨道信息表示的上述方向信息，计算表示上述笔划段在上述图像中经过的路径的方向性的方向映射；

上述RNN特征提取部基于上述图像、上述方向映射和上述位置映射，生成对于上述图像中的各像素表示上述笔划经过该像素的概率的意图映射；

上述指导信息计算部基于上述图像及上述意图映射，计算上述分离区域；

上述修正部生成表示上述分离区域的最终图像，并向用户提示；

上述删除检测部对第1分离区域与第2分离区域进行比较，上述第1分离区域对应于第1时间，并且包含上述图像中的第1区域作为第1目标的区域，上述第2分离区域对应于作为上述第1时间以后的规定时间以内的时间的第2时间；

在判定为上述第2分离区域相对于上述第1分离区域达到规定的逆行基准的情况下，上述指导信息计算部生成从上述第1目标的区域排除上述第1区域后的第3分离区域。

2.如权利要求1所述的图像处理装置，其特征在于，

上述图像处理装置还具备用户接口；

上述指导信息生成部经由上述用户接口，检测对于上述图像中的上述图像目标输入的笔划，

上述修正部将上述最终图像经由上述用户接口向用户提示。

3.一种图像处理方法，由用于将图像目标分离的图像处理装置执行，其特征在于，

上述图像处理装置具备用户接口；

上述图像处理方法包括：

检测对于显示在上述用户接口上的图像输入的笔划的工序；

提取与上述笔划的在一定时间内输入的部分即笔划段对应的轨道信息的工序；

基于上述轨道信息生成表示分离区域的最终图像的工序；以及

在上述用户接口上提示上述最终图像的工序；

上述轨道信息包括位置信息和方向信息；

生成上述最终图像的工序包括：

根据上述轨道信息中包含的上述位置信息，计算表示上述笔划段在上述图像中经过的路径的位置映射的工序；

根据上述轨道信息中包含的上述方向信息，计算表示上述笔划段在上述图像中经过的路径的方向性的方向映射的工序；

基于上述图像、上述方向映射和上述位置映射，生成对于上述图像中的各像素表示上述笔划经过该像素的概率的意图映射的工序；

对第1分离区域与第2分离区域进行比较的工序，上述第1分离区域对应于第1时间，并且包含上述图像中的第1区域作为第1目标的区域，上述第2分离区域对应于作为上述第1时间以后的规定时间以内的时间的第2时间；以及

在判定为上述第2分离区域相对于上述第1分离区域达到规定的逆行基准的情况下，生成从上述第1目标的区域排除上述第1区域后的第3分离区域的工序。

4.一种图像处理系统，用于将图像目标分离，其特征在于，

上述图像处理系统具备图像处理装置和客户端终端；

上述图像处理装置与客户端终端经由通信网络而连接；

上述图像处理装置具备指导信息生成部；

上述指导信息生成部进行如下处理：

从上述客户端终端接收图像和笔划信息，该笔划信息是与对于上述图像中的图像目标输入的笔划有关的信息；

基于上述笔划信息，计算表示笔划的轨道的轨道信息；

根据上述轨道信息，生成用户希望的分离区域，并发送给上述客户端终端；

上述指导信息生成部通过提取与相应于上述笔划信息的上述笔划的、在一定时间内输入的部分即笔划段对应的位置信息及方向信息，计算上述轨道信息；

上述指导信息生成部还具备轨道变换部、RNN特征提取部、指导信息计算部以及删除检测部，RNN为循环神经网络；