CN113724126B - 图像处理设备、图像处理方法和计算机可读记录介质 - Google Patents
图像处理设备、图像处理方法和计算机可读记录介质 Download PDFInfo
- Publication number
- CN113724126B CN113724126B CN202110412656.4A CN202110412656A CN113724126B CN 113724126 B CN113724126 B CN 113724126B CN 202110412656 A CN202110412656 A CN 202110412656A CN 113724126 B CN113724126 B CN 113724126B
- Authority
- CN
- China
- Prior art keywords
- image
- graffiti
- target object
- image processing
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 238000010801 machine learning Methods 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 52
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 20
- 230000011218 segmentation Effects 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000012489 doughnuts Nutrition 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/564—Depth or shape recovery from multiple images from contours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20096—Interactive definition of curve of interest
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了图像处理设备、图像处理方法和计算机可读记录介质。一种图像处理设备,包括存储器和处理器,该处理器耦接至存储器并被配置成执行:从图像数据库获取表示图像中的目标对象的图像区域的对象区域信息,使用该对象区域信息来计算表示图像区域内的距目标对象的轮廓的距离值的距离图,并且基于该距离图来生成表示反映目标对象的全局形状的曲线的点的线。
Description
技术领域
本文中的公开内容涉及图像处理设备、图像处理方法和其中记录有图像处理程序的记录介质。
背景技术
在用于将目标对象的图像区域与例如背景图像等的其他图像分离的分割技术中,本领域中已知的交互式分割基于作为提示的用户输入来识别要分离的区域。交互式分割是图像处理中的重要基础技术,并且在各种应用中使用。例如,为机器学习准备训练数据可以利用交互式分割来极大地简化注释目标对象的任务。
作为本领域已知的用户输入提示,涂鸦(scribble)是由用户输入的穿过对象的内部以用于指定目标对象的自由形式的曲线。
可能需要一种生成对人工生成的涂鸦的形状进行模拟的曲线的涂鸦生成技术。
[相关技术文献]
[专利文献]
[专利文献1]国际专利申请的日本国家公开第2014-523019号。
[专利文献2]日本公开特许公报第2018-163426号。
[专利文献3]日本公开特许公报第2007-293597号。
[非专利文献]
[非专利文献1]Oh,Seoung Wug,et al."Fast user-guided video objectsegmentation by interaction-and-propagation networks."Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019。
发明内容
根据实施方式的方面,一种图像处理设备,包括存储器和耦接至该存储器的处理器,该处理器被配置成执行从图像数据库获取表示图像中的目标对象的图像区域的对象区域信息,使用该对象区域信息来计算表示图像区域内的距目标对象的轮廓的距离值的距离图,并且基于该距离图来生成表示反映目标对象的全局形状的曲线的点的线。
附图说明
图1是示出在目标对象的图像上描绘的涂鸦的示例的图;
图2是示出目标对象的分割图像区域的示例的图;
图3是示出用于自动生成涂鸦的图像处理设备的配置的示例的图;
图4是示出输入到图像处理设备中的图像的示例的图;
图5是示出图4所示的输入图像中的目标对象的图像区域的图;
图6是示出通过距离变换获得的距离图的示例的图;
图7是示出涂鸦生成方法的示例的流程图;
图8是示出用于自动生成涂鸦的图像处理设备的详细配置的示例的图;
图9是示出扰动分量的添加的图;
图10是示出生成中心线的方法的示例的流程图;
图11是示出添加扰动分量的方法的示例的流程图;
图12是示出用于执行关于交互式分割的机器学习的图像处理设备的配置的示例的图;
图13是示出机器学习模型的示例的图;以及
图14是示出图像处理设备的硬件配置的示例的图。
具体实施方式
存在用户输入以进行交互式分割的若干类型的提示。在边界框方法中,用户输入包围目标对象的边界框来指定该对象。在该方法中,例如,当目标对象像圈饼那样具有开口(即,孔)时,包围该对象的边界框不能指定内部开口是否属于该对象。
在点输入方法中,用户在目标对象的内部区域中放置单个点来指定目标对象。这种方法存在问题(不确定性),即不可以唯一地确定该点周围有多少区域属于目标对象。
在涂鸦方法中,用户输入穿过对象内部的自由形式的曲线,从而指定目标对象。该方法的优点在于,相对于属于目标对象的区域的指定,不确定的程度低。因此,利用涂鸦的交互式分割被认为是有前途的。
一种用于实现利用涂鸦的交互式分割的方法是通过学习过程训练神经网络,以便响应于RGB(红绿蓝)图像和涂鸦的输入来输出表示目标对象的区域的对象模板(mask)。这需要准备大量的以及各种各样的RGB图像、涂鸦和对象模板作为训练数据。更具体地,需要使用数千或数万个不同的图像作为输入来学习图像的多样性,并且需要为每个图像提供具有不同形状和大小的多个涂鸦,以便学习涂鸦的多样性。
然而,将具有不同形状和大小的大量涂鸦人工添加至数千或数万个图像中的每一个是不可行的。鉴于此,如果基于已经被创建以用作用于机器学习的训练数据(即,正确输出数据)等的对象模板来自动生成涂鸦,则极大地提高了效率。
例如,对象模板的区域可以经历细线化(thinning)以自动生成像涂鸦那样的曲线。然而,通过细线化生成的线通常有分支,并且最终具有与人工输入的涂鸦不同的形状。即,通过细线化生成的线不能模拟人工生成的涂鸦的形状。
因此,提供一种生成模拟人工生成的涂鸦的形状的曲线的涂鸦生成技术可以是优选的。
图1是示出在目标对象的图像上描绘的涂鸦的示例的图。图2是示出目标对象的分割图像区域的示例的图。当提供如图1所示的猫图像时,例如,人可以绘制像涂鸦S1至S4中的一个那样的曲线,以指定目标图像的图像区域。在交互式分割中,当绘制涂鸦S1时,例如,该涂鸦S1可以用作用于生成如图2所示的分割图像SG的提示。为了通过机器学习实现这样的交互式分割,优选地自动生成自然涂鸦以生成大量的训练数据。
一种自动生成涂鸦的方法可以利用已经被创建以用作用于机器学习的训练数据(正确输出数据)的对象模板(即,表示图像中的目标对象的图像区域的对象区域信息)。即,表示如图2所示的目标对象的图像区域SG的对象区域信息被用作用于自动生成涂鸦的输入。
可以用作用于机器学习的训练数据的自然涂鸦优选地满足以下三个要求:
<要求1>涂鸦基本上穿过目标对象的中心;
<要求2>为了便于输入,涂鸦是单线(没有分支);以及
<要求3>为了表示个人人工输入的差异,涂鸦存在各种各样的变化。
可以设想,人通过观察对象的全局形状(即,整体形状)而不是通过观察局部特征来绘制涂鸦。当给出动物的图像时,例如,可以通过基于全局形状估计曲线如何基本上延伸穿过动物身体的中心,同时忽略例如动物的腿、尾巴、耳朵等的局部特征来绘制涂鸦。自然涂鸦因此优选地满足上述要求1和要求2。
例如,对于图1所示的猫图像,可以人工绘制例如涂鸦S1至S4的曲线。所有从S1至S4的涂鸦都是基本上延伸穿过目标对象的中心的单条曲线,并且因此满足上述要求1和2。
还可以注意到,由人识别的对象的中心位置不精确,并且涂鸦的中心位置根据绘制该涂鸦的人而变化。在图1所示的示例中,例如,在涂鸦S1的情况下,涂鸦可以被绘制成靠近猫身体的上端,或者在涂鸦S4的情况下,涂鸦可以被绘制成靠近猫身体的下端。涂鸦可以在任何地方绘制。还可以注意到,由人识别的全局形状也因人而异,因此涂鸦的形状根据绘制涂鸦的人而有很大不同。类似于图1所示的涂鸦S1至S4,曲线可以具有向上延伸的凸起、向下延伸的凸起、波浪形式和接近直线的形状。涂鸦的形状可以以这种方式变化很大。从这些示例中可以理解,自然涂鸦因此优选地满足除了上述要求1和要求2之外的上述要求3。
在本公开内容的技术中,使用距离变换来满足要求1和要求2。距离变换是一种向任何给定像素分配该给定像素的位置与另一像素的位置之间的最短距离的值的变换,该另一像素的值为零并且位于最靠近该给定像素的位置。对如图2所示的目标对象的图像区域SG之外的所有像素设置零值。将距离变换应用于图像区域SG内的每个像素创建了距离图,该距离图示出分配给图像区域SG内的所有像素的距离值。即,计算示出在图像区域SG内的每个像素位置处距目标对象的轮廓的距离值的距离图。
在以这种方式计算的距离图中具有高距离值的点基本上位于对象的中心处。因此,提取具有高距离值的像素可以使得可以识别满足要求1“基本上穿过目标对象的中心”的点。此外,为了满足要求2“不具有分支的单线”,检测与相邻点相比距离值更高的多个点,使得这些点沿着脊放置,该脊由与图像区域SG内的距离值对应的高度限定并且在预定方向上延伸。以这种方式检测的点的线表示在预定方向上延伸的具有高距离值的脊,并且因此可以被认为是表示自然涂鸦的点的线。例如,预定方向可以是图像区域SG的主轴的方向。获得在主轴方向上延伸的脊相当于获得在图像区域SG的纵向方向上延伸的脊,并且容易提供适当反映目标对象的全局形状的曲线。
代替以上述方式计算脊,可以提取距离图中的代表性的点,并且然后沿着在周围点中距离值较高的方向从代表性的点追踪点,从而检测到沿着脊的点的线。可替选地,类似于有效(active)轮廓模型中的势场,距离图可以用作关于脊的势场。然后可以执行优化,以便使在脊上形成点的线的多个离散点上的能量总和最大化,从而获得由点的线表示的中心线。
利用如上所述的布置,可以提取不具有分支的基本上延伸穿过目标对象的中心的单条曲线。以这种方式生成的曲线满足前面描述的要求1和要求2,这被认为满足作为自然涂鸦的最低要求。此外,为了满足除了要求1和要求2之外的要求3“存在各种各样的变化”,还可以引入位置的随机性和形状的随机性。随机数可以用来实现随机性。
下面,将参照附图详细描述自动生成满足上述要求的涂鸦的图像处理设备和涂鸦生成方法的实施方式。
图3是示出用于自动生成涂鸦的图像处理设备的配置的示例的图。在图3和随后的类似附图中,示出为方框的功能块之间的边界基本上指示功能边界,并且可能不对应于物理位置方面的分离、电信号方面的分离、控制逻辑方面的分离等。图像处理设备可以具有通过组合具有相应功能块的功能的电子电路块来实现的硬件配置,或者可以具有其中相应功能块的功能由——作为电子电路的通用处理器执行的——软件来实现的软件配置。在软件实现方式的情况下,每个功能块可以是在某种程度上与其他块逻辑上分离的软件模块,或者可以指示其中这个块和其他块在逻辑上组合在一起的软件模块中的功能。
图3所示的图像处理设备包括对象区域获取单元10、距离图计算单元11、涂鸦生成单元12和图像数据库100。图像数据库100存储针对多个图像的数据集,使得每个数据集包括图像和与图像配对的对象区域信息。具体地,多个集合(每个集合包括给定图像和与给定图像配对的对象区域信息)存储在图像数据库100中,使得表示给定图像中的目标图像的图像区域的对象区域信息与给定图像相关联。图像处理设备接收存储在图像数据库100中的与给定图像相关联的对象区域信息,以生成针对出现在给定图像中的目标图像的涂鸦。
图4是示出输入到图像处理设备中的输入图像的示例的图。图5是示出图4所示的输入图像中的目标对象的图像区域的图。在该示例中,图4所示的图像中坐在前面的狗是目标对象。图5所示的图像区域20被提供作为该目标对象的对象区域信息。图4所示的图像和图5所示的对象区域信息作为集合存储在图像数据库100中。当给出图4所示的图像时,例如,基于图5所示的图像区域20,图3所示的图像处理设备生成类似曲线S5的涂鸦。
图5所示的目标对象(即,狗)的图像区域20的数据可以被配置成使得:在目标对象的图像区域内像素值为预定值(例如,1),以及在对象的图像区域之外(即,背景图像区域中)像素值为另一预定值(例如,0)。对象区域获取单元10从图像数据库100获取表示如图5所示的图像中的目标对象的图像区域20的对象区域信息。距离图计算单元11从对象区域获取单元10接收对象区域信息,以基于对象区域信息执行距离变换,从而计算表示图像区域内的距目标对象的轮廓的距离值的距离图。具体地,针对图像区域内的感兴趣的每个点(即,每个像素),获得距目标对象外部的最近点(即,像素)的距离,随后向感兴趣的点(即,像素)分配表示距离的值。
图6是示出通过距离变换获得的距离图的示例的图。为了便于示出,在图6中,简化了如图5所示的图像区域20的形状。即,例如,图5所示的图像区域20实际上包括成百上千个像素。然而,为了说明,图6中的距离图图像21示出了距离图的示例,在该距离图中,图像区域20包括几十个具有大于零的距离值的像素。由于此,例如,在图6中省略了图5所示的腿部形状。
在图6所示的距离图图像21中,距离值被分配给图5所示的图像区域20内的每个像素。在图6所示的示例中,像素的距离值表示像素与目标图像的轮廓之间的最短距离(即,像素与图像区域20外部的像素之间的最短距离),作为四舍五入到整数值的像素数。距离值可以是欧几里德距离或曼哈顿距离。
涂鸦生成单元12基于如图6所示的距离图生成表示反映目标对象的全局形状的曲线(即,平滑自由形式的曲线)的点的线。具体地,表示上述曲线的点的线可以通过检测距离图中与相邻点相比距离值更高的多个点来生成。更具体地,涂鸦生成单元12可以通过检测与相邻点相比距离值更高的多个点以使得这些点沿着脊放置来生成表示曲线的点的线,该脊由与图像区域内的距离值对应的高度限定并且在预定方向上延伸。利用这种布置,容易生成表示曲线22的点的线,该曲线22在反映目标对象的图像区域20的全局形状的方向上延伸并且位于中心附近。
原则上,优选地,由涂鸦生成单元12生成的曲线是单条曲线,以满足前述要求2。然而,考虑到异常情况的可能性,由涂鸦生成单元12生成的曲线不一定限于单条曲线。例如,原则上曲线可以是单划线,但是如果目标对象的图像区域的形状例如分叉成大的部分,则作为例外,使用具有两个分支起源的分叉点的曲线可能就足够了。即,在检测到沿着脊的点的线时脊分叉的情况下,该点的线也分叉成两条点的线可能就足够了。由涂鸦生成单元12生成的曲线分叉成两部分也可能足够。分支点的数量和分支的数量不限于特定的数量。
图7是示出涂鸦生成方法的示例的流程图。图3所示的图像处理设备执行图7所示的涂鸦生成方法。例如,当图3所示的图像处理设备被实现为计算机时,计算机执行实现涂鸦生成方法的软件以执行涂鸦生成方法。
可以注意到,在图7和随后的流程图中,执行流程图中示出的步骤的顺序仅是示例。所公开技术的范围不限于所公开的顺序。例如,可以说明在执行B步骤之前执行A步骤的描述。尽管有这样的描述,但是在物理上和逻辑上可以在A步骤之前执行B步骤,也可以在B步骤之前执行A步骤。在这种情况下,无论首先执行哪个步骤,影响流程图的结果的所有后果都可能是相同的。接下来,出于所公开技术的目的,显然可以在执行A步骤之前执行B步骤。尽管说明了在B步骤之前执行A步骤,但是这样的描述并不旨在将如上所述的明显情况置于所公开技术的范围之外。这种明显的情况不可避免地落入本公开内容所意图的技术的范围内。
在步骤ST1中,对象区域获取单元10从图像数据库100获取对象区域信息。在步骤ST2中,距离图计算单元11根据对象区域信息计算距离图。在步骤ST3中,涂鸦生成单元12根据距离图生成涂鸦。在步骤ST4中,进行关于是否已经生成了所需数量的涂鸦的检查。在生成另一涂鸦的情况下,过程返回到步骤ST1,从步骤ST1开始执行后续步骤。在已经生成所需数量的涂鸦的情况下,涂鸦生成处理结束。
执行图7所示的涂鸦生成方法使得能够生成不具有分支的基本上延伸穿过目标对象的中心的单条曲线。以这种方式生成的曲线满足前面描述的要求1和要求2,这被认为满足作为自然涂鸦的要求。为了满足除了要求1和要求2之外的要求3“存在各种各样的变化”,添加位置的随机性和形状的随机性的处理可以包括在涂鸦生成处理中。
图8是示出用于自动生成涂鸦的图像处理设备的详细配置的示例的图。为了满足要求3“存在各种各样的变化”,图像处理设备被配置成使得添加扰动的处理包括在涂鸦生成处理中。在图8中,与图3所示的图像处理设备的元件相同或对应的元件由相同或对应的附图标记引用,并且将适当省略其描述。
在图8所示的图像处理设备中,涂鸦生成单元12包括中心线生成单元30和扰动添加单元31。中心线生成单元30基于距离图生成表示反映目标对象的全局形状的曲线的点的线。具体地,中心线生成单元30通过检测距离图中与相邻点相比距离值更高的多个点来生成表示上述曲线的点的线。距离图中具有高距离值的点基本上位于对象的中心处。因此,提取具有高距离值的像素可以使得可以识别与基本上穿过目标对象的中心的线对应的点,即,识别形成中心线的点的线。
扰动添加单元31将基于随机数生成的在与曲线延伸的方向不同的方向上的扰动分量添加至由中心线生成单元30生成的点的线。在本说明书中,扰动分量是指如下随机分量:所述随机分量是为由中心线生成单元30生成的反映目标对象的全局形状的曲线计算的,所述随机分量独立于曲线的形状,并且用于移动形成点的线的相应点的位置。与曲线延伸的方向不同的方向是指与曲线的切线方向不同的方向,并且可以是曲线的法线方向。可替选地,所述方向可以是垂直于目标对象的图像区域的主轴的方向,该主轴已经用作曲线延伸的方向的基础。添加在这样的方向上的扰动分量使得能够将自然变化添加至曲线的形状。
图9是示出扰动分量的添加的图。在图9的左手侧所示的图像中,曲线41是由中心线生成单元30相对于目标对象的图像区域生成的中心线。为了计算扰动分量,矩形边界框40被设置为包围目标对象(即,狗)的图像(更具体地,图5所示的图像区域20)。在边界框40的四条边中,在曲线41延伸的方向(例如,在图像区域20的主轴的方向)上延伸的边(例如,长边)被用作坐标系的水平轴,并且垂直于所述方向延伸的边(例如,短边)被用作坐标系的竖直轴,从而形成坐标平面。在该坐标平面中绘制的曲线41被示为曲线42。
扰动添加单元31例如在上述坐标平面中生成n个随机数序列43-1A至43-nA,以引入随机性。例如,n个随机数序列43-1A到43-nA可以通过将具有在0与1之间的值的随机数分配给坐标平面的水平轴上的每个离散点(对应于长边上的每个像素)来生成。扰动添加单元31还通过使用具有与边界框40的长边的长度对应的宽度以及与边界框40的短边的长度对应的高度(即,值)的滤波器,对随机数序列43-1A至43-nA中的每一个应用平滑。该平滑处理产生分别对应于n个随机数序列43-1A至43-nA的n个扰动分量43-1B至43-nB。扰动添加单元31将n个扰动分量43-1B至43-nB添加至曲线42,以产生n个涂鸦。图9的右手侧所描绘的图像示出了由如上所述的扰动添加单元31生成的三个涂鸦S10至S12。
例如,可以通过使用高斯过程直接生成具有随机性的扰动分量或曲线,而不是基于随机数序列执行平滑处理。例如,高斯过程的均值可以被设置为零,其中,方差响应于边界框的大小而被设置,以创建不具有观测值的模型。从该模型采样值以生成平滑的扰动分量。可替选地,可以创建使用检测到的中心线作为观察值的模型,然后从这样的模型采样值以直接生成具有随机性的曲线。
下面,将详细描述由中心线生成单元30执行的中心线生成处理和由扰动添加单元31执行的扰动添加处理。
图10是示出生成中心线的方法的示例的流程图。图8所示的图像处理设备执行图10所示的中心线生成方法。例如,当图8所示的图像处理设备被实现为计算机时,计算机执行实现中心线生成方法的软件以执行中心线生成方法。
在步骤ST11中,中心线生成单元30生成距离变换图像。即,生成其中距离值被分配给图像区域中的每个像素的距离图。在步骤ST12中,中心线生成单元30选择距离变换图像中的单个代表性的点。例如,代表性的点可以是图像区域内的在距离图中具有最大距离值的点。在步骤ST13中,中心线生成单元30计算图像区域的主轴。例如,主轴的方向可以通过确定图像区域中的每个像素与给定轴之间的最短距离、针对图像区域中的所有像素计算最短距离之和、并调整给定轴的位置和斜率以最小化该和来获得。
在步骤ST14中,中心线生成单元30追踪在正主轴和负主轴方向上的与相邻点相比距离值更高的点。此处,与相邻点相比距离值更高的点可以是具有在将基本垂直于主轴的方向上的(在基本垂直于主轴的方向上布置的)像素的距离值彼此比较时获得的相对大的距离值的像素。此外,术语“追踪”指的是如下动作:从步骤ST12中获得的代表性的点追踪在正主轴和负主轴方向上的具有相对高的距离值的点,以便追踪沿着主轴的方向延伸(即,近似平行于主轴)的脊峰。例如,在以第一方向(即,主轴的方向)为中心的预定角度范围内存在的点中相继选择具有最高距离值的点,以从当前点前进。例如,通过追踪选择的点的线的总长度可以被设置为目标对象的图像区域的预定比例(例如,80%)。这使得能够生成具有适当的长度并且用作涂鸦的基础的曲线。
可以注意到,如上所述通过追踪生成的彼此紧邻的相继点的线可以原样用作由中心线生成单元30生成的形成曲线的点的线。可替选地,以等于预定数量的点的间隔从以这种方式生成的点的线中对点进行采样,从而提供以预定间隔布置的多个点。关于以这样的预定间隔布置的多个点,中心线生成单元30可以通过拟合自由形式的曲线(例如样条曲线)以穿过多个点来生成曲线。
图11是示出添加扰动分量的方法的示例的流程图。图8所示的图像处理设备执行图11所示的扰动添加方法。当图8所示的图像处理设备被实现为计算机时,例如,计算机执行实现扰动添加方法的软件以执行扰动添加方法。
在步骤ST21中,扰动添加单元31生成随机数序列。在步骤ST22中,扰动添加单元31确定与包围目标对象的图像区域的边界框(BBOX)的大小成比例的平滑的幅度。例如,边界框的形状是矩形,并且边界框的方向可以被设置为使得其纵向方向与目标对象的图像区域的主轴方向一致。例如,平滑的幅度可以使得在平滑处理中使用的滤波器的宽度被设置为沿着目标对象的图像区域的主轴延伸的边界框的长边的长度的预定比例。这种布置使得可以生成具有对目标对象的图像区域的主轴长度进行响应的适当周期(或频率)的波形作为扰动分量。滤波器不限于特定的形状,并且例如可以是高斯或矩形滤波器。
如果以边界框的长边长度的1/100倍的周期精细振动的扰动分量被添加至在目标对象的图像区域的中心或中心附近的沿主轴方向延伸的曲线,则所得的涂鸦将不具有自然的形状。如果以边界框的长边长度的10倍的长周期振动的扰动分量被添加至在目标对象的图像区域的中心或中心附近的沿主轴方向延伸的曲线,则所得的涂鸦将不会表现出适当的波动。因此,优选地,将平滑处理中使用的滤波器的宽度设置为边界框的长边长度的预定比例,以便生成具有适当周期(或频率)的波形作为扰动分量。
在步骤ST23中,扰动添加单元31确定与边界框的大小成比例的扰动分量的幅度。例如,扰动分量的幅度可以使得在平滑处理中使用的滤波器的高度(值)被设置为垂直于目标对象的图像区域的主轴延伸的边界框的短边长度的预定比例。这种布置使得可以生成具有对垂直于其主轴的目标对象的图像区域的宽度进行响应的适当幅度的波形作为扰动分量。
在步骤ST24中,扰动添加单元31使用被如上所述设置宽度和高度的滤波器来对随机数序列执行平滑处理,从而生成扰动分量。即,对随机数序列应用滤波处理以生成扰动分量。对随机数序列应用平滑处理使得可以容易地生成适于将自然变化添加至涂鸦的扰动分量。在步骤ST25中,扰动添加单元31将扰动分量添加至中心线以生成涂鸦。
以上述方式,相对于目标对象的图像区域,自动生成类似于人工生成的涂鸦的自然涂鸦。此外,如下面将描述的,使用以这样的方式自动生成的涂鸦作为输入训练数据,使得能够针对基于涂鸦分离图像区域的交互式分割有效地执行机器学习。
图12是示出用于执行关于交互式分割的机器学习的图像处理设备的配置的示例的图。图12所示的图像处理设备包括对象区域获取单元10、距离图计算单元11、涂鸦生成单元12、对象模板获取单元51、RGB图像获取单元52、训练数据53、训练数据获取单元54、DNN(深度神经网络)训练单元55和图像数据库100。
对象区域获取单元10、距离图计算单元11和涂鸦生成单元12执行如前所述的涂鸦生成处理,以针对存储在图像数据库100中的多个图像中的每一个生成具有各种各样的变化的多个涂鸦。对象模板获取单元51获取与存储在图像数据库100中的大量图像相关联的对象模板(即,对象区域信息)。RGB图像获取单元52获取存储在图像数据库100中的多个图像(例如,RGB图像)。训练数据53是数据库,在该数据库中,如上所述获取或生成的多个图像、与多个图像具有一一对应关系的多个对象模板、以及与多个图像中的各图像相关联的多个涂鸦被存储为用于机器学习的训练数据集。
训练数据获取单元54从训练数据53获取多个图像和与每个图像相关联的多个涂鸦作为输入训练数据,并且获取与多个图像一一对应地相关联的多个对象模板作为输出训练数据(即,监督数据)。DNN训练单元55将用作输入的输入训练数据和用作正确输出的输出训练数据馈送到深度神经网络,从而训练深度神经网络,使得响应于输入数据产生正确输出数据。与由DNN训练单元55训练的深度神经网络相关的数据(例如优化的权重参数)作为已训练的数据输出。
图13是示出机器学习模型的示例的图。DNN训练单元55包括神经网络,该神经网络包括输入层61、中间层62、输出层63以及这些层之间的连接64和65。在深度神经网络的情况下,中间层包括经由层之间的连接耦接在一起的两个或更多个层。尽管图13仅示出了全连接层,但是神经网络的层不限于全连接层,并且可以包括一个或更多个卷积层、一个或更多个归一化层等。DNN训练单元55学习层之间的连接的权重参数,以便基于多个图像(例如,RGB图像)、多个曲线(即,自动生成的涂鸦)和对象区域信息(即,对象模板)来实现期望的输入-到-输出的关系。
具体地,DNN训练单元55接收多个图像和针对多个图像中的每一个生成的多条曲线作为输入训练数据,并且接收针对多个图像的对象区域信息作为用于训练的正确输出数据。DNN训练单元55使用对象模板作为监督数据(即,正确输出数据),以优化神经网络的层之间的连接的权重参数,使得响应于输入图像和输入涂鸦输出正确的对象模板。以这种方式执行机器学习使得能够高效地生成深度神经网络,该深度神经网络以高精度实现基于涂鸦的交互式分割。
图14是示出图像处理设备的硬件配置的示例的图。图14所示的图像处理设备包括CPU 121、显示单元122、输入单元123、ROM 124、RAM 125、HDD 126、网络接口127、可移除存储介质驱动器128和运算电路单元129。
输入单元123提供用户接口,并且接收用于操作图像处理设备的各种命令和对数据请求等做出响应的用户响应。显示单元122显示图像处理设备的处理结果,并且进一步显示使得用户可以与图像处理设备通信的各种数据。网络接口127用于与外围装置和远程位置进行通信。
图14所示的图像处理设备是计算机,并且涂鸦生成方法和机器学习方法被提供为可由图像处理设备执行的计算机程序。该计算机程序存储在可安装到可移除存储介质驱动器128的存储介质M中。计算机程序通过可移除存储介质驱动器128从存储介质M加载至RAM125或HDD 126。可替选地,计算机程序可以存储在外围设备中或在远程位置处提供的存储介质(未示出)中,并且通过网络接口127从存储介质加载至RAM 125或HDD 126。
当从输入单元123接收到用于程序执行的用户指令时,CPU 121将程序从存储介质M、外围设备、远程存储介质或HDD 126加载至RAM 125。CPU 121通过使用RAM 125的可用存储空间作为工作区域来执行加载至RAM 125的程序,并且在需要时在与用户通信的同时继续处理。ROM 124存储用于控制图像处理设备的基本操作的目的的控制程序。
通过执行如上所述的计算机程序,图像处理设备执行涂鸦生成处理和机器学习处理。运算电路单元129可以是专门设计用于执行机器学习的专用硬件,并且例如可以是专用硬件,例如专用于矩阵计算的电路或处理器。在可替选的配置中,可以不提供专用运算电路单元129。在这种情况下,作为通用计算机的处理器的CPU 121可以用作机器学习计算单元以执行机器学习算法。
根据至少一个实施方式,提供了一种生成模拟人工生成的涂鸦的形状的曲线的涂鸦生成技术。
Claims (7)
1.一种图像处理设备,包括:
对象区域获取单元,用于从图像数据库获取表示图像中的目标对象的图像区域的对象区域信息;
距离图计算单元,用于使用所述对象区域信息来计算距离图,所述距离图表示所述图像区域内的距所述目标对象的轮廓的距离值;以及
涂鸦生成单元,用于基于所述距离图来生成表示反映所述目标对象的全局形状的曲线的点的线。
2.根据权利要求1所述的图像处理设备,其中,所述涂鸦生成单元用于通过如下方式来生成所述点的线:检测与相邻点相比距离值更高的多个点,以追踪由与所述图像区域内的所述距离值对应的高度定义并且在特定方向上延伸的脊。
3.根据权利要求1或2所述的图像处理设备,还包括扰动添加单元,用于向所述点的线添加基于随机数生成的在与所述曲线延伸的方向不同的方向上的扰动分量。
4.根据权利要求3所述的图像处理设备,其中,所述扰动添加单元用于对随机数序列应用平滑处理以生成所述扰动分量。
5.根据权利要求1、2或4所述的图像处理设备,还包括机器学习模型,用于接收多个图像和由所述涂鸦生成单元针对所述多个图像中的每一个生成的多条曲线作为输入训练数据,并且接收针对所述多个图像的所述对象区域信息作为用于训练的正确输出数据。
6.一种图像处理方法,包括:
从图像数据库获取表示图像中的目标对象的图像区域的对象区域信息;
使用所述对象区域信息来计算距离图,所述距离图表示所述图像区域内的距所述目标对象的轮廓的距离值;以及
基于所述距离图来生成表示反映所述目标对象的全局形状的曲线的点的线。
7.一种计算机可读记录介质,其中包含有用于使计算机执行以下操作的程序:
从图像数据库获取表示图像中的目标对象的图像区域的对象区域信息;
使用所述对象区域信息来计算距离图,所述距离图表示所述图像区域内的距所述目标对象的轮廓的距离值;以及
基于所述距离图来生成表示反映所述目标对象的全局形状的曲线的点的线。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-089138 | 2020-05-21 | ||
JP2020089138A JP7392572B2 (ja) | 2020-05-21 | 2020-05-21 | 画像処理装置、画像処理方法、及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724126A CN113724126A (zh) | 2021-11-30 |
CN113724126B true CN113724126B (zh) | 2023-08-08 |
Family
ID=78608156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110412656.4A Active CN113724126B (zh) | 2020-05-21 | 2021-04-16 | 图像处理设备、图像处理方法和计算机可读记录介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11610327B2 (zh) |
JP (1) | JP7392572B2 (zh) |
CN (1) | CN113724126B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346912A (zh) * | 2010-07-23 | 2012-02-08 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
CN109788215A (zh) * | 2017-11-15 | 2019-05-21 | 佳能株式会社 | 图像处理装置、计算机可读存储介质以及图像处理方法 |
CN110036258A (zh) * | 2016-12-08 | 2019-07-19 | 索尼互动娱乐股份有限公司 | 信息处理装置和信息处理方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005069223A2 (en) | 2004-01-15 | 2005-07-28 | Algotec Systems Ltd. | Vessel centerline determination |
US7672509B2 (en) * | 2005-05-02 | 2010-03-02 | Regents Of The University Of Minnesota | Fast image and video data propagation and blending using intrinsic distances |
US20070165966A1 (en) * | 2005-07-15 | 2007-07-19 | Yissum Research Development Co. | Closed form method and system for matting a foreground object in an image having a background |
JP2007293597A (ja) | 2006-04-25 | 2007-11-08 | Mitsubishi Electric Corp | 解析装置、検索装置及び計測装置並びにプログラム |
JP4208898B2 (ja) * | 2006-06-09 | 2009-01-14 | 株式会社ソニー・コンピュータエンタテインメント | 対象物追跡装置および対象物追跡方法 |
US8594428B2 (en) * | 2006-07-25 | 2013-11-26 | Humaneyes Technologies Ltd. | Interactive segmentation of images with single scribbles |
US8498481B2 (en) * | 2010-05-07 | 2013-07-30 | Microsoft Corporation | Image segmentation using star-convexity constraints |
SG193942A1 (en) * | 2011-04-21 | 2013-11-29 | Univ Nanyang Tech | A method and system for interactive image segmentation |
EP2538372A1 (en) | 2011-06-23 | 2012-12-26 | Alcatel Lucent | Dynamic gesture recognition process and authoring system |
CN102800129B (zh) * | 2012-06-20 | 2015-09-30 | 浙江大学 | 一种基于单幅图像的头发建模和肖像编辑方法 |
US20150379720A1 (en) * | 2013-01-31 | 2015-12-31 | Threevolution Llc | Methods for converting two-dimensional images into three-dimensional images |
US10192129B2 (en) * | 2015-11-18 | 2019-01-29 | Adobe Systems Incorporated | Utilizing interactive deep learning to select objects in digital visual media |
US10175867B2 (en) * | 2016-02-03 | 2019-01-08 | Adobe Inc. | User input-based object selection using multiple visual cues |
JP6646006B2 (ja) | 2017-03-24 | 2020-02-14 | 株式会社東芝 | 情報提示装置、情報提示方法及びプログラム |
-
2020
- 2020-05-21 JP JP2020089138A patent/JP7392572B2/ja active Active
-
2021
- 2021-04-16 CN CN202110412656.4A patent/CN113724126B/zh active Active
- 2021-04-16 US US17/232,219 patent/US11610327B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346912A (zh) * | 2010-07-23 | 2012-02-08 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
CN110036258A (zh) * | 2016-12-08 | 2019-07-19 | 索尼互动娱乐股份有限公司 | 信息处理装置和信息处理方法 |
CN109788215A (zh) * | 2017-11-15 | 2019-05-21 | 佳能株式会社 | 图像处理装置、计算机可读存储介质以及图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210366145A1 (en) | 2021-11-25 |
US11610327B2 (en) | 2023-03-21 |
JP2021184165A (ja) | 2021-12-02 |
CN113724126A (zh) | 2021-11-30 |
JP7392572B2 (ja) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180342077A1 (en) | Teacher data generation apparatus and method, and object detection system | |
JP7263216B2 (ja) | ワッサースタイン距離を使用する物体形状回帰 | |
CN110907947B (zh) | 一种移动机器人slam问题中的实时回环检测方法 | |
CN112580515B (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
KR102343849B1 (ko) | 모션 궤적의 특징 처리 방법, 장치 및 컴퓨터 저장 매체 | |
Wang et al. | Point linking network for object detection | |
JP7424573B2 (ja) | 三次元点群データに基づく三次元モデル生成装置 | |
JPWO2010104181A1 (ja) | 特徴点生成システム、特徴点生成方法および特徴点生成プログラム | |
CN114387499A (zh) | 一种海岛滨海湿地水鸟识别方法、分布查询系统及介质 | |
CN108256454A (zh) | 一种基于cnn模型的训练方法、人脸姿态估测方法及装置 | |
CN113724126B (zh) | 图像处理设备、图像处理方法和计算机可读记录介质 | |
US20220351486A1 (en) | Object detection device, object detection method, and program | |
JP2003141567A (ja) | 3次元都市モデル生成装置及び3次元都市モデル生成方法 | |
JPWO2015068417A1 (ja) | 画像照合システム、画像照合方法およびプログラム | |
CN109166183B (zh) | 一种解剖标志点识别方法及识别设备 | |
CN116310194A (zh) | 一种配电站房三维模型重建方法、系统、设备和存储介质 | |
CN112949614B (zh) | 一种自动分配候选区域的人脸检测方法及装置和电子设备 | |
CN114550179A (zh) | 对手写汉字黑板板书进行指导的方法、系统及设备 | |
US11887387B2 (en) | Mesh structure equipment detection apparatus, mesh structure equipment detection method and program | |
JP2022182149A (ja) | 情報処理装置、画像処理方法 | |
CN112926681A (zh) | 一种基于深度卷积神经网络的目标检测方法及装置 | |
JP3642059B2 (ja) | 生体断層画像の輪郭データ抽出方法および装置 | |
KR20200005853A (ko) | 심층 구조 학습 기반 사람 계수 방법 및 시스템 | |
CN111429343B (zh) | 一种三维数字图像中分支点的快速检测方法 | |
JP6282121B2 (ja) | 画像認識装置、画像認識方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |