CN106557776A - 从图像分割对象的设备和方法 - Google Patents
从图像分割对象的设备和方法 Download PDFInfo
- Publication number
- CN106557776A CN106557776A CN201610633375.0A CN201610633375A CN106557776A CN 106557776 A CN106557776 A CN 106557776A CN 201610633375 A CN201610633375 A CN 201610633375A CN 106557776 A CN106557776 A CN 106557776A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- training
- output image
- iconic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003709 image segmentation Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims description 168
- 230000007935 neutral effect Effects 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 13
- 230000000052 comparative effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 60
- 230000008569 process Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 210000005036 nerve Anatomy 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 210000000056 organ Anatomy 0.000 description 6
- 241000208340 Araliaceae Species 0.000 description 5
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 235000008434 ginseng Nutrition 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004040 coloring Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30088—Skin; Dermal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30236—Traffic on road, railway or crossing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种从图像分割对象的设备和方法。一种从图像分割对象的方法包括:接收包括对象的输入图像;使用图像模型从输入图像生成对应于对象的输出图像;以及从输出图像提取对象图像。
Description
相关申请的交叉引用
本申请要求2015年9月30日提供到韩国知识产权局的第10-2015-0137782号韩国专利申请和2016年2月25日提交到韩国知识产权局的第10-2016-0022517号韩国专利申请的权益,其全部公开内容通过引用并入本文。
技术领域
至少一个示例实施例总体上涉及图像分析,并且更具体地,涉及用于从图像分割对象的技术。
背景技术
在图像相关的技术领域,使用图像识别诸如人脸的对象的技术正在发展。为了识别诸如人脸的对象,可以从图像提取不包括背景的部分。
例如,为了从图像提取不包括背景的部分,可以使用基于深度信息的对象分割技术。这种对象分割技术可以通过将颜色信息和深度信息组合从图像分割对象,例如,人体。因此,除了用于获得颜色信息的相机之外,该技术可以使用用于获得深度信息的附加模块,并且可以执行用于处理深度信息的过量计算。
因此,可期望使用颜色信息从图像分割对象的技术。
发明内容
根据至少一些示例实施例,一种从图像分割对象的方法,所述方法包括:接收包括对象的输入图像;使用图像模型从输入图像生成对应于对象的输出图像;以及从输出图像提取对象图像。
提取对象图像的步骤可以包括:基于输出图像的每个像素的属性对输出图像的第一多个像素进行分类;以及使用分类的像素提取对象图像。
分类的步骤可以包括:将第一多个像素之中的每个像素的像素值与阈值进行比较;以及基于比较结果确定第一多个像素之中的每个像素的属性。
提取对象图像的步骤可以包括:通过基于输出图像的每个像素的像素值与阈值的比较结果确定输出图像的每个像素的多个二进制值之一生成掩模图像。
提取对象图像的步骤还可以包括:基于掩模图像和输入图像生成前景图像。
提取对象图像的步骤可以包括:通过将输出图像的每个像素的像素值与阈值进行比较基于输出图像生成前景图像。
生成输出图像的步骤包括使用图像模型生成对象图像,使得对象图像具有与输入图像的分辨率相等的分辨率。
图像模型可以包括神经网络,神经网络可以包括激活函数,激活函数可以包括至少一个非线性函数。
一种存储指令的非暂时性计算机可读介质,当处理器执行所述指令时,使处理器执行从图像分割对象的方法。
根据至少一些示例实施例,一种从图像分割对象的设备,所述设备包括:存储器,存储图像模型和计算机可读指令;以及一个或多个处理器,被配置为执行指令,使得所述一个或多个处理器被配置为接收包括对象的输入图像,使用图像模型从输入图像生成对应于对象的输出图像,并且从输出图像提取对象图像。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为基于输出图像的每个像素的属性对输出图像的第一多个像素进行分类,并且使用分类的像素提取对象图像。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为将第一多个像素之中的每个像素的像素值与阈值进行比较,并且基于比较结果确定第一多个像素之中的每个像素的属性。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为通过基于输出图像的每个像素的像素值与阈值的比较结果确定输出图像的每个像素的多个二进制值之一生成掩模图像。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为基于掩模图像和输入图像生成前景图像。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为通过将输出图像的每个像素的像素值与阈值进行比较基于输出图像生成前景图像。
所述一个或多个处理器可以被配置为执行指令,使得所述一个或多个处理器被配置为通过使用图像模型生成输出图像以生成对象图像,使得对象图像具有与输入图像的分辨率相等的分辨率。
图像模型可以包括神经网络,神经网络可以包括激活函数,激活函数可以包括至少一个非线性函数。
根据至少一些示例实施例,一种训练用于从图像分割对象的图像模型的方法,所述方法包括:接收参考训练图像和参考对象图像,参考训练图像对应于参考对象图像,参考训练图像包括背景和对象;以及训练图像模型的参数,使得图像模型基于接收参考训练图像作为图像模型的输入来输出指示参考对象图像的输出图像,参考对象图像是从参考训练图像分割对象得到的图像。
图像模型可以包括神经网络,神经网络可以包括激活函数,激活函数可以包括至少一个非线性函数,以及神经网络可以被配置为生成输出图像,使得输出图像的分辨率等于输入图像的分辨率。
可以基于通过对参考训练图像执行旋转、调整尺寸、移动、翻转和噪声添加中的至少一个获得的图像训练图像模型。
根据至少一些示例实施例,一种从图像分割对象的方法,包括:接收包括对象的输入图像;使用第一图像模型从输入图像生成对应于对象的中间图像;使用第二图像模型从中间图像生成对应于对象的输出图像;以及从输出图像提取对象图像。
根据至少一些示例实施例,一种训练用于从图像分割对象的图像模型的方法,所述方法包括:接收参考训练图像和参考对象图像,参考训练图像对应于参考对象图像,参考训练图像包括背景和对象;以及训练第一图像模型的参数,使得第一图像模型允许使用第一图像的处理器生成对应于参考训练图像中包括的对象的中间图像;使用第一图像模式从参考训练图像生成参考中间图像;以及训练第二图像模型的参数,使得第二图像模型基于接收参考中间图像作为第二图像模型的输入来输出指示参考对象图像的输出图像,参考对象图像是从参考训练图像分割对象得到的图像。
根据至少一些示例实施例,一种从图像分割对象的方法,包括:接收包括背景和对象的输入图像;提供输入图像作为图像模型的输入;获得输出图像作为图像模型的对应于输入图像的输出,使得输出图像中的每个像素具有指示输入图像中的相应像素是对象的像素的概率的像素值;以及基于输出图像生成对象图像,对象图像是包括对象且排除背景的图像。
基于输出图像生成对象图像的步骤可以包括:通过将输出图像的第一多个像素的像素值与阈值进行比较生成针对第一多个像素的多个比较结果;基于所述多个比较结果确定输出图像的对应于背景的部分和输出图像的对应于对象的部分;以及基于所述确定来生成对象图像的第二多个像素。
对象图像可以是掩模图像且生成第二多个像素的步骤可以包括:生成第二多个像素,使得第二多个像素中的每个像素具有第一像素值或第二像素值,第一像素值对应于背景,第二像素值对应于对象。
对象图像可以是前景图像且生成第二多个像素的步骤可以包括:生成第二多个像素,使得第二多个像素之中的对应于背景的每个像素具有第一像素值,以及第二多个像素之中的对应于对象的每个像素具有与输入图像的像素之中的相应像素相同的像素值。
附图说明
通过参照附图详细描述本发明构思的示例实施例,本发明构思的示例实施例的上述和其它特征和优点将变得更加明显。附图意在描绘本发明构思的示例实施例,且不应被解释为限制权利要求的预期范围。除非明确表示,附图不应被认为是按比例绘制
图1是示出根据至少一个示例实施例的从图像分割的对象图像的示例的示图;
图2是示出根据至少一个示例实施例的从图像分割对象的方法的示例的流程图;
图3至图5是示出根据至少一个示例实施例的使用图像模型从输入图像生成输出图像的处理的示例的示图;
图6是示出根据至少一个示例实施例的从输出图像提取对象图像的方法的流程图;
图7是示出根据至少一个示例实施例的基于输出图像的每个像素的属性对输出图像的像素进行分类的方法的流程图;
图8和图9是示出根据至少一个示例实施例的使用分类的像素提取对象图像的方法的示例的流程图;
图10是示出根据至少一个示例实施例的使用输出图像的像素提取对象图像的方法流的示图;
图11是示出根据至少一个示例实施例的从图像分割对象的设备的配置的示图;
图12是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的示例的流程图;
图13是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的设备的配置的示图;
图14是示出使用根据参照图13描述的处理训练的图像模型从输入图像生成的对象图像的示例的示图;
图15是示出根据至少一个示例实施例的从图像分割对象的方法的另一示例的流程图;
图16是示出根据至少一个示例实施例的使用图像模型从输入图像生成输出图像的处理的另一示例的示图;
图17是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的另一示例的流程图;以及
图18是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的另一示例的示图。
具体实施方式
本文公开了本发明构思的详细示例实施例。然而,本文公开的具体结构和功能细节仅是代表性的用于描述本发明构思的示例实施例的目的。然而,本发明构思的示例实施例可以体现为许多可选形式,并不应被解释为仅限于本文阐述的实施例。
因此,尽管本发明构思的示例实施例能够有各种修改和可选形式,但是其实施例通过附图中示例示出,并且将在本文中详细描述。然而,应当理解,不意在将本发明构思的示例实施例限制到所公开的具体形式,而是相反,本发明构思的示例实施例将覆盖落入本发明构思的示例实施例范围内的所有修改、等同物和替代。在附图的描述中,相同标号指示相同的元件。
应当理解,尽管术语第一、第二等在此可以用于描述各种元件,但是这些元件不应被这些术语限制。这些术语仅用于将一个元件与另一个相区别。例如,在不脱离本发明构思的示例实施例的范围的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。如本文中所使用的,术语“和/或”包括一个或多个相关所列的项目的任意组合和所有组合。
应当理解,当元件被称为“连接”或“耦接”到另一元件时,可以直接连接或耦接到另一元件或可以存在中间元件。相反,当元件被称为被“直接连接”或“直接耦接”到另一元件时,不存在中间元件。用于描述元件之间的关系的其他词语应该以类似的方式解释(例如,“之间”与“直接之间”,“相邻”与“直接相邻”等)。
本文所使用的术语仅用于描述具体实施例的目的,并非意在限制发明构思的示例实施例。如本文中所使用的,单数形式“一”,“一个”和“该”也意在包括复数形式,除非上下文另外明确指出。还应当理解,当术语“包括”和/或“包含”在本文中被使用时指定所陈述的特征、整数、步骤,操作、元件和/或组件的存在,但不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组。
还应当指出,在一些可选实现方式中,可能会发生指出的功能/动作超出附图中所指的顺序。例如,根据涉及的功能/动作,实际上可以基本上同时执行连续示出的两个附图,或者有时可以以相反的顺序执行。
将参照本发明构思的理想化实施例(和中间结构)的示意图描述本发明构思的示例实施例。因此,可以预期示出的形状变化作为例如制造技术和/或公差的结果。因此,本发明构思的示例实施例不应被为限制为在此所示的区域的特定形状,而是要包括例如由制造导致的形状上的偏差。
尽管可能没有显示相应的一些剖视图的平面图和/或立体图,但是在此所示的装置结构的剖视图为如在平面图中所示的沿两个不同方向延伸的和/或在立体图中所示的沿三个不同方向延伸的多个装置结构提供支持。两个不同方向可以是或可以不是彼此正交。三个不同方向可以包括可以与两个不同方向正交的第三方向。多个装置结构可以集成在相同电子装置。例如,当在剖视图中示出装置结构(例如,存储单元结构或晶体管结构)时,电子装置可以包括多个装置结构(例如,存储单元结构或晶体管结构),如电子装置的平面图所示。可以按照阵列和/或按照二维图案布置多个装置结构。
图1是示出根据至少一个示例实施例的从图像分割的对象图像的示例的示图。
参照图1,根据至少一些示例实施例的从图像分割对象的设备可以从包括对象的输入图像110分割对象图像。用于从图像分割对象的设备在本文中也被称作对象分割设备。将在下面参照图11的对象分割设备1100更详细地讨论根据至少一些示例实施例的对象分割设备的示例结构。
在本文所提供的描述中,术语“对象”是指排除图像的背景部分之外的图像的主体。这种主体的示例包括但不限于人、动物以及东西,或人的一部分,例如,人脸、手臂、腿和人的身体部分。为了便于描述,本文将主要参照图像包括人,主体是人的身体,背景是图像的剩余部分(即,排除身体之外的部分)的情况描述根据至少一些示例实施例的对象分割设备。然而,至少一些示例实施例并不限于这种情况。
例如,根据至少一些示例实施例,主体和背景之间的指定可以基于图像的内容而不同,并且可以根据对象分割设备的用户希望获得的特定信息定义主体和背景之间的指定。例如,对象分割设备可以被应用以方便识别高速公路交通的图像中的一个或多个特定汽车,在这种情况下,交通图像中的一个或多个汽车可以是主体,背景可以是交通图像的剩余部分(例如,路牌、路面、天空等)。作为被应用以便于识别高速公路交通的图像中的一个或多个特定汽车的对象分割设备的另一示例,交通图像中的一个或多个牌照可以是主体,背景可以是交通图像的剩余部分(例如,汽车车身、街道标志、路面、天空等)。作为另一示例,对象分割设备也可以被应用以便于识别特定生物属性,在这种情况下,图像可以是例如器官、组织或细胞的图像(例如,人眼的图像),主体可以是器官、组织或细胞图像的特定部分(例如,眼睛的图像中的虹膜),背景可以是器官、组织或细胞图像的剩余部分(例如,眼睛的图像中的眼睑、巩膜或瞳孔)。作为另一示例,对象分割设备可以被应用以便于识别特定身体状况,在这种情况下,图像可以是例如器官、组织或细胞的图像(例如,皮肤),主体可以是器官、组织或细胞图像的特定部分(例如,皮肤的异常或变色部分),背景可以是器官、组织或细胞图像的剩余部分(例如,皮肤的正常部分)。作为另一示例,对象分割设备可以被应用以便于识别公共安全问题,在这种情况下,图像可以是例如体育赛事的人群的图像(例如,游行或音乐会的人群的图像),主体可以是武器(例如,枪),背景可以是图像的剩余部分(例如,不包括枪的图像部分)。作为另一示例,对象分割设备也可以被应用以方便装置检查,在这种情况下,图像可以是装置的图像(例如,微观层次、多单元、半导体存储装置的一部分的平面图像),主体可以是装置的特定部分(例如,半导体存储装置的一部分的图像中的异常区域),背景可以是装置的剩余部分(例如,半导体存储装置的一部分的图像中的正常部分)。此外,虽然为了便于理解提供根据一些示例实施例的对象分割设备的上述参考示例应用,但是至少一些示例实施例并不限于上述参考的示例应用。
返回图1,输入图像110是将被接收的图像并且包括对象。输入图像110是二维(2D)图像,例如,彩色图像和灰度图像。输入图像110包括多个像素,并且每个像素具有像素值。在输入图像110是彩色图像的情况下,像素值表示颜色值,例如,红、绿和蓝(RGB)值以及其他颜色空间。在输入图像110是灰度图像的情况下,像素值表示亮度值或强度值。然而,输入图像110可以不限于上面描述的细节,并且输入图像110可以是三维(3D)图像。在这种情况下,每个像素还可以包括深度值。
62对象图像是对应于输入图像110的对象的图像。例如,对象图像可以是从输入图像110排除背景部分的图像。对象图像可以是只包括输入图像110的前景的前景图像120或仅包括掩模的掩模图像130。前景图像120是对应于前景的部分的每个像素都具有对应像素值的图像,掩模图像130是对应于前景的部分的像素和对应于不对应于前景的部分的像素被分类为不同值的图像。例如,不同值可以是二进制值。例如,对应于前景的部分的像素的像素值可以是1,对应于背景的部分的像素的像素值可以是0。
因此,根据至少一些示例实施例,在前景图像120中,对应于前景的部分的像素的像素值可以被保持为等于对应于输入图像110的前景的部分的像素的像素值。此外,根据至少一些示例实施例,在掩模图像130中,对应于前景的部分的像素的像素值和对应于背景的部分的像素的像素值可以被二值化。
以下,将详细描述从输入图像110提取对象图像。
图2是示出根据至少一个示例实施例的从图像分割对象的方法的示例的流程图。
参照图2,在操作210,对象分割设备的处理器接收包括对象的输入图像。例如,处理器可以从外部源以有线或无线的方式接收输入图像,或通过包括在对象分割设备的相机获得输入图像。
在操作220,对象分割设备的处理器使用基于接收对应于参考对象图像的参考训练图像作为图像模型的输入输出指示参考对象图像的输出图像而训练的图像模型生成对应于来自输入图像的对象的输出图像。输出图像的每个像素的像素值pi可以指示输入图像中的相应像素被包括在对象中的概率。例如,在输出图像用于识别掩模图像的掩模部分的情况下,输出图像的最小像素值和最大像素值可以分别为0和1。根据至少一个示例实施例,由于输出图像的像素的像素值接近1,因此对应于输出图像的像素的输入图像的像素被包括在对象中的概率增加,因此,对应于输出图像的像素的输入图像的像素对应于掩模图像的掩模部分的概率也增加。
图像模型是指被训练为基于输入生成期望输出的模型,并且指示机器学习结构中的参数。机器学习结构可以被表达为可以基于训练处理生成关于输入到函数的输入数据的一个或多个参数的预测、决定和/或分类作为输出数据的函数。例如,训练处理可以利用参考输入数据和对应参考输出数据的多个集合来实现。根据至少一个示例实施例,图像模型可以被配置为基于输入图像输出指示包括在输入图像中的对象的输出图像。根据至少一个示例实施例,图像模型可以被配置为基于输入图像输出这样的输出图像:基于该输出图像可以识别对应于对象的输入图像的部分。例如,图像模型可以包括连接加权作为神经网络的参数,并且被训练为允许基于对应参考训练(即,输入)图像输出参考对象图像。将参照图12和图13详细描述图像模型的训练。
在操作230,对象分割设备的处理器从输出图像提取对象图像。例如,处理器可以通过将输出图像的像素分类为包括对应于前景的像素类和不对应于前景的像素类中的多个类之一进行标记。将参照图6至图10详细描述通过像素的分类来提取对象图像。
图3至图5是示出根据至少一个示例实施例的使用图像模型从输入图像生成输出图像的处理的示例的示图。
如图3至图5所示的示例,描述了图像模型包括连接加权作为神经网络的参数的情况。对应于图3至图5中示出的图像模型的神经网络完成训练,并且可以被配置为针对第i像素具有像素值xi的输入图像输出第i像素具有像素值pi的输出图像。输入图像的第i像素可以对应于输出图像的第i像素。在此,“i”是具有等于或大于1的整数值的索引。
本文所使用的神经网络使用具有生物神经元的简化功能的人工神经元,人工神经元可以通过具有连接加权的连接线进行连接。作为神经网络的参数的连接加权是连接线所具有的值,并表示连接强度。神经网络可以通过人工神经元执行至少一定程度上类似于人的识别功能或训练处理的识别功能或训练处理。人造神经元也被称为节点。
神经网络包括多个层。例如,神经网络可以包括输入层、隐藏层和输出层。输入层可以接收用于执行训练的输入,并且将输入传送到隐藏层。输出层可以基于从隐藏层的节点接收的信号生成神经网络的输出。隐藏层可以被布置在输入层和输出层之间,并且将通过输入层传送的训练数据改变到预测值。包括在输入层和隐藏层中的节点可以通过具有连接加权的连接线进行连接,并且包括在隐含层和输出层中的节点可以通过具有连接加权的连接线进行连接。输入层、隐含层和输出层可以包括多个节点。
神经网络可以包括多个隐藏层。例如,包括多个隐藏层的神经网络可以被称为深层神经网络,训练深层神经网络被称为深层学习。包括在隐藏层的节点被称为隐藏节点。先前时间段的隐藏节点的输出可以连接到当前时间段的隐藏节点。当前时间段的隐藏节点的输出可以连接到随后时间段的隐藏节点。例如,具有不同时间段的隐藏节点之间的递归连接的神经网络可以被称为递归神经网络。
例如,隐蔽层可以包括卷积层、汇聚层、归一化层和完全连接层。卷积层可以用于执行卷积滤波,卷积滤波用于使用预设尺寸的滤波器对从先前层提取的信息进行滤波,并且在图3至图5中卷积层被示出为“C”。汇聚层可以通过汇聚从先前层的信息提取代表值。例如,汇聚层可以是处理器可以在针对先前层的信息预设尺寸的窗口通过滑动预定数量的格从其提取最大值的层。例如,先前层的信息可以是图像的像素值。在图3至图5中,汇聚层可以被示出为“P”。归一化层是指图像的像素的像素值被归一化的层,并且在图3至图5中被示出为“N”。完全连接层可以连接到先前层的所有节点,并且在图3至图5中被示出为“F”。
参照图3,神经网络包括输入层(未示出)、输出层(未示出)和六个隐藏层(即,第一层310至第六层360)。输入层接收输入图像301。在第一层310,“C1(64@5*5+S1)”表示卷积层,例如,具有64个滤波器,每个滤波器的尺寸是5*5,并且滤波器移动一个格。另外,在第一层310,“P(3*3+S2)”表示汇聚层在具有窗口尺寸3*3的情况下移动两个格,“N”表示归一化层。第二层320包括移动一个格的具有5*5尺寸的64个滤波器的卷积层、移动两个格的具有3*3窗口尺寸的汇聚层和归一化层。第三层330包括移动一个格的具有3*3尺寸的64个滤波器的卷积层。第四层340包括具有100个节点的完全连接层,第五层350包括具有400个节点的完全连接层。第六层360包括具有48*48个节点的完全连接层。在此,紧挨输出层的第六层360可以被配置为向输出层输出分辨率等于输入层的输入图像301的分辨率(即,在图3所示的示例中48*48)的图像。图3所示的神经网络可以被训练为基于输入图像301输出对应于掩模的输出图像309。
参照图4,神经网络包括输入层(未示出)、输出层(未示出)和八个隐藏层(即,第一层410至第八层480)。第一层410包括移动一个格的具有5*5尺寸的48个滤波器的卷积层、移动两个格的具有3*3窗口尺寸的汇聚层和归一化层。第二层420包括移动一个格的具有5*5尺寸的128个滤波器的卷积层、移动两个格的具有3*3窗口尺寸的汇聚层和归一化层。第三层430和第四层440中的每一个包括移动一个格的具有3*3尺寸的192个滤波器的卷积层。第五层450包括移动一个格的具有3*3尺寸的64个滤波器的卷积层和移动两个格的具有3*3窗口尺寸的汇聚层。第六层460和第七层470中的每一个包括具有1024个节点的完全连接层。第八层480包括具有112*112个节点的完全连接层。在第八层480,节点可以被配置为允许输入图像401的分辨率和输出图像409的分辨率彼此相等。例如,输入图像401和输出图像409的分辨率都是图4所示的示例中的112×112。
参照图5,神经网络包括多个层,例如,第一层510、第二层520、第三层530、第四层540、第五层550、第六层560、第七层570和第八层580,与图4所示的层的结构相同。图5所示的神经网络可以被训练为基于输入图像501输出对应于前景的输出图像509。根据神经网络训练处理中使用的训练数据,图3至图5所示的那些神经网络可以被训练为基于相同输入图像输出不同的输出图像。
图6是示出根据至少一个示例实施例的从输出图像提取对象图像的方法的流程图。
图6是详细示出参照图2描述的操作230的流程图。
参照图6,在操作610,对象分割设备的处理器基于输出图像的每个像素的属性对输出图像的像素进行分类。输出图像的像素的属性可以指示该像素是否对应于输出图像中的对象、对象的一部分、前景或背景。例如,输出图像的像素的属性可以指示该像素是输出图像中的前景还是背景。将参照图7详细描述像素的分类。
在操作620,对象分割设备的处理器使用分类的像素提取对象图像。例如,处理器可以通过收集分类到对象的像素生成对象图像。将参照图8至图10详细描述使用像素提取对象图像。
图7是示出根据至少一个示例实施例的基于输出图像的每个像素的属性对输出图像的像素进行分类的方法的流程图。
图7是详细示出参照图6描述的操作610的流程图。
参照图7,在操作710,对象分割设备的处理器将输出图像的每个像素的像素值与阈值进行比较。例如,处理器可以确定参照图2描述的操作220生成的输出图像的每个像素的像素值是否大于阈值。例如,在从输入图像分割掩模图像的情况下,例如,对应于掩模图像中的背景的像素的像素值可以是0,例如,对应于掩模的像素的像素值可以是1,因此阈值可以被设置为0.5。对于另一示例,在从输入图像分割前景图像的情况下,例如,对应于前景图像中的背景的像素的像素值可以是0,例如,像素的最大值可以是255,因此例如,阈值可以被设置为127。像素的最小值和最大值以及阈值可以不限于上述值,并且因此可基于设计进行修改。
在操作720,对象分割设备的处理器基于操作710的比较结果确定每个像素的属性。对象分割设备的处理器可以确定像素值大于阈值的像素具有前景属性或掩模属性。处理器可以确定像素值小于或等于阈值的像素具有背景属性。然而,属性的确定可以不限于上述内容,因此对象分割设备的处理器可以基于设计确定当对应于背景属性的值大于对应于前景属性的值时像素值大于阈值的像素具有背景属性。
例如,在掩模图像的分割中,当在操作220生成的输出图像的像素的像素值更接近1时,像素可以具有很高的对应于掩模图像的掩模部分的可能性。当在操作220生成的输出图像的像素的像素值相比于1更接近0时,像素可以具有很高的对应于背景的可能性。因此,在掩模图像的分割中,对象分割设备的处理器可以确定像素值大于阈值0.5的像素的属性是掩模属性,像素值小于或等于阈值0.5的像素的属性是背景属性。对于另一示例,在前景图像的分割中,当像素的像素值更接近0时,像素可以具有很高的对应于背景的可能性。当像素的像素值更接近255时,像素可以具有很高的对应于前景的可能性。因此,处理器可以基于阈值127确定每个像素的属性对应于前景还是背景。然而,每个像素的属性的确定可以不限于上述内容,因此对象分割设备的处理器可以确定每个像素的属性对应于对象还是对象的一部分。
图8和图9是示出根据至少一个示例实施例的使用分类的像素提取对象图像的方法的示例的流程图。
图8是详细示出参照图6描述的执行操作620的方法的示例的流程图。执行参照图8描述的方法的对象分割设备的存储器中存储的图像模型是被训练为从参考训练图像输出参考掩模图像的模型。参考掩模图像是被设置为从参考训练图像输出的掩模图像。
参照图8,在操作810,处理器通过基于确定的每个像素的属性将输出图像二值化(即,以二进制形式表示)生成掩模图像。例如,对象分割设备的处理器可以将参照图6描述的操作610中被确定为对应于掩模属性的像素的像素值设置为1,并且将在操作610被确定为对应于背景属性的像素的像素值设置为0,并且生成每个像素具有二进制值的掩模图像。然而,像素值的设置可以不限于上述内容,因此处理器可将对应于背景的像素值设置为1,将对应于掩模的像素值设置为0。此外,二进制值可以不限制在0和1,并且可以使用两个不同的实数。以下,1用于掩模属性,0用于背景属性。
在操作820,对象分割设备的处理器基于操作810生成的掩模图像和输入图像生成前景图像。例如,对象分割设备的处理器可以通过将掩模图像的像素的像素值和输入图像的相应像素的像素值相乘生成前景图像。由于对于掩模掩模图像具有像素值1,因此可以从输入图像去除不是掩模的部分,并且当将掩模图像的每个像素的像素值与输入图像中相应像素的像素值相乘时,可以仅保持掩模的像素值。
根据至少一个示例实施例,在从输入图像分割掩模图像的情况下,对象分割设备的处理器可以不执行操作820。在从输入图像分割前景图像的情况下,可以执行操作820。
图9是详细示出参照图6描述的执行操作620的方法的另一示例的流程图。执行参照图9描述的方法的对象分割设备的存储器中存储的图像模型是被训练为从参考训练图像输出参考前景图像的模型。参考前景图像表示被设置为从参考训练图像输出的前景图像。
参照图9,在操作910中,对象分割设备的处理器基于确定的每个像素的属性从输出图像生成前景图像。例如,对象分割设备的处理器可以通过保持对应于输出图像的前景的部分的像素的像素值并且初始化不对应于输出图像的前景的部分的像素的像素值(即,将不对应于前景的部分的像素值改变为0)生成前景图像。
图10是示出根据至少一个示例实施例的使用输出图像的像素提取对象图像的方法流的示图。
为了描述方便,图10示出在参照图2描述的操作230中生成掩模图像的操作810和生成前景图像的操作910和820的整体流程。在图10所示的流中,可以根据至少一个示例实施例执行操作810、操作910和操作820中的一个,但是不限于此。可以基于设计选择性地执行操作810、操作910和操作820。
参照图10,在参照图2描述的操作220中,处理器生成输出图像1010。输出图像1010的第i像素可以具有像素值pi。
在操作1020,处理器提取具有大于阈值τ的pi的像素。在此,为了描述值τ,参考参照图7描述的细节。如果像素值pi大于阈值τ,则处理器可以将第i像素指定为具有前景属性或掩模属性。
在操作810,如参照图8所描述的,对象分割设备的处理器通过收集被确定为具有掩模属性的像素生成掩模图像1030。
在操作910,如参照图9所描述的,对象分割设备的处理器通过收集被确定为具有前景属性的像素生成前景图像1040。
在操作820,如参照图8所描述的,对象分割设备的处理器通过收集被确定为具有掩模属性的像素生成掩模图像1030,并且使用掩模图像1030和输入图像1001生成前景图像1050。
图11是示出根据至少一个示例实施例的对象分割设备1100的配置的示图。
参照图11,对象分割设备1100包括处理器1110和存储器1120。
处理器1110可以接收包括对象的输入图像,使用图像模型从输入图像生成输出图像,并且从输出图像提取对象图像。参照图1至图10描述处理器1110的详细操作,因此为了简明,在此将省略更详细和重复的描述。
存储器1120可以存储被训练为从参考训练图像输出参考对象图像的图像模型。此外,存储器1120可以临时或永久存储图象处理的输入、中间结果和最终结果,例如,输入图像、输出图像和对象图像。
如本公开所使用的,例如,术语“处理器”可以是指具有物理上构造为执行包括例如被表示为包括在程序中的代码和/或指令的操作的期望操作的电路的硬件实现数据处理装置。上面提及的硬件实现数据处理装置的示例包括但不限于微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。执行程序代码的处理器是编程的处理器,因此,是专用计算机。
例如,根据至少一些示例实施例,处理器1110可以执行存储在存储器(例如,存储器1120)中的计算机可读代码(例如,软件),且包括使处理器1110执行和/或控制本文描述为由对象分割设备(或其元件)执行的操作的部分或全部的指令。
对象分割设备1100还可以包括相机(未示出)。相机可以捕获对象分割设备1100外部的区域的图像,以获得输入图像。对象分割设备1100还可以包括通信器(未示出)。通信器可以从外部源以有线或无线的方式接收输入图像。
对象分割设备1100可以基于代替像素单元的图像单元执行确定,以使用图像模型(例如,神经网络)从图像分割对象。例如,对象分割设备1100可以通过确定整个输入图像的每个像素的属性从图像分割对象,而不是确定对应于像素的块是前景还是背景。因此,可以减少分割的时间量以增加速度,并且可以提高准确度。对象分割设备1100可以作为移动设备(诸如智能电话)或作为固定设备(诸如个人计算机(PC))被提供,或以包括在例如移动电话或电视(TV)中的芯片的形式被提供。
图12是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的示例的示图。
参照图12,在操作1210,用于训练图像模型的设备的模型训练器(以下简称为图像模型训练设备)接收包括参考训练图像和参考对象图像的训练数据。参考训练图像是用作训练输入的图像,参考对象图像是对应于参考训练图像的期望的输出图像(即,响应于接收参考训练图像作为训练的图像模型的输入的训练的图像模型的期望输出)。训练数据可以包括参考训练图像和对应于参考训练图像的参考对象图像的训练对。
在操作1220,模型训练器通过对参考训练图像执行旋转、调整尺寸、移动、翻转和噪声添加中的至少一个扩充训练数据。对于一对参考训练图像和参考对象图像,模型训练器可以通过处理扩充将被映射到参考对象图像的参考训练图像,例如,所述处理可以包括对参考训练图像旋转、调整尺寸、添加噪声、移动和翻转中的任何或所有。
旋转表示以一定角度旋转参考训练图像的图像处理方法。例如,模型训练器可以以在±8°范围内选择的角度旋转参考训练图像。调整尺寸表示增加或减小参考训练图像的尺寸的图像处理方法。例如,模型训练器可以以在0.9倍和1.1倍之间选择的比例调整参考训练图像的尺寸。移动表示裁剪参考训练图像的图像处理方法。例如,模型训练器可以在参考训练图像的一个位置裁剪参考训练图像的一部分。翻转表示上下颠倒翻转参考训练图像或将参考训练图像从一侧翻转到另一侧的图像处理方法。例如,模型训练器可以以50%的概率翻转移动的参考训练图像。噪声添加表示将高斯噪声添加到参考训练图像的图像处理方法。例如,模型训练器可以针对参考训练图像的每个像素添加具有平均值0和偏差0.9的高斯噪声。
在操作1230,模型训练器基于扩充的训练数据训练图像模型。将参照图13详细描述模型训练器训练图像模型的操作。
图13是示出根据至少一个示例实施例的用于从图像分割对象的图像模型训练设备1300的配置的示图。
参照图13,图像模型训练设备1300包括模型训练器1310和训练数据存储器1320。模型训练器1310可以包括至少一个处理器,并且训练图像模型。模型训练器1310的处理器可以执行存储在存储器(例如,包括在模型训练设备1300中的存储器)中的计算机可读代码(例如,软件),并且包括使模型训练器1310的处理器执行和/或控制本文描述为由图像模型训练设备、模型训练器(或其元件)执行的操作的部分或全部的指令。例如,模型训练器1310可以从训练数据存储器1320接收参考训练图像1301和参考对象图像1309。接收的参考训练图像1301和参考对象图像1309可以包括在相同训练对中。训练数据存储器1320可以包括至少一个存储器,并且存储将用于训练图像模型的训练数据1325。训练数据1325可以包括至少一个训练对,所述训练对包括彼此映射的参考训练图像(例如,参考训练图像1301)和参考对象图像(例如,参考对象图像1309)。以下将描述训练的详细过程,并且将描述图像模型包括神经网络的参数的情况作为示例。
根据至少一个示例实施例,图像模型训练设备1300可以执行训练从图像分割对象的方法。例如,图像模型训练设备1300可以训练图像模型(例如,神经网络1311)的参数,以允许处理器(例如,图14所示的处理器1110)使用图像模型从参考训练图像1301分割参考对象图像1309。处理器(例如,处理器1110)使用的图像模型可以被配置为从包括对象的输入图像(例如,图14所示的输入图像1401)生成对应于对象的输出图像(例如,图14所示的输出图像1405)。例如,图像模型训练设备1300可以通过监督学习训练神经网络1311。监督学习是指向神经网络1311输入参考训练图像1301和对应于参考训练图像1301的参考对象图像1309,并且更新连接线的连接加权以输出对应于参考训练图像1301的参考对象图像1309的方法。例如,图像模型训练设备1300可以通过delta规则、误差反向传播学习等更新人工神经元之间的连接加权。
误差反向传播学习是指通过参考训练图像1301的正向计算估计误差,通过从输出层向后移动到隐藏层和输入层传播估计误差,并且更新连接加权来降低误差的方法。可以在从输入层到隐藏层然后到输出层的方向上执行神经网络1311的处理。在误差反向传播学习中,在输出层到隐藏层然后到输入层的方向上执行连接加权的更新。例如,随机梯度下降法可以用作误差反向传播学习。每一层中的初始连接加权可以基于平均值0和标准偏差0.01的高斯分布来确定。此外,卷积层和完全连接层的偏差可以被初始化为0。在从0.001开始之后,学习率可能会减小到0.0001。
图像模型训练设备1300可以定义测量当前设置的连接加权与期望或者可选择地最佳值有多接近的目标函数,基于目标函数的结果连续改变连接加权,并反复执行训练。例如,目标函数可以是神经网络1311的用于计算基于参考训练图像1301实际输出的值与期望输出的值之间的误差的误差函数。图像模型训练设备1300可以更新连接加权来减小误差函数的值。误差函数可以是L2范数的开平方,输出图像的第i个像素的误差Li可以被表示为等式1。
[等式1]
在等式1中,“mi”表示映射参考训练图像1301的参考对象图像1309的第i个像素的二进制值。“pi”表示从参考训练图像1301生成的输出图像的第i个像素的像素值,并且可以被表示为等式2。
[等式2]
Pi=g(f(xi))
在等式2中,“f(xi)”表示参考训练图像1301通过至少一个卷积滤波投影到特征空间的值,“g()”表示得出通过完全连接层处理的神经网络1311的最终结果的函数。
根据至少一个示例实施例,图像模型可以被配置为允许通过图像模型生成的对象图像或输出图像的分辨率等于输入到图像模型的对应输入图像的分辨率。此外,图像模型可以包括神经网络1311,神经网络1311的激活函数可以包括至少一个非线性函数,例如,S形神经元函数。此外,可以基于通过对参考训练图像1301执行旋转、调整尺寸、移动、翻转和噪声添加中的至少一个获得的图像训练图像模型。
图14是示出使用根据参照图13描述的处理训练的图像模型从输入图像生成的对象图像的示例的示图。
参照图14,在图14中示出,图像模型1121(其可以存储在对象分割设备1100的存储器1120中)是已通过参考图13描述的处理训练的图像模型。
对象分割设备1100的处理器1110可以使用图像模型1121基于输入图像1401生成输出图像1405。例如,输出图像1405的每个像素的像素值可以指示像素对应于掩模图像的掩模部分的概率。例如,如图14的输出图像1405所示,输出图像1405的对应于输入图像1401的非对象部分的一部分可以具有很低的对应于掩模图像的掩模部分的概率。如参照图10所描述,可以通过与阈值的比较来去除具有很低的对应于掩模图像的掩模部分的概率的像素。
图15是示出根据至少一个示例实施例的从图像分割对象的方法的另一示例的流程图。
参照图15,在操作1510,对象分割设备的处理器接收包括对象的输入图像。接收的输入图像可以与图1所示相同。
在操作1520,处理器使用第一图像模型生成对应于来自输入图像的对象的中间图像。第一图像模型可以被配置为与参照图2描述的图像模型相同,或者可选地与参照图2描述的图像模型类似,并且可以用于执行从输入图像分割对象图像的初始步骤。例如,第一图像模型可以被训练为从参考训练图像输出参考对象图像。将参照图17和图18详细描述第一图像模型的训练。中间图像是指处理器使用第一图像模型基于输入图像生成的中间结果。
在操作1530,处理器使用第二图像模型从中间图像生成对应于对象的输出图像。第二图像模型可以被配置为类似于参照图2描述的图像模型,并且可以用于执行从中间图像分割对象图像的附加步骤。例如,第二图像模型可以被训练为从参考中间图像输出参考对象图像,其是通过将第一图像模型应用到参考训练图像而获得的结果。将参照图17和图18详细描述第二图像模型的训练。针对图15,输出图像是指处理器使用第二图像模型基于中间图像生成的最终结果。
如上面参照图15所描述,根据至少一些示例实施例的对象分割设备的处理器可以首先使用第一图像模型从输入图像生成中间图像作为粗略结果,然后再使用第二图像模型基于中间图像生成输出图像作为精细结果。
在操作1540,处理器例如使用与上面参照图1至图10讨论的从输出图像提取对象图像的方法相同的方法从输出图像提取对象图像。
例如,图11所示的对象分割设备1100可以执行参照图15描述的方法,图11所示的存储器1120可以存储第一图像模型和第二图像模型。
图16是示出根据至少一个示例实施例的使用图像模型从输入图像生成输出图像的处理的另一示例的示图。
图16示出包括连接加权作为神经网络的参数的第一图像模型和第二图像模型的示例。在图16中,对应于第一图像模型的第一神经网络和对应于第二图像模型的第二神经网络可以完成训练。
参照图16,第一神经网络和第二神经网络中的每一个包括输入层(未示出)、输出层(未示出)和八个隐藏层。第一神经网络的输入层可以接收输入图像1601。第一神经网络的第一层1611至第八层1618可以具有与图4所示的结构相同的结构。在此,第一神经网络可以被训练为从输入图像1601输出对象图像。
第二神经网络的输入层可以接收中间图像1605。第二神经网络的第一层1621至第八层1628可以具有与图4所示的结构相同的结构。在此,第二神经网络可以被训练为从中间图像1605输出对象图像。第二神经网络可以输出对应于对象的输出图像1609。
尽管第一图像模型和第二图像模型的各自结构被示出为与图16中相同,但是结构不限于此,并且第一图像模型和第二图像模型的结构可以被配置为彼此不同。此外,尽管第一图像模型和第二图像模型被示出为图16的相同的神经网络类型,但是第一图像模型和第二模型可以被配置为不同的类型。此外,尽管第一图像模型和第二图像模型基于训练结果具有不同参数,但是第一图像模型和第二图像模型可以具有相同参数。
图17是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的另一示例的流程图。
参照图17,在操作1710,图像模型训练设备的模型训练器接收参考训练图像和参考对象图像。参考训练图像是用作训练输入的图像,并且可以用于训练第一图像模型。参考对象图像是针对参考训练图像输出的预设图像。相同的参考对象图像可以用于训练第一图像模型和第二图像的模式。训练数据可以包括训练对,所述训练对包括参考训练图像和将被映射到参考训练图像的参考对象图像。
在操作1720,图像模型训练设备训练第一图像模型的参数,以允许图像模型训练设备的处理器使用用于生成对应于来自包括对象的输入图像的对象的中间图像的第一图像模型从参考训练图像分割参考对象图像。例如,可以通过类似于参照图13描述的处理的处理执行第一图像模型的训练。
在操作1730,图像模型训练设备的处理器使用第一图像模型从参考训练图像生成参考中间图像。参考中间图像是生成以训练第二图像模型的图像,并且可以被映射到参考对象图像。
在操作1740,图像模型训练设备的处理器训练第二图像模型的参数,以允许处理器使用用于生成对应于来自中间图像的对象的输出图像的第二图像模型从参考中间图像分割参考对象图像。例如,可以通过与参照图13描述的处理相同或可选地类似的处理执行第二图像模型的训练。在此,第二图像模型可以被训练为从操作1730生成的参考中间图像分割参考对象图像。
如上所述,在完成操作1720执行的第一图像模型的训练之后,图像模型训练设备可以基于使用完成训练的第一图像模型生成的参考中间图像和基于参考对象图像训练操作1740的第二图像模型。然而,至少一些示例实施例不限于此。因此,尽管第一图像模型在操作1720被训练,但是图像模型训练设备可以使用在操作1730执行训练的第一图像模型生成参考中间图像,并且使用操作1740生成的参考中间图像训练第二图像模型。因此,可以同时执行,或者分开执行针对第一对象分割的第一图像模型的训练和针对第二对象分割的第二图像模型的训练。
图13所示的图像模型训练设备1300可以执行参照图17描述的方法。
图18是示出根据至少一个示例实施例的训练用于从图像分割对象的图像模型的方法的另一示例的示图。
参照图18,第一神经网络的第一层1811至第八层1818可以是与图16示出的第一神经网络的第一层1611至第八层1618的结构相同的结构。类似地,图18所示的第二神经网络的第一层1821至第八层1828可以是与图16示出的第二神经网络的第一层1621至第八层1628的结构相同的结构。
如图18所示,图像模型训练设备可以训练第一图像模型,例如,图18的第一神经网络,以最小化参考中间图像1804和从参考输入图像1801生成的参考对象图像1809之间的误差(即,差)(或者,可选地,将误差减少到阈值之下)。来自第一图像模型的结果可以是粗略的。类似地,图像模型训练设备可以训练第二图像模型,例如,第二神经网络,以最小化输出图像1805和从参考中间图像1804输出的参考对象图像1809之间的误差。作为来自第二图像模型的结果的输出图像1805可以比来自第一图像模型的结果更精细。
使用通过两个步骤训练的第一图像模型和第二图像模式,对象分割设备可以更加准确地从输入图像分割对象图像。
可以使用硬件组件和软件组件实现本文所描述的单元和/或模块。例如,硬件组件可以包括麦克风、放大器、带通滤波器、音频数字转换器和处理装置。可以通过执行算术、逻辑和输入/输出操作使用被配置为实现和/或执行程序代码的一个或多个硬件装置来实现处理装置。处理装置可以包括处理器、控制器和算术逻辑单、数字信号处理器、微型计算机、现场可编程阵列、可编程逻辑单元、微处理器或能够以限定的方式响应和执行指令的任何其它装置。处理设备可以运行操作系统(OS)和在OS上运行的一个或多个软件应用。处理装置也可以响应于软件的执行访问、存储、操纵、处理和创建数据。为了简明,处理装置被描述为单数;然而,本领域的技术人员将理解,处理装置可包括多个处理元件和多个类型的处理元件。例如,处理装置可以包括多个处理器或处理器和控制器。此外,不同的处理配置是可行的,诸如并行处理器。
软件可以包括计算机程序、一段代码、指令或其一些组合,以独立地或共同地指示和/或配置处理装置根据需要操作,从而将处理装置转换成专用处理器。软件和数据可以以任何类型的机器、组件、物理或虚拟设备、计算机存储介质或装置以及以指令或数据能够提供给处理装置或由处理装置解释的传播信号波的方式被永久或暂时地实现。软件也可以在网络连接的计算机系统上分布,使得软件以分布方式被存储和执行。软件和数据可以由一个或多个非临时性计算机可读记录介质进行存储。
根据上述示例实施例的方法可被记录在包括实现上述示例实施例的各种操作的程序指令的非暂时性计算机可读介质中。介质还可以包括单独或组合的程序指令、数据文件、数据结构等。可以为示例实施例的目的专门设计或构建记录在介质上的程序指令。非暂时性计算机可读介质的示例包括磁介质(诸如硬盘、软盘和磁带);光学介质(诸如CD-ROM光盘、DVD光盘和/或蓝光光盘);磁光介质(诸如光盘)以及专门配置为存储和执行程序指令的硬件设备(诸如只读存储器(ROM)、随机存取存储器(RAM)、闪速存储器(例如,USB闪存驱动器、存储卡、记忆棒等)等)。程序指令的示例包括诸如由编译器产生的机器代码和包含计算机使用解释器可以执行的更高级代码的文件两者。上述装置可以被配置以用作一个或多个软件模块执行上述示例实施例的操作,反之亦然。
已经描述了本发明构思的示例实施例,明显的是,可以以多种方式改变本发明构思的示例实施例。这种改变被认为不脱离本发明构思的示例实施例的预期精神和范围,并且对本领域的普通技术人员明显的所有这种修改意在包括在所附权利要求的范围内。
Claims (25)
1.一种从图像分割对象的方法,所述方法包括:
接收包括对象的输入图像;
使用图像模型从输入图像生成对应于对象的输出图像;以及
从输出图像提取对象图像。
2.如权利要求1所述的方法,其中,提取对象图像的步骤包括:
基于输出图像的每个像素的属性对输出图像的第一多个像素进行分类;以及
使用分类的像素提取对象图像。
3.如权利要求2所述的方法,其中,分类的步骤包括:
将第一多个像素之中的每个像素的像素值与阈值进行比较;以及
基于比较结果确定第一多个像素之中的每个像素的属性。
4.如权利要求1所述的方法,其中,提取对象图像的步骤包括:
通过基于输出图像的每个像素的像素值与阈值的比较结果确定输出图像的每个像素的多个二进制值之一,来生成掩模图像。
5.如权利要求4所述的方法,其中,提取对象图像的步骤还包括:
基于掩模图像和输入图像生成前景图像。
6.如权利要求1所述的方法,其中,提取对象图像的步骤包括:
通过将输出图像的每个像素的像素值与阈值进行比较,基于输出图像生成前景图像。
7.如权利要求1所述的方法,其中,生成输出图像的步骤包括:使用图像模型生成对象图像,使得对象图像具有与输入图像的分辨率相等的分辨率。
8.如权利要求1所述的方法,其中,
图像模型包括神经网络,
神经网络包括激活函数,以及
激活函数包括至少一个非线性函数。
9.一种从图像分割对象的设备,所述设备包括:
存储器,存储图像模型和计算机可读指令;以及
一个或多个处理器,被配置为:执行指令,使得所述一个或多个处理器被配置为接收包括对象的输入图像,使用图像模型从输入图像生成对应于对象的输出图像,并且从输出图像提取对象图像。
10.如权利要求9所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为基于输出图像的每个像素的属性对输出图像的第一多个像素进行分类,并且使用分类的像素提取对象图像。
11.如权利要求10所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为将第一多个像素之中的每个像素的像素值与阈值进行比较,并且基于比较结果确定第一多个像素之中的每个像素的属性。
12.如权利要求9所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为通过基于输出图像的每个像素的像素值与阈值的比较结果确定输出图像的每个像素的多个二进制值之一,来生成掩模图像。
13.如权利要求12所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为基于掩模图像和输入图像生成前景图像。
14.如权利要求9所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为通过将输出图像的每个像素的像素值与阈值进行比较,基于输出图像生成前景图像。
15.如权利要求9所述的设备,其中,所述一个或多个处理器还被配置为执行指令,使得所述一个或多个处理器被配置为通过使用图像模型生成输出图像以生成对象图像,使得对象图像具有与输入图像的分辨率相等的分辨率。
16.如权利要求9所述的设备,其中,
图像模型包括神经网络,
神经网络包括激活函数,以及
激活函数包括至少一个非线性函数。
17.一种训练用于从图像分割对象的图像模型的方法,所述方法包括:
接收参考训练图像和参考对象图像,参考训练图像对应于参考对象图像,参考训练图像包括背景和对象;以及
训练图像模型的参数,使得图像模型基于接收参考训练图像作为图像模型的输入来输出指示参考对象图像的输出图像,
参考对象图像是从参考训练图像分割对象得到的图像。
18.如权利要求17所述的方法,其中,
图像模型包括神经网络,神经网络包括激活函数,激活函数包括至少一个非线性函数,以及
神经网络被配置为生成输出图像,使得输出图像的分辨率等于输入图像的分辨率。
19.如权利要求17所述的方法,其中,基于通过对参考训练图像执行旋转、调整尺寸、移动、翻转和噪声添加中的至少一个获得的图像训练图像模型。
20.一种从图像分割对象的方法,包括:
接收包括对象的输入图像;
使用第一图像模型从输入图像生成对应于对象的中间图像;
使用第二图像模型从中间图像生成对应于对象的输出图像;以及
从输出图像提取对象图像。
21.一种训练用于从图像分割对象的图像模型的方法,所述方法包括:
接收参考训练图像和参考对象图像,参考训练图像对应于参考对象图像,参考训练图像包括背景和对象;以及
训练第一图像模型的参数,使得第一图像模型允许使用第一图像的处理器生成对应于参考训练图像中包括的对象的中间图像;
使用第一图像模式从参考训练图像生成参考中间图像;以及
训练第二图像模型的参数,使得第二图像模型基于接收参考中间图像作为第二图像模型的输入来输出指示参考对象图像的输出图像,
参考对象图像是从参考训练图像分割对象得到的图像。
22.一种从图像分割对象的方法,包括:
接收包括背景和对象的输入图像;
提供输入图像作为图像模型的输入;
获得输出图像作为图像模型的对应于输入图像的输出,使得输出图像中的每个像素具有指示输入图像中的相应像素是对象的像素的概率的像素值;以及
基于输出图像生成对象图像,对象图像是包括对象且排除背景的图像。
23.如权利要求22所述的方法,其中,基于输出图像生成对象图像的步骤包括:
通过将输出图像的第一多个像素的像素值与阈值进行比较生成针对第一多个像素的多个比较结果;
基于所述多个比较结果确定输出图像的对应于背景的部分和输出图像的对应于对象的部分;以及
基于所述确定来生成对象图像的第二多个像素。
24.如权利要求23所述的方法,其中,对象图像是掩模图像且生成第二多个像素的步骤包括:
生成第二多个像素,使得第二多个像素中的每个像素具有第一像素值或第二像素值,第一像素值对应于背景,第二像素值对应于对象。
25.如权利要求23所述的方法,其中,对象图像是前景图像且生成第二多个像素的步骤包括:
生成第二多个像素,使得
第二多个像素之中的对应于背景的每个像素具有第一像素值,以及
第二多个像素之中的对应于对象的每个像素具有与输入图像的像素之中的相应像素相同的像素值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2015-0137782 | 2015-09-30 | ||
KR20150137782 | 2015-09-30 | ||
KR1020160022517A KR102338372B1 (ko) | 2015-09-30 | 2016-02-25 | 영상으로부터 객체를 분할하는 방법 및 장치 |
KR10-2016-0022517 | 2016-02-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106557776A true CN106557776A (zh) | 2017-04-05 |
Family
ID=58406379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610633375.0A Pending CN106557776A (zh) | 2015-09-30 | 2016-08-04 | 从图像分割对象的设备和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10540768B2 (zh) |
CN (1) | CN106557776A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492071A (zh) * | 2017-08-17 | 2017-12-19 | 京东方科技集团股份有限公司 | 医学图像处理方法及设备 |
CN110809784A (zh) * | 2017-09-27 | 2020-02-18 | 谷歌有限责任公司 | 高分辨率图像分割的端到端网络模型 |
CN112702522A (zh) * | 2020-12-25 | 2021-04-23 | 李灯 | 一种基于vr直播系统的自适应控制播放方法 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102161052B1 (ko) * | 2013-08-27 | 2020-09-29 | 삼성전자주식회사 | 영상에서 객체를 분리하는 방법 및 장치. |
US9875429B2 (en) | 2015-10-06 | 2018-01-23 | Adobe Systems Incorporated | Font attributes for font recognition and similarity |
US10074042B2 (en) * | 2015-10-06 | 2018-09-11 | Adobe Systems Incorporated | Font recognition using text localization |
CN107025369B (zh) * | 2016-08-03 | 2020-03-10 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
US10007868B2 (en) | 2016-09-19 | 2018-06-26 | Adobe Systems Incorporated | Font replacement based on visual similarity |
US10249044B2 (en) * | 2016-12-30 | 2019-04-02 | Facebook, Inc. | Image segmentation with touch interaction |
WO2018128741A1 (en) | 2017-01-06 | 2018-07-12 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
US11301752B2 (en) * | 2017-10-24 | 2022-04-12 | International Business Machines Corporation | Memory configuration for implementing a neural network |
WO2019083509A1 (en) * | 2017-10-24 | 2019-05-02 | Hewlett-Packard Development Company, L.P. | PEOPLE SEGMENTATIONS FOR BACKGROUND REPLACEMENTS |
CN107945282B (zh) * | 2017-12-05 | 2021-01-29 | 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) | 基于对抗网络的快速多视角三维合成和展示方法及装置 |
JP7094702B2 (ja) * | 2018-01-12 | 2022-07-04 | キヤノン株式会社 | 画像処理装置及びその方法、プログラム |
KR102577472B1 (ko) | 2018-03-20 | 2023-09-12 | 한국전자통신연구원 | 동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치 |
CN108875904A (zh) * | 2018-04-04 | 2018-11-23 | 北京迈格威科技有限公司 | 图像处理方法、图像处理装置和计算机可读存储介质 |
WO2019207524A1 (en) * | 2018-04-25 | 2019-10-31 | Seesure | Single image completion from retrieved image collections |
EP3567548B1 (en) * | 2018-05-09 | 2020-06-24 | Siemens Healthcare GmbH | Medical image segmentation |
US10991150B2 (en) * | 2018-05-09 | 2021-04-27 | Massachusetts Institute Of Technology | View generation from a single image using fully convolutional neural networks |
US10902587B2 (en) * | 2018-05-31 | 2021-01-26 | GE Precision Healthcare LLC | Methods and systems for labeling whole spine image using deep neural network |
KR20200003444A (ko) * | 2018-07-02 | 2020-01-10 | 삼성전자주식회사 | 영상 모델 구축 장치 및 방법 |
KR20200029785A (ko) | 2018-09-11 | 2020-03-19 | 삼성전자주식회사 | 증강 현실에서 가상 객체를 표시하기 위한 측위 방법 및 장치 |
JP6949795B2 (ja) * | 2018-09-25 | 2021-10-13 | 富士フイルム株式会社 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
US10769478B2 (en) * | 2018-11-21 | 2020-09-08 | Vivotek Inc. | Convolutional neutral network identification efficiency increasing method and related convolutional neutral network identification efficiency increasing device |
CN111489359B (zh) * | 2019-01-25 | 2023-05-30 | 银河水滴科技(北京)有限公司 | 一种图像分割方法及装置 |
US11062459B2 (en) * | 2019-02-07 | 2021-07-13 | Vysioneer INC. | Method and apparatus for automated target and tissue segmentation using multi-modal imaging and ensemble machine learning models |
US10950017B2 (en) | 2019-07-08 | 2021-03-16 | Adobe Inc. | Glyph weight modification |
US11295181B2 (en) | 2019-10-17 | 2022-04-05 | Adobe Inc. | Preserving document design using font synthesis |
US11348246B2 (en) * | 2019-11-11 | 2022-05-31 | Adobe Inc. | Segmenting objects in vector graphics images |
CN114731455A (zh) | 2019-11-20 | 2022-07-08 | 三星电子株式会社 | 使用与图像质量相关的ai元数据的设备和方法 |
WO2021251614A1 (en) | 2020-06-12 | 2021-12-16 | Samsung Electronics Co., Ltd. | Image processing apparatus and method of operating the same |
KR20220029310A (ko) | 2020-08-31 | 2022-03-08 | 삼성전자주식회사 | 이미지 센서, 이미지 센서를 포함하는 이미지 획득 장치 및 그것의 동작 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679696A (zh) * | 2012-08-30 | 2014-03-26 | 三星泰科威株式会社 | 基于图像金字塔的自适应图像处理设备和方法 |
CN104732509A (zh) * | 2013-12-18 | 2015-06-24 | 北京三星通信技术研究有限公司 | 自适应图像分割方法和设备 |
US20150262039A1 (en) * | 2014-03-13 | 2015-09-17 | Omron Corporation | Image processing apparatus and image processing method |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0774730B1 (en) * | 1995-11-01 | 2005-08-24 | Canon Kabushiki Kaisha | Object extraction method, and image sensing apparatus using the method |
US6208693B1 (en) * | 1997-02-14 | 2001-03-27 | At&T Corp | Chroma-key for efficient and low complexity shape representation of coded arbitrary video objects |
US7128270B2 (en) * | 1999-09-17 | 2006-10-31 | Silverbrook Research Pty Ltd | Scanning device for coded data |
GB2397423B (en) * | 2001-09-17 | 2005-06-01 | Ca Minister Agriculture & Food | A method and apparatus for identifying and quantifying characteristics of seeds and other small objects |
JP4744918B2 (ja) * | 2005-04-19 | 2011-08-10 | 富士フイルム株式会社 | 顔検出方法および装置並びにプログラム |
JP4845755B2 (ja) | 2007-01-30 | 2011-12-28 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
US8345984B2 (en) | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US8582807B2 (en) | 2010-03-15 | 2013-11-12 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
JP5671928B2 (ja) * | 2010-10-12 | 2015-02-18 | ソニー株式会社 | 学習装置、学習方法、識別装置、識別方法、およびプログラム |
JP5153857B2 (ja) * | 2010-11-25 | 2013-02-27 | シャープ株式会社 | 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体 |
JP5555193B2 (ja) * | 2011-03-01 | 2014-07-23 | 株式会社メガチップス | データ処理装置、データ処理システム、及びプログラム |
JP5724544B2 (ja) * | 2011-03-31 | 2015-05-27 | ソニー株式会社 | 画像処理装置、画像処理方法及びプログラム |
US8705853B2 (en) * | 2012-04-20 | 2014-04-22 | Apple Inc. | Detecting skin tone |
US8953843B1 (en) * | 2012-07-17 | 2015-02-10 | Google Inc. | Selecting objects in a sequence of images |
US9202144B2 (en) | 2013-10-30 | 2015-12-01 | Nec Laboratories America, Inc. | Regionlets with shift invariant neural patterns for object detection |
US9400925B2 (en) | 2013-11-15 | 2016-07-26 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
IN2013CH05374A (zh) | 2013-11-21 | 2015-05-29 | Nokia Corp | |
US9323991B2 (en) * | 2013-11-26 | 2016-04-26 | Xerox Corporation | Method and system for video-based vehicle tracking adaptable to traffic conditions |
CN105960657B (zh) * | 2014-06-17 | 2019-08-30 | 北京旷视科技有限公司 | 使用卷积神经网络的面部超分辨率 |
FR3025344B1 (fr) * | 2014-08-28 | 2017-11-24 | Commissariat Energie Atomique | Reseau de neurones convolutionnels |
CN104517122A (zh) | 2014-12-12 | 2015-04-15 | 浙江大学 | 一种基于优化卷积架构的图像目标识别方法 |
US10489691B2 (en) * | 2016-01-15 | 2019-11-26 | Ford Global Technologies, Llc | Fixation generation for machine learning |
-
2016
- 2016-07-22 US US15/217,141 patent/US10540768B2/en active Active
- 2016-08-04 CN CN201610633375.0A patent/CN106557776A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679696A (zh) * | 2012-08-30 | 2014-03-26 | 三星泰科威株式会社 | 基于图像金字塔的自适应图像处理设备和方法 |
CN104732509A (zh) * | 2013-12-18 | 2015-06-24 | 北京三星通信技术研究有限公司 | 自适应图像分割方法和设备 |
US20150262039A1 (en) * | 2014-03-13 | 2015-09-17 | Omron Corporation | Image processing apparatus and image processing method |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492071A (zh) * | 2017-08-17 | 2017-12-19 | 京东方科技集团股份有限公司 | 医学图像处理方法及设备 |
CN107492071B (zh) * | 2017-08-17 | 2021-04-27 | 京东方科技集团股份有限公司 | 医学图像处理方法及设备 |
CN110809784A (zh) * | 2017-09-27 | 2020-02-18 | 谷歌有限责任公司 | 高分辨率图像分割的端到端网络模型 |
US10860919B2 (en) | 2017-09-27 | 2020-12-08 | Google Llc | End to end network model for high resolution image segmentation |
CN110809784B (zh) * | 2017-09-27 | 2021-04-20 | 谷歌有限责任公司 | 高分辨率图像分割的端到端网络模型 |
US11792553B2 (en) | 2017-09-27 | 2023-10-17 | Google Llc | End to end network model for high resolution image segmentation |
CN112702522A (zh) * | 2020-12-25 | 2021-04-23 | 李灯 | 一种基于vr直播系统的自适应控制播放方法 |
CN112702522B (zh) * | 2020-12-25 | 2022-07-12 | 李灯 | 一种基于vr直播系统的自适应控制播放方法 |
Also Published As
Publication number | Publication date |
---|---|
US20170091951A1 (en) | 2017-03-30 |
US10540768B2 (en) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106557776A (zh) | 从图像分割对象的设备和方法 | |
CN104866868B (zh) | 基于深度神经网络的金属币识别方法和装置 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
US10740651B2 (en) | Methods of systems of generating virtual multi-dimensional models using image analysis | |
CN108830199A (zh) | 识别交通灯信号的方法、装置、可读介质及电子设备 | |
Neal et al. | Measuring shape | |
CN110378381A (zh) | 物体检测方法、装置和计算机存储介质 | |
CN108121995A (zh) | 用于识别对象的方法和设备 | |
CN108319953A (zh) | 目标对象的遮挡检测方法及装置、电子设备及存储介质 | |
US11443514B2 (en) | Recognizing minutes-long activities in videos | |
KR20180037192A (ko) | 미지의 클래스들의 검출 및 미지의 클래스들에 대한 분류기들의 초기화 | |
CN105631398A (zh) | 识别对象的方法和设备以及训练识别器的方法和设备 | |
KR20170140228A (ko) | 바이어스 항을 통한 딥 신경망들에서의 톱-다운 정보의 병합 | |
CN112668366B (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN109117773A (zh) | 一种图像特征点检测方法、终端设备及存储介质 | |
CN109003297A (zh) | 一种单目深度估计方法、装置、终端和存储介质 | |
EP3872761A2 (en) | Analysing objects in a set of frames | |
CN113841162A (zh) | 深度神经网络中的深度优先卷积 | |
Tabernik et al. | Towards deep compositional networks | |
WO2015010164A1 (en) | Enhancing vision for a vision impaired user | |
CN111091055A (zh) | 脸型识别方法、装置、设备及计算机可读存储介质 | |
CN110110750A (zh) | 一种原始图片的分类方法及装置 | |
CN116030181A (zh) | 3d虚拟形象生成方法与装置 | |
WO2021094463A1 (en) | An imaging sensor, an image processing device and an image processing method | |
NANCY et al. | SKIN LESION SEGMENTATION AND CLASSIFICATION USING FCN-ALEXNET FRAMEWORK |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |