CN110046701A - 在连接网络中处理和生成图像数据的方法 - Google Patents
在连接网络中处理和生成图像数据的方法 Download PDFInfo
- Publication number
- CN110046701A CN110046701A CN201811530915.8A CN201811530915A CN110046701A CN 110046701 A CN110046701 A CN 110046701A CN 201811530915 A CN201811530915 A CN 201811530915A CN 110046701 A CN110046701 A CN 110046701A
- Authority
- CN
- China
- Prior art keywords
- unit
- picture element
- input picture
- processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims 1
- 238000003384 imaging method Methods 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Neurology (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种在包括多个单元的连接网络中处理图像数据的方法,其中,该方法实现了形成多个单元中的一个单元的多通道单元,并且其中,该方法包括:在数据输入端处接收表示借助多通道图像传感器获取的图像的多个输入图片元素,其中,所述多个输入图片元素包括第一输入图片元素部分和至少第二输入图片元素部分,其中,第一输入图片元素部分表示图像传感器的第一通道,而第二输入图片元素部分表示图像传感器的第二通道;将第一输入图片元素部分和至少第二输入图片元素部分彼此分开进行处理;以及在数据输出端处输出处理后的第一输入图片元素部分和第二输入图片元素部分。
Description
技术领域
本发明涉及在连接网络(connectionist network)尤其是神经网络中处理和生成图像数据的方法,该连接网络包括多个单元,各单元具有数据输入端、数据输出端和至少一个处理参数,其中,借助多个单元中的一个单元对输入数据进行的处理至少部分由该单独的单元的至少一个处理参数来确定。
背景技术
连接网络在机器学习领域中是已知的,其通常涉及某种算法训练,在该算法训练期间,基于训练数据得到处理参数的合适值。通常,可以采用如本文所描述的连接网络进行受监督和无监督的机器学习,包括它们的组合,即半监督式机器学习。然而,术语“连接网络”应该被广义地理解并且也涵盖本身并不被称为由机器学习训练的模型的那些模型。
连接网络是数学上受启发的模型,其由互连的处理单元组成,其中,给定单元可具有来自许多其它单元的输入连接或至许多其它单元的输出连接。因此,各单元具有至少一个数据输入端和至少一个数据输出端。多个单元可以布置在后续层中并且彼此互连,如从人工神经网络设计中公知的那样。给定网络的多个单元可以具有相同或不同的结构。有时采用单元组,其中,给定组中的单元具有会因组而异的公共预定结构。应理解,给定单元可以被配置成执行由多个处理参数确定的许多处理步骤。这可能涉及借助线性或非线性函数对数据进行多种不同变换,这些线性或非线性函数在神经网络设计的背景下有时被称为激活函数。如本领域技术人员所理解的,连接网络优选被实现为软件,这意味着本文所描述的网络结构不表示硬件结构,而是表示用电子方式实现的方法,即,由计算机实现的方法。
通常,连接网络可用于需要进行某种数据处理的各种应用。一种应用是图像分类,图像分类可以涉及将图像的内容或其部分分类到多个预定义的语义上有意义的组中的至少一个中。也就是说,借助模拟或数字图像传感器获取的图像数据被变换成表示内容或对象类的离散变量。例如,在交通环境中,分类器可以将对象分类到“车辆”、“行人”和“未知”组中的一个中。另一个分类器可以仅针对交通标志,根据交通标志的对应语义含义对交通标志进行分类(交通标志识别)。
在以上应用的背景下关于连接网络的一个问题是它们的鲁棒性,即,将可靠性高的给定图像分类到正确的类中。结果表明,即使在只使用对象的选择(即,交通标志)时,也难以应对待分类的数据材料的复杂性。如果考虑到例如在车辆一年间的正常操作期间将在许多不同条件(例如,夜间和白天)下对交通标志进行成像,那么该问题尤为致命。这就是说,由于照明变化、部分遮挡、旋转以及天气条件而导致的较大视觉外观变化难以应对。另外,必须要注意,通常将会在车辆中使用多通道图像传感器来从车辆附近获取图像。因此,仅仅为了对单个图像进行分类就需要处理过多的图片元素。
原则上,即使是非常复杂的分类任务,也可以用连接网络来解决。然而,随着分类任务变得更加复杂,通常还需要增加模型复杂性。这造成网络有过拟合的风险,即,经训练的网络对于获得关于给定的一组训练数据的良好的模型性能是有帮助的,但是会严重劣化关于未知测试数据的模型性能。这尤其在诸如交通标志检测和识别的安全性关键应用中需要被避免,在这些安全性关键应用中,驾驶员依赖于识别结果或者车辆的驾驶行为根据识别结果而进行自动调整。
为了实现改进的连接网络,最近研究了生成对抗网络(GAN)。这些网络通常由两个主要模型(合成图像数据的生成器以及将合成图像数据分类到两个组(即“真实”或“合成”)中的鉴别器)构成。换句话讲,鉴别器必须决定输入图像是否表示真实图像(即,借助图像传感器从真实对象拍得的)或者输入图像是否表示来自生成器的合成图像。通常,生成器和鉴别器被一起训练,其中,必须寻求两个相冲突的目标的平衡。这些相冲突的目标是生成器模仿真实图像的目标以及鉴别器可靠地对输入图像进行正确分类的目标。在训练期间,在数学意义上,在生成器与鉴别器之间存在争斗,因为生成器不断地试图改进以愚弄(fooling)鉴别器,其中,鉴别器试图改进而不被生成器愚弄。虽然以这种方式结合生成器训练的鉴别器应该更可靠,但是结果表明所得到的性能仍然不令人满意。同时,通过经训练的生成器合成的图像仍然与真实样本图像有显著的可见差异。这阻碍了应用生成器合成大量可用于训练其它分类器的训练数据的可能性。
发明内容
本发明的目标问题是提供在连接网络中处理和生成图像数据的改进方法。
通过权利要求1和9的方法来解决目标问题。
权利要求1的方法涉及在包括如以上提到的多个单元的连接网络(尤其是神经网络)中处理图像数据的情况,其中各单元具有数据输入端、数据输出端和至少一个处理参数,其中,借助多个单元中的一个单元对输入数据进行的处理至少部分由该单独的单元的至少一个处理参数来确定。该方法实现了形成多个单元中的一个单元的多通道单元,并且其中,该方法包括以下步骤:在数据输入端处接收表示借助多通道图像传感器获取的图像的多个输入图片元素,其中,所述多个输入图片元素包括第一输入图片元素部分和至少第二输入图片元素部分,其中,第一输入图片元素部分表示图像传感器的第一通道而第二输入图片元素部分表示图像传感器的第二通道;将第一输入图片元素部分和至少第二输入图片元素部分彼此分开处理;以及在数据输出端处输出处理后的第一输入图片元素部分和第二输入图片元素部分。
已发现,针对每个通道单独处理输入图片元素使网络性能显著改进,即,网络能够依据所期望的网络任务(例如,对输入数据进行分类)以提高的精度来处理输入数据。也就是说,输入图片元素被分成与已用其获取输入图片元素的图像传感器的通道数量相对应的多个组。这种图片元素的分割利用预定义的一组参数来执行,这些参数描述了预定义的拓扑,即,图像传感器的传感器元件的模式。例如,图像传感器可以是拜耳(RGB)传感器(红色、绿色和蓝色通道)或Foveon X3传感器。另一个示例是可有利地应用于汽车应用中的所谓的红色-无色-无色-无色(RCCC:Red-Clear-Clear-Clear)传感器。该传感器类型包括数量是红色通道传感器元件数量的三倍的多个灰色通道传感器元件。由于不同的颜色通道和不相等的分辨率,导致每个通道的图片元素的所得矩阵将通常例如由于不同的频谱而具有相当不同的纹理。将这些图片元素组彼此分开处理,使得与一次处理两组图片元素的情况(例如,当在其中一组图片元素被缩放到另一组的三维矩阵中组合时)相比,能够更加适当地进行处理。
在从属权利要求、说明书和附图中给出了根据权利要求1的方法的有利实施方式。
根据一个实施方式,该方法还包括组合处理后的第一输入图片元素部分和第二输入图片元素部分(即,输出图片元素),其中,输出组合后的第一输入图片元素部分和第二输入图片元素部分,代替处理后的第一输入图片元素部分和第二输入图片元素部分。以这种方式,多通道单元可以被集成到具有单通道结构的连接网络中,即,输出的数据可以被供给到连接网络的后续单元的单个数据输入端。为了实现这一点,处理后的第一输入图片元素部分和第二输入图片元素部分可以相连,以形成三维矩阵。例如,第一部分和第二部分的处理后的形式可以是具有与三维中连接的尺寸相同的尺寸的二维矩阵。
视情况而定,第一输入图片元素部分和第二输入图片元素部分可分别由数量不等的图片元素组成(如在RCCC传感器的情况下),并且其中,处理后的第一输入图片元素部分和第二输入图片元素部分可由数量相等的图片元素组成。也就是说,可以利用一个单独的处理参数集来处理输入图片元素的每个部分,该处理参数集被配置成确保数量相等的输出图片元素。以这种方式,不需要进行图片元素的后续插值。可以人工地在超参数的意义上预定义或者可以在训练连接网络期间对各处理参数集进行评估,如下面将进一步说明的。
输入图片元素不一定是来自图像传感器的原始数据。输入图片元素也可以被预处理。例如,与RCCC传感器的灰色通道相对应的第一图片元素部分可以被内插图片元素平滑或补充,使得实现第一部分的所期望的尺寸。
在优选实施方式中,至少借助多个单元中形成多通道单元的第一子单元的专用第一单元来执行对第一输入图片元素部分的处理,并且其中,至少借助多个单元中形成多通道单元的第二子单元的专用第二单元来执行对至少第二输入图片元素部分的处理。换句话讲,对第一输入图片元素部分和第二输入图片元素部分的处理由连接网络的单元来执行,即,多通道单元可由网络的两个单元形成。因此,用于确定(子)单元的处理行为的处理参数可以被学习,即,在完整网络的训练过程内被训练并且不是必须或甚至不应该被人工设置。处理参数可以至少部分地由滤波器的权重形成。优选地,这些权重不被两个子单元“共享”。因此,针对多通道单元,分割连接网络的后续单元之间的权重共享的构思。这使得能够显著改进网络性能,而不必(显着地)增加模型复杂性。优选地,对于每个通道,只使用一个子单元。然而,在某些情况下,针对每个通道使用多个后续子单元可以是有利的。
根据优选实施方式,多通道单元的第一子单元和第二子单元分别由第一卷积单元和第二卷积单元形成,其中,第一卷积单元和第二卷积单元各自实现相应卷积单元所接收到的多个输入图片元素中的至少一部分与核滤波器的卷积。已发现使用核滤波器在所提出的多通道方法的背景下是非常有效的。核滤波器可以是尺寸比输入数据小并且以涉及计算标量积的滑动窗口的方式形成与输入数据卷积的滤波掩膜的矩阵,如本领域的技术人员熟知的。核滤波器优选地由至少一个处理参数确定,该处理参数可以是在网络训练期间评估的核滤波器的权重。核滤波器可以具有减少处理的计算负荷的额外优点。优选地,网络的所有单元都是卷积单元。
根据另一实施方式,对第一卷积单元和第二卷积单元所接收到的多个输入图片元素进行的处理包括基于对相应卷积的结果的组合的统计分析来归一化相应卷积的结果,其中,对归一化的结果进行非线性变换。尤其是,可以利用在神经网络设计领域中已知的所谓的批量归一化技术来执行归一化。已发现这样的归一化进一步提高了网络的准确性,而不必增加模型复杂性。至于非线性变换,在神经网络激活函数的背景下,本领域已知各种这样的变换,例如,双曲正切(Tangens hyperbolicus)、逻辑函数或所谓的泄漏修正线性单元(ReLu),其被定义为f(x)=max(s*x,x),其中,s优选形成超参数并且*表示标量乘法运算符。优选地,使用后一函数来变换两个子单元的卷积结果,优选地,卷积结果具有相同的s值,例如,s=0.2。该配置(尤其与借助RCCC传感器获取的图像数据相结合)已显示出提供了优越的性能。
至于另一实施方式中的连接网络的整体结构,多通道单元形成连接网络的第一单元,其中,通过多通道单元的数据输出而输出的数据被连接网络的至少一个后续单元进一步处理,其中,由连接网络的最后一个单元输出的数据包括对第一单元所接收到的多个输入图片元素所表示的图像进行分类的离散变量。因此,网络实现了分类器,其中,多通道单元形成网络的该网络通过其接收待分类图像数据的第一(即,输入)单元。这带来以下优点:首先执行通道特定处理,使得先前的单元不会与各个通道混合。此外,依据输入图片元件各自的处理,可以容易地将它们分离。所述多通道单元的位置是在网络中的最前面还具有以下效果:低级图像细节的提取被分派给多通道单元,其中,在共享通道信息的后续单元中提取抽象的高级语义。优选地,网络包括四个含有多通道单元的单元(两个子单元被计为一个单元)。
考虑到各式各样的可能应用,已发现连接网络尤其适于实现针对交通标志的分类器。在基础版本中,这可以是表明图像是否表示交通标志的真实图像的二进制分类器。在进行基本分类之后,可以例如借助识别其语义内容的专门分类器进一步分析那些已被验证为交通标志的真实图像的图像。作为二元分类器的替代或补充,网络可以被配置成实现输出识别多个标签的一个或更多个离散变量的分类器,所述多个标签例如与各个交通标志相对应(例如,对于矢量可分别是[0,0,0,1]和[0,0,1,0]的两个不同标签的、可以借助所谓的“独热(one-hot)”矢量进行识别的“最高速度80km/h”或“禁止超车”)。这可以通过在网络训练期间使用一定量的标记训练数据来实现。通常,该训练数据是对一定量的未标记训练数据(没有类标签的交通标志的真实图像)的附加,即,以半监督方式训练网络。以这种方式,网络可以被配置成执行交通标志的全面分类,可选地包括对整体类的验证。换句话讲,网络可以实现交通标志检测和/或识别。当然,这只是示例性的,并且必须理解,网络也可以用于其它目的,例如,检测驾驶背景下的行人和其它对象,特别是自主驾驶应用。
作为分类的替代或补充,连接网络允许输出连续变量,这些连续变量可以按无人监督的方式得到并且可适于描述输入数据的某些属性(诸如,与视觉外观相关的属性,例如,图片元素所表示的图像的照度和比例)。换句话讲,连接网络可以被配置成借助一个或更多个连续变量来实现输入数据的描述。这可以在提取多通道单元后续的单元中的较高语义信息的范围内实现,其中,后续单元“共享”通道的信息。
考虑到生成图像数据,通过根据权利要求9的方法来解决本发明的目标问题。
在连接网络(尤其是神经网络)中生成图像数据的方法包括(与用于处理图像数据的连接网络相对应)多个单元,各单元具有数据输入端、数据输出端和至少一个处理参数,其中,借助单元对输入数据进行的处理至少部分由单元的至少一个处理参数来确定,其中,该方法实现形成多个单元中的一个单元的多通道单元,并且其中,该方法包括以下步骤:在数据输入端处,接收表示原始图像的多个输入图片元素;利用第一处理参数集来处理多个输入图片元素,其中,利用第一处理参数集进行的处理提供了第一输出图片元素部分,其中,该第一输出图片元素部分表示多通道图像传感器的第一通道;利用至少第二处理参数集来处理多个输入图片元素,其中,利用第二处理参数集进行的处理提供了至少第二输出图片元素部分,其中,该第二输出图片元素部分表示多通道图像传感器的第二通道;在数据输出端处,输出表示借助多通道图像传感器获取的图像的第一输出图片元素部分和第二输出图片元素部分。
如结合根据权利要求1的解决方案所描述的,该生成图像数据的方法包括单独处理的步骤。然而,此时,由多通道单元执行分割成至少两个通道,即,以两种不同的方式处理一个数据集,从而产生两种经不同处理的数据版本。在处理图像数据的方法中,分割对于输入数据是固有的,即,输入数据包括与两个传感器通道相对应的至少两个不同的组。在生成图像数据的情况下,这些组必须被合成。然而,由于这两种方法都利用了单独的处理,因此这两种方法通过一个发明构思相互关联。
如本领域技术人员所理解的,这两种方法都表示用于处理图像数据的方法。然而,生成图像数据的第二种方法被表示为“生成方法”,以便更好地将该方法与(仅仅)处理的方法区分开。
可选地,将第一输出图片元素部分和第二输出图片元素部分相组合,之后再输出它们。以这种方式,可以通过仅包括一个数据输入端的一个或更多个单元对数据进行进一步处理。但是,也可以通过单独的单元对数据进行进一步处理。
至于上面对不同尺寸的传感器通道的讨论,第一输出图片元素部分和第二输出图片元素部分可以分别由数量不等的图片元素组成。因此,可以利用一个单独的处理参数集来处理输入图片元素,该处理参数集被配置成针对每个通道确保预定义的多个输出图片元素。以这种方式,例如,可以借助该方法直接合成物理数量的传感器元件。在优选实施方式中,至少借助多个单元中的形成多通道单元的第一子单元的专用第一单元来执行利用第一处理参数集对多个输入图片元素的处理,并且其中,至少借助多个单元中的形成多通道单元的第二子单元的专用第二单元来执行利用第二处理参数集对多个输入图片元素的处理。如前所述,专用单元优选是网络训练的一部分,因此不是手动设置的。
在另一实施方式中,第一子单元和第二子单元分别由第一卷积单元和第二卷积单元形成,其中,第一卷积单元和第二卷积单元各自实现去卷积,即,对相应去卷积单元所接收到的多个输入图片元素中的至少一部分与核滤波器进行去卷积。优选地,网络的所有单元都是去卷积单元。
至于用于生成图像数据的网络的特定配置,网络可以被配置成使得网络的第一单元接收(作为输入数据)随机噪声,其中,噪声由第一单元进行处理,然后由连接网络的至少一个后续单元进行进一步处理,其中,多通道单元形成连接网络的最后一个单元。第一个单元和最后一个单元也可以被分别表示为输入单元和输出单元。要注意,该配置是与以上结合处理图像数据的方法描述的情况相反的顺序。以这种方式,分离的处理分支可以连接于用于处理图像数据的后续网络,这在网络训练方面也是有益的。此外,所述多通道单元的位置是在网络中的最后具有以下效果:低级图像细节的生成被分派给多通道单元,其中,在共享多通道单元的通道的信息的后续单元中提取抽象的高级语义。优选地,网络包括四个含有多通道单元的单元(两个子单元被计为一个单元)。
可以按相同方式以其它网络类型实现关于两种网络类型(处理和生成图像数据)中的一种提出的特征。
本发明还涉及一种训练连接网络尤其是神经网络的方法,该方法包括以下步骤:根据生成图像数据的方法的实施方式中的至少一个生成图像数据;以及根据处理图像数据的实施方式中的至少一个处理所生成的图像数据,其中,借助梯度下降算法(即,反向传播)训练连接网络,包括修正连接网络的多个单元中的至少一部分的至少一个处理参数。换句话讲,连接网络可以包括两个(子)网络,一个用于生成图像数据,另一个用于处理数据,例如,以便实现分类。这对应于生成式对抗网络的创建,生成式对抗网络也可以被表示为组合网络。优选地,生成式网络部分的多通道单元的输出端直接连接至后续处理网络部分。例如,在包括图像传感器的车辆中,可以定期执行网络的训练。考虑到车辆正常操作期间车辆所收集的大量训练数据,这可以是有用的。
在特定示例中,“生成网络”可以被配置成生成相对于形成待生成图像数据的参数的离散和/或连续变量生成图像数据。例如,在将网络训练为组合网络之后,生成网络可以被配置成具有连续变量“缩放”、“背景照明”和“整体照明”。以这种方式,可以生成可用于测试和/或训练其它分类器的特定参数化的图像数据。另外,“处理网络”可以被配置成输出对可用于进一步处理车辆中的图像数据的连续变量的估计。应理解,通过在两个子网络中使用共享两个通道的信息的附加单元,允许建立超出简单分类的更多潜在处理能力。
应理解,生成式网络和处理网络可以用作独立的网络,并且原则上也可以借助梯度下降算法彼此分开训练。
本发明还涉及一种车辆,该车辆具有用于获取包括多个图片元素的图像的至少一个多通道图像传感器,其中,该车辆包括处理单元,该处理单元被配置成执行如上所述的根据处理图像数据的方法的实施方式中的至少一个的方法,其中,该方法基于多个图片元素来执行。多通道图像传感器优选包括红色-无色-无色-无色传感器。处理单元可以包括或连接至其中存储有用于执行该方法的指令的存储装置。这还可以包括确定网络的处理的多个(经训练的)处理参数。这些处理参数可以通过网络的新训练来更新,该训练可以在处理单元中或在连接至车辆的中央服务器中执行。
车辆的处理单元还可以被配置成相对于处理后的数据修正车辆的操作。在一示例中,例如,交通标志的图像数据的分类结果可以在视觉上或声学上呈现给车辆的驾驶员,或者可以自动用于调整自主驾驶应用中的驾驶车辆,例如,调节车辆的速度。
附图说明
仅作为示例,参照附图进一步描述本发明,在附图中:
图1是用于处理图像数据的连接网络的示意性例示;
图2是红色-无色-无色-无色图像传感器的两个通道的分离的例示;
图3是用于生成图像数据的连接网络的示意性例示;
图4是用于处理和生成图像数据的连接网络的示意性例示。
在附图中,用相同的参考符号来表示相似或对应的元件。
具体实施方式
在图1中示出了连接网络10,其包括多个单元12、14、16。其中一个单元(即单元12)形成网络10的多通道单元。单元12、14、16中的每一个都具有数据输入端18和数据输出端20。多通道单元12是网络10的第一单元,其中,数据输出端20连接至后续单元14的数据输入端18,并且其中,后续单元14的数据输出端20连接至最后一个单元16的数据输入端18。多通道单元12包括第一子单元22和第二子单元24,二者都可以与单元14、16属于同一类型。因此,多通道单元12的数据输入端18包括第一数据输入端26、第二数据输入端28、第一数据输出端30和第二数据输出端32。
针对来自图1的网络10的输入数据可以是由多图像传感器(未示出)的多个图片元素组成的图像。这在图2中有例示,在左侧示意性示出了RCCC传感器的模式34。如可以看出的,模式34包括分别表示图像传感器的第一通道(“灰色”)和第二通道(“红色”)的第一图片元素部分36和第二图片元素部分38。第一图片元素部分36和第二图片元素部分38(未经任何预处理的)可以分别经由第一数据输入端26和第二数据输入端28输入到多通道单元12。优选地,对第一图片元素部分36进行预处理,使得从第一部分36内插第二部分38的“缺失”图片元素。这在图2中的右侧有例示,示出了彼此靠近的第一部分36的经预处理版本36’和第二部分38。
可以借助多通道单元12处理第一部分36’和第二部分38,其中,可以在输入到后续单元14之前,将通过第一输出端30和第二输出端32输出的处理后的数据进行组合(例如,连接)。
图3例示了具有多个单元42、44、46的连接网络40,这多个单元中的最后一个单元46形成具有第一子单元48和第二子单元50的多通道单元。网络40可以被解释为图1的网络10的相反情况。然而,优选地,网络40在输出可与图2的经预处理的第一图片元素部分36’和第二图片元素部分38类似的第一输出图片元素部分和第二输出图片元素部分的第一子单元48和第二子单元50以及第一单元42的数据输入端18处接收随机噪声。以这种方式,网络40是与网络10互补的图像数据的生成器。如本领域技术人员所理解的,单元42、44、48和50以与网络10中类似的方式互连。此外,要强调,单元的数量可有所不同并且适于特定应用。
图4是包括生成器和鉴别器(即,分类器)的组合网络52的示意图。生成器对应于图3中示出的类型的网络。鉴别器对应于图1中示出的类型的网络。可以将噪声矢量54输入到生成器中。噪声矢量54可以具有预定义的大小,该大小可适于鉴别器的所期望的输出,例如,离散变量和连续变量。可以是图片元素的三维矩阵的数据块56、58表示由两个后续单元(诸如,例如图3中的单元42、44)输出的数据。数据块60表示另一单元(未示出)的结果。每个单元实现由不同处理参数集确定的输入数据的去卷积。数据片段62、64(可以是如图4中所表示的尺寸不等的二维矩阵)是借助两个子单元(诸如,图3中的子单元48、50)进行单独处理的结果,其中,对每个子单元进行的处理由不同的处理参数集来确定。然后,数据片段62、64被输入到鉴别器中,鉴别器可以表示用于数据片段62、64所表示的图像的分类器。然后,使用鉴别器的两个专用子单元(诸如,图1中的子单元22、24)来处理数据片段62、64并且输出尺寸相同的数据片段66、68。然后,连接这些数据片段66、68以形成数据块70,其中,进一步处理产生块72和74。然后,可以将数据块74进一步处理成鉴别器的最终期望的输出变量,该输出变量可以是二进制变量或具有两个以上标签维度的离散变量。
可以在生成器和鉴别器的联合训练期间以与以上进一步描述的生成式对抗网络类似的方式使用组合网络52。因单独处理片段62、64、66和68所表示的通道相关图片元素,导致生成器和鉴别器二者的更好的性能。
参考标号
10 连接网络
12 多通道单元
14、16 单元
18 数据输入端
20 数据输出端
22 第一子单元
24 第二子单元
26 第一数据输入端
28 第二数据输入端
30 第一数据输出端
32 第二数据输出端
34 模式
36、36’ 第一图片元素部分
38 第二图片元素部分
40 连接网络
42、44 单元
46 多通道单元
48 第一子单元
50 第二子单元
52 组合网络
54 噪声矢量
56、58、60 数据块
62、64 数据片段
66、68 数据片段
70 连接的数据片段
72、74 数据块
Claims (12)
1.一种在连接网络(10),尤其是神经网络中处理图像数据的方法,所述连接网络(10)包括多个单元(14、16),各单元具有数据输入端(18)、数据输出端(20)和至少一个处理参数,其中,借助所述多个单元(14、16)中的一个单元对输入数据进行的处理至少部分地由所述单独的单元的所述至少一个处理参数来确定,
其中,所述方法实现形成所述多个单元中的一个单元的多通道单元(12),并且其中,所述方法包括:
-在数据输入端(18)处接收表示借助多通道图像传感器获取的图像的多个输入图片元素,其中,所述多个输入图片元素包括第一输入图片元素部分(36)和至少第二输入图片元素部分(38),其中,所述第一输入图片元素部分(36)表示所述图像传感器的第一通道,并且所述第二输入图片元素部分(38)表示所述图像传感器的第二通道,
-将所述第一输入图片元素部分(36)和所述至少第二输入图片元素部分(38)彼此分开处理,以及
-在所述数据输出端(20)处输出处理后的第一输入图片元素部分和第二输入图片元素部分,
其中,所述图像传感器是红色-无色-无色-无色传感器,
其中,所述第一输入图片元素部分(36)和所述第二输入图片元素部分(38)分别由数量不等的图片元素组成,并且其中,所述处理后的第一输入图片元素部分和第二输入图片元素部分由数量相等的图片元素组成,
其中,所述多通道单元(12)形成所述连接网络的第一单元,其中,由所述连接网络(10)的至少一个后续单元(14、16)对通过所述多通道单元(12)的所述数据输出端输出的数据进行进一步处理,其中,由所述连接网络(10)的最后一个单元(16)输出的数据包括对所述第一单元(12)所接收到的所述多个输入图片元素所表示的图像进行分类的离散变量,并且
其中,所述连接网络(10)实现用于交通标志的分类器。
2.根据权利要求1所述的方法,
其中,所述方法还包括,将所述处理后的第一输入图片元素部分(66)和第二输入图片元素部分(68)进行组合,其中,代替处理后的第一输入图片元素部分和第二输入图片元素部分而输出组合后的第一输入图片元素部分(66)和第二输入图片元素部分(68)。
3.根据前述权利要求中任一项所述的方法,
其中,至少借助所述多个单元中形成所述多通道单元(12)的第一子单元(22)的专用第一单元来执行对所述第一输入图片元素部分(36)的处理,并且
其中,至少借助所述多个单元中形成所述多通道单元(12)的第二子单元(24)的专用第二单元来执行对所述至少第二输入图片元素部分(38)的处理。
4.根据权利要求3所述的方法,
其中,所述第一子单元(22)和所述第二子单元(24)分别由第一卷积单元和第二卷积单元形成,其中,所述第一卷积单元和所述第二卷积单元各自实现相应卷积单元所接收到的所述多个输入图片元素中的至少一部分与核滤波器的卷积。
5.根据权利要求4所述的方法,
其中,对所述第一卷积单元和所述第二卷积单元所接收到的所述多个输入图片元素进行的处理包括基于对相应卷积的结果的组合的统计分析来归一化所述相应卷积的结果,其中,对归一化的结果进行非线性变换。
6.一种在连接网络(40),尤其是神经网络中生成图像数据的方法,所述连接网络包括多个单元(42、44、46),各单元具有数据输入端、数据输出端和至少一个处理参数,其中,借助所述单元对输入数据进行的处理至少部分地由所述单元的所述至少一个处理参数来确定,其中,所述方法实现形成所述多个单元中的一个单元的多通道单元(46),并且其中,所述方法包括:
-在数据输入端处接收表示原始图像的多个输入图片元素,
-利用第一处理参数集来对所述多个输入图片元素进行处理,其中,利用所述第一处理参数集进行的处理提供第一输出图片元素部分,其中,所述第一输出图片元素部分表示多通道图像传感器的第一通道,
-利用至少第二处理参数集对所述多个输入图片元素进行处理,其中,利用所述第二处理参数集进行的处理至少提供第二输出图片元素部分,其中,所述第二输出图片元素部分表示所述图像传感器的第二通道,以及
-在所述数据输出端处输出表示借助所述图像传感器获取的图像的所述第一输出图片元素部分和所述第二输出图片元素部分。
7.根据权利要求6所述的方法,
其中,所述第一输出图片元素部分和所述第二输出图片元素部分分别由数量不等的图片元素组成。
8.根据权利要求6或7所述的方法,
其中,至少借助所述多个单元中形成所述多通道单元(46)的第一子单元(48)的专用第一单元来执行利用所述第一处理参数集对所述多个输入图片元素进行的处理,并且
其中,至少借助所述多个单元中形成所述多通道单元(46)的第二子单元(50)的专用第二单元来执行利用所述第二处理参数集对所述多个输入图片元素进行的处理。
9.根据权利要求8所述的方法,
其中,所述第一子单元(48)和所述第二子单元(50)分别由第一去卷积单元和第二去卷积单元形成,其中,所述第一去卷积单元和所述第二去卷积单元各自实现相应去卷积单元所接收到的所述多个输入图片元素中的至少一部分与核滤波器的去卷积。
10.根据权利要求6至9中任一项所述的方法,
其中,所述连接网络的第一单元(42)接收随机噪声作为输入数据,其中,所述噪声由所述第一单元(42)进行处理,然后由所述连接网络的至少一个后续单元(44、46)进行进一步处理,其中,所述多通道单元(46)形成所述连接网络的最后一个单元。
11.一种训练连接网络(52),尤其是神经网络的方法,该方法包括根据权利要求6至10中的至少一项生成图像数据,以及根据权利要求1至5中的至少一项对所生成的图像数据进行处理,
其中,借助梯度下降算法来训练所述连接网络,所述梯度下降算法包括修正所述连接网络的所述多个单元中的至少一部分的所述至少一个处理参数。
12.一种具有至少一个多通道图像传感器的车辆,该至少一个多通道图像传感器用于获取包括多个图片元素的图像,其中,所述图像传感器是红色-无色-无色-无色传感器,其中,所述车辆包括处理单元,所述处理单元被配置成基于所述多个图片元素执行根据权利要求1至5中的至少一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17208223.2 | 2017-12-18 | ||
EP17208223.2A EP3499406B1 (en) | 2017-12-18 | 2017-12-18 | Methods of processing and generating image data in a connectionist network |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046701A true CN110046701A (zh) | 2019-07-23 |
CN110046701B CN110046701B (zh) | 2023-07-18 |
Family
ID=60937536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811530915.8A Active CN110046701B (zh) | 2017-12-18 | 2018-12-14 | 在连接网络中处理和生成图像数据的方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11379746B2 (zh) |
EP (1) | EP3499406B1 (zh) |
CN (1) | CN110046701B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436291A (zh) * | 2021-06-21 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 图像的处理方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11210468B2 (en) * | 2018-09-28 | 2021-12-28 | Innoplexus Ag | System and method for comparing plurality of documents |
JP7044038B2 (ja) * | 2018-11-21 | 2022-03-30 | トヨタ自動車株式会社 | 地図情報システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1812490A (zh) * | 2001-02-23 | 2006-08-02 | 索尼公司 | 图像信号处理设备和方法 |
CN104581166A (zh) * | 2014-12-08 | 2015-04-29 | 天津大学 | 一种基于多通道采集影像的压缩成像系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013201557A (ja) * | 2012-03-23 | 2013-10-03 | Toshiba Corp | 画像処理装置、画像処理方法および画像処理システム |
CN104850845B (zh) * | 2015-05-30 | 2017-12-26 | 大连理工大学 | 一种基于非对称卷积神经网络的交通标志识别方法 |
US10417529B2 (en) * | 2015-09-15 | 2019-09-17 | Samsung Electronics Co., Ltd. | Learning combinations of homogenous feature arrangements |
KR101880035B1 (ko) * | 2015-09-24 | 2018-07-19 | 주식회사 뷰노 | 영상 생성 방법 및 장치, 및 영상 분석 방법 |
US10198624B2 (en) * | 2016-02-18 | 2019-02-05 | Pinscreen, Inc. | Segmentation-guided real-time facial performance capture |
CN105844257B (zh) * | 2016-04-11 | 2019-03-01 | 吉林大学 | 基于机器视觉雾天行车错失道路标志牌的预警系统及方法 |
US10452068B2 (en) * | 2016-10-17 | 2019-10-22 | Uber Technologies, Inc. | Neural network system for autonomous vehicle control |
US10262218B2 (en) * | 2017-01-03 | 2019-04-16 | Qualcomm Incorporated | Simultaneous object detection and rigid transform estimation using neural network |
US10896342B2 (en) * | 2017-11-14 | 2021-01-19 | Qualcomm Incorporated | Spatio-temporal action and actor localization |
-
2017
- 2017-12-18 EP EP17208223.2A patent/EP3499406B1/en active Active
-
2018
- 2018-11-28 US US16/203,124 patent/US11379746B2/en active Active
- 2018-12-14 CN CN201811530915.8A patent/CN110046701B/zh active Active
-
2022
- 2022-05-03 US US17/661,913 patent/US20220261670A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1812490A (zh) * | 2001-02-23 | 2006-08-02 | 索尼公司 | 图像信号处理设备和方法 |
CN104581166A (zh) * | 2014-12-08 | 2015-04-29 | 天津大学 | 一种基于多通道采集影像的压缩成像系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436291A (zh) * | 2021-06-21 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 图像的处理方法和装置 |
CN113436291B (zh) * | 2021-06-21 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 图像的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20190188586A1 (en) | 2019-06-20 |
EP3499406B1 (en) | 2024-01-31 |
EP3499406A1 (en) | 2019-06-19 |
US20220261670A1 (en) | 2022-08-18 |
CN110046701B (zh) | 2023-07-18 |
US11379746B2 (en) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188635B (zh) | 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法 | |
KR101640998B1 (ko) | 화상 처리 장치 및 화상 처리 방법 | |
US11900646B2 (en) | Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium | |
CN110046701A (zh) | 在连接网络中处理和生成图像数据的方法 | |
CN111539480B (zh) | 多类别医学图像识别方法及设备 | |
CN112183635A (zh) | 一种多尺度反卷积网络实现植物叶部病斑分割与识别方法 | |
CN107506796A (zh) | 一种基于深度森林的阿尔兹海默病分类方法 | |
CN108717524A (zh) | 一种基于双摄手机和人工智能系统的手势识别系统及方法 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN112418360B (zh) | 卷积神经网络的训练方法、行人属性识别方法及相关设备 | |
CN112052772A (zh) | 一种人脸遮挡检测算法 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
Karunasena et al. | Tea bud leaf identification by using machine learning and image processing techniques | |
CN113841162A (zh) | 深度神经网络中的深度优先卷积 | |
Foong et al. | Convolutional neural network based rotten fruit detection using resnet50 | |
Gurrala et al. | A new segmentation method for plant disease diagnosis | |
CN112766176B (zh) | 轻量化卷积神经网络的训练方法及人脸属性识别方法 | |
Saifullah et al. | Palm oil maturity classification using K-nearest neighbors based on RGB and L* a* b color extraction | |
Mahapatra | Retinal image quality classification using neurobiological models of the human visual system | |
CN114067175B (zh) | 一种基于通道特征融合的高光谱图像小样本分类方法及装置 | |
CN115713669A (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN113822212A (zh) | 一种嵌入式物体识别方法和装置 | |
Min et al. | Optimized Dense Convolutional Neural Networks for Micro-expression Recognition | |
Draganova et al. | Model of Software System for automatic corn kernels Fusarium (spp.) disease diagnostics | |
CN116563615B (zh) | 基于改进多尺度注意力机制的不良图片分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240822 Address after: Luxembourg Patentee after: Anbofu Technology (2) Co.,Ltd. Country or region after: Luxembourg Address before: Babado J San Michael Patentee before: Aptiv Technologies Ltd. Country or region before: Barbados |