CN114616595A - 联合训练神经网络以减少数据和进行图像数据的对象识别 - Google Patents
联合训练神经网络以减少数据和进行图像数据的对象识别 Download PDFInfo
- Publication number
- CN114616595A CN114616595A CN202080078035.0A CN202080078035A CN114616595A CN 114616595 A CN114616595 A CN 114616595A CN 202080078035 A CN202080078035 A CN 202080078035A CN 114616595 A CN114616595 A CN 114616595A
- Authority
- CN
- China
- Prior art keywords
- neural
- image data
- object recognition
- compression
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 230000001537 neural effect Effects 0.000 claims abstract description 84
- 238000007906 compression Methods 0.000 claims abstract description 83
- 230000006835 compression Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 36
- 238000013144 data compression Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012958 reprocessing Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010561 standard procedure Methods 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
一种用于配置对象识别系统(100)的方法,其具有步骤:‑提供带标注的训练数据(3),所述带标注的训练数据(3)包括图像数据(1),所述图像数据(1)具有所定义的到至少一个对象的分配关系(2);‑训练具有第一神经子网络(20)的神经网络(40),所述第一神经子网络(20)设置用于执行对图像数据(3)的压缩,其中第一神经子网络(20)与至少一个其他神经子网络(30a,…,30n)互连,其中‑至少一个其他神经子网络(30a,…,30n)设置用于从经过压缩的训练数据(3)中识别出对象;‑其中执行对第一神经子网络(20)的参数化,使得借助至少一个其他子网络(30a,…,30n)以所定义的品质来执行对象识别;并且其中联合训练这些神经子网络(20,30a,…,30n)。
Description
技术领域
本发明涉及一种用于配置对象识别系统的方法。此外,本发明还涉及一种用于借助对象识别系统来识别对象的方法。此外,本发明还涉及一种传感器装置。此外,本发明还涉及一种对象识别系统。此外,本发明还涉及计算机程序。此外,本发明还涉及一种机器可读的存储介质。
背景技术
已知的用于数据的压缩方法例如基于离散余弦变换或者小波变换,并经常在传感器系统中被采用,以便压缩原始数据,其中经过压缩的原始数据通常经由数据总线来传送,以进行再加工。在多传感器系统中需要这种压缩,因为数据总线是主要瓶颈,并且通过所提到的数据压缩可以降低经由数据总线的数据量或数据率。
已知的用于压缩传感器数据的方法通常使通用的信息理论量度最小化。但是,压缩在此相对于通过机器学习技术对数据进行再加工是不偏不倚的,所述机器学习技术稍后解释数据。借此,在进行再加工时可能不能达到最优性能,因为重要的数据由于压缩而丢失,或者不可达到最优压缩率。
已知了借助标准方法(例如针对图像处理的jpeg)在传感器侧进行数据压缩,以便减少所传输的数据量。
发明内容
本发明的任务是,提供了一种用于借助对象识别系统以经过改进的方式来识别对象的方法。
根据第一方面,该任务利用一种用于优化对象识别系统的方法来解决,所述方法具有步骤:
- 提供带标注的训练数据,所述带标注的训练数据包括图像数据,所述图像数据具有所定义的到至少一个对象的分配关系(Zuordnungen);
- 训练具有第一神经子网络的神经网络,所述第一神经子网络设置用于执行对图像数据的压缩,其中第一神经子网络与至少一个其他神经子网络互连(verschaltet),其中
- 至少一个其他神经子网络设置用于从经过压缩的训练数据中识别出对象;
- 其中执行对第一神经子网络的参数化,使得借助至少一个其他子网络以所定义的品质来执行对象识别;并且其中联合训练这些神经子网络。
以这种方式,在训练阶段中,神经子网络被配置为使得,所述神经子网络适合于应用在对象识别系统中。图像数据的压缩度有利地与要实现的对象识别相适配,由此可以利用本方法有利地找到在两个目标(数据压缩、对象识别的品质)之间的有利的折衷。
有利地,对象识别系统的数据压缩借此可以在工作运行中(im operativenBetrieb)被执行为使得,例如不重要的传感器数据可能被识别出并且借此可以更强烈地被压缩。与此相对照,更重要的传感器数据更小得被压缩,由此利用被降低的数据量仍旧足够好地实现对象识别。在利用从中被优化的压缩装置来运行对象识别系统之前,离线执行所建议的训练方法。有利地,一个或者多个传感器装置所连接到的数据总线可以以这种方式更好地被使用,或更多传感器装置可以连接到数据总线上。结果,借此为目标应用“设置”数据压缩,这在同时高数据压缩的情况下支持高品质的目标应用对象识别。
根据第二方面,该任务利用一种用于借助对象识别系统来识别对象的方法来解决,该方法具有步骤:
- 借助根据第一神经子网络已被训练过的压缩装置,对图像数据进行压缩;和
- 借助根据至少一个其他神经子网络已被训练过的评估装置,执行从经过压缩的图像数据中进行对象识别。
根据第三方面,该任务利用对象识别系统来解决,该对象识别系统具有所定义的数目的在功能上相互连接的传感器装置,并且具有在功能上与传感器装置连接的计算机装置,所述计算机装置用于利用经过压缩的传感器数据来执行对象识别。
根据第四方面,该任务利用一种传感器装置来解决,所述传感器装置具有借助用于配置对象识别系统的方法来配置的压缩装置。
根据第五方面,该任务利用一种对象识别系统来解决,该对象识别系统具有所定义的数目的在功能上相互连接的所建议的传感器装置,并且具有经由数据总线在功能上与传感器装置连接的计算装置,所述计算装置用于执行从经过压缩的传感器数据中进行对象识别。
根据第六方面,该任务利用一种计算机程序来解决,该计算机程序包括指令,在通过计算机实施该计算机程序时,所述指令促使该计算机,实施用于配置对象识别系统的方法。
根据第七方面,该任务利用一种计算机程序来解决,该计算机程序包括指令,在通过计算机实施该计算机程序时,所述指令促使该计算机,实施用于借助对象识别系统来识别对象的方法。
根据第八方面,该任务利用一种机器可读的存储介质来解决,在所述机器可读的存储介质上存储有所提到的计算机程序中的至少一个。
本方法和本对象识别系统的优选扩展方案是从属权利要求的主题。
本方法的有利的扩展方案的特点在于,第一神经子网络的参数定义训练数据的压缩程度,其中至少一个其他神经子网络的参数定义对象识别的品质。以这种方式,在借助第一神经子网络的压缩程度与借助至少一个其他神经子网络的对象识别品质之间找到折衷。
本方法的其他有利的扩展方案的特点在于,通过第一目标函数来定义训练数据的压缩程度,其中通过至少一个其他目标函数来定义对象识别品质。借此,神经子网络的特性或要利用这些神经子网络实现的目标可以有利地被准确定义。
本方法的其他有利的扩展方案的特点在于,第一神经子网络的权重通过训练第一神经子网络来确定,其中第一神经子网络的权重和至少一个其他神经子网络的权重通过训练至少一个其他神经子网络来确定。有利地,借此提供上级的通用训练情景,在所述上级的通用训练情景中,第一神经子网络的权重也通过训练其他神经子网络来训练。
本方法的其他有利的扩展方案的特点在于,具有高熵的训练数据的区域比具有低熵的训练数据的区域更少得被压缩,其中具有低熵的训练数据例如是具有相同色彩的图像数据和/或具有复发性模式(wiederkehrenden Muster)的图像数据。借此,实现了用于压缩图像数据连带从这些图像数据中进行所分配的对象识别的典型应用情景。训练数据的熵越低,就可以越容易地压缩这样的数据。
本方法的其他有利的扩展方案的特点在于,第二目标函数定义来自下列内容的至少一个:对人的识别,对车辆的识别,对基础设施的识别。借此,实现用于从经过压缩的图像数据中进行对象识别的典型应用情景。
本方法的其他有利的扩展方案的特点在于,从图像数据中生成具有降低的熵的经过简化的图像数据,随后借助经过参数化的标准压缩装置来压缩所述经过简化的图像数据。
本方法的其他有利的扩展方案的特点在于,借助经过参数化的标准压缩装置,执行对图像数据的压缩。在该情况下,图像数据的压缩借助可参数化的标准压缩装置来执行。有利地,以针对对象识别系统的方式,也可能使用标准压缩装置(例如针对图像数据的JPEG压缩)。
在下文,利用其他特征和优点依据多个附图详细地描述了本发明。相同的或者功能相同的要素在此具有相同的附图标记。
所公开的方法特征类似地从相对应的所公开的设备特征中得到,并且反之亦然。这尤其是意味着,涉及所建议的方法的特征、技术优点和实施方案以类似的方式从涉及传感器装置或对象识别系统的相对应的实施方案、特征和优点中得到,并且反之亦然。
附图说明
在附图中:
图1示出了处于训练模式中的所建议的对象识别系统的原理图;
图2示出了处于工作正常运行中的所建议的对象识别系统在运行时间的原理图;
图3示出了处于工作正常运行中的所建议的对象识别系统的变型方案在运行时间的原理图;和
图4示出了所建议的方法的实施形式的原理图。
具体实施方式
各种类型的对象识别、如对象探测和语义分割是已知的。术语“对象识别”通常被理解为对象探测,其中语义分割原则上也是一种形式的对象识别。随后,对象识别被理解为一种机器学习方法,所述机器学习方法为了感知周围环境的目的而解释传感器数据。
例如,在呈行人探测形式的对象识别中,图像的空旷区域对于该应用不重要或者几乎不重要,并且因而可以较强烈地被压缩。但是,这些区域可能完全具有高的熵或纹理(例如云覆盖的天空、复杂的道路纹理等等),使得利用传统的标准压缩方法没有对这些区域进行最优压缩。
利用在知道目标应用“对象识别品质”的情况下的所建议的经过图像自适应的、经过训练的或经过优化的数据压缩,这得到有利支持。
所建议的方法基于多目标优化,并且基于借此事先经过训练的或经过优化的压缩装置。为了优化的目的,例如多个神经子网络可以被串联或者并联,并且可以被联合训练。
图1示出了对象识别系统100的训练情景的原理图。可以看到带标注的训练数据3,所述带标注的训练数据3包括图像数据1和标注2,其中标注2包括所定义的在图像数据1之内的对象的分配关系(例如图像数据中的人的坐标)。标注2到图像数据1的分配以本身已知的方式通过人的活动进行。
在对象识别系统的训练模式之前,因此提供带标注的图像数据3,也就是说提供大量经过人工标注的图像。借此,针对随后的训练过程,提供特定的信息。
可以看到,图像数据1被输送给神经网络40的第一神经子网络20,该第一神经子网络20与至少一个其他的第二子网络30a、...、30n在功能上互连。第一神经子网络20通过第一目标函数Z1来定义,所述第一目标函数Z1详细说明图像数据1的数据压缩程度。其他神经子网络30a、...、30n分别通过其他目标函数Z2a、...、Z2n来定义,所述其他目标函数Z2a、...、Z2n分别定义从经过压缩的图像数据1中进行对象识别的品质。
“对象识别品质”在此被理解为在带标注的图像数据与由其他神经子网络执行的对象识别之间的偏差(“对象识别误差”)。结果,对象识别的品质因此可以通过在人标注与机器对象识别之间的误差来表达。
在根据图1的训练情景的训练时间,各个神经子网络20、30a、...、30n被组合成总神经网络40并被联合训练。总网络40的目标函数在此是各个神经子网络的目标函数Z1、Z2a、...、Z2n的组合。第一神经子网络20在此确定图像数据1的中间表示。中间表示的品质(“可压缩性”)借助于第一目标函数Z1(“压缩目标函数”)来评价。那么,该中间表示用作针对一个或者多个其他神经网络30a、...、30n(“应用网络”)的输入,所述一个或者多个其他神经网络30a、...、30n相对应地从该表示中计算其输出。相应的输出的品质分别通过其他目标函数Z2a、...、Z2n来评价。在这些目标函数中,计算网络输出与应用特定的标注的偏差(例如,图像中的行人的位置、图像中的基础设施的位置等等)。
利用目标函数Z1、...、Zn来力求,在同时经过优化的其他目标函数Z2a、...、Z2n的情况下,优化第一目标函数Z1。第一目标函数Z1优选地定义了数据压缩的程度或压缩率,使得可以经由数据总线(未示出)以尽可能低的数据率来传输经过压缩的图像数据或传感器数据。
带标注的图像数据3与其他神经子网络30a、...、30n的输出进行比较。由此产生的误差得出梯度,所述梯度在梯度下降方法中被用于适配第一神经子网络20的梯度或权重,使得其他神经子网络30a、...、30n实现尽可能可靠的对象识别、例如呈图像中的人的位置形式的对象识别。
其他神经子网络30a、...、30n起初利用随机权重来初始化,这导致了在对象识别中的误差。力求的是,其他神经子网络30a、...、30n这样实现对象识别,如呈带标注的图像数据3的形式存在的那样。结果,借此能够,借助经过压缩的图像数据1执行尽可能准确的和可靠的对象识别。
在训练过程的变型方案中,标准压缩装置或算法11a、...、11n可被用于训练,其中高分辨率图像数据1被输送给标准压缩装置11a、...、11n。在第一子变型方案中,首先从高分辨率图像数据1中生成较简单的图像数据,其中例如通过识别在图像数据1中的所定义的图像结构,可以降低熵。之后,借助标准压缩装置11a、...、11n对经过简化的图像数据1进行压缩。此后,以经过解压缩的形式,这些图像可被用于训练第一神经子网络20。
在第二子变型方案中,标准压缩装置11a、...、11n使用所预测的参数,其中高分辨率的原始图像数据1与所预测的参数一起被输送给标准压缩装置11a、...、11n,其中通过这些参数来控制数据压缩。那么,针对标准压缩装置11a、...、11n,可以确定或估计对于当前图像内容被优化的参数。在该情况下,这些图像数据此后也被解压缩,并且可被用于训练第一神经子网络20。
按趋势,在这种变型方案中,对象识别虽然较不准确地得出结果,但是可以使用标准压缩算法。结果,在训练过程结束之后,经过训练的标准压缩算法与经过训练的其他神经网络30a、...、30n共同被提供。
由于神经子网络20、30a、...、30n作为共同的神经网络40被联合训练,所以所有子网络20、30a、...、30n中的每个自由参数都受到所有目标函数Z1、Z2a、...、Z2n影响。这尤其是意味着,第一子网络20中的参数不仅被选择为使得获得尽可能好地被压缩的中间表示,而且也被选择为使得在中间表示中保持获得分别对于应用网络30a、...、30n为决定性的信号。以这种方式,如下知识被归纳到第一神经子网络20(“压缩网络”)中:哪些信号对于应用是重要的,并且不允许被压缩,和哪些信号是不重要的,并且因而可以强烈地被压缩或被丢弃。
在此,例如可设想的是,具有相同色彩的图像区域或像素与具有不同色彩的图像区域或像素相比更强烈地被压缩。此外,也可设想的是,具有许多纹理或熵的图像数据1的图像区域相对于具有少量纹理或熵的图像数据1的图像区域应尽可能保持在其信息内容中被获得,并且借此只微少地被压缩。
结果,在训练过程结束之后,确定神经子网络20、30a、...、30n的权重,这些权重接着稍后在正常运行中作为经过训练的算法在对象识别系统100中被采用。
第一目标函数Z1评价经过压缩的传感器数据,其他目标函数Z2a、...、Z2n影响第一和其他神经网络20、30a、...、30n。结果,神经网络40借此不是“应用无关地”、而是“应用感知地”被训练或被优化。
因此,在图1的配置或训练情景中建议了,呈第一神经子网络20形式的压缩装置和呈其他神经子网络30a、...、30n形式的评估装置共同被连接成呈神经网络40形式的总系统,并且被联合优化。作为目标函数,采用由用于压缩的目标函数和应用特定的目标函数构成的组合目标函数。第一目标函数Z1在此评价经过压缩的传感器数据的品质,而其他目标函数Z2a、...、Z2n评价借助经过压缩的传感器数据进行的最终对象识别。
在图2中,示意性地示出了所建议的对象识别系统100的实施形式。可以看到多个传感器装置10a、...、10n(例如激光雷达(LiDAR)传感器、雷达传感器、超声波传感器、摄像机等等),这些传感器装置10a、...、10n例如安装在车辆中,并且在检测车辆的环境时设置用于确定图像数据1。在所述传感器装置10a、...、10n中的每个传感器装置中,可以看到压缩装置11a、...、11n,所述压缩装置11a、...、11n包括根据本发明训练过的第一神经子网络20或者根据本发明训练过的标准压缩装置,利用所述第一神经子网络20,由传感器装置10a、...、10n检测到的图像数据1被压缩成经过压缩的传感器数据Ska、...、Skn并且被输送给数据总线4(例如CAN总线)。
经由数据总线4,经过压缩的传感器数据Ska、...、Skn被输送给中央计算装置50,在所述中央计算装置50中布置有至少一个评估装置31a、...、31n。利用经过压缩的传感器数据Ska、...、Skn,评估装置31a、...、31n执行根据其他神经子网络30a、...、30n进行的对象识别(例如,行人识别、车辆识别、交通标志识别等等)。
以这种方式,提供对象识别系统100,所述对象识别系统100具有一个或者多个传感器装置10a、...、10n,所述传感器装置10a、...、10n分别拥有呈用于数据压缩的压缩装置11a、...、11n形式的在传感器侧的计算单元,并且所述对象识别系统100具有一个或者多个用于对经过压缩的图像数据进行再加工的中央计算装置50。中央计算装置50通常拥有比在传感器侧的计算单元或传感器装置10a、...、10n的第一神经子网络20大了多个数量级的计算能力。
利用所建议的对象识别系统100,能够实现由传感器装置10a、...、10n向中央计算装置50传送的数据量的减少,而借此不会不利地损害对象识别系统100的功能性能。为此,在传感器侧,借助于经过参数化的或经过训练的压缩装置11a、...、11n,对图像数据1进行压缩。经过参数化的压缩装置11a、...、11n的算法例如可以借助第一神经子网络20以上面提到的方式进行训练;在替选的变型方案中,压缩装置11a、...、11n也可以构造为可参数化的标准压缩方法。
在该情况下,在发送方侧的神经网络事先改动(abveraendert)这些数据,使得利用标准方法可以取得更好的压缩结果。标准压缩方法也必须在如下两个目标之间进行权衡:
针对其他目标函数Z2a、...、Z2n,在标准压缩方法中使用通用量度(例如熵)。但是,在这种情况下,没有关于场景的语义知识涌入。如上面所阐述的那样,确定的图像区域具有高的熵,但是从对象识别看来不一定是重要的。尽管有高的熵,但是完全可能的是,这些图像区域具有确定的特征(例如典型的色彩渐变、典型的边缘结构等等),所述确定的特征“无意义地”排除了被搜索的对象。
此处,所建议的方法开始:通过获得目标应用(例如对象识别)的语义知识的量度,替换用于测量压缩质量的通用量度。在可以将熵记为闭目标函数期间,通过下列因素来定义新量度:
- 对象识别的目标函数
- 用于进行对象识别的模型。在神经网络的情况下,这是网络结构以及它的自由的、“可学习的”参数
- 带标注的训练数据3,利用这些带标注的训练数据3来学习对象识别
在熵是固定量度期间,压缩量度在神经网络40的联合训练过程的进程中变化,因为对象识别甚至自己具有可学习的参数。经此,“压缩网络”20学习,可以简化/压缩哪些图像区域/纹理模式,而无需牺牲借助“应用网络”30a、...、30n进行的对象识别,并且同时对象识别与所学习的压缩相适配。
借此,取得比在孤立地考虑组成部分时更好的结果,如这在标准压缩方法中情况如此。向中央计算装置50传送经过压缩的图像数据Ska、...、Skn。可选地,经过压缩的图像数据Ska、...、Skn在那里被解压缩,或者经过压缩的图像数据被用于对象识别。最后,经过压缩的图像数据由一个或者多个评估装置31a、...、31n再加工(例如,借助经过压缩的传感器数据进行对象探测和/或语义分割)。
因此,图2的对象识别系统100表示神经网络40在完成的训练阶段之后的图。现在经过训练的神经子网络20、30a、...、30n在传感器装置10a、...、10n或中央计算装置50中投入使用,其中不再设置神经子网络20、30a、...、30n在对象识别系统100的运行时间学习。为此目的,可能必须利用新的带标注的训练数据3开始新的训练过程。
其他目标函数Z2a、...、Z2n的优化可能例如在于,由传感器装置10a、...、10n之一尽可能好地识别出对象(例如行人、车辆、对象等等)。以这种方式,因此全体地和同时地优化神经子网络20、30a、...、30n的目标函数Z1、...、Z2n。
结果,借此利用经过优化的、经过压缩的图像数据Ska还可以实现足够的或经过优化的对象识别。
有利地,借助既在压缩的情况下又在再加工的情况下彼此协调地采用机器学习技术,使得所建议的方法能够,要么达到比在传统压缩中可能会有的压缩率更高的压缩率,要么在再加工(例如对象识别)中取得比在传统压缩中可能会有的结果更好的结果。
可以看到,在图2中,在计算装置50之内可以设置有多个评估装置31a、...、31n,其中在该情况下,由同样的经过压缩的图像数据Sk来供给所有评估装置31a、...、31n。以简单的方式,借此可能进行多重优化。
压缩也可以在没有明确的目标函数的情况下通过如下方式来实现:压缩网络的输出神经元的数目被选择得小于图像数据1的维数。以这种方式,第一目标函数可以仅仅通过压缩装置11a的结构化来提供(未在这些图中示出)。
应用特定的目标函数就它而言可以包括针对不同应用的多个目标函数Z1、...、Zn的组合。
因此,所建议的方法的核心构思在于,压缩为随后对经过压缩的传感器数据的再加工而设置。
例如,信号处理链可能看上去如下:
- 在传感器中,记录具有所分配的图像数据1的图像
- 在传感器侧,信号利用“压缩网络”20来压缩
- 经由数据总线4,向中央计算装置50发送经过压缩的图像数据
- 在中央计算装置50中,经由该/所述应用特定的神经网络来处理经过压缩的图像数据。
例子:
大小为640×480个像素的输入图像,三个输入通道(RGB—红、绿、蓝)。输入神经元的数目=R、G、B像素的数目=640×480×3=921,600个神经元,针对中间表示的输出层被构建为320×240个神经元的网格(76,800个神经元),这意味着经由数据总线要传送的数据的大小减少到十二分之一。
换言之,这意味着,不是大小为640×480的RGB图像,而是只还必须经由数据总线发送大小为320×240的单通道图像。
图3示意性地示出了所建议的对象识别系统100的其他实施形式。在该情况下,在传感器装置10a中,图像数据1借助第一神经子网络20被压缩,并且紧接着被输送给编码器5。在编码器5的输出处,经过压缩的图像数据SK被输送给数据总线4。从数据总线4,经过压缩的图像数据SK被输送给解码器6,所述解码器6将所述数据分发给神经子网络30a、...、30n。即使在该变型方案中,也实现将压缩和对象识别分到传感器装置10a和中央计算装置50上。
“压缩网络”计算比原始传感器数据或图像数据更小的、同样大的或者更大的中间表示。但是,该中间表示被操纵,使得该中间表示可以通过其他方法良好无损地被压缩。在传感器侧,装入压缩单元,所述压缩单元实施用于无损压缩的标准方法(例如熵编码)。在中央计算装置50上,设置呈解码器6形式的相对应的解压缩单元。在该情况下,信号处理链看上去如下:
- 在传感器中,记录具有所分配的图像数据的图像
- 通过压缩网络,计算中间表示。该步骤一般是有损的,也就是说,不能从中间表示中无误差地重建原始数据
- 在传感器侧的对中间表示的无损压缩
- 经由数据总线4,向中央计算装置50发送经过压缩的中间表示
- 由呈解码器6形式的解压缩单元对经过压缩的中间表示进行解码
- 通过该/所述应用特定的神经网络,对经过解压缩的中间表示进行再加工。
在训练阶段期间,压缩和解压缩自身不必被转化,也就是说,训练过程的图形不变化。
例子:
大小为640×480个像素的输入图像,每像素8位
中间表示:大小为640×480的经过处理的图像,每像素8位。但是,通过压缩网络,已减少了数据的熵。
现在可以经由标准方法、如例如熵编码,进行压缩。
图4示出了所建议的方法的实施形式的原理流程图。
在步骤200中,提供带标注的训练数据3,所述带标注的训练数据3包括具有所定义的到至少一个对象的分配关系2的图像数据1。
在步骤210中,训练具有第一神经子网络20的神经网络40,该第一神经子网络20设置用于执行对训练数据3的压缩,其中第一神经子网络20与至少一个其他神经子网络30a、...、30n互连,其中所述至少一个其他神经子网络30a、...、30n设置用于从经过压缩的训练数据3中识别出对象。
在步骤220中,执行对第一神经子网络20的参数化,使得借助至少一个其他子网络30a、...、30n以所定义的品质来执行对象识别,并且其中神经子网络20、30a、...、30n被联合训练。
所建议的方法优选地构造为计算机程序,该计算机程序具有用于在压缩装置上并且在评估装置上实施本方法的程序代码装置。在此,可以用软件既构造压缩装置又构造评估装置,其中压缩装置在进行优化之后被复制(ueberspielt)到传感器装置上,并在那里设置用于工作正常运行。
虽然本发明在前文依据具体实施例予以了描述,但是在不偏离本发明核心的情况下,本领域技术人员可以实现在前文也未公开的或者仅部分公开的实施形式。
Claims (15)
1.一种用于配置对象识别系统(100)的方法,其具有步骤:
- 提供带标注的训练数据(3),所述带标注的训练数据(3)包括图像数据(1),所述图像数据(1)具有所定义的到至少一个对象的分配关系(2);
- 对具有第一神经子网络(20)的神经网络(40)进行训练,所述第一神经子网络(20)设置用于执行对所述训练数据(3)的压缩,其中所述第一神经子网络(20)与至少一个其他神经子网络(30a,...,30n)互连,其中
- 所述至少一个其他神经子网络(30a,...,30n)设置用于从经过压缩的训练数据(3)中识别出对象;
- 其中执行对所述第一神经子网络(20)的参数化,使得借助所述至少一个其他子网络(30a,...,30n)以所定义的品质来执行对象识别;并且其中,联合训练所述神经子网络(20,30a,...,30n)。
2.根据权利要求1所述的方法,其中,所述第一神经子网络(20)的参数定义所述训练数据(3)的压缩程度,并且其中所述至少一个其他神经子网络(30a,...,30n)的参数定义所述对象识别的品质。
3.根据权利要求2所述的方法,其中,所述训练数据的所述压缩程度通过第一目标函数(Z1)来定义,并且其中所述对象识别的所述品质通过至少一个其他目标函数(Z2a,...,Z2n)来定义。
4.根据权利要求1至3中任一项所述的方法,其中,通过训练所述第一神经子网络(20)来确定所述第一神经子网络(20)的权重,其中通过训练所述至少一个其他神经子网络(30a,...,30n)来确定所述第一神经子网络(20)的所述权重和所述至少一个其他神经子网络(30a,...,30n)的权重。
5.根据上述权利要求中任一项所述的方法,其中,具有高熵的所述训练数据(3)的区域比具有低熵的所述训练数据(3)的区域更少得被压缩,其中具有低熵的训练数据(3)例如是具有相同色彩的图像数据和/或具有复发性模式的图像数据。
6.根据权利要求3至5中任一项所述的方法,其中,所述第二目标函数(Z2)定义来自下列内容的至少一个:对人的识别,对车辆的识别,对基础设施的识别。
7.一种用于借助对象识别系统(100)来识别对象的方法,其具有步骤:
- 提供所述对象的图像数据(1);
- 借助根据第一神经子网络(20)按照上述权利要求中任一项已被训练过的压缩装置(11a,...,11n),对所述图像数据(1)进行压缩;以及
- 借助根据至少一个其他神经子网络(30a,...,30n)按照上述权利要求中任一项已被训练过的评估装置(31a,...,31n),执行从经过压缩的图像数据(Ska,...,Skn)中进行对象识别。
8.根据权利要求7所述的方法,其中,从所述图像数据(1)中生成具有降低的熵的经过简化的图像数据(1),所述经过简化的图像数据(1)随后借助经过参数化的标准压缩装置(11a,... ,11n)来压缩。
9.根据权利要求7所述的方法,其中,借助经过参数化的标准压缩装置(11a,...,11n),执行对所述图像数据(1)的压缩。
10.一种传感器装置(10a,...,10n),其具有借助根据权利要求1至7中任一项所述的方法来配置的压缩装置(11a,...,11n)。
11.一种对象识别系统(100),其具有所定义的数目的在功能上相互连接的根据权利要求10所述的传感器装置(10a,...,10n),并且具有与所述传感器装置(10a,...,10n)经由数据总线(4)在功能上连接的计算装置(50),所述计算装置(50)用于执行从经过压缩的图像数据(Sk)中进行对象识别。
12.根据权利要求11所述的对象识别系统,其中,第一神经子网络(20)布置在所述传感器装置(10a,...,10n)上,并且其中第二神经子网络(30a...)布置在所述计算装置(50)上。
13.一种计算机程序,其包括指令,在通过计算机实施所述计算机程序时,所述指令促使所述计算机,实施根据权利要求1至6中任一项所述的方法。
14.一种计算机程序,其包括指令,在通过计算机实施所述计算机程序时,所述指令促使所述计算机,实施根据权利要求7至9中任一项所述的方法。
15.一种机器可读的存储介质,其上存储有至少一个根据权利要求13或者14所述的计算机程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019217363.2 | 2019-11-11 | ||
DE102019217363.2A DE102019217363A1 (de) | 2019-11-11 | 2019-11-11 | Verfahren zum Konfigurieren eines Objekterkennungssystems |
PCT/EP2020/077829 WO2021094036A1 (de) | 2019-11-11 | 2020-10-05 | Gemeinsames trainieren von neuronalen netzwerken zur datenreduktion und zur objekterkennung von bilddaten |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114616595A true CN114616595A (zh) | 2022-06-10 |
Family
ID=72895908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080078035.0A Pending CN114616595A (zh) | 2019-11-11 | 2020-10-05 | 联合训练神经网络以减少数据和进行图像数据的对象识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220415033A1 (zh) |
CN (1) | CN114616595A (zh) |
DE (1) | DE102019217363A1 (zh) |
WO (1) | WO2021094036A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230316048A1 (en) * | 2022-03-29 | 2023-10-05 | Tencent America LLC | Multi-rate computer vision task neural networks in compression domain |
-
2019
- 2019-11-11 DE DE102019217363.2A patent/DE102019217363A1/de active Pending
-
2020
- 2020-10-05 CN CN202080078035.0A patent/CN114616595A/zh active Pending
- 2020-10-05 US US17/755,847 patent/US20220415033A1/en active Pending
- 2020-10-05 WO PCT/EP2020/077829 patent/WO2021094036A1/de active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20220415033A1 (en) | 2022-12-29 |
DE102019217363A1 (de) | 2021-05-12 |
WO2021094036A1 (de) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230336754A1 (en) | Video compression using deep generative models | |
US11991368B2 (en) | Video compression using deep generative models | |
CN110225341B (zh) | 一种任务驱动的码流结构化图像编码方法 | |
US20180063538A1 (en) | Systems and methods for compressing data | |
KR20210031427A (ko) | 교통 이미지를 인식하는 방법, 장치, 컴퓨터 기기 및 매체 | |
JP2018101406A (ja) | ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用 | |
CN105825235A (zh) | 一种基于多特征图深度学习的图像识别方法 | |
US20210097266A1 (en) | Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision | |
EP3570062B1 (en) | Radar system and method for receiving and compressing radar signals | |
CN110799996A (zh) | 在不同的深度学习架构之间的知识转移 | |
Lu et al. | Edge compression: An integrated framework for compressive imaging processing on cavs | |
CN113298728B (zh) | 一种视频优化方法、装置、终端设备及存储介质 | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114067007A (zh) | 图像处理方法与装置、神经网络训练的方法与装置 | |
CN114387505A (zh) | 一种高光谱与激光雷达多模态遥感数据分类方法及系统 | |
KR102177247B1 (ko) | 조작 이미지 판별 장치 및 방법 | |
CN114616595A (zh) | 联合训练神经网络以减少数据和进行图像数据的对象识别 | |
CN117354467A (zh) | 图像数据智能优化传输系统 | |
JP6992099B2 (ja) | 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法 | |
CN110689510B (zh) | 一种引入字典信息基于稀疏表示的图像融合方法 | |
CN115546236B (zh) | 基于小波变换的图像分割方法及装置 | |
CN116155873A (zh) | 一种云边协同的图像处理方法、系统、设备及介质 | |
CN114863104B (zh) | 一种基于标签分布学习的图像分割方法 | |
CN111435457A (zh) | 对传感器获取的采集进行分类的方法 | |
US11915487B2 (en) | System and method for self-supervised depth and ego-motion overfitting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |