CN116762083A - 用于为机器学习过程生成编码训练数据的方法、处理单元和记录系统 - Google Patents
用于为机器学习过程生成编码训练数据的方法、处理单元和记录系统 Download PDFInfo
- Publication number
- CN116762083A CN116762083A CN202280008841.XA CN202280008841A CN116762083A CN 116762083 A CN116762083 A CN 116762083A CN 202280008841 A CN202280008841 A CN 202280008841A CN 116762083 A CN116762083 A CN 116762083A
- Authority
- CN
- China
- Prior art keywords
- data
- image data
- encoded
- sequence
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 230000008569 process Effects 0.000 title description 16
- 238000010801 machine learning Methods 0.000 title description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 112
- 238000012360 testing method Methods 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims description 84
- 230000007613 environmental effect Effects 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 20
- 230000006978 adaptation Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013095 identification testing Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- COCAUCFPFHUGAA-MGNBDDOMSA-N n-[3-[(1s,7s)-5-amino-4-thia-6-azabicyclo[5.1.0]oct-5-en-7-yl]-4-fluorophenyl]-5-chloropyridine-2-carboxamide Chemical compound C=1C=C(F)C([C@@]23N=C(SCC[C@@H]2C3)N)=CC=1NC(=O)C1=CC=C(Cl)C=N1 COCAUCFPFHUGAA-MGNBDDOMSA-N 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 231100000989 no adverse effect Toxicity 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于生成编码后的训练数据(11)的方法,其中,处理单元(17)执行以下步骤以用于生成编码后的训练数据(11)并在测试车辆(10)的测试驾驶(T)期间将它们存储到数据存储器(19)中,该测试车辆(10)携带生成原始图像数据(16)的摄像头(12)。通过执行测试例程来测试给定视频编码器(27)是否适合于对原始图像数据进行编码以生成用于训练另一个第二人工神经网络(34’)的编码后的训练数据。
Description
技术领域
本发明涉及一种用于为机器学习过程生成编码后的训练数据的方法。编码后的训练数据是经过视频编码器编码后的图像数据。编码后的训练数据可以用于训练人工神经网络(ANN),使得人工神经网络能够基于摄像头图像数据识别至少一个对象。本发明还包括一种用于执行该方法的处理单元和一种用于记录编码后的训练数据的记录系统。
背景技术
在自动驾驶车辆(ADV)中,人工神经网络(ANN)可用于通过评估表示由摄像头生成的图像的图像数据来观察车辆的环境。为此,ANN可以连接到摄像头以接收摄像头图像流的原始图像数据。术语“原始”意味着没有应用像MPEG编码这样的图像编码(MPEG-运动图像专家组)。然而,原始图像数据可能已经被其他算法处理过,例如边缘检测算法。ANN经过训练以识别或推断原始图像数据中的对象。由于使用了原始图像数据,ANN预计不会出现图像编码伪影。
为了训练这样的ANN,需要训练数据。可以通过在汽车上安装摄像头并在测试驾驶期间将摄像头图像记录到数据存储器来生成训练数据。由于需要大量训练数据,存储原始摄像头图像数据流将需要大量数据存储(数TB)并且处理如此大量的数据(例如传输到其他计算机)将非常耗时。因此必须压缩摄像头图像数据流以减少数据量。这是通过在将原始摄像头图像存储在汽车的数据存储器中之前对其进行编码来获得的。可能的编码器是MPEG(MP4或H.264/MPEG-4AVC或ISO/IEC-14496)。数据存储器因此包含编码图像数据。
结果是,对于训练ANN,只有编码图像数据可用,但在以后在ADV中使用经过训练的ANN期间,ANN必须对原始(未编码)图像数据执行。编码图像数据是一个“有损”过程,即编码后的摄像头图像可能包含编码引入的伪影。因此,ANN可能会表现出意想不到的行为。单纯在ADV中使用编码器也不是最高分辨率的选择,因此最高的对象识别概率是通过原始摄像头图像获得的。
Blundell等人的科学出版物(C.Blundell、J.Cornebise、K.Kavukcuoglu、D.Wierstra,..“Weight Uncertainty in Neural Networks(神经网络中的权重不确定性)”,ICML 2015,第32届国际机器学习会议论文集,法国里尔,2015年。JMLR:W&CP第37卷,可在互联网页面https://deepmind.com/research/publications/weight-uncertainty-neural-net works/上找到)描述了一种不确定性度量,其可用于量化人工神经网络传递的识别结果的不确定性或确定性。其他不确定性度量在现有技术中也是已知的。
文献US2018/0107182A1公开了一种基于由人工神经网络分析的摄像头图像来识别不同飞行器(无人机)的方法。作为附加特征,无人机引擎声音的录音也可以通过神经网络进行分析,因为无人机会产生独特的个体声音。关于摄像头与神经网络之间的数据连接,其中提到可以传输原始数据或处理后的数据。
文献EP3633990A1公开了一种用于调整编码器参数以优化预定义失真度量的系统。一种可能的失真度量基于将原始图像数据的识别结果与编码然后解码的图像数据的识别结果进行比较。
文献US2020/0309541A1公开了一种配备有用于生成图像数据的摄像头的车辆,该图像数据将存储在用于SLAM算法的训练服务器的存储设备中。
Michel Kana的互联网出版物(Michel Kana博士,“Uncertainty in DeepLearning.How To Measure?(深度学习中的不确定性。如何衡量?)”,https://towardsdatascience.com/)描述了用于确定人工神经网络不确定性水平的不同不确定性度量。
Avinash Sharma V的互联网出版物(Avinash Sharma V,..“UnderstandingActivation Functions in Neural Networks(理解神经网络中的激活功能)”,https://medium.com/)描述了一种激活功能,其可以用于人工神经网络层的人工神经元中以生成激活值。
发明内容
本发明的目的是获得合适的训练数据来训练用于对象识别的ANN。
该目的通过独立权利要求的主题来实现。本发明由独立权利要求限定。在以下描述、从属权利要求和附图中详细说明本发明的方便且重要的进一步实施例的有利开发方案。
本发明提供了一种用于生成可以用于机器学习的编码后的训练数据的方法。这些训练数据是由图像编码器或视频编码器通过对图像数据应用所谓的有损压缩来编码后的图像数据。“有损”是指在对图像数据进行解压缩后,图像与原始版本不同,因为图像细节(比如颜色阴影和/或线条)丢失或模糊,即为了执行识别过程而解码后的图像中可能包含编码/解码伪影。尽管如此,训练数据仍可用于机器学习,例如用于训练人工神经网络。这需要具有合适预设值的合适视频编码。
根据该方法,一种处理单元执行以下步骤,以在带有正在生成原始摄像头图像数据的摄像头的测试车辆的试验驾驶期间生成编码后的训练数据并将其存储到数据存储器中。“测试车辆”是指该车辆本身无需提供自动驾驶功能。测试车辆可仅用于收集编码后的训练数据。
根据一个方面,本发明提供了一种用于生成可用于机器学习的编码后的训练数据的方法。处理单元在携带正在生成原始图像数据的摄像头的测试车辆的试验驾驶期间执行以下步骤以生成编码后的训练数据并将其存储在数据存储器中。
该方法包括以下步骤。处理单元从摄像头接收原始图像数据。该方法基于已在(其他)原始图像训练数据上训练过的人工神经网络(ANN)。该ANN可以在测试车辆中或测试车辆外部(例如,在车辆或处理单元可以通过互联网连接而连接到的服务器中)运行。换句话说,ANN的训练已经使用先前从另一个来源获得的原始图像训练数据完成了。
使用ANN,基于接收到的原始图像数据执行识别测试或图像识别,从而基于预定的评估规则来生成参考识别数据或参考评估数据。评估规则可以定义识别结果的哪一部分应当被用作识别数据/评估数据。换句话说,ANN被提供了原始图像数据的至少一个子集或数据序列作为输入,并且参考评估数据或参考识别数据描述了ANN如何对这些原始图像数据作出反应。评估规则判定应使用哪种类型的评估数据,这将在下面进一步详细解释。换句话说,评估规则确定这些量中的哪一个将被使用或生成以在以下步骤中使用:在至少一个数据序列中已经识别出的图像内容和/或ANN的至少一个隐藏层的激活值和/或与图像内容有关的预定的不确定性度量值。
该目的通过使用ANN基于接收到的原始图像数据的至少一个数据序列执行识别测试或图像识别并由此基于预定的评估规则生成相应的参考识别数据或参考评估数据来实现。
对于每个数据序列,测试给定编码器(视频编码器)是否适合将原始图像数据编码为用于第二人工神经网络(即另一人工神经网络)训练的编码后的训练数据。这是通过执行测试例程来实现的,该测试例程包括用编码器对原始图像数据的相应数据序列进行编码,然后用相应的解码器对编码后的图像数据进行解码,并对解码的图像数据执行图像识别或识别测试,从而产生当前识别或评估数据,并且处理单元验证当前评估数据和相应的参考识别数据(参考评估数据)是否满足预定的相似度标准。只有满足预定的相似度标准,才能用信号表示当前使用的编码器(视频编码器)适合生成编码后的训练数据。这样做的原因是满足的相似度标准确认,尽管对图像数据进行了编码和解码,但识别结果与原始图像数据产生的结果相似(在相似度标准的意义上)。
本发明还包括提供赋予了额外技术益处的特征的实施例。
一个实施例可用于在选择循环中系统地寻找或导出合适的视频编码器。该实施例包括:本发明的方法为编码器(视频编码器)选择至少一个合适的预设值和/或从多个准备好的编码器(视频编码器)中选择一个以使得可以提供编码后的训练数据,该编码后的训练数据允许以这样的方式训练ANN(第二ANN),即ANN以后可以与未编码的(即原始的)摄像头图像数据结合使用,而没有或仅具有预定的有限识别能力损失(即保证行为的有限变化)。
参考识别数据或参考评估数据可以用作用于找到这种合适的编码器的基准或基线和/或用于编码器的合适的预设值,使得原始图像数据(以及更多的原始图像数据)可以被编码以使得由此产生的编码图像数据仍可用作新的(第二)ANN的训练数据,该ANN今后应当与自动驾驶功能结合使用。
这种合适的预设值的选择是在选择循环中、即在迭代或循环过程中执行的:从原始图像数据中获取的当前数据序列使用从预定的一组可能的(视频)编码器中选择的当前编码器进行编码和/或使用从当前(视频)编码器的一组预定的可能预设值中选择的当前预设值进行编码。这种可能的编码器的一个示例是已经提到的MPEG-4编码器(即ISO/IEC-14496)。可能的预设值的一个示例是编码参数“GOP值”(GOP图片组)。这里需要注意的是,这里只提到了一个单一的“预设值”,但这并不排除可能存在至少一个另外的当前预设值。换句话说,如果编码器的多个编码参数将被改变,则可以使用每个编码参数的相应预设值。为了简单起见,仅提及一个当前预设值,尽管该预设值可以表示多个不同的预设值(编码器的特定编码参数各一个)。预定的一组编码器可以是可用编码器的列表,预定的一组预设值可以是例如间隔或数字范围(例如,GOP在1到10的范围内)。
然后,使用相应的解码器再次解码编码后的图像数据。这会产生描述至少一幅图像的解码图像数据,其中可能存在编码伪影。使用ANN再次执行识别测试或图像识别,但这次是针对解码图像数据或测试数据,从而基于评估规则而生成当前识别或评估数据。现在,除了参考识别数据或参考评估数据之外,还可以获得当前或中间评估数据,其中“当前”或“中间”是指当前对编码器和/或预设值的选择。
处理单元然后验证当前评估数据是否满足关于参考识别数据或参考评估数据的预定的相似度标准。通过选择相似度标准,技术人员可设置编码器和/或预设值被认为对编码后的训练数据而言可接受的条件。
如果满足相似度标准,则中断或结束选择循环,并且将当前编码器和当前预设值用于通过在测试驾驶期间对接收到的和/或针对未来时间间隔的未来的原始图像数据进行编码来生成编码后的训练数据。
这里需要注意的是,本发明涉及用于在数据存储器中存储或写入编码图像数据的记录过程,其中仅可操作已经训练过的网络ANN。在本发明的情况下,原始图像识别甚至可能产生错误的结果,因为所监测的只是识别结果的相似程度。路面实况是不可用的。
在相反的情况下,即如果不满足相似度标准,则执行用于选择另一编码器(视频编码器)和/或其他预设值的预定的选择步骤并且重复选择循环。换句话说,继续搜索合适的编码器和/或预设值(满足相似度标准)。注意,对于选择循环的第一次迭代,编码器和/或预设值的选择可以基于默认值或随机值。
本发明提供了在测试驾驶期间自动配置编码的好处。编码器和/或预设值的选择以自动方式适应当前记录条件(例如当前光照条件)。
如果无法找到编码器和/或预设值(即,选择循环完整搜索了编码器组和/或预设值组但没有成功),则可以暂停记录或者可以记录原始图像数据来代替编码图像数据。后一实施例确保了训练数据在任何情况下都可用。
在一个实施例中,处理单元基于环境数据重复检测测试车辆环境中的环境条件,如果在训练数据的记录期间检测到环境条件的预定的变化,则执行用于使编码适配于当前环境条件的预定的切换例程。环境条件的示例是:阳光、雨、雾、光的特定亮度值、光的入射角。用于检测当前环境条件的环境数据可以包括来自测试车辆的至少一个传感器(例如来自雨水传感器)的传感器数据和/或原始图像数据和/或摄像头的至少一个自动化参数(例如曝光时间)。环境数据可以包括来自数据信息服务(例如天气预报服务)的数据。这样的数据信息服务可以由处理单元可以经由互联网连接而连接到的互联网服务器来提供。可以基于阈值比较和/或通过使用用于对环境数据进行分类的统计分类器(例如人工神经网络)的分类结果来检测环境条件的变化。
在一个实施例中,所述切换例程包括:多个可能的环境条件各自都与编码器组中的相应编码器和/或可能的环境设定值组中的相应预设值相关联。如果当前环境条件与可能的环境条件之一匹配,则相关联的编码器和/或预设值用于进一步编码。换句话说,处理单元已经对几种不同的环境条件做好了准备。这减少了使编码适配于环境条件的变化所需的反应时间。
在一个实施例中,用于确定评估数据(参考识别数据和“当前”评估数据)的评估规则包括:在评估数据中包含完整的识别结果,即说明已经被检测或识别出什么对象的识别结果。相似度标准包括:识别统计的预定百分比必须一致。例如,相似度标准可以说明基于原始图像数据检测到的预定的对象(例如行人)的预定的百分比值(例如在80%到99%的范围内)也将基于编码图像数据进行检测。这提供了比较实际识别结果的好处。
附加地或替代地,评估规则包括:在参考识别数据和当前评估数据中包含ANN的至少一个隐藏层的激活值和/或人工神经网络的不确定性水平,并且相似度标准包括:ANN对编码图像数据的反应与原始图像数据差异低于预定的阈值。这要求处理预定数量的图像(例如少于100或少于50或少于10)或有限长度(例如少于10秒或少于3秒)的视频序列。这可以节省用于执行选择循环的时间。
在一个实施例中,所述选择步骤包括对可能的预设值进行排序(例如升序或降序)。对当前预设值的选择基于梯度下降算法。换句话说,通过以递减或递增的方式改变预设值,来减小或最小化参考识别数据(参考评估数据)与当前评估数据之间的差异,从而实现差异的逐步减小。这导致系统地获取合适的预设值。
在一个实施例中,选择步骤基于多轮编码,其中在第一轮(选择循环的初始迭代)中,记录ANN针对单个摄像头图像序列的激活级别(激活值),并且在接下来的一轮或多轮(选择循环的迭代)中,预设值会发生变化,从而增加对那些激活级别低的图像或序列的影响。这已被证明是针对当前环境条件获取合适的预设值的有效方式。
如果编码图像数据不适合于训练过程,则本发明的一个方面涉及防止将编码图像数据存储为编码后的训练数据。
一个实施例包括处理单元从摄像头接收原始图像数据并从原始图像数据中选择至少一个数据序列。序列是原始图像数据的系列或子集。因此,每个序列都包括接收到的原始图像数据的一部分或子集。一个序列可以表示摄像头输出的视频流的多个连续图像。或者,原始图像数据序列可以表示单个静止图像。对于每个原始图像数据序列,执行以下步骤。使用经过训练以基于原始图像数据识别至少一个对象的人工神经网络对该序列执行第一次图像识别。就像已经解释过的那样,该ANN的训练是使用其他事先记录的原始图像数据执行的。“识别”是指将基于原始图像数据来检测(用信号通知存在或有)和/或分类(可以识别对象类型或对象类别)至少一个对象。该过程在这里被称为“图像识别”或推理。人工神经网络可以是用于处理输入数据(原始图像数据)以获得描述输入数据的图像内容的输出数据或识别数据的数据结构和/或算法,即它们提供所述关于至少一个对象的信息。人工神经网络的训练可以基于已经标记的原始图像数据,使得用于训练的原始图像数据伴随有指示真实图像内容的标记数据。这种用于人工网络的训练过程在现有技术中是已知的。
通过对原始图像数据序列执行第一次图像识别,作为执行第一次图像识别的结果获得参考识别数据(参考评估数据)。由此可知,如果人工神经网络对序列的未编码或非编码后的图像数据执行图像识别,识别结果应该是怎样的。
在又一个步骤中,基于或使用配置有给定预设值的图像编码器或视频编码器对序列进行编码。换句话说,预先配置的图像编码器或视频编码器用于对序列的图像数据进行编码。注意,“图像编码器”和“视频编码器”在这里用作同义词。在编码之后(以及在用相应的解码器解码编码的图像序列之后),使用所述人工神经网络对该编码然后解码的序列执行第二次图像识别。换句话说,图像识别过程被重复,但是编码图像数据在解码之后(即解码图像数据或解码序列)被再次使用。作为执行第二次图像识别的结果,获得也称为当前评估数据的第二识别数据。
如果一方面这些第二识别数据(当前评估数据)和另一方面前述参考识别数据(参考评估数据)满足预定的相似度标准,则视频编码器适合于对摄像头的图像数据进行编码,因为人工神经网络在由相似度标准定义的边界上表现得“相似”。满足的相似度标准表明或指示,如果人工神经网络是用解码图像数据而不是原始图像数据进行训练,使用视频编码器对人工神经网络的性能没有不利影响。因此,具有其当前预设值的图像编码器被认为适合于对图像数据进行编码,该图像数据稍后将被用作用于训练另一个人工神经网络即所述第二人工神经网络的编码后的训练数据。具有其当前预设值的图像编码器因此可以用于对原始图像数据进行编码并将编码原始图像数据存储在数据存储器中。因此,编码后的序列被存储为编码后的训练数据(供今后在训练过程中使用)。如果满足相似度标准,则人工神经网络为编码后的序列(解码后)提供与非编码或原始序列相似的识别结果。“相似”是由相似度标准的选择或设置来定义的。技术人员可选择仍被视为“相似”的范围。附加地或替代地,更多的原始图像数据被编码并且编码后的更多原始图像数据也作为编码后的训练数据存储在数据存储器中。换句话说,视频编码器被操作用于对更多原始图像数据进行编码以获得更多编码后的训练数据。
因此,基于当前预设数据对图像数据进行编码并存储,图像数据被识别为适合使用它们作为编码后的训练数据。然而,如果不满足相似度标准,即如果违反相似度标准,则优选地不执行将图像数据存储在数据存储器中。这节省了数据存储器中的数据存储空间。
因此,在测试驾驶期间,仅在编码后的训练数据结果在编码后将提供与由或从原始图像数据(参考识别数据或参考评估数据)获得的识别结果相似(根据相似度标准)的识别结果的情况下,对摄像头生成的原始摄像头图像进行编码并且将其存储到数据存储器中。当显然或检测到存储的数据不能用作训练数据(因为它们违反相似度标准)时,可以停止存储。或者,可以继续存储,但是可以存储原始图像数据而不是编码后的图像数据。
所述用于执行该方法的处理单元可以基于连接到存储器的至少一个微处理器,该存储器包含计算机可读指令,当由至少一个处理器执行时,所述计算机可读指令将导致所述至少一个微处理器执行本发明的方法。
本发明还包括提供赋予了附加技术优点的特征的实施例。
在一个实施例中,以这样的方式控制数据在数据存储器中的存储,即如果和/或当违反(即未满足)相似度标准时,中断或停止已经在进行的编码后的图像数据的存储(如果这样的存储正在进行中)。换句话说,编码后的图像数据的存储仅在满足相似度标准时执行。优选地,对所有原始图像数据验证相似度标准。然而,也可能是仅原始图像数据的样本被用作序列的情况。然后,可以继续存储直到检测到违反相似度标准的序列。后者就是这种情况,当针对一个序列验证相似度标准时,从那时起,如果该序列满足相似度标准,则使用视频编码器对图像数据进行编码,在该序列单元之后检测到违反相似度标准的序列。可以中断存储,直到检测到再次满足相似度标准的下一个序列。然后可以继续存储。这为存储过程产生了开和关的切换效果。
在一个实施例中,对于不满足相似度标准的情况,根据预定的适配规则对视频编码器的预设值进行适配。换句话说,如果检测到视频编码器不适合生成编码后的训练数据(特别是在当前情况下),则调整或改变视频编码器的预设值。例如,适配规则可以包括执行预设值的至少一个参数值的逐步增大或减小。附加地或替代地,适配规则可以包括根据第二识别数据或评估数据来适配预设值。换句话说,适配规则可以对第二识别结果、即第二识别数据或评估数据作出反应或加以考虑。该实施例可以基于梯度下降法。适配规则可以导致使视频编码器能够提供满足相似度标准的编码后的图像数据的预设值。
在又一开发方案中,可以提供预设值的迭代改进或适配。为此,在基于所述适配规则适配预设值之后,再次对序列的原始图像数据进行编码并且再次验证相似度标准。因此,可以检测或验证视频编码器现在适合生成编码后的训练数据。可以重复反复适配预设值和验证相似度标准的步骤,直到满足相似度标准和/或直到满足中断标准。中断标准可以包括已经执行了特定时间量和/或特定次数的尝试或重复。
在一个实施例中,选择至少一个序列意味着选择了多个序列。换句话说,从原始图像数据中生成了多个序列。这些序列可以是连续的,即所有原始图像数据都与一个序列相关联。或者,每个序列可以在给定的测量时间间隔之后生成。因此,一个序列的结束与下一序列的开始之间的时间差可以在例如1秒到60分钟的范围内。附加地或替代地,只要预定的处理资源满足所述处理单元中预定的可用性标准,就可以生成每个序列。换句话说,只要用于验证相似度准则的处理资源可用或已完成对前一序列的验证,将选择新序列。附加地或替代地,当车辆的周围环境改变时,可以选择或生成相应的序列。这可以例如基于数字街道地图和/或从原始图像数据检测到(例如,光照条件和/或局部和/或全局图像对比度值自生成最后一个序列以来可能改变为大于阈值的量)。
在一个实施例中,来自数据存储器的编码后的训练数据用于训练人工神经网络,即第二人工神经网络。换句话说,基于存储的编码后的训练数据来训练第二人工神经网络。为此,将对编码后的训练数据进行解码。例如,训练可以在实验室进行。通过将来自该自动驾驶车辆的摄像头的原始图像数据提供给第二人工神经网络并从第二神经网络获得实时识别数据作为识别结果,经过训练的第二神经网络在自动驾驶车辆中运行。基于实时识别数据控制自动驾驶车辆。换句话说,以这样一种方式使用存储的编码后的训练数据,即它们为第二神经网络提供训练数据,然后第二神经网络在自动驾驶车辆中运行以控制车辆,即识别自动驾驶车辆周围的至少一个对象。
在一个实施例中,参考识别数据(参考评估数据)和第二识别数据(当前评估数据)分别描述了至少一个数据序列中已经识别出的图像内容。这样的图像内容可以涉及例如交通参与者(车辆、行人、自行车、摩托车)和/或障碍物(例如树木、房屋)和/或道路基础设施(例如道路、交通信号灯、交通标志)。由于与原始图像数据实际表示的真实图像内容有关的路面实况是未知的,因此使用相似度准则比较参考识别数据(参考评估数据)和第二识别数据(当前评估数据)可能仅限于验证是否识别出相同或相似的图像内容(由相似度标准定义),与地面实况图像内容无关。例如,识别对象的数量可以作为相似度标准的一个方面进行比较。附加地或替代地,评估与图像内容有关的预定的不确定性度量的值。在本文的介绍中已经讨论了可能的图像度量。评估不确定性度量提供的优点在于,与评估识别出的图像内容相比,更灵敏的评估是可能的。例如,即使在参考(参考识别数据)和第二识别数据(当前评估数据)中识别对象的数量可能相同,第二识别数据(当前评估数据)也可能指示不确定性已经上升。相似度标准可以包括指示不确定性的上升或变化必须低于该阈值的阈值。
相似度标准可以包括描述参考识别数据(参考评估数据)和第二识别数据(当前评估数据)之间的差异的相应差值位于预定的区间内的条件。通过设置该区间的大小,可以设置关于识别数据的比较的容差。
如已经描述的,每个选择的序列都可以包括多个连续的摄像头图像或仅一个摄像头图像。每个序列都可以包括对应于长度为例如0.5秒到30秒的连续视频的视频序列的原始图像数据。
关于所述视频编码器,在一个实施例中使用视频编码器和MPEG编码器。因此,编码器可以根据MPEG标准(即ISO/IEC-14496)来设计。尤其是关于调整编码器的所述预设值,MPEG编码器已被证明为获得编码后的训练数据提供优势适应性。通过将原始图像数据编码为编码后的原始图像数据或编码后的数据,减少了数据量。例如,数据量为1MB的原始图像数据可以借助于视频编码器进行压缩以产生0.25MB的编码后的图像数据(产生0.25的压缩率,即输出数据量/输入数据量)。压缩率可以借助于预设值设置为0.1至0.7范围内的压缩值。所述相应的解码器为使编码过程逆向的解码器。相应的解码器在现有技术中是已知的。
在一个方面,本发明涉及一种处理单元,该处理单元包括至少一个处理器和连接到该至少一个处理器的数据存储器,其中该处理单元被设计为执行所描述方法的一个实施例。处理单元的至少一个处理器可以各自都基于微处理器或微控制器或ASIC(专用集成电路)。为了执行本发明的方法,数据存储器可以包括计算机可读指令,当由至少一个处理器执行时,所述计算机可读指令使所述至少一个处理器执行本发明方法的所述实施例。处理单元可以设置在测试车辆中或者它可以通过可以包括因特网和/或蜂窝网络的数字通信网络连接到这样的测试车辆。通信网络可用于提供通信链路。
在一个方面,本发明涉及一种记录系统,该记录系统包括具有摄像头的测试车辆并且包括本发明的处理单元的实施例,并且包括用于对摄像头的原始图像数据进行编码以生成编码后的图像数据的至少一个视频编码器和用于将编码后的图像数据存储为编码后的训练数据的数据存储器。如已经描述的,编码过程由处理单元基于本发明方法的实施例控制,使得仅存储可以用作编码后的训练数据的那些编码后的图像数据。
本发明还针对于一种记录系统,该记录系统包括具有摄像头的测试车辆并且包括根据本发明的处理单元的一个实施例。另外,该记录系统包括用于对摄像头的原始图像数据进行编码以生成编码后的图像数据的视频编码器和用于存储编码后的图像数据的数据存储器。如已经描述的,该存储过程由处理单元基于本发明方法的实施例控制,使得仅存储可以用作编码后的训练数据的那些编码后的图像数据。
在记录系统的又一个实施例中,处理单元设置在测试车辆中。在一个替代实施例中,处理单元和数据存储器设置在测试车辆外部,并且处理单元被设计成通过无线通信链路从测试车辆的摄像头接收原始图像数据。可以基于Wi-Fi技术和/或移动通信技术(例如,4G或5G)来提供通信链路。处理单元和摄像头(或测试车辆中控制摄像头的控制单元)可以基于互联网连接进行连接。将处理单元和数据存储器设置在车辆外部提供了这样的优点,即任何包括摄像头和用于建立无线通信链路的通信单元的车辆都可以用作测试车辆。而且,多个测试车辆可以由一个处理单元使用。
本发明还包括不同实施例的特征的组合。
附图说明
下面描述本发明的一个示例性实施方案。附图示出:
图1是本发明机动车辆的一个实施例的示意图;和
图2是驾驶情况的示意图;和
图3是用于说明本发明方法的一个实施例的图。
具体实施方式
下面说明的实施例是本发明的一个优选实施例。然而,在实施例中,所描述的实施例的部件各自都代表本发明的独立特征,这些特征将被彼此独立地考虑并且各自也彼此独立地扩展本发明,因此也以单独的方式或以与所示组合不同的方式被视为本发明的一个组成部分。此外,所描述的实施例也可以由已经描述的本发明的其他特征来补充。
在图中,相同的附图标记表示提供相同功能的元件。
图1示出了测试车辆10,其可以是例如乘用车或卡车或无人机。车辆10可以执行通过区域或环境14的测试驾驶T。车辆10可以用于获得视频编码后的训练数据11。为此,车辆10可以包括摄像头12,该摄像头12可以提供检测范围13,该检测范围13可以指向车辆10的环境14。在环境14中,可以定位至少一个对象15,例如行人或另一车辆。摄像头12可以生成原始图像数据16,该原始图像数据16可以如在检测范围13中看到的那样描述具有至少一个对象15的环境14。原始图像数据16可以以未压缩格式描述一系列或连续的多个单个的、独立的摄像头图像。可能已经应用了过滤器,例如边缘检测过滤器。原始图像数据16在它们未被编码的意义上是“原始的”,即没有应用像例如MPEG-4的区块编码。
基于原始图像数据16,处理单元17可以生成编码后的图像数据18,其可以作为编码后的训练数据11存储在数据存储器19中。数据存储器19可以基于至少一个硬盘驱动器和/或闪存驱动器。处理单元17可以包括可连接到存储器21的至少一个处理器20。存储器21可以提供可由至少一个处理器20执行的计算机可读指令。测试车辆10与摄像头12、处理单元17和数据存储器19一起可以构成用于编码后的训练数据11的记录系统S。
为了从原始图像数据16中生成编码后的图像数据18,处理单元17可以执行如下基于图1和图2描述的方法。图2在流程图中示出了该方法的步骤。
在步骤S10中,处理单元17可以接收原始图像数据16,从而产生接收到的原始图像数据22。可以在执行以下步骤的同时连续地执行接收原始图像数据16。
在步骤S11中,预定的事件,例如在预定的时间间隔之后和/或当检测到环境条件的变化时,可以通过以下步骤验证原始图像数据22的编码是否仍然产生合适的编码后的训练数据11。如果情况不再如此,则可以更改编码器或其预设值中的至少一个,以使编码适配于当前环境,使得编码产生合适的编码后的训练数据11。对于每次验证,可以使用一组当前可用的原始图像数据22,例如图像的预定数据量或预定数量(例如最近的100个图像或最近的10个图像)的预定的最近的原始图像数据22。这种对原始图像数据22的选择被称为原始图像数据序列23。
在步骤S11中,从接收到的原始图像数据22中选择至少一个序列23,即选择连续接收的原始图像数据16的子集作为序列23。
然后在接下来的步骤中针对每个所选序列23验证当前接收到的原始图像数据22是否可以以它们适合于作为编码后的训练数据存储在数据存储器19中的方式被编码。
为此,在步骤S12中,将所选序列23的原始图像数据提供给人工神经网络24(ANN),其对原始图像数据22执行第一次测试识别或图像识别25。人工神经网络24可能已经在原始图像训练数据上进行了训练,即它没有被配置为补偿编码伪影(如区块伪影和/或模糊)。测试识别或图像识别25产生参考识别数据,这些参考识别数据构成描述人工神经网络24在序列23的原始图像数据中检测什么图像内容的参考识别数据或参考评估数据26。例如,根据参考评估数据或参考识别数据26的参考识别结果可以指示在环境14中检测或识别到至少一个对象15。附加地或替代地,参考评估数据或参考识别数据26可以指示人工神经网络24关于图像识别25的不确定性和/或它可以指示人工神经网络24的至少一层的激活值。用于人工神经网络的适当的不确定性度量在现有技术中是已知的。
在步骤S13中,序列23的原始图像数据可以被馈送到或提供给视频图像编码器或视频编码器27,其可以从序列23生成编码后的序列或编码后的图像数据28。视频编码器27可基于预设值27’进行配置。编码后的序列中包含的编码后的图像数据28可以由对应于或提供当前视频图像编码器或视频编码器27的逆函数的解码器解码,并且解码后序列或解码后的图像数据可以被提供给人工神经网络24,人工神经网络24可以基于编码后的图像数据28执行第二次测试识别或图像识别29’。这可以产生由第二或当前识别或评估数据29描述的第二识别结果。这些当前识别或评估数据29可以以与参考识别数据或参考评估数据26相同的方式指示关于至少一个对象15的识别结果,该至少一个对象15可能已经被环境14中的人工神经网络24检测或识别出。附加地或替代地,所描述的不确定性和/或激活级别可以被量化。参考评估数据或参考识别数据26和当前评估数据29尤其描述相同的量。
在步骤S14中,可以验证参考评估数据或参考识别数据26和当前评估数据29是否满足预定的相似度标准30。
相似度标准30可以包括基于参考识别数据或参考评估数据26和当前评估数据29来计算差值31。例如,识别出的对象的数量和/或量化不确定性和/或激活级别的相应值可以通过参考评估数据或参考识别数据26和当前评估数据29两者提供。相应的值可以彼此相减,并且任选地,可以计算绝对值。相似度标准30还可以包括在差值31小于预定的阈值或位于预定的区间32内的情况下,可以执行编码后的图像数据18的存储和/或进一步使用编码器27和/或预设值27’以对传入的原始图像数据22进一步编码。
在图1中,这由开关32’表示,当闭合时,开关32’可以允许将编码后的图像数据18传递到数据存储器19,并且当断开时,开关32’可以阻止存储到数据存储器19中。然而,这只是用于使效果可视化的符号。可以使用预设值27’基于编码器27生成编码后的图像数据18。
在不能满足相似度标准的情况下,可以执行选择循环L。
在预定的选择步骤SEL中,选择另一个电流编码器27和/或来自预定的一组可能的编码器的其他预设值和/或来自用于当前编码器27的预定的一组可能的预设值的新的当前预设值27’,然后选择循环L可以重复步骤S14。因此,可以针对当前环境条件(例如光照条件和/或可见度条件)找到满足相似度标准30的编码器27和/或预设值27’。
除了在任何可用的可能编码器和/或任何可用的可能预设值不能满足相似度标准的情况下阻止编码后的图像数据18之外,可以将未编码或原始图像数据转发到数据存储器19以进行存储。因此,根据应用相似度标准30的结果,在编码后的图像数据18与原始图像数据22之间做出选择。
然后,该方法可以通过如下方式继续:选择接收到的原始图像数据22的下一个序列23,以验证是否仍然满足相似度标准30。为此,所描述的事件中的至少一个可以触发步骤S11。
如图1进一步所示,基于存储的编码后的训练数据11,在稍后的时间点,在另一个处理单元33中,可以通过向第二人工神经网络34’提供编码后的训练数据11和相应的标记数据35来训练新的人工神经网络34’(即第二人工神经网络),同时基于可从现有技术中获得的机器学习算法来训练第二人工神经网络34’。标记数据35可以描述真实的图像内容,因为它可以包含在存储的编码后的训练数据11中。
然后可以在车辆36中提供经过训练的第二人工神经网络34’,车辆36可以操作经过训练的第二人工神经网络34’,以便基于车辆36的摄像头38提供的原始图像数据37执行对象识别。结果,可以生成可用于控制车辆36的自主驾驶系统40的识别结果数据39。自主驾驶系统40可以自主地执行驾驶D车辆36。
因此,可以记录用于训练人工神经网络的视频数据。为了在有限的磁盘空间上存储视频数据,需要使用编码算法(例如MPEG-4)。然而,编码后的图像数据是一个“有损”过程,即编码后的摄像头图像可能包含来自编码的伪影。这可能会影响后面对神经网络的训练。所描述的方法提供了一种迭代算法,用于寻找合适的参数值来编码视频数据,从而不会对训练质量造成重大损害。优点是仅编码和存储导致与非编码的图像数据相似的识别结果值的图像数据。
图3示出了处理单元如何基于环境数据E和/或基于当前原始图像数据22和/或在选择步骤SEL中检测测试车辆的环境条件的变化。如果在记录训练数据期间检测到预定的环境条件的变化,则执行预定的切换例程以使编码适配于当前环境条件。选择另一个编码器和/或预定的一组S可能的预设值中的预设值27’。
预设值27’组可以是,例如:用于夜间驾驶的“夜间编码器”,用于在城市交通中驾驶的“城市编码器”,用于在雪地地形中驾驶的“雪地编码器”,和/或针对至少一种环境条件的至少一个机器选择的编码器。相应地,步骤SEL可以是根据选择标准选择最合适的编码器。例如,可以基于图像中显示的环境特征来估计当前的环境状况。步骤S13可以通过对至少一个图像进行编码和解码来准备该选择步骤SEL并将其提供给选择标准。或者,可以使用原始图像。然后步骤S14可以应用所描述的ANN选择标准来评估编码器是否仍然合适。
该示例示出了可以如何控制神经网络训练数据的记录过程以及如何提供用于生成编码后的训练数据的自适应编码方案。
本发明还涉及以下条目:
条目1:一种用于生成用于机器学习的编码后的训练数据(11)的方法,其中,处理单元(17)在测试车辆(10)的测试驾驶(T)期间执行以下步骤以生成编码后的训练数据(11)并将它们存储在数据存储器(19)中,所述测试车辆(10)携带正在生成原始图像数据(16)的摄像头(12):
-从所述摄像头(12)接收所述原始图像数据(16),和
-运行人工神经网络ANN,该人工神经网络已在原始图像训练数据上进行过训练,和
-使用所述ANN基于接收到的原始图像数据的至少一个数据序列执行识别测试并由此基于预定的评估规则来生成相应的参考评估数据(参考识别数据),
其特征在于,
通过执行测试例程对每个数据序列测试给定的编码器是否适合于对所述原始图像数据进行编码以生成用于训练第二人工神经网络(34’)的编码后的训练数据,所述测试例程包括
-用所述编码器对所述原始图像数据的相应数据序列进行编码,然后
-用相应的解码器对编码后的图像数据进行解码,和
-对产生当前评估数据的解码后的图像数据执行识别测试,和
-所述处理单元验证当前评估数据和相应的对应参考评估数据(参考识别数据)是否满足预定的相似度标准。
条目2.根据条目1所述的方法,其中,所述测试例程包括在选择循环中执行以下步骤:
-使用从预定的一组可能的编码器中选择的当前编码器和/或使用从用于当前编码器的相应编码参数的一组预定的可能预设值中选择的当前预设值对原始图像数据进行编码,
-对编码后的测试数据解码并使用ANN对解码后的测试数据执行识别测试,从而基于评估规则生成当前评估数据,
-验证当前评估数据是否满足关于所述参考评估数据(参考识别数据)的预定的相似度标准,
-如果满足所述相似度标准,则中断所述选择循环,并且通过对接收到的原始图像数据和/或针对测试驾驶期间的未来时间区间的未来原始图像数据进行编码,将当前编码器和当前预设值用于生成编码后的训练数据,
-否则,如果不满足所述相似度标准,则执行用于选择另一个编码器和/或其他预设值的预定的选择步骤,并且重复所述选择循环。
条目3:根据前述条目中任一项所述的方法,其中,所述处理单元基于环境数据重复检测所述测试车辆环境中的环境条件,并且如果在记录所述训练数据的过程中检测到预定的环境条件的变化,则执行用于使编码适配于当前环境条件的预定的切换例程,其中所述切换例程优选地包括
a.多个可能的环境条件各自都与所述一组编码器中的相应编码器和/或一组可能的环境设定值中的相应预设值相关联,并且如果当前环境条件与多个可能的环境条件之一匹配,则将所述相关联的编码器和/或预设值用于进一步编码,和/或
b.开始所述选择循环(根据条目2)。
条目4:根据前述条目中任一项所述的方法,其中,所述评估规则包括:所述评估数据中包含完整识别结果,并且,所述相似度标准包括:所述识别统计的预定的百分比必须一致。
条目5:根据前述条目中任一项所述的方法,其中,所述评估规则包括:所述评估数据中包含所述ANN的至少一个隐藏层的激活值和/或所述人工神经网络的不确定性水平,并且,所述相似度标准包括:ANN对所述编码后的图像数据的反应与对所述原始图像数据的反应之间的差异低于预定的阈值。
条目6:根据前述条目中任一项所述的方法,其中,所述选择步骤包括:当前预设值的选择基于梯度下降算法,和/或其中
所述选择步骤基于多轮编码,其中:
c.在第一轮中:记录所述ANN针对单个摄像头图像序列的激活级别,
d.在接下来的一轮或多轮中:改变所述预设值以增加对低激活级别的图像或序列的影响。
条目7:根据前述条目中任一项所述的方法,其中,所述测试例程包括:
-使用人工神经网络(24)对所述数据序列(23)执行第一次图像识别(25),所述人工神经网络被训练为基于接收到的原始图像数据(22)来识别至少一个对象(15);
-作为执行所述第一次图像识别(25)的结果而获得参考识别数据(26);
-使用配置有给定预设值(27’)的视频编码器(27)对所述数据序列(23)进行编码,其中所述编码产生编码后的序列(28);
-对所述编码后的序列(28)进行解码并使用所述人工神经网络(24)对解码后的序列(28)执行第二次图像识别(29’);
-作为执行所述第二次图像识别(29’)的结果而获得第二识别数据(29);和
-如果所述第二识别数据(29)和所述参考识别数据(26)满足预定的相似度标准(30),则存储所述编码后的序列(28)和/或对更多接收到的原始图像数据(22)进行编码并且将编码后的更多图像数据(18)作为所述编码后的训练数据(11)存储在所述数据存储器(19)中。
条目8:根据条目7所述的方法,包括以下步骤:如果和/或当不满足所述相似度标准(30)时,中断已经在进行的编码后的图像数据(18)的存储或者将原始图像数据存储在所述数据存储器(19)中。
条目9:根据条目7或8所述的方法,其中,如果不满足所述相似度标准(30),则根据预定的适配规则适配所述预设值(27’),其中在适配所述预设值之后,优选地再次对所述序列的原始图像数据进行编码并且再次验证所述相似度标准。
条目10:根据条目7至9中任一项所述的方法,其中,每次在给定的测量时间间隔之后和/或每当预定的处理资源满足所述处理单元中预定的可用性标准时和/或当所述车辆的周围环境发生变化时,选择多个序列(23)。
条目11:根据前述条目中任一项所述的方法,其中,基于存储的编码后的训练数据(11)来训练所述第二人工神经网络(34),并且通过将来自自动驾驶车辆(36)的摄像头(38)的原始图像数据(37)提供给所述第二人工神经网络(34)并从所述第二神经网络(34)获得实时识别数据(39)作为识别结果并基于所述实时识别数据(39)控制所述自动驾驶车辆(36)而在所述自动驾驶车辆(36)中运行经过训练的第二神经网络(34)。
条目12:根据前述条目中任一项所述的方法,其中,所述参考识别数据(26)和所述第二识别数据(29)各自都描述了已在所述至少一个数据序列(23)中识别出的图像内容和/或者关于所述图像内容的预定的不确定性度量的值,并且其中所述相似度标准(30)包括:描述所述参考识别数据(26)与所述第二识别数据(29)之间的差异的相应差值(31)位于预定的区间(32)内的条件。
条目12:一种处理单元(17),包括至少一个处理器(20)和连接到所述至少一个处理器(20)的数据存储器(21),其中所述处理单元(17)被设计为执行根据前述条目中任一项所述的方法。
条目13:一种记录系统(S),包括带有摄像头(12)的测试车辆(10),根据条目12所述的处理单元(17),用于对所述摄像头(12)的原始图像数据(22)进行编码以用于生成编码后的图像数据(28)的视频编码器(27),以及,用于将所述编码后的图像数据存储为编码后的训练数据(11)的数据存储器(19)。
条目14:根据条目13所述的记录系统,其中,所述处理单元设置在所述测试车辆中,或者其中所述处理单元和所述数据存储器设置在所述测试车辆外部,并且所述处理单元被设计成通过无线通信链路从所述测试车辆的摄像头接收原始图像数据。
Claims (13)
1.一种生成编码后的训练数据的方法(11),其中
处理单元(17)在测试车辆(10)的测试驾驶(T)期间执行以下步骤以生成编码后的训练数据(11)并将其存储在数据存储器(19)中,所述测试车辆(10)携带生成原始图像数据(16)的摄像头(12):
从所述摄像头(12)接收所述原始图像数据(16),和
操作人工神经网络(24)ANN,其已经在原始图像训练数据上进行训练并且被训练以基于原始图像数据(22)来识别至少一个对象(15),和
使用所述人工神经网络(24)基于接收到的原始图像数据的至少一个数据序列来执行图像识别(25),从而基于预定的评估规则来生成相应的参考识别数据(26),其中所述参考识别数据(26)描述了在所述至少一个数据序列(23)中已经识别出的图像内容和/或所述ANN的至少一个隐藏层的激活值和/或关于所述图像内容的预定的不确定性度量的值,并且其中所述评估规则确定应使用什么类型的识别数据,
其特征在于,
对所述原始图像数据(16)的每个数据序列通过执行测试例程来测试给定的视频编码器(27)是否适合于对所述原始图像数据进行编码以生成用于训练另一个第二人工神经网络(34’)的编码后的训练数据,所述测试例程包括:
使用所述人工神经网络(24)对所述数据序列(23)执行第一次图像识别(25);
作为执行所述第一次图像识别(25)的结果而获得所述参考识别数据(26);
使用配置有给定预设值(27’)的视频编码器(27)对所述数据序列(23)进行编码,其中编码产生编码后的序列(28),然后
使用对应的解码器对所述编码后的序列(28)进行解码,以及
使用所述人工神经网络(24)对解码后的序列(28)执行第二次图像识别(29’);
作为执行所述第二次图像识别(29’)的结果并且基于所述评估规则而获得当前评估数据(29),其中所述当前评估数据(29)描述了在所述至少一个数据序列(23)中已经识别出的图像内容和/或所述ANN的至少一个隐藏层的激活值和/或关于所述图像内容的预定的不确定性度量的值;和
所述处理单元验证所述当前评估数据(29)和相应对应的参考识别数据(26)是否满足预定的相似度标准(30),其中所述相似度标准(30)包括描述所述参考识别数据(26)与所述当前评估数据(29)之间的差异的相应差值(31)位于预定区间(32)内的条件,并且
如果所述当前评估数据(29)和所述参考识别数据(26)满足所述预定的相似度标准(30),则存储所述编码后的序列(28)和/或对另外接收到的原始图像数据(22)进行编码并且将编码后的另外的图像数据(18)作为编码后的训练数据存储在所述数据存储器(19)中。
2.根据权利要求1所述的方法,其中,如果不满足所述相似度标准(30),则中断已经在进行的编码后的图像数据(18)的存储直到再次检测到满足所述相似度标准(30)的下一个数据序列,或者将原始图像数据存储在所述数据存储器(19)中。
3.根据权利要求1或2所述的方法,其中,所述测试例程包括在选择循环中执行以下步骤:
使用从预定的一组可能的编码器中选择的当前视频编码器(27)和/或使用从用于当前视频编码器的相应编码参数的一组预定的可能预设值中选择的当前预设值,对所述序列的原始图像数据进行编码,从而产生编码后的图像数据,
对编码后的图像数据解码并使用ANN对解码后的图像数据执行图像识别,从而基于评估规则生成当前评估数据,
验证当前评估数据是否满足关于所述参考识别数据(26)的预定的相似度标准,
如果满足所述相似度标准,则中断所述选择循环并且将具有相应的当前预设值的当前视频编码器(27)用于对接收到的原始图像数据和/或针对测试驾驶期间的未来时间区间的未来原始图像数据进行编码,以生成编码后的训练数据,
否则,如果不满足所述相似度标准,则执行用于选择另一个视频编码器(27)和/或其他预设值的预定的选择步骤,并且重复所述选择循环。
4.根据前述权利要求中任一项所述的方法,其中,所述处理单元基于环境数据重复检测所述测试车辆的环境中的环境条件,其中所述环境条件包括照明条件和/或能见度条件和/或日照和/或雨和/或雾和/或光的特定亮度值和/或光的入射角,并且如果在记录所述训练数据的过程中检测到预定的环境条件的变化,则执行用于使编码适配于当前环境条件的预定的切换例程,其中所述切换例程优选地包括:
a.将多个可能的环境条件分别与一组视频编码器中的相应视频编码器和/或一组可能的环境设定值中的相应预设值相关联,并且如果当前环境条件与多个可能的环境条件之一匹配,则将相关联的视频编码器和/或预设值用于进一步编码,和/或
b.开始根据权利要求3所述的选择循环。
5.根据前述权利要求中任一项所述的方法,其中,所述相似度标准规定:基于所述原始图像数据检测到的预定对象的预定的百分比值也必须基于所述编码后的图像数据进行检测。
6.根据前述权利要求中任一项所述的方法,其中,所述评估规则包括:所述评估数据(29)中包含所述ANN的至少一个隐藏层的激活值和/或所述人工神经网络的不确定性水平,并且,所述相似度标准包括:所述ANN对所述编码后的图像数据的反应与对所述原始图像数据的反应之间的差异低于预定的阈值。
7.根据权利要求3所述的方法,其中,所述选择步骤包括:当前预设值的选择基于梯度下降算法,和/或其中
所述选择步骤基于多轮编码,其中:
a.在第一轮中:记录所述ANN针对单个摄像头图像序列的激活级别,
b.在接下来的一轮或多轮中:改变所述预设值以增加对具有低激活级别的图像或序列的影响。
8.根据前述权利要求中任一项所述的方法,其中,如果不满足所述相似度标准(30),则根据预定的适配规则适配所述预设值(27’),其中所述适配规则包括执行所述预设值中的至少一个参数值的逐步增大或减小和/或所述适配规则包括根据所述当前评估数据(29)来适配所述预设值,并且其中在适配所述预设值之后,再次对所述序列的原始图像数据进行编码并再次验证所述相似度标准。
9.根据前述权利要求中任一项所述的方法,其中,
在给定的测量时间间隔之后,和/或
每当预定的处理资源满足所述处理单元中的预定的可用性标准,从而每当用于验证所述相似度标准的处理资源可用或已完成对前一序列的验证而将要选择新序列时,和/或
当所述车辆的周围环境发生变化时,
选择多个序列(23)。
10.根据前述权利要求中任一项所述的方法,其中,基于存储的编码后的训练数据(11)来训练所述第二人工神经网络(34),并且以如下方式在所述自动驾驶车辆(36)中运行经过训练的第二神经网络(34):将来自自动驾驶车辆(36)的摄像头(38)的原始图像数据(37)提供给所述第二人工神经网络(34),从所述第二神经网络(34)获得实时识别数据(39)作为识别结果,以及基于所述实时识别数据(39)控制所述自动驾驶车辆(36)。
11.一种处理单元(17),包括至少一个处理器(20)和连接到所述至少一个处理器(20)的数据存储器(21),其中所述处理单元(17)被设计为执行根据前述权利要求中任一项所述的方法。
12.一种记录系统(S),包括带有摄像头(12)的测试车辆(10),根据权利要求11所述的处理单元(17),用于对所述摄像头(12)的原始图像数据(22)进行编码以用于生成编码后的图像数据(28)的视频编码器(27),以及,用于将所述编码后的图像数据存储为编码后的训练数据(11)的数据存储器(19)。
13.根据权利要求12所述的记录系统,其中,所述处理单元设置在所述测试车辆中,或者其中所述处理单元和所述数据存储器设置在所述测试车辆外部,并且所述处理单元被设计成通过无线通信链路从所述测试车辆的摄像头接收原始图像数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21158482.6A EP4047518A1 (en) | 2021-02-22 | 2021-02-22 | Method, processing unit and recording system for generating encoded training data for a machine learning process |
EP21158482.6 | 2021-02-22 | ||
PCT/EP2022/054245 WO2022175524A1 (en) | 2021-02-22 | 2022-02-21 | Method, processing unit and recording system for generating encoded training data for a machine learning process |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116762083A true CN116762083A (zh) | 2023-09-15 |
Family
ID=74673120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280008841.XA Pending CN116762083A (zh) | 2021-02-22 | 2022-02-21 | 用于为机器学习过程生成编码训练数据的方法、处理单元和记录系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240062552A1 (zh) |
EP (2) | EP4047518A1 (zh) |
CN (1) | CN116762083A (zh) |
WO (1) | WO2022175524A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558186B2 (en) | 2016-10-13 | 2020-02-11 | Farrokh Mohamadi | Detection of drones |
EP3633990B1 (en) * | 2018-10-02 | 2021-10-27 | Nokia Technologies Oy | An apparatus and method for using a neural network in video coding |
US11428537B2 (en) * | 2019-03-28 | 2022-08-30 | Nexar, Ltd. | Localization and mapping methods using vast imagery and sensory data collected from land and air vehicles |
-
2021
- 2021-02-22 EP EP21158482.6A patent/EP4047518A1/en not_active Withdrawn
-
2022
- 2022-02-21 EP EP22711889.0A patent/EP4295319A1/en active Pending
- 2022-02-21 WO PCT/EP2022/054245 patent/WO2022175524A1/en active Application Filing
- 2022-02-21 US US18/270,106 patent/US20240062552A1/en active Pending
- 2022-02-21 CN CN202280008841.XA patent/CN116762083A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4295319A1 (en) | 2023-12-27 |
US20240062552A1 (en) | 2024-02-22 |
EP4047518A1 (en) | 2022-08-24 |
WO2022175524A1 (en) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230336754A1 (en) | Video compression using deep generative models | |
CN108229333B (zh) | 用于识别运动视频中的事件的方法 | |
US9159137B2 (en) | Probabilistic neural network based moving object detection method and an apparatus using the same | |
JP7513815B2 (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
US7224852B2 (en) | Video segmentation using statistical pixel modeling | |
CN107948605B (zh) | 车载监控视频数据存储的方法、装置、设备及存储介质 | |
WO2019240215A1 (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
JP7568816B2 (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
KR102170992B1 (ko) | 다기능 차량번호인식 시스템 및 그 제어방법 | |
US9123133B1 (en) | Method and apparatus for moving object detection based on cerebellar model articulation controller network | |
JP7568822B2 (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
WO2019235366A1 (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
JP2024052903A (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
JP2024091858A (ja) | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 | |
TWI512685B (zh) | 移動物體偵測方法及其裝置 | |
CN105631425B (zh) | 基于视频流的车牌识别方法、系统及智能数字摄像机 | |
JP2024054387A (ja) | 符号化方法及び符号化装置 | |
CN116762083A (zh) | 用于为机器学习过程生成编码训练数据的方法、处理单元和记录系统 | |
EP4120684A1 (en) | Method and system for optimizing image and video compression for machine vision | |
EP4120683A1 (en) | Method and system for optimizing image and video compression for machine vision | |
CN116563543A (zh) | 一种全天候河道场景全景分割方法及模型搭建方法 | |
JP7533601B2 (ja) | 情報処理装置、情報処理システム、情報処理方法 | |
CN113743233A (zh) | 基于YOLOv5和MobileNetV2的车辆型号识别方法 | |
Kajak | Impact of video compression on the performance of object detection algorithms in automotive applications | |
KR102347767B1 (ko) | 광학 카메라 통신(occ) 기반 도로 형태 판단 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |