CN112232225A

CN112232225A - 优化行人检测模型的训练数据集的方法、装置及存储介质

Info

Publication number: CN112232225A
Application number: CN202011120107.1A
Authority: CN
Inventors: 张武强; 王宝锋; 支蓉; 郭子杰
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15

Abstract

本发明提出了一种用于优化用于行人检测模型的训练数据集的方法，所述方法包括：获取原始的行人数据，原始的行人数据至少包括图像数据、行人位置数据和边界框尺寸数据；获取原始的行人数据的数据分布特性；利用原始的行人数据训练行人检测模型，从而获得原始检测结果；利用原始的行人数据训练数据生成模型，数据生成模型为生成式模型；根据数据分布特性和原始检测结果，利用数据生成模型生成具有特定的边界框尺寸数据的行人数据作为附加的行人数据；基于原始的行人数据和附加的行人数据，构建用于行人检测模型的训练数据集。本发明还涉及相应的优化装置和计算机可读存储介质。通过本发明，能够优化训练数据集，以获得准确性更高的行人检测模型。

Description

优化行人检测模型的训练数据集的方法、装置及存储介质

技术领域

本发明涉及一种用于优化用于行人检测模型的训练数据集的方法、一种用于优化用于行人检测模型的训练数据集的优化装置以及一种计算机可读存储介质。

背景技术

基于计算机视觉的行人检测技术可通过处理摄像头采集到的图像或视频信息对行人的位置等进行检测。行人检测具有极其重大的意义，它是车辆辅助驾驶、车辆自动驾驶、智能视频监控和人体行为分析等应用中的关键技术。近年来，行人检测技术越来越受到学术界和工业界的重视。

传统的行人检测主要通过HOG+SVM来实现，即提取图片的HOG(Histogram ofOriented Gradient)特征并利用支持向量机(SVM)进行分类。这种方法使用人工特征来统计计算图像的梯度方向直方图结合SVM分类器来检测行人，虽然它在直立姿态行人图像上取得不错的效果，但是在行人相互遮挡以及非直立状态下效果不好，泛化能力较差。近些年，卷积神经网络在图像识别检测领域产生越来越好的结果，RCNN(Regions with CNNfeatures)等一系列目标检测模型的精度远远超过传统方法。

然而，目前以数据驱动为基础的深度学习行人检测方法在自动驾驶场景下依旧面临一些问题。例如，基于原始的行人数据训练得到的行人检测模型对于某些特殊姿态的行人的检测结果不够准确。可能发生边界框作为检测结果无法完整包含张开的四肢而导致行人重要的姿态信息丢失的情况。

现有技术在行人检测模型的准确性方面仍然存在诸多不足。

发明内容

本发明的目的在于提供一种改进的用于优化用于行人检测模型的训练数据集的方法以及相应的优化装置和计算机可读存储介质，从而优化用于行人检测模型的训练数据集，以获得准确性更高的行人检测模型。

根据本发明的第一方面，提供了一种用于优化用于行人检测模型的训练数据集的方法，其中，所述方法包括下述步骤：

获取原始的行人数据，所述原始的行人数据至少包括图像数据、行人位置数据和边界框尺寸数据；

获取原始的行人数据的数据分布特性；

利用原始的行人数据训练行人检测模型，从而获得原始检测结果；

利用原始的行人数据训练数据生成模型，所述数据生成模型为生成式模型；

根据数据分布特性和原始检测结果，利用数据生成模型生成具有特定的边界框尺寸数据的行人数据作为附加的行人数据；以及

基于原始的行人数据和附加的行人数据，构建用于行人检测模型的训练数据集。

根据本发明的一个实施例，所述方法还包括下述步骤：

针对边界框尺寸对原始检测结果进行评估，获得检测准确度相对较低的边界框尺寸；以及

根据检测准确度相对较低的边界框尺寸，确定所述特定的边界框尺寸数据。

根据本发明的一个实施例，检测准确度相对较低的边界框尺寸被确定为检测准确度低于平均检测准确度的边界框尺寸。

根据本发明的一个实施例，所述方法还包括下述步骤：

针对边界框尺寸数据分析原始的行人数据的数据分布特性，获得数据数量相对较少的边界框尺寸；以及

根据数据数量相对较少的边界框尺寸，确定所述特定的边界框尺寸数据。

根据本发明的一个实施例，数据数量相对较少的边界框尺寸被确定为与边界框尺寸数据的期望值相差大于边界框尺寸数据的标准差的边界框尺寸。

根据本发明的一个实施例，确定所述特定的边界框尺寸数据的步骤包括：将所述特定的边界框尺寸数据确定为检测准确度相对较低并且数据数量相对较少的边界框尺寸。

根据本发明的一个实施例，利用数据生成模型生成具有特定的边界框尺寸数据的行人数据的步骤包括：使生成的行人数据的行人位置数据符合正态分布。

根据本发明的一个实施例，所述方法还包括：利用所述训练数据集训练行人检测模型，从而获得检测结果，当所述检测结果优于原始检测结果时，确定所述训练数据集为优化的训练数据集合，其中：

调整所述正态分布的期望值和/或标准差以获得不同的训练数据集，直到获得优于原始检测结果的检测结果；和/或

选择附加的行人数据的不同的子集用于与原始的行人数据构建不同的训练数据集，直到获得优于原始检测结果的检测结果。

根据本发明的第二方面，提供了一种用于优化用于行人检测模型的训练数据集的优化装置，所述优化装置配置成能够执行根据本发明的方法，其中，所述优化装置包括：

行人数据分布分析单元，其配置成能够获取原始的行人数据的数据分布特性；

检测评估单元，其配置成能够利用原始的行人数据训练行人检测模型，从而获得原始检测结果；

极端行人姿态挖掘单元，其配置成能够根据数据分布特性和原始检测结果，确定特定的边界框尺寸数据；以及

数据生成单元，其配置成能够利用原始的行人数据训练数据生成模型，并利用数据生成模型生成具有特定的边界框尺寸数据的行人数据，从而构建用于行人检测模型的训练数据集。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算器程序，当所述计算机程序被一个或多于一个处理器执行时，所述处理器能够执行根据本发明所述的方法。

本发明的积极效果在于：基于原始的行人数据的数据分布特性和原始检测结果，利用生成网络生成对应特定姿态的行人数据，能够达到优化训练数据集的目的。本发明尤其基于下述发现：某些特殊姿态、例如四肢张开的行人姿态在自然采集的原始的行人数据中的分布较少，因此基于这样不平衡的原始的行人数据训练得到的行人检测模型针对此类特殊姿态的检测结果往往不够准确。通过利用生成网络生成对应此类特殊姿态的行人数据，能够有针对性地优化训练数据集，以用于训练出准确性更高的行人检测模型。进而，能够为后续的行人姿态估计和意图识别提供更完整准确的信息。另外，能够降低行人数据的采集和标注成本。

附图说明

下面，通过参看附图更详细地描述本发明，可以更好地理解本发明的原理、特点和优点。附图包括：

图1示出了根据本发明的一个示例性实施例的用于优化用于行人检测模型的训练数据集的方法的流程图；

图2示出了根据本发明的一个示例性实施例的方法中的部分步骤的流程图；

图3示出了根据本发明的一个示例性实施例的方法中的部分步骤的流程图；以及

图4示出了根据本发明的一个示例性实施例的优化装置的示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。

图1示出了根据本发明的一个示例性实施例的用于优化用于行人检测模型的训练数据集的方法的流程图。用于优化用于行人检测模型的训练数据集的方法可包括下述步骤：

S1：获取原始的行人数据，所述原始的行人数据至少包括图像数据、行人位置数据和边界框尺寸数据；

S2：获取原始的行人数据的数据分布特性；

S3：利用原始的行人数据训练行人检测模型，从而获得原始检测结果；

S4：利用原始的行人数据训练数据生成模型，所述数据生成模型为生成式模型；

S5：根据数据分布特性和原始检测结果，利用数据生成模型生成具有特定的边界框尺寸数据的行人数据作为附加的行人数据；以及

S6：基于原始的行人数据和附加的行人数据，构建用于行人检测模型的训练数据集。

原始的行人数据的图像数据例如为通过摄像装置采集到的真实的图像数据。行人位置数据和边界框尺寸数据例如可通过人为标定来获得。

应理解，上述步骤的执行顺序不受上文对步骤的描述的顺序所限，而是上述步骤中的至少一部分可以以其它的顺序执行。

根据本发明，利用以生成式模型生成特定的数据，一方面能够解决数据不平衡问题，另一方面能够降低数据收集以及标注的成本。利用基于原始的行人数据和附加的行人数据构建出的训练数据集，可提高行人检测模型的准确性。由此，能够为自动驾驶的行人姿态估计和意图识别等后续感知任务提供更加完整准确的边界框信息。

图2示出了根据本发明的一个示例性实施例的方法中的部分步骤的流程图。

在该实施例中，所述方法还包括下述步骤：在获取原始的行人数据之后，针对边界框尺寸数据分析原始的行人数据的数据分布特性，获得数据数量相对较少的边界框尺寸。所述特定的边界框尺寸数据尤其可根据数据数量相对较少的边界框尺寸来确定。例如，将原始的行人数据按边界框宽高比(边界框的宽度/边界框的高度)进行分段，并针对行人边界框的宽高比进行数据分布分析。尽管行人只是一个特定的类别，但行人类别内部因为人姿态的多样性，数据根据边界框的尺寸分布也会覆盖一定的区域，而非集中在一个特定的分段。自动驾驶场景下行人主要处于站立或者行走的姿态，而在原始的行人数据中，例如张开手臂等姿态的数据相对较少。通过针对边界框尺寸数据分析原始的行人数据的数据分布特性，有利于更有针对性地对代表特定姿态的行人数据进行数据增强。

例如，数据数量相对较少的边界框尺寸可被确定为与边界框尺寸数据的期望值相差大于边界框尺寸数据的标准差的边界框尺寸。应理解，“数据数量相对较少”也可以以其它方式定义，例如定义为数据数量在总数据数量中占比小于预定的比例。

如图2所示，所述方法还可包括下述步骤：在利用原始的行人数据训练行人检测模型从而获得原始检测结果之后，针对边界框尺寸对原始检测结果进行评估，获得检测准确度相对较低的边界框尺寸。所述特定的边界框尺寸数据尤其可根据检测准确度相对较低的边界框尺寸来确定。

在该实施例中，行人检测模型是由卷积层和激活层等结构组成的卷积神经网络模型。例如，可选用YOLO模型作为行人检测模型。行人检测模型的输入为图像数据，行人检测模型的输出可包括行人位置及边界框尺寸。经过训练过程，网络参数不断更新迭代，行人检测的性能将达到最优。将原始的行人数据按边界框宽高比进行分段。利用训练得到的行人检测模型，对不同分段的数据的检测结果进行评估，得到并输出每个分段的准确率。

例如，检测准确度相对较低的边界框尺寸被确定为检测准确度低于平均检测准确度的边界框尺寸。应理解，“检测准确度相对较低”也可以以其它方式定义，例如定义为检测准确度低于预定的阈值。

在图2所示的示例性实施例中，依据对数据分布特性的分析和对原始检测结果的评估进行极端数据挖掘，数据数量相对较少的尺寸分段和检测准确度相对较低的尺寸分段的重合部分为数据极端不平衡分段，该分段对应的行人姿态定义为极端行人姿态。在本实施例中，可以得出手臂张开等姿态为极端行人姿态，其数据分布较少且检测准确度较低，但其对意图识别等后续任务起重要作用。确定所述特定的边界框尺寸数据的步骤尤其可包括：将所述特定的边界框尺寸数据确定为检测准确度相对较低并且数据数量相对较少的边界框尺寸。由此，能够以极端行人姿态为导向，通过生成模型生成更多极端行人姿态的数据，从而更有针对性地优化用于行人检测模型的训练数据集。

应理解，也可单独根据数据数量相对较少的边界框尺寸或检测准确度相对较低的边界框尺寸，确定所述特定的边界框尺寸数据。

图3示出了根据本发明的一个示例性实施例的方法中的部分步骤的流程图。

如图3所示，在确定极端行人姿态对应的数据极端不平衡分段之后，可利用数据生成模型，以极端行人姿态为导向，生成此类姿态的行人数据。数据生成模型例如为生成式对抗神经网络模型。通过利用原始的行人数据训练数据生成模型，使生成模型的网络参数不断更新。利用训练过程中最优的生成网络模型以数据极端不平衡分段为导向，生成更多该边界框尺寸分段内的行人数据作为附加的行人数据。在该过程中，使生成的行人数据的行人位置数据符合正态分布：

其中，y为行人位置数据，μ为期望值，σ为标准差。可将期望值μ和标准差σ作为可以设置的超参数。

基于原始的行人数据和附加的行人数据，可构建用于行人检测模型的新的训练数据集。例如，可选择附加的行人数据的子集用来增强原始的行人数据。

利用新的训练数据集来训练一个新的行人检测模型，基于该行人检测模型的检测结果进行评估，当所述检测结果优于原始检测结果时，确定所述训练数据集为优化的训练数据集合。

例如，可重复选取附加的行人数据的不同的子集，以构建出不同的新的训练数据集，直到得到的检测结果优于原始检测结果。

例如，可重复设置生成的行人数据的行人位置数据的期望值μ和标准差σ以构建出不同的新的训练数据集，直到得到的检测结果优于原始检测结果。

当新的训练数据集对应的行人检测模型的检测结果优于原始检测结果时，停止构建新的训练数据集，输出当前的训练数据集作为优化的训练数据集合。

图4示出了根据本发明的一个示例性实施例的用于优化用于行人检测模型的训练数据集的优化装置的示意图。所述优化装置配置成能够执行根据本发明的方法。优化装置包括：

行人数据分布分析单元1，其配置成能够获取原始的行人数据的数据分布特性；

检测评估单元2，其配置成能够利用原始的行人数据训练行人检测模型，从而获得原始检测结果；

极端行人姿态挖掘单元3，其配置成能够根据数据分布特性和原始检测结果，确定特定的边界框尺寸数据；以及

数据生成单元4，其配置成能够利用原始的行人数据训练数据生成模型，并利用数据生成模型生成具有特定的边界框尺寸数据的行人数据，从而构建用于行人检测模型的训练数据集。

如图4所示，检测评估单元2还可设置成能够利用所述训练数据集训练行人检测模型，从而获得检测结果。当所述检测结果优于原始检测结果时，可确定所述训练数据集为优化的训练数据集合。

本发明还涉及一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算器程序，当所述计算机程序被一个或多于一个处理器执行时，所述处理器能够执行根据本发明的方法。计算机可读存储介质例如可包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

尽管这里详细描述了本发明的特定实施方式，但它们仅仅是为了解释的目的而给出的，而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下，各种替换、变更和改造可被构想出来。

Claims

1.一种用于优化用于行人检测模型的训练数据集的方法，其中，所述方法包括下述步骤：

获取原始的行人数据的数据分布特性；

2.如权利要求1所述的方法，其中，所述方法还包括下述步骤：

3.如权利要求2所述的方法，其中，检测准确度相对较低的边界框尺寸被确定为检测准确度低于平均检测准确度的边界框尺寸。

4.如权利要求1-3中任一项所述的方法，其中，所述方法还包括下述步骤：

5.如权利要求4所述的方法，其中，数据数量相对较少的边界框尺寸被确定为与边界框尺寸数据的期望值相差大于边界框尺寸数据的标准差的边界框尺寸。

6.如权利要求4或5所述的方法，其中，确定所述特定的边界框尺寸数据的步骤包括：将所述特定的边界框尺寸数据确定为检测准确度相对较低并且数据数量相对较少的边界框尺寸。

7.如权利要求1-6中任一项所述的方法，其中，利用数据生成模型生成具有特定的边界框尺寸数据的行人数据的步骤包括：使生成的行人数据的行人位置数据符合正态分布。

8.如权利要求7所述的方法，其中，所述方法还包括：利用所述训练数据集训练行人检测模型，从而获得检测结果，当所述检测结果优于原始检测结果时，确定所述训练数据集为优化的训练数据集合，其中：

9.一种用于优化用于行人检测模型的训练数据集的优化装置，所述优化装置配置成能够执行根据权利要求1-8中任一项所述的方法，其中，所述优化装置包括：

行人数据分布分析单元(1)，其配置成能够获取原始的行人数据的数据分布特性；

检测评估单元(2)，其配置成能够利用原始的行人数据训练行人检测模型，从而获得原始检测结果；

极端行人姿态挖掘单元(3)，其配置成能够根据数据分布特性和原始检测结果，确定特定的边界框尺寸数据；以及

数据生成单元(4)，其配置成能够利用原始的行人数据训练数据生成模型，并利用数据生成模型生成具有特定的边界框尺寸数据的行人数据，从而构建用于行人检测模型的训练数据集。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算器程序，当所述计算机程序被一个或多于一个处理器执行时，所述处理器能够执行根据权利要求1-8中任一项所述的方法。