CN114399657A - 车辆检测模型训练方法、装置、车辆检测方法及电子设备 - Google Patents
车辆检测模型训练方法、装置、车辆检测方法及电子设备 Download PDFInfo
- Publication number
- CN114399657A CN114399657A CN202111564661.3A CN202111564661A CN114399657A CN 114399657 A CN114399657 A CN 114399657A CN 202111564661 A CN202111564661 A CN 202111564661A CN 114399657 A CN114399657 A CN 114399657A
- Authority
- CN
- China
- Prior art keywords
- image
- sub
- training
- sample image
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种车辆检测模型训练方法、装置、车辆检测方法及电子设备,涉及目标检测领域。该方法包括获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签。获取每个样本图像对应的至少两个子图像的位置信息,并确定各子图像的车辆标签。通过基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,根据该方法训练得到的精确度较高的车辆检测模型,能够对待检测车辆进行更精确的车辆检测。
Description
技术领域
本申请涉及目标检测领域,具体而言,本申请涉及一种车辆检测模型训练方法、装置、车辆检测方法、电子设备及计算机可读存储介质。
背景技术
随着车辆违规行为的不断增加,通过对交通图像或视频中的车辆进行快速检测,以更好地辅助城市交通管理已经成为了一项重要工作。深度学习在图像分类任务中取得广泛成功后,也被广泛应用于车辆检测任务中。
在大量的车辆检测任务中,如何对待检测车辆进行的更精确地检测,已经成为了具有挑战性的任务。
发明内容
本申请实施例提供了一种车辆检测模型训练方法、装置、车辆检测方法、电子设备及计算机可读存储介质,根据该方法训练得到的精确度较高的车辆检测模型,能够对待检测车辆进行更精确的车辆检测。
根据本申请实施例的一个方面,提供了一种车辆检测的方法,该方法包括:
获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签;
获取每个样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签;
基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;
其中,训练结束条件包括以下至少一项:
神经网络模型的损失函数收敛,神经网络模型的训练损失值小于设定值,对神经网络模型的训练次数达到设定次数。
根据本申请实施例的另一个方面,提供了一种车辆检测方法,包括:
获取待检测图像;
基于训练好的车辆检测模型,确定待检测图像中是否包括车辆以及待检测图像中车辆的位置信息,该训练好的车辆检测模型是根据上述方法训练得到的。
根据本申请实施例的另一个方面,提供了一种车辆检测的装置,该装置包括获取模块、子图像确定模块和训练模块,
获取模块,用于获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签;
子图像确定模块,用于获取每个样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签;
训练模块,用于基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;
其中,训练结束条件包括以下至少一项:
神经网络模型的损失函数收敛,神经网络模型的训练损失值小于设定值,对神经网络模型的训练次数达到设定次数。
根据本申请实施例的另一个方面,提供了一种车辆检测装置,包括获取模块和检测模块,
获取模块,用于获取待检测图像;
检测模块,用于基于训练好的车辆检测模型,确定待检测图像中是否包括车辆以及待检测图像中车辆的位置信息,该训练好的车辆检测模型是根据上述方法训练得到的。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述方法的步骤。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请涉及一种车辆检测方法、装置、电子设备及计算机可读存储介质。该方法通过获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签。获取每个样本图像对应的至少两个子图像的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签。并在训练过程中,通过基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,根据该方法训练得到的精确度较高的车辆检测模型,能够对待检测车辆进行更精确的车辆检测。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了本申请实施例提供的一种车辆检测模型训练方法的流程图;
图2示出了本申请实施例中神经网络模型的训练过程示意图;
图3示出了本申请实施例中样本图像中车辆所在区域的位置信息的示意图;
图4a和图4b示出了对样本图像进行嵌入处理前后的示意图;
图5示出了本申请实施例提出的训练车辆检测模型的示意图;
图6示出了本申请实施例提供的车辆检测方法的流程图;
图7示出了本申请实施例提供的车辆检测模型训练装置的示意图;
图8示出了本申请实施例提供的车辆检测装置的示意图;
图9示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
随着车辆违规行为的不断增加,如何对交通图像或视频中的车辆进行快速检测已经成为城市交通管理的一项重要工作。深度学习在图像分类任务中取得广泛成功后,也被应用于车辆检测任务中,这些方法被分为基于区域的方法和基于回归的方法的两大类。针对于此,本申请提出一种车辆检测方法、装置、电子设备及计算机可读存储介质,该方案能够快速、准确地训练出车辆检测模型,以便更好地进行车辆检测,满足实用需求。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种车辆检测模型训练方法。图1示出了本申请实施例提供的一种车辆检测模型训练方法的流程图。如图1所示,该方法包括步骤S110至步骤S130。
步骤S110:获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签。
训练数据集中的多个训练样本可以包括包含车辆的样本图像,也可以包括不包含车辆的样本图像,可以根据实际情况确定多个训练样本中包含车辆的样本图像(即,正样本)和不包含车辆的样本图像(即,负样本)的个数,或者包含车辆的样本图像和不包含车辆的样本图像在多个训练样本中的占比。
本申请实施例对车辆标签的表示形式不做限制,该车辆标签的表示形式可以为文字标识、数字标识、字母标识等。例如,车辆标签的表示形式可以为“是”或“否”,其中,“是”表征该样本图像中包含车辆,“否”表征该样本图像中不包含车辆。车辆标签的表示形式也可以为“1”或“0”,其中,“1”表征该样本图像中包含车辆,“0”表征该样本图像中不包含车辆。
可以理解的是,若车辆标签表征样本图像不包含车辆的情况下,可以设置信息标签为0,或者不对该样本图像标注信息标签。即在车辆标签表征该样本图像不包括车辆的情况下,标注标签可以仅包括车辆标签。在车辆标签表征该样本图像包括车辆的情况下,标注标签还包括信息标签,信息标签该样本图像中车辆所在区域的位置信息。
可选地,可以将各样本图像中任意一点作为坐标原点,建立坐标系,确定各样本图像中车辆的车辆位置信息,其中,一个样本图像中车辆的车辆位置信息,也即,该样本图像中车辆所在区域所在位置信息。本申请对样本图像中车辆所在区域所在位置信息的表示方式不做限制。可以将一个样本图像的左上角作为坐标原点,根据该样本图像中车辆所在区域的左上角的坐标信息(x1,y1)以及右下角的坐标信息(x2,y2),确定出该样本图像中车辆所在区域的位置信息的表示方式为(x1,y1,x2,y2)。也可以用该样本图像中车辆所在区域的中心位置的坐标信息(xcenter,ycenter)、该样本图像中该车辆所在区域的宽w和高h,确定该样本图像中车辆所在区域的位置信息的表示方式为(xcenter,ycenter,w,h)。图3示出了本申请实施例中样本图像中车辆所在区域的位置信息的示意图。如图3所示,较大的矩形表示该样本图像,较小的矩形表示该样本图像中车辆所在区域。将样本图像的左上角作为坐标原点,则可以根据该样本图像中车辆所在区域的左上角的坐标信息(16,16)以及右下角的坐标信息(58,58),确定出该样本图像中车辆所在区域的位置信息的表示方式为(16,16,58,58)。当然,也可以用该样本图像中车辆所在区域的中心位置的坐标信息(37,37)、该样本图像中该车辆所在区域的宽144和高72,确定该样本图像中车辆所在区域的位置信息的表示方式为(37,37,144,72)。本申请对样本图像中车辆所在区域所在位置信息的表示方式不做限制。
步骤S120:获取每个样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签。
可选地,可以利用选择性搜索算法,获取每个样本图像对应的至少两个子图像(以下,也将“子图像”称为“候选框”)在该样本图像中的位置信息。当然,也可以根据其他方式获取每个样本图像对应的至少两个子图像在该样本图像中的位置信息,本申请对此不做限制。
本申请对每个样本图像对应的各个候选框的大小不做限制,对各样本图像包括的候选框的个数也不做限制。其中,每个样本图像对应的各个候选框的大小可以相同,也可以不同。本申请对此不做限制。每个样本图像包括的候选框的个数可以实际情况确定,例如,可以设置每个样本图像对应的候选框的个数为2000个。
其中,对应于每个候选框的位置信息的表示方式可以与上文中样本图像中车辆所在区域的位置信息的表示方式相同。其中,一个候选框的位置信息可以表示为(n,Xcenter,Ycenter,W,H),也可以表示为(n,X1,Y1,X2,Y2)。其中,n表示该候选框对应的样本图像在训练样本集中的序号,(Xcenter,Ycenter)表示该候选框对应于该样本图像中的图像区域的中心位置的坐标,W表示该候选框对应于该样本图像中的图像区域的宽,H表示该候选框对应于该样本图像中的图像区域的高。(X1,Y1)表示该候选框对应于该样本图像中的图像区域的左上角的坐标,(X2,Y2)表示该候选框对应于该样本图像中的图像区域的右下角的坐标。
步骤S130:基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;
其中,训练结束条件包括以下至少一项:
神经网络模型的损失函数收敛,神经网络模型的训练损失值小于设定值,对神经网络模型的训练次数达到设定次数。
上述设定值的取值与所得到的训练好的车辆检测模型的精确度成负相关,即上述设定值的取值越小,所得到的训练好的车辆检测模型的精确度越高。
上述设定次数的取值与所得到的训练好的车辆检测模型的精确度成正相关,即上述设定值的取值越大,所得到的训练好的车辆检测模型的精确度越高。应该需要注意的是,随着训练次数的增加,该训练过程所需的计算量也会增加,可以根据实际需要确定设定次数的具体取值。
该方法通过获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征该样本图像中是否包含车辆的车辆标签和表征该样本图像中车辆位置信息的信息标签。获取每个样本图像对应的至少两个子图像的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签。并在训练过程中,通过基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,可以使得根据该方法训练得到的车辆检测模型能够对待检测车辆进行更精确的车辆检测。
图2示出了本申请实施例中神经网络模型的训练过程示意图。神经网络模型的损失函数包括第一损失函数和第二损失函数。如图2所示,对于每个样本图像,训练的过程包括步骤S131至步骤S134。
步骤S131:通过特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图。
步骤S132:根据第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图。
步骤S133:对于每个子图像,根据该子图像对应的第二特征图和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果,识别结果包括预测分类结果以及预测车辆位置信息,预测分类结果表征该子图像中是否包括车辆。
步骤S134:基于该样本图像对应的各子图像的预测分类结果和对应的子图像的车辆标签,利用第一损失函数,确定第一训练损失值;基于该样本图像对应的各子图像的预测车辆位置信息和该样本图像的信息标签,利用第二损失函数,确定第二训练损失值;基于第一训练损失值和第二训练损失值,得到神经网络模型的训练损失值;
若神经网络模型的训练损失值不满足训练结束条件,对神经网络模型的模型参数进行调整,并基于各训练样本和各样本图像对应的各子图像对调整后的模型继续进行训练。
本申请实施例提供的车辆检测方法,通过获取每个样本图像对应的至少两个子图像的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签。并在训练过程中,通过特征提取网络对该样本图像进行特征提取,得到该样本图像的第一特征图;根据第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定对应的各子图像的第二特征图。可以使得该样本图像对应的各子图像共用该样本图像的第一特征图,共享计算和内存,降低了运算开销,提高了训练效率。
并且,对于每个子图像,根据该子图像对应的第二特征图和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果,识别结果包括预测分类结果以及预测车辆位置信息,预测分类结果表征该子图像中是否包括车辆。即,可以基于目标识别网络同时获取到各子图像的预测分类结果以及预测车辆位置信息,提高了训练效率,加快了训练速度。
基于该样本图像对应的各子图像的预测分类结果和对应的子图像的车辆标签,确定第一训练损失值;基于该样本图像对应的各子图像的预测车辆位置信息和该样本图像的信息标签,确定第二训练损失值;基于第一训练损失值和第二训练损失值,得到神经网络模型的训练损失值。基于该训练损失值对神经网络模型进行训练,直至神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型。
可见基于上述,能够共享训练数据集中各样本图像的第一特征图,实现共享计算和内存,降低了运算开销,提高了训练效率。并且,还可以基于目标识别网络同时获取到各子图像的预测分类结果以及预测车辆位置信息,更进一步地提高了训练效率,加快了训练速度。
在上述方法中,可以通过全连接网络级联特征提取网络以及目标识别网络,即,特征提取网络与目标识别网络之间加入全连接网络。
在该方法中,可以采用SVD(singular value decomposition,奇异值分解)加速全连接网络,具体地,将一个全连接网络拆分成两个全连接网络,其中,第一个全连接网络不含偏置,第二个全连接网路包含偏置。在对全连接网络进行拆分之后,可以提升训练速度。
可以实际情况确定特征提取网络的具体构成,只要可以通过该特征提取网络对该样本图像进行特征提取,得到该样本图像的第一特征图即可。例如,该特征提取网络可以包括卷积模块和池化模块,也可以仅包括卷积模块,也可以仅包括池化模块,本申请对此不做限制。并且,该特征提取网络中包括的卷积模块的个数和/或池化模块的个数也不做限制。对各个卷积模块的卷积核大小以及各个池化模块的池化核大小,本申请对此不做限制。每个卷积模块对应的卷积核的大小可以相同,也可以不同。每个池化模块对应的池化核的大小可以相同,也可以不同。
在不考虑样本图像的深度信息(也即,通道数)的情况下,通过卷积模块对样本图像进行卷积时,样本图像的第一特征图的尺寸与样本图像的尺寸相同。通过池化模块对样本图像进行池化时,样本图像的第一特征图的尺寸小于样本图像的尺寸。
在通过池化模块络对样本图像进行池化时,样本图像对应的第一特征图的尺寸取决于样本图像的尺寸以及该池化模块的池化核的大小。举例来讲,若样本图像的尺寸(单位为像素)为256*256,特征提取网络包括2个池化模块,每个池化模块的池化核的大小均为2*2,则经过第一个池化模块后,样本图像对应的特征图的尺寸为128*128,经过第二个池化模块后,样本图像的第一特征图的尺寸为64*64。
其中,基于池化模块对样本图像进行池化时,所采取的池化方式可以为最大池化,也可以为平均池化,本申请对此不做限制,可以根据实际需求确定具体的池化方式。
在基于池化模块对样本图像进行池化时,若样本图像的宽与池化核的宽之间的比值为整数,且样本图像的高与池化核的高之间的比值为整数,则可以直接基于该池化模块对该样本图像进行池化。否则,可以先对该样本图像进行嵌入处理,使得嵌入处理后的样本图像的宽与池化核的宽之间的比值为整数,且嵌入处理后的样本图像的高与池化核的高之间的比值为整数,再基于该池化模块对该样本图像进行池化。其中,嵌入处理可以包括对样本图像对应的像素矩阵进行补0处理。
作为一个示例,图4a和图4b示出了对样本图像进行嵌入处理前后的示意图。如图4a所示,样本图像的尺寸为3*3,而池化核的大小为2*2,则需要对该样本图像进行嵌入处理。如图4b所示,嵌入处理后的样本图像的尺寸为4*4,可以基于该池化模块对该嵌入处理后的样本图像进行池化。
对于每个样本图像,可以基于该样本图像对应的各子图像的预测分类结果和该样本图像对应的各子图像的车辆标签,利用第一损失函数,确定该样本图像对应的各子图像的第一训练损失值,根据该样本图像对应的各子图像的第一训练损失值确定该样本图像的第一训练损失值;
基于该样本图像对应的各子图像的预测位置信息和该样本图像的信息标签,利用第二损失函数,确定该样本图像对应的各子图像的第二训练损失值,根据该样本图像对应的各子图像的第二训练损失值确定该样本图像的第二训练损失值;
基于该样本图像的第一训练损失值和该样本图像的第二训练损失值,确定该样本图像的总损失值;
在该样本图像的总损失值不满足训练结束条件时,对神经网络模型的模型参数进行调整,直至神经网络模型收敛,得到车辆检测模型。
其中,对于第一损失函数和第二损失函数的具体函数形式本申请实施例不做限定,可以根据实际需求选择。可选的,第一损失函数可以是目标识别损失函数,表征了识别的准确性,比如,第一损失函数可以包括以下任意一种,softmax(归一化)损失,centerloss(中心损失)等,本申请对此不做限制。第二损失函数可以是多分类预测损失函数,第二损失函数可以包括以下任意一种,softmax,center loss等,本申请对此不做限制。其中,第一损失函数与第二损失函数可以为同一种损失函数,也可以是不同的损失函数。
具体地,对于每个样本图像,在确定该样本图像对应的各子图像的第一训练损失值之后,可以基于交叉熵损失函数,确定该样本图像的第一训练损失值。在确定该样本图像对应的各子图像的第二训练损失值之后,可以基于平均绝对误差损失函数,也即,将各候选框的第二训练损失值的平均值确定该样本图像的第二训练损失值。
在该方法中,可以采用小批量(mini-batch)训练的方式对上述神经网络模型进行训练。作为一个示例,经过试验表明,在每个训练样本集中的训练样本的个数为2的情况下,训练速度更快,训练之后所得到的车辆检测模型的精确度较高。
可选地,特征提取网络包括至少一个特征提取模块以及与至少一个特征提取模块级联的池化模块,对于每个样本图像,通过特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图,包括:
通过至少一个特征提取模块对该样本图像进行特征提取,得到该样本图像对应的特征提取的结果;
通过池化模块对特征提取的结果进行池化,得到该样本图像对应的第一特征图;
根据第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图,包括:
根据池化网络的池化核的大小,确定第一特征图的各特征值与该样本图像中图像区域的映射关系;
对于每个子图像,根据该子图像对应的位置信息,确定样本图像中该子图像对应的图像区域;
对于每个子图像,根据映射关系和第一特征图,确定该子图像对应的图像区域在第一特征图中对应的各特征值,基于确定出的各子图像对应的特征值得到该子图像对应的第二特征图。
在至少一个特征提取模块以及与至少一个特征提取模块级联的池化模块时,可以通过根据池化模块的池化核的大小,确定第一特征图的各特征值与该样本图像中图像区域的映射关系,从而根据该映射关系和第一特征图,确定该子图像对应的图像区域在第一特征图中对应的各特征值,可以基于确定出的各子图像对应的特征值精确确定该子图像对应的第二特征图。
如上文所记载的,通过卷积模块对样本图像进行卷积时,样本图像对应的第一特征图的尺寸与样本图像的尺寸相同。通过池化模块对样本图像进行池化时,样本图像对应的第一特征图的尺寸小于样本图像的尺寸。因此,若特征提取网络不包括池化模块,样本图像中各子图像对应的图像区域内包括的像素值应该与该样本图像对应的第一特征图中各子图像对应的图像区域内包括的特征值相同,样本图像中各子图像对应的位置信息中各元素的取值与该样本图像对应的第一特征图中各子图像对应的位置信息中对应的元素的取值相同,即第一特征图与该样本图像的映射关系为1:1。不需要对样本图像中各子图像对应的位置信息进行缩放处理,可以直接将样本图像中各子图像映射到该样本图像的第一特征图中。
若特征提取网络包括池化模块,样本图像中各子图像对应的图像区域内包括的像素值应该比与该样本图像对应的第一特征图中各子图像对应的图像区域内包括的特征值多,样本图像中各子图像对应的位置信息中各元素的取值应该为该样本图像的第一特征图中各子图像对应的位置信息中对应的元素的取值的s倍,即第一特征图与该样本图像的映射关系为1:s,其中,s的取值取决于池化核的大小。需要对样本图像中各子图像对应的位置信息进行缩小处理,才可以完成将样本图像中各子图像映射到该样本图像的第一特征图中。
举例来讲,以一个样本图像中一个子图像对应的位置信息为(32,32,64,64)为例,若池化核为2*2,则该样本图像的特征图中该子图像的位置信息为(16,16,32,32)。可以理解的是,在确定样本图像中各子图像的位置信息时,若该位置信息中各元素的取值为非整数,则需要对位置信息中各元素的取值进行量化,将各元素的取值量化为整数。例如,可以将该位置信息中,非整数的元素的取值替换为与非整数的元素的取值最接近的整数。
其中,样本图像对应的一个子图像的第二特征图,也即,在将样本图像中各子图像映射到该样本图像的第一特征图之后,该子图像对应于第一特征图的区域内所有特征值组成的特征矩阵。
可选地,在确定出各子图像对应的第二特征图之后,该方法还包括:
对于每个子图像,将该子图像对应的第二特征图划分为设定数目的第三特征图,对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量;
对于每个子图像,根据该子图像对应的第二特征图和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果,包括:
根据该子图像对应的特征向量和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果。
在该实现方式中,通过对于每个子图像,将该子图像对应的第二特征图划分为设定数目的第三特征图,对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量,从而可以得到对应于每个子图像的大小相同的特征向量。即,无论训练数据集中的各样本图像的尺寸是否相同、各子图像的尺寸是否相同,都可以得到大小相同的对应于每个子图像的特征向量,可以避免相关技术中,在对样本图像进行训练之前,先将各样本图像进行缩放处理,导致在对各样本图像进行特征提取时出现变形,在后续识别过程中出现误差的问题,从而提高了训练效率和训练精度,并且,还提高了所得到的车辆检测模型的检测精度。
可选地,对于每个子图像,对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量,包括:
对于每个第三特征图,对该第三特征图的各特征值进行池化操作;
基于该子图像对应的所有第三特征图的池化操作的结果,得到该子图像对应的特征向量。
其中,在对该第三特征图的各特征值进行池化操作时,所采取的池化方式可以为最大池化,也可以为平均池化,本申请对此不做限制,可以根据实际需求确定具体的池化方式。
在该实现方式中,在通过对于每个子图像,将该子图像对应的第二特征图划分为设定数目的第三特征图,并每个第三特征图的各特征值进行池化操作,从而得到该子图像对应的特征向量,提高了训练效率和训练精度,并且,还提高了所得到的车辆检测模型的检测精度。
对于一个子图像对应的第二特征图,在不考虑深度信息的情况下,可以将该子图像对应的第二特征图划分为设定数目的第三特征图,其中,设定数目可以为a*b,也即,第三特征图的总数量为a*b。再对每个第三特征图中各特征值进行最大池化,得到每个第三特征图中各特征值的最大值。最终,得到该子图像的特征向量,且在子图像的特征向量的大小为a*b。
其中,设定数目的取值可以根据实际情况确定,本申请对此不做限制。设定数目的取值与每个第三特征图包括的特征值的数量成反比。即,设定数目越大,每个第三特征图包括的特征值的数量越少,设定数目越小,每个第三特征图包括的特征值的数量越多。
举例来讲,一个子图像对应的第二特征图的尺寸为128*128,若设定数目为2*2,则可以将该子图像的第二特征图的宽、高分别划分成64块,将该子图像对应的第二特征图进行划分后,所得到的第三特征图的总数量为64*64,每个第三特征图包括的特征值的数量为2*2。若设定数目为16*16,则可以将该子图像的第二特征图的宽、高分别划分成16块,将该子图像对应的第二特征图划分后,所得到的第三特征图的总数量为16*16,每个第三特征图包括的特征值的数量为16*16。可见,根据前者的划分方式,该子图像的第二特征图被划分后的得到的第三特征图的总数量较多,但每个第三特征图包括的特征值的数量较少,对每个第三特征图进行池化时所用到的特征值比较少,所得到的该子图像的特征向量不能很清晰的表达该子图像的特征信息。根据后者的划分方式,该子图像的第二特征图被划分后的得到的第三特征图的总数量较少,但每个第三特征图包括的特征值的数量较多,对每个第三特征图进行池化时所用到的特征值比较多,所得到的该子图像对应的特征向量能够清晰地表达该子图像的特征信息。因此,在本申请实施例中,优选按照设定数目为16*16,对样本图像的各子图像的第二特征图与进行划分,从而得到各子图像对应的特征向量。
通过上述处理,对于一个样本图像,无论该样本图像对应的各子图像的大小是否相同,都可以得到对应于各子图像的大小相同的特征向量,且各子图像对应的特征向量能够很好的反应样本图像的特征。由此,可以解决由于该训练样本集中的各样本图像的大小不一致,需要根据先对各样本图像进行缩放处理,导致缩放处理的各样本图像出现变形,使得在根据各变形后的图像进行特征提取后,所得到的特征与各样本图像本身的特征之间出现偏差的技术问题。
可选地,基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签,包括:
对于每个样本图像,基于该样本图像的信息标签,确定该样本图像中车辆的车辆位置信息对应的图像区域;
对于每个子图像,确定样本图像中该子图像对应的图像区域与该样本图像中车辆的车辆位置信息对应的图像区域之间的重叠度;
对于每个子图像,若重叠度大于或等于预设值,确定该子图像的车辆标签为该子图像中包含车辆;否则,确定该子图像的车辆标签为该子图像不包含车辆。
对于一个样本图像中的一个子图像,可以基于样本图像中该子图像对应的图像区域与该样本图像中车辆所在区域之间的重叠度(Intersection over Union,IoU),确定该候选框的车辆标签。其中,在IoU≥m时,确定该子图像为该样本图像的正样本,确定该子图像的车辆标签为样本图像中该子图像对应的图像区域包含车辆(以下简称为,候选框的车辆标签为包含车辆)。在IoU<m时,确定该子图像为该样本图像的负样本,确定该子图像的车辆标签为该样本图像中该子图像对应的图像区域不包含车辆(以下简称为,候选框的车辆标签为不包含车辆)。其中,可以根据实际需求确定m的取值,本申请对此不做限制,例如,可以设置m=0.5。
具体地,可以根据该样本图像中该子图像对应的图像区域的第一面积,根据该样本图像的信息标签确定该样本图像中车辆所在区域的第二面积,根据该样本图像中该子图像对应的图像区域以及该样本图像的信息标签确定二者(样本图像中该子图像对应的图像区域与该样本图像中车辆所在区域)的相交区域的第三面积,确定IoU=第三面积/(第一面积+第二面积)。
通过确定样本图像中该子图像对应的图像区域与该样本图像中车辆的车辆位置信息对应的图像区域之间的重叠度,可以确定各子图像相对于其对应的样本图像是否为正样本,从而在该子图像相对于其对应的样本图像为正样本的情况下,确定该子图像的车辆标签为该子图像中包含车辆,否则,确定该子图像的车辆标签为该子图像不包含车辆,可以准确确定各子图像的车辆标签。
可选地,目标识别网络包括分类模块和边框回归模块,分类模块和边框回归模块分别与特征提取网络级联,对于每个子图像,根据该子图像对应的特征向量和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果,包括:
根据该子图像对应的特征向量,通过分类模块,得到该子图像的预测分类结果;
根据该子图像对应的位置信息,通过边框回归模块,得到该子图像的预测车辆位置信息。
通过采用多任务学习的方式,可以在将各子图像的对应的特征向量和各子图像的对应的位置信息输入至目标识别网络后,可以实现分类模块与边框回归模块共用根据特征提取网络提取得到的特征,实现使得同时执行关于样本图像对应的各子图像的分类任务和边框回归任务,同时确定出各样本图像对应的各子图像的分类结果和预测位置信息,提高了训练效率。
在该实现方式中,可以通过全连接网络分别将特征提取网络与分类模块进行级联,将特征提取网络与边框回归模块进行级联。
具体的,分类模块可以为softmax分类模块,根据每个子图像对应的特征向量,得到每个子图像的预测分类结果。其中,每个子图像的预测分类结果,可以为该子图像中是否包含车辆,也可以为该子图像分别对应于包含车辆的第一置信度与不包含车辆的第二置信度,本申请对此不做限制。其中,在每个子图像的预测分类结果为该子图像分别对应于包含车辆的第一置信度与不包含车辆的第二置信度时,可以将第一置信度和第二置信度中较大的置信度对应的分类信息确定为该子图像的预测分类结果。例如,在第一置信度为0.2,第二置信度为0.8的情况下,可以确定该子图像的预测分类结果为不包含车辆。
根据该子图像对应的位置信息,通过边框回归模块,得到该子图像的预测车辆位置信息,包括:
根据该子图像对应的位置信息,通过边框回归模块,确定该子图像的修正偏移量;
基于该子图像的修正偏移量对该子图像的位置信息进行修正,得到该子图像的预测车辆信息。
可以基于边框回归模块,确定每个子图像的修正偏移量,从而可以基于各子图像的修正偏移量对每个子图像进行修正,得到各子图像的预测位置信息。其中,每个子图像的修正偏移量即为该子图像的位置信息中每个元素对应的修正偏移量。可以通过在一个子图像的位置信息中每个元素的基础上加上对应的修正偏移量,得到该子图像的预测位置信息。
作为一个示例,在一个子图像对应于样本图像的位置信息为(n,Xcenter,Ycenter,W,H)的情况下,该子图像的偏移量为(n,Δ1Xcenter,Δ2Ycenter,Δ3W,Δ4H),其中,(Δ1Xcenter,Δ2Ycenter)表示该子图像对应于该样本图像中的图像区域的中心位置的坐标的修正偏移量,Δ3W表示该子图像对应于该样本图像中的图像区域的宽的修正偏移量,Δ4H表示该子图像对应于该样本图像中的图像区域的高的修正偏移量。在经过修正后,该子图像的预测位置信息可以为(n,Xcenter+Δ1Xcenter,Ycenter+Δ2Ycenter,W+Δ3W,H+Δ4H)。
在该实现方式中,在一个子图像的车辆标签为不包含车辆的情况下,可以不基于bounding box(边框)回归网络,确定每个子图像的位置信息的修正偏移量。
对于一个样本图像,由于通过选择性搜索算法确定该样本图像对应的子图像的数量较多,各子图像之间可能会有重叠,因此,在得到各子图像的预测位置信息之后,可以基于非极大值抑制(Non-Maximum Suppression,NMS)对各子图像的预测位置信息进行筛选,删除各子图像中的冗余子图像,以得到各子图像中最佳的目标子图像。
图5示出了本申请实施例提出的训练车辆检测模型的示意图。如图5所示,在进行车辆检测模型的训练过程中,可以包括以下步骤S10至步骤S。
步骤S10:获取任意尺寸(size)的图片。也即,获取训练数据集,该训练数据集中包括多个训练样本,每个训练样本包括一个样本图像以及该样本图像的标注标签,其中,标注标签包括车辆标签,车辆标签表征该样本图像是否包括车辆。在车辆标签表征该样本图像包括车辆的情况下,标注标签还包括信息标签,信息标签该样本图像中车辆所在区域的位置信息。该训练样本中各样本图像的尺寸可以不同。
步骤S20:区域建议。也即,利用选择性搜索算法,获取每个样本图像对应的多个候选框的位置信息。并根据每个样本图像的信息标签,确定每个样本图像对应的多个候选框的车辆标签。
基于训练数据集以及该训练样本集中每个样本图像对应的多个候选框,对神经网络模型进行迭代训练,直至该神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;该神经网络模型包括依次级联的卷积层(即,上述卷积模块)、池化层(即,上述池化模块)、ROI池化层(即,上述确定第二特征图、第三特征图、特征向量的模块)、第一全连接层(即,上述全连接网络)、第二全连接层(即,上述全连接网络)、分类层(即,上述分类模块)、第三全连接层(即,上述全连接网络)、bbox回归层(即,上述边框回归模块)。其中,该神经网络模型还包括与第一全连接层依次级联的第二全连接层、分类层、bbox回归层。该神经网络模型还包括与第一全连接层依次级联的第三全连接层级联。其中,卷积层、池化层、ROI池化层、第一全连接层可以构成上述特征提取网络。第二全连接层、分类层、第三全连接层、bbox回归层可以构成上述目标识别网络。
以一个样本图像为例,具体的训练的过程,包括:
步骤S30:依次基于卷积层、池化层,对该样本图像进行特征提取,得到该样本图像的特征图。
步骤S40:基于ROI池化层以及该样本图像对应的多个候选框的位置信息,将该样本图像对应的各个候选框分别映射到该样本图像的特征图中,得到该样本图像对应的各个候选框的特征图;
分别将该样本图像中各候选框的特征图划分成设定数目的第三特征图,并对各候选框的特征图划分后得到的每块第三特征图进行最大池化,得到各候选框的特征向量。
步骤S50:将各候选框的特征向量依次输入至第一全连接层、第二全连接层、分类层,得到该候选框对应的分类得分(也即,上述置信度)。将各候选框的位置信息依次输入至第一全连接层、第三全连接层、bbox回归层,得到该候选框对应的修正偏移量,从而可以基于各候选框的修正偏移量对每个候选框进行修正,得到各候选框的预测位置信息。
对于每个样本图像,基于该样本图像中各候选框的预测分类结果和各候选框的车辆标签,确定各候选框的第一训练损失值,根据各候选框的第一训练损失值确定该样本图像的第一训练损失值;
在基于每个候选框的预测位置信息和各候选框对应的样本图像的信息标签,确定各候选框的第二训练损失值,根据各候选框的第二训练损失值确定该样本图像的第二训练损失值;
基于该样本图像的第一训练损失值和该样本图像的第二训练损失值,确定该样本图像的总损失值;
在该样本图像的总损失值不满足训练结束条件时,对神经网络模型的模型参数进行调整,直至神经网络模型收敛,得到车辆检测模型。
本申请实施例提供了一种车辆检测方法。图6示出了本申请实施例提供的车辆检测方法的流程图,如图6所示,该方法包括步骤S210至步骤S220。
步骤S210:获取待检测图像。
其中,待检测图像可以为通过图像采集设备实时采集的图像,也可以为任意一个图像,例如,通过互联网获取的任意一个图像,本申请对此不做限制。可以理解的是,在待检测图像为通过图像采集设备实时采集的图像时,该待检测图像也可以是根据对图像采集设备实时采集得到的视频进行图像截取,所得到的图像。
作为一个示例,可以获取图像采集设备采集到关于车辆的视频,并截取该视频中不掉帧的多个图像,以对这多个图像进行车辆检测。其中,掉帧即由于帧率过低所造成的画面出现停滞的现象,也即,视频中后一帧图像与前一帧图像相同的情况。在该示例中,不掉帧的多个图像即各不相同多个图像。
步骤S220:基于训练好的车辆检测模型,确定待检测图像中是否包括车辆以及待检测图像中车辆的位置信息,该训练好的车辆检测模型是根据上述方法训练得到的。
可以理解的是,在利用上述方法训练得到的车辆检测模型进行车辆检测时,若确定待检测图像中不包括车辆,可以不需要确定待检测图像中车辆的位置信息。
通过上述方法训练得到的车辆检测模型进行车辆检测,可以快速且准确地获取到待检测图像中是否包括车辆,以及,在待检测图像中包括车辆的情况下,获取到待检测图像中车辆的位置信息。
本申请实施例还提供了一种车辆检测模型训练装置。图7示出了本申请实施例提供的车辆检测模型训练装置的示意图,如图7所示,该装置70可以包括获取模块701、子图像确定模块702和训练模块703,
获取模块701,用于获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征样本图像中是否包含车辆的车辆标签和表征样本图像中车辆位置信息的信息标签;
子图像确定模块702,用于获取每个样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签;
训练模块703,用于基于各训练样本和各样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;
其中,训练结束条件包括以下至少一项:
神经网络模型的损失函数收敛,神经网络模型的训练损失值小于设定值,对神经网络模型的训练次数达到设定次数。
可选地,神经网络模型的损失函数包括第一损失函数和第二损失函数,对于每个样本图像,训练的过程包括:
通过特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图;
根据第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图;
对于每个子图像,根据该子图像对应的第二特征图和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果,识别结果包括预测分类结果以及预测车辆位置信息,预测分类结果表征该子图像中是否包括车辆;
基于该样本图像对应的各子图像的预测分类结果和对应的子图像的车辆标签,利用第一损失函数,确定第一训练损失值;基于该样本图像对应的各子图像的预测车辆位置信息和该样本图像的信息标签,利用第二损失函数,确定第二训练损失值;基于第一训练损失值和第二训练损失值,得到神经网络模型的训练损失值;
若神经网络模型的训练损失值不满足训练结束条件,对神经网络模型的模型参数进行调整,并基于各训练样本和各样本图像对应的各子图像对调整后的模型继续进行训练。
可选地,特征提取网络包括至少一个特征提取模块以及与至少一个特征提取模块级联的池化模块,对于每个样本图像,训练模块703在通过特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图时,具体用于:
通过至少一个特征提取模块对该样本图像进行特征提取,得到该样本图像对应的特征提取的结果;
通过池化模块对特征提取的结果进行池化,得到该样本图像对应的第一特征图;
训练模块703在根据第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图时,具体用于:
根据池化网络的池化核的大小,确定第一特征图的各特征值与该样本图像中图像区域的映射关系;
对于每个子图像,根据该子图像对应的位置信息,确定样本图像中该子图像对应的图像区域;
对于每个子图像,根据映射关系和第一特征图,确定该子图像对应的图像区域在第一特征图中对应的各特征值,基于确定出的各子图像对应的特征值得到该子图像对应的第二特征图。
训练模块703在确定出各子图像对应的第二特征图之后,还用于:
对于每个子图像,将该子图像对应的第二特征图划分为设定数目的第三特征图,对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量;
对于每个子图像,训练模块703在根据该子图像对应的第二特征图和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果时,具体用于:
根据该子图像对应的特征向量和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果。
可选地,对于每个子图像,训练模块703在对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量时,具体用于:
对于每个第三特征图,对该第三特征图的各特征值进行池化操作;
基于该子图像对应的所有第三特征图的池化操作的结果,得到该子图像对应的特征向量。
可选地,目标识别网络包括分类模块和边框回归模块,分类模块和边框回归模块分别与特征提取网络级联,对于每个子图像,训练模块703在根据该子图像对应的特征向量和该子图像对应的位置信息,通过目标识别网络,得到该子图像的识别结果时,具体用于:
根据该子图像对应的特征向量,通过分类模块,得到该子图像的预测分类结果;
根据该子图像对应的位置信息,通过边框回归模块,得到该子图像的预测车辆位置信息。
可选地,训练模块703在基于每个样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签时,具体用于:
对于每个样本图像,基于该样本图像的信息标签,确定该样本图像中车辆的车辆位置信息对应的图像区域;
对于每个子图像,确定样本图像中该子图像对应的图像区域与该样本图像中车辆的车辆位置信息对应的图像区域之间的重叠度;
对于每个子图像,若重叠度大于或等于预设值,确定该子图像的车辆标签为该子图像中包含车辆;否则,确定该子图像的车辆标签为该子图像不包含车辆。
本申请实施例还提供了一种车辆检测装置。图8示出了本申请实施例提供的车辆检测装置的示意图,如图8所示,该装置80包括获取模块801和检测模块802,
获取模块801,用于获取待检测图像;
检测模块802,用于基于训练好的车辆检测模型,确定待检测图像中是否包括车辆以及待检测图像中车辆的位置信息,该训练好的车辆检测模型是根据上述装置训练得到的。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述方法的步骤及相应内容。
在一个可选实施例中提供了一种电子设备,图9示出了本申请实施例提供的一种电子设备的示意图。如图9所示,图9所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种本计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种车辆检测模型训练方法,其特征在于,包括:
获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征所述样本图像中是否包含车辆的车辆标签和表征所述样本图像中车辆位置信息的信息标签;
获取每个所述样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个所述样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签;
基于各所述训练样本和各所述样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至所述神经网络模型满足训练结束条件,得到车辆检测模型;
其中,所述训练结束条件包括以下至少一项:
所述神经网络模型的损失函数收敛,所述神经网络模型的训练损失值小于设定值,对所述神经网络模型的训练次数达到设定次数。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的损失函数包括第一损失函数和第二损失函数,对于每个所述样本图像,训练的过程包括:
通过所述特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图;
根据所述第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图;
对于每个所述子图像,根据该子图像对应的第二特征图和该子图像对应的位置信息,通过所述目标识别网络,得到该子图像的测分类结果以及预测车辆位置信息,所述预测分类结果表征该子图像中是否包括车辆;
基于该样本图像对应的各子图像的预测分类结果和对应的子图像的车辆标签,利用所述第一损失函数,确定第一训练损失值;基于该样本图像对应的各子图像的预测车辆位置信息和该样本图像的信息标签,利用所述第二损失函数,确定第二训练损失值;基于所述第一训练损失值和所述第二训练损失值,得到所述神经网络模型的训练损失值;
若所述神经网络模型的训练损失值不满足所述训练结束条件,对所述神经网络模型的模型参数进行调整,并基于所述各所述训练样本和各所述样本图像对应的各子图像对调整后的模型继续进行训练。
3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括至少一个特征提取模块以及与所述至少一个特征提取模块级联的池化模块,对于每个所述样本图像,所述通过所述特征提取网络对该样本图像进行特征提取,得到该样本图像对应的第一特征图,包括:
通过所述至少一个特征提取模块对该样本图像进行特征提取,得到该样本图像对应的特征提取的结果;
通过所述池化模块对所述特征提取的结果进行池化,得到该样本图像对应的第一特征图;
所述根据所述第一特征图以及该样本图像对应的各子图像在该样本图像中的位置信息,确定各子图像对应的第二特征图,包括:
根据所述池化网络的池化核的大小,确定所述第一特征图的各特征值与该样本图像中图像区域的映射关系;
对于每个所述子图像,根据该子图像对应的位置信息,确定所述样本图像中该子图像对应的图像区域;
对于每个所述子图像,根据所述映射关系和所述第一特征图,确定该子图像对应的图像区域在所述第一特征图中对应的各特征值,基于确定出的各子图像对应的特征值得到该子图像对应的第二特征图。
4.根据权利要求2所述的方法,其特征在于,在确定出各子图像对应的第二特征图之后,所述方法还包括:
对于每个所述子图像,将该子图像对应的第二特征图划分为设定数目的第三特征图,对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量;
对于每个所述子图像,所述根据该子图像对应的第二特征图和该子图像对应的位置信息,通过所述目标识别网络,得到该子图像的识别结果,包括:
根据该子图像对应的特征向量和该子图像对应的位置信息,通过所述目标识别网络,得到该子图像的识别结果。
5.根据权利要求4所述的方法,其特征在于,对于每个所述子图像,所述对该子图像对应的各第三特征图进行特征提取,得到该子图像对应的特征向量,包括:
对于每个第三特征图,对该第三特征图的各特征值进行池化操作;
基于该子图像对应的所有第三特征图的池化操作的结果,得到该子图像对应的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述基于每个所述样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签,包括:
对于每个所述样本图像,基于该样本图像的信息标签,确定该样本图像中车辆的车辆位置信息对应的图像区域;
对于每个子图像,确定所述样本图像中该子图像对应的图像区域与该样本图像中车辆的车辆位置信息对应的图像区域之间的重叠度;
对于每个子图像,若所述重叠度大于或等于预设值,确定该子图像的车辆标签为该子图像中包含车辆;否则,确定该子图像的车辆标签为该子图像不包含车辆。
7.一种车辆检测方法,其特征在于,包括:
获取待检测图像;
基于训练好的车辆检测模型,确定所述待检测图像中是否包括车辆以及所述待检测图像中车辆的位置信息,所述训练好的车辆检测模型是根据权利要求1至6中任意一项所述的方法训练得到的。
8.一种车辆检测模型训练装置,其特征在于,所述装置包括获取模块、子图像确定模块和训练模块,
获取模块,用于获取包括多个训练样本的训练数据集,每个训练样本包括样本图像、表征所述样本图像中是否包含车辆的车辆标签和表征所述样本图像中车辆位置信息的信息标签;
子图像确定模块,用于获取每个所述样本图像对应的至少两个子图像在该样本图像中的位置信息,并基于每个所述样本图像的信息标签,确定各样本图像对应的各子图像的车辆标签;
训练模块,用于基于各所述训练样本和各所述样本图像对应的各子图像,对包括依次级联的特征提取网络以及目标识别网络的神经网络模型进行迭代训练,直至所述神经网络模型的训练损失值满足训练结束条件,得到车辆检测模型;
其中,所述训练结束条件包括以下至少一项:
所述神经网络模型的损失函数收敛,所述神经网络模型的训练损失值小于设定值,对所述神经网络模型的训练次数达到设定次数。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6任一项所述方法的步骤、或者实现权利要求7中所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤、或者实现权利要求7中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564661.3A CN114399657A (zh) | 2021-12-20 | 2021-12-20 | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564661.3A CN114399657A (zh) | 2021-12-20 | 2021-12-20 | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399657A true CN114399657A (zh) | 2022-04-26 |
Family
ID=81226772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564661.3A Pending CN114399657A (zh) | 2021-12-20 | 2021-12-20 | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399657A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926447A (zh) * | 2022-06-01 | 2022-08-19 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于检测目标的方法和装置 |
CN115480273A (zh) * | 2022-10-21 | 2022-12-16 | 北京汇通天下物联科技有限公司 | 车辆定位系统检测方法及装置 |
-
2021
- 2021-12-20 CN CN202111564661.3A patent/CN114399657A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926447A (zh) * | 2022-06-01 | 2022-08-19 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于检测目标的方法和装置 |
CN114926447B (zh) * | 2022-06-01 | 2023-08-29 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于检测目标的方法和装置 |
CN115480273A (zh) * | 2022-10-21 | 2022-12-16 | 北京汇通天下物联科技有限公司 | 车辆定位系统检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751134B (zh) | 目标检测方法、装置、存储介质及计算机设备 | |
CN108304775B (zh) | 遥感图像识别方法、装置、存储介质以及电子设备 | |
US11475681B2 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN111507958A (zh) | 目标检测方法、检测模型的训练方法及电子设备 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN112560698B (zh) | 图像处理方法、装置、设备和介质 | |
CN111681273A (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN114399657A (zh) | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 | |
CN112041851A (zh) | 一种识别文本的方法及终端设备 | |
CN109409288B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN110889437B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN114359665A (zh) | 全任务人脸识别模型的训练方法及装置、人脸识别方法 | |
CN111340796A (zh) | 一种缺陷检测方法、装置、电子设备及存储介质 | |
CN111191482B (zh) | 一种刹车灯识别方法、装置及电子设备 | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN112785595B (zh) | 目标属性检测、神经网络训练及智能行驶方法、装置 | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN113129298B (zh) | 文本图像的清晰度识别方法 | |
CN116580230A (zh) | 一种目标检测方法及一种分类模型的训练方法 | |
CN111738069A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
CN112749293A (zh) | 一种图像分类方法、装置及存储介质 | |
CN114898306B (zh) | 一种检测目标朝向的方法、装置及电子设备 | |
CN114550062A (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN113160217B (zh) | 一种线路异物的检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |