CN111104937A

CN111104937A - 车门信息检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111104937A
Application number: CN201911165136.7A
Authority: CN
Inventors: 周康明; 丁子凡
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-05-05

Abstract

本申请涉及一种车门信息检测方法、装置、计算机设备和存储介质。所述车门信息检测方法包括：获取车门图片，所述车门图片包括车门信息；从所述车门图片中提取所述车门信息对应的特征图；将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果。采用本方法在检测车门中的车门信息时能够降低算法耗时、提升算法鲁棒性。

Description

车门信息检测方法、装置、计算机设备和存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种车门信息检测方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的不断发展，利用人工智能来代替人力劳动力、服务于人类已成为研究人工智能技术的新走向。目标检测是人工智能计算机视觉领域的一个研究热点，其在自动驾驶、人机对话、基于内容的图像检索、人脸识别等方面都有着重要的应用。

在智能交通领域，车辆年检时需要检测车门上的喷涂信息；传统的人工智能检测方法，是由计算机对整个车门图片进行检测，从车门图片的左上角开始，向右或者向下依次检测图片的整个区域来获取喷涂信息。

但是，上述的喷涂信息检测方法检测耗时久，达不到实时检测，且计算量大，算法鲁棒性差。

发明内容

基于此，有必要针对上述技术问题，提供一种在检测车门中的车门信息时能够降低算法耗时、提升算法鲁棒性的车门信息检测方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供了一种车门信息检测方法，所述车门信息检测方法包括：

获取车门图片，所述车门图片包括车门信息；

从所述车门图片中提取所述车门信息对应的特征图；

将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；

根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果。

在其中一个实施例中，所述强化学习模型包括目标DQN模型，所述将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息，包括：

将所述特征图输入至目标DQN模型中，得到所述特征图对应的最大Q函数值；

确定所述最大Q函数值对应的目标动作，并将所述目标动作指示的动作区域设置为所述车门信息在所述特征图中的位置信息。

在其中一个实施例中，所述目标DQN模型的训练过程包括：

获取参数初始化后的待训练DQN模型；

从预设的经验池中抽取多个车门训练图片，各所述车门训练图片已标注车门信息对应的目标位置框；

采用预设动作策略，根据所述多个车门训练图片对所述待训练DQN模型进行训练，得到所述目标DQN模型。

在其中一个实施例中，所述采用预设动作策略，根据所述多个车门训练图片对所述待训练DQN模型进行训练，得到所述目标DQN模型，包括：

对各所述车门训练图片设置多个具有预设尺寸的图像窗口；所述图像窗口用于从各所述车门训练图片中检测对应车门信息的位置；

将所述多个车门训练图片输入至所述待训练DQN模型中，并基于预设动作策略、多个所述图像窗口及各所述车门训练图片包括的所述目标位置框，对所述待训练DQN模型进行训练，得到所述目标DQN模型。

在其中一个实施例中，所述基于预设动作策略、多个所述图像窗口及各所述车门训练图片包括的所述目标位置框，对所述待训练DQN模型进行训练，得到所述目标DQN模型，包括：

获取所述车门训练图片中各所述图像窗口对应的动作奖励值；

检测动作奖励值最大的图像窗口与所述车门训练图片的目标位置框之间的交并比是否大于预设阈值；

若不大于所述预设阈值，则在所述动作奖励值最大的图像窗口中设置多个子图像窗口，并获取各所述子图像窗口对应的动作奖励值；

检测动作奖励值最大的子图像窗口与所述车门训练图片的目标位置框之间的交并比是否大于所述预设阈值；

若大于所述预设阈值，则得到所述目标DQN模型。

在其中一个实施例中，所述根据所述位置信息，从所述车门图片中截取检测图片，包括：

根据所述特征图与所述车门图片的尺寸比例，对所述位置信息进行相应地放大，得到放大后的位置信息；

在所述车门图片中截取与所述放大后的位置信息对应的图片区域，得到所述检测图片。

在其中一个实施例中，所述根据所述检测图片获取所述车门图片对应的所述车门信息检测结果，包括：

将所述检测图片输入至长短期记忆网络LSTM模型中，得到所述车门图片对应的所述车门信息检测结果。

在其中一个实施例中，所述从所述车门图片中提取所述车门信息对应的特征图，包括：

将所述车门图片输入至残差网络ResNet模型中，得到所述车门信息对应的特征图。

第二方面，本申请实施例提供一种车门信息检测装置，所述装置包括：

第一获取模块，用于获取车门图片，所述车门图片包括车门信息；

提取模块，用于从所述车门图片中提取所述车门信息对应的特征图；

第二获取模块，用于将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；

检测模块，用于根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取车门图片，所述车门图片包括车门信息；从所述车门图片中提取所述车门信息对应的特征图；将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果；由此，通过训练的强化学习模型，获取车门信息在特征图中的位置信息，根据该位置信息从车门图片中截取检测图片，并基于该检测图片获取车门图片对应的车门信息检测结果；本申请根据截取到的检测图片即可获取车门图片对应的车门信息检测结果，避免了传统技术中，由计算机设备从车门图片的左上角开始依次检测图片的整个区域来获取喷涂信息造成的检测方法检测耗时久、计算量大、算法鲁棒性差的问题。本申请从车门图片中获取车门信息检测结果时，能够降低算法耗时、提升算法鲁棒性。

附图说明

图1为一个实施例提供的车门信息检测方法的应用环境图；

图2为一个实施例提供的车门信息检测方法的流程示意图；

图3为一个实施例中步骤S300的细化步骤示意图；

图4为一个实施例中目标DQN模型训练过程的流程示意图；

图5为一个实施例中步骤S530的细化步骤示意图；

图6为一个实施例中步骤S400的细化步骤示意图；

图7为一个实施例提供的车门信息检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的车门信息检测方法，可以应用于如图1所示的计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存车门信息检测方法的数据。

本申请实施例提供的车门信息检测方法、装置、计算机设备和存储介质，旨在解决传统技术中，在检测车门中的车门信息时，检测方法检测耗时久，达不到实时检测，且计算过程中计算量大，算法鲁棒性差的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体地实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是，本申请实施例提供的车门信息检测方法，其执行主体可以是车门信息检测装置，该车门信息检测装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

请参考图2，其示出了本申请实施例提供的一种车门信息检测方法的流程图，如图2所示，本实施例车门信息检测方法可以包括以下步骤：

步骤S100，获取车门图片，车门图片包括车门信息。

车辆年检时，需要对车辆外观进行检视，包括车身颜色、漆面、喷涂信息等。车门图片可以是摄像头对待年检车辆的车门部位拍摄到的图片，计算机设备获取该车门图片。

车门图片包括车门信息，本实施例中，作为一种实施方式，以车门信息包括喷涂信息为例，对本实施例的实施方式做详细说明。在其它实施例中，车门信息还可以包括以其它形式附着在车门上的字体信息或图像信息。

步骤S200，从车门图片中提取车门信息对应的特征图。

本实施例中，预先训练ResNet(Residual Network，残差网络)模型。计算机设备将获取到的车门图片进行尺寸预处理以满足ResNet模型的输入需求，再将车门图片输入至ResNet模型中，提取残差网络第六层卷积层特征，得到车门信息对应的特征图。

步骤S300，将特征图输入至强化学习模型，获取车门信息在特征图中的位置信息。

该位置信息是基于强化学习模型输出的Q函数值确定的。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。本实施例中，强化学习模型包括预先训练的目标DQN(Deep Q-Network，深度Q网络)模型。

计算机设备将特征图作为一个状态值送入训练的目标DQN模型中，得到特征图对应的最大Q函数值，该最大Q函数值对应的动作区域代表了特征图中喷涂信息，即车门信息所在的位置。

步骤S400，根据位置信息，从车门图片中截取检测图片，并根据检测图片获取车门图片对应的车门信息检测结果。

该位置信息是车门信息在特征图中的位置，位置信息具体是一个位置框。本实施例中，通过特征图与车门图片的比例，获取车门信息在车门图片中的位置；例如，车门图片的尺寸为400*400，特征图的尺寸为100*100，计算机设备对车门信息在特征图中的位置框的宽和高各放大4倍，则得到车门信息在车门图片中的位置。

基于获取到的车门信息在车门图片中的位置，计算机设备从车门图片中截取相应的区域作为检测图片，传入训练的LSTM(Long Short-Term Memory，长短期记忆网络)进行识别，得到喷涂信息的具体内容，即得到车门图片对应的车门信息检测结果。

本实施例通过获取车门图片，车门图片包括车门信息；从车门图片中提取车门信息对应的特征图；将特征图输入至强化学习模型，获取车门信息在特征图中的位置信息；位置信息是基于强化学习模型输出的Q函数值确定的；根据位置信息，从车门图片中截取检测图片，并根据检测图片获取车门图片对应的车门信息检测结果；由此，通过训练的强化学习模型，获取车门信息在特征图中的位置信息，根据该位置信息从车门图片中截取检测图片，并基于该检测图片获取车门图片对应的车门信息检测结果；本实施例根据截取到的检测图片即可获取车门图片对应的车门信息检测结果，避免了传统技术中，由计算机设备从车门图片的左上角开始依次检测图片的整个区域来获取喷涂信息造成的检测方法检测耗时久、计算量大、算法鲁棒性差的问题。本实施例从车门图片中获取车门信息检测结果时，能够降低算法耗时、提升算法鲁棒性。

在另一个实施例中，强化学习模型包括目标DQN模型，参见图3，图3为另一个实施例中步骤S300的细化步骤示意图，步骤S300包括步骤S310和步骤S320，具体地：

步骤S310，将特征图输入至目标DQN模型中，得到特征图对应的最大Q函数值。

计算机设备将特征图输入至预先训练的目标DQN模型中，得到特征图对应的最大Q函数值。

在本实施例中，作为一种实施方式，参见图4，图4为本实施例中目标DQN模型训练过程的流程示意图；本实施例目标DQN模型的训练过程包括步骤S510、步骤S520和步骤S530，具体地：

步骤S510，获取参数初始化后的待训练DQN模型。

本实施例中，采用高斯分布对待训练DQN模型的参数进行初始化，计算机设备获取参数初始化后的待训练DQN模型。

步骤S520，从预设的经验池中抽取多个车门训练图片，各车门训练图片已标注车门信息对应的目标位置框。

本实施例中，对每张车门训练图片中包括的车门信息采用相应地目标位置框进行标注，得到训练数据集，即经验池。计算机设备从经验池中抽取已标注车门信息对应的目标位置框的多个车门训练图片，采用训练的ResNet模型对抽取的多个车门训练图片进行特征提取，并将提取到的特征输入至参数初始化后的待训练DQN模型中，训练该待训练DQN模型。

步骤S530，采用预设动作策略，根据多个车门训练图片对待训练DQN模型进行训练，得到目标DQN模型。

作为一种实施方式，参见图5，图5为步骤S530的细化步骤示意图，步骤S530包括步骤S531和步骤S532，具体地：

步骤S531，对各车门训练图片设置多个具有预设尺寸的图像窗口；图像窗口用于从各车门训练图片中检测对应车门信息的位置。

步骤S532，将多个车门训练图片输入至待训练DQN模型中，并基于预设动作策略、多个图像窗口及各车门训练图片包括的目标位置框，对待训练DQN模型进行训练，得到目标DQN模型。

本实施例中，计算机设备对各车门训练图片分别设置多个具有预设尺寸的图像窗口以用于从各车门训练图片中检测对应车门信息的位置。每个车门训练图片设置的多个图像窗口的并集区域要等于当前车门训练图片对应的区域，例如，设置五个图像窗口，这五个图像窗口的并集区域要布满一个车门训练图片，且这五个图像窗口分别对应车门训练图片的左上、右上、左下、右下及中心区域，然后开始训练智能体。

本实施例中，作为一种实施方式，步骤S532包括步骤a、步骤b、步骤c、步骤d及步骤e，具体地：

步骤a，将多个车门训练图片输入至待训练DQN模型中，获取车门训练图片中各图像窗口对应的动作奖励值。

在开始训练时，计算机设备将多个车门训练图片输入至待训练DQN模型中，获取车门训练图片中各图像窗口对应的动作奖励值，智能体选择出动作奖励值最大的图像窗口，即选出了各车门训练图片中信息量最大的图像窗口，选出的图像窗口包括车门信息。

步骤b，检测动作奖励值最大的图像窗口与车门训练图片的目标位置框之间的交并比是否大于预设阈值。

对于一个车门训练图片，选择到信息量最大的图像窗口后，计算机设备检测选择的该图像窗口与该车门训练图片对应的目标位置框之间的交并比，若交并比大于预设阈值，预设阈值例如为0.7，则确定已检测到该车门训练图片包括的车门信息。

步骤c，若不大于预设阈值，则在动作奖励值最大的图像窗口中设置多个子图像窗口，并获取各子图像窗口对应的动作奖励值。

若交并比不大于该预设阈值，与五个图像窗口的设置规则一致，计算机设备在该信息量最大的图像窗口内继续设置五个子图像窗口，并获取各子图像窗口对应的动作奖励值。智能体继续选择动作奖励值最大的子图像窗口，即选出信息量最大的子图像窗口，选出的子图像窗口包括车门信息。

步骤d，检测动作奖励值最大的子图像窗口与车门训练图片的目标位置框之间的交并比是否大于预设阈值。

计算机设备进一步检测该动作奖励值最大的子图像窗口与车门训练图片的目标位置框之间的交并比是否大于预设阈值，若交并比不大于该预设阈值，则在该动作奖励值最大的子图像窗口中继续拆分图像窗口供智能体选择，直至智能体选出的窗口与目标位置框的交并比大于预设阈值。

步骤e，若大于预设阈值，则得到目标DQN模型。

若该动作奖励值最大的子图像窗口与车门训练图片的目标位置框之间的交并比大于预设阈值，则认为已检测到该车门训练图片包括的车门信息，多轮迭代后多个车门训练图片包括的车门信息均检测到后，模型训练完成。

本实施例中，基于先进先出原则维持经验池的大小，计算机设备在每轮迭代中随机的从经验池中抽取一定比例的样本进行模型训练，目的是打乱样本状态之间的相关性，使得模型更新更有效率。作为一种实施方式，经验池的大小与每次抽取样本的数量之间的比例可以是10:1。经验池记录着每一个状态下的行动、动作奖励值、和下一个状态的结果(s,a,r,s')，其中，s代表当前状态，a代表动作，r代表选择动作a的动作奖励值，s'为选择动作a后的状态。

在学习过程中，智能体动作的选择运用如公式1所示的ε-greedy策略：

其中，π代表了s状态下智能体选择a动作的这个策略；|A(s)|表示动作集内动作的个数，例如，本实施例设置了五个图像窗口，即智能体可选的动作个数为五个，因此，|A(s)|等于5；Q(s,a)表示s状态下智能体选择a动作对应的Q函数值；ε为设置的参数，开始训练时ε设置1，其目地是在开始训练时，在ε＝1时智能体采取随机动作，随着迭代ε不断减小直至为0.1，智能体逐渐依赖学到的策略来选择行动，从而避免陷入局部最优解这一弊端。

开始训练时，由于ε＝1，智能体选择五个图像窗口中任一个动作对应的概率均相等，都等于ε/|A(s)|＝0.2,智能体从这五个图像窗口中选择任一个窗口进行动作移动的概率都相等，智能体随机选择一个图像窗口进行移动。

智能体选择了一个图像窗口后，计算机设备再次对该选择的图像窗口设置五个子图像窗口；同样的，五个子图像窗口需要布满智能体当前选择的这个图像窗口，此时ε小于1，待训练DQN模型计算五个子图像窗口分别对应的动作奖励值，智能体基于公式1所示的ε-greedy策略，选择动作奖励值最大的子窗口对应的动作概率增大，随着迭代ε不断减小直至为0.1，智能体逐渐依赖于学到的策略来选择行动。

对于每个车门训练图片，智能体每选择一个动作，计算机设备计算一次智能体当前选择的动作对应的图像窗口与该车门训练图片标注的目标位置框之间的交并比，若交并比不大于预设阈值，计算机设备则在智能体当前选择的动作对应的图像窗口内继续拆分子图像窗口供智能体进行动作选择，直至智能体选择的动作对应的窗口与该车门训练图片标注的目标位置框之间的交并比大于该预设阈值。在本实施例中，待训练DQN模型在训练过程中，智能体每选择一个图像窗口，动作奖励值采用公式2计算得到：

r_t＝sign(IOU(b',g)-IOU(b,g)) 公式2

其中，r_t为智能体选择一个图像窗口对应的动作奖励值，IOU(b',g)表示智能体执行了选择动作后，智能体在一个车门训练图片中选择的图像窗口与该车门训练图片中目标位置框的交并比，IOU(b,g)为智能体执行选择动作前，智能体在该车门训练图片中的图像窗口与该车门训练图片中目标位置框的交并比。计算智能体动作选择后与动作选择前的交并比之差，经过符号函数得到智能体选择该动作对应的动作奖励值。可以理解的是，训练的目的是要智能体的每一个动作选择都要更逼近于车门训练图片中的目标位置框，因此，若智能体执行一个动作选择后，选择的图像窗口比动作选择前更逼近目标位置框，则动作奖励值更大。

当智能体执行结束操作时，动作奖励值采用公式3计算得到：

τ，η均为设定的阈值，τ同上述的预设阈值，即，若智能体选择结束动作后对应的图像窗口与该车门训练图片中目标位置框的交并比大于或等于阈值τ，则得到η作为动作奖励值，若智能体选择结束动作后对应的图像窗口与该车门训练图片中目标位置框的交并比不大于阈值τ，得到-η作为动作奖励值。

通过ε-greedy策略选择动作，直至得到一个最优策略，最优策略即为智能体通过动作策略选择的图像窗口与车门训练图片的目标位置框的交并比大于阈值τ，即模型检测到车门训练图片中的车门信息，训练完成，得到目标DQN模型。

将特征图输入至训练完成的目标DQN模型中，目标DQN模型则基于训练得到的最优策略，输出特征图对应的最大Q函数值。

步骤S320，确定最大Q函数值对应的目标动作，并将目标动作指示的动作区域设置为车门信息在特征图中的位置信息。

目标DQN模型直接检测到特征图中车门信息对应的位置框，最大Q函数值对应的目标动作，即为智能体直接移动到特征图中车门信息对应的位置框的这个动作，由此，确定目标动作指示的动作区域，即位置框，并将该位置框设置为车门信息在特征图中的位置信息。

可以理解的是，若车门图片中包括的车门信息增多，且多处车门信息的位置不集中在一起，计算机设备可以通过训练多个智能体，从图像窗口中对多个目标，即多处车门信息进行检测，同样可以实现车门图片中包括多处车门信息的检测及识别，本实施例在此不做具体限制。

在另一个实施例中，参见图6，图6为步骤S400的细化步骤示意图，步骤S400包括步骤S410和步骤S420，具体地：

步骤S410，根据特征图与车门图片的尺寸比例，对位置信息进行相应地放大，得到放大后的位置信息。

步骤S420，在车门图片中截取与放大后的位置信息对应的图片区域，得到检测图片。

计算机设备将特征图输入至训练的强化学习模型，获取车门信息在特征图中的位置信息，该位置信息是车门信息在特征图中的位置，位置信息具体是一个位置框。本实施例中，通过特征图与车门图片的比例，获取车门信息在车门图片中的位置；例如，车门图片的尺寸为400*400，特征图的尺寸为100*100，计算机设备对车门信息在特征图中的位置框的宽和高各放大4倍，则得到车门信息在车门图片中的位置，即放大后的位置信息，计算机设备在车门图片中截取与放大后的位置信息对应的图片区域，得到检测图片。

作为一种实施方式，本实施例步骤S400还可以包括步骤S430，具体地：

步骤S430，将检测图片输入至长短期记忆网络LSTM模型中，得到车门图片对应的车门信息检测结果。

由此，只需基于LSTM模型对截取到的检测图片进行识别，降低了算法耗时、提升了算法鲁棒性。

作为一种实施方式，步骤S200可以包括步骤a:

步骤a：将车门图片输入至残差网络ResNet模型中，得到车门信息对应的特征图。

本实施例中，对于ResNet模型及LSTM模型的训练，均是基于下载的训练好的网络参数来作为初始参数的，由此，提升了模型的训练速度，提升了车门信息检测的速度。

本申请实施例基于训练的ResNet模型、目标DQN模型及LSTM模型来实现车门图片中车门信息的检测，充分考虑了图片块之间的联系，本申请实施例不需要如faster-rcnn，ssd等检测过程中的非极大值抑制处理过程，同时又减少了检测区域，降低了检测耗时，能达到实时检测的效果，提升了算法鲁棒性。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种车门信息检测装置，包括：

第一获取模块10，用于获取车门图片，所述车门图片包括车门信息；

提取模块20，用于从所述车门图片中提取所述车门信息对应的特征图；

第二获取模块30，用于将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；

检测模块40，用于根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果。

可选地，所述强化学习模型包括目标DQN模型，所述第二获取模块30包括：

输入单元，用于将所述特征图输入至目标DQN模型中，得到所述特征图对应的最大Q函数值；

确定单元，用于确定所述最大Q函数值对应的目标动作，并将所述目标动作指示的动作区域设置为所述车门信息在所述特征图中的位置信息。

可选地，所述目标DQN模型的训练过程包括：

第三获取模块，用于获取参数初始化后的待训练DQN模型；

抽取模块，用于从预设的经验池中抽取多个车门训练图片，各所述车门训练图片已标注车门信息对应的目标位置框；

训练模块，用于采用预设动作策略，根据所述多个车门训练图片对所述待训练DQN模型进行训练，得到所述目标DQN模型。

可选地，所述训练模块，包括：

设置单元，用于对各所述车门训练图片设置多个具有预设尺寸的图像窗口；所述图像窗口用于从各所述车门训练图片中检测对应车门信息的位置；

训练单元，用于将所述多个车门训练图片输入至所述待训练DQN模型中，并基于预设动作策略、多个所述图像窗口及各所述车门训练图片包括的所述目标位置框，对所述待训练DQN模型进行训练，得到所述目标DQN模型。

可选地，所述训练单元包括：

获取子单元，用于将所述多个车门训练图片输入至所述待训练DQN模型中，获取所述车门训练图片中各所述图像窗口对应的动作奖励值；

第一检测子单元，用于检测动作奖励值最大的图像窗口与所述车门训练图片的目标位置框之间的交并比是否大于预设阈值；

设置子单元，用于若不大于所述预设阈值，则在所述动作奖励值最大的图像窗口中设置多个子图像窗口，并获取各所述子图像窗口对应的动作奖励值；

第二检测子单元，用于检测动作奖励值最大的子图像窗口与所述车门训练图片的目标位置框之间的交并比是否大于所述预设阈值；

确定子单元，用于若大于所述预设阈值，则得到所述目标DQN模型。

可选地，所述检测模块40包括：

调整单元，用于根据所述特征图与所述车门图片的尺寸比例，对所述位置信息进行相应地放大，得到放大后的位置信息；

截取单元，用于在所述车门图片中截取与所述放大后的位置信息对应的图片区域，得到所述检测图片。

可选地，所述检测模块40还包括：

检测单元，用于将所述检测图片输入至长短期记忆网络LSTM模型中，得到所述车门图片对应的所述车门信息检测结果。

可选地，所述提取模块20包括：

提取单元，用于将所述车门图片输入至残差网络ResNet模型中，得到所述车门信息对应的特征图。

本实施例提供的车门信息检测装置，可以执行上述车门信息检测方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于车门信息检测装置的具体限定可以参见上文中对于车门信息检测方法的限定，在此不再赘述。上述车门信息检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，还提供了一种如图1所示的计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储车门信息检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车门信息检测方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取车门图片，所述车门图片包括车门信息；从所述车门图片中提取所述车门信息对应的特征图；将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息；所述位置信息是基于所述强化学习模型输出的Q函数值确定的；根据所述位置信息，从所述车门图片中截取检测图片，并根据所述检测图片获取所述车门图片对应的所述车门信息检测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Ramb微秒)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种车门信息检测方法，其特征在于，所述方法包括：

获取车门图片，所述车门图片包括车门信息；

从所述车门图片中提取所述车门信息对应的特征图；

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型包括目标DQN模型，所述将所述特征图输入至强化学习模型，获取所述车门信息在所述特征图中的位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标DQN模型的训练过程包括：

获取参数初始化后的待训练DQN模型；

4.根据权利要求3所述的方法，其特征在于，所述采用预设动作策略，根据所述多个车门训练图片对所述待训练DQN模型进行训练，得到所述目标DQN模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于预设动作策略、多个所述图像窗口及各所述车门训练图片包括的所述目标位置框，对所述待训练DQN模型进行训练，得到所述目标DQN模型，包括：

若大于所述预设阈值，则得到所述目标DQN模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述位置信息，从所述车门图片中截取检测图片，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述检测图片获取所述车门图片对应的所述车门信息检测结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述从所述车门图片中提取所述车门信息对应的特征图，包括：

9.一种车门车门信息检测装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。