CN114913487A

CN114913487A - 一种基于多模态学习的目标识别检测方法及相关组件

Info

Publication number: CN114913487A
Application number: CN202210693444.2A
Authority: CN
Inventors: 苏红梅; 吴远津; 陈嘉维
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-08-16

Abstract

本发明公开了一种基于多模态学习的目标识别检测方法及相关组件。该方法包括：采集被测场景中含有车辆的图像集；利用图像集对DETR网络进行训练，得到DETR模型；通过DETR模型对待测图像进行预测，输出待测图像中车辆的分类结果；对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；将文本信息在预设语料库中进行匹配，得到文本信息对应的车辆类别。本发明目标检测的方式对出入口的车进行大的分类并输出初步分类结果，然后通过文本检测方式将车梁上的文字提取出来再通过自然语言对文字进行理解后刷选出真的目标类型的车辆，具有识别精准的优点。

Description

一种基于多模态学习的目标识别检测方法及相关组件

技术领域

本发明涉及计算机视觉检测技术领域，尤其涉及一种基于多模态学习的目标识别检测方法及相关组件。

背景技术

车辆出入口无人化后，存在货车管理难题，为进一步完善这种管理，提升社区服务，需要实时检测无人岗亭，有效识别出货车，对它进行检查。

货车识别的难点在于对面包类货车和非岗亭路边的货车的误识别，如果只是通过目标检测的方法进行识别，无法将面包类货车和面包类商务车有效区分，无法将外观相似的垃圾车和大卡车进行区分，也会误识别路边的货车，因为在外形上比较相似的。

发明内容

本发明的目的是提供一种基于多模态学习的目标识别检测方法及相关组件，旨在解决现有无人岗亭中对货车识别不够精准的题。

第一方面，本发明实施例提供一种基于多模态学习的目标识别检测方法，包括：

采集被测场景中含有车辆的图像集；

利用所述图像集对DETR网络进行训练，得到DETR模型；

通过所述DETR模型对待测图像进行预测，输出所述待测图像中车辆的初步分类结果；

对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；

将所述文本信息在预设语料库中进行匹配，得到所述文本信息对应的车辆类别并输出为最终分类结果。

第二方面，本发明实施例提供一种基于多模态学习的目标识别检测装置，包括：

采集单元，用于采集被测场景中含有车辆的图像集；

训练单元，用于利用所述图像集对DETR网络进行训练，得到DETR模型；

第一分类单元，用于通过所述DETR模型对待测图像进行预测，输出所述待测图像中车辆的初步分类结果；

文本检测单元，用于对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；

第二分类单元，用于将所述文本信息在预设语料库中进行匹配，得到所述文本信息对应的车辆类别并输出为最终分类结果。

第三方面，本发明实施例提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于多模态学习的目标识别检测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多模态学习的目标识别检测方法。

本发明实施例公开了一种基于多模态学习的目标识别检测方法及相关组件。该方法包括：采集被测场景中含有车辆的图像集；利用图像集对DETR网络进行训练，得到DETR模型；通过DETR模型对待测图像进行预测，输出待测图像中车辆的分类结果；对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；将文本信息在预设语料库中进行匹配，得到文本信息对应的车辆类别。本发明实施例目标检测的方式对出入口的车进行大的分类并输出初步分类结果，然后通过文本检测方式将车梁上的文字提取出来再通过自然语言对文字进行理解后刷选出真的目标类型的车辆，具有识别精准的优点。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图；

图2为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图；

图3为本发明实施例提供的基于多模态学习的目标识别检测方法的子流程示意图；

图4为本发明实施例提供的基于多模态学习的目标识别检测方法的又一子流程示意图；

图5为本发明实施例提供的基于多模态学习的目标识别检测方法的又一子流程示意图；

图6为本发明实施例提供的基于多模态学习的目标识别检测装置的示意性框图；

图7为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图；

如图1所示，该方法包括步骤S101～S105。

S101、采集被测场景中含有车辆的图像集；

S102、利用图像集对DETR网络进行训练，得到DETR模型；

S103、通过DETR模型对待测图像进行预测，输出待测图像中车辆的初步分类结果；

S104、对初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；

S105、将文本信息在预设语料库中进行匹配，得到文本信息对应的车辆类别并输出为最终分类结果。

本实施例以识别货车为例，通过监控模块获取无人岗(被测场景)的图像，以获取含有车辆的图像集，通过图像集训练并得到DETR模型；通过DETR模型进行目标检测的方式可以先对出入的车辆进行大的分类，可以初步识别出货车，但是准确性不高，故本实施例基于分类出的货车，再通过文本识别的方式将车辆上的文字提取出来，再通过自然语言对文字进行理解后和之前建好的语料字典进行匹配，将从初步分类结果中进一步刷选出真的货车，有效克服了无法区分外形相似的物体，提高了货车识别的能力。

基于本实施例提供的多模态结合的目标识别检测方法，把无人岗的监控模块接入到平台每隔一段时间进行抽帧，再使用本发明提供的目标识别检测方法进行监控，如果识别到货车则进行告警提示。

在一实施例中，如图2所示，步骤S101包括：

S201、通过视频抽帧采集被测场景的图像；

S202、对采集的图像进行数据清洗，筛选含有车辆的图像并进行标注，得到图像集；

S203、划分图像集，得到训练集和验证集。

本实施例中，可使用枪机或球机摄像头拍摄被测场景，通过视频抽帧的方法采集不同无人岗的图像，通过专家对图像进行数据清洗，只保留包含车的图像，其中包含不同天气、不同光线情况下的岗亭图像数据。

根据实际需求，使用标注平台对图像进行标注，记录不同类型车的坐标以及标签，然后将标注信息存入json格式文件中。

把数据集按标签进行划分为训练集和验证集，具体划分比例可根据需求进行设定。

在一实施例中，如图3所示，步骤S102包括：

S301、将训练集中的图像输入DETR网络中的特征提取模块进行尺寸变换和特征提取，输出对应的特征图；

S302、对特征图进行卷积降维处理，得到图片特征序列；

S303、并对特征图进行位置编码得到位置编码矩阵；

S304、将图片特征序列和位置编码矩阵输入DETR网络中的编码-解码模块进行全局注意力和映射分析，得到多个token序列；

S305、将token序列输入DETR网络中的前馈神经网络模块进行分类预测，输出多个预测框的位置坐标和类别分数。

本实施例中，DETR网络包含四个部分：特征提取模块(backbone)、编码模块(encoder)、解码模块(decoder)和前馈神经网络模块(FFN)；

具体的训练过程为：

首先，在第一部分中：将训练集中的图像输入特征提取模块进行尺寸变换和特征提取，输出特征图C×HW，C表示token序列的维度，C＝2048，故需经过一个1×1卷积核进行卷积降维处理得到图片特征序列，然后对特征图进行位置编码并得到位置编码矩阵。

然后，在第二部分和第三部分中：将图片特征序列和位置编码矩阵输入DETR网络中的编码-解码模块进行全局注意力和映射分析，得到经过注意力和映射之后的token序列特征序列token。

然后，在第四部分中：将所有token序列输入DETR网络中的前馈神经网络模块进行分类预测，输出100个预测框的位置坐标和类别分数。

在一实施例中，步骤S102还包括：

在训练的过程中使用分类损失、交叉熵损失和检测框位置损失L1和IOU损失的加权监督整个网络的训练，具体为：

获取真实结果与预测结果的映射关系：

其中，

表示真实结果y_i到对应预测结果

的映射关系，σ(i)表示第i个真实框对应的预测框的索引；L_match表示匹配函数，用于最小化y_i和

的距离；Σ_N表示所有真值与对应预测值的排列；

其中，1表示符号，后面括号的内容为真时候取值1，否者取值0，φ表示未检测到任何对象；i表示groundtruth(真实结果)中的第i个元素；c_i表示groundtruth(真实结果)中的第i个class，即class_i(类别)；b_i表示ground truth中第i个bbox,σ(i)是某个组合中groundtruth(真实结果)第i个元素对应于predictions中的index；

表示predictions中第σ(i)个probs(预测类别结果)，即probs_σ(i)；

表示predictions中的第σ(i)个bbox(预测框)，即bbox_σ(i)，然后使用Hungarian算法在Σ_N找到L_match最小的组合；

根据映射关系使用Hungarian算法计算匈牙利损失：

其中，

表示类别损失，

表示预测框损失；N表示数量，N大于图像中目标的数量；

表示IOU损失函数，

表示L1损失函数，λ_iou,λ_L1∈R表示超参数。

本实施例中，基于上述提供的公式和参数进行计算并优化DETR模型。

在一实施例中，步骤S102还包括：

对DETR网络进行迭代训练并达到预设次数后，输出训练后的DETR模型；

将图像集中的验证集输入训练后的DETR模型进行验证，输出训练结果指标。

本实施例中，对DETR网络进行迭代训练并达到预设次数，本实施例在训练过程中可使用SGD随机梯度下降，优选迭代至300次后停止训练，并输出训练后的DETR模型。然后通过前述划分的验证集对训练后的DETR模型进行验证并输出训练结果指标，可将训练结果指标与预设指标进行对比，若未达到预设指标可继续进行迭代训练，直至达到预设指标。

在一实施例中，如图4所示，步骤S104包括：

S401、若初步分类结果为目标类别，则通过PP-OCR识别系统检测并框取待测图像车辆车身上的文本；

S402、对框取的文本进行校正；

S403、对校正后的文本进行识别并得到文本信息。

本实施例中，初步分类结果为目标类别时，即为货车，为提高分类准确性，采用OCR文本识别技术待测图像中的车辆上的文本进行框取、校正以及识别，从而得到车身上的文本信息，因为根据车身上的文本信息可以准确的确认车辆类型，故本实施例增加这一步骤后，可很大程度上提高分类的准确性。

在一实施例中，如图5所示，步骤S105包括：

S501、向量化文本信息，得到文本信息的词向量表示；

S502、将词向量表示与预设语料库中的语料向量进行相似度匹配，根据匹配结果获取词向量表示对应的车辆类别。

本实施例中，将识别出来的文字通过BERT进行向量化，用BERT模型进行词向量表示，在基于深度神经网络的NLP方法中，文本中的字/词通常都用一维向量来表示(一般称之为“词向量”)；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。特别地，我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近，如此一来，由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此，BERT模型的主要输入是文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是文本中各个字/词融合了全文语义信息后的向量表示。

而后，再将文本信息的词向量表示和预先构建的预设语料库中的语料向量进行相似度匹配，预设语料库是货车上经常印刷的字样的集合，将文本信息的词向量表示和语料向量进行点乘，向量点乘结果为1是表示两向量一样，相反则为-1，互相垂直0，由此，可根据匹配结果获取词向量表示对应的车辆类别是否真的为货车，从而实现高精度筛选确认货车的过程。

本发明实施例还提供一种基于多模态学习的目标识别检测装置，该基于多模态学习的目标识别检测装置用于执行前述基于多模态学习的目标识别检测方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的基于多模态学习的目标识别检测装置的示意性框图。

如图6所示，基于多模态学习的目标识别检测装置600，包括：采集单元601、训练单元602、第一分类单元603、文本检测单元604以及第二分类单元605。

采集单元601，用于采集被测场景中含有车辆的图像集；

训练单元602，用于利用图像集对DETR网络进行训练，得到DETR模型；

第一分类单元603，用于通过DETR模型对待测图像进行预测，输出待测图像中车辆的初步分类结果；

文本检测单元604，用于对初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；

第二分类单元605，用于将文本信息在预设语料库中进行匹配，得到文本信息对应的车辆类别并输出为最终分类结果。

该装置通过监控模块获取无人岗(被测场景)的图像，以获取含有车辆的图像集，通过图像集训练并得到DETR模型；通过DETR模型进行目标检测的方式可以先对出入的车辆进行大的分类，可以初步识别出货车，但是准确性不高，故本实施例基于分类出的货车，再通过文本识别的方式将车辆上的文字提取出来，再通过自然语言对文字进行理解后和之前建好的语料字典进行匹配，将从初步分类结果中进一步刷选出真的货车，有效克服了无法区分外形相似的物体，提高了货车识别的能力。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述基于多模态学习的目标识别检测装置可以实现为计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本发明实施例提供的计算机设备的示意性框图。该计算机设备700是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行基于多模态学习的目标识别检测方法。

该处理器702用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行基于多模态学习的目标识别检测方法。

该网络接口705用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的基于多模态学习的目标识别检测方法。

存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。