CN114913487A - 一种基于多模态学习的目标识别检测方法及相关组件 - Google Patents

一种基于多模态学习的目标识别检测方法及相关组件 Download PDF

Info

Publication number
CN114913487A
CN114913487A CN202210693444.2A CN202210693444A CN114913487A CN 114913487 A CN114913487 A CN 114913487A CN 202210693444 A CN202210693444 A CN 202210693444A CN 114913487 A CN114913487 A CN 114913487A
Authority
CN
China
Prior art keywords
detr
image
vehicle
detected
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210693444.2A
Other languages
English (en)
Inventor
苏红梅
吴远津
陈嘉维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanwuyun Technology Co ltd
Original Assignee
Shenzhen Wanwuyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanwuyun Technology Co ltd filed Critical Shenzhen Wanwuyun Technology Co ltd
Priority to CN202210693444.2A priority Critical patent/CN114913487A/zh
Publication of CN114913487A publication Critical patent/CN114913487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多模态学习的目标识别检测方法及相关组件。该方法包括:采集被测场景中含有车辆的图像集;利用图像集对DETR网络进行训练,得到DETR模型;通过DETR模型对待测图像进行预测,输出待测图像中车辆的分类结果;对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;将文本信息在预设语料库中进行匹配,得到文本信息对应的车辆类别。本发明目标检测的方式对出入口的车进行大的分类并输出初步分类结果,然后通过文本检测方式将车梁上的文字提取出来再通过自然语言对文字进行理解后刷选出真的目标类型的车辆,具有识别精准的优点。

Description

一种基于多模态学习的目标识别检测方法及相关组件
技术领域
本发明涉及计算机视觉检测技术领域,尤其涉及一种基于多模态学习的目标识别检测方法及相关组件。
背景技术
车辆出入口无人化后,存在货车管理难题,为进一步完善这种管理,提升社区服务,需要实时检测无人岗亭,有效识别出货车,对它进行检查。
货车识别的难点在于对面包类货车和非岗亭路边的货车的误识别,如果只是通过目标检测的方法进行识别,无法将面包类货车和面包类商务车有效区分,无法将外观相似的垃圾车和大卡车进行区分,也会误识别路边的货车,因为在外形上比较相似的。
发明内容
本发明的目的是提供一种基于多模态学习的目标识别检测方法及相关组件,旨在解决现有无人岗亭中对货车识别不够精准的题。
第一方面,本发明实施例提供一种基于多模态学习的目标识别检测方法,包括:
采集被测场景中含有车辆的图像集;
利用所述图像集对DETR网络进行训练,得到DETR模型;
通过所述DETR模型对待测图像进行预测,输出所述待测图像中车辆的初步分类结果;
对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
将所述文本信息在预设语料库中进行匹配,得到所述文本信息对应的车辆类别并输出为最终分类结果。
第二方面,本发明实施例提供一种基于多模态学习的目标识别检测装置,包括:
采集单元,用于采集被测场景中含有车辆的图像集;
训练单元,用于利用所述图像集对DETR网络进行训练,得到DETR模型;
第一分类单元,用于通过所述DETR模型对待测图像进行预测,输出所述待测图像中车辆的初步分类结果;
文本检测单元,用于对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
第二分类单元,用于将所述文本信息在预设语料库中进行匹配,得到所述文本信息对应的车辆类别并输出为最终分类结果。
第三方面,本发明实施例提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于多模态学习的目标识别检测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多模态学习的目标识别检测方法。
本发明实施例公开了一种基于多模态学习的目标识别检测方法及相关组件。该方法包括:采集被测场景中含有车辆的图像集;利用图像集对DETR网络进行训练,得到DETR模型;通过DETR模型对待测图像进行预测,输出待测图像中车辆的分类结果;对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;将文本信息在预设语料库中进行匹配,得到文本信息对应的车辆类别。本发明实施例目标检测的方式对出入口的车进行大的分类并输出初步分类结果,然后通过文本检测方式将车梁上的文字提取出来再通过自然语言对文字进行理解后刷选出真的目标类型的车辆,具有识别精准的优点。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图;
图2为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图;
图3为本发明实施例提供的基于多模态学习的目标识别检测方法的子流程示意图;
图4为本发明实施例提供的基于多模态学习的目标识别检测方法的又一子流程示意图;
图5为本发明实施例提供的基于多模态学习的目标识别检测方法的又一子流程示意图;
图6为本发明实施例提供的基于多模态学习的目标识别检测装置的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于多模态学习的目标识别检测方法的流程示意图;
如图1所示,该方法包括步骤S101~S105。
S101、采集被测场景中含有车辆的图像集;
S102、利用图像集对DETR网络进行训练,得到DETR模型;
S103、通过DETR模型对待测图像进行预测,输出待测图像中车辆的初步分类结果;
S104、对初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
S105、将文本信息在预设语料库中进行匹配,得到文本信息对应的车辆类别并输出为最终分类结果。
本实施例以识别货车为例,通过监控模块获取无人岗(被测场景)的图像,以获取含有车辆的图像集,通过图像集训练并得到DETR模型;通过DETR模型进行目标检测的方式可以先对出入的车辆进行大的分类,可以初步识别出货车,但是准确性不高,故本实施例基于分类出的货车,再通过文本识别的方式将车辆上的文字提取出来,再通过自然语言对文字进行理解后和之前建好的语料字典进行匹配,将从初步分类结果中进一步刷选出真的货车,有效克服了无法区分外形相似的物体,提高了货车识别的能力。
基于本实施例提供的多模态结合的目标识别检测方法,把无人岗的监控模块接入到平台每隔一段时间进行抽帧,再使用本发明提供的目标识别检测方法进行监控,如果识别到货车则进行告警提示。
在一实施例中,如图2所示,步骤S101包括:
S201、通过视频抽帧采集被测场景的图像;
S202、对采集的图像进行数据清洗,筛选含有车辆的图像并进行标注,得到图像集;
S203、划分图像集,得到训练集和验证集。
本实施例中,可使用枪机或球机摄像头拍摄被测场景,通过视频抽帧的方法采集不同无人岗的图像,通过专家对图像进行数据清洗,只保留包含车的图像,其中包含不同天气、不同光线情况下的岗亭图像数据。
根据实际需求,使用标注平台对图像进行标注,记录不同类型车的坐标以及标签,然后将标注信息存入json格式文件中。
把数据集按标签进行划分为训练集和验证集,具体划分比例可根据需求进行设定。
在一实施例中,如图3所示,步骤S102包括:
S301、将训练集中的图像输入DETR网络中的特征提取模块进行尺寸变换和特征提取,输出对应的特征图;
S302、对特征图进行卷积降维处理,得到图片特征序列;
S303、并对特征图进行位置编码得到位置编码矩阵;
S304、将图片特征序列和位置编码矩阵输入DETR网络中的编码-解码模块进行全局注意力和映射分析,得到多个token序列;
S305、将token序列输入DETR网络中的前馈神经网络模块进行分类预测,输出多个预测框的位置坐标和类别分数。
本实施例中,DETR网络包含四个部分:特征提取模块(backbone)、编码模块(encoder)、解码模块(decoder)和前馈神经网络模块(FFN);
具体的训练过程为:
首先,在第一部分中:将训练集中的图像输入特征提取模块进行尺寸变换和特征提取,输出特征图C×HW,C表示token序列的维度,C=2048,故需经过一个1×1卷积核进行卷积降维处理得到图片特征序列,然后对特征图进行位置编码并得到位置编码矩阵。
然后,在第二部分和第三部分中:将图片特征序列和位置编码矩阵输入DETR网络中的编码-解码模块进行全局注意力和映射分析,得到经过注意力和映射之后的token序列特征序列token。
然后,在第四部分中:将所有token序列输入DETR网络中的前馈神经网络模块进行分类预测,输出100个预测框的位置坐标和类别分数。
在一实施例中,步骤S102还包括:
在训练的过程中使用分类损失、交叉熵损失和检测框位置损失L1和IOU损失的加权监督整个网络的训练,具体为:
获取真实结果与预测结果的映射关系:
Figure BDA0003701285650000051
其中,
Figure BDA0003701285650000052
表示真实结果yi到对应预测结果
Figure BDA0003701285650000053
的映射关系,σ(i)表示第i个真实框对应的预测框的索引;Lmatch表示匹配函数,用于最小化yi
Figure BDA0003701285650000054
的距离;ΣN表示所有真值与对应预测值的排列;
Figure BDA0003701285650000061
其中,1表示符号,后面括号的内容为真时候取值1,否者取值0,φ表示未检测到任何对象;i表示groundtruth(真实结果)中的第i个元素;ci表示groundtruth(真实结果)中的第i个class,即classi(类别);bi表示ground truth中第i个bbox,σ(i)是某个组合中groundtruth(真实结果)第i个元素对应于predictions中的index;
Figure BDA0003701285650000062
表示predictions中第σ(i)个probs(预测类别结果),即probsσ(i)
Figure BDA0003701285650000063
表示predictions中的第σ(i)个bbox(预测框),即bboxσ(i),然后使用Hungarian算法在ΣN找到Lmatch最小的组合;
根据映射关系使用Hungarian算法计算匈牙利损失:
Figure BDA0003701285650000064
Figure BDA0003701285650000065
其中,
Figure BDA0003701285650000066
表示类别损失,
Figure BDA0003701285650000067
表示预测框损失;N表示数量,N大于图像中目标的数量;
Figure BDA0003701285650000068
表示IOU损失函数,
Figure BDA0003701285650000069
表示L1损失函数,λiouL1∈R表示超参数。
本实施例中,基于上述提供的公式和参数进行计算并优化DETR模型。
在一实施例中,步骤S102还包括:
对DETR网络进行迭代训练并达到预设次数后,输出训练后的DETR模型;
将图像集中的验证集输入训练后的DETR模型进行验证,输出训练结果指标。
本实施例中,对DETR网络进行迭代训练并达到预设次数,本实施例在训练过程中可使用SGD随机梯度下降,优选迭代至300次后停止训练,并输出训练后的DETR模型。然后通过前述划分的验证集对训练后的DETR模型进行验证并输出训练结果指标,可将训练结果指标与预设指标进行对比,若未达到预设指标可继续进行迭代训练,直至达到预设指标。
在一实施例中,如图4所示,步骤S104包括:
S401、若初步分类结果为目标类别,则通过PP-OCR识别系统检测并框取待测图像车辆车身上的文本;
S402、对框取的文本进行校正;
S403、对校正后的文本进行识别并得到文本信息。
本实施例中,初步分类结果为目标类别时,即为货车,为提高分类准确性,采用OCR文本识别技术待测图像中的车辆上的文本进行框取、校正以及识别,从而得到车身上的文本信息,因为根据车身上的文本信息可以准确的确认车辆类型,故本实施例增加这一步骤后,可很大程度上提高分类的准确性。
在一实施例中,如图5所示,步骤S105包括:
S501、向量化文本信息,得到文本信息的词向量表示;
S502、将词向量表示与预设语料库中的语料向量进行相似度匹配,根据匹配结果获取词向量表示对应的车辆类别。
本实施例中,将识别出来的文字通过BERT进行向量化,用BERT模型进行词向量表示,在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”);在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
而后,再将文本信息的词向量表示和预先构建的预设语料库中的语料向量进行相似度匹配,预设语料库是货车上经常印刷的字样的集合,将文本信息的词向量表示和语料向量进行点乘,向量点乘结果为1是表示两向量一样,相反则为-1,互相垂直0,由此,可根据匹配结果获取词向量表示对应的车辆类别是否真的为货车,从而实现高精度筛选确认货车的过程。
本发明实施例还提供一种基于多模态学习的目标识别检测装置,该基于多模态学习的目标识别检测装置用于执行前述基于多模态学习的目标识别检测方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的基于多模态学习的目标识别检测装置的示意性框图。
如图6所示,基于多模态学习的目标识别检测装置600,包括:采集单元601、训练单元602、第一分类单元603、文本检测单元604以及第二分类单元605。
采集单元601,用于采集被测场景中含有车辆的图像集;
训练单元602,用于利用图像集对DETR网络进行训练,得到DETR模型;
第一分类单元603,用于通过DETR模型对待测图像进行预测,输出待测图像中车辆的初步分类结果;
文本检测单元604,用于对初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
第二分类单元605,用于将文本信息在预设语料库中进行匹配,得到文本信息对应的车辆类别并输出为最终分类结果。
该装置通过监控模块获取无人岗(被测场景)的图像,以获取含有车辆的图像集,通过图像集训练并得到DETR模型;通过DETR模型进行目标检测的方式可以先对出入的车辆进行大的分类,可以初步识别出货车,但是准确性不高,故本实施例基于分类出的货车,再通过文本识别的方式将车辆上的文字提取出来,再通过自然语言对文字进行理解后和之前建好的语料字典进行匹配,将从初步分类结果中进一步刷选出真的货车,有效克服了无法区分外形相似的物体,提高了货车识别的能力。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述基于多模态学习的目标识别检测装置可以实现为计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本发明实施例提供的计算机设备的示意性框图。该计算机设备700是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图7,该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。
该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行基于多模态学习的目标识别检测方法。
该处理器702用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行基于多模态学习的目标识别检测方法。
该网络接口705用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于多模态学习的目标识别检测方法。
存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于多模态学习的目标识别检测方法,其特征在于,包括:
采集被测场景中含有车辆的图像集;
利用所述图像集对DETR网络进行训练,得到DETR模型;
通过所述DETR模型对待测图像进行预测,输出所述待测图像中车辆的初步分类结果;
对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
将所述文本信息在预设语料库中进行匹配,得到所述文本信息对应的车辆类别并输出为最终分类结果。
2.根据权利要求1所述的基于多模态学习的目标识别检测方法,其特征在于,所述采集被测场景中含有车辆的图像集,包括:
通过视频抽帧采集被测场景的图像;
对采集的图像进行数据清洗,筛选含有车辆的图像并进行标注,得到图像集;
划分所述图像集,得到训练集和验证集。
3.根据权利要求2所述的基于多模态学习的目标识别检测方法,其特征在于,所述利用所述图像集对DETR网络进行训练,得到DETR模型,包括:
将所述训练集中的图像输入所述DETR网络中的特征提取模块进行尺寸变换和特征提取,输出对应的特征图;
对所述特征图进行卷积降维处理,得到图片特征序列;
并对所述特征图进行位置编码得到位置编码矩阵;
将所述图片特征序列和位置编码矩阵输入所述DETR网络中的编码-解码模块进行全局注意力和映射分析,得到多个token序列;
将所述token序列输入所述DETR网络中的前馈神经网络模块进行分类预测,输出多个预测框的位置坐标和类别分数。
4.根据权利要求3所述的基于多模态学习的目标识别检测方法,其特征在于,所述利用所述图像集对DETR网络进行训练,得到DETR模型,还包括:
获取真实结果与预测结果的映射关系:
Figure FDA0003701285640000021
其中,
Figure FDA0003701285640000022
表示真实结果yi到对应预测结果
Figure FDA0003701285640000023
的映射关系,σ(i)表示第i个真实框对应的预测框的索引;Lmatch表示匹配函数,用于最小化yi
Figure FDA0003701285640000024
的距离;ΣN表示所有真值与对应预测值的排列;
Figure FDA0003701285640000025
其中,i表示ground truth中的第i个元素;ci表示ground truth中的第i个class;σ(i)表示ground truth第i个元素对应于predictions中的index;
Figure FDA0003701285640000026
表示predictions中第σ(i)个probs;
Figure FDA0003701285640000027
表示predictions中的第σ(i)个bbox,然后使用Hungarian算法在ΣN找到Lmatch最小的组合;
根据映射关系使用Hungarian算法计算匈牙利损失:
Figure FDA0003701285640000028
Figure FDA0003701285640000029
其中,
Figure FDA00037012856400000210
表示类别损失,
Figure FDA00037012856400000211
表示预测框损失;N表示数量,N大于图像中目标的数量;
Figure FDA00037012856400000212
表示IOU损失函数,
Figure FDA00037012856400000213
表示L1损失函数,λiouL1∈R表示超参数。
5.根据权利要求4所述的基于多模态学习的目标识别检测方法,其特征在于,所述利用所述图像集对DETR网络进行训练,得到DETR模型,还包括:
对DETR网络进行迭代训练并达到预设次数后,输出训练后的DETR模型;
将所述图像集中的验证集输入训练后的DETR模型进行验证,输出训练结果指标。
6.根据权利要求1所述的基于多模态学习的目标识别检测方法,其特征在于,所述对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息,包括:
若初步分类结果为目标类别,则通过PP-OCR识别系统检测并框取待测图像车辆车身上的文本;
对框取的文本进行校正;
对校正后的文本进行识别并得到文本信息。
7.根据权利要求1所述的基于多模态学习的目标识别检测方法,其特征在于,所述将所述文本信息在预设语料库中进行匹配,得到所述文本信息对应的车辆类别并输出为最终分类结果,包括:
向量化所述文本信息,得到所述文本信息的词向量表示;
将所述词向量表示与所述预设语料库中的语料向量进行相似度匹配,根据匹配结果获取所述词向量表示对应的车辆类别。
8.一种基于多模态学习的目标识别检测装置,其特征在于,包括:
采集单元,用于采集被测场景中含有车辆的图像集;
训练单元,用于利用所述图像集对DETR网络进行训练,得到DETR模型;
第一分类单元,用于通过所述DETR模型对待测图像进行预测,输出所述待测图像中车辆的初步分类结果;
文本检测单元,用于对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息;
第二分类单元,用于将所述文本信息在预设语料库中进行匹配,得到所述文本信息对应的车辆类别并输出为最终分类结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于多模态学习的目标识别检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于多模态学习的目标识别检测方法。
CN202210693444.2A 2022-06-17 2022-06-17 一种基于多模态学习的目标识别检测方法及相关组件 Pending CN114913487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210693444.2A CN114913487A (zh) 2022-06-17 2022-06-17 一种基于多模态学习的目标识别检测方法及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210693444.2A CN114913487A (zh) 2022-06-17 2022-06-17 一种基于多模态学习的目标识别检测方法及相关组件

Publications (1)

Publication Number Publication Date
CN114913487A true CN114913487A (zh) 2022-08-16

Family

ID=82773032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210693444.2A Pending CN114913487A (zh) 2022-06-17 2022-06-17 一种基于多模态学习的目标识别检测方法及相关组件

Country Status (1)

Country Link
CN (1) CN114913487A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN117150066A (zh) * 2023-10-27 2023-12-01 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN116204851B (zh) * 2023-03-21 2023-08-22 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN117150066A (zh) * 2023-10-27 2023-12-01 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置
CN117150066B (zh) * 2023-10-27 2024-01-23 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置

Similar Documents

Publication Publication Date Title
EP3399460B1 (en) Captioning a region of an image
Weinman et al. Scene text recognition using similarity and a lexicon with sparse belief propagation
CN110570389B (zh) 车辆损伤识别方法及装置
US11783572B2 (en) Method of automatically extracting information of a predefined type from a document
US7724957B2 (en) Two tiered text recognition
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN114913487A (zh) 一种基于多模态学习的目标识别检测方法及相关组件
CN110390363A (zh) 一种图像描述方法
CN107330379B (zh) 一种蒙古语手写识别方法和装置
US10733483B2 (en) Method and system for classification of data
CN111639607A (zh) 模型训练、图像识别方法和装置、电子设备及存储介质
US20230298630A1 (en) Apparatuses and methods for selectively inserting text into a video resume
US20230281826A1 (en) Panoptic segmentation with multi-database training using mixed embedding
CN113342977A (zh) 发票图像分类方法、装置、设备及存储介质
CN113704396A (zh) 短文本分类方法、装置、设备及存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN112200176A (zh) 人脸图像的质量检测方法、系统和计算机设备
CN110659572B (zh) 基于双向特征金字塔的视频动作检测方法
CN116993446A (zh) 电子商务用物流配送管理系统及其方法
US11164035B2 (en) Neural-network-based optical character recognition using specialized confidence functions
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
Sugiyono et al. Extracting information from vehicle registration plate using OCR tesseract
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination