CN114399710A

CN114399710A - 一种基于图像分割的标识检测方法、系统及可读存储介质

Info

Publication number: CN114399710A
Application number: CN202210010180.6A
Authority: CN
Inventors: 蒋强; 熊军迪; 杨雨辉; 陈兴鹏; 李昭强
Original assignee: Shenghui Holdings Ltd
Current assignee: Shenghui Holdings Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-26

Abstract

本发明涉及图像检测处理相关技术领域，公开了一种基于图像分割的标识检测方法、系统及可读存储介质，通过opencv获得视频流，配合dbnet神经网络，实现对视频流中的图像帧进行卷积以提取图像特征，进而对标识区域和非标识区域进行区分以检测出预测标识。基于本发明，可以实现通过检测人物身上的工牌、袖章、文字、衣着等具有特征性的标识来确定人物身份，通过牌坊、建筑等场景的标识确定场景等地点，填补了现有技术中对细粒度的检测的空缺，具有较高的实用价值。

Description

一种基于图像分割的标识检测方法、系统及可读存储介质

技术领域

本发明涉及图像检测处理相关技术领域，具体是一种基于图像分割的标识检测方法、系统及可读存储介质。

背景技术

图像处理识别技术是一项应用前景十分广泛的新兴技术类别，具体的来说，其是一种通过计算机软件将采集的外部世界的影像转换成计算机可存取的数据并进行识别的技术，目前在网络安全、诸多管理系统(如交通管理系统、考勤管理系统等)以及无人驾驶等领域均有着不同程度的使用。

目前市场上相关技术都是粗粒度的划分，如行人、建筑、道路等等；如无人驾驶技术，对于区域划分，只是划分出建筑、树木、道路、人行道、红绿灯、行人、车辆等粗粒度大物体的检测。

现有技术市场中，缺乏针对细粒度的检测，如人物标志和人物标志类似的细粒度检测，因此本申请旨在提供一种填补现有技术空缺的用于细粒度检测到图像检测方法。

发明内容

本发明的目的在于提供一种基于图像分割的标识检测方法、系统及可读存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于图像分割的标识检测方法，包含以下步骤：

获取视频流信息，并对所述视频流信息进行帧抽取，获取帧图像；

通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识，所述预测标识用于表示所述帧图像中的图像标识，所述图像标识为区别于所述图像背景的需要检测的特征区域；

根据所述预测标识对所述帧图像进行切片，以提取所述帧图像中的标志区域，所述切片用于表示将图像标识所对应的位置区域在帧图像中进行表示的过程；

接收并响应调参数据，根据所述调参数据对所述DBNet神经网络进行结构与超参调节，所述超参为可调节参数，包括通道数、卷积层数、阈值以及区域置信度。

作为本发明的进一步方案：还包括步骤：

通过tensorflow神经网络框架搭建DBNet神经网络，所述DBNet神经网络的网络结构为卷积-逆卷积。

作为本发明的再进一步方案：还包括步骤：

接收标注数据，通过所述标注数据对所述DBNet神经网络进行训练，所述标注数据由使用者标记生成，所述标注数据用于表征所述帧图像中需要进行检测的图像标识。

作为本发明的再进一步方案：所述通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识的步骤具体包括：

将帧图像输入DBNet神经网络中；

通过所述DBNet神经网络分析生成所述帧图像中每个像素点的标识概率，所述标识概率用于表征所述像素点为图像标识的概率值；

通过预设的判定阈值对每个所述像素点的所述标识概率进行判定，若判定结果为大于所述判定阈值，则对所述像素点进行概率标记，若判定结果为小于所述判定阈值，则所述像素点为背景内容；

根据所述概率标记的分布，分析形成连续性区域，并根据预设的面积阈值的所述连续性区域进行面积过滤分析，生成预测标识，所述面积过滤分析用于排除小于预设的面积阈值的连续性区域。

作为本发明的再进一步方案：所述通过所述DBNet神经网络分析生成所述帧图像中每个像素点的标识概率对步骤中，所述DBNet神经网络对像素点的预测分析通过segmentation map和threshold map两个特征图实现，所述segmentationmap用于表征文字中心区域，所述thresholdmap用于表征文字边缘区域。

作为本发明的再进一步方案：所述对所述视频流信息进行帧抽取，获取帧图像的步骤中包括帧抽取间隔；

所述帧抽取间隔，用于以一定的时间间隔控制抽取所述视频流信息中的所述帧图像，所述帧抽取间隔基于DBNet神经网络的帧检测速率设置。

作为本发明的再进一步方案：所述DBNet神经网络的主干神经网络为Resnet18，所述DBNet神经网络的层通道数为32，所述DBNet神经网络的判定阈值为一组，一组所述判定阈值分别用于区分背景与标识。

本发明旨在提供一种基于图像分割的标识检测系统，所述系统包括：

帧抽取模块，用于获取视频流信息，并对所述视频流信息进行帧抽取，获取帧图像；

标识预测模块，用于通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识，所述预测标识用于表示所述帧图像中的图像标识，所述图像标识为区别于所述图像背景的需要检测的特征区域，所述分割预处理用于对所述帧图像进行像素点分析并通过对所述像素点判断以生成预测标识；

切片输出模块，用于根据所述预测标识对所述帧图像进行切片，以提取所述帧图像中的标志区域，所述切片用于表示将图像标识所对应的位置区域在帧图像中进行表示的过程。

本发明旨在提供一种可读存储介质，所述可读存储介质上存储有基于图像分割的标识检测程序，所述基于图像分割的标识检测程序在被处理器执行时实现基于图像分割的标识检测方法的任一步骤。

与现有技术相比，本发明的有益效果是：通过opencv获得视频流，配合dbnet神经网络，实现对视频流中的图像帧进行卷积以提取图像特征，进而对标识区域和非标识区域进行区分以检测出预测标识。基于本发明，可以实现通过检测人物身上的工牌、袖章、文字、衣着等具有特征性的标识来确定人物身份，通过牌坊、建筑等场景的标识确定场景等地点，填补了现有技术中对细粒度的检测的空缺，具有较高的实用价值。

附图说明

图1为一种基于图像分割的标识检测方法的流程示意框图。

图2为一种基于图像分割的标识检测方法中生成预测标识的流程框图。

图3为一种基于图像分割的标识检测系统的组成框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现方式进行详细描述。

如图1所述，为本发明一个实施例提供的一种基于图像分割的标识检测方法，通过从视频中抽取帧，并检测帧中的特殊标志，以便身份的识别、位置的识别等，包括以下步骤：

S200，获取视频流信息，并对所述视频流信息进行帧抽取，获取帧图像。

S400，通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识，所述预测标识用于表示所述帧图像中的图像标识，所述图像标识为区别于所述图像背景的需要检测的特征区域。

本实施例中，视觉处理工具可以是opencv、Halcon等现使用较多的流图像工具，DBNet神经网络是通过训练生成的特征检测模型，可以对帧图像进行处理，从而识别帧图像中的标识(即预测标识)(例如人物身上的帽子、工牌等标志)，这里的预测标识为原始帧图像中的所需检测的标识。为了使所需检测的标识和背景进行区分，故采用分割神经网络对图像中的像素点进行特征提取，以图像的语义信息来区分标识和背景，然后进行分割，以提取出预测标识。

S600，根据所述预测标识对所述帧图像进行切片，以提取所述帧图像中的标志区域，所述切片用于表示将图像标识所对应的位置区域在帧图像中进行表示的过程。

本实施例中，切片就是裁剪出图像标识的标志区域的过程，是根据检测生成的图像标识的位置，裁剪出图像标识的区域，切片的对象是原视频流的图像(从视频直接抽取的视频帧)。

作为本发明另一个优选的实施例，还包括步骤：接收并响应调参数据，根据所述调参数据对所述DBNet神经网络进行结构与超参调节，所述超参为可调节参数，包括通道数、卷积层数、阈值以及区域置信度中的一个或多个。

本实施例中，本步骤的作用是根据需求对DBNet神经网络进行调节、校准的一个过程，根据需要，去调节神经网络的结构和超参(可以调节的参数)，然后对比调节前后预测效果的变化(再调节参数进行对比时，需要采用控制变量法对多个参数进行依次调节)，使预测朝着好的方面改进；实际上是根据实际预测情况去调参的，对于提升速度，是选取更轻量级的骨干网络，减少卷积核的个数以提升速度，同时需要保证更改以后效果不会有明显变差；对于提升准确率，需要看是漏检还是错检，如果是漏检，则需要降低阈值，如果是错检，则需要升高阈值；DBNet最初骨干网络为标准的残差神经网络RESNet-50,阈值为0.3，置信度为0.7；然后根据预测效果，及时间要求优化分割网络，对于RESNet预测速度慢的问题，本模型以更轻量级的RESNet-18替换RESNet-50，并讲通道数64改为32，以提高检测速度，速度有10FPS提升到了20FPS,对于存在漏检的问题，本模型讲阈值降低到了0.2，置信度降低到了0.5，以保证标识的检出率。

如图3所示，作为本发明另一个优选的实施例，还包括步骤：

本实施例中，是对DBNet神经网络的构件进行了简单的说明，DBNet神经网络是基于tensorflow神经网络框架所搭建的，其网络结构为如图3所示的先卷积，再逆卷积的框架结构。

作为本发明另一个优选的实施例，还包括步骤：

本实施例中，对DBNet神经网络进行了进一步的补充说明，通过使用tensorflow神经网络框架搭建的DBNet神经网络在使用前必须通过大量数据训练才能够完成，这里的标注数据是由人为所标注，目的在于告知程序对于图像内容的判别，了解图像中哪些内容是重要的，而哪些是背景内容，因此采用大量人工设置的标注数据对DBNet神经网络进行训练。

如图2所示，作为本发明另一个优选的实施例，所述通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识的步骤具体包括：

S401，将帧图像输入DBNet神经网络中。

S402，通过所述DBNet神经网络分析生成所述帧图像中每个像素点的标识概率，所述标识概率用于表征所述像素点为图像标识的概率值。

S403，通过预设的判定阈值对每个所述像素点的所述标识概率进行判定，若判定结果为大于所述判定阈值，则对所述像素点进行概率标记，若判定结果为小于所述判定阈值，则所述像素点为背景内容。

S404，根据所述概率标记的分布，分析形成连续性区域，并根据预设的面积阈值的所述连续性区域进行面积过滤分析，生成预测标识，所述面积过滤分析用于排除小于预设的面积阈值的连续性区域。

本实施例中，将帧图像输入到训练好的DBNet神经网络中，神经网络便可以预测处图像中的标识，在一定程度上说，是具有一定概率值的图像标识(即概率越高，则越有可能为图像标识)；在使用时，具体的预测过程是，将帧图像输入到DBNet神经网络中，神经网络通过卷积计算就可以获得帧图像中每个像素点是标识的概率值(即可能性)，然后根据预设的判定阈值(本申请中所得数据是基于0.3的判定阈值所得的)进行判定，若低于阈值，则认为是背景图像(非标识内容)，然后根据大于判定阈值的点分布，划分连续的区域，并对面积进行过滤处理(本申请所得数据基于最小值0.5获得，即小于0.5的区域将被筛选剔除(对于连续性区域而言，其概率值为区域内点的概率值的平均值))，大于设定的面积阈值的连续性区域即为预测标识。

作为本发明另一个优选的实施例，所述通过所述DBNet神经网络分析生成所述帧图像中每个像素点的标识概率对步骤中，所述DBNet神经网络对像素点的预测分析通过segmentation map和threshold map两个特征图实现，所述segmentationmap用于表征文字中心区域，所述thresholdmap用于表征文字边缘区域。

本实施例中，其中DBNet神经网络在进行分隔时是将原图中每个像素点预测segmentation map和threshold map两个特征图，其中segmentation map是文字中心区域，threshold map是文字边缘区域，然后由两个特征图共同预测文字区域，即该区域既有文字中心区域，又有文字边缘区域，才认为是一个文字区域，进而将该区域投射到原图中，实际上，DBNet神经网络结构由四个卷积部分组成，每个卷积部分卷积结果进行上采样和上一层卷积结果在通道上拼接(第一层除外)，同时进行逆卷积操作，并把所有卷积部分的结果在通道上拼接，进而预测probability map和threshuold map两个特征图(这里probabilitymap和上文中segmentation map一样，segmentation是分割网络的通用说法，而实际对于本网络而言，probability map更准确)，最后综合两个特征图，进而预测标志区域。

作为本发明另一个优选的实施例，所述对所述视频流信息进行帧抽取，获取帧图像的步骤中包括帧抽取间隔；

本实施例中，视频流信息(即视频流)是由一帧一帧的图像组成的，本申请中设备用的摄像头视频流是25FPS(即一秒钟生成25张图像)，用opencv可以直接从视频流中将每一帧抽取出来；但考虑到处理速率以及为保证实时性，一般采用跳帧抽取的方式，DBNet神经网络的检测速率为20FPS(即一秒钟处理20张图像)，DBNet最初骨干网络为标准的残差神经网络RESNet-50,阈值为0.3，置信度为0.7。然后根据预测效果，及时间要求优化分割网络，对于RESNet预测速度慢的问题，本模型以更轻量级的RESNet-18替换RESNet-50，并讲通道数64改为32，以提高检测速度，速度有10FPS提升到了20FPS,对于存在漏检的问题，本模型讲阈值降低到了0.2，置信度降低到了0.5，以保证标识的检出率，本申请所采用的帧抽取间隔为每抽取一帧跳过一帧。

作为本发明另一个优选的实施例，所述DBNet神经网络为分割神经网络的一种，所述DBNet神经网络选择Resnet18为主干神经网络，所述DBNet神经网络的层通道数为32，所述DBNet神经网络的判定阈值为一组，一组所述判定阈值分别用于区分背景与标识。

本实施例中，DBNet神经网络是分割神经网络的一种，其主干神经网络为Resnet神经网络，Resnet神经网络和其他神经网络的区别是Resnet神经网络传递参数时会传递原始图片信息，一定程度上避免了图像信息传递过程中图像纹理信息和语义信息的丢失，所以对于分割网络而言，尤其是标识这种占比较小的目标，纹理信息丢失和语义信息丢失会导致漏检，综上，选取DBNet神经网络作为标识识别的核心算法；为了提高DBNet神经网络检出的速度，同时保证不漏检，DBNet神经网络选取Resnet18为主干网络，并且DBNet神经网络每层的通道数为32，为了保证检出效果，本申请中，score值(即判定阈值)0.3及以下为背景，socre值0.7及以上为标签。

如图3所示，为本发明提供的一种基于图像分割的标识检测系统，所述系统包括：

帧抽取模块100，用于获取视频流信息，并对所述视频流信息进行帧抽取，获取帧图像；

标识预测模块300，用于通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识，所述预测标识用于表示所述帧图像中的图像标识，所述图像标识为区别于所述图像背景的需要检测的特征区域，所述分割预处理用于对所述帧图像进行像素点分析并通过对所述像素点判断以生成预测标识；

切片输出模块500，用于根据所述预测标识对所述帧图像进行切片，以提取所述帧图像中的标志区域，所述切片用于表示将图像标识所对应的位置区域在帧图像中进行表示的过程。

本发明还提供一种可读存储介质，所述可读存储介质上存储有基于图像分割的标识检测程序，所述基于图像分割的标识检测程序在被处理器执行时实现基于图像分割的标识检测方法的任一步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于图像分割的标识检测方法，其特征在于，包含以下步骤：

获取视频流信息，并对获取的视频流信息进行帧抽取，获取帧图像；

通过DBNet神经网络对所得帧图像进行图像的分割预测处理，生成预测标识，所述预测标识用于表示所述帧图像中的图像标识，所述图像标识为区别于所述图像背景的需要检测的特征区域，所述分割预处理用于对所述帧图像进行像素点分析并通过对所述像素点判断以生成预测标识；

根据所述预测标识对所述帧图像进行切片，以提取所述帧图像中的标志区域，所述切片用于表示将图像标识所对应的位置区域在帧图像中进行表示的过程。

2.根据权利要求1所述的基于图像分割的标识检测方法，其特征在于，还包括步骤：

接收并响应调参数据，根据所述调参数据对所述DBNet神经网络进行结构与超参调节，所述超参为可调节参数，包括通道数、卷积层数、阈值以及区域置信度中的一个或多个。

3.根据权利要求1所述的基于图像分割的标识检测方法，其特征在于，还包括步骤：

4.根据权利要求3所述的基于图像分割的标识检测方法，其特征在于，还包括步骤：

5.根据权利要求4所述的基于图像分割的标识检测方法，其特征在于，所述通过DBNet神经网络对所述帧图像进行分割预测处理，生成预测标识的步骤具体包括：

将帧图像输入DBNet神经网络中；

6.根据权利要求5所述的基于图像分割的标识检测方法，其特征在于，所述通过所述DBNet神经网络分析生成所述帧图像中每个像素点的标识概率对步骤中，所述DBNet神经网络对像素点的预测分析通过segmentation map和threshold map两个特征图实现，所述segmentation map用于表征文字中心区域，所述threshold map用于表征文字边缘区域。

7.根据权利要求1所述的基于图像分割的标识检测方法，其特征在于，所述对所述视频流信息进行帧抽取，获取帧图像的步骤中设有帧抽取间隔；

8.根据权利要求5所述的基于图像分割的标识检测方法，其特征在于，所述DBNet神经网络的主干神经网络为Resnet18，所述DBNet神经网络的层通道数为32，所述DBNet神经网络的判定阈值为一组，一组所述判定阈值分别用于区分背景与标识。

9.一种基于图像分割的标识检测系统，其特征在于，所述系统包括：

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有基于图像分割的标识检测程序，所述基于图像分割的标识检测程序在被处理器执行时实现如权利要求1-8任一项所述的基于图像分割的标识检测方法的步骤。