CN117351205A

CN117351205A - 一种图像结构化信息提取方法

Info

Publication number: CN117351205A
Application number: CN202311371619.9A
Authority: CN
Inventors: 王睿; 宋磊; 孙康; 张鼎豪; 赵恒旭; 王洪俊
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-05

Abstract

本发明公开了图像识别与处理技术领域的一种图像结构化信息提取方法、装置、电子设备及存储介质，旨在解决图像识别误差大的技术问题。其包括：选取原始图像，所述原始图像具有目标对象和背景信息；根据预构建的语义分割网络模型，对所述原始图像中的目标对象和背景信息进行分割，以提取所述目标对象；基于所述目标对象，依据预构建的目标检测模型，对所述目标对象进行识别，获取所述目标对象中的目标特征；采用直方图求解连通域的方法对所述目标特征进行分析，获取所述目标特征中的特征信息。本发明能够对目标特征进行锁定，从而降低环境因素的干扰，减少目标特征识别的误差。

Description

一种图像结构化信息提取方法

技术领域

本发明涉及一种图像结构化信息提取方法，属于图像识别与处理技术领域。

背景技术

随着安防领域的不断发展，图像视频数据变得越来越庞大，但是却缺少结构化描述信息，信息检索系统难以进行有效检索，在回看时一般只能通过时间段去检索查找，只有将图像视频进行结构化处理，才能快速高效的找到用户感兴趣的内容。图像结构化是将图像内容语义化的过程，它对图像进行智能化处理后，翻译成计算机或人能看懂的语言，通过采用图像分割、对象识别、特征提取等方法进行处理得到文本信息。图像结构化处理可以是针对一张单独的图片，也可以是多个图片组合成的视频片段。因此，在安防领域对行人、车辆等视频图像结构化处理手段不可或缺。

目前，现有的图像结构化处理方法通常是将行人或车辆等对象检测及属性分析分成单独的两个环节去实现。例如，在一幅图中单独对行人进行检测及属性分析，首先对图像中的对象进行检测识别，将含有目标，并将图像中含有行人的对象进行标注，然后对所有对象进行特征提取，但是该方法在大量的行人对象可能会相互遮掩或光线较差的环境下可能对目标识别机特征提取产生极大误差，而丢失重大信息，或识别错误信息，在检索时造成偏差。因此传统的图像结构化识别处理方法受环境因素影响较大。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种图像结构化信息提取方法，解决图像结构化的识别处理方法受环境因素干扰的技术问题，从而能够降低目标特征识别的误差。

为达到上述目的/为解决上述技术问题，本发明是采用下述技术方案实现的：

第一方面，一种图像结构化信息提取方法，包括：

选取原始图像，所述原始图像具有目标对象和背景信息；

根据预构建的语义分割网络模型，对所述原始图像中的目标对象和背景信息进行分割，以提取所述目标对象；

基于所述目标对象，依据预构建的目标检测模型，对所述目标对象进行识别，获取所述目标对象中的目标特征；

采用直方图求解连通域的方法对所述目标特征进行分析，获取所述目标特征中的特征信息。

结合第一方面，进一步地，所述原始图像的分割过程包括：

通过所述语义分割网络模型将所述原始图像分割成若干个像素点；

将所述若干个像素点进行分类，获取第一像素点和第二像素点；

其中，第一像素点为目标对象对应的像素点，第二像素点为背景信息对应的像素点。

结合第一方面，进一步地，所述编码器包括主干网络和带空洞卷积的空间金字塔池化层，用于提取原始图像的尺度特征和深度特征；

所述解码器用于接收来自编码器的深度特征和尺度特征；

其中，深度特征包括低层特征和高层特征，且尺度特征和深度特征共同构成原始图像的基本图像特征。

结合第一方面，进一步地，所述基本图像特征能够提取多个不同深度的尺度特征，并对所述多个不同深度的尺度特征进行融合，获得多尺度特征；

其中，多尺度特征包括不同尺度的低层特征和不同尺度的高层特征。

结合第一方面，进一步地，所述解码器的解码过程包括：

所述解码器接收主干网络获取的原始图像的低层特征和经带空洞卷积的空间金字塔池化层融合的不同尺度的高层特征，所述低层特征具有图像纹理，所述多尺度高层特征具有语义信息。

结合第一方面，进一步地，所述目标检测模型具有目标识别算法和训练好的特征检测模型，所述目标识别算法用于识别所述目标对象，所述特征检测模型用于检测所述目标特征。

结合第一方面，进一步地，所述获取目标特征中的特征信息过程包括：

根据所述目标识别算法对目标对象进行识别，获取所述目标对象中的属性信息；

基于所述目标对象中的属性信息，以及训练好的特征检测模型对目标特征进行锁定；

所述锁定后的目标特征通过直方图求解连通域的方法进行分析，获得目标特征中的特征信息；

其中，目标特征为目标对象的局部特征。

第二方面，一种图像结构化信息提取装置，包括：

图像选取模块，用于选取原始图像，所述原始图像具有目标对象和背景信息；

图像分割模块，用于根据预构建的语义分割网络模型，对所述原始图像中的目标对象和背景信息进行分割，以提取所述目标对象；

特征识别模块，用于基于所述目标对象，依据预构建的目标检测模型，对所述目标对象进行识别，获取所述目标对象中的目标特征；

特征分析模块，用于采用直方图求解连通域的方法对所述目标特征进行分析，获取所述目标特征中的特征信息。

第三方面，一种电子终端，包括处理器与所述处理器连接的存储器，在所述存储器内存储有计算机程序，当所述计算机程序被所述处理器执行时，执行如第一方面任一项所述方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

通过预构建的语义分割网络模型对原始图像进行分割，以获得分割后原始图像的目标对象和背景信息，达到完成目标对象提取的目的；根据提取出来的目标对象，通过预构建的目标检测模型识别出目标对象中的目标特征，最后通过直方图求解连通域的方法对识别出的目标特征进行分析，获得目标特征中的具体特征信息，经过层层识别与分析，在一定程度上降低了环境因素的干扰，从而降低了目标特征识别的误差。

附图说明

图1是本发明实施例提供的图像结构化信息提取方法的流程示意图；

图2是本发明实施例提供的Deeplabv3p网络的图像分割流程示意图；

图3是本发明实施例提供的YoloV3部位检测原理示意图；

图4是本发明实施例提供的图像结构化信息提取装置结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符"/"，一般表示前后关联对象是一种“或”的关系。

实施例一

图1是本发明实施例一中的一种图像结构化信息提取方法的流程图。本流程图仅仅示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图1所示的顺序完成所示出或描述的步骤。

本实施例提供的图像结构化信息提取方法可应用于终端，可以由图像结构化信息提取装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在终端中，例如：任一具备通信功能的智能手机，平板电脑或计算机设备。参见图1，本实施的方法具体包括如下步骤：

步骤S110、选取具有目标对象和背景信息的原始图像，该原始图像可以通过相机、摄像头等图像获取设备获得；

步骤S120、根据预构建的语义分割网络模型，对所述原始图像中的目标对象和背景信息进行分割，以提取所述目标对象；

需要说明的是，本发明实施例采用的语义分割网络模型为DeeplabV3+，进行语义分割的目的是为了对选取的原始图像中的若干像素点进行分类，并划分为第一像素点和第二像素点，用于最终的逐像素分类，即采用逐像素分类的方法为图像中的每一个像素配备一个类标签，在这种情况下，每个像素都被独立处理，提高后续图像识别的准确率。

其中，第一像素点为目标对象对应的像素点；第二像素点为背景信息对应的像素点。

具体的，基于Deeplabv3p网络的图像分割算法对选取的原始图像进行分割，以将目标对象和背景信息分割开来，方便从原始图像中提取所需要的目标对象，且最终分割出来的目标对象可以设置为图像前景，使得目标对象位于图像背景前，而图像背景则置零，防止在后续目标特征检测中受到环境因素的干扰。

需要说明的是，如果分割后的原始图像发现不具有目标对象，则需要重新选取图像，直至选取的图像能够具有目标对象为止。

参见图2，DeeplabV3+至少具有编码器（Encoder）和解码器（Decoder），编码器用于提取原始图像的尺度特征和深度特征，且编码器由主干网络（DCNN）和带空洞卷积的空间金字塔池化层（ASPP）构成；解码器用于接收来自编码的尺度特征和深度特征。

需要说明的是，深度特征包括低层特征和高层特征，且尺度特征和深度特征共同构成原始图像的基本图像特征。

具体的，主干网络（DCNN）依据基本图像特征，采用残差网络等常用结构，并在该常用结构基础上，带空洞卷积的空间金字塔池化层提取多个不同深度的尺度特征，并对多个不同深度的尺度特征进行融合，实现多尺度特征的提取；

进一步地，解码器接收来自主干网络（DCNN）的低层特征和经带空洞卷积的空间金字塔池化层融合的不同尺度的高层特征，该低层特征带有图像纹理等基本信息，该不同尺度的高层特征带有语义信息，并通过上采样后融合高、低层特征，提高目标对象的准确率。

步骤S130、基于所述目标对象，依据预构建的目标检测模型，对所述目标对象进行识别，获取所述目标对象中的目标特征；

需要说明的是，本发明实施例采用的目标检测模型为YoloV3网络，是一种单阶段的端到端的目标检测模型，采用该YoloV3网络具有较高的准确率和速度。

以识别道路周边图为例，通过YoloV3网络中的目标识别算法，对目标对象进行识别，识别出的目标对象有行人、车辆等，在确定好目标对象后，再通过YoloV3网络中训练好的特征检测模型检测目标对象的目标特征，例如行人是否戴帽子、行人是否戴口罩，车辆类为SUV还是轿车等。

参见图3，YoloV3网络的主干网络（BackBone）采用DarkNet53深度模型作为基本的特征提取模型，在主干网络（BackBone）的不同阶段分别提取不同层次的特征，从深至浅（瓶颈层）依次上采样作融合，得到三种不同尺度的输出，具体的输出尺度根据实际情况而定。

具体的，在本发明实施例中，特征检测模型是在YoloV3网络的基础上添加的，该特征检测模型以YoloV3网络的瓶颈层的输出作为输入，将输出结果中的行人检测结果区域转化为感兴趣区域（ROL），利用感兴趣区域中的对齐层，提取瓶颈层中的目标特征，以道路周边图为例，将该图中的行人区域特征作进一步处理，考虑到行人的图像往往处于竖直方向，因此对目标特征采用水平方向的平均池化操作，得到如1×19，1×38，1×76三种不同尺度的特征，并对这三种不同尺度的特征经全连接层处理后输出预测结果。

需要说明的是，该预测结果中的口罩区域、衣物区域被认为占据了水平方向，只在竖直方向有所区分。

步骤S140、采用直方图求解连通域的方法对所述目标特征进行分析，获取所述目标特征中的特征信息。

根据所述目标识别算法对目标对象进行识别，获取所述目标对象的属性信息；基于所述目标对象的属性信息，以及所述训练好的特征检测模型对目标特征进行锁定；所述锁定后的目标特征通过直方图求解连通域的方法进行分析，获得目标特征中的特征信息。

其中，目标特征为目标对象的局部特征。

具体的，以道路周边图为例，检测出目标对象的衣服颜色为红色，即行人为目标对象，衣服为目标特征，衣服颜色为特征信息，基于分割出的行人前景区域和行人检测、部位检测结果，获得一个行人部位（口罩、帽子、上衣、裤子等）的前景区域，统计该区域的颜色直方图，并计算出颜色中位数，从而确定目标部位的颜色。

实施例二

参见图4，本发明实施例提供一种图像结构化信息提取装置，包括：

对于本实施例未尽的其他技术特征，可以参考实施例一。

实施例三

本发明实施例还提供了一种电子终端，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例四

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。

作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种图像结构化信息提取方法，其特征在于，包括：

选取原始图像，所述原始图像具有目标对象和背景信息；

2.根据权利要求1所述的图像结构化信息提取方法，其特征在于，所述原始图像的分割过程包括：

3.根据权利要求2所述的图像结构化信息提取方法，其特征在于，所述语义分割网络模型至少具有编码器和解码器；

所述编码器包括主干网络和带空洞卷积的空间金字塔池化层，用于提取原始图像的尺度特征和深度特征；

所述解码器用于接收来自编码器的深度特征和尺度特征；

4.根据权利要求3所述的图像结构化信息提取方法，其特征在于，所述基本图像特征能够提取多个不同深度的尺度特征，并对所述多个不同深度的尺度特征进行融合，获得多尺度特征；

5.根据权利要求4所述的图像结构化信息提取方法，其特征在于，所述解码器的解码过程包括：

6.根据权利要求1所述的图像结构化信息提取方法，其特征在于，所述目标检测模型具有目标识别算法和训练好的特征检测模型，所述目标识别算法用于识别所述目标对象，所述特征检测模型用于检测所述目标特征。

7.根据权利要求6所述的图像结构化信息提取方法，其特征在于，所述获取目标特征中的特征信息过程包括：

其中，目标特征为目标对象的局部特征。

8.一种图像结构化信息提取装置，其特征在于，包括：

9.一种电子终端，其特征在于，包括处理器与所述处理器连接的存储器，在所述存储器内存储有计算机程序，当所述计算机程序被所述处理器执行时，执行如权利要求1~8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1~8任一项所述方法的步骤。