CN113468371A

CN113468371A - 实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质

Info

Publication number: CN113468371A
Application number: CN202110783369.4A
Authority: CN
Inventors: 赵锐; 吴松洋; 李宁; 王骁; 毛翌
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-01

Abstract

本发明涉及一种实现自然语句图像检索的方法，包括通过机器学习和计算机视觉技术将视频信息自动转化为表征其内容的文本信息进行视频内容自动标注；通过精细化视频目标部件识别算法和自然语言理解技术提取视频中对象的局部特征；通过自然语言理解技术对输入的语言描述进行特征提取，得到多尺度特征的检索表达式；将检索表达式的文本信息与视频图像内容来对匹配打分算法进行匹配，定义文本与视频图像的相似度；找出最相关的图片并将其输出给后续的目标检测模块。本发明还涉及相应的实现自然语句图像检索的系统、装置、处理器及其计算机可读存储介质。采用了本发明的实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质，针对汇总的海量城市级信息，可对信息进行实时分析，节约宝贵的时间。

Description

实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及视觉目标识别与跟踪领域，具体是指一种实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质。

背景技术

视觉目标识别与跟踪是一项运用计算机对图像进行处理、分析和理解的技术，它以数字图像处理与识别为基础。传统图像识别技术主要包括图像获取、预处理、特征提取、分类判决等步骤构成，而近年来深度学习的发展，大大提高了图像识别的准确率，与传统识别技术相比，无须人工设计特征，系统可自行学习归纳出特征，降低了使用难度，能够快速实现应用。

实现目标识别与跟踪的关键在于完整的分割目标，合理地提取特征和准确地识别目标，同时要考虑到算法实现的时间，以保证实时性。受限于跨资源视频、图像拍摄环境、视频质量与目标外观的限制，视觉目标识别与跟踪在应用中准确性与可靠性较低，在大部分实际应用场景中失去了使用意义。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足低成本、高效率、识别准确率高的实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质如下：

该实现自然语句图像检索的方法，其主要特点是，所述的方法包括以下步骤：

(1)通过机器学习和计算机视觉技术将视频信息自动转化为表征其内容的文本信息进行视频内容自动标注；

(2)通过精细化视频目标部件识别算法和自然语言理解技术提取视频中对象的局部特征，并形成对视频内容的自然语言描述；

(3)通过自然语言理解技术对输入的语言描述进行特征提取，得到多尺度特征的检索表达式；

(4)将检索表达式的文本信息与视频图像内容来对匹配打分算法进行匹配，定义文本与视频图像的相似度；

(5)找出最相关的图片并将其输出给后续的目标检测模块。

较佳地，所述的步骤(4)中对匹配打分算法进行匹配的步骤具体包括以下步骤：

(4.1)查询语句，对给定的图片和查询进行学习表示，并根据关联性进行打分；

(4.2)根据图片的分数进行排序。

较佳地，所述的步骤(4.2)具体包括以下步骤：

(4.2.1)输入图片和查询语句；

(4.2.2)对图片和查询语句进行基本的数值化，直接输出图片，转化自然语言的符号；

(4.2.3)对数值化的图片进行多角度和不同粒度的表示学习；

(4.2.4)提取查询语句中的局部和全局语义信息，得到查询语句的向量化表示；

(4.2.5)使用多层感知机将图片矩阵转化为固定维度的向量；

(4.2.6)根据学习得到的图片表示矩阵和查询语句表示向量序列进行图片和查询语句的相似度打分。

较佳地，所述的方法还包括实现检测识别的方法，具体包括以下步骤：

(1-1)对视频图像数据通过基于感知损失的视频超分辨率重建算法进行超分辨率重建得到视频图像；

(1-2)通过特征融合得到鲁棒的多尺度特征；

(1-3)通过基于注意力孪生神经网络的目标跟踪算法进行目标检测跟踪。

该实现上述方法的自然语句图像检索系统，其主要特点是，所述的系统包括：

自然语言检索模块，根据给定查询语句从视频数据库中找出最相关的图片并将其输出至检测识别模块；

检测识别模块，与所述的自然语言检索模块相连接，用于通过超分辨率重建及特征融合，提升目标检测跟踪和识别准确率；

数据集构建与系统搭建模块，与所述的检测识别模块相连接，用于进行图像与文字标注，形成专用的多模态数据集，并集成算法与界面完成搭建系统；

所述的系统根据输入的特征目标文本描述信息从海量监控视频中匹配、识别出特定目标，并对识别的特定目标进行实时地跟踪查控。

较佳地，所述的多模态数据集包括三元组和二元组，所述的三元组具有图片、目标检测框和目标特征的三元组，用于训练基于图片得到目标的精细化描述；所述的二元组具有自然语言和目标特征，用于训练基于自然语言得到目标的精细化描述，所述的三元组和二元组独立训练。

该用于实现自然语句图像检索的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的实现自然语句图像检索的方法的步骤。

该用于实现自然语句图像检索的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的实现自然语句图像检索的方法的步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的实现自然语句图像检索的方法的各个步骤。

采用了本发明的实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质，利用基于自然语言理解的特点目标快速发现与查控关键技术与平台强大的语言理解能力、计算能力及智能分析能力，针对汇总的海量城市级信息，可对信息进行实时分析，给出最可能的线索建议，将目标的轨迹锁定由原来的几天缩短到几分钟，节约宝贵的时间。因此，基于自然语言理解的特点目标快速发现与查控关键技术及应用示范具备广泛的业务应用前景与良好的市场推广前景。

附图说明

图1为本发明的实现自然语句图像检索的方法的检索实现步骤示意图。

图2为本发明的实现自然语句图像检索的方法的目标检测跟踪与识别流程示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该利用上述系统实现自然语句图像检索的方法，其中包括以下步骤：

(5)找出最相关的图片并将其输出给后续的目标检测模块。

作为本发明的优选实施方式，所述的步骤(4)中对匹配打分算法进行匹配的步骤具体包括以下步骤：

(4.2)根据图片的分数进行排序。

作为本发明的优选实施方式，所述的步骤(4.2)具体包括以下步骤：

(4.2.1)输入图片和查询语句；

(4.2.3)对数值化的图片进行多角度和不同粒度的表示学习；

(4.2.5)使用多层感知机将图片矩阵转化为固定维度的向量；

作为本发明的优选实施方式，所述的方法还包括实现检测识别的方法，具体包括以下步骤：

(1-2)通过特征融合得到鲁棒的多尺度特征；

本发明的该实现上述方法的自然语句图像检索系统，其中包括：

作为本发明的优选实施方式，所述的多模态数据集包括三元组和二元组，所述的三元组具有图片、目标检测框和目标特征的三元组，用于训练基于图片得到目标的精细化描述；所述的二元组具有自然语言和目标特征，用于训练基于自然语言得到目标的精细化描述，所述的三元组和二元组独立训练。

作为本发明的优选实施方式，该用于实现自然语句图像检索的装置，其包括：

处理器，被配置成执行计算机可执行指令；

作为本发明的优选实施方式，该用于实现自然语句图像检索的处理器，其被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的实现自然语句图像检索的方法的步骤。

作为本发明的优选实施方式，该计算机可读存储介质，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的实现自然语句图像检索的方法的各个步骤。

本发明的具体实施方式中，克服了现有技术的缺点，通过对视频图像数据进行超分辨率重建获得更高的视频图像用于后续目标检测跟踪和识别，解决视频图像数据模糊、目标像素低等问题；通过特征融合得到更加鲁棒的多尺度特征解决由于不同目标离视频图像采集源的远近不同而导致视频图像中存在尺度差异较大的目标的问题；通过在传统的目标检测跟踪和识别算法中融入注意力机制，提升目标检测跟踪和识别准确率。实现基于视频目标的低成本、高效率识别与查控的系统。

为了实现上述目的，本发明的自然语句图像检索系统及其识别跟踪方法具有如下构成：

本发明自然语句图像检索系统包括自然语言检索模块、检测识别模块和数据集构建与系统搭建模块三大功能模块。

该自然语句图像检索系统，其主要特点是，所述的原型系统根据输入的特征目标文本描述信息从海量监控视频中匹配、识别出特定目标，并对识别的特定目标进行实时地跟踪查控。

自然语言检索模块根据给定查询语句从视频数据库中找出最相关的图片并将其输出给后续的目标检测模块。

检测识别模块针对目标像素低和尺度差异较大等问题，使用超分辨率重建、特征融合和传统算法改进等方式，提升目标检测跟踪和识别准确率。

数据集构建与系统搭建模块则进行图像与文字标注以形成专用的多模态数据集，并集成算法与界面完成搭建最终的原型系统任务。

请参阅图1所示，本发明的一种自然语句图像检索系统实现自然语言检索的方法，所述的方法包括以下步骤：

(1)通过机器学习和计算机视觉技术将视频信息自动转化为表征其内容的文本信息进行视频内容自动标注与理解。

(2)通过精细化视频目标部件识别算法和自然语言理解技术提取视频中对象的局部特征，并形成对视频内容的自然语言描述。

(4)将检索表达式的文本信息与视频图像内容以匹配打分算法进行匹配，定义文本与视频图像的相似度；

(5)找出最相关的图片并将其输出给后续的目标检测模块。

所述的匹配打分算法主要分为两个步骤，查询语句和图片匹配打分和图片排序，匹配打分主要的工作是对给定的图片和查询进行学习表示，并根据二者表示上的关联性进行打分，而后根据图片的分数作为进行排序选出最为相关的图片输出给目标检测模块，具体算法为：

(1)输入图片和查询语句；

(2)对图片和查询语句进行基本的数值化，图片由于本身就是数值数据，故数值化层直接输出图片，查询语句的数值化层则将自然语言的符号转化为词的one-hot表示；

(3)用多通道的层次CNN网络对数值化的图片进行多角度和不同粒度的表示学习；

(4)使用LSTM(Long Short Term Memory)网络并结合注意力机制来提取查询语句中的局部和全局语义信息，最终得到查询语句的向量化表示；

(5)使用多层感知机将图片矩阵转化为固定维度的向量；

(6)根据学习得到的图片表示矩阵和查询语句表示向量序列进行图片和查询语句的相似度打分。

请参阅图2所示，本发明的一种自然语句图像检索系统实现检测识别的方法，包括以下步骤：

(1-1)对视频图像数据通过基于感知损失的视频超分辨率重建算法进行超分辨率重建获得更高的视频图像；

(1-2)通过特征融合得到更加鲁棒的多尺度特征；

本发明的一种自然语句图像检索系统，所述的数据集为多模态专用数据集，分为两个部分，第一部分为图片、目标检测框和目标特征的三元组，用于训练基于图片得到目标的精细化描述；第二部分为自然语言和目标特征的二元组，用于训练基于自然语言得到目标的精细化描述，两个部分独立训练，共同完成基于自然语言检索目标这一任务。

数据集目标特征包含用于进行检测识别的各种目标的精细化特征，具体特征见表1。

表1

图片进行标注，使用labelimg工具，从视频中标注则要先使用opencv提取图片帧。如果图片的分辨率达不到要求，则要先使用一些超分辨率的方法来获取更高分辨率的图片。遮挡程度较高、背景虚化、像素点过少时，不予标注。

自然语言和目标特征二元组的数据可由证词获取，如果无法获取证词，则要组织人员进行手工标注。

本实施例的具体实现方案可以参见上述实施例中的相关说明，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器、磁盘、光盘或者U盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种实现自然语句图像检索的方法，其特征在于，所述的方法包括以下步骤：

(5)找出最相关的图片并将其输出给后续的目标检测模块。

2.根据权利要求1所述的实现自然语句图像检索的方法，其特征在于，所述的步骤(4)中对匹配打分算法进行匹配的步骤具体包括以下步骤：

(4.2)根据图片的分数进行排序。

3.根据权利要求2所述的实现自然语句图像检索的方法，其特征在于，所述的步骤(4.2)具体包括以下步骤：

(4.2.1)输入图片和查询语句；

(4.2.3)对数值化的图片进行多角度和不同粒度的表示学习；

(4.2.5)使用多层感知机将图片矩阵转化为固定维度的向量；

4.根据权利要求1所述的实现自然语句图像检索的方法，其特征在于，所述的方法还包括实现检测识别的方法，具体包括以下步骤：

(1-2)通过特征融合得到鲁棒的多尺度特征；

5.一种实现权利要求1所述的方法的自然语句图像检索系统，其特征在于，所述的系统包括：

6.根据权利要求5所述的自然语句图像检索系统，其特征在于，所述的多模态数据集包括三元组和二元组，所述的三元组具有图片、目标检测框和目标特征的三元组，用于训练基于图片得到目标的精细化描述；所述的二元组具有自然语言和目标特征，用于训练基于自然语言得到目标的精细化描述，所述的三元组和二元组独立训练。

7.一种用于实现自然语句图像检索的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至4中任一项所述的实现自然语句图像检索的方法的步骤。

8.一种用于实现自然语句图像检索的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至4中任一项所述的实现自然语句图像检索的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1至4中任一项所述的实现自然语句图像检索的方法的各个步骤。