CN113190703A

CN113190703A - 视频图像的智能检索方法、装置、电子设备及存储介质

Info

Publication number: CN113190703A
Application number: CN202110362509.0A
Authority: CN
Inventors: 饶晓冬; 闫潇宁; 郑双午; 张春英
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-30

Abstract

本发明提供了一种视频图像的智能检索方法，包括：获取案发区域及案发相关区域指定时间段内的监控视频；对监控视频解码以形成多个视帧图片；将每一视帧图片输入目标图像检测模型中，得出目标图像在视帧图片中的位置信息；根据位置信息对视帧图片进行截取以形成目标图片；将目标图片输入至属性识别模型中，得出目标图像对应的属性信息；根据属性信息对目标图片进行标记分类，并将标记内容写入预设的搜索引擎库中；根据检索条件从搜索引擎库中查找出所有满足该检索条件的目标图片。本发明视频图像的智能检索方法可快速查找目标图片，节省了时间成本和人工成本。

Description

视频图像的智能检索方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频图像智能检索方法、装置、电子设备及计算机可读存储介质。

背景技术

随着“平安城市”的不断建设，视频监控摄像头已覆盖城市的大街小巷，摄像头一天24小时不间断的录像，已形成了海量的视频监控数据。

然而，目前社会上安装的摄像头基本为普通摄像头，只有录像、存储、调阅的功能。当需要在海量的视频监控数据中查找出特定且有效的目标图片时，传统的做法是将周围监控录像拷贝下来，然后通过人工去翻看视频录像来查找，这种方式费时费力，效率低下。

因此，实有必要提供一种视频图像的智能检索方法、装置、电子设备及存储介质解决上述技术问题。

发明内容

鉴于以上内容，有必要提供一种视频图像的智能检索方法、装置、电子设备及存储介质，旨在快速查找到目标图片。

为实现上述目的，本发明提出一种视频图像的智能检索方法，应用于电子设备，所述方法包括：

获取步骤：获取案发区域及案发相关区域指定时间段内的监控视频；

解码步骤：将所述监控视频按照其帧率进行解码以形成多个视帧图片；

检测步骤：将每一所述视帧图片输入至预先训练好的目标图像检测模型中，得出目标图像在所述视帧图片中的位置信息；其中，所述位置信息包括所述目标图像的左上角坐标、所述目标图像的宽度以及所述目标图像的高度；

截取步骤：根据所述位置信息计算出所述目标图像在所述视帧图片中的左下角坐标、右上角坐标以及右下角坐标；并根据所述左上角坐标、所述左下角坐标、所述右上角坐标以及所述右下角坐标对所述视帧图片进行截取以形成目标图片；

识别步骤：将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到的；

分类存储步骤：根据所述属性信息对所述目标图片进行标记分类，并将标记内容写入预设的搜索引擎库中；

检索步骤：根据检索条件从所述搜索引擎库中查找出所有满足该检索条件的目标图片。

优选的，进行所述检索步骤之后还包括轨迹刻画步骤：将所有满足所述检索条件的所述目标图片按照时间顺序聚合成再现目标图像活动轨迹的视频片段。

优选的，所述目标图像为行人或车辆，若所述目标图像为行人，其对应的所述属性信息包括人脸、人体、肤色以及衣着，若所述目标图像为车辆，其对应的所述属性信息包括车辆的颜色、车标及车辆类型。

优选的，所述目标图像检测模型的训练包括：

采集预设数量的具有目标图像的样本图片构建样本数据集；

对所述样本数据集中的所述样本图片进行预处理，并将预处理后的所述样本数据集按照预设比例分成训练集和验证集；

将所述训练集输入至预设的训练模型中进行训练，每隔预设周期使用所述验证集对该模型的准确率进行验证；当所述准确率大于预设阈值时，结束训练，得到所述目标图像检测模型。

优选的，所述预处理包括采用预设标记分类规则对所述样本图片进行标记分类及对所述样本图片进行旋转、缩放或色域变换。

优选的，所述预设的训练模型为YOLO、Fast RCNN、Faster RCNN、SSD模型中的任意一种。

本发明还提供一种视频图像的智能检索装置，该装置包括：

获取模块：用于获取案发区域及案发相关区域指定时间段内的监控视频；

解码模块：用于将所述监控视频按照其帧率进行解码以形成多个视帧图片；

检测模块：用于将每一所述视帧图片输入至预先训练好的目标图像检测模型中，得出目标图像在所述视帧图片中的位置信息；其中，所述位置信息包括所述目标图像的左上角坐标、所述目标图像的宽度以及所述目标图像的高度

截取模块：用于根据所述位置信息计算出所述目标图像在所述视帧图片中的左下角坐标、右上角坐标以及右下角坐标；并根据所述左上角坐标、所述左下角坐标、所述右上角坐标以及所述右下角坐标对所述视帧图片进行截取以形成目标图片；

识别模块：用于将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到的；

分类存储模块：用于根据所述属性信息对所述目标图片进行标记分类，并将标记内容写入预设的搜索引擎库中；

检索模块：用于根据检索条件从所述搜索引擎库中查找出所有满足该检索条件的目标图片。

本发明还提供一种电子设备，所述电子设备包括：处理器和与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的视频图像的智能检索程序，所述处理器执行所述视频图像的智能检索程序时实现如上述的视频图像的智能检索方法的步骤。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频图像的智能检索程序，所述视频图像的智能检索程序可被处理器执行，以实现如上述的视频图像的智能检索方法的步骤。

相较现有技术，本发明所提出的视频图像智能检索方法、装置、电子设备及存储介质中，可以将视频图像中的所有目标图像提取出来，并提供检索、轨迹刻画功能，可以快速从案发区域监控视频中的找到目标图片，并将目标图片进行轨迹刻画，其不需要通过人工翻看监控视频录像来查找目标图片，进而节省了人工成本和时间成本。

附图说明

图1为本发明视频图像的智能检索方法的流程示意图；

图2为本发明视频图像的智能检索装置的模块示意图；

图3为本发明电子设备其中一可选的硬件架构的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本申请实施例提供的视频图像的智能检索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述视频图像的智能检索方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参阅图1所示，是本发明视频图像的智能检索方法的流程示意图，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，一种视频图像的智能检索方法包括以下步骤：

获取步骤S10：获取案发区域及案发相关区域指定时间段内的监控视频。

本实施例中，所述监控视频为案发时间前后24小时内的监控录像，当然，不限于此，该时间段可根据案件发生的实际情况做适应型设定。

解码步骤S20：将所述监控视频按照其帧率进行解码以形成多个视帧图片。

本实施例中，解码使用工厂类模式，可以兼容标准和不同厂商的文件格式，采用硬解，大大提高解码速度。

具体的，所述解码包括如下步骤：

加载标准解码库和各厂端SDK解码库，以接口的方式调用；

选择视频文件，调用标准类库对所述视频文件进行解码，若不成功，则调用各厂端SDK解码库对视频文件进行解码，其调用方式是通过视频文件后缀名或者视频文件内容的前面6个字节，判断视频文件属于哪家厂商，调用对应的SDK；

解码后的数据放入队列，由上层应用主动来获取。

检测步骤S30：将每一所述视帧图片输入至预先训练好的目标图像检测模型中，得出目标图像在所述视帧图片中的位置信息；其中，所述位置信息包括所述目标图像的左上角坐标、所述目标图像的宽度以及所述目标图像的高度。

本实施例中，所述位置信息的输出过程为：首先选取置信度最高的坐标框，计算交并比(IOU)，计算公式为IOU＝(A∩B)/(A∪B)，将交并比大于阈值(可以调整阈值大小，一般设为0.5)的坐标框删除掉。然后再选择置信度第二高的坐标框，重复上述过程，直到遍历完所有的坐标框，得到最终的结果，即为各个目标图像的位置信息。

进一步的，所述目标图像检测模型的训练包括：

采集预设数量的具有目标图像的样本图片构建样本数据集；

本实施例中，所述预处理包括采用预设标记分类规则对所述样本图片进行标记分类及对所述样本图片进行旋转、缩放或色域变换。所述预设的训练模型为YOLO、Fast RCNN、Faster RCNN、SSD模型中的任意一种。

截取步骤S40：根据所述位置信息计算出所述目标图像在所述视帧图片中的左下角坐标、右上角坐标以及右下角坐标；并根据所述左上角坐标、所述左下角坐标、所述右上角坐标以及所述右下角坐标对所述视帧图片进行截取以形成目标图片；

本实施例中，所述位置信息包括所述目标图像的左上角坐标(x,y)、所述目标图像的宽度w以及所述目标图像的高度h；并以所述目标图像的左上角坐标 (x,y)作为原点，所述目标图像的宽度作为X轴，所述目标图像的高度h作为 Y轴来构建坐标系。

进一步的，根据所述位置信息计算出所述目标图像在所述视帧图片中的左角坐标、右上角坐标以及右下角坐标，具体为：所述左下角坐标为(x,y+h)，所述右上角坐标为(x+w,y)，所述右下角坐标为(x+w,y+h)。

识别步骤S50：将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到；

本实施例中，所述目标图像为行人或车辆，若所述目标图像为行人，其对应的所述属性信息包括人脸、人体、肤色以及衣着，若所述目标图像为车辆，其对应的所述属性信息包括车辆的颜色(黑白灰红等)、车标及车辆类型(轿车、面包车、卡车、货车等)。

需要说明的是，所述卷积神经网络模型为多类别模型的主体结构，其舍弃原始的多类别全连接层；对于由主体结构得到的n维特征，在该层结构后为每种属性类别设计一个线性分类器，对于每个线性分类器经模型前向传递后输出的结果，均以元组的数据格式保存；对于所有属性的元组数据，按照一定的属性顺序追加到同一个元组中作为模型输出的结果。

分类存储步骤S60：根据所述属性信息对所述目标图片进行标记分类，并将标记内容写入预设的搜索引擎库中；

检索步骤S70：根据检索条件从所述搜索引擎库中查找出所有满足该检索条件的目标图片。

在本实施例中，所述检索条件可以为人的衣着、外貌等属性信息或人的图片。所述检索引擎采用分布式特征向量检索引擎vearch。

为了进一步提高查找效率，将所有满足所述检索条件的目标图片按照时间顺序聚合成再现目标图像活动轨迹的视频片段。

本发明所提出的视频图像智能检索方法中，可以将视频图像中的所有目标图像提取出来，并提供检索、轨迹刻画功能，可以快速从案发区域监控视频中的找到目标图片，并将目标图片进行轨迹刻画，其不需要通过人工翻看监控视频录像来查找目标图片，进而节省了人工成本和时间成本。

参阅图2所示，是本发明视频图像的智能检索装置200的模块示意图。

本实施例中，所述视频图像的智能检索装置200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明视频图像的智能检索操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，视频图像的智能检索装置200可以被划分为一个或多个模块。例如，在图2中，所述视频图像的智能检索装置200可以被分割成获取模块201、解码模块202、检测模块203、截取模块204、识别模块205、分类存储模块206以及检索模块207。其中：

获取模块201：用于获取案发区域及案发相关区域指定时间段内的监控视频。

解码模块202：用于将所述监控视频按照其帧率进行解码以形成多个视帧图片。

具体的，所述解码包括如下步骤：

加载标准解码库和各厂端SDK解码库，以接口的方式调用；

选择视频文件，调用标准类库对所述视频文件进行解码，若不成功，则调用各厂端SDK解码库对视频文件进行解码，其调用方式是通过视频文件后缀名或者视频文件内容的前面6个字节，判断视频文件属于哪家厂商，调用对应的 SDK；

解码后的数据放入队列，由上层应用主动来获取。

检测模块203：用于将每一所述视帧图片输入至预先训练好的目标图像检测模型中，得出目标图像在所述视帧图片中的位置信息；其中，所述位置信息包括所述目标图像的左上角坐标、所述目标图像的宽度以及所述目标图像的高度。

进一步的，所述目标图像检测模型的训练包括：

采集预设数量的具有目标图像的样本图片构建样本数据集；

截取模块204：用于根据所述位置信息计算出所述目标图像在所述视帧图片中的左下角坐标、右上角坐标以及右下角坐标；并根据所述左上角坐标、所述左下角坐标、所述右上角坐标以及所述右下角坐标对所述视帧图片进行截取以形成目标图片。

识别模块205：用于将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到；

分类存储模块206：用于根据所述属性信息对所述目标图片进行标记分类，并将标记内容写入预设的搜索引擎库中。

检索模块207：用于根据检索条件从所述搜索引擎库中查找出所有满足该检索条件的目标图片。

在本实施例中，所述检索条件可以为人的衣着、外貌等属性信息或疑人的图片。所述检索引擎采用分布式特征向量检索引擎vearch。

为了进一步提高查找效率，将所有满足所述检索条件的所述目标图片按照时间顺序聚合成再现目标图像活动轨迹的视频片段。

本发明所提出的视频图像智能检索装置中，可以将视频图像中的所有目标图像提取出来，并提供检索、轨迹刻画功能，可以快速从案发区域监控视频中的找到目标图片，并将目标图片进行轨迹刻画，其不需要通过人工翻看监控视频录像来查找目标图片，进而节省了人工成本和时间成本。

参阅图3所示，是本发明实现视频图像智能检索方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线12，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如视频图像智能检索程序13。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1 的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital， SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如视频图像的智能检索程序13 的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行视频图像智能检索程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器 10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3 示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1 还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器 (Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED 显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的视频图像的智能检索程序13是多个指令的组合，在所述处理器10中运行时，可以实现如下步骤：

识别步骤：将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到；

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM， Read-Only Memory)。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。所述计算机可读存储介质存储有视频图像的智能检索程序，所述视频图像的智能检索程序可被处理器执行，以使所述处理器执行上述视频图像的智能检索方法实施例中的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频图像的智能检索方法，应用于电子设备，其特征在于，所述方法包括：

2.如权利要求1所述的视频图像的智能检索方法，其特征在于，进行所述检索步骤之后还包括轨迹刻画步骤：将所有满足所述检索条件的所述目标图片按照时间顺序聚合成再现目标图像活动轨迹的视频片段。

3.如权利要求1所述的视频图像的智能检索方法，其特征在于，所述目标图像为行人或车辆，若所述目标图像为行人，其对应的所述属性信息包括人脸、人体、肤色以及衣着，若所述目标图像为车辆，其对应的所述属性信息包括车辆的颜色、车标及车辆类型。

4.如权利要求3所述的视频图像的智能检索方法，其特征在于，所述目标图像检测模型的训练包括：

采集预设数量的具有目标图像的样本图片构建样本数据集；

将所述训练集输入至预设的训练模型中进行训练，每隔预设周期使用所述验证集对该模型的准确率进行验证：当所述准确率大于预设阈值时，结束训练，得到所述目标图像检测模型。

5.如权利要求4所述的视频图像的智能检索方法，其特征在于，所述预处理包括采用预设标记分类规则对所述样本图片进行标记分类及对所述样本图片进行旋转、缩放或色域变换。

6.如权利要求4所述的流媒体传输控制方法，其特征在于，所述预设的训练模型为YOLO、Fast RCNN、Faster RCNN、SSD模型中的任意一种。

7.一种视频图像的智能检索装置，其特征在于，该装置包括：

检测模块：用于将每一所述视帧图片输入至预先训练好的目标图像检测模型中，得出目标图像在所述视帧图片中的位置信息；其中，所述位置信息包括所述目标图像的左上角坐标、所述目标图像的宽度以及所述目标图像的高度；

识别模块：用于将所述目标图片输入至属性识别模型中，得出所述目标图像对应的属性信息，其中，所述属性识别模型采用卷积神经网络模型训练得到；

8.一种电子设备，其特征在于，所述电子设备包括：处理器和与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的视频图像的智能检索程序，所述处理器执行所述视频图像的智能检索程序时实现如权利要求1至6中任意一项所述的视频图像的智能检索方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频图像的智能检索程序，所述视频图像的智能检索程序可被处理器执行，以实现如权利要求1至6任意一项所述的视频图像的智能检索方法的步骤。