CN114661928A

CN114661928A - 违规行为图像的检索方法、装置、设备及存储介质

Info

Publication number: CN114661928A
Application number: CN202210246332.2A
Authority: CN
Inventors: 黄哲
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-24

Abstract

本发明涉及人工智能领域，应用于智慧城市领域中，公开了一种违规行为图像的检索方法、装置、设备及存储介质，用于提高违规行为图像的检索效率。所述违规行为图像的检索方法包括：获取实时采集的行为监控音视频流，并对行为监控音视频流进行分帧处理，得到目标行为图像集；通过违规行为识别模型，对目标行为图像集进行违规行为检测，得到初始违规图像，并将初始违规图像存储至目标数据库；对待搜索语音数据进行语音识别，得到待搜索文本信息；通过自然语句转换模型，将待搜索文本信息转换为数据库查询语句，并从目标数据库中查找待搜索语音数据对应的目标违规图像。此外，本发明还涉及区块链技术，目标违规图像可存储于区块链节点中。

Description

违规行为图像的检索方法、装置、设备及存储介质

技术领域

本发明涉及检测模型领域，尤其涉及一种违规行为图像的检索方法、装置、设备及存储介质。

背景技术

许多场合对人们的行为有规范要求，如后厨要求厨师佩戴厨师帽和口罩、地铁站要求进站者佩戴口罩、医院要求医生穿制服等，在具有行为规范要求的场合，通常设置有监控设备，以便于进行有效的行为规范监管。

由于监控视频数据量大，监管部门对于行为规范的检测通常是通过对监控视频进行抽检完成，通过定期的采样检测识别一些违规行为图像，但是，这种方式难以全面地获得违规行为信息，并且基于传统的违规行为图像检索逻辑，使得违规图像的检索效率低下，存在监管不及时的问题。

发明内容

本发明提供了一种违规行为图像的检索方法、装置、设备及存储介质，用于提高违规行为图像的检索效率。

本发明第一方面提供了一种违规行为图像的检索方法，包括：

获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集；

通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库；

获取待搜索语音数据，并对所述待搜索语音数据进行语音识别，得到待搜索文本信息；

通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句；

通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像。

可选的，在本发明第一方面的第一种实现方式中，所述获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集，包括：

实时对监控摄像头采集的音视频流进行拉流处理，得到行为监控音视频流；

按照预置帧率，对所述行为监控音视频流进行分帧处理，得到初始行为图像集；

对所述初始行为图像集进行画面变动检测，得到检测结果，并通过所述检测结果对所述初始行为图像集进行降噪处理，得到目标行为图像集。

可选的，在本发明第一方面的第二种实现方式中，所述对所述初始行为图像集进行画面变动检测，得到检测结果，并通过所述检测结果对所述初始行为图像集进行降噪处理，得到目标行为图像集，包括：

对所述初始行为图像集进行灰度图像转换，得到多帧灰度图像，并提取各帧灰度图像中每个像素点的灰度值，得到各帧灰度图像对应的灰度值矩阵；

按照所述行为监控音视频流的分帧顺序，对相邻帧灰度图像对应的灰度值矩阵进行灰度差值计算，得到计算结果，并根据所述计算结果确定所述初始行为图像集中的静止画面图像和运动画面图像；

将所述初始行为图像集中的静止画面图像剔除，得到目标行为图像集。

可选的，在本发明第一方面的第三种实现方式中，所述通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库，包括：

初始化预先训练好的违规行为识别模型，所述训练好的违规行为识别模型包括多个级联的检测网络，每个检测网络对应不同的交并比阈值；

通过各检测网络对所述目标行为图像集进行违规行为识别，并将交并比阈值最大的检测网络的输出设置为违规行为检测结果，所述违规行为检测结果用于指示所述目标行为图像是否为违规图像；

根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库，包括：

根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并生成所述初始违规图像对应的图像标识符；

将所述初始违规图像存储至预置的分布式文件库，得到图像存储路径信息；

获取所述初始违规图像的违规对象信息、图像信息和违规信息，并按照预置数据结构将所述图像存储路径信息、所述图像标识符、所述违规对象信息、所述图像信息和所述违规信息存储至目标数据库。

可选的，在本发明第一方面的第五种实现方式中，所述通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句，包括：

初始化训练好的自然语句转换模型，并通过所述自然语言转换模型中的BERT网络对所述待搜索文本信息进行编码，得到文本编码向量；

通过所述自然语言转换模型中的分类器对所述文本编码向量进行全局分类，得到分类结果，所述分类结果包括表格名称、列名称和运算符；

根据所述分类结果中的表格名称、列名称和运算符，生成所述待搜索文本信息对应的数据库查询语句。

可选的，在本发明第一方面的第六种实现方式中，所述通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像，包括：

通过所述数据库查询语句，从所述目标数据库的违规对象信息、图像信息和违规信息中查找违规图像存储记录；

通过所述违规图像存储记录获取对应的图像存储路径信息和图像标识符，并通过所述图像存储路径信息和所述图像标识符获取所述待搜索语音数据对应的目标违规图像。

本发明第二方面提供了一种违规行为图像的检索装置，包括：

获取模块，用于获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集；

检测模块，用于通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库；

识别模块，用于获取待搜索语音数据，并对所述待搜索语音数据进行语音识别，得到待搜索文本信息；

转换模块，用于通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句；

查找模块，用于通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：

拉流单元，用于实时对监控摄像头采集的音视频流进行拉流处理，得到行为监控音视频流；

分帧单元，用于按照预置帧率，对所述行为监控音视频流进行分帧处理，得到初始行为图像集；

降噪单元，用于对所述初始行为图像集进行画面变动检测，得到检测结果，并通过所述检测结果对所述初始行为图像集进行降噪处理，得到目标行为图像集。

可选的，在本发明第二方面的第二种实现方式中，所述降噪单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述检测模块包括：

初始化单元，用于初始化预先训练好的违规行为识别模型，所述训练好的违规行为识别模型包括多个级联的检测网络，每个检测网络对应不同的交并比阈值；

检测单元，用于通过各检测网络对所述目标行为图像集进行违规行为识别，并将交并比阈值最大的检测网络的输出设置为违规行为检测结果，所述违规行为检测结果用于指示所述目标行为图像是否为违规图像；

提取单元，用于根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库。

可选的，在本发明第二方面的第四种实现方式中，所述提取单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述转换模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述查找模块具体用于：

本发明第三方面提供了一种违规行为图像的检索设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述违规行为图像的检索设备执行上述的违规行为图像的检索方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的违规行为图像的检索方法。

本发明提供的技术方案中，获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集；通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库；获取待搜索语音数据，并对所述待搜索语音数据进行语音识别，得到待搜索文本信息；通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句；通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像。本发明实施例中，通过对实时采集的行为监控音视频流进行分帧，得到目标行为图像集，再通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测，从而得到初始违规图像，进而将初始违规图像存储至目标数据库，当接收到待搜索语音数据时，将待搜索语音数据对应的待搜索文本信息转换为数据库查询语句，以从目标数据库中直接获得对应的违规图像。本发明可以提高违规行为图像的检索效率。

附图说明

图1为本发明实施例中违规行为图像的检索方法的一个实施例示意图；

图2为本发明实施例中违规行为图像的检索方法的另一个实施例示意图；

图3为本发明实施例中违规行为图像的检索装置的一个实施例示意图；

图4为本发明实施例中违规行为图像的检索装置的另一个实施例示意图；

图5为本发明实施例中违规行为图像的检索设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种违规行为图像的检索方法、装置、设备及存储介质，用于提高违规行为图像的检索效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，本发明的执行主体可以为违规行为图像的检索装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中违规行为图像的检索方法的一个实施例包括：

作为示例而非限定的是，违规行为具体可以是后厨违规行为，具体可以应用在对餐企后厨的违规行为识别。

101、获取实时采集的行为监控音视频流，并对行为监控音视频流进行分帧处理，得到目标行为图像集；

需要说明的是，为了提高违规行为检测的实时性和覆盖率，服务器通过预先安装在监控环境的图像采集终端(如摄像头)进行实时画面采集，得到行为监控音视频流，例如安装在后厨的监控摄像头、安装在地铁口的监控摄像头等，行为监控音视频流包括监控视频流和监控音频流，在一种实施方式中，服务器提取行为监控音视频流中的监控视频流，并对监控视频流进行分帧处理，得到目标行为图像集，本实施方式能够提分帧效率，进而提高违规行为图像的检索效率。

在一种实施方式中，为了提高违规行为图像的检索效率，服务器对行为监控音视频流进行分帧处理之后，得到初始行为图像集，服务器按照行为监控音视频流的分帧顺序，提取初始行为图像集中的相邻帧图像，得到相邻图像对，服务器再将相邻图像对中的图像转换为灰度图像，并提取灰度图像中每个像素点的灰度值，得到灰度值矩阵对，服务器计算灰度值矩阵对中对应像素点的灰度差值，并判断灰度差值是否大于预置差值阈值，若灰度差值大于预置差值阈值，则服务器将相邻图像对中的图像保存，若灰度差值小于预置差值阈值，则服务器将相邻图像对中的任一图像保存，得到目标行为图像集。本实施方式通过对相邻帧的图像进行图像灰度值比对，识别变化差异小的图像，并将变化差异小的图像去除，以降低初始行为图像集的噪声，得到重复率低的目标行为图像集，从而降低后续违规行为识别的计算量，进而提高后续违规行为图像的检索效率。

102、通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将初始违规图像存储至目标数据库；

在一种实施方式中，在进行违规行为检测之前，服务器获取带标注的训练样本，并通过带标注的训练样本对初始的神经网络模型进行违规行为识别训练，每轮训练过程均输出识别结果，服务器计算每轮识别结果与训练样本之间的均方误差，并通过均方误差对上一轮生成的神经网络模型的参数进行微调，直至均方误差满足模型生成条件时，生成违规行为识别模型。具体的，违规行为可以是后厨违规行为、地铁违规行为、医院违规行为等，本实施方式能够生成适用于违规行为识别的超参数值模型，使得违规行为识别的准确率提高。

需要说明的是，得到初始违规图像之后，服务器将初始违规图像和初始违规图像对应的违规对象信息、图像信息和违规信息存储至目标数据库，其中，违规对象信息具体可以是餐企后厨信息，餐企后厨信息包括但不限于餐企名称、餐企地址、餐企联系方式和餐企法人信息等，图像信息包括但不限于图像采集时刻、图像大小、图像类型、图像存储路径、图像名称和图像标识符，违规信息包括但不限于违规类型、违规时刻和违规行为所在视频文件信息等，在一种实施方式中，服务器将初始违规图像对应的违规对象信息、图像信息和违规信息以键值对的数据结构存储至目标数据库，以便于后续生成对应的数据库查询语句，进行高效的违规数据查询。本实施方式通过存储违规图像和违规图像的相关信息，能够提高违规行为信息的检索效率，并减少数据库的数据存储量。

103、获取待搜索语音数据，并对待搜索语音数据进行语音识别，得到待搜索文本信息；

在一种实施方式中，为了便于实时地监测违规行为，通过大屏终端设备展示违规行为的检测结果，用户只需通过大屏终端的外接语音输入设备(麦克风)输入语音，即能进行违规行为检索，无需外接文本输入设备(键盘)即能进行检索，提高违规行为识别的使用效率，使得本方法适用于更多的应用场景，检索灵活度提高。

在一种实施方式中，服务器接收终端设备发送的待搜索语音数据之后，通过预置的语音识别模型对待搜索语音数据进行语音识别，得到待搜索文本信息，其中，预置的语音识别模型包括编码层、解码层和全连接层，具体的，服务器将待搜索语音数据转换为梅尔频谱图，得到目标梅尔频谱图，再通过语音识别模型中的编码层对目标梅尔频谱图进行特征编码，得到语音特征编码，并通过语音识别模型中的解码层对语音特征编码进行特征解码，得到特征解码信息，最后通过语音识别模型中的全连接层对特征解码信息进行文本预测分类，得到待搜索文本信息。本实施方式能够高效地进行文本识别，进而提高后续违规行为的检索效率。

104、通过训练好的自然语句转换模型，将待搜索文本信息转换为数据库查询语句；

需要说明的是，训练好的自然语句转换(natural language to sql，NL2SQL)模型是个多标签分类模型，每个标签类别对应的是数据表的列，服务器通过对待搜索文本信息进行列名分类，得到列名信息，在通过NL2SQL模型中预置的数据库查询语句模板，生成待搜索文本信息对应的数据库查询语句，其中，预置的数据库查询语句模板为具有预置格式的数据库查询语句，服务器将列名信息写入数据库查询语句模板，得到待搜索文本信息对应的数据库查询语句，用于在列名信息对应的数据库列中查找待搜索文本信息，本实施方式能够将自然语句转换为SQL语句，使自然语言能够转化为计算机可以理解的规范化语言表示，直接通过待搜索文本进行数据库检索，减少了对自然语言的语义解析过程中的数据损失，使语义检索的准确度提高，进而提高违规行为数据检索的准确率。

在一种实施方式中，服务器通过训练好的自然语句转换模型对待搜索文本信息和目标数据库的所有表头信息进行实时编码，得到待搜索语句向量和各表头信息对应的表头向量，再通过自然语句转换模型对待搜索语句向量进行运算符分类，得到目标运算符，并计算待搜索语句向量中每个字向量与表头向量之间的相似度，将相似度最高的表头向量对应的表头信息设置为目标表头，最后，根据目标运算符和目标表头生成待搜索文本信息对应的数据库查询语句。如某一待搜索文本信息为“违规次数小于2次的餐企”，那么，得到的目标运算符为“<”，目标表头为“次数”，生成的数据库查询语句可以为“select‘餐企名称’form‘表格名’where(次数<2)”，具体不做限定。本实施方式实现自然语言与计算机语言的转换，能够快速地获得搜索结果，进而提高违规行为搜索的效率。

105、通过数据库查询语句，从目标数据库中查找待搜索语音数据对应的目标违规图像。

需要说明的是，数据库查询语句是可以直接运行于目标数据库的脚本语句，服务器通过执行数据库查询语句，从目标数据库中查找待搜索语音数据对应的违规行为信息，其中，违规行为信息包括违规图像标识符，服务器通过违规图像标识符从目标数据库中获取待搜索语音数据对应的目标违规图像。本实施方式能够快速地获得与待搜索语音数据对应的违规行为信息，进而输出相应的违规图像，使得监管人员能够直接凭违规图像采取进一步的监管措施，大大地提高违规行为的监管效率。

进一步地，服务器将目标违规图像存储于区块链数据库中，具体此处不做限定。

本发明实施例中，通过对实时采集的行为监控音视频流进行分帧，得到目标行为图像集，再通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测，从而得到初始违规图像，进而将初始违规图像存储至目标数据库，当接收到待搜索语音数据时，将待搜索语音数据对应的待搜索文本信息转换为数据库查询语句，以从目标数据库中直接获得对应的违规图像。本发明可以提高违规行为图像的检索效率。本方案属于智慧城市领域，通过本方案能够推动智慧城市的建设。

请参阅图2，本发明实施例中违规行为图像的检索方法的另一个实施例包括：

201、实时对监控摄像头采集的音视频流进行拉流处理，得到行为监控音视频流；

本实施方式中，行为监控音视频流采用流媒体的流式传输方式，服务器通过从图像采集终端拉流，获取实时的行为监控音视频流，本实施方式中，行为监控音视频流采用FLV(flash video，动画视频)的流媒体格式进行数据传输，由于FLV为二进制文件的载体，因此，本实施方式能够流媒体的传输效率，进而提高违规行为识别的效率。

202、按照预置帧率，对行为监控音视频流进行分帧处理，得到初始行为图像集；

本实施方式中，帧率(Frame rate)是指以帧称为单位的位图图像连续出现在显示器上的频率，单位是“每秒显示的帧数”，如帧率30是指每秒显示30帧图像，由于违规行为一般存在时间上的持续性，如后厨违规行为有：未戴厨师帽行为、未佩戴口罩行为等，因此，为了减少计算机的数据处理量，服务器按照预置帧率对行为监控音视频流进行分帧处理，得到初始行为图像集，其中，优选的预置帧率为1时，能够极大程度地提高违规行为图像的检索效率和搜索效率，具体数值不做限定。

203、对初始行为图像集进行画面变动检测，得到检测结果，并通过检测结果对初始行为图像集进行降噪处理，得到目标行为图像集；

本实施方式中，为了进一步提高违规行为图像的检索效率和检索效率，对初始行为图像集进行降噪处理，得到噪声小的目标行为图像集，从而提高后续通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测的效率，进而提高违规行为图像的检索效率和检索效率。例如，由于后厨的活动行为通常聚集在某一时段，如午餐时段、晚餐时段等，其余时段通常无人在后厨活动，此时监控摄像头采集到的初始行为图像集通常为静止画面，因此，服务器通过对初始行为图像集中的初始行为图像进行画面变化幅度计算，得到计算结果，并根据计算结果剔除画面变化幅度小于预置幅度阈值的初始行为图像，以通过计算结果对初始行为图像集进行降噪处理，得到目标行为图像集。

具体的，服务器对初始行为图像集进行灰度图像转换，得到多帧灰度图像，并提取各帧灰度图像中每个像素点的灰度值，得到各帧灰度图像对应的灰度值矩阵；服务器按照行为监控音视频流的分帧顺序，对相邻帧灰度图像对应的灰度值矩阵进行灰度差值计算，得到计算结果，并根据计算结果确定初始行为图像集中的静止画面图像和运动画面图像；服务器将初始行为图像集中的静止画面图像剔除，得到目标行为图像集。

本实施方式中，为了提高对初始行为图像集的降噪效率，服务器将初始行为图像集中的初始行为图像转换为灰度图像，并通过灰度图像中每个像素点的灰度值，生成初始行为图像对应的灰度值矩阵，再按照行为监控音视频流的分帧顺序或采集时刻顺序，对相邻帧的灰度值矩阵进行灰度值差值计算，即将相邻帧的灰度值矩阵中每个对应的灰度值进行差值计算，得到每对相邻帧对应的差值矩阵，并判断差值矩阵中灰度差值大于预置差值阈值的像素数量是否大于预置数量阈值，若差值矩阵中灰度差值大于预置差值阈值的像素数量大于预置数量阈值，则判定该差值矩阵对应的相邻帧为非相对静止画面，服务器保留该对相邻帧中的初始行为图像，若差值矩阵中灰度差值大于预置差值阈值的像素数量小于预置数量阈值，则判定该差值矩阵对应的相邻帧为相对静止画面，服务器将该对相邻帧中的任一帧删除，得到目标行为图像集。本实施方式能够快速地去除相对静止的行为图像，进而提高后续违规行为识别和检索的效率。

204、通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将初始违规图像存储至目标数据库；

具体的，服务器初始化预先训练好的违规行为识别模型，训练好的违规行为识别模型包括多个级联的检测网络，每个检测网络对应不同的交并比阈值；服务器通过各检测网络对目标行为图像集进行违规行为识别，并将交并比阈值最大的检测网络的输出设置为违规行为检测结果，违规行为检测结果用于指示目标行为图像是否为违规图像；服务器根据违规行为检测结果，从目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将初始违规图像存储至目标数据库。

需要说明的是，训练好的违规行为识别模型为具有多个级联检测网络的CascadeR-CNN模型，每个级联检测网络对应一个交并比(intersection-over-union，IoU)阈值，违规行为识别模型在训练阶段，通过正负样本对每个检测网络对应的交并比阈值进行调整，从而生成训练好的违规行为识别模型中每个检测网络对应的交并比，服务器将目标行为图像集中的目标行为图像输入训练好的违规行为识别模型后，违规行为识别模型中前一个检测网络的输出作为后一个检测网络的输入，越往后的检测网络具有越高的交并比阈值，因此，服务器将交并比阈值最大的检测网络的输出设置为违规行为检测结果，得到目标行为图像集中的初始违规图像，服务器再按照预置数据结构将初始违规图像存储至目标数据库中。本实施方式能够通过级联的违规行为识别模型进行高效的违规行为识别，从而提高后续违规行为的检索效率。

进一步的，服务器根据违规行为检测结果，从目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将初始违规图像存储至目标数据库，包括：服务器根据违规行为检测结果，从目标行为图像集中提取违规图像，得到初始违规图像，并生成初始违规图像对应的图像标识符；服务器将初始违规图像存储至预置的分布式文件库，得到图像存储路径信息；服务器获取初始违规图像的违规对象信息、图像信息和违规信息，并按照预置数据结构将图像存储路径信息、图像标识符、违规对象信息、图像信息和违规信息存储至目标数据库。

本实施方式中，为了将初始违规图像和初始违规图像的相关信息按照后续的自然语句转换模型对应的数据结构存储至目标数据库中，使违规行为的检索效率提高，服务器提取违规行为检测结果中的初始违规图像后，生成初始违规图像对应的图像标识符，并将初始违规图像存储至预置的分布式文件库，得到图像存储路径信息，以通过分布式文件系统提高违规行为图像的检索效率和存储效率，服务器再获取初始违规图像的违规对象信息、图像信息和违规信息，并按照键值对的存储形式将图像存储路径信息、图像标识符、违规对象信息、图像信息和违规信息存储至目标数据库。

205、获取待搜索语音数据，并对待搜索语音数据进行语音识别，得到待搜索文本信息；

该步骤205的执行过程与步骤103的执行过程相似，具体此处不再赘述。

206、通过训练好的自然语句转换模型，将待搜索文本信息转换为数据库查询语句；

具体的，服务器初始化训练好的自然语句转换模型，并通过自然语言转换模型中的BERT网络对待搜索文本信息进行编码，得到文本编码向量；服务器通过自然语言转换模型中的分类器对文本编码向量进行全局分类，得到分类结果，分类结果包括表格名称、列名称和运算符；服务器根据分类结果中的表格名称、列名称和运算符，生成待搜索文本信息对应的数据库查询语句。

本实施方式中，训练好的自然语句转换模型包括双向转换编码(bidirectionalencoder representation from transformers，BERT)网络和分类器，服务器通过BERT网络对待搜索文本信息进行编码，得到文本编码向量，再通过分类器对文本编码向量进行全局分类，其中，全局分类包括表名分类、列名分类和运算符分类，得到分类结果，分类结果包括表格名称、列名称和运算符，最后，服务器根据分类结果中的表格名称、列名称和运算符，生成待搜索文本信息对应的数据库查询语句。假设表格名称为“餐企名称表”，列名为“餐企名称”，运算符为“＝”，那么，生成的数据库查询语句可以为“select‘餐企名称’form‘餐企名称表’where(名称＝‘火锅’)”，服务器可以通过该数据库查询语句从目标数据库中查询到餐企名称包含“火锅”二字的违规对象信息，使得数据的检索效率提升。

207、通过数据库查询语句，从目标数据库中查找待搜索语音数据对应的目标违规图像。

具体的，服务器通过数据库查询语句，从目标数据库的违规对象信息、图像信息和违规信息中查找违规图像存储记录；服务器通过违规图像存储记录获取对应的图像存储路径信息和图像标识符，并通过图像存储路径信息和图像标识符获取待搜索语音数据对应的目标违规图像。

需要说明的是，服务器在对监控摄像头采集的监控画面进行违规行为识别时，将识别到的初始违规图像对应的识别记录存储至目标数据库中，得到违规图像存储记录，其中，违规图像存储记录包括违规对象信息、图像信息和违规信息，因此，服务器得到数据库查询语句之后，直接从目标数据库中查询违规图像存储记录，并通过违规图像存储记录中的图像存储路径信息和图像标识符获取目标违规图像，最后将目标违规图像和目标违规图像的违规对象信息、图像信息和违规信息输出至查询终端，使得监管人员能够方便地获取违规证据和违规信息。

本发明实施例中，通过对实时采集的行为监控音视频流进行拉流，得到初始行为图像集，为了对待识别的初始行为图像进行降噪处理，通过较小的预置帧率进行分帧，再通过画面变化幅度计算，去除部分静止画面图像，从而得到噪音小的目标行为图像集，再通过预先训练好的违规行为识别模型，对目标行为图像集进行违规行为检测，从而得到初始违规图像，进而将初始违规图像存储至目标数据库，当接收到待搜索语音数据时，将待搜索语音数据对应的待搜索文本信息转换为数据库查询语句，以从目标数据库中直接获得对应的违规图像。本方案属于智慧城市领域，通过本方案能够推动智慧城市的建设。

上面对本发明实施例中违规行为图像的检索方法进行了描述，下面对本发明实施例中违规行为图像的检索装置进行描述，请参阅图3，本发明实施例中违规行为图像的检索装置一个实施例包括：

获取模块301，用于获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集；

检测模块302，用于通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库；

识别模块303，用于获取待搜索语音数据，并对所述待搜索语音数据进行语音识别，得到待搜索文本信息；

转换模块304，用于通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句；

查找模块305，用于通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像。

进一步地，将目标违规图像存储于区块链数据库中，具体此处不做限定。

请参阅图4，本发明实施例中违规行为图像的检索装置的另一个实施例包括：

可选的，所述获取模块301包括：

拉流单元3011，用于实时对监控摄像头采集的音视频流进行拉流处理，得到行为监控音视频流；

分帧单元3012，用于按照预置帧率，对所述行为监控音视频流进行分帧处理，得到初始行为图像集；

降噪单元3013，用于对所述初始行为图像集进行画面变动检测，得到检测结果，并通过所述检测结果对所述初始行为图像集进行降噪处理，得到目标行为图像集。

可选的，所述降噪单元3013具体用于：

可选的，所述检测模块302包括：

初始化单元3021，用于初始化预先训练好的违规行为识别模型，所述训练好的违规行为识别模型包括多个级联的检测网络，每个检测网络对应不同的交并比阈值；

检测单元3022，用于通过各检测网络对所述目标行为图像集进行违规行为识别，并将交并比阈值最大的检测网络的输出设置为违规行为检测结果，所述违规行为检测结果用于指示所述目标行为图像是否为违规图像；

提取单元3023，用于根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库。

可选的，所述提取单元3023具体用于：

可选的，所述转换模块304具体用于：

可选的，所述查找模块305具体用于：

上面图3和图4从模块化功能实体的角度对本发明实施例中的违规行为图像的检索装置进行详细描述，下面从硬件处理的角度对本发明实施例中违规行为图像的检索设备进行详细描述。

图5是本发明实施例提供的一种违规行为图像的检索设备的结构示意图，该违规行为图像的检索设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对违规行为图像的检索设备500中的一系列计算机程序操作。更进一步地，处理器510可以设置为与存储介质530通信，在违规行为图像的检索设备500上执行存储介质530中的一系列计算机程序操作。

违规行为图像的检索设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的违规行为图像的检索设备结构并不构成对违规行为图像的检索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读计算机程序，计算机可读计算机程序被处理器执行时，使得处理器执行上述各实施例中的所述违规行为图像的检索方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行所述违规行为图像的检索方法的步骤。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种违规行为图像的检索方法，其特征在于，所述违规行为图像的检索方法包括：

2.根据权利要求1所述的违规行为图像的检索方法，其特征在于，所述获取实时采集的行为监控音视频流，并对所述行为监控音视频流进行分帧处理，得到目标行为图像集，包括：

3.根据权利要求2所述的违规行为图像的检索方法，其特征在于，所述对所述初始行为图像集进行画面变动检测，得到检测结果，并通过所述检测结果对所述初始行为图像集进行降噪处理，得到目标行为图像集，包括：

4.根据权利要求1所述的违规行为图像的检索方法，其特征在于，所述通过预先训练好的违规行为识别模型，对所述目标行为图像集进行违规行为检测，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库，包括：

通过各检测网络对所述目标行为图像集进行违规行为识别，并将交并比阈值最大的检测网络的输出设置为违规行为检测结果；

5.根据权利要求4所述的违规行为图像的检索方法，其特征在于，所述根据所述违规行为检测结果，从所述目标行为图像集中提取违规图像，得到初始违规图像，并按照预置数据结构将所述初始违规图像存储至目标数据库，包括：

6.根据权利要求1所述的违规行为图像的检索方法，其特征在于，所述通过训练好的自然语句转换模型，将所述待搜索文本信息转换为数据库查询语句，包括：

7.根据权利要求1-6中任一项所述的违规行为图像的检索方法，其特征在于，所述通过所述数据库查询语句，从所述目标数据库中查找所述待搜索语音数据对应的目标违规图像，包括：

8.一种违规行为图像的检索装置，其特征在于，所述违规行为图像的检索装置包括：

9.一种违规行为图像的检索设备，其特征在于，所述违规行为图像的检索设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；

所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述违规行为图像的检索设备执行如权利要求1-7中任意一项所述的违规行为图像的检索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述违规行为图像的检索方法。