CN114637886A

CN114637886A - 一种基于多协议的机器视觉系统

Info

Publication number: CN114637886A
Application number: CN202210271712.1A
Authority: CN
Inventors: 岳鹏超
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-17

Abstract

本发明公开了一种基于多协议的机器视觉系统，包括多视频接入解析模块、视频结构化检测模块和图像目标检索模块，所述多视频接入解析模块用于对多种视频源进行接入提供目标检测及特征提取服务，并实现对多种视频编码格式的解码，所述视频结构化检测模块用于利用图像搜索引擎与搜索应用进行图像的特征搜索和结构化信息构建，所述图像目标检索模块用于存储解析后的原始目标图像及特征，并作为应用服务器供用户在线检索、匹配，获取相应的目标搜索结果，所述多视频接入解析模块与视频结构化检测模块电连接，所述视频结构化检测模块与图像目标检索模块电连接，本发明，具有检索准确率更高和响应速度更快的特点。

Description

一种基于多协议的机器视觉系统

技术领域

本发明涉及视频目标检索技术领域，具体为一种基于多协议的机器视觉系统。

背景技术

基于复杂场景下的目标检索技术作为计算机视觉领域中的热门研究方向，在智慧安防和智能交通等领域中展现了广泛的应用前景，尤其是对于智慧安防，很多城市和各级部门都加强了前端视频监控设备的投入与建设，大量的视频监控设备捕捉到了海量视频信息，但是如何从海量的视频数据中快速地找到所需的价值信息是关键点，对于在视频目标检测与检索技术方面，如何更快速、便捷地在海量视频图像数据中查找价值信息，成为发展与应用的重要方向。

传统应用主要是针对在获取的视频监控画面中对出现的目标，包括人、车、非机动车等通过视频调阅手段进行查找与关联分析，实现目标的滞留点锁定和踪迹追查，但现在很大情况下仍然还是以人工看视频为主要手段，数据规律依赖于人工排查，排查效率严重受限于经验、人力等因素，从众多视频信息中找线索全凭人眼、凭经验，耗费人力和时间的同时效率还很低，因此，设计检索准确率更高和响应速度更快一种基于多协议的机器视觉系统是很有必要的。

发明内容

本发明的目的在于提供一种基于多协议的机器视觉系统，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于多协议的机器视觉系统，包括多视频接入解析模块、视频结构化检测模块和图像目标检索模块，所述多视频接入解析模块用于对多种视频源进行接入提供目标检测及特征提取服务，并实现对多种视频编码格式的解码，所述视频结构化检测模块用于利用图像搜索引擎与搜索应用进行图像的特征搜索和结构化信息构建，所述图像目标检索模块用于存储解析后的原始目标图像及特征，并作为应用服务器供用户在线检索、匹配，获取相应的目标搜索结果，所述多视频接入解析模块与视频结构化检测模块电连接，所述视频结构化检测模块与图像目标检索模块电连接。

根据上述技术方案，所述多视频接入解析模块包括视频多协议接入模块、视频流解码模块和智能解析创建模块，所述视频多协议接入模块用于接入视频目标解析任务以及接收视频、图像、传感器类数据进行解析，所述视频流解码模块用于针对多种视频源的接入与视频解码，所述智能解析创建模块用于通过目标检测和视频目标结构化创建视图智能解析步骤，所述视频多协议接入模块与视频流解码模块电连接，所述视频流解码模块与智能解析创建模块电连接。

根据上述技术方案，所述视频结构化检测模块包括多线程图像处理模块、多层特征融合模块、特征索引结构化模块和视频数据存储模块，所述多线程图像处理模块用于实现基于视频的基本监控目标检测分析，所述多层特征融合模块用于通过将视频目标特征的低层局部特征和高层语义特征融合，描述图像目标细节信息和抽象全局信息，所述特征索引结构化模块用于选择合适的索引结构来构建大规模特征索引数据库，所述视频数据存储模块用于持久化存储目标数据信息，所述多线程图像处理模块与多层特征融合模块电连接，所述特征索引结构化模块与视频数据存储模块电连接；

所述多层特征融合模块包括底部特征模块和高层语义模块，所述底部特征模块用于描述目标的边缘、轮廓和纹理等细节信息，所述高层语义模块用于使用来自卷积神经网络输出的目标特征全局信息，所述底部特征模块与高层语义模块电连接。

根据上述技术方案，所述图像目标检索模块包括在线检索模块、对比匹配模块和搜索结果输出模块，所述在线检索模块用于采用独立搜索服务器提供在线查询服务，所述对比匹配模块用于将目标图像放入数据存储服务器中进行相似度匹配，所述搜索结果输出模块用于将相应的目标搜索结果进行显示端输出，所述在线检索模块与对比匹配模块电连接，所述对比匹配模块与搜索结果输出模块电连接。

根据上述技术方案，所述机器视觉方法包括以下步骤：

步骤S1：接收多台视图解析引擎上智能任务调度派发的多视频分析任务，对来自本地的视频文件、RTSP流和视频网关协议流等各种视频源格式进行接入；

步骤S2：通过CPU软解码和GPU显卡硬解码两种方式，对接入后的原生视频流进行多种视频编码格式的解码操作，获得独立的视频帧，并基于MMT通信协议将视频帧推送给上位程序；

步骤S3：图像解析服务器对接收到的视频帧提取目标图像，建立图像数据库，利用特征建模实现目标特征表达，并构建大规模的结构化索引架构，使用精排序方法对检索结果做得分优化并返回；

步骤S4：将解析后的目标图像和目标特征，持久化的存储在数据存储服务器中，用户在目标图像搜索服务器上进行在线检索、特征匹配和获取相应的目标搜索结果。

根据上述技术方案，所述步骤S1进一步包括以下步骤：

步骤S11：硬盘录像服务器存储来自多网络摄像头摄取采集的视频图像，管理服务器通过调度命令将多视频图像通过显示终端进行调用；

步骤S12：图像解析引擎接收调用的本地视频文件、RTSP实时流、网关实时流和网关历史录像流等调度派发的智能分析任务，接收视频、图像、传感器类数据进行智能解析，并创建智能分析流水，输出解析后的目标矢量特征结果；

步骤S13：基于共享内存消息总线，实现对接入视频流打开与关闭的服务命令解析，接入对视频解码的请求，并对解复用后的原生视频流进行解码操作。

根据上述技术方案，所述步骤S2进一步包括以下步骤：

步骤S21：调用CPU寄存器的通用计算与处理算法对原生视频流进行软解码，进一步利用显卡的视频加速功能调用解码器对高清视频进行硬解码；

步骤S22：通过对原生视频流的解码获得独立的视频帧，并基于多媒体终端的通信协议，将视频帧推送给多线程并发图像解析处理端。

根据上述技术方案，所述步骤S3进一步包括以下步骤：

步骤S31：图像解析处理端进行基于视频会话控制的海量监控视频目标检测；

步骤S32：通过对监控设备周期性采集并提取的目标图像建立图像数据库，利用特征建模实现目标的高效紧凑特征表达，视频图像目标检索用于构建大规模的结构化索引架构并实现海量底库数据下快速、精准的相似结果返回；

步骤S33：当系统中存在检索请求时，采用字典树结构进行二值特征的搜索比对，并通过基于汉明空间的快速精确r近邻搜索方法将搜索空间降低到一个更低维度的子空间内，通过这种特征性能够有效的对多尺度目标进行搜索；

步骤S34：通过对特征底库进行多次相同操作构建索引结构，每次操作对数据集中的每个长度为设定比特的特征采样相同的多个比特位组成一个子串，对采样后的子串建立倒排索引结构，生成的多个索引结构对应多次采样；

步骤S35：在线搜索时对查询特征向量按离线采样所采集的比特数和顺序进行多次采样得到多个子串，包含特征向量查询和候选项集合测试两个阶段。

根据上述技术方案，所述步骤S32进一步包括以下步骤：

步骤S331：通过目标检测算法生成目标候选框对候选物体进行标记，将搜索范围从图像层面扩展到目标候选框层面；

步骤S332：将目标搜索问题转化成查找特征在候选特征集合中相似度匹配得分最高的目标特征，使用哈希算法将数据集中的全局特征压缩成一个比特的二值特征，对于查询图像采用同样的压缩方式得到相同长度的二值特征；

步骤S333：通过搜索返回的结果，得到一个相似度得分由高到低的目标候选框列表，选择每张图像中若干个候选框中排名最靠前的候选框代表查询目标在图像中的位置，还原图像层面上的检索结果。

根据上述技术方案，所述步骤S4进一步包括以下步骤：

步骤S41：应用集成视觉目标检测技术，对目标进行特征提取、结构化信息检索以及目标轨迹刻画，实现大规模智能解析与目标搜索应用；

步骤S42：提供对待检索目标底库的以图搜图能力，实现通过上传车辆目标、行人目标或人骑车目标的一张图片，快速识别对应目标信息并查找对其在数据库中的历史信息；

步骤S43：检索获取的线索信息，结合电子地图、路网信息，刻画匹配目标人物或目标车辆的行动轨迹并输出。

与现有技术相比，本发明所达到的有益效果是：本发明，通过设置有多视频接入解析模块、视频结构化检测模块和图像目标检索模块，将视频目标检测与检索应用系统架构分为三层，分别为存储层、服务层、应用层，实现从多路视频分析任务下发到视频数据接入解码，使用图像解析服务器提供人、车、非机动车类目标检测及特征提取服务，通过数据存储服务器存储解析后的原始目标图像及特征，持久化存储目标数据信息，最后利用目标图像搜索服务器作为应用服务器供用户在线检索、匹配，获取相应的目标搜索结果，整体保证了视频目标图像及特征数据的持续性存储，又能够避免影响在线检索性能。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的系统模块组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：一种基于多协议的机器视觉系统，包括多视频接入解析模块、视频结构化检测模块和图像目标检索模块，多视频接入解析模块用于对多种视频源进行接入提供目标检测及特征提取服务，并实现对多种视频编码格式的解码，视频结构化检测模块用于利用图像搜索引擎与搜索应用进行图像的特征搜索和结构化信息构建，图像目标检索模块用于存储解析后的原始目标图像及特征，并作为应用服务器供用户在线检索、匹配，获取相应的目标搜索结果，多视频接入解析模块与视频结构化检测模块电连接，视频结构化检测模块与图像目标检索模块电连接。

多视频接入解析模块包括视频多协议接入模块、视频流解码模块和智能解析创建模块，视频多协议接入模块用于接入视频目标解析任务以及接收视频、图像、传感器类数据进行解析，视频流解码模块用于针对多种视频源的接入与视频解码，智能解析创建模块用于通过目标检测和视频目标结构化创建视图智能解析步骤，视频多协议接入模块与视频流解码模块电连接，视频流解码模块与智能解析创建模块电连接。

视频结构化检测模块包括多线程图像处理模块、多层特征融合模块、特征索引结构化模块和视频数据存储模块，多线程图像处理模块用于实现基于视频的基本监控目标检测分析，多层特征融合模块用于通过将视频目标特征的低层局部特征和高层语义特征融合，描述图像目标细节信息和抽象全局信息，特征索引结构化模块用于选择合适的索引结构来构建大规模特征索引数据库，视频数据存储模块用于持久化存储目标数据信息，多线程图像处理模块与多层特征融合模块电连接，特征索引结构化模块与视频数据存储模块电连接；

多层特征融合模块包括底部特征模块和高层语义模块，底部特征模块用于描述目标的边缘、轮廓和纹理等细节信息，高层语义模块用于使用来自卷积神经网络输出的目标特征全局信息，底部特征模块与高层语义模块电连接。

图像目标检索模块包括在线检索模块、对比匹配模块和搜索结果输出模块，在线检索模块用于采用独立搜索服务器提供在线查询服务，对比匹配模块用于将目标图像放入数据存储服务器中进行相似度匹配，搜索结果输出模块用于将相应的目标搜索结果进行显示端输出，在线检索模块与对比匹配模块电连接，对比匹配模块与搜索结果输出模块电连接。

机器视觉方法包括以下步骤：

步骤S1：接收多台视图解析引擎上智能任务调度派发的多视频分析任务，对来自本地的视频文件、RTSP流和视频网关协议流等各种视频源格式进行接入，每台视图解析引擎服务器上面均部署了基于底层服务与业务服务的系统，上层由一个调度系统实现多物理机节点之间的状态监控、负载均衡等全局资源统一管理调配的功能；

步骤S3：图像解析服务器对接收到的视频帧提取目标图像，建立图像数据库，利用特征建模实现目标特征表达，并构建大规模的结构化索引架构，使用精排序方法对检索结果做得分优化并返回，选择合适的索引结构构建大规模特征索引数据库，存在检索请求时，采用相同的特征建模方式对查询目标进行特征提取，采用索引架构对目标进行快速的相似度比对并返回前n个结果，为了进一步揭示目标图像的潜在相似性关系，使用精排序方法对前n个检索结果做进一步的得分优化并返回给用户；

步骤S1进一步包括以下步骤：

步骤S12：图像解析引擎接收调用的本地视频文件、用于实时流、网关实时流和网关历史录像流等调度派发的智能分析任务，接收视频、图像、传感器类数据进行智能解析，并创建智能分析流水，输出解析后的目标矢量特征结果， resp实时流是一种实时流传输协议，是TCP/IP协议体系中的一个应用层协议，该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据；

步骤S2进一步包括以下步骤：

步骤S21：调用CPU寄存器的通用计算与处理算法对原生视频流进行软解码，进一步利用显卡的视频加速功能调用解码器对高清视频进行硬解码，当显卡本身不支持或者部分不支持硬件解码的前提下，解压高清编码的任务交给CPU 进行软解码，当支持硬件解码时使用硬解码将CPU从繁重的视频解码运算中释放出来，使设备具备流畅播放高清视频的能力，原来全部交由CPU来处理的视频数据的一部分交由GPU来做，而GPU的并行运算能力要远远高于CPU，这样可以大大地降低对CPU的负载，CPU的占用率降低了之后就可以同时运行一些其他的程序；

步骤S3进一步包括以下步骤：

步骤S31：图像解析处理端进行基于视频会话控制的海量监控视频目标检测，在大规模检索流程中实现目标的精准检测跟踪，内置高效紧凑的特征表达以及快速的大规模目标检索；

步骤S32：通过对监控设备周期性采集并提取的目标图像建立图像数据库，利用特征建模实现目标的高效紧凑特征表达，视频图像目标检索用于构建大规模的结构化索引架构并实现海量底库数据下快速、精准的相似结果返回，由于海量的图像底库会严重影响后续实时检索的速度，因此需要选择合适的索引结构来构建大规模特征索引数据库，保证高质量的检索性能，在目标检测和检索应用系统中起到重要作用；

步骤S33：当系统中存在检索请求时，采用字典树结构进行二值特征的搜索比对，并通过基于汉明空间的快速精确r近邻搜索方法将搜索空间降低到一个更低维度的子空间内，通过这种特征性能够有效的对多尺度目标进行搜索，视频图像通过特征提取后得到的二值特征在汉明空间的距离较近，此时对两个二值特征在相同的位置进行采样得到子串，则两个子串在汉明空间下的距离也会大概率很近，在大规模目标检索中，有效的特征压缩和特征降维会更好的减小特征对比过程中的计算开销和响应时间，保证搜索精度的同时最大程度提升搜索速度；

步骤S34：通过对特征底库进行多次相同操作构建索引结构，每次操作对数据集中的每个长度为设定比特的特征采样相同的多个比特位组成一个子串，对采样后的子串建立倒排索引结构，生成的多个索引结构对应多次采样，采用高效的索引架构对目标进行快速的相似度比对并返回前n个结果，使用精排序方法对前n个检索结果做进一步的得分优化并返回给用户；

步骤S35：在线搜索时对查询特征向量按离线采样所采集的比特数和顺序进行多次采样得到多个子串，包含特征向量查询和候选项集合测试两个阶段，特征向量查询对每一个查询特征向量子串q，在对应的倒排索引结构T中查找近邻，将满足子串q近邻条件的结果组成一个候选项集合，所有候选项集合的规模大小往往远小于特征数据集本身的大小，在候选项集合测试阶段先线性扫描一遍满足条件的特征子串，删除与查询特征子串q的距离超过r的无效特征，最终得到目标搜索的结果集。

步骤S32进一步包括以下步骤：

步骤S331：通过目标检测算法生成目标候选框对候选物体进行标记，将搜索范围从图像层面扩展到目标候选框层面，即对图像数据集I使用算法生成M 个目标候选框作为候选物体，数据集I中存在N张图像，一共产生N*M个目标候选框，数据集的大小变成原来的M倍；

步骤S332：将目标搜索问题转化成查找特征在候选特征集合中相似度匹配得分最高的目标特征，使用哈希算法将数据集中的全局特征压缩成一个比特的二值特征，对于查询图像采用同样的压缩方式得到相同长度的二值特征，目标特征的表达主要分为两种类型，一种是低层局部特征，主要用于描述目标细节信息，例如边缘、轮廓和纹理等，另一种则是高层语义特征，用来描述目标的抽象全局信息，低层特征来自于传统的手工设计特征，而高层特征来自于卷积神经网络输出的特征；

步骤S333：通过搜索返回的结果，得到一个相似度得分由高到低的目标候选框列表，选择每张图像中若干个候选框中排名最靠前的候选框代表查询目标在图像中的位置，还原图像层面上的检索结果，图像检索主要分为训练模块和搜索模块，训练模块主要负责数据的预处理，数据的特征提取和检索数据库的构建，搜索模块主要包括数据的特征提取、特征相似度比对以及相似度度量结果的分析。

步骤S4进一步包括以下步骤：

步骤S41：应用集成视觉目标检测技术，对目标进行特征提取、结构化信息检索以及目标轨迹刻画，实现大规模智能解析与目标搜索应用，用户在目标图像搜索服务器上进行在线检索时，图像搜索应用集成视觉目标检测技术，对目标进行特征提取、结构化信息检索以及目标轨迹刻画等相关视频检测，实现大规模智能解析与目标搜索应用；

步骤S42：提供对待检索目标底库的以图搜图能力，实现通过上传车辆目标、行人目标或人骑车目标的一张图片，快速识别对应目标信息并查找对其在数据库中的历史信息，目标图像检索提供对待检索目标底库的以图搜图能力，实现通过上传车辆目标、行人目标或人骑车目标的一张图片，快速识别对应目标信息并查找对其在数据库中的历史信息的功能，同时系统支持针对车辆局部特征搜索，检索车辆行车信息，结构化信息检索功能包括车辆检索，行人检索，人骑车检索三类检索类型，在任意有效时间段内根据业务需求，在搜索时支持的任意范围和区域内针对同类型进行结构化组合搜索；

步骤S43：检索获取的线索信息，结合电子地图、路网信息，刻画匹配目标人物或目标车辆的行动轨迹并输出，根据视频图像检索获取的线索信息，结合电子地图、路网信息，根据线索的空间位置信息和时间信息，在地图上刻画匹配目标人物或目标车辆的行动轨迹并将结果输出。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多协议的机器视觉系统，包括多视频接入解析模块、视频结构化检测模块和图像目标检索模块，其特征在于：所述多视频接入解析模块用于对多种视频源进行接入提供目标检测及特征提取服务，并实现对多种视频编码格式的解码，所述视频结构化检测模块用于利用图像搜索引擎与搜索应用进行图像的特征搜索和结构化信息构建，所述图像目标检索模块用于存储解析后的原始目标图像及特征，并作为应用服务器供用户在线检索、匹配，获取相应的目标搜索结果，所述多视频接入解析模块与视频结构化检测模块电连接，所述视频结构化检测模块与图像目标检索模块电连接。

2.根据权利要求1所述的一种基于多协议的机器视觉系统，其特征在于：所述多视频接入解析模块包括视频多协议接入模块、视频流解码模块和智能解析创建模块，所述视频多协议接入模块用于接入视频目标解析任务以及接收视频、图像、传感器类数据进行解析，所述视频流解码模块用于针对多种视频源的接入与视频解码，所述智能解析创建模块用于通过目标检测和视频目标结构化创建视图智能解析步骤，所述视频多协议接入模块与视频流解码模块电连接，所述视频流解码模块与智能解析创建模块电连接。

3.根据权利要求2所述的一种基于多协议的机器视觉系统，其特征在于：所述视频结构化检测模块包括多线程图像处理模块、多层特征融合模块、特征索引结构化模块和视频数据存储模块，所述多线程图像处理模块用于实现基于视频的基本监控目标检测分析，所述多层特征融合模块用于通过将视频目标特征的低层局部特征和高层语义特征融合，描述图像目标细节信息和抽象全局信息，所述特征索引结构化模块用于选择合适的索引结构来构建大规模特征索引数据库，所述视频数据存储模块用于持久化存储目标数据信息，所述多线程图像处理模块与多层特征融合模块电连接，所述特征索引结构化模块与视频数据存储模块电连接；

4.根据权利要求3所述的一种基于多协议的机器视觉系统，其特征在于：所述图像目标检索模块包括在线检索模块、对比匹配模块和搜索结果输出模块，所述在线检索模块用于采用独立搜索服务器提供在线查询服务，所述对比匹配模块用于将目标图像放入数据存储服务器中进行相似度匹配，所述搜索结果输出模块用于将相应的目标搜索结果进行显示端输出，所述在线检索模块与对比匹配模块电连接，所述对比匹配模块与搜索结果输出模块电连接。

5.一种基于权利要求1-4中任一项所述的一种基于多协议的机器视觉系统的机器视觉方法，所述方法包括以下步骤：

6.根据权利要求5所述的一种基于多协议的机器视觉系统，其特征在于：所述步骤S1进一步包括以下步骤：

7.根据权利要求6所述的一种基于多协议的机器视觉系统，其特征在于：所述步骤S2进一步包括以下步骤：

8.根据权利要求7所述的一种基于多协议的机器视觉系统，其特征在于：所述步骤S3进一步包括以下步骤：

9.根据权利要求8所述的一种基于多协议的机器视觉系统，其特征在于：所述步骤S32进一步包括以下步骤：

10.根据权利要求9所述的一种基于多协议的机器视觉系统，其特征在于：所述步骤S4进一步包括以下步骤：