CN112257666B

CN112257666B - 目标图像内容的聚合方法、装置、设备及可读存储介质

Info

Publication number: CN112257666B
Application number: CN202011262473.0A
Authority: CN
Inventors: 刘建林; 徐尚; 陈颖; 刘永
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-10-04
Anticipated expiration: 2040-11-12
Also published as: CN112257666A

Abstract

本申请公开了一种目标图像内容的聚合方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取图像集合中的第一图像帧和第二图像帧；对第一图像帧和第二图像帧进行图像内容识别，得到第一区域和第二区域；针对第一区域对应的第一区域特征点，在第二图像帧中进行极线搜索，得到对应的极线；根据第二区域特征点和极线，对目标图像内容进行聚合。针对第一区域对应的第一区域特征点，通过极线搜索的方式在第二图像帧中确定对应的极线，并结合第二区域特征点和极线之间的匹配关系，对第一区域特征点和第二区域特征点的匹配情况进行过滤，提高了目标图像内容的聚合效率，以及提高了目标图像内容的聚合准确率。

Description

目标图像内容的聚合方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种目标图像内容的聚合方法、装置、设备及可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)的快速发展，越来越多的任务能够通过计算机设备实现自动完成。示意性的，在地图应用程序的开发过程中，需要对道路上设置的电子眼信息进行采集，如：位置信息、功能信息等，其中，电子眼信息的采集过程通常是由信息采集车辆通过摄像头采集图像得到的。

在信息采集车辆采集到的图像中，需要对其中存在的关联内容进行聚合，如：电子眼A在图像1和图像2中都出现过，则需要对图像1和图像2中的电子眼A进行聚合。而相关技术中，通常是基于图像块相似度的方式对两张图像中关联的内容进行聚合，即，将两张图像中识别得到的与电子眼对应的图像区域进行对应匹配。

然而，上述方式进行聚合时，匹配过程受到不同图像帧之间光照变化的影响，以及受到拍摄角度变化的影响，导致关联内容的聚合准确率较低。

发明内容

本申请实施例提供了一种目标图像内容的聚合方法、装置、设备及可读存储介质，能够提高目标图像内容的聚合效率和准确率。所述技术方案如下：

一方面，提供了一种目标图像内容的聚合方法，所述方法包括：

获取图像集合中的第一图像帧和第二图像帧，其中，所述图像集合中包括在场景图像采集过程中生成的图像帧；

对所述第一图像帧和所述第二图像帧进行图像内容识别，得到所述第一图像帧中与所述目标图像内容对应的第一区域，和所述第二图像帧中与所述目标图像内容对应的第二区域；

针对所述第一区域对应的第一区域特征点，在所述第二图像帧中进行极线搜索，得到对应的极线；

根据所述第二区域对应的第二区域特征点和所述极线，对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

另一方面，提供了一种目标图像内容的聚合装置，所述装置包括：

获取模块，用于获取图像集合中的第一图像帧和第二图像帧，其中，所述图像集合中包括在场景图像采集过程中生成的图像帧；

识别模块，用于对所述第一图像帧和所述第二图像帧进行图像内容识别，得到所述第一图像帧中与所述目标图像内容对应的第一区域，和所述第二图像帧中与所述目标图像内容对应的第二区域；

确定模块，用于针对所述第一区域对应的第一区域特征点，在所述第二图像帧中进行极线搜索，得到对应的极线；

聚合模块，用于根据所述第二区域对应的第二区域特征点和所述极线，对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述目标图像内容的聚合方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的目标图像内容的聚合方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的目标图像内容的聚合方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

针对第一区域对应的第一区域特征点，通过极线搜索的方式在第二图像帧中确定对应的极线，并结合第二区域特征点和极线之间的匹配关系，对第一区域特征点和第二区域特征点的匹配情况进行过滤，最终得到符合要求的位于第一图像帧和第二图像帧内的目标图像内容进行聚合，提高了目标图像内容的聚合效率，以及提高了目标图像内容的聚合准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的目标图像内容的聚合方法的流程图；

图3是基于图2示出的实施例提供的图像识别结果的示意图；

图4是基于图2示出的实施例提供的极线的确定原理示意图；

图5是本申请另一个示例性实施例提供的目标图像内容的聚合方法的流程图；

图6是本申请另一个示例性实施例提供的目标图像内容的聚合方法的流程图；

图7是基于图6示出的实施例提供的图像帧关联的示意图；

图8是本申请一个示例性实施例提供的目标图像内容的聚合过程整体流程图；

图9是本申请一个示例性实施例提供的目标图像内容的聚合装置的结构框图；

图10是本申请另一个示例性实施例提供的目标图像内容的聚合装置的结构框图；

图11是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

目标聚合：是指通过算法自动将多帧图像中的，且属于同一个物理点的检测结果关联起来，作为一个检测结果，其中，物理点是指在现实场景中，属于同一空间位置的同一实体。本申请实施例中，以该实体实现为电子眼为例进行说明，也即在信息采集车辆对道具图像进行采集后，针对采集到的图像进行目标识别，得到电子眼在各个图像中的分布情况，其中，在识别后，针对相邻两帧图像或者任意n帧图像，进行电子眼聚合，n为正整数。也即，在至少两帧图像中，针对识别得到的电子眼中，属于同一空间位置的电子眼进行关联聚合处理。

示意性的，在道具信息采集车辆采集的图像中包括图像1和图像2，其中，图像1中识别到设置在道路上的电子眼A，图像2中识别得到设置在道路上的电子眼B，通过关联分析，确定电子眼A和电子眼B为在同一空间位置上的同一实体，故，将电子眼A和电子眼B关联聚合为一个电子眼。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120和信息采集车辆130，其中，终端110和服务器120之间通过通信网络140连接；

终端110和信息采集车辆130之间通过通信网络连接；或，终端110和信息采集车辆130之间通过物理存储设备进行数据传递。信息采集车辆130用于在道路上驾驶从而采集在驾驶过程中的道路图像，也即，信息采集车辆130中设置有图像采集设备，如：摄像头。终端110和信息采集车辆130之间的数据传递方式包括如下方式中的至少一种：

第一，终端110和信息采集车辆130之间建立有通信网络连接，当信息采集车辆130对道路图像进行采集后，实时通过通信网络连接将采集得到的图像发送至终端110；在一些实施例中，信息采集车辆130和服务器120之间建立有通信网络连接，信息采集车辆130也可以通过通信网络连接将图像发送至服务器120；

第二，信息采集车辆130将采集得到的图像存储在存储设备中，如：移动硬盘，当信息采集车辆130单轮次图像采集完毕后，将移动硬盘中的图像复制或者直接转移至终端110中。

在一些实施例中，由终端110将信息采集车辆130采集得到的图像数据上传至服务器120中进行分析。

终端110和服务器120之间通过通信网络140连接，终端110通过通信网络140将图像数据发送至服务器120。

在一些实施例中，服务器120中包括图像分析模块，通过图像分析模块对终端110上传的图像数据进行关联分析，即，确定不同图像帧中电子眼的聚合情况。其中，服务器120在分析得到电子眼的聚合情况后，向终端110反馈分析结果。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

结合上述名词简介，对本申请实施例中涉及的应用场景进行举例说明：

第一，本申请实施例应用于地图数据的生成过程中，主要针对电子眼数据的生成，即通过对道路图像的采集自动识别图像中的电子眼，并确定电子眼在实际场景中所处的空间位置，从而在地图中对电子眼进行标注；

其中，在电子眼的识别过程中，由于多个图像中可能都对同一个电子眼设备进行了采集，如：连续三帧图像中都采集到了电子眼A，故，需要对多帧图像中相同的电子眼设备进行聚合。

第二，本申请实施例应用于人脸识别签到的过程中，即通过在会场入口处设置摄像头采集人流图像，从而对人流图像进行人脸识别，得到人脸身份数据，完成参与会议的人员的签到工作，其中，由于存在人物在入口处停留，或者步行速度较慢而导致多帧图像中包含同一个人物的人脸的情况，故，需要对多帧图像中的人脸进行聚合。

值得注意的是，上述应用场景中，以地图数据的生成和人脸识别签到场景为例进行说明，本申请实施例还可以应用于其他需要对图像内容进行聚合的场景中，本申请实施例对此不加以限定。

结合上述名词简介和应用场景，对本申请提供的目标图像内容的聚合方法进行说明，以该方法应用于服务器中为例，如图2所示，该方法包括：

步骤201，获取图像集合中的第一图像帧和第二图像帧。

图像集合中包括在场景图像采集过程中生成的图像帧，其中，第一图像帧和第二图像帧即为在场景图像采集该过程中生成的图像帧。

在获取第一图像帧和第二图像帧时，包括如下方式中的至少一种：

第一，从采集设备采集的视频流中依次获取相邻的图像帧作为第一图像帧和第二图像帧；

示意性的，首先将视频流中的第一帧视频帧作为第一视频帧，将第二帧视频帧作为第二视频帧，识别完毕后，将第二帧视频帧作为第一视频帧，将第三帧视频在座位第二视频帧进行识别，以此类推；或，首先将视频流中的第一帧视频帧作为第一视频帧，将第二帧视频帧作为第二视频帧，识别完毕后，将第三帧视频帧作为第一视频帧，将第四帧视频在座位第二视频帧进行识别，以此类推。

第二，从采集设备采集的视频流中，针对每一帧图像帧，进行与预设帧数差别范围内的视频帧之间的匹配关联；

示意性的，预设帧数差别范围为2帧，则首先将视频流中的第一帧视频帧作为第一视频帧，将第二帧视频帧作为第二视频帧，识别完毕后，将第一帧视频帧作为第一视频帧，将第三帧视频在座位第二视频帧进行识别，以此类推。

第三，从采集设备采集的视频流中随机抽取两帧视频帧进行识别，直至采集的匹配数达到要求匹配数。

在一些实施例中，图像集合中包括的是采集设备采集到的视频流中的所有图像帧；或，图像集合中包括采集设备采集的视频流中的指定图像帧，如：视频流中的关键帧。

在一些实施例中，采集设备采集得到的图像帧以独立图像的形式存在，而并不构成视频流，如：采集设备以1Hz的频率采集图像，也即每一秒钟采集一帧图像，并将采集得到的图像直接以图像的形式存储。

步骤202，对第一图像帧和第二图像帧进行图像内容识别，得到第一图像帧中与目标图像内容对应的第一区域，和第二图像帧中与目标图像内容对应的第二区域。

图像内容识别用于对图像帧内的目标图像内容进行识别。在一些实施例中，将第一图像帧和第二图像帧输入至内容识别模型，得到第一图像帧中与目标图像内容对应的第一区域，以及得到第二图像帧中与目标图像内容对应的第二区域，其中，内容识别模型为预先训练得到的神经网络模型。

在对图像帧中的目标图像内容进行识别时，首先提取图像帧的图像特征，从而通过图像特征对图像帧中是否包含目标图像内容，以及当图像帧中包含目标图像内容时，该目标图像内容在图像帧中的区域进行识别。

即，在一些实施例中，在对第一图像帧和第二图像帧进行图像内容识别时，在第一图像帧中包括目标图像内容时，识别得到目标图像内容在第一图像帧中所处的第一区域；同理，在第二图像帧中包括目标图像内容时，识别得到目标图像内容在第二图像帧中所处的第二区域。

示意性的，如图3所示，其示出了本申请一个示例性实施例提供的图像识别结果的示意图，以该识别过程应用于对电子眼的识别过程中为为例进行说明，如图3所示，在获取到道路图像310后，对该道路图像310进行图像内容识别，从而得到电子眼在道路图像310中对应的区域320，以矩形框的形式对该区域320进行标识。

在一些实施例中，当多个电子眼安装于同一根杆上时，该多个电子眼除了区域320的框选之外，还存在区域330的整体框选，如图3所示。

其中，针对第一图像帧和第二图像帧的图像内容识别是分别进行的，也即，可以先对第一图像帧进行图像内容识别，也可以先对第二图像帧进行图像内容识别，还可以第一图像帧和第二图像帧的图像内容识别同步进行。

步骤203，针对第一区域对应的第一区域特征点，在第二区域中进行极线搜索，得到对应的极线。

在一些实施例中，该第一区域对应的第一区域特征点为第一区域内的指定特征点，如：第一区域特征点为第一区域内的中心特征点，则对应的第二区域特征点为第二区域的中心特征点；或，第一区域特征点为第一区域的左上角顶点，则第二区域特征点为第二区域的左上角顶点。

在一些实施例中，当第一图像帧和第二图像帧为对应同一场景采集到的图像帧，则第一图像帧和第二图像帧之间存在极线约束，该极线约束需要根据第一图像帧和第二图像帧之间的图像关系确定得到。

在一些实施例中，首先确定第一图像帧和第二图像帧对应的基础矩阵，从而基于基础矩阵得到第一区域特征点在对第二图像帧中对应的极线。

示意性的，请参考图4，其示出了本申请一个示例性实施例提供的极线的确定原理示意图，如图4所示，在物理空间的某一位置处存在一个三维点X，分别在第一图像帧410和第二图像帧420中被观测采集到，在第一图像帧410中的投影点为X_L，在第二图像帧420中的投影点为X_R，第一图像帧410的采集点光心为O_L，第二图像帧420的采集点光心为O_R。根据多视图几何的对极几何约束，从O_L到三维点X的射线在第二图像帧上的投影为一条直线，并且X_R必然落在该直线上，该直线称为极线。为了估计第一图像帧410中每个点在第二图像帧420中对应的极线，需要通过关键点匹配估计出基础矩阵(Fundamental Matrix)。

基础矩阵用于表示第一图像帧在第二图像帧中的极线约束情况，从而根据基础矩阵和第一区域特征点，能够直接得到该第一区域特征点在第二图像帧内对应的极线。

其中，基础矩阵的构建过程中，首先针对第一图像帧中的第一特征点，在第一图像帧中确定对应匹配的第二特征点。在确定对应匹配的第二特征点时，确定与该第一特征点匹配度最高的一个第二特征点，或确定与该第一特征点匹配度最高的多个第二特征点，如：两个或更多第二特征点。根据第一特征点和第二特征点的匹配情况，确定第一图像帧和第二图像帧对应的基础矩阵，该基础矩阵即用于表示第一图像帧在第二图像帧中的极线约束情况。

针对第一区域对应的第一区域特征点，基于基础矩阵在第二图像帧中进行极线搜索，得到对应的极线。

在一些实施例中，由于基础矩阵用于表示第一图像帧和第二图像帧之间的极线约束关系，从而，基于第一区域特征点直接映射至第二图像帧中，则可直接根据基础矩阵得到与该第一区域特征点对应的极线。

步骤204，根据第二区域对应的第二区域特征点和极线，对第一图像帧和第二图像帧内的目标图像内容进行聚合。

在一些实施例中，将第二区域特征点与极线进行分别匹配，得到至少一组匹配关系，基于匹配条件，从至少一组匹配关系中滤除不符合匹配条件的匹配关系，得到目标匹配关系，根据目标匹配关系对第一图像帧和第二图像帧内的目标图像内容进行聚合。

在通过匹配条件对匹配关系进行筛选过滤后，剩下符合匹配条件的目标匹配关系，即为第一图像帧和第二图像帧内目标图像内容符合聚合条件的匹配关系。

综上所述，本申请实施例提供的目标图像内容的聚合方法，针对第一区域对应的第一区域特征点，通过极线搜索的方式在第二图像帧中确定对应的极线，并结合第二区域特征点和极线之间的匹配关系，对第一区域特征点和第二区域特征点的匹配情况进行过滤，最终得到符合要求的位于第一图像帧和第二图像帧内的目标图像内容进行聚合，提高了目标图像内容的聚合效率，以及提高了目标图像内容的聚合准确率。

在一个可选的实施例中，约束方式包括运行模式约束、距离约束等方式，图5是本申请另一个示例性实施例提供的目标图像内容的聚合方法的流程图，以该方法应用于服务器中为例进行说明，如图5所示，该方法包括：

步骤501，获取图像集合中的第一图像帧和第二图像帧。

步骤502，对第一图像帧和第二图像帧进行图像内容识别，得到第一图像帧中与目标图像内容对应的第一区域，和第二图像帧中与目标图像内容对应的第二区域。

步骤503，针对第一图像帧中的第一特征点，在第二图像帧中确定对应匹配的第二特征点。

步骤504，根据第一特征点和第二特征点的匹配情况，确定第一图像帧和第二图像帧对应的基础矩阵。

基础矩阵用于表示第一图像帧在第二图像帧中的极线约束情况。

在确定第一特征点和第二特征点的匹配情况时，首先分别对第一图像帧和第二图像帧计算尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)特征点以及描述子，描述子用于描述特征点的多维空间特征，然后使用K最近邻(K-NearestNeighbor，KNN)分类算法在描述子控件中搜索每个第一特征点在第二图像帧中匹配度最高的两个近邻匹配。

在一些实施例中，首先需要在第一特征点和第二特征点的匹配关系中，过滤错误的匹配，以道路信息采集车辆对电子眼的采集过程为例，过滤条件中包括如下条件中的至少一种：

第一，匹配点在第一图像帧和第二图像帧中的位置位于边缘，且在两帧图像之间的位移小于预设像素值，如：小于2个像素，则对该匹配点进行过滤；

通常，处于图像帧边缘的像素点，且位移较小时，则表示该像素点对应车内的场景，不符合极线约束。

第二，第一特征点在第二图像帧中匹配度最高的两个近邻匹配中，最高匹配的误差小于第二高匹配的误差的70％，也即，当最高匹配的误差大于或者等于第二高匹配的误差的70％时，则进行过滤；

第三，确定双向匹配的一致性，当双向匹配不一致时，则进行过滤。示意性的，第一图像帧的特征点A在第二图像帧中的最佳匹配为特征点B，则特征点B在第一图像帧中的最佳匹配也必须为特征点A。

在过滤掉不符合要求的特征点匹配时，利用随机抽样一致算法(Random SampleConsensus，RANSAC)以及七点法即可估计出基础矩阵。

步骤505，针对第一区域对应的第一区域特征点，基于基础矩阵在第二图像帧中进行极线搜索，得到对应的极线。

步骤506，将第二区域特征点与极线进行分别匹配，得到至少一组匹配关系。

极线即为与第一区域特征点对应的极线，其中，根据第一图像帧中第一区域的数量，第二图像帧中对应有相同数量的极线。在一些实施例中，得到基础矩阵后，对于第一图像帧中的每个第一区域框的中心，都可以计算得到一条在第二图像帧中的极线，假设第一图像帧中有N个第一区域，第二图像帧中包括M个第二区域，则分别计算第二图像帧中每个第二区域的第二区域特征点到每条极线的点线距离，从而得到一个N×M的距离矩阵，N、M皆为正整数。该距离矩阵代表了第一图像帧中所有第一区域到第二图像帧中的所有第二区域的匹配误差。

将第二区域特征点分别与每一条极线进行匹配，得到匹配关系。示意性的，第二图像帧中存在3个第二区域，也即存在3个第二区域特征点第一区域特征点在第二图像帧中包括2条极线，则存在对应6组匹配关系。

步骤507，基于匹配条件，从至少一组匹配关系中滤除不符合匹配条件的匹配关系，得到目标匹配关系。

仅根据极线匹配距离，无法处理同时落在极线附近两个以上的点。因此需要利用更多的先验知识来抑制错误的框匹配。

在根据匹配条件滤除匹配关系时，包括如下方式中的至少一种：

第一，根据第一特征点和第二特征点的匹配情况，确定对图像集合进行采集的设备的运动模式数据，从至少一组匹配关系中滤除不符合运动模式数据的匹配关系。

示意性的，根据匹配特征点的平均位移，估算相机的运动方向，如：判断相机的运动方向是直行、左转还是右转，从而将违反该运动方向的匹配关系确定是错误的匹配关系进行滤除。

第二，车辆驾驶场景中的相机运动模式通常是向前行进，故根据第一图像帧和第二图像帧的采集顺序，第二图像帧的第二区域相对第一区域应该沿着灭点向图像边缘移动，则对于违反该规律的匹配认为是错误匹配而滤除；

第三，确定匹配关系中，第二区域特征点与极线之间的距离，从至少一组匹配关系中滤除距离大于预设距离阈值的匹配关系。

值得注意的是，由于图片数据通常带有径向畸变，故，上述距离阈值与到图片中心的距离成正比，即越靠近边缘容忍度越高，距离阈值的设置也越大。

可选地，在对距离矩阵进行错误匹配抑制之后，利用匈牙利算法求解一个一对一的最优分配解，使得整体的匹配误差最小化。此时，模块的输出为第一图像帧中的N个框在第二图像帧中的匹配框，其中某些框可能不存在匹配框。

在一些实施例中，还需要对第一图像帧和第二图像帧进行场景比对，即获取第一图像帧和第二图像帧在关联过程中产生的中间状态量，其中，中间状态量是根据第一图像帧的第一特征点、第二图像帧的第二特征点以及第一图像帧和第二图像帧之间的极线约束情况生成的。其中，中间状态量所参考的第一特征点和第二特征点为匹配过滤后的特征点，也即，对匹配关系进行过滤后的第一特征点和第二特征点。

基于中间状态量确定第一图像帧和第二图像帧的场景相关情况，响应于场景相关情况用于指示第一图像帧和第二图像帧的场景关联度达到要求关联度，确定第一图像帧和第二图像帧内的目标图像内容符合聚合要求。

在一些实施例中，首先判断第一图像帧和第二图像帧对应的全球定位系统(Global Positioning System，GPS)位置差是否小于要求位置差阈值，以及判断第一图像帧和第二图像帧的采集时差是否小于时差阈值。如果不符合上述两个条件，则确定为不同场景，否则继续对中间状态量进行判断。

其中，中间状态量中包括如下状态量中的至少一种：

第一，第一图像帧的第一特征点的数量；其中，第一特征点为匹配过滤后的特征点。

第二，第二图像帧的第二特征点的数量；其中，第二特征点为匹配过滤后的特征点。

第三，符合特征点匹配条件的匹配数量，也即，符合上述步骤504中的匹配条件的匹配数量。

第四，RANSAC估计基础巨震后，符合极线约束的匹配所占的比例。

第五，点线匹配中，匹配的平均点线距离。

第六，点线匹配中，匹配的最大点线距离。

第七，极线约束匹配中，描述子的平均欧氏距离。

第八，极线约束匹配中，描述子的最小欧氏距离。

第九，极线约束匹配中，描述子的最大欧氏距离。

值得注意的是，上述距离表达上，已欧氏距离为例进行说明，实际操作中，还可以采用其他距离计算方式，如：余弦距离、曼哈顿距离、切比雪夫距离等，本申请实施例对此不加以限定。

将上述中间状态量输入至支持向量机(SupportVectorMachines,SVM)分类器，该SVM分类器输出当前两张图像帧是否为同一场景的判断结果。其中，在对SVM分类器进行使用前，首先人工标注了一批场景分类的数据作为训练集，预先训练该SVM分类器。

步骤508，根据目标匹配关系对第一图像帧和第二图像帧内的目标图像内容进行聚合。

本实施例提供的方法，通过场景匹配，首先过滤掉不符合场景要求的两张图像帧，也即，当两帧图像帧不处于同一场景时，则无法对该两张图像进行目标图像内容的聚合，故，优先进行过滤，提高了目标图像内容的聚合效率。

本实施例提供的方法，通过相机的运动模式，对第二区域和极线之间的匹配进行过滤，从而将不符合运动模式的匹配关系进行过滤，提高了极线与第二区域特征点的匹配效率。

在一些实施例中，第一图像帧中还包括第一集合区域，第二图像帧中包括第二集合区域，图6是本申请另一个示例性实施例提供的目标图像内容的聚合方法的流程图，以该方法应用于服务器中为例进行说明，如图6所示，该方法包括：

步骤601，获取图像集合中的第一图像帧和第二图像帧。

步骤602，对第一图像帧和第二图像帧进行图像内容识别，得到第一图像帧中与目标图像内容对应的第一区域，和第二图像帧中与目标图像内容对应的第二区域。

步骤603，根据图像内容识别得到第一图像帧中的第一集合区域，和第二图像帧中的第二集合区域。

第一集合区域中包括至少两个处于同一物理点的第一区域，第二集合区域中包括至少两个处于同一物理点的第二区域。

也即在对目标图像内容进行识别时，还包括对处于同一物理点的一组目标图像内容所处的区域进行识别，并在第一图像帧中，通过第一集合区域对处于同一物理点的第一区域进行框选，以及在第二图像帧中，通过第二集合区域对处于同一物理点的第二区域进行框选。

步骤604，针对第一区域对应的第一区域特征点，在第二区域中进行极线搜索，得到对应的极线。

其中，基础矩阵的构建过程在上述实施例中已进行了说明，此处不再赘述。

步骤605，确定第一区域和第二区域的第一关联关系。

也即，确定第一图像帧中的第一区域与第二图像帧中的第二区域之间的匹配关系，具体确定过程请参考如上步骤504至步骤507，此处不再赘述。

步骤606，根据第一关联关系确定第一集合区域和第二集合区域之间的第二关联关系。

在一些实施例中，根据第二集合区域中，第二区域的数量，将第二集合区域与第一图像帧内的第一集合区域进行关联，得到第二关联关系。

帧间关联只关注电子眼小框(即第一区域和第二区域)之间的匹配，然而，逻辑上属于同一个组的小框应该在帧间具有一致的物理点标识(Identity，ID)，也即，处于同一第一集合区域内的第一区域具有一致的物理点ID，该物理点ID对应第一集合区域。为了消除帧间小框匹配带来的歧义，设计一个投票机制。首先统计第二图像帧中每个第二集合区域中第二区域的物理点ID的分布情况(每个物理点ID对应的小框数量称为该物理点ID的支持度)，以及每个物理点ID的最小匹配误差。消歧的原则为优先选取支持度高的物理点ID分配为该组的物理点ID，当两个物理点ID支持度相同时，选取最小匹配误差更小的那个物理点ID进行分配。在该步骤之后，得到第二图像帧中每个第二集合区域与第一图像帧中第一集合区域的关联结果，其中无法关联的集合为新的物理点。

步骤607，根据第一关联关系和第二关联关系对目标图像内容进行聚合。

可选地，根据上述第一区域和第二区域之间的第一关联关系，以及第一集合区域和第二集合区域之间的第二关联关系，对目标图像内容进行聚合，得到在两个图像帧中实现为同一个实体的电子眼。

示意性的，请参考图7，其示出了本申请一个示例性实施例提供的图像帧关联的示意图，如图7所示，在第一图像帧710中包括识别得到的第一区域711、第一区域712、第一区域713，以及第一集合区域714，第二图像帧720中包括识别得到的第二区域721、第二区域722以及第二集合区域723，根据关联关系，确定第一区域711与第二区域722匹配、第一区域712和第二区域723匹配，第一集合区域713与第二集合区域723匹配，从而得到第一图像帧和第二图像帧的聚合方式。

本实施例提供的方法，通过对电子眼对应的小框进行关联，以及根据小框对电子眼所处杆的大框进行关联，从而提高了相同实体电子眼之间的关联准确率，避免小框关联的误差。

示意性的，图8是本申请一个示例性实施例提供的目标图像内容的聚合过程整体流程图，如图8所示，该过程中包括：

步骤801，帧内聚类。

也即，在图像帧内部对目标图像内容对应的区域进行识别，以及对属于同一物理点的区域通过集合区域的方式进行框选。

步骤802，帧间关联。

其中，在帧间关联的过程中，首先进行两帧图像帧之间的特征点提取和匹配，从而根据提取的特征点的匹配关系计算基础矩阵，以及计算极线距离矩阵。即将第一图像帧中第一区域的第一区域特征点映射至第二图像中，得到在第二图像帧中对应的极线，计算第二图像帧中第二区域的第二区域特征点与极线之间的距离，得到极线距离矩阵。

判断两帧图像的场景是否相同，如果不相同，则结束流程不做聚合，如果相同根据匹配条件进行错误匹配抑制，以及通过匈牙利算法进行分配匹配。

步骤803，关联消歧。

根据小框之间的第一关联关系和大框之间的第二关联关系进行关联消歧，最终得到聚合的目标图像内容。

图9是本申请一个示例性实施例提供的目标图像内容的聚合装置的结构示意图，如图9所示，该装置包括：

获取模块910，用于获取图像集合中的第一图像帧和第二图像帧，其中，所述图像集合中包括在场景图像采集过程中生成的图像帧；

识别模块920，用于对所述第一图像帧和所述第二图像帧进行图像内容识别，得到所述第一图像帧中与所述目标图像内容对应的第一区域，和所述第二图像帧中与所述目标图像内容对应的第二区域；

确定模块930，用于针对所述第一区域对应的第一区域特征点，在所述第二图像帧中进行极线搜索，得到对应的极线；

聚合模块940，用于根据所述第二区域对应的第二区域特征点和所述极线，对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

在一个可选的实施例中，如图10所示，所述聚合模块940，包括：

匹配单元941，用于将所述第二区域特征点与所述极线进行分别匹配，得到至少一组匹配关系；

过滤单元942，用于基于匹配条件，从所述至少一组匹配关系中滤除不符合所述匹配条件的匹配关系，得到目标匹配关系；

聚合单元943，用于根据所述目标匹配关系对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

在一个可选的实施例中，所述确定模块930，还用于针对所述第一图像帧中的第一特征点，在所述第二图像帧中确定对应匹配的第二特征点；根据所述第一特征点和所述第二特征点的匹配情况，确定所述第一图像帧和所述第二图像帧对应的基础矩阵，所述基础矩阵用于表示所述第一图像帧在所述第二图像帧中的极线约束情况；针对所述第一区域对应的所述第一区域特征点，基于所述基础矩阵在所述第二图像帧中进行极线搜索，得到对应的所述极线。

在一个可选的实施例中，所述确定模块930，还用于根据所述第一特征点和所述第二特征点的所述匹配情况，确定对所述图像集合进行采集的设备的运动模式数据；

所述过滤单元942，还用于从所述至少一组匹配关系中滤除不符合所述运动模式数据的匹配关系。

在一个可选的实施例中，所述过滤单元942，还用于确定所述匹配关系中，所述第二区域特征点与所述极线之间的距离；从所述至少一组匹配关系中滤除距离大于预设距离阈值的匹配关系。

在一个可选的实施例中，所述获取模块910，还用于获取所述第一图像帧和所述第二图像帧在关联过程中产生的中间状态量，所述中间状态量是根据所述第一图像帧的第一特征点、所述第二图像帧的第二特征点以及所述第一图像帧和所述第二图像帧之间的极线约束情况生成的；

所述确定模块930，还用于基于所述中间状态量确定所述第一图像帧和所述第二图像帧的场景相关情况；响应于所述场景相关情况用于指示所述第一图像帧和所述第二图像帧的场景关联度达到要求关联度，确定所述第一图像帧和所述第二图像帧内的所述目标图像内容符合聚合要求。

在一个可选的实施例中，所述识别模块920，还用于根据所述图像内容识别得到所述第一图像帧中的第一集合区域，和所述第二图像帧中的第二集合区域，所述第一集合区域中包括至少两个处于同一物理点的所述第一区域，所述第二集合区域中包括至少两个处于同一物理点的所述第二区域；

所述聚合模块940，还用于确定所述第一区域和所述第二区域之间的第一关联关系；根据所述第一关联关系确定所述第一集合区域和所述第二集合区域之间的第二关联关系；根据所述第一关联关系和所述第二关联关系对所述目标图像内容进行聚合。

在一个可选的实施例中，所述聚合模块940，还用于根据所述第二集合区域中，所述第二区域的数量，将所述第二集合区域与所述第一图像帧内的所述第一集合区域进行关联，得到所述第二关联关系。

在一个可选的实施例中，所述第一图像帧和所述第二图像帧为所述场景图像采集过程中连续采集的相邻两帧图像帧。

综上所述，本申请实施例提供的目标图像内容的聚合装置，针对第一区域对应的第一区域特征点，通过极线搜索的方式在第二图像帧中确定对应的极线，并结合第二区域特征点和极线之间的匹配关系，对第一区域特征点和第二区域特征点的匹配情况进行过滤，最终得到符合要求的位于第一图像帧和第二图像帧内的目标图像内容进行聚合，提高了目标图像内容的聚合效率，以及提高了目标图像内容的聚合准确率。

需要说明的是：上述实施例提供的目标图像内容的聚合装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标图像内容的聚合装置与目标图像内容的聚合方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：

服务器1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1106。

大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1106及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1106可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的目标图像内容的聚合方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的目标图像内容的聚合方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的目标图像内容的聚合方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标图像内容的聚合方法，其特征在于，所述目标图像内容的聚合是指通过算法自动将多帧图像中属于同一个物理点的检测结果关联起来，作为一个检测结果，所述方法包括：

基于所述第二图像帧中每个第二区域的第二区域特征点到每条极线的点线距离，生成距离矩阵，所述距离矩阵用于指示所述第一区域和所述第二区域之间的匹配误差；

获取所述第一图像帧和所述第二图像帧在关联过程中产生的中间状态量，所述中间状态量是根据所述第一图像帧的第一特征点、所述第二图像帧的第二特征点以及所述第一图像帧和所述第二图像帧之间的极线约束情况生成的；

基于所述中间状态量确定所述第一图像帧和所述第二图像帧的场景相关情况；

响应于所述场景相关情况用于指示所述第一图像帧和所述第二图像帧的场景关联度达到要求关联度，确定所述第一图像帧和所述第二图像帧内的所述目标图像内容符合聚合要求；

基于所述距离矩阵确定最优分配解，所述最优分配解使得所述第一图像帧和所述第二图像帧内的匹配误差最小；

基于所述最优分配解确定所述第一图像帧中的所述第一区域在所述第二图像帧中匹配的至多一个所述第二区域，得到所述第一区域和所述第二区域之间的目标匹配关系；

根据所述目标匹配关系对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

2.根据权利要求1所述的方法，其特征在于，所述针对所述第一区域对应的第一区域特征点，在所述第二图像帧中进行极线搜索，得到对应的极线，包括：

针对所述第一图像帧中的第一特征点，在所述第二图像帧中确定对应匹配的第二特征点；

根据所述第一特征点和所述第二特征点的匹配情况，确定所述第一图像帧和所述第二图像帧对应的基础矩阵，所述基础矩阵用于表示所述第一图像帧在所述第二图像帧中的极线约束情况；

针对所述第一区域对应的所述第一区域特征点，基于所述基础矩阵在所述第二图像帧中进行极线搜索，得到对应的所述极线。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述第一特征点和所述第二特征点的所述匹配情况，确定对所述图像集合进行采集的设备的运动模式数据；

从至少一组匹配关系中滤除不符合所述运动模式数据的匹配关系，得到所述目标匹配关系，所述至少一组匹配关系是将所述第二区域特征点和所述极线进行匹配得到的。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定至少一组匹配关系中，所述第二区域特征点与所述极线之间的距离，所述至少一组匹配关系是将所述第二区域特征点和所述极线进行匹配得到的；

从所述至少一组匹配关系中滤除距离大于预设距离阈值的匹配关系，得到所述目标匹配关系。

5.根据权利要求1至4任一所述的方法，其特征在于，所述对所述第一图像帧和所述第二图像帧进行图像内容识别之后，还包括：

根据所述图像内容识别得到所述第一图像帧中的第一集合区域，和所述第二图像帧中的第二集合区域，所述第一集合区域中包括至少两个处于同一物理点的所述第一区域，所述第二集合区域中包括至少两个处于同一物理点的所述第二区域；

所述对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合，包括：

确定所述第一区域和所述第二区域之间的第一关联关系；

根据所述第一关联关系确定所述第一集合区域和所述第二集合区域之间的第二关联关系；

根据所述第一关联关系和所述第二关联关系对所述目标图像内容进行聚合。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一关联关系确定所述第一集合区域和所述第二集合区域之间的第二关联关系，包括：

根据所述第二集合区域中，所述第二区域的数量，将所述第二集合区域与所述第一图像帧内的所述第一集合区域进行关联，得到所述第二关联关系。

7.根据权利要求1至4任一所述的方法，其特征在于，

所述第一图像帧和所述第二图像帧为所述场景图像采集过程中连续采集的相邻两帧图像帧。

8.一种目标图像内容的聚合装置，其特征在于，所述目标图像内容的聚合是指通过算法自动将多帧图像中的，且属于同一个物理点的检测结果关联起来，作为一个检测结果，所述装置包括：

匹配单元，用于基于所述第二图像帧中每个第二区域的第二区域特征点到每条极线的点线距离，生成距离矩阵，所述距离矩阵用于指示所述第一区域和所述第二区域之间的匹配误差；

所述获取模块，还用于获取所述第一图像帧和所述第二图像帧在关联过程中产生的中间状态量，所述中间状态量是根据所述第一图像帧的第一特征点、所述第二图像帧的第二特征点以及所述第一图像帧和所述第二图像帧之间的极线约束情况生成的；

所述确定模块，还用于基于所述中间状态量确定所述第一图像帧和所述第二图像帧的场景相关情况；响应于所述场景相关情况用于指示所述第一图像帧和所述第二图像帧的场景关联度达到要求关联度，确定所述第一图像帧和所述第二图像帧内的所述目标图像内容符合聚合要求；

聚合模块，用于基于所述距离矩阵确定最优分配解，所述最优分配解使得所述第一图像帧和所述第二图像帧内的匹配误差最小；基于所述最优分配解确定所述第一图像帧中的所述第一区域在所述第二图像帧中匹配的至多一个所述第二区域，得到所述第一区域和所述第二区域之间的目标匹配关系；根据所述目标匹配关系对所述第一图像帧和所述第二图像帧内的所述目标图像内容进行聚合。

9.根据权利要求8所述的装置，其特征在于，所述确定模块，还用于针对所述第一图像帧中的第一特征点，在所述第二图像帧中确定对应匹配的第二特征点；根据所述第一特征点和所述第二特征点的匹配情况，确定所述第一图像帧和所述第二图像帧对应的基础矩阵，所述基础矩阵用于表示所述第一图像帧在所述第二图像帧中的极线约束情况；针对所述第一区域对应的所述第一区域特征点，基于所述基础矩阵在所述第二图像帧中进行极线搜索，得到对应的所述极线。

10.根据权利要求9所述的装置，其特征在于，所述确定模块，还用于根据所述第一特征点和所述第二特征点的所述匹配情况，确定对所述图像集合进行采集的设备的运动模式数据；

所述聚合模块，还包括：

过滤单元，还用于从至少一组匹配关系中滤除不符合所述运动模式数据的匹配关系，得到所述目标匹配关系，所述至少一组匹配关系是将所述第二区域特征点和所述极线进行匹配得到的。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的目标图像内容的聚合方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的目标图像内容的聚合方法。