CN109146910B

CN109146910B - 一种基于目标定位的视频内容分析指标评价方法

Info

Publication number: CN109146910B
Application number: CN201810979859.XA
Authority: CN
Inventors: 刘军; 卢玉华; 欧阳毅; 郑征; 张翔
Original assignee: Beijing Mingjing Technology Co ltd; First Research Institute of Ministry of Public Security
Current assignee: Beijing Mingjing Technology Co ltd; First Research Institute of Ministry of Public Security
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2021-07-06
Anticipated expiration: 2038-08-27
Also published as: CN109146910A

Abstract

本发明公开了一种基于目标定位的视频内容分析结果自动评测方法，包括如下步骤：使用不同算法的产品对同一段视频进行分析，得出分析结果；对各个分析结果的目标的运动轨迹进行匹配，得出各个分析结果的目标之间的对应关系；比对运动轨迹匹配的目标的属性，一致则将该目标作为标准答案，否则观察确定，最终得到标准答案集合；将待评测的分析结果的目标的运动轨迹与标准答案集合进行运动轨迹匹配，运动轨迹匹配的目标进行属性对比，一致则评判为正确的目标，反之则为错误的；运动轨迹不匹配的需要观察确认；最后统计出待评测的分析结果中正确的目标数量和错误的目标数量，即可得到评测结果。本发明能有效提高评测的效率，使评测结果更加客观、准确。

Description

一种基于目标定位的视频内容分析指标评价方法

技术领域

本发明涉及视频分析评价技术领域，具体涉及一种基于目标定位的视频内容分析结果自动评测方法。

背景技术

监控视频智能分析的作用是提取视频中出现的所有目标，每一个目标生成一个目标快照，这样通过浏览目标快照就可以获取视频中包含的全部有效信息。

一般地，视频中的目标是指监控视频中出现的行人、骑车人(包括骑自行车、电动车和摩托车)和机动车。目标框是指目标的外接矩形框。目标快照是指把目标框中的图像区域裁剪出来保存成一个图片用来表示这个目标。目标运动轨迹是指一个目标在视频中出现的时间和位置，即目标出现在每一帧的帧号和目标框的位置。目标属性包括目标类型：行人、骑车人和机动车。进一步地，行人的属性包括性别、是否带墨镜、是否背包、是否打伞等；骑车人的属性包括性别、车辆颜色、是否带头盔等；机动车属性包括车辆的品牌、型号、年款、车牌号码、是否遮阳板放下、是否有副驾驶、是否有摆件等。

通常可以用两个指标评价视频智能分析算法的有效性：召回率和正确率。召回率＝目标快照包含目标数量/目标总数，正确率＝目标快照包含目标数量/目标快照总数。例如评测行人目标识别性能，一段视频包含100个行人目标，分析后一共生成了120个快照，这120个快照中共包含了90行人个目标(即有10个行人目标没有在120个快照中出现过，120个快照中包括一些不是行人的目标或者一些行人目标产生了多张快照)。所以，召回率＝90/100＝0.9，正确率＝90/120＝0.75

每一个目标属性的分析效果都需要用召回率和正确率来衡量，召回率越高实用价值越大，在某些情况下某些属性指标要求召回率等于100％，即没有任何目标遗漏；在召回率相同的情况下正确率越高快照图片越少，浏览快照需要的时间越少。

目前的监控视频分析结果评测完全依靠人工。人工评测视频分析指标主要基于快照比对。在评测前某一个目标属性分析性能前，首先对视频中符合这个属性的每一个目标手工截取一个快照作为标准答案，在评测的时候人工进行快照比对，即观察分析结果的快照和标准答案的快照是否匹配，通过统计匹配的快照数量可以得到评价指标(召回率和准确率)。

但是视频分析指标的人工评测不但耗时而且具有一定的主观随机性：

1)需要对每一个属性准备一个快照集合作为标准答案，不仅耗时，而且容易存在错误标注和漏标的情况。

2)在实际中，分析结果的快照和标准答案的快照截取的时间和位置一般都不一样，而且视频中经常会出现很多外观很相似的目标，仅仅通过观察来判断两个快照是否表示同一个目标有较大的主观性和随机性。

3)为了能够准确的评测视频智能分析算法的有效性，一般需要评测多段视频，评测视频中的目标总数可能会达到数千个，人工进行评测的工作量巨大。

发明内容

针对现有技术的不足，本发明旨在提供一种基于目标定位的视频内容分析结果自动评测方法，可以实现自动根据标准答案生成评测结果，不需要人工参与，保证评测结果高效、客观。

为了实现上述目的，本发明采用如下技术方案：

一种基于目标定位的视频内容分析结果自动评测方法，包括如下步骤：

S1、使用至少两个不同算法的视频结构化分析系统分别对同一段视频进行分析，分别得出分析结果；

S2、对步骤S1中得到的各个分析结果中的目标的运动轨迹进行匹配，得出各个分析结果的目标之间的对应关系；

S3、对于各个分析结果之间运动轨迹相匹配的目标，比对它们的目标属性，如果目标属性一致的话，说明这些运动轨迹相匹配的目标是同一个目标，则将该目标作为标准答案，否则通过观察确定该目标是否为标准答案，最终得到标准答案集合；

S4、采用待评测的视频结构化分析系统对步骤S1中的视频进行分析得到待评测的分析结果，将待评测的分析结果中的每个目标的运动轨迹与步骤S2中得到标准答案集合进行运动轨迹匹配，找到标准答案集合中运动轨迹与之相匹配的目标，找到后将两者的目标属性进行对比，如果对比结果是一致的，说明该待评测的分析结果的目标是正确的，反之是错误的；如果待评测的分析结果中有目标在标准答案集合中未找到运动轨迹与之相匹配的目标，则需要通过观察确认，正确的则更新标准答案集合并评判该目标的分析结果为正确，反之评判该目标分析结果为错误；最后统计出待评测的分析结果中正确的目标数量和错误的目标数量，即可得到评测结果。

进一步地，步骤S2和步骤S4中，目标之间的运动轨迹匹配的方法为：

2.1)定义两个目标之间的运动轨迹匹配度公式如下：

其中，m_i，n和m_j，n分别为轨迹i和轨迹j在第n帧的矩形框，N为视频的总帧数，L_i为轨迹i在视频中出现的总帧数，f为两个矩形框的匹配函数，其数值定义为两个矩形框的交的面积除以并的面积(IOU)，δ为示性函数；示性函数δ定义如下：

其中threshold为矩形框的匹配阈值；

2.2)设置运动轨迹匹配度的上限阈值和下限阈值，如果两个轨迹的运动轨迹匹配度在下限阈值和上限阈值之间则判定两个轨迹能够匹配，否则判定为无法匹配。

更进一步地，下限阈值设置为0.8，上限阈值设置为1.25。

进一步地，在步骤S3中，如果存在某个分析结果的目标的运动轨迹在其他分析结果中找不到运动轨迹与之相匹配的目标的情况，则需要观察该目标是否是需要的目标，如果是，则将该目标加入标准答案集合中，否则通过观察确定该目标是否为标准答案。

本发明的有益效果在于：本发明具有很高程度的智能化和自动化，大大减少人工的干预，不但能有效提高评测的效率，还能使得评测结果更加客观、准确。

附图说明

图1为本发明实施例的实施流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，以下实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，一种基于目标定位的视频内容分析结果自动评测方法，包括如下步骤：

S1、使用至少两个不同算法的视频结构化分析系统(例如，可以采用不同厂家的视频结构化分析系统)分别对同一段视频进行分析，分别得出分析结果；

S3、对于各个分析结果之间运动轨迹相匹配的目标，比对它们的目标属性，如果目标属性一致的话，说明这些运动轨迹相匹配的目标是同一个目标，则将该目标(包括目标快照、目标运动轨迹和目标属性等信息)作为标准答案，否则通过观察确定该目标是否为标准答案，最终得到标准答案集合；

2.1)定义两个目标之间的运动轨迹匹配度公式如下：

其中threshold为矩形框的匹配阈值。

在本实施例中，下限阈值设置为0.8，上限阈值设置为1.25。

上述基于目标定位的视频内容分析结果自动评测方法中，对于如何获取评测所基于的标准答案采用的是众包的思想。因为不同视频结构化分析产品对相同目标的描述在大部分情况下是一致的，分析的结果在大部分情况下是正确的，而正确答案只有一个。利用这样的一致性可以快速获得准确性很高的初步的标准答案，在此基础上仅需简单的人工干预(对于运动轨迹无法匹配或者运动轨迹匹配但目标属性不一致的情况)即可得到最终的标准答案，极大地提高了工作效率。

实际标注一段典型的目标密度中等的10分钟视频，如果完全依靠人工标注轨迹和各种属性需要约120分钟，如果只使用一个算法的系统的结构化分析结果，然后在这个结果的基础上进行人工标注需要约25分钟；如果采用上述基于目标定位的视频内容分析结果自动评测方法只需要约5分钟。对一段时长20分钟的中等密度视频进行评测，如果仅测试目标类型(如人、车、人骑车)一项，采用人工方法需要约60分钟，使用上述基于目标定位的视频内容分析结果自动评测方法仅需要几秒钟。

融合不同算法的视频结构分析系统的分析结果的关键是确定各个分析结果的目标之间的对应关系，即确定系统一的分析结果中的目标A与系统二的分析结果中的目标B是同一个目标。上述基于目标定位的视频内容分析结果自动评测方法中采用的是运动轨迹匹配的方法。因为不同算法的系统对目标的编号不一致，所以必须采用目标自身的特点来获取这种对应关系。目标最具有代表性和判别力的特征是目标的运动轨迹(目标在视频中每一帧出现的位置)，因为运动轨迹完全重合的两个目标基本上是同一个目标。所以通过匹配各个分析结果中的目标的运动轨迹即可确定各个分析结果中的目标的对应关系。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于目标定位的视频内容分析结果自动评测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于目标定位的视频内容分析结果自动评测方法，其特征在于，步骤S2和步骤S4中，目标之间的运动轨迹匹配的方法为：

2.1)定义两个目标之间的运动轨迹匹配度公式如下：

其中，m_i，n和m_j，n分别为轨迹i和轨迹j在第n帧的矩形框，N为视频的总帧数，L_i为轨迹i在视频中出现的总帧数，f为两个矩形框的匹配函数，其数值定义为两个矩形框的交的面积除以并的面积，δ为示性函数；示性函数δ定义如下：

其中threshold为矩形框的匹配阈值；

3.根据权利要求2所述的基于目标定位的视频内容分析结果自动评测方法，其特征在于，下限阈值设置为0.8，上限阈值设置为1.25。

4.根据权利要求1所述的基于目标定位的视频内容分析结果自动评测方法，其特征在于，在步骤S3中，如果存在某个分析结果的目标的运动轨迹在其他分析结果中找不到运动轨迹与之相匹配的目标的情况，则需要观察该目标是否是需要的目标，如果是，则将该目标加入标准答案集合中，否则通过观察确定该目标是否为标准答案。