CN112906818A

CN112906818A - 一种减少视频数据集用于人工智能训练时冗余的方法

Info

Publication number: CN112906818A
Application number: CN202110283680.2A
Authority: CN
Inventors: 陈轶; 张文; 牛少彰; 崔浩亮; 王茂森; 王让定; 冯亚辉
Original assignee: Southeast Digital Economic Development Research Institute
Current assignee: Southeast Digital Economic Development Research Institute; Zhejiang Zhuanzhuzhilian Technology Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-04

Abstract

本发明公开了一种减少视频数据集用于人工智能训练时冗余的方法，包括如下步骤：1)将视频文件逐帧解析成图像文件，解析时使用检测算法进行图像模糊度检测；2)读取步骤1处理后的第一张图像保存为临时变量；3)读取下一张图像与临时变量使用相似度对比算法进行相似度对比；4)遍历步骤3中保留的图像文件，按顺序逐一与其他剩余图像进行相似度对比，如果相似度对比值高于阈值，则保留被对比图像，否则将对比图像进行删除操作。本发明属于互联网技术领域，具体是指一种可以有效降低视频数据用于人工智能模型训练时冗余性的方法。

Description

一种减少视频数据集用于人工智能训练时冗余的方法

技术领域

本发明属于互联网技术领域，具体是指一种减少视频数据集用于人工智能训练时冗余的方法。

背景技术

随着移动互联网的快速发展和网络摄像头应用的普及，数字社交、数字工业等数字经济领域内视频数据逐步代替图像数据作为信息载体，从以往的单张图像变成动态的视频。视频相对于图像更具全面性和有效性，可以帮助人们更直观地理解其中内容含义。但是，视频是由时间维度上多张连续图像组合而成，因此，当其作为人工智能算法训练阶段的数据源时会存在大量信息冗余。这些冗余不仅会极大地降低人工智能模型训练时的效率，而且也会加大数据标注时所花费的时间成本和人力成本，同时也不利于人工智能模型泛化能力的提升

发明内容

为了解决上述难题，本发明提供了一种减少视频数据集用于人工智能训练时冗余的方法。

为实现上述目的，本发明采取的技术方案如下：一种减少视频数据集用于人工智能训练时冗余的方法，包括如下步骤：

1)将视频文件逐帧解析成图像文件，解析时使用检测算法进行图像模糊度检测，设定模糊值阈值，如果高于设定阈值则认为该帧图像为清晰图像，进行本地存储，图像文件名称按照视频帧数顺序进行命名；

如果低于或等于设定阈值则认为该帧图像为模糊图像，进行删除操作；

2)读取步骤1处理后的第一张图像保存为临时变量；

3)读取下一张图像与临时变量使用相似度对比算法进行相似度对比，设定相似度对比阈值，如果该张图像与临时变量的相似度对比值高于设定阈值，则认为两者差异较大，将该张图像保存并赋值到临时变量；如果该张图像与临时变量的相似度对比值低于或等于阈值，则认为两者相似，删除该张图像，以此类推，完成路径下前后张图像间的相似度对比；

4)遍历步骤3中保留的图像文件，按顺序逐一与其他剩余图像进行相似度对比，如果相似度对比值高于阈值，则保留被对比图像，否则将对比图像进行删除操作。

进一步地，所述步骤1)中检测算法包括但不限于拉普拉斯方差算法、小波变换。

进一步地，所述步骤3)中相似度对比算法包括但不限于：感知哈希算法、SIFT算法。

本发明采取上述结构取得有益效果如下：本发明一种减少视频数据集用于人工智能训练时冗余的方法，图像间相似度对比先按照所属视频帧数进行前后对比，再逐一相互对比。在减轻计算复杂度的同时实现所有图像之间的相似度对比；删除差异性较小的图像可以减少相似图像的冗余性标记；删除差异性较小的图像可以增加数据集内的平均差异，提升人工智能模型学习数据效率。

附图说明

图1为一种减少视频数据集用于人工智能训练时冗余的方法的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种减少视频数据集用于人工智能训练时冗余的方法，包括如下步骤：

2)读取步骤1处理后的第一张图像保存为临时变量；

所述步骤1)中检测算法包括但不限于拉普拉斯方差算法、小波变换。

所述步骤3)中相似度对比算法包括但不限于：感知哈希算法、SIFT算法。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种减少视频数据集用于人工智能训练时冗余的方法，其特征在于，包括如下步骤：

1)将视频文件逐帧解析成图像文件，解析时使用检测算法进行图像模糊度检测，设定模糊值阈值，如果高于设定阈值则认为该帧图像为清晰图像，进行本地存储，图像文件名称按照视频帧数顺序进行命名；如果低于或等于设定阈值则认为该帧图像为模糊图像，进行删除操作；

2)读取步骤1处理后的第一张图像保存为临时变量；

2.根据权利要求1所述的一种减少视频数据集用于人工智能训练时冗余的方法，其特征在于：所述步骤1)中检测算法包括拉普拉斯方差算法、小波变换。

3.根据权利要求1所述的一种减少视频数据集用于人工智能训练时冗余的方法，其特征在于：所述步骤3)中相似度对比算法包括感知哈希算法、SIFT算法。