CN114332745A - 一种基于深度神经网络的近重复视频大数据清洗方法 - Google Patents
一种基于深度神经网络的近重复视频大数据清洗方法 Download PDFInfo
- Publication number
- CN114332745A CN114332745A CN202210234973.6A CN202210234973A CN114332745A CN 114332745 A CN114332745 A CN 114332745A CN 202210234973 A CN202210234973 A CN 202210234973A CN 114332745 A CN114332745 A CN 114332745A
- Authority
- CN
- China
- Prior art keywords
- video
- feature vector
- computer
- key value
- repetitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于深度神经网络的近重复视频大数据清洗方法,包括以下步骤:一、CNN‑LSTM神经网络对待处理视频的特征向量提取;二、利用MapReduce框架对提取的特征向量进行局部敏感哈希映射并获取视频的二值化哈希码;三、利用MapReduce框架归并具有相同二值化哈希码的数据点;四、根据归并后各个键值的欧式距离的分布情况得到近重复视频并删除从而完成近重复视频的清洗。本发明方法步骤简单,设计合理,可以快速有效地自动清洗视频大数据中的近重复视频数据,改善视频大数据的数据质量。
Description
技术领域
本发明属于监控视频技术领域,尤其是涉及一种基于深度神经网络的近重复视频大数据清洗方法。
背景技术
目前,随着网络上的视频数据规模不断增加,近重复视频数据大量涌现,这些近重复视频既会影响正常视频数据的使用,又会引起版权纠纷等社会问题,由此造成视频的数据质量问题越来越突出。因此目前产生了很多针对近重复视频检测与清洗的研究,以对视频数据进行清洗删除近重复视频数据,提高视频质量。
现有的近重复视频检测方法包括基于低层特征的近重复视频检测方法、基于深度特征的近重复视频检测方法,但是现有的近重复视频检测方法只能识别出视频数据集中存在近重复视频,较难自动清洗和删除近重复视频这类数据,因此较难保证视频数据集的整体数据质量。
另外,现有对近重复视频的清洗大多还停留在少量视频的检测阶段,较难在大数据规模的条件下,高效、自动的清洗近重复视频数据,这对视频大数据的质量造成了很大的影响。
因此,现如今缺少一种基于深度神经网络的近重复视频大数据清洗方法,可以快速有效地自动清洗视频大数据中的近重复视频数据,改善视频大数据的数据质量。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度神经网络的近重复视频大数据清洗方法,其方法步骤简单,设计合理,可以快速有效地自动清洗视频大数据中的近重复视频数据,改善视频大数据的数据质量。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于,该方法包括以下步骤:
步骤一、CNN-LSTM神经网络对待处理视频的特征向量提取:
步骤103、采用计算机调用PCA主成分分析模块对步骤102中的一组初始特征向量进行降维处理,得到降维后特征向量,并存入HDFS中;其中,降维后特征向量为1024×1的向量,第个待处理视频的降维后特征向量记作第个特征向量,和均为正整数,且;
步骤二、利用MapReduce框架对提取的特征向量进行局部敏感哈希映射并获取视频的二值化哈希码:
步骤201、采用计算机利用Hadoop分布式平台的MapReduce框架从HDFS中读取特征向量;
步骤202、采用计算机利用MapReduce框架,在Map阶段调用利用哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位二值化哈希码,并记作第个待处理视频的二值化哈希码向量;其中,为正整数;
步骤三、利用MapReduce框架归并具有相同二值化哈希码的数据点:
步骤四、根据归并后各个键值的欧式距离的分布情况得到近重复视频并删除,从而完成近重复视频的清洗:
步骤402、采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,并将该近重复视频从待处理视频中删除,完成近重复视频的清洗。
上述的一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于:步骤202具体步骤如下:
步骤2022、采用计算机利用MapReduce框架,在Map阶段利用LSH算法哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位哈希码;其中,表示第个特征向量对应的第个哈希码,为正整数且;
上述的一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于:步骤302中采用计算机用MapReduce框架,在Map阶段,对各个键值对进行分区、合并,并将每个数据分区输出合并后键值对作为Reduce阶段的输入键值对,具体过程如下:
上述的一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于:步骤402中采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,具体过程如下:
步骤4027、多次按照步骤4022至步骤4026所述的方法,完成所有特征向量集合的判断,得到近重复视频。
本发明与现有技术相比具有以下优点:
1、本发明方法步骤简单,设计合理,首先是CNN-LSTM神经网络对待处理视频的特征向量提取,接着是利用MapReduce框架对提取的特征向量进行局部敏感哈希映射并获取视频的二值化哈希码,然后利用MapReduce框架归并具有相同二值化哈希码的数据点,最后根据归并后各个键值的欧式距离的分布情况得到近重复视频并删除,从而完成近重复视频的清洗,适应近重复视频大数据清洗。
2、本发明利用深度神经网络对视频帧提取特征向量,利用MapReduce框架在Map阶段对提取的高维特征向量通过局部敏感哈希映射,并在Map阶段和Reduce阶段实现个键值对的合并、归并,便于根据欧式距离的分布情况进行近重复视频清洗,利用深度神经网络和MapReduce框架相结合,可实现分布式的近重复视频清洗工作,大大加快了视频数据的处理速度,从而高效的完成近重复视频大数据清洗。
综上所述,本发明方法步骤简单,设计合理,可以快速有效地自动清洗视频大数据中的近重复视频数据,改善视频大数据的数据质量。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程框图。
具体实施方式
如图1所示的一种基于深度神经网络的近重复视频大数据清洗方法,该方法包括以下步骤:
步骤一、CNN-LSTM神经网络对待处理视频的特征向量提取:
步骤103、采用计算机调用PCA主成分分析模块对步骤102中的一组初始特征向量进行降维处理,得到降维后特征向量,并存入HDFS中;其中,降维后特征向量为1024×1的向量,第个待处理视频的降维后特征向量记作第个特征向量,和均为正整数,且;
步骤二、利用MapReduce框架对提取的特征向量进行局部敏感哈希映射并获取视频的二值化哈希码:
步骤201、采用计算机利用Hadoop分布式平台的MapReduce框架从HDFS中读取特征向量;
步骤202、采用计算机利用MapReduce框架,在Map阶段调用利用哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位二值化哈希码,并记作第个待处理视频的二值化哈希码向量;其中,为正整数;
步骤三、利用MapReduce框架归并具有相同二值化哈希码的数据点:
步骤四、根据归并后各个键值的欧式距离的分布情况得到近重复视频并删除,从而完成近重复视频的清洗:
步骤402、采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,并将该近重复视频从待处理视频中删除,完成近重复视频的清洗。
本实施例中,步骤202具体步骤如下:
步骤2022、采用计算机利用MapReduce框架,在Map阶段利用LSH算法哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位哈希码;其中,表示第个特征向量对应的第个哈希码,为正整数且;
本实施例中,步骤402中采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,具体过程如下:
步骤4027、多次按照步骤4022至步骤4026所述的方法,完成所有特征向量集合的判断,得到近重复视频。
本实施例中,VGG16神经网络由于其网络的深度,可以用于提取空间特征和高精度的图像识别,在解决图像定位与分类问题中表现出优异的性能。但是,VGG16神经网络较难准确地表示输入视频序列的时序关系。为了克服这种局限性,采用LSTM网络来提取视频流中的动态时序行为特征。
本实施例中,VGG16神经网络包括13个卷积层和3个全连接层,卷积层和全连接层的激活函数均为ReLu激活函数,3个全连接层分别为FC1全连接层,FC2全连接层和FC3全连接层,FC1全连接层,FC2全连接层和FC3全连接层的神经元个数分别为4096,4096,1000,每个卷积层的滑动步长为1,每个卷积层的卷积核为3×3×3。
本实施例中,实际使用时,FC3全连接层用于分类任务,本发明只需要提取特征不用分类,因此经过FC1全连接层和FC2全连接层后得到空间特征向量,且各个视频帧对应的空间特征向量均为4096维的空间特征向量。
本实施例中,例如设=12,则映射得到12位哈希码,假设映射得到12位哈希码,如果按照从大到小排序后为n1>n3>n5>n7>n9>n11>n2>n4>n6>n8>n10>n12,那么二值化哈希码向量为(1,0,1,0,1,0,1,0,1,0,1,0)。
本实施例中,本发明的目的是进行近重复视频的清洗,所以关键在于找到数据中的近重复视频,所以本方法采用欧式距离的分布情况分析,找到近重复视频,完成近重复视频的清洗。
综上所述,本发明方法步骤简单,设计合理,可以快速有效地自动清洗视频大数据中的近重复视频数据,改善视频大数据的数据质量。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (4)
1.一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于,该方法包括以下步骤:
步骤一、CNN-LSTM神经网络对待处理视频的特征向量提取:
步骤103、采用计算机调用PCA主成分分析模块对步骤102中的一组初始特征向量进行降维处理,得到降维后特征向量,并存入HDFS中;其中,降维后特征向量为1024×1的向量,第个待处理视频的降维后特征向量记作第个特征向量,和均为正整数,且;
步骤二、利用MapReduce框架对提取的特征向量进行局部敏感哈希映射并获取视频的二值化哈希码:
步骤201、采用计算机利用Hadoop分布式平台的MapReduce框架从HDFS中读取特征向量;
步骤202、采用计算机利用MapReduce框架,在Map阶段调用利用哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位二值化哈希码,并记作第个待处理视频的二值化哈希码向量;其中,为正整数;
步骤三、利用MapReduce框架归并具有相同二值化哈希码的数据点:
步骤四、根据归并后各个键值的欧式距离的分布情况得到近重复视频并删除,从而完成近重复视频的清洗:
步骤402、采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,并将该近重复视频从待处理视频中删除,完成近重复视频的清洗。
2.按照权利要求1所述的一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于:步骤202具体步骤如下:
步骤2022、采用计算机利用MapReduce框架,在Map阶段利用LSH算法哈希函数族对第个特征向量进行哈希映射,得到第个特征向量对应的位哈希码;其中,表示第个特征向量对应的第个哈希码,为正整数且;
4.按照权利要求1所述的一种基于深度神经网络的近重复视频大数据清洗方法,其特征在于:步骤402中采用计算机对各个特征向量集合根据欧式距离的分布情况得到近重复视频,具体过程如下:
步骤4027、多次按照步骤4022至步骤4026所述的方法,完成所有特征向量集合的判断,得到近重复视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234973.6A CN114332745B (zh) | 2022-03-11 | 2022-03-11 | 一种基于深度神经网络的近重复视频大数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234973.6A CN114332745B (zh) | 2022-03-11 | 2022-03-11 | 一种基于深度神经网络的近重复视频大数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114332745A true CN114332745A (zh) | 2022-04-12 |
CN114332745B CN114332745B (zh) | 2022-05-31 |
Family
ID=81034018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210234973.6A Active CN114332745B (zh) | 2022-03-11 | 2022-03-11 | 一种基于深度神经网络的近重复视频大数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332745B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704414A (zh) * | 2023-06-13 | 2023-09-05 | 西安科技大学 | 基于byol无监督深度对比学习的近重复视频清洗方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320773A (zh) * | 2015-11-03 | 2016-02-10 | 中国人民解放军理工大学 | 一种基于Hadoop平台的分布式重复数据删除系统和方法 |
CN105677661A (zh) * | 2014-09-30 | 2016-06-15 | 华东师范大学 | 一种检测社交媒体重复数据的方法 |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN110674673A (zh) * | 2019-07-31 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种关键视频帧抽取方法、装置和存储介质 |
US20210117232A1 (en) * | 2019-10-18 | 2021-04-22 | Splunk Inc. | Data ingestion pipeline anomaly detection |
-
2022
- 2022-03-11 CN CN202210234973.6A patent/CN114332745B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677661A (zh) * | 2014-09-30 | 2016-06-15 | 华东师范大学 | 一种检测社交媒体重复数据的方法 |
CN105320773A (zh) * | 2015-11-03 | 2016-02-10 | 中国人民解放军理工大学 | 一种基于Hadoop平台的分布式重复数据删除系统和方法 |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN110674673A (zh) * | 2019-07-31 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种关键视频帧抽取方法、装置和存储介质 |
US20210117232A1 (en) * | 2019-10-18 | 2021-04-22 | Splunk Inc. | Data ingestion pipeline anomaly detection |
Non-Patent Citations (3)
Title |
---|
SAEHOON KIM等: "Near Duplicate Image Discovery on One Billion Images", 《2015 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 * |
SHAOWEI CHEN: "A Data Fusion-based Methodology of Constructing Health Indicators for Anomaly Detection and Prognostics", 《2018 INTERNATIONAL CONFERENCE ON SENSING, DIAGNOSTICS, PROGNOSTICS, AND CONTROL》 * |
付燕等: "针对近重复视频的 FD-Means 聚类清洗算法", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704414A (zh) * | 2023-06-13 | 2023-09-05 | 西安科技大学 | 基于byol无监督深度对比学习的近重复视频清洗方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114332745B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhong et al. | An end-to-end dense-inceptionnet for image copy-move forgery detection | |
Yalniz et al. | Billion-scale semi-supervised learning for image classification | |
Du et al. | Towards explanation of dnn-based prediction with guided feature inversion | |
Fu et al. | Hin2vec: Explore meta-paths in heterogeneous information networks for representation learning | |
CN103336957B (zh) | 一种基于时空特征的网络同源视频检测方法 | |
CN111737551A (zh) | 一种基于异构图注意力神经网络的暗网线索检测方法 | |
CN114244603B (zh) | 异常检测及对比嵌入模型训练、检测方法、装置及介质 | |
CN111182364B (zh) | 一种短视频版权检测方法及系统 | |
WO2017143907A1 (zh) | 一种字符串距离计算方法和装置 | |
Hao et al. | Detecting shilling attacks with automatic features from multiple views | |
CN112434553A (zh) | 一种基于深度字典学习的视频鉴别方法及系统 | |
US20230056760A1 (en) | Method and apparatus for processing graph data, device, storage medium, and program product | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
CN114332745B (zh) | 一种基于深度神经网络的近重复视频大数据清洗方法 | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
Markatopoulou et al. | Cascade of classifiers based on binary, non-binary and deep convolutional network descriptors for video concept detection | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN116821053B (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
CN112036495A (zh) | 一种基于网络爬虫和迁移学习的服装图像分类方法 | |
Lin et al. | Full-scale selective transformer for semantic segmentation | |
CN109670071B (zh) | 一种序列化多特征指导的跨媒体哈希检索方法和系统 | |
CN116861022A (zh) | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 | |
Ni et al. | Camera-agnostic person re-identification via adversarial disentangling learning | |
CN112861965B (zh) | 基于多特征交叉一致性模型的图像匹配方法 | |
Van Dam et al. | Duplicate detection in web shops using LSH to reduce the number of computations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |