CN104216925A - 一种视频内容去重的处理方法 - Google Patents

一种视频内容去重的处理方法 Download PDF

Info

Publication number
CN104216925A
CN104216925A CN201310221597.8A CN201310221597A CN104216925A CN 104216925 A CN104216925 A CN 104216925A CN 201310221597 A CN201310221597 A CN 201310221597A CN 104216925 A CN104216925 A CN 104216925A
Authority
CN
China
Prior art keywords
video
chained list
duration
similarity
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310221597.8A
Other languages
English (en)
Inventor
刘学
江佳伟
徐开诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Shanghai 3Ntv Network Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201310221597.8A priority Critical patent/CN104216925A/zh
Publication of CN104216925A publication Critical patent/CN104216925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system

Abstract

本发明涉及一种视频内容去重的处理方法,所述的视频内容去重的处理方法包括如下步骤:(1)根据视频的时长进行排序形成链表;(2)在设置的窗口内,计算所述链表中的视频与待验视频的时长相似度;如所述时长相似度达到设定的阈值范围,执行步骤(3);否则,将所述待验视频插入到所述链表中;(3)在所述的窗口内进一步计算其他元数据相似度,并结合所述时长相似度和所述其他元数据相似度,所述其他元数据包括:视频标题、标签、关键词、上传时间、文件大小,判定所述链表中是否已存在所述的待验视频;如所述链表中不存在所述的待验视频,将所述待验视频插入到所述链表中;否则,放弃该待验视频。该处理方法在降低计算复杂度的同时,能保障视频内容去重处理的有效性。

Description

一种视频内容去重的处理方法
技术领域
本发明涉及多媒体通信领域,特别涉及一种视频内容去重的处理方法。
背景技术
互联网视频业务中,在视频获取、搜索、推荐时,如何识别出高相似度视频成为限制硬件资源节省、用户体验的提高。
现有的视频去重处理方法有下面几种:
(1)根据视频文件MD5值去重。为了完整性校验和版权保护,每个视频文件中都保存有一个MD5值,具有相同的MD5值的视频可以认为是同一视频。这种方法的局限性在于,只能识别出具有完全相同来源的视频,视频经过转码后MD5值就会变化,而且无法识别出内容高度相似的视频。
(2)根据视频文本元数据信息去重,最常用的是基于向量空间模型(VSM)的方法,根据视频的描述信息提取出视频的文本特征,为视频建立一个文本向量空间模型:[term,weight;.......],term是提取出的视频文本特征tag,weight是这个tag的权重。在为每个视频建立文本向量空间模型后,计算两个向量的距离就得到了对于视频相似度的度量,计算向量距离的方法有很多,例如余弦定理、欧式距离、曼哈顿距离、汉明距离等;这种方法的计算时间复杂度为Θ(n2),面对大量的互联网视频,计算代价太大;
(3)根据视频内容去重,视频内容并不能完全由元数据信息来衡量,视频是由一帧一帧的图像组成的,可以通过关键帧的图像匹配来计算视频的相似度,但是这种方法也存在不足,首先,这种方法的计算时间复杂度为Θ(n2),而且单个相似度的计算量过于复杂,不具有实际工程应用性;其次,有些视频内容具有很高的相似性,但是由于拍摄期间或者后期处理等的差异性,使得关键帧不相同造成漏识别。
在已公开的专利中,申请号:201210239076.0的中国专利公开了“一种互联网资源去重的处理方法及系统”,该方法利用资源包名和资源的名字进行去重,但不适合互联网视频剔重。
发明内容
本发明的目的在于,为了克服现有的视频去重处理方法存在着上述使用的局限性,本发明提供一种视频内容去重的处理方法,该处理方法在降低计算复杂度的同时,能保障视频内容去重处理的有效性。
为实现上述目的,本发明提供一种视频内容去重的处理方法,所述的视频内容去重的处理方法包括如下步骤:
(1)根据视频的时长进行排序形成链表;
(2)在设置的窗口内,计算所述链表中的视频与待验视频的时长相似度;如所述时长相似度达到设定的阈值范围,执行步骤(3);否则,将所述待验视频插入到所述链表中;
(3)在所述的窗口内进一步计算其他元数据相似度,所述其他元数据包括:视频标题、标签、关键词、上传时间、文件大小,并结合所述时长相似度和所述其他元数据相似度,判定所述链表中是否已存在所述的待验视频;如所述链表中不存在所述的待验视频,将所述待验视频插入到所述链表中;否则,放弃该待验视频。
作为上述技术方案的进一步改进,所述判定的方法为:
(1)对所述时长相似度和其他元数据相似度进行加权,得出总相似度;
(2)如所述总相似度达到设定的阈值范围,则所述链表中已存在所述的待验视频,否则,所述链表中不存在所述的待验视频。
作为上述技术方案的进一步改进,所述窗口的设置方法包括:静态设置和动态设置;所述静态设置按时长或数量设置窗口;所述动态设置按链表不同区间视频数目和链表视频总数目,或链表密度,或待比较的视频时长设置窗口。
作为上述技术方案的进一步改进,所述链表按所述视频的时长的粗细粒度进行排序形成多层桶结构,所述多层桶包括粗粒度桶和细粒度桶,该粗粒度桶由多个细粒度桶组成;每个粗粒度桶均按时长通过计数排序算法排序组成一个链表,所有细粒度桶按视频时长排序组成一个总链表。
本发明的一种视频内容去重的处理方法的优点在于:
1.由于视频的时长是一个区分性很高元数据,本发明只计算窗口内的待验视频的时长相似度,结合链表按所述视频的时长的粗细粒度进行计数排序形成多层桶结构,计算复杂度从Θ(n2)降低到Θ(n);进一步结合其他元数据相似性,提高了识别率。
2.根据去重处理的需要,窗口可以动态调整,保障了视频内容去重处理的有效性。
附图说明
图1是本发明的一种视频内容去重的处理方法的流程图。
图2是本发明的一种视频内容去重的处理方法的多层桶结构示意图。
具体实施方式
下文将结合附图和具体实施方式对本发明作进一步的说明。
如图1所示,本发明提供一种视频内容去重的处理方法,所述的视频内容去重的处理方法包括如下步骤:
101)根据视频的时长进行排序形成链表,当一个待验视频要插入所述链表中时,进入102);
102)在设置的窗口内,计算所述链表中的视频与待验视频的时长相似度,进入103);
103)判断所述时长相似度是否达到设定的阈值范围,如果达到,进入104),否则,进入108);
104)在所述的窗口内进一步计算其他元数据相似度,所述其他元数据包括:视频标题、标签、关键词、上传时间、文件大小,进入105);
105)结合所述时长相似度和所述其他元数据相似度,判定所述链表中是否已存在所述的待验视频;所述的判定可采用对所述时长相似度和其他元数据相似度进行加权,得出总相似度的方法;在本实施中仅以上述方法为例进行判定,进入106);
106)比较步骤105)中得到的总相似度,如果总相似度达到设定阀值,则表明所述链表中存在与待验视频相同的视频,进入107);否则,表明所述链表中不存在与待验视频相同的视频,进入108);
107)放弃所述待验视频,进入109);
108)将所述待验视频插入到所述链表中,进入109);
109)本待验视频去重执行完毕,下一个待验视频去重开始。
基于上述实施例,所述窗口的设置方法可通过静态设置和动态设置;所述静态设置按时长或数量设置窗口;所述动态设置按链表不同区间视频数目和链表视频总数目,或链表密度,或待比较的视频时长设置窗口。
如图2所示,所述链表可按所述视频的时长的粗细粒度进行排序形成多层桶结构,所述多层桶包括粗粒度桶和细粒度桶,该粗粒度桶由多个细粒度桶组成;每个粗粒度桶均按时长通过计数排序算法排序组成一个链表,所有细粒度桶按视频时长排序组成一个总链表。在本实施例中,所述链表的排序结构采用二层桶模型,所述视频的时长的粗细粒度分别以小时和分钟划分。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种视频内容去重的处理方法,其特征在于,所述的视频内容去重的处理方法包括如下步骤:
(1)根据视频的时长进行排序形成链表;
(2)在设置的窗口内,计算所述链表中的视频与待验视频的时长相似度;如所述时长相似度达到设定的阈值范围,执行步骤(3);否则,将所述待验视频插入到所述链表中;
(3)在所述的窗口内进一步计算其他元数据相似度,所述其他元数据包括:视频标题、标签、关键词、上传时间、文件大小,并结合所述时长相似度和所述其他元数据相似度,判定所述链表中是否已存在所述的待验视频;如所述链表中不存在所述的待验视频,将所述待验视频插入到所述链表中;否则,放弃该待验视频。
2.根据权利要求1所述的视频内容去重的处理方法,其特征在于,所述判定的方法为:
(1)对所述时长相似度和其他元数据相似度进行加权,得出总相似度;
(2)如所述总相似度达到设定的阈值范围,则所述链表中已存在所述的待验视频,否则,所述链表中不存在所述的待验视频。
3.根据权利要求1所述的视频内容去重的处理方法,其特征在于,所述窗口的设置方法包括:静态设置和动态设置;所述静态设置按时长或数量设置窗口;所述动态设置按链表不同区间视频数目和链表视频总数目,或链表密度,或待比较的视频时长设置窗口。
4.根据权利要求1所述的视频内容去重的处理方法,其特征在于,所述链表按所述视频的时长的粗细粒度进行排序形成多层桶结构,所述多层桶包括粗粒度桶和细粒度桶,该粗粒度桶由多个细粒度桶组成;每个粗粒度桶均按时长通过计数排序算法排序组成一个链表,所有细粒度桶按视频时长排序组成一个总链表。
CN201310221597.8A 2013-06-05 2013-06-05 一种视频内容去重的处理方法 Pending CN104216925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310221597.8A CN104216925A (zh) 2013-06-05 2013-06-05 一种视频内容去重的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310221597.8A CN104216925A (zh) 2013-06-05 2013-06-05 一种视频内容去重的处理方法

Publications (1)

Publication Number Publication Date
CN104216925A true CN104216925A (zh) 2014-12-17

Family

ID=52098420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310221597.8A Pending CN104216925A (zh) 2013-06-05 2013-06-05 一种视频内容去重的处理方法

Country Status (1)

Country Link
CN (1) CN104216925A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506933A (zh) * 2014-12-23 2015-04-08 方正宽带网络服务有限公司 一种校验视频文件是否相同的方法及装置
CN104809256A (zh) * 2015-05-22 2015-07-29 数据堂(北京)科技股份有限公司 一种数据去重方法及系统
CN105468755A (zh) * 2015-11-27 2016-04-06 东方网力科技股份有限公司 一种视频筛选存储方法和装置
CN105718524A (zh) * 2016-01-15 2016-06-29 合一网络技术(北京)有限公司 确定视频正本的方法和装置
CN106844670A (zh) * 2017-01-22 2017-06-13 微鲸科技有限公司 一种节目数据入库方法及装置
CN107193893A (zh) * 2017-05-03 2017-09-22 聚好看科技股份有限公司 处理视频资源的方法及装置
US20170293803A1 (en) * 2016-04-07 2017-10-12 Yandex Europe Ag Method and a system for comparing video files
CN107801091A (zh) * 2016-09-05 2018-03-13 工业和信息化部电信研究院 一种视频文件相似性识别方法和装置
CN108400970A (zh) * 2018-01-20 2018-08-14 西安电子科技大学 云环境中相似数据消息锁定加密去重方法、云存储系统
CN108419092A (zh) * 2018-04-19 2018-08-17 深圳大普微电子科技有限公司 一种确定相同视频的方法及装置
CN111382305A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频去重方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710563A (zh) * 2005-07-18 2005-12-21 北大方正集团有限公司 一种重要新闻事件检测和摘要的方法
CN101021904A (zh) * 2006-10-11 2007-08-22 鲍东山 视频内容分析系统
CN101493837A (zh) * 2009-02-25 2009-07-29 腾讯科技(深圳)有限公司 多页面浏览器中的网络视频的播放方法及处理装置
CN101634996A (zh) * 2009-08-13 2010-01-27 浙江大学 基于综合考量的个性化视频排序方法
WO2012096768A2 (en) * 2011-01-11 2012-07-19 Intel Corporation Method of detecting logos, titles, or sub-titles in video frames
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710563A (zh) * 2005-07-18 2005-12-21 北大方正集团有限公司 一种重要新闻事件检测和摘要的方法
CN101021904A (zh) * 2006-10-11 2007-08-22 鲍东山 视频内容分析系统
CN101493837A (zh) * 2009-02-25 2009-07-29 腾讯科技(深圳)有限公司 多页面浏览器中的网络视频的播放方法及处理装置
CN101634996A (zh) * 2009-08-13 2010-01-27 浙江大学 基于综合考量的个性化视频排序方法
WO2012096768A2 (en) * 2011-01-11 2012-07-19 Intel Corporation Method of detecting logos, titles, or sub-titles in video frames
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康浩 等: "面向内容监管的P2P-TV音视频数据还原与在线检测方法研究", 《计算机应用研究》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506933A (zh) * 2014-12-23 2015-04-08 方正宽带网络服务有限公司 一种校验视频文件是否相同的方法及装置
CN104506933B (zh) * 2014-12-23 2018-10-02 方正宽带网络服务有限公司 一种校验视频文件是否相同的方法及装置
CN104809256A (zh) * 2015-05-22 2015-07-29 数据堂(北京)科技股份有限公司 一种数据去重方法及系统
CN105468755A (zh) * 2015-11-27 2016-04-06 东方网力科技股份有限公司 一种视频筛选存储方法和装置
CN105718524A (zh) * 2016-01-15 2016-06-29 合一网络技术(北京)有限公司 确定视频正本的方法和装置
US20170293803A1 (en) * 2016-04-07 2017-10-12 Yandex Europe Ag Method and a system for comparing video files
CN107801091A (zh) * 2016-09-05 2018-03-13 工业和信息化部电信研究院 一种视频文件相似性识别方法和装置
CN107801091B (zh) * 2016-09-05 2020-06-19 工业和信息化部电信研究院 一种视频文件相似性识别方法和装置
CN106844670A (zh) * 2017-01-22 2017-06-13 微鲸科技有限公司 一种节目数据入库方法及装置
CN107193893A (zh) * 2017-05-03 2017-09-22 聚好看科技股份有限公司 处理视频资源的方法及装置
CN108400970A (zh) * 2018-01-20 2018-08-14 西安电子科技大学 云环境中相似数据消息锁定加密去重方法、云存储系统
CN108400970B (zh) * 2018-01-20 2020-10-02 西安电子科技大学 云环境中相似数据消息锁定加密去重方法、云存储系统
CN108419092A (zh) * 2018-04-19 2018-08-17 深圳大普微电子科技有限公司 一种确定相同视频的方法及装置
CN108419092B (zh) * 2018-04-19 2021-12-10 深圳大普微电子科技有限公司 一种确定相同视频的方法及装置
CN111382305A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频去重方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN104216925A (zh) 一种视频内容去重的处理方法
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN103399896B (zh) 识别用户间关联关系的方法及系统
CN104537341B (zh) 人脸图片信息获取方法和装置
CN105654201B (zh) 一种广告流量预测方法及装置
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN113454954A (zh) 社交数据流上的实时事件检测
CN104463177A (zh) 相似人脸图片获取方法和装置
US9183598B2 (en) Identifying event-specific social discussion threads
CN106528894B (zh) 设置标签信息的方法及装置
CN109426785A (zh) 一种人体目标身份识别方法及装置
WO2016101766A1 (zh) 相似人脸图片获取和人脸图片信息获取方法和装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
CN103177099B (zh) 视频比对方法及系统
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN104346411B (zh) 对多个稿件进行聚类的方法和设备
CN104598932B (zh) 一种基于事件信息的照片分类方法及系统
CN106886783B (zh) 一种基于区域特征的图像检索方法及系统
CN106570003B (zh) 数据推送方法及装置
CN114286198B (zh) 一种视频关联方法、装置、电子设备和存储介质
CN104866818A (zh) 一种用于搜索包含人脸的图片的方法和装置
CN107203561B (zh) 一种数据处理方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141217

RJ01 Rejection of invention patent application after publication