CN108875062B - 一种重复视频的确定方法及装置 - Google Patents

一种重复视频的确定方法及装置 Download PDF

Info

Publication number
CN108875062B
CN108875062B CN201810706019.6A CN201810706019A CN108875062B CN 108875062 B CN108875062 B CN 108875062B CN 201810706019 A CN201810706019 A CN 201810706019A CN 108875062 B CN108875062 B CN 108875062B
Authority
CN
China
Prior art keywords
video
information
video information
videos
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810706019.6A
Other languages
English (en)
Other versions
CN108875062A (zh
Inventor
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810706019.6A priority Critical patent/CN108875062B/zh
Publication of CN108875062A publication Critical patent/CN108875062A/zh
Application granted granted Critical
Publication of CN108875062B publication Critical patent/CN108875062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种重复视频的确定方法及装置,可以获取至少两个视频各自对应的至少两种视频信息;比较所述至少两个视频的所述至少两种视频信息,获得比较结果;根据所述比较结果确定所述至少两个视频中的重复视频。本发明可以通过获得各视频的至少两种视频信息,并将所述至少两种视频信息分别进行对比,从而确定各视频之间的相似度,并根据比较结果确定各视频中的重复视频。本发明不需要下载视频源,节省了大量资源,根据至少两种视频信息进行对比,减少了计算量,还可以对重复视频进行去重,仅保留其中一个视频,使用户能够得到更多样化的结果,提升了用户的体验效果。

Description

一种重复视频的确定方法及装置
技术领域
本发明涉及视频处理领域,特别涉及一种重复视频的确定方法及装置。
背景技术
随着互联网的发展,用户越来越频繁的在网络中搜索视频进行观看。
在用户搜索视频时,搜索结果中可能会存在较多的重复视频,这些重复视频占据了搜索结果展示空间,需要去除。
现有的视频去重方案需要获得各视频的视频数据(如下载各视频),并根据获得的视频数据生成哈希值,从而通过哈希值进行视频的比对,确定重复视频。但每个视频的视频数据量巨大(例如1GB),获得各视频的视频数据需要耗费较多的网络资源和时间,同时,生成哈希值的过程也需要耗费较多的计算资源。
发明内容
有鉴于此,本发明提供一种重复视频的确定方法及装置。
为了实现上述发明目的,本发明提供以下技术方案:
一种重复视频的确定方法,包括:
获取至少两个视频各自对应的至少两种视频信息;
比较所述至少两个视频的所述至少两种视频信息,获得比较结果;
根据所述比较结果确定所述至少两个视频中的重复视频。
可选的,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息;
在第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
在第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
在第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
将所述重复视频组确定为比较结果。
可选的,所述根据所述比较结果确定所述至少两个视频中的重复视频,包括:
将所述重复视频组中的视频确定为重复视频。
可选的,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
对所述至少两种视频信息中的每一种视频信息:确定所述至少两个视频中各视频的该种视频信息之间是否满足与该种视频信息对应的条件,将确定结果作为比较结果。
可选的,所述根据所述比较结果确定所述至少两个视频中的重复视频,包括:
将彼此的所述至少两种视频信息中的各种视频信息均满足对应的条件的视频确定为重复视频。
可选的,所述至少两种视频信息包括:
视频标题、视频时长、视频发布时间和视频缩略图中的至少两种。
可选的,在所述至少两种视频信息包括视频标题时,在所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果之前,所述方法还包括:对获取的每个视频的视频标题:
对该视频的视频标题进行分词,获得多个词组;
将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
将所述字符串确定为该视频的视频标题。
可选的,在所述至少两种视频信息包括视频缩略图时,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
计算获取的各视频缩略图的哈希值;
比较获取的各视频缩略图的哈希值,获得缩略图比较结果。
一种重复视频的确定装置,所述重复视频的确定装置包括:信息获取模块、信息对比模块和重复视频确定模块;
所述信息获取模块用于获取至少两个视频各自对应的至少两种视频信息;
所述信息对比模块用于比较所述至少两个视频的所述至少两种视频信息,获得比较结果;
所述重复视频确定模块用于根据所述比较结果确定所述至少两个视频中的重复视频。
可选的,所述信息对比模块包括:信息选取子模块、视频组确定子模块和结果确定子模块;
所述信息选取子模块,用于按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息后;
所述视频组确定子模块,用于在所述信息选取子模块选取的第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
所述结果确定子模块,用于将所述重复视频组确定为比较结果。
可选的,所述至少两种视频信息包括:视频标题、视频时长、视频发布时间和视频缩略图中的至少两种,
所述重复视频的确定装置还包括:分词处理模块、字符串处理模块和标题确定模块;
所述分词处理模块,用于在所述至少两种视频信息包括视频标题时,在所述信息对比模块比较所述至少两个视频的所述至少两种视频信息,获得比较结果之前,对获取的每个视频的视频标题:对该视频的视频标题进行分词,获得多个词组;
所述字符串处理模块,用于将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
所述标题确定模块,用于将所述字符串确定为该视频的视频标题。
本发明实施例提供的一种重复视频的确定方法及装置,可以通过获取各视频的至少两个视频信息,并将所述至少两个视频信息分别进行对比,从而得到所述各视频之间的相似度,从而确定各视频中的重复视频,若有需要,还可以进一步保留重复视频中的一个,将其余的重复视频进行去重,使用户在使用中能够得到更多样化的结果,从而提高用户的体验效果,不需要下载视频源,节约了大量资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种重复视频的确定方法的流程图;
图2为本发明实施例提供的一种重复视频的确定装置的结构示意图。
具体实施方式
本发明公开了一种重复视频的确定方法及装置,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
如图1所示,本发明实施例提供的一种重复视频的确定方法,可以包括:
S100、获取至少两个视频各自对应的至少两种视频信息。
具体的,本发明实施例可以应用于在进行视频搜索时对搜索结果进行去重处理。在实际应用中,本发明实施例可以在进行搜索时,获取搜索结果中各视频的视频信息,并根据各视频的视频信息确定各视频中的重复视频,进而对重复视频进行去重。
具体的,本发明还可以提前将能够获取的视频的各视频信息保存到数据库。在实际搜索过程中,本发明可以直接从数据库中得到视频的视频信息,根据得到的视频信息进行对比以及视频去重的处理,并将处理完成的结果作为搜索结果返回给搜索服务端。
具体的,上述至少两种视频信息可以包括:
视频标题、视频时长、视频发布时间和视频缩略图中的至少两种。
S200、比较所述至少两个视频的所述至少两种视频信息,获得比较结果。
具体的,本发明实施例可以将获取的各视频的所述至少两种视频信息进行对比,从而根据对比结果确定所述各视频之间的相似度,并获得比较的结果。
具体的,步骤S200在对至少两个视频的某种视频信息进行比较时,可以将各视频的该种视频信息进行两两比较,也可以选择某视频的该种视频信息作为基准信息,然后将其他视频的该种视频信息分别与该基准信息进行比较。其中,在选择基准信息时,可以首先按照某种排序方式对各视频进行排序,然后根据排序选择某视频的该种视频信息作为基准信息,例如:选择排序第一的视频的该种视频信息作为基准信息。当然,在本发明其他实施例中,还可以使用其他的视频比较方式,本发明在此不做限定。
其中,步骤S200可以有多种具体执行方式,下面示例性提供其中两种:
方式一、步骤S200可以具体包括:
按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息;
在第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
在第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
在第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
将所述重复视频组确定为比较结果。
可选的,每种视频信息可以均对应一种对比的条件,即:第i种视频信息对应第i条件。本发明实施例在进行至少两种的视频信息的比较时,可以先将获得的至少两种视频信息进行排序,本发明实施例对所述至少两种的视频信息的比较方式可以有多种。在对比各视频对应的第i种视频信息时,则判断所述各视频对应的第i种视频信息是否满足第i条件,若满足,则可以认为满足第i条件的各视频的第i种视频信息相同。本发明实施例以第i种视频信息为基准将满足第i条件的各视频确定为一个分组,即待比较视频组,依次按照所述预设的视频信息比较序列将获得的各视频对应的视频信息进行对比,每将一种视频信息对比一次,均按照对应的条件对上次对比得到的每个待比较视频组:根据另一种视频信息将该待比较视频组中的视频进行再次分组,最后得到至少一个重复视频组,继而将所述重复视频组确定为比较结果。本发明按照排序对各视频信息进行比较,减少了比较的数据量,加快了视频比较速度。
具体的,在实际应用中,本发明可以采用多种方式对获取的各视频的视频信息进行对比。本发明实施例中将各视频的相同的视频信息之间进行两两对比,此外,在本发明其他的实施例中,还可以在进行分组后对每个分组:将该分组中的一个视频作为基准视频,将基准视频的视频信息作为基准信息,并将该分组内的其余视频的视频信息分别与基准视频的视频信息进行对比,获得对比结果。
具体的,本发明实施例将以具体举例对方式一进行说明。
例如,本发明实施例获取视频1至视频8八个视频各自对应的A、B、C和D四种视频信息。
首先,本发明实施例将所述八个视频分别对应的视频信息A进行两两之间的对比,在视频1至视频4所对应的视频信息A相同,且视频5至视频8所对应的视频信息A相同时,可以获得两个待比较视频组,将视频1至视频4确定为一个分组,将视频5至视频8确定为一个分组。
其次,本发明实施例对根据视频信息A对比得到的各分组中的每个分组:将该分组内各视频的视频信息B进行两两对比,根据对比结果进一步进行分组,即:视频1至视频4的视频信息B进行两两之间的对比,视频5至视频8的视频信息B进行两两之间的对比。在视频1和视频2各自对应的视频信息A和视频信息B均相同,且视频3和视频4各自对应的视频信息A和视频信息B均相同,且视频5至视频8各自对应的视频信息A和视频信息B均相同时,根据对比结果本发明进一步进行分组可以获得三个分组,即:视频1和视频2为一个分组,视频3和视频4为一个分组,视频5至视频8仍为一个分组。
再次,对根据视频信息B对比得到的各分组中的每个分组:将该分组内各视频的视频信息C进行两两对比,根据对比结果进一步进行分组,即:视频1和视频2的视频信息C进行两两之间的对比,视频3和视频4的视频信息C进行两两之间的对比,视频5至视频8的视频信息C进行两两之间的对比。在如下情况下:
视频1和视频2分别对应的视频信息A和视频信息B均相同,但视频1和视频2分别对应的视频信息C不同;视频3和视频4各自对应的视频信息A、视频信息B和视频信息C均相同;视频5至视频8各自对应的视频信息A、视频信息B和视频信息C均相同;
本发明可以根据对比结果本发明进一步进行分组可以获得四个分组,即:视频1为一个分组,视频2为一个分组,视频3和视频4为一个分组,视频5至视频8仍为一个分组。可以理解的是,视频1和视频2分别对应的视频信息A和视频信息B均相同,但视频1和视频2分别对应的视频信息C不同,因此视频1和视频2被分为两个分组。视频3和视频4各自对应的视频信息A、视频信息B和视频信息C均相同,因此继续作为一个分组。同理,视频5至视频8各自对应的视频信息A、视频信息B和视频信息C均相同,继续作为一个分组。
最后,对根据视频信息C对比得到的各分组中的每个分组:将该分组内各视频的视频信息D进行两两对比,根据对比结果进一步进行分组。对于只包含一个视频的分组,可以确定该分组内的视频不存在重复视频,可以不进行视频信息D的对比及进一步分组(由于只包含一个视频,因此也无法进行视频信息D的对比及进一步分组)。因此,只需对视频3、视频4所在的分组,以及视频5至视频8所在的分组中的视频的视频信息D进行对比并进一步分组。即:视频3和视频4的视频信息D进行两两之间的对比,视频5至视频8的视频信息D进行两两之间的对比。
根据对比结果本发明对视频3、视频4所在的分组,以及视频5至视频8所在的分组进一步进行分组可以获得三个分组,即:视频3和视频4为一个分组,视频5至视频7为一个分组,视频8为一个分组。可以理解的是,视频3和视频4各自对应的视频信息A、视频信息B、视频信息C和视频D均相同,视频5至视频7各自对应的视频信息A、视频信息B、视频信息C和视频信息D均相同,视频5至视频7各自对应的视频信息D与视频8对应的视频信息D不同。上述三个分组以及视频1和视频2所在的两个分组即为本发明实施例的最后的分组结果,即:视频1为一个分组,视频2为一个分组,视频3和视频4为一个分组,视频5至视频7为一个分组,视频8为一个分组。
对于五个分组的每个分组:本发明实施例可以确定该分组内的视频为重复视频。在后续去重处理中,本发明可以将每个分组中多余的视频去除,每个分组中只需保留一个视频即可。
本发明实施例在进行视频之间的对比时,可以将每个分组内的视频进行对比,不需要将获得的所有视频的各视频信息进行两两对比,减少了计算量,不需要下载视频,节省了大量资源。
方式二、步骤S200可以具体包括:
对所述至少两种视频信息中的每一种视频信息:确定所述至少两个视频中各视频的该种视频信息之间是否满足与该种视频信息对应的条件,将确定结果作为比较结果。
方式二与方式一的区别在于,方式二对每个视频的每种视频信息都进行了两两对比。
其中,不同的视频信息的比较方式可以相同或不同,在本发明其他实施例中,在获取视频信息后,可以首先对视频信息进行一些处理,然后使用处理后得到的信息进行比较即可。例如:在所述至少两种视频信息包括视频标题时,在执行步骤S200之前,本发明图1所示方法还可以包括:对获取的每个视频的视频标题:
对该视频的视频标题进行分词,获得多个词组;
将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
将所述字符串确定为该视频的视频标题。
这样,本发明通过对比字符串就可以实现视频标题的对比。其中,预设类型的词组可以为连词、介词、助词、标点等。词组排列顺序可以以拼音字母顺序为依据,也可以以其他排列方式进行排列,本发明在此不做限定。
本发明实施例通过将标题进行处理得到新的字符串后再进行对比,可以减少在对比过程中的计算量。
再如:对于视频缩略图,本发明可以首先获取缩略图的哈希值,在对比时只需要比较获取的各视频缩略图的哈希值并获得缩略图比较结果即可,更加方便。因此,在所述至少两种视频信息包括视频缩略图时,步骤S200可以包括:
计算获取的各视频缩略图的哈希值;
比较获取的各视频缩略图的哈希值,获得缩略图比较结果。
在对比所述缩略图的哈希值时,可以使用汉明距离算法计算各哈希值之间的比值,从而确定各缩略图之间的相似度。
S300、根据所述比较结果确定所述至少两个视频中的重复视频。
其中,在步骤S200按照上述方式一执行时,步骤S300可以具体包括:将所述重复视频组中的视频确定为重复视频。
其中,在步骤S200按照上述方式二执行时,步骤S300可以具体包括:
将彼此的所述至少两种视频信息中的各种视频信息均满足对应的条件的视频确定为重复视频。
本发明实施例在得到所述重复视频组之后,可以将重复视频组中的视频确定为重复视频,在实际应用中本发明实施例可以对每个重复视频组中的视频进行去重处理,仅保留其中的一个视频,将其余的视频删除,从而提高用户的体验效果。
本发明实施例提供的一种重复视频的确定方法,可以通过获取各视频的至少两个视频信息,并将所述至少两个视频信息分别进行对比,从而得到所述各视频之间的相似度,从而确定各视频中的重复视频,若有需要,还可以进一步保留重复视频中的一个,将其余的重复视频进行去重,使用户在使用中能够得到更多样化的结果,从而提高用户的体验效果,不需要下载视频源,节约了大量资源。
下面对本发明的一种可选实施例进行举例说明。
假设有三个视频,分别为视频1至视频3,其中,这三个视频的视频信息为:
视频1、标题:韩国韩语版小苹果_标清,时长:209秒,发布时间:2017-05-08;
视频2、标题:韩国韩语版小苹果高清,时长:205秒,发布时间:2017-05-18;
视频3、标题:韩国韩语版小苹果_超清,时长:210秒,发布时间:2017-08-09。
则本发明可以获得这三个视频的标题、时长和发布时间,然后通过如下步骤依次进行对比。
步骤一、对视频的标题进行分词处理、删除预设类型词组处理和排列处理,获得三个视频的视频标题对应的字符串均为:苹果韩国韩语。
通过对比三个视频的视频标题对应的字符串,可以将这三个视频分为一个分组。
步骤二、对步骤一中的每个分组:将该分组中的各视频的时长进行对比。具体的,在进行对比时,可以以视频1的时长为依据,将视频1分别与视频2、视频3进行对比并判断视频2、视频3的时长是否在视频1的时长的一定比例范围(如95%至105%)之内。通过对比可以确定视频2和视频3的时长均在视频1的时长的95%至105%之内,因此可以继续将这三个视频作为一个分组。
步骤三、对步骤二中的每个分组,将该分组中的各视频的发布时间进行对比。具体的,在进行对比时,可以以视频1的发布时间为依据,将视频2和视频3的发布时间分别与视频1的发布时间对比,确定发布时间间隔是否在预设范围内。假设预设范围为一个月,则可以将视频1和视频2确定为一个分组,视频3为一个分组。这样,本发明就可以确定视频1和视频2为重复视频,可以去除其中的一个。
与上述方法实施例相对应,本发明实施例还提供了一种重复视频的确定装置。
如图2所示,本发明实施例提供的一种重复视频的确定装置,可以包括:信息获取模块100、信息对比模块200和重复视频确定模块300;
所述信息获取模块100用于获取至少两个视频各自对应的至少两种视频信息;
具体的,本发明实施例可以应用于在进行视频搜索时对搜索结果进行去重处理。在实际应用中,本发明实施例的重复视频的确定装置可以从进行搜索后的搜索结果中获取各视频的视频信息,并根据各视频的视频信息确定各视频中的重复视频,进而对重复视频进行去重。
具体的,本发明还可以提前将能够获取的视频的各视频信息保存到数据库。在实际搜索过程中,本发明实施例提供的重复视频的确定装置可以直接从数据库中得到视频的视频信息,根据得到的视频信息进行对比以及视频去重的处理,并将处理完成的结果作为搜索结果返回给搜索服务端。
具体的,上述至少两种视频信息可以包括:
视频标题、视频时长、视频发布时间和视频缩略图中的至少两种。
所述信息对比模块200用于比较所述至少两个视频的所述至少两种视频信息,获得比较结果;
具体的,本发明实施例可以将获取的各视频的所述至少两种视频信息进行对比,从而根据对比结果确定所述各视频之间的相似度,并获得比较的结果。
具体的,信息对比模块200在对至少两个视频的某种视频信息进行比较时,可以将各视频的该种视频信息进行两两比较,也可以选择某视频的该种视频信息作为基准信息,然后将其他视频的该种视频信息分别与该基准信息进行比较。其中,在选择基准信息时,可以首先按照某种排序方式对各视频进行排序,然后根据排序选择某视频的该种视频信息作为基准信息,例如:选择排序第一的视频的该种视频信息作为基准信息。当然,在本发明其他实施例中,还可以使用其他的视频比较方式,本发明在此不做限定。
其中,信息对比模块200可以有多种配置方式,下面示例性提供其中两种:
方式一、信息对比模块200可以具体包括:信息选取子模块、视频组确定子模块和结果确定子模块;
所述信息选取子模块,用于按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息后;
所述视频组确定子模块,用于在所述信息选取子模块选取的第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
所述结果确定子模块,用于将所述重复视频组确定为比较结果。
可选的,每种视频信息可以均对应一种对比的条件,即:第i种视频信息对应第i条件。本发明实施例在进行至少两种的视频信息的比较时,可以先将获得的至少两种视频信息进行排序,本发明实施例对所述至少两种的视频信息的比较方式可以有多种。在对比各视频对应的第i种视频信息时,则判断所述各视频对应的第i种视频信息是否满足第i条件,若满足,则可以认为满足第i条件的各视频的第i种视频信息相同。本发明实施例以第i种视频信息为基准将满足第i条件的各视频确定为一个分组,即待比较视频组,依次按照所述预设的视频信息比较序列将获得的各视频对应的视频信息进行对比,每将一种视频信息对比一次,均按照对应的条件对上次对比得到的每个待比较视频组:根据另一种视频信息将该待比较视频组中的视频进行再次分组,最后得到至少一个重复视频组,继而将所述重复视频组确定为比较结果。本发明按照排序对各视频信息进行比较,减少了比较的数据量,加快了视频比较速度。
本发明实施例在进行视频之间的对比时,可以将每个分组内的视频进行对比,不需要将获得的所有视频的各视频信息进行两两对比,减少了计算量,不需要下载视频,节省了大量资源。
方式二、信息对比模块200可以具体用于:对所述至少两种视频信息中的每一种视频信息:确定所述至少两个视频中各视频的该种视频信息之间是否满足与该种视频信息对应的条件,将确定结果作为比较结果。
方式二与方式一的区别在于,方式二对每个视频的每种视频信息都进行了两两对比。
其中,不同的视频信息的比较方式可以相同或不同,在本发明其他实施例中,在获取视频信息后,可以首先对视频信息进行一些处理,然后使用处理后得到的信息进行比较即可。
例如:本发明实施例提供的一种重复视频的确定装置还可以包括:分词处理模块、字符串处理模块和标题确定模块;
所述分词处理模块,用于在所述至少两种视频信息包括视频标题时,在所述信息对比模块200比较所述至少两个视频的所述至少两种视频信息,获得比较结果之前,对获取的每个视频的视频标题:对该视频的视频标题进行分词,获得多个词组;
所述字符串处理模块,用于将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
所述标题确定模块,用于将所述字符串确定为该视频的视频标题。
这样,本发明通过对比字符串就可以实现视频标题的对比。其中,预设类型的词组可以为连词、介词、助词、标点等。词组排列顺序可以以拼音字母顺序为依据,也可以以其他排列方式进行排列,本发明在此不做限定。
本发明实施例通过将标题进行处理得到新的字符串后再进行对比,可以减少在对比过程中的计算量。
再如:对于视频缩略图,本发明可以首先获取缩略图的哈希值,在对比时只需要比较获取的各视频缩略图的哈希值并获得缩略图比较结果即可,更加方便。因此,信息对比模块200可以包括:哈希值计算子模块和比值计算子模块;
哈希值计算子模块,用于计算获取的各视频缩略图的哈希值;
比值计算子模块,用于比较获取的各视频缩略图的哈希值,获得缩略图比较结果。
所述重复视频确定模块300用于根据所述比较结果确定所述至少两个视频中的重复视频。
其中,在信息对比模块200配置为方式一时,重复视频确定模块300可以具体设置为:将所述重复视频组中的视频确定为重复视频。
其中,在信息对比模块200配置为方式二时,重复视频确定模块300可以具体设置为:
将彼此的所述至少两种视频信息中的各种视频信息均满足对应的条件的视频确定为重复视频。
本发明实施例在得到所述重复视频组之后,可以将重复视频组中的视频确定为重复视频,在实际应用中本发明实施例可以对每个重复视频组中的视频进行去重处理,仅保留其中的一个视频,将其余的视频删除,从而提高用户的体验效果。
本发明实施例提供的一种重复视频的确定装置,可以通过获取各视频的至少两个视频信息,并将所述至少两个视频信息分别进行对比,从而得到所述各视频之间的相似度,从而确定各视频中的重复视频,若有需要,还可以进一步保留重复视频中的一个,将其余的重复视频进行去重,使用户在使用中能够得到更多样化的结果,从而提高用户的体验效果,不需要下载视频源,节约了大量资源。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于系统实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种重复视频的确定方法,其特征在于,所述方法包括:
获取至少两个视频各自对应的至少两种视频信息;
比较所述至少两个视频的所述至少两种视频信息,获得比较结果;
根据所述比较结果确定所述至少两个视频中的重复视频;
其中,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
在各所述视频信息中选取任一视频信息作为基准信息,依据所述基准信息对各视频进行分组,得到待比较视频组;
重复的以各所述视频信息中尚未作为基准信息使用的任一视频信息作为基准信息对各所述待比较视频组进行分组,直至遍历全部所述视频信息,得到比较结果。
2.根据权利要求1所述的方法,其特征在于,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息;
在第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
在第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
在第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
将所述重复视频组确定为比较结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述比较结果确定所述至少两个视频中的重复视频,包括:
将所述重复视频组中的视频确定为重复视频。
4.根据权利要求1所述的方法,其特征在于,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
对所述至少两种视频信息中的每一种视频信息:确定所述至少两个视频中各视频的该种视频信息之间是否满足与该种视频信息对应的条件,将确定结果作为比较结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述比较结果确定所述至少两个视频中的重复视频,包括:
将彼此的所述至少两种视频信息中的各种视频信息均满足对应的条件的视频确定为重复视频。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述至少两种视频信息包括:
视频标题、视频时长、视频发布时间和视频缩略图中的至少两种。
7.根据权利要求6所述的方法,其特征在于,在所述至少两种视频信息包括视频标题时,在所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果之前,所述方法还包括:对获取的每个视频的视频标题:
对该视频的视频标题进行分词,获得多个词组;
将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
将所述字符串确定为该视频的视频标题。
8.根据权利要求6所述的方法,其特征在于,在所述至少两种视频信息包括视频缩略图时,所述比较所述至少两个视频的所述至少两种视频信息,获得比较结果,包括:
计算获取的各视频缩略图的哈希值;
比较获取的各视频缩略图的哈希值,获得缩略图比较结果。
9.一种重复视频的确定装置,其特征在于,所述重复视频的确定装置包括:信息获取模块、信息对比模块和重复视频确定模块;
所述信息获取模块用于获取至少两个视频各自对应的至少两种视频信息;
所述信息对比模块用于比较所述至少两个视频的所述至少两种视频信息,获得比较结果;
所述重复视频确定模块用于根据所述比较结果确定所述至少两个视频中的重复视频;
其中,所述信息对比模块用于比较所述至少两个视频的所述至少两种视频信息,获得比较结果时,具体包括:
在各所述视频信息中选取任一视频信息作为基准信息,依据所述基准信息对各视频进行分组,得到待比较视频组;
重复的以各所述视频信息中尚未作为基准信息使用的任一视频信息作为基准信息对各所述待比较视频组进行分组,直至遍历全部所述视频信息,得到比较结果。
10.根据权利要求9所述的重复视频的确定装置,其特征在于,所述信息对比模块包括:信息选取子模块、视频组确定子模块和结果确定子模块;
所述信息选取子模块,用于按照预设的视频信息比较序列,依次选取所述序列中的第i种视频信息,其中,第i种视频信息为所述序列中排序为i的视频信息后;
所述视频组确定子模块,用于在所述信息选取子模块选取的第i种视频信息为第一种视频信息的情况下,确定所述至少两个视频各自对应的第一种视频信息之间是否满足第一条件,将彼此的第一种视频信息均满足所述第一条件的各视频确定为一个待比较视频组;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第二种视频信息至第N-1种视频信息中的任意一种视频信息时,对每个根据第i-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第i种视频信息之间是否满足第i条件,将该待比较视频组中彼此的第i种视频信息均满足所述第i条件的各视频分别确定为一个待比较视频组,其中,i为自然数;
所述视频组确定子模块,还用于在所述信息选取子模块选取的第i种视频信息为第N种视频信息时,对每个根据第N-1种视频信息确定的待比较视频组:确定该待比较视频组中的各视频各自对应的第N种视频信息之间是否满足第N条件,将该待比较视频组中彼此的第N种视频信息均满足所述第N条件的各视频分别确定为一个重复视频组,其中,N为自然数;
所述结果确定子模块,用于将所述重复视频组确定为比较结果。
11.根据权利要求9所述的重复视频的确定装置,其特征在于,所述至少两种视频信息包括:视频标题、视频时长、视频发布时间和视频缩略图中的至少两种,
所述重复视频的确定装置还包括:分词处理模块、字符串处理模块和标题确定模块;
所述分词处理模块,用于在所述至少两种视频信息包括视频标题时,在所述信息对比模块比较所述至少两个视频的所述至少两种视频信息,获得比较结果之前,对获取的每个视频的视频标题:对该视频的视频标题进行分词,获得多个词组;
所述字符串处理模块,用于将获得的多个词组中词组类型为预设类型的词组删除,按照预设排列顺序将剩余的词组进行排列,获得字符串;
所述标题确定模块,用于将所述字符串确定为该视频的视频标题。
CN201810706019.6A 2018-06-26 2018-06-26 一种重复视频的确定方法及装置 Active CN108875062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810706019.6A CN108875062B (zh) 2018-06-26 2018-06-26 一种重复视频的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810706019.6A CN108875062B (zh) 2018-06-26 2018-06-26 一种重复视频的确定方法及装置

Publications (2)

Publication Number Publication Date
CN108875062A CN108875062A (zh) 2018-11-23
CN108875062B true CN108875062B (zh) 2021-07-23

Family

ID=64297766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810706019.6A Active CN108875062B (zh) 2018-06-26 2018-06-26 一种重复视频的确定方法及装置

Country Status (1)

Country Link
CN (1) CN108875062B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413603B (zh) * 2019-08-06 2023-02-24 北京字节跳动网络技术有限公司 重复数据的确定方法、装置、电子设备及计算机存储介质
CN111294613A (zh) * 2020-02-20 2020-06-16 北京奇艺世纪科技有限公司 一种视频处理方法、客户端、服务器
CN111274446A (zh) * 2020-03-02 2020-06-12 Oppo广东移动通信有限公司 视频处理方法及相关装置
CN112487943B (zh) * 2020-11-25 2023-06-27 北京有竹居网络技术有限公司 关键帧去重的方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385603A (zh) * 2010-09-02 2012-03-21 腾讯科技(深圳)有限公司 视频过滤方法和装置
CN103678527A (zh) * 2013-12-02 2014-03-26 Tcl集团股份有限公司 一种基于视频标题和内容的视频过滤方法和系统
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
CN105138549A (zh) * 2015-07-13 2015-12-09 无锡天脉聚源传媒科技有限公司 一种关键词处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8718448B2 (en) * 2011-05-04 2014-05-06 Apple Inc. Video pictures pattern detection
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置
WO2014067063A1 (zh) * 2012-10-30 2014-05-08 华为技术有限公司 重复数据检索方法及设备
CN103297851B (zh) * 2013-05-16 2016-04-13 中国科学院自动化研究所 长视频中目标内容的快速统计与自动审核方法及装置
CN104268137A (zh) * 2013-07-31 2015-01-07 深圳市华傲数据技术有限公司 一种药品名称数据匹配方法和装置
CN103699575A (zh) * 2013-11-29 2014-04-02 北京中科模识科技有限公司 基于关键特征的大规模编目模版迁移方法及系统
CN105989033A (zh) * 2015-02-03 2016-10-05 北京中搜网络技术股份有限公司 一种基于资讯指纹的资讯去重方法
CN105491395B (zh) * 2015-12-09 2019-05-07 福建天晴数码有限公司 服务器视频管理方法及系统
CN105718524A (zh) * 2016-01-15 2016-06-29 合一网络技术(北京)有限公司 确定视频正本的方法和装置
EP3405889A4 (en) * 2016-01-21 2019-08-28 Wizr LLC DEMATERIALIZED PLATFORM WITH SYNCHRONIZATION OF MULTIPLE CAMERAS
CN106557545B (zh) * 2016-10-19 2020-08-07 北京小度互娱科技有限公司 视频检索方法和装置
CN106570466B (zh) * 2016-11-01 2020-09-11 金鹏电子信息机器有限公司 视频分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385603A (zh) * 2010-09-02 2012-03-21 腾讯科技(深圳)有限公司 视频过滤方法和装置
CN103678527A (zh) * 2013-12-02 2014-03-26 Tcl集团股份有限公司 一种基于视频标题和内容的视频过滤方法和系统
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
CN105138549A (zh) * 2015-07-13 2015-12-09 无锡天脉聚源传媒科技有限公司 一种关键词处理方法及装置

Also Published As

Publication number Publication date
CN108875062A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875062B (zh) 一种重复视频的确定方法及装置
US9195738B2 (en) Tokenization platform
US9230218B2 (en) Systems and methods for recognizing ambiguity in metadata
CN1975721B (zh) 用于管理内容文件信息的方法和装置
KR20080031262A (ko) 관계 네트워크
CN108846016B (zh) 一种面向中文分词的搜索算法
JP2009537901A (ja) 検索による注釈付与
US20070208733A1 (en) Query Correction Using Indexed Content on a Desktop Indexer Program
CN106469097B (zh) 一种基于人工智能的召回纠错候选的方法和装置
US20180143979A1 (en) Method for segmenting and indexing features from multidimensional data
CN108427767B (zh) 一种知识主题和资源文件的关联方法
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
CN108959359B (zh) 一种统一资源定位符语义去重方法、装置、设备和介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
KR101358793B1 (ko) 인덱스 파일 생성방법, 사전 인덱스 파일을 이용한 데이터 검색 방법 및 데이터 관리 시스템, 기록매체
CN106294784B (zh) 资源搜索方法及装置
KR20090010752A (ko) 연관 데이터 클래스 생성 방법 및 시스템
US9256644B1 (en) System for identifying and investigating shared and derived content
US9020995B2 (en) Hybrid relational, directory, and content query facility
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质
US11593439B1 (en) Identifying similar documents in a file repository using unique document signatures
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant