CN109492127A - 数据处理方法、装置、介质和计算设备 - Google Patents

数据处理方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN109492127A
CN109492127A CN201811342316.3A CN201811342316A CN109492127A CN 109492127 A CN109492127 A CN 109492127A CN 201811342316 A CN201811342316 A CN 201811342316A CN 109492127 A CN109492127 A CN 109492127A
Authority
CN
China
Prior art keywords
characteristic value
video data
video
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811342316.3A
Other languages
English (en)
Inventor
向博仁
许盛辉
刘彦东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Media Technology Beijing Co Ltd
Original Assignee
Netease Media Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Media Technology Beijing Co Ltd filed Critical Netease Media Technology Beijing Co Ltd
Priority to CN201811342316.3A priority Critical patent/CN109492127A/zh
Publication of CN109492127A publication Critical patent/CN109492127A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提供了一种数据处理方法,包括:获取视频数据;对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。本发明的方法可以通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,从而显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。此外,本发明实施方式还提供了一种数据处理装置、计算设备和介质。

Description

数据处理方法、装置、介质和计算设备
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及一种数据处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着科学技术的快速发展,越来越多地视频软件应用于生活和工作等诸多场景。例如,随着视频分享、视频直播、视频点播、视频推荐等网络视频服务的兴起和发展,越来越多的用户将自己拍摄或者编辑的视频上传到视频网站上用以分享。然而,由于网络上的视频内容很容易被复制或编辑,导致视频网站上会出现大量的由不同用户上传的相同或相似的视频。因此,如何有效地对网站上的视频进行管理,对上传的视频进行有效筛选以剔除相同或相似的视频成为亟待解决的问题。
目前,已经出现一些全局特征检索或者局部特征检索的视频筛选方法,例如,先通过颜色直方图、累计直方图或者sift特征等方法获取视频帧特征,然后基于全部帧特征或者关键帧对应的帧特征构建正排索引,上传的视频可以依次与正排索引中的各个视频对应的帧特征进行相似度比较,从而实现视频筛选。
发明内容
但是,在现有技术中,获取帧特征的方法计算量普遍非常大,同时正排索引的构建异常麻烦,在正排索引中查找相似视频的计算量也十分大,无法实现快速查找。同时,在构建索引时,如果基于全部帧特征构建索引则需要极大的存储空间,如果基于关键帧特征构建索引则对关键帧选取的要求又很高,经常出现漏选关键帧或者关键帧错位等问题。
为此,非常需要一种改进的数据处理方法,以实现快速准确地视频查找。
在本上下文中,本发明的实施方式期望提供一种数据处理方法、装置、介质和计算设备。
在本发明实施方式的第一方面中,提供了一种数据处理方法,包括:获取视频数据,对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据,获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据,以及基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。
在本发明的一个实施例中,上述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。
在本发明的一个实施例中,上述方法还包括:根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值,以及以所述采样特征值作为所述特征值中的特定特征值。
在本发明的一个实施例中,上述根据预设规则对所述特征值进行采样处理,包括:确定所述特征值对应的MD5值,对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。
在本发明的一个实施例中,上述方法还包括:确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。
在本发明的一个实施例中,上述方法还包括:基于所述视频数据对应的特征值与所述相似视频数据对应的特征值,确定所述视频数据与所述相似视频数据的最长公共子序列,以及基于所述最长公共子序列确定所述视频数据与所述相似视频数据的相似度。
在本发明的一个实施例中,上述方法还包括:在所述视频数据与所述相似视频数据的相似度满足相似度阈值的情况下,将所述视频数据对应的特征值加入正排索引中,所述正排索引包括多个其他视频数据的标识数据以及所述标识数据对应的多个特征值。
在本发明的一个实施例中,上述倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,所述多个其他视频数据对应的采样特征值包括每个其他视频数据根据所述预设规则对其多个特征值进行采样处理后的得到的采样特征值。
在本发明的一个实施例中,上述方法还包括:基于所述视频数据以及所述视频数据对应的采样特征值更新所述倒排索引。
在本发明实施方式的第二方面中,提供了一种数据处理装置,包括第一获取模块、处理模块、第二获取模块和第一确定模块。其中,第一获取模块获取视频数据。处理模块对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据。第二获取模块获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据。第一确定模块基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。
在本发明的一个实施例中,上述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。
在本发明的一个实施例中,上述装置还包括:采样模块,根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值。上述第一确定模块以所述采样特征值作为所述特征值中的特定特征值。
在本发明的一个实施例中,上述根据预设规则对所述特征值进行采样处理,包括:确定所述特征值对应的MD5值,对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。
在本发明的一个实施例中,上述装置还包括:第二确定模块,确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。
在本发明的一个实施例中,上述装置还包括第三确定模块和第四确定模块。其中,第三确定模块基于所述视频数据对应的特征值与所述相似视频数据对应的特征值,确定所述视频数据与所述相似视频数据的最长公共子序列。第四确定模块基于所述最长公共子序列确定所述视频数据与所述相似视频数据的相似度。
在本发明的一个实施例中,上述装置还包括:加入模块,在所述视频数据与所述相似视频数据的相似度满足相似度阈值的情况下,将所述视频数据对应的特征值加入正排索引中,所述正排索引包括多个其他视频数据的标识数据以及所述标识数据对应的多个特征值。
在本发明的一个实施例中,上述倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,所述多个其他视频数据对应的采样特征值包括每个其他视频数据根据所述预设规则对其多个特征值进行采样处理后的得到的采样特征值。
在本发明的一个实施例中,上述装置还包括:更新模块,基于所述视频数据以及所述视频数据对应的采样特征值更新所述倒排索引。
在本发明实施方式的第三方面中,提供了一种计算设备,包括:一个或多个存储器,存储有可执行指令,以及一个或多个处理器,执行所述可执行指令,以实现如上所述的方法。
在本发明实施方式的第四方面中,提供了一种介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行如上所述的任一方法。
根据本发明实施方式的数据处理方法和数据处理装置,可以通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,从而显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景;
图2示意性地示出了根据本发明实施方式的数据处理方法的流程图;
图3示意性地示出了根据本发明实施方式的倒排索引的示意图;
图4示意性地示出了根据本发明另一实施方式的数据处理方法的流程图;
图5示意性地示出了根据本发明实施例的可读存储介质的示意图;
图6A~6B示意性地示出了根据本发明实施方式的数据处理装置的框图;
图7示意性地示出了根据本发明实施例的计算设备的示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种数据处理方法、装置、介质和计算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,为了减少视频检索的计算量,加快视频检索的速度,可以根据多个其他视频数据的特征值构建倒排索引,从而倒排索引中可以包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据,对获取的当前视频进行处理,得到当前视频的特征值,然后在倒排索引中确定与当前视频的特征值相同的索引特征值,确定该些相同的索引特征值对应的其他视频为当前视频的相似视频,从而显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示意性地示出了根据本发明实施方式的应用场景100。
如图1所示,该应用场景100包括当前视频数据110以及其他视频数据120,其中,其他视频数据120可以是多个视频数据。
根据本发明实施例,多个其他视频数据120例如可以是某视频网站视频库中的多个视频数据,当前视频数据110例如可以是上传至该视频网站的视频数据。为了对视频网站进行有效管理,避免相同或相似的视频内容多次上传,需要对上传的当前视频数据110进行筛选,若其他视频数据120中存在与当前视频数据110相同或相似的视频,则可以剔除上传的当前视频数据110,否则,可以允许当前视频数据110上传至该视频网站。
因此,本发明提供了一种数据处理方法,可以用于对当前视频数据110进行筛选,确定其他视频数据120中是否存在与当前视频数据110相同或相似的视频数据。
例如,本发明可以对多个其他视频数据120进行处理,得到多个其他视频数据120的特征值,基于多个其他视频数据120的特征值构建倒排索引,从而倒排索引中可以包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据120。可以对当前视频数据110进行相同地处理,得到当前视频数据110的特征值,然后在倒排索引中确定与当前视频数据110的特征值相同的索引特征值,确定该些相同的索引特征值对应的其他视频数据120为当前视频数据110的相似视频,从而可以降低相似视频查找的计算量,实现快速查找相似视频的效果。
需要注意的是,图1所示仅为可以应用本发明实施例的应用场景的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。
示例性方法
下面结合图1的应用场景,参考图2~图4来描述根据本发明示例性实施方式的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明实施方式的数据处理方法的流程图。
如图2所示,该方法包括操作S201~S204。
在操作S201,获取视频数据。
在操作S202,对视频数据中的帧数据进行处理,得到帧数据对应的特征值,其中,特征值能够表征对应的帧数据。
在操作S203,获取倒排索引,倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据。
在操作S204,基于倒排索引,确定第一索引特征值对应的相似视频数据,其中,第一索引特征值为与特征值中的特定特征值相同的索引特征值。
根据本发明实施例,可以获取需要进行视频检索的视频数据,例如,可以获取上传至某视频网站等待审核的当前视频数据,并对获取的当前视频数据进行处理。
在本发明实施例中,可以对当前视频数据中的全部帧数据进行处理,也可以对当前视频数据中的部分帧数据进行处理,从而获得每帧数据对应的特征值。例如,可以对当前视频数据中的每一帧数据进行感知哈希计算,得到的哈希值作为该帧数据对应的特征值。
本发明实施例中获取的倒排索引可以是根据视频库中的其他视频数据构建的倒排索引。例如,可以先对其他视频数据进行处理,得到其他视频数据中的帧数据对应的特征值,然后基于帧数据对应的特征值构建倒排索引。例如,可以对其他视频的帧数据进行与当前视频的帧数据相同的处理。例如,对其他视频数据的帧数据进行感知哈希计算,得到的哈希值可以作为该帧数据对应的特征值。可以理解,哈希值能够唯一表征一个帧数据,并且感知哈希计算的计算量也相对较小。
在本发明实施例中,可以基于其他视频数据的全部帧数据对应的特征值构建倒排索引,也可以基于其他视频数据中的部分帧数据对应的特征值构建倒排索引。
可以理解,直接采用全部帧数据对应的特征值构建倒排索引,对索引结果来说更为准确,但是,由于每个视频数据都会有成百上千的帧数据,直接以全部帧数据对应的特征值构建倒排索引耗费的存储空间是极其巨大的。因此,为了节省倒排索引的存储空间,可以先根据预设规则对其他视频数据的全部帧数据对应的特征值进行采样处理,得到采样特征值,然后基于其他视频数据对应的采样特征值构建倒排索引,即,以采样特征值作为索引特征值构建倒排索引。
根据本发明实施例,根据预设规则对特征值进行采样处理可以包括:计算帧数据对应的特征值的MD5值,对MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为采样特征值。例如,用MD5值对10取余,结果等于0的保留作为采样特征值,非0的剔除掉。可以理解,利用上述采样方式,可以减少倒排索引所需的存储空间,降低成本。
例如,视频数据1具有50帧数据,对该50帧数据的特征值进行采样处理后得到的采样特征值分别为A、B、C、D、E,视频数据2具有30帧数据,对该30帧数据的特征值进行采样处理后得到的采样特征值分别为A、C、F,视频数据3具有40帧数据,对该40帧数据的特征值进行采样处理后得到的采样特征值分别为A、B、C、F,则构建的倒排索引例如可以如图3所示,该倒排索引中可以包括索引特征值A、B、C、D、E、F,索引特征值A可以对应视频数据1、视频数据2和视频数据3,索引特征值B可以对应视频数据1和视频数据3,索引特征值C可以对应视频数据1、视频数据2和视频数据3,索引特征值D可以对应视频数据1,索引特征值E可以对应视频数据1,索引特征值F可以对视频数据2和视频数据3。
可以理解,为了使用基于采样特征值构建的倒排索引对当前视频数据进行检索,可以对当前视频数据也进行相同的采样处理。即,根据预设规则对当前视频数据的特征值进行采样处理,得到采样后的采样特征值,以采样特征值作为当前视频的特定特征值,从而基于特定特征值根据倒排索引确定当前视频的相似视频。其中,根据预设规则对特征值进行采样处理可以包括:计算帧数据对应的特征值的MD5值,对MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为采样特征值。例如,用MD5值对10取余,结果等于0的保留作为采样特征值,非0的剔除掉。
例如,当前视频数据具有30帧数据,对该30帧数据的特征值进行采样处理后,得到当前视频数据的特定特征值A、B、D,然后可以确定倒排索引中与特定特征值相同的索引特征值对应的视频数据为当前视频数据的相似视频。例如,倒排索引中,与特定特征值A相同的特征值对应的视频数据为视频数据1、视频数据2和视频数据3,与特定特征值B相同的特征值对应的视频数据为视频数据1和视频数据3,与特定特征值D相同的特征值对应的视频数据为视频数据1。则视频数据1、视频数据2和视频数据3可以认为是当前视频数据的相似视频。
本发明实施例通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,从而可以实现相似视频的初筛选,显著地降低了相似视频查找的计算量,实现了快速查找相似视频的效果。
本发明实施例采用感知哈希计算的方法确定每帧数据对应的特征值,可以减少特征值的计算量。并且现有技术中通过抽取关键帧的方法对于不是完全相同的视频,关键帧无法保证从两个视频中抽取出来的关键帧完全相同,导致倒排索引无法检索出相同的帧数据,而本发明通过对帧数据的特征值进行采样,对特征值进行采样与视频其他帧无关,仅与图像本身特征值有关,在满足减少倒排索引占用的存储空间的同时,也可以避免现有技术中的关键帧提取不准确的问题。
图4示意性地示出了根据本发明另一实施方式的数据处理方法的流程图。
如图4所示,在参考图2描述的数据处理方法的基础上,本发明实施例还可以包括操作S401~S404。
在操作S401,确定相似视频数据中满足预设条件的视频作为备选视频,其中,满足预设条件包括相似视频数据对应的特征值与视频数据对应的特征值相同的数量大于预设阈值。
根据本发明实施例,通过倒排索引确定当前视频数据的相似视频数据可以作为初步筛选,为了增加视频筛选的准确性,还可以在多个相似视频数据中确定备选视频,以便后续计算相似度。
沿用上述举例,当前视频数据的相似视频数据包括视频数据1、视频数据2和视频数据3,其中,视频数据1对应的特征值与当前视频数据对应的特征值相同的数量为3(A、B、D),视频数据2对应的特征值与当前视频数据对应的特征值相同的数量为1(A),视频数据3对应的特征值与当前视频数据对应的特征值相同的数量为2(A、B)。
本发明实施例可以根据相似视频数据与当前视频数据相同的特征值的数量确定阈值,从而满足阈值的相似视频可以作为备选视频。例如,阈值可以是相同特征值的具体数量,例如,超过10个相同特征值则认为满足阈值。阈值也可以根据当前视频对应的特定特征值的比例确定,例如,当前视频对应50个特定特征值,则相同特征值的数量超过特定特征值的50%则可以认为满足阈值。或者,也可以根据相似视频的比例确定预设阈值,例如,按照相同特征值的数量由高到低对相似视频进行排序,然后取前10%的相似视频作为备选视频。
可以理解,通过倒排索引确定的相似视频的数量可能巨大,有些相似视频仅与当前视频具有一帧相同的数据,因此,可以通过相同特征值的数量对相似视频进行初步筛选,确定满足条件的备选视频。
在操作S402,基于视频数据对应的特征值与相似视频数据对应的特征值,确定视频数据与相似视频数据的最长公共子序列,基于最长公共子序列确定视频数据与相似视频数据的相似度。
可以理解,在现有技术中,通常两个视频的相似度是通过计算两个视频中连续相同帧的序列长度来获得,然而,如果相同视频有不同的帧率,或者一个视频中间部分有一些无关帧的插入,则现有技术的方法无法甄别。
为了避免上述弊端,本发明实施例可以获取当前视频数据的全部帧对应的特征值与相似视频数据的全部帧对应的特征值,然后,确定两个视频数据的特征值的最长公共子序列,基于最长公共子序列确定两个视频数据的相似度。
在本发明实施例中,当两帧数据的哈希值的汉明距离小于6时,则可以认为这两帧数据是相同的帧数据,因此在计算公共子序列时,当2个特征值的汉明距离小于6时,我们认为两个元素是相同的,可以被认为是公共子元素。例如,当前视频数据对应的特征值的数量为L1,相似视频数据对应的特征值的数量为L2,两个视频数据的特征值的最长公共子序列的长度为Lc,如果L1<L2,则相似度可以表示为Lc/L1,否则相似度表示为Lc/L2。
在操作S403,在视频数据与相似视频数据的相似度满足相似度阈值的情况下,将视频数据对应的特征值加入正排索引中,正排索引包括多个其他视频数据的标识数据以及标识数据对应的多个特征值。
在本发明实施例中,如果两个视频的相似度满足相似度阈值(例如,两个视频的相似度低于0.5),则表明两个视频不相同或者不相似。如果当前视频与其他视频均不相同或相似,则可以表示当前视频通过审核,可以上传至视频网站。
本发明实施例中还可以构建正排索引,正排索引中例如可以包括每个视频数据的标识数据,即,每个视频数据的id,以及该视频数据对应的多个特征值。例如,视频数据1的id为1,id1对应该视频的50帧数据的特征值,视频数据2的id为2,id2对应该视频的30帧数据的特征值。
可以理解,本发明实施例中的正排索引可以记录有每个视频数据对应的全部帧的特征值,从而在计算两个视频的相似度时可以直接从正排索引中使用相应视频的特征值。
根据本发明实施例,如果当前视频与其他视频满足相似度阈值,则可以将当前视频数据加入到视频库中,并将当前视频数据对应的特征值以及当前视频数据的id加入到正排索引中。
在操作S404,基于视频数据以及视频数据对应的采样特征值更新倒排索引。
根据本发明实施例,如果当前视频与其他视频满足相似度阈值,则认为当前视频与视频库中的其他视频不重复,可以将当前视频加入到视频库中,并且可以将当前视频数据的采样特征值加入到倒排索引中,以更新倒排索引,以便为了新的上传的视频数据进行相似视频的查找。
本发明实施例通过倒排索引在其他视频中确定与当前视频具有相同视频帧的相似视频,完成初步筛选,然后通过相同特征值的数量对确定的相似视频进行再次筛选,确定满足条件的备选视频,进一步确定相似视频,从而可以减少需要进行相似度计算的相似视频的数量,加快视频检索速度。
本发明实施例通过两个视频的最长公共子序列确定两个视频的相似度,可以避免改变帧率或者插入无关帧等作弊行为的影响,提高了相似度计算的准确性。
本发明实施例在确定当前视频数据与数据库中的其他视频数据不重复的情况下,将当前视频数据的全部帧的特征值加入到正排索引中,以更新正排索引,便于下一次的相似度计算,以及将当前视频数据的采样特征值加入到倒排索引中,以更新倒排索引,便于下一次的相似视频查找。
可以理解,本发明所公开的上述实施例可任意组合,或者做简单变换,得到需要的数据处理方法,以实现较好的技术效果。
示例性介质
本发明示例性实施方式提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被处理单元执行时用于实现上述方法实施例中任一项所述的数据处理方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的操作,例如,所述计算设备可以执行如图2中所示的操作S201:获取视频数据;操作S202:对视频数据中的帧数据进行处理,得到帧数据对应的特征值,其中,特征值能够表征对应的帧数据;操作S203:获取倒排索引,倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;操作S204:基于倒排索引,确定第一索引特征值对应的相似视频数据,其中,第一索引特征值为与特征值中的特定特征值相同的索引特征值。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图5所示,描述了根据本发明的实施方式的用于数据处理方法的程序产品50,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户设备上执行部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图6A~6B对本发明示例性实施方式的数据处理装置进行介绍。
图6A~6B示意性地示出了根据本发明实施方式的数据处理装置600的框图。
如图6A所示,该数据处理装置600包括第一获取模块601、处理模块602、第二获取模块603以及第一确定模块604。
第一获取模块601获取视频数据。
处理模块602对视频数据中的帧数据进行处理,得到帧数据对应的特征值,其中,特征值能够表征对应的帧数据。
第二获取模块603获取倒排索引,倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据。
第一确定模块604基于倒排索引,确定第一索引特征值对应的相似视频数据,其中,第一索引特征值为与特征值中的特定特征值相同的索引特征值。
根据本发明实施例,对视频数据中的帧数据进行处理,得到帧数据对应的特征值,可以包括:对视频数据中的帧数据进行感知哈希计算,得到的哈希值作为帧数据对应的特征值。
如图6B所示,该数据处理装置600还可以包括采样模块605、第二确定模块606、第三确定模块607、第四确定模块608、加入模块609以及更新模块610。
采样模块605根据预设规则对特征值进行采样处理,得到采样后的采样特征值。
第一确定模块604以采样特征值作为特征值中的特定特征值,确定与特定特征值相同的第一索引特征值对应的相似视频数据。
根据本公开实施例,根据预设规则对特征值进行采样处理,可以包括:确定特征值对应的MD5值,以及对MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为采样特征值。
第二确定模块606确定相似视频数据中满足预设条件的视频作为备选视频,其中,满足预设条件包括相似视频数据对应的特征值与视频数据对应的特征值相同的数量大于预设阈值。
第三确定模块607基于视频数据对应的特征值与相似视频数据对应的特征值,确定视频数据与相似视频数据的最长公共子序列。
第四确定模块608基于最长公共子序列确定视频数据与相似视频数据的相似度。
加入模块609在视频数据与相似视频数据的相似度满足相似度阈值的情况下,将视频数据对应的特征值加入正排索引中,正排索引包括多个其他视频数据的标识数据以及标识数据对应的多个特征值。
根据本发明实施例,倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,多个其他视频数据对应的采样特征值包括每个其他视频数据根据预设规则对其多个特征值进行采样处理后的得到的采样特征值。
更新模块610基于视频数据以及视频数据对应的采样特征值更新倒排索引。
根据本发明实施例,数据处理装置600例如可以执行上文参考图2或者图4描述的方法,在此不再赘述。
根据本发明的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块601、处理模块602、第二获取模块603、第一确定模块604、采样模块605、第二确定模块606、第三确定模块607、第四确定模块608、加入模块609以及更新模块610中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块601、处理模块602、第二获取模块603、第一确定模块604、采样模块605、第二确定模块606、第三确定模块607、第四确定模块608、加入模块609以及更新模块610中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块601、处理模块602、第二获取模块603、第一确定模块604、采样模块605、第二确定模块606、第三确定模块607、第四确定模块608、加入模块609以及更新模块610中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图7描述本发明示例性实施方式的一种计算设备,其用于实现本发明的数据处理方法。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的操作。例如,所述计算设备可以执行如图2中所示的操作S201:获取视频数据;操作S202:对视频数据中的帧数据进行处理,得到帧数据对应的特征值,其中,特征值能够表征对应的帧数据;操作S203:获取倒排索引,倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;操作S204:基于倒排索引,确定第一索引特征值对应的相似视频数据,其中,第一索引特征值为与特征值中的特定特征值相同的索引特征值。
下面参照图7来描述根据本发明的这种实施方式的计算设备700。图7所示的计算设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算设备700以通用计算设备的形式表现。计算设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
总线730包括数据总线、控制总线、地址总线等。
存储单元720可以包括易失性存储器,例如随机存取存储器(RAM)721和/或高速缓存存储器722,还可以进一步包括只读存储器(ROM)723。
存储单元720还可以包括具有一组(至少一个)程序模块724的程序/实用工具725,这样的程序模块724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备700也可以与一个或多个外部设备740(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口750进行。并且,计算设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与计算设备700的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了数据处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种数据处理方法,包括:
获取视频数据;
对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;
获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;
基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。
2.根据权利要求1所述的方法,其中,所述对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,包括:
对所述视频数据中的帧数据进行感知哈希计算,得到的哈希值作为所述帧数据对应的特征值。
3.根据权利要求1所述的方法,还包括:根据预设规则对所述特征值进行采样处理,得到采样后的采样特征值;
以所述采样特征值作为所述特征值中的特定特征值。
4.根据权利要求3所述的方法,其中,所述根据预设规则对所述特征值进行采样处理,包括:
确定所述特征值对应的MD5值;
对所述MD5值进行取余处理,满足第一结果的MD5值对应的特征值作为所述采样特征值。
5.根据权利要求1所述的方法,还包括:
确定所述相似视频数据中满足预设条件的视频作为备选视频,其中,所述满足预设条件包括所述相似视频数据对应的特征值与所述视频数据对应的特征值相同的数量大于预设阈值。
6.根据权利要求1所述的方法,还包括:
基于所述视频数据对应的特征值与所述相似视频数据对应的特征值,确定所述视频数据与所述相似视频数据的最长公共子序列;
基于所述最长公共子序列确定所述视频数据与所述相似视频数据的相似度。
7.根据权利要求3所述的方法,其中,所述倒排索引中的多个索引特征值为多个其他视频数据对应的采样特征值,所述多个其他视频数据对应的采样特征值包括每个其他视频数据根据所述预设规则对其多个特征值进行采样处理后的得到的采样特征值。
8.一种数据处理装置,包括:
第一获取模块,获取视频数据;
处理模块,对所述视频数据中的帧数据进行处理,得到所述帧数据对应的特征值,其中,所述特征值能够表征对应的帧数据;
第二获取模块,获取倒排索引,所述倒排索引中包括多个索引特征值,每个索引特征值对应至少一个具有该索引特征值的其他视频数据;
第一确定模块,基于所述倒排索引,确定第一索引特征值对应的相似视频数据,其中,所述第一索引特征值为与所述特征值中的特定特征值相同的索引特征值。
9.一种计算设备,包括:
一个或多个存储器,存储有可执行指令;以及
一个或多个处理器,执行所述可执行指令,以实现根据权力要求1~7中任一项所述的方法。
10.一种介质,其上存储有可执行指令,所述指令在被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN201811342316.3A 2018-11-12 2018-11-12 数据处理方法、装置、介质和计算设备 Pending CN109492127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811342316.3A CN109492127A (zh) 2018-11-12 2018-11-12 数据处理方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811342316.3A CN109492127A (zh) 2018-11-12 2018-11-12 数据处理方法、装置、介质和计算设备

Publications (1)

Publication Number Publication Date
CN109492127A true CN109492127A (zh) 2019-03-19

Family

ID=65695693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811342316.3A Pending CN109492127A (zh) 2018-11-12 2018-11-12 数据处理方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN109492127A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321858A (zh) * 2019-07-08 2019-10-11 北京字节跳动网络技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN110337027A (zh) * 2019-07-11 2019-10-15 北京字节跳动网络技术有限公司 视频生成方法、装置及电子设备
CN111274446A (zh) * 2020-03-02 2020-06-12 Oppo广东移动通信有限公司 视频处理方法及相关装置
CN111538858A (zh) * 2020-05-06 2020-08-14 英华达(上海)科技有限公司 建立视频图谱的方法、装置、电子设备、存储介质
CN112632326A (zh) * 2020-12-24 2021-04-09 北京风平科技有限公司 一种基于视频脚本语义识别的视频生产方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
CN104376003A (zh) * 2013-08-13 2015-02-25 深圳市腾讯计算机系统有限公司 一种视频检索方法及装置
CN104991953A (zh) * 2015-07-20 2015-10-21 成都纽捷那科技有限公司 一种基于倒排索引的粗细粒度视频检索方法
CN106557545A (zh) * 2016-10-19 2017-04-05 北京小度互娱科技有限公司 视频检索方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN104376003A (zh) * 2013-08-13 2015-02-25 深圳市腾讯计算机系统有限公司 一种视频检索方法及装置
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
CN104991953A (zh) * 2015-07-20 2015-10-21 成都纽捷那科技有限公司 一种基于倒排索引的粗细粒度视频检索方法
CN106557545A (zh) * 2016-10-19 2017-04-05 北京小度互娱科技有限公司 视频检索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾中魁: "基于MPEG-7低层特征的视频检索系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321858A (zh) * 2019-07-08 2019-10-11 北京字节跳动网络技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN110337027A (zh) * 2019-07-11 2019-10-15 北京字节跳动网络技术有限公司 视频生成方法、装置及电子设备
CN111274446A (zh) * 2020-03-02 2020-06-12 Oppo广东移动通信有限公司 视频处理方法及相关装置
CN111538858A (zh) * 2020-05-06 2020-08-14 英华达(上海)科技有限公司 建立视频图谱的方法、装置、电子设备、存储介质
CN111538858B (zh) * 2020-05-06 2023-06-23 英华达(上海)科技有限公司 建立视频图谱的方法、装置、电子设备、存储介质
TWI823018B (zh) * 2020-05-06 2023-11-21 英華達股份有限公司 建立影片圖譜的方法
CN112632326A (zh) * 2020-12-24 2021-04-09 北京风平科技有限公司 一种基于视频脚本语义识别的视频生产方法及装置

Similar Documents

Publication Publication Date Title
CN109492127A (zh) 数据处理方法、装置、介质和计算设备
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US11244011B2 (en) Ingestion planning for complex tables
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
CN110647614A (zh) 智能问答方法、装置、介质及电子设备
CN111247518A (zh) 数据库分片
WO2016083932A1 (en) Searching in a database
CN107133263A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN107733894A (zh) 逻辑接口报文的比对方法、系统、设备及存储介质
CN110096646A (zh) 品类关联信息的生成及其视频推送方法和相关设备
US9984108B2 (en) Database joins using uncertain criteria
CN112364185B (zh) 多媒体资源的特征确定方法、装置、电子设备和存储介质
CN112966040A (zh) 一种转换数据结构的方法、装置、终端以及存储介质
KR101772333B1 (ko) 이종 NoSQL 데이터베이스들간의 지능적 조인 전략 제공 방법 및 시스템
CN109558468B (zh) 资源的处理方法、装置、设备和存储介质
CN111666278A (zh) 数据存储、检索方法、电子设备及存储介质
US8302045B2 (en) Electronic device and method for inspecting electrical rules of circuit boards
CN109597933A (zh) 医疗关键词精确搜索的方法、系统、设备及存储介质
US10242009B2 (en) Automatic analysis of repository structure to facilitate natural language queries
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
US10318507B2 (en) Optimizing tables with too many columns in a database
CN114265846A (zh) 一种数据操作方法、装置、电子设备和存储介质
CN113448957A (zh) 一种数据查询方法和装置
CN117076515B (zh) 医疗管理系统中元数据的溯源方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination