CN104380287A - 数据去重管理 - Google Patents

数据去重管理 Download PDF

Info

Publication number
CN104380287A
CN104380287A CN201280073972.2A CN201280073972A CN104380287A CN 104380287 A CN104380287 A CN 104380287A CN 201280073972 A CN201280073972 A CN 201280073972A CN 104380287 A CN104380287 A CN 104380287A
Authority
CN
China
Prior art keywords
time
media file
server
creation
data deduplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280073972.2A
Other languages
English (en)
Other versions
CN104380287B (zh
Inventor
金承一
高永一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Empire Technology Development LLC
Original Assignee
Empire Technology Development LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Empire Technology Development LLC filed Critical Empire Technology Development LLC
Publication of CN104380287A publication Critical patent/CN104380287A/zh
Application granted granted Critical
Publication of CN104380287B publication Critical patent/CN104380287B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请一般描述了针对上传到服务器或者将要上传到服务器的媒体文件的数据去重管理方案的技术。在一些实例中,一种方法可以包括:通过服务器,至少部分地基于媒体文件的元数据来识别媒体文件的创建时间;通过所述服务器,识别所述媒体文件的上传时间;通过服务器来计算创建时间与上传时间之间的差值;以及当差值大于预定值时,通过服务器来执行数据去重过程。

Description

数据去重管理
背景技术
数据去重是一种用于消除冗余数据的数据压缩技术。在典型的去重过程中,将第一数据与存储数据进行比较以检测副本,即,识别或确定第一数据是否唯一。然后,当第一数据被识别为不唯一时,冗余的第一数据被消除且替换成指向存储数据的小的引用。
发明内容
在实例中,一种方法可以包括:通过服务器至少部分地基于媒体文件的元数据来识别媒体文件的创建时间;通过服务器来识别媒体文件的上传时间;通过服务器来计算创建时间与上传时间之间的差值;以及当差值大于预定值时,通过服务器来执行数据去重过程。
在另一实例中,一种数据去重管理系统可以包括:创建时间识别单元,其配置为识别媒体文件的创建时间;上传时间识别单元,其配置为识别媒体文件的上传时间;以及判定单元,其配置为至少部分地基于创建时间识别单元所识别的创建时间和上传时间识别单元识别的上传时间来判定是否允许对媒体文件执行数据去重过程。
在又一实例中,计算机可读存储介质可以在其中存储计算机可执行指令,响应于执行,所述计算机可执行指令使数据去重管理系统执行操作,所述操作包括:识别媒体文件的创建时间;识别媒体文件的上传时间;以及至少部分地基于媒体文件的创建时间和媒体文件的上传时间来判定是否对媒体文件执行数据去重过程。
前面的概述仅仅是示例性的,而不意在以任何方式进行限制。通过参考附图以及下面的详细说明,除了上文所描述的示例性的方案、实施例和特征之外,另外的方案、实施例和特征将变得清晰可见。
附图说明
通过下面结合附图给出的详细说明和随附的权利要求,本公开的前述特征以及其它特征将变得更加清晰。应理解的是,这些附图仅描绘了依照本公开的多个实施例,因此,不应视为对本发明范围的限制,将通过利用附图结合附加的具体描述和细节对本公开进行说明,在附图中:
图1示意性地示出了依照本文所描述的至少一些实施例布置的与捕获图像文件和将该图像文件上传到服务器的过程有关的时间轴的示例性实例;
图2示意性地示出了依照本文所描述的至少一些实施例布置的与捕获视频文件和将该视频文件上传到服务器的过程有关的时间轴的示例性实例;
图3示出了依照本文所描述的至少一些实施例布置的图示出用于为服务器提供数据去重管理方案的数据去重管理系统的实例体系结构的示意性框图;
图4示出了依照本文所描述的至少一些实施例布置的用于为服务器提供数据去重管理方案的过程的实例流程图;
图5示出了依照本文所描述的至少一些实施例布置的可用来提供数据去重管理方案的示例的计算机程序产品;以及
图6是示出依照本文所描述的至少一些实施例布置的可用来提供数据去重管理方案的实例的计算设备的框图。
具体实施方式
在下面的详细说明中,将参考附图,附图构成了详细说明的一部分。在附图中,除非上下文指出,否则相似的符号通常表示相似的部件。在详细说明、附图和权利要求中所描述的示例性实施例不意在限制。可以使用其它实施例,并且可以做出其它改变,而不偏离本文呈现的主题的精神或范围。将易于理解的是,如本文大致描述且如图中所图示的,本公开的方案能够以各种不同配置来布置、替代、组合、分离和设计,所有这些都在本文中明确地构思出。
本公开一般尤其涉及与针对上传到服务器或者将要上传到服务器的媒体文件的数据去重管理方案有关的方法、装置、系统、设备和计算机程序产品。
一般地描述了这样的技术:当用户将媒体文件上传或者试图上传到服务器时,至少部分地基于媒体文件的创建时间和媒体文件的上传时间来判定是否对所述媒体文件执行数据去重过程。上述的媒体文件的创建时间可以由例如与媒体文件相关联的元数据来提供。通过举例而不限制的方式,媒体文件的元数据可以包括与媒体文件的创建手段、媒体文件的用途、媒体文件的创建时间和日期、媒体文件的创建者或作者、创建媒体文件的地点、媒体文件所使用的标准等有关的数据。
通过举例而不限制的方式,服务器可以包括照片共享服务提供商和/或视频共享服务提供商的单个服务器、服务器集合、服务器群、服务器集群等。
在一些实例中,服务器可以识别媒体文件的创建时间和媒体文件的上传时间,并且计算创建时间与上传时间之间的时间差。然后,在一些实例中,如果时间差大于预定值,则服务器可以执行数据去重过程,而假设创建时间与上传时间的时间差为零或极小,则跳过数据去重过程,媒体文件可被视为不需要数据去重过程的唯一数据。
在一些实例中,服务器可以至少部分地基于媒体文件的元数据来识别媒体文件的创建时间。在一些实例中,当媒体文件是图像文件时,媒体文件的创建时间可以是最初捕获图像文件的时间。在一些实例中,当媒体文件是视频文件时,媒体文件的创建时间可以是完成视频文件的捕获的时间,其可以至少部分地基于视频文件的捕获何时开始以及视频文件的运行时间来识别。
在一些实例中,服务器将媒体文件的上传时间识别为服务器开始接收媒体文件的时间。在一些实例中,服务器可以将媒体文件的上传时间识别为服务器从客户端设备接收上传媒体文件的请求的时间。
在一些实例中,服务器可以保存或存储所识别的创建时间和/或所识别的上传时间。
在一些实例中,服务器可以至少部分地基于其处理能力和/或其存储容量来设定预定值。
图1示意性地示出了依照本文所描述的至少一些实施例布置的与捕获图像文件和将该图像文件上传到服务器的过程有关的时间轴的示例性实例。
如图1所示,可以假设设备在t10捕获图像文件且在t11开始将图像文件上传到服务器,在t12完成图像文件的上传。在一些实施例中,当设备创建图像文件时,设备可以将t10存储为图像文件的元数据,其可以是图像文件的一部分。设备的实例可以包括但不限于智能手机、移动电话、个人数字助理(PDA)、平板电脑、移动游戏控制台以及任何其他可以经由任意网络访问服务器的设备。服务器的实例可以包括但不限于诸如例如InstagramTM、FlickrTM、PicasaTM等照片共享服务提供商的单个服务器、服务器集合、服务器群、服务器集群等。
在一些实施例中,服务器可以将图像文件的创建时间识别为t10。在一些实施例中,服务器可以至少部分地基于图像文件的元数据来识别创建时间。
在一些实施例中,服务器可以将图像文件的上传时间识别为t11。在一些可选的实施例中,服务器可以将图像文件的上传时间识别为服务器从设备接收上传图像文件的请求的时间(图1中没有显示出)。
然后,在一些实施例中,服务器可以计算时间差t1d为t11–t10,并且将时间差t1d与预定值进行比较,以判定是否允许对图像文件执行数据去重过程。
图2示意性地示出了依照本文所描述的至少一些实施例布置的与捕获视频文件以及将该视频文件上传到服务器的过程有关的时间轴的示例性实例。
如图2所示,可以假设,设备在t20开始捕获视频文件,在t21停止捕获视频文件,在t22开始将视频文件上传到服务器,在t23完成视频文件的上传。在该情况下,视频文件的运行时间t2r可以是t21–t20。在一些实施例中,当设备创建视频文件时,设备可以将t20、t21、和/或t2r存储在视频文件的元数据,这些元数据可以是视频文件的一部分。如同前述的图像捕获,设备的实例包括但不限于智能手机、移动电话、个人数字助理(PDA)、平板电脑、移动游戏控制台以及任何其他可以经由任意网络访问服务器的设备。服务器的实例可以包括但不限于诸如例如YouTubeTM、FlickrTM、GoogleTM视频等视频共享服务提供商的单个服务器、服务器集合、服务器群、服务器集群等。
在一些实施例中,服务器可以将视频文件的创建时间识别为t21。在一些实施例中,服务器可以通过至少部分地基于视频文件的元数据识别t20和t2r来识别创建时间,并且计算t20与t2r之和。
在一些实施例中,服务器可以将视频文件的上传时间识别为t22。在一些可选的实施例中,服务器可以将视频文件的上传时间识别为服务器从设备接收上传视频文件的请求的时间(图2中没有显示出)。
然后,在一些实施例中,服务器可以计算时间差t2d为t22–t21,并且将时间差t2d与预定值进行比较,以判定是否允许对视频文件执行数据去重过程。
图3示出了图示出依照本文所描述的至少一些实施例布置的用于为服务器提供数据去重管理方案的数据去重管理系统的实例体系结构的示意性框图。
如图所示,数据去重管理系统300可以包括创建时间识别单元310、上传时间识别单元320、判定单元330和数据去重单元340。虽然图示为离散的部件,在公开的主题的范围内构思时,各部件可以划分成额外的部件、组合成较少的部件,或者一起去除。本领域技术人员将理解的是,数据去重管理系统300可以是服务器的部件或者与服务器分离而仍受服务器控制。本领域技术人员还将理解的是,数据去重管理系统300的每个部件都可通过服务器群或服务器集群的一段或多段来控制。在这些情况下,根据期望的实现方式,可以通过相同的段或者不同的段来控制各部件。
创建时间识别单元310可配置为识别媒体文件的创建时间。在一些实施例中,创建时间识别单元310可配置为至少部分地基于媒体文件的元数据来识别媒体文件的创建时间,媒体文件的元数据可以包括但不限于与媒体文件的创建手段、媒体文件的用途、媒体文件的创建时间和日期、媒体文件的创建者或作者、创建媒体文件的地点、用于媒体文件的标准等有关的数据。也即,创建时间识别单元310可配置为从媒体文件中提取元数据,分析元数据,以及基于元数据来识别媒体文件的创建时间。
在一些实施例中,当媒体文件是图像文件时,创建时间识别单元310可以将创建时间识别为最初捕获图像文件的时间。在一些实施例中,当媒体文件是视频文件时,创建时间识别单元310可以将创建时间识别为完成视频文件的捕获的时间。通过举例而不是限制的方式,创建时间识别单元310可以至少部分地基于视频文件的捕获何时开始以及视频文件的运行时间来识别完成视频文件的捕获的时间。
上传时间识别单元320可配置为识别媒体文件的上传时间。在一些实施例中,上传时间识别单元320可配置为将媒体文件的上传时间识别为服务器开始接收媒体文件的时间。在一些可选的实施例中,上传时间识别单元320可以将媒体文件的上传时间识别为服务器接收用于上传媒体文件的请求的时间。
判定单元330可配置为至少部分地基于创建时间识别单元310识别的创建时间和上传时间识别单元320识别的上传时间来判定是否允许对媒体文件执行数据去重过程。在一些实施例中,判定单元330可配置为:当创建时间与上传时间之间的差值大于预定值时,判定允许对媒体文件执行数据去重过程。
在一些实施例中,预定值可以至少部分地基于服务器的处理能力和/或服务器的存储容量而变化。通过举例而不是限制的方式,当服务器的存储容量相对较大时,和/或服务器的处理能力相对不足时,预定值可以设定为相对较高。同时,当服务器的存储容量相对不足时,和/或服务器的处理能力相对充分时,预定值可设定为相对较低。
数据去重单元340可以配置为,当判定单元330判定出允许对媒体文件执行数据去重过程时,对媒体文件执行数据去重过程。
因此,数据去重管理系统300可以通过对至少部分地基于媒体文件的创建时间和上传时间而判定为唯一的一些媒体文件跳过数据去重过程来减少服务器的去重分析开销。
图4示出了依照本文所描述的至少一些实施例布置的用于为服务器提供数据去重管理方案的过程的示例性流程图。
图4中的过程可以在服务器或作为服务器的部件或者与服务器分离但受服务器控制的、诸如上述的数据去重管理系统300的数据去重管理系统中实现。示例的过程400可以包括一个或多个操作、动作或功能,如一个或多个框410、420、430、440和/或450所示。虽然图示为离散的框,根据期望的实现方式,各个框可以划分成额外的框、组合成较少的框,或者去除。处理可以开始于框410。
在框410(识别媒体文件的创建时间和上传时间),服务器或数据去重管理系统可以识别媒体文件的创建时间和上传时间。在一些实施例中,服务器或数据去重管理系统可以至少部分地基于媒体文件的元数据来识别媒体文件的创建时间。
在一些实施例中,当媒体文件是图像文件时,服务器或数据去重管理系统可以将创建时间识别为最初捕获图像文件的时间。在一些实施例中,当媒体文件是视频文件时,服务器或数据去重管理系统可以将创建时间识别为完成视频文件的捕获的时间。通过举例而不是限制的方式,服务器或数据去重管理系统可以至少部分地基于视频文件的捕获何时开始以及视频文件的运行时间来识别视频文件的捕获完成的时间。
在一些实施例中,服务器或数据去重管理系统可以将媒体文件的上传时间识别为服务器开始接收媒体文件的时间。在一些可选的实施例中,服务器或数据去重管理系统可以将媒体文件的上传时间识别为服务器接收用于上传媒体文件的请求的时间。处理可以从框410继续到框420。
在框420(计算创建时间与上传时间之间的时间差),服务器或数据去重管理系统可以计算创建时间与上传时间之间的时间差。处理可以从框420继续到框430。
在框430(时间差>预定值?),服务器或数据去重管理系统可以判定时间差是否大于预定值。在一些实施例中,服务器或数据去重管理系统可以至少部分地基于服务器的处理能力和服务器的存储容量中的至少一项来设定预定值。当服务器或数据去重管理系统判定出时间差大于预定值时,处理可以从框430继续到框440。否则,处理可以从框430继续到框450。
在框440(执行数据去重过程),服务器或数据去重管理系统可以对媒体文件执行数据去重过程。通过举例而不是限制的方式,服务器或数据去重管理系统可以将媒体文件与其他存储数据进行比较以检测副本,当媒体文件被识别为不唯一时,服务器或数据去重管理系统可以去除冗余的媒体文件。
在框450(跳过数据去重过程),假设创建时间与上传时间之间的时间差小于预定值,则服务器或数据去重管理系统可以跳过对媒体文件的数据去重过程,媒体文件可被视为不需要数据去重过程的唯一数据。服务器或数据去重管理系统可以存储媒体文件,而不执行数据去重过程。
因此,通过对至少部分地基于媒体文件的创建时间和上传时间而判定为唯一的一些媒体文件跳过数据去重过程,可以减少服务器的去重分析开销。
本领域技术人员将理解的是,对于本文所公开的该过程和方法以及其他的过程和方法,在过程和方法中执行的功能可以按不同的次序来实施。此外,所列出的步骤和操作仅作为实例来提供,一些步骤和操作可以是任选的,组合成较少的步骤和操作,或者扩展成额外的步骤和操作,而不减损公开实施例的实质。
图5图示出依照本文所描述的至少一些实施例布置的可用来提供数据去重管理方案的示例的计算机程序产品。
程序产品500可以包括信号承载介质502。信号承载介质502可以包括一条或多条指令504,当通过例如处理器执行时,这些指令可以提供上文结合图1-4描述的功能。通过举例的方式,指令504可以包括:用于识别媒体文件的创建时间的一条或多条指令;用于识别媒体文件的上传时间的一条或多条指令;或者至少部分地基于媒体文件的创建时间和媒体文件的上传时间来判定是否对媒体文件执行数据去重过程的一条或多条指令。因此,例如,参考图3,数据去重管理系统300可以响应于指令504而进行图4所示的一个或多个框。
在一些实现方式中,信号承载介质502可以包含计算机可读介质506,诸如但不限于硬盘驱动器、CD、DVD、数字磁带、存储器等。在一些实施方式中,信号承载介质502可以包含可记录介质508,诸如但不限于存储器、读/写(R/W)CD、R/W DVD,等等。在一些实施方式中,信号承载介质502可以包含通信介质510,诸如但不限于数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。因此,例如,程序产品500可以通过RF信号承载介质502传送到数据去重管理系统300的一个或多个模块,其中信号承载介质502由无线通信介质510(例如,符合IEEE 802.11标准的无线通信介质)来传送。
图6是示出依照本文所描述的至少一些实施例布置的可用来提供数据去重管理方案的实例的计算设备的框图。
在这些实例中,可以为服务器布置或配置计算设备600的元件。在最基本的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604与系统存储器606之间通信。
根据所需的配置,处理器604可以是任意类型,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任意组合。处理器604可以包括诸如级别一超高速缓存610和级别二超高速缓存612的一级或多级超高速缓存、处理器核614和寄存器616。示例的处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSPCore)或其任意组合。示例的存储器控制器618还可与处理器604一起使用,或者在一些实施方式中,存储器控制器618可以是处理器604的内部部件。
根据所需的配置,系统存储器606可以是任意类型,包括但不限于易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或其任意组合。系统存储器606可以包括操作系统620、一个或多个应用622以及程序数据624。应用622可以包括指令626,该指令626可布置成执行如本文所描述的功能,包括参考如图3所示的数据去重管理系统300体系结构所描述的动作或者包括参考如图4所示的流程图所描述的动作。在一些实例中,应用622可布置成在操作系统620上操作程序数据624,使得如本文所述实现用于电子设备的指令。
计算设备600可具有附加的特征或功能以及附加的接口以便于基础配置602与任何所需的设备和接口之间的通信。例如,总线/接口控制器630可用于利于基础配置602与一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移除存储设备636、非可移除存储设备638或者其组合。可移除存储设备和非可移除存储设备的示例包括诸如软盘驱动器和硬盘驱动器(HDD)的磁盘设备、诸如压缩盘(CD)驱动器或数字多功能盘(DVD)驱动器的光盘驱动器、固态驱动器(SSD)和磁带驱动器,仅列举了几个。示例的计算机存储媒体可以包括以用于诸如计算机可读指令、数据结构、程序模块或其它数据的信息的存储的任何方法或技术实现的易失性和非易失性的媒体以及可移除和非可移除的媒体。
系统存储器606、可移除存储设备636和非可移除存储设备638是计算机存储媒体的示例。计算机存储媒体包括但不限于RAM、ROM、EEPROM、闪存(flash memory)或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储设备、磁盒、磁带、磁盘存储设备或其它磁存储设备、或者可用于存储所需信息并且可由计算设备600访问的任何其它媒体。任意这样的计算机存储媒体可以是计算设备600的部件。
计算设备600还可以包括接口总线640,该接口总线用于方便从各接口设备(例如,输出设备642、外围设备接口644和通信设备646)经由总线/接口控制器630到基础配置602的通信。示例的输出设备642包括图形处理单元648和音频处理单元650,其可配置为经由一个或多个A/V端口652与诸如显示器或扬声器的各外部设备通信。示例的外围设备接口644包括串行接口控制器654或并行接口控制器656,其可配置为经由一个或多个I/O端口658与诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)或其它外围设备(例如,打印机、扫描仪等)的外部设备通信。示例的通信设备646包括网络控制器660,其可布置成便于经由一个或多个通信端口664通过网络通信链路与一个或多个计算设备662的通信。
网络通信链路可以是通信媒体的一个示例。通信媒体通常可通过计算机可读指令、数据结构、程序模块或诸如载波或其它传输机制的调制数据信号中的其它数据来具体化,并且可以包括任何信息输送媒体。“调制数据信号”可以是使得其特性中的一个或多个以将信号中的信息编码的方式设定或改变的信号。通过举例而不是限制的方式,通信媒体可以包括诸如有线网络或直接线连接的有线媒体,以及诸如声波、射频(RF)、微波、红外(IR)和其它无线媒体的无线媒体。如本文所使用的术语计算机可读媒体可以包括存储媒体和通信媒体两者。
计算设备600可实现为诸如蜂窝电话、个人数据助理(PDA)、个人媒体播放器设备、无线网页监视设备(wireless web-watch device)、个人头戴送受话器设备、专用设备或包括上述功能中的任一种的混合设备的小形状因数的便携式(或移动)电子设备的一部分。计算设备600还可实现为包括膝上型计算机和非膝上型计算机配置两者的个人计算机。
本公开不限于本文所描述的特定实施例,这些实施例意在为各方案的示例。能够在不偏离其精神和范围的情况下做出多种改进和变型,这对于本领域技术人员而言是显而易见的。通过前面的说明,除了本文所列举的那些之外,在本公开的范围内的功能上等同的方法和装置对于本领域技术人员而言将是显而易见的。旨在使这些改进和变型落在所附权利要求书的范围内。本公开仅受所附权利要求书以及这些权利要是所给予权利的等同方案的整个范围所限制。应当理解的是,本公开不限于特定的方法、试剂、化合物组成或生物系统,当然这些会变化。还应理解的是,本文所使用的术语是仅仅是为了描述特定实施例的目的,而不意在限制。
关于本文中基本上任何复数和/或单数术语的使用,本领域技术人员能够根据上下文和/或应用适当地从复数变换成单数和/或从单数变换成复数。为了清晰的目的,本文中明确地阐明了各单数/复数的置换。
本领域技术人员将理解,一般地,本文所使用的术语,尤其是随附权利要求(例如,随附权利要求的主体)中所使用的术语,通常意在为“开放式”术语(例如,术语“包括”应当解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包括”应解释为“包括但不限于”,等等)。本领域技术人员还理解,如果意图表达引导性权利要求记述项的具体数量,该意图将明确地记述在权利要求中,并且在不存在这种记述的情况下,不存在这样的意图。例如,为辅助理解,下面的随附权利要求可能包含了引导性短语“至少一个”和“一个或多个”的使用以引导权利要求记述项。然而,这种短语的使用不应解释为暗指不定冠词“一”或“一个”引导权利要求记述项将包含该所引导的权利要求记述项的任何特定权利要求局限于仅包含一个该记述项的实施例,即使当同一权利要求包括了引导性短语“一个或多个”或“至少一个”以及诸如“一”或“一个”的不定冠词(例如,“一”和/或“一个”应当解释为表示“至少一个”或“一个或多个”);这同样适用于对于用于引导权利要求记述项的定冠词的使用。另外,即使明确地记述了被引导的权利要求记述项的具体数量,本领域技术人员将理解到这些记述项应当解释为至少表示所记述的数量(例如,没有其它修饰语的裸记述“两个记述项”表示至少两个记述项或两个以上的记述项)。此外,在使用类似于“A、B和C等中的至少一个”的惯用法的那些实例中,通常这样的构造旨在表达本领域技术人员理解该惯用法的含义(例如,“具有A、B和C中的至少一个的系统”将包括但不限于仅具有A、仅具有B、仅具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B和C等等的系统)。在使用类似于“A、B或C等中的至少一个”的惯用法的那些实例中,通常这样的构造旨在表达本领域技术人员理解该惯用法的含义(例如,“具有A、B或C中的至少一个的系统”将包括但不限于仅具有A、仅具有B、仅具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B和C等等的系统)。本领域技术人员将进一步理解,呈现两个以上可选项的几乎任何分离词和/或短语,无论是在说明书、权利要求或附图中,都应理解为设想包括一项、任一项或两项的可能性。例如,术语“A或B”将理解为包括“A”或“B”或“A和B”的可能性。
另外,在根据马库什组(Markush group)描述本公开的特征或方案的情况下,本领域技术人员将理解的是本公开也因此以马库什组的任何独立成员或成员的子组来描述。
本领域技术人员将理解的是,为了任何以及全部的目的,诸如在提供所撰写的说明书方面,本文所公开的全部范围也涵盖了任何和全部的可能的子范围及其子范围的组合。能够容易地认识到任何所列范围都充分地描述了同一范围并且使同一范围分解成至少均等的一半、三分之一、四分之一、五分之一、十分之一等等。作为非限制示例,本文所论述的每个范围能够容易地分解成下三分之一、中三分之一和上三分之一,等等。本领域技术人员还将理解的是,诸如“多达”、“至少”等所有的语言包括所记述的数量并且是指如上文所论述的随后能够分解成子范围的范围。最后,本领域技术人员将理解的是,范围包括每个独立的成员。因此,例如,具有1-3个单元的组是指具有1个、2个或3个单元的组。类似地,具有1-5个单元的组是指具有1个、2个、3个、4个、或5个单元的组,等等。
通过前面的论述,将理解到本文已经为了示例的目的描述了本公开的各实施例,并且可以在不偏离本公开的范围和精神的情况下进行各种改进。因此,本文所公开的各个实施例不意在限制,真正的范围和精神是通过随附的权利要求表示的。

Claims (21)

1.一种方法,包括:
通过服务器,至少部分地基于媒体文件的元数据来识别所述媒体文件的创建时间;
通过所述服务器,识别所述媒体文件的上传时间;
通过所述服务器,计算所述创建时间与所述上传时间之间的差值;以及
当所述差值大于预定值时,通过所述服务器来执行数据去重过程。
2.如权利要求1所述的方法,其中所述媒体文件是图像文件,并且所述媒体文件的所述创建时间是最初制成所述图像文件的时间。
3.如权利要求1所述的方法,其中所述媒体文件是视频文件,并且所述媒体文件的所述创建时间是完成所述视频文件的捕获的时间。
4.如权利要求1所述的方法,其中所述媒体文件是视频文件,并且其中所述媒体文件的所述创建时间的识别至少部分地基于何时开始所述视频文件的捕获以及所述视频文件的运行时间。
5.如权利要求1所述的方法,其中所述媒体文件的所述上传时间是所述服务器开始接收所述媒体文件的时间。
6.如权利要求1所述的方法,其中所述媒体文件的所述上传时间是所述服务器从客户端设备接收用于上传所述媒体文件的请求的时间。
7.如权利要求1所述的方法,其中所述预定值是由所述服务器至少部分地基于所述服务器的处理能力和所述服务器的存储容量中的至少一项来设定的。
8.如权利要求1所述的方法,其中所述服务器存储所述创建时间和所述上传时间中的至少一项。
9.如权利要求1所述的方法,还包括:
当所述差值小于所述预定值时,跳过所述数据去重过程。
10.一种数据去重管理系统,包括:
创建时间识别单元,其配置为识别媒体文件的创建时间;
上传时间识别单元,其配置为识别所述媒体文件的上传时间;以及
判定单元,其配置为至少部分地基于所述创建时间识别单元识别的所述创建时间和所述上传时间识别单元识别的所述上传时间来判定是否允许对所述媒体文件执行数据去重过程。
11.如权利要求10所述的数据去重管理系统,还包括:
数据去重单元,其配置为当所述判定单元判定出允许对所述媒体文件执行所述数据去重过程时,对所述媒体文件执行所述数据去重过程。
12.如权利要求10所述的数据去重管理系统,其中所述创建时间识别单元进一步配置为至少部分地基于所述媒体文件的元数据来识别所述媒体文件的所述创建时间。
13.如权利要求10所述的数据去重管理系统,其中所述判定单元进一步配置为当所述创建时间与所述上传时间之间的差值大于预定值时,判定为允许对所述媒体文件执行所述数据去重过程。
14.如权利要求13所述的数据去重管理系统,其中所述预定值是通过服务器至少部分地基于所述服务器的处理能力和所述服务器的存储容量中的至少一项来设定的。
15.如权利要求10所述的数据去重管理系统,其中所述媒体文件是图像文件,并且所述媒体文件的所述创建时间是最初捕获所述图像文件的时间。
16.如权利要求10所述的数据去重管理系统,其中所述媒体文件是视频文件,并且所述媒体文件的所述创建时间是完成所述视频文件的捕获的时间。
17.如权利要求10所述的数据去重管理系统,其中所述媒体文件是视频文件,并且
其中所述创建时间识别单元进一步配置为至少部分地基于所述视频文件的捕获何时开始以及所述视频文件的运行时间来识别所述媒体文件的捕获时间。
18.如权利要求10所述的数据去重管理系统,其中所述媒体文件的所述上传时间是服务器开始接收所述媒体文件的时间。
19.如权利要求10所述的数据去重管理系统,其中所述媒体文件的所述上传时间是服务器从客户端设备接收用于上传所述媒体文件的请求的时间。
20.一种计算机可读存储介质,其中存储有计算机可执行指令,响应于执行,所述计算机可执行指令使数据去重管理系统执行操作,包括:
识别媒体文件的创建时间;
识别所述媒体文件的上传时间;以及
至少部分地基于所述媒体文件的所述创建时间和所述媒体文件的所述上传时间来判定是否对所述媒体文件执行数据去重过程。
21.如权利要求20所述的计算机可读存储介质,其中所述操作还包括:
当所述创建时间与所述上传时间之间的差值大于预定值时,对所述媒体文件执行所述数据去重过程。
CN201280073972.2A 2012-06-14 2012-06-14 数据去重管理 Expired - Fee Related CN104380287B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/042456 WO2013187901A2 (en) 2012-06-14 2012-06-14 Data deduplication management

Publications (2)

Publication Number Publication Date
CN104380287A true CN104380287A (zh) 2015-02-25
CN104380287B CN104380287B (zh) 2018-01-26

Family

ID=49756857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280073972.2A Expired - Fee Related CN104380287B (zh) 2012-06-14 2012-06-14 数据去重管理

Country Status (3)

Country Link
US (1) US9298717B2 (zh)
CN (1) CN104380287B (zh)
WO (1) WO2013187901A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9178860B2 (en) * 2013-08-22 2015-11-03 Maginatics, Inc. Out-of-path, content-addressed writes with untrusted clients
CN103678702B (zh) * 2013-12-30 2018-01-30 优视科技有限公司 视频去重方法及装置
US9449012B2 (en) * 2014-05-30 2016-09-20 Apple Inc. Cloud library de-duplication
CN105812405B (zh) * 2014-12-29 2019-04-09 阿里巴巴集团控股有限公司 一种处理消息的方法、装置及系统
RU2634224C2 (ru) 2015-06-30 2017-10-24 Общество С Ограниченной Ответственностью "Яндекс" Система и способ и постоянный машиночитаемый носитель дублирования файлов на клиентском устройстве для облачного хранилища
JP7013817B2 (ja) * 2017-11-24 2022-02-01 トヨタ自動車株式会社 医療情報システム、医療装置、データ通信方法、及び、プログラム
JP7009955B2 (ja) * 2017-11-24 2022-01-26 トヨタ自動車株式会社 医療データ通信装置、サーバ、医療データ通信方法および医療データ通信プログラム
US11461229B2 (en) 2019-08-27 2022-10-04 Vmware, Inc. Efficient garbage collection of variable size chunking deduplication
US11669495B2 (en) 2019-08-27 2023-06-06 Vmware, Inc. Probabilistic algorithm to check whether a file is unique for deduplication
US11372813B2 (en) 2019-08-27 2022-06-28 Vmware, Inc. Organize chunk store to preserve locality of hash values and reference counts for deduplication
US11775484B2 (en) * 2019-08-27 2023-10-03 Vmware, Inc. Fast algorithm to find file system difference for deduplication
CN112306998B (zh) * 2020-10-13 2023-11-24 武汉中科通达高新技术股份有限公司 交委数据去重方法、装置及服务器
CN112911239B (zh) * 2021-01-28 2022-11-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN113126929B (zh) * 2021-04-23 2022-04-22 重庆紫光华山智安科技有限公司 一种特征数据去重的方法、系统、介质和终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060279628A1 (en) * 2003-09-12 2006-12-14 Fleming Hayden G Streaming non-continuous video data
CN101604321A (zh) * 2009-07-15 2009-12-16 丘雷 验证手机摄录文件可信度的电子地图
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法
US20100332454A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud environment, including containerized deduplication, data pruning, and data transfer
US20110138144A1 (en) * 2009-12-04 2011-06-09 Fujitsu Limited Computer program, apparatus, and method for managing data
US20120110045A1 (en) * 2009-09-16 2012-05-03 Hitachi, Ltd. File management method and storage system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210575A1 (en) 2003-04-18 2004-10-21 Bean Douglas M. Systems and methods for eliminating duplicate documents
US20080032739A1 (en) * 2005-12-21 2008-02-07 Faraz Hoodbhoy Management of digital media using portable wireless devices in a client-server network
JP4951331B2 (ja) * 2006-12-26 2012-06-13 株式会社日立製作所 ストレージシステム
CN101604314A (zh) 2008-06-10 2009-12-16 鸿富锦精密工业(深圳)有限公司 自动删除相同档案的方法
US8213723B2 (en) 2008-12-29 2012-07-03 Yahoo! Inc. Method and system for determining near duplicate images
US20120141023A1 (en) * 2009-03-18 2012-06-07 Wang Wiley H Smart photo story creation
US8832042B2 (en) 2010-03-15 2014-09-09 Symantec Corporation Method and system to scan data from a system that supports deduplication
US8392376B2 (en) * 2010-09-03 2013-03-05 Symantec Corporation System and method for scalable reference management in a deduplication based storage system
US8996462B2 (en) * 2011-07-14 2015-03-31 Smugmug, Inc. System and method for managing duplicate file uploads

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060279628A1 (en) * 2003-09-12 2006-12-14 Fleming Hayden G Streaming non-continuous video data
US20100332454A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud environment, including containerized deduplication, data pruning, and data transfer
CN101604321A (zh) * 2009-07-15 2009-12-16 丘雷 验证手机摄录文件可信度的电子地图
US20120110045A1 (en) * 2009-09-16 2012-05-03 Hitachi, Ltd. File management method and storage system
US20110138144A1 (en) * 2009-12-04 2011-06-09 Fujitsu Limited Computer program, apparatus, and method for managing data
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法

Also Published As

Publication number Publication date
CN104380287B (zh) 2018-01-26
US20130339317A1 (en) 2013-12-19
US9298717B2 (en) 2016-03-29
WO2013187901A3 (en) 2014-05-08
WO2013187901A2 (en) 2013-12-19

Similar Documents

Publication Publication Date Title
CN104380287A (zh) 数据去重管理
US8724963B2 (en) Method and system for gesture based searching
US9823945B2 (en) Method and apparatus for managing application program
CN102982152B (zh) 查询结果的时间可视化
CN103197924B (zh) 用于实时选择压缩操作的方法和系统
US20150350371A1 (en) Caching and syncing mechanisms for a cloud library
JP2009536390A (ja) コンテンツに注釈付けする装置及び方法
CN105474209A (zh) 管理对共享文档的改动
KR100946694B1 (ko) 영상 정보 기반의 동영상 파일 중복 검사와 관리를 위한시스템 및 방법
US20150010288A1 (en) Media information server, apparatus and method for searching for media information related to media content, and computer-readable recording medium
CN113360709B (zh) 短视频侵权风险的检测方法、装置和电子设备
US20120307078A1 (en) Automatic sharing and replacement of content based on network connectivity
CN102375881A (zh) 内容签名通知
US9020902B1 (en) Reducing head and tail duplication in stored data
KR101888846B1 (ko) 클라우드 스트리밍 서비스 시스템, 리시프로컬 캐시를 이용한 이미지 클라우드 스트리밍 서비스 방법 및 이를 위한 장치
CN104090878A (zh) 一种多媒体查找方法、终端、服务器及系统
US9787755B2 (en) Method and device for browsing network data, and storage medium
CN105279221A (zh) 链接预览管理
CA2722511C (en) Efficient change tracking of transcoded copies
KR20210154785A (ko) 클라우드 스트리밍 서비스 시스템, 공통 캐시를 이용한 이미지 클라우드 스트리밍 서비스 방법 및 이를 위한 장치
CN115470190A (zh) 一种多存储池数据分类存储方法、系统与电子设备
EP2336912A2 (en) Compressing photos for devices
CN110716768B (zh) 终端上的应用程序跳转方法及装置、电子设备、存储介质
CN116257707B (zh) 一种应用发布方法、装置、电子设备及存储介质
KR20130089925A (ko) 메타 클라우드 컴퓨팅 기반의 데이터 관리 시스템, 이를 위한 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180126

Termination date: 20200614

CF01 Termination of patent right due to non-payment of annual fee