CN116095066A - 一种防止媒体处理系统重复下载的方法、装置及存储介质 - Google Patents

一种防止媒体处理系统重复下载的方法、装置及存储介质 Download PDF

Info

Publication number
CN116095066A
CN116095066A CN202211720911.2A CN202211720911A CN116095066A CN 116095066 A CN116095066 A CN 116095066A CN 202211720911 A CN202211720911 A CN 202211720911A CN 116095066 A CN116095066 A CN 116095066A
Authority
CN
China
Prior art keywords
cleaning
file
processing system
media
downloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211720911.2A
Other languages
English (en)
Inventor
李�浩
黄鹄
林洁琬
黄润怀
李旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202211720911.2A priority Critical patent/CN116095066A/zh
Publication of CN116095066A publication Critical patent/CN116095066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种防止媒体处理系统重复下载的方法、装置及存储介质,涉及媒体处理技术领域。该防止媒体处理系统重复下载的方法,使用文件Etag唯一标识文件,每次下载媒体文件时先获取其Etag值,再判断对应Etag文件是否存在共享磁盘上,若不存在则下载,否则无需下载;融合多因素设计竞争淘汰策略,使用双向文件管理队列实现;主动清理、被动清理多种方式相结合对磁盘空间进行清理,达到优异的防止媒体文件重复下载效果,解决了现有技术中基于NFS协议进行共享、直接定时删除存在的难以有效防止媒体文件重复下载,磁盘空间清理不高效,不及时的问题,实现了便于对共享磁盘空间进行高效清理,有效防止媒体文件重复下载的效果。

Description

一种防止媒体处理系统重复下载的方法、装置及存储介质
技术领域
本发明涉及媒体处理技术领域,尤其涉及一种防止媒体处理系统重复下载的方法、装置及存储介质。
背景技术
当下各类视频平台席卷全球,各类视频爆炸性增长,随之而来的转码、截图、打水印、AI审核等媒体处理需求日益旺盛。而媒体处理系统进行具体媒体处理前需先将源视频从s3存储上完整下载到本地,然后再根据具体媒体处理参数对源视频做某种处理。因为各类媒体处理是以一个个独立任务依次提交到媒体处理系统进行异步处理的,导致用户按需在不同时段对同一视频进行不同媒体处理时会出现源视频或水印被频繁重复下载的情况。如果源视频较大且类似分时段处理用户量大时,频繁重复下载不仅会浪费大量带宽资源,显著增加s3存储IO负载,还会严重影响媒体处理整体效率。
针对以上媒体文件重复下载的问题业内通常做法:服务集群内机器使用NFS(Network Fi le System)协议挂载一块集群内共享磁盘,直接将下载的媒体文件按s3Key保存到共享磁盘上,当共享磁盘空间不足时直接按s3Key或下载时间或大小按顺序对磁盘文件进行清理。这种方式存在如下明显问题:1.当两个媒体文件内容完全相同只是s3Key不同时还是会重复下载媒体文件;2.s3Key完全相同但内容不同的媒体文件会被误处理;3.清理过于粗暴不能有效地防重复下载;4.磁盘空间清理不高效、不及时。
发明内容
本申请实施例通过提供一种防止媒体处理系统重复下载的方法、装置及存储介质,解决了现有技术中基于NFS协议进行共享、直接定时删除存在的难以有效防止媒体文件重复下载,磁盘空间清理不高效,不及时的问题,实现了便于对共享磁盘空间进行高效清理,有效防止媒体文件重复下载的效果。
本申请实施例提供了一种防止媒体处理系统重复下载的方法,包括以下步骤:
S1、根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
S2、基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
进一步的,所述S1判断当前媒体文件是否需要下载的具体过程包括:
S11、将新下载的媒体文件以{Etag}.{format}命名存放在共享磁盘上;
S12、下载之前先获取对应媒体文件的Etag值;
S13、判断获取的Etag值是否存在于共享磁盘上,若不存在则下载。
进一步的,所述S2中的多因素包括文件大小,访问次数n和各次访问时间点,上述因素确定本地文件清理优先级,定义文件每分钟等效访问字节数为Fvbpm:
Figure BDA0004028451790000021
其中,Δtexpire-days为本地媒体文件过期时间总分钟数,accessTimn为最后一次访问时间,fileSize为文件大小。
进一步的,所述S2中使用双向队列管理文件时,节点按照最后一次访问时间和文件每分钟等效访问字节数联合降序排列;
队列操作使用头指针、当前指针和尾指针,实现文件的增加,删除,更新和查看;
头结点为系统预占节点,记录当前本地媒体文件总大小。
进一步的,所述S2中淘汰策略包括后台常驻队列管理线程和后台常驻队列清理线程,所述后台常驻队列管理线程用于队列节点新增和更新,所述后台常驻队列清理线程用于主动清理过期节点。
进一步的,所述S2中对共享磁盘空间清理的方式包括主动清理和被动清理。
进一步的,所述主动清理的过程具体为:
第一步、后台常驻队列清理线程每小时定时从尾结点逆向遍历队列;
第二步、依据最后一次访问时间判断节点是否过期,并依次清理队列中已经过期的节点及对应媒体文件;
第三步、更新头结点总字节数。
进一步的,所述被动清理的过程具体为:
第一步、当需要下载新媒体文件时先获取其元数据的信息长度;
第二步、判断共享磁盘剩余空间是否充足,若不充足,则从队列尾节点逆向遍历依次强制清理遍历过的节点,直至磁盘空间足够。
本申请实施例提供了一种防止媒体处理系统重复下载的装置,包括下载模块和清理模块,其中:
下载模块,用于根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
清理模块,用于基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
本申请实施例提供了一种存储介质,所述存储介质上存储有存储程序,所述程序被处理器执行时实现所述的防止媒体处理系统重复下载的方法。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
使用文件Etag唯一标识文件,每次下载媒体文件时先获取其Etag值,再判断对应Etag文件是否存在共享磁盘上,若不存在则下载,否则无需下载;融合多因素设计竞争淘汰策略,使用双向文件管理队列实现;主动清理、被动清理多种方式相结合对磁盘空间进行清理,达到优异的防止媒体文件重复下载效果。
附图说明
图1为本申请实施例一提供的防止媒体处理系统重复下载的方法流程图;
图2为本申请实施例一提供的判断新媒体文件是否需要下载的系统示意图;
图3为本申请实施例一提供的双向队列管理的具体队列及系统线程示意图;
图4为本申请实施例一提供的主动清理具体流程图;
图5为本申请实施例一提供的被动清理具体流程图;
图6为本申请实施例二提供的防止媒体处理系统重复下载的装置结构图。
具体实施方式
本申请实施例通过提供一种防止媒体处理系统重复下载的方法、装置及存储介质,解决了现有技术中基于NFS协议进行共享、直接定时删除存在的难以有效防止媒体文件重复下载,磁盘空间清理不高效,不及时的问题,在媒体清理系统中运用文件Etag唯一标识文件,融合多因素设计竞争淘汰策略的方式实现了便于对共享磁盘空间进行高效清理,有效防止媒体文件重复下载的效果。
本申请实施例中的技术方案为解决上述现有技术中基于深度学习的检索方法存在不便在保证识别准确性的情况下,提升检索速度的问题,总体思路如下:
海量媒体处理过程中媒体文件被频繁重复下载不仅会白白浪费大量带宽资源,显著增加s3存储IO负载,还会严重影响媒体处理整体效率,针对以上问题使用文件Etag唯一标识文件,每次下载媒体文件时先获取其Etag值,再判断对应Etag文件是否存在共享磁盘上,若不存在则下载,否则无需下载;融合多因素设计竞争淘汰策略,使用双向文件管理队列实现;主动清理、被动清理多种方式相结合对磁盘空间进行清理,达到优异的防止媒体文件重复下载效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
如图1所示,为本申请实施例提供的防止媒体处理系统重复下载的方法流程图,该方法包括:
S1、根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
S2、基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
进一步的,本申请实施例提供的方法,可以便于对共享磁盘空间进行高效清理,有效防止媒体文件重复下载的效果,具体步骤如下:
如图2所示,所述S1判断当前媒体文件是否需要下载的具体过程包括:
S11、将新下载的媒体文件以{Etag}.{format}命名存放在共享磁盘上;
S12、下载之前先获取对应媒体文件的Etag值;
S13、判断获取的Etag值是否存在于共享磁盘上,若不存在则下载。
在本实施例中,使用文件Etag唯一标识文件,Etag是文件hash值,能准确反映文件内容变化且该值为Read-only,将新下载的媒体文件以{Etag}.{format}命名存放在共享磁盘上,每当下载媒体文件时,都先获取该媒体文件的Etag值,根据获取的Etag值判断对应的文件是否存在在共享磁盘上,如果存在就不需要重新下载媒体文件,避免重复下载。
进一步的,所述S2中的多因素包括文件大小,访问次数和各次访问时间点,上述因素确定本地文件清理优先级,定义文件每分钟等效访问字节数为Fvbpm:
Figure BDA0004028451790000061
其中,Δtexpire-day为本地媒体文件过期时间总分钟数,accessTimn为最后一次访问时间,fileSize为文件大小;
进一步的,所述S2中使用双向队列管理文件时,节点按照最后一次访问时间和文件每分钟等效访问字节数联合降序排列;
队列操作使用头指针、当前指针和尾指针,实现文件的增加,删除,更新和查看;
头结点为系统预占节点,记录当前本地媒体文件总大小;
进一步的,所述S2中淘汰策略包括后台常驻队列管理线程和后台常驻队列清理线程,所述后台常驻队列管理线程用于队列节点新增和更新,所述后台常驻队列清理线程用于主动清理过期节点。
在本实施例中,如图3所示,使用有序双向队列管理文件,节点按accessTimen和Fvbpm联合降序排列,头结点为系统预占节点,记录当前本地媒体文件总大小,为了兼顾CRUD(增删改查)综合效率,队列操作使用三个指针,头指针、当前指针、尾指针;
其中Fvbpm通过公式
Figure BDA0004028451790000062
求得,Δtexpire-days为本地媒体文件过期时间总分钟数,accessTimen为最后一次访问时间,fileSize为文件大小,过期时间为系统环境变量可灵活设置,默认为14天,accessTimen精确到分钟。
进一步的,所述S2中对共享磁盘空间清理的方式包括主动清理和被动清理。
进一步的,所述主动清理的过程具体为:
第一步、后台常驻队列清理线程每小时定时从尾结点逆向遍历队列;
第二步、依据最后一次访问时间判断节点是否过期,并依次清理队列中已经过期的节点及对应媒体文件;
第三步、更新头结点总字节数。
在本实施例中,如图4所示,台常驻清理线程每小时定时从尾结点逆向遍历队列,首先判断是否存在上一个数据节点,如果不存在则直接结束逆向遍历,如果存在上一个数据节点,则根据accessTimn判断该节点是否已经过期,也即有多少天没有访问,将过期的节点从队列中清理掉,清理对应的媒体文件,同时更新头结点总字节数。
进一步的,所述被动清理的过程具体为:
第一步、当需要下载新媒体文件时先获取其元数据的信息长度;
第二步、判断共享磁盘剩余空间是否充足,若不充足,则从队列尾节点逆向遍历依次强制清理遍历过的节点,直至磁盘空间足够。
在本实施例中,如图5所示,当需下载新媒体文件时先获取其元数据Content-Length,若共享磁盘剩余空间不足,则从队列尾节点逆向遍历依次强制清理遍历过的节点直至磁盘空间足够,在删除节点及对应文件的同时,也会更新头节点字节总数。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
能避免内容相同而s3Key不同媒体文件重复下载或内容不同s3Key相同媒体文件误处理,使用设计的竞争淘汰策略后共享磁盘文件删留更精准,提高了磁盘空间有效利用率,主动清理、被动清理相结合可兼具清理及时性和高效性。
实施例二
如图6所示,为本申请实施例提供的防止媒体处理系统重复下载的装置结构图,本申请实施例提供的防止媒体处理系统重复下载的装置包括:下载模块和清理模块,其中:
下载模块,用于根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
清理模块,用于基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
在本实施例中,下载模块在下载新媒体文件之前会先根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,如果该媒体文件不存在于共享磁盘之中,若需要则下载;
清理模块基于多因素竞争淘汰策略,多因素主要包括文件大小,访问次数和各次访问时间点,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
能避免内容相同而s3Key不同媒体文件重复下载或内容不同s3Key相同媒体文件误处理,使用设计的竞争淘汰策略后共享磁盘文件删留更精准,提高了磁盘空间有效利用率,主动清理、被动清理相结合可兼具清理及时性和高效性。
本申请实施例还提供的一种存储介质,存储介质上存储有处理器执行时实现防止媒体处理系统重复下载的方法的程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种防止媒体处理系统重复下载的方法,其特征在于,包括以下步骤:
S1、根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
S2、基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
2.如权利要求1所述防止媒体处理系统重复下载的方法,其特征在于:所述S1判断当前媒体文件是否需要下载的具体过程包括:
S11、将新下载的媒体文件以{Etag}.{format}命名存放在共享磁盘上;
S12、下载之前先获取对应媒体文件的Etag值;
S13、判断获取的Etag值是否存在于共享磁盘上,若不存在则下载。
3.如权利要求1所述防止媒体处理系统重复下载的方法,其特征在于:所述S2中的多因素包括文件大小,访问次数n和各次访问时间点,上述因素确定本地文件清理优先级,定义文件每分钟等效访问字节数为Fvbpm:
Figure FDA0004028451780000011
其中,Δtexpire-day为本地媒体文件过期时间总分钟数,accessTimen为最后一次访问时间,fileSize为文件大小。
4.如权利要求1所述防止媒体处理系统重复下载的方法,其特征在于:所述S2中使用双向队列管理文件时,节点按照最后一次访问时间和文件每分钟等效访问字节数联合降序排列;
队列操作使用头指针、当前指针和尾指针,实现文件的增加,删除,更新和查看;
头结点为系统预占节点,记录当前本地媒体文件总大小。
5.如权利要求1所述防止媒体处理系统重复下载的方法,其特征在于:所述S2中淘汰策略包括后台常驻队列管理线程和后台常驻队列清理线程,所述后台常驻队列管理线程用于队列节点新增和更新,所述后台常驻队列清理线程用于主动清理过期节点。
6.如权利要求1所述防止媒体处理系统重复下载的方法,其特征在于:所述S2中对共享磁盘空间清理的方式包括主动清理和被动清理。
7.如权利要求6所述防止媒体处理系统重复下载的方法,其特征在于:所述主动清理的过程具体为:
第一步、后台常驻队列清理线程每小时定时从尾结点逆向遍历队列;
第二步、依据最后一次访问时间判断节点是否过期,并依次清理队列中已经过期的节点及对应媒体文件;
第三步、更新头结点总字节数。
8.如权利要求6所述防止媒体处理系统重复下载的方法,其特征在于:所述被动清理的过程具体为:
第一步、当需要下载新媒体文件时先获取其元数据的信息长度;
第二步、判断共享磁盘剩余空间是否充足,若不充足,则从队列尾节点逆向遍历依次强制清理遍历过的节点,直至磁盘空间足够。
9.一种防止媒体处理系统重复下载的装置,其特征在于,包括下载模块和清理模块,其中:
下载模块,用于根据Etag值判断当前媒体文件是否需要下载到共享磁盘中,若需要则下载;
清理模块,用于基于多因素竞争淘汰策略,使用双向队列管理文件,结合主动、被动清理实现对共享磁盘空间的利用和清理。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至8中任一项所述的防止媒体处理系统重复下载的方法。
CN202211720911.2A 2022-12-30 2022-12-30 一种防止媒体处理系统重复下载的方法、装置及存储介质 Pending CN116095066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211720911.2A CN116095066A (zh) 2022-12-30 2022-12-30 一种防止媒体处理系统重复下载的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211720911.2A CN116095066A (zh) 2022-12-30 2022-12-30 一种防止媒体处理系统重复下载的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116095066A true CN116095066A (zh) 2023-05-09

Family

ID=86187803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211720911.2A Pending CN116095066A (zh) 2022-12-30 2022-12-30 一种防止媒体处理系统重复下载的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116095066A (zh)

Similar Documents

Publication Publication Date Title
US9792344B2 (en) Asynchronous namespace maintenance
US20150356125A1 (en) Method for data placement based on a file level operation
CN110347651B (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN111447248A (zh) 一种文件传输的方法及装置
CN108197160B (zh) 一种图片加载方法及装置
CN107368260A (zh) 基于分布式系统的存储空间整理方法、装置及系统
US20140025899A1 (en) Efficiently Updating and Deleting Data in a Data Storage System
CN103020255A (zh) 分级存储方法和装置
CN107766469A (zh) 一种缓存处理方法和装置
CN111198856A (zh) 文件管理方法、装置、计算机设备和存储介质
CN117931756B (zh) 一种基于Flink的FTP文件实时监控分析系统及方法
CN114610679A (zh) 存储设备及其数据存储方法、云端存储系统
CN115878027A (zh) 一种存储对象的处理方法、装置、终端及存储介质
CN112711564B (zh) 合并处理方法以及相关设备
US10713226B1 (en) Managing data using archiving
CN116095066A (zh) 一种防止媒体处理系统重复下载的方法、装置及存储介质
CN109800184B (zh) 针对小块输入的缓存方法、系统、装置及可存储介质
CN113779426A (zh) 数据存储方法、装置、终端设备及存储介质
CN110737635B (zh) 一种数据分块方法
CN111147226A (zh) 数据存储方法、装置及存储介质
CN114036160A (zh) 一种实时数据采集方法、装置、电子设备及存储介质
CN113744013B (zh) 订单号的生成方法、装置、服务器及存储介质
CN113127187B (zh) 用于集群扩缩容的方法和装置
CN114036104A (zh) 基于分布式存储的重删数据的云归档方法、装置及系统
CN115904211A (zh) 一种存储系统、数据处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination