CN111159434A - 一种在互联网存储集群中存储多媒体文件的方法及系统 - Google Patents
一种在互联网存储集群中存储多媒体文件的方法及系统 Download PDFInfo
- Publication number
- CN111159434A CN111159434A CN201911386067.2A CN201911386067A CN111159434A CN 111159434 A CN111159434 A CN 111159434A CN 201911386067 A CN201911386067 A CN 201911386067A CN 111159434 A CN111159434 A CN 111159434A
- Authority
- CN
- China
- Prior art keywords
- multimedia file
- stored
- storage device
- multimedia
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种在互联网存储集群中存储多媒体文件的方法及系统,所述互联网存储集群包括多个存储设备,其中方法包括:每个存储设备确定与待存储的多媒体文件相关的多个特征相关的多媒体文件集合和多个访问相关的多媒体文件集合;为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息;基于待存储的多媒体文件的主题信息确定第一关联度和第二关联度;基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
Description
技术领域
本发明涉及互联网数据存储领域,并且更具体地,涉及一种在互联网存储集群中存储多媒体文件的方法及系统。
背景技术
随着互联网技术的不断发展,越来越多的互联网设备能够生成各种类型的多媒体文件。多媒体文件能够通过互联网进行传递以丰富互联网的信息资源。现在需要利用互联网存储集群才能满足成指数级别增加的多媒体文件的数量。然而,在目前的情况下,当需要使用互联网存储集群来存储多媒体文件时,通常是采用人工指定的方式来确定将多媒体文件存储到互联网存储集群中的哪个存储设备。这种方式效率较低并且容易出现错误。
发明内容
本发明提供一种在互联网存储集群中存储多媒体文件的方法,所述互联网存储集群包括多个存储设备,所述方法包括:
获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息;
每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;
每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;
为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息;
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
每个存储设备均用于存储多个多媒体文件,并且多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。
多媒体文件具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:
计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度;
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括:
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:
计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:
确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备。
本发明提供一种在互联网存储集群中存储多媒体文件的系统,所述互联网存储集群包括多个存储设备,所述系统包括:
获取设备,获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息;
选择设备,促使每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;促使每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;
生成设备,为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息;
处理设备,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
存储设备,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
每个存储设备均用于存储多个多媒体文件,并且多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。
多媒体文件具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:
计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度;
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括:
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:
计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:
确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明的在互联网存储集群中存储多媒体文件的方法的流程图;
图2为根据本发明的存储多媒体文件的示意图;以及
图3为根据本发明的在互联网存储集群中存储多媒体文件的系统的结构示意图。
具体实施方式
图1为根据本发明的在互联网存储集群中存储多媒体文件的方法100的流程图。
在步骤101,获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息。
所述互联网存储集群用于提供多媒体文件的存储服务,所述互联网存储集群可能属于特定的服务提供商、服务运营商或网络组织。每个存储设备均用于存储多个多媒体文件。多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。
互联网存储集群通过接口设备来获取待存储的多媒体文件,所述待存储的多媒体文件是希望被存储到互联网存储集群中的多媒体文件,或者,所述待存储的多媒体文件是互联网存储集群所需要的多媒体文件。
每个多媒体文件(包括待存储的多媒体文件)均具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息。其中,主题信息是多媒体文件的主题名称、主题内容或用于描述主题内容的信息。特征信息包括:与多媒体文件(或多媒体文件的内容)相关联的多个关键特征,或从多媒体文件的内容信息中提取的多个关键特征,关键特征例如是与多媒体文件的内容相关的关键词,例如,多媒体文件是歌手周杰伦的歌曲屋顶的视频文件,则关键特征可以包括例如:屋顶、周杰伦、温岚、合唱、流行、天线、星星、睡梦、夜晚等。
特征信息还可以包括多媒体文件的文件尺寸,例如,<多媒体文件的标志符、文件尺寸>。访问信息包括多个访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的起始时间、访问请求方的标志符>,其中被访问的起始时间是多媒体文件被访问请求方访问时的起始时间、访问请求方是能够请求访问互联网存储集群中的多媒体文件的请求方,访问请求方的标志符用于唯一地标识所述访问请求方,多媒体文件的标志符用于唯一第标识所述多媒体文件。访问信息所包括多个访问记录能够记录多媒体文件的每次被访问的信息。
在步骤102,每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。
每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合包括:
每个存储设备进行以下内容:
对待存储的多媒体文件的特征信息进行解析以确定待存储的多媒体文件的多个关键特征k;其中多个关键特征k的数量为nkey,即对待存储的多媒体文件的特征信息进行解析以确定待存储的多媒体文件的nkey个关键特征;
确定nkey个关键特征中任意两个不同的关键特征之间的相关程度值,其中将两个不同的关键特征之间语义关联度、词性关联度或词意匹配度等作为两个不同的关键特征之间的相关程度值,
基于任意两个不同的关键特征之间的相关程度值和关键特征的数量nkey确定待处理的多媒体文件的(所有)多个关键特征的标准程度值(基于待存储的多媒体文件的nkey个关键特征之间的相关程度值来确定待存储的多媒体文件的nkey个关键特征的标准程度值);
其中,savg是待存储的多媒体文件的nkey个关键特征的标准程度值;nkey为待存储的多媒体文件的关键特征的数量;sim(ki,kj)是第i个关键特征ki和第j个关键特征kj之间的相关程度值,其中ki为第i个关键特征、kj是第j个关键特征,其中,1≤i≤nkey,1≤j≤nkey并且i和j不相等;其中6≤nkey、10≤nkey或15≤nkey;nkey、i和j为自然数。
将nkey个关键特征中任意两个不同的关键特征之间的相关程度值(即,所有的sim(ki,kj))和任意两个不同的关键特征构成三元组,即<ki、kj、sim(ki,kj)>,以获得多个三元组;其中,<ki、kj、sim(ki,kj)>和<kj、ki、sim(ki,kj)>为不同的三元组;或者,将<ki、kj、sim(ki,kj)>和<kj、ki、sim(ki,kj)>认为是相同的三元组并合并为一个,例如<ki、kj、sim(ki,kj)>。
从所有的三元组中选择sim(ki,kj)大于savg的三元组以作为选定三元组,从而获得多个选定三元组。对每个选定三元组中的两个关键特征进行统计,以确定每个关键特征在所有(多个)选定三元组中出现的次数,按照次数的降序顺序对所有选定三元组所涉及的所有关键特征进行排序以生成第一排序列表,从第一排序列表中选择排名在预定位置/名次之前的关键特征以作为选定关键特征;其中预定位置为第一排序列表的前1/2、1/3、1/4、1/5的位置处,预定名次为第一排序列表的前1/2、1/3、1/4、1/5的名次。
从所有选定三元组所涉及的所有关键特征中选择次数最多的第一预定数量的关键特征,以作为选定关键特征;其中第一预定数量为nkey/2、nkey/3、nkey/4、nkey/5等。其中选定关键特征的数量至少为2个、3个、4个、5个、6个、或10个。
每个存储设备进行以下内容:
确定自身所存储的所有多媒体文件中每个多媒体文件的主题名称,主题名称是用于概要地描述/介绍多媒体文件的主题内容的信息;例如,每个存储设备为自身所存储的所有多媒体文件中每个多媒体文件设置存储记录,所述存储记录中包括每个多媒体文件的主题名称、文件尺寸、起始存储时间、多个访问日志项等。
计算所有多媒体文件中每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度;例如,通过计算所有多媒体文件中每个多媒体文件的主题名称与每个选定关键特征的语义匹配度(或词意匹配度)、词义关联度、或内容相似度来确定匹配度/关联度/相似度。
基于每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度计算每个多媒体文件与多个选定关键特征的匹配度/关联度/相似度的平均值fp,q;fp,q是第p个存储设备的第q个多媒体文件与(多个或每个)所有选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)。
确定所有多媒体文件中每个多媒体文件的主题名称与(多个或每个)所有选定关键特征的匹配度的平均值中的最大值fp,max和最小值fp,min。
基于最大值fp,max和最小值fp,min确定第一调节参数αp:
其中,αp为第p个存储设备的第一调节参数,fp,max是第p个存储设备的所有多媒体文件中每个多媒体文件的主题名称与所有(多个或每个)选定关键特征的匹配度的平均值中的最大值(最大平均匹配度);fp,min是第p个存储设备的所有多媒体文件中每个多媒体文件的主题名称与所有(多个或每个)选定关键特征的匹配度的平均值中的(最小值)最小平均匹配度。
其中存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数;1≤p≤存储设备的数量。每个存储设备将自身所存储的所有多媒体文件中主题名称与(所有)多个选定关键特征的匹配度的平均值大于第一调节参数αp的多媒体文件选择作为待处理的多媒体文件,以获得多个待处理的多媒体文件。即,第p个存储设备将自身所存储的所有多媒体文件中主题名称与(多个或每个)多个选定关键特征的匹配度的平均值大于第一调节参数αp的多媒体文件选择作为第p个存储设备的待处理的多媒体文件,以获得第p个存储设备的多个待处理的多媒体文件。其中第p个存储设备自身所存储的所有多媒体文件的数量为mp个;第p个存储设备的多个待处理的多媒体文件的数量为mp-sele个,其中mp大于mp-sele。
每个存储设备进行以下内容:
确定自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸;例如,每个存储设备为自身所存储的所有多媒体文件中每个多媒体文件设置存储记录,所述存储记录中包括每个多媒体文件的主题名称、文件尺寸、起始存储时间、多个访问日志项等。根据自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸计算自身所存储的所有多媒体文件的文件尺寸的平均值sp-all。确定(自身所存储的所有多媒体文件中)多个待处理的多媒体文件中每个待处理的多媒体文件的文件尺寸。根据多个待处理的多媒体文件中每个待处理的多媒体文件的文件尺寸计算多个待处理的多媒体文件的文件尺寸的平均值sp-sele。
对自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸进行降序排序以生成列表,确定自身所存储的所有多媒体文件中文件尺寸的中位数sp-mid。
文件尺寸或多媒体文件的文件尺寸作为文件尺寸的中位数sp-mid。
其中mp大于100、500、1000、2000、5000或10000等。
确定第二调节参数βp:
其中,βp为第p个存储设备的第二调节参数;sp-all为第p个存储设备所存储的所有多媒体文件的文件尺寸的平均值;sp-sele为第p个存储设备的多个待处理的多媒体文件的文件尺寸的平均值;sp-mid为第p个存储设备所存储的所有多媒体文件中文件尺寸的中位数;mp为第p个存储设备所存储的(所有)多媒体文件的数量;其中mp大于100、500、1000、2000、5000或10000等。
基于第一调节参数、第二调节参数、多媒体文件的数量和多媒体文件与(多个或每个)多个选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)来确定阈值参数:
其中,dp为第p个存储设备的阈值参数;αp为第p个存储设备的第一调节参数;βp为第p个存储设备的第二调节参数;fp,q为第p个存储设备的第q个多媒体文件与所有(多个或每个)选定关键特征的匹配度的平均值;mp为第p个存储设备所存储的(所有)多媒体文件的数量。基于每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度计算每个多媒体文件与多个(或每个或所有)选定关键特征的匹配度/关联度/相似度的平均值。即,确定第p个存储设备的第q个多媒体文件与所有(或多个或每个)选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)。
计算匹配度阈值:
其中,thp为第p个存储设备的匹配度阈值;fp,q是第p个存储设备的第q个多媒体文件与(多个或每个)所有选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度);mp为第p个存储设备所存储的(所有)多媒体文件的数量;αp为第p个存储设备的第一调节参数;其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp。
每个存储设备将自身所存储的所有多媒体文件中与多个(或每个或所有)选定关键特征的匹配度的平均值大于或等于各自的匹配度阈值的多媒体文件选择作为特征相关的多媒体文件,以确定多个特征相关的多媒体文件。即,第p个存储设备将自身所存储的所有多媒体文件中fp,q大于或等于thp的多媒体文件选择作为第p个存储设备的特征相关的多媒体文件,以确定第p个存储设备的多个特征相关的多媒体文件。
从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合包括:
每个存储设备分别为待存储的多媒体文件确定各自的特征相关的多媒体文件集合,从而确定多个特征相关的多媒体文件集合;即每个存储设备将各自的多个特征相关的多媒体文件构成各自的特征相关的多媒体文件集合;第p个存储设备将自身的所有特征相关的多媒体文件构成特征相关的多媒体文件集合。每个存储设备有一个特征相关的多媒体文件集合。可替换地,每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。
每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;包括:
每个存储设备对待存储的多媒体文件的特征信息以确定待存储的多媒体文件的多个关键特征,从待存储的多媒体文件的多个关键特征中随机选择一个关键特征。确定随机选择的关键特征与(每个存储设备的)所有多媒体文件中每个多媒体文件的主题名称的匹配度/关联度/相似度。将所有多媒体文件中匹配度/关联度/相似度大于第一阈值的多媒体文件选择作为特征相关的多媒体文件,以获得多个特征相关的多媒体文件。每个存储设备将各自的多个特征相关的多媒体文件构成特征相关的多媒体文件集合,其中每个存储设备具有一个(待存储的多媒体文件的)特征相关的多媒体文件集合。从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。
在步骤103,每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合。每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合包括:
每个存储设备进行以下内容:
对待存储的多媒体文件的访问信息进行解析以确定待存储的多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<待存储的多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>。对待存储的多媒体文件的所有访问记录进行累计,确定待存储的多媒体文件在时间区间T内的被访问次数的总数AT,确定待存储的多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的开始时间在时间区间T内的多个访问记录的数量作为待存储的多媒体文件的被访问次数的总数AT。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。
将时间区间T划分为具有相同时间长度的多个子区间。例如,每个子区间可以为1天或2天等。按照子区间对待存储的多媒体文件的所有访问记录进行统计,从而确定待存储的多媒体文件在每个子区间内的被访问次数Ar。例如,按照每个子区间的时间间隔和所有访问记录中的被访问的开始时间对时间区间T内的所有访问记录进行分类,将被访问的开始时间在特定的子区间的时间间隔内的访问记录设置为特定的子区间的访问记录。
将每个子区间的访问记录的数量作为每个子区间内的被访问次数Ar,Ar为待存储的多媒体文件在第r个子区间内的被访问次数;其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn。
对待存储的多媒体文件的所有访问记录中的被访问的开始时间进行统计,确定时间上相邻的两次被访问的开始时间之间的时间差值tv(或确定时间上相邻的两个访问记录的被访问的开始时间之间的时间差值tv),1≤v≤Cd,v为自然数,Cd为时间差值的数量,100≤Cd、200≤Cd、500≤Cd或1000≤Cd。应当了解的是,当时间区间T内存在Cd+1条访问记录时,即时间区间T内存在Cd+1个被访问的开始时间,则存在Cd个时间差值。即,时间差值为所有相邻的两个被访问的开始时间之间的时间差值。
确定所有时间差值tv中的最大值tmax和最小值tmin;计算所有时间差值tv的平均值tavg。
每个存储设备进行以下内容:
对自身所存储的所有多媒体文件中每个多媒体文件的访问信息进行解析以确定每个多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>。对每个多媒体文件的所有访问记录分别进行累计,确定每个多媒体文件在时间区间T内的被访问次数的总数Ap,q;其中Ap,q是第p个存储设备的第q个多媒体文件在时间区间T内的被访问次数的总数;mp为第p个存储设备所存储的(所有)多媒体文件的数量,存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数,其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp.确定每个多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的起始时间在时间区间T内的多个访问记录的数量作为每个多媒体文件的被访问次数的总数Ap,q。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。
将时间区间T划分为具有相同时间长度的多个子区间。例如,每个子区间可以为1天或2天等。按照子区间对每个多媒体文件的所有访问记录进行统计,从而确定每个多媒体文件在每个子区间内的被访问次数Ap,q,r。例如,按照每个子区间的时间间隔和每个多媒体文件的所有访问记录中的被访问的开始时间对每个多媒体文件在时间区间T内的所有访问记录进行分类,将每个多媒体文件的被访问的开始时间在特定的子区间的时间间隔内的访问记录设置为每个多媒体文件在特定的子区间的访问记录。
将多媒体文件在每个子区间的访问记录的数量作为多媒体文件在每个子区间内的被访问次数Ap,q,r,Ap,q,r是第p个存储设备的第q个多媒体文件在第r个子区间内的被访问次数。
其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn;
对每个多媒体文件的所有访问记录中的被访问的开始时间进行统计,确定时间上相邻的两次被访问的开始时间之间的时间差值tp,q,v(或确定时间上相邻的两个访问记录的被访问的开始时间之间的时间差值tp,q,v),tp,q,v为第p个存储设备的第q个多媒体文件的第v个时间差值。1≤v≤Cp,q,d,v为自然数,Cp,q,d为第p个存储设备的第q个多媒体文件的时间差值的数量,100≤Cp,q,d、200≤Cp,q,d、500≤Cp,q,d或1000≤Cp,q,d。应当了解的是,当时间区间T内存在Cp,q,d+1条访问记录时,即时间区间T内存在Cp,q,d+1个被访问的开始时间,则存在Cp,q,d个时间差值。即,时间差值为所有相邻的两个被访问的开始时间之间的时间差值。
确定第p个存储设备的第q个多媒体文件的所有时间差值tp,q,v中的最大值tp,q,max和最小值tp,q,min;计算第p个存储设备的第q个多媒体文件的所有时间差值tp,q,v的平均值tp,q,avg。
计算每个存储设备自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度;其中访问背离度用于指示每个多媒体文件与待存储的多媒体文件在时间区间T的多个子区间内的访问次数的背离程度;即访问背离度越大则指示特定的多媒体文件与待存储的多媒体文件的访问相关程度越低,而访问背离度越小则指示特定的多媒体文件与待存储的多媒体文件的访问相关程度越高。
其中εp,q是第p个存储设备的第q个多媒体文件与待存储的多媒体文件的访问背离度,Ar为待存储的多媒体文件在第r个子区间内的被访问次数,Ap,q,r是第p个存储设备的第q个多媒体文件在第r个子区间内的被访问次数,Cn为子区间的数量,tp,q,max为第p个存储设备的第q个多媒体文件的所有时间差值中的最大值,tp,q,min为第p个存储设备的第q个多媒体文件的所有时间差值中的最小值,tp,q,avg为第p个存储设备的第q个多媒体文件的所有时间差值的平均值。
其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn。
计算每个存储设备自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值(计算每个存储设备自身所存储的所有多媒体文件与待存储的多媒体文件的访问背离度的平均值)
其中为第p个存储设备所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值,mp为第p个存储设备所存储的(所有)多媒体文件的数量,其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp.存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数,;1≤p≤存储设备的数量。
计算每个存储设备(各自)的访问背离度阈值:
其中φp为第p个存储设备的访问背离度阈值,tmax为待存储的多媒体文件的所有时间差值中的最大值;tmin为待存储的多媒体文件的所有时间差值中的最小值;tavg为待存储的多媒体文件的所有时间差值的平均值;为第p个存储设备所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值。
每个存储设备进行以下内容:
按照上面的方式,确定自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度εp,q,将所有多媒体文件中访问背离度εp,q小于访问背离度阈值φp的多媒体文件选择作为访问相关的多媒体文件,以选择多个访问相关的多媒体文件。即,第p个存储设备确定自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度εp,q,将所有多媒体文件中访问背离度εp,q小于访问背离度阈值φp的多媒体文件选择作为第p个存储设备的所有多媒体文件中与带存储的多媒体文件存在访问相关的多媒体文件,以选择多个访问相关的多媒体文件。
从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合包括:
每个存储设备分别为待存储的多媒体文件确定各自的访问相关的多媒体文件集合,从而确定多个访问相关的多媒体文件集合。即每个存储设备将各自的多个访问相关的多媒体文件构成各自的访问相关的多媒体文件集合。第p个存储设备将自身的所有访问相关的多媒体文件构成访问相关的多媒体文件集合。每个存储设备有一个访问相关的多媒体文件集合。
可替换地,每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;包括:
每个存储设备对待存储的多媒体文件的访问信息进行解析以确定待存储的多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<待存储的多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>;对待存储的多媒体文件的所有访问记录进行累计,确定待存储的多媒体文件在时间区间T内的被访问次数的总数,确定待存储的多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的开始时间在时间区间T内的多个访问记录的数量作为待存储的多媒体文件的被访问次数的总数。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。
每个存储设备对自身所存储的所有多媒体文件中每个多媒体文件的访问信息进行解析以确定每个多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>;对每个多媒体文件的所有访问记录分别进行累计,确定每个多媒体文件在时间区间T内的被访问次数的总数。将多个多媒体文件中在时间区间T内的被访问次数的总数大于或等于待存储的多媒体文件在时间区间T内的被访问次数的总数的多媒体文件确定为访问相关的多媒体文件,以获得多个访问相关的多媒体文件。每个存储设备将各自的多个访问相关的多媒体文件构成访问相关的多媒体文件集合,其中每个存储设备具有一个(待存储的多媒体文件的)访问相关的多媒体文件集合。从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合
在步骤104,为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息。为每个特征相关的多媒体文件集合生成各自的第一特征信息包括:从每个特征相关的多媒体文件集合中随机选择一个多媒体文件,以作为每个特征相关的多媒体文件集合的代表多媒体文件,对代表多媒体文件的(信息文档)中的特征信息进行解析以确定代表多媒体文件的多个关键特征,将每个特征相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成每个特征相关的多媒体文件集合各自的第一特征信息,即每个特征相关的多媒体文件集合的第一特征信息包括每个特征相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
例如,将第n个特征相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成第n个特征相关的多媒体文件集合的第一特征信息,即第n个特征相关的多媒体文件集合的第一特征信息包括第n个特征相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
或者,针对于每个特征相关的多媒体文件集合进行:对所存储的所有(或多个)特征相关的多媒体文件中每个特征相关的多媒体文件的特征信息进行解析,以确定每个特征相关的多媒体文件的多个关键特征;
对每个特征相关的多媒体文件的多个关键特征进行出现次数的统计(对所存储的所有(或多个)特征相关的多媒体文件所涉及的所有关键特征进行出现次数的统计),以确定所存储的所有(或多个)特征相关的多媒体文件所涉及的所有(或每个)关键特征的出现次数,基于出现次数的降序顺序进行排序以生成第二排序列表,第二排序列表中的每个排序项例如是<关键特征,出现次数>,在第二排序列表中,从出现次数最大的关键特征开始,选择排名在预定位置/名次之前的关键特征以确定(每个特征相关的多媒体文件集合的)多个代表关键特征;其中预定位置为排序列表的前1/2、1/3、1/4、1/5、1/10的位置处,预定名次为排序列表的前1/2、1/3、1/4、1/5、1/10的名次;或者在第二排序列表中,选择第二预定数量的出现次数最大的关键特征以作为多个代表关键特征;第二预定数量例如是5、10、15、20等。即每个代表关键特征的出现次数均大于任意的非代表关键特征的出现次数;将多个代表关键特征进行字符连接或进行组合或进行连接以构成第一特征信息,即第一特征信息包括所存储的所有(或多个)特征相关的多媒体文件中所有关键特征中的多个代表关键特征;
例如,将第n个特征相关的多媒体文件集合的多个代表关键特征进行字符连接或进行组合或进行连接以构成第n个特征相关的多媒体文件集合的第一特征信息,即第n个特征相关的多媒体文件集合的第一特征信息包括第n个特征相关的多媒体文件集合的所存储的所有(或多个)特征相关的多媒体文件中所有关键特征中的多个代表关键特征;
其中第n个特征相关的多媒体文件集合是多个特征相关的多媒体文件集合中的一个;为每个访问相关的多媒体文件集合生成各自的第二特征信息包括:
从每个访问相关的多媒体文件集合中随机选择一个多媒体文件,以作为每个访问相关的多媒体文件集合的代表多媒体文件,对代表多媒体文件的(信息文档)中的特征信息进行解析以确定代表多媒体文件的多个关键特征,将每个访问相关的多媒体文件集合的代表多媒体文件各自的多个关键特征进行字符连接或进行组合或进行连接以构成每个访问相关的多媒体文件集合各自的第二特征信息,即每个访问相关的多媒体文件集合的第二特征信息包括每个访问相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
例如,将第m个访问相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成第m个访问相关的多媒体文件集合的第二特征信息,即第m个访问相关的多媒体文件集合的第二特征信息包括第m个访问相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
或者,针对于每个访问相关的多媒体文件集合进行:
对所存储的所有(或多个)访问相关的多媒体文件中每个访问相关的多媒体文件的特征信息进行解析,以确定每个访问相关的多媒体文件的多个关键特征;
对每个访问相关的多媒体文件的多个关键特征进行出现次数的统计(对所存储的所有(或多个)访问相关的多媒体文件所涉及的所有关键特征进行出现次数的统计),以确定所存储的所有(或多个)访问相关的多媒体文件所涉及的所有(或每个)关键特征的出现次数,基于出现次数的降序顺序进行排序以生成第三排序列表,第三排序列表中的每个排序项例如是<关键特征,出现次数>,在第三排序列表中,从出现次数最大的关键特征开始,选择排名在预定位置/名次之前的关键特征以确定(每个访问相关的多媒体文件集合的)多个代表关键特征;其中预定位置为排序列表的前1/2、1/3、1/4、1/5、1/10的位置处,预定名次为排序列表的前1/2、1/3、1/4、1/5、1/10的名次;
或者在第三排序列表中,选择第三预定数量的出现次数最大的关键特征以作为多个代表关键特征;第三预定数量例如是5、10、15、20等。即每个代表关键特征的出现次数均大于任意的非代表关键特征的出现次数。将多个代表关键特征进行字符连接或进行组合或进行连接以构成第二特征信息,即第二特征信息包括所存储的所有(或多个)访问相关的多媒体文件中所有关键特征中的多个代表关键特征。
例如,将第m个访问相关的多媒体文件集合的多个代表关键特征进行字符连接或进行组合或进行连接以构成第m个访问相关的多媒体文件集合的第一特征信息,即第m个特征相关的多媒体文件集合的第二特征信息包括第m个访问相关的多媒体文件集合的所存储的所有(或多个)访问相关的多媒体文件中所有关键特征中的多个代表关键特征。其中第m个访问相关的多媒体文件集合是多个访问相关的多媒体文件集合中的一个。
在步骤105,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:
计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度。即计算待存储的多媒体文件的主题信息与第k个存储设备的特征相关的多媒体文件集合的第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与第k个存储设备的特征相关的多媒体文件集合的第一关联度。
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
即计算待存储的多媒体文件的主题信息与第k个存储设备的访问相关的多媒体文件集合的第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与第k个存储设备的访问相关的多媒体文件集合的第二关联度。
其中第k个存储设备是多个存储设备中的一个;
其中第一关联度大于或等于0%并且小于或等于100%;第二关联度大于或等于0%并且小于或等于100%。
在步骤106,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;即,计算第k个存储设备的(特征相关的多媒体文件集合的)第一关联度和(访问相关的多媒体文件集合的)第二关联度的和,将第k个存储设备的(特征相关的多媒体文件集合的)第一关联度和(访问相关的多媒体文件集合的)第二关联度的和作为待存储的多媒体文件与第k个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中(与待存储的多媒体文件的)内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备;如果存在至少两个内容关联度最大的存储设备,则从至少两个内容关联度最大的存储设备随机选择一个存储设备作为待存储的多媒体文件的目标存储设备。
图2为根据本发明的存储多媒体文件的示意图。如图2所示,互联网存储集群包括存储设备1、存储设备2、……、存储设备N。存储设备1、存储设备2、……、存储设备N中的每个存储设备获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息。
存储设备1、存储设备2、……、存储设备N中的每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合,并且存储设备1、存储设备2、……、存储设备N中的每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合。
随后,存储设备1、存储设备2、……、存储设备N中的每个存储设备为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息。接着,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。最后,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
图3为根据本发明的在互联网存储集群中存储多媒体文件的系统的结构示意图。系统300包括:获取设备301、选择设备302、生成设备303、处理设备304和存储设备305。
获取设备301获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息。所述互联网存储集群用于提供多媒体文件的存储服务,所述互联网存储集群可能属于特定的服务提供商、服务运营商或网络组织。每个存储设备均用于存储多个多媒体文件。多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。互联网存储集群通过接口设备来获取待存储的多媒体文件,所述待存储的多媒体文件是希望被存储到互联网存储集群中的多媒体文件,或者,所述待存储的多媒体文件是互联网存储集群所需要的多媒体文件。每个多媒体文件(包括待存储的多媒体文件)均具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息。其中,主题信息是多媒体文件的主题名称、主题内容或用于描述主题内容的信息。特征信息包括:与多媒体文件(或多媒体文件的内容)相关联的多个关键特征,或从多媒体文件的内容信息中提取的多个关键特征,关键特征例如是与多媒体文件的内容相关的关键词,例如,多媒体文件是歌手周杰伦的歌曲屋顶的视频文件,则关键特征可以包括例如:屋顶、周杰伦、温岚、合唱、流行、天线、星星、睡梦、夜晚等。
特征信息还可以包括多媒体文件的文件尺寸,例如,<多媒体文件的标志符、文件尺寸>。访问信息包括多个访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的起始时间、访问请求方的标志符>,其中被访问的起始时间是多媒体文件被访问请求方访问时的起始时间、访问请求方是能够请求访问互联网存储集群中的多媒体文件的请求方,访问请求方的标志符用于唯一地标识所述访问请求方,多媒体文件的标志符用于唯一第标识所述多媒体文件。访问信息所包括多个访问记录能够记录多媒体文件的每次被访问的信息。
选择设备302促使每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合包括:
每个存储设备进行以下内容:对待存储的多媒体文件的特征信息进行解析以确定待存储的多媒体文件的多个关键特征k;其中多个关键特征k的数量为nkey,即对待存储的多媒体文件的特征信息进行解析以确定待存储的多媒体文件的nkey个关键特征;确定nkey个关键特征中任意两个不同的关键特征之间的相关程度值,其中将两个不同的关键特征之间语义关联度、词性关联度或词意匹配度等作为两个不同的关键特征之间的相关程度值,
基于任意两个不同的关键特征之间的相关程度值和关键特征的数量nkey确定待处理的多媒体文件的(所有)多个关键特征的标准程度值(基于待存储的多媒体文件的nkey个关键特征之间的相关程度值来确定待存储的多媒体文件的nkey个关键特征的标准程度值);
其中,savg是待存储的多媒体文件的nkey个关键特征的标准程度值;nkey为待存储的多媒体文件的关键特征的数量;sim(ki,kj)是第i个关键特征ki和第j个关键特征kj之间的相关程度值,其中ki为第i个关键特征、kj是第j个关键特征,其中,1≤i≤nkey,1≤j≤nkey并且i和j不相等;其中6≤nkey、10≤nkey或15≤nkey;nkey、i和j为自然数。
将nkey个关键特征中任意两个不同的关键特征之间的相关程度值(即,所有的sim(ki,kj))和任意两个不同的关键特征构成三元组,即<ki、kj、sim(ki,kj)>,以获得多个三元组;其中,<ki、kj、sim(ki,kj)>和<kj、ki、sim(ki,kj)>为不同的三元组;或者,将<ki、kj、sim(ki,kj)>和<kj、ki、sim(ki,kj)>认为是相同的三元组并合并为一个,例如<ki、kj、sim(ki,kj)>。
从所有的三元组中选择sim(ki,kj)大于savg的三元组以作为选定三元组,从而获得多个选定三元组。对每个选定三元组中的两个关键特征进行统计,以确定每个关键特征在所有(多个)选定三元组中出现的次数,按照次数的降序顺序对所有选定三元组所涉及的所有关键特征进行排序以生成第一排序列表,从第一排序列表中选择排名在预定位置/名次之前的关键特征以作为选定关键特征;其中预定位置为第一排序列表的前1/2、1/3、1/4、1/5的位置处,预定名次为第一排序列表的前1/2、1/3、1/4、1/5的名次。
从所有选定三元组所涉及的所有关键特征中选择次数最多的第一预定数量的关键特征,以作为选定关键特征;其中第一预定数量为nkey/2、nkey/3、nkey/4、nkey/5等。其中选定关键特征的数量至少为2个、3个、4个、5个、6个、或10个。
每个存储设备进行以下内容:
确定自身所存储的所有多媒体文件中每个多媒体文件的主题名称,主题名称是用于概要地描述/介绍多媒体文件的主题内容的信息;例如,每个存储设备为自身所存储的所有多媒体文件中每个多媒体文件设置存储记录,所述存储记录中包括每个多媒体文件的主题名称、文件尺寸、起始存储时间、多个访问日志项等。
计算所有多媒体文件中每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度;例如,通过计算所有多媒体文件中每个多媒体文件的主题名称与每个选定关键特征的语义匹配度(或词意匹配度)、词义关联度、或内容相似度来确定匹配度/关联度/相似度。基于每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度计算每个多媒体文件与多个选定关键特征的匹配度/关联度/相似度的平均值fp,q;fp,q是第p个存储设备的第q个多媒体文件与(多个或每个)所有选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)。
确定所有多媒体文件中每个多媒体文件的主题名称与(多个或每个)所有选定关键特征的匹配度的平均值中的最大值fp,max和最小值fp,min。
基于最大值fp,max和最小值fp,min确定第一调节参数αp:
其中,αp为第p个存储设备的第一调节参数,fp,max是第p个存储设备的所有多媒体文件中每个多媒体文件的主题名称与所有(多个或每个)选定关键特征的匹配度的平均值中的最大值(最大平均匹配度);fp,min是第p个存储设备的所有多媒体文件中每个多媒体文件的主题名称与所有(多个或每个)选定关键特征的匹配度的平均值中的(最小值)最小平均匹配度。其中存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数;1≤p≤存储设备的数量。每个存储设备将自身所存储的所有多媒体文件中主题名称与(所有)多个选定关键特征的匹配度的平均值大于第一调节参数αp的多媒体文件选择作为待处理的多媒体文件,以获得多个待处理的多媒体文件。即,第p个存储设备将自身所存储的所有多媒体文件中主题名称与(多个或每个)多个选定关键特征的匹配度的平均值大于第一调节参数αp的多媒体文件选择作为第p个存储设备的待处理的多媒体文件,以获得第p个存储设备的多个待处理的多媒体文件。其中第p个存储设备自身所存储的所有多媒体文件的数量为mp个;第p个存储设备的多个待处理的多媒体文件的数量为mp-sele个,其中mp大于mp-sele。
每个存储设备进行以下内容:
确定自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸;例如,每个存储设备为自身所存储的所有多媒体文件中每个多媒体文件设置存储记录,所述存储记录中包括每个多媒体文件的主题名称、文件尺寸、起始存储时间、多个访问日志项等。根据自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸计算自身所存储的所有多媒体文件的文件尺寸的平均值sp-all。确定(自身所存储的所有多媒体文件中)多个待处理的多媒体文件中每个待处理的多媒体文件的文件尺寸。根据多个待处理的多媒体文件中每个待处理的多媒体文件的文件尺寸计算多个待处理的多媒体文件的文件尺寸的平均值sp-sele。
对自身所存储的所有多媒体文件中每个多媒体文件的文件尺寸进行降序排序以生成列表,确定自身所存储的所有多媒体文件中文件尺寸的中位数sp-mid。
文件尺寸或多媒体文件的文件尺寸作为文件尺寸的中位数sp-mid。
其中mp大于100、500、1000、2000、5000或10000等。
确定第二调节参数βp:
其中,βp为第p个存储设备的第二调节参数;sp-all为第p个存储设备所存储的所有多媒体文件的文件尺寸的平均值;sp-sele为第p个存储设备的多个待处理的多媒体文件的文件尺寸的平均值;sp-mid为第p个存储设备所存储的所有多媒体文件中文件尺寸的中位数;mp为第p个存储设备所存储的(所有)多媒体文件的数量;其中mp大于100、500、1000、2000、5000或10000等。
基于第一调节参数、第二调节参数、多媒体文件的数量和多媒体文件与(多个或每个)多个选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)来确定阈值参数:
其中,dp为第p个存储设备的阈值参数;αp为第p个存储设备的第一调节参数;βp为第p个存储设备的第二调节参数;fp,q为第p个存储设备的第q个多媒体文件与所有(多个或每个)选定关键特征的匹配度的平均值;mp为第p个存储设备所存储的(所有)多媒体文件的数量。
基于每个多媒体文件的主题名称与多个选定关键特征中每个选定关键特征的匹配度/关联度/相似度计算每个多媒体文件与多个(或每个或所有)选定关键特征的匹配度/关联度/相似度的平均值。即,确定第p个存储设备的第q个多媒体文件与所有(或多个或每个)选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度)。
计算匹配度阈值:
其中,thp为第p个存储设备的匹配度阈值;fp,q是第p个存储设备的第q个多媒体文件与(多个或每个)所有选定关键特征的匹配度/关联度/相似度的平均值(或平均匹配度);mp为第p个存储设备所存储的(所有)多媒体文件的数量;αp为第p个存储设备的第一调节参数;其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp。
每个存储设备将自身所存储的所有多媒体文件中与多个(或每个或所有)选定关键特征的匹配度的平均值大于或等于各自的匹配度阈值的多媒体文件选择作为特征相关的多媒体文件,以确定多个特征相关的多媒体文件。即,第p个存储设备将自身所存储的所有多媒体文件中fp,q大于或等于thp的多媒体文件选择作为第p个存储设备的特征相关的多媒体文件,以确定第p个存储设备的多个特征相关的多媒体文件。
从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合包括:每个存储设备分别为待存储的多媒体文件确定各自的特征相关的多媒体文件集合,从而确定多个特征相关的多媒体文件集合;即每个存储设备将各自的多个特征相关的多媒体文件构成各自的特征相关的多媒体文件集合;第p个存储设备将自身的所有特征相关的多媒体文件构成特征相关的多媒体文件集合。每个存储设备有一个特征相关的多媒体文件集合。可替换地,每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;包括:
每个存储设备对待存储的多媒体文件的特征信息以确定待存储的多媒体文件的多个关键特征,从待存储的多媒体文件的多个关键特征中随机选择一个关键特征。确定随机选择的关键特征与(每个存储设备的)所有多媒体文件中每个多媒体文件的主题名称的匹配度/关联度/相似度。将所有多媒体文件中匹配度/关联度/相似度大于第一阈值的多媒体文件选择作为特征相关的多媒体文件,以获得多个特征相关的多媒体文件。每个存储设备将各自的多个特征相关的多媒体文件构成特征相关的多媒体文件集合,其中每个存储设备具有一个(待存储的多媒体文件的)特征相关的多媒体文件集合。从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合。
选择设备302促使每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合。
每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合包括:
每个存储设备进行以下内容:
对待存储的多媒体文件的访问信息进行解析以确定待存储的多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<待存储的多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>。对待存储的多媒体文件的所有访问记录进行累计,确定待存储的多媒体文件在时间区间T内的被访问次数的总数AT,确定待存储的多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的开始时间在时间区间T内的多个访问记录的数量作为待存储的多媒体文件的被访问次数的总数AT。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。将时间区间T划分为具有相同时间长度的多个子区间。例如,每个子区间可以为1天或2天等。按照子区间对待存储的多媒体文件的所有访问记录进行统计,从而确定待存储的多媒体文件在每个子区间内的被访问次数Ar。例如,按照每个子区间的时间间隔和所有访问记录中的被访问的开始时间对时间区间T内的所有访问记录进行分类,将被访问的开始时间在特定的子区间的时间间隔内的访问记录设置为特定的子区间的访问记录。
将每个子区间的访问记录的数量作为每个子区间内的被访问次数Ar,Ar为待存储的多媒体文件在第r个子区间内的被访问次数;其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn。对待存储的多媒体文件的所有访问记录中的被访问的开始时间进行统计,确定时间上相邻的两次被访问的开始时间之间的时间差值tv(或确定时间上相邻的两个访问记录的被访问的开始时间之间的时间差值tv),1≤v≤Cd,v为自然数,Cd为时间差值的数量,100≤Cd、200≤Cd、500≤Cd或1000≤Cd。应当了解的是,当时间区间T内存在Cd+1条访问记录时,即时间区间T内存在Cd+1个被访问的开始时间,则存在Cd个时间差值。即,时间差值为所有相邻的两个被访问的开始时间之间的时间差值。确定所有时间差值tv中的最大值tmax和最小值tmin;计算所有时间差值tv的平均值tavg。
每个存储设备进行以下内容:
对自身所存储的所有多媒体文件中每个多媒体文件的访问信息进行解析以确定每个多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>。
对每个多媒体文件的所有访问记录分别进行累计,确定每个多媒体文件在时间区间T内的被访问次数的总数Ap,q;其中Ap,q是第p个存储设备的第q个多媒体文件在时间区间T内的被访问次数的总数;mp为第p个存储设备所存储的(所有)多媒体文件的数量,存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数,其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp
确定每个多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的起始时间在时间区间T内的多个访问记录的数量作为每个多媒体文件的被访问次数的总数Ap,q。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。将时间区间T划分为具有相同时间长度的多个子区间。例如,每个子区间可以为1天或2天等。
按照子区间对每个多媒体文件的所有访问记录进行统计,从而确定每个多媒体文件在每个子区间内的被访问次数Ap,q,r。例如,按照每个子区间的时间间隔和每个多媒体文件的所有访问记录中的被访问的开始时间对每个多媒体文件在时间区间T内的所有访问记录进行分类,将每个多媒体文件的被访问的开始时间在特定的子区间的时间间隔内的访问记录设置为每个多媒体文件在特定的子区间的访问记录。
将多媒体文件在每个子区间的访问记录的数量作为多媒体文件在每个子区间内的被访问次数Ap,q,r,Ap,q,r是第p个存储设备的第q个多媒体文件在第r个子区间内的被访问次数。
其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn;
对每个多媒体文件的所有访问记录中的被访问的开始时间进行统计,确定时间上相邻的两次被访问的开始时间之间的时间差值tp,q,v(或确定时间上相邻的两个访问记录的被访问的开始时间之间的时间差值tp,q,v),tp,q,v为第p个存储设备的第q个多媒体文件的第v个时间差值。1≤v≤Cp,q,d,v为自然数,Cp,q,d为第p个存储设备的第q个多媒体文件的时间差值的数量,100≤Cp,q,d、200≤Cp,q,d、500≤Cp,q,d或1000≤Cp,q,d。应当了解的是,当时间区间T内存在Cp,q,d+1条访问记录时,即时间区间T内存在Cp,q,d+1个被访问的开始时间,则存在Cp,q,d个时间差值。即,时间差值为所有相邻的两个被访问的开始时间之间的时间差值。
确定第p个存储设备的第q个多媒体文件的所有时间差值tp,q,v中的最大值tp,q,max和最小值tp,q,min;计算第p个存储设备的第q个多媒体文件的所有时间差值tp,q,v的平均值tp,q,avg。
计算每个存储设备自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度;其中访问背离度用于指示每个多媒体文件与待存储的多媒体文件在时间区间T的多个子区间内的访问次数的背离程度;即访问背离度越大则指示特定的多媒体文件与待存储的多媒体文件的访问相关程度越低,而访问背离度越小则指示特定的多媒体文件与待存储的多媒体文件的访问相关程度越高。
其中εp,q是第p个存储设备的第q个多媒体文件与待存储的多媒体文件的访问背离度,Ar为待存储的多媒体文件在第r个子区间内的被访问次数,Ap,q,r是第p个存储设备的第q个多媒体文件在第r个子区间内的被访问次数,Cn为子区间的数量,tp,q,max为第p个存储设备的第q个多媒体文件的所有时间差值中的最大值,tp,q,min为第p个存储设备的第q个多媒体文件的所有时间差值中的最小值,tp,q,avg为第p个存储设备的第q个多媒体文件的所有时间差值的平均值。
其中1≤r≤Cn,r为自然数,Cn为子区间的数量,10≤Cn、20≤Cn、30≤Cn或50≤Cn。
计算每个存储设备自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值(计算每个存储设备自身所存储的所有多媒体文件与待存储的多媒体文件的访问背离度的平均值)
其中为第p个存储设备所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值,mp为第p个存储设备所存储的(所有)多媒体文件的数量,其中mp大于100、500、1000、2000、5000或10000等,q和mp均为自然数,并且1≤q≤mp
存储设备的数量大于或等于10、20、30、50、100或200等;p为自然数,;1≤p≤存储设备的数量。
计算每个存储设备(各自)的访问背离度阈值:
其中φp为第p个存储设备的访问背离度阈值,tmax为待存储的多媒体文件的所有时间差值中的最大值;tmin为待存储的多媒体文件的所有时间差值中的最小值;tavg为待存储的多媒体文件的所有时间差值的平均值;为第p个存储设备所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度的平均值。
每个存储设备进行以下内容:
按照上面的方式,确定自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度εp,q,将所有多媒体文件中访问背离度εp,q小于访问背离度阈值φp的多媒体文件选择作为访问相关的多媒体文件,以选择多个访问相关的多媒体文件。
即,第p个存储设备确定自身所存储的所有多媒体文件中每个多媒体文件与待存储的多媒体文件的访问背离度εp,q,将所有多媒体文件中访问背离度εp,q小于访问背离度阈值φp的多媒体文件选择作为第p个存储设备的所有多媒体文件中与带存储的多媒体文件存在访问相关的多媒体文件,以选择多个访问相关的多媒体文件。
从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合包括:
每个存储设备分别为待存储的多媒体文件确定各自的访问相关的多媒体文件集合,从而确定多个访问相关的多媒体文件集合。即每个存储设备将各自的多个访问相关的多媒体文件构成各自的访问相关的多媒体文件集合。第p个存储设备将自身的所有访问相关的多媒体文件构成访问相关的多媒体文件集合。每个存储设备有一个访问相关的多媒体文件集合。
可替换地,每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;包括:每个存储设备对待存储的多媒体文件的访问信息进行解析以确定待存储的多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<待存储的多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>;对待存储的多媒体文件的所有访问记录进行累计,确定待存储的多媒体文件在时间区间T内的被访问次数的总数,确定待存储的多媒体文件的所有访问记录中被访问的起始时间在时间区间T内的多个访问记录,将被访问的开始时间在时间区间T内的多个访问记录的数量作为待存储的多媒体文件的被访问次数的总数。其中时间区间T大于或等于10天、20天、30天或50天等。时间区间T可以是以当前时间所在的自然日的前一个自然日为结束日期,以过去的特定自然日为开始日期的10天、20天、30天或50天的时间区间。例如,时间区间T为包括开始日期和结束日期在内的多个自然日。
每个存储设备对自身所存储的所有多媒体文件中每个多媒体文件的访问信息进行解析以确定每个多媒体文件的访问信息中的所有访问记录,其中每个访问记录为<多媒体文件的标志符、被访问的开始时间、访问请求方的标志符>;对每个多媒体文件的所有访问记录分别进行累计,确定每个多媒体文件在时间区间T内的被访问次数的总数。
将多个多媒体文件中在时间区间T内的被访问次数的总数大于或等于待存储的多媒体文件在时间区间T内的被访问次数的总数的多媒体文件确定为访问相关的多媒体文件,以获得多个访问相关的多媒体文件。每个存储设备将各自的多个访问相关的多媒体文件构成访问相关的多媒体文件集合,其中每个存储设备具有一个(待存储的多媒体文件的)访问相关的多媒体文件集合。从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合
生成设备303为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息。
为每个特征相关的多媒体文件集合生成各自的第一特征信息包括:
从每个特征相关的多媒体文件集合中随机选择一个多媒体文件,以作为每个特征相关的多媒体文件集合的代表多媒体文件,对代表多媒体文件的(信息文档)中的特征信息进行解析以确定代表多媒体文件的多个关键特征,将每个特征相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成每个特征相关的多媒体文件集合各自的第一特征信息,即每个特征相关的多媒体文件集合的第一特征信息包括每个特征相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
例如,将第n个特征相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成第n个特征相关的多媒体文件集合的第一特征信息,即第n个特征相关的多媒体文件集合的第一特征信息包括第n个特征相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
或者,针对于每个特征相关的多媒体文件集合进行:
对所存储的所有(或多个)特征相关的多媒体文件中每个特征相关的多媒体文件的特征信息进行解析,以确定每个特征相关的多媒体文件的多个关键特征;
对每个特征相关的多媒体文件的多个关键特征进行出现次数的统计(对所存储的所有(或多个)特征相关的多媒体文件所涉及的所有关键特征进行出现次数的统计),以确定所存储的所有(或多个)特征相关的多媒体文件所涉及的所有(或每个)关键特征的出现次数,基于出现次数的降序顺序进行排序以生成第二排序列表,第二排序列表中的每个排序项例如是<关键特征,出现次数>,在第二排序列表中,从出现次数最大的关键特征开始,选择排名在预定位置/名次之前的关键特征以确定(每个特征相关的多媒体文件集合的)多个代表关键特征;其中预定位置为排序列表的前1/2、1/3、1/4、1/5、1/10的位置处,预定名次为排序列表的前1/2、1/3、1/4、1/5、1/10的名次;或者在第二排序列表中,选择第二预定数量的出现次数最大的关键特征以作为多个代表关键特征;第二预定数量例如是5、10、15、20等.即每个代表关键特征的出现次数均大于任意的非代表关键特征的出现次数;
将多个代表关键特征进行字符连接或进行组合或进行连接以构成第一特征信息,即第一特征信息包括所存储的所有(或多个)特征相关的多媒体文件中所有关键特征中的多个代表关键特征;
例如,将第n个特征相关的多媒体文件集合的多个代表关键特征进行字符连接或进行组合或进行连接以构成第n个特征相关的多媒体文件集合的第一特征信息,即第n个特征相关的多媒体文件集合的第一特征信息包括第n个特征相关的多媒体文件集合的所存储的所有(或多个)特征相关的多媒体文件中所有关键特征中的多个代表关键特征;
其中第n个特征相关的多媒体文件集合是多个特征相关的多媒体文件集合中的一个;
为每个访问相关的多媒体文件集合生成各自的第二特征信息包括:
从每个访问相关的多媒体文件集合中随机选择一个多媒体文件,以作为每个访问相关的多媒体文件集合的代表多媒体文件,对代表多媒体文件的(信息文档)中的特征信息进行解析以确定代表多媒体文件的多个关键特征,将每个访问相关的多媒体文件集合的代表多媒体文件各自的多个关键特征进行字符连接或进行组合或进行连接以构成每个访问相关的多媒体文件集合各自的第二特征信息,即每个访问相关的多媒体文件集合的第二特征信息包括每个访问相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
例如,将第m个访问相关的多媒体文件集合的代表多媒体文件的多个关键特征进行字符连接或进行组合或进行连接以构成第m个访问相关的多媒体文件集合的第二特征信息,即第m个访问相关的多媒体文件集合的第二特征信息包括第m个访问相关的多媒体文件集合的代表多媒体文件的多个(或所有)关键特征;
或者,针对于每个访问相关的多媒体文件集合进行:
对所存储的所有(或多个)访问相关的多媒体文件中每个访问相关的多媒体文件的特征信息进行解析,以确定每个访问相关的多媒体文件的多个关键特征;对每个访问相关的多媒体文件的多个关键特征进行出现次数的统计(对所存储的所有(或多个)访问相关的多媒体文件所涉及的所有关键特征进行出现次数的统计),以确定所存储的所有(或多个)访问相关的多媒体文件所涉及的所有(或每个)关键特征的出现次数,基于出现次数的降序顺序进行排序以生成第三排序列表,第三排序列表中的每个排序项例如是<关键特征,出现次数>,
在第三排序列表中,从出现次数最大的关键特征开始,选择排名在预定位置/名次之前的关键特征以确定(每个访问相关的多媒体文件集合的)多个代表关键特征;其中预定位置为排序列表的前1/2、1/3、1/4、1/5、1/10的位置处,预定名次为排序列表的前1/2、1/3、1/4、1/5、1/10的名次;或者在第三排序列表中,选择第三预定数量的出现次数最大的关键特征以作为多个代表关键特征;第三预定数量例如是5、10、15、20等。即每个代表关键特征的出现次数均大于任意的非代表关键特征的出现次数。将多个代表关键特征进行字符连接或进行组合或进行连接以构成第二特征信息,即第二特征信息包括所存储的所有(或多个)访问相关的多媒体文件中所有关键特征中的多个代表关键特征。
例如,将第m个访问相关的多媒体文件集合的多个代表关键特征进行字符连接或进行组合或进行连接以构成第m个访问相关的多媒体文件集合的第一特征信息,即第m个特征相关的多媒体文件集合的第二特征信息包括第m个访问相关的多媒体文件集合的所存储的所有(或多个)访问相关的多媒体文件中所有关键特征中的多个代表关键特征。其中第m个访问相关的多媒体文件集合是多个访问相关的多媒体文件集合中的一个。
处理设备304基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度。即计算待存储的多媒体文件的主题信息与第k个存储设备的特征相关的多媒体文件集合的第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与第k个存储设备的特征相关的多媒体文件集合的第一关联度。
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
即计算待存储的多媒体文件的主题信息与第k个存储设备的访问相关的多媒体文件集合的第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与第k个存储设备的访问相关的多媒体文件集合的第二关联度。
其中第k个存储设备是多个存储设备中的一个;
其中第一关联度大于或等于0%并且小于或等于100%;第二关联度大于或等于0%并且小于或等于100%。
存储设备305基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;即,计算第k个存储设备的(特征相关的多媒体文件集合的)第一关联度和(访问相关的多媒体文件集合的)第二关联度的和,将第k个存储设备的(特征相关的多媒体文件集合的)第一关联度和(访问相关的多媒体文件集合的)第二关联度的和作为待存储的多媒体文件与第k个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中(与待存储的多媒体文件的)内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备;如果存在至少两个内容关联度最大的存储设备,则从至少两个内容关联度最大的存储设备随机选择一个存储设备作为待存储的多媒体文件的目标存储设备。
Claims (10)
1.一种在互联网存储集群中存储多媒体文件的方法,所述互联网存储集群包括多个存储设备,所述方法包括:
获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息;
促使多个存储设备中的每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;
促使多个存储设备中的每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;
为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息;
基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
2.根据权利要求1所述的方法,每个存储设备均用于存储多个多媒体文件,并且多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。
3.根据权利要求1-2中任意一项所述的方法,多媒体文件具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息。
4.根据权利要求1-3中任意一项所述的方法,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:
计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度;
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括:
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
5.根据权利要求1-4中任意一项所述的方法,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:
计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:
确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备。
6.一种在互联网存储集群中存储多媒体文件的系统,所述互联网存储集群包括多个存储设备,所述系统包括:
获取设备,获取待存储的多媒体文件,对待存储的多媒体文件的信息文档进行解析以确定所述待存储的多媒体文件的主题信息、特征信息和访问信息;
选择设备,促使多个存储设备中的每个存储设备基于待存储的多媒体文件的特征信息分别从自身所存储的所有多媒体文件中选择多个特征相关的多媒体文件以构成特征相关的多媒体文件集合,从而为待存储的多媒体文件确定多个特征相关的多媒体文件集合;促使多个存储设备中的每个存储设备基于待存储的多媒体文件的访问信息分别从自身所存储的所有多媒体文件中分别选择多个访问相关的多媒体文件以构成访问相关的多媒体文件集合,从而为待存储的多媒体文件确定多个访问相关的多媒体文件集合;
生成设备,为每个特征相关的多媒体文件集合生成各自的第一特征信息,并且为每个访问相关的多媒体文件集合生成各自的第二特征信息;
处理设备,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度;
存储设备,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度,基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备并将待存储的多媒体文件存储到目标存储设备中。
7.根据权利要求6所述的系统,每个存储设备均用于存储多个多媒体文件,并且多媒体文件包括:视频文件、文本文件、图像文件和/或音频文件。
8.根据权利要求6-7中任意一项所述的系统,多媒体文件具有信息文档,所述信息文档至少包括:主题信息、特征信息和访问信息。
9.根据权利要求6-8中任意一项所述的系统,基于待存储的多媒体文件的主题信息与每个第一特征信息的匹配度确定待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度,包括:
计算待存储的多媒体文件的主题信息与每个第一特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的特征相关的多媒体文件集合各自的第一关联度;
基于待存储的多媒体文件的主题信息与每个第二特征信息的匹配度确定待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度,包括:
计算待存储的多媒体文件的主题信息与每个第二特征信息的语义关联度、词性关联度或词意匹配度等,将语义关联度、词性关联度或词意匹配度等作为待存储的多媒体文件与每个存储设备的访问相关的多媒体文件集合各自的第二关联度。
10.根据权利要求6-9中任意一项所述的系统,基于第一关联度和第二关联度确定待存储的多媒体文件与每个存储设备的内容关联度包括:
计算第一关联度和第二关联度的和,将第一关联度和第二关联度的和作为待存储的多媒体文件与每个存储设备的内容关联度;
基于待存储的多媒体文件与每个存储设备的内容关联度确定待存储的多媒体文件的目标存储设备包括:
确定待存储的多媒体文件与每个存储设备的内容关联度,将多个存储设备中内容关联度最大的存储设备确定为待存储的多媒体文件的目标存储设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911386067.2A CN111159434A (zh) | 2019-12-29 | 2019-12-29 | 一种在互联网存储集群中存储多媒体文件的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911386067.2A CN111159434A (zh) | 2019-12-29 | 2019-12-29 | 一种在互联网存储集群中存储多媒体文件的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159434A true CN111159434A (zh) | 2020-05-15 |
Family
ID=70558894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911386067.2A Pending CN111159434A (zh) | 2019-12-29 | 2019-12-29 | 一种在互联网存储集群中存储多媒体文件的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159434A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591485A (zh) * | 2024-01-17 | 2024-02-23 | 深圳市领德创科技有限公司 | 一种基于数据识别的固态硬盘运行控制系统及方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1364267A (zh) * | 1999-02-01 | 2002-08-14 | 纽约市哥伦比亚大学托管会 | 多媒体档案描述方案 |
CN101042675A (zh) * | 2006-03-21 | 2007-09-26 | 联发科技股份有限公司 | 储存装置与存取该储存装置的相关方法 |
US20090119265A1 (en) * | 2007-11-05 | 2009-05-07 | National Taiwan University | Distributed multimedia access system and method |
CN103678143A (zh) * | 2012-09-25 | 2014-03-26 | 联想(北京)有限公司 | 文件存储方法、装置及电子设备 |
CN103970779A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种文件的分类方法、装置和设备 |
CN106095765A (zh) * | 2015-05-01 | 2016-11-09 | 佳能株式会社 | 文档分析系统、图像处理装置以及分析服务器 |
CN108076377A (zh) * | 2017-12-26 | 2018-05-25 | 浙江大华技术股份有限公司 | 一种视频的存储、播放方法、装置、电子设备及存储介质 |
CN108121816A (zh) * | 2017-12-28 | 2018-06-05 | 广东欧珀移动通信有限公司 | 图片分类方法、装置、存储介质及电子设备 |
CN108897808A (zh) * | 2018-06-16 | 2018-11-27 | 王梅 | 一种在云存储系统中进行数据存储的方法及系统 |
CN109063105A (zh) * | 2018-07-27 | 2018-12-21 | 北京字节跳动网络技术有限公司 | 文件存储方法、装置、计算机设备和存储介质 |
CN109542909A (zh) * | 2018-11-25 | 2019-03-29 | 杜广香 | 识别大数据存储系统中的关联性存储设备的方法及系统 |
CN109582642A (zh) * | 2018-11-08 | 2019-04-05 | 网宿科技股份有限公司 | 文件存储方法、删除方法、服务器及存储介质 |
CN109871490A (zh) * | 2019-03-08 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 媒体资源匹配方法、装置、存储介质和计算机设备 |
CN110209842A (zh) * | 2019-05-16 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 多媒体文件的处理方法、装置、介质及电子设备 |
CN110515895A (zh) * | 2019-08-30 | 2019-11-29 | 弭迺彬 | 大数据存储系统中对数据文件进行关联存储的方法及系统 |
CN110543576A (zh) * | 2019-09-01 | 2019-12-06 | 高树辉 | 互联网移动终端中多媒体文件进行自动分类的方法及系统 |
-
2019
- 2019-12-29 CN CN201911386067.2A patent/CN111159434A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1364267A (zh) * | 1999-02-01 | 2002-08-14 | 纽约市哥伦比亚大学托管会 | 多媒体档案描述方案 |
CN101042675A (zh) * | 2006-03-21 | 2007-09-26 | 联发科技股份有限公司 | 储存装置与存取该储存装置的相关方法 |
US20070223875A1 (en) * | 2006-03-21 | 2007-09-27 | Tsung-Ning Chung | Storage device and method of accessing storage device |
US20090119265A1 (en) * | 2007-11-05 | 2009-05-07 | National Taiwan University | Distributed multimedia access system and method |
CN103678143A (zh) * | 2012-09-25 | 2014-03-26 | 联想(北京)有限公司 | 文件存储方法、装置及电子设备 |
CN103970779A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种文件的分类方法、装置和设备 |
CN106095765A (zh) * | 2015-05-01 | 2016-11-09 | 佳能株式会社 | 文档分析系统、图像处理装置以及分析服务器 |
CN108076377A (zh) * | 2017-12-26 | 2018-05-25 | 浙江大华技术股份有限公司 | 一种视频的存储、播放方法、装置、电子设备及存储介质 |
CN108121816A (zh) * | 2017-12-28 | 2018-06-05 | 广东欧珀移动通信有限公司 | 图片分类方法、装置、存储介质及电子设备 |
CN108897808A (zh) * | 2018-06-16 | 2018-11-27 | 王梅 | 一种在云存储系统中进行数据存储的方法及系统 |
CN109063105A (zh) * | 2018-07-27 | 2018-12-21 | 北京字节跳动网络技术有限公司 | 文件存储方法、装置、计算机设备和存储介质 |
CN109582642A (zh) * | 2018-11-08 | 2019-04-05 | 网宿科技股份有限公司 | 文件存储方法、删除方法、服务器及存储介质 |
CN109542909A (zh) * | 2018-11-25 | 2019-03-29 | 杜广香 | 识别大数据存储系统中的关联性存储设备的方法及系统 |
CN109871490A (zh) * | 2019-03-08 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 媒体资源匹配方法、装置、存储介质和计算机设备 |
CN110209842A (zh) * | 2019-05-16 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 多媒体文件的处理方法、装置、介质及电子设备 |
CN110515895A (zh) * | 2019-08-30 | 2019-11-29 | 弭迺彬 | 大数据存储系统中对数据文件进行关联存储的方法及系统 |
CN110543576A (zh) * | 2019-09-01 | 2019-12-06 | 高树辉 | 互联网移动终端中多媒体文件进行自动分类的方法及系统 |
Non-Patent Citations (1)
Title |
---|
段良涛: "基于云平台的多媒体管理技术研究", 中国优秀硕士学位论文全文数据库, no. 2016, 15 June 2016 (2016-06-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591485A (zh) * | 2024-01-17 | 2024-02-23 | 深圳市领德创科技有限公司 | 一种基于数据识别的固态硬盘运行控制系统及方法 |
CN117591485B (zh) * | 2024-01-17 | 2024-04-05 | 深圳市领德创科技有限公司 | 一种基于数据识别的固态硬盘运行控制系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151145B2 (en) | Tag selection and recommendation to a user of a content hosting service | |
US8112376B2 (en) | Signature based system and methods for generation of personalized multimedia channels | |
US9824150B2 (en) | Systems and methods for providing information discovery and retrieval | |
US6314421B1 (en) | Method and apparatus for indexing documents for message filtering | |
US9183250B2 (en) | Query disambiguation | |
US8521713B2 (en) | Domain expert search | |
CN105653705B (zh) | 一种热门事件搜索方法和装置 | |
US7966316B2 (en) | Question type-sensitive answer summarization | |
US20090300008A1 (en) | Adaptive recommender technology | |
US20130124556A1 (en) | Real Time Query Trends with Multi-Document Summarization | |
US20060155694A1 (en) | Query routing | |
KR101652358B1 (ko) | 평가 정보 생성 방법 및 시스템, 및 컴퓨터 저장 매체 | |
EP2073131A1 (en) | Method and apparatus for processing a search query for text content items | |
CN116975314A (zh) | 一种电子档案智能查询方法与系统 | |
US9454568B2 (en) | Method, apparatus and computer storage medium for acquiring hot content | |
CN111159434A (zh) | 一种在互联网存储集群中存储多媒体文件的方法及系统 | |
CN108140034B (zh) | 使用主题模型基于接收的词项选择内容项目 | |
CN109542909B (zh) | 识别大数据存储系统中的关联性存储设备的方法及系统 | |
US9330170B2 (en) | Relating objects in different mediums | |
US20200081922A1 (en) | Data analysis method and data analysis system thereof | |
WO2008124285A1 (en) | A content item distribution system and method of distribution therefor | |
CN113377997B (zh) | 一种歌曲检索方法、电子设备及计算机可读存储介质 | |
Lampropoulou et al. | ALIMOS: A Middleware System for A ccessing Digital Music LI braries in MO bile S ervices | |
KR101564534B1 (ko) | 전형적 음악 컨텐트를 이용한 태그 조합 기반 음악 검색 서비스 제공 방법 및 장치 | |
Jin et al. | Spark-based distributed multi-features hybrid IPTV viewing implicit feedback scoring model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |