CN103902705A - 一种基于元数据的跨机构云端数字内容集成系统和方法 - Google Patents

一种基于元数据的跨机构云端数字内容集成系统和方法 Download PDF

Info

Publication number
CN103902705A
CN103902705A CN201410127016.9A CN201410127016A CN103902705A CN 103902705 A CN103902705 A CN 103902705A CN 201410127016 A CN201410127016 A CN 201410127016A CN 103902705 A CN103902705 A CN 103902705A
Authority
CN
China
Prior art keywords
metadata
digital content
module
user
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410127016.9A
Other languages
English (en)
Other versions
CN103902705B (zh
Inventor
邹复好
王云飞
周可
郑胜
李春花
王桦
张胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410127016.9A priority Critical patent/CN103902705B/zh
Publication of CN103902705A publication Critical patent/CN103902705A/zh
Application granted granted Critical
Publication of CN103902705B publication Critical patent/CN103902705B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

本发明公开了一种基于元数据的跨机构云端数字内容集成系统和方法,系统包括元数据提取模块、元数据公有云存储模块、检索排序模块、数字内容访问模块和质量评估模块;元数据提取模块扫描原始数字内容生成元数据;元数据公有云存储模块接收并存储非重复元数据;检索排序模块根据关键字和/或查询字段进行元数据查询,依据相关性程度和质量评估结果将元数据排序;数字内容访问模块对元数据进行地址解析生成数字内容地址,具有访问权限的用户根据地址查看或下载原始数字内容;质量评估模块对质量评估结果进行更新。实施本发明可将各机构的数字内容以元数据作为纽带有效整合到一起集中管理,并提供基于元数据的跨机构检索服务,安全性好,可扩展性强。

Description

一种基于元数据的跨机构云端数字内容集成系统和方法
技术领域
本发明属于云存储和信息检索交叉技术领域,具体涉及一种基于元数据的跨机构云端数字内容集成系统和方法。
背景技术
随着数字信息化革命的不断深入,数字内容也呈现指数级的增长趋势,对全球的政治、经济、文化和科技等各方面都产生了革命性影响。目前,很多机构都拥有海量的数字内容,但考虑到数据的安全性和隐私保护等问题,采取封闭方式管理各自的数据资源,从而无法从全局层面有效整合数据资源,最终导致“信息”孤岛的出现。数字内容的整合是信息产业发展的必然趋势,如何实现跨机构的数字内容云整合,将各个机构的数字内容以一个统一整体向用户展示,从而扩大数字内容的共享范围,已成为重要的研究课题。
云存储通过集群应用、网格技术或分布式文件系统等功能,将网络中大量异构存储设备通过应用软件集合起来协同工作,共同提供数据存储和业务访问功能。云存储具有诸多独特优势,例如支持海量存储及动态扩展、数据备份高效、性价比高等。目前,数字内容往往孤立地保存在机构内部。目前许多机构尚不愿意把数字内容完全转移到公有的云存储平台上,将数字内容全部保存到云存储平台上,尽管可以大家带来便利,与此同时也意味着数字内容控制权的转移,数据的访问和控制权完全由公有云存储服务商掌握,这是很多企业难以接受的方案。因而很难推动用公有云存储将各个机构的数据集中存储,导致跨机构间数字内容无法共享。最终,各机构拥有的数字内容平均利用率极低,无法最大限度地发挥数字内容的潜在价值。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于元数据的跨机构云端数字内容集成系统和方法,该系统和方法可将各机构的数字内容以元数据作为纽带有效地整合到一起集中管理,并提供基于元数据的跨机构的检索服务,安全性好,可扩展性强。
本发明解决其技术问题所采用的技术方案是,提供一种基于元数据的跨机构云端数字内容集成系统,包括元数据提取模块、元数据公有云存储模块、检索排序模块、数字内容访问模块和质量评估模块,
所述元数据提取模块用于扫描各机构原始数字内容以生成元数据,并将元数据传输到元数据公有云存储模块;
所述元数据公有云存储模块用于接收元数据提取模块发送的元数据,并以轮询的方式将非重复元数据存储到指定的M个存储节点;
所述检索排序模块用于根据用户输入的查询关键字和/或元数据的查询字段在元数据公有云存储模块中进行元数据查询,并依据相关性程度和质量评估结果将所述元数据排序后返回给用户;
所述数字内容访问模块用于对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址,具有访问权限的用户根据所述数字内容的在线访问地址查看或下载对应的原始数字内容;
所述质量评估模块用于根据用户在线浏览时长和是否下载对访问过的原始数字内容的元数据进行质量评估,用户访问结束后在元数据公有云存储模块中更新该元数据的质量评估结果。
在本发明所述的基于元数据的跨机构云端数字内容集成系统中,所述元数据公有云存储模块包括初始化模块、存储记录文件生成模块、缓存模块和哈希函数值比对模块,
所述初始化模块用于初始化存储节点ID为任意存储节点的唯一标示符;
所述存储记录文件生成模块用于导入元数据存储记录文件,若该文件不存在则新建空的元数据存储记录文件;
所述缓存模块用于收集元数据提取模块传送的元数据并暂存于缓冲池中;
所述哈希函数值比对模块用于从缓冲池中任取t条元数据并生成对应的哈希函数值;将所述t条元数据的哈希函数值依次与存储记录文件中每条记录中的哈希函数值进行比对,如果存储记录文件中不存在与之相同的哈希函数值,则向存储记录文件末尾添加新记录并将元数据存储至存储节点ID指定的存储节点,更新存储节点ID为下一个存储节点的唯一标示符;如果存储记录文件中存在与之相同的哈希函数值,则忽略当前元数据并进行下一条元数据的哈希函数值比对,直至存储完所有非重复元数据。
在本发明所述的基于元数据的跨机构云端数字内容集成系统中,所述检索排序模块包括检索请求模块、分布式元数据检索模块和元数据综合排序模块,
所述检索请求模块用于接收用户输入的查询关键字和/或元数据的查询字段,并传送给分布式元数据检索模块;接收元数据综合排序模块生成的相关元数据列表,将相关元数据列表中的元数据呈现给用户,以供用户选择感兴趣的元数据并请求访问对应的数字内容;
所述分布式元数据检索模块用于根据用户输入的查询关键字和/或元数据的查询字段并行地在M个存储节点上存储的元数据集合中搜索相关的元数据,并按照相关度进行排序后分别为M个存储节点生成元数据列表;
所述元数据综合排序模块用于结合各元数据的质量评估结果对M个元数据列表中相关度较大的元数据进行整体排序后生成相关元数据列表。
在本发明所述的基于元数据的跨机构云端数字内容集成系统中,所述数字内容访问模块包括元数据地址解析模块、权限管理模块、在线浏览和下载模块,
所述元数据地址解析模块用于对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址;
所述权限管理模块用于确认和保存用户对非免费的数字内容的访问权限;
所述在线浏览和下载模块,用于在用户被确定具有访问权限后,依据所述数字内容的在线访问地址在线浏览和下载对应的原始数字内容。
在本发明所述的基于元数据的跨机构云端数字内容集成系统中,所述原始数字内容的元数据为XML格式文件,所述元数据的字段为数字内容文件名、创建者、创建时间、文件主题、文件格式信息、文件描述、文件的URL、机构名称、机构业务范围、数字内容的访问价格、访问计数、质量评估结果和备用字段中的一种或多种。
相应地,本发明还提供了一种基于元数据的跨机构云端数字内容集成方法,所述方法包括以下步骤:
S1、扫描各机构原始数字内容并生成元数据;
S2、以轮询的方式将非重复元数据存储到指定的M个存储节点;
S3、根据用户输入的查询关键字和/或元数据的查询字段进行元数据查询,并依据相关性程度和质量评估结果将所述元数据排序后返回给用户;
S4、对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址,具有访问权限的用户根据所述数字内容的在线访问地址查看或下载对应的原始数字内容;
S5、根据用户在线浏览时长和是否下载对访问过的原始数字内容的元数据的质量评估结果进行更新。
在本发明所述的基于元数据的跨机构云端数字内容集成方法中,所述步骤S2包括以下子步骤:
S21、初始化存储节点ID为任意存储节点的唯一标示符;
S22、导入元数据存储记录文件,若该文件不存在则新建空记录文件并存储;
S23、收集元数据提取模块传送过来的所有元数据并暂存于缓冲池中;
S24、从缓冲池中任取t条元数据并生成对应的哈希函数值;
S25、将所述t条元数据的哈希函数值依次与存储记录文件中每条记录中的哈希函数值进行比对,如果存储记录文件中不存在与之相同的哈希函数值,则向存储记录文件末尾添加新记录并将元数据存储至存储节点ID指定的存储节点,更新存储节点ID为下一个存储节点的唯一标示符;如果存储记录文件中存在与之相同的哈希函数值,则忽略当前元数据并进行下一条元数据的哈希函数值比对,直至存储完所有非重复元数据。
在本发明所述的基于元数据的跨机构云端数字内容集成方法中,所述步骤S3包括以下子步骤:
S31、根据用户输入的查询关键字和/或元数据的查询字段并行地在M个存储节点上存储的元数据集合中搜索相关的元数据,并按照相关度进行排序后分别为M存储节点生成元数据列表;
S32、结合各元数据的质量评估结果对M个元数据列表中相关度较大的元数据进行整体排序后生成相关元数据列表;
S33、将相关元数据列表中的元数据呈现给用户,以供用户选择感兴趣的元数据并请求访问对应的数字内容。
在本发明所述的基于元数据的跨机构云端数字内容集成方法中,所述步骤S4包括以下子步骤:
S41、对用户查询到的欲访问的元数据进行地址解析,生成对应的数字内容的在线访问地址;
S42、判断用户是否具有访问权限,若用户具有访问权限,则依据所述数字内容的在线访问地址在线浏览和下载对应的原始数字内容。
在本发明所述的基于元数据的跨机构云端数字内容集成方法中,所述原始数字内容的元数据为XML格式文件,所述元数据的字段为数字内容文件名、创建者、创建时间、文件主题、文件格式信息、文件描述、文件的URL、机构名称、机构业务范围、数字内容的访问价格、访问计数、质量评估结果和备用字段中的一种或多种。
因此,本发明可以获得以下的有益效果:
1、通过本发明系统中的元数据提取模块和元数据公有云存储模块,可将各机构中的数字内容以元数据作为纽带有效地整合到一起进行集中管理,且各机构的数字内容以云存储形式存放在企业内部,数字内容的安全策略完全由企业自己掌控,消除企业机构对其数字内容的云存储安全顾虑,有助于跨机构数字内容集成的推广;
2、公有云的元数据涵盖所有集成进来企业的数字内容元数据描述,检索排序模块为用户提供基于元数据的检索服务,并用统一查询界面向用户呈现,使得用户搜索感兴趣内容更为便捷;各机构仍对各自的原始数据内容有绝对的控制权,无须担忧数据安全和隐私保护问题,还可享受因提供数字内容共享服务带来盈利;
3、各企业机构的数字内容集成,不仅可以解决企业私有内容的“信息孤岛”问题,同时可以增加内容的规模和多样性,进而提升了数字内容的价值,促进数字内容的有效共享,本发明系统可扩展性强,新数字内容的加入只需要提供元数据,元数据的公有云存储模块可随时扩容;同时因考虑了用户在访问时产生的行为数据,基于元数据的检索服务也更准确。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明基于元数据的跨机构云端数字内容集成系统结构示意图;
图2是本发明基于元数据的跨机构云端数字内容集成系统各模块信息交互图;
图3是本发明系统中元数据公有云存储模块工作流程图;
图4是本发明基于元数据检索的实现框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1是本发明基于元数据的跨机构云端数字内容集成系统结构示意图,图2是本发明基于元数据的跨机构云端数字内容集成系统各模块信息交互图。如图1和图2所示,本发明所述系统包括元数据提取模块、元数据公有云存储模块、检索排序模块、数字内容访问模块和质量评估模块。
其中,元数据提取模块从各机构的私有云中提取原始数字内容的相关属性作为元数据,然后将元数据上传至所有机构共享的元数据公有云存储模块。元数据应符合XML文件的格式,元数据的字段包括<数字内容文件名|创建者|创建时间|文件主题|文件格式信息|文件描述|文件的URL|机构名称|机构业务范围|数字内容的访问价格|访问计数|质量评估结果|备用字段>,数字内容的访问价格可人工设定,访问统计和质量评估结果字段在这里初始化为0,其他缺失的字段可空白处理。
元数据公有云存储模块通过计算元数据的哈希函数值来判断是否为重复的元数据,且仅存储非重复的元数据到指定的M个存储节点。元数据公有云存储模块把元数据以轮询的方式分配到各个存储节点上,为元数据计算哈希函数值,并将元数据的哈希函数值作为唯一性标示符,用来判断元数据是否重复,忽略重复的元数据,仅存储非重复的元数据。元数据公有云存储模块包括初始化模块、存储记录文件生成模块、缓存模块和哈希函数值比对模块。如图3所示,本发明一个优选实施例中,元数据公有云存储模块工作流程为:
S1、初始化模块初始化存储节点ID为1号存储节点的唯一标示符,获取元数据公有云存储节点总数目M;
S2、判断系统是否有存储记录文件,若无存储记录文件,存储记录文件生成模块新建空记录文件;若有存储记录文件,则向存储记录文件生成模块中导入元数据存储记录文件;
S3、缓存模块收集元数据提取模块发送的所有元数据并暂存于缓冲池中;
S4、判断公有云存储模块是否需要存储元数据,如无需继续存储元数据,结束本工作流程;如果需要继续存储元数据,则判断缓冲池中是否有效存储了元数据提取模块发送的元数据,如缓冲池中无元数据,则返回步骤S3;如缓冲池成功存储了元数据提取模块发送的所有元数据,则执行步骤S5;
S5、哈希函数值比对模块从缓冲池中任取t(t<=Q)条元数据并生成对应的哈希函数值(Q为每次批处理元数据数目的上限),若缓存冲池中元数据数目不少于Q,则取出Q条,否则取出缓冲池中所剩的t条元数据);,如果缓冲池中已无数据,则执行步骤S4;
S6、哈希函数值比对模块串行式处理得到的t条元数据的哈希函数值:依次与已存元数据的存储记录文件中的每条记录中的哈希函数值进行比对,如果存储记录文件中不存在与之相同的哈希函数值,则将新纪录<当前元数据哈希函数值,存储节点ID>追加到存储记录文件末尾,将元数据的文件名修改为“哈希函数值_存储节点ID.xml”,将元数据存储至存储节点ID指定的存储节点,更新存储节点ID为下一个存储节点的唯一标示符;如果存储记录文件中存在与之相同的哈希函数值,则忽略当前元数据并进行下一条元数据的哈希函数值比对;当处理完t条元数据后,返回步骤S5。
上述哈希函数算法可采用MD5、SHA-256等算法,由于这类哈希函数算法出现碰撞(即不同的数据有相同的哈希函数值)的概率微乎其微,可以忽略不计,因此用于检测元数据的重复性是可以接受的。在用哈希函数值判断元数据是否重复时,可利用存储记录上的哈希函数值构建二次排序等树形结构以加快判定速度。
检索排序模块用于根据用户输入的查询关键字和/或元数据的查询字段进行元数据查询,并依据相关性程度和质量评估结果将所述元数据排序后返回给用户。检索排序模块包括检索请求模块、分布式元数据检索模块和元数据综合排序模块,用户在检索请求模块输入查询关键字和指定的元数据字段,分布式元数据检索模块根据用户输入的查询关键字和/或元数据的查询字段并行地在M个存储节点上存储的元数据集合中搜索相关的元数据,并按照相关度进行排序后分别为M个存储节点生成元数据列表;元数据综合排序模块结合各元数据的质量评估结果对M个元数据列表中相关度较大的元数据进行整体排序后生成相关元数据列表,相关元数据列表中的元数据按序从上到下展现给用户,使得用户可以在包含多个机构的元数据的公有云上检索到相关的元数据并请求访问对应的数字内容。
检索请求模块、分布式检索模块和元数据综合排序模块相互协作,用于满足用户快速检索相关元数据的需求,其交互示意图如图4所示。
用户在检索请求模块输入关键词、元数据的查询字段后,分布式元数据检索模块中的每个检索部件并行地在各个存储节点上存储的元数据集合中搜索出相关的元数据,并按照相关度进行排序后为每个存储节点生成M个元数据列表;如果用户指定了元数据的查询字段,则只会在元数据的特定字段上与关键词匹配,若果用户未指定元数据的查询字段否则会在元数据的所有字段上进行匹配,发现相关的任何字段便作为相关数据返回。其中,相似度的计算方式如下:按最长匹配模式将元数据的每个字段与每个关键词进行匹配,对长度为L的关键词而言,每次匹配上关键词的长度为n(0<n≤L)的字串就为该元数据的相关度加上n×α(0<α<1),直到搜寻完元数据的所有字段为止。
元数据综合排序模块比较M个元数据列表中的最前面和最末尾的元数据相关度,即可得到此次检索结果的相关度的最大值Smax和最小值Smin,再将区间[Smin,Smax]等分为R个区间并将区间边存储到长度为R+1的数组[a0,a1,...,aR]。此时,清空排序缓冲区,将每个元数据列表中相关度介于[ai-1,ai]之间的元数据(选取相关度较大的元数据)加入排序缓冲区,将排序缓冲区的元数据按照元数据公有存储模块中的质量评估结果从高到底地进行排序。
检索请求模块接收相关元数据的排序列表后展现给用户,用户可自行选择最感兴趣的元数据并请求访问对应的数字内容。
所述数字内容访问模块对用户查询到的元数据进行地址解析生成数字内容的在线访问地址,具有访问权限的用户根据所述数字内容的在线访问地址查看或下载对应的原始数字内容。数字内容访问模块包括权限管理模块、在线浏览和下载模块和元数据地址解析模块。元数据地址解析模块、权限管理模块、在线浏览和下载模块协同工作,使得具有访问权限的用户可以通过元数据访问到各机构私有云中的数字内容。
元数据地址解析模块从用户感兴趣的元数据中提取出“文件的URL”字段,即数字内容的在线访问地址;用户在在线浏览和下载模块通过该数字内容的在线访问地址发送数字内容访问请求;
权限管理模块对用户的认证信息和权限信息进行确认,以确保只有访问权限的用户才能获取元数据地址解析模块给出的数字内容线访问地址,并通过在线浏览和下载模块下载对应的原始数字内容。权限管理模块内部长期维护一个访问权限表(表中记录对与元数据对应的非免费数字内容具有访问权的用户),用户在访问任何数字内容前必须向该模块输入认证信息以登录系统,权限管理模块在接收到用户的访问请求后根据元数据的“数字内容的访问价格”字段决定用户是否可免费访问,如果可以免费访问则直接获得访问权限;否则查询访问权限表判断该用户是否在以前已经具有了访问权限,如果没查询到用户对该数字内容的访问权限,则用户必须在付出相应的代价后(付费后)才能获取对应的访问权限,且访问权限表会增添该用户相关的访问权限记录。其中,访问权限表中的每条记录的形式为<元数据哈希函数值,用户名,数字内容的访问价格,获得访问权限的时间>。
如果用户获得访问权限,则数字内容所在的机构就会把用户请求访问的数字内容发送到在线浏览和下载模块供用户浏览或下载;如果用户未获得访问权限,则拒绝访问;访问结束后将用户在在线浏览和下载模块上产生的用户行为数据(在线浏览时间和是否下载)传递给质量评估模块。
质量评估模块接收用户在在线浏览和下载模块上产生的用户行为数据,根据在线浏览时间越长、下载次数越多则质量越高的原则对元数据进行质量评估,据此更新元数据公有存储模块中对应元数据的质量评估结果;本发明一个优选的计算策略如下:①读取元数据的“访问计数”字段的数值s,令s1=s+1;②读取元数据的“质量评估结果”字段的数字r,令r1=s×r;③如果用户在线浏览数字内容的时间t超过阈值T,则认为该数字内容质量还不错,并更新r1=r1+β(0<β<1);④如果用户下载了该数字内容,则认为该数字内容质量较高,并更新r1=r1+γ(β<γ≤1);⑤更新r1=r1/sl,则r1为该数字内容的质量评估结果。根据元数据的文件名,可以顺利从元数据公有云存储模块中找到该元数据,然后用s1更新“访问计数”字段,用r1更新对应的元数据的“质量评估结果”字段。
通过本发明基于元数据的跨机构云端数字内容集成系统和方法,可以将各机构的数字内容以元数据作为纽带有效地整合到一起集中管理,并提供基于元数据的跨机构的检索服务,各机构仍对各自的原始数据内容有绝对的控制权,无须担忧数据安全和隐私保护问题,还可享受因提供数字内容共享服务带来盈利;本系统可扩展性强,新数字内容的加入只需要提供元数据,元数据的公有云存储模块可随时扩容;同时因考虑了用户的行为数据,基于元数据的检索服务也更准确。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于元数据的跨机构云端数字内容集成系统,包括元数据提取模块、元数据公有云存储模块、检索排序模块、数字内容访问模块和质量评估模块,其特征在于,
所述元数据提取模块用于扫描各机构原始数字内容以生成元数据,并将元数据传输到元数据公有云存储模块;
所述元数据公有云存储模块用于接收元数据提取模块发送的元数据,并以轮询的方式将非重复元数据存储到指定的M个存储节点;
所述检索排序模块用于根据用户输入的查询关键字和/或元数据的查询字段在元数据公有云存储模块中进行元数据查询,并依据相关性程度和质量评估结果将所述元数据排序后返回给用户;
所述数字内容访问模块用于对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址,具有访问权限的用户根据所述数字内容的在线访问地址查看或下载对应的原始数字内容;
所述质量评估模块用于根据用户在线浏览时长和是否下载对访问过的原始数字内容的元数据进行质量评估,用户访问结束后在元数据公有云存储模块中更新该元数据的质量评估结果。
2.如权利要求1所述的基于元数据的跨机构云端数字内容集成系统,其特征在于,所述元数据公有云存储模块包括初始化模块、存储记录文件生成模块、缓存模块和哈希函数值比对模块,
所述初始化模块用于初始化存储节点ID为任意存储节点的唯一标示符;
所述存储记录文件生成模块用于导入元数据存储记录文件,若该文件不存在则新建空的元数据存储记录文件;
所述缓存模块用于收集元数据提取模块传送的元数据并暂存于缓冲池中;
所述哈希函数值比对模块用于从缓冲池中任取t条元数据并生成对应的哈希函数值;将所述t条元数据的哈希函数值依次与存储记录文件中每条记录中的哈希函数值进行比对,如果存储记录文件中不存在与之相同的哈希函数值,则向存储记录文件末尾添加新记录并将元数据存储至存储节点ID指定的存储节点,更新存储节点ID为下一个存储节点的唯一标示符;如果存储记录文件中存在与之相同的哈希函数值,则忽略当前元数据并进行下一条元数据的哈希函数值比对,直至存储完所有非重复元数据。
3.如权利要求2所述的基于元数据的跨机构云端数字内容集成系统,其特征在于,所述检索排序模块包括检索请求模块、分布式元数据检索模块和元数据综合排序模块,
所述检索请求模块用于接收用户输入的查询关键字和/或元数据的查询字段,并传送给分布式元数据检索模块;接收元数据综合排序模块生成的相关元数据列表,将相关元数据列表中的元数据呈现给用户,以供用户选择感兴趣的元数据并请求访问对应的数字内容;
所述分布式元数据检索模块用于根据用户输入的查询关键字和/或元数据的查询字段并行地在M个存储节点上存储的元数据集合中搜索相关的元数据,并按照相关度进行排序后分别为M个存储节点生成元数据列表;
所述元数据综合排序模块用于结合各元数据的质量评估结果对M个元数据列表中相关度较大的元数据进行整体排序后生成相关元数据列表。
4.如权利要求3所述的基于元数据的跨机构云端数字内容集成系统,其特征在于,所述数字内容访问模块包括元数据地址解析模块、权限管理模块、在线浏览和下载模块,
所述元数据地址解析模块用于对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址;
所述权限管理模块用于确认和保存用户对非免费的数字内容的访问权限;
所述在线浏览和下载模块,用于在用户被确定具有访问权限后,依据所述数字内容的在线访问地址在线浏览和下载对应的原始数字内容。
5.如权利要求1或2或3或4所述的基于元数据的跨机构云端数字内容集成系统,其特征在于,所述原始数字内容的元数据为XML格式文件,所述元数据的字段为数字内容文件名、创建者、创建时间、文件主题、文件格式信息、文件描述、文件的URL、机构名称、机构业务范围、数字内容的访问价格、访问计数、质量评估结果和备用字段中的一种或多种。
6.一种基于元数据的跨机构云端数字内容集成方法,其特征在于,所述方法包括以下步骤:
S1、扫描各机构原始数字内容并生成元数据;
S2、以轮询的方式将非重复元数据存储到指定的M个存储节点;
S3、根据用户输入的查询关键字和/或元数据的查询字段进行元数据查询,并依据相关性程度和质量评估结果将所述元数据排序后返回给用户;
S4、对用户查询到的欲访问的元数据进行地址解析生成数字内容的在线访问地址,具有访问权限的用户根据所述数字内容的在线访问地址查看或下载对应的原始数字内容;
S5、根据用户在线浏览时长和是否下载对访问过的原始数字内容的元数据的质量评估结果进行更新。
7.如权利要求6所述的基于元数据的跨机构云端数字内容集成方法,其特征在于,所述步骤S2包括以下子步骤:
S21、初始化存储节点ID为任意存储节点的唯一标示符;
S22、导入元数据存储记录文件,若该文件不存在则新建空记录文件并存储;
S23、收集元数据提取模块传送过来的所有元数据并暂存于缓冲池中;
S24、从缓冲池中任取t条元数据并生成对应的哈希函数值;
S25、将所述t条元数据的哈希函数值依次与存储记录文件中每条记录中的哈希函数值进行比对,如果存储记录文件中不存在与之相同的哈希函数值,则向存储记录文件末尾添加新记录并将元数据存储至存储节点ID指定的存储节点,更新存储节点ID为下一个存储节点的唯一标示符;如果存储记录文件中存在与之相同的哈希函数值,则忽略当前元数据并进行下一条元数据的哈希函数值比对,直至存储完所有非重复元数据。
8.如权利要求7所述的基于元数据的跨机构云端数字内容集成方法,其特征在于,所述步骤S3包括以下子步骤:
S31、根据用户输入的查询关键字和/或元数据的查询字段并行地在M个存储节点上存储的元数据集合中搜索相关的元数据,并按照相关度进行排序后分别为M存储节点生成元数据列表;
S32、结合各元数据的质量评估结果对M个元数据列表中相关度较大的元数据进行整体排序后生成相关元数据列表;
S33、将相关元数据列表中的元数据呈现给用户,以供用户选择感兴趣的元数据并请求访问对应的数字内容。
9.如权利要求8所述的基于元数据的跨机构云端数字内容集成方法,其特征在于,所述步骤S4包括以下子步骤:
S41、对用户查询到的欲访问的元数据进行地址解析,生成对应的数字内容的在线访问地址;
S42、判断用户是否具有访问权限,若用户具有访问权限,则依据所述数字内容的在线访问地址在线浏览和下载对应的原始数字内容。
10.如权利要求6或7或8或9所述的基于元数据的跨机构云端数字内容集成方法,其特征在于,所述原始数字内容的元数据为XML格式文件,所述元数据的字段为数字内容文件名、创建者、创建时间、文件主题、文件格式信息、文件描述、文件的URL、机构名称、机构业务范围、数字内容的访问价格、访问计数、质量评估结果和备用字段中的一种或多种。
CN201410127016.9A 2014-03-31 2014-03-31 一种基于元数据的跨机构云端数字内容集成系统和方法 Expired - Fee Related CN103902705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410127016.9A CN103902705B (zh) 2014-03-31 2014-03-31 一种基于元数据的跨机构云端数字内容集成系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410127016.9A CN103902705B (zh) 2014-03-31 2014-03-31 一种基于元数据的跨机构云端数字内容集成系统和方法

Publications (2)

Publication Number Publication Date
CN103902705A true CN103902705A (zh) 2014-07-02
CN103902705B CN103902705B (zh) 2017-05-10

Family

ID=50994027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410127016.9A Expired - Fee Related CN103902705B (zh) 2014-03-31 2014-03-31 一种基于元数据的跨机构云端数字内容集成系统和方法

Country Status (1)

Country Link
CN (1) CN103902705B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834696A (zh) * 2015-04-24 2015-08-12 百度在线网络技术(北京)有限公司 一种用于在计算机设备中搜索私有资源的方法和装置
CN105447166A (zh) * 2015-12-03 2016-03-30 沈文策 一种基于关键字查找信息的方法及系统
CN108718341A (zh) * 2018-05-30 2018-10-30 北京阿尔山金融科技有限公司 数据的共享和搜索的方法
CN110474877A (zh) * 2019-07-16 2019-11-19 盐城师范学院 一种基于大数据技术的数字内容交互方法
WO2020125381A1 (zh) * 2018-12-18 2020-06-25 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN116567001A (zh) * 2023-05-16 2023-08-08 上海凯翔信息科技有限公司 一种基于云端nas的数据迁移系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101374651B1 (ko) * 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
CN101674257B (zh) * 2008-09-10 2014-03-05 阿里巴巴集团控股有限公司 一种消息存储方法、装置及一种消息处理系统
CN102867043A (zh) * 2012-09-05 2013-01-09 中山爱科数字家庭产业孵化基地有限公司 一种数字家庭资源检索和资源获取方法
CN102917047B (zh) * 2012-10-17 2015-08-05 成都索贝数码科技股份有限公司 一种在互联网环境中实现数字文件物流的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章菊广 等: "三网融合环境下数字内容服务元数据规范研究", 《网络新媒体技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834696A (zh) * 2015-04-24 2015-08-12 百度在线网络技术(北京)有限公司 一种用于在计算机设备中搜索私有资源的方法和装置
CN104834696B (zh) * 2015-04-24 2019-03-26 百度在线网络技术(北京)有限公司 一种用于在计算机设备中搜索私有资源的方法和装置
CN105447166A (zh) * 2015-12-03 2016-03-30 沈文策 一种基于关键字查找信息的方法及系统
CN108718341A (zh) * 2018-05-30 2018-10-30 北京阿尔山金融科技有限公司 数据的共享和搜索的方法
WO2020125381A1 (zh) * 2018-12-18 2020-06-25 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110474877A (zh) * 2019-07-16 2019-11-19 盐城师范学院 一种基于大数据技术的数字内容交互方法
CN116567001A (zh) * 2023-05-16 2023-08-08 上海凯翔信息科技有限公司 一种基于云端nas的数据迁移系统
CN116567001B (zh) * 2023-05-16 2023-12-29 上海凯翔信息科技有限公司 一种基于云端nas的数据迁移系统

Also Published As

Publication number Publication date
CN103902705B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN102004751B (zh) 访问网络中的内容
CN101729442B (zh) 一种实现内容共享的方法和装置
CN103902705A (zh) 一种基于元数据的跨机构云端数字内容集成系统和方法
US7895176B2 (en) Entry group tags
CN102782681B (zh) 用于支持用户内容馈送的机制
Sun et al. Development and characteristic of digital library as a library branch
US8219544B2 (en) Method and a computer program product for indexing files and searching files
CN103365865B (zh) 数据存储方法、数据下载方法及其装置
US8214355B2 (en) Small table: multitenancy for lots of small tables on a cloud database
US20130282682A1 (en) Method and System for Search Suggestion
US20100235354A1 (en) Collaborative search engine system
CN103348344A (zh) 图形数据的复合语句索引
Loupasakis et al. eXO: Decentralized Autonomous Scalable Social Networking.
US8909669B2 (en) System and method for locating and retrieving private information on a network
CN102779308A (zh) 一种广告投放方法及系统
CN102105879A (zh) 联合团体搜索
CN101236569B (zh) 一种基于ContextFS上下文文件系统的高效动态路径解析方法
CN104809177A (zh) 一种基于客户端的网页评论、推荐方法及系统
US8095873B2 (en) Promoting content from one content management system to another content management system
JP2008065659A (ja) 組織内情報検索システム及び組織内情報検索プログラム
CN103198066A (zh) 一种基于词表的信息搜索方法及搜索系统
US20110161318A1 (en) Method and apparatus for assigning tags to digital content
CN1271812C (zh) 无线设备同步系统及方法
CN106547898A (zh) 一种分布式数据库的数据处理方法及装置
US7689584B2 (en) Hybrid groups

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170510

Termination date: 20210331