CN113157697A - 一种明清俗曲古代乐谱数据库系统 - Google Patents

一种明清俗曲古代乐谱数据库系统 Download PDF

Info

Publication number
CN113157697A
CN113157697A CN202110421107.3A CN202110421107A CN113157697A CN 113157697 A CN113157697 A CN 113157697A CN 202110421107 A CN202110421107 A CN 202110421107A CN 113157697 A CN113157697 A CN 113157697A
Authority
CN
China
Prior art keywords
files
file
threshold
threshold value
uploaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110421107.3A
Other languages
English (en)
Inventor
刘晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University Of Arts
Original Assignee
Shandong University Of Arts
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University Of Arts filed Critical Shandong University Of Arts
Priority to CN202110421107.3A priority Critical patent/CN113157697A/zh
Publication of CN113157697A publication Critical patent/CN113157697A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种明清俗曲古代乐谱数据库系统,包括以下步骤:步骤1:构建不同类型文件的缓存区,并为各类缓冲区设置三个阈值;其中第一阈值为文件大小,超过这个阈值则不进行缓存;第二阈值为当前缓存区文件总大小阈值,超过这个阈值,则进行文件合并,本发明技术上采用B/S架构,可通过网络发布与受众关联,本发明中首先采用会员审核制度,将不同的用户权限如身份审核、开放注册、权限授予等,授权给不同用户,在方便用户操作的同时,保证数据的安全性;其次,构建每一位用户的存储空间,实现资料的有偿或无偿共享,最后,用户可对特殊的功能进行收费与定制,并通过活跃用户奖励等措施保证系统的良好运行,使用方便。

Description

一种明清俗曲古代乐谱数据库系统
技术领域
本发明涉及乐谱数据库技术领域,尤其涉及一种明清俗曲古代乐谱数据库系统。
背景技术
“明清俗曲”是我国明清时代流传的“小曲”、“小唱”、“时调”、“俚曲”等的统称。它萌发于元末,兴起于明初,经明清两代540余年的发展,成为具有独特艺术魅力和品格的、“雅俗兼属”的艺术品种。清代初年,它又以强劲的趋势,进入各地的曲艺、戏曲等艺术领域,并在这些艺术品种和领域中发挥了积极的作用。此外,它还流传到日本等邻国,在日本形成了独具特色的乐种“明清乐”。明清俗曲在流传的过程中,留下了大量的文字文本和曲调,但由于其形成和发展过程中,音乐采用的是“口传心授”传承方式,使得古代乐谱记录稀少、记法也不统一,而且遗留下来的曲谱文本十分匮乏。
迄今为止,国内对于古谱的保存和传播过程仍停留在图书馆、科研院所与个人存留书籍等渠道上,古谱数字化方面还鲜见有相关的研究及数字化应用,即使部分已经数字化存储的“明清俗曲”,由于传统的文字、文本和曲调等均为非结构化数据,一般基于FTP服务器方式进行存储,不便于保存、分享和传播。无法满足当下中国古代史领域和中国传统音乐领域科学研究工作对珍稀文献的需求。
为了便于古图谱文件的研究和传输,需对其大量非结构化文件进行电子化存储,由于HDFS(Hadoop分布式文件系统)由一个NameNode和若干个DataNode组成,具有可靠、高效、可伸缩的特性,对大量非结构化文件的存储具有天然优势,在互联网的飞速发展下,已在电子商务、社交网络、移动通信等领域得到了广泛应用。通过构建数据资源服务目录,可实现在线资源的高效搜索定位、浏览便捷等功能。
现有的乐谱数据库一般依托校园网建设,普遍采用FTP方式登录,该方式不便于文件的检索与浏览,给乐谱研究造成较大困扰。而支持海量文件存储的HDFS,具有一次写入、多次读出的特征,主要用于存储超大文件,如百兆以上的文本文件,采用一定技术手段可提高小文件的存储能力。由于“明清俗曲”对应的文字、文本、曲调等大多采用PDF、图片、音频等非结构化小文件存储,而海量小文件的存储会造成HDFS系统中对应NameNode节点中管理元数据的大量增加,影响文件的访问效率。本发明中针对以上缺陷进行改进,设计一种基于海量数据存储的明清俗曲古谱数据库系统。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种明清俗曲古代乐谱数据库系统,旨基于开源分布式文件系统HDFS,提出一种新型、开放的在线古代乐谱数据库设计和实现方法,构建海量图谱数据的网络存储系统。该系统一方面实现了“明清俗曲”对应的PDF、图片、音频等非结构化小文件的存储,另一方面可以提高现存明清俗曲古代乐谱的传播广度与效率,该系统的技术将满足中国古代史领域和中国传统音乐领域科学研究工作对珍稀文献的需求。
为了实现上述目的,本发明采用了如下技术方案:
一种明清俗曲古代乐谱数据库系统,包括以下步骤:
步骤1:构建不同类型文件的缓存区,并为各类缓冲区设置三个阈值;其中第一阈值为文件大小,超过这个阈值则不进行缓存;第二阈值为当前缓存区文件总大小阈值,超过这个阈值,则进行文件合并,然后将文件上传至HDFS中;第三阈值为当前缓冲区文件数量阈值,超过这个数量时,对文件进行合并,并将合并文件上传至HDFS,其中第二阈值大于第一阈值,第三阈值为大于2的正整数;
步骤2:系统接收到文件上传请求后,首先判断上传文件是否为小文件,并判断文件大小是否不超过预设的第一阈值;
步骤3:若判定结果为否,则将当前请求上传的文件上传至HDFS集群;
步骤4:若判定结果为是,则判断该类型文件的缓存区是否存在,若是,则转至下一步;若否,则先执行步骤1,并创建对应类型文件的缓冲区;
步骤5:将上述的文件进行缓存,缓存到对应类型的文件缓冲区;
步骤6:计算缓存小文件的总和、文件总数,并将文件的大小与第二阈值进行比较,将文件的总数与第三阈值进行比较;若比较的结果为文件大小大于或等于第二阈值、或文件的总数量大于或等于第三阈值,则转至下一步,否则继续执行步骤2;
步骤7:构建海量异构数据的融合存储,将不同类型的文件进行标记,并分别存储,然后将缓存中的文件进行合并,并将文件名、文件大小、文件的偏移量记录到索引中建立文件索引列表,上传HDFS空间,将索引文件、合并文件名存于HBase中;对于待上传的大文件,记录其文件名于记录文件中,定时向HBase中同步信息;
步骤8:将步骤5中的大文件和文件索引信息,上传至HDFS集群;
步骤9:清空上述文件类型对应的缓存区中各请求上传的文件,之后转而继续执行步骤2;
步骤10:对最终存储到HDFS中的信息按照统一的数据资源目录标准进行编目,其编目的信息主要包括资源分类与编目、目录注册与注销、目录更新、目录同步、目录服务等;在数据使用时通过任务调度机制对使用任务进行绘制、管理、监控,任务调度机制,方便了资源使用方的快速调阅申请;
步骤11:采用知识图谱构建非结构化文本的实体关系,对抽取实体、属性进一步处理,利用融合、建边、择优的技术手段构建出实体、属性的相互关系,实现从“关系”的角度去分析数据的能力。
本发明结构简单,数据库以便捷数据化的形式,原貌展示古谱今译本等信息,为古谱研究与传播创造了便利条件,本发明首先为文艺创作,尤其是音乐创作,提供充实、丰富的艺术素材,为繁荣文艺、振奋民族精神做出贡献;其次,为学界提供珍贵的研究资料,为传统艺术的继承与发展,提供有益的借鉴;再次,为其他传统音乐形式及其他非音乐类的传统艺术形式的研究提供具有实践性的经验;最后,现代化音响大大增强传统音乐的普及性,是广大音乐爱好者欣赏古代音乐文化的窗口;
本发明技术上采用B/S架构,可通过网络发布与受众关联,首先,本发明中采用会员审核制度,将不同的用户权限如身份审核、开放注册、权限授予等,授权给不同用户,在方便用户操作的同时,保证数据的安全性;其次,构建每一位用户的存储空间,实现资料的有偿或无偿共享,最后,用户可对特殊的功能进行收费与定制,并通过活跃用户奖励等措施保证系统的良好运行,预计本数据库可发展成为:集专业性与大众化、学术性与产业化于一身,兼具储存、管理、分享等功能的中国传统音乐(民歌)资料平台,使用方便。
附图说明
图1为本发明中小文件处理流程的示意图;
图2为本发明中任务调度管理的示意图;
图3为本发明中构建非构数据实体关系的示意图;
图4为本发明中不同类型小文件缓存区的示意图;
图5为本发明中小文件索引文件的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
参照图1-5,一种明清俗曲古代乐谱数据库系统,包括以下步骤:
步骤1:构建不同类型文件的缓存区,并为各类缓冲区设置三个阈值;其中第一阈值为文件大小,超过这个阈值则不进行缓存;第二阈值为当前缓存区文件总大小阈值,超过这个阈值,则进行文件合并,然后将文件上传至HDFS中;第三阈值为当前缓冲区文件数量阈值,超过这个数量时,对文件进行合并,并将合并文件上传至HDFS;多个不同类型的缓存区如图4所示,其中第二阈值大于第一阈值,第三阈值为大于2的正整数;
步骤2:系统接收到文件上传请求后,首先判断上传文件是否为小文件,并判断文件大小是否不超过预设的第一阈值;
步骤3:若判定结果为否,则将当前请求上传的文件上传至HDFS集群;
步骤4:若判定结果为是,则判断该类型文件的缓存区是否存在,若是,则转至下一步;若否,则先执行步骤1,并创建对应类型文件的缓冲区,并执行下一步;
步骤5:将上述的文件进行缓存,缓存到对应类型的文件缓冲区;
步骤6:计算缓存小文件的总和、文件总数,并将文件的大小与第二阈值进行比较,将文件的总数与第三阈值进行比较;若比较的结果为文件大小大于或等于第二阈值、或文件的总数量大于或等于第三阈值,则转至下一步,否则继续执行步骤2;
步骤7:构建海量异构数据的融合存储,将不同类型的文件进行标记,并分别存储,然后将缓存中的文件进行合并,并将文件名、文件大小、文件的偏移量记录到索引中建立文件索引列表,上传HDFS空间,将索引文件、合并文件名存于HBase中;对于待上传的大文件,记录其文件名于记录文件中,定时向HBase中同步信息,文件索引的建立过程如图4所示;
步骤8:将步骤5中的大文件和文件索引信息,上传至HDFS集群;
步骤9:清空上述文件类型对应的缓存区中各请求上传的文件,之后转而继续执行步骤2;
步骤10:对最终存储到HDFS中的信息按照统一的数据资源目录标准进行编目,其编目的信息主要包括资源分类与编目、目录注册与注销、目录更新、目录同步、目录服务等;在数据使用时通过任务调度机制对使用任务进行绘制、管理、监控,任务调度机制如图4所示,方便了资源使用方的快速调阅申请;
步骤11:采用知识图谱构建非结构化文本的实体关系如图5所示,对抽取实体、属性进一步处理,利用融合、建边、择优的技术手段构建出实体、属性的相互关系,实现从“关系”的角度去分析数据的能力。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种明清俗曲古代乐谱数据库系统,其特征在于,包括以下步骤:
步骤1:构建不同类型文件的缓存区,并为各类缓冲区设置三个阈值;其中第一阈值为文件大小,超过这个阈值则不进行缓存;第二阈值为当前缓存区文件总大小阈值,超过这个阈值,则进行文件合并,然后将文件上传至HDFS中;第三阈值为当前缓冲区文件数量阈值,超过这个数量时,对文件进行合并,并将合并文件上传至HDFS,其中第二阈值大于第一阈值,第三阈值为大于2的正整数;
步骤2:系统接收到文件上传请求后,首先判断上传文件是否为小文件,并判断文件大小是否不超过预设的第一阈值;
步骤3:若判定结果为否,则将当前请求上传的文件上传至HDFS集群;
步骤4:若判定结果为是,则判断该类型文件的缓存区是否存在,若是,则转至下一步;若否,则先执行步骤1,并创建对应类型文件的缓冲区;
步骤5:将上述的文件进行缓存,缓存到对应类型的文件缓冲区;
步骤6:计算缓存小文件的总和、文件总数,并将文件的大小与第二阈值进行比较,将文件的总数与第三阈值进行比较;若比较的结果为文件大小大于或等于第二阈值、或文件的总数量大于或等于第三阈值,则转至下一步,否则继续执行步骤2;
步骤7:构建海量异构数据的融合存储,将不同类型的文件进行标记,并分别存储,然后将缓存中的文件进行合并,并将文件名、文件大小、文件的偏移量记录到索引中建立文件索引列表,上传HDFS空间,将索引文件、合并文件名存于HBase中;对于待上传的大文件,记录其文件名于记录文件中,定时向HBase中同步信息;
步骤8:将步骤5中的大文件和文件索引信息,上传至HDFS集群;
步骤9:清空上述文件类型对应的缓存区中各请求上传的文件,之后转而继续执行步骤2;
步骤10:对最终存储到HDFS中的信息按照统一的数据资源目录标准进行编目,其编目的信息主要包括资源分类与编目、目录注册与注销、目录更新、目录同步、目录服务等;在数据使用时通过任务调度机制对使用任务进行绘制、管理、监控,任务调度机制,方便了资源使用方的快速调阅申请;
步骤11:采用知识图谱构建非结构化文本的实体关系,对抽取实体、属性进一步处理,利用融合、建边、择优的技术手段构建出实体、属性的相互关系,实现从“关系”的角度去分析数据的能力。
CN202110421107.3A 2021-04-19 2021-04-19 一种明清俗曲古代乐谱数据库系统 Pending CN113157697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421107.3A CN113157697A (zh) 2021-04-19 2021-04-19 一种明清俗曲古代乐谱数据库系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421107.3A CN113157697A (zh) 2021-04-19 2021-04-19 一种明清俗曲古代乐谱数据库系统

Publications (1)

Publication Number Publication Date
CN113157697A true CN113157697A (zh) 2021-07-23

Family

ID=76868782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421107.3A Pending CN113157697A (zh) 2021-04-19 2021-04-19 一种明清俗曲古代乐谱数据库系统

Country Status (1)

Country Link
CN (1) CN113157697A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133882A (zh) * 2014-07-28 2014-11-05 四川大学 一种基于hdfs的小文件处理方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107590191A (zh) * 2017-08-11 2018-01-16 郑州云海信息技术有限公司 一种hdfs海量小文件处理方法及系统
CN111198856A (zh) * 2019-12-31 2020-05-26 北京旷视科技有限公司 文件管理方法、装置、计算机设备和存储介质
CN112347055A (zh) * 2020-11-11 2021-02-09 汪礼君 一种基于云计算的医疗数据处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133882A (zh) * 2014-07-28 2014-11-05 四川大学 一种基于hdfs的小文件处理方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107590191A (zh) * 2017-08-11 2018-01-16 郑州云海信息技术有限公司 一种hdfs海量小文件处理方法及系统
CN111198856A (zh) * 2019-12-31 2020-05-26 北京旷视科技有限公司 文件管理方法、装置、计算机设备和存储介质
CN112347055A (zh) * 2020-11-11 2021-02-09 汪礼君 一种基于云计算的医疗数据处理方法及系统

Similar Documents

Publication Publication Date Title
US8055644B2 (en) Sharing access to content items using group information and item information
CN102395969B (zh) 基于主题的活力
US20100082653A1 (en) Event media search
US20130238727A1 (en) System and method for context enhanced messaging
CN102855269A (zh) 内容提取装置、内容提取方法和程序
CN103631769B (zh) 一种判断文件内容与标题间一致性的方法及装置
Vraga et al. The rules of engagement: Comparing two social protest movements on YouTube
CN103634736A (zh) 基于地理信息的热点新闻分享方法、装置及系统
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN110188216A (zh) 一种具有文字识别的照片直播系统及其方法
CN113190645A (zh) 一种索引结构建立方法、装置、设备及存储介质
CN111723289A (zh) 信息推荐方法及装置
CN112241396B (zh) 基于Spark的对Delta进行小文件合并的方法及系统
CN113157697A (zh) 一种明清俗曲古代乐谱数据库系统
Moehler et al. Observations of the hot horizontal-branch stars in the metal-rich bulge globular cluster NGC 6388-Indications of helium enrichment and a lesson in crowded field spectroscopy
CN1971600A (zh) 一种基于网络存储的个人信息管理系统
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
CN107369450A (zh) 收录方法和收录装置
CN107493328B (zh) 一种基于特征融合的合作缓存方法
JP5503010B2 (ja) 人工物管理方法
US9886415B1 (en) Prioritized data transmission over networks
KR101471522B1 (ko) 콘텐츠의 생성 및 소비에 기반한 개인 정보 제공 시스템
CN109240599A (zh) 一种大数据储存系统集成
Sufyan et al. Duplication elimination in cache-uplink transmission over B5G small cell network
CN111782150A (zh) 一种基于对象存储的多桶存储系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication