CN116719785A - 一种基于元数据的数据库管理系统 - Google Patents

一种基于元数据的数据库管理系统 Download PDF

Info

Publication number
CN116719785A
CN116719785A CN202310996329.7A CN202310996329A CN116719785A CN 116719785 A CN116719785 A CN 116719785A CN 202310996329 A CN202310996329 A CN 202310996329A CN 116719785 A CN116719785 A CN 116719785A
Authority
CN
China
Prior art keywords
metadata
database
file
component
electronic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310996329.7A
Other languages
English (en)
Inventor
刘鹏
朱立俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Quantum Weiye Information Technology Co ltd
Original Assignee
Beijing Quantum Weiye Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Quantum Weiye Information Technology Co ltd filed Critical Beijing Quantum Weiye Information Technology Co ltd
Priority to CN202310996329.7A priority Critical patent/CN116719785A/zh
Publication of CN116719785A publication Critical patent/CN116719785A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据的数据库管理系统,属于数据库管理技术领域。本发明系统所述元数据管理组件用于提取数据库存储的电子数据的元数据,并将所述元数据存储至数据库,所述安全管理组件用于基于元数据为所述数据库及所述数据库存储的电子数据设置管理权限,并用于基于元数据为所述数据库及所述数据库存储的电子数据设置检索权限,所述数据库管理组件用于基于管理权限执行数据库管理操作,所述文件/档案管理组件用于基于所述管理权限执行文件/档案管理操作,所述内容检索组件用于基于所述检索权限对所述数据库存储的电子数据进行检索。本发明系统极大的提升了对于数据库存储数据,管理数据及检索数据的效率。

Description

一种基于元数据的数据库管理系统
技术领域
本发明涉及数据库管理技术领域,并且更具体地,涉及一种基于元数据的数据库管理系统。
背景技术
随着信息技术的不断发展,电子文件和电子档案的数量不断增加,如何有效地管理和存储这些电子文件和电子档案成为了一个重要的问题。传统的电子文件、电子档案的存储,采用元数据和文件分别使用传统数据库加文件存储的技术方案进行存储,但这种方式存在诸多问题,如元数据管理问题、数据备份和恢复问题、数据安全问题、检索效率问题。
目前,许多公司和研发机构都采用了基于元数据的文件存储方式。例如,Alfresco等内容管理系统都采用了基于元数据的文件管理方式。这些服务通过对文件的元数据进行管理和存储,实现了对文件的高效管理和检索。
然而,这些服务也存在一些缺点。首先,这些服务需要用户手动输入文件的元数据,如果用户输入不规范或不完整,就会影响文件的管理和检索。其次,这些服务的元数据管理方式比较单一,只能对文件的基本信息进行管理,无法对文件的内容进行管理。另外,这些服务需要采用集中化管理技术,存在一定的性能瓶颈。最后,这些服务都是基于关键字的检索,未能支持基于自然语言分析的检索模式。
发明内容
针对上述问题,本发明提出了一种基于元数据的数据库管理系统,包括:元数据管理组件、安全管理组件、数据库管理组件、文件/档案管理组件和内容检索组件;
元数据管理组件用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件用于基于管理权限执行数据库管理操作,文件/档案管理组件用于基于管理权限执行文件/档案管理操作,内容检索组件用于基于检索权限对数据库存储的电子数据进行检索。
可选的,数据库为分布式存储数据库。
可选的,电子数据,包括如下中的至少一种:电子文件和电子档案。
可选的,电子数据的元数据,包括:基本元数据和扩展元数据;
基本元数据,包括如下中的至少一种:文件名信息、文件大小信息、文件类型信息、创建日期信息、修改日期信息及拥有者信息;
扩展元数据,包括如下中的至少一种:档案名称信息、档案类型信息、档案大小信息、档案拥有者信息、档案创建时间信息、档案修改时间信息和自定义信息。
可选的,元数据管理组件基于模型识别算法和语义分析算法构建,包括语义分析组件和识别模型组件;
语义分析组件用于获取数据库存储的电子数据,对电子数据进行清洗处理及规范化处理,以剔除电子数据中的杂质数据,并将剔除了杂质数据的电子数据整理为统一数据格式的信息数据,并针对信息数据进行特征提取,基于提取得到的特征,生成电子数据的元数据,将元数据与对应的电子数据进行关联;
识别模型组件用于将电子数据及电子数据对应的元数据,按照预设的比例划分为训练集数据和测试集数据,将训练集数据输入至预先搭建的模型中进行训练,以得到元数据识别模型,将测试集数据输入至元数据识别模型中,对元数据识别模型进行校验,若校验结果满足元数据识别要求,则识别模型组件使用得到的元数据识别模型,对数据库新增的电子数据进行识别,以得到新增的电子数据的元数据,并将新增的电子数据的元数据存储至数据库,并将得到新增的电子数据的元数据与新增的电子数据进行关联,若校验结果不满足元数据识别要求,则对元数据识别模型的参数进行调整,并再次使用测试集数据对元数据校验模型进行校验,直至校验结果满足元数据识别要求;
电子数据的数据类型包括,如下中的至少一种:文字类、图形类、影像类、动画类、声音类和视频类;
元数据管理组件至少包括一个语义分析组件和一个模型识别组件,每一个类型的电子数据,对应一个语义分析组件和一个模型识别组件;
模型识别组件得到电子数据的元数据后,为元数据赋予唯一标识码,并将唯一标识码存储至数据库,在数据库检索电子数据时,通过检索唯一标识码以得到唯一标识码所对应的元数据,再通过元数据获取电子数据;
语义分析组件,还用于在对数据库进行电子数据检索时,对检索输入数据进行识别,输出规范的检索输入数据,并对规范的检索输入数据进行识别,确定规范的检索输入数据的类型,将确定类型且规范的检索输入数据送入内容检索组件。
可选的,安全管理组件设置的管理权限和检索权限,分别为对用于数据库管理系统的使用用户设置的对于数据库及电子数据的操作权限,和对用于数据库管理系统的使用用户设置的对于数据库存储的电子数据的检索权限。
可选的,数据库管理组件执行的数据库管理操作,包括如下中的至少一种:创建数据库、删除数据库、备份数据库和恢复数据库。
可选的,文件/档案管理组件执行的文件/档案管理操作,包括如下中的至少一种:文件/档案上传、文件/档案下载、文件/档案删除、文件/档案复制、文件/档案移动和文件/档案重命名。
可选的,文件/档案管理组件还用于在文件/档案上传至数据库前,对文件/档案进行加密,得到加密文件/档案,并将加密文件/档案上传至数据库,通过数据库对加密文件/档案进行存储,在文件/档案下载前,将加密文件/档案进行解密,得到文件/档案。
可选的,内容检索组件以元数据对数据库存储的电子数据进行检索,还以全文或关键词对数据库存储的电子数据进行检索。
与现有技术相比,本发明的有益效果为:
本发明提供了一种基于元数据的数据库管理系统,包括:元数据管理组件、安全管理组件、数据库管理组件、文件/档案管理组件和内容检索组件;元数据管理组件用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件用于基于管理权限执行数据库管理操作,文件/档案管理组件用于基于管理权限执行文件/档案管理操作,内容检索组件用于基于检索权限对数据库存储的电子数据进行检索。本发明系统极大的提升了对于数据库存储数据,管理数据及检索数据的效率,且通过设置权限,让系统的使用用户能更加方便的检索数据,极大的满足了使用用户的业务需求。
附图说明
图1为本发明实施例1的基于元数据的数据库管理系统的结构示意图;
图2为本发明实施例1的元数据管理组件的结构示意图;
图3为本发明实施例2的基于元数据的数据库管理系统的结构示意图;
图4为本发明实施例2的元数据管理组件的结构示意图;
图5为本发明实施例3的基于元数据的数据库管理系统的结构示意图;
图6为本发明实施例3的元数据管理组件的结构示意图;
图7为本发明实施例3的安全管理组件的结构示意图;
图8为本发明实施例4的基于元数据的数据库管理系统的结构示意图;
图9为本发明实施例4的元数据管理组件的结构示意图;
图10为本发明实施例4的安全管理组件的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
实施例1:
本发明提出了一种基于元数据的数据库管理系统100,如图1所示,包括:元数据管理组件101、安全管理组件102、数据库管理组件103、文件/档案管理组件104和内容检索组件105;
元数据管理组件101用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件102用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件103用于基于管理权限执行数据库管理操作,文件/档案管理组件104用于基于管理权限执行文件/档案管理操作,内容检索组件105用于基于检索权限对数据库存储的电子数据进行检索。
其中,数据库为分布式存储数据库。
其中,电子数据,包括如下中的至少一种:电子文件和电子档案。
其中,电子数据的元数据,包括:基本元数据和扩展元数据;
基本元数据,包括如下中的至少一种:文件名信息、文件大小信息、文件类型信息、创建日期信息、修改日期信息及拥有者信息;
扩展元数据,包括如下中的至少一种:档案名称信息、档案类型信息、档案大小信息、档案拥有者信息、档案创建时间信息、档案修改时间信息和自定义信息。
其中,元数据管理组件101基于模型识别算法和语义分析算法构建,包括语义分析组件1011和识别模型组件1012;
语义分析组件1011用于获取数据库存储的电子数据,对电子数据进行清洗处理及规范化处理,以剔除电子数据中的杂质数据,并将剔除了杂质数据的电子数据整理为统一数据格式的信息数据,并针对信息数据进行特征提取,基于提取得到的特征,生成电子数据的元数据,将元数据与对应的电子数据进行关联;
识别模型组件1012用于将电子数据及电子数据对应的元数据,按照预设的比例划分为训练集数据和测试集数据,将训练集数据输入至预先搭建的模型中进行训练,以得到元数据识别模型,将测试集数据输入至元数据识别模型中,对元数据识别模型进行校验,若校验结果满足元数据识别要求,则识别模型组件使用得到的元数据识别模型,对数据库新增的电子数据进行识别,以得到新增的电子数据的元数据,并将新增的电子数据的元数据存储至数据库,并将得到新增的电子数据的元数据与新增的电子数据进行关联,若校验结果不满足元数据识别要求,则对元数据识别模型的参数进行调整,并再次使用测试集数据对元数据校验模型进行校验,直至校验结果满足元数据识别要求;
电子数据的数据类型包括,如下中的至少一种:文字类、图形类、影像类、动画类、声音类和视频类;
如图2所示,元数据管理组件101至少包括一个语义分析组件1011和一个模型识别组件1012,每一个类型的电子数据,对应一个语义分析组件1011和一个模型识别组件1012;
模型识别组件1012得到电子数据的元数据后,为元数据赋予唯一标识码,并将唯一标识码存储至数据库,在数据库检索电子数据时,通过检索唯一标识码以得到唯一标识码所对应的元数据,再通过元数据获取电子数据;
语义分析组件1011,还用于在对数据库进行电子数据检索时,对检索输入数据进行识别,输出规范的检索输入数据,并对规范的检索输入数据进行识别,确定规范的检索输入数据的类型,将确定类型且规范的检索输入数据送入内容检索组件。
其中,安全管理组件102设置的管理权限和检索权限,分别为对用于数据库管理系统的使用用户设置的对于数据库及电子数据的操作权限,和对用于数据库管理系统的使用用户设置的对于数据库存储的电子数据的检索权限。
其中,数据库管理组件103执行的数据库管理操作,包括如下中的至少一种:创建数据库、删除数据库、备份数据库和恢复数据库。
其中,文件/档案管理组件104执行的文件/档案管理操作,包括如下中的至少一种:文件/档案上传、文件/档案下载、文件/档案删除、文件/档案复制、文件/档案移动和文件/档案重命名。
其中,文件/档案管理组件104还用于在文件/档案上传至数据库前,对文件/档案进行加密,得到加密文件/档案,并将加密文件/档案上传至数据库,通过数据库对加密文件/档案进行存储,在文件/档案下载前,将加密文件/档案进行解密,得到文件/档案。
其中,内容检索组件105以元数据对数据库存储的电子数据进行检索,还以全文或关键词对数据库存储的电子数据进行检索。
实施例2:
本发明提出了一种基于元数据的数据库管理系统200,如图3所示,包括:元数据管理组件201、安全管理组件202、数据库管理组件203、文件/档案管理组件204和内容检索组件205;
元数据管理组件201用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件202用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件203用于基于管理权限执行数据库管理操作,文件/档案管理组件204用于基于管理权限执行文件/档案管理操作,内容检索组件205用于基于检索权限对数据库存储的电子数据进行检索。
其中:
元数据管理组件201具体还用于:定义和管理电子文件和电子档案的元数据信息。
基本的元数据包括文件名、文件大小、文件类型、创建日期、修改日期、拥有者等;
扩展元数据包括档案名称、档案类型、档案大小、档案拥有者、档案创建时间、档案修改时间或用户自定义部分。
本发明中元数据管理组件201与现有接近技术不同的是能够用于提取电子数据的元数据,元数据管理组件201通过对电子文件、电子档案的文本预处理、特征提取、模型训练、元数据识别等提取标题、作者、日期、关键词等元数据信息。
元数据管理组件201在对元数据提取方面引入了模型识别技术、语义分析技术,即,如图4,元数据管理组件201包括有基于模型识别技术的模型识别组件201-21和基于语义分析技术的语义分析组件201-11,电子文件、电子档案的文本通常由词、句子和段落来构成,语义分析技术通过分解词汇级语义分析、句子级语义分析以及篇章级语义分析获取内容,模型识别技术建立在语义分析之上,基于模型识别技术实现,将获取的文本内容转成一系列特征,通过搜索训练库,实现自动分析文本的内容。
通过文本预处理获取反应文本特性的元数据信息,采用逻辑回归、支持向量机等机器学习模型进行训练,采用交叉验证技术优化模型,将元数据信息划分为训练集和测试集,使用训练集训练模型,并在测试集上进行数据预测,将元数据信息的准确率作为评价指标,评价指标若存在不理想则重新调整模型,最终确定最优模型参数,最终形成一个准确率高、运行流畅的分类器来提取元数据信息。从文本内容中提起关键信息,用于作为文本检索与分类的关键词。
安全管理组件202具体还用于:管理用户访问和操作电子文件和档案的权限电子文件、电子档案的安全性,包括用户权限管理、访问控制、数据加密、数据备份等操作。通过使用数据库管理组件中存储的元数据记录,如文件的起草、办理、处置人员,确定用户访问电子文件和电子档案的访问和操作权限。
数据库管理组件203具体还用于:使用分布式数据库技术管理电子文件、电子档案的数据库,功能包括创建数据库、删除数据库、备份数据库、恢复数据库等操作。现有接近技术大多采用了传统的集中式数据库,而数据库管理组件采用了分布式数据库技术,将数据分散存储在多个物理位置上,通过网络连接多个计算机,使得数据在不同的节点上进行存储和处理。分布式数据库提高数据的可靠性、可用性和性能,同时也降低系统的成本和复杂度。
文件管理组件204具体还用于:采用分布式存储技术管理电子文件、电子档案的存储,功能包括文件上传、文件下载、文件删除、文件复制、文件移动、文件重命名等操作。文件管理组件204通过将数据以对象的形式存储在分布式系统的技术对多种文件类型进行管理,例如文本文件、图像文件、视频文件等,使用户在存储文件时更加自由。文件管理组件对文件进行安全加密,防止文件被非法访问和篡改,保证文件的可用性和安全性。文件管理组件与现有接近技术不同的是采用分布式存储技术,将数据分散存储在多个节点上的技术。分布式存储提高数据的可靠性和可用性,同时也提高数据的处理速度和存储容量。
内容检索组件205具体还用于:用于对电子文件、电子档案进行全文检索、关键词检索、元数据检索等操作,提高检索效率和准确性。 元数据通过对基本的元数据和扩展元数据建立索引,实现快速准确地检索出相关文件与档案。全文检索通过采用自然语言分析技术的文本预处理、词频分析、情感分析、实体识别、主题模型、网络分析、时序分析等技术对电子文件和电子档案的全文内容和元数据进行索引,实现全文内容和元数据组合检索,以提供快速、准确的搜索服务,并支持对搜索结果的排序和筛选功能。检索组件与现有接近技术不同的是通过自然语言分析的方式建立索引。
实施例3:
本发明提出了一种基于元数据的数据库管理系统300,如图5所示,包括:元数据管理组件301、安全管理组件302、数据库管理组件303、文件/档案管理组件304和内容检索组件305;
元数据管理组件301用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件302用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件303用于基于管理权限执行数据库管理操作,文件/档案管理组件304用于基于管理权限执行文件/档案管理操作,内容检索组件305用于基于检索权限对数据库存储的电子数据进行检索。
其中:
元数据管理组件301具体还用于:定义和管理电子文件和电子档案的元数据信息。
基本的元数据包括文件名、文件大小、文件类型、创建日期、修改日期、拥有者等;
扩展元数据包括档案名称、档案类型、档案大小、档案拥有者、档案创建时间、档案修改时间或用户自定义部分。
本发明中元数据管理组件301与现有接近技术不同的是能够用于提取电子数据的元数据,元数据管理组件301通过对电子文件、电子档案的文本预处理、特征提取、模型训练、元数据识别等提取标题、作者、日期、关键词等元数据信息。
元数据管理组件301在对元数据提取方面引入了模型识别技术、语义分析技术。即,如图6所示,元数据管理组件301包括有基于模型识别技术的模型识别组件301-21和基于语义分析技术的语义分析组件301-11,电子文件、电子档案的文本通常由词、句子和段落来构成,语义分析技术通过分解词汇级语义分析、句子级语义分析以及篇章级语义分析获取内容,模型识别技术建立在语义分析之上,基于模型识别技术实现,将获取的文本内容转成一系列特征,通过搜索训练库,实现自动分析文本的内容。
本发明是将语义分析技术、模型识别技术与元数据管理组件进行融合,搜集电子文件数据并整理统一格式的信息数据,不同格式的电子文件存在使用不同语义模型的情况,应用语义分析从电子文件中抽取元数据,包括文件名、创建时间、作者等信息,抽取元数据信息后对抽取内容进行清洗和规范化处理,将所有抽取的元数据存储在单个数据库或文件中,为每个元数据字段赋予唯一标识,提高电子文件元数据提取的效率和信息质量。采用TextCNN模型生成训练数据,该模型以速度快,准确率高著称。将数据加载进来分割成词,去除低频词和停用词,将词映射成索引表示,从预训练的词向量模型中读取出词向量,将数据集分割成训练集和测试集。电子文件、电子档案的内容以数字信号的方式存在与不同的存储介质,表现为文字、图形、影像、动画、声音、视频等多种媒体信息,基于以上特性对待识别的数据进行归类划分,使用自然语言处理技术对电子文件内容进行拆分与内容提取、特征分析,在本实施例3中,模型识别组件301-21和语义分析组件301-11,用于识别文字类型的数据,此外,元数据管理组件301还包括:模型识别组件301-12和语义分析组件301-22,用于识别影像类型数据,模型识别组件301-13和语义分析组件301-23,用于识别动画类型的数据,模型识别组件301-14和语义分析组件301-24,用于识别声音类型的数据;
通过文本预处理获取反应文本特性的元数据信息,采用逻辑回归、支持向量机等机器学习模型进行训练,采用交叉验证技术优化模型,将元数据信息划分为训练集和测试集,使用训练集训练模型,并在测试集上进行数据预测,将元数据信息的准确率作为评价指标,评价指标若存在不理想则重新调整模型,最终确定最优模型参数,最终形成一个准确率高、运行流畅的分类器来提取元数据信息。从文本内容中提起关键信息,用于作为文本检索与分类的关键词。
安全管理组件302具体还用于:管理用户访问和操作电子文件和档案的权限电子文件、电子档案的安全性,包括用户权限管理、访问控制、数据加密、数据备份等操作。通过使用数据库管理组件中存储的元数据记录,如文件的起草、办理、处置人员,确定用户访问电子文件和电子档案的访问和操作权限。
如图7所示,安全管理组件302包括有访问控制组件302-11,通过跟踪用户对电子文件和电子档案的访问日志,对用户的行为进行审计,审计方法包括确定审计目的和范围、收集日志、分析日志、跟踪调查,形成报告,及时帮助管理人员监测和识别潜在的安全威胁和违规行为。最后,访问控制组件302-11通过提供安全性更高的电子文件和档案的加密功能,以防止未经授权的访问。安全管理组件302与现有接近技术不同的是通过用户与元数据的关联关系实现对用户进行权限控制,而非传统的使用用户角色授权模式。
数据库管理组件303具体还用于:使用分布式数据库技术管理电子文件、电子档案的数据库,功能包括创建数据库、删除数据库、备份数据库、恢复数据库等操作。现有接近技术大多采用了传统的集中式数据库,而数据库管理组件采用了分布式数据库技术,将数据分散存储在多个物理位置上,通过网络连接多个计算机,使得数据在不同的节点上进行存储和处理。分布式数据库提高数据的可靠性、可用性和性能,同时也降低系统的成本和复杂度。
文件管理组件304具体还用于:采用分布式存储技术管理电子文件、电子档案的存储,功能包括文件上传、文件下载、文件删除、文件复制、文件移动、文件重命名等操作。文件管理组件304通过将数据以对象的形式存储在分布式系统的技术对多种文件类型进行管理,例如文本文件、图像文件、视频文件等,使用户在存储文件时更加自由。文件管理组件对文件进行安全加密,防止文件被非法访问和篡改,保证文件的可用性和安全性。文件管理组件与现有接近技术不同的是采用分布式存储技术,将数据分散存储在多个节点上的技术。分布式存储提高数据的可靠性和可用性,同时也提高数据的处理速度和存储容量。
内容检索组件305具体还用于:用于对电子文件、电子档案进行全文检索、关键词检索、元数据检索等操作,提高检索效率和准确性。 元数据通过对基本的元数据和扩展元数据建立索引,实现快速准确地检索出相关文件与档案。全文检索通过采用自然语言分析技术的文本预处理、词频分析、情感分析、实体识别、主题模型、网络分析、时序分析等技术对电子文件和电子档案的全文内容和元数据进行索引,实现全文内容和元数据组合检索,以提供快速、准确的搜索服务,并支持对搜索结果的排序和筛选功能。检索组件与现有接近技术不同的是通过自然语言分析的方式建立索引。
实施例4:
本发明提出了一种基于元数据的数据库管理系统400,如图8所示,包括:元数据管理组件401、安全管理组件402、数据库管理组件403、文件/档案管理组件404和内容检索组件405;
元数据管理组件401用于提取数据库存储的电子数据的元数据,并将元数据存储至数据库,安全管理组件402用于基于元数据为数据库及数据库存储的电子数据设置管理权限,并用于基于元数据为数据库及数据库存储的电子数据设置检索权限,数据库管理组件403用于基于管理权限执行数据库管理操作,文件/档案管理组件404用于基于管理权限执行文件/档案管理操作,内容检索组件405用于基于检索权限对数据库存储的电子数据进行检索。
其中:
元数据管理组件401具体还用于:定义和管理电子文件和电子档案的元数据信息。
基本的元数据包括文件名、文件大小、文件类型、创建日期、修改日期、拥有者等;
扩展元数据包括档案名称、档案类型、档案大小、档案拥有者、档案创建时间、档案修改时间或用户自定义部分。
本发明中元数据管理组件401与现有接近技术不同的是能够用于提取电子数据的元数据,元数据管理组件401通过对电子文件、电子档案的文本预处理、特征提取、模型训练、元数据识别等提取标题、作者、日期、关键词等元数据信息。
元数据管理组件401在对元数据提取方面引入了模型识别技术、语义分析技术,即,如图9,元数据管理组件401包括有基于模型识别技术的模型识别组件401-11和基于语义分析技术的语义分析组件401-21,电子文件、电子档案的文本通常由词、句子和段落来构成,语义分析技术通过分解词汇级语义分析、句子级语义分析以及篇章级语义分析获取内容,模型识别技术建立在语义分析之上,基于模型识别技术实现,将获取的文本内容转成一系列特征,通过搜索训练库,实现自动分析文本的内容。
本发明是将语义分析技术、模型识别技术与元数据管理组件进行融合,搜集电子文件数据并整理统一格式的信息数据,不同格式的电子文件存在使用不同语义模型的情况,应用语义分析从电子文件中抽取元数据,包括文件名、创建时间、作者等信息,抽取元数据信息后对抽取内容进行清洗和规范化处理,将所有抽取的元数据存储在单个数据库或文件中,为每个元数据字段赋予唯一标识,提高电子文件元数据提取的效率和信息质量。采用TextCNN模型生成训练数据,该模型以速度快,准确率高著称。将数据加载进来分割成词,去除低频词和停用词,将词映射成索引表示,从预训练的词向量模型中读取出词向量,将数据集分割成训练集和测试集。电子文件、电子档案的内容以数字信号的方式存在与不同的存储介质,表现为文字、图形、影像、动画、声音、视频等多种媒体信息,基于以上特性对待识别的数据进行归类划分,使用自然语言处理技术对电子文件内容进行拆分与内容提取、特征分析,如图9所示,在本实施例4中,模型识别组件401-11和语义分析组件401-21,用于识别文字类型的数据,此外,元数据管理组件401还包括:模型识别组件401-12和语义分析组件401-22,用于识别影像类型数据;
通过文本预处理获取反应文本特性的元数据信息,采用逻辑回归、支持向量机等机器学习模型进行训练,采用交叉验证技术优化模型,将元数据信息划分为训练集和测试集,使用训练集训练模型,并在测试集上进行数据预测,将元数据信息的准确率作为评价指标,评价指标若存在不理想则重新调整模型,最终确定最优模型参数,最终形成一个准确率高、运行流畅的分类器来提取元数据信息。从文本内容中提起关键信息,用于作为文本检索与分类的关键词。
安全管理组件402具体还用于:管理用户访问和操作电子文件和档案的权限电子文件、电子档案的安全性,包括用户权限管理、访问控制、数据加密、数据备份等操作。通过使用数据库管理组件中存储的元数据记录,如文件的起草、办理、处置人员,确定用户访问电子文件和电子档案的访问和操作权限。
此外,如图10所示,安全管理组件402包括有访问控制组件402-11,通过跟踪用户对电子文件和电子档案的访问日志,对用户的行为进行审计,审计方法包括确定审计目的和范围、收集日志、分析日志、跟踪调查,形成报告,及时帮助管理人员监测和识别潜在的安全威胁和违规行为。最后,访问控制组件402-11通过提供安全性更高的电子文件和档案的加密功能,以防止未经授权的访问。安全管理组件与现有接近技术不同的是通过用户与元数据的关联关系实现对用户进行权限控制,而非传统的使用用户角色授权模式。
数据库管理组件403具体还用于:使用分布式数据库技术管理电子文件、电子档案的数据库,功能包括创建数据库、删除数据库、备份数据库、恢复数据库等操作。现有接近技术大多采用了传统的集中式数据库,而数据库管理组件采用了分布式数据库技术,将数据分散存储在多个物理位置上,通过网络连接多个计算机,使得数据在不同的节点上进行存储和处理。分布式数据库提高数据的可靠性、可用性和性能,同时也降低系统的成本和复杂度。
文件管理组件404具体还用于:采用分布式存储技术管理电子文件、电子档案的存储,功能包括文件上传、文件下载、文件删除、文件复制、文件移动、文件重命名等操作。文件管理组件404通过将数据以对象的形式存储在分布式系统的技术对多种文件类型进行管理,例如文本文件、图像文件、视频文件等,使用户在存储文件时更加自由。文件管理组件对文件进行安全加密,防止文件被非法访问和篡改,保证文件的可用性和安全性。文件管理组件与现有接近技术不同的是采用分布式存储技术,将数据分散存储在多个节点上的技术。分布式存储提高数据的可靠性和可用性,同时也提高数据的处理速度和存储容量。
内容检索组件405具体还用于:用于对电子文件、电子档案进行全文检索、关键词检索、元数据检索等操作,提高检索效率和准确性。 元数据通过对基本的元数据和扩展元数据建立索引,实现快速准确地检索出相关文件与档案。全文检索通过采用自然语言分析技术的文本预处理、词频分析、情感分析、实体识别、主题模型、网络分析、时序分析等技术对电子文件和电子档案的全文内容和元数据进行索引,实现全文内容和元数据组合检索,以提供快速、准确的搜索服务,并支持对搜索结果的排序和筛选功能。检索组件与现有接近技术不同的是通过自然语言分析的方式建立索引。
本发明提出的系统极大的提升了文件和档案的存储效率,通过把文件和档案关联的元数据存储起来,从而更加快捷地查询和检索文件,大大减少了查询时间和空间。
其次,基于元数据的电子文件、电子档案数据库也有效保障文件的安全性,通过对元数据的加密、认证和权限控制来实现对文件的有效保护。
此外,基于元数据的电子文件、电子档案数据库还通过保证系统的可扩展性,根据不同的需求,自由地扩展和定制文件存储空间,从而更好地满足企业的需求。
最后,基于元数据的电子文件、电子档案数据库也极大地提高企业的运营效率,通过统一的文件存储空间,让不同部门之间的文件共享更加方便,从而更好地满足企业的业务需求。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于元数据的数据库管理系统,其特征在于,所述数据库管理系统包括:元数据管理组件、安全管理组件、数据库管理组件、文件/档案管理组件和内容检索组件;
所述元数据管理组件用于提取数据库存储的电子数据的元数据,并将所述元数据存储至数据库,所述安全管理组件用于基于元数据为所述数据库及所述数据库存储的电子数据设置管理权限,并用于基于元数据为所述数据库及所述数据库存储的电子数据设置检索权限,所述数据库管理组件用于基于管理权限执行数据库管理操作,所述文件/档案管理组件用于基于所述管理权限执行文件/档案管理操作,所述内容检索组件用于基于所述检索权限对所述数据库存储的电子数据进行检索。
2.根据权利要求1所述的数据库管理系统,其特征在于,所述数据库为分布式存储数据库。
3.根据权利要求1所述的数据库管理系统,其特征在于,所述电子数据,包括如下中的至少一种:电子文件和电子档案。
4.根据权利要求1所述的数据库管理系统,其特征在于,所述电子数据的元数据,包括:基本元数据和扩展元数据;
所述基本元数据,包括如下中的至少一种:文件名信息、文件大小信息、文件类型信息、创建日期信息、修改日期信息及拥有者信息;
所述扩展元数据,包括如下中的至少一种:档案名称信息、档案类型信息、档案大小信息、档案拥有者信息、档案创建时间信息、档案修改时间信息和自定义信息。
5.根据权利要求1所述的数据库管理系统,其特征在于,所述元数据管理组件基于模型识别算法和语义分析算法构建,包括语义分析组件和识别模型组件;
所述语义分析组件用于获取数据库存储的电子数据,对电子数据进行清洗处理及规范化处理,以剔除电子数据中的杂质数据,并将剔除了杂质数据的电子数据整理为统一数据格式的信息数据,并针对信息数据进行特征提取,基于提取得到的特征,生成所述电子数据的元数据,将所述元数据与对应的电子数据进行关联;
所述识别模型组件用于将所述电子数据及所述电子数据对应的元数据,按照预设的比例划分为训练集数据和测试集数据,将所述训练集数据输入至预先搭建的模型中进行训练,以得到元数据识别模型,将测试集数据输入至所述元数据识别模型中,对所述元数据识别模型进行校验,若校验结果满足元数据识别要求,则所述识别模型组件使用得到的所述元数据识别模型,对数据库新增的电子数据进行识别,以得到所述新增的电子数据的元数据,并将所述新增的电子数据的元数据存储至数据库,并将所述得到所述新增的电子数据的元数据与新增的电子数据进行关联,若所述校验结果不满足所述元数据识别要求,则对所述元数据识别模型的参数进行调整,并再次使用测试集数据对所述元数据校验模型进行校验,直至校验结果满足元数据识别要求;
所述电子数据的数据类型包括,如下中的至少一种:文字类、图形类、影像类、动画类、声音类和视频类;
所述元数据管理组件至少包括一个语义分析组件和一个模型识别组件,每一个类型的电子数据,对应一个语义分析组件和一个模型识别组件;
所述模型识别组件得到电子数据的元数据后,为所述元数据赋予唯一标识码,并将所述唯一标识码存储至数据库,在所述数据库检索电子数据时,通过检索所述唯一标识码以得到所述唯一标识码所对应的元数据,再通过元数据获取电子数据;
所述语义分析组件,还用于在对数据库进行电子数据检索时,对检索输入数据进行识别,输出规范的检索输入数据,并对规范的检索输入数据进行识别,确定规范的检索输入数据的类型,将确定类型且规范的检索输入数据送入内容检索组件。
6.根据权利要求1所述的数据库管理系统,其特征在于,所述安全管理组件设置的管理权限和检索权限,分别为对用于所述数据库管理系统的使用用户设置的对于数据库及电子数据的操作权限,和对用于所述数据库管理系统的使用用户设置的对于数据库存储的电子数据的检索权限。
7.根据权利要求1所述的数据库管理系统,其特征在于,所述数据库管理组件执行的数据库管理操作,包括如下中的至少一种:创建数据库、删除数据库、备份数据库和恢复数据库。
8.根据权利要求1所述的数据库管理系统,其特征在于,所述文件/档案管理组件执行的文件/档案管理操作,包括如下中的至少一种:文件/档案上传、文件/档案下载、文件/档案删除、文件/档案复制、文件/档案移动和文件/档案重命名。
9.根据权利要求1所述的数据库管理系统,其特征在于,所述文件/档案管理组件还用于在文件/档案上传至数据库前,对所述文件/档案进行加密,得到加密文件/档案,并将所述加密文件/档案上传至数据库,通过数据库对加密文件/档案进行存储,在文件/档案下载前,将加密文件/档案进行解密,得到文件/档案。
10.根据权利要求1所述的数据库管理系统,其特征在于,所述内容检索组件以元数据对数据库存储的电子数据进行检索,还以全文或关键词对数据库存储的电子数据进行检索。
CN202310996329.7A 2023-08-09 2023-08-09 一种基于元数据的数据库管理系统 Pending CN116719785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310996329.7A CN116719785A (zh) 2023-08-09 2023-08-09 一种基于元数据的数据库管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310996329.7A CN116719785A (zh) 2023-08-09 2023-08-09 一种基于元数据的数据库管理系统

Publications (1)

Publication Number Publication Date
CN116719785A true CN116719785A (zh) 2023-09-08

Family

ID=87864708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310996329.7A Pending CN116719785A (zh) 2023-08-09 2023-08-09 一种基于元数据的数据库管理系统

Country Status (1)

Country Link
CN (1) CN116719785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013043A (zh) * 2024-03-11 2024-05-10 深圳旭泰互联网有限公司 档案数据的管理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN108268600A (zh) * 2017-12-20 2018-07-10 北京邮电大学 基于ai的非结构化数据管理方法及装置
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法
CN113934869A (zh) * 2021-09-23 2022-01-14 阿里云计算有限公司 一种数据库构建方法、多媒体文件的检索方法及装置
CN114443800A (zh) * 2022-01-06 2022-05-06 浪潮软件集团有限公司 基于国产cpu和os的电子文档检索及权限控制系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN108268600A (zh) * 2017-12-20 2018-07-10 北京邮电大学 基于ai的非结构化数据管理方法及装置
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法
CN113934869A (zh) * 2021-09-23 2022-01-14 阿里云计算有限公司 一种数据库构建方法、多媒体文件的检索方法及装置
CN114443800A (zh) * 2022-01-06 2022-05-06 浪潮软件集团有限公司 基于国产cpu和os的电子文档检索及权限控制系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013043A (zh) * 2024-03-11 2024-05-10 深圳旭泰互联网有限公司 档案数据的管理方法、装置、设备及存储介质
CN118013043B (zh) * 2024-03-11 2024-09-20 深圳旭泰互联网有限公司 档案数据的管理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10482134B2 (en) Document management techniques to account for user-specific patterns in document metadata
US8577823B1 (en) Taxonomy system for enterprise data management and analysis
EP3270303A1 (en) An automated monitoring and archiving system and method
WO2022081812A1 (en) Artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN116719785A (zh) 一种基于元数据的数据库管理系统
Hernández et al. Video analysis system using deep learning algorithms
Ali et al. Carving of the OOXML document from volatile memory using unsupervised learning techniques
CN113887191A (zh) 文章的相似性检测方法及装置
Jeong et al. Study on the tracking revision history of MS Word files for forensic investigation
Donnelly et al. The utility of context when extracting entities from legal documents
Aliakbary et al. Web page classification using social tags
Dubettier et al. File type identification tools for digital investigations
Giannoulakis et al. Topic Identification of Instagram Hashtag Sets for Image Tagging: An Empirical Assessment
Attoe Digital forensics in an eDiscovery world
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same
CN117763109B (zh) 一种用于档案全文检索的数据核查方法
Demidova et al. Creating open citation data with BCite
US20240273066A1 (en) Optimized file classification with supervised learning
CN118779382A (zh) 基于区块链的分布式知识标签管理系统
Coskun et al. Email Clustering & Generating Email Templates Based on Their Topics
Michailidis A Scientometric Study of the Stylometric Research Field. Informatics 2022, 9, 60
Nagarajan et al. Evaluating Fake News Detection Models
Alam et al. SIFT: Sifting file types—application of explainable artificial intelligence in cyber forensics
Kumar et al. Design of Methodology and a Comparative Analysis of Trigram Technique in Similarity of Textual Data
Jin et al. An Empirical Study on Software Requirements Classification Method based on Mobile App User Comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230908

RJ01 Rejection of invention patent application after publication