CN117725283B

CN117725283B - 一种基于大数据的档案数据存储系统

Info

Publication number: CN117725283B
Application number: CN202311767998.3A
Authority: CN
Inventors: 赵真真; 王红亮; 李镇兴
Original assignee: Shandong Dongfang Feiyang Software Technology Co ltd
Current assignee: Shandong Dongfang Feiyang Software Technology Co ltd
Filing date: 2023-12-20
Publication date: 2024-06-07
Anticipated expiration: 2043-12-20

Abstract

本发明涉及档案存储技术领域，具体涉及一种基于大数据的档案数据存储系统，包括以下模块：集成数据接入层：用于从不同类型和格式的数据源接收档案数据，支持多种数据接入协议；智能分类与索引构建模块：使用机器学习算法对接入的档案数据进行自动分类和标签化，构建改进的索引单元，以便于快速检索和提取数据；分布式存储优化引擎：根据档案数据的访问频率和重要性，自动优化档案数据在不同存储介质之间的分布；智能档案提取单元：基于用户需求，结合索引单元中关联分析结果，提供档案提取功能，支持自定义查询和批量数据提取。本发明，索引单元和关联性分析技术大大提升了档案数据的应用价值，提供了一个既高效又安全的数据管理和检索平台。

Description

一种基于大数据的档案数据存储系统

技术领域

本发明涉及档案存储技术领域，尤其涉及一种基于大数据的档案数据存储系统。

背景技术

随着数字化信息的快速增长，档案数据管理已成为现代信息技术领域的一个重要挑战，传统的数据存储和检索系统在处理大规模、多样化的档案数据时面临诸多局限性。

传统的档案数据存储系统通常采用基础的索引方法，这在面对大数据量时往往效率不高，这些系统缺乏高级的索引机制，如动态更新的倒排索引或多维度标签系统，导致在处理复杂查询时响应缓慢、准确率不足。

大多数现有的系统缺乏有效的工具来分析和挖掘档案数据之间的潜在关联性。它们通常只能提供基于关键词的简单搜索，而无法揭示数据间更深层次的联系和模式，限制了用户从数据中发现有价值信息的能力。当用户试图提取或查询特定档案数据时，现有系统往往无法根据用户的历史查询行为或数据间的关联性来优化查询结果，这导致用户无法快速获取相关联且可能更有价值的信息。

综上所述，现有技术在高效、智能地处理和检索大规模档案数据方面存在明显不足，特别是在高级索引、数据关联性分析和个性化查询优化方面，因此，迫切需要一种新的解决方案，以应对这些挑战并充分利用档案数据的潜在价值。

发明内容

基于上述目的，本发明提供了一种基于大数据的档案数据存储系统。

一种基于大数据的档案数据存储系统，包括以下模块：

集成数据接入层：用于从不同类型和格式的数据源接收档案数据，支持多种数据接入协议，并能处理大量并发数据流；

智能分类与索引构建模块：使用机器学习算法对接入的档案数据进行自动分类和标签化，构建改进的索引单元，以便于快速检索和提取数据，改进的索引单元还对存储的档案数据进行实时监控以及关联分析，以发现潜在价值和关联性，在用户提取、查询档案数据时，根据关联分析结果提供查询结果；

分布式存储优化引擎：根据档案数据的访问频率和重要性，自动优化档案数据在不同存储介质之间的分布；

智能档案提取单元：基于用户需求，结合索引单元中关联分析结果，提供档案提取功能，支持自定义查询和批量数据提取。

进一步的，所述集成数据接入层具体包括：

多个多源数据适配器：每个适配器用于处理不同类型的数据源，所述数据源包括文本文档、数据库、云服务，所述适配器能够识别和解析多种数据格式，包括CSV、JSON、XML以及SQL数据库格式；

数据接入协议支持：支持多种数据传输协议，包括HTTP/HTTPS、FTP、SFTP、WebDAV以及各种数据库连接协议；

并发数据流处理引擎：采用并发处理机制来处理大量并发数据流；

负载均衡与数据缓冲区：集成数据接入层包含负载均衡机制，能够在多个数据接入点之间动态分配请求，优化性能和资源利用，同时配备数据缓冲区，以应对流量高峰期间的数据暴增。

进一步的，所述并发处理机制基于事件驱动架构和非阻塞I/O；

在事件驱动架构下，不断监听来自不同数据源的事件，检测到事件后，相应的处理程序被触发，无需等待其他无关的处理完成，所述处理程序为事件处理器，事件处理器专注于单一任务，单一任务包括数据读取、数据解析；

所述非阻塞I/O允许在等待某项I/O操作完成时，继续执行其他任务，当一个数据流正在被处理，可同时开始处理另一个数据流，而不需要等待第一个操作完成；

所述并发处理机制还采用事件循环机制，循环检查并处理事件队列中的事件，使用异步编程模型，当发起一个耗时的I/O操作时，程序会立即返回，而操作在背后异步完成。

进一步的，所述的智能分类与索引构建模块包括深度学习模型，所述深度学习模型包括卷积神经网络模型、循环神经网络模型以及Transformer模型，采用卷积神经网络模型对图像数据进行处理，采用循环神经网络模型和Transformer模型对文本数据进行处理并识别和解析档案内容；

使用预标记的数据集对深度学习模型进行训练，预标记包含文档类型、来源、主题类别，在训练过程中，深度学习模型学习如何根据输入数据的特征将其分配到正确的类别，进而将接入的档案数据输入到训练好的深度学习模型中，深度学习模型将根据学到的特征识别和分类数据，自动将其分配到相应的预定义类别中；

所述标签化包括使用自然语言处理技术中的TF-IDF或词嵌入从文本中提取关键词作为标签，对于图像内容，使用图像识别技术识别关键元素，并生成描述性标签，根据提取的关键词和识别的元素，自动生成标签；

所述改进的索引单元基于生成的分类和标签信息构建，且改进的索引单元采用倒排索引结构，将每个标签与包含该标签的档案数据相关联，改进的索引单元还包括动态更新机制、多维度标签子模块以及关联标签索引。

进一步的，所述动态更新机制用于实现倒排索引的实时更新，以便在档案数据更新或新数据接入时，立即反映在索引中，通过集成数据接入层和档案数据存储系统的实时监控功能检测数据变动，包括新数据的添加、现有数据的修改或删除，利用数据库触发器、文件监控或消息队列技术来监听数据变化，当检测到数据变动时，触发索引更新过程，更新过程如下：

对于数据的添加，提取新数据的关键标签并将其添加到对应的索引条目中；

对于数据的修改，更新相关索引条目，反映数据的最新状态；

对于数据的删除，从索引中移除对应的标签或更新相关条目；

采用事务管理或锁机制确保索引更新过程的原子性和一致性，对于分布式存储，还考虑跨多个节点的索引一致性，对于高频更新的索引条目，先在内存中更新，再定期同步到永久存储；

所述多维度标签子模块用于扩展标签，不仅包括关键词标签，还包括文档类型、来源、时间戳、地理位置、作者/创建者，对从不同来源接收的数据，结合其元数据进行标签生成，允许手动添加或修改标签，以增加特定上下文或专业知识，将提取的多维度标签集成到倒排索引结构中，以支持复杂的查询；

所述关联标签索引用于在倒排索引中加入标签间的关联信息，包括共同出现频率、相互关系强度，首先创建标准的倒排索引，记录每个标签和包含该标签的文档标识符列表，使用关联规则挖掘技术分析标签间的关联性，创建一个关联矩阵，用于存储标签之间的关联关系及其强度；

在基础的倒排索引旁，构建关联标签的数据结构，对于每个标签，除了记录包含它的文档外，还记录与之相关性强的其他标签；

在执行档案数据检索时，不仅考虑用户直接查询的标签，还考虑与该标签的相关标签。

进一步的，所述关联规则挖掘技术包括：

从档案数据中提取所有标签，并构建事务数据集，每个事务代表一个文档及其包含的标签；

频繁项集生成：使用Apriori算法找出频繁共同出现的标签组合，形成频繁项集，表示经常一起出现在同一个文档中，从频繁项集中生成关联规则，使用置信度和支持度指标评估规则的强度和重要性；

所述支持度是指项集在所有交易中出现的频率，对于项集X，其支持度定义为:

所述Apriori算法包括计算所有单个项的支持度，并保留满足最小支持度阈值的项，对于每一个项集大小k，通过组合频繁的k-1项集来构建k项集，并计算支持度，删除不满足最小支持度阈值的项集，当没有更多的频繁项集可生成时，算法停止；

所述置信度是指规则的可靠性，对于规则其置信度定义为：/>

对于每个频繁项集，生成所有可能的规则，对每条规则计算置信度，并保留满足最小置信度阈值的规则。

进一步的，所述智能档案提取单元还包括查询扩展机制，所述查询扩展机制根据关联强度和用户需求调整检索结果。

进一步的，所述查询扩展机制包括：

从用户的搜索查询中提取关键词，使用NLP技术分析查询意图，根据已经挖掘出的关联规则，识别与查询关键词相关联的其他标签或词汇，使用关联规则中的支持度和置信度来确定查询关键词与相关标签之间的关联强度；

生成扩展查询，将原始查询与相关标签结合，形成扩展查询。

调整扩展策略：根据用户的反馈和搜索习惯，调整扩展策略，若用户经常点击与原始查询紧密相关的结果，则减少查询扩展的范围，若用户更倾向于探索性搜索，则增加扩展的范围；

基于相关性排序，在呈现查询结果时，根据相关性进行排序，相关性包括原始查询和扩展查询的相关性。

进一步的，所述分布式存储优化引擎实时监控每个档案数据的访问频率，包括读取和写入操作的次数，使用日志记录来跟踪和存储访问数据；

管理不同类型的存储介质，包括高速SSD、传统HDD以及云存储，为每种存储介质定义性能参数和成本指标，包括访问速度、容量、价格；

根据数据的访问频率，自动决定数据应存储在哪种介质上，高频访问数据存储在高速SSD，低频访问迁移到传统HDD或云存储。

进一步的，该存储系统还包括身份验证和访问控制机制，具体包括：

用户身份验证：包括如密码、生物识别或安全令牌，每次用户尝试访问档案数据时，要求进行身份验证，用户根据其角色被分配不同的访问权限，角色定义了用户可访问的数据类型和操作权限；

数据敏感性和权限级别映射：将档案数据分类，根据其敏感性和重要性为其分配不同的权限级别，在用户请求访问数据时，检查用户的权限级别是否与对应档案数据的权限级别匹配；

当用户请求访问特定档案数据时，还考虑与该档案数据关联的其他档案数据，自动过滤掉用户无权访问的关联数据，只显示用户有权访问的相关信息。

本发明的有益效果：

本发明，通过实施先进的索引单元和关联性分析技术，显著提高了档案数据的检索效率和准确性，利用动态更新的倒排索引和多维度标签系统，可以快速准确定位和检索到具有特定标签或关键字的档案数据，此外，关联标签索引的应用使得用户在查询特定数据时，还能获得与之紧密相关的其他档案数据，从而提供更为全面和深入的搜索结果，这种增强的检索能力对于处理大规模档案数据集尤为重要，使用户能够在短时间内获得更加精确和全面的信息。

本发明，索引单元通过关联性分析揭示了档案数据之间的深层次联系和模式，为用户提供了超越传统搜索的数据洞察，通过分析和挖掘不同档案数据间的共现模式和关系，能够揭示出潜在的价值和见解，这对于研究人员和决策者来说至关重要，例如，通过分析历史档案数据，可以预测未来趋势，或者发现过去未曾注意到的重要事件或模式，这种能力使得档案数据不仅仅是信息的存储库，更成为知识发现和创新的强大工具。

本发明，身份验证和访问控制机制的整合确保了档案数据的安全性和合规性，特别是在处理敏感或保密信息时，通过限制对特定数据的访问，系统保障了信息的安全和用户的隐私，同时，这种方法也符合日益严格的数据保护和隐私法规要求，当一个用户根据权限级别请求访问相关数据时，系统能够自动过滤出该用户无权查看的信息，确保数据的安全不被泄露，这不仅提升了用户对系统的信任度，也降低了数据泄露的风险。

本发明，采用事件驱动架构和非阻塞I/O的并发处理机制显著提高了系统对档案数据的处理效率，在这种架构下，系统能够在接收到新数据或发生数据变更时立即做出响应，而不需要等待其他无关处理任务的完成，这种即时响应的机制使得数据处理更加迅速，大大减少了数据的处理时间，同时，非阻塞I/O确保系统在执行长时间的数据操作时，仍能继续处理其他任务，从而优化了整体的系统性能和响应速度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的功能模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

如图1所示，一种基于大数据的档案数据存储系统，包括以下模块：

分布式存储优化引擎：根据档案数据的访问频率和重要性，自动优化档案数据在不同存储介质(如SSD、HDD、云存储)之间的分布，以提高存储效率和数据访问速度；

集成数据接入层具体包括：

多个多源数据适配器：每个适配器用于处理不同类型的数据源，数据源包括文本文档、数据库、云服务，适配器能够识别和解析多种数据格式，包括CSV、JSON、XML以及SQL数据库格式；

数据接入协议支持：支持多种数据传输协议，包括HTTP/HTTPS、FTP、SFTP、WebDAV以及各种数据库连接协议，如JDBC和ODBC；

并发数据流处理引擎：采用并发处理机制来处理大量并发数据流，该引擎能够优化数据传输，减少延迟，并确保即使在高负载条件下也能保持数据接入的稳定性和效率；

负载均衡与数据缓冲区：集成数据接入层包含负载均衡机制，能够在多个数据接入点之间动态分配请求，优化性能和资源利用，同时配备数据缓冲区，以应对流量高峰期间的数据暴增，保证数据不丢失，并确保平稳的数据流入系统。

并发处理机制基于事件驱动架构和非阻塞I/O；

在事件驱动架构下，不断监听来自不同数据源的事件，检测到事件后，相应的处理程序被触发，无需等待其他无关的处理完成，处理程序为事件处理器，事件处理器专注于单一任务，单一任务包括数据读取、数据解析，确保快速响应；

非阻塞I/O允许在等待某项I/O操作(如从网络读取数据)完成时，继续执行其他任务，当一个数据流正在被处理(如数据正在从数据库读取)，可同时开始处理另一个数据流，而不需要等待第一个操作完成，这种方式显著提高了数据处理的并行性和系统的整体吞吐量；

并发处理机制还采用事件循环机制，循环检查并处理事件队列中的事件，使用异步编程模型，当发起一个耗时的I/O操作时(例如，从远程服务器下载大文件)，程序会立即返回，而操作在背后异步完成；

通过这种机制，集成数据接入层能够高效地处理来自多个数据源的大量并发数据流，同时保证了数据处理的实时性和系统的稳定性，这种方法尤其适用于大数据环境下对高速、高效数据处理的需求。

智能分类与索引构建模块包括深度学习模型，深度学习模型包括卷积神经网络模型、循环神经网络模型以及Transformer模型，采用卷积神经网络模型对图像数据进行处理，采用循环神经网络模型和Transformer模型对文本数据进行处理并识别和解析档案内容，从而实现精准的分类和标签化；

标签化包括使用自然语言处理技术中的TF-IDF(词频-逆文档频率)或词嵌入从文本中提取关键词作为标签，对于图像内容，使用图像识别技术识别关键元素，并生成描述性标签，根据提取的关键词和识别的元素，自动生成标签，标签反映了文档的主要内容和特征；倒排索引的检索过程为：当用户查询特定标签时，系统会查找与该标签对应的索引条目，从索引条目中获取包含该标签的所有档案数据的标识符列表，系统然后检索与这些标识符对应的档案数据，这些数据就是包含用户查询标签的结果。倒排索引允许系统直接访问包含特定标签的文档，无需逐个检查每个文档，这大大减少了查找时间，特别是在处理大量数据时；

改进的索引单元基于生成的分类和标签信息构建，且改进的索引单元采用倒排索引结构，将每个标签与包含该标签的档案数据相关联，改进的索引单元还包括动态更新机制、多维度标签子模块以及关联标签索引。

动态更新机制用于实现倒排索引的实时更新，以便在档案数据更新或新数据接入时，立即反映在索引中，通过集成数据接入层和档案数据存储系统的实时监控功能检测数据变动，包括新数据的添加、现有数据的修改或删除，利用数据库触发器、文件监控或消息队列技术来监听数据变化，当检测到数据变动时，触发索引更新过程，更新过程如下：

多维度标签子模块用于扩展标签，不仅包括关键词标签，还包括文档类型(报告、电子邮件、图片等)、来源(部门、个人、外部机构)、时间戳、地理位置、作者/创建者，对从不同来源接收的数据，结合其元数据(如文件属性、数据库字段)进行标签生成，允许手动添加或修改标签，以增加特定上下文或专业知识，将提取的多维度标签集成到倒排索引结构中，以支持复杂的查询；

关联标签索引用于在倒排索引中加入标签间的关联信息，包括共同出现频率、相互关系强度，首先创建标准的倒排索引，记录每个标签和包含该标签的文档标识符列表，使用关联规则挖掘技术分析标签间的关联性，创建一个关联矩阵，用于存储标签之间的关联关系及其强度；

在基础的倒排索引旁，构建关联标签的数据结构，对于每个标签，除了记录包含它的文档外，还记录与之相关性强的其他标签，基于关系数据库的扩展表实现；

在执行档案数据检索时，不仅考虑用户直接查询的标签，还考虑与该标签的相关标签；

随着新数据的持续接入，将不断更新和优化索引单元，以保持数据检索的准确性和高效性。同时，机器学习模型将根据新数据进行迭代学习，不断提高分类和标签化的准确率。

通过这些功能和机制，智能分类与索引构建模块为系统提供了一个强大的工具，以实现对庞大的档案数据集的高效管理和利用。这个模块通过先进的机器学习技术和智能索引构建，确保了用户能够迅速准确地检索和访问所需的档案信息。

关联规则挖掘技术包括：

支持度是指项集在所有交易中出现的频率，对于项集X，其支持度定义为:

Apriori算法包括计算所有单个项的支持度，并保留满足最小支持度阈值的项，对于每一个项集大小k，通过组合频繁的k-1项集来构建k项集，并计算支持度，删除不满足最小支持度阈值的项集，当没有更多的频繁项集可生成时，算法停止；

置信度是指规则的可靠性，对于规则其置信度定义为：/>

假设有以下交易数据：

交易1:{面包，牛奶}

交易2:{面包，尿布，啤酒，鸡蛋}

交易3:{牛奶，尿布，啤酒，可乐}

交易4:{面包，牛奶，尿布，啤酒}

交易5:{面包，牛奶，尿布，可乐}

如果设定最小支持度为60％，则项集{面包，牛奶}的支持度为60％(因为它出现在3个交易中，共5个交易)，符合条件。如果最小置信度设为80％，则规则(存在于3个交易中，而面包共出现在4个交易中)的置信度为75％，不符合条件。

通过这种方式，Apriori算法可以帮助识别出满足特定支持度和置信度的项集和规则，从而在大数据集中发现有价值的关联。

智能档案提取单元还包括查询扩展机制，查询扩展机制根据关联强度和用户需求调整检索结果。

查询扩展机制包括：

从用户的搜索查询中提取关键词，使用NLP技术分析查询意图，根据已经挖掘出的关联规则，识别与查询关键词相关联的其他标签或词汇，例如，如果“经济”和“全球化”在文档中经常一起出现，那么“全球化”可以视为一个相关标签，使用关联规则中的支持度和置信度来确定查询关键词与相关标签之间的关联强度；

生成扩展查询，将原始查询与相关标签结合，形成扩展查询，例如，原始查询“经济历史”可以扩展为“经济历史OR全球化”。

分布式存储优化引擎实时监控每个档案数据的访问频率，包括读取和写入操作的次数，使用日志记录来跟踪和存储访问数据；

该存储系统还包括身份验证和访问控制机制，具体包括：

用户身份验证：包括如密码、生物识别或安全令牌，每次用户尝试访问档案数据时，要求进行身份验证，用户根据其角色被分配不同的访问权限，角色定义了用户可访问的数据类型和操作权限(如查看、编辑、下载)；

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的档案数据存储系统，其特征在于，包括以下模块：

智能分类与索引构建模块：使用机器学习算法对接入的档案数据进行自动分类和标签化，构建改进的索引单元，以便于快速检索和提取数据，改进的索引单元还对存储的档案数据进行实时监控以及关联分析，以发现潜在价值和关联性，在用户提取、查询档案数据时，根据关联分析结果提供查询结果，所述的智能分类与索引构建模块包括深度学习模型，所述深度学习模型包括卷积神经网络模型、循环神经网络模型以及Transformer模型，采用卷积神经网络模型对图像数据进行处理，采用循环神经网络模型和Transformer模型对文本数据进行处理并识别和解析档案内容；

所述标签化包括使用自然语言处理技术中的TF-IDF或词嵌入从文本中提取关键词作为标签，对于图像内容，使用图像识别技术识别关键元素，并生成描述性标签；

所述改进的索引单元基于生成的分类和标签信息构建，且改进的索引单元采用倒排索引结构，将每个标签与包含该标签的档案数据相关联，改进的索引单元还包括动态更新机制、多维度标签子模块以及关联标签索引；

所述动态更新机制用于实现倒排索引的实时更新，以便在档案数据更新或新数据接入时，立即反映在索引中，通过集成数据接入层和档案数据存储系统的实时监控功能检测数据变动，包括新数据的添加、现有数据的修改或删除，利用数据库触发器、文件监控或消息队列技术来监听数据变化，当检测到数据变动时，触发索引更新过程，更新过程如下：

2.根据权利要求1所述的一种基于大数据的档案数据存储系统，其特征在于，所述集成数据接入层具体包括：

数据接入协议支持：支持多种数据接入协议，包括HTTP/HTTPS、FTP、SFTP、WebDAV以及各种数据库连接协议；

3.根据权利要求2所述的一种基于大数据的档案数据存储系统，其特征在于，所述并发处理机制基于事件驱动架构和非阻塞I/O；

4.根据权利要求1所述的一种基于大数据的档案数据存储系统，其特征在于，所述关联规则挖掘技术包括：

所述置信度是指规则的可靠性，对于规则其置信度定义为：

5.根据权利要求4所述的一种基于大数据的档案数据存储系统，其特征在于，所述智能档案提取单元还包括查询扩展机制，所述查询扩展机制根据关联强度和用户需求调整检索结果。

6.根据权利要求5所述的一种基于大数据的档案数据存储系统，其特征在于，所述查询扩展机制包括：

生成扩展查询，将原始查询与相关标签结合，形成扩展查询；

7.根据权利要求6所述的一种基于大数据的档案数据存储系统，其特征在于，所述分布式存储优化引擎实时监控每个档案数据的访问频率，包括读取和写入操作的次数，使用日志记录来跟踪和存储访问数据；

8.根据权利要求7所述的一种基于大数据的档案数据存储系统，其特征在于，该存储系统还包括身份验证和访问控制机制，具体包括：