CN116775972A

CN116775972A - 基于信息技术的远端资源整理服务方法和系统

Info

Publication number: CN116775972A
Application number: CN202310794896.4A
Authority: CN
Inventors: 瞿承蔚; 罗春辉; 瞿莹
Original assignee: Shenzhen Shijia Technology Co ltd
Current assignee: Shenzhen Shijia Technology Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-19

Abstract

本发明公开了基于信息技术的远端资源整理服务方法和系统，涉及信息技术资源整理技术领域，资源的分散在不同的地方，信息资源较为杂乱，对于大量的远程资源进行分类和归档是一项复杂的任务，可能存在分类标准不明确、资源归属不清晰等问题，导致整理结果不够精准和一致，本发明通过对信息进行整理，并对关键词进行层次划分指定分类树，允许根据不同的需求随时插入、删除和合并节点，提供了更灵活、可扩展的数据管理方式，分类树将数据进行分类管理，可以使数据更有组织性，从而更好地保护数据的安全性和完整性，避免了重复数据的存储，提高了归档效率和存储利用率，另外，还可以进行权限控制，将特定的数据进行访问限制，确保敏感数据不被泄露。

Description

基于信息技术的远端资源整理服务方法和系统

技术领域

本发明涉及信息技术资源整理技术领域，具体为基于信息技术的远端资源整理服务方法和系统。

背景技术

信息技术资源整理是将远程的资源进行整理和管理的系统，该系统可以通过互联网或其他通信网络，将远程的资源进行收集、分类、整理、存储和检索，以便用户可以方便地访问和利用这些资源。

对此，中国申请专利号：CN114449125A，公开了一种基于档案信息资源规划的档案整理与数字化加工系统，包括档案信息资源平台、整理系统和录制系统，所述档案信息资源平台的输出端分别与整理系统和录制系统的输入端连接，所述整理系统包括中央处理器、检索单元、扫描设备、拍照设备、分类单元、档案数据库单元、信息展示单元、文字识别单元、档案存储单元、档案读取单元、反馈单元和图文识别单元，本发明涉及档案管理技术领域。该基于档案信息资源规划的档案整理与数字化加工系统，在对档案扫描的时候，对档案进行拍照保存，保证档案有原貌信息，避免信息缺失，解决了现有的处理方式容易对纸质档案造成很大的伤害，造成信息缺失的问题。

对此，中国申请专利号：CN114817644A，公开了一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统，其特征在于，主要功能包括：实现政务信息资源按主题分类和智能化搜索，方法流程包括收集政府数据，对政府信息资源按照政府信息内在相关性和与公众密切相关的主题进行划分，形成多级分类树。搭建Elasticsearch集群，基于Elasticsearch对S1底层数据进行优化，通过RabbitMQ消息中间件异步接入政府信息资源数据。接受用户查询请求并对该请求进行应答。获取用户反馈存入评价列表，并根据评价列表更新多级分类树。根据上述方法构建系统，系统分为数据收集清洗单元、存储单元、服务单元、交互单元以及展示单元，

现处于信息大爆炸的时代，资源的分散在不同的地方，一些企业级的系统中，信息资源较为杂乱，在用户进行查询时，十分的困难，自身整理收集管理资源十分的复杂，且容易出错，对于大量的远程资源进行分类和归档是一项复杂的任务，可能存在分类标准不明确、资源归属不清晰等问题，导致整理结果不够精准和一致。

针对上述问题，为此，提出基于信息技术的远端资源整理服务方法和系统。

发明内容

本发明的目的在于提供基于信息技术的远端资源整理服务方法和系统，解决了背景技术中的远程资源归档杂乱的问题。

为实现上述目的，本发明提供如下技术方案：基于信息技术的远端资源整理服务系统，包括远程资源采集，利用网络爬虫，自动获取远程资源，对网页、文档、图片、视频采集获取，采集数据解析，提取关键信息；

远程资源分类，按照主体，类型进行分类，对分类后的远程资源进行整理，完成归档；

归档中清晰目标分类，机器学习和自然语言处理技术，利用机器学习和自然语言处理技术，对远程资源进行自动分类和归档；

训练模型，提供反馈和建议，远程资源标记分类，系统优化分类和归档过程；

多层级的分类体系和标签系统，采用主分类和子分类的方式进行层级划分，引入标签系统来进一步描述资源的特征和属性；

远程资源检索，提供用户界面，通过关键词搜索，检索远程资源；

远程资源推荐，用户浏览记录、兴趣偏好记忆保存，推荐算法推荐相关的远程资源；

远程资源权限管理，对远程资源权限管理，授权用户访问。

优选的，网络爬虫对远程资源进行获取，确定目标网站和页面结构，根据目标信息，确定具体的目标网站和页面，以及需要爬取的信息所在的HTML标签或CSS选择器，爬取到的数据需要存储到数据库或文件中，可以根据需要选择合适的存储方式，并编写对应的存储代码。

优选的，采集数据解析，构建DOM树，寻找并提取目标数据，在遍历过程中，可以根据标签名、属性名或CSS选择器等方法定位目标元素，并提取所需的结构化数据，通过解析CSS样式来辅助解析HTML网页，解析CSS样式表可以获取同样具有结构化信息的元素的样式信息，比如字体、颜色，编写自定义的解析器对HTML网页进行解析和提取，自定义解析器可以结合正则表达式、CSS选择器等技术，以及HTML标签属性、标签名等特征，提取出特定的结构化数据。

优选的，OpenCV库进行图像处理和模板匹配，获取目标图片中的所需信息。

优选的，远程资源分类构建分类的关键词库，关键词是与分类相关的词汇、短语和表达方式，远程资源将其标题、描述或其他相关信息与关键词库进行匹配，利用字符串匹配算法正则表达式判断资源中是否包含关键词，匹配到关键词为每个关键词定义评分。

优选的，根据关键词匹配的结果，将资源依次归类到对应的子分类，归类资源后，更新分类树的节点信息，记录每个分类下的资源数量、关键词匹配度等信息，每个子分类，递归地应用相同算法，资源继续进行关键词匹配和层级划分，所有资源处理并归类，分类结束。

优选的，递归处理子分类获取当前分类的子分类列表，遍历子分类列表，递归处理完成后，返回最终的分类树；

远程资源数据分类计算公式：

远程资源＝∑((资源重要度x分类权重)/资源距离)；

资源重要度代表该资源的重要性，分类权重代表用户对该分类的关注程度，资源距离代表该资源与用户关注点之间的距离；

资源递归关键词匹配和层级划分，拟定算法公式：

匹配度＝∑(关键词权重x匹配系数)/关键词总权重；

关键词权重代表该关键词的重要性，匹配系数代表该关键词在该层级中的匹配程度。

优选的，定期更新分类系统的训练数据集，添加新的资源和删除过时的资源，定期评估分类系统的算法性能，准确率、召回率指标。

优选的，针对不同类型的资源，可以采用不同的分类策略，文本资源使用文本分类算法，图像资源使用图像识别算法。

基于信息技术的远端资源整理服务方法，用户可以通过上传文件、分享链接等方式将需要整理的资源添加到系统中，系统也可以通过爬虫技术从互联网上收集资源，系统可以根据资源的类型、关键词、标签等属性进行自动分类，并将其分配到相应的分类中，系统可以为资源添加标签或描述，以便用户更好地搜索和识别资源，可以使用关键词提取、文本摘要等技术来生成标签或描述，系统提供了资源的搜索功能，用户可以通过关键词、标签等方式快速找到自己需要的资源，可以使用搜索引擎技术来实现高效的资源搜索，用户可以将整理好的资源分享给其他用户，可以通过生成分享链接、发送资源给特定用户等方式进行资源分享。

与现有技术相比，本发明的有益效果如下：

1、本发明提供的基于信息技术的远端资源整理服务方法和系统，通过对数据解析后对数据进行分类归档，通过系统算法进行归档中通过对信息进行整理，整理中利用了字符串算法匹配关键词，并对关键词进行层次划分指定分类树，允许根据不同的需求随时插入、删除和合并节点，提供了更灵活、可扩展的数据管理方式，分类树将数据进行分类管理，可以使数据更有组织性，从而更好地保护数据的安全性和完整性，避免了重复数据的存储，提高了归档效率和存储利用率，另外，还可以进行权限控制，将特定的数据进行访问限制，确保敏感数据不被泄露。

附图说明

图1为本发明的整体流程示意图；

图2为本发明远程资源分类流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图对本发明作详细描述。

结合图1-图2，本发明的基于信息技术的远端资源整理服务系统，包括远程资源采集，利用网络爬虫，自动获取远程资源，对网页、文档、图片、视频采集获取，网络爬虫对远程资源进行获取，确定目标网站和页面结构，根据目标信息，确定具体的目标网站和页面，以及需要爬取的信息所在的HTML标签或CSS选择器，爬取到的数据需要存储到数据库或文件中，可以根据需要选择合适的存储方式，并编写对应的存储代码，首先使用Python的数据库连接库，连接到要存储数据的数据库，根据要存储的数据类型和结构，在数据库中创建对应的表，定义好表的列名、数据类型、长度和约束等属性，后对处理数据，在爬虫程序中获取到数据后，需要对数据进行清洗和转换，删除无用的信息和格式化数据，使用Python的字符串处理和正则表达式等工具，对数据进行预处理，使其符合表格设计，将处理完后的数据插入到数据库表中；

采集数据解析，提取关键信息，采集数据解析，构建DOM树，寻找并提取目标数据，在遍历过程中，可以根据标签名、属性名或CSS选择器等方法定位目标元素，并提取所需的结构化数据，通过解析CSS样式来辅助解析HTML网页，解析CSS样式表可以获取同样具有结构化信息的元素的样式信息，比如字体、颜色，编写自定义的解析器对HTML网页进行解析和提取，自定义解析器可以结合正则表达式、CSS选择器等技术，以及HTML标签属性、标签名等特征，提取出特定的结构化数据，OpenCV库进行图像处理和模板匹配，获取目标图片中的所需信息；

远程资源分类，按照主体，类型进行分类，对分类后的远程资源进行整理，完成归档，远程资源分类构建分类的关键词库，关键词是与分类相关的词汇、短语和表达方式，远程资源将其标题、描述或其他相关信息与关键词库进行匹配，利用字符串匹配算法正则表达式判断资源中是否包含关键词，匹配到关键词为每个关键词定义评分；

根据关键词匹配的结果，将资源依次归类到对应的子分类，归类资源后，更新分类树的节点信息，记录每个分类下的资源数量、关键词匹配度等信息，

遍历分类树的所有节点，对每个节点的子节点进行分类，并计算子节点的得分，对每个节点更新其子节点的数量和得分，并根据子节点的数量和得分计算当前节点的得分(例如，加权平均值)，递归地向上更新父节点的得分和数量信息，直到根节点，最终，根节点的得分和数量信息就是整个分类树的得分和数量信息每个子分类，递归地应用相同算法，递归处理子分类获取当前分类的子分类列表，遍历子分类列表，递归处理完成后，返回最终的分类树；

远程资源数据分类计算公式：

远程资源＝∑((资源重要度x分类权重)/资源距离)；

资源递归关键词匹配和层级划分，拟定算法公式：

匹配度＝∑(关键词权重x匹配系数)/关键词总权重；

关键词权重代表该关键词的重要性，匹配系数代表该关键词在该层级中的匹配程度；

资源继续进行关键词匹配和层级划分，所有资源处理并归类，分类结束；

训练模型，提供反馈和建议，远程资源标记分类，系统优化分类和归档过程，定期更新分类系统的训练数据集，添加新的资源和删除过时的资源，定期评估分类系统的算法性能，准确率、召回率指标；

多层级的分类体系和标签系统，采用主分类和子分类的方式进行层级划分，引入标签系统来进一步描述资源的特征和属性，针对不同类型的资源，可以采用不同的分类策略，文本资源使用文本分类算法，图像资源使用图像识别算法，其中文本分类算法中需要对获取的数据进行预处理和清洗，去除无效字符、标点符号、停用词，进行分词、词干化等操作，提取文本特征根据具体需求，选择合适的分类器并对其进行训练，将分类器模型部署到服务器上，并对分类器的性能进行评估。评估指标包括准确率、精确率、召回率等；

远程资源权限管理，对远程资源权限管理，授权用户访问，用户首先需要输入相应的身份信息，系统会对用户的身份进行验证，如果验证通过，则允许用户进入系统，用户可以根据自己的需求，在系统中选择需要访问的远程资源，用户可以通过程序界面对选择的远程资源进行访问，并实现用查看、修改、上传、下载、备份等操作，当用户对远程资源进行了操作后，系统会将操作请求发送到服务器端，服务器端会执行相应的操作并将结果返回给客户端。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于信息技术的远端资源整理服务系统，其特征在于，包括远程资源采集，利用网络爬虫，自动获取远程资源，对网页、文档、图片、视频采集获取，采集数据解析，提取关键信息；

远程资源权限管理，对远程资源权限管理，授权用户访问。

2.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：网络爬虫对远程资源进行获取，确定目标网站和页面结构，根据目标信息，确定具体的目标网站和页面，以及需要爬取的信息所在的HTML标签或CSS选择器，爬取到的数据需要存储到数据库或文件中，可以根据需要选择合适的存储方式，并编写对应的存储代码。

3.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：采集数据解析，构建DOM树，寻找并提取目标数据，在遍历过程中，可以根据标签名、属性名或CSS选择器等方法定位目标元素，并提取所需的结构化数据，通过解析CSS样式来辅助解析HTML网页，解析CSS样式表可以获取同样具有结构化信息的元素的样式信息，比如字体、颜色，编写自定义的解析器对HTML网页进行解析和提取，自定义解析器可以结合正则表达式、CSS选择器等技术，以及HTML标签属性、标签名等特征，提取出特定的结构化数据。

4.根据权利要求3所述的基于信息技术的远端资源整理服务系统，其特征在于：OpenCV库进行图像处理和模板匹配，获取目标图片中的所需信息。

5.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：远程资源分类构建分类的关键词库，关键词是与分类相关的词汇、短语和表达方式，远程资源将其标题、描述或其他相关信息与关键词库进行匹配，利用字符串匹配算法正则表达式判断资源中是否包含关键词，匹配到关键词为每个关键词定义评分。

6.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：根据关键词匹配的结果，将资源依次归类到对应的子分类，归类资源后，更新分类树的节点信息，记录每个分类下的资源数量、关键词匹配度等信息，每个子分类，递归地应用相同算法，资源继续进行关键词匹配和层级划分，所有资源处理并归类，分类结束。

7.根据权利要求6所述的基于信息技术的远端资源整理服务系统，其特征在于：递归处理子分类获取当前分类的子分类列表，遍历子分类列表，递归处理完成后，返回最终的分类树；

远程资源数据分类计算公式：

远程资源＝∑((资源重要度x分类权重)/资源距离)；

资源递归关键词匹配和层级划分，拟定算法公式：

匹配度＝∑(关键词权重x匹配系数)/关键词总权重；

8.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：定期更新分类系统的训练数据集，添加新的资源和删除过时的资源，定期评估分类系统的算法性能，准确率、召回率指标。

9.根据权利要求1所述的基于信息技术的远端资源整理服务系统，其特征在于：针对不同类型的资源，可以采用不同的分类策略，文本资源使用文本分类算法，图像资源使用图像识别算法。

10.根据权利要求1-9所述的任意一项基于信息技术的远端资源整理服务方法，其特征在于：用户可以通过上传文件、分享链接等方式将需要整理的资源添加到系统中，系统也可以通过爬虫技术从互联网上收集资源，系统可以根据资源的类型、关键词、标签等属性进行自动分类，并将其分配到相应的分类中，系统可以为资源添加标签或描述，以便用户更好地搜索和识别资源，可以使用关键词提取、文本摘要等技术来生成标签或描述，系统提供了资源的搜索功能，用户可以通过关键词、标签等方式快速找到自己需要的资源，可以使用搜索引擎技术来实现高效的资源搜索，用户可以将整理好的资源分享给其他用户，可以通过生成分享链接、发送资源给特定用户等方式进行资源分享。