CN117763109A

CN117763109A - 一种用于档案全文检索的数据核查方法

Info

Publication number: CN117763109A
Application number: CN202311776425.7A
Authority: CN
Inventors: 曾凯; 匡振博; 吴宏丽
Original assignee: Hunan Lingzhong Archives Management Co ltd
Current assignee: Hunan Lingzhong Archives Management Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-26
Anticipated expiration: 2043-12-21
Also published as: CN117763109B

Abstract

本发明涉及全文检索技术领域，尤其涉及一种用于档案全文检索的数据核查方法。该方法包括以下步骤：获取原始档案数据；对原始档案数据进行关键词索引生成，从而获取原始档案索引数据；获取查询关键词数据，并对查询关键词数据进行意图识别，从而获取查询意图数据；根据查询关键词数据以及原始档案索引数据进行第一关键词拟合，从而获取第一原始档案查询数据；根据查询意图数据对原始档案数据进行第二关键词拟合，从而获取第二原始档案查询数据。本发明能够提前预加载档案信息化副本数据，通过分析关键词后将结果进行匹配缓存，为后续利用提供数据支撑。

Description

一种用于档案全文检索的数据核查方法

技术领域

本发明涉及全文检索技术领域，尤其涉及一种用于档案全文检索的数据核查方法。

背景技术

档案全文检索的数据核查方法是指在进行档案检索时，通过对数据进行核查、验证和分析，以确保检索结果的准确性、完整性和可靠性的一系列技术和方法。传统的全文检索方法往往只是通过简单的关键词提取并匹配，通常不能理解搜索查询的上下文，因此会返回一些与查询相关性较低的结果。

发明内容

本发明为解决上述技术问题，提出了一种用于档案全文检索的数据核查方法，以解决至少一个上述技术问题。

本申请提供了一种用于档案全文检索的数据核查方法，包括以下步骤：

步骤S1：获取原始档案数据；

步骤S2：对原始档案数据进行关键词索引生成，从而获取原始档案索引数据；

步骤S3：获取查询关键词数据，并对查询关键词数据进行意图识别，从而获取查询意图数据；

步骤S4：根据查询关键词数据以及原始档案索引数据进行第一关键词拟合，从而获取第一原始档案查询数据；

步骤S5：根据查询意图数据对原始档案数据进行第二关键词拟合，从而获取第二原始档案查询数据。

本发明中通过使用关键词索引和意图识别，能够更准确地理解用户的查询意图，从而提高了检索结果的精度，确保用户能够获取到与其需求最为匹配的档案数据。通过在步骤S2中生成关键词索引，可以加速查询过程，减少用户等待的时间，提升了检索的效率。通过意图识别和关键词拟合的方式，可以使得系统更智能地理解用户的查询，从而提升了用户体验，使得查询过程更加便捷、快速。通过意图识别和关键词拟合，可以根据用户的实际查询需求进行个性化的查询，从而满足不同用户的特定需求。用户只需提供简洁明了的查询关键词，系统就能够根据意图进行智能匹配，减少了用户操作的复杂度。通过意图识别等技术，使得系统能够自动理解用户的查询目的，从而提升了系统的智能化水平。

优选地，步骤S1具体为：

步骤S11：获取档案数据源链接数据；

步骤S12：根据档案数据源链接数据进行档案原始数据采集并进行档案原始数据清洗，从而获取档案原始数据源数据；

步骤S13：根据档案原始数据源数据进行档案数据归类，从而获取档案分类数据；

步骤S14：对档案分类数据进行聚类计算，从而获取档案分类聚类数据；

步骤S15：根据档案分类聚类数据对档案分类数据进行数据分块处理，从而获取原始档案数据。

本发明中通过获取档案数据源的链接信息，可以直接从数据源获取原始档案数据，避免了手动输入或者复制粘贴的繁琐步骤，提高了数据的准确性和完整性。通过自动化的方式进行档案原始数据的采集和清洗，可以大幅度提高数据处理的效率，同时保证数据的质量和一致性。自动将原始数据进行分类，使得后续处理更有针对性，减少了人工分类的工作量，提升了处理效率。通过聚类计算，将相似的档案数据归为一类，使得检索过程更为高效，同时也为后续的数据分段分块处理提供了基础。将档案数据按照一定的规则进行分段和分块，提高了后续处理和索引生成的高效性，减少了大数据量处理的复杂度。

优选地，步骤S2具体为：

步骤S21：对原始档案数据进行关键词提取，从而获取关键词数据；

步骤S22：根据原始档案数据对关键词数据进行权重标记，从而获取关键词权重标记数据；

步骤S23：根据关键词权重标记数据生成索引生成策略数据；

步骤S24：根据索引生成策略数据对关键词权重标记数据进行关键词索引生成，从而获取原始档案索引数据。

本发明中通过步骤S21和步骤S22，将关键词提取和权重标记与原始档案数据直接结合，有效提高了关键词索引的准确性和效率。步骤S22中，根据原始档案数据进行关键词的权重标记，可以更准确地反映出关键词的重要性，从而优化了索引的生成过程。步骤S23中，根据关键词权重标记数据生成索引生成策略，能够根据实际情况动态调整索引生成的策略，提高了索引的生成效率和准确性。通过步骤S24，只对经过权重标记且符合索引生成策略的关键词数据进行索引生成，避免了对无关数据的不必要处理，减少了系统资源的浪费。优化的索引生成策略和关键词权重标记能够提高检索速度，使得用户能够更快速地获取到所需的档案信息。

优选地，权重标记包括历史搜索频次权重标记以及功能分类权重标记，关键词权重标记数据包括第一关键词权重标记数据以及第二关键词权重标记数据，步骤S22具体为：

步骤S221：根据原始档案数据对应的原始档案搜索记录数据对关键词数据进行历史搜索频次计算，从而获取历史搜索频次权重数据；

步骤S222：根据历史搜索频次权重数据对关键词数据进行历史搜索频次权重标记，从而获取第一关键词权重标记数据；

步骤S223：根据原始档案数据对应的档案种类数据对关键词数据进行功能分类权重标记，从而获取第二关键词权重标记数据。

本发明中通过根据原始档案数据对应的原始档案搜索记录数据计算历史搜索频次，可以为关键词赋予与其历史搜索频次相关的权重，从而优化了关键词的权重标记过程。通过根据原始档案数据对应的档案种类数据进行功能分类权重标记，可以为关键词赋予与其所属档案种类相关的权重，使得档案种类信息在权重标记中得到了有效的利用。结合了历史搜索频次和功能分类信息，可以为不同关键词赋予个性化的权重，使得权重标记更加贴合用户的实际需求。通过在权重标记中考虑历史搜索频次和功能分类信息，能够使得关键词的权重更为准确地反映其在档案中的重要程度，从而提升了关键词的匹配准确性。结合了历史搜索频次和功能分类信息进行权重标记，使得系统能够根据用户的实际查询行为进行智能化的权重赋值，从而提高了系统的智能化水平。

优选地，查询意图数据包括关联功能查询意图数据以及历史相似度查询意图数据，步骤S3具体为：

步骤S31：获取查询关键词数据；

步骤S32：对查询关键词数据进行用户输入解析，从而获取查询关键词解析数据；

步骤S33：对查询关键词解析数据进行权重计算，从而获取查询关键词权重数据；

步骤S34：对查询关键词权重数据进行意图识别，从而获取初步查询意图识别数据；

步骤S35：对原始档案索引数据进行正态分布计算，从而获取索引正态分布特征数据；

步骤S36：根据索引正态分布特征数据以及初步查询意图识别数据进行关联程度提取，从而获取关联程度数据；

步骤S37：根据关联程度数据对初步查询意图识别数据进行关联优化，从而获取关联功能查询意图数据；

步骤S38：获取历史查询意图识别数据，并根据历史查询意图识别数据对初步查询意图识别数据进行意图识别优化，从而获取历史相似度查询意图数据。

本发明中能够更全面地理解用户的查询意图，从而提升了查询结果的准确性。引入了关联程度数据，通过对初步查询意图识别数据进行关联优化，从而获取关联功能查询意图数据。这使得系统能够更准确地理解用户的查询目的，提供更具针对性的查询结果。根据历史查询意图识别数据对初步查询意图识别数据进行意图识别优化，从而获取历史相似度查询意图数据。这使得系统能够考虑到用户过去的查询行为，为用户提供更为个性化的查询结果。通过对原始档案索引数据进行正态分布计算，获取索引正态分布特征数据，使得系统能够更准确地衡量索引的分布情况，为关联程度的提取提供了重要依据。通过对查询意图的深度理解和考虑，能够为用户提供更符合其实际需求的查询结果，从而提升了用户的满意度和体验。

优选地，步骤S4具体为：

步骤S41：根据查询关键词数据以及原始档案索引数据进行关键词匹配，从而获取关键词匹配权重数据；

步骤S42：根据关键词匹配权重数据进行重要关键词特征提取以及衍生关联关键词特征提取，从而获取重要关键词特征数据以及衍生关联关键词特征数据；

步骤S43：根据重要关键词特征数据以及衍生关联关键词特征数据进行拟合模型构建，从而获取关键词拟合模型；

步骤S44：根据关键词拟合模型对原始档案数据进行档案数据筛选以及聚合，从而获取第一原始档案查询数据。

本发明中通过根据查询关键词数据以及原始档案索引数据进行关键词匹配，获取关键词匹配权重数据，从而提升了查询结果的匹配准确性。通过对关键词匹配权重数据进行特征提取，获取了重要关键词的特征数据，使得系统能够更准确地识别和提取与查询意图相关的关键词。除了提取重要关键词特征外，还通过衍生关联关键词特征的提取，获取了与重要关键词相关的衍生关联关键词特征数据，进一步丰富了关键词的特征信息。基于重要关键词特征数据以及衍生关联关键词特征数据，构建了关键词拟合模型，使得系统能够根据模型对原始档案数据进行筛选和聚合，提供更为精确的第一原始档案查询数据。通过引入拟合模型，可以更准确地根据关键词特征来筛选和聚合原始档案数据，从而提升了检索结果的精准度和匹配度。

优选地，步骤S5具体为：

步骤S51：根据查询意图数据进行关键词提取，从而获取查询意图关键词数据；

步骤S52：对查询意图关键词数据进行查询意图权重计算，从而获取查询意图关键词权重数据；

步骤S53：根据查询意图关键词权重数据以及原始档案数据进行关键词拟合映射，从而获取第二原始档案查询数据。

本发明中通过对查询意图的关键词进行提取和权重计算，有效地捕捉用户查询的核心内容，提高了查询的准确性。利用查询意图关键词的权重数据和原始档案数据进行拟合映射，使得查询结果更符合用户的实际需求，提升了检索的精确性和效率。充分利用了原始档案数据、查询意图数据等多个数据源，通过拟合映射等算法将这些信息综合起来，使得检索结果更加全面和准确。通过先进的索引生成算法和定期更新策略，保持了索引的实时性和准确性，提高了检索效率。在查询意图数据的处理中，不仅考虑了历史相似度，还充分考虑了与关联功能相关的信息，提升了检索结果的质量。

优选地，本申请还提供了一种用于档案全文检索的数据核查装置，用于执行如上所述的用于档案全文检索的数据核查方法，所述装置包括：

原始档案数据获取模块，用于获取原始档案数据；

关键词索引生成模块，用于对原始档案数据进行关键词索引生成，从而获取原始档案索引数据；

意图识别模块，用于获取查询关键词数据，并对查询关键词数据进行意图识别，从而获取查询意图数据；

第一关键词拟合模块，用于根据查询关键词数据以及原始档案索引数据进行第一关键词拟合，从而获取第一原始档案查询数据；

第二关键词拟合模块，用于根据查询意图数据对原始档案数据进行第二关键词拟合，从而获取第二原始档案查询数据。

优选地，本申请还提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的用于档案全文检索的数据核查方法。

优选地，本申请还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于档案全文检索的数据核查方法。

本发明的有益效果在于：通过整合原始档案数据、关键词索引、查询关键词数据以及意图识别结果，本方法实现了对多层信息的综合利用，从而可以全面理解用户的查询需求。通过第一关键词拟合和第二关键词拟合两个阶段，本方法实现了对查询意图的多层次匹配和拟合，从而提高了检索结果的精准度和符合度。第一关键词拟合结合了查询关键词和原始档案索引数据，通过关键词匹配提取了相关数据，使得第一阶段的查询更为准确。第二关键词拟合结合了查询意图数据，使得搜索结果更具针对性，可以更好地满足用户的个性化需求。由于第一关键词拟合已经进行了初步的匹配和筛选，第二关键词拟合的搜索范围相对较小，可以减少查询时间，提升检索速度。通过意图识别、关键词拟合等多层次的数据处理，使得查询结果更为精细化和符合用户实际需求。由于整个方法是基于多层次信息的综合利用，具有较强的适应性，可以适用于不同类型、规模的档案数据。本发明能够提前预加载档案信息化副本数据，通过分析关键词后将结果进行匹配缓存，为后续利用提供数据支撑，通过多层次的信息处理和拟合，使得系统能够全面理解用户的查询需求，并提供更为精准、符合实际需求的查询结果，从而显著提升了搜索效率和用户满意度。

附图说明

通过阅读参照以下附图所作的对非限制性实施所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了一实施例的用于档案全文检索的数据核查方法的步骤流程图；

图2示出了一实施例的步骤S1的步骤流程图；

图3示出了一实施例的步骤S2的步骤流程图；

图4示出了一实施例的步骤S22的步骤流程图；

图5示出了一实施例的步骤S3的步骤流程图。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

请参阅图1至图5，本申请提供了一种用于档案全文检索的数据核查方法，包括以下步骤：

步骤S1：获取原始档案数据；

具体地，例如利用网络爬虫技术从特定网站抓取档案数据，或者通过接口访问已有的档案数据库来获取数据。如使用Python编程语言，结合第三方库如requests和BeautifulSoup，编写网络爬虫程序，从指定网站抓取档案数据。

具体地，例如使用全文搜索引擎技术，如Elasticsearch，将获取到的原始档案数据进行索引化处理，生成关键词索引数据。

具体地，例如使用自然语言处理库，如NLTK(Natural Language Toolkit)或者Spacy，对用户输入的查询进行分词、词性标注、实体识别等处理，以获取具体的查询关键词和意图。

具体地，例如基于TF-IDF(Term Frequency-Inverse Document Frequency)算法，计算查询关键词和索引数据之间的相似度，选取相似度最高的档案作为第一原始档案查询数据。

具体地，例如利用机器学习算法，如支持向量机(SVM)或者神经网络，根据查询意图数据训练模型，对原始档案数据进行拟合，选取符合查询意图的档案作为第二原始档案查询数据。

具体地，例如从各个档案数据源(如历史文件、数据库等)中获取大量原始档案数据，包括文字、图片、音频等。针对获取到的原始档案数据，使用文本处理技术，如自然语言处理(NLP)技术，将每份档案中的关键信息提取出来，形成关键词索引。当用户输入查询时，将获取到的查询词进行解析(如基于地理位置的解析以及基于历史行为的解析，其中历史行为包括对于浏览器/应用软件对于搜索记录的解析)，了解用户的实际需求。例如，如果用户搜索“历史上的著名领袖”，通过NLP技术确定用户的查询意图是寻找历史上的重要领导人。基于用户的查询关键词和原始档案的索引数据，使用一个拟合模型来匹配用户的需求。例如，利用一个深度学习模型，通过训练使其了解不同关键词之间的关联，从而找到最匹配的原始档案数据。根据查询意图数据对原始档案数据进行第二关键词拟合，以确保返回的结果与用户的实际需求更加匹配。

优选地，步骤S1具体为：

步骤S11：获取档案数据源链接数据；

具体地，例如使用Python编程语言，结合requests库，访问特定网站的API，获取档案数据源链接数据。

具体地，例如使用Python编程语言，结合网络爬虫框架如Scrapy，根据获取到的链接采集档案数据，并使用正则表达式或BeautifulSoup等工具进行数据清洗。

具体地，例如使用自然语言处理技术，如文本分类算法，对档案原始数据进行分类，将其归类到相应的类别中。如使用文本分类算法，如朴素贝叶斯分类器或支持向量机，将文档分为不同的类别，如政治、文化、经济等。

具体地，例如将一份历史文献根据其中涉及的主题、时代等信息，归类到“政治”类别中。

具体地，例如使用聚类算法，如K均值聚类或层次聚类，对归类后的档案数据进行聚类计算，将相似的数据聚在一起。如使用K均值聚类算法，将政治类别下的文献进一步分成若干个簇，每个簇代表一个相似的子主题。假设在“政治”类别下，聚类出了两个簇：“古代政治制度”和“近现代政治运动”。

具体地，例如根据聚类结果，将相似的档案数据分成若干段或块，确保每个段或块包含相似的信息，以便后续的处理。如根据聚类的结果，系统将相似的文献分成若干段或块。例如，在“古代政治制度”簇中，系统可以将相关的文献分成不同的段落，每个段落包含一段时间内的政治制度信息。

优选地，步骤S2具体为：

具体地，例如对于一篇历史文献：“中国古代的政治制度”，经过关键词提取，我们可以得到关键词列表：["中国"，"古代"，"政治"，"制度"]。

具体地，例如对于关键词列表["中国","古代","政治","制度"]，根据算法计算得到对应的权重值，如{"中国":0.2,"古代":0.3,"政治":0.5,"制度":0.4}。

具体地，例如根据搜索频次进行简单标记，如设定多个阈值，并通过阈值进行判断，相应阈值的关键词对应相应的权重指数。

步骤S23：根据关键词权重标记数据生成索引生成策略数据；

具体地，例如基于权重标记数据，设定一个阈值，只选择权重高于阈值的关键词作为索引词，同时制定索引的存储结构，例如建立倒排索引表。

具体地，例如根据制定的索引生成策略，系统对关键词权重标记数据进行处理，生成用于检索的索引数据。如对于特定文献，根据索引策略，系统生成一个倒排索引表，其中记录了每个关键词对应的文档信息，如{"中国":[文献1,文献2],"古代":[文献1],"政治":[文献1,文献2],"制度":[文献1,文献2]}。

具体地，例如使用数据库查询语句，统计特定关键词在历史搜索记录中出现的次数，得到一个数值作为历史搜索频次权重数据。

具体地，例如如果历史搜索频次权重数据超过某一设定阈值，将该关键词标记为高频次关键词，否则标记为低频次关键词。如关键词列表：["人工智能","数据分析","机器学习","大数据","云计算"]，以及对应的历史搜索频次数据："人工智能":500次；"数据分析":300次；"机器学习":200次；"大数据":100次；"云计算":50次，设定阈值为200次，超过阈值的关键词将被标记为高频次关键词。根据历史搜索频次权重数据，系统将关键词标记如下："人工智能":高频次关键词，"数据分析":高频次关键词，"机器学习":高频次关键词，"大数据":低频次关键词，"云计算":低频次关键词，得到了第一关键词权重标记数据。

具体地，例如根据档案的功能分类体系，将关键词与相应的功能分类进行关联，从而为每个关键词赋予一个功能分类权重标记。如对于技术档案室对应的原始档案数据中关于技术类别的原始档案数据的权重值标记为更高的权重数据。一个关键词列表：["人工智能","数据分析","机器学习","大数据","云计算"]，以及对应的档案种类数据："人工智能":技术类，"数据分析":技术类，"机器学习":技术类，"大数据":技术类，"云计算":技术类，在这个例子中，所有关键词都属于技术类别。根据档案的功能分类体系，将所有关键词标记为高权重，因为它们都属于技术类别。因此，得到了第二关键词权重标记数据。

步骤S31：获取查询关键词数据；

具体地，例如用户通过应用程序界面输入查询关键词，例如输入"人工智能技术"。

具体地，例如使用自然语言处理技术，将用户输入的查询关键词解析成可理解的结构，例如将"人工智能技术"解析成关键词"人工智能"和"技术"。

具体地，例如根据特定算法和模型，计算每个查询关键词的权重，例如"人工智能"和"技术"的权重分别为0.8和0.7。如一个查询关键词解析数据，包含以下关键词和对应的信息："人工智能"-类别:技术、频次:3次，"技术"-类别:技术、频次:5次，"数据分析"-类别:技术、频次:2次，"艺术"-类别:文化、频次:1次，采用以下权重计算方法：权重计算公式：W＝频次×类别权重/总频次，假设设定技术类别的权重为0.6，文化类别的权重为0.4。则："人工智能"的权重计算为：W＝3×0.6/(3+5+2+1)＝0.18，"技术"的权重计算为：W＝5×0.6/(3+5+2+1)＝0.3，"数据分析"的权重计算为：W＝2×0.6/(3+5+2+1)＝0.12，"艺术"的权重计算为：W＝1×0.4/(3+5+2+1)＝0.04。

具体地，例如基于预先训练好的模型，识别用户查询意图，例如将"人工智能"和"技术"解释为用户想要了解人工智能技术的最新发展。其中基于预先训练好的模型通过长短时空神经网络模型构建，通过获取历史查询数据进行特征提取，从而获取历史查询特征数据进行构建，并对构建后的模型进行标注，从而获取预先训练好的模型。

具体地，例如使用统计学方法，对索引数据进行正态分布拟合，得到特定查询意图下的正态分布特征数据。

具体地，例如使用相关性算法，计算查询关键词与档案索引的关联程度，得到一个关联度数值。如初步查询意图识别数据：用户查询意图是"了解人工智能技术的最新发展"。索引正态分布特征数据：在索引中，与"人工智能"相关的特征值较高，与"技术"相关的特征值次之。系统使用相关性算法计算查询关键词与档案索引的关联程度，其中相关性算法为，得到一个关联度数值：关联度数值为0.85(范围：0到1，1表示高度关联)。相关性算法如：S＝A*B/(|A|*|B|)，其中S为关联度数据，A为查询关键词，B为档案索引。

具体地，例如使用相关性算法，计算查询关键词与档案索引的关联程度，得到一个关联度数值。基于关联度数据，对初步查询意图识别数据进行关联优化。如由于关联度高，保留了原始的初步查询意图；对于关联度低的数据，则使用模糊搜索算法来放宽关键词匹配的限制，以便匹配到更多相关的档案。

更为重要地是，根据关联程度数据对初步查询意图识别数据进行关联度计算，从而获取关联度数据；确定关联度数据大于或等于预设的关联度数据时，则将初步查询意图识别数据确定为关联功能查询意图数据；确定关联度数据小于预设的关联度数据时，则对查询关键词数据进行误差检测，从而获取输入误差检测数据；确定输入误差检测数据为无误差检测数据时，则对查询关键词数据进行同义映射，从而获取同义映射数据，并根据同义映射数据进行关联意图识别，从而获取关联功能意图数据；确定输入误差检测数据为有误差检测数据时，则对查询关键词数据进行近似匹配，从而获取近似匹配数据，并根据近似匹配数据进行关联意图识别，从而获取关联功能意图数据，其中关联意图识别包括意图识别并关联提取。

具体地，例如基于历史数据的分析，对初步识别的查询意图进行修正和优化，以确保它与历史查询意图相匹配。

优选地，步骤S4具体为：

具体地，例如使用TF-IDF(词频-逆文档频率)算法，对查询关键词与档案索引中的关键词进行匹配，得到匹配权重数据。

具体地，例如基于匹配权重数据，提取查询中最关键的词作为重要关键词特征，同时提取与之相关的词作为衍生关联关键词特征。

具体地，例如使用机器学习算法如逻辑回归、随机森林等，将提取的特征作为输入，构建一个模型来预测档案数据的相关性。

具体地，例如根据拟合模型的结果，对原始档案数据进行筛选并进行聚合，得到第一原始档案查询数据。

优选地，步骤S5具体为：

具体地，例如使用自然语言处理技术，如分词算法，从查询意图中提取出关键词。

具体地，例如使用某种算法，比如TF-IDF，计算查询意图关键词的权重。

具体地，例如使用线性回归或其他拟合算法，将查询意图关键词的权重与原始档案数据进行映射，得到第二原始档案查询数据。

原始档案数据获取模块，用于获取原始档案数据；

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

通过整合原始档案数据、关键词索引、查询关键词数据以及意图识别结果，本方法实现了对多层信息的综合利用，从而可以全面理解用户的查询需求。通过第一关键词拟合和第二关键词拟合两个阶段，本方法实现了对查询意图的多层次匹配和拟合，从而提高了检索结果的精准度和符合度。第一关键词拟合结合了查询关键词和原始档案索引数据，通过关键词匹配提取了相关数据，使得第一阶段的查询更为准确。第二关键词拟合结合了查询意图数据，使得搜索结果更具针对性，可以更好地满足用户的个性化需求。由于第一关键词拟合已经进行了初步的匹配和筛选，第二关键词拟合的搜索范围相对较小，可以减少查询时间，提升检索速度。通过意图识别、关键词拟合等多层次的数据处理，使得查询结果更为精细化和符合用户实际需求。由于整个方法是基于多层次信息的综合利用，具有较强的适应性，可以适用于不同类型、规模的档案数据。本发明能够提前预加载档案信息化副本数据，通过分析关键词后将结果进行匹配缓存，为后续利用提供数据支撑，通过多层次的信息处理和拟合，使得系统能够全面理解用户的查询需求，并提供更为精准、符合实际需求的查询结果，从而显著提升了搜索效率和用户满意度。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附申请文件而不是上述说明限定，因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于档案全文检索的数据核查方法，其特征在于，包括以下步骤：

步骤S1：获取原始档案数据；

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

步骤S11：获取档案数据源链接数据；

3.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

步骤S23：根据关键词权重标记数据生成索引生成策略数据；

4.根据权利要求3所述的方法，其特征在于，权重标记包括历史搜索频次权重标记以及功能分类权重标记，关键词权重标记数据包括第一关键词权重标记数据以及第二关键词权重标记数据，步骤S22具体为：

5.根据权利要求1所述的方法，其特征在于，查询意图数据包括关联功能查询意图数据以及历史相似度查询意图数据，步骤S3具体为：

步骤S31：获取查询关键词数据；

6.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

7.根据权利要求1所述的方法，其特征在于，步骤S5具体为：

8.一种用于档案全文检索的数据核查装置，其特征在于，用于执行如权利要求1所述的用于档案全文检索的数据核查方法，所述装置包括：

原始档案数据获取模块，用于获取原始档案数据；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的用于档案全文检索的数据核查方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的用于档案全文检索的数据核查方法。