CN118193682A

CN118193682A - 关键词匹配方法、计算机程序产品及存储介质

Info

Publication number: CN118193682A
Application number: CN202410588807.5A
Authority: CN
Inventors: 古俊贤
Original assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2024-05-13
Filing date: 2024-05-13
Publication date: 2024-06-14
Anticipated expiration: 2044-05-13
Also published as: CN118193682B

Abstract

本发明公开了一种关键词匹配方法、计算机程序产品及存储介质。其中，该方法包括：获取基准文档和待匹配文档；对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。本发明解决了现有的关键词搜索匹配方法无法给出用户模糊搜索需求对应的搜索结果、无法满足用户的关键词比较需求的技术问题。

Description

关键词匹配方法、计算机程序产品及存储介质

技术领域

本发明涉及电力数据处理技术领域，具体而言，涉及一种关键词匹配方法、计算机程序产品及存储介质。

背景技术

人工智能领域等技术的发展，对基础数据正确性的维护、管理有明显的需求。但数据正确性问题零散，隐蔽性、随机性明显，要排查根治有难度，再加上社会发展加速，牟定标准变动大，台账、文稿等变化管理频繁，数据勘误管理对一线生产工作者形成巨大的工作负担，并导致最终完成质量可能存在人为问题的瑕疵，同时对基础数据管理的质量形成巨大挑战。

目前基础数据比较、勘误工作（如台账、文稿）实现方案主要通过输入待勘误关键词进行搜索，再对关键词搜索结果进行二次人工修正，其中，搜索关键词内容是唯一的，由用户主动输入。例如，对“广州变电站”进行搜索，用户需要输入该关键词从而搜索出带有该关键词的内容，再延伸搜索找到数据库中分别与关键词“广州”或关键词“变电站”相关的内容，然后，用户对搜索得到的内容进行人工二次整理、比较。若搜索结果未满足用户要求，目前的搜索方案将进一步对关键词“广州变电站”进行延伸搜索，搜索出选取与其中部分字段相关的内容，用户可根据需要进行再整理、比较。当比较数据量较大时，用户工作量巨大导致效率低下且错误率高。

此外，现有技术满足针对“点对点”的用户搜索需求，当用户搜索关键词需求模糊，或对搜索结果存在比较需求时，由于搜索出来的结果其比较指向不确定的，导致现有技术难以满足用户需求。例如，对数据格式作特定的处理时，现有的搜索工作只能对特定格式的特定数据进行处理，无法对通用格式数据开展模糊搜索与精确比较的处理。

由上分析可知，针对上述现有的关键词搜索匹配方法无法给出用户模糊搜索需求对应的搜索结果、无法满足用户的关键词比较需求的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种关键词匹配方法、计算机程序产品及存储介质，以至少解决现有的关键词搜索匹配方法无法给出用户模糊搜索需求对应的搜索结果、无法满足用户的关键词比较需求的技术问题。

根据本发明实施例的一个方面，提供了一种关键词匹配方法，包括：

获取基准文档和待匹配文档；对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。

可选地，对基准文档进行模糊搜索处理，得到基准数据合集包括：利用文档解释器对基准文档进行分析处理，生成第一分块信息，其中，第一分块信息用于表征基准文档的结构和语义；将第一分块信息中的多个分块字串逐一输入至人工智能大模型，输出基准上下文信息；根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集。

可选地，根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集包括：在基准上下文信息中定位需求关键词，得到第一定位结果，其中，第一定位结果用于确定需求关键词在基准上下文信息中的位置；根据第一定位结果，将基准上下文信息划分为基准上文信息和基准下文信息；基于需求关键词库和基准上文信息进行关键词衍生，得到第一衍生词库，其中，需求关键词库为需求关键词所在的词库；根据预设条件对第一衍生词库中任意一个衍生关键词进行合理性分析，得到第一分析结果；响应依据第一分析结果确定任意一个衍生关键词满足预设条件，在基准下文信息中对任意一个衍生关键词进行搜索和匹配，得到基准数据组，其中，第一衍生词库中满足预设条件的衍生关键词对应的基准数据组的集合构成基准数据合集。

可选地，上述关键词匹配方法还包括：对基准数据合集中的基准数据组进行整理与排序，得到第一排序结果；按照目标文件格式导出第一排序结果。

可选地，对待匹配文档进行模糊搜索处理，得到目标数据合集包括：利用文档解释器对待匹配文档进行分析处理，生成第二分块信息，其中，第二分块信息用于表征待匹配文档的结构和语义；将第二分块信息中的多个分块字串逐一输入至人工智能大模型，输出目标上下文信息；根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集。

可选地，根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集包括：在目标上下文信息中定位需求关键词，得到第二定位结果，其中，第二定位结果用于确定需求关键词在目标上下文信息中的位置；根据第二定位结果，将目标上下文信息划分为目标上文信息和目标下文信息；基于需求关键词库和目标上文信息进行关键词衍生，得到第二衍生词库；根据预设条件对第二衍生词库中任意一个衍生关键词进行合理性分析，得到第二分析结果；响应依据第二分析结果确定任意一个衍生关键词满足预设条件，在目标下文信息中对任意一个衍生关键词进行搜索和匹配，得到目标数据组，其中，第二衍生词库中满足预设条件的衍生关键词对应的目标数据组的集合构成目标数据合集。

可选地，上述关键词匹配方法还包括：对目标数据合集中的目标数据组进行整理与排序，得到第二排序结果；按照目标文件格式导出第二排序结果。

可选地，匹配结果包括多个差异状况数组，对基准数据合集与目标数据合集进行匹配，得到匹配结果包括：提取目标数据合集的多个目标数据组；将任意一个目标数据组拆分为数据名称和第一数据数值，其中，数据名称与第一衍生词库中的衍生关键词相同；在基准数据合集中对数据名称进行搜索，得到搜索结果；响应依据搜索结果确定基准数据合集中存在数据名称，将第一数据数值与第二数据数值进行比较，得到比较结果，其中，第二数据数值为基准数据合集中数据名称对应的数据数值；根据搜索结果和比较结果确定目标数据组对应的差异状况数组，以及，将多个差异状况数组进行汇总与整理，得到匹配结果。

可选地，根据搜索结果和比较结果确定目标数据组对应的差异状况数组包括：响应依据搜索结果确定基准数据合集中不存在数据名称，将数据名称汇总至差异状况数组；响应于比较结果确定第一数据数值与第二数据数值不同，将数据名称汇总至差异状况数组。

可选地，上述关键词匹配方法还包括：按照目标文件格式导出多个差异状况数组。

根据本发明实施例的另一方面，还提供了一种关键词匹配装置，包括：

获取模块，用于获取基准文档和待匹配文档；处理模块，用于对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；匹配模块，用于对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。

可选地，上述处理模块包括：对基准文档进行模糊搜索处理，得到基准数据合集包括：利用文档解释器对基准文档进行分析处理，生成第一分块信息，其中，第一分块信息用于表征基准文档的结构和语义；将第一分块信息中的多个分块字串逐一输入至人工智能大模型，输出基准上下文信息；根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集。

可选地，上述处理模块包括：根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集包括：在基准上下文信息中定位需求关键词，得到第一定位结果，其中，第一定位结果用于确定需求关键词在基准上下文信息中的位置；根据第一定位结果，将基准上下文信息划分为基准上文信息和基准下文信息；基于需求关键词库和基准上文信息进行关键词衍生，得到第一衍生词库，其中，需求关键词库为需求关键词所在的词库；根据预设条件对第一衍生词库中任意一个衍生关键词进行合理性分析，得到第一分析结果；响应依据第一分析结果确定任意一个衍生关键词满足预设条件，在基准下文信息中对任意一个衍生关键词进行搜索和匹配，得到基准数据组，其中，第一衍生词库中满足预设条件的衍生关键词对应的基准数据组的集合构成基准数据合集。

可选地，上述关键词匹配装置还包括：第一导出模块，用于对基准数据合集中的基准数据组进行整理与排序，得到第一排序结果；按照目标文件格式导出第一排序结果。

可选地，上述处理模块包括：对待匹配文档进行模糊搜索处理，得到目标数据合集包括：利用文档解释器对待匹配文档进行分析处理，生成第二分块信息，其中，第二分块信息用于表征待匹配文档的结构和语义；将第二分块信息中的多个分块字串逐一输入至人工智能大模型，输出目标上下文信息；根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集。

可选地，上述处理模块包括：根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集包括：在目标上下文信息中定位需求关键词，得到第二定位结果，其中，第二定位结果用于确定需求关键词在目标上下文信息中的位置；根据第二定位结果，将目标上下文信息划分为目标上文信息和目标下文信息；基于需求关键词库和目标上文信息进行关键词衍生，得到第二衍生词库；根据预设条件对第二衍生词库中任意一个衍生关键词进行合理性分析，得到第二分析结果；响应依据第二分析结果确定任意一个衍生关键词满足预设条件，在目标下文信息中对任意一个衍生关键词进行搜索和匹配，得到目标数据组，其中，第二衍生词库中满足预设条件的衍生关键词对应的目标数据组的集合构成目标数据合集。

可选地，上述关键词匹配装置还包括：第二导出模块，用于对目标数据合集中的目标数据组进行整理与排序，得到第二排序结果；按照目标文件格式导出第二排序结果。

可选地，上述匹配模块包括：匹配结果包括多个差异状况数组，对基准数据合集与目标数据合集进行匹配，得到匹配结果包括：提取目标数据合集的多个目标数据组；将任意一个目标数据组拆分为数据名称和第一数据数值，其中，数据名称与第一衍生词库中的衍生关键词相同；在基准数据合集中对数据名称进行搜索，得到搜索结果；响应依据搜索结果确定基准数据合集中存在数据名称，将第一数据数值与第二数据数值进行比较，得到比较结果，其中，第二数据数值为基准数据合集中数据名称对应的数据数值；根据搜索结果和比较结果确定目标数据组对应的差异状况数组，以及，将多个差异状况数组进行汇总与整理，得到匹配结果。

可选地，上述匹配模块包括：根据搜索结果和比较结果确定目标数据组对应的差异状况数组包括：响应依据搜索结果确定基准数据合集中不存在数据名称，将数据名称汇总至差异状况数组；响应于比较结果确定第一数据数值与第二数据数值不同，将数据名称汇总至差异状况数组。

可选地，上述关键词匹配装置还包括：第三导出模块，用于按照目标文件格式导出多个差异状况数组。

根据本发明实施例的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现前述中任一项的方法。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时实现前述中任一项的方法。

在本发明实施例中，先获取基准文档和待匹配文档，接着，对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集，最后对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。通过根据用户预先确定的需求关键词，对基准文档和待匹配文档均进行模糊搜索处理，在对模糊搜索处理过程中进行关键词衍生得到的基准数据合集和目标数据合集进行匹配形成差异状况数组，达到了合理推测用户的关键词需求以及满足用户进行关键词匹配的需求的目的，从而实现了扩大关键词范围、满足用户的关键词匹配需求的技术效果，进而解决了现有的关键词搜索匹配方法无法给出用户模糊搜索需求对应的搜索结果、无法满足用户的关键词比较需求的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的用于关键词匹配方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种关键词匹配方法的流程图；

图3是根据本发明实施例的一种可选的关键词匹配过程的示意图；

图4是根据本发明实施例的一种模糊搜索处理过程的示意图；

图5是根据本发明实施例的一种关键词匹配过程的示意图；

图6是根据本发明实施例的一种关键词匹配装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种关键词匹配方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的用于关键词匹配方法的移动终端的硬件结构框图，如图1所示，移动终端10（或移动设备10）可以包括一个或多个处理器102（处理器102可以包括但不限于微处理器（Microcontroller Unit，MCU）或可编程逻辑器件（FieldProgrammable Gate Array，FPGA）等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输设备106。除此以外，还可以包括：显示设备110、输入/输出设备108（即I/O设备）、通用串行总线（Universal Serial Bus，USB）端口（可以作为计算机总线的端口中的一个端口被包括，图中未示出）、网络接口（图中未示出）、电源（图中未示出）和/或相机（图中未示出）。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端10的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到移动终端10（或移动设备10）中的其他元件中的任意一个内。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的关键词匹配方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的关键词匹配方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本发明实施例提供了如图2所示的关键词匹配方法，图2是根据本发明实施例的一种关键词匹配方法的流程图，该方法包括如下实施步骤：

步骤S201，获取基准文档和待匹配文档；

步骤S202，对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；

步骤S203，对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。

上述基准文档为关键词匹配任务的对照标准，上述待匹配文档为用户期望的与前述对照标准进行比较处理的文档。上述模糊搜索处理至少能够根据用户需求对基准文档和待匹配文档进行关键词衍生，并自主判断衍生关键词的合理性，从而得到基准文档对应的基准数据合集、待匹配文档对应的目标数据合集。

上述差异状况至少可以包括存在于目标数据合集但不存在于基准数据合集中的数据、目标数据合集与基准数据合集中数据名称相同但数据数值不同的数据。

图3是根据本发明实施例的一种可选的关键词匹配过程的示意图，如图3所示，本发明提供的关键词匹配方法可以由对应的关键词匹配系统执行，具体地：在用户选定基准文档后，将基准文档和待匹配文档输入至该关键词匹配系统，系统分别对基准文档和待匹配文档进行模糊搜索处理，以将基准文档转换为基准数据合集、将待匹配文档转换为目标数据合集，进一步地，为了满足用户的关键词比较需求，系统将目标数据合集中的每组数据与基准数据合集中的数据进行匹配，根据匹配结果形成差异状况数据合集。

下面对本发明实施例的上述方法进行进一步介绍。

在一种可选的实施例中，在步骤S202中，对基准文档进行模糊搜索处理，得到基准数据合集包括：

步骤S2211，利用文档解释器对基准文档进行分析处理，生成第一分块信息，其中，第一分块信息用于表征基准文档的结构和语义；

步骤S2212，将第一分块信息中的多个分块字串逐一输入至人工智能大模型，输出基准上下文信息；

步骤S2213，根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集。

其中，在步骤S2213中，根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集包括：

步骤S2214，在基准上下文信息中定位需求关键词，得到第一定位结果，其中，第一定位结果用于确定需求关键词在基准上下文信息中的位置；

步骤S2215，根据第一定位结果，将基准上下文信息划分为基准上文信息和基准下文信息；

步骤S2216，基于需求关键词库和基准上文信息进行关键词衍生，得到第一衍生词库，其中，需求关键词库为需求关键词所在的词库；

步骤S2217，根据预设条件对第一衍生词库中任意一个衍生关键词进行合理性分析，得到第一分析结果；

步骤S2218，响应依据第一分析结果确定任意一个衍生关键词满足预设条件，在基准下文信息中对任意一个衍生关键词进行搜索和匹配，得到基准数据组，其中，第一衍生词库中满足预设条件的衍生关键词对应的基准数据组的集合构成基准数据合集。

以下结合图4对上述方法进行进一步说明。

图4是根据本发明实施例的一种模糊搜索处理过程的示意图，如图4所示，将基准文档输入关键词匹配系统后，系统里有配置的文档解释器对基准文档进行分析处理，并根据分析结果对基准文档进行分块处理，得到第一分块信息。需要说明的是，分析处理可以包括但不限于：结构分析，即分析文档结构，包括标题、段落、列表、表格等组成部分的识别与分析；语义分析，即分析文档中语义信息，包括词性标注、命名实体识别等；主题分析，即识别文档的主题或关键信息。

作为一种可选的实施方式，根据基准文档的结构和语义信息，将基准文档划分为若干个块，从而得到上述第一分块信息，第一分块信息中每个块可以对应基准文档中的一个结构单元或者语义单元。

依然如图4所示，进一步地，对于第一分块信息中的多个分块字串，系统根据每个分块字串依次调用配置的人工智能（Artificial Intelligence，AI）大模型接口，并对生成的上下文信息进行累计，得到基准上下文信息，具体地：在第一次调用AI大模型接口时，根据输入的第一分块字串输出第一基准上下文信息，接着，将第一基准上下文信息和第二分块字串输入至AI大模型，输出得到第二基准上下文信息，依此步骤进行，将最后一个分块字串以及前一次输出得到的基准上下文信息输入至AI大模型，输出得到整个第一分块信息对应的基准上下文信息。

依然如图4所示，进一步地，对于用户预先确定的需求关键词，在基准上下文信息中对该需求关键词进行搜索与定位，根据该需求关键词在该基准上下文信息中的位置，将基准上下文信息划分为基准上文信息和基准下文信息，接着，根据需求关键词和基准上文信息进行关键词衍生，例如：需求关键词为“负荷”和“费用”，结合基准上文信息中的词语或者词组，衍生得到“A站AB线路（或设备）负荷”、“C站CD线路（或设备）负荷”、“A站AB线路（或设备）费用”、“C站CD线路（或设备）费用”，此处可以理解的是，“A站AB线路（或设备）”以及“C站CD线路（或设备）”存在于基准上文信息中。

需要说明的是，在进行模糊搜索处理之前，用户可以在关键词匹配系统提供的需求确认界面上手动输入当前的需求关键词，或者，用户可以选定已有词库（例如：常用词库，可以是汇总的用户专业工作中的高频率专业术语）以将已有词库中的关键词作为需求关键词，又或者，用户可以同时手动输入需求关键词并选定已有词库，进一步地，可以根据输入的需求关键词或者选定的已有词库二者之一生成需求词库，以用于与AI大模型生成的基准上下文信息进行匹配、定位。

依然如图4所示，在得到衍生关键词后，AI大模型可以根据预设条件自动分析衍生关键词的合理性，预设条件可以包括但不限于：衍生关键词是否符合专业术语、衍生关键词是否符合用户的使用习惯。作为一种可选的实施方式，对于衍生关键词是否符合用户的使用习惯的合理性分析过程可以是：假设需求关键词为“线路”，基准上文信息包含“相对于佛山，中山片区的线路负荷同比增长更多”等语句，根据该需求关键词和该基准上文信息衍生得到“佛山线路”、“中山片区的线路”等关键词，但由于“佛山线路”不符合用户的专业使用习惯，在经过AI大模型的合理性分析后被删除。

依然如图4所示，进一步地，在基准下文信息中对满足预设条件的衍生关键词进行搜索匹配，并将该衍生关键词与搜索匹配结果（可以包含与衍生关键词一致的数据名称以及数据名称对应的数据数值）组合形成数据组，进而将所有的数据组形成基准数据合集。

在一种可选的实施例中，上述关键词匹配方法还包括：

步骤S2219，对基准数据合集中的基准数据组进行整理与排序，得到第一排序结果；

步骤S2220，按照目标文件格式导出第一排序结果。

上述目标文件格式可以是但不限于：excel类别文件格式、word类别文件格式。

作为一种可选的实施方式，对基准数据合集中的基准数据组进行整理的过程可以是：对于搜索匹配结果中存在数据名称和数据数值均相同的数据组，例如，搜索匹配结果中包含多个“C站10kV甲乙线路负荷200A”基准数据组，对该多个基准数据组进行自动去重，以在整理结果中保留一个“C站10kV甲乙线路负荷200A”基准数据组；对于搜索匹配结果中存在数据名称相同但数据数值不同的基准数据组，例如：搜索匹配结果同时出现“C站10kV甲乙线路负荷200A”和“C站10kV甲乙线路负荷3.46MW”，本发明不做去重处理，而是将搜索匹配结果得到的所有基准数据组均保留在基准数据合集中，以丰富基准数据合集中的数据、推测用户的多种潜在需求。

本发明可以根据预设排序规则对基准数据合集中的基准数据组进行排序，该预设排序规则可以是按照基准数据组中各个组成部分的权重对各个组成部分进行排序。作为一种可选的实施方式，基准数据组中多个组成部分包括汉字、符号、字母、数字，预设排序规则为按照数字、符号、字母、汉字的顺序进行排序，对于基准数据组中的多个汉字，可以按照汉字首字母先后顺序进行排序。

需要说明的是，本发明还可以根据用户的其他多种整理需求或者排序需求，对基准数据合集的基准数据组进行整理或排序，对于基准数据组进行整理与排序的方法，本发明不做具体限定。

在对基准数据合集中的基准数据组进行整理与排序，得到第一排序结果（即排序后的基准数据合集）后，按照目标文件格式导出该第一排序结果，以将该第一排序结果用于后续匹配过程。

在一种可选的实施例中，在步骤S202中，对待匹配文档进行模糊搜索处理，得到目标数据合集包括：

步骤S2221，利用文档解释器对待匹配文档进行分析处理，生成第二分块信息，其中，第二分块信息用于表征待匹配文档的结构和语义；

步骤S2222，将第二分块信息中的多个分块字串逐一输入至人工智能大模型，输出目标上下文信息；

步骤S2223，根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集。

其中，在步骤S2223中，根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集包括：

步骤S2224，在目标上下文信息中定位需求关键词，得到第二定位结果，其中，第二定位结果用于确定需求关键词在目标上下文信息中的位置；

步骤S2225，根据第二定位结果，将目标上下文信息划分为目标上文信息和目标下文信息；

步骤S2226，基于需求关键词库和目标上文信息进行关键词衍生，得到第二衍生词库；

步骤S2227，根据预设条件对第二衍生词库中任意一个衍生关键词进行合理性分析，得到第二分析结果；

步骤S2228，响应依据第二分析结果确定任意一个衍生关键词满足预设条件，在目标下文信息中对任意一个衍生关键词进行搜索和匹配，得到目标数据组，其中，第二衍生词库中满足预设条件的衍生关键词对应的目标数据组的集合构成目标数据合集。

本发明对于待匹配文档的模糊搜索处理过程也可以如图4所示，对于待匹配文档进行模糊搜索处理的具体步骤可以参考上述对于基准文档进行模糊搜索处理的步骤描述，此处不再赘述。

在一种可选的实施例中，上述关键词匹配方法还包括：

步骤S2229，对目标数据合集中的目标数据组进行整理与排序，得到第二排序结果；

步骤S2230，按照目标文件格式导出第二排序结果。

本发明对目标数据合集进行整理、排序与导出过程的具体步骤可以参考上述对于基准数据合集进行整理、排序、导出的步骤描述，此处不再赘述。

在一种可选的实施例中，在步骤S203中，匹配结果包括多个差异状况数组，对基准数据合集与目标数据合集进行匹配，得到匹配结果包括：

步骤S231，提取目标数据合集的多个目标数据组；

步骤S232，将任意一个目标数据组拆分为数据名称和第一数据数值，其中，数据名称与第一衍生词库中的衍生关键词相同；

步骤S233，在基准数据合集中对数据名称进行搜索，得到搜索结果；

步骤S234，响应依据搜索结果确定基准数据合集中存在数据名称，将第一数据数值与第二数据数值进行比较，得到比较结果，其中，第二数据数值为基准数据合集中数据名称对应的数据数值；

步骤S235，根据搜索结果和比较结果确定目标数据组对应的差异状况数组，以及，将多个差异状况数组进行汇总与整理，得到匹配结果。

其中，在步骤S235中，根据搜索结果和比较结果确定目标数据组对应的差异状况数组包括：

步骤S236，响应依据搜索结果确定基准数据合集中不存在数据名称，将数据名称汇总至差异状况数组；

步骤S237，响应于比较结果确定第一数据数值与第二数据数值不同，将数据名称汇总至差异状况数组。

以下结合图5对上述方法进行进一步说明。

图5是根据本发明实施例的一种关键词匹配过程的示意图，如图5所示，经过模糊搜索处理后，得到基准数据合集与目标数据合集，其中，目标数据合集中可以包含多个目标数据组（图5所示的目标数据组1、目标数据组2、…、目标数据组N），每个目标数据组可能包含M条数据，每条数据可以由数据名称（图5所示的数据名称1、2、…、M）及对应的数据数值（图5所示的数据数值1、2、…、M）构成，对于每条数据，在基准数据合集中搜索匹配数据名称，当在基准数据合集中搜索到与数据名称一致的数据时，匹配该数据名称在目标数据合集中对应的数据数值（图5所示的目标数据数值）与该数据名称在基准数据合集中对应的数据数值（图5所示的基准数据数值）是否相同，当二者相同时，在基准数据合集中搜索匹配目标数据组中下一个数据名称并比较对应的数据数值，依照前述步骤，遍历目标数据合集中的所有数据名称。

依然如图5所示，当基准数据合集中不存在目标数据组中的数据名称，或者基准数据数值与目标数据数值不相同时，将对应的数据名称存入与当前目标数据组对应的差异状况数组，当目标数据合集中的所有数据名称遍历完成后，汇总得到多个差异状况数组。

进一步地，可以按照用户预先确定的整理需求对多个差异状况数组进行整理，得到差异状况数据合集。作为一种可选的实施方式，用户预先确定的整理需求可以是无论目标数据合集中某个衍生关键词对应的数据名称是否存在于基准数据合集中，都将该某个衍生关键词相关的所有数据组（至少包括该衍生关键词对应的目标数据组）存入差异状况数据合集。作为另一种可选的实施方式，用户预先确定的整理需求可以是仅将目标数据合集与基准数据合集匹配一致的数据名称对应衍生关键词的所有数据组存入差异状况合集，而将目标数据合集中未匹配成功数据名称对应衍生关键词的相关数据组不存入差异状况合集。

需要说明的是，以上多个差异状况数组的整理方式仅为示例，在实际应用过程中，可以根据用户的实际需求调整多个差异状况数组的整理方式。

在一种可选的实施例中，上述关键词匹配方法还包括：

步骤S238，按照目标文件格式导出多个差异状况数组。

基于上述可选的实施例，当得到差异状况数据合集后，可以按照与基准数据合集、目标数据合集一致的目标文件格式，导出该差异状况数据合集，从而便于用户了解基准文档与待匹配文档的差异状况。

本发明上述实施例提供的关键词匹配方法通过结合配置的AI大模型，基于用户需求对基准文档和待匹配文档均进行关键词衍生，实现了对用户需求进行合理推测，从而能够解决因用户漏打需求关键词导致差异状况数据合集不满足用户需求且需要用户重复输入需求关键词的技术问题，也即，本发明提供的关键词匹配方法提高了衍生关键词的覆盖度，并且利用AI大模型自动分析衍生关键词的合理性，使得衍生关键词能够准确满足用户的需求，降低了用户反复人工操作产生的成本，提高了关键词匹配效率。

在本实施例中，还提供了一种关键词匹配装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，属于“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的一种关键词匹配装置的结构框图，如图6所示，该装置包括：

获取模块601，用于获取基准文档和待匹配文档；

处理模块602，用于对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；

匹配模块603，用于对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。

可选地，上述处理模块602包括：对基准文档进行模糊搜索处理，得到基准数据合集包括：利用文档解释器对基准文档进行分析处理，生成第一分块信息，其中，第一分块信息用于表征基准文档的结构和语义；将第一分块信息中的多个分块字串逐一输入至人工智能大模型，输出基准上下文信息；根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集。

可选地，上述处理模块602包括：根据预先确定的需求关键词和基准上下文信息进行关键词衍生，得到基准数据合集包括：在基准上下文信息中定位需求关键词，得到第一定位结果，其中，第一定位结果用于确定需求关键词在基准上下文信息中的位置；根据第一定位结果，将基准上下文信息划分为基准上文信息和基准下文信息；基于需求关键词库和基准上文信息进行关键词衍生，得到第一衍生词库，其中，需求关键词库为需求关键词所在的词库；根据预设条件对第一衍生词库中任意一个衍生关键词进行合理性分析，得到第一分析结果；响应依据第一分析结果确定任意一个衍生关键词满足预设条件，在基准下文信息中对任意一个衍生关键词进行搜索和匹配，得到基准数据组，其中，第一衍生词库中满足预设条件的衍生关键词对应的基准数据组的集合构成基准数据合集。

可选地，上述关键词匹配装置还包括：第一导出模块604（图中未示出），用于对基准数据合集中的基准数据组进行整理与排序，得到第一排序结果；按照目标文件格式导出第一排序结果。

可选地，上述处理模块602包括：对待匹配文档进行模糊搜索处理，得到目标数据合集包括：利用文档解释器对待匹配文档进行分析处理，生成第二分块信息，其中，第二分块信息用于表征待匹配文档的结构和语义；将第二分块信息中的多个分块字串逐一输入至人工智能大模型，输出目标上下文信息；根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集。

可选地，上述处理模块602包括：根据需求关键词和目标上下文信息进行关键词衍生，得到目标数据合集包括：在目标上下文信息中定位需求关键词，得到第二定位结果，其中，第二定位结果用于确定需求关键词在目标上下文信息中的位置；根据第二定位结果，将目标上下文信息划分为目标上文信息和目标下文信息；基于需求关键词库和目标上文信息进行关键词衍生，得到第二衍生词库；根据预设条件对第二衍生词库中任意一个衍生关键词进行合理性分析，得到第二分析结果；响应依据第二分析结果确定任意一个衍生关键词满足预设条件，在目标下文信息中对任意一个衍生关键词进行搜索和匹配，得到目标数据组，其中，第二衍生词库中满足预设条件的衍生关键词对应的目标数据组的集合构成目标数据合集。

可选地，上述关键词匹配装置还包括：第二导出模块605（图中未示出），用于对目标数据合集中的目标数据组进行整理与排序，得到第二排序结果；按照目标文件格式导出第二排序结果。

可选地，上述匹配模块603包括：匹配结果包括多个差异状况数组，对基准数据合集与目标数据合集进行匹配，得到匹配结果包括：提取目标数据合集的多个目标数据组；将任意一个目标数据组拆分为数据名称和第一数据数值，其中，数据名称与第一衍生词库中的衍生关键词相同；在基准数据合集中对数据名称进行搜索，得到搜索结果；响应依据搜索结果确定基准数据合集中存在数据名称，将第一数据数值与第二数据数值进行比较，得到比较结果，其中，第二数据数值为基准数据合集中数据名称对应的数据数值；根据搜索结果和比较结果确定目标数据组对应的差异状况数组，以及，将多个差异状况数组进行汇总与整理，得到匹配结果。

可选地，上述匹配模块603包括：根据搜索结果和比较结果确定目标数据组对应的差异状况数组包括：响应依据搜索结果确定基准数据合集中不存在数据名称，将数据名称汇总至差异状况数组；响应于比较结果确定第一数据数值与第二数据数值不同，将数据名称汇总至差异状况数组。

可选地，上述关键词匹配装置还包括：第三导出模块606（图中未示出），用于按照目标文件格式导出多个差异状况数组。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤S1，获取基准文档和待匹配文档；

步骤S2，对基准文档进行模糊搜索处理，得到基准数据合集，以及对待匹配文档进行模糊搜索处理，得到目标数据合集；

步骤S3，对基准数据合集与目标数据合集进行匹配，得到匹配结果，其中，匹配结果用于表征基准文档与待匹配文档的差异状况。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，在本实施例中的具体示例可以参考上述实施例及其可选实施方式中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词匹配方法，其特征在于，包括：

获取基准文档和待匹配文档；

对所述基准文档进行模糊搜索处理，得到基准数据合集，以及对所述待匹配文档进行模糊搜索处理，得到目标数据合集；

对所述基准数据合集与所述目标数据合集进行匹配，得到匹配结果，其中，所述匹配结果用于表征所述基准文档与所述待匹配文档的差异状况；

其中，对所述基准文档进行模糊搜索处理，得到所述基准数据合集包括：利用文档解释器对所述基准文档进行分析处理，生成第一分块信息，其中，所述第一分块信息用于表征所述基准文档的结构和语义；将所述第一分块信息中的多个分块字串逐一输入至人工智能大模型，输出基准上下文信息；根据预先确定的需求关键词和所述基准上下文信息进行关键词衍生，得到所述基准数据合集。

2.根据权利要求1所述的关键词匹配方法，其特征在于，根据预先确定的所述需求关键词和所述基准上下文信息进行关键词衍生，得到所述基准数据合集包括：

在所述基准上下文信息中定位所述需求关键词，得到第一定位结果，其中，所述第一定位结果用于确定所述需求关键词在所述基准上下文信息中的位置；

根据所述第一定位结果，将所述基准上下文信息划分为基准上文信息和基准下文信息；

基于需求关键词库和所述基准上文信息进行关键词衍生，得到第一衍生词库，其中，所述需求关键词库为所述需求关键词所在的词库；

根据预设条件对所述第一衍生词库中任意一个衍生关键词进行合理性分析，得到第一分析结果；

响应依据所述第一分析结果确定所述任意一个衍生关键词满足所述预设条件，在所述基准下文信息中对所述任意一个衍生关键词进行搜索和匹配，得到基准数据组，其中，所述第一衍生词库中满足所述预设条件的衍生关键词对应的基准数据组的集合构成所述基准数据合集。

3.根据权利要求2所述的关键词匹配方法，其特征在于，所述关键词匹配方法还包括：

对所述基准数据合集中的基准数据组进行整理与排序，得到第一排序结果；

按照目标文件格式导出所述第一排序结果。

4.根据权利要求3所述的关键词匹配方法，其特征在于，对所述待匹配文档进行模糊搜索处理，得到目标数据合集包括：

利用所述文档解释器对所述待匹配文档进行分析处理，生成第二分块信息，其中，所述第二分块信息用于表征所述待匹配文档的结构和语义；

将所述第二分块信息中的多个分块字串逐一输入至所述人工智能大模型，输出目标上下文信息；

根据所述需求关键词和所述目标上下文信息进行关键词衍生，得到所述目标数据合集。

5.根据权利要求4所述的关键词匹配方法，其特征在于，根据所述需求关键词和所述目标上下文信息进行关键词衍生，得到所述目标数据合集包括：

在所述目标上下文信息中定位所述需求关键词，得到第二定位结果，其中，所述第二定位结果用于确定所述需求关键词在所述目标上下文信息中的位置；

根据所述第二定位结果，将所述目标上下文信息划分为目标上文信息和目标下文信息；

基于所述需求关键词库和所述目标上文信息进行关键词衍生，得到第二衍生词库；

根据所述预设条件对所述第二衍生词库中任意一个衍生关键词进行合理性分析，得到第二分析结果；

响应依据所述第二分析结果确定所述任意一个衍生关键词满足所述预设条件，在所述目标下文信息中对所述任意一个衍生关键词进行搜索和匹配，得到目标数据组，其中，所述第二衍生词库中满足所述预设条件的衍生关键词对应的目标数据组的集合构成所述目标数据合集。

6.根据权利要求5所述的关键词匹配方法，其特征在于，所述关键词匹配方法还包括：

对所述目标数据合集中的目标数据组进行整理与排序，得到第二排序结果；

按照所述目标文件格式导出所述第二排序结果。

7.根据权利要求6所述的关键词匹配方法，其特征在于，所述匹配结果包括多个差异状况数组，对所述基准数据合集与所述目标数据合集进行匹配，得到所述匹配结果包括：

提取所述目标数据合集的多个所述目标数据组；

将任意一个所述目标数据组拆分为数据名称和第一数据数值，其中，所述数据名称与所述第一衍生词库中的衍生关键词相同；

在所述基准数据合集中对所述数据名称进行搜索，得到搜索结果；

响应依据所述搜索结果确定所述基准数据合集中存在所述数据名称，将所述第一数据数值与第二数据数值进行比较，得到比较结果，其中，所述第二数据数值为所述基准数据合集中所述数据名称对应的数据数值；

根据所述搜索结果和所述比较结果确定所述目标数据组对应的差异状况数组，以及，将多个所述差异状况数组进行汇总与整理，得到所述匹配结果。

8.根据权利要求7所述的关键词匹配方法，其特征在于，根据所述搜索结果和所述比较结果确定所述目标数据组对应的差异状况数组包括：

响应依据所述搜索结果确定所述基准数据合集中不存在所述数据名称，将所述数据名称汇总至所述差异状况数组；

响应于所述比较结果确定所述第一数据数值与所述第二数据数值不同，将所述数据名称汇总至所述差异状况数组。

9.根据权利要求8所述的关键词匹配方法，其特征在于，所述关键词匹配方法还包括：

按照所述目标文件格式导出所述多个差异状况数组。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的关键词匹配方法。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的关键词匹配方法。