CN117076757B

CN117076757B - 基于大模型的知识服务检索和管理系统

Info

Publication number: CN117076757B
Application number: CN202311332406.5A
Authority: CN
Inventors: 史浩男; 杨博涵; 邢露元; 陈伟豪; 董建承; 杨婧瑶; 刘梓翔
Original assignee: Xuedaobang Nanjing Technology Entrepreneurship Co ltd
Current assignee: Xuedaobang Nanjing Technology Entrepreneurship Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-23
Anticipated expiration: 2043-10-16
Also published as: CN117076757A

Abstract

本发明公开了基于大模型的知识服务检索和管理系统，涉及数据处理技术领域；本发明通过设置若干个数据管理单元来对数据源进行知识数据采集以及对采集的知识数据进行处理，并将各个数据管理单元生成的处理数据通过流水线修正处理得到最终处理数据，从最终处理数据提取出若干个数据特征词并建立存储上链，将最终处理数据存储于存储上链；通过数据特征词建立数据特征词网络空间，根据用户的数据检索请求从数据特征词网络空间获得相应的检索节点并建立检索下链，进而根据检索下链从存储上链中获取用户所求的检索数据，进而实现了提高了检索知识数据的效率。

Description

基于大模型的知识服务检索和管理系统

技术领域

本发明涉及数据处理技术领域，具体是基于大模型的知识服务检索和管理系统。

背景技术

知识服务是指从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识和信息内容，搭建知识网络，为用户提出的问题提供知识内容或解决方案的信息服务过程。

由于知识数据的种类繁多以及数据大，使得通过现有技术建立大模型通常需要大量的计算资源和存储空间来对知识数据进行整理以及提取出关键信息，且由于大模型通常需要访问和处理大量的数据，这容易引发数据隐私和数据安全问题，如知识数据是敏感或个人身份相关的数据，可能会对用户的隐私产生潜在的风险，为此，提供基于大模型的知识服务检索和管理系统。

发明内容

为了解决上述技术问题，本发明的目的在于提供基于大模型的知识服务检索和管理系统。

为了实现上述目的，本发明提供如下技术方案：

基于大模型的知识服务检索和管理系统，包括云计算平台，所述云计算平台通信连接有数据管理模块以及数据检索模块；

所述数据管理模块设有若干个数据管理单元、一个数据中转单元以及一个数据存储单元；

所述数据管理单元的数量与数据源的数量相同，且呈映射对应关系，同时数据管理单元设有数据采集子单元和数据处理子单元，分别用于对数据管理单元映射对应的数据源进行知识数据采集以及对采集的知识数据进行处理，进而采用流水线修正处理生成最终处理数据；

所述数据中转单元用于实现各个数据管理单元之间的采集知识数据共享，以及将数据管理单元生成的最终处理数据发送至数据存储单元；

所述数据存储单元用于设置存储上链并存储来自数据中转单元的最终处理数据，同时从最终处理数据提取出若干个数据特征词；

所述数据检索模块设有检索审核单元以及检索单元；

所述检索审核单元用于对用户的数据检索请求进行审核，并根据审核结果生成检索特征词；

所述检索单元用于根据数据特征词建立数据特征词网络空间，并根据阅读权限与数据特征词之间的对应关系设置结果节点并存储在数据特征词网络空间中，进而根据检索特征词从数据特征词网络空间生成检索节点，并根据检索节点生成检索下链从数据管理模块中的存储上链中获得对应的检索数据。

进一步的，所述知识数据的采集过程包括：

数据管理模块获取若干个数据源，并根据数据源数量设置对应的数据管理单元，并对各个数据管理单元编号S₁、S₂、……、S_n，n为大于0的自然数；

所述数据中转单元根据数据管理模块的计算资源设有数据处理阈值以及数据处理周期，进而数据中转单元在数据处理周期内接收到来自各个数据管理单元的知识数据并统计知识数据数量；

若在数据处理周期内数据中转单元接收到的知识数据数量达到数据处理阈值，则提前结束数据处理周期并向各个数据管理单元发送停止采集指令，同时将当前数据处理周期内接收到的所有知识数据整合得到知识数据包发送至各个数据管理单元；各个数据管理单元接收到停止采集指令后，停止其对应的数据采集子单元的数据采集行为。

进一步的，知识数据的处理过程包括：

数据处理子单元接收到知识数据包后，从知识数据包中获得若干条知识数据，同时各个数据处理子单元以其对应的数据采集子单元的知识数据设置为主知识数据，以知识数据包中的其他数据设为从知识数据，进而各个数据处理子单元采用相同的数据处理规则生成各自的处理数据，数据中转单元向各个数据管理单元发送流水线修正指令，进而根据各个数据管理单元的处理数据生成最终处理数据。

进一步的，所述数据处理规则包括：

将所有从知识数据划分为若干个等长的从数据片段，进而将各个从数据片段依次从主知识数据的初始位置开始，将主知识数据与从数据片段相互映射，若从数据片段在主知识数据映射过程存在二者不一致的部分，则从数据片段与主知识数据映射结束后将不一致的部分截取并添加至主知识数据尾部，后续从数据片段在主知识数据进行映射时需对截取部位进行映射，直到所有从数据片段都与主知识数据映射结束后，将主知识数据设置为处理数据，并标注上数据管理单元的编号。

进一步的，所述最终处理数据的生成过程包括：

从编号为S₁的数据管理单元开始，其将处理数据发送至数据中转单元；

数据中转单元将编号为S₁的处理数据发送至编号为S₂的数据管理单元，进而将编号为S₁的处理数据与编号为S₂的处理数据直接进行映射，并将映射结果不一致的部分从编号为S₂的处理数据截取并添加至编号为S₁的处理数据的尾部，并将其编号更改为S₂；

将编号为S₂的处理数据发送至数据中转单元，并由数据中转单元发送至编号为S₃的数据管理单元，直到当编号为S_n-1的处理数据的编号更改为S_n，将处理数据标注为最终处理数据并发送至数据中转单元。

进一步的，数据存储单元存储最终处理数据的过程包括：

所述数据存储单元设有存储上链，数据存储单元接收到最终处理数据后，根据最终处理数据的数据大小在存储上链中分配对应的数据存储空间；

数据存储单元通过互联网预设若干个特征词提指针，并通过特征词指针从最终处理数据得到若干个数据特征词；

设置标准数据片段长度，进而根据最终处理数据的长度划分出若干个数据片段，若在划分过程中，最终处理数据的剩余长度小于标准数据片段长度，则停止划分并将剩余部分算作数据片段，否则继续划分；

根据最终处理数据的数据片段数量，在其对应的数据存储空间中划分出相同数量的片段空间，并将全部数据片段依次并入片段空间中；

将从最终处理数据中提取的数据特征词对各个数据片段进行特征词匹配，并统计各个数据片段所匹配到的数据特征词数量，进而根据各个数据片段所匹配到的数据特征词数量设置阅读权限积分，同时将数据片段所匹配到的数据特征词设置为标签指针附着在对应片段空间上。

进一步的，检索单元根据数据特征词生成数据特征词网络空间的过程包括：

检索单元根据数据特征词生成特征词节点输入至数据特征词网络空间中，所述数据特征词网络空间由若干个特征词节点以及若干个结果节点组成，其中结果节点由特征词节点排列组合组成；当有新的特征词节点输入数据特征词网络空间时，数据特征词网络空间将新的特征词节点与已存在的所有特征数据词进行匹配，将无匹配结果的特征词节点保留，有匹配结果的特征词节点剔除，进而数据特征词网络空间根据保留的新特征词节点增加新的结果节点，并得到完整的数据特征词网络空间。

进一步的，检索审核单元审核数据检索请求并生成检索特征词的过程包括：

检索审核单元设有黑名单，进而检索审核单元判断数据检索请求中用户IP地址是否在黑名单中，若在，则判断审核不通过，进而数据检索模块向对应用户发送数据检索请求未通过提示；

若不在，则检索审核单元采用与数据存储单元获取数据特征词的相同方法，从数据检索请求提取出若干个请求特征词并发送至检索单元，同时各个用户设置有阅读积分。

进一步的，检索数据的获取过程包括：

检索单元根据请求特征词生成若干个请求指针输入数据特征词网络空间中，进而请求指针对数据特征词网络空间中的结果节点进行匹配，进而获得若干个检索节点并基于检索节点生成检索下链；

将检索下链与检索上链相互映射匹配获得对应检索数据，将检索下链中的检索节点依次与存储上链内各个数据存储空间内的片段空间上的标签指针进行匹配，若存在检索节点与片段空间上的标签指针完全对应，则数据管理模块对该检索节点标注阅读权限积分以及将对应片段空间内的数据片段附着在检索下链中的对应检索节点上，并得到相应的阅读权限积分，进而根据用户的阅读积分，判断是否直接将检索数据发送至用户。

与现有技术相比，本发明的有益效果是：

1、本发明通过数据源的数量设置相应的数据管理单元，并采用数据源与数据管理单元一一对应的形式进行知识数据采集与处理，实现了分布式处理数据源的知识数据，提高了知识数据的采集效率以及处理效率；同时设置数据采集周期，进而将同一个数据采集周期内的处理数据采用流水线修正处理得到最终处理数据，有效的降低了系统的数据存储压力以及降低了系统的数据冗余性；

2、本发明通过建立存储上链以及从最终处理数据中提取出若干个数据特征词，进而根据最终处理数据内数据片段所包含的数据特征词数量存储在存储上链中，并根据数据特征词数量设置阅读权限积分，进而提高了最终处理数据的存储效率以及方便后续检索，根据数据特征词建立数据特征词网络空间，根据用户的数据检索请求从数据特征词网络空间获得若干个检索节点，并根据检索节点建立检索下链，进而根据检索下链从存储上链中获取用户所求的检索数据，并统计相应的阅读权限积分，进而根据用户的阅读积分，判断是否直接将检索数据发送至用户，有效的保证了系统内知识数据的安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其他实施方式，都属于本发明所保护的范围。

如图1所示，基于大模型的知识服务检索和管理系统，包括云计算平台，所述云计算平台通信连接有数据管理模块以及数据检索模块；

所述数据管理模块设有若干个数据管理单元、一个数据中转单元以及一个数据存储单元，用于采集并处理各个数据源的知识数据；

所述数据管理单元的数量与数据源的数量相同，且呈映射对应关系，同时数据管理单元设有数据采集子单元和数据处理子单元，分别用于对数据管理单元映射对应的数据源进行知识数据采集以及对采集的知识数据进行处理，且各个数据管理单元设有编号，例如编号为可为S₁、S₂、……、S_n，其中n为大于0的自然数；

需要说明的是，在各个数据管理单元上传至处理数据前，通过数据中转单元对采集知识数据进行数据共享，进而各个数据管理单元内的数据处理子单元以其对应的数据采集子单元采集的知识数据为主，以来自其他数据管理单元的知识数据为辅，采用相同的数据处理规则生成处理数据，进而从编号为S₁的数据管理单元所生成的处理数据标注为起始处理数据，并将其依次与编号为S₂、……、编号为S_n的数据管理单元所生成的处理数据进行流水线式修正处理，并得到最终处理数据并由编号为S_n的数据管理单元将其发送至数据中转单元；

所述数据存储单元用于设置存储上链并存储来自数据中转单元的最终处理数据，同时从最终处理数据提取出若干个数据特征词并发送至数据检索模块，需要说明的是，根据最终处理数据提取出的数据特征词数量，对最终处理数据设置多个阅读权限，即每一个阅读权限在查看同一个最终处理数据时查看的部位不同；

进一步的，所述数据检索模块设有检索审核单元以及检索单元；

所述检索审核单元用于对用户的数据检索请求进行审核，并根据审核结果生成检索特征词并发送检索单元；

所述检索单元用于根据数据特征词建立数据特征词网络空间，并根据阅读权限与数据特征词之间的对应关系设置结果节点映射至数据特征词网络空间中，进而根据检索特征词从数据特征词网络空间匹配结果节点获得检索节点，并根据检索节点生成检索下链从数据管理模块中的存储上链中获得对应的检索数据。

下面通过实施例说明本发明的具体工作原理：

数据管理模块获取若干个数据源，并根据数据源数量设置对应的数据管理单元，并对各个数据管理单元编号S₁、S₂、……、S_n，n为大于0的自然数，同时数据管理模块设有一个数据中转单元以及数据存储单元；

需要说明的是，每当数据管理模块获取到一个数据源时，则自动生成一个数据管理单元与其对应，并对数据管理单元设置编号；

所述数据管理单元设有数据采集子单元和数据处理子单元，进而数据管理单元通过数据采集子单元从对应的数据源中获取知识数据，并将其发送至数据中转单元以及相同数据管理模块的数据处理子单元中；

若在数据处理周期内数据中转单元接收到的知识数据数量达到数据处理阈值，则提前结束数据处理周期并向各个数据管理单元发送停止采集指令，同时将当前数据处理周期内接收到的所有知识数据整合得到知识数据包发送至各个数据管理单元；

各个数据管理单元接收到停止采集指令后，停止其对应的数据采集子单元的数据采集行为，同时数据管理单元接收到知识数据包将其发送至数据处理子单元；

数据处理子单元接收到知识数据包后，从知识数据包中获得若干条知识数据，同时各个数据处理子单元以其对应的数据采集子单元的知识数据设置为主知识数据，以知识数据包中的其他数据设为从知识数据，进而各个数据处理子单元采用相同的数据处理规则生成各自的处理数据；

所述数据处理规则包括：将所有从知识数据划分为若干个等长的从数据片段，需要说明的是，从数据片段的长度小于主知识数据长度的一半；

进而将各个从数据片段依次从主知识数据的初始位置开始，将主知识数据与从数据片段相互映射，若从数据片段在主知识数据映射过程存在二者不一致的部分，则从数据片段与主知识数据映射结束后将不一致的部分截取并添加至主知识数据尾部，后续从数据片段在主知识数据进行映射时需对截取部位进行映射；

重复上述操作，直到所有从数据片段都与主知识数据映射结束后，将主知识数据设置为处理数据，并标注上数据管理单元的编号；

进一步的，数据中转单元向各个数据管理单元发送流水线修正指令，进而从编号为S₁的数据管理单元开始，其将处理数据发送至数据中转单元；

将编号为S₂的处理数据发送至数据中转单元，并由数据中转单元发送至编号为S₃的数据管理单元，重复上述操作，当编号为S_n-1的处理数据的编号更改为S_n，将处理数据标注为最终处理数据并发送至数据中转单元；

进一步的，数据中转单元将最终处理数据发送至数据存储单元，并进行下一个数据处理周期；

所述数据存储单元设有存储上链，存储上链由若干个数据存储区间依次连接而成，其中各个数据存储区间的存储空间大小不一，且数据存储空间又由若干个片段空间组成；

数据存储单元接收到最终处理数据后，根据最终处理数据的数据大小在存储上链中分配对应的数据存储空间，且该数据存储空间无任何片段空间；

数据存储单元通过互联网预设若干个特征词提指针，并通过特征词指针从最终处理数据得到若干个数据特征词，其中数据特征词例如可为天气、行为准则、学术术语等，需要说明的是，预设的特征词提指针数量和种类会不定时更新；

将从最终处理数据中提取的数据特征词对各个数据片段进行特征词匹配，并统计各个数据片段所匹配到的数据特征词数量num，进而根据各个数据片段所匹配到的数据特征词数量num设置阅读权限积分num，同时将数据片段所匹配到的数据特征词设置为标签指针附着在对应片段空间上；

进一步的，数据存储单元确认存储最终处理数据后，数据管理模块将从对应最终处理数据提取的数据特征词压缩成数据特征词包发送至数据检索模块；

数据检索模块接收并解压数据特征词包获得若干个数据特征词并发送至检索单元，检索单元根据数据特征词生成特征词节点输入至数据特征词网络空间中；

所述数据特征词网络空间由若干个特征词节点以及若干个结果节点组成，其中结果节点由特征词节点排列组合组成，即各个结果节点所包含的特征词节点的数量或种类存在不同；

当有新的特征词节点输入数据特征词网络空间时，数据特征词网络空间将新的特征词节点与已存在的所有特征数据词进行匹配，将无匹配结果的特征词节点保留，有匹配结果的特征词节点剔除，进而数据特征词网络空间根据保留的新特征词节点增加新的结果节点；

进一步的，用户向数据检索模块发送数据检索请求，所述数据检索请求中包括用户IP地址、检索要求，其中检索要求包括检索词和检索内容，检索词例如学术术语、人名，检索内容例如一段语句或文字摘要；

数据检索模块接收到数据检索请求后，将数据检索请求发送至检索审核单元；

检索审核单元判断数据检索请求中用户IP地址是否在黑名单中，若在，则判断审核不通过，进而数据检索模块向对应用户发送数据检索请求未通过提示；

若不在，则检索审核单元采用与数据存储单元获取数据特征词的相同方法，从数据检索请求提取出若干个请求特征词并发送至检索单元；

需要说明的是，对各个用户设置有阅读积分P，其可通过上传知识数据来增加阅读积分，若其上传病毒数据或危险数据，则将其的IP地址纳入黑名单中；

检索单元根据请求特征词生成若干个请求指针输入数据特征词网络空间中，进而请求指针对数据特征词网络空间中的结果节点进行匹配，其中匹配过程包括：

对于来自同一个数据检索请求的请求指针在进入数据特征词网络空间后，自动聚合生成请求气泡，进而数据特征词网络空间中的结果节点同时进入请求气泡，若结果节点中的所有特征词节点与请求气泡中的请求指针相互匹配，则数据特征词网络空间复制该结果节点并将其标注为检索节点并输出数据特征词网络空间，同时将其移出请求气泡中；

若结果节点中存在特征词节点与请求气泡中的请求指针不相互映射，则将其移出请求气泡中；

根据数据特征词网络空间所输出的检索节点以及各个检索节点所包含的特征词节点数量，将其根据特征词节点数量从低到高依次排列并生成检索下链；

检索下链生成完成后，数据检索模块将检索下链发送至数据管理模块，进而数据管理模块根据检索下链从存储上链中获取对应的知识数据片段，具体过程包括：

数据管理模块从数据存储单元获取从存储上链，进而将检索下链中的检索节点依次与存储上链内各个数据存储空间内的片段空间上的标签指针进行匹配，若存在检索节点与片段空间上的标签指针完全对应，则数据管理模块对该检索节点标注阅读权限积分以及将对应片段空间内的数据片段附着在检索下链中的对应检索节点上；

需要说明的是，同一个检索节点可同时附着多个数据片段；

若检索节点与片段空间上的标签指针不完全对应，则跳过对应的检索节点；

检索下链与存储上链匹配映射完成后，统计检索下链内各个检索节点所带有的阅读权限积分，得到阅读权限总积分Num；

数据管理模块将带有数据片段和阅读权限总积分Num的检索下链发送至数据检索模块；

数据检索模块将对应用户的阅读积分P与检索下链的阅读权限总积分Num进行对比；

若阅读积分P大于或等于阅读权限总积分Num，则数据检索模块直接将检索下链所带有全部数据片段发送至对应用户；

若阅读积分P小于阅读权限总积分Num，则根据检索下链中检索节点的排列顺序，从第一个检索节点开始，依次叠加各个检索节点所带有的阅读权限积分，直到叠加后的阅读权限积分大于或等于为止，将对应检索节点所带有数据片段发送至对应。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于大模型的知识服务检索和管理系统，包括云计算平台，其特征在于，所述云计算平台通信连接有数据管理模块以及数据检索模块；

所述数据存储单元存储最终处理数据的过程包括：

数据存储单元接收到最终处理数据后，根据最终处理数据的数据大小在存储上链中分配对应的数据存储空间；

数据存储单元通过互联网预设若干个特征词指针，并通过特征词指针从最终处理数据得到若干个数据特征词；

将从最终处理数据中提取的数据特征词对各个数据片段进行特征词匹配，并统计各个数据片段所匹配到的数据特征词数量，进而根据各个数据片段所匹配到的数据特征词数量设置阅读权限积分，同时将数据片段所匹配到的数据特征词设置为标签指针附着在对应片段空间上；

所述数据检索模块设有检索审核单元以及检索单元；

所述检索单元用于根据数据特征词建立数据特征词网络空间，并根据阅读权限与数据特征词之间的对应关系设置结果节点并存储在数据特征词网络空间中，进而根据检索特征词从数据特征词网络空间生成检索节点，根据检索节点生成检索下链，进而通过检索下链从数据管理模块中的存储上链中获得对应的检索数据。

2.根据权利要求1所述的基于大模型的知识服务检索和管理系统，其特征在于，所述知识数据的采集过程包括：

数据管理模块获取若干个数据源，并根据数据源数量设置对应的数据管理单元，对各个数据管理单元编号S₁、S₂、……、S_n，n为大于0的自然数；

所述数据中转单元根据数据管理模块的计算资源设置有数据处理阈值以及数据处理周期，进而数据中转单元在数据处理周期内接收各个数据管理单元的知识数据并统计知识数据数量；

3.根据权利要求2所述的基于大模型的知识服务检索和管理系统，其特征在于，知识数据的处理过程包括：

4.根据权利要求3所述的基于大模型的知识服务检索和管理系统，其特征在于，所述数据处理规则包括：

将所有从知识数据划分为若干个等长的从数据片段，进而将各个从数据片段依次从主知识数据的初始位置开始，将主知识数据与从数据片段相互映射，若从数据片段在主知识数据映射过程存在相互不一致的部分，则从数据片段与主知识数据映射结束后将不一致的部分截取并添加至主知识数据尾部，后续从数据片段在主知识数据进行映射时对截取部位进行映射，直到所有从数据片段都与主知识数据映射结束后，将主知识数据设置为处理数据，并标注上数据管理单元的编号。

5.根据权利要求3所述的基于大模型的知识服务检索和管理系统，其特征在于，所述最终处理数据的生成过程包括：

6.根据权利要求5所述的基于大模型的知识服务检索和管理系统，其特征在于，检索单元根据数据特征词生成数据特征词网络空间的过程包括：

7.根据权利要求1所述的基于大模型的知识服务检索和管理系统，其特征在于，检索审核单元审核数据检索请求并生成检索特征词的过程包括：

检索审核单元设置有黑名单，进而检索审核单元判断数据检索请求中用户IP地址是否在黑名单中，若在，则判断审核不通过，进而数据检索模块向对应用户发送数据检索请求未通过提示，若不在，则检索审核单元采用与数据存储单元获取数据特征词的相同方法，从数据检索请求提取出若干个请求特征词并发送至检索单元，同时对各个用户设置阅读积分。

8.根据权利要求7所述的基于大模型的知识服务检索和管理系统，其特征在于，检索数据的获取过程包括：

检索单元根据请求特征词生成若干个请求指针输入数据特征词网络空间中，进而请求指针与数据特征词网络空间中的结果节点进行匹配，获得若干个检索节点并基于检索节点生成检索下链；

将检索下链与检索上链相互映射匹配获得对应检索数据并得到相应的阅读权限积分，进而根据用户的阅读积分，判断是否直接将检索数据发送至用户。