CN116684452B - 一种基于aigc大模型的知识中台构建方法及系统 - Google Patents
一种基于aigc大模型的知识中台构建方法及系统 Download PDFInfo
- Publication number
- CN116684452B CN116684452B CN202310976754.XA CN202310976754A CN116684452B CN 116684452 B CN116684452 B CN 116684452B CN 202310976754 A CN202310976754 A CN 202310976754A CN 116684452 B CN116684452 B CN 116684452B
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- checked
- knowledge data
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 35
- 238000012216 screening Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 19
- 238000012544 monitoring process Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000013210 evaluation model Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009411 base construction Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于知识中台构建技术领域,具体涉及一种基于AIGC大模型的知识中台构建方法及系统。该发明本发明通过取样模块和评估模块的结合,能够统计出多个取样时段下的各个知识数据的调阅量,再根据这些知识数据的调阅量来测算调阅峰度,之后基于调阅峰度对应的时间节点执行偏移操作,便可得到其对应的时段,从而便能够合理分配知识数据的数据共享接口,保证知识中台的数据传输的流畅性,同时也能够相应的提升用户的体验度。
Description
技术领域
本发明属于知识中台构建技术领域,具体涉及一种基于AIGC大模型的知识中台构建方法及系统。
背景技术
随着大数据时代的到来,人们获取信息的方式由传统的线下获取发展为现如今的线上获取,相较于线上获取信息的方式而言,线上获取信息的方式具有快捷、方便、全面以及选择性较高的优势,随着线上信息的不断更新,各个领域内的知识体系已经逐渐完善,这就需要一个构建一个知识中台来提供用户所需求的数据,AIGC模型便是近年来一种基于深度学习的自然语言处理技术。
现有技术中,在构建知识中台时,往往会将所有的知识数据按需分配,其对应数据共享接口的优先级未得到分配,而在不同时段内,人们所需调阅的知识数据有所不同,数据共享接口的平均分配无疑是无法解决该问题的,基于此,本方案提供了一种能够合理分配知识数据的数据共享接口的知识中台构建方法。
发明内容
本发明的目的是提供一种基于AIGC大模型的知识中台构建方法及系统,能够合理分配知识数据的数据共享接口,保证知识中台的数据传输的流畅性。
本发明采取的技术方案具体如下:
一种基于AIGC大模型的知识中台构建方法,包括:
获取用户需求,并根据所述用户需求采集对应的知识数据,并汇总为知识数据集;
构建采样区间,并在所述采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中;
获取更新数据,以及所述更新数据中的关键字段,并判断是否能所述关键字段从知识数据集中匹配出对应的知识数据;
若是,则表明所述更新数据与知识数据的关键字段一致,并将所述更新数据替换知识数据,并将所述更新数据保留在知识数据集中;
若否,则表明所述更新数据与知识数据的关键字段不一致,并将所述更新数据标定为知识数据的关联数据,且将其标定为待校验数据;
构建监测时段,并在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
将所述待评估参数输入至评估模型中,得到调阅峰度,并根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口。
在一种优选方案中,所述将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据的步骤,包括:
获取同一用户需求下的待优化数据,且将其按照由大至小的顺序进行排列;
从所述筛选模型中调用测算函数,并将所述待优化数据输入至测算函数中,得到各个所述待优化数据的占比,并将其标定为待筛选参数;
获取筛选阈值,且将所述待筛选参数按照排列顺序逐一与筛选阈值进行比对;
若所述待筛选参数大于或等于筛选阈值,则将所述待筛选参数对应的知识数据标定为需求数据,并将其对应的知识数据保留在所述知识数据集中;
若所述待筛选参数小于筛选阈值,则将所述待筛选参数对应的知识数据标定为待校验数据,并将其对应的知识数据从所述知识数据集中筛除,且汇总至所述待校验数据集中。
在一种优选方案中,所述需求数据为并列关系,所述待校验数据按照由大至小的顺序进行排列。
在一种优选方案中,所述待校验数据获取完成之后,将其输入至校验模型中,其校验过程如下:
获取待校验数据,以及与所述待校验数据相对应的需求数据;
从所述校验模型中调用校验函数;
将所述待校验数据与需求数据输入至校验函数中,并将其输出结果标定为待校验偏量;
获取校验阈值,并将所述校验阈值与待校验偏量进行比较;
若所述待校验偏量大于或等于校验阈值,则将所述待校验偏量对应的待校验数据替换为与其对应的需求数据,再将其对应的知识数据加入至知识数据集中;
若所述待校验偏量小于校验阈值,则将所述待校验偏量对应的待校验数据下的知识数据保留在待校验数据集中。
在一种优选方案中,所述获取更新数据,以及所述更新数据中的关键字段,并判断是否能所述关键字段从知识数据集中匹配出对应的知识数据的步骤,包括:
获取更新数据中的关键字段;
从所述知识数据集中匹配与包含关键字段的知识数据,并将其标定为基准数据;
获取所述更新数据与基准数据中关键字段的重复率,并将其标定为待验证参数;
获取与所述更新数据相对应的匹配阈值,并与所述待验证参数进行比较;
若所述待验证参数大于匹配阈值,则表明所述知识数据集中能匹配出对应的知识数据;
若所述待验证参数小于或等于匹配阈值,则表明所述知识数据集中不能匹配出对应的知识数据。
在一种优选方案中,所述在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数的步骤,包括:
获取每个所述取样时段下的知识数据调阅量,并将其标定为基准参数;
获取标准函数;
将所述基准参数输入至标准函数中,且将其输出结果标定为待评估参数。
在一种优选方案中,所述将所述待评估参数输入至评估模型中,得到调阅峰度的步骤,包括:
获取待评估参数;
从所述评估模型中调用评估函数;
将所述待评估参数输入至评估函数中,且将其输出结果标定为调阅峰度。
在一种优选方案中,所述根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口的步骤,包括:
获取调阅峰度对应的时间节点,并将其标定为基准节点;
获取偏移时段,所述偏移时段设置有多个,且均与调阅峰度的取值相对应,其中,所述调阅峰度的取值与偏移时段为反比例关系;
以所述基准节点为中心节点,依据所述偏移时段向两侧同步偏移,得到优化时段,并在优化时段内增加其对应知识数据的数据共享接口。
本发明还提供了,一种基于AIGC大模型的知识中台构建系统,应用于上述的基于AIGC大模型的知识中台构建方法,包括:
采集模块,所述采集模块用于获取用户需求,并根据所述用户需求采集对应的知识数据,并汇总为知识数据集;
采样模块,所述采样模块用于构建采样区间,并在所述采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
筛选模块,所述筛选模块用于将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中,其中,多个所述需求数据为并列关系,所述待校验数据按照由大至小的顺序进行排列;
更新模块,所述更新模块用于获取更新数据,以及所述更新数据中的关键字段,并判断是否能所述关键字段从知识数据集中匹配出对应的知识数据;
若是,则表明所述更新数据与知识数据的关键字段一致,并将所述更新数据替换知识数据,并将所述更新数据保留在知识数据集中;
若否,则表明所述更新数据与知识数据的关键字段不一致,并将所述更新数据标定为知识数据的关联数据,且将其标定为待校验数据;
取样模块,所述取样模块用于构建监测时段,并在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
评估模块,所述评估模块用于将所述待评估参数输入至评估模型中,得到调阅峰度,并根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口。
以及,一种基于AIGC大模型的知识中台构建终端,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于AIGC大模型的知识中台构建方法。
本发明取得的技术效果为:
本发明通过取样模块和评估模块的结合,能够统计出多个取样时段下的各个知识数据的调阅量,再根据这些知识数据的调阅量来测算调阅峰度,之后基于调阅峰度对应的时间节点执行偏移操作,便可得到其对应的时段,从而便能够合理分配知识数据的数据共享接口,保证知识中台的数据传输的流畅性,同时也能够相应的提升用户的体验度。
附图说明
图1是本发明所提供的方法流程图;
图2是本发明所提供的系统模块图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个较佳的实施方式中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
请参阅图1和图2所示,本发明提供了一种基于AIGC大模型的知识中台构建方法,包括:
S1、获取用户需求,并根据用户需求采集对应的知识数据,并汇总为知识数据集;
S2、构建采样区间,并在采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
S3、将所有待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中;
S4、获取更新数据,以及更新数据中的关键字段,并判断是否能关键字段从知识数据集中匹配出对应的知识数据;
若是,则表明更新数据与知识数据的关键字段一致,并将更新数据替换知识数据,并将更新数据保留在知识数据集中;
若否,则表明更新数据与知识数据的关键字段不一致,并将更新数据标定为知识数据的关联数据,且将其标定为待校验数据;
S5、构建监测时段,并在监测时段内构建多个首尾相接的取样时段,且分别统计取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
S6、将待评估参数输入至评估模型中,得到调阅峰度,并根据调阅峰度对应的时间节点确定知识数据的数据共享接口。
如上述步骤S1-S6所述,随着大数据时代的到来,人们获取信息的方式由传统的线下获取发展为现如今的线上获取,相较于线上获取信息的方式而言,线上获取信息的方式具有快捷、方便、全面以及选择性较高的优势,随着线上信息的不断更新,各个领域内的知识体系已经逐渐完善,这就需要一个构建一个知识中台来提供用户所需求的数据,本实施例中,通过已有的知识数据来构建一个知识数据集,以此来为知识中台提供服务支持,后续在用户的使用过程中不断的进行改善优化处理,通过构建采样区间的方式来设置多个采样节点,并获取这些采样节点下的知识数据调阅量,本实施方式将其标定为待优化数据,具体统计知识数据调阅量的方式可根据用户的复制次数、下载次数或者其它提取信息的方式来进行统计,文中对此就不加以过多的限定,在得到待优化数据之后,便可将其输入至筛选模型之中,从而便可将其分类为需求数据和待校验数据,以此来减少知识中台中的数据量,相应的,也就能够提高其处理数据的能力,但知识数据并非是一成不变的,一些数据往往需要实时更新或者定期更新的,以此来保证知识数据的准确性,本实施方式通过将更新数据和已有的知识数据进行关键字段的比较来判断是否实施知识数据的更新,而在不同的时段下,各个领域的知识数据调阅量是不相同的,例如,工作日中的工作时段,人们调阅与工作相关的数据是比较频繁的,而在下班之后,这些数据的调阅量便会相应的减少,与工作无关的数据会被频繁调阅,例如电影、游戏以及电子书等相关的信息,本实施方式通过调阅峰度的设置来对这些知识数据的数据共享接口进行分配,以调阅峰度为中心节点来确定优化时段,但由于知识数据种类繁多,在确定优化时段时,可设定一个数据共享接口的下限值,并低于该下限值时的时间节点确定为优化时段的结束节点即可,从而该知识中台便能够更为快速的为用户提供其所需的知识数据,提高用户体验度的同时,也降低了知识中台的负载。
在一个较佳的实施方式中,将所有待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据的步骤,包括:
S301、获取同一用户需求下的待优化数据,且将其按照由大至小的顺序进行排列;
S302、从筛选模型中调用测算函数,并将待优化数据输入至测算函数中,得到各个待优化数据的占比,并将其标定为待筛选参数;
S303、获取筛选阈值,且将待筛选参数按照排列顺序逐一与筛选阈值进行比对;
若待筛选参数大于或等于筛选阈值,则将待筛选参数对应的知识数据标定为需求数据,且需求数据为并列关系,并将其对应的知识数据保留在知识数据集中;
若待筛选参数小于筛选阈值,则将待筛选参数对应的知识数据标定为待校验数据,并将其对应的知识数据从知识数据集中筛除,且汇总至待校验数据集中,且待校验数据按照由大至小的顺序进行排列。
如上述步骤S301-S303所述,在待优化数据确定之后,将其直接输入至测算函数中,来计算待优化数据的占比即可,其中,测算函数为,式中,/>表示待筛选参数,表示待优化数据,/>表示知识数据的总调阅量,在待筛选参数确定之后,将其与筛选阈值进行比较,并将低于筛选阈值的知识数据标定为待校验数据,且从知识数据中筛除,反之,则将其保留在知识数据集中,待校验数据集以及知识数据集中的数据均可被调用,具体可通过设置关键检索字段的方式来实现,对于不同的知识数据而言,其对应的关键检索字段也不一致,例如,调阅时间信息时,有阴历和阳历,阳历信息为知识数据,阴历数据为待校验数据,其关键检索字段则分别为“阴”“阳”,否则直接默认调阅结果为阳历信息,且在实际应用中,分配至待校验数据集的数据共享接口小于知识数据集的数据共享接口,以此保证知识中台传输数据时的流畅性不会受到影响。
在一个较佳的实施方式中,待校验数据获取完成之后,将其输入至校验模型中,其校验过程如下:
Stp1、获取待校验数据,以及与待校验数据相对应的需求数据;
Stp2、从校验模型中调用校验函数;
Stp3、将待校验数据与需求数据输入至校验函数中,并将其输出结果标定为待校验偏量;
Stp4、获取校验阈值,并将校验阈值与待校验偏量进行比较;
若待校验偏量大于或等于校验阈值,则将待校验偏量对应的待校验数据替换为与其对应的需求数据,再将其对应的知识数据加入至知识数据集中;
若待校验偏量小于校验阈值,则将待校验偏量对应的待校验数据下的知识数据保留在待校验数据集中。
如上述步骤Stp1-Stp4,在待校验数据确定之后,其非是一成不变的,仍以时间信息中的阴历时间和阳历时间进行比较,阳历信息在生活中随处可见,较易获取,而阴历信息多数人无法计算清楚,故而阴历时间的调阅量便可能会高于阳历时间的调阅量,此时便可将阴历时间作为替换到知识数据集中,而阳历时间则就会被归类至待校验数据集中,本实施式方式通过采用校验函数来确定知识数据集中的知识数据是否能被替换为待校验数据,其中,校验函数的表达式为:,式中,/>表示待校验偏量,/>和/>均表示采样节点的数量,/>表示知识数据的调阅量,/>表示待校验数据的调阅量,基于此,可以确定待校验偏量,后续将其与校验阈值进行比较即可,该校验阈值的取值大于等于零,具体应根据实际需求进行设置。
在一个较佳的实施方式中,获取更新数据,以及更新数据中的关键字段,并判断是否能关键字段从知识数据集中匹配出对应的知识数据的步骤,包括:
S401、获取更新数据中的关键字段;
S402、从知识数据集中匹配与包含关键字段的知识数据,并将其标定为基准数据;
S403、获取更新数据与基准数据中关键字段的重复率,并将其标定为待验证参数;
S404、获取与更新数据相对应的匹配阈值,并与待验证参数进行比较;
若待验证参数大于匹配阈值,则表明知识数据集中能匹配出对应的知识数据;
若待验证参数小于或等于匹配阈值,则表明知识数据集中不能匹配出对应的知识数据。
如上述步骤S401-S404,在更新数据获取完成之后,先行明确其中的关键字段,这些关键字段为其与知识数据相匹配的依据,本实施方式将包含有关键字段的知识数据均标定为基准数据,用于检验知识数据与更新数据的匹配度,对于一些准确度唯一的知识数据而言,其对应的匹配阈值可以设置为100%,而对于准确性要求不高的知识数据而言,其匹配阈值可视具体情况而定,文中对其就不加以过多的限制,本实施方式将更新数据与基准数据中关键字段的重复率标定为待验证参数,通过其与匹配阈值的比较来判断知识数据集中是否存在对应的知识数据,若存在,则将其替换知识数据,并保留在知识数据集中,否则,则判定其为新的知识数据,也会将其加入至知识数据集中。
在一个较佳的实施方式中,在监测时段内构建多个首尾相接的取样时段,且分别统计取样时段下各个知识数据的调阅量,并将其标定为待评估参数的步骤,包括:
S501、获取每个取样时段下的知识数据调阅量,并将其标定为基准参数;
S502、获取标准函数;
S503、将基准参数输入至标准函数中,且将其输出结果标定为待评估参数。
如上述步骤S501-S503,监测时段一般以一天为一个周期,取样时段可根据知识中台的执行时长来确定,知识中台的执行时间越长,其对应的取样时段也可适当延长,但为保证基准参数的数据量,取样时段的间隔在设置时应不超出10min,并在取样时段内设置多个取样节点,并将这些取样节点下的知识数据调阅量确定为基准参数,且在基准参数确定之后,将其输入至标准函数中,得到其平均值,其中,标准函数为:,式中,/>表示待评估参数,/>表示取样时段内基准参数的调阅量,/>表示基准参数,基于上式,便可确待评估参数,从而可以为后续测算其调阅峰度提供相应的数据支持。
在一个较佳的实施方式中,将待评估参数输入至评估模型中,得到调阅峰度的步骤,包括:
S601、获取待评估参数;
S602、从评估模型中调用评估函数;
S603、将待评估参数输入至评估函数中,且将其输出结果标定为调阅峰度。
如上述步骤S601-S603,在待评估参数确定之后,直接将其输入至评估函数中即可,其中,评估函数的表达式为:,式中,/>表示调阅峰度,/>表示待评估参数的数量,/>表示待评估参数,/>表示待评估参数的均值,基于此式,可以得出待评估参数的调阅峰度,从而可以为后续优化知识数据的数据共享接口时提供相应的数据支持,有效的提高知识中台数据传输的流畅性。
在一个较佳的实施方式中,根据调阅峰度对应的时间节点确定知识数据的数据共享接口的步骤,包括:
S604、获取调阅峰度对应的时间节点,并将其标定为基准节点;
S605、获取偏移时段,偏移时段设置有多个,且均与调阅峰度的取值相对应,其中,调阅峰度的取值与偏移时段为反比例关系;
S606、以基准节点为中心节点,依据偏移时段向两侧同步偏移,得到优化时段,并在优化时段内增加其对应知识数据的数据共享接口。
如上述步骤S604-S606,在待评估参数的调阅峰度确定之后,确定其对应的时间节点,再将其标定为基准节点,而后基于其对应的偏离时段进行偏移处理,该偏移时段可由历史经验所得,例如,早上七点九点之间,早间新闻的调阅量会增加,其调阅峰度为七点五十,基于此,可以将偏移时段设置为1h,调阅峰度结束之后,其调阅量会逐渐降低,故而将偏移时段设置为1h并不会对数据共享造成影响,从而早上六点五十至八点五十之间便可被确定为优化时段,增加与其相关的知识数据的数据共享接口会提升数据传输的速度,相应的,用户的体验感也会相应的增加,当然也可通过设置数据共享接口的下限值来决定偏移时段,在知识数据的调阅量低于该下限值时对应的时间节点至调阅峰度之间的时段可被确定为偏移时段,进而后知识中台运行时,能够保证知识数据集中的知识数据能够合理的分配数据共享接口。
本发明还提供了,一种基于AIGC大模型的知识中台构建系统,应用于上述的基于AIGC大模型的知识中台构建方法,包括:
采集模块,采集模块用于获取用户需求,并根据用户需求采集对应的知识数据,并汇总为知识数据集;
采样模块,采样模块用于构建采样区间,并在采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
筛选模块,筛选模块用于将所有待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中,其中,多个需求数据为并列关系,待校验数据按照由大至小的顺序进行排列;
更新模块,更新模块用于获取更新数据,以及更新数据中的关键字段,并判断是否能关键字段从知识数据集中匹配出对应的知识数据;
若是,则表明更新数据与知识数据的关键字段一致,并将更新数据替换知识数据,并将更新数据保留在知识数据集中;
若否,则表明更新数据与知识数据的关键字段不一致,并将更新数据标定为知识数据的关联数据,且将其标定为待校验数据;
取样模块,取样模块用于构建监测时段,并在监测时段内构建多个首尾相接的取样时段,且分别统计取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
评估模块,评估模块用于将待评估参数输入至评估模型中,得到调阅峰度,并根据调阅峰度对应的时间节点确定知识数据的数据共享接口。
上述中,该构建系统执行时,首先通过采集模块来获取用户需求,并通过已有的知识数据来构建一个知识数据集,以此来为知识中台提供服务支持,之后通过采样模块来对这些知识数据的调阅量进行统计,并标定为待优化数据,之后执行筛选模块对这些待优化数据进行分类,分别得到知识数据集和待校验数据集,对于更新数据而言,可以通过更新模块来核准知识数据集中的知识数据,以此来决定是否对其进行替换处理,为保证知识中台中数据传输的流畅性,还设置了取样模块和评估模块,通过评估调阅峰度来确定知识数据的数据共享接口的分配,从而能够更为方便的解决用户需求,确保体验感不会下降。
以及,一种基于AIGC大模型的知识中台构建终端,包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述的基于AIGC大模型的知识中台构建方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。
Claims (9)
1.一种基于AIGC大模型的知识中台构建方法,其特征在于:包括:
获取用户需求,并根据所述用户需求采集对应的知识数据,并汇总为知识数据集;
构建采样区间,并在所述采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中;
所述将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据的步骤,包括:
获取同一用户需求下的待优化数据,且将其按照由大至小的顺序进行排列;
从所述筛选模型中调用测算函数,并将所述待优化数据输入至测算函数中,得到各个所述待优化数据的占比,并将其标定为待筛选参数;
获取筛选阈值,且将所述待筛选参数按照排列顺序逐一与筛选阈值进行比对;
若所述待筛选参数大于或等于筛选阈值,则将所述待筛选参数对应的知识数据标定为需求数据,并将其对应的知识数据保留在所述知识数据集中;
若所述待筛选参数小于筛选阈值,则将所述待筛选参数对应的知识数据标定为待校验数据,并将其对应的知识数据从所述知识数据集中筛除,且汇总至所述待校验数据集中;
获取更新数据,以及所述更新数据中的关键字段,并判断是否能从知识数据集中匹配出对应的知识数据;
若是,则表明所述更新数据与知识数据的关键字段一致,并将所述更新数据替换知识数据,并将所述更新数据保留在知识数据集中;
若否,则表明所述更新数据与知识数据的关键字段不一致,并将所述更新数据标定为知识数据的关联数据,且将其标定为新增待校验数据;
构建监测时段,并在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
将所述待评估参数输入至评估模型中,得到调阅峰度,并根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口。
2.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述需求数据为并列关系,所述待校验数据按照由大至小的顺序进行排列。
3.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述待校验数据获取完成之后,将其输入至校验模型中,其校验过程如下:
获取待校验数据,以及与所述待校验数据相对应的需求数据;
从所述校验模型中调用校验函数;
将所述待校验数据与需求数据输入至校验函数中,并将其输出结果标定为待校验偏量;
获取校验阈值,并将所述校验阈值与待校验偏量进行比较;
若所述待校验偏量大于或等于校验阈值,则将所述待校验偏量对应的待校验数据替换为与其对应的需求数据,再将其对应的知识数据加入至知识数据集中;
若所述待校验偏量小于校验阈值,则将所述待校验偏量对应的待校验数据下的知识数据保留在待校验数据集中。
4.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述获取更新数据,以及所述更新数据中的关键字段,并判断是否能所述关键字段从知识数据集中匹配出对应的知识数据的步骤,包括:
获取更新数据中的关键字段;
从所述知识数据集中匹配与包含关键字段的知识数据,并将其标定为基准数据;
获取所述更新数据与基准数据中关键字段的重复率,并将其标定为待验证参数;
获取与所述更新数据相对应的匹配阈值,并与所述待验证参数进行比较;
若所述待验证参数大于匹配阈值,则表明所述知识数据集中能匹配出对应的知识数据;
若所述待验证参数小于或等于匹配阈值,则表明所述知识数据集中不能匹配出对应的知识数据。
5.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数的步骤,包括:
获取每个所述取样时段下的知识数据调阅量,并将其标定为基准参数;
获取标准函数;
将所述基准参数输入至标准函数中,且将其输出结果标定为待评估参数。
6.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述将所述待评估参数输入至评估模型中,得到调阅峰度的步骤,包括:
获取待评估参数;
从所述评估模型中调用评估函数;
将所述待评估参数输入至评估函数中,且将其输出结果标定为调阅峰度。
7.根据权利要求1所述的一种基于AIGC大模型的知识中台构建方法,其特征在于:所述根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口的步骤,包括:
获取调阅峰度对应的时间节点,并将其标定为基准节点;
获取偏移时段,所述偏移时段设置有多个,且均与调阅峰度的取值相对应,其中,所述调阅峰度的取值与偏移时段为反比例关系;
以所述基准节点为中心节点,依据所述偏移时段向两侧同步偏移,得到优化时段,并在优化时段内增加其对应知识数据的数据共享接口。
8.一种基于AIGC大模型的知识中台构建系统,应用于权利要求1至7中任意一项所述的基于AIGC大模型的知识中台构建方法,其特征在于:包括:
采集模块,所述采集模块用于获取用户需求,并根据所述用户需求采集对应的知识数据,并汇总为知识数据集;
采样模块,所述采样模块用于构建采样区间,并在所述采样区间内设置多个采样节点,并获取每个采样节点下的知识数据调阅量,并将其标定为待优化数据;
筛选模块,所述筛选模块用于将所有所述待优化数据输入至筛选模型中,得到多个需求数据以及待校验数据,并分别汇总至知识数据集和待校验数据集中,其中,多个所述需求数据为并列关系,所述待校验数据按照由大至小的顺序进行排列;
更新模块,所述更新模块用于获取更新数据,以及所述更新数据中的关键字段,并判断是否能从知识数据集中匹配出对应的知识数据;
若是,则表明所述更新数据与知识数据的关键字段一致,并将所述更新数据替换知识数据,并将所述更新数据保留在知识数据集中;
若否,则表明所述更新数据与知识数据的关键字段不一致,并将所述更新数据标定为知识数据的关联数据,且将其标定为新增待校验数据;
取样模块,所述取样模块用于构建监测时段,并在所述监测时段内构建多个首尾相接的取样时段,且分别统计所述取样时段下各个知识数据的调阅量,并将其标定为待评估参数;
评估模块,所述评估模块用于将所述待评估参数输入至评估模型中,得到调阅峰度,并根据所述调阅峰度对应的时间节点确定知识数据的数据共享接口。
9.一种基于AIGC大模型的知识中台构建终端,其特征在于:包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任意一项所述的基于AIGC大模型的知识中台构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976754.XA CN116684452B (zh) | 2023-08-04 | 2023-08-04 | 一种基于aigc大模型的知识中台构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976754.XA CN116684452B (zh) | 2023-08-04 | 2023-08-04 | 一种基于aigc大模型的知识中台构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116684452A CN116684452A (zh) | 2023-09-01 |
CN116684452B true CN116684452B (zh) | 2023-10-03 |
Family
ID=87789531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976754.XA Active CN116684452B (zh) | 2023-08-04 | 2023-08-04 | 一种基于aigc大模型的知识中台构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116684452B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975206B (zh) * | 2023-09-25 | 2023-12-08 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN113779272A (zh) * | 2021-09-15 | 2021-12-10 | 上海泓笛数据科技有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
WO2021254457A1 (zh) * | 2020-06-17 | 2021-12-23 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法及装置、计算机装置及存储介质 |
CN114444580A (zh) * | 2022-01-06 | 2022-05-06 | 山东大学 | 一种基于卷积神经网络的大数据处理方法 |
US11423018B1 (en) * | 2010-04-21 | 2022-08-23 | Richard Paiz | Multivariate analysis replica intelligent ambience evolving system |
CN115798022A (zh) * | 2023-02-07 | 2023-03-14 | 南京思优普信息科技有限公司 | 一种基于特征提取的人工智能识别方法 |
CN115879748A (zh) * | 2023-03-01 | 2023-03-31 | 多链互联信息科技南京有限公司 | 一种基于大数据的企业信息化管理集成平台 |
CN115936448A (zh) * | 2023-02-13 | 2023-04-07 | 南京深科博业电气股份有限公司 | 一种基于大数据的城市配电网电力评估系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3754655A1 (en) * | 2019-06-20 | 2020-12-23 | University of Tartu | Video analysis |
-
2023
- 2023-08-04 CN CN202310976754.XA patent/CN116684452B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423018B1 (en) * | 2010-04-21 | 2022-08-23 | Richard Paiz | Multivariate analysis replica intelligent ambience evolving system |
WO2021254457A1 (zh) * | 2020-06-17 | 2021-12-23 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法及装置、计算机装置及存储介质 |
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN113779272A (zh) * | 2021-09-15 | 2021-12-10 | 上海泓笛数据科技有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN114444580A (zh) * | 2022-01-06 | 2022-05-06 | 山东大学 | 一种基于卷积神经网络的大数据处理方法 |
CN115798022A (zh) * | 2023-02-07 | 2023-03-14 | 南京思优普信息科技有限公司 | 一种基于特征提取的人工智能识别方法 |
CN115936448A (zh) * | 2023-02-13 | 2023-04-07 | 南京深科博业电气股份有限公司 | 一种基于大数据的城市配电网电力评估系统及方法 |
CN115879748A (zh) * | 2023-03-01 | 2023-03-31 | 多链互联信息科技南京有限公司 | 一种基于大数据的企业信息化管理集成平台 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的自然语言处理鲁棒性研究综述;桂韬;计算机软件及计算机应用;全文 * |
面向内容的工程图识别与理解综述;路通;计算机软件及计算机应用;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116684452A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116684452B (zh) | 一种基于aigc大模型的知识中台构建方法及系统 | |
EP4198775A1 (en) | Abnormal user auditing method and apparatus, electronic device, and storage medium | |
CN113312578B (zh) | 一种数据指标的波动归因方法、装置、设备、及介质 | |
CN111311014B (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN110599240A (zh) | 应用的偏好值确定方法、装置和设备及存储介质 | |
CN113626335A (zh) | 一种面向公安交通管理应用软件的质量评价方法及系统 | |
CN115879748A (zh) | 一种基于大数据的企业信息化管理集成平台 | |
CN116800334A (zh) | 一种基于模拟光纤通信的数据同步传输优化方法及系统 | |
JP4072102B2 (ja) | プロジェクト事前評価方法、プロジェクト事前評価装置及びプログラム | |
CN112613983B (zh) | 一种机器建模过程中的特征筛选方法、装置及电子设备 | |
CN111800807A (zh) | 一种基站用户数量告警的方法及装置 | |
CN115756812A (zh) | 一种资源调整方法及装置、存储介质 | |
CN107832578B (zh) | 基于态势变化模型的数据处理方法及装置 | |
CN112905435A (zh) | 基于大数据的工作量评估方法、装置、设备及存储介质 | |
CN112200375A (zh) | 预测模型生成方法、预测模型生成装置和计算机可读介质 | |
CN111401023A (zh) | 一种报表生成方法、装置、服务器及存储介质 | |
CN115617670A (zh) | 软件测试管理方法、存储介质及系统 | |
CN114723277A (zh) | 绩效评价的方法、装置、设备、介质和程序产品 | |
CN111092755B (zh) | 一种基于资源占用的边缘服务迁移仿真方法 | |
CN113821933A (zh) | App流量预测方法、装置、计算机设备及存储介质 | |
CN113486933A (zh) | 模型训练方法、用户身份信息预测方法及装置 | |
CN115705400A (zh) | 话务量预测模型构建方法、装置及计算机可读存储介质 | |
CN111882240A (zh) | 一种基层供电企业业务承载力评估系统及方法 | |
CN112668784A (zh) | 基于大数据的区域宏观经济预测模型及方法 | |
CN116471323B (zh) | 一种基于时间序列特征的线上人群行为预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |