CN118069892A - 思维图谱生成方法、装置、设备及介质 - Google Patents
思维图谱生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN118069892A CN118069892A CN202410283702.9A CN202410283702A CN118069892A CN 118069892 A CN118069892 A CN 118069892A CN 202410283702 A CN202410283702 A CN 202410283702A CN 118069892 A CN118069892 A CN 118069892A
- Authority
- CN
- China
- Prior art keywords
- service
- knowledge
- map
- description information
- thinking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000012795 verification Methods 0.000 claims abstract description 32
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 76
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000012216 screening Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 abstract description 17
- 238000011156 evaluation Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000005611 electricity Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000013486 operation strategy Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种思维图谱生成方法、装置、设备及介质。该方法包括:获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;根据所述业务描述信息和各所述业务知识,确定输入提示文本;将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;在各所述思维图谱校验均不通过时,确定在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本;在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。采用本发明实施例,可以提高业务数据的处理速度和分析处理的完整性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种思维图谱生成方法、装置、设备及介质。
背景技术
在现代企业管理中,业务数据分析是一个非常重要的环节。通过对公司的各种数据进行统计和分析,可以帮助企业了解自身的经营状况,制定相应的经营策略和决策。
然而,由于数据量庞大和复杂性高,传统的业务数据分析方法往往需要大量的人力和时间,而且难以保证分析的准确性和完整性。
发明内容
本发明提供了一种思维图谱生成方法、装置、设备及介质,以提高可以提高业务数据的处理速度和分析处理的完整性。
第一方面,本发明实施例提供了一种思维图谱生成方法,该方法包括:
获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;
根据所述业务描述信息和各所述业务知识,确定输入提示文本;
在未得到业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;
在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱;
在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
第二方面,本发明实施例还提供了一种思维图谱生成装置,该装置包括:
描述信息获取模块,用于获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;
提示文本生成模块,用于根据所述业务描述信息和各所述业务知识,确定输入提示文本;
图谱校验模块,用于在未得到业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;
提示文本调整模块,用于在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱;
目标图谱生成模块,用于在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的思维图谱生成方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的思维图谱生成方法。
本发明实施例的技术方案,通过获取业务描述信息,并查询对应的业务知识;通过将业务描述信息和业务知识进行融合,得到输入提示文本,并将输入提示文本输入到大语言模型中,得到思维图谱,在思维图谱未通过校验时,筛选出优化图谱,并更新输入提示文本,并重复输入到大语言模型中,直至存在思维图谱通过校验,确定目标图谱,实现迭代优化输入提示文本,使得生成的目标图谱更加符合需求和规范,进而提高大语言模型的性能和质量,解决了现有技术中业务数据的处理数据量大导致效率低、准确性差和完整性低的问题,可以对大量的业务知识进行统计处理,确保业务数据处理的完整性,同时减少人工处理业务数据的情况,提高业务数据处理的效率和准确性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种思维图谱生成方法的流程图;
图2是根据本发明实施例二提供的一种思维图谱生成方法的流程图;
图3是根据本发明实施例三提供的一种思维图谱生成方法的流程图;
图4是根据本发明实施例三提供的一种思维图谱生成方法的应用场景的示意图;
图5是根据本发明实施例三提供的一种思维导图的示意图;
图6是根据本发明实施例三提供的一种报表图的示意图;
图7是根据本发明实施例三提供的另一种报表图的示意图;
图8是根据本发明实施例四提供的一种思维图谱生成装置的结构图;
图9是实现本发明实施例的思维图谱生成方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的技术方案中,所涉及的转向请求报文等的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例一
图1为本发明实施例一提供的一种思维图谱生成方法的流程图。本发明实施例可适用于对业务描述信息进行处理生成业务描述信息的思维图谱的情况,该方法可以由思维图谱生成装置来执行,该思维图谱生成装置可以采用硬件和/或软件的形式实现,该思维图谱生成装置可配置于电子设备中,电子设备可以是客户端设备或服务器设备等,客户端设备可以包括:个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备或便携式可穿戴设备等,物联网设备可为智能音箱、智能电视、智能空调或智能车载设备等。便携式可穿戴设备可为智能手表、智能手环或头戴设备等。
参见图1所示的思维图谱生成方法,包括:
S101、获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识。
业务描述信息可以是指描述业务内容的信息。业务描述信息可以包括业务服务、功能和任务等信息。业务描述信息通常是用户输入的信息。业务描述信息可以包括至少一个媒体类型的数据,例如,可以包括文本、图像、音频或视频等类型的数据。示例性的,本发明实施例中的应用场景为对报表进行分析,业务描述信息可以是报表的描述信息。
备选知识可以是指可获取的真实的数据。备选知识可以从真实可靠的渠道获取,示例性的,可以从报纸、新闻或企业网站等中获取。备选知识作为处理业务数据相关的知识,为处理业务数据提供数据支撑。业务知识可以是指与业务描述信息相关的备选知识。实际上,备选知识涉及的领域非常广泛,而业务数据属于其中一部分领域,可以对备选知识进行筛选,减少冗余数据的干扰,这样既可以保证生成的思维图谱的准确性,又可以减少幻觉的产生。
示例性的,业务描述信息可以是A区第一季度用电量年变化趋势,相应的,业务描述信息是需要计算多年的A区第一季度的用电量的变化参数,据此,业务知识可以是A区、第一季度对应的时间段和用电量变化参数的内容等知识。
可选的,所述备选知识,通过如下方式获取:获取业务资源;对所述业务资源进行处理,得到所述业务资源对应的资源文本;从所述资源文本中提取关键信息,生成备选知识,并将所述资源文本确定为所述备选知识的上下文。
业务资源可以是从公开或经过授权的渠道中获取的资源,或者是用户输入的资源。业务资源包括至少一个媒体类型的数据,例如,可以包括文本、图像、音频或视频等类型的数据。可以将业务资源转换为文本格式的文本,得到资源文本。资源文本可以是指文本格式的业务资源。示例性的,业务资源为图片,可以对业务资源进行图像识别和语义理解等,得到资源文本,其中,图像识别可以是OCR(Optical Character Recognition,光学字符识别)。又如,业务资源为语音,可以对业务资源进行语音识别,得到资源文本。若业务资源本身为文本格式,可以不进行格式转换,直接将业务资源确定为资源文本,或者将业务资源转换为可识别的文本格式,得到资源文本。
关键信息可以是指从资源文本中提取的有效信息。示例性的,可以对资源文本进行结构化处理,提取关键信息。例如,关键信息可以是表格中数据、标题、副标题或摘要等。结构化处理可以是表格识别算法、摘要生成算法或规则匹配算法等。
对提取的关键信息进行分类和归类,并标记不同的类型,例如如数字、日期或标题等,可以使用分类算法进行信息分类。
一个资源文本可以提取多个关键信息,每个关键信息可以生成一条备选知识。将资源文本作为将该资源文本提取的关键信息所生成的备选知识的上下文。资源文本作为上下文,用于丰富备选知识,以及作为备选知识的补充内容。可以将备选知识和资源文本进行对应存储。
通过获取业务资源,并转换为资源文本提取关键信息生成备选知识,可以快速收集大量多领域的备选知识,增加备选知识的多样性和实时性,基于生成的备选知识,筛选业务知识,生成输入提示文本,可以增加输入提示文本的全面性和实时性,增加输入提示文本的业务代表性,进而提高大语言模型输出的思维图谱的准确性。
S102、根据所述业务描述信息和各所述业务知识,确定输入提示文本。
输入提示文本用于引导大语言模型根据输入的业务的功能描述和输出结构描述,结合业务知识,输出对应功能和结构的思维图谱。
可以预设输入提示文本的模板,并设置多个槽位,将业务描述信息和业务知识分别添加到对应的槽位中,生成输入提示文本。还可以将业务知识关联的内容添加到对应槽位中,生成输入提示文本。
可选的,所述根据所述业务描述信息和各所述业务知识,确定输入提示文本,包括:将所述业务描述信息与各所述业务知识对应的上下文进行融合,得到输入提示文本。
相对于业务知识,业务知识对应的上下文的内容更加丰富、全面和完整。也可以将业务描述信息、业务知识和业务知识对应的上下文进行融合,实际上,业务知识对应的上下文包含了业务知识的内容,可以仅将业务描述信息和业务知识对应的上下文进行融合,得到输入提示文本。
通过将业务知识对应的上下文与业务描述信息进行融合,可以增加输入提示文本的内容全面性和丰富性,增加输入提示文本的业务代表性,进而提高大语言模型输出的思维图谱的准确性。
S103、在未得到所述业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验。
思维图谱可以是指结构化文本,具有多个层级的文本。示例性的,结构或层级通过行进行表示,即思维图谱是多行文本,不同行表征不同层级,部分相邻行表征从属层级。同一行的文本表示同一层级的内容。思维图谱的内容可以是指业务描述信息对应的业务的处理步骤和处理结果。例如,业务描述信息为提供产品A的生产策略,思维图谱的内容是产品A各组成部分的生产流程以及组装流程等。又如,业务描述信息为报表的分析方案,思维图谱的内容是报表的分析维度,以及各分析维度下的统计结果等,示例性的,思维图谱如下所示:
-各区域近1年全量及物联燃气表缴费率(多维柱状图)
-各大区近1年全量缴费率
-指标明细
-各大区全量POID数量
其中,四行文本属于四个层级。其中,“各大区近1年全量缴费率”是“各区域近1年全量及物联燃气表缴费率(多维柱状图)”的下一层级;“指标明细”是“各大区近1年全量缴费率”的下一层级;“各大区全量POID(Purchase Order Identity Document,订单标识)数量”是“指标明细”的下一层级。
此外,结构或层级还可以通过顺序编码的序号进行表示,或者通过列进行表示。对此可以根据需要进行限定,不具体限定。
大语言模型对输入提示文本进行处理,可以得到至少一个思维图谱。大语言模型用于对输入的自然语言内容进行处理,输出思维图谱。示例性的,大语言模型的具体处理过程可以是对输入的文本进行编码,对编码结果进行解码,得到思维图谱。思维图谱中存在结果错误、语法和冗余等问题,为了避免生成的思维图谱质量较低,增加校验步骤。目标图谱可以是指满足需求且质量高的思维图谱,具体的,目标图谱可以是与业务描述信息的描述功能相匹配、正确、语法和精简等中的至少一项。大语言模型生成的思维图谱质量较差,需要重复生成思维图谱,直至生成通过校验的目标图谱。示例性的,可以预设校验条件,目标图谱为通过校验的思维图谱。校验条件可以包括语法校验条件、正确性校验条件和精简校验条件等。此外,还可以有其他校验条件,对此不具体限定。
需要说明的是,在开始阶段,大语言模型未输入信息,此时,直接确定未得到业务描述信息对应的目标图谱。针对其他的情况,需要对大语言模型输出的思维图谱进行判断,从而确定是否得到业务描述信息对应的目标图谱。
S104、在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱。
在全部思维图谱校验均不通过时,表明思维图谱的质量都较差,需要优化输入提示文本,重新生成思维图谱。优化图谱用于对输入提示文本进行更新,优化图谱重新确定业务知识,并添加到输入提示文本中,对输入提示文本进行更新。优化图谱可以是多个思维图谱中较佳图谱,例如,与业务描述信息的匹配程度较高,和/或较准确的图谱等。可以根据各思维图谱的校验结果,对各思维图谱进行筛选。更新输入提示文本之后,确定未得到业务描述信息对应的目标图谱,将更新的输入提示文本重新输入到大语言模型中得到新的思维图谱,校验新的思维图谱,校验不通过,重复更新输入提示文本并生成新的思维图谱,直至生成的新的思维图谱校验通过。
S105、在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
存在思维图谱校验通过,表明存在思维图谱满足业务描述信息关联的业务处理需求,可以将通过校验的思维图谱确定为目标图谱。此时确定得到了业务描述信息对应的目标图谱,无需循环更新输入提示文本,同时此时的输入提示文本最佳。若通过校验的思维图谱的数量有多个,可以从中选择最佳的思维图谱,确定为目标图谱,其中,思维图谱最佳,可以是指该思维图谱与业务描述信息的匹配程度最高,和/或思维图谱最准确等。此外还有其他目标图谱的确定方式,对此不具体限定。
本发明实施例的技术方案,通过获取业务描述信息,并查询对应的业务知识;通过将业务描述信息和业务知识进行融合,得到输入提示文本,并将输入提示文本输入到大语言模型中,得到思维图谱,在思维图谱未通过校验时,筛选出优化图谱,并更新输入提示文本,并重复输入到大语言模型中,直至存在思维图谱通过校验,确定目标图谱,实现迭代优化输入提示文本,使得生成的目标图谱更加符合需求和规范,进而提高大语言模型的性能和质量,解决了现有技术中业务数据的处理数据量大导致效率低、准确性差和完整性低的问题,可以对大量的业务知识进行统计处理,确保业务数据处理的完整性,同时减少人工处理业务数据的情况,提高业务数据处理的效率和准确性。
实施例二
图2为本发明实施例二提供的一种思维图谱生成方法的流程图。本发明实施例在上述实施例的基础上,对输入提示文本的更新操作进行了优化改进。
进一步地,将“根据各所述优化图谱更新所述输入提示文本”细化为“从各所述优化图谱中提取命名实体,确定为新增描述实体;根据所述新增描述实体,在所述多个备选知识中,查询所述新增描述实体对应的新增知识;将所述新增知识与所述输入提示文本进行融合,以更新所述输入提示文本”,以完善输入提示文本的更新操作。
需要说明的是,在本发明实施例中未详述的部分,可参见其他实施例的表述。
参见图2所示的思维图谱生成方法,包括:
S201、获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识。
可选的,所述在多个备选知识中,查询所述业务描述信息对应的业务知识,包括:对所述业务描述信息进行命名实体识别,得到至少一个业务描述实体;对各所述业务描述实体进行处理,得到各所述业务描述实体对应的实体向量;获取各所述备选知识对应的知识向量;计算各所述实体向量与各所述知识向量之间的相似度;根据各所述实体向量与各所述知识向量之间的相似度,在各所述知识向量中筛选出至少一个目标向量;根据各所述目标向量对应的备选知识,确定所述业务描述信息对应的业务知识。
业务描述信息中命名实体可以理解为业务描述信息中关键信息,根据业务描述信息中命名实体进行知识查询,可以准确查询到备选知识,减少冗余知识,同时可以减少无效查询。
对业务描述实体进行特征提取,得到业务描述实体对应的实体向量。对备选知识进行特征提取,得到备选知识对应的知识向量。特征提取可以采用Word2Vec词向量模型实现。计算每个实体向量与每个知识向量之间的相似度。向量之间的相似度可以采用余弦相似度或欧氏距离等计算得到。在知识向量中,筛选出相似度最高的至少一个知识向量,确定为目标向量。其中,可以针对每个实体向量,分别筛选各实体向量相似度最高的至少一个目标向量,也可以针对全部实体向量综合筛选出相似度最高的至少一个目标向量。业务知识为目标向量对应的备选知识。
通过对业务描述信息进行命名实体提取,并特征提取得到实体向量,分别与各备选知识的知识向量进行相似比较,筛选出相似的至少一个目标向量,并将目标向量对应的备选知识,确定为业务知识,可以准确筛选出实现业务描述信息对应的业务知识,并添加到输入提示文本中,可以提高提示文本的准确性,增加输入的内容的丰富性和代表性,从而提高生成的思维图谱的准确性。
S202、根据所述业务描述信息和各所述业务知识,确定输入提示文本。
S203、在未得到所述业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验。
在一个可选的实施例中,对各思维图谱进行校验,包括:计算各思维图谱与业务描述信息对应的真值图谱之间的差异;计算各思维图谱的困惑度;根据各思维图谱的差异和/或困惑度,确定各思维图谱的质量分数;根据各思维图谱的质量分数,对各思维图谱进行校验。
真值图谱可以是指业务描述信息对应的正确的图谱。真值图谱可以是人工标注得到的思维图谱。可以计算思维图谱与真值图谱之间的相似度,确定为思维图谱与真值图谱之间的差异。
示例性的,BLEU(Bilingual Evaluation Understudy,双语评估替补)是一种常用的NLP(Natural Language Processing,自然语言处理)评价指标,用于评估输出文本与参考文本的相似程度。BLEU指标的计算方法是基于n-gram匹配的,其中n表示匹配的n-gram长度。基于如下公式计算BLEU:
其中,BP是惩罚因子,pn是n-gram的命中率。具体的,可以将输出的思维图谱与人工标注的真值图谱进行比较,计算其n-gram匹配数量,然后将匹配数量除以总的n-gram数量得到匹配率。最终评估结果是匹配率的几何平均值。
困惑度用于表征思维图谱中句子是否正确。困惑度(Perplexity)是一种常用的语言模型评价指标,用于衡量语言模型的预测准确性。困惑度越低,表示大语言模型的预测结果越准确。困惑度Perplexity的计算公式如下:
其中,表示大语言模型预测第i个词的概率,/>表示对数概率,n表示测试集中词语的总数。
困惑度的计算过程如下:对于思维图谱中的每个句子,将其拆分为单词序列。对于每个单词,使用大语言模型计算其概率值。将所有单词的对数概率值相加,得到log-likelihood。将log-likelihood除以思维图谱中词语的总数,得到平均对数概率。对平均对数概率取指数,得到困惑度。困惑度的取值范围为正实数,越小表示大语言模型的预测准确性越高。
可以将思维图谱的差异和困惑度进行加权求和,计算思维图谱的质量分数。将质量分数小于预设质量阈值的思维图谱确定校验未通过;将质量分数大于或等于质量阈值的思维图谱,确定校验通过。
此外,还可以预先训练思维图谱评价模型,思维图谱评价模型用于输入思维图谱,输出思维图谱的质量分数。思维图谱评价模型的训练数据可以包括思维图谱,以及经过前述方式计算差异和困惑度,并加权求和得到的质量分数,或者,训练数据可以包括思维图谱,以及人工标注的质量分数。
S204、在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱。
S205、从各所述优化图谱中提取命名实体,确定为新增描述实体。
新增描述实体与业务描述信息关联。新增描述实体用于作为业务描述信息的相似实体,筛选更多更丰富的备选知识。可以对优化图谱中文本进行命名实体识别,并将识别到的命名实体确定为新增描述实体。
示例性的,业务描述信息为:保险业务生命周期,新增描述实体可以包括:保险业务的新购买用户和保险业务的历史用户等。
S206、根据所述新增描述实体,在所述多个备选知识中,查询所述新增描述实体对应的新增知识。
新增知识用于作为新的数据支撑。新增知识的数量为至少一个。
S207、将所述新增知识与所述输入提示文本进行融合,以更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱。
可以在输入提示文本的业务知识之后添加新增知识。
S208、在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
本发明实施例通过从优化图谱中提取新增描述实体,并查询新增描述实体对应的新增知识,将新增知识添加到输入提示文本中,更新输入提示文本,可以在输入提示文本中,添加更多的业务相关知识,提高提示文本的内容丰富性和业务代表性,进而提高生成的图谱的准确性。
实施例三
图3为本发明实施例三提供的一种思维图谱生成方法的流程图。本发明实施例在上述实施例的基础上,进行了追加优化。
进一步地,在“将所述思维图谱,确定为所述业务描述信息对应的目标图谱”之后,追加“从所述思维图谱中提取至少一层的单元文本,以及各所述单元文本之间的层级关系;将各所述单元文本确定为业务节点;根据各所述单元文本之间的层级关系,确定相应业务节点之间的关联关系;根据各所述业务节点以及各所述业务节点之间的关联关系,构建思维导图;在各所述业务节点中,筛选出参数节点;在预设的数据库中,查询各所述参数节点对应的业务数据,并建立所述参数节点与对应的业务数据之间的对应关系”,以完善生成目标图谱操作。
需要说明的是,在本发明实施例中未详述的部分,可参见其他实施例的表述。
参见图3所示的思维图谱生成方法,包括:
S301、获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识。
S302、根据所述业务描述信息和各所述业务知识,确定输入提示文本。
S203、在未得到所述业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验。
S304、在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱。
S305、在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
S306、从所述思维图谱中提取至少一层的单元文本,以及各所述单元文本之间的层级关系。
思维图谱是结构化文本。如前例,思维图谱包括多行文本,不同行代表不同层级。对思维图谱进行按行划分,同一行的文本确定为同一层级的单元文本;不同行的文本确定为不同层级的单元文本。根据多行的文本的缩进距离,确定相应层级之间的从属关系。例如,多行的文本的缩进距离是递增,确定该多行的文本对应的单元文本的层级是逐层递进,且在后的行的文本对应层级的单元文本,从属于在前的行的文本对应层级的单元文本。
又如,思维图谱包括顺序编号的文本,按照编号的顺序,确定单元文本的层级以及从属关系。此外,还有其他情况,对此不具体限定。
S307、将各所述单元文本确定为业务节点,并根据各所述单元文本之间的层级关系,确定相应业务节点之间的关联关系。
将一个单元文本确定为业务节点。并根据两个单元文本之间的层级关系,确定相应两个业务节点之间的层级关系。若两个单元文本之间相互独立,无关系,则确定相应两个业务节点之间的关联关系为空。若两个单元文本之间存在从属关系,建立相应两个业务节点之间的关联关系,并且确定关联关系中,两个业务节点的主节点和从节点。
S308、根据各所述业务节点以及各所述业务节点之间的关联关系,构建思维导图。
根据业务节点,创建思维导图中的节点;根据业务节点之间的关联关系,在思维导图中存在关联关系的节点之间,生成箭头连接,箭头方向和从属关系对应,例如主节点指向从节点。
S309、在各所述业务节点中,筛选出参数节点。
参数节点可以是需要进行外部链接数据的节点。参数节点用于提供源数据,并用于相应业务任务所需的计算操作。业务节点中,除了参数节点,还可以有算法节点和其他节点等。
S310、在预设的数据库中,查询各所述参数节点对应的业务数据,并建立所述参数节点与对应的业务数据之间的对应关系。
数据库中存储有大量的数据,用于业务计算。参数节点对应的业务数据可以是指该参数节点指代的数据。示例性的,参数节点为1月12日的A区每小时用电量,该参数节点对应的业务数据为1月12日的A区用电量的数值集合,具体可以包括每隔一个小时的A区用电量统计值。
可以根据参数节点的内容,对应生成数据库语句,在数据库中查询该参数节点对应的业务数据。建立参数节点与该参数节点与业务数据之间的对应关系,可以是指根据参数节点可以查询到对应的业务数据。
可选的,所述业务知识包括报表知识;在建立所述参数节点与对应的业务数据之间的对应关系之后,还包括:获取所述思维导图中各所述参数节点关联的算法节点;根据各所述参数节点,关联的算法节点以及各所述参数节点对应的业务数据,生成所述业务描述信息对应的报表数据。
业务知识为报表知识,业务描述信息为报表描述信息。算法节点可以是指对业务数据进行计算的算法的文本内容的节点。参数节点关联的算法节点可以是指算法节点对应的算法的输入数据为参数节点对应的业务数据。参数节点与关联的算法节点属于同一上层节点。如前例,参数节点为1月12日的A区每小时用电量,算法节点为1月12日的A区24小时用电量之和,上层节点为1月12日的A区用电量。
报表数据可以是指算法节点对应的算法对关联的参数节点对应的业务数据进行处理得到的处理结果。该处理结果用于作为报表中填充的数据,生成报表。参数节点与关联的算法节点生成的处理结果,通常是参数节点与关联的算法节点所属的同一上层节点的数值。
通过在报表处理的应用场景中,获取思维导图中参数节点以及关联的算法节点,并根据指向的数据进行计算处理,得到处理结果,作为报表数据,并生成报表,可以快速对报表进行分析,同时可以针对报表知识对查询到的业务数据进行处理,增加报表处理的全面性和完整性。
本发明实施例通过根据生成的目标图谱,提取至少一个层级的单元文本,并基于各层级的单元文本之间的层级关系,构建思维导图,实现对目标图谱进行结构化分析,便于准确快速展示业务描述信息对应的业务数据,并且还可以在数据库中查询参数节点对应的业务数据,并建立对应关系,可以快速链接外部业务相关数据,为业务提供数据支撑,并且快速提供准确的待计算数据,加快业务处理任务的处理速度。
在现代企业管理中,报表分析是一个非常重要的环节。通过对企业的各种数据进行统计和分析,可以帮助企业了解自身的经营状况,制定相应的经营策略和决策。然而,由于数据量庞大和复杂性高,传统的报表分析方法往往需要大量的人力和时间,而且难以保证分析的准确性和完整性。
本发明实施例提出了一种基于大语言模型与知识融合的报表分析的思维图谱生成方法。该方法利用大语言模型对报表数据进行建模,并结合领域专家的知识对模型进行优化和调整,最终生成一张能够自动分析和展示报表数据的思维导图。该方法的优点在于,它不需要大量的人力和时间,而且可以自动学习和调整模型,提高分析的准确性和完整性。同时,由于利用了大语言模型的强大建模能力,该方法可以处理各种类型的报表数据,包括财务报表、销售报表和生产报表等。可以帮助企业快速、准确地分析和展示各种数据,为企业的经营管理提供有力的支持。
在一个具体的例子中,如图4所示:
将业务描述信息输入到实体抽取模块,进行实体抽取。具体的,使用NLP中文分词技术,将用户输入的业务描述信息进行分词和词性标注。利用命名实体识别技术,从业务描述信息中提取出命名实体,如人名、地名和组织机构名等,使用CRF(Conditional RandomFields,条件随机场)模型进行实体识别。对提取出的命名实体进行分类和归类,将其标记为不同的类型,如人物、地点和时间等,使用规则匹配或者机器学习算法进行实体分类。
将报表的相关资源,输入到OCR结构化提取模块,利用OCR识别进行资源的结构化提取。具体的,使用OCR技术,将报表资源转换为可编辑的文本格式。对转换后的资源文本进行结构化处理,提取出其中的关键信息,作为备选知识,如表格中的数据、标题和副标题等,使用表格识别算法或者规则匹配进行结构化提取。可以将备选知识添加到知识库中。还可以对提取出的关键信息进行分类和归类,将其标记为不同的类型,如数字、日期和标题等,如使用分类算法进行信息分类。
对提取的备选知识,进行向量化操作,得到知识向量,并添加到知识库中,与备选知识进行对应保存。具体的,可以使用特征工程技术,将提取出的备选知识转换为向量表示,使用词嵌入的方法进行向量化。将向量化后的知识向量存储到知识库中,以便后续的查询和检索,或者可以将知识向量存储在知识库关联的向量数据库中。
将命名实体抽取得到的实体向量和知识向量进行向量匹配,通过匹配的相似度进行关键上下文向量查询。将实体向量转换为向量表示,如使用Word2Vec词向量模型进行实体向量化。将实体向量与知识向量进行相似度计算,找出与之最相似的知识向量,如使用余弦相似度或者欧氏距离进行向量相似度计算。根据匹配的相似度,查询知识向量对应的备选知识,以及查询备选知识所属的上下文,查询与命名实体相关的关键上下文信息,如使用倒排索引或者近似最近邻算法进行查询。
业务描述信息以及通过向量匹配查询到的关键上下文信息融合成输入提示文本输入到大语言模型中,获得思维图谱。例如输入为获取一年度的某种类型汽车销售报表,大语言模型将根据输入的汽车相关销售数据进行整理,输出根据报表相关的字段以及数据,构成思维图谱的形式,供后续进行报表生成。
将生成的若干思维图谱输入到评估模块,进行评估,评估方式分为人工以及自动评估。具体的,评估方式可以包括人工评估和自动评估,人工评估可以由专业人员进行,自动评估利用特定领域训练的评估模型进行评估打分。
若评估未通过,对质量分数前3的思维图谱重新进行实体抽取,再次向量匹配到业务知识对应的上下文,完善更新输入提示文本。在各思维图谱的质量分数均小于相应质量阈值,确定各思维图谱评估均未通过。如果各思维图谱评估均未通过,选择从评分最高的前三个思维图谱从中抽取新的命名实体,作为新增描述实体。将新的实体与知识库中各备选知识的知识向量进行向量匹配,得到新的关键上下文信息,使用同样的向量匹配技术进行重新匹配,这样可以从知识库中获取更多的关键信息。将新的关键上下文信息与原有的输入提示文本进行融合,生成优化后的输入提示文本。
在存在思维图谱的质量分数大于或等于相应质量阈值,确定该思维图谱评估通过。若存在思维图谱评估通过则将思维图谱输入到格式化模块,通过对思维图谱进行冗余校验和通顺度校验等,再进行格式化操作输出最终的思维导图,为用户提供最终的数据分析方案。
具体的,在格式化模块中,对思维图谱进行冗余校验,确保思维图谱中的信息没有重复,如使用树结构的冗余检测算法进行冗余检测。对思维图谱进行通顺度校验,确保思维图谱中的信息逻辑连贯,如使用自然语言处理技术进行通顺度分析。进行格式化操作,将思维图谱转换为最终的数据分析方案,如使用图可视化技术进行格式化操作,输出最终的思维导图。
在一个具体的例子中,用户输入的业务描述信息为:XX企业客户报表分析方案。
输入:XX企业客户报表分析方案
输出:思维图谱如下:
-保险业务家户生命周期(柱状图)
-新增用户数
-指标明细
-无历史保单且近1年内购买保险的全新用户
-留存用户数
-指标明细
-近1-2年间购买且保单仍有效的用户
-流失用户数
-指标明细
-近2年内购买,但截至统计时间点,其保单已失效,未购新保险
-流失召回用户数
-指标明细
-近1-2年间购买,但在1年前保单失效且在近1年再购新保险的用户
-各区域近1年全量及物联燃气表缴费率(多维柱状图)
-各大区近1年全量缴费率
-指标明细
-各大区全量POID数量
-各大区近1年缴费POID数量
-计算公式
-各大区近1年缴费POID数量/各大区全量POID数量
-各区域近1年物联表缴费率
-指标明细
-各大区全量POID数量
-各大区近1年缴费POID数量
-各大区物联表占比
-计算公式
-(各大区近1年缴费POID数量/各大区全量POID数量)/各大区物联表占比
对思维图谱进行格式化,将各行的文本构建思维导图的业务节点,根据不同行的文本之间的行的相邻关系以及不同行的文本的缩进距离,确定各行的文本的层级关系,并构建思维导图的业务节点之间的关联关系。基于上述实例的思维导图,构建的思维导图,如图5所示。
在构建的思维导图的业务节点中,筛选出参数节点,并与数据库中业务数据进行映射,实现数据库对齐。示例性的,思维图谱中,各大区1年缴费POID数量,与数据库中各大区1年缴费的数量的数值进行对应。
针对各参数节点,在非参数节点中查询参数节点关联的算法节点。示例性的,参数节点和算法节点属于同一上层节点。如前例思维图谱中:参数节点:各大区全量POID数量、各大区近1年缴费POID数量和各大区物联表占比。这三个参数节点均与算法节点((各大区近1年缴费POID数量/各大区全量POID数量)/各大区物联表占比)关联,且同属于同一上层节点(各区域近1年物联表缴费率)。算法节点和关联的参数节点的处理结果,即为该同一上层节点表征的参数的数值。根据各算法节点和关联的参数节点,生成属性值,并根据同一上层节点生成相应字段名,将字段名与相应属性值,生成报表中同一列数据。将思维导图可生成的各列数据,进行组合,生成报表。此外,还可以根据字段名和相应属性值,生成报表图,或者将报表数据转换为报表图,报表图可以参考如图6和图7所示的根据前述思维导图生成的柱状图。
现有技术中,通常依赖于庞大知识库的构建,需要足够数量的文件以及知识支持,才能较好的生成相应的思维图谱;依赖于大语言模型本身的性能,在输出过程中可能会出现幻觉现象,导致输出的思维图谱的质量不稳定。
本发明实施例,通过使用对报表资源进行文本结构化提取知识建立知识库,可以覆盖广泛领域的内容,提供足够的数据和知识支撑;通过迭代提取大量知识的方式,获取足够的关键信息来完善提示文本,从而提升生成思维图谱的质量,通过增加输入的内容的丰富性和代表性,避免大语言模型的幻觉现象;同时将大语言模型应用到企业报表分析的领域,有着广泛的适用性以及前景。
实施例四
图8为本发明实施例四提供的一种思维图谱生成装置的结构示意图。本发明实施例可适用于对业务描述信息进行处理生成业务描述信息的思维图谱的情况,该装置可以执行思维图谱生成方法,该装置可以采用硬件和/或软件的形式实现。
参见图8所示的思维图谱生成装置800,包括:描述信息获取模块801、提示文本生成模块802、图谱校验模块803、提示文本调整模块804和目标图谱生成模块805,其中,
描述信息获取模块801,用于获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;
提示文本生成模块802,用于根据所述业务描述信息和各所述业务知识,确定输入提示文本;
图谱校验模块803,用于在未得到业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;
提示文本调整模块804,用于在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱;
目标图谱生成模块805,用于在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
本发明实施例的技术方案,通过获取业务描述信息,并查询对应的业务知识;通过将业务描述信息和业务知识进行融合,得到输入提示文本,并将输入提示文本输入到大语言模型中,得到思维图谱,在思维图谱未通过校验时,筛选出优化图谱,并更新输入提示文本,并重复输入到大语言模型中,直至存在思维图谱通过校验,确定目标图谱,实现迭代优化输入提示文本,使得生成的目标图谱更加符合需求和规范,进而提高大语言模型的性能和质量,解决了现有技术中业务数据的处理数据量大导致效率低、准确性差和完整性低的问题,可以对大量的业务知识进行统计处理,确保业务数据处理的完整性,同时减少人工处理业务数据的情况,提高业务数据处理的效率和准确性。
进一步的,所述提示文本调整模块804,包括:新增描述实体生成单元,用于从各所述优化图谱中提取命名实体,确定为新增描述实体;新增知识查询单元,用于根据所述新增描述实体,在所述多个备选知识中,查询所述新增描述实体对应的新增知识;提示文本更新单元,用于将所述新增知识与所述输入提示文本进行融合,以更新所述输入提示文本。
进一步的,所述思维图谱生成装置还包括:备选知识获取模块,用于:获取业务资源;对所述业务资源进行处理,得到所述业务资源对应的资源文本;从所述资源文本中提取关键信息,生成备选知识,并将所述资源文本确定为所述备选知识的上下文。
进一步的,所述提示文本生成模块802,包括:提示文本生成单元,用于将所述业务描述信息与各所述业务知识对应的上下文进行融合,得到输入提示文本。
进一步的,所述描述信息获取模块801,包括:描述实体提取单元,用于对所述业务描述信息进行命名实体识别,得到至少一个业务描述实体;实体向量获取单元,用于对各所述业务描述实体进行处理,得到各所述业务描述实体对应的实体向量;知识向量获取单元,用于获取各所述备选知识对应的知识向量;向量相似检测单元,用于计算各所述实体向量与各所述知识向量之间的相似度;目标向量筛选单元,用于根据各所述实体向量与各所述知识向量之间的相似度,在各所述知识向量中筛选出至少一个目标向量;业务知识检测单元,用于根据各所述目标向量对应的备选知识,确定所述业务描述信息对应的业务知识。
进一步的,所述思维图谱生成装置还包括:层级关系提取模块,用于在将所述思维图谱,确定为所述业务描述信息对应的目标图谱之后,从所述思维图谱中提取至少一层的单元文本,以及各所述单元文本之间的层级关系;关联关系检测模块,用于将各所述单元文本确定为业务节点,并根据各所述单元文本之间的层级关系,确定相应业务节点之间的关联关系;思维导图建立模块,用于根据各所述业务节点以及各所述业务节点之间的关联关系,构建思维导图;参数节点检测模块,用于在各所述业务节点中,筛选出参数节点;业务数据映射模块,用于在预设的数据库中,查询各所述参数节点对应的业务数据,并建立所述参数节点与对应的业务数据之间的对应关系。
进一步的,所述业务知识包括报表知识;所述思维图谱生成装置还包括:算法节点检测模块,用于在建立所述参数节点与对应的业务数据之间的对应关系之后,获取所述思维导图中各所述参数节点关联的算法节点;报表数据生成模块,用于根据各所述参数节点,关联的算法节点以及各所述参数节点对应的业务数据,生成所述业务描述信息对应的报表数据。
本发明实施例所提供的思维图谱生成装置可执行本发明任意实施例所提供的思维图谱生成方法,具备执行思维图谱生成方法相应的功能模块和有益效果。
实施例五
图9示出了可以用来实施本发明的实施例的电子设备900的结构示意图。
如图9所示,电子设备900包括至少一个处理器901,以及与至少一个处理器901通信连接的存储器,如只读存储器(ROM)902、随机访问存储器(RAM)903等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器901可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储电子设备900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器901可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器901执行上文所描述的各个方法和处理,例如思维图谱生成方法。
在一些实施例中,思维图谱生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由处理器901执行时,可以执行上文描述的思维图谱生成方法的一个或多个步骤。备选地,在其他实施例中,处理器901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行思维图谱生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种思维图谱生成方法,其特征在于,所述方法包括:
获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;
根据所述业务描述信息和各所述业务知识,确定输入提示文本;
在未得到所述业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;
在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱;
在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述优化图谱更新所述输入提示文本,包括:
从各所述优化图谱中提取命名实体,确定为新增描述实体;
根据所述新增描述实体,在所述多个备选知识中,查询所述新增描述实体对应的新增知识;
将所述新增知识与所述输入提示文本进行融合,以更新所述输入提示文本。
3.根据权利要求1所述的方法,其特征在于,所述备选知识,通过如下方式获取:
获取业务资源;
对所述业务资源进行处理,得到所述业务资源对应的资源文本;
从所述资源文本中提取关键信息,生成备选知识,并将所述资源文本确定为所述备选知识的上下文。
4.根据权利要求3所述的方法,其特征在于,所述根据所述业务描述信息和各所述业务知识,确定输入提示文本,包括:
将所述业务描述信息与各所述业务知识对应的上下文进行融合,得到输入提示文本。
5.根据权利要求1所述的方法,其特征在于,所述在多个备选知识中,查询所述业务描述信息对应的业务知识,包括:
对所述业务描述信息进行命名实体识别,得到至少一个业务描述实体;
对各所述业务描述实体进行处理,得到各所述业务描述实体对应的实体向量;
获取各所述备选知识对应的知识向量;
计算各所述实体向量与各所述知识向量之间的相似度;
根据各所述实体向量与各所述知识向量之间的相似度,在各所述知识向量中筛选出至少一个目标向量;
根据各所述目标向量对应的备选知识,确定所述业务描述信息对应的业务知识。
6.根据权利要求1所述的方法,其特征在于,在将所述思维图谱,确定为所述业务描述信息对应的目标图谱之后,还包括:
从所述思维图谱中提取至少一层的单元文本,以及各所述单元文本之间的层级关系;
将各所述单元文本确定为业务节点,并根据各所述单元文本之间的层级关系,确定相应业务节点之间的关联关系;
根据各所述业务节点以及各所述业务节点之间的关联关系,构建思维导图;
在各所述业务节点中,筛选出参数节点;
在预设的数据库中,查询各所述参数节点对应的业务数据,并建立所述参数节点与对应的业务数据之间的对应关系。
7.根据权利要求6所述的方法,其特征在于,所述业务知识包括报表知识;
在建立所述参数节点与对应的业务数据之间的对应关系之后,还包括:
获取所述思维导图中各所述参数节点关联的算法节点;
根据各所述参数节点,关联的算法节点以及各所述参数节点对应的业务数据,生成所述业务描述信息对应的报表数据。
8.一种思维图谱生成装置,其特征在于,包括:
描述信息获取模块,用于获取业务描述信息,并在多个备选知识中,查询所述业务描述信息对应的业务知识;
提示文本生成模块,用于根据所述业务描述信息和各所述业务知识,确定输入提示文本;
图谱校验模块,用于在未得到业务描述信息对应的目标图谱时,将所述输入提示文本输入到预先训练的大语言模型中,生成业务描述信息对应的至少一个思维图谱,并对各所述思维图谱进行校验;
提示文本调整模块,用于在各所述思维图谱校验均不通过时,在各所述思维图谱中筛选出至少一个优化图谱,以及根据各所述优化图谱更新所述输入提示文本,并确定未得到业务描述信息对应的目标图谱;
目标图谱生成模块,用于在存在思维图谱校验通过时,将所述思维图谱,确定为所述业务描述信息对应的目标图谱。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的思维图谱生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的思维图谱生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410283702.9A CN118069892A (zh) | 2024-03-13 | 2024-03-13 | 思维图谱生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410283702.9A CN118069892A (zh) | 2024-03-13 | 2024-03-13 | 思维图谱生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118069892A true CN118069892A (zh) | 2024-05-24 |
Family
ID=91096980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410283702.9A Pending CN118069892A (zh) | 2024-03-13 | 2024-03-13 | 思维图谱生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118069892A (zh) |
-
2024
- 2024-03-13 CN CN202410283702.9A patent/CN118069892A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
Gong et al. | A survey on dataset quality in machine learning | |
CN110782123B (zh) | 决策方案的匹配方法、装置、计算机设备及存储介质 | |
CN114168716A (zh) | 基于深度学习的工程造价自动抽取和分析方法及装置 | |
CN110196834A (zh) | 一种用于数据项、文件、数据库的对标方法和系统 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN112288455A (zh) | 标签生成方法及装置、计算机可读存储介质、电子设备 | |
CN113515600B (zh) | 一种基于元数据的空间分析自动计算方法 | |
CN112905868A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
CN115952298A (zh) | 供应商履约风险分析方法及相关设备 | |
CN115470785A (zh) | 基于大数据的债券风险信息处理方法及相关设备 | |
US20200097605A1 (en) | Machine learning techniques for automatic validation of events | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN116244421A (zh) | 项目名称匹配的方法、装置、设备及可读存储介质 | |
CN115544235A (zh) | 一种基于文本解析的电网规划智能问答系统 | |
CN118069892A (zh) | 思维图谱生成方法、装置、设备及介质 | |
CN115577108A (zh) | 一种变压器故障图谱构建方法及相关设备 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN114049642A (zh) | 一种表格证件影像件的文本识别方法及计算设备 | |
CN113378543B (zh) | 数据分析方法、训练数据分析模型的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |