CN118227767B - 知识图谱驱动大模型的商业智能决策问答系统及方法 - Google Patents

知识图谱驱动大模型的商业智能决策问答系统及方法 Download PDF

Info

Publication number
CN118227767B
CN118227767B CN202410642015.1A CN202410642015A CN118227767B CN 118227767 B CN118227767 B CN 118227767B CN 202410642015 A CN202410642015 A CN 202410642015A CN 118227767 B CN118227767 B CN 118227767B
Authority
CN
China
Prior art keywords
data
business
target
knowledge
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410642015.1A
Other languages
English (en)
Other versions
CN118227767A (zh
Inventor
许荣耀
梁海涛
严颖
吴昊天
祝玉杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Zhongbang Network Technology Co ltd
Original Assignee
Xi'an Zhongbang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Zhongbang Network Technology Co ltd filed Critical Xi'an Zhongbang Network Technology Co ltd
Priority to CN202410642015.1A priority Critical patent/CN118227767B/zh
Publication of CN118227767A publication Critical patent/CN118227767A/zh
Application granted granted Critical
Publication of CN118227767B publication Critical patent/CN118227767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱驱动大模型的商业智能决策问答系统及方法,所述系统包括:数据仓库单元用于从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块;联机分析单元用于将仓库模块中的数据封装为结构化数据;查询单元用于将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元;驱动决策单元用于根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据;以及答复单元用于将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。通过本申请的方案,能够同时处理多种异构数据,提高数据分析的准确性和适应性。

Description

知识图谱驱动大模型的商业智能决策问答系统及方法
技术领域
本申请涉及商业智能领域,尤其涉及一种知识图谱驱动大模型的商业智能决策问答系统及方法。
背景技术
在当前社会的商业决策过程中,信息技术的应用日益成为提高决策质量和效率的关键因素之一。商业智能(Business Intelligence, BI)作为一种集数据采集、处理、分析于一体的技术系统,能够为企业管理和决策提供科学的信息支持。特别是在此背景下,商业智能决策问答系统(BI Decision Support Systems, DSS)发挥着日益重要的作用,它不仅能够帮助企业快速响应市场变化,还能在复杂的商业环境中提供策略支持和风险评估。商业智能决策问答系统源于商业智能技术的发展,是企业信息系统的重要组成部分。这类系统通过分析企业内外部的大量数据,帮助决策者洞察业务趋势、客户需求和市场动态。例如,通过分析过往的销售数据,BI系统可以预测未来的市场需求,指导生产和库存管理。此外,它还能通过分析顾客行为,帮助企业优化营销策略和提升客户服务质量。
目前,商业智能决策问答系统主要依赖于数据仓库、在线分析处理(OLAP)、数据挖掘等技术。数据仓库提供了数据的集中存储和管理平台,OLAP允许用户从多个维度进行快速、灵活的查询和分析,而数据挖掘技术则通过算法挖掘数据中的模式和关联。这些技术共同工作,为用户提供了一个从数据中提取和分析信息的强大工具。尽管现有技术在很多方面都表现出色,但仍存在一些不足。例如,传统的数据分析模型对于数据质量和数据结构的要求较高,数据的不完整性或不一致性可能会严重影响决策的质量。此外,现有的BI系统往往依赖于静态的报表和仪表板,缺乏足够的灵活性来应对快速变化的市场条件。目前诸多企业的信息化或智能化建设存在不系统、不全面、不统一,没有从根本上解决信息孤岛、数据碎片、管理低效等问题。
因此,亟需一种技术方案,从而能够同时处理多种异构数据,提高数据分析的准确性和适应性。
发明内容
为了解决现有技术的不足,本申请实施例提供了一种知识图谱驱动大模型的商业智能决策问答系统及方法。本申请解决了现有技术只能处理单一结构数据,数据分析准确率较低等技术问题。
本申请实施例提供了知识图谱驱动大模型的商业智能决策问答系统,包括:数据仓库单元、联机分析单元、查询单元、驱动决策单元和答复单元;其中,所述数据仓库单元用于从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块;其中所述数据仓库单元根据自适应算法计算构建仓库模块的数量;所述自适应算法包括:,其中,表示仓库模块的数量,表示数据量,表示数据类型的复杂性指数,表示处理复杂度,表示数据的处理复杂度,表示访问频率的权重系数,表示数据访问频率,表示单位仓库成本下的存储效益;所述联机分析单元用于将仓库模块中的数据封装为结构化数据;所述查询单元用于将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元;所述驱动决策单元用于根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据;以及所述答复单元用于将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。
一种可以的实现方式中,其中所述数据仓库单元包括数据过渡层和至少一个仓库模块;在从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块中:所述数据过渡层用于从业务系统中抽取目标业务数据;对目标业务数据进行格式转换和数据清洗的操作,以对异构的目标业务数据进行统一;将统一后的目标业务数据存储到对应的仓库模块中;保留当前时间节点至预设时间步长之前的时间间隔内的目标业务数据,以作为周期备份数据。
一种可以的实现方式中,其中将仓库模块中的数据封装为结构化数据,包括:将数据按一个或多个维度的顺序向更高层级聚合;从一维或多维数据集中按预设选择维度的特定数值选取出一组目标数值数据;从一维或多维数据集中按预设选择维度的特定数值区间选取出一组目标区间数据;以及将目标数值数据和目标区间数据封装为结构化数据。
一种可以的实现方式中,其中将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元,包括:将商业问题转化为一个或拆分为多个第一形式化知识,以得到知识图谱可操作的API。
一种可以的实现方式中,其中根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据,包括:通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱;以及将API和知识图谱中的实体或三元组转化为向量表示,以通过向量相似度匹配来召回最相关的目标数据。
一种可以的实现方式中,其中将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案,包括:将召回的目标数据与商业问题填入提示词模板中,以得到目标提示词;以及将目标提示词输入到大语言模型中,以输出用于回复用户的商业问题的答案。
一种可以的实现方式中,其中通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱,包括:从对应的仓库模块中抽取出包括实体、概念和关系的知识要素;以及将抽取的知识要素组织为结构化的本体模式,以定义实体类型、关系类型及其属性。
一种可以的实现方式中,其中将API和知识图谱中的实体或三元组转化为向量表示,以通过向量相似度匹配来召回最相关的目标数据,包括:根据预设算法计算向量相似度;所述预设算法包括:,其中,表示向量相似度,分别表示用于计算的向量。
本申请实施例还提供了知识图谱驱动大模型的商业智能决策问答方法,包括:从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块; 将仓库模块中的数据封装为结构化数据;将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元;根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据;以及将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。
本申请实施例还提供了知识图谱驱动大模型的商业智能决策问答设备,包括:处理器、存储器、系统总线;其中,所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述实施例所述的方法。
通过如上所提供的一种知识图谱驱动大模型的商业智能决策问答系统、方法及设备,本申请实施例通过联合知识图谱驱动的大模型进行商业智能决策,能够同时处理多种异构数据,提高数据分析的准确性和适应性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的知识图谱驱动大模型的商业智能决策问答系统的示意图;
图2为本申请实施例提供的知识图谱驱动大模型的商业智能决策问答方法的流程示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可以不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的知识图谱驱动大模型的商业智能决策问答系统的示意图。需要理解的是,图中所示系统是示例性而非限制性的。这意味着所涉及的系统架构并不受限于特定的形式或设计,而是作为示例来呈现。换言之,图中展示的架构可以被视为一种表达方式,用以清晰地描述相关概念和关系,并不排斥其他形式的架构。因此,在解释所述图片中架构时,应当理解该模型具有灵活性和多样性,其目的在于提供一种示例性描述,而非对特定形式的限制性规定。具体地,在本申请实施例中的一种知识图谱驱动大模型的商业智能决策问答系统包括:数据仓库单元、联机分析单元、查询单元、驱动决策单元和答复单元。接下来,将结合图2对所述单元的功能做进一步的说明。
图2为本申请实施例提供的知识图谱驱动大模型的商业智能决策问答方法的流程示意图。
如图2所示,在步骤S201处,所述数据仓库单元用于从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块。具体而言,数据仓库单元(DataWarehouse Unit)是一种设计用来从业务系统中抽取目标业务数据,并将其有效存储到相应的仓库模块的技术实现。这种单元通常作为数据集成的一部分,能够处理来自不同数据源的大量数据。在本技术中,数据仓库单元不仅仅执行数据抽取和存储的基本功能,更通过一种高度优化的机制,根据数据的实际需求和资源的可用性动态调整仓库模块的数量。这种动态调整机制使得数据仓库系统能够高效地适应不断变化的业务需求和数据环境,提升整体的存储效率和数据处理能力。
其中所述数据仓库单元根据自适应算法计算构建仓库模块的数量,自适应算法用于计算和构建仓库模块的数量。该算法是一个复合函数,其输入包括数据量、数据类型的复杂性、数据处理复杂度以及数据访问频率,输出则是根据这些输入调整的仓库模块的数量,所述自适应算法包括:
其中,表示仓库模块的数量,根据从业务系统抽取的数据量和数据类型(如结构化数据、非结构化数据等)来估计所需的存储资源,表示数据量,表示数据类型的复杂性指数,表示处理复杂度,表示数据的处理复杂度(如需要进行大量的数据清洗、转换等操作),表示访问频率的权重系数,表示数据访问频率(如高频访问的数据可能需要更多的冗余或更快的访问速度),表示单位仓库成本下的存储效益。
进一步地,在一个实施场景中,D表示从业务系统中抽取的总数据量,通常以GB或TB为单位。D的值通过统计每日或每时从业务系统中导入数据仓库系统的数据大小来获得。例如,如果一个电商系统每天产生1TB的交易数据,则D=1024(1TB等于1024GB)。
T是一个衡量数据类型复杂性的指数,它反映了数据结构的复杂度和处理难度。这个指数可以根据数据的结构化程度定义。例如,结构化数据(如数据库表格)可以定义为T=1,半结构化数据(如XML、JSON)为T=2,非结构化数据(如文本、图片)为T=3。这个值可以根据实际应用场景调整。
P表示数据处理复杂度,是其对应的权重系数。P可以基于数据处理任务的复杂性评估,例如数据清洗为1,数据转换为2,数据聚合为3。是一个调整系数,根据业务优先级和资源分配策略设定,通常在0到1之间。例如,如果数据转换对业务影响更大,则可以设=0.6,反之如果影响较小,则可以设=0.3。
A表示数据的访问频率,是其对应的权重系数。A根据数据访问的日志分析得出,可以用日均访问次数表示。高频访问的数据A值较高。同样是一个调整系数,反映了访问频率对资源分配的影响,通常根据业务需求设定,例如常访问数据权重更高,可以设 =0.7。
E表示单位成本下的存储效益,通常与存储资源的成本和性能有关。这个参数可以通过分析存储设备的成本(包括购买、维护和能源消耗等)与其性能(如IOPS、吞吐量、容量)的比率来估算。例如,如果一个存储系统的总成本为$10,000,预期使用期为5年,每年可以处理100TB的数据,则E可以设定为 (TB/美元/年)。
通过这种方式,数据仓库单元可以根据实际业务情况和资源情况,灵活调整仓库模块的配置和数量,实现高效、低成本且高效益的数据存储解决方案。这种自适应算法的设计,不仅支持大规模数据处理,还能应对快速变化的业务需求。进一步地,通过这种精细化的资源管理,数据仓库单元不仅优化了数据存储和访问的效率,还能够大幅度降低运营成本,提升系统的整体性能和可靠性。
在本申请的一个实施例中,其中所述数据仓库单元包括数据过渡层和至少一个仓库模块;在从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块中:所述数据过渡层用于从业务系统中抽取目标业务数据;对目标业务数据进行格式转换和数据清洗的操作,以对异构的目标业务数据进行统一;将统一后的目标业务数据存储到对应的仓库模块中;保留当前时间节点至预设时间步长之前的时间间隔内的目标业务数据,以作为周期备份数据。
具体而言,数据过渡层的主要功能是从各种业务系统中抽取目标业务数据。这一层作为数据输入的前哨站,不仅负责数据的初步接收,还负责初步的数据审查,确保只有符合预设标准的数据才能进一步处理。数据过渡层主要执行以下几项关键任务:
数据抽取:从一个或多个分散的业务系统中抽取数据,这些系统可能基于不同的技术平台,如CRM、ERP等。
格式转换:将抽取出的数据从原始格式转换为更适合处理和存储的格式,例如,从CSV或XML格式转换为统一的SQL表格格式。
数据清洗:在数据转换过程中进行清洗,包括剔除不完整、不准确或无关的数据记录,纠正错误信息,以及解决数据冗余问题。
经过格式转换和清洗的统一数据存储到对应的仓库模块中,这一过程涉及到数据的归档和索引,以优化查询性能和数据检索速度。此外,为了应对可能的数据丢失或损坏情况,本申请还提供了一种高效的数据备份机制:本系统将保留从当前时间节点至预设时间步长之前的时间间隔内的目标业务数据。例如,如果设置的时间步长为一周,则系统每周自动创建一次全量备份。除了按时间节点备份外,系统还可以配置为执行周期性增量备份,仅保存自上一次全量备份以来发生变化的数据,从而减少存储空间的需求并提高备份效率。
通过优化的数据抽取、转换和清洗流程,大幅提高数据处理速度和准确性。模块化的仓库设计使得数据存储更加灵活,便于扩展和维护。通过定期的全量备份和周期性的增量备份,确保数据的安全性。
此外需要说明的是,仓库模块是指数据仓库中用于存储和管理特定主题领域数据的组件。它通常按照业务流程、主题或功能进行分区,每个仓库模块负责存储与之对应的一组相关数据。将数据存储到对应的仓库模块,是指根据数据的类型、来源和用途,将经过过渡层处理后的数据加载到相应的仓库模块中。"对应"的含义是,每个仓库模块都有其明确的数据范围和职责,只存储与之相关的数据子集。
存储过程通常遵循以下步骤:在创建仓库模块之前,需要对业务需求和数据源进行分析,确定仓库的维度建模,如何对数据进行主题划分。根据建模结果,将整个数据仓库划分为一系列较小的模块,每个模块对应一个特定的业务领域或主题。常见的划分方式包括:功能模块(如销售、财务、人力资源等)、地理区域模块、产品线模块等。为每个模块设计合适的数据结构,确定维度表和事实表的模型。维度表存储描述性属性,事实表存储可量化指标。设计过程要考虑数据规范化、完整性约束等因素。通过数据过渡层的ETL(提取、转换、加载)工具,从源系统提取相关数据,进行必要的转换和清理,然后按照设计将处理后的数据分发加载到对应的仓库模块中。仓库模块中的数据通常需要定期更新,以反映业务系统中数据的newest变化。更新过程可利用增量加载等机制,提高效率。还可以定期对仓库模块数据进行备份,并按需归档历史数据,以满足分析和合规需求。
需要注意的是,在大型数据仓库中,仓库模块之间并非完全孤立,它们之间可能存在一些关联关系,为了支持跨模块的综合分析,需要在模块设计时考虑这些关联。通过模块化设计,数据仓库不仅能更好地组织和管理数据,还可提供扩展性,支持新业务需求和新数据源的整合。每个仓库模块就像一个微型数据馆,聚焦于特定领域,从而为相关业务部门提供高质量的数据支持。
在步骤S202处,所述联机分析单元用于将仓库模块中的数据封装为结构化数据。在一个实施例中包括:将数据按一个或多个维度的顺序向更高层级聚合;从一维或多维数据集中按预设选择维度的特定数值选取出一组目标数值数据;从一维或多维数据集中按预设选择维度的特定数值区间选取出一组目标区间数据;以及将目标数值数据和目标区间数据封装为结构化数据。
联机分析单元的核心功能是从数据仓库中提取并转化数据,具体步骤可以包括:维度聚合,该过程包括将数据根据一个或多个维度的顺序向更高层级聚合。例如,可以将日销售数据聚合为月销售数据或年销售数据。这种聚合有助于简化数据结构,减少数据的复杂性,从而便于进行宏观层面的分析和决策支持。层级聚合,除了基于维度的聚合外,还可以进行层级化的数据聚合,如按地理位置(从城市到省份再到国家)或按产品类别(从SKU到品类再到总类)的聚合。数值选取,从一维或多维数据集中按预设的选择维度的特定数值选取出一组目标数值数据。例如,在一个多维数据集中,可以根据“销售额”维度选取所有超过一定金额的记录。区间选取,类似地,可以按预设的选择维度的特定数值区间选取出一组目标区间数据。例如,选择所有在特定日期范围内或价格区间内的交易记录。
在另一个实施场景中,还可以包括:数据封装,选取的目标数值数据和目标区间数据经过处理后,会被封装成结构化数据。这一步骤包括数据格式的标准化和编码,以确保数据在后续的处理和分析中能够被各种工具和应用正确解读和利用。结构化格式,数据被转换为如XML或JSON等现代数据交换格式,这些格式支持多种数据类型,并能与多种数据库和编程环境兼容。
通过自动化的数据聚合和精确的目标数据选取,显著提高数据处理的速度和效率。结构化的数据封装不仅提高了数据的易用性和访问速度,还通过标准化处理提升了数据的整体质量和一致性。本申请技术方案适用于多种数据类型和结构,能够灵活应对不同的数据处理需求,支持企业数据仓库的扩展和升级。
在步骤S203处,所述查询单元用于将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元。进一步地,将商业问题转化为一个或拆分为多个第一形式化知识,以得到知识图谱可操作的API。
具体而言,查询单元负责接收和处理来自用户的商业问题。其核心任务是将这些问题重构为第一形式化知识,即将非结构化或半结构化的自然语言问题转换为结构化且规范化的格式。查询单元首先接收用户通过各种界面(如Web界面、移动应用或语音助手)提交的商业问题。系统通过自然语言处理技术解析问题的基本内容和结构,识别出关键词及其语义关系,如问题中的主要实体和操作要求。
所谓的第一形式化知识,是指将问题中的关键信息以及相关的业务逻辑转换成一个预定义的格式,这种格式能被知识图谱及决策支持系统有效处理。根据问题的复杂性,可能将一个复杂的商业问题拆分为多个子问题,每个子问题对应一段独立的形式化知识。例如,一个关于市场趋势和消费者行为的复合问题,可以拆分为关于市场趋势的查询和关于消费者行为的查询。将形式化知识进一步转换为API调用,这些API专门设计来与后端的知识图谱系统交互。每个API调用都明确地表达了一个特定的查询或数据操作需求。这些API可被系统的数据处理和分析模块调用,以执行具体的数据查询、检索或分析任务。
通过将商业问题转化为第一形式化知识并构建为知识图谱可操作的API,自动化的问题转换减少了人工干预,提高了处理速度和效率。形式化的知识结构和规范化的API确保了查询的准确执行,减少了因误解问题而导致的错误。支持将复杂问题拆分和重构的能力使得系统可以灵活应对各种类型的商业查询,提升了系统的适用范围和实用性。标准化的API方便与其他系统集成,支持跨系统的数据交互和分析,增强了整个信息系统的协同性和扩展性。
在步骤S204处,所述驱动决策单元用于根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据。其中,在一个实施例中,首先,通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱。具体而言,从对应的仓库模块中抽取出包括实体、概念和关系的知识要素;以及将抽取的知识要素组织为结构化的本体模式,以定义实体类型、关系类型及其属性。
利用大语言模型(如GPT或BERT等)分析并识别提交的第一形式化知识所属的具体领域。这一步骤是通过分析知识内容的语义特征,如关键词、术语和语境等,来确定其应属的业务或学科领域。确定领域后,系统将对应的业务逻辑和数据仓库模块链接到相应的领域,确保从正确的数据源提取信息。接下来,从领域相关的仓库模块中抽取关键的知识要素,如实体(人、地点、物品等)、概念(如业务术语或行业标准)及它们之间的关系。将抽取的知识要素按照本体学的原则组织起来。本体模式是一种结构化的框架,用于定义实体类型、关系类型及其属性。这种结构化表示不仅明确了各实体和关系的种类和特性,还规定了它们之间可能存在的逻辑联系和操作规则。
利用构建好的知识图谱,系统可以精准地从大量结构化数据中召回目标数据。这一过程依赖于知识图谱中定义的实体关系和属性,通过复杂的查询语句精确匹配和检索相关数据。通过大语言模型自动识别领域并构建知识图谱,减少了人工干预,提高了处理速度和准确性。结构化的本体模式和知识图谱使得数据的检索更为精确和高效,极大提升了数据的可用性和价值。本体模式和知识图谱的应用使得系统在应对不同领域问题时显示出高度的灵活性和扩展性。
然后,将API和知识图谱中的实体或三元组转化为向量表示,以通过向量相似度匹配来召回最相关的目标数据。知识图谱中,每个实体(如人物、地点、事件等)或三元组(实体、关系、实体的组合)被转化为数学上的向量。这一转化过程通常涉及将文本信息、属性值等非数值信息编码为数值向量,使其能被计算机算法有效处理。向量化可以通过多种方法实现,如词嵌入(Word Embedding)、图嵌入(Graph Embedding)或深度学习模型等。具体地,根据预设算法计算向量相似度;所述预设算法包括:
其中,表示向量相似度,分别表示用于计算的向量。该公式是马氏距离的一个形式,用于度量两个向量在特定度量空间中的距离。与传统的欧几里得距离或余弦相似度相比,马氏距离考虑了数据特征之间的相关性和各特征的不同重要性。这使得相似度计算更加精确,能够有效反映出向量在实际问题中的相对关系和差异。系统通过计算查询向量与知识图谱中各向量的相似度,快速召回那些与查询最相关的目标数据。这一过程依赖于高效的相似度计算,以确保响应时间内返回最合适的数据结果。利用马氏距离进行向量相似度计算,不仅提升了匹配的精确性,还能够根据具体的数据特性调整相似度度量标准,例如通过调整协方差矩阵的逆来优化度量空间,以应对不同的数据分布特性。
在步骤S205处,所述答复单元用于将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。在一个实施例中,将召回的目标数据与商业问题填入提示词模板中,以得到目标提示词;以及将目标提示词输入到大语言模型中,以输出用于回复用户的商业问题的答案。
首先,从知识图谱中召回与用户商业问题相关的目标数据。然后,这些数据与商业问题一起被用来构建第二形式化知识。所谓的第二形式化知识是指在对目标数据和商业问题进行分析后生成的结构化文本。这些文本经过处理,旨在以最佳形式输入到大模型中,以提高模型处理和分析的准确性和有效性。这一步骤涉及到将实际数据内容与业务问题的具体需求结合,形成一个全面的问题描述,为生成回答提供必要的背景和细节。将构建好的第二形式化知识填充到预设的提示词模板中。这些模板是设计好的框架,用来确保输入到大模型的信息是完整且格式化的。模板可能包括固定的语句结构和空白填充部分,后者根据具体问题的不同被动态填入不同的数据和信息。完成填充后,得到完整的目标提示词。这一提示词凝练了用户的商业问题和相关的数据信息,为生成精准答案提供了关键输入。
具体而言,知识图谱作为一种图形化的数据表达形式,可以展现实体与实体之间的各种关系,是理解复杂信息系统的一个重要工具。在一个实施例中,假设需要解决一个关于市场趋势预测的商业问题,首先需要召回有关市场历史数据、竞争对手分析、消费者行为等相关实体和关系。
在数据召回阶段,可以使用如下的查询算法: ,其中,表示用户的查询问题,表示知识图谱,是图谱中的实体集合,是一个布尔函数,判断实体是否与问题相关。
一旦目标数据被召回,接下来这些数据会与商业问题一起被用来构建第二形式化知识。这一步骤涉及将实际数据内容与业务问题的具体需求结合。例如,在构建面向市场趋势的第二形式化知识时,需要对召回的数据进行进一步的加工处理,如数据清洗、缺失值处理和变量转换。这可以通过如下的数据处理流程实现:数据清洗:移除错误数据和异常值。填充缺失值:使用统计方法如均值、中位数或通过预测模型来估计缺失值。变量转换:将非数值变量转换为机器学习模型可以处理的格式。
构建的第二形式化知识将形成一个全面的问题描述,包括必要的背景和细节。例如,对于市场趋势预测,这个描述可以包括历史销售数据、季节性变化、经济指标等因素,这些都是预测未来市场行为的关键因素。为此,可以使用时间序列分析技术,如ARIMA模型,来处理和分析这些数据。ARIMA模型的数学表达为:,其中,表示时间t的目标变量,是模型参数,是误差项。
最后,将构建好的第二形式化知识填充到预设的提示词模板中。这些模板是设计好的框架,用来确保输入到大模型的信息是完整且格式化的。模板可能包括固定的语句结构和空白填充部分,后者根据具体问题的不同被动态填入不同的数据和信息。例如,对于市场趋势预测,一个模板可以是这样设计:“基于最近的\_\_数据和\_\_经济指标,预测接下来\_\_月的市场趋势是\_\_。”在这个模板中,空白处将根据具体的历史数据和经济指标动态填充,确保每次的输入都是针对特定情境和需求定制的。
通过上述过程,本申请不仅能够有效利用知识图谱中的丰富信息,还能通过技术和数学模型的辅助,精确地构建出解决具体商业问题所需的结构化知识,进而提高决策的质量和效率。
大模型根据输入的提示词进行分析和推理,输出用于回复用户的商业问题的答案。这一过程不仅基于语言的语义理解,还融合了模型的知识库和推理能力。通过结合具体的业务数据和商业问题生成目标提示词,确保了大模型能够产生高度相关且准确的答案。使用模板化的提示词生成机制,大大提高了处理速度,使得答案生成既快速又高效。本申请的设计允许灵活应对各种不同的商业查询,模板和形式化知识的构建可根据不同需求进行调整和优化。
进一步地,本申请实施例还提供了知识图谱驱动大模型的商业智能决策问答设备,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述的任一种方法。
优选的,本申请的实施例中的知识图谱驱动大模型的商业智能决策问答设备基于laravel8结合swoole4框架开发,目的是实现在安全的框架下开发出可靠的系统,再结合swoole4扩展增加系统的并发量,提升访问速度,使用标准化接口开发,保证系统的灵活性,可用性,可集成性,能够满足不同层次,不同时期的需求;后台应用form-builder 无需写页面快速增删改查,form-builder可快速通过PHP代码生成表单,无需过多前端参与就能快速开发;充分利用高性能内存数据库,集合异步任务进行批量高效处理任务;多操作系统、多语言、无需代码级操纵。决策问答软件系统中所有的目标、执行、事件除了有既定的流程,均还设置有管理知识,管理制度模板供选择,还有可视化数据反馈,以动态数据展示,实现主动的监测报告系统。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述任一种方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种知识图谱驱动大模型的商业智能问答系统,其特征在于,包括:数据仓库单元、联机分析单元、查询单元、驱动决策单元和答复单元;其中,
所述数据仓库单元用于从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块;其中所述数据仓库单元根据自适应算法计算构建仓库模块的数量;所述自适应算法包括:
其中,表示仓库模块的数量,表示数据量,表示数据类型的复杂性指数,表示处理复杂度,表示数据的处理复杂度,表示访问频率的权重系数,表示数据访问频率,表示单位仓库成本下的存储效益;
所述联机分析单元用于将仓库模块中的数据封装为结构化数据;
所述查询单元用于将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元;其中包括将商业问题转化为一个或拆分为多个第一形式化知识,以得到知识图谱可操作的API;
所述驱动决策单元用于根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据;其中包括通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱;以及将API和知识图谱中的实体或三元组转化为向量表示,以通过向量相似度匹配来召回最相关的目标数据;其中包括根据预设算法计算向量相似度;所述预设算法包括:,其中,表示向量相似度,分别表示用于计算的向量;以及
所述答复单元用于将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。
2.根据权利要求1所述的商业智能问答系统,其特征在于,其中所述数据仓库单元包括数据过渡层和至少一个仓库模块;在从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块中:
所述数据过渡层用于从业务系统中抽取目标业务数据;对目标业务数据进行格式转换和数据清洗的操作,以对异构的目标业务数据进行统一;将统一后的目标业务数据存储到对应的仓库模块中;保留当前时间节点至预设时间步长之前的时间间隔内的目标业务数据,以作为周期备份数据。
3.根据权利要求1所述的商业智能问答系统,其特征在于,其中将仓库模块中的数据封装为结构化数据,包括:
将数据按一个或多个维度的顺序进行时间维度聚合、地理层级聚合或产品类别层级聚合;
从一维或多维数据集中按预设选择维度的特定数值选取出一组目标数值数据;
从一维或多维数据集中按预设选择维度的特定数值区间选取出一组目标区间数据;以及
将目标数值数据和目标区间数据封装为结构化数据。
4.根据权利要求1所述的商业智能问答系统,其特征在于,其中将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案,包括:
将召回的目标数据与商业问题填入提示词模板中,以得到目标提示词;以及
将目标提示词输入到大语言模型中,以输出用于回复用户的商业问题的答案。
5.根据权利要求1所述的商业智能问答系统,其特征在于,其中通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱,包括:
从对应的仓库模块中抽取出包括实体、概念和关系的知识要素;以及
将抽取的知识要素组织为结构化的本体模式,以定义实体类型、关系类型及其属性。
6.一种知识图谱驱动大模型的商业智能问答方法,其特征在于,包括:
从业务系统中抽取目标业务数据,以将所述目标业务数据存储到对应的仓库模块;根据自适应算法计算构建仓库模块的数量;所述自适应算法包括:
其中,表示仓库模块的数量,表示数据量,表示数据类型的复杂性指数,表示处理复杂度,表示数据的处理复杂度,表示访问频率的权重系数,表示数据访问频率,表示单位仓库成本下的存储效益;
将仓库模块中的数据封装为结构化数据;
将用户查询的商业问题重构为第一形式化知识,以传递给驱动决策单元;其中包括将商业问题转化为一个或拆分为多个第一形式化知识,以得到知识图谱可操作的API;
根据第一形式化知识构建知识图谱,以召回结构化数据中的目标数据;其中包括通过大语言模型识别第一形式化知识的领域,以将所述领域对应的仓库模块构建为表示相关实体、概念以及它们之间关系的知识图谱;以及将API和知识图谱中的实体或三元组转化为向量表示,以通过向量相似度匹配来召回最相关的目标数据;其中包括根据预设算法计算向量相似度;所述预设算法包括:,其中,表示向量相似度,分别表示用于计算的向量;以及
将根据目标数据与商业问题构建的第二形式化知识输入大模型,以输出用于回复用户的商业问题的答案。
7.一种知识图谱驱动大模型的商业智能问答设备,其特征在于,包括:处理器、存储器、系统总线;其中,所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求6所述的方法。
CN202410642015.1A 2024-05-23 2024-05-23 知识图谱驱动大模型的商业智能决策问答系统及方法 Active CN118227767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410642015.1A CN118227767B (zh) 2024-05-23 2024-05-23 知识图谱驱动大模型的商业智能决策问答系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410642015.1A CN118227767B (zh) 2024-05-23 2024-05-23 知识图谱驱动大模型的商业智能决策问答系统及方法

Publications (2)

Publication Number Publication Date
CN118227767A CN118227767A (zh) 2024-06-21
CN118227767B true CN118227767B (zh) 2024-08-16

Family

ID=91498242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410642015.1A Active CN118227767B (zh) 2024-05-23 2024-05-23 知识图谱驱动大模型的商业智能决策问答系统及方法

Country Status (1)

Country Link
CN (1) CN118227767B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118733790A (zh) * 2024-09-02 2024-10-01 浪潮软件科技有限公司 一种知识图谱赋能大模型知识库的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426072A (zh) * 2013-07-16 2013-12-04 无限极(中国)有限公司 一种高并发竞争库存的订单处理系统及其处理方法
CN117235276A (zh) * 2023-08-15 2023-12-15 海穗信息技术(上海)有限公司 基于gpt模型统一多模态数据结构化处理的数据管理系统
CN117609470A (zh) * 2023-12-08 2024-02-27 中科南京信息高铁研究院 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477572B (zh) * 2009-01-12 2010-12-08 深圳市里王智通软件有限公司 基于tds过渡数据存储技术的动态数据仓库的方法与系统
US20220292262A1 (en) * 2021-03-10 2022-09-15 At&T Intellectual Property I, L.P. System and method for hybrid question answering over knowledge graph
CN117668182A (zh) * 2023-11-24 2024-03-08 中铁第四勘察设计院集团有限公司 融合知识图谱和大语言模型的规范智能问答方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426072A (zh) * 2013-07-16 2013-12-04 无限极(中国)有限公司 一种高并发竞争库存的订单处理系统及其处理方法
CN117235276A (zh) * 2023-08-15 2023-12-15 海穗信息技术(上海)有限公司 基于gpt模型统一多模态数据结构化处理的数据管理系统
CN117609470A (zh) * 2023-12-08 2024-02-27 中科南京信息高铁研究院 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台

Also Published As

Publication number Publication date
CN118227767A (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
US11526338B2 (en) System and method for inferencing of data transformations through pattern decomposition
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
CN118227767B (zh) 知识图谱驱动大模型的商业智能决策问答系统及方法
Aftab et al. Big data augmentation with data warehouse: A survey
US20120101860A1 (en) Providing business intelligence
US20230177025A1 (en) Processes and systems for onboarding data for a digital duplicate
US20130173643A1 (en) Providing information management
US8626543B2 (en) Tracing software execution of a business process
Dolk Integrated model management in the data warehouse era
CN111160658B (zh) 一种协同制造资源优配方法、系统和平台
CN113287100A (zh) 用于生成内存表格模型数据库的系统和方法
WO2019010277A2 (en) HIGHLY ATOMIZED INTERVIEWABLE AND SEGMENTED DATA SYSTEMS (HASIDS)
Beheshti et al. Bp-sparql: A query language for summarizing and analyzing big process data
WO2023225093A1 (en) System for and a method of graph model generation
Beheshti et al. A query language for summarizing and analyzing business process data
US11243966B1 (en) Data model design supporting low latency time-series volume planning and analysis
Guo et al. Influencing Factors and Forecasting Statistics of Enterprise Market Sales Based on Big Data and Intelligent IoT
Ahmed et al. Generating data warehouse schema
Pang et al. Research on the Construction of Financial Risk Platform Based on Big Data
Ingvaldsen et al. Semantic business process mining of SAP transactions
Nizzad et al. Data Warehouse Implementation: Cost Effective Approach for Small Businesses
US20240220876A1 (en) Artificial intelligence (ai) based data product provisioning
AU2020104034A4 (en) IML-Cloud Data Performance: Cloud Data Performance Improved using Machine Learning.
US20210256028A1 (en) Intelligent and automatic exception handling
TWI700596B (zh) 資訊整合系統以及整合資訊的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant