CN116662577B - 基于知识图谱的大型语言模型训练方法及装置 - Google Patents
基于知识图谱的大型语言模型训练方法及装置 Download PDFInfo
- Publication number
- CN116662577B CN116662577B CN202310960013.2A CN202310960013A CN116662577B CN 116662577 B CN116662577 B CN 116662577B CN 202310960013 A CN202310960013 A CN 202310960013A CN 116662577 B CN116662577 B CN 116662577B
- Authority
- CN
- China
- Prior art keywords
- event
- events
- financial
- logic
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 31
- 238000010276 construction Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims 7
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 241000475481 Nebula Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种基于知识图谱的大型语言模型训练方法及装置,所述方法包括构建金融知识图谱,导出事件关联的事件,得到事件集合,将所述事件集合转化为事件向量,确定推理目标事件及相关的实体、事件和关系,构建逻辑联通子图,对逻辑联通子图进行简化处理,得到简化逻辑子图,对简化逻辑子图中的所有事件进行排序,形成事件链条,得到逻辑链;根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本,对预训练的大型语言模型进行微调训练,得到金融事件预测模型;本申请通过知识图谱,生成有逻辑关系的训练样本,训练大型语言模型,使其具备金融垂直方向的思维推理能力,除此之外,还能大大节省人工整理训练样本成本。
Description
技术领域
本发明属于语言模型技术领域,具体涉及一种基于知识图谱的大型语言模型训练方法及装置。
背景技术
大型语言模型(Large Language Model,LLM)是利用庞大的文本语料库中对仅使用解码器的Transformer模型进行预训练(使用语言建模目标)构建的。只要预先训练足够大的模型,LLM就能在少量样本学习方面具有极强的能力。
相关技术中,现有的训练自定义模型可以根据特定需求和要求进行调整,包括平台特定功能、术语和上下文,然而这些在通用模型如GPT-4甚至代码特定模型如Codex中都无法被很好支持的。其次,虽然,目前超大规模的生成式大语言模型具有较好的理解和生成能力,但这些模型都集中在少数AI提供商手中。这对于特定领域或者从服务的可延续性和稳定性来说,存在不可控性,必须摆脱对AI提供商的依赖。除此之外,LLM的训练成本极高。为降低成本,需训练定制的大型语言模型,使用特定领域的数据,使其更小、更高效,并且可以大幅降低托管成本。
而LLM能够解决上述技术问题,实现定制化需求、降低依赖性,还能够降低托管成本,但是虽然LLM具有强大的功能,但在解决金融相关推理问题上仍然存在困难。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于知识图谱的大型语言模型训练方法及装置,以解决现有技术中大型语言模型在解决金融相关推理问题上仍然存在困难的问题。
为实现以上目的,本发明采用如下技术方案:一种基于知识图谱的大型语言模型训练方法,包括:
基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
进一步的,所述以历史实体和历史事件为节点、历史关系为边构建金融知识图谱,包括:
采集大量金融历史实体数据、历史事件数据和历史关系数据;
对所述历史事件数据进行分类,得到多种类型的事件;
利用预训练的大型语言模型分别提取所述历史实体数据、历史事件数据和历史关系数据中的实体、事件和关系;其中,所述预训练的大型语言模型提取的事件为分类后的事件;
以所述实体、事件作为节点,关系作为边构建金融知识图谱,并存储于图数据库。
进一步的,基于所述相似事件簇确定推理目标事件,包括:
计算所述相似事件簇中事件在所述金融知识图谱中的PR值,并计算相似事件簇中所有事件PR值的平均值;
基于所述平均值计算所有相似事件簇中的PR值的标准差;
将所述标准差低于预设值的相似事件簇中的事件确定为推理目标事件。
进一步的,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,包括:
利用所述金融知识图谱识别与每个推理目标事件存在关系的实体、事件及关系;其中,所述关系包括事件与机构、人之间的关系,企业间的关系,企业与人的关系;
基于预设时间范围内的时序属性,构建具有推理目标事件、推理目标事件相关的实体、事件及关系的逻辑联通子图。
进一步的,对所述逻辑联通子图进行简化处理,包括:
计算所述逻辑联通子图中所有事件向量与所述推理目标事件之间的第二相似度;
保留所述第二相似度高于第二预设阈值的事件。
进一步的,所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:
根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;
对无预警事件的事件链条进行舍弃。
进一步的,所述基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,包括:
利用所述向量矩阵与所述向量矩阵的转置矩阵相乘,得到乘积矩阵;
利用所述乘积矩阵确定两个事件的第一相似度。
进一步的,所述第一预设阈值为0.9,第二预设阈值为0.5。
本申请实施例提供一种基于知识图谱的大型语言模型训练装置,包括:
第一构建模块,用于基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
转化模块,用于获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
确定模块,用于基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
第二构建模块,用于基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
简化模块,用于对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
第一处理模块,用于利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
第二处理模块,用于根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
训练模块,用于利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种基于知识图谱的大型语言模型训练方法及装置,本申请通过构建金融知识图谱,获取与事件关联的事件,并转化为向量,得到事件向量,从而构成向量矩阵,基于向量矩阵确定推理目标事件,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,简化后得到简化逻辑子图,基于简化逻辑子图形成事件链条,处理后得到逻辑链,根据推理目标事件、逻辑链对样本数据进行处理,得到训练样本,利用训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;金融事件预测模型用于金融事件推理。本申请通过构建知识图谱,生成有逻辑关系的训练样本,训练大型语言模型,使其具备金融垂直方向的思维推理能力,除此之外,还能大大节省人工整理训练样本成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于知识图谱的大型语言模型训练方法的步骤示意图;
图2为本发明提供的向量矩阵的结构示意图;
图3为本发明基于知识图谱的大型语言模型训练装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的基于知识图谱的大型语言模型训练方法及装置。
如图1所示,本申请实施例中提供的基于知识图谱的大型语言模型训练方法,包括:
S101,基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
一些实施例中,所述以历史实体和历史事件为节点、历史关系为边构建金融知识图谱,包括:
采集大量金融历史实体数据、历史事件数据和历史关系数据;
对所述历史事件数据进行分类,得到多种类型的事件;
利用预训练的大型语言模型分别提取所述历史实体数据、历史事件数据和历史关系数据中的实体、事件和关系;其中,所述预训练的大型语言模型提取的事件为分类后的事件;
以所述实体、事件作为节点,关系作为边构建金融知识图谱,并存储于图数据库。
具体的,实体包括人、公司和机构,本申请中从企业工商数据、企业变更、诉讼司法和金融资讯等来源收集相关数据。也可以考虑从证券交易所、金融监管机构的公告,以及社交媒体上的相关信息中获取数据。
本申请中对历史事件数据进行分类具体为,历史事件数据包括结构化数据和非结构化数据,其中,对结构化数据进行分类:利用业务专家的知识和经验,对结构化数据进行分类。对非结构化数据进行分类:使用预训练的BERT模型将文本转化为向量表示,然后使用聚类算法对这些向量进行聚类,根据聚类结果进行事件分类。整合结构化数据和非结构化数据的分类:将业务专家对结构化数据的分类和对非结构化数据的聚类结果进行整合,形成一个统一的数据分类体系。然后,采用自然语言处理方法从采集的大量金融历史实体数据、历史事件数据和历史关系数据中提取实体、事件和关系,将实体(人、公司、机构)、事件表示为节点,关系表示为边,构建金融知识图谱。使用图数据库(如NebulaGraph)存储。关系包括事件与机构、人的“相关关系”;企业间的关系(分支机构、投资、供应链等)、企业与人的关系(任职、股东等)等。
可以理解的是,在使用预训练的大型语言模型进行实体和关系的抽取时,确保模型能够正确处理已经分类的事件,还可以使用规则或模板方法来辅助抽取。
需要说明的是,在实际应用中,模型能分析出关键事件的发展过程或者影响因素。因此本申请将关键事件称为“预警事件”,这里预警事件从统一的事件分类中挑选出,例如“企业违约”、“股价暴跌”、“企业破产”等。
S102,获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
本申请通过金融知识图谱将事件导出,并根据其事件关联的关系和关系关联的其他实体导出。按照 (node1, node2, timestamp, node1_type, node2_type) 的格式进行组织。其中,包括源节点id(node1)、目标节点id(node2)、时间戳(timestamp)、源节点类型编码(node1_type)和目标节点类型编码(node2_type),id为图谱全局唯一id。
初始化JODIE模型。设置JODIE模型的参数,如隐藏层的大小、学习率、向量长度m等,开始训练得到JODIE模型。
使用训练好的JODIE模型将导出的事件转成固定长度的向量表示。
具体的,步骤S102将金融知识图谱中的节点和边转化为向量表示,从而方便进行机器学习和深度学习等任务。
S103,基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
一些实施例中,基于所述相似事件簇确定推理目标事件,包括:
计算所述相似事件簇中事件在所述金融知识图谱中的PR值,并计算相似事件簇中所有事件PR值的平均值;
基于所述平均值计算所有相似事件簇中的PR值的标准差;
将所述标准差低于预设值的相似事件簇中的事件确定为推理目标事件。
一些实施例中,所述基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,包括:
利用所述向量矩阵与所述向量矩阵的转置矩阵相乘,得到乘积矩阵;
利用所述乘积矩阵确定两个事件的第一相似度。其中,第一相似度为0.9。
具体的,本申请基于事件向量构建向量矩阵,将事件的向量堆叠在一起形成一个n×m的数值矩阵M。n为事件个数,m为向量长度。利用向量矩阵乘以其转置矩阵,,形成一个n×n矩阵,n为事件个数。取矩阵的一半,如图2中阴影部分:每个元素代表两个事件的相似度。使用相似度大于0.9的作为事件的相似关系,利用相似关系可以构建事件的相似关系图,将联通事件聚合形成相似事件簇。
对每个相似事件簇中事件计算在原始图谱中的PageRank值,并取得PageRank值簇内的平均值。对所有相似事件簇的PageRank值进行计算标准差,保留一个标准差内的相似事件簇内的事件确定为推理目标事件,以确保事件在金融知识图谱中的稳定性。
S104,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
一些实施例中,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,包括:
利用所述金融知识图谱识别与每个推理目标事件存在关系的实体、事件及关系;其中,所述关系包括事件与机构、人之间的关系,企业间的关系,企业与人的关系;
基于预设时间范围内的时序属性,构建具有推理目标事件、推理目标事件相关的实体、事件及关系的逻辑联通子图。
具体的,针对每个推理目标事件,使用数据库查询语言找到与目标事件有关系的实体、事件及其关系,关系包括事件与机构、人“相关关系”;企业间的关系(分支机构、投资、供应链等)、企业与人的关系(任职、股东等)等,深度为3度。选择三度的原因是事件与其他实体,以及其他实体与其他事件的关系。
包含以下情况,例如:
A事件-(一度)-A企业-(二度)-B事件
A事件-(一度)-A企业-(二度)-B企业-(三度)-B事件
本申请中预设时间范围为一年,确保构建的逻辑联通子图所有事件具有时序属性,构建包含这些元素的逻辑子图。本申请采用时间窗口限制逻辑联通子图中事件的时间范围(主要由于公司每年公布一次年报,对齐情况进行披露)。
S105,对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
一些实施例中,对所述逻辑联通子图进行简化处理,包括:
计算所述逻辑联通子图中所有事件向量与所述推理目标事件之间的第二相似度;
保留所述第二相似度高于第二预设阈值的事件。
具体的,利用步骤S102的事件向量可以计算各事件向量之间的第二相似度。设置第二预设阈值为0.5,只保留与目标事件相似度超过该阈值的事件,从而简化逻辑联通子图,得到简化逻辑子图。
S106,利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
一些实施例中,所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:
根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;
对无预警事件的事件链条进行舍弃。
具体的,本申请通过简化逻辑子图中的事件,按照时间属性排序形成事件链条,在事件类型中,根据专家设置的“预警事件”类型,将事件链条从预警事件后断开,以及将无“预警事件”类型的链条舍弃。
一些实施例中,所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:
根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;
对无预警事件的事件链条进行舍弃。
S107,根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
具体的,通过推理目标事件、逻辑链对事件链条进行识别,已经识别出大量的事件链条,每个事件链条都是以一个预警事件类型作为结尾。将数据整理成如下格式:[输入,思维链,输出]。
输入:指以预警事件为核心的疑问句;
思维链:是事件链条中的事件描述;及关联实体及关系
输出:对于预警事件为结论的描述;
例如:时间链:A公司法人变更-》A公司裁员-》B公司股权变更=》A公司合同纠纷-》A公司出现债务违约(预警事件);
输入:A公司最近出现债务违约,之前有什么迹象;
思维链:A公司法人变更;A公司裁员;B公司股权变更;A公司合同纠纷;A公司是B公司分支机构。
输出:在A公司出现债务违约之前,出现了法人变更、裁员、合同纠纷等事件。
然后整理成训练样本:
Q:A公司最近出现债务违约,之前有什么迹象;
A: A公司出现了一系列事件:法人变更、裁员、合同纠纷;其母公司出现股权变动。在A公司出现债务违约之前,已经出现了以上事件。
最后将训练样本整理成训练需要的格式。
S108,利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
利用上述整理好的训练样本对预训练的大型语言模型进行微调训练,得到具有金融事件推理能力的金融事件预测模型,将待预测数据输入金融事件预测模型即可得到预测结果。
基于知识图谱的大型语言模型训练方法的工作原理为:利用金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;获取用于训练的事件,并基于金融知识图谱将与事件关联的事件导出,得到事件集合,将事件集合转化为事件向量;基于事件向量构建向量矩阵,并基于向量矩阵计算事件集合中两两事件之间的第一相似度,将第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于相似事件簇确定推理目标事件;基于金融知识图谱,确定与推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;对逻辑联通子图进行简化处理,得到简化逻辑子图;利用时间属性对简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对事件链条进行处理,得到逻辑链;根据推理目标事件、逻辑链对样本数据进行处理,得到训练样本;利用训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;金融事件预测模型用于金融事件推理。
本申请通过不断尝试训练模型所需参数的优化,只需要较少的投入,使模型学习到垂直领域事件的逻辑关系和推理能力。本申请提供的技术方案能够减少数据的整理、人工整理、标注的工作量。除此之外,本申请可快速利用,知识图谱的时序时间快速生成垂直领域训练样本集,本申请还对样本进行生成优化,提高了样本的泛化能力。
如图3所示,本申请实施例提供一种基于知识图谱的大型语言模型训练装置,包括:
第一构建模块201,用于基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
转化模块202,用于获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
确定模块203,用于基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
第二构建模块204,用于基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
简化模块205,用于对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
第一处理模块206,用于利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
第二处理模块207,用于根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
训练模块208,用于利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
本申请实施例提供的基于知识图谱的大型语言模型训练装置的工作原理为,第一构建模块201基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;转化模块202获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;确定模块203基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;第二构建模块204基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;简化模块205对所述逻辑联通子图进行简化处理,得到简化逻辑子图;第一处理模块206利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;第二处理模块207根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;训练模块208利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于知识图谱的大型语言模型训练方法,其特征在于,包括:
基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:
根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;
对无预警事件的事件链条进行舍弃;
根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
2.根据权利要求1所述的方法,其特征在于,所述以历史实体和历史事件为节点、历史关系为边构建金融知识图谱,包括:
采集大量金融历史实体数据、历史事件数据和历史关系数据;
对所述历史事件数据进行分类,得到多种类型的事件;
利用预训练的大型语言模型分别提取所述历史实体数据、历史事件数据和历史关系数据中的实体、事件和关系;其中,所述预训练的大型语言模型提取的事件为分类后的事件;
以所述实体、事件作为节点,关系作为边构建金融知识图谱,并存储于图数据库。
3.根据权利要求1或2所述的方法,其特征在于,基于所述相似事件簇确定推理目标事件,包括:
计算所述相似事件簇中事件在所述金融知识图谱中的PR值,并计算相似事件簇中所有事件PR值的平均值;
基于所述平均值计算所有相似事件簇中的PR值的标准差;
将所述标准差低于预设值的相似事件簇中的事件确定为推理目标事件。
4.根据权利要求1所述的方法,其特征在于,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,包括:
利用所述金融知识图谱识别与每个推理目标事件存在关系的实体、事件及关系;其中,所述关系包括事件与机构、人之间的关系,企业间的关系,企业与人的关系;
基于预设时间范围内的时序属性,构建具有推理目标事件、推理目标事件相关的实体、事件及关系的逻辑联通子图。
5.根据权利要求1所述的方法,其特征在于,对所述逻辑联通子图进行简化处理,包括:
计算所述逻辑联通子图中所有事件向量与所述推理目标事件之间的第二相似度;
保留所述第二相似度高于第二预设阈值的事件。
6.根据权利要求2所述的方法,其特征在于,所述基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,包括:
利用所述向量矩阵与所述向量矩阵的转置矩阵相乘,得到乘积矩阵;
利用所述乘积矩阵确定两个事件的第一相似度。
7.根据权利要求5所述的方法,其特征在于,
所述第一预设阈值为0.9,第二预设阈值为0.5。
8.一种基于知识图谱的大型语言模型训练装置,其特征在于,包括:
第一构建模块,用于基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;
转化模块,用于获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
确定模块,用于基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;
第二构建模块,用于基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;
简化模块,用于对所述逻辑联通子图进行简化处理,得到简化逻辑子图;
第一处理模块,用于利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:
根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;
对无预警事件的事件链条进行舍弃;
第二处理模块,用于根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;
训练模块,用于利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310960013.2A CN116662577B (zh) | 2023-08-02 | 2023-08-02 | 基于知识图谱的大型语言模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310960013.2A CN116662577B (zh) | 2023-08-02 | 2023-08-02 | 基于知识图谱的大型语言模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116662577A CN116662577A (zh) | 2023-08-29 |
CN116662577B true CN116662577B (zh) | 2023-11-03 |
Family
ID=87713964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310960013.2A Active CN116662577B (zh) | 2023-08-02 | 2023-08-02 | 基于知识图谱的大型语言模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662577B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252260A (zh) * | 2023-09-06 | 2023-12-19 | 山东心法科技有限公司 | 一种基于大语言模型的面试技能训练方法、设备及介质 |
CN117033667B (zh) * | 2023-10-07 | 2024-01-09 | 之江实验室 | 一种知识图谱构建方法、装置、存储介质及电子设备 |
CN117273139B (zh) * | 2023-11-21 | 2024-02-09 | 北京网智天元大数据科技有限公司 | 基于开放数据的知识图谱动态风险识别方法及装置 |
CN117290554B (zh) * | 2023-11-24 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 一种基于图数据的业务规则确定方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN112507691A (zh) * | 2020-12-07 | 2021-03-16 | 数地科技(北京)有限公司 | 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置 |
CN112613796A (zh) * | 2020-12-30 | 2021-04-06 | 中国农业银行股份有限公司 | 金融风险预测方法、金融风险评分卡的生成方法和装置 |
CN114357197A (zh) * | 2022-03-08 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 事件推理方法和装置 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和系统 |
CN115526390A (zh) * | 2022-09-20 | 2022-12-27 | 建信金融科技有限责任公司 | 用于预测企业风险的方法、装置及存储介质 |
WO2023065545A1 (zh) * | 2021-10-19 | 2023-04-27 | 平安科技(深圳)有限公司 | 风险预测方法、装置、设备及存储介质 |
CN116228383A (zh) * | 2023-03-13 | 2023-06-06 | 中国工商银行股份有限公司 | 风险预测方法及装置、存储介质和电子设备 |
-
2023
- 2023-08-02 CN CN202310960013.2A patent/CN116662577B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
CN112507691A (zh) * | 2020-12-07 | 2021-03-16 | 数地科技(北京)有限公司 | 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置 |
CN112613796A (zh) * | 2020-12-30 | 2021-04-06 | 中国农业银行股份有限公司 | 金融风险预测方法、金融风险评分卡的生成方法和装置 |
WO2023065545A1 (zh) * | 2021-10-19 | 2023-04-27 | 平安科技(深圳)有限公司 | 风险预测方法、装置、设备及存储介质 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和系统 |
CN114357197A (zh) * | 2022-03-08 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 事件推理方法和装置 |
CN115526390A (zh) * | 2022-09-20 | 2022-12-27 | 建信金融科技有限责任公司 | 用于预测企业风险的方法、装置及存储介质 |
CN116228383A (zh) * | 2023-03-13 | 2023-06-06 | 中国工商银行股份有限公司 | 风险预测方法及装置、存储介质和电子设备 |
Non-Patent Citations (2)
Title |
---|
基于"知识图谱"的金融资讯预警实践;杨红梅 等;金融电子化(第09期);全文 * |
知识图谱在金融行业的应用研究;林一松 等;经济管理文摘(第16期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116662577A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116662577B (zh) | 基于知识图谱的大型语言模型训练方法及装置 | |
WO2021196520A1 (zh) | 一种面向税务领域知识图谱的构建方法及系统 | |
CN107147639B (zh) | 一种基于复杂事件处理的实时安全预警方法 | |
US11372896B2 (en) | Method and apparatus for grouping data records | |
CN106067094A (zh) | 一种动态评估方法及系统 | |
Chowdhury et al. | News analytics and sentiment analysis to predict stock price trends | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
CN112989761B (zh) | 文本分类方法及装置 | |
Zhao et al. | Research on information extraction of technical documents and construction of domain knowledge graph | |
CN114238655A (zh) | 企业关联关系识别方法、装置、设备及介质 | |
May et al. | Applying natural language processing in manufacturing | |
CN116894152B (zh) | 一种多源数据调研与实时分析方法 | |
CN113724057A (zh) | 基于大数据的财政预算填报方法、系统、设备及介质 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
Shankar et al. | Analyzing attrition and performance of an employee using machine learning techniques | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
Feng | Data analysis and prediction modeling based on deep learning in E-commerce | |
CN109062551A (zh) | 基于大数据开发命令集的开发框架 | |
CN114969511A (zh) | 基于分片的内容推荐方法、设备及介质 | |
CN114741592A (zh) | 一种基于多模型融合的产品推荐方法、设备及介质 | |
Duan et al. | Mining opinion and sentiment for stock return prediction based on web-forum messages | |
Jawahar et al. | Stock Volume Prediction Based on Polarity of Tweets, News, and Historical Data Using Deep Learning | |
Dombayci | Conceptual modelling for integrated decision-making in process systems | |
CN117934209B (zh) | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 | |
Zhang et al. | Multiple science data-oriented Technology Roadmapping method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |