CN117273129A - 一种行为图谱创建生成方法及系统 - Google Patents
一种行为图谱创建生成方法及系统 Download PDFInfo
- Publication number
- CN117273129A CN117273129A CN202311316555.2A CN202311316555A CN117273129A CN 117273129 A CN117273129 A CN 117273129A CN 202311316555 A CN202311316555 A CN 202311316555A CN 117273129 A CN117273129 A CN 117273129A
- Authority
- CN
- China
- Prior art keywords
- entity
- triplet
- extracted
- core node
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000000463 material Substances 0.000 claims abstract description 56
- 238000005429 filling process Methods 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 266
- 238000000605 extraction Methods 0.000 claims description 58
- 230000000295 complement effect Effects 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种行为图谱创建生成方法及系统,对需要先构建的行为图谱的创建生成进行了详细方案设计,先利用行业专用大模型从案件的待处理案卷材料中提取出至少一个行为,为提取出的行为识别匹配行为模版作为目标行为模版,该目标行为模版对应的行为图谱若已经存在则作为目标行为图谱,若不存在则基于目标行为模版创建行为图谱作为目标行为图谱,基于待处理案卷材料,调用行业专用大模型,提取出对应的实体内容填充目标行为图谱,填充过程中,遵循先填充核心节点,再对核心节点所在的三元组进行补全,最后再对延伸出的未填充三元组进行补全,从而构建出准确的行为图谱。准确的行为图谱的创建生成为准确的个案图谱的创建生成的基础。
Description
技术领域
本发明涉及知识图谱创建技术领域,特别是涉及一种行为图谱创建生成方法及系统。
背景技术
知识图谱是一项相对常见的技术,当前,这项技术最常见的方案是依靠三元组架构,通过工具或人工辅助的方式,对知识图谱进行构架。这种方式由于无法摆脱人工辅助,因此图谱的创建成本高昂,导致无法以每个个案为单位创建图谱。
有一种相对进一步的方式,就是直接依靠大模型对各个文档数据进行抽取,利用各个文档抽取出的信息直接构建个案的图谱,即现有是以文档信息为单位来构建个案图谱。现有并不存在利用文档信息先构建行为图谱、再基于行为图谱构建个案图谱的技术。因此,本发明不同于现有技术,采用了现有不存在的利用文档信息先构建行为图谱、再基于行为图谱构建个案图谱的技术。本发明重点描述利用文档信息构建行为图谱的技术。
发明内容
本发明针对现有技术存在的问题和不足,提供一种行为图谱创建生成方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种行为图谱创建生成方法,其特点在于,其包括以下步骤:
S1、接收一案件的待处理案卷材料;
S2、行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,若提取出至少一个行为则进入步骤S3,若未提取出行为则进入步骤S12;
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;
S3、识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版;
针对每个目标行为模版:
S4、判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,若是则将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,若否则基于目标行为模版创建行为图谱作为目标行为图谱;
S5、分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点;
S6、基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容;
S7、将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处;
S8、基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组;
S9、判断目标行为图谱中是否有可延伸未填充三元组,若是则进入步骤S10,若否则进入步骤S11;
S10、生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,进入步骤S11;
S11、行为图谱创建生成,流程结束;
S12、结束流程。
本发明还提供一种行为图谱创建生成系统,其特点在于,其包括接收模块、行为提取模块、识别匹配模块、第一判断模块、核心节点分析模块、实体提取模块、实体填充模块、三元组补全模块、第二判断模块和三元组延伸补全模块;
所述接收模块用于接收一案件的待处理案卷材料;
所述行为提取模块用于通过行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,在提取出至少一个行为时调用识别匹配模块,在未提取出行为时结束;
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;
所述识别匹配模块用于识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版;
针对每个目标行为模版:
所述第一判断模块用于判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,在为是时将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,在为否时基于目标行为模版创建行为图谱作为目标行为图谱;
所述核心节点分析模块用于分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点;
所述实体提取模块用于基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容;
所述实体填充模块用于将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处;
所述三元组补全模块用于基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组;
所述第二判断模块用于判断目标行为图谱中是否有可延伸未填充三元组,在为是时调用三元组延伸补全模块,在为否时行为图谱创建生成;
所述三元组延伸补全模块用于生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,行为图谱创建生成。
本发明的积极进步效果在于:
在构建某个案件的个案图谱时,先构建行为图谱,再基于行为图谱构建个案图谱,本发明对需要先构建的行为图谱的创建生成进行了详细方案设计,先利用行业专用大模型从案件的待处理案卷材料中提取出至少一个行为,为提取出的行为识别匹配行为模版作为目标行为模版,该目标行为模版对应的行为图谱若已经存在则作为目标行为图谱,若不存在则基于目标行为模版创建行为图谱作为目标行为图谱,基于待处理案卷材料,调用行业专用大模型,提取出对应的实体内容填充目标行为图谱,填充过程中,遵循先填充核心节点,再对核心节点所在的三元组进行补全,最后再对延伸出的未填充三元组进行补全,从而构建出准确的行为图谱。准确的行为图谱的创建生成为准确的个案图谱的创建生成的基础。
行为图谱的创建是基于模版驱动的方式进行的,它能够从新的卷宗材料中识别行为信息,选择合适的行为图谱模版,构建出准确的行为图谱。该方法包括新案卷材料导入、行为分析、实体提取、图谱创建、自检和冲突解决等多个步骤,保证了图谱的质量和准确性。这一机制对于行为图谱的自动生成具有重要意义。
附图说明
图1为本发明较佳实施例的行为图谱创建生成方法的流程图。
图2为本发明较佳实施例的目标行为模版/目标行为图谱的示意图。
图3为本发明较佳实施例的行为图谱创建生成系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供一种行为图谱创建生成方法,其包括以下步骤:
步骤101、接收一案件的待处理案卷材料。
在步骤101中,判断该待处理案卷材料在案件的案件存储库中是否存在同类的案卷材料,若存在则为该待处理案卷材料赋予一个新的版本号,该待处理案卷材料以同类的案卷材料编号+新的版本号存储至案件存储库中,若不存在则为该待处理案卷材料赋予一个新的编号+默认初始版本号存储至案件存储库中。
例如:若该待处理案卷材料为起诉书,起诉书在案件存储库中存在同类的起诉书,则同类的起诉书为起诉书ID+版本号,则该待处理案卷材料以起诉书ID+(版本号+1)存储至案件存储库中。
步骤102、行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,若提取出至少一个行为则进入步骤103,若未提取出行为则进入步骤114。
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型。
模型基座是可以选择和切换的,模型基座的设计和训练不在本发明的设计范围内,本发明假定可以在不同的模型基座之间自由切换,并根据应用的效果评估结论对基座模型进行取舍,这有助于保障可以随时切换到更新、更好、能力更强大的模型基座。
步骤103、识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版。
针对每个目标行为模版:
步骤104、判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,若是则将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,若否则基于目标行为模版创建行为图谱作为目标行为图谱。
例如:该目标行为模版为打车行为模版,判断该案件的行为图谱库中是否已存在打车行为图谱,在存在时将已存在的打车行为图谱(根据之前的案卷材料已经识别匹配出一个打车行为模版,利用之前的案卷材料填充过打车行为模版创建的行为图谱,构成已存在的打车行为图谱)作为目标行为图谱;在不存在时基于目标行为模版创建行为图谱作为目标行为图谱,此创建的目标行为图谱为还未填充实体内容的空的行为图谱。
步骤105、分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点。
在步骤105中,计算该目标行为模版中各个节点的重要性得分,节点的重要性得分由该节点的度即该节点与其他节点的连接数来确定,将重要性得分最高的节点作为核心节点添加至核心节点集合中,其后进行迭代,在每一次迭代时选择与核心节点相邻但未被选择作为核心节点的节点,计算选择出的节点中各个节点的重要性得分,将重要性得分最高的节点作为核心节点添加至核心节点集合中,迭代终止条件为核心节点集合中核心节点数量达到设定数量,或核心节点集合中核心节点及其延伸的一层或两层实现的节点覆盖率达到设定覆盖率阈值,节点覆盖率=核心节点及其延伸的一层或两层覆盖的节点数量与总节点数量的比值。
本步骤目的是从一个目标行为模版中,找到一组核心节点,以便从这些核心节点出发,可以尽快覆盖整个目标行为模版。核心节点可以理解为在图谱中占据关键地位的节点,它们的选择应该能够最大程度地提高覆盖效率。一旦形成了核心节点集合,我们可以从这些核心节点出发,通过遍历知识图谱的连接关系,逐步扩展覆盖范围,直到满足覆盖整个知识图谱的要求。行为模版为图谱框架,行为图谱为行为模版的实例化。
例如:见图2,分析此目标行为模版中各个节点,分析出A和D核心节点。
步骤106、基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容。
例如:见图2,基于实体提取子任务分别提取出核心节点A和D的核心节点实体内容。
步骤107、将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处。
例如:见图2,将提取出的核心节点实体内容A11填充至目标行为图谱中核心节点A处,将提取出的核心节点实体内容D11填充至目标行为图谱中核心节点D处。
在步骤107中,提取出所有的核心节点对应的核心节点实体内容后,将提取出的核心节点实体内容一一填充至目标行为图谱中对应的核心节点处;或,每提取出一个核心节点对应的核心节点实体内容后,将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处。
在填充时,若目标行为图谱中对应的核心节点处没有已填充实体内容,则直接将提取出的核心节点实体内容填充至此对应的核心节点处,若目标行为图谱中对应的核心节点处有已填充实体内容,利用行业专用大模型判断已填充实体内容与提取出的核心节点实体内容是否实质上一致,若实质上一致则利用提取出的核心节点实体内容覆盖掉已填充实体内容,若实质上不一致则将提取出的核心节点实体内容填充至此对应的核心节点处,并生成一个人工校对任务,由人工来确定此对应的核心节点处新填充的核心节点实体内容与已填充实体内容具体选择哪个作为此对应的核心节点处的实体内容。
例如:见图2,目标行为图谱中核心节点A和D处没有已填充实体内容,将提取出的核心节点实体内容A11填充至目标行为图谱中核心节点A处,将提取出的核心节点实体内容D11填充至目标行为图谱中核心节点D处。
步骤108、基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组。
在步骤108中,在补全操作中,先针对每一个待补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,若否则将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,若是则判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。自检机制和重叠机制是保证数据质量的关键部分。
例如:见图2,含有核心节点的待补全三元组为:A→B,A→C,D→B,D→C,D→E,D→F,对这6个待补全三元组进行补全操作。如针对待补全三元组A→B,A作为第一实体,B作为第二实体,提取出第二实体内容B11后,自动再反向提取一次B→A得出第一实体内容A11’,利用行业专用大模型判断A11和A11’是否一致,在一致时则表明没有自检冲突,再判断出第二实体B没有在其它三元组中被已填充实体内容,则将提取出的第二实体内容B11填充至该待补全三元组A→B中以形成一个完整的三元组。
如针对待补全三元组D→B,D作为第一实体,B作为第二实体,提取出第二实体内容B11’后,自动再反向提取一次B→D得出第一实体内容D11’,利用行业专用大模型判断D11和D11’是否一致,在一致时则表明没有自检冲突,再判断出第二实体B有在其它三元组(A→B)中被已填充实体内容,判断提取出的第二实体内容B11’与第二实体已填充实体内容B11是否一致,判断出一致则表明没有重叠冲突,提取出的第二实体内容B11’无需填充,因为此处已经填充过了。
步骤109、判断目标行为图谱中是否有可延伸未填充三元组,若是则进入步骤110,若否则进入步骤111。
步骤110、生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,进入步骤111。
在步骤110中,在补全操作中,先针对每一个延伸补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,若否则将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,若是则判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
例如:见图2,目标行为图谱中有可延伸未填充三元组F→G。针对可延伸未填充三元组F→G,F为第一实体,G为待补全第二实体,提取出第二实体内容G11后,自动再反向提取一次第二实体—关系—第一实体’,提取出第一实体内容F11’,利用行业专用大模型判断出F11’和F11一致,则表明没有自检冲突,再判断第二实体G是否在其它三元组中被已填充实体内容,判断出没有则将提取出的第二实体内容G11填充至该待补全三元组F→G中以形成一个完整的三元组。
步骤111、判断是否满足目标行为图谱中所有三元组均已经覆盖或目标行为图谱中三元组虽未能覆盖但已经无法从该待处理案卷材料中提取更多信息的终止条件,若是则进入步骤112,若否则进入步骤113。
步骤112、行为图谱创建生成,流程结束。
步骤113、生成未覆盖三元组提取子任务,调用行业专用大模型,基于未覆盖三元组提取子任务提取出对应的实体内容来自检未覆盖三元组,进入步骤111。
在步骤113中,在自检操作中,先针对每一个未覆盖三元组即第一实体—关系—第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,提取出的第二实体内容无需填充,在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至未覆盖三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
例如:见图2,存在未覆盖三元组A→D,针对未覆盖三元组A→D,A为第一实体,D为第二实体,提取出第二实体内容D11”后,自动再反向提取一次D→A,提取出第一实体内容A11”,利用行业专用大模型判断第一实体内容A11”和第一实体内容A11是否一致,判断出一致则表明没有自检冲突,提取出的第二实体内容D11”无需填充,因为此处已经填充过了。至此,图2中的所有三元组均已经走过了,实现三元组全覆盖,则行为图谱创建生成。
步骤114、结束流程。
此外,基于收集的人工校对前后相关信息、步骤108、步骤110和步骤113人工处理前后相关信息,构建行业专用大模型的微调训练数据集,定期对行业专用大模型进行进一步微调,以提高行业专用大模型的性能。
如图3所示,本实施例还提供一种行为图谱创建生成系统,其包括接收模块1、行为提取模块2、识别匹配模块3、第一判断模块4、核心节点分析模块5、实体提取模块6、实体填充模块7、三元组补全模块8、第二判断模块9、三元组延伸补全模块10、第三判断模块11和未覆盖三元组自检模块12。
接收模块1用于接收一案件的待处理案卷材料。
行为提取模块2用于通过行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,在提取出至少一个行为时调用识别匹配模块3,在未提取出行为时结束。
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的。
识别匹配模块3用于识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版。
针对每个目标行为模版:
第一判断模块4用于判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,在为是时将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,在为否时基于目标行为模版创建行为图谱作为目标行为图谱。
核心节点分析模块5用于分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点。
实体提取模块6用于基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容。
实体填充模块7用于将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处。
三元组补全模块8用于基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组。
三元组补全模块8用于在补全操作中,先针对每一个待补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,在为否时将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,在为是时判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。自检机制和重叠机制是保证数据质量的关键部分。
第二判断模块9用于判断目标行为图谱中是否有可延伸未填充三元组,在为是时调用三元组延伸补全模块10,在为否时行为图谱创建生成。
三元组延伸补全模块10用于生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,行为图谱创建生成。
三元组延伸补全模块10用于在补全操作中,先针对每一个延伸补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,在为否时将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,在为是时判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
第三判断模块11用于判断是否满足目标行为图谱中所有三元组均已经覆盖或目标行为图谱中三元组虽未能覆盖但已经无法从该待处理案卷材料中提取更多信息的终止条件,在为是时行为图谱创建生成,在为否时调用未覆盖三元组自检模块12。
未覆盖三元组自检模块12用于生成未覆盖三元组提取子任务,调用行业专用大模型,基于未覆盖三元组提取子任务提取出对应的实体内容来自检未覆盖三元组,调用第三判断模块11。
未覆盖三元组自检模块12在自检操作中,先针对每一个未覆盖三元组即第一实体—关系—第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,提取出的第二实体内容无需填充,在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至未覆盖三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种行为图谱创建生成方法,其特征在于,其包括以下步骤:
S1、接收一案件的待处理案卷材料;
S2、行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,若提取出至少一个行为则进入步骤S3,若未提取出行为则进入步骤S12;
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;
S3、识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版;
针对每个目标行为模版:
S4、判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,若是则将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,若否则基于目标行为模版创建行为图谱作为目标行为图谱;
S5、分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点;
S6、基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容;
S7、将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处;
S8、基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组;
S9、判断目标行为图谱中是否有可延伸未填充三元组,若是则进入步骤S10,若否则进入步骤S11;
S10、生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,进入步骤S11;
S11、行为图谱创建生成,流程结束;
S12、结束流程。
2.如权利要求1所述的行为图谱创建生成方法,其特征在于,所述行为图谱创建生成方法还包括:在步骤S10和S11之间包括以下步骤:
SL、判断是否满足目标行为图谱中所有三元组均已经覆盖或目标行为图谱中三元组虽未能覆盖但已经无法从该待处理案卷材料中提取更多信息的终止条件,若是则进入步骤S11,若否则进入步骤SM;
SM、生成未覆盖三元组提取子任务,调用行业专用大模型,基于未覆盖三元组提取子任务提取出对应的实体内容来自检未覆盖三元组,进入步骤SL;
在步骤SM中,在自检操作中,先针对每一个未覆盖三元组即第一实体—关系—第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,提取出的第二实体内容无需填充,在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至未覆盖三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
3.如权利要求1所述的行为图谱创建生成方法,其特征在于,在步骤S8中,在补全操作中,先针对每一个待补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,若否则将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,若是则判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理;
在步骤S10中,在补全操作中,先针对每一个延伸补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,若否则将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,若是则判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
4.如权利要求1所述的行为图谱创建生成方法,其特征在于,在步骤S1中,判断该待处理案卷材料在案件的案件存储库中是否存在同类的案卷材料,若存在则为该待处理案卷材料赋予一个新的版本号,该待处理案卷材料以同类的案卷材料编号+新的版本号存储至案件存储库中,若不存在则为该待处理案卷材料赋予一个新的编号+默认初始版本号存储至案件存储库中。
5.如权利要求1所述的行为图谱创建生成方法,其特征在于,在步骤S5中,计算该目标行为模版中各个节点的重要性得分,节点的重要性得分由该节点的度即该节点与其他节点的连接数来确定,将重要性得分最高的节点作为核心节点添加至核心节点集合中,其后进行迭代,在每一次迭代时选择与核心节点相邻但未被选择作为核心节点的节点,计算选择出的节点中各个节点的重要性得分,将重要性得分最高的节点作为核心节点添加至核心节点集合中,迭代终止条件为核心节点集合中核心节点数量达到设定数量,或核心节点集合中核心节点及其延伸的一层或两层实现的节点覆盖率达到设定覆盖率阈值,节点覆盖率=核心节点及其延伸的一层或两层覆盖的节点数量与总节点数量的比值。
6.如权利要求1所述的行为图谱创建生成方法,其特征在于,在步骤S7中,提取出所有的核心节点对应的核心节点实体内容后,将提取出的核心节点实体内容一一填充至目标行为图谱中对应的核心节点处;或,每提取出一个核心节点对应的核心节点实体内容后,将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处;
在填充时,若目标行为图谱中对应的核心节点处没有已填充实体内容,则直接将提取出的核心节点实体内容填充至此对应的核心节点处,若目标行为图谱中对应的核心节点处有已填充实体内容,利用行业专用大模型判断已填充实体内容与提取出的核心节点实体内容是否实质上一致,若实质上一致则利用提取出的核心节点实体内容覆盖掉已填充实体内容,若实质上不一致则将提取出的核心节点实体内容填充至此对应的核心节点处,并生成一个人工校对任务,由人工来确定此对应的核心节点处新填充的核心节点实体内容与已填充实体内容具体选择哪个作为此对应的核心节点处的实体内容。
7.如权利要求6所述的行为图谱创建生成方法,其特征在于,基于收集的人工校对前后相关信息,构建行业专用大模型的微调训练数据集,定期对行业专用大模型进行进一步微调,以提高行业专用大模型的性能。
8.一种行为图谱创建生成系统,其特征在于,其包括接收模块、行为提取模块、识别匹配模块、第一判断模块、核心节点分析模块、实体提取模块、实体填充模块、三元组补全模块、第二判断模块和三元组延伸补全模块;
所述接收模块用于接收一案件的待处理案卷材料;
所述行为提取模块用于通过行业专用大模型利用提示词仓库中预定义的行为判断提示词解析待处理案卷材料,提取待处理案卷材料中包括的行为,在提取出至少一个行为时调用识别匹配模块,在未提取出行为时结束;
其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;
所述识别匹配模块用于识别提取出的行为,从行为模版库中匹配出该提取出的行为对应的行为模版作为目标行为模版,一个提取出的行为匹配一个行为模版;
针对每个目标行为模版:
所述第一判断模块用于判断该案件的行为图谱库中是否已存在该目标行为模版对应的行为图谱,在为是时将已存在的该目标行为模版对应的行为图谱作为目标行为图谱,在为否时基于目标行为模版创建行为图谱作为目标行为图谱;
所述核心节点分析模块用于分析该目标行为模版中各个节点,以获得核心节点集合,核心节点集合中包括多个核心节点;
所述实体提取模块用于基于核心节点集合中的每个核心节点,依据该目标行为模版和对应的预定义的行为图谱创建方法,基于待处理案卷材料新建每个核心节点对应的实体提取子任务,调用行业专用大模型,基于实体提取子任务提取出对应的核心节点的核心节点实体内容;
所述实体填充模块用于将提取出的核心节点实体内容填充至目标行为图谱中对应的核心节点处;
所述三元组补全模块用于基于待处理案卷材料新建含有核心节点的待补全三元组对应的补全三元组提取子任务,调用行业专用大模型,基于补全三元组提取子任务提取出对应的实体内容补全对应的补全三元组以形成完整的三元组;
所述第二判断模块用于判断目标行为图谱中是否有可延伸未填充三元组,在为是时调用三元组延伸补全模块,在为否时行为图谱创建生成;
所述三元组延伸补全模块用于生成延伸补全三元组提取子任务,调用行业专用大模型,基于延伸补全三元组提取子任务提取出对应的实体补全对应的可延伸未填充三元组以形成完整的三元组,行为图谱创建生成。
9.如权利要求8所述的行为图谱创建生成系统,其特征在于,所述行为图谱创建生成系统还包括第三判断模块和未覆盖三元组自检模块;
所述第三判断模块用于判断是否满足目标行为图谱中所有三元组均已经覆盖或目标行为图谱中三元组虽未能覆盖但已经无法从该待处理案卷材料中提取更多信息的终止条件,在为是时行为图谱创建生成,在为否时调用未覆盖三元组自检模块;
所述未覆盖三元组自检模块用于生成未覆盖三元组提取子任务,调用行业专用大模型,基于未覆盖三元组提取子任务提取出对应的实体内容来自检未覆盖三元组,调用第三判断模块;
在自检操作中,先针对每一个未覆盖三元组即第一实体—关系—第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,提取出的第二实体内容无需填充,在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至未覆盖三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
10.如权利要求8所述的行为图谱创建生成系统,其特征在于,所述三元组补全模块用于在补全操作中,先针对每一个待补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,在为否时将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,在为是时判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理;
所述三元组延伸补全模块用于在补全操作中,先针对每一个延伸补全三元组即第一实体—关系—待补全第二实体,提取出第二实体内容后,自动再反向提取一次第二实体—关系—第一实体’,利用行业专用大模型判断第一实体内容’和第一实体内容是否一致,在第一实体内容’和第一实体内容一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体内容,在为否时将提取出的第二实体内容填充至该待补全三元组中以形成一个完整的三元组,在为是时判断提取出的第二实体内容与第二实体已填充实体内容是否一致,在一致时则表明没有重叠冲突,提取出的第二实体内容无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体内容填充至该待补全三元组中并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体内容’和第一实体内容不一致时则表明出现自检冲突,将提取出的第二实体内容填充至该待补全三元组中并发出一自检冲突处理任务传给上层应用以待人工处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316555.2A CN117273129B (zh) | 2023-10-11 | 2023-10-11 | 一种行为图谱创建生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316555.2A CN117273129B (zh) | 2023-10-11 | 2023-10-11 | 一种行为图谱创建生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117273129A true CN117273129A (zh) | 2023-12-22 |
CN117273129B CN117273129B (zh) | 2024-04-05 |
Family
ID=89221347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311316555.2A Active CN117273129B (zh) | 2023-10-11 | 2023-10-11 | 一种行为图谱创建生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273129B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239131A (zh) * | 2021-06-18 | 2021-08-10 | 国网湖南省电力有限公司 | 基于元学习的少样本知识图谱补全方法 |
CN114610900A (zh) * | 2022-03-14 | 2022-06-10 | 上海交通大学 | 知识图谱补全方法及系统 |
CN115718809A (zh) * | 2022-12-23 | 2023-02-28 | 北京大学第三医院(北京大学第三临床医学院) | 知识图谱补全模型的训练方法及装置 |
CN116402133A (zh) * | 2023-04-12 | 2023-07-07 | 中南大学 | 一种基于结构聚合图卷积网络的知识图谱补全方法及系统 |
CN116665305A (zh) * | 2023-06-15 | 2023-08-29 | 上海交通大学 | 基于计算机视觉和知识图谱的工人行为检测方法和系统 |
-
2023
- 2023-10-11 CN CN202311316555.2A patent/CN117273129B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239131A (zh) * | 2021-06-18 | 2021-08-10 | 国网湖南省电力有限公司 | 基于元学习的少样本知识图谱补全方法 |
CN114610900A (zh) * | 2022-03-14 | 2022-06-10 | 上海交通大学 | 知识图谱补全方法及系统 |
CN115718809A (zh) * | 2022-12-23 | 2023-02-28 | 北京大学第三医院(北京大学第三临床医学院) | 知识图谱补全模型的训练方法及装置 |
CN116402133A (zh) * | 2023-04-12 | 2023-07-07 | 中南大学 | 一种基于结构聚合图卷积网络的知识图谱补全方法及系统 |
CN116665305A (zh) * | 2023-06-15 | 2023-08-29 | 上海交通大学 | 基于计算机视觉和知识图谱的工人行为检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117273129B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434721B (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN110046706B (zh) | 模型生成方法、装置及服务器 | |
CN109815156A (zh) | 页面中视觉元素的展示测试方法、装置、设备和存储介质 | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN111143578A (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
CN110363190A (zh) | 一种文字识别方法、装置及设备 | |
CN112784066A (zh) | 基于知识图谱的信息反馈方法、装置、终端和存储介质 | |
CN117851605A (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN113821251A (zh) | 基于人工智能的代码优化方法、装置、设备和存储介质 | |
CN114565803A (zh) | 用于提取难样本的方法、装置及机械设备 | |
CN114266901A (zh) | 文档轮廓提取模型构建方法、装置、设备及可读存储介质 | |
CN117273129B (zh) | 一种行为图谱创建生成方法及系统 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN112614108A (zh) | 基于深度学习检测甲状腺超声图像中结节的方法和装置 | |
CN110177006B (zh) | 基于接口预测模型的节点测试方法及装置 | |
CN112733536A (zh) | 词嵌入方法和设备以及词搜索方法 | |
CN111027319A (zh) | 自然语言时间词的解析方法、装置和计算机设备 | |
CN114612919B (zh) | 一种票据信息处理系统及方法、装置 | |
CN113609948B (zh) | 一种视频时序动作的检测方法、装置及设备 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
CN117540799B (zh) | 一种个案图谱创建生成方法及系统 | |
CN113986245A (zh) | 基于halo平台的目标代码生成方法、装置、设备及介质 | |
CN115049899B (zh) | 模型训练方法、指代表达式生成方法及相关设备 | |
CN112182413A (zh) | 一种基于教学大数据的智能推荐方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240307 Address after: Room 715, No. 228 Jiangchang 3rd Road, Jing'an District, Shanghai, 200436 Applicant after: Shanghai Junsi Huanyu Data Technology Co.,Ltd. Country or region after: Zhong Guo Address before: Room 1511, No. 78, Lane 1688, Guoquan North Road, Yangpu District, Shanghai 200082 Applicant before: Shanghai Xinguang Data Technology Co.,Ltd. Country or region before: Zhong Guo |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |