CN117151659A - 一种基于大语言模型的生态修复工程全生命周期追溯方法 - Google Patents

一种基于大语言模型的生态修复工程全生命周期追溯方法 Download PDF

Info

Publication number
CN117151659A
CN117151659A CN202311428188.5A CN202311428188A CN117151659A CN 117151659 A CN117151659 A CN 117151659A CN 202311428188 A CN202311428188 A CN 202311428188A CN 117151659 A CN117151659 A CN 117151659A
Authority
CN
China
Prior art keywords
entity
ecological restoration
entities
similarity
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311428188.5A
Other languages
English (en)
Other versions
CN117151659B (zh
Inventor
董洋洋
张苏枢
陈旭明
陶慜
佘东亮
韩光辉
朱靖文
阎欣
许涛涛
李金丽
王卓月
杨丹凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Wanwei Space Information Technology Co ltd
Original Assignee
Zhejiang Wanwei Space Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Wanwei Space Information Technology Co ltd filed Critical Zhejiang Wanwei Space Information Technology Co ltd
Priority to CN202311428188.5A priority Critical patent/CN117151659B/zh
Publication of CN117151659A publication Critical patent/CN117151659A/zh
Application granted granted Critical
Publication of CN117151659B publication Critical patent/CN117151659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明公开了一种基于大语言模型的生态修复工程全生命周期追溯方法。为了克服知识图谱在构建过程中依赖人工标注、缺乏语义理解,以及自然资源模型中各实体节点之间关联关系单一,尚未形成国土空间生态修复知识图谱,无法从多个维度实现生态修复全周期管理的问题。本发明通过设计并构建本体,运用BERT实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱。依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系、关联全业务全环节信息。

Description

一种基于大语言模型的生态修复工程全生命周期追溯方法
技术领域
本发明涉及国土空间生态修复领域,尤其涉及一种基于大语言模型的生态修复工程全生命周期追溯方法。
背景技术
随着生态修复工程领域的不断发展,生态修复知识体量呈现日益增长的趋势。与此同时,数字化进程的加速导致互联网和各类信息系统中产生了海量的与生态修复有关的数据信息。为了更好地组织和利用这些信息,构建生态修复知识图谱成为一种有效的手段。知识图谱是一种以图形化方式呈现的知识库,包含了各种实体、概念及其之间的语义关联。
随着知识图谱的不断发展,根据知识的表达范围,知识图谱演化出通用知识图谱、特定领域知识图谱两个大类。通用知识图谱表达存储常识性的百科知识,主要偏向知识的广度,面向普通用户,如搜索引擎构建的知识图谱。与通用知识图谱相比,领域知识图谱可以深度建模领域知识,更紧密地支撑复杂业务。当下知识图谱已在工业领域得到了广泛应用,如搜索领域的Google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等。当前大数据环境下的生态修复信息服务,普遍存在“数据海量、信息爆炸、知识难求”现象,生态修复知识图谱的建立能够提供全新的生态修复相关数据组织方式和管理应用手段。而生态修复知识除了具有通用知识的内涵和特点之外,还具有特定的时空特征,因此生态修复知识图谱构建和应用具有一定的专业特殊性,导致当前并未建立完善的国土空间生态修复领域知识图谱。目前没有关于建立国土空间生态修复领域知识图谱的相关专利文献公开。
在知识图谱的构建过程中,当前实体对齐领域主流的方法是基于嵌入表示的实体对齐,该方法中的对齐模块需要使用人工标注的等价实体对作为训练集进行训练,依赖于人工操作,若任务知识图谱与预训练知识图谱包含不同的实体和关系,则基于嵌入的方法由于嵌入缺失而无法将有价值的信息传递给下游任务模型,因此对数据稀缺性不具备良好的处理方式。知识图谱的构建需要通过各种大数据平台获取知识,将来自不同数据源的知识进行融合,以构建数据之间的关联。目前知识图谱仍然缺乏有效的知识融合手段,实际应用中语料数据标注多依赖人工/半人工的方式进行实体对齐,存在标注效率低、主观性强等问题,效率和准确性距离大规模应用还有一定距离。
国土空间生态修复领域细分业务支线众多,并受自然或人为因素影响,国土空间生态修复数据呈现不定期更新变化状态,基于嵌入表示的方法难以适应数据的变化,从而影响实体对齐的准确性。国土空间生态修复涉及位置、项目、地块、规划、业务等相关信息,每一种信息都包含了大量的内容。现有技术的信息获取方法,一般是由用户对片面化的信息进行人工整理和分析,获取效率低,会因为用户自身的知识储备不足从而遗漏或查询不到自然资源隐含的信息,导致最终获取的信息准确率比较低。
此外,基于嵌入表示的方法不具备上下文理解能力,往往只能捕捉到文本的浅层语义信息,而在国土空间生态修复领域中,很多实体和关系可能涉及到较为复杂的语义信息,这会导致基于嵌入表示的方法在处理这些实体和关系时出现偏差,效率低下且易出错。
发明内容
本发明的目的一是为了解决知识图谱在构建过程中依赖人工标注、缺乏语义理解的问题;还为了解决目前自然资源模型中各实体节点之间关联关系单一,尚未形成国土空间生态修复知识图谱,无法从多个维度实现生态修复全周期管理的技术问题。提供一种基于大语言模型的生态修复工程全生命周期追溯方法,引入大语言模型至知识图谱的实体对齐阶段,针对国土空间生态修复领域的业务专业特性和地理特性,依托大规模的语料库和参数,能更准确地对自然语言进行理解和生成。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于大语言模型的生态修复工程全生命周期追溯方法,包括以下步骤:
S1:获取包括结构化、半结构化和非结构化存储类型的国土空间生态修复知识数据源;
S2:分别从各存储类型的数据源中抽取包括实体、关系和属性的初始三元组集合;
S3:利用BERT预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;
S4:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯。
运用海量语料和机器学习大模型的知识融合能力,大大减少了很多以往依赖人工完成的基础性、模式化工作,能够有效解决多源异构生态修复知识库的实体对齐问题。通过设计并构建本体,运用BERT实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱。依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系、关联全业务全环节信息。
作为优选,所述的国土空间生态修复知识数据源包括现状、规划管控、管理以及其他四类数据。包括空间位置、业务表单、文档材料、标准规范、政策资料等。建立基于关系及关系层级延展、衍生的国土空间生态修复项目工程知识链条,将工程项目立项、实施、验收、管护多环节进行了关系链条表达,将抽取与融合得到的国土空间生态修复知识进行了可视化表达。
作为优选,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体、属性及关系;
对于半结构化数据,建立对应的模板抽取器实现知识抽取;主要抽取的是实体名、标签、基本描述、信息卡、扩展链接、分类等信息;
对于非结构化数据,利用抽取器进行文本中的知识抽取。
对非结构化和半结构化数据进行实体抽取、关系抽取和属性抽取。实体抽取是从原始文本识别实体,包括基于规则与词典、基于统计机器学习、面向开放的方法。关系抽取通过语义解析联结实体,包括人工构造语义规则、开放域信息抽取框架等。属性抽取从多源异构数据汇集信息并勾勒实体,包括基于规则和启发式算法的方法。
作为优选,创建实体、属性、关系的知识模型,具体包括:
定义实体集合;
定义实体属性集合,为每个实体构造属性值列表;属性具有必选/可选、单值/多值、组合/派生等多种特性;
根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,包括业务关系、时间关系和空间关系;其中空间关系,主要利用空间分析获得空间关系,国土空间生态修复项目工程在物理世界存在空间范围,通过GIS分析可以得到拓扑、方向、距离等关系。
形成完整的实体、属性、关系的知识模型,包括实体-属性-实体属性值、实体-时间关系-实体、实体-空间关系-实体及实体-业务关系-实体的三元组数据结构。
作为优选,利用BERT预训练语言模型进行实体对齐的过程包括:
构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述;
获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中;
BERT语义相似度计算,将候选集,利用BERT预训练语言模型计算实体间属性相似度和文本相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度;
筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布,利用不同的步长来设置一个相似度阈值,选出大于或低于阈值的实体对。
通过学习实体语义及属性的特性,将其相似度作为实体对齐的筛选标准,能够有效解决多源异构国土空间生态修复知识库数据融合中依赖人工标注、缺乏语义理解的问题,通过该模型可以将标准的实体对进行对齐,形成标准三元组集合,并将三元组存储于Neo4j中。
作为优选,形象化描述的表示为:
其中,E代表实体;
N代表实体名称;
ID 代表实体库中实体的 id;
W代表实体的非结构化文本信息;
C代表实体的类别信息;一个实体可以拥有多个类别;
PT代表实体的属性三元组;一个实体可以拥有多个属性三元组。
属性三元组pt包括实体名称s、属性名p和属性值o;
对于两个实体库中的实体,将除了ID 以外的所有文本信息作为语料,对其进行分词和去除无用词的处理,获取每一个实体的词向量表示
计算统计两个实体库中所有单词的逆文本频率指数和词向量中每个单词的相对词频,由此获取词向量中每个单词的权重值,并将词向量按照权重值递减的顺序排列。
作为优选,遍历两个实体库中的所有实体,得到对应词向量的前缀长度k,以词向量的前k个词分别为索引键,对实体的 id 进行挂载,形成生态修复实体id集合;对应词向量的前缀长度k的计算公式如下:
其中,threshold为设置的相似度阈值;
为第i个关键词,/>
n为词向量的最大前缀长度。
作为优选,属性相似度的计算过程为:
对于对照实体库中的单个实体的各个属性,分别遍历待对齐实体库中对应的实体的属性集合,寻找同名的属性;
若没有同名的属性,则利用BERT预训练语言模型学习实体属性的向量再计算相似度;
单独统计对照实体库中每个实体的属性相似度,将计算出的属性相似度进行归一处理。
作为优选,文本相似度的计算过程为:
通过BERT预训练语言模型获取对照实体库和待对齐实体库中每个实体具有上下文特征的向量表示;
计算两向量余弦值相似度,具体公式为:
其中,为对照实体库实体的文本向量表示;
为待对齐实体库实体的向量表示;
为两个实体间相似值。
基于实体文本关键词索引结构,在提高实体对齐效率的同时,还提升了实体的准确率及保证了实体的召回率。
作为优选,对照实体库中的实体匹配待对齐实体库中的候选实体,根据属性相似度和文本相似度加权计算实体对相似度;根据相似度计算结果寻找大于阈值的实体对集合,并将此作为对照实体库实体的待对齐实体集合。
本发明的有益效果是:
1. 针对国土空间生态修复领域的业务专业特性和地理特性,BERT模型能够将生态修复高质量、高标准的生态修复标准实体库作为训练数据源,通过自注意力机制等技术,能在没有标注的数据上进行无监督或自监督的学习,从而减少人工标注工作量。
2. 在BERT模型中采用文本向量化和实体文本关键词作索引的方法进行信息检索,将任意长度的文本转换为固定长度的向量表示,利用向量空间中向量之间的关系计算相关性得分,与传统信息检索方式相比能够全面考虑文本中关键词的信息,提高检索效率和质量。
3. 运用海量语料和机器学习大模型的知识融合能力,大大减少了很多以往依赖人工完成的基础性、模式化工作,能够有效解决多源异构国土空间生态修复知识库的实体对齐问题。
4.通过设计并构建本体,运用BERT实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱。依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系、关联全业务全环节信息。
附图说明
图1是本发明的基于大语言模型的生态修复工程全生命周期追溯方法流程图。
图2是本发明实施例的实体之间的关系集合示意图。
图3是本发明实施例的部分实体、属性、关系的知识模型示意图。
图4是本发明实施例的又一部分实体、属性、关系的知识模型示意图。
图5是本发明利用BERT预训练语言模型进行实体对齐的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本实施例的一种基于大语言模型的生态修复工程全生命周期追溯方法,如图1所示,包括以下步骤:
1)数据源
国土空间生态修复知识来源包括现状、规划管控、管理及其他等四类数据。
其中,现状数据包含测绘、国土调查、耕地资源、地质、森林资源、湿地资源、草原资源、水资源、海洋、气象及生态环境等数据。
规划管控数据包含开发评价、重要控制线、国土空间规划、国土空间生态修复规划等数据。
管理数据包含生态修复项目、业务表单、文档材料等数据;其他数据包含政策材料、标准规范及互联网公开数据。
对采集的四类数据进行梳理分析,从结构特征方面剖析了数据组织情况,主要分为结构化数据、半结构化数据和非结构化数据。
2)知识抽取
高质量、高标准的结构化数据将作为国土空间生态修复知识图谱的核心数据源,其特点是结构化与空间性。
针对结构化,通过数据库转换为资源描述框架数据(Database to ResourceDescription Framework,D2R)工具,关系表转换为三元组并得到生态修复知识;通过地理规则抽取地理空间关系并转换为自然语言描述。
半结构与非结构化数据抽取,主要强调实体抽取、关系抽取和属性抽取三个关键过程。
实体抽取是从原始文本识别实体,包括基于规则与词典、基于统计机器学习、面向开放的方法。
关系抽取通过语义解析联结实体,包括人工构造语义规则、开放域信息抽取框架等。
属性抽取从多源异构数据汇集信息并勾勒实体,包括基于规则和启发式算法的方法。
3)知识融合
由于数据来源多且复杂及知识质量参差不齐、知识重复、关系模糊等问题,由多源异构数据抽取得到的国土空间生态修复知识要在统一规范下进行实体对齐,寻找多源异构数据中实体指称的对齐映射关系,达到数据的融合,形成高质量国土空间生态修复知识库。
为提高实体对齐的效率,本实施例的方案基于有监督学习的实体对齐方法,利用BERT预训练语言模型,分4个部分,包括构建索引、获取候选集、BERT语义相似度计算和筛选对齐实体,实现知识库实体对齐工作。
4)知识加工
主要包括本体构建、知识推理、质量评估及知识更新4个环节。
5)知识存储
利用Neo4j图数据库对标准的三元组进行存储,完成国土空间生态修复知识图谱的构建。
6)图谱应用
本发明的图谱应用主要包括全链追溯、智能检索、智能客服等方面。
具体的,国土空间生态修复原始业务数据主要涵盖现状、规划管控、管理及其他等四类数据,包括空间位置、业务表单、文档材料、标准规范、政策资料等。按照存储类型可分为结构化、半结构化和非结构化数据。本实施例以国土空间生态修复工程中“耕地占补平衡补充耕地项目”为例进行具体说明。
S1:获取包括结构化、半结构化和非结构化存储类型的国土空间生态修复知识数据源。
S2:分别从各存储类型的数据源中抽取包括实体、关系和属性的初始三元组集合。
作为设计并构建本体的过程,具体包括抽取数据和创建实体、属性、关系的知识模型。具体的,抽取数据的过程为:
针对结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体、属性及其关系。
针对半结构化数据,建立相应的模板抽取器实现知识抽取,主要抽取的是实体名、标签、基本描述、信息卡、扩展链接、分类等信息。
针对非结构化数据,利用抽取器来进行文本中的知识抽取。
而本实施例的耕地占补平衡补充耕地项目涉及大量结构化数据,主要采用D2R(relational database to RDF)映射的方法将其转换为图谱中的数据。
创建实体、属性、关系的知识模型的过程包括:
1、定义耕地占补平衡补充耕地项目实体集合。
本实施例的耕地占补平衡补充耕地项目的实体对象包括地块、业务事项、实施单位及政策依据等。
实体对象的识别先由自然资源领域专家梳理出补充耕地项目一定数据量的实体对象,再借助分词技术,过滤掉不可能为补充耕地项目实体的部分,配合人工词性标注进行实体识别。
2、定义耕地占补平衡补充耕地项目实体属性集合。
为每个实体构造属性值列表,属性具有必选/可选、单值/多值、组合/派生等多种特性,如表1所示:
表1. 实体的属性值列表
3、定义耕地占补平衡补充耕地项目实体之间的关系集合。
根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,如图2所示,包括业务关系、时间关系和空间关系。
其中空间关系,主要利用空间分析获得空间关系,国土空间生态修复项目工程在物理世界存在空间范围,通过GIS分析可以得到拓扑、方向、距离等关系。
在本实施例的耕地占补平衡补充耕地项目中,业务关系包括占用耕地和补充耕地。
时间关系包括变更前和变更后。
空间关系包括拓扑关系、方向关系和距离关系。
更具体的,拓扑关系包括相等、相交、包含、被包含、领接、相离、压盖和被压盖。
方向关系包括方向定量表达和方向定向表达(如东、南、西、北、中、东北、西南等)。
距离关系包括距离定量表达和距离定性表达(如很远、较远、较近、无穷近、很近等)。
4、形成完整的实体、属性、关系的知识模型,包括实体-属性-实体属性值、实体-时间关系-实体、实体-空间关系-实体及实体-业务关系-实体的三元组数据结构。本实施例补充耕地项目的完成的模型如图3和图4所示。
实体包括投资、政策、立项阶段、实施阶段、管护阶段和验收阶段等等。
以“政策”实体为例,耕地占补平衡补充耕地项目与“政策”实体的关系是依据“政策”实体,此外,耕地占补平衡补充耕地项目业务阶段的“验收阶段”实体中的“验收规范”实体与“政策”实体的关系也是依据“政策”实体。
“政策”实体的属性又包括了政策条款、颁布时间和政策文号等。“政策”实体与“政策条款”属性和“政策文号”属性的关系均为包含;“政策”实体与“颁布时间”属性的关系为发布于。
S3:利用BERT预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据。
运用BERT模型进行实体对齐。抽取得到的实体会出现同类实体重复、不同类实体物理重复等情况。本实施例的方案提出运用BERT模型进行实体对齐,构建BERT实体对齐模型,该模型能够将实体转化为向量化计算,再基于文本相似度方法将实体进行归一整合,BERT实体对齐模型如图5所示,利用BERT预训练语言模型进行实体对齐的过程包括以下四个步骤:
1、构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述。
其中,E (Entry)代表实体。
N(Name)代表实体名称。
ID 代表实体库中实体的 id。
W( Words)代表实体的非结构化文本信息。
C( Category)代表实体的类别信息,一个实体可以拥有多个类别。
PT(Property Tuple)代表实体的属性三元组,一个实体可以拥有多个属性三元组。
属性三元组pt包括实体名称s、属性名p和属性值o;
对于两个实体库中的实体,将除了ID 以外的所有文本信息作为语料,对其进行分词和去除无用词的处理,获取每一个实体的词向量表示
然后计算统计两个实体库中所有单词的逆文本频率指数和词向量中每个单词的相对词频,由此获取词向量中每个单词的权重值,并将词向量按照权重值递减的顺序排列。
进一步的,遍历两个实体库中的所有实体,得到对应词向量的前缀长度k,以词向量的前k个词分别为索引键,对实体的 id 进行挂载,形成生态修复实体id集合。
对应词向量的前缀长度k的计算公式如下:
其中,threshold为设置的相似度阈值。
为第i个关键词,/>
n为词向量的最大前缀长度。
2、获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中。
首先,对照实体库是根据构建的实体名称如项目名称、项目编号、地块编号、项目位置等作为关键词索引去搜寻得到一个实体id集合。
然后,待对齐实体库是根据“XXX土地开发整理复垦项目”实体的名称搜索得到一个候选实体id集合。
最后,将两个集合中的实体两两匹配,获取两个集合的交集形成最终的候选实体对集合。
3、BERT语义相似度计算,将候选集合利用BERT模型计算实体间属性相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度。
①属性相似度计算
将对照实体库称为A,其中实体集合表示为;待对齐实体库称为 B,其中实体集合表示为 />
给定对照实体库中的实体和待对齐实体库中的实体/>,实体/>的属性用表示为/>;实体/>的属性集合表示为
具体的,对于对照实体库中的实体中的属性/>,需要在待对齐实体库中的实体/>的属性集合/>中遍历找到同名的属性。
如果没有找到同名的属性,再利用BERT预训练语言模型学习实体属性的向量再计算相似度。将两个实体属性的相似度表示,以此类推,为对照实体库中的实体/>中的属性/>分别寻找匹配的属性,单独统计每个实体的属性相似度,最后将计算出的属性相似度进行归一处理/>,公式表示为:
②文本相似度
在对照实体库、待对齐实体库中每个实体都有上下文信息描述,通过BERT模型获取具有上下文特征的向量表示,用表示。
接下来将两向量余弦值相似度计算出来,具体公式为:
其中,为对照实体库实体/>的文本向量表示;
为待对齐实体库实体/>的向量表示;
为两个实体间相似值。
③实体相似度计算
综上,在实体相似度计算需要考虑属性、文本本身的信息。
在对照实体库实体集 A 中实体匹配待对齐实体库实体集 B 中与之匹配的候选实体/>,并根据公式:
其中,为属性相似度的加权权重;/>为文本相似度的加权权重。权重根据实际需求设置。
计算实体对相似度,最后根据相似度计算结果寻找大于阈值的实体对集合,并将此作为对照实体库实体的待对齐实体集合。
4、筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布,利用不同的步长来设置一个相似度阈值,选出大于或低于阈值的实体对。
当可对齐实体的相似度大于阈值,则认为存在可对齐实体;当可对齐实体的相似度低于阈值,则认为没有可对齐实体。
S4:根据标准化三元组数据,依次进行知识加工和知识存储,完成国土空间生态修复知识图谱构建;根据用户的请求,调用国土空间生态修复知识图谱进行生态修复工程全生命周期追溯。
构建国土空间生态修复知识图谱,基于知识抽取、实体对齐等操作形成了一系列标准化三元组,通过知识加工得到高质量、高可用的专业知识体系。
知识加工步骤如下:
1、本体构建使用树状结构,便于国土空间生态修复知识查询与推理。
本实施例采用专家和众包人工构建,再根据条件利用自动构建的方式进行扩展。
2、知识推理是从已有的国土空间生态修复知识中进一步挖掘隐含的知识,从而建立实体间的新关系。
知识推理能够帮助自然资源部门决策人员了解一个国土空间生态修复工程项目的全生命周期所需要的知识支撑。
3、通过抽取、融合、推理得到的国土空间生态修复知识可能存在错误,质量评估保证国土空间生态修复知识库质量,因此需进行入库前的质量评估。
4、国土空间生态修复知识会随着时间的变化而变化,在实体、关系和属性值都会发生变化,国土空间生态修复知识库需要重新评估,通过建立国土空间生态修复知识库的动态更新机制。
针对已有一套更新机制的结构化数据,通过动态接口方式,使得国土空间生态修复知识库保持与其更新周期一致,完成知识的局部更新;针对一些非结构化的国土空间生态修复数据,可建立周期性机制,通过不定期更新方式,对国土空间生态修复知识库进行增量更新,保持国土空间生态修复知识库的更新优化。
知识加工后,利用 Neo4j 图数据库对标准的三元组进行存储,完成国土空间生态修复知识图谱的构建,实现全链追溯、智能检索、智能客服等应用。
全链追溯实现过程为:
一是以耕地占补平衡补充耕地项目为锚点,通过空间性与现状耕地构建空间关系,将其空间关系转换为语义文本,掌握耕地占补平衡补充耕地项目的空间位置。
二是按照空间位置将其空间单元上项目立项、实施、验收及后期管护等全环节信息关联,实现实时动态掌握项目全业务全环节上各类要素信息。
智能检索实现过程为:
一是通过使用文字模糊匹配得到一系列内容。
二是匹配实体与关系链条,由人工判断找到最合适的查询结果。
三是通过解析,向用户返回图形化结果,得到实体及相关实体的知识卡片。
智能客服实现过程:
一是用户发起提问,将其转化为结构化查询语句。
二是从问题中找到实体与关系,并匹配到生态修复知识库中对应的实体与关系。
三是向用户推送查询结构,并通过持续的人机交互反馈发现知识库的不完善领域,进而不断优化更新知识库。
本实施例的方案基于BERT实体对齐,通过学习实体语义及属性的特性,将其相似度作为实体对齐的筛选标准,能够有效解决多源异构的国土空间生态修复知识库数据融合中依赖人工标注、缺乏语义理解的问题,通过该模型可以将标准的实体对进行对齐,形成标准三元组集合,并将三元组存储于 Neo4j中。基于实体文本关键词索引结构,在提高实体对齐效率的同时,还提升了实体的准确率及保证了实体的召回率。
建立基于关系及关系层级延展、衍生的国土空间生态修复项目工程知识链条,将工程项目立项、实施、验收、管护多环节进行了关系链条表达,将抽取与融合得到的国土空间生态修复知识进行了可视化表达。
应理解,实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,包括以下步骤:
S1:获取包括结构化、半结构化和非结构化存储类型的国土空间生态修复知识数据源;
S2:分别从各存储类型的数据源中抽取包括实体、关系和属性的初始三元组集合;
S3:利用BERT预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;
S4:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯。
2.根据权利要求1所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,所述的国土空间生态修复知识数据源包括现状、规划管控、管理以及其他四类数据。
3.根据权利要求1或2所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体、属性及关系;
对于半结构化数据,建立对应的模板抽取器实现知识抽取;
对于非结构化数据,利用抽取器进行文本中的知识抽取。
4.根据权利要求3所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,创建实体、属性、关系的知识模型,具体包括:
定义实体集合;
定义实体属性集合,为每个实体构造属性值列表;
根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,包括业务关系、时间关系和空间关系;
形成完整的实体、属性、关系的知识模型,包括实体-属性-实体属性值、实体-时间关系-实体、实体-空间关系-实体及实体-业务关系-实体的三元组数据结构。
5.根据权利要求1或4所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,利用BERT预训练语言模型进行实体对齐的过程包括:
构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述;
获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中;
BERT语义相似度计算,将候选集,利用BERT预训练语言模型计算实体间属性相似度和文本相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度;
筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布,利用不同的步长来设置一个相似度阈值,选出大于或低于阈值的实体对。
6.根据权利要求5所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,形象化描述的表示为:
其中,E代表实体;
N代表实体名称;
ID 代表实体库中实体的 id;
W代表实体的非结构化文本信息;
C代表实体的类别信息;
PT代表实体的属性三元组;
属性三元组pt包括实体名称s、属性名p和属性值o;
对于两个实体库中的实体,将除了ID 以外的所有文本信息作为语料,对其进行分词和去除无用词的处理,获取每一个实体的词向量表示
计算统计两个实体库中所有单词的逆文本频率指数和词向量中每个单词的相对词频,由此获取词向量中每个单词的权重值,并将词向量按照权重值递减的顺序排列。
7.根据权利要求6所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,遍历两个实体库中的所有实体,得到对应词向量的前缀长度k,以词向量的前k个词分别为索引键,对实体的 id 进行挂载,形成生态修复实体id集合;对应词向量的前缀长度k的计算公式如下:
其中,threshold为设置的相似度阈值;
为第i个关键词,/>
n为词向量的最大前缀长度。
8.根据权利要求5所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,属性相似度的计算过程为:
对于对照实体库中的单个实体的各个属性,分别遍历待对齐实体库中对应的实体的属性集合,寻找同名的属性;
若没有同名的属性,则利用BERT预训练语言模型学习实体属性的向量再计算相似度;
单独统计对照实体库中每个实体的属性相似度,将计算出的属性相似度进行归一处理。
9.根据权利要求5所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,文本相似度的计算过程为:
通过BERT预训练语言模型获取对照实体库和待对齐实体库中每个实体具有上下文特征的向量表示;
计算两向量余弦值相似度,具体公式为:
其中,为对照实体库实体的文本向量表示;
为待对齐实体库实体的向量表示;
为两个实体间相似值。
10.根据权利要求8或9所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,对照实体库中的实体匹配待对齐实体库中的候选实体,根据属性相似度和文本相似度加权计算实体对相似度;根据相似度计算结果寻找大于阈值的实体对集合,并将此作为对照实体库实体的待对齐实体集合。
CN202311428188.5A 2023-10-31 2023-10-31 一种基于大语言模型的生态修复工程全生命周期追溯方法 Active CN117151659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311428188.5A CN117151659B (zh) 2023-10-31 2023-10-31 一种基于大语言模型的生态修复工程全生命周期追溯方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311428188.5A CN117151659B (zh) 2023-10-31 2023-10-31 一种基于大语言模型的生态修复工程全生命周期追溯方法

Publications (2)

Publication Number Publication Date
CN117151659A true CN117151659A (zh) 2023-12-01
CN117151659B CN117151659B (zh) 2024-03-22

Family

ID=88903148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311428188.5A Active CN117151659B (zh) 2023-10-31 2023-10-31 一种基于大语言模型的生态修复工程全生命周期追溯方法

Country Status (1)

Country Link
CN (1) CN117151659B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112612908A (zh) * 2021-01-05 2021-04-06 上海云扣科技发展有限公司 自然资源知识图谱构建方法、装置、服务器及可读存储器
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN115049186A (zh) * 2021-12-31 2022-09-13 四川农业大学 一种国土空间生态修复复杂系统性关键评价系统
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备
CN115099722A (zh) * 2022-08-24 2022-09-23 自然资源部第三航测遥感院 基于知识化谱系的国土空间规划指标模型管理与应用方法
CN115658919A (zh) * 2022-10-31 2023-01-31 安徽大学 一种文化信息数字化存储方法
CN115809345A (zh) * 2022-12-01 2023-03-17 西南科技大学 一种基于知识图谱的多源数据差异溯源检索方法
CN117216286A (zh) * 2023-08-25 2023-12-12 厦门理工学院 国土调查数据的知识图谱构建方法、装置、设备和介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112612908A (zh) * 2021-01-05 2021-04-06 上海云扣科技发展有限公司 自然资源知识图谱构建方法、装置、服务器及可读存储器
CN115049186A (zh) * 2021-12-31 2022-09-13 四川农业大学 一种国土空间生态修复复杂系统性关键评价系统
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备
CN115099722A (zh) * 2022-08-24 2022-09-23 自然资源部第三航测遥感院 基于知识化谱系的国土空间规划指标模型管理与应用方法
CN115658919A (zh) * 2022-10-31 2023-01-31 安徽大学 一种文化信息数字化存储方法
CN115809345A (zh) * 2022-12-01 2023-03-17 西南科技大学 一种基于知识图谱的多源数据差异溯源检索方法
CN117216286A (zh) * 2023-08-25 2023-12-12 厦门理工学院 国土调查数据的知识图谱构建方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
季一木 等: "基于BERT的多源知识库索引对齐算法", 南京邮电大学学报(自然科学版), vol. 41, no. 2, pages 50 *

Also Published As

Publication number Publication date
CN117151659B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN110597870A (zh) 一种企业关系挖掘方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN111709235A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
WO2023124191A1 (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN113918725A (zh) 一种水务领域知识图谱的构建方法
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN114218333A (zh) 一种地质知识图谱构建方法、装置、电子设备及存储介质
CN105160046A (zh) 基于文本的数据检索方法
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和系统
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN115982329A (zh) 一种工程施工方案编制依据的智能生成方法及系统
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant