CN114970547A - 多层级多类型的规划内容差异识别与冲突消除方法 - Google Patents

多层级多类型的规划内容差异识别与冲突消除方法 Download PDF

Info

Publication number
CN114970547A
CN114970547A CN202210647534.8A CN202210647534A CN114970547A CN 114970547 A CN114970547 A CN 114970547A CN 202210647534 A CN202210647534 A CN 202210647534A CN 114970547 A CN114970547 A CN 114970547A
Authority
CN
China
Prior art keywords
planning
text
entity
knowledge
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210647534.8A
Other languages
English (en)
Inventor
赵志刚
颜雪
陈业滨
马丁
杨佳豪
朱维
张衡
韩德志
李泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210647534.8A priority Critical patent/CN114970547A/zh
Publication of CN114970547A publication Critical patent/CN114970547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了多层级多类型的规划内容差异识别与冲突消除方法,包括:获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。本发明提高了规划协同过程中准确性和可靠性,有效解决了多层级多类型规划内容差异性识别与冲突消除的问题,能够提升不同规划类型的协同效率。

Description

多层级多类型的规划内容差异识别与冲突消除方法
技术领域
本发明涉及规划数据处理技术领域,尤其涉及的是一种多层级多类型的规划内容差异识别与冲突消除方法、智能终端及存储介质。
背景技术
空间规划是空间发展的指南、可持续发展的空间蓝图,是各类开发保护建设活动的基本依据。新形势下如何在规划过程中相互协调好各相关规划是亟待思考和解决的问题。空间规划是一项复杂的工作,参与空间规划一系列活动的人可以包括城市规划编制者、城市管理者、建筑师或开发商等,在空间规划工作中需要相互协同,因此从理性与系统的角度,需要构建各规划相互协同过程中的共同“规划语境”或“规划要素”,可以使其在规划协同过程中进行有效的规划沟通。
现有技术中,由于规划文本来源不同,如政府网、自然资源局、发展规划局等,且规划类型也存在总体规划、详细规划、分区规划等等不同类型的规划类别。由于规划文本来源以及规划类型的差异化,在缺乏沟通协同的影响下,容易产生规划要素、规划指标内容冲突的问题。即现有技术中的规划过程中对多层级多类型规划内容差异性识别存在准确性不高,对部分冲突消除需要人工解决,无法提升不同规划类型的协同效率。
因此,现有导航技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种多层级多类型的规划内容差异识别与冲突消除方法、智能终端及存储介质,本发明通过获取不同类型规划文本的规划要素,协同构建规划信息知识库,以知识图谱为基础进行规划内容差异的识别与冲突消除。本发明提高了规划协同过程中准确性和可靠性,有效解决了多层级多类型规划内容差异性识别与冲突消除的问题,能够提升不同规划类型的协同效率。
本发明解决问题所采用的技术方案如下:
一种多层级多类型的规划内容差异识别与冲突消除方法,其中,所述方法包括:
获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据的步骤包括:
获取各规划文本内容,形成多源规划文本原始数据集;
对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述将转换后的规划文本数据进行知识标注处理的步骤包括:
获取转换后的指定格式的规划文本数据;
对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;
采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据的步骤包括:
对经过标注处理的规划文本数据采用基于BERT-BiLSTM-CRF模型进行知识抽取;
获取规划文本数据的规划文本实体序列,得到实体训练数据集;获取规划文本数据的规划文本关系序列,得到关系训练数据集;
将所述实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,保存最优模型,预测实体结果;
将所述关系训练数据集输入到BERT-BiLSTM-CRF模型进行关系抽取,保存最优模型,预测关系结果;
将预测实体结果和预测实体结果,生成规划结构化数据。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱的步骤包括:
基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据实体-关系-实体三元组进行整理;
采用Neo4j图形数据库,设置七组图谱节点标签;所述七组图谱节点标签包括:代表规划具体名称的PName节点标签、代表规划所包含各自规划目的的PPurpose节点标签、代表具体规划依据的PBasis节点标签、代表规划涉及行政范围的PRange节点标签、代表规划内容涉及的具体指标项的PIndex节点标签、代表编制的法定规划预期完成规划目标期限的PTime节点标签、代表多属性要素内容的PAttributes节点标签;
根据设置的节点标签中的具体实体和标签与标签之间的关系,分别构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系;
将构建的节点标签与节点标签之间的关系信息通过实体-关系-实体三元组的形式呈现出来,以完成规划知识图谱的构建。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果的步骤包括:
基于构建的规划知识图谱,利用规划语义之间的联动关系,获取查询规划类型和指标情况,自动识别规划内容的差异,以识别规划冲突并提醒。
一种多层级多类型的规划内容差异识别与冲突消除装置,其中,包括:
获取转换模块,用于获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
抽取分割模块,用于对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
知识图谱构建模块,用于基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
冲突识别模块,用于基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。
所述的多层级多类型的规划内容差异识别与冲突消除装置,其中,所述获取转换模块包括:
获取单元,用于获取各规划文本内容,形成多源规划文本原始数据集;
转换处理单元,用于对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据;
标注单元,用于对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
一种智能终端,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行任意一项所述的方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任意一项所述的方法。
本发明的有益效果:本发明提供一种多层级多类型的规划内容差异识别与冲突消除方法、智能终端及存储介质,涉及规划知识的获取、知识关系建立与规划冲突消除。本发明方法包括:首先,获取规划文本内容,并对规划文本内容进行预处理,包括文本搜集与知识标注;其次,对规划知识进行抽取。面向现有国土空间规划文本,采用BERT-BiLSTM-CRF模型,抽取规划文本中的规划名称、规划依据、规划指标以及规划相关属性信息,整合规划知识。第三,基于知识抽取结果,将规划要素和/或指标之间的关系按照“实体—关系—实体”的三元组模型进行组织,构建规划知识图谱。最后,基于知识图谱,利用规划语义之间的联动关系,识别规划冲突。本发明有效解决了多层级多类型规划内容差异性识别与冲突消除的问题,能够提升不同规划类型的协同效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多层级多类型的规划内容差异识别与冲突消除方法的流程示意图。
图2是本发明实施例提供的多层级多类型的规划内容差异识别与冲突消除方法的为文本预处理示意图。
图3是本发明实施例提供的多层级多类型的规划内容差异识别与冲突消除方法的知识抽取流程示意图。
图4是本发明实施例提供的多层级多类型的规划内容差异识别与冲突消除方法的实体和关系分类抽取流程示意图。
图5是本发明实施例提供的多层级多类型的规划内容差异识别与冲突消除装置的原理框图。
图6是本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
空间规划是空间发展的指南、可持续发展的空间蓝图,是各类开发保护建设活动的基本依据。新形势下如何在规划过程中相互协调好各相关规划是亟待思考和解决的问题。空间规划是一项复杂的工作,参与空间规划一系列活动的人可以包括城市规划编制者、城市管理者、建筑师或开发商等,在空间规划工作中需要相互协同,因此从理性与系统的角度,需要构建各规划相互协同过程中的共同“规划语境”或“规划要素”,可以使其在规划协同过程中进行有效的规划沟通。
现有技术中,由于规划文本来源不同,如政府网、自然资源局、发展规划局等,且规划类型也存在总体规划、详细规划、分区规划等等不同类型的规划类别。由于规划文本来源以及规划类型的差异化,在缺乏沟通协同的影响下,容易产生规划要素、规划指标内容冲突的问题。即现有技术中的规划过程中对多层级多类型规划内容差异性识别存在准确性不高,对部分冲突消除需要人工解决,无法提升不同规划类型的协同效率。
作为大规模语义网络的知识图谱,可以利用知识图谱在逻辑表达方面的优势,探索如何解决各类规划的协同问题。
因此,本发明引入知识图谱技术,针对不同层级、不同类型规划内容冲突问题,提出一种新的规划内容差异识别与冲突消除方法;提出了一种面向多层级、多类型规划内容的差异识别与冲突消除方法。通过整合不同类型规划文本的规划要素,协同构建规划信息知识库,以知识图谱为基础进行规划内容差异的识别与冲突消除。本发明在提高规划协同过程中准确性和可靠性的同时,还有利于规划主体增强逻辑思考,对于我国国土空间规划具有重要的意义。
示例性方法
如图1中所示,本发明实施例提供一种多层级多类型的规划内容差异识别与冲突消除方法,所述多层级多类型的规划内容差异识别与冲突消除方法可以应用于智能终端。在本发明实施例中,所述方法包括如下步骤:
步骤S100、获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
本发明实施例中,会先获取各规划文本内容,形成多源规划文本原始数据集;然后对多源规划文本原始数据集中的对规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据。
具体实施时本发明获取转换后的指定格式的规划文本数据;对所述指定格式的规划文本数据txt格式的规划文本数据,进行原始文本序列生成与文本语料标注;例如采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
其中,所述BIO标注为:将每个元素标注为“B-X”、“I-X”或者“O”。“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置“O”表示不属于任何类型。
步骤S200、对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
其中,本发明在对经过标注处理的规划文本数据进行抽取时,需获取空间规划文本,采用BERT-BiLSTM-CRF模型,抽取规划文本中的规划名称、规划依据、规划指标以及规划相关属性信息,整合规划知识;
具体地,对经过标注处理的规划文本数据采用基于BERT-BiLSTM-CRF模型进行知识抽取;
获取规划文本数据的规划文本实体序列,得到实体训练数据集;获取规划文本数据的规划文本关系序列,得到关系训练数据集;
将所述实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,保存最优模型,预测实体结果;
将所述关系训练数据集输入到BERT-BiLSTM-CRF模型进行关系抽取,保存最优模型,预测关系结果;
将预测实体结果和预测实体结果,生成规划结构化数据。
步骤S300、基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
本发明实施例中,基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据实体-关系-实体三元组进行整理;
采用Neo4j图形数据库,设置七组图谱节点标签;所述七组图谱节点标签包括:代表规划具体名称的PName节点标签、代表规划所包含各自规划目的的PPurpose节点标签、代表具体规划依据的PBasis节点标签、代表规划涉及行政范围的PRange节点标签、代表规划内容涉及的具体指标项的PIndex节点标签、代表编制的法定规划预期完成规划目标期限的PTime节点标签、代表多属性要素内容的PAttributes节点标签
根据设置的节点标签中的具体实体和标签与标签之间的关系,分别构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系;
将构建的节点标签与节点标签之间的关系信息通过实体-关系-实体三元组的形式呈现出来,以完成规划知识图谱的构建。
步骤S400、基于构建的规划知识图谱,利用规划语义之间的联动关系,自动识别规划冲突,并输出识别结果。
可选地,本发明关于步骤S100的获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理具体描述如下:
步骤S101、获取各规划文本内容,形成多源规划文本原始数据集;
步骤S102、对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据。
本发明实施例中,获取各规划文本内容,形成多源规划文本原始数据集,然后对多源规划文本原始数据集,利用python工具pdfminer(PDF信息提取)、python-docx(WORD等信息提取)等库,对规划文本数据进行原始文本的txt转换,然后获得txt格式规划文本数据,如图2所示,为文本预处理后的示意图,文本预处理为TXT格式。其中,python是一款通用型的计算机程序设计语言。
步骤S103、对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据;
其中,所述BIO标注法:为将每个元素标注为“B-X”、“I-X”或者“O”。“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置“O”表示不属于任何类型。
BIO标注法用于解决NLP(自然语言处理)过程中的序列标注问题,采用BIO标记法对规划文本进行实体类别标注具有一定的可行性。BIO标记法将一个实体(Single)划分为实体起始(Begin)、实体内部(Inside)及非实体部分(Outside)。针对规划协同过程中需要解决的问题,对规划文本中包含的规划类型、规划期限、规划实施范围、规划目的、规划指标项、规划依据和规划其他属性等规划要素进行实体定义,文本中包含的通用关系主要“是”、“位于”、“其中”、“占”、“调整”、“增加”和“减少”等。通过BIO标注法生成各实体的标签并输出符合词向量生成层的输入语料标准。具体实体标签标注定义如表1所示。
表1规划文本实体类型定义
Figure BDA0003686599260000091
实体关系标注定义如表2所示。
表2规划文本关系定义
Figure BDA0003686599260000092
本发明实施例中,基于python环境,利用re、python-docx等库,对规划文本数据进行原始文本序列生成与文本语料标注,获得基于BIO标注的规划文本数据序列。BIO标注后的规划文本如表3所示,BIO标注后的规划文本关系如表4所示。
表3基于BIO标注的规划文本实体序列示例(部分)
Figure BDA0003686599260000093
Figure BDA0003686599260000101
表4基于BIO标注的规划文本关系序列示例(部分)
Figure BDA0003686599260000102
本发明实施例中,关于步骤S200的对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据的步骤具体包括:
步骤S201、对经过标注处理的规划文本数据采用基于BERT-BiLSTM-CRF模型进行知识抽取;
步骤S202、获取规划文本数据的规划文本实体序列,得到实体训练数据集;获取规划文本数据的规划文本关系序列,得到关系训练数据集;
步骤S203、将所述实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,保存最优模型,预测实体结果;
步骤S204、将所述关系训练数据集输入到BERT-BiLSTM-CRF模型进行关系抽取,保存最优模型,预测关系结果;
步骤S205、将预测实体结果和预测实体结果,生成规划结构化数据。
具体地,本发明采用基于BERT-BiLSTM-CRF模型的知识抽取。其中,所述基于BERT-BiLSTM-CRF模型为基于变换器的双向编码器表示——双向长短期记忆神经网络——条件随机场的整体模型架构。
具体地,本发明知识抽取环节的整体模型架构采用了BERT、BiLSTM和CRF三个模块组合的方式构成,具体流程如图3所示,将某XX市国土空间规划输入到输入层,然后进行词嵌入包括标记嵌入、片段嵌入和位置嵌入;再通过BERT编码。本发明实施例中BERT模型作为预训练模型,通过输入规划文本得到每一个字的向量表示。然后将字向量输入到BiLSTM模块中,经过编码后最后通过CRF层输出最大概率的结果。
BERT模型是一个基于上下文的模型,该模型可以根据单词在上下文中的环境生成不同的嵌入模型,根据句子中每个单词与其他所有单词来理解每个单词的语境意思。在中文中同样存在一词多义的情况,例如“包袱”一词可以表示精神上的负担,也可以表示在准备的笑料里面的点睛之句,整个语言表达内容的精华所在。因此在词嵌入时,需要根据上下文的环境,生成词嵌入。为了增加字向量的语义表示,通过拓宽词向量的嵌入能力,增加多个词嵌入的方法,充分学习不同字符之间的关系特征。
双向长短期记忆神经网络(Bi-directional Long Shot Term Memory,BiLSTM)模型是有两个方向的LSTM模型组,在自然语言处理中,主要用于处理上下文的文本信息。LSTM采用的是单向的从前到后的顺序,不能反方向编码。而当面对文本不同程度含义的分类任务时,前后上下文之间的词或字具有明显的相关性,BiLSTM可以更加有效的捕捉到上下文之间的依赖关系。
CRF(自然语言处理)包括两个要素,即位置要素和对应的值要素。当每一个位置按照某种分布随赋予对应的要素值以后,位置要素和值要素构成的集合就是随机场。
本发明实施例中,关于实体和关系分类抽取流程如图4所示:图4为本发明方法实施例中实体和关系分类抽取流程,如图4所示,本发明实施例基于BERT-BiLSTM-CRF模型分为以下几步:
步骤(1)、将标注的实体和关系规划语料输入到BERT-BiLSTM-CRF模型中。
如图4所示,将标注的实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,将标注的关系训练数据集输入到到BERT-BiLSTM-CRF模型进行关系抽取。
步骤(2)首先经过BERT模型进行预处理,得到字向量,送入BiLSTM层中。
即将输入的实体训练数据集和关系训练数据集合,在不同的通道分别经过BERT模型进行预处理,得到字向量,送入BiLSTM层中。
步骤(3)利用BiLSTM模型,得到处理过的字向量结果。
步骤(4)根据对标签结果的概率分布,对实体和关系进行分类。
即将处理过的实体训练数据集的字向量结果经过编码后,通过CRF(自然语言处理)模块输出最大概率的结果,保存最优模型,并预测实体结果;
将处理过的关系训练数据集合的字向量结果经过编码后,通过CRF(自然语言处理)模块输出最大概率的结果,保存最优模型,并预测关系结果。
进一步地,本发明实施例中,关于步骤S300的基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱具体包括:
步骤S301、基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据实体-关系-实体三元组进行整理;
步骤S302、采用Neo4j图形数据库,设置七组图谱节点标签;所述七组图谱节点标签包括:代表规划具体名称的PName节点标签、代表规划所包含各自规划目的的PPurpose节点标签、代表具体规划依据的PBasis节点标签、代表规划涉及行政范围的PRange节点标签、代表规划内容涉及的具体指标项的PIndex节点标签、代表编制的法定规划预期完成规划目标期限的PTime节点标签、代表多属性要素内容的PAttributes节点标签;
步骤S303、根据设置的节点标签中的具体实体和标签与标签之间的关系,分别构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系;
步骤S304、将构建的节点标签与节点标签之间的关系信息通过实体-关系-实体三元组的形式呈现出来,以完成规划知识图谱的构建。
具体地,本发明实施例中,基于图结构的存储形式具有灵活性,本发明采用Neo4j图形数据库,基于三元组RDF结构(“实体-关系-实体”)的形式,来进行知识图谱的存储及展示。其中,Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。
本发明实施例中,基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据“实体-关系-实体”三元组进行整理,并设置七组图谱节点标签。本发明实施例中,所述规划要素和/或指标之间的关系,包括:规划要素与指标之间,以及规划要素与规划要素之间,指标与指标之间。
具体实施时,本发明实施例中设置的七组图谱节点标签包括:PName节点标签(代表规划具体的名称)、PPurpose节点标签(代表规划所包含的各自规划目的)、PBasis节点标签(代表具体的规划依据)、PRange节点标签(代表规划涉及的行政范围)、PIndex节点标签(代表规划内容涉及的具体指标项,根据不同规划文本主要包含总量指标、增量指标、效率指标等多个指标项内容)、PTime节点标签(代表编制的法定规划预期完成规划目标的期限)、PAttributes节点标签(例如包含空间布局、用地分区、功能分区等多属性要素内容)。
根据这些节点标签中的具体实体和标签与标签之间的关系,分别可以构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系。
本发明实施例中,将知识图谱中节点与节点之间的关系信息通过“实体-关系-实体”三元组的形式呈现出来,在具体关系实施中,将部分规划属性信息作为两个规划实体间的特有关系进行展示。比如:规划文本A是总体规划,其提到建筑用地不超过100平方公里,那么其相关的下位规划B,就需要按照文本A规定的范围进行执行。这样可以防止规划之间的相互冲突。
本发明实施例中,关于步骤S400的基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果具体为:
本发明实施例中,基于构建的规划知识图谱,利用规划语义之间的联动关系,获取查询规划类型和指标情况,自动识别规划内容的差异,以识别规划冲突并提醒,例如针对新的规划文本,基于知识图谱中的实体语义关系,可以通过查询规划类型和指标情况,自动识别规划内容的差异,以识别规划冲突,并输出识别的规划冲突结果,并减少相关规划冲突。例如:规划文本A是总体规划,其提到建筑用地不超过100平方公里,那么其相关的下位规划B,就需要按照文本A规定的范围进行执行。这样可以防止规划之间的相互冲突。
由上可见,本发明面向多层级、多类型的规划,采用知识图谱的构建方法,在明确现有要素、关系、阈值等的条件下,有利于规划冲突差异的识别与冲突消除。
示例性设备
如图5中所示,本发明实施例提供一种多层级多类型的规划内容差异识别与冲突消除装置,该装置包括:
获取转换模块510,用于获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
抽取分割模块520,用于对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
知识图谱构建模块530,用于基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
冲突识别模块540,用于基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果,具体如上所述。
其中,所述获取转换模块包括:
获取单元,用于获取各规划文本内容,形成多源规划文本原始数据集;
转换处理单元,用于对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据;
标注单元,用于对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据,具体如上所述。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图6所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多层级多类型的规划内容差异识别与冲突消除方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图6中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据的步骤包括:
获取各规划文本内容,形成多源规划文本原始数据集;
对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据。
其中,所述将转换后的规划文本数据进行知识标注处理的步骤包括:
获取转换后的指定格式的规划文本数据;
对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;
采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
其中,所述对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据的步骤包括:
对经过标注处理的规划文本数据采用基于BERT-BiLSTM-CRF模型进行知识抽取;
获取规划文本数据的规划文本实体序列,得到实体训练数据集;获取规划文本数据的规划文本关系序列,得到关系训练数据集;
将所述实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,保存最优模型,预测实体结果;
将所述关系训练数据集输入到BERT-BiLSTM-CRF模型进行关系抽取,保存最优模型,预测关系结果;
将预测实体结果和预测实体结果,生成规划结构化数据。
其中,所述基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱的步骤包括:
基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据实体-关系-实体三元组进行整理;
采用Neo4j图形数据库,设置七组图谱节点标签;所述七组图谱节点标签包括:代表规划具体名称的PName节点标签、代表规划所包含各自规划目的的PPurpose节点标签、代表具体规划依据的PBasis节点标签、代表规划涉及行政范围的PRange节点标签、代表规划内容涉及的具体指标项的PIndex节点标签、代表编制的法定规划预期完成规划目标期限的PTime节点标签、代表多属性要素内容的PAttributes节点标签;
根据设置的节点标签中的具体实体和标签与标签之间的关系,分别构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系;
将构建的节点标签与节点标签之间的关系信息通过实体-关系-实体三元组的形式呈现出来,以完成规划知识图谱的构建。
所述的多层级多类型的规划内容差异识别与冲突消除方法,其中,所述基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果的步骤包括:
基于构建的规划知识图谱,利用规划语义之间的联动关系,获取查询规划类型和指标情况,自动识别规划内容的差异,以识别规划冲突并提醒,可以避免规划冲突,具体如上所述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种多层级多类型的规划内容差异识别与冲突消除方法、智能终端及存储介质,涉及规划知识的获取、知识关系建立与规划冲突消除。本发明方法包括:首先,获取规划文本内容,并对规划文本内容进行预处理,包括文本搜集与知识标注;其次,对规划知识进行抽取。面向现有国土空间规划文本,采用BERT-BiLSTM-CRF模型,抽取规划文本中的规划名称、规划依据、规划指标以及规划相关属性信息,整合规划知识。第三,基于知识抽取结果,将规划要素和/或指标之间的关系按照“实体—关系—实体”的三元组模型进行组织,构建规划知识图谱。最后,基于知识图谱,利用规划语义之间的联动关系,识别规划冲突。本发明有效解决了多层级多类型规划内容差异性识别与冲突消除的问题,能够提升不同规划类型的协同效率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述方法包括:
获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。
2.根据权利要求1所述的多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据的步骤包括:
获取各规划文本内容,形成多源规划文本原始数据集;
对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据。
3.根据权利要求2所述的多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述将转换后的规划文本数据进行知识标注处理的步骤包括:
获取转换后的指定格式的规划文本数据;
对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;
采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
4.根据权利要求2所述的多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据的步骤包括:
对经过标注处理的规划文本数据采用基于BERT-BiLSTM-CRF模型进行知识抽取;
获取规划文本数据的规划文本实体序列,得到实体训练数据集;获取规划文本数据的规划文本关系序列,得到关系训练数据集;
将所述实体训练数据集输入到BERT-BiLSTM-CRF模型进行实体识别,保存最优模型,预测实体结果;
将所述关系训练数据集输入到BERT-BiLSTM-CRF模型进行关系抽取,保存最优模型,预测关系结果;
将预测实体结果和预测实体结果,生成规划结构化数据。
5.根据权利要求1所述的多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱的步骤包括:
基于生成的规划结构化数据,将规划结构化数据中的规划要素和/或指标之间的关系,根据实体-关系-实体三元组进行整理;
采用Neo4j图形数据库,设置七组图谱节点标签;所述七组图谱节点标签包括:代表规划具体名称的PName节点标签、代表规划所包含各自规划目的的PPurpose节点标签、代表具体规划依据的PBasis节点标签、代表规划涉及行政范围的PRange节点标签、代表规划内容涉及的具体指标项的PIndex节点标签、代表编制的法定规划预期完成规划目标期限的PTime节点标签、代表多属性要素内容的PAttributes节点标签;
根据设置的节点标签中的具体实体和标签与标签之间的关系,分别构建PName节点标签与其余六组节点标签之间的关系,以及PName节点标签、PIndex节点标签和PAttributes节点标签中标签内所包含的实体自身之间的关系;
将构建的节点标签与节点标签之间的关系信息通过实体-关系-实体三元组的形式呈现出来,以完成规划知识图谱的构建。
6.根据权利要求1所述的多层级多类型的规划内容差异识别与冲突消除方法,其特征在于,所述基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果的步骤包括:
基于构建的规划知识图谱,利用规划语义之间的联动关系,获取查询规划类型和指标情况,自动识别规划内容的差异,以识别规划冲突并提醒。
7.一种多层级多类型的规划内容差异识别与冲突消除装置,其特征在于,包括:
获取转换模块,用于获取规划文本内容,并对获取的规划文本内容转换为指定格式的规划文本数据,并将转换后的规划文本数据进行知识标注处理;
抽取分割模块,用于对经过标注处理的规划文本数据进行抽取,采用知识抽取方式、分割规划文本语义,生成规划结构化数据;
知识图谱构建模块,用于基于生成的规划结构化数据,将规划要素和/或指标之间的关系按照实体—关系—实体的三元组模型进行规划知识组织,构建规划知识图谱;
冲突识别模块,用于基于构建的规划知识图谱,利用规划语义之间的联动关系,识别规划冲突,并输出识别的规划冲突结果。
8.根据权利要求7所述的多层级多类型的规划内容差异识别与冲突消除装置,其特征在于,所述获取转换模块包括:
获取单元,用于获取各规划文本内容,形成多源规划文本原始数据集;
转换处理单元,用于对多源规划文本原始数据集中的规划文本数据进行原始文本的txt格式转换预处理,获得txt格式的规划文本数据;
标注单元,用于对所述指定格式的规划文本数据,进行原始文本序列生成与文本语料标注;采用BIO标注法分别进行实体类别标注和文本关系标注,分别获得基于BIO标注的规划文本实体序列和基于BIO标注的规划文本关系序列,形成所述标注处理的规划文本数据。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-6中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-6中任意一项所述的方法。
CN202210647534.8A 2022-06-09 2022-06-09 多层级多类型的规划内容差异识别与冲突消除方法 Pending CN114970547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210647534.8A CN114970547A (zh) 2022-06-09 2022-06-09 多层级多类型的规划内容差异识别与冲突消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210647534.8A CN114970547A (zh) 2022-06-09 2022-06-09 多层级多类型的规划内容差异识别与冲突消除方法

Publications (1)

Publication Number Publication Date
CN114970547A true CN114970547A (zh) 2022-08-30

Family

ID=82962514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210647534.8A Pending CN114970547A (zh) 2022-06-09 2022-06-09 多层级多类型的规划内容差异识别与冲突消除方法

Country Status (1)

Country Link
CN (1) CN114970547A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662528A (zh) * 2023-05-06 2023-08-29 深圳大学 一种基于知识图谱的地图自适应推荐方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662528A (zh) * 2023-05-06 2023-08-29 深圳大学 一种基于知识图谱的地图自适应推荐方法及相关设备
CN116662528B (zh) * 2023-05-06 2024-02-02 深圳大学 一种基于知识图谱的地图自适应推荐方法及相关设备

Similar Documents

Publication Publication Date Title
CN108182295B (zh) 一种企业知识图谱属性抽取方法及系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN100495395C (zh) 数据语义化器
CN111159385B (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN107679221B (zh) 面向减灾任务的时空数据获取与服务组合方案生成方法
CN111782769B (zh) 基于关系预测的知识图谱智能问答方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN111274327B (zh) 一种面向非结构化表格文档的实体与关系抽取方法
CN110377560A (zh) 一种简历信息的结构化方法及装置
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112287095A (zh) 确定问题答案的方法、装置、计算机设备及存储介质
CN116719913A (zh) 一种基于改进命名实体识别的医疗问答系统及其构建方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114218333A (zh) 一种地质知识图谱构建方法、装置、电子设备及存储介质
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN116383352A (zh) 一种基于知识图谱的零样本构建领域智能问答系统的方法
CN114970547A (zh) 多层级多类型的规划内容差异识别与冲突消除方法
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
Wu et al. Deep learning models for spatial relation extraction in text
CN113220900B (zh) 实体消歧模型的建模方法和实体消歧预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination