CN116523043A - 一种方舱设计知识图谱构建方法 - Google Patents
一种方舱设计知识图谱构建方法 Download PDFInfo
- Publication number
- CN116523043A CN116523043A CN202310527634.1A CN202310527634A CN116523043A CN 116523043 A CN116523043 A CN 116523043A CN 202310527634 A CN202310527634 A CN 202310527634A CN 116523043 A CN116523043 A CN 116523043A
- Authority
- CN
- China
- Prior art keywords
- shelter
- design
- knowledge graph
- knowledge
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013461 design Methods 0.000 title claims abstract description 101
- 238000010276 construction Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 239000002699 waste material Substances 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000443 biocontrol Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Manufacturing & Machinery (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明公开了一种方舱设计知识图谱构建方法,步骤如下:方舱设计语料数据集准备;数据预处理;构建方舱设计知识图谱模式层;构建方舱设计知识图谱数据层;知识存储。本发明采用改进的实体识别模型抽取实体,显著提高了实体抽取的效率和准确性,有效提升了所建方舱设计知识图谱的质量;本发明实现了方舱设计知识图谱的自动构建,充分利用了企业已有设计案例资源,能够辅助企业设计人员进行方舱的快速设计,避免资源浪费,减少重复性劳动,提高设计效率;本发明方舱设计知识图谱的可视化展示可以在配置过程中协助客户进行配置,帮助客户更好地理解产品的功能、结构、布局、技术指标等方面的情况,使客户明确需求,快速地确认订单。
Description
技术领域
本发明涉及知识图谱,特别是一种方舱设计知识图谱构建方法。
背景技术
近年来,制造行业智能化步伐加快,新产品的设计开发有了进一步提高质量与效率的迫切需求。面向大规模定制订单的个性化产品开发往往面临着不同的规格、配置、功能应用等需求,这些复杂多变的设计变量耗费了设计人员大量的时间和精力,不仅造成了产品的重复设计,还极大地影响了产品的上市效率,制造企业必须找到更加智能化、数字化的方法来应对这一挑战。
随着信息技术的发展,知识图谱作为一种新兴的信息存储模型,通过对不同类型数据进行抽取、理解和集成,从而对异构数据统一表示,高效地对海量数据进行管理、处理和应用。知识图谱将网络中的信息以“实体-关系”的方式存储起来,并以图的形式展示出来,对用户来说具有可理解性、可重用性和交互性,能为用户提供更加深入和准确的信息,从而帮助用户做出更好的决策。
在现有的研究中,知识图谱被广泛地应用于各行各业,如故障诊断领域、医疗领域、司法领域等,然而,方舱设计领域的知识图谱构建研究尚不成熟,亟需一种高效而准确的方舱设计知识图谱构建方法。
发明内容
发明目的:本发明的目的是提供一种方舱设计知识图谱构建方法,从而充分利用企业资源,通过深度学习算法抽取实体、关系,并进行知识融合,进一步提高所构建方舱设计知识图谱的质量与准确性。
技术方案:本发明所述的一种方舱设计知识图谱构建方法,包括以下步骤:
(1)方舱设计语料数据集准备:分析构建方舱设计知识图谱的数据需求,获取文本标注预训练语料集和知识抽取样本集;所述的文本标注预训练语料集包括人民日报语料集和企业方舱设计专业术语集,所述的知识抽取样本集包括企业基础数据集、设备布局数据集、设计系统数据集。
(2)数据预处理:进行数据清洗,并用分词工具对语料数据集进行分词和词性标注;所述的分词工具指Jieba中文分词工具以及自主构建的方舱设计专属字典,其中专属字典包括方舱结构配置、方舱技术指标、方舱功能和方舱布局方面的专有词汇,比如与方舱配置类型相关的专有词汇:手动扩展、电动扩展、液压扩展、主框架式、通用角件式;步骤(2)通过Jieba结合专属字典对方舱设计语料数据集进行分词和词性标注。
(3)构建方舱设计知识图谱模式层:确定方舱设计知识图谱的本体。
(3.1)确定实体类型,所述实体类型包括结构需求、功能需求、布局需求、技术指标。
(3.2)确定关系类型:本方舱设计知识图谱关系类型主要由part-of、kind-of、instance-of、attribute-of四种关系类型构成。
(4)构建方舱设计知识图谱数据层:对预处理好的方舱设计语料数据集进行知识抽取,从中抽取出模式层中定义好的本体类型所对应的实体及关系,并对抽取出的知识进行实体对齐。
(4.1)知识抽取:通过深度学习算法,从方舱设计语料数据集中抽取实体和关系组成的三元组。
(4.1.1)实体抽取:从非结构化的自然语言文本中抽取实体。
(4.1.2)关系抽取:采用MacBERT-BiLSTM-Attention模型对方舱设计实体间的关系进行分类,实现关系抽取。
(4.2)知识融合:主要包含实体消歧任务和共指消解任务,对抽取出的模糊、反复的数据进行实体对齐,以解决知识抽取时同名实体指向不同事物及表达不同却对应着相同实体对象的问题。
(5)知识存储:将完成实体对齐的知识储存进neo4j图数据库,neo4j图数据库自带简单易懂的Cypher查询语言,数据高度关联,关系遍历执行速度快,支持丰富的驱动语言进行编程。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种方舱设计知识图谱构建方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种方舱设计知识图谱构建方法。
有益效果:与现有技术相比,本发明具有如下优点:
1、本发明采用改进的实体识别模型抽取实体,显著提高了实体抽取的效率和准确性,有效提升了所建方舱设计知识图谱的质量;
2、本发明实现了方舱设计知识图谱的自动构建,充分利用了企业已有设计案例资源,能够辅助企业设计人员进行方舱的快速设计,避免资源浪费,减少重复性劳动,提高设计效率;
3、本发明方舱设计知识图谱的可视化展示可以在配置过程中协助客户进行配置,帮助客户更好地理解产品的功能、结构、布局、技术指标等方面的情况,使客户明确需求,快速地确认订单。
附图说明
图1为本发明所述方法的步骤流程图;
图2为构建方舱设计知识图谱数据需求分析图;
图3为方舱设计知识图谱的逻辑结构图;
图4为方舱设计知识图谱实体类型示意图;
图5为方舱设计知识图谱构建方法的实体抽取流程图;
图6为方舱设计知识图谱构建方法的关系抽取流程图;
图7为方舱设计知识图谱构建方法的知识融合流程图;
图8为方舱设计知识图谱部分实例展示图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本实施例采用的预训练语言模型为base版本的MacBERT模型,基于Python3.8与Tensorflow2.10.0框架进行训练学习,通过Py2neo与neo4j图数据库进行交互,将抽取结果导入图数据库。
如图1所示,一种方舱设计知识图谱构建方法,包括如下步骤:
(1)方舱设计语料数据集准备:分析构建方舱设计知识图谱的数据需求,获取文本标注预训练语料集和知识抽取样本集。
如图2所示,构建方舱设计知识图谱的数据源于客户订单,以订单信息进行流转,订单是整个系统数据的源头。订单信息中包含的往往是客户最顶层的需求,主要可以分为两类:产品配置类型需求和产品设备类型需求。产品配置类型需求是客户对产品的外观与技术指标的需求,涵盖了产品的整体结构设计需求;产品设备类型需求即客户对方舱产品内部设备与功能的需求,此类需求包含内容广泛,不仅涉及到内部设备的选型,还涉及到设备的布局需求。
基础数据集、设备布局数据集和设计系统数据集这三部分知识抽取样本集是可以用来支持方舱设计知识图谱构建的数据集。其中,基础数据集是对于系统框架内容相关数据的记录,支撑整个系统框架的运行,主要由信息化系统(PDM、MES、ERP)进行底层数据库的搭建并提供预留数据接口;设备布局数据集记录布局设计过程中的各种设计参数,是实现方舱产品内部布局设计系统运行的切实内容数据(企业整合的定制标准与参数数据);设计系统数据集是对具体产品设计数据的记录,驱动整个产品设计系统的变型设计优化。知识抽取样本集主要是通过企业的订单信息库、产品模型库、技术文档库、产品案例库以及工具资源等来获取,这些数据自企业数据库导出后以表格的形式存储,是非结构化数据。
此外,文本标注预训练语料集是MacBERT预训练语言模型的预训练语料数据集,主要包括人民日报语料集和企业方舱设计专业术语集。
(2)数据预处理:进行数据清洗,并用分词工具对语料数据集进行分词和词性标注。
通过数据清洗,筛选清除重复多余的数据,将从企业多个数据库中得到的质量较低的语料数据集转换为高质量的语料数据集。同时,建立方舱领域字典,用Jieba工具结合专属字典对清洗过的语料数据集进行分词和词性标注,避免中文分词及词性标注的错误。
(3)构建方舱设计知识图谱模式层:确定方舱设计知识图谱本体类型。
知识图谱构建方式的框架,即体系架构,通常有自顶向下和自底向上两种构建模式。自顶向下构建是指先对顶层关系本体进行定义,再进行知识抽取,整合实体和关系,这种方法实体概念间层次分明,但依赖于人工定义的本体,不能自动地更新模式层,不适用于数据量特别大的知识图谱构建。自底向上构建是指直接抽取并整合实体、关系和属性等,这种方法更新速度较快、支持大数据量的图谱构建,但知识的准确性不高。本发明方舱设计知识图谱用到的语料数据集专业性较强,数据量较少,故本发明采取自顶向下的构建方式。
如图3所示,从逻辑上来看,知识图谱可分成模式层和数据层。构建方舱设计知识图谱模式层主要包括如下步骤:
(3.1)确定实体类型:本方舱设计知识图谱实体类型主要由结构需求、功能需求、布局需求、技术指标等四大类实体类型构成;
如图4所示,方舱设计知识图谱的结构需求包括舱体总成、标准件、配套件、配置类型等实体信息。其中,舱体总成包括各个壁板;标准件主要指螺钉、铆钉、热轧钢板等;配套件包括滑撬、调平支腿、梯子、H型架、升降移动轮等信息;配置类型则包含扩展方舱与固定方舱。方舱设计知识图谱的功能需求包括基础类、卫生生防类、通信指挥类、后勤保障类。方舱设计知识图谱的布局需求则主要包括舱内布线和地板。方舱设计知识图谱的技术指标指密闭性、环境适应性、运输性、可靠性、行驶试验、检验规定、维修性、尺寸、颜色、材料、标志、铭牌、加工质量、外观质量等实体信息。其中,密闭性主要包括气密性、光密性、水密性、电磁屏蔽、保温性、调温性等;环境适应性则包含环境温度、太阳辐射、湿热、温度冲击、霉菌、盐雾、砂尘、抗风力等。
(3.2)确定关系类型:本发明方舱设计知识图谱的关系类型主要由四种关系类型构成,其具体描述如表1所示。
表1实体关系表
(4)构建方舱设计知识图谱数据层:对预处理好的方舱设计语料数据集进行知识抽取,从中抽取出模式层中定义好的本体类型所对应的实体及关系,并对抽取出的知识进行实体对齐。
所述(4)构建方舱设计知识图谱数据层的步骤包括:
(4.1)知识抽取:对预处理好的方舱设计语料数据集进行知识抽取,从中抽取出模式层中定义好的本体类型所对应的实体及关系。
所述(4.1)知识抽取步骤包括:
(4.1.1)实体抽取:通过改进的命名实体识别模型MacBERT-BiLSTM-MUL-CRF实现实体抽取,首先对语言模型MacBERT进行预训练,然后再利用从预处理过的数据集中抽取实体。
如图5所示,实体抽取的步骤主要包括:
(4.1.1.1)采用人民日报语料集和企业方舱设计专业术语集作为预训练语料,对语言模型MacBERT进行预训练;
(4.1.1.2)通过MacBERT模型对企业的基础数据集、设备布局数据集和设计系统数据集进行文本的字级别向量化;
(4.1.1.3)利用基于BiLSTM的语义编码层,对识别实体前后文本的语义进行编码;
(4.1.1.4)通过多头注意力机制增强模型表达能力,获取BiLSTM层更为丰富的编码信息;
(4.1.1.5)引入CRF层进行解码,通过自动学习约束规则输出最优标签序列。
(4.1.2)关系抽取:通过MacBERT-BiLSTM-Attention模型来对关系进行分类,实现关系抽取。
如图6所示,关系抽取的步骤包括:
(4.1.2.1)通过MacBERT模型进行文本的字级别向量化,得到文本的输入特征向量;
(4.1.2.2)利用基于BiLSTM的语义编码层,从输入特征向量中学习上下文信息和浅层语义特征,得到更高级别的词向量特征;
(4.1.2.3)通过自注意力机制提高关系分类时重要信息的权重,降低干扰信息的权重,学习文本语句的深层次语义特征;
(4.1.2.4)拼接全局特征向量和局部特征向量,计算得到实体间的关系向量。
(4.2)知识融合:对抽取出的模糊、反复的数据进行实体对齐,使这些数据统一起来。
经过上述知识抽取,从非结构化的方舱设计知识文本中可能会提取出一些模糊、反复的数据。通过知识融合能使这些数据统一起来,有助于提高知识图谱的准确率。知识融合的主要包含实体消歧任务及共指消解任务。对于知识抽取时同名实体指向不同事物的问题需要进行实体消歧,比如方舱设计数据集中,“壁盒”在有的文本中描述为“电源壁盒”,有的则描述为“信号壁盒”、“通风壁盒”等,因此有必要结合上下文的语义,分清同名实体的指代。共指消解则主要是指处理表达不同却对应着相同实体对象的问题,如“内控”、“内装控制系统”、“控制系统”均是指“内装控制系统”这一实体对象。
发明结合Jaccard系数和余弦距离,计算方舱设计实体间的相似度,设定阀值,通过比较相似度与所设阈值,从而判别待对齐实体是否匹配,最终完成知识融合。
如图7所示,知识融合的步骤包括:
(4.2.1)将实体抽取结果与定义的规则进行匹配,有匹配的相应规则就完成实体对齐;
(4.2.2)结合Jaccard系数和余弦距离计算出没有相匹配规则的实体间的相似度;
(4.2.3)当相似度大于所设阈值时,完成该对实体的对齐。
(5)知识存储:将完成实体对齐的知识储存进neo4j图数据库。
将完成知识抽取和知识融合的结果,通过Py2neo与neo4j图数据库进行交互,将抽取结果导入图数据库,如图8所示为存储的部分实例展示。
Claims (8)
1.一种方舱设计知识图谱构建方法,其特征在于,包括以下步骤:
(1)方舱设计语料数据集准备:分析构建方舱设计知识图谱的数据需求,获取文本标注预训练语料集和知识抽取样本集;
(2)数据预处理:进行数据清洗,并用分词工具对语料数据集进行分词和词性标注;
(3)构建方舱设计知识图谱模式层:确定方舱设计知识图谱的本体;
(4)构建方舱设计知识图谱数据层:对预处理好的方舱设计语料数据集进行知识抽取,从中抽取出模式层中定义好的本体类型所对应的实体及关系,并对抽取出的知识进行实体对齐;
(5)知识存储:将完成实体对齐的知识储存进neo4j图数据库。
2.根据权利要求1所述的一种方舱设计知识图谱构建方法,其特征在于,步骤(1)所述的文本标注预训练语料集包括人民日报语料集和企业方舱设计专业术语集,所述的知识抽取样本集包括企业基础数据集、设备布局数据集、设计系统数据集。
3.根据权利要求1所述的一种方舱设计知识图谱构建方法,其特征在于,步骤(2)所述的分词工具指Jieba中文分词工具以及自主构建的方舱设计专属字典,步骤(2)通过Jieba结合专属字典对方舱设计语料数据集进行分词和词性标注。
4.根据权利要求1所述的一种方舱设计知识图谱构建方法,其特征在于,所述步骤(3)具体为:
(3.1)确定实体类型,所述实体类型包括结构需求、功能需求、布局需求、技术指标;
(3.2)确定关系类型:本方舱设计知识图谱关系类型主要由part-of、kind-of、instance-of、attribute-of四种关系类型构成。
5.根据权利要求1所述的一种方舱设计知识图谱构建方法,其特征在于,所述步骤(4)具体为:
(4.1)知识抽取:通过深度学习算法,从方舱设计语料数据集中抽取实体和关系组成的三元组;
(4.2)知识融合:主要包含实体消歧任务和共指消解任务,对抽取出的模糊、反复的数据进行实体对齐,以解决知识抽取时同名实体指向不同事物及表达不同却对应着相同实体对象的问题。
6.根据权利要求5所述的一种方舱设计知识图谱构建方法,其特征在于,所述步骤(4.1)具体为:
(4.1.1)实体抽取:从非结构化的自然语言文本中抽取实体;
(4.1.2)关系抽取:采用MacBERT-BiLSTM-Attention模型对方舱设计实体间的关系进行分类,实现关系抽取。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的一种方舱设计知识图谱构建方法。
8.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的一种方舱设计知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310527634.1A CN116523043A (zh) | 2023-05-11 | 2023-05-11 | 一种方舱设计知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310527634.1A CN116523043A (zh) | 2023-05-11 | 2023-05-11 | 一种方舱设计知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116523043A true CN116523043A (zh) | 2023-08-01 |
Family
ID=87390102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310527634.1A Pending CN116523043A (zh) | 2023-05-11 | 2023-05-11 | 一种方舱设计知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523043A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738864A (zh) * | 2023-08-08 | 2023-09-12 | 深圳市设际邹工业设计有限公司 | 一种工业设计产品的智能推荐方法及系统 |
CN116910174A (zh) * | 2023-09-12 | 2023-10-20 | 北京市农林科学院信息技术研究中心 | 面向数据方舱的数据存储管理方法、装置及存储介质 |
CN117252201A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
CN117892814A (zh) * | 2024-01-17 | 2024-04-16 | 华北电力大学(保定) | 一种基于继电保护装置缺陷知识图谱的运维辅助决策方法 |
-
2023
- 2023-05-11 CN CN202310527634.1A patent/CN116523043A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738864A (zh) * | 2023-08-08 | 2023-09-12 | 深圳市设际邹工业设计有限公司 | 一种工业设计产品的智能推荐方法及系统 |
CN116738864B (zh) * | 2023-08-08 | 2024-01-09 | 深圳市设际邹工业设计有限公司 | 一种工业设计产品的智能推荐方法及系统 |
CN116910174A (zh) * | 2023-09-12 | 2023-10-20 | 北京市农林科学院信息技术研究中心 | 面向数据方舱的数据存储管理方法、装置及存储介质 |
CN116910174B (zh) * | 2023-09-12 | 2023-12-22 | 北京市农林科学院信息技术研究中心 | 面向数据方舱的数据存储管理方法、装置及存储介质 |
CN117252201A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
CN117252201B (zh) * | 2023-11-17 | 2024-02-27 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
CN117892814A (zh) * | 2024-01-17 | 2024-04-16 | 华北电力大学(保定) | 一种基于继电保护装置缺陷知识图谱的运维辅助决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116523043A (zh) | 一种方舱设计知识图谱构建方法 | |
CN111209412B (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
US20110078554A1 (en) | Webpage entity extraction through joint understanding of page structures and sentences | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN109658271A (zh) | 一种基于保险专业场景的智能客服系统及方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
US11347944B2 (en) | Systems and methods for short text identification | |
CN112764762B (zh) | 一种将规范文本自动转为可计算逻辑规则的方法及系统 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN115344666A (zh) | 政策匹配方法、装置、设备与计算机可读存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN113901205B (zh) | 基于情感语义对抗的跨语言情感分类方法 | |
CN116362245A (zh) | 基于非结构化文本数据的opc ua信息模型构建方法 | |
Hasegawa et al. | Extracting conceptual graphs from Japanese documents for software requirements modeling | |
CN113392183A (zh) | 一种儿童范畴图谱知识的表征与计算方法 | |
CN113051910A (zh) | 一种用于预测人物角色情绪的方法和装置 | |
CN117056451A (zh) | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 | |
CN115309912B (zh) | 集成电驱结构的知识图谱智能推理方法和快速设计方法 | |
Žitko et al. | Automatic question generation using semantic role labeling for morphologically rich languages | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |