CN113656594A - 一种基于飞行器维修的知识推理方法 - Google Patents
一种基于飞行器维修的知识推理方法 Download PDFInfo
- Publication number
- CN113656594A CN113656594A CN202110945541.1A CN202110945541A CN113656594A CN 113656594 A CN113656594 A CN 113656594A CN 202110945541 A CN202110945541 A CN 202110945541A CN 113656594 A CN113656594 A CN 113656594A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- information
- triples
- inference
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012423 maintenance Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于飞行器维修的知识推理方法,属于知识图谱知识推理领域;该方法包括:首先,对技术跟踪数据进行处理,将其提取为实体‑关系‑实体格式的三元组;然后,调用python中的py2neo模块将数据集中的三元组导入到Neo4j数据库,采用自底向上的方法构建飞行器维修知识图谱;最后基于知识推理对飞行器维修知识图谱中潜在的新关系进行推理,捕获知识图谱中隐藏的语义信息;本发明提出了基于飞行器维修的知识推理方法,充分利用知识图谱已有的结构化信息生成知识表达,从而显著提高了知识推理的准确性。
Description
技术领域
本发明属于知识推理领域,具体涉及到种基于飞行器维修知识图谱的知识推理方法。
背景技术
知识推理技术是知识图谱(Knowledge Graph,KG)的一个重要应用领域,能够在基于已有知识图谱事实的基础上,预测出三元组中缺失的部分,从而补充并丰富知识图谱,传统的知识推理有两种主流方法:基于规则的知识推理和基于本体的知识推理;
基于规则的推理需要依赖于规则、前提、特定假设等条件,基于规则的知识推理很早就受到了广泛关注,其依赖的位于实体之上的规则和假设易于理解,具有较好的可解释性,产生了一系列的推理方法,早期的NELL知识图谱采用一阶关系学习算法进行知识图谱推理,后来的研究者对基于规则的推理方法进行了进一步的完善与改进;
上述基于规则的推理是最基础的,严重依赖于规则的严格匹配和离散逻辑操作,无法处理模糊和噪声数据,预先制定的评估标准限制了所学规则的表达能力。之后的研究者用多种方法对传统方法的知识推理进行了改进和完善,Jiang等人利用启发式规则对知识图谱中不确定的知识进行处理,提出了基于MLN的系统去噪抽取的NELL知识图谱;Chen等人则提出了本体路径发现算法OP(ontological pathfinding),用发现的规则丰富知识图谱;
基于规则的推理依赖的规则和假设易于理解,具有较好的可解释性,但也具有明显的局限性——无法处理模糊和噪声数据,预先制定的评估标准限制了所学规则的表达能力;基于本体推理主要利用较为抽象化的本体约束或路径进行推理,当规则、特征、约束或路径有效时,准确率较高;目前典型高准确率要求的知识图谱,大多都采用该推理方法,但上述无论是基于规则的推理还是基于本体约束的推理方法,都需要进行实例化,可计算性差,并且统计特征十分依赖现有的数据,不易迁移,对稀疏样本的处理情况较差;
然而,随着深度学习技术的发展,更多的研究者对基于深度学习方法的知识推理进行研究。深度学习的最新进步促进了知识图谱上的神经推理,知识图谱对模糊和噪声数据具有鲁棒性,因而被广泛使用,Bordes等人提出了首个基于翻译的表示模型TransE,掀起了Trans系列的研究热潮;在后来的研究中,Wang等人为了更好地处理多映射关系的问题,在TransE的基础上将实体映射到关系指定的超平面,使得同一个实体在不同关系指定的超平面有不同的表示;
本文结合非结构化文本的语义信息与基于翻译的知识表示,从而进一步提高了知识推理的准确性。
发明内容
目前的知识推理无论是使用基于规则的方法、基于本体的方法还是深度学习方法,普遍忽略了文本中的附加信息和知识图谱的结构信息,为了解决这个问题,本文把用于预测的三元组数据形式扩展为四元组,将文本中容易被忽略的语义信息作为实体放入四元组中加以训练,旨进一步提高推理的准确性。我们方法的具体流程如下:
步骤(A)数据预处理;
步骤(B)飞行器维修知识图谱的构建;
步骤(C)基于知识图谱进行知识提取;
步骤(D)使用构建的四元组进行知识推理;
步骤(E)对推理结果进行评价;
本发明的有益效果:
1)准确性:将为结构化文本中的语义信息和关系抽取的三元组共同输入到模型中,在训练过程中,能够更加准确的预测出具有潜在关系的实体,提高整个知识推理的准确性。
2)算法简洁,高效准确,具有更广泛的实用意义。
附图说明
图1为飞行器故障知识推理流程图。
图2为训练过程中随轮次变化的损失值。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例对本发明进行进一步详细说明:
如图1所示,本实施例的飞行器维修知识推理方法,包括以下步骤:
步骤(A):对原始数据进行预处理,包括数据清洗和自然语言处理:一是整理获取的飞行器技术跟踪数据,针对数据缺失和冗余等数据质量问题,建立属性约束和完整性约束进行数据筛选与重复数据的冗余清除;二是使用分词工具将经过预处理的文本信息进行分词,参照停用词典去除标点符号、停用词等;
步骤(B):飞行器知识图谱的构建,使用Neo4j对维修信息、故障信息及其关系以实体为中心进行存储,调用python中的py2neo模块,采用自底向上的方法构建飞行器维修知识图谱,每个实体,如“故障”、“下部措施”、“部件信息”等都是一个独立的节点,每个事件与事件具体信息之间存储为“关系”;
步骤(C):基于知识图谱进行知识提取,使用Cypher语句将构建好的知识图谱导出为CSV格式并解析,然后结合非结构化文本中的附加信息,构建出符合推理形式的四元组;
步骤(D):使用构建的四元组进行知识推理,根据已经定义好关系的四元组将每个四元组实例(head,relation,tail,information)中的关系relation看作从头实体到尾实体的翻译,通过不断调整h、r、t、n(head,relation,tail,information的向量),使(h+r+n)尽可能与t相等;
步骤(E):对推理结果进行评价,以已知正确的三元组为例,将其头实体或尾实体依次替换为语料库中的其他实体,得到n个三元组,分别对其计算h+r+n-t的值,并对这n个值进行升序排序,然后记录已知正确三元组的值经过排序后的序号m,如果前m-1个三元组中有x个三元组也是正确的,那么将已知正确三元组的序号改为m-x,最后对所有已知正确的三元组重复上述过程,用正确三元组的排名情况评估训练效果(尾实体同理),评估的两个度量标准为:Hit@10:前十个的命中率;Mean rank:平均第几个命中;
实验过程需要一个飞机故障维修的文本数据集并将数据集按照格式分为train.txt,test.txt,entity2id.txt,relation2id.txt,information2id.txt五个文件,输入,进行训练,伪代码算法如下:
Claims (6)
1.本发明提出了一种基于飞行器维修的知识推理方法,将非结构化文本的附加信息与知识推理三元组相结合,进而实现更高效准确的知识推理,主要包含以下步骤:
步骤(A)数据预处理;
步骤(B)飞行器维修知识图谱的构建;
步骤(C)基于知识图谱进行知识提取;
步骤(D)使用构建的四元组进行知识推理;
步骤(E)对推理结果进行评价。
2.根据权利要求1所述的一种基于飞行器维修的知识推理方法,其特征在于:步骤(A),对原始数据进行预处理,包括数据清洗和自然语言处理:一是整理获取的飞行器技术跟踪数据,针对数据缺失和冗余等数据质量问题,建立属性约束和完整性约束进行数据筛选与重复数据的冗余清除;二是使用分词工具将经过预处理的文本信息进行分词,参照停用词典去除标点符号、停用词等。
3.根据权利要求1所述的一种基于飞行器维修的知识推理方法,其特征在于:步骤(B),飞行器知识图谱的构建,使用Neo4j对维修信息、故障信息及其关系以实体为中心进行存储,调用python中的py2neo模块,采用自底向上的方法构建飞行器维修知识图谱,每个实体,如“故障”、“下部措施”、“部件信息”等都是一个独立的节点,每个事件与事件具体信息之间存储为“关系”。
4.根据权利要求1所述的一种基于飞行器维修的知识推理方法,其特征在于:步骤(C),基于知识图谱进行知识提取,使用Cypher语句将构建好的知识图谱导出为CSV格式并解析,然后结合非结构化文本中的附加信息,构建出符合推理形式的四元组。
5.根据权利要求1所述的一种基于飞行器维修的知识推理方法,其特征在于:步骤(D),使用构建的四元组进行知识推理,根据已经定义好关系的四元组将每个四元组实例(head,relation,tail,information)中的关系relation看作从头实体到尾实体的翻译,通过不断的对四元组中h、r、t、n(head,relation,tail,information)的向量进行调整,使(h+r+n)与t尽可能相等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945541.1A CN113656594A (zh) | 2021-08-17 | 2021-08-17 | 一种基于飞行器维修的知识推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945541.1A CN113656594A (zh) | 2021-08-17 | 2021-08-17 | 一种基于飞行器维修的知识推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113656594A true CN113656594A (zh) | 2021-11-16 |
Family
ID=78480743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945541.1A Pending CN113656594A (zh) | 2021-08-17 | 2021-08-17 | 一种基于飞行器维修的知识推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656594A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168744A (zh) * | 2021-11-25 | 2022-03-11 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于知识图谱的无人机指控意图理解方法 |
CN117313847A (zh) * | 2023-09-20 | 2023-12-29 | 中航通飞华南飞机工业有限公司 | 一种面向水陆两栖飞机机型培训的知识模型构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121829A (zh) * | 2018-01-12 | 2018-06-05 | 扬州大学 | 面向软件缺陷的领域知识图谱自动化构建方法 |
CN111309925A (zh) * | 2020-02-10 | 2020-06-19 | 同方知网(北京)技术有限公司 | 一种军事装备的知识图谱构建方法 |
CN112463973A (zh) * | 2019-09-06 | 2021-03-09 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
-
2021
- 2021-08-17 CN CN202110945541.1A patent/CN113656594A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121829A (zh) * | 2018-01-12 | 2018-06-05 | 扬州大学 | 面向软件缺陷的领域知识图谱自动化构建方法 |
CN112463973A (zh) * | 2019-09-06 | 2021-03-09 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
CN111309925A (zh) * | 2020-02-10 | 2020-06-19 | 同方知网(北京)技术有限公司 | 一种军事装备的知识图谱构建方法 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
Non-Patent Citations (1)
Title |
---|
陈曦等: "规则增强的知识图谱表示学习方法", 情报工程, no. 01, pages 27 - 35 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168744A (zh) * | 2021-11-25 | 2022-03-11 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于知识图谱的无人机指控意图理解方法 |
CN117313847A (zh) * | 2023-09-20 | 2023-12-29 | 中航通飞华南飞机工业有限公司 | 一种面向水陆两栖飞机机型培训的知识模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN107608953B (zh) | 一种基于不定长上下文的词向量生成方法 | |
CN113656594A (zh) | 一种基于飞行器维修的知识推理方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN114580638A (zh) | 基于文本图增强的知识图谱表示学习方法及系统 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN115329101A (zh) | 一种电力物联网标准知识图谱构建方法及装置 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN114444694A (zh) | 一种开放世界知识图谱补全方法及装置 | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN112837820A (zh) | 一种基于关联规则的中医体质分析方法 | |
Medina et al. | Classification of legal documents in portuguese language based on summarization | |
CN116484260B (zh) | 一种基于双向时间卷积网络的半监督日志异常检测方法 | |
CN112101033B (zh) | 一种汽车口碑的情感分析方法和装置 | |
CN112836011B (zh) | 基于大数据应用的分析管理系统构建方法及模型构建 | |
CN117473092A (zh) | 一种健康语料的分类方法、装置、设备及存储介质 | |
CN118036726A (zh) | 基于启发式信息和图神经网络的知识图谱链接预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |