CN117520561A - 直升机装配领域知识图谱构建的实体关系抽取方法及系统 - Google Patents
直升机装配领域知识图谱构建的实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN117520561A CN117520561A CN202311548209.7A CN202311548209A CN117520561A CN 117520561 A CN117520561 A CN 117520561A CN 202311548209 A CN202311548209 A CN 202311548209A CN 117520561 A CN117520561 A CN 117520561A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- data
- field
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 103
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000012015 optical character recognition Methods 0.000 claims abstract description 8
- 238000003058 natural language processing Methods 0.000 claims abstract description 6
- 238000011160 research Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000011049 filling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001427 coherent effect Effects 0.000 claims description 3
- 238000005429 filling process Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 abstract description 11
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 241000590419 Polygonia interrogationis Species 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种直升机装配领域的知识图谱构建方法、系统及可读存储介质。通过自然语言处理和机器学习技术,从直升机装配领域的文本数据中自动抽取实体和关系信息,构建一个表示领域知识的知识图谱。知识图谱构建方法包括:收集、整理数据源,利用光学字符识别获取文本数据,预处理文本数据以提高质量和一致性;利用Transformer框架对编码后的文本序列进行特征提取;采用预训练语言模型进行实体关系抽取。该方法减少了人工标注的工作量,提高了构建效率和准确性,可应用于直升机装配领域的信息提取、问题解答、智能推荐等应用场景,为相关领域的研究和应用提供支持。
Description
技术领域
本发明涉及计算机技术领域,涉及一种从文本数据中提取实体和关系信息的方法,具体涉及一种面向直升机装配领域知识图谱构建的实体关系抽取方法、系统及可读存储介质,可从直升机装配领域的文本数据中自动提取出实体和关系信息,从而为直升机装配过程的智能化、自动化等提供有效支持。
背景技术
知识图谱(Knowledge Graph)是一种用于表示和存储知识的结构化数据模型,由实体(Entities)、属性(Attributes)和关系(Relationships)组成。在直升机装配领域的知识图谱构建中,知识抽取(Knowledge Extraction)是非常重要的一个流程。知识抽取可以从大量的相关文档、技术手册和专业论文等非结构化数据中提取与直升机装配相关的实体、属性和关系信息。这有助于建立一个丰富而全面的知识图谱,涵盖了该行业的各个方面,如直升机的结构、功能、性能、工艺、标准、规范、故障、维修、改进等。这有助于对直升机装配领域的知识进行有效的组织、管理和利用,提高知识的可获取性、可共享性和可复用性。其次,知识抽取可以通过自动化的方式实现对文本数据的处理,提高了效率和准确性。相比于传统的人工整理和总结方法,知识抽取能够更快速地处理大规模的数据,并从中提取出有用的知识。同时,知识抽取还可以利用先进的自然语言处理和机器学习等技术,对文本数据进行深层次的分析和理解,提高知识的质量和精度。此外,知识抽取还可以帮助发现隐藏在文本中的模式和趋势,提供对直升机装配领域的洞察和分析。通过知识抽取,可以从文本数据中挖掘出直升机装配领域的关键技术、热点问题、创新方向、竞争优势等信息,这对于决策制定、技术创新和业务优化等方面具有重要意义。
现阶段知识抽取方法主要采用规则和模板匹配的方式进行。这些方法依赖人工事先定义的规则和模板,通过匹配文本中特定的模式来提取实体、属性和关系信息。然而,这些方法存在一些问题,限制了知识抽取的效果和应用:首先,规则和模板需要人工编写,对于复杂和多样化的文本数据覆盖不足,无法处理新的或未知的情况。由于直升机装配领域的知识是动态变化和不断更新的,人工编写的规则和模板较难适应知识的变化。其次,这些方法主要基于表面形式的模式匹配,缺乏对文本上下文的深入理解。这限制了抽取算法的准确性和泛化能力,容易受到噪声和歧义的干扰,容易产生错误和遗漏的抽取结果。例如,文本中的“直升机”可能指的是直升机的整体,也可能指的是直升机的某个部件,若不能区分这种语义差异,将导致实体的错误识别。此外,传统方法在处理大规模数据时效率较低,因为需要串行处理数据并且无法很好地实现并行化和扩展。另外,传统方法对领域专家的依赖性较高,需要专家手动定义抽取规则,限制了方法的通用性和可扩展性。最后,这些方法主要针对从结构化文本中提取结构化的实体、属性和关系信息,难以处理非结构化和半结构化的数据。
鉴于上述情况,开发能够有效处理直升机装配领域大量非结构化和半结构化数据的知识抽取技术并减少人力投入、降低对于领域专家的依赖等,是亟待解决的技术问题。
发明内容
(一)发明目的
针对现有技术在直升机装配领域知识图谱构建中的实体关系抽取过程中所存在的缺陷和不足,特别是在自动化标注和人力投入方面的高依赖性及对领域专家的过度依赖,本发明旨在提供一种面向直升机装配领域知识图谱构建的实体关系抽取方法、系统及可读存储介质,通过采用预训练模型进行实体关系抽取,不仅提高了抽取的效率和速度,而且能够在较短的时间内处理大量的文本数据,实现高效的实体关系抽取,此外还显著减少了人工参与的程度,降低了对于领域专家的依赖,增强了抽取方法的适应性和普适性。
(二)技术方案
为实现该发明目的,本发明采用的技术方案如下:
本发明的第一个目的在于提供一种面向直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,所述方法在实施时至少包括如下步骤:
SS1.获取待处理的直升机装配领域文本数据,所述文本数据至少包括结构化数据、半结构化数据和/或非结构化数据;
SS2.对于待处理的文本数据进行清洗处理,对于步骤SS1收集到的数据中的乱码、不合理的符号以及逻辑不通畅的语句进行删除或者改写;
SS3.将步骤SS2清洗处理好的文本数据进行句子切分,切分后的句子语言连贯且长度适中;
SS4.将步骤SS3切分完成的文本片段逐步输入到实体关系抽取模型中,完成处理后输出文本片段中包含的直升机装配领域实体与关系,其中,所述实体关系抽取模型为经过实体关系抽取训练后的预训练语言模型,所述预训练语言模型基于人工核对过的三元组数据进行训练并至少包括如下训练步骤:
SS41.收集并整理直升机装配领域的标注数据集,从而为训练实体关系抽取模型提供准备数据;
SS42.基于子步骤SS41提供的标注数据集进行特征提取和表示学习,以捕捉文本片段中的语义和上下文信息;
SS43.基于子步骤SS41提供的标注数据集以及子步骤SS42提取的特征,采用GLM语言模型作为预训练语言模型并在此基础上构建实体关系抽取模型,具体为:
SS431.采用自回归空白填充的方式进行预训练,对于每个原始输入文本片段x=[x1,...,xn],执行以下操作:
首先,对多个文本跨度{s1,…,sm}进行采样,其中每一个文本跨度si都表示一段连续的token序列
然后,将每个文本跨度都用单个[MASK]标记进行替换,从而形成损坏的文本xcorrupt;
之后,将损坏的文本xcorrupt和之前预测的文本跨度作为输入,用预训练语言模型对文本跨度中缺失的token进行预测;
同时,为了更充分地捕捉不同文本跨度之间的相互依赖关系,随机选择多个文本跨度进行屏蔽,并按照随机的顺序对屏蔽的文本跨度进行预测,从而学习文本片段中的实体和关系信息;
SS432.在预训练语言模型的输出层上,添加用于提取和表示任务相关特性的若干任务层以完成实体关系抽取任务,所述若干任务层至少包括一实体分类层和一关系分类层,通过这些任务层将预训练语言模型的输出转化为实体关系抽取任务的输出,实现从文本数据中提取出实体和关系信息的目的。
优选地,上述步骤SS1中,获取待处理的直升机装配领域文本数据,具体包括:
通过扫描直升机装配领域手册,将纸质文本转化为数字化的图片形式,并利用光学字符识别技术(OCR)将其转换为可编辑的文本内容,以获取手册中的知识和信息;
从直升机装配领域的相关数据库、文献、论文等数据源中获取结构化数据和半结构化数据,包括整理和组织的专业文档、技术资料以及相关领域的研究成果,以获取丰富的领域知识和实践经验。
优选地,上述步骤SS2中,对获取到的数据进行清洗,具体包括:
去除乱码和非法字符,通过检测和过滤文本数据中的乱码字符和非法字符,消除数据中的噪音和干扰因素;
去重处理,检测和删除文本数据中的重复内容,确保数据的唯一性,避免重复信息对实体关系抽取的干扰;
修复语法错误和逻辑不通畅的语句,利用语法分析和语义分析技术对文本数据中存在的语法错误和逻辑不通畅的语句进行修正和优化,提升文本的可读性和理解性;
标准化文本格式,对文本数据进行格式规范化处理,包括统一标点符号、大小写转换等操作,使得文本数据具备一致的表达风格;
去除停用词,基于预定义的停用词列表,过滤和删除文本数据中的常见词语,如冠词、介词等,以减少对实体关系抽取的影响。
优选地,上述步骤SS3中,对清洗后的数据进行句子拆分,依次包括:
句子定界标记识别,利用自然语言处理技术,包括标点符号分析和语法分析等方法,对清洗后的文本数据进行处理,以识别并定位句子定界标记,如句号、问号、感叹号等;
句子切分,基于句子定界标记的位置信息,对清洗后的文本数据进行切分处理;
句子过滤,对切分后的句子进行过滤和筛选,以去除无关信息、无意义的句子。
优选地,上述步骤SS4中,还包括一实施评估与调优的子步骤SS44,对子步骤SS432训练得到的模型进行评估,使用独立的测试数据集进行性能测试和指标评估,如准确率、召回率,并根据评估结果,对模型进行调优和改进,以提高实体关系抽取的准确性和效果。
优选地,上述步骤SS4中,所述实体关系抽取模型的工作流程具体包括:
SS4A.构建输入样本:根据任务需求,将文本数据转化为适合模型输入的样本;
SS4B.序列编码:使用词嵌入技术将文本序列转换为向量表示,使用GLM模型进行词嵌入并获取单词的向量表示,对于长文本,采用截断或填充策略,确保序列长度一致;
SS4C.实体抽取:将编码后的文本序列输入到预训练语言模型中,模型通过自注意力机制和前馈神经网络层捕捉实体的上下文信息,并对每个位置进行分类,判断该位置是否属于实体,并完成实体抽取任务;
SS4D.关系抽取:对于已抽取的实体,进一步在模型中进行关系抽取。模型利用自注意力机制和前馈神经网络层,学习实体之间的关系,完成关系抽取任务。
通过以上步骤,能够自动从文本数据中提取出实体和关系信息,为后续的知识图谱构建、信息提取和自然语言理解等任务提供基础。
优选地,上述子步骤SS431中,定义zm为长度为m的索引序列[1,2,…,m]的所有可能的排列集合,且表示索引序列/>模型的训练目标函数为最大化参数θ下的期望对数似然:
其中,表示在给定损坏文本xcorrupt和之前文本跨度/>条件下,生成文本跨度/>的概率并且为所有缺失token的联合概率:
其中,si,j表示文本跨度si中的第j个token,si,<j表示文本跨度si中的前j-1个token,li表示文本跨度si的长度,从而在预测文本跨度中的每个token时,都要考虑损坏的文本xcorrupt和之前预测的文本跨度/>以及文本跨度si中的前文信息si,<j,从而使得预测更加准确和连贯。
上述训练目标函数的含义为,在给定损坏的文本xcorrupt和之前预测的文本跨度的条件下,预测第i个文本跨度szi的最大似然。该训练方式可以充分利用文本片段中的实体和关系信息,同时避免了传统的掩码语言模型的局限性,如固定的掩码比例、无法处理长文本等,同时该训练方式还可以增强模型的泛化能力,使其能够适应不同的文本跨度和顺序。
优选地,上述子步骤SS431中,将每一个文本跨度分为Part A和Part B两个部分,Part A表示xcorrupt,Part B表示被[MASK]标记屏蔽的文本跨度,在预测过程中,Part A中的所有token可以相互关注,但不能关注到Part B部分,而Part B部分可以关注到所有的PartA部分和已经预测完毕的Part B部分,从而保证预测的正确性和连贯性。
进一步地,上述子步骤SS431中,每个文本跨度在自回归空白填充过程中被特殊标记[START]和[END]所填充,每个文本跨度都以[START]作为输入,并且附加[END]作为输出,以确保模型能够识别文本跨度的开始和结束。
进一步地,上述子步骤SS431中,使用二维位置编码来表示各个token在跨度间和跨度中的位置,以增强模型对文本结构的理解。
优选地,上述子步骤SS432中,所述实体分类层为一多标签分类器,用于对每个token进行实体及其类型的判断,判断是否属于直升机装配领域的实体以及属于哪种实体类别,如零件、工具、操作等;所述关系分类层为一多分类器,用于对每对实体进行关系类型的判断,判断是否存在直升机装配领域的关系以及属于哪种关系类别,如组成、连接、安装等。
本发明的第二个目的在于提供一种面向直升机装配领域知识图谱构建的实体关系抽取系统,包括文本获取模块、清洗处理模块、句子切分模块以及实体关系抽取模块,并对应实施本发明第1个发明目的所提供的直升机装配领域知识图谱构建的实体关系抽取方法的相关步骤,其中,
文本获取模块,用于获取直升机装配领域文本数据,包括结构化数据、半结构化数据和非结构化数据;
清洗处理模块,对于收集到的数据中的乱码,不合理的符号,以及逻辑不通畅的语句进行删除或者改写;
句子切分模块,将处理好的文本进行句子切分,切分后的句子语言连贯且长度适中;
实体关系抽取模块,将上述过程处理好的数据输入到经过实体关系抽取训练后的预训练模型中,数据结果为文本中所包含的实体与关系。
本发明的第三个目的在于提供一种电子设备,包括:存储器和处理器;
所述存储器用于非暂时性地存储计算机可读指令,而所述处理器用于运行所述计算机可读指令;
所述计算机可读指令被所述处理器运行时,执行上述的第一发明目的中面向直升机装配领域知识图谱构建的实体关系抽取方法。
本发明的第四个目的在于提供一种非暂时性存储介质,用于存储计算机可读指令,所述计算机可读指令包括执行第一发明目的中所述方法的指令,当所述非暂时性存储介质中的计算机可读指令被计算机执行时,实现了第一目的中所述方法。
该非暂时性存储介质可以是任何适用的介质,例如硬盘驱动器、固态驱动器、闪存存储器、光盘、或任何其他形式的存储器设备。其中,存储介质非暂时性地保留着计算机可读指令,以便在需要时被计算机访问和执行。
通过该存储介质中存储的计算机可读指令,计算机能够按照第一目的中所述方法的步骤来执行相应的操作,实现面向直升机装配领域知识图谱构建的实体关系抽取。
(三)技术效果
同现有技术相比,由于采用了上述技术方案,本发明的面向直升机装配领域知识图谱构建的实体关系抽取方法、系统及可读存储介质具有以下有益且显著的技术效果:
(1)本发明采用预训练模型进行实体关系抽取,提高了抽取的效率和速度。通过预训练模型的应用,能够在较短的时间内处理大量的文本数据,实现高效的实体关系抽取。
(2)本发明的方法实现了实体关系抽取的自动化处理。预训练模型的应用减少了人工参与的程度,使得实体关系抽取过程更加自动化。这一特点降低了人工成本,提高了工作效率。
(3)本发明通过采用GLM语言模型作为预训练语言模型,并采用自回归空白填充的方式进行训练,显著提高了模型对于直升机装配领域文本数据结构和语义关系的捕捉能力。传统方法在实体关系抽取过程中,多依赖于手工制定的规则和模板,这不仅限制了抽取算法的准确性和泛化能力,也增加了模型训练和数据处理的复杂度。而本发明的训练方法通过自回归方式自动学习文本数据的内在特征和模式,从而在没有显式规则和模板的情况下,也能准确地提取实体和关系信息,大幅度提高了抽取的效率和准确性。
附图说明
说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例1的直升机装配领域知识图谱构建流程图;
图2是本发明实施例1的直升机装配领域实体关系抽取方法训练流程图。
具体实施方式
为了使本领域的人员更好地理解本发明的技术方案,下面结合本发明的附图,对本发明的技术方案进行清楚、完整的描述,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它类同实施例,都应当属于本申请保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
如图1、2所示,本实例提供了面向直升机装配领域知识图谱构建的实体关系抽取方法,包括以下步骤:
步骤SS1:直升机装配领域数据获取;
步骤SS2:对获取到的文本数据进行数据清洗;
步骤SS3:对清洗后的文本数据进行句子切分;
步骤SS4:将切分完成的文本片段逐步输入到经过实体关系抽取训练后的预训练模型中,输出文本片段中包含的直升机装配领域实体与关系;其中,所述经过实体关系抽取训练后的预训练模型,是采用人工核对过的三元组数据进行训练的。
本发明优选的实例中,所述步骤SS1中,直升机装配领域数据获取包括:
步骤SS1-1.从直升机装配领域的相关数据库、文献、论文等数据源中获取结构化数据、半结构化数据。所谓的结构化数据和半结构化数据包括经过整理和组织的专业文档、技术资料以及相关领域的研究成果。通过访问和查询这些数据源,可以获取到丰富的领域知识和实践经验,为实体关系抽取提供有价值的信息基础;
步骤SS1-2.通过扫描直升机装配领域手册,将纸质文本这类非结构化数据转化为数字化的图片形式。再利用光学字符识别技术(OCR),对这些图片进行处理,将其转换成可编辑的文本内容。这样可以获得手册中的知识和信息,为后续的实体关系抽取提供重要的数据来源。
本发明优选的实例中,所述步骤SS2中,对获取到的文本数据进行数据清洗,具体包括:
步骤SS2-1.去除乱码和非法字符:通过对文本数据进行检测和过滤,消除其中的乱码字符和非法字符,以减少数据中的噪音和干扰因素;
步骤SS2-2.去重处理:通过检测和删除文本数据中的重复内容,确保数据的唯一性,避免重复信息对实体关系抽取的干扰;
步骤SS2-3.修复语法错误和逻辑不通畅的语句:利用语法分析和语义分析技术,对文本数据中存在的语法错误和逻辑不通畅的语句进行修正和优化,提升文本的可读性和理解性;
步骤SS2-4.标准化文本格式:对文本数据进行格式规范化处理,包括统一的标点符号、大小写转换等操作,使得文本数据具备一致的表达风格;
步骤SS2-5.去除停用词:基于预定义的停用词列表,过滤和删除文本数据中的常见词语,例如冠词、介词等,以减少对实体关系抽取的影响。
本发明优选的实例中,所述步骤SS3中,对清洗后的文本数据进行句子切分,具体包括:
步骤SS3-1.句子定界标记识别:通过利用先进的自然语言处理技术,包括标点符号分析和语法分析等方法,对清洗后的文本数据进行处理,以识别并定位句子定界标记,如句号、问号、感叹号等。这样可以准确确定句子的边界位置,为后续的句子切分提供依据;
步骤SS3-2.句子切分:基于句子定界标记的位置信息,对清洗后的文本数据进行切分处理。将连续的文本片段切割成独立的句子,确保切分后的句子在语义上连贯且长度适中。这有助于后续实体关系抽取的准确性和效率;
步骤SS3-3.句子过滤:对切分后的句子进行过滤和筛选,以去除无关信息、无意义的句子。通过应用语义分析和领域相关的筛选规则,确保抽取的句子具备与直升机装配领域相关的实体和关系。这样可以提高实体关系抽取的准确性和可靠性。
本发明优选的实例中,所述步骤SS4中,将切分完成的文本片段逐步输入到经过实体关系抽取训练后的预训练模型中,输出文本片段中包含的直升机装配领域实体与关系,其中,所述经过实体关系抽取训练后的预训练模型,训练过程具体包括如下训练步骤:
步骤SS4-1.数据准备:为训练实体关系抽取模型,收集并整理直升机装配领域的标注数据集。该数据集包括直升机装配相关的文本片段和其对应的实体与关系标注信息。通过人工标注或半自动标注的方式,为每个文本片段中的实体和关系进行准确的标注。
步骤SS4-2.特征提取与表示学习:对标注数据集进行特征提取和表示学习,以捕捉文本片段中的语义和上下文信息。特征提取是使用Transformer模型进行文本处理的关键步骤。首先,原始序列数据通过词嵌入技术转换为向量表示,例如使用预训练的词嵌入模型获取每个单词的向量表示。为了保留序列的位置信息,还需要添加位置编码。接下来,将编码后的输入序列输入到Transformer模型中进行特征提取。Transformer模型由多个编码器层组成,每个编码器层包含自注意力机制和前馈神经网络层。自注意力机制能够捕捉序列中的内部关系和依赖关系,而前馈神经网络层则进行非线性变换。最后,Transformer模型的输出可以是编码后的输入序列或某个特定层的输出,这些输出是高维向量,包含了序列中每个位置的特征信息。
步骤SS4-3.模型训练与优化:基于提取的特征和标注数据集,采用由清华大学开源的GLM语言模型构建实体关系抽取模型。GLM通过自回归空白填充的方式进行训练(autoregressive blank infilling)。GLM的原始输入为一段文本x=[x_1,…,x_n],之后对多个文本跨度{s1,…,sm}进行采样,每一个文本跨度s_i都表示一段连续的token序列每个文本跨度都被单个[Mask]标记进行替换,形成损坏的文本xcorrupt。GLM模型通过访问损坏的文本xcorrupt和之前预测的文本跨度来对文本跨度中缺失的token进行预测。同时,GLM通过随机排列被预测文本跨度的方式,来更加完全地捕捉不同文本跨度之间的相互依赖关系。
步骤SS4-4:评估与调优:对训练得到的模型进行评估,使用独立的测试数据集进行性能测试和指标评估,如准确率、召回率等。根据评估结果,对模型进行调优和改进,以提高实体关系抽取的准确性和效果。
本发明优选的实例中,形式上,令zm为长度为m的索引序列[1,2,…,m]的所有可能的排列集合,并且表示索引序列/>综上所述预训练的目标函数定义为:
在每一个文本跨度中,每个缺失的token始终按照从左到右的顺序进行生成,所以生成每个文本跨度si的概率为:
在每一个文本跨度中,Part A表示xcorrupt,Part B表示屏蔽的文本跨度,即Part A中的[MASK]标记。在预测过程中,Part A部分的所有token可以相互关注,但是不能关注到Part B部分。而Part B部分可以关注到所有的Part A部分和已经预测完的Part B部分,从而保证预测的正确性和连贯性。
本发明优选的实例中,在自回归空白填充的过程中,每个文本跨度都填充了特殊标记[START]和[END]。每个文本跨度都以[S]作为输入,并且附加[E]作为输出,以确保模型能够识别文本跨度的开始和结束。同时使用二维位置编码来表示各个token在跨度间(Position 1)和跨度中(Position 2)的位置,以增强模型对文本结构的理解。
本发明优选的实例中,模型的训练过程完成后,为了更加适应实体关系抽取任务,在后续的过程中进行模型的微调。为了适应实体关系抽取的特定任务,在预期内模型的输出层上,添加特定的任务层。用于提取和表示任务相关的特性。考虑到任务的特点和目的,采用已经标注的实体和关系信息对训练和评估微调后的模型。
本发明优选的实例中,经过实体关系抽取训练后的预训练模型,其工作流程具体包括:
步骤SS4A.构建输入样本:根据任务需求,将文本数据转化为适合模型输入的样本。
步骤SS4B.序列编码:使用词嵌入技术将文本序列转换为向量表示。使用GLM模型进行词嵌入,获取单词的向量表示。对于长文本,可以采用截断或填充策略,确保序列长度一致;
步骤SS4C.实体抽取:将编码后的文本序列输入到预训练语言模型中。模型通过自注意力机制和前馈神经网络层捕捉实体的上下文信息,并对每个位置进行分类,判断该位置是否属于实体,并完成实体抽取任务;
步骤SS4D.关系抽取:对于已抽取的实体,进一步在模型中进行关系抽取。模型利用自注意力机制和前馈神经网络层,学习实体之间的关系,完成关系抽取任务。
通过以上步骤,能够自动从文本数据中提取出实体和关系信息,为后续的知识图谱构建、信息提取和自然语言理解等任务提供基础。
实施例2
本实例提供了面向直升机装配领域知识图谱构建的实体关系抽取系统包括:文本获取模块、清洗处理模块、句子切分模块以及实体关系抽取模块。
其中所述文本获取模块:该模块负责从多个数据源中获取与直升机装配领域相关的文本数据。数据源可以包括直升机装配手册、论文数据库、专利数据库以及互联网上的技术论坛、博客等。通过使用扫描、光学字符识别(OCR)等技术,将纸质文本转化为可处理的文本数据;
其中所述清洗处理模块:对获取到的文本数据进行清洗和预处理。这包括去除噪音、非结构化信息和无关内容,如HTML标签、特殊字符等。同时,对文本进行规范化、标准化和去重,以提高后续处理的效果和准确性;
其中所述句子切分模块:将清洗后的文本数据进行句子切分,将文本分割成独立的句子。利用自然语言处理技术,识别句子定界标记,如句号、问号、感叹号等,以确定句子的边界位置。确保切分后的句子语义连贯且长度适中,便于后续的实体关系抽取处理;
其中所述实体关系抽取模块:它是系统的核心组成部分。它利用经过实体关系抽取训练后的预训练模型,逐步输入切分后的文本片段,以识别和抽取直升机装配领域中的实体和关系。
实施例3
本实例提供了一种电子设备,该设备包括存储器和处理器。存储器中存储有可在处理器上运行的程序或指令。当处理器执行这些程序或指令时,能够实现第一实施例中的任一项直升机装配知识图谱实体关系抽取方法的步骤。因此,该电子设备具有上述第一方面实施例中所描述的技术效果。
实施例4
本实例提供了一种可读存储介质,该存储介质上存储有程序或指令。当处理器执行这些程序或指令时,能够实现第一方面实施例中的任一项直升机装配知识图谱实体关系抽取方法的步骤。因此,该可读存储介质具有上述第一实施例中所描述的技术效果。
通过上述实施例,完全有效地实现了本发明的目的。该领域的技术人员可以理解本发明包括但不限于附图和以上具体实施方式中描述的内容。虽然本发明已就目前认为最为实用且优选的实施例进行说明,但应知道,本发明并不限于所公开的实施例,任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (10)
1.一种面向直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,所述方法在实施时至少包括如下步骤:
SS1.获取待处理的直升机装配领域文本数据,所述文本数据至少包括结构化数据、半结构化数据和/或非结构化数据;
SS2.对于待处理的文本数据进行清洗处理,对于步骤SS1收集到的数据中的乱码、不合理的符号以及逻辑不通畅的语句进行删除或者改写;
SS3.将步骤SS2清洗处理好的文本数据进行句子切分,切分后的句子语言连贯且长度适中;
SS4.将步骤SS3切分完成的文本片段逐步输入到实体关系抽取模型中,完成处理后输出文本片段中包含的直升机装配领域实体与关系,其中,所述实体关系抽取模型为经过实体关系抽取训练后的预训练语言模型,所述预训练语言模型基于人工核对过的三元组数据进行训练并至少包括如下训练步骤:
SS41.收集并整理直升机装配领域的标注数据集,从而为训练实体关系抽取模型提供准备数据;
SS42.基于子步骤SS41提供的标注数据集进行特征提取和表示学习,以捕捉文本片段中的语义和上下文信息;
SS43.基于子步骤SS41提供的标注数据集以及子步骤SS42提取的特征,采用GLM语言模型作为预训练语言模型并在此基础上构建实体关系抽取模型,具体为:
SS431.采用自回归空白填充的方式进行预训练,对于每个原始输入文本片段x=[x1,…,xn],执行以下操作:
首先,对多个文本跨度{s1,…,sm}进行采样,其中每一个文本跨度si都表示一段连续的token序列
然后,将每个文本跨度都用单个[MASK]标记进行替换,从而形成损坏的文本xcorrupt;
之后,将损坏的文本xcorrupt和之前预测的文本跨度作为输入,用预训练语言模型对文本跨度中缺失的token进行预测;
同时,为了更充分地捕捉不同文本跨度之间的相互依赖关系,随机选择多个文本跨度进行屏蔽,并按照随机的顺序对屏蔽的文本跨度进行预测,从而学习文本片段中的实体和关系信息;
SS432.在预训练语言模型的输出层上,添加用于提取和表示任务相关特性的若干任务层以完成实体关系抽取任务,所述若干任务层至少包括一实体分类层和一关系分类层,通过这些任务层将预训练语言模型的输出转化为实体关系抽取任务的输出,实现从文本数据中提取出实体和关系信息的目的。
2.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述步骤SS1中,获取直升机装配领域数据包括:
通过扫描直升机装配领域手册,将纸质文本转化为数字化的图片形式,并利用光学字符识别技术将其转换为可编辑的文本内容,以获取手册中的知识和信息;
从直升机装配领域的相关数据库、文献、论文等数据源中获取结构化数据和半结构化数据,包括整理和组织的专业文档、技术资料以及相关领域的研究成果,以获取丰富的领域知识和实践经验。
3.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述步骤SS2中,对获取到的数据进行清洗包括:
去除乱码和非法字符,通过检测和过滤文本数据中的乱码字符和非法字符,消除数据中的噪音和干扰因素;
去重处理,检测和删除文本数据中的重复内容,确保数据的唯一性,避免重复信息对实体关系抽取的干扰;
修复语法错误和逻辑不通畅的语句,利用语法分析和语义分析技术对文本数据中存在的语法错误和逻辑不通畅的语句进行修正和优化,提升文本的可读性和理解性;
标准化文本格式,对文本数据进行格式规范化处理,包括统一标点符号、大小写转换操作,使得文本数据具备一致的表达风格;
去除停用词,基于预定义的停用词列表,过滤和删除文本数据中的常见词语以减少对实体关系抽取的影响。
4.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,步骤SS3中,对清洗后的数据进行句子拆分包括:
句子定界标记识别,利用自然语言处理技术对清洗后的文本数据进行处理,以识别并定位句子定界标记;
句子切分,基于句子定界标记的位置信息,对清洗后的文本数据进行切分处理;
句子过滤,对切分后的句子进行过滤和筛选,以去除无关信息、无意义的句子。
5.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,步骤SS4中,实体关系抽取模型的工作流程为:
SS4A.构建输入样本:根据任务需求,将文本数据转化为适合模型输入的样本;
SS4B.序列编码:使用词嵌入技术将文本序列转换为向量表示,使用GLM模型进行词嵌入并获取单词的向量表示,对于长文本,采用截断或填充策略,确保序列长度一致;
SS4C.实体抽取:将编码后的文本序列输入到预训练语言模型中,模型通过自注意力机制和前馈神经网络层捕捉实体的上下文信息,并对每个位置进行分类,判断该位置是否属于实体,并完成实体抽取任务;
SS4D.关系抽取:对于已抽取的实体,进一步在模型中进行关系抽取。模型利用自注意力机制和前馈神经网络层,学习实体之间的关系,完成关系抽取任务。
6.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述子步骤SS431中,定义zm为长度为m的索引序列[1,2,…,m]的所有可能的排列集合,且表示索引序列/>模型的训练目标函数为最大化参数θ下的期望对数似然:
其中,表示在给定损坏文本xcorrupt和之前文本跨度/>条件下,生成文本跨度/>的概率并且为所有缺失token的联合概率:
其中,si,j表示文本跨度si中的第j个token,si,<j表示文本跨度si中的前j-1个token,li表示文本跨度si的长度,从而在预测文本跨度中的每个token时,都要考虑损坏的文本xcorrupt和之前预测的文本跨度/>以及文本跨度si中的前文信息si,<j,从而使得预测更加准确和连贯。
7.如权利要求6所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述子步骤SS431中,将每一个文本跨度分为Part A和Part B两个部分,Part A表示xcorrupt,Part B表示被[MASK]标记屏蔽的文本跨度,在预测过程中,Part A中的所有token相互关注但不能关注到Part B部分,而Part B部分可关注到所有的Part A部分和已经预测完毕的Part B部分,从而保证预测的正确性和连贯性。
8.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述子步骤SS431中,每个文本跨度在自回归空白填充过程中被特殊标记[START]和[END]所填充,每个文本跨度都以[START]作为输入,并且附加[END]作为输出,以确保模型能够识别文本跨度的开始和结束。
9.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述子步骤SS431中,使用二维位置编码来表示各个token在跨度间和跨度中的位置,以增强模型对文本结构的理解。
10.如权利要求1所述的一种直升机装配领域知识图谱构建的实体关系抽取方法,其特征在于,上述子步骤SS432中,所述实体分类层为一多标签分类器,用于对每个token进行实体及其类型的判断,判断是否属于直升机装配领域的实体以及属于哪种实体类别,所述关系分类层为一多分类器,用于对每对实体进行关系类型的判断,判断是否存在直升机装配领域的关系以及属于哪种关系类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311548209.7A CN117520561A (zh) | 2023-11-20 | 2023-11-20 | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311548209.7A CN117520561A (zh) | 2023-11-20 | 2023-11-20 | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520561A true CN117520561A (zh) | 2024-02-06 |
Family
ID=89754672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311548209.7A Pending CN117520561A (zh) | 2023-11-20 | 2023-11-20 | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520561A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745274A (zh) * | 2024-02-19 | 2024-03-22 | 北京航空航天大学 | 基于语义标注角色标注的维修事件元素整合方法及系统 |
-
2023
- 2023-11-20 CN CN202311548209.7A patent/CN117520561A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745274A (zh) * | 2024-02-19 | 2024-03-22 | 北京航空航天大学 | 基于语义标注角色标注的维修事件元素整合方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113312478B (zh) | 基于阅读理解的观点挖掘方法及装置 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112749284A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN112307741B (zh) | 保险行业文档智能化解析方法和装置 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN117520561A (zh) | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN114785606A (zh) | 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质 | |
CN117648093A (zh) | 基于大模型和自定制需求模板的rpa流程自动化生成方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Nieddu et al. | In Codice Ratio: A crowd-enabled solution for low resource machine transcription of the Vatican Registers | |
CN116362247A (zh) | 一种基于mrc框架的实体抽取方法 | |
CN115470773A (zh) | 一种基于大数据的文本分析方法及装置 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 | |
CN115062615A (zh) | 一种金融领域事件抽取方法和装置 | |
Khan et al. | Analysis of Cursive Text Recognition Systems: A Systematic Literature Review | |
CN113326371A (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
CN110516069A (zh) | 一种基于FastText-CRF的引文元数据抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |