CN115391567A - 风机标准作业知识图谱构建方法、装置及作业机械 - Google Patents

风机标准作业知识图谱构建方法、装置及作业机械 Download PDF

Info

Publication number
CN115391567A
CN115391567A CN202211139524.XA CN202211139524A CN115391567A CN 115391567 A CN115391567 A CN 115391567A CN 202211139524 A CN202211139524 A CN 202211139524A CN 115391567 A CN115391567 A CN 115391567A
Authority
CN
China
Prior art keywords
data
entity
knowledge
attribute
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211139524.XA
Other languages
English (en)
Inventor
王健健
蒋华晨
邓伟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sany Heavy Industry Co Ltd
Original Assignee
Sany Heavy Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sany Heavy Industry Co Ltd filed Critical Sany Heavy Industry Co Ltd
Priority to CN202211139524.XA priority Critical patent/CN115391567A/zh
Publication of CN115391567A publication Critical patent/CN115391567A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识图谱领域,提供一种风机标准作业知识图谱构建方法、装置及作业机械,方法包括:获取风机标准作业的文本数据;对结构化数据基于预设规则直接进行知识抽取,获取结构化数据的实体数据、属性数据和关系数据,将非结构化数据和半结构化数据文本数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,分别得到实体数据、属性数据和关系数据;基于已构建的本体库对实体数据、属性数据和关系数据进行知识融合和知识加工,构建风机标准作业的文本数据对应的知识图谱。本发明利用神经网络模型进行知识抽取代替了人工知识抽取,从而节省了大量的人力和财力,实现高效地、自动化构建风机标准专业知识图谱。

Description

风机标准作业知识图谱构建方法、装置及作业机械
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种风机标准作业知识图谱构建方法、装置及作业机械。
背景技术
风机标准作业包括操作说明书、设计文档、装配作业文档、检验基准文档、维修历史文档都含有大量的风机专业知识,在实际应用中,很多标准文献和历史文件以PDF图像扫描件的形式储存,导致计算机难以读取标准文献内容信息,知识的存取也是以人工构建完成后录入文档管理系统。
因此,通过光符识别技术对标准文献进行转化处理,获取相应纯文本数据,再对这些非结构化文本数据进行处理加工。为了有效的沉淀和利用这些知识,知识图谱是一个很好的方法,结构化文档可以通过工具直接导入到图数据库中构建知识图谱,然而非结构化文档需要人工抽取非常消耗人力财力。
因此,如何解决对风机标准作业进行自动化知识抽取,减少人力财力消耗,从而高效自动化地构建风机标准专业知识图谱,是当前亟需解决的技术问题。
发明内容
本发明提供一种风机标准作业知识图谱构建方法、装置及作业机械,用以解决现有技术中风机标准作业的一些文档需要人工抽取,非常消耗人力财力的缺陷,实现自动化构建风机标准专业的知识图谱。
本发明提供一种风机标准作业知识图谱构建方法,包括:
获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;
对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;
基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
根据本发明提供的一种风机标准作业知识图谱构建方法,将所述非结构化数据和半结构化数据文本数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据,包括:
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据;
将不同的所述实体数据输入至训练完成的关系抽取模型中,获取不同实体之间的关系数据;
对所述半结构化数据进行文字识别得到识别数据,将所述识别数据输入至实体识别模型,获取半结构化数据的实体数据和属性数据,将不同的所述半结构化数据的实体数据输入至关系抽取模型中,获取不同的半结构化数据的关系数据;
其中,所述实体抽取模型是基于非结构化样本和所述非结构化样本的标签进行训练得到的,所述关系抽取模型是基于半结构化样本和所述半结构化样本的标签进行训练得到的。
根据本发明提供的一种风机标准作业知识图谱构建方法,所述对所述半结构化数据进行文字识别得到识别数据,包括:
将所述半结构化数据输入至表格信息抽取模型中,基于表头识别规则,获取所述半结构化数据的表头位置;
基于预先构建的映射关系获取所述表头位置对应的待获取数据;
将所述待获取数据输入至文字识别模型中,得到所述识别数据。
根据本发明提供的一种风机标准作业知识图谱构建方法,所述实体抽取模型包括BERT层和CRF层;
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据,包括:
将所述非结构化数据输入至所述BERT层中,获取非结构化数据的特征向量;
将所述特征向量输入至所述CRF层中进行实体识别和属性识别,获取所述特征向量的实体数据和属性数据。
根据本发明提供的一种风机标准作业知识图谱构建方法,基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工之前,还包括:
将风机标准作业划分为不同的作业类别;
设定不同的作业类别的本体关系、本体属性及本体上下位,并基于所述本体关系、本体属性及本体上下位将本体确认为实体;
规范实体的关系、作业类别以及属性联系并构建本体库。
根据本发明提供的一种风机标准作业知识图谱构建方法,获取风机标准作业的文本数据之后,还包括:
将所述结构化数据与专家知识库进行数据融合得到融合数据;
基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,包括:
将所述实体数据、属性数据、关系数据结合所述融合数据基于已构建的本体库进行实体消歧和共指消解,得到知识对齐数据;
对所述对齐数据进行质量评估和本体创建的知识加工;
构建所述风机标准作业的文本数据对应的知识图谱之后,还包括:
将所述知识图谱进行知识推理,并再次进行质量评估。
本发明还提供一种风机标准作业知识图谱构建装置,包括:
获取单元,用于获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;
抽取单元,用于对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;
构建单元,用于基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
本发明还提供一种作业机械,包括如上述的风机标准作业知识图谱构建装置。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述风机标准作业知识图谱构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述风机标准作业知识图谱构建方法的步骤。
本发明提供的风机标准作业知识图谱构建方法、装置及作业机械,通过获取风机标准作业的文本数据,将风机标准作业的非结构化数据和半结构化数据输入至训练完成的神经网络模型中,得到风机标准作业的实体数据、属性数据和关系数据,然后将实体数据、属性数据和关系数据基于已构建的本体库进行知识融合和知识加工,从而构建风机标准作业的文本数据对应的知识图谱。本发明利用神经网络模型进行知识抽取代替了人工知识抽取,从而节省了大量的人力和财力,实现高效地、自动化构建风机标准专业知识图谱。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的风机标准作业知识图谱构建方法的流程示意图之一;
图2是本发明提供的风机标准作业知识图谱构建方法的流程示意图之二;
图3是本发明提供的风机标准作业知识图谱构建装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图4描述本发明的风机标准作业知识图谱构建方法、装置及作业机械。
参照图1,本发明提供的风机标准作业知识图谱构建方法,包括以下步骤:
步骤110,获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据。
具体地,本实施例中的风机标准作业的文本数据包括但不限于风机标准作业的操作说明书、设计文档、装配作业文档、检验基准文档、维修历史文档。以上文本数据都含有大量的风机专业知识,这些文本数据包括纯文本数据、非文本数据或可以转化为文本的数据,比如图片或者PDF格式的数据。
步骤120,对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据。
具体地,对于不同的数据类型采用不同的知识抽取方式。对于结构化数据根据预设规则直接进行知识抽取,对于非结构化数据和半结构化数据基于神经网络模型进行知识抽取。
需要说明的是,本实施例中的神经网络模型均为经过训练之后可以进行数据识别和分类等功能的模型,其具备了对风机标准作业进行自动化知识抽取的功能。神经网络模型可为多个联合模型,分别执行不同的功能,也就是说将文本数据输入至多个联合的神经网络模型中,分别进行实体抽取、属性抽取以及关系抽取,分别得到风机标准作业的实体数据、属性数据和关系数据。
需要说明的是,本实施例中的神经网络模型均是通过对大量样本训练集和对应的样本标签进行有监督的训练得到的。
步骤130,基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
具体地,本实施例是通过对文本数据进行自动化知识抽取之后,对抽取获得的数据根据本体库对公理、规则和约束条件的支持能力,对实体数据、属性数据和关系数据进行综合处理,如知识融合、知识加工等,然后将综合处理后的数据构建成知识图谱。
需要说明的是,本实施例中的知识融合包括但不限于数据融合、实体消歧以及共指消解;知识加工包括但不限于知识推理、质量评估以及本体创建。
本发明实施例提供的风机标准作业知识图谱构建方法,通过获取风机标准作业的文本数据,将风机标准作业的非结构化数据和半结构化数据输入至训练完成的神经网络模型中,得到风机标准作业的实体数据、属性数据和关系数据,然后将实体数据、属性数据和关系数据基于已构建的本体库进行知识融合和知识加工,从而构建风机标准作业的文本数据对应的知识图谱。本发明利用神经网络模型进行知识抽取代替了人工知识抽取,从而节省了大量的人力和财力,实现高效地、自动化构建风机标准专业知识图谱。
基于以上实施例,所述文本数据包括结构化数据、非结构化数据以及半结构化数据。
可以理解的是,本实施例中结构化数据、非结构化数据以及半结构化数据即为纯文本数据、非文本数据以及可以转化为文本的数据,比如图片或者PDF格式的数据。
将所述非结构化数据和半结构化数据文本数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据,包括:
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据;
将不同的所述实体数据输入至训练完成的关系抽取模型中,获取不同实体之间的关系数据;
对所述半结构化数据进行文字识别得到识别数据,将所述识别数据输入至实体识别模型,获取半结构化数据的实体数据和属性数据,将不同的所述半结构化数据的实体数据输入至关系抽取模型中,获取不同的半结构化数据的关系数据;
其中,所述实体抽取模型是基于非结构化样本和所述非结构化样本的标签进行训练得到的,所述关系抽取模型是基于半结构化样本和所述半结构化样本的标签进行训练得到的。
具体地,本实施例提供了通过联合的神经网络模型进行文本数据的自动化知识抽取的过程。
本实施例涉及的实体抽取模型为BERT+CRF联合模型,该模型联合了BERT算法(Bidirectional Encoder Representations from Transformers)和CRF算法(Conditional Random Field Algorithm),能够对风机标准作业的文本数据进行上下文信息联系,对文本数据进行上下文语义关联和语义理解,然后进行特征向量的提取,从而得到特征向量的实体数据和属性数据。也就是说,本实施例中的BERT+CRF联合模型即是对非结构化数据进行识别,从而完成对实体和属性数据的抽取。
本实施例涉及的关系抽取模型为PCNN模型(Piece-Wise-CNN),PCNN模型是一种用于在已知实体对位置时,辨别实体对关系的网络模型。本实施例中的PCNN模型是将BERT+CRF联合模型输出的实体数据进行关系抽取并进行关系分类,从而得到不同的实体数据之间的关系数据。
进一步地,对于半结构化数据来说,可先对半结构化数据进行文字识别得到识别数据,其中识别数据可包括半结构化数据的实体数据和属性数据。然后再将识别数据输入至关系抽取模型中,获取半结构化数据之间的关系数据。
具体地,本实施例通过不同的神经网络模型对风机标准作业的非结构化数据和半结构化数据进行实体抽取、属性抽取以及关系抽取,从而实现了非结构化数据和半结构化数据的自动化知识抽取,提高了抽取效率,减少了大量的人力财力,并且为后续的自动化构建知识图谱提供了基础。
基于以上实施例,所述对所述半结构化数据进行文字识别得到识别数据,包括:
将所述半结构化数据输入至表格信息抽取模型中,基于表头识别规则,获取所述半结构化数据的表头位置;
基于预先构建的映射关系获取所述表头位置对应的待获取数据;
将所述待获取数据输入至文字识别模型中,得到所述识别数据。
具体地,本实施例提供了获取识别数据的步骤。
本实施例中的半结构数据以表格数据为例,通过表格信息抽取模型和文字识别数据先后进行表格信息抽取和文字识别,从而得到表格数据的识别数据。
首先进行表头识别,即通过整理所有表头字段名,构建表头识别规则,识别表格的是横向还是纵向表格以及表头所在位置。
然后通过表格信息抽取模型提取表格信息,构建所需信息与表头的映射关系,提取表格中所需要的信息文本以及数值,即上述的待获取数据。
最后根据文字识别模型,抽取表格中文本的实体信息,包括表格中文本的实体数据和属性数据。
需要说明的是,本实施例中的文字识别模型即为OCR模型,(Optical CharacterRecognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
本实施例通过对半结构化数据中的表格数据进行表格信息提取以及文字识别,从而获取半结构化数据的识别数据。便于后续对进行文字识别后的数据进行实体识别,以获取半结构化数据的实体数据和属性数据。
基于以上实施例,所述实体抽取模型包括BERT层和CRF层;
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据,包括:
将所述非结构化数据输入至所述BERT层中,获取非结构化数据的特征向量;
将所述特征向量输入至所述CRF层中进行实体识别和属性识别,获取所述特征向量的实体数据和属性数据。
具体地,本实施例提供了BERT+CRF联合模型的每个层级的作用,其具体原理为:将非结构化数据输入到模型中,基于模型的BERT层中进行特征提取,获取对应的特征向量。然后基于模型的CRF层进行实体和属性识别,从而获取所述非结构化数据的实体数据和属性数据。
本实施例通过对BERT+CRF联合模型的层级进行结构和功能的分解,更加明确地表示了通过模型对非结构化数据进行自动化知识抽取的过程。
基于以上实施例,基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工之前,还包括:
将风机标准作业划分为不同的作业类别;
设定不同的作业类别的本体关系、本体属性及本体上下位,将本体确认为实体并基于所述本体关系、本体属性及本体上下位将本体确认为实体;
规范实体的关系、作业类别以及属性联系并构建本体库。
具体地,本实施例提供了本体库的构建过程。
首先,需要对风机标准作业进行相关本体设计。将整个作业划分为不同的子作业类别,不同的作业类别可以抽象出如下作业项目名称、作业方法、作业顺序、作业工具、质量控制点、所需物料本体、作业工位名称。物料可以抽线出物料编码、物料型号、物料数量等。
然后,设计本体之间的关联关系、以及本体的属性,本体的本体上下位,规范实体、关系以及实体的类型和属性等对象之间的联系。在确认各个本体的属性、类型以及关系等信息之后,本体即可确认为实体。
最后,规范实体的关系、作业类别以及属性联系并构建本体库。
本实施例通过对风机标准作业进行作业分类、关系确认等,从而建立本体库,以便于基于本体库的对公理、规则和约束条件的支持能力规范实体之间的关系,以及通过构建的本体库对知识图谱进管理。
基于以上实施例,获取风机标准作业的文本数据之后,还包括:
将所述结构化数据与专家知识库进行数据融合得到融合数据;
基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,包括:
将所述实体数据、属性数据、关系数据结合所述融合数据基于已构建的本体库进行实体消歧和共指消解,得到知识对齐数据;
对所述对齐数据进行质量评估和本体创建的知识加工;
构建所述风机标准作业的文本数据对应的知识图谱之后,还包括:
将所述知识图谱进行知识推理,并再次进行质量评估。
具体地,本实施例提供了通过本体库对实体数据、属性数据以及关系数据之间进行管理的过程。
对于结构化数据,将结构化数据与专家知识库进行数据融合得到融合数据;
对于非结构化数据和半结构化数据,根据已获得的实体数据、属性数据和关系数据与融合数据之间进行实体消歧、共指消解等。
然后对进行了知识融合之后的知识对齐数据进行质量评估和本体创建的知识加工,从而创建知识图谱。构建知识图谱三元组之后,可存入数据库中便于后续的调用,可对知识图谱进行知识推理,并将经过知识推理之后的知识图谱再次进行质量评估并对知识图谱根据质量评估结果进行更新。
本实施例通过对已获得的实体数据、属性数据和关系数据进行知识融合和知识加工,从而构建风机标准作业的知识图谱,实现了高效自动化地构建知识图谱,节省了大量的人力和财力。并且将获取后的知识图谱存入数据库中,便于后续的调用。
参照图2,图2是本发明提供的风机标准作业知识图谱构建方法的完整流程图,包括:
知识采集210、知识抽取220、知识融合230、知识加工240。
知识采集210包括:采集结构化数据211、非结构化数据212、PDF或图片213;
知识抽取220包括:实体抽取221、属性抽取222、关系抽取223以及文字识别224;
知识融合230包括:将结构化数据211和专家知识库231进行数据融合232、然后进行实体消歧233、共指消解234;
知识加工240包括:对数据进行本体创建241、质量评估242得到知识图谱250,然后对知识图谱250进行知识推理243,再次进行质量评估242。
下面对本发明提供的风机标准作业知识图谱构建装置进行描述,下文描述的风机标准作业知识图谱构建装置与上文描述的风机标准作业知识图谱构建方法可相互对应参照。
参照图3,本发明提供的风机标准作业知识图谱构建装置,包括以下单元:
获取单元310,用于获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;
抽取单元320,用于对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;
构建单元330,用于基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
本发明实施例提供的风机标准作业知识图谱构建装置,通过获取风机标准作业的文本数据,将风机标准作业的非结构化数据和半结构化数据输入至训练完成的神经网络模型中,得到风机标准作业的实体数据、属性数据和关系数据,然后将实体数据、属性数据和关系数据基于已构建的本体库进行知识融合和知识加工,从而构建风机标准作业的文本数据对应的知识图谱。本发明利用神经网络模型进行知识抽取代替了人工知识抽取,从而节省了大量的人力和财力,实现高效地、自动化构建风机标准专业知识图谱。
基于以上实施例,抽取单元具体用于:
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据;
对所述半结构化数据进行文字识别得到识别数据,将所述识别数据输入至实体识别模型,获取半结构化数据的实体数据和属性数据,将不同的所述半结构化数据的实体数据输入至关系抽取模型中,获取不同的半结构化数据的关系数据;
其中,所述实体抽取模型是基于非结构化样本和所述非结构化样本的标签进行训练得到的,所述关系抽取模型是基于半结构化样本和所述半结构化样本的标签进行训练得到的。
基于以上实施例,抽取单元具体用于:
将所述半结构化数据输入至表格信息抽取模型中,基于表头识别规则,获取所述半结构化数据的表头位置;
基于预先构建的映射关系获取所述表头位置对应的待获取数据;
将所述待获取数据输入至文字识别模型中,得到所述识别数据。
基于以上实施例,所述实体抽取模型包括BERT层和CRF层;
抽取单元具体用于:
将所述非结构化数据输入至所述BERT层中,获取非结构化数据的特征向量;
将所述特征向量输入至所述CRF层中进行实体识别和属性识别,获取所述特征向量的实体数据和属性数据。
基于以上实施例,风机标准作业知识图谱构建装置还包括:
划分单元,用于将风机标准作业划分为不同的作业类别;
确认单元,用于设定不同的作业类别的本体关系、本体属性及本体上下位,将本体确认为实体并基于所述本体关系、本体属性及本体上下位将本体确认为实体;
构建单元,用于规范实体的关系、作业类别以及属性联系并构建本体库。
基于以上实施例,构建单元具体用于:
将所述实体数据、属性数据、关系数据结合所述融合数据基于已构建的本体库进行实体消歧和共指消解,得到知识对齐数据;
对所述对齐数据进行质量评估和本体创建的知识加工;
进一步,风机标准作业知识图谱构建装置还包括:
融合单元:将所述结构化数据与专家知识库进行数据融合得到融合数据;
再次评估单元,用于将所述知识图谱进行知识推理,并再次进行质量评估。
本发明还提供一种作业机械,包括如上任一实施例所述的风机标准作业知识图谱构建装置。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行风机标准作业知识图谱构建方法,该方法包括:获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的风机标准作业知识图谱构建方法,该方法包括:获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的风机标准作业知识图谱构建方法,该方法包括:获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种风机标准作业知识图谱构建方法,其特征在于,包括:
获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;
对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;
基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
2.根据权利要求1所述的风机标准作业知识图谱构建方法,其特征在于,将所述非结构化数据和半结构化数据文本数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据,包括:
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据;
将不同的所述实体数据输入至训练完成的关系抽取模型中,获取不同实体之间的关系数据;
对所述半结构化数据进行文字识别得到识别数据,将所述识别数据输入至实体识别模型,获取半结构化数据的实体数据和属性数据,将不同的所述半结构化数据的实体数据输入至关系抽取模型中,获取不同的半结构化数据的关系数据;
其中,所述实体抽取模型是基于非结构化样本和所述非结构化样本的标签进行训练得到的,所述关系抽取模型是基于半结构化样本和所述半结构化样本的标签进行训练得到的。
3.根据权利要求2所述的风机标准作业知识图谱构建方法,其特征在于,所述对所述半结构化数据进行文字识别得到识别数据,包括:
将所述半结构化数据输入至表格信息抽取模型中,基于表头识别规则,获取所述半结构化数据的表头位置;
基于预先构建的映射关系获取所述表头位置对应的待获取数据;
将所述待获取数据输入至文字识别模型中,得到所述识别数据。
4.根据权利要求2所述的风机标准作业知识图谱构建方法,其特征在于,所述实体抽取模型包括BERT层和CRF层;
将所述非结构化数据输入至训练完成的实体抽取模型中,获取所述非结构化数据的实体数据和属性数据,包括:
将所述非结构化数据输入至所述BERT层中,获取非结构化数据的特征向量;
将所述特征向量输入至所述CRF层中进行实体识别和属性识别,获取所述特征向量的实体数据和属性数据。
5.根据权利要求1所述的风机标准作业知识图谱构建方法,其特征在于,基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工之前,还包括:
将风机标准作业划分为不同的作业类别;
设定不同的作业类别的本体关系、本体属性及本体上下位,并基于所述本体关系、本体属性及本体上下位将本体确认为实体;
规范实体的关系、作业类别以及属性联系并构建本体库。
6.根据权利要求2所述的风机标准作业知识图谱构建方法,其特征在于,获取风机标准作业的文本数据之后,还包括:
将所述结构化数据与专家知识库进行数据融合得到融合数据;
基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,包括:
将所述实体数据、属性数据、关系数据结合所述融合数据基于已构建的本体库进行实体消歧和共指消解,得到知识对齐数据;
对所述对齐数据进行质量评估和本体创建的知识加工;
构建所述风机标准作业的文本数据对应的知识图谱之后,还包括:
将所述知识图谱进行知识推理,并再次进行质量评估。
7.一种风机标准作业知识图谱构建装置,其特征在于,包括:
获取单元,用于获取风机标准作业的文本数据;其中,所述文本数据包括结构化数据、非结构化数据以及半结构化数据;
抽取单元,用于对所述结构化数据基于预设规则直接进行知识抽取,获取所述结构化数据的实体数据、属性数据和关系数据,将所述非结构化数据和半结构化数据输入至训练完成的神经网络模型中,进行实体抽取、属性抽取以及关系抽取,得到非结构化数据的实体数据、属性数据和关系数据,以及半结构化数据的实体数据、属性数据和关系数据;
构建单元,用于基于已构建的本体库对所述实体数据、属性数据和关系数据进行知识融合和知识加工,构建所述风机标准作业的文本数据对应的知识图谱。
8.一种作业机械,其特征在于,包括如权利要求7所述的风机标准作业知识图谱构建装置。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述风机标准作业知识图谱构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述风机标准作业知识图谱构建方法的步骤。
CN202211139524.XA 2022-09-19 2022-09-19 风机标准作业知识图谱构建方法、装置及作业机械 Pending CN115391567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211139524.XA CN115391567A (zh) 2022-09-19 2022-09-19 风机标准作业知识图谱构建方法、装置及作业机械

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139524.XA CN115391567A (zh) 2022-09-19 2022-09-19 风机标准作业知识图谱构建方法、装置及作业机械

Publications (1)

Publication Number Publication Date
CN115391567A true CN115391567A (zh) 2022-11-25

Family

ID=84127409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139524.XA Pending CN115391567A (zh) 2022-09-19 2022-09-19 风机标准作业知识图谱构建方法、装置及作业机械

Country Status (1)

Country Link
CN (1) CN115391567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117608545A (zh) * 2024-01-17 2024-02-27 之江实验室 一种基于知识图谱的标准作业程序生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117608545A (zh) * 2024-01-17 2024-02-27 之江实验室 一种基于知识图谱的标准作业程序生成方法
CN117608545B (zh) * 2024-01-17 2024-05-10 之江实验室 一种基于知识图谱的标准作业程序生成方法

Similar Documents

Publication Publication Date Title
CN110705265A (zh) 合同条款风险识别方法以及装置
CN109635292B (zh) 基于机器学习算法的工单质检方法和装置
CN111639178A (zh) 生命科学文档的自动分类和解释
US20150278248A1 (en) Personal Information Management Service System
CN113094512B (zh) 一种工业生产制造中故障分析系统及方法
CN111191614B (zh) 一种单据分类方法和装置
CN116245177B (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN113449698A (zh) 纸质文档的自动化录入方法、系统、装置及存储介质
CN114238655A (zh) 企业关联关系识别方法、装置、设备及介质
CN115391567A (zh) 风机标准作业知识图谱构建方法、装置及作业机械
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN114913376A (zh) 基于图像的缺陷自动识别方法、装置、系统及存储介质
CN111369133A (zh) 一种大数据风险监测系统
CN110851630A (zh) 一种深度学习标注样本的管理系统及方法
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN110968604A (zh) 一种自动检索互联网经营企业违规经营的方法
CN111723205A (zh) 会议纪要处理方法、装置及会议纪要处理设备
US20220172301A1 (en) System and method for clustering an electronic document that includes transaction evidence
CN115630636A (zh) 文本识别方法及装置
CN112364790B (zh) 基于卷积神经网络的机场工作单信息识别方法及系统
CN114936279A (zh) 一种面向协同制造企业的非结构化图表数据分析方法
CN114385794A (zh) 企业知识图谱的生成方法、装置、设备和存储介质
CN112131379A (zh) 用于识别问题类别的方法、装置、电子设备及存储介质
CN117608545B (zh) 一种基于知识图谱的标准作业程序生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination