CN114722823A

CN114722823A - 构建航空知识图谱的方法及装置、计算机可读介质

Info

Publication number: CN114722823A
Application number: CN202210300784.4A
Authority: CN
Inventors: 赵兴炜; 刘沛丰; 钱璐
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-08
Anticipated expiration: 2042-03-24
Also published as: CN114722823B

Abstract

本发明提供了构建航空知识图谱的方法及装置，该方法包括：预先设置航空实体样本集；预先训练实体识别模型和实体关系抽取模型；将多个航空文本输入到训练好的实体识别模型中；利用训练好的实体识别模型对每个所述航空文本执行以下处理：对航空文本的每个字符进行标注，生成标注后的航空文本；根据标注后的航空文本，确定航空文本中的航空实体；根据航空文本中的航空实体和航空实体样本集，确定每个航空实体的实体类别；利用训练好的实体关系抽取模型，根据各个航空实体的实体类别，从各个航空文本中抽取各个航空实体之间的实体关系；根据各个航空实体和各个航空实体之间的实体关系，构建航空知识图谱。本发明能够构建出航空领域的知识图谱。

Description

构建航空知识图谱的方法及装置、计算机可读介质

技术领域

本发明涉及航空技术领域，特别涉及构建航空知识图谱的方法及装置、计算机可读介质。

背景技术

随着人工智能技术的快速发展，越来越多的技术领域在进行数字化转型，知识图谱在数字化转型的过程发挥着重要作用。然而，在航空领域，知识图谱技术的应用却鲜有进展，如何构建航空知识图谱成为一个亟待解决的问题。

发明内容

本发明实施例提供了构建航空知识图谱的方法及装置，能够构建出航空领域的知识图谱。

第一方面，本发明实施例提供了一种构建航空知识图谱的方法，该方法包括：预先设置航空实体样本集、实体识别模型和实体关系抽取模型；

预先对所述实体识别模型进行训练，生成训练好的实体识别模型；

预先对所述实体关系抽取模型进行训练，生成训练好的实体关系抽取模型；

该方法还包括：

将多个航空文本输入到训练好的所述实体识别模型中；

利用训练好的所述实体识别模型对每个所述航空文本执行以下处理：

对所述航空文本的每个字符进行标注，生成标注后的所述航空文本；

根据标注后的所述航空文本，确定所述航空文本中的航空实体；

根据所述航空文本中的航空实体和所述航空实体样本集，确定每个所述航空实体的实体类别；

利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系；

根据各个所述航空实体和各个所述航空实体之间的实体关系，构建航空知识图谱。

在第一方面的第一种可能的实现方式中，所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本，包括：

获取所述航空文本中每个字符的上文信息和下文信息；

根据每个字符的所述上文信息，生成每个字符的第一输出向量，其中，所述第一输出向量中包括：基于所述上文信息的情况下，该字符的标签分别为每个预设标签的概率；

根据每个字符的所述下文信息，生成每个字符的第二输出向量，其中，所述第二输出向量中包括：基于所述下文信息的情况下，该字符的标签分别为每个预设标签的概率；

将每个字符的所述第一输出向量和所述第二输出向量进行组合，生成每个字符第三输出向量；

将每个字符的所述上文信息和所述下文信息输入条件随机场，确定第四输出向量，其中，所述第四输出向量中包括在条件随机场的处理方式下，该字符的标签分别为每个预设标签的概率；

将每个字符的所述第三输出向量与所述第四输出向量之和，作为每个字符的第五输出向量；

根据每个字符的所述第五输出向量，确定每个字符的标签，获得标注后的所述航空文本。

在第一方面的第二种可能的实现方式中，所述航空实体样本集中包括预先定义的航空实体样本，以及每个所述航空实体样本的实体类别；

所述根据所述航空文本中的航空实体和所述航空实体样本集，确定每个所述航空实体的实体类别，包括：

针对每个所述航空实体均执行：

确定所述航空实体样本集中的每个所述航空实体样本的词向量；

确定当前的航空实体的词向量；

根据公式一、当前的航空实体的词向量和每个所述航空实体样本的词向量，确定当前的航空实体与每个所述航空实体样本的相似度，其中，所述公式一为：

其中，A为当前的航空实体的词向量，B为航空实体样本的词向量，A_i为当前的航空实体的词向量的第i维，B_i为航空实体样本的词向量的第i维，n为词向量的维度，S为当前的航空实体与每个所述航空实体样本的相似参数，S越小，当前的航空实体与每个所述航空实体样本的相似度越高；将与当前的航空实体相似度最高的航空实体样本的实体类别作为当前的航空实体的实体类别。

在第一方面的第三种可能的实现方式中，所述利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系，包括：

针对任一所述航空文本，均执行：

将当前的航空文本输入到训练好的所述实体关系抽取模型中；

利用训练好的所述实体关系抽取模型识别当前的航空文本中的各个所述航空实体之间的语义内容；

根据所述语义内容和当前的航空文本中的各个所述航空实体的实体类别，确定当前的航空文本中的各个所述航空实体之间的实体关系。

第二方面，本发明实施例提供了一种构建航空知识图谱的装置，包括：

保存模块，用于保存预先设置的航空实体样本集；

第一训练模块，用于对所述实体识别模型进行训练，生成训练好的实体识别模型；

第二训练模块，用于对所述实体关系抽取模型进行训练，生成训练好的实体关系抽取模型；

输入模块，用于将多个航空文本输入到训练好的所述实体识别模型中；

处理模块，用于利用训练好的所述实体识别模型对每个所述航空文本执行以下处理：

关系抽取模块，用于利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系；

构建模块，用于根据各个所述航空实体和各个所述航空实体之间的实体关系，构建航空知识图谱。

在第二方面的第一种可能的实现方式中，所述处理模块，在执行所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本时，具体用于：

获取所述航空文本中每个字符的上文信息和下文信息；

在第二方面的第二种可能的实现方式中，所述航空实体样本集中包括预先定义的航空实体样本，以及每个所述航空实体样本的实体类别；

所述处理模块，在执行所述根据所述航空文本中的航空实体和所述航空实体样本集，确定每个所述航空实体的实体类别时，具体用于：

针对每个所述航空实体均执行：

确定当前的航空实体的词向量；

在第二方面的第三种可能的实现方式中，所述关系抽取模块，具体用于：

针对任一所述航空文本，均执行：

根据所述语义内容和当前的航空文本中的各个所述航空实体的实体类别，确定当前的航空文本中的各个所述航空实体之间的实体关系。。

第三方面，本发明实施例提供了一种构建航空知识图谱的装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行第一方面中任一所述的方法。

第四方面，本发明实施例提供了计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面中任一所述的方法。

本发明实施例提供的构建航空知识图谱的方法及装置，至少具有如下有益效果：

1、在本发明实施例中，预先建立实体识别模型，并对实体识别模型进行训练，当实体识别模型的识别效果达到预期时，得到训练好的实体识别模型，收集航空领域的各种航空文本，将这些航空文本输入到训练好的实体识别模型中进行处理。实体识别模型对航空文本进行标注，并基于航空实体样本集从标注的航空文本中抽取出航空实体，并且确定出每个航空实体的实体类别。在得到航空实体后，利用训练好的实体关系抽取模型，抽取出各个航空实体之间的实体关系，然后，构建出航空知识图谱。因此，通过本发明实施例能够构建出准确的航空领域的知识图谱。

2、在本发明实施例中，预设标签可以包括实体开始字符、实体中间字符、实体结束字符、非实体字符。基于每个字符的上文信息、下文信息，分别生成每个字符的输出向量，然后，采用条件随机场的方式提取每个字符的输出向量，通过这些输出向量从多个角度全面地描述每个字符的特征信息，基于多角度的输出向量，使得确定出每个字符的标签更加准确，进而获得更加准确的标注后的航空文本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种构建航空知识图谱的方法的流程图；

图2是本发明一实施例提供的一种构建航空知识图谱的装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种构建航空知识图谱的方法，该方法包括：

步骤101：预先设置航空实体样本集、实体识别模型和实体关系抽取模型；

步骤102：预先对所述实体识别模型进行训练，生成训练好的实体识别模型，预先对所述实体关系抽取模型进行训练，生成训练好的实体关系抽取模型；

该方法还包括：

步骤103：将多个航空文本输入到训练好的所述实体识别模型中；

步骤104：利用训练好的所述实体识别模型对每个所述航空文本执行以下处理：

步骤105：利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系；

步骤106：根据各个所述航空实体和各个所述航空实体之间的实体关系，构建航空知识图谱。

在本发明实施例中，预先建立实体识别模型，并对实体识别模型进行训练，当实体识别模型的识别效果达到预期时，得到训练好的实体识别模型，收集航空领域的各种航空文本，将这些航空文本输入到训练好的实体识别模型中进行处理。实体识别模型对航空文本进行标注，并基于航空实体样本集从标注的航空文本中抽取出航空实体，并且确定出每个航空实体的实体类别。在得到航空实体后，利用训练好的实体关系抽取模型，抽取出各个航空实体之间的实体关系，然后，构建出航空知识图谱。因此，通过本发明实施例能够构建出准确的航空领域的知识图谱。

在本发明实施例中，航空实体样本集中定义了各种航空实体，例如：机身、起落架、机翼、扰流板、方向舵、升降舵等。针对航空领域的装配过程，还可以将装配零件、装配体、装配操作、装配要求、装配工艺、装配工具等作为航空实体。

在本发明实施例中，预先设置训练集和测试集，通过训练集对实体识别模型进行训练，通过测试集对训练后的实体识别模型进行测试。

在本发明实施例中，对输入到实体识别模型中的航空文本进行预处理，在预处理过程中，提取航空文本的特征信息，该特征信息包括词基级别的特征信息、句级别的特征信息和全句的语义信息。基于航空文本的特征信息，生成包含航空文本的特征信息的字向量，将字向量输入到实体识别模型中。通过该方式，能够提高实体识别模型的识别准确性，使得实体识别模型能够更加准确的识别出航空实体。

为了更加准确地对航空文本进行标注，在本发明一实施例中，所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本，包括：

获取所述航空文本中每个字符的上文信息和下文信息；

在本发明实施例中，预设标签可以包括实体开始字符、实体中间字符、实体结束字符、非实体字符。基于每个字符的上文信息、下文信息，分别生成每个字符的输出向量，然后，采用条件随机场的方式提取每个字符的输出向量，通过这些输出向量从多个角度全面地描述每个字符的特征信息，基于多角度的输出向量，使得确定出每个字符的标签更加准确，进而获得更加准确的标注后的航空文本。

在本发明实施例中，根据标注后的所述航空文本，确定所述航空文本中的航空实体，包括：

将标注后的航空文本中，

如果当前的实体开始字符之后不存在实体开始字符且不存在实体结束字符，则将当前的实体开始字符作为一个航空实体；

如果当前的实体开始字符之后不存在实体开始字符且存在实体结束字符，则将当前的实体开始字符与当前的实体开始字符之后的实体结束字符之间的词，作为一个航空实体，该航空实体中包含当前的实体开始字符和当前的实体开始字符之后的实体结束字符；

如果当前的实体开始字符与下一个实体开始字符之间没有实体结束字符，则将当前的实体开始字符作为一个航空实体；

如果当前的实体开始字符与下一个实体开始字符之间存在实体结束字符，则将当前的实体开始字符与当前的实体开始字符之后的第一个实体结束字符之间的词，作为一个航空实体，该航空实体中包含当前的实体开始字符和当前的实体开始字符之后的第一个实体结束字符。

在本发明一实施例中，所述航空实体样本集中包括预先定义的航空实体样本，以及每个所述航空实体样本的实体类别；

所述根据标注后的所述航空文本和所述航空实体样本集，确定所述航空文本中的航空实体和每个所述航空实体的实体类别，包括：

针对每个所述航空实体均执行：

确定当前的航空实体的词向量；

在本发明实施例中，为航空实体样本集中的每个航空实体定义实体类别。以航空装配方向举例，实体类别可以包括装配的步骤类别、装配的配件类别、装配的属性类别、装配的要求类别、装配的工具类别等。

在本发明实施例中，为了便于处理，将各个航空实体转换为词向量，具体地，可以通过word2vec将航空实体转换为词向量。通过公式一，计算出两个词向量的相似参数。该相似参数越小，说明两个航空实体的相似度越高，相似参数越大，说明两个航空实体的相似度越小。通过该方式找到与当前的航空实体相似度最高的航空实体样本，以相似度最高的航空实体样本的实体类别作为当前航空实体的实体类别。

在本发明一实施例中，所述利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系，包括：

针对任一所述航空文本，均执行：

在本发明实施例中，通过实体关系抽取模型对任一航空文本中相邻的两个航空实体之间的文本进行语义识别，识别出语义内容，结合该两个航空实体的实体类别，得到两个航空实体的实体关系。在确定出实体关系后即可将各个航空实体链接起来，得到航空领域的知识图谱。

在本发明实施例中，在构建航空知识图谱后，可以将航空知识图谱以图数据库的方式存储。

如图2所示，本发明实施例提供了一种构建航空知识图谱的装置，包括：

保存模块201，用于保存预先设置的航空实体样本集；

第一训练模块202，用于对所述实体识别模型进行训练，生成训练好的实体识别模型；

第二训练模块203，用于对所述实体关系抽取模型进行训练，生成训练好的实体关系抽取模型；

输入模块204，用于将多个航空文本输入到训练好的所述实体识别模型中；

处理模块205，用于利用训练好的所述实体识别模型对每个所述航空文本执行以下处理：

关系抽取模块206，用于利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系；

构建模块207，用于根据各个所述航空实体和各个所述航空实体之间的实体关系，构建航空知识图谱。

在本发明一实施例中，所述处理模块，在执行所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本时，具体用于：

获取所述航空文本中每个字符的上文信息和下文信息；

针对每个所述航空实体均执行：

确定当前的航空实体的词向量；

其中，A为当前的航空实体的词向量，B为航空实体样本的词向量，A_i为当前的航空实体的词向量的第i维，B_i为航空实体样本的词向量的第i维，n为词向量的维度，S为当前的航空实体与每个所述航空实体样本的相似参数，S越小，当前的航空实体与每个所述航空实体样本的相似度越高；

将与当前的航空实体相似度最高的航空实体样本的实体类别作为当前的航空实体的实体类别。

在本发明一实施例中，所述关系抽取模块，具体用于：

针对任一所述航空文本，均执行：

本发明实施例提供了一种构建航空知识图谱的装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明实施例中任一所述的构建航空知识图谱的方法。

本发明实施例提供了一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明实施例中任一所述的构建航空知识图谱的方法。

可以理解的是，本发明实施例示意的结构并不构成对构建航空知识图谱的装置的具体限定。在本发明的另一些实施例中，构建航空知识图谱的装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的构建航空知识图谱的方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.构建航空知识图谱的方法，其特征在于，包括：预先设置航空实体样本集、实体识别模型和实体关系抽取模型；

该方法还包括：

将多个航空文本输入到训练好的所述实体识别模型中；

2.根据权利要求1所述的方法，其特征在于，

所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本，包括：

获取所述航空文本中每个字符的上文信息和下文信息；

3.根据权利要求1所述的方法，其特征在于，

所述航空实体样本集中包括预先定义的航空实体样本，以及每个所述航空实体样本的实体类别；

针对每个所述航空实体均执行：

确定当前的航空实体的词向量；

4.根据权利要求1所述的方法，其特征在于，

所述利用训练好的所述实体关系抽取模型，根据各个所述航空实体的实体类别，从各个所述航空文本中抽取各个所述航空实体之间的实体关系，包括：

针对任一所述航空文本，均执行：

5.构建航空知识图谱的装置，其特征在于，包括：

保存模块，用于保存预先设置的航空实体样本集；

6.根据权利要求5所述的装置，其特征在于，

所述处理模块，在执行所述对所述航空文本的每个字符进行标注，生成标注后的所述航空文本时，具体用于：

获取所述航空文本中每个字符的上文信息和下文信息；

7.根据权利要求5所述的装置，其特征在于，

所述处理模块，在执行根据所述航空文本中的航空实体和所述航空实体样本集，确定每个所述航空实体的实体类别时，具体用于：

针对每个所述航空实体均执行：

确定当前的航空实体的词向量；

8.根据权利要求5所述的装置，其特征在于，

所述关系抽取模块，具体用于：

针对任一所述航空文本，均执行：

9.构建航空知识图谱的装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4中任一所述的方法。