CN114186690B

CN114186690B - 飞行器知识图谱构建方法、装置、设备及存储介质

Info

Publication number: CN114186690B
Application number: CN202210139865.0A
Authority: CN
Inventors: 董康生; 胡伟波; 沈雁鸣; 何磊; 徐明兴; 张若冰
Original assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Current assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-04-19
Anticipated expiration: 2042-02-16
Also published as: CN114186690A

Abstract

本发明公开了一种飞行器知识图谱构建方法、装置、设备及存储介质，该方法包括获取飞行器的结构化数据、半结构化数据和非结构化数据，在确定飞行器知识图谱的模式层后，利用字段抽取、规则模板抽取和反馈长短时记忆神经网络与条件随机场模型抽取的方式分别对飞行器的结构化数据、半结构化数据和非结构化数据进行抽取，以获得不同数据类型的知识三元组，进而构建飞行器知识图谱。本发明通过在对飞行器非结构化数据抽取过程中采用改进的反馈长短时记忆神经网络与条件随机场模型抽取的方式，解决了传统长短时记忆神经网络在上下文关联性低时识别效果不佳的问题，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

Description

飞行器知识图谱构建方法、装置、设备及存储介质

技术领域

本发明涉及知识图谱技术领域，尤其涉及到一种飞行器知识图谱构建方法、装置、设备及存储介质。

背景技术

在众多知识管理整合和表示的方式中，新兴的知识结构化表示方法——知识图谱，在分析处理大规模数据和信息挖掘方面正发挥越来越重要的作用。知识图谱是一种结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，是语义搜索、智能问答、个性化推荐等智能服务的基础技术，能够有效整合孤立信息、理解自然语义和挖掘新知识。

在飞行器知识图谱中，通常会涉及专业跨度差距大的不同领域，例如飞行器的航电系统和发动机。然而，现存的维基百科等通用知识图谱在处理专业跨度差距大的不同领域的数据信息时，会出现展示数据不全、精确度不高，缺乏对飞行器专业知识的优化设计，参数设计和展示逻辑不合理的问题。因此，如何解决飞行器知识图谱中专业跨度差距大导致的各实体之间联系不足，是一个亟需解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种飞行器知识图谱构建方法、装置、设备及存储介质，旨在解决目前飞行器知识图谱构建效率不高的技术问题。

为实现上述目的，本发明提供一种飞行器知识图谱构建方法，所述飞行器知识图谱构建方法包括以下步骤：

当接收到构建指令时，获取飞行器数据信息；其中，所述飞行器数据信息包括结构化数据、半结构化数据和非结构化数据；

基于所述构建指令对应的构建信息，确定飞行器知识图谱的模式层；

根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；其中，所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取；

利用所述知识三元组，填充所述飞行器知识图谱的数据层，获得飞行器知识图谱。

本发明中，通过在对飞行器数据信息中的结构化数据、非结构化数据和半结构化数据的抽取中，采用不同的抽取方式来构建飞行器知识图谱，提高了飞行器知识图谱的构建效率和结构合理性。

可选的，所述根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组步骤，具体包括：

若检测到所述飞行器数据信息为结构化数据，根据关键字段提取所述结构化数据的知识三元组；

若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组；

若检测到所述飞行器数据信息为非结构化数据，利用反馈长短时记忆神经网络与条件随机场模型提取所述非结构化数据的知识三元组。

本发明中，通过针对结构化数据采用关键字段提取，针对半结构化数据采用规则模板提取，针对非结构化数据采用反馈长短时记忆神经网络与条件随机场模型提取，提升了对不同类型数据抽取的适应性能力。

可选的，所述若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组步骤，具体包括：

若检测到所述飞行器数据信息为半结构化数据，提取规则模板所需的关键字段；

在所述半结构化数据中匹配所述关键字段对应的标志词，利用所述标志词与所述关键字段的关系信息，构建规则模板；

利用正则表达式提取所述半结构化数据中适配所述规则模板的数据，以生成半结构化数据的知识三元组。

本发明中，对半结构化数据采用规则模板提取的方式进行知识抽取，使得在抽取相同网站的半结构化数据时，采用同样的规则模板，能够提高知识图谱构建的效率。

可选的，所述若检测到所述飞行器数据信息为非结构化数据，利用反馈长短时记忆神经网络与条件随机场模型提取所述非结构化数据的知识三元组步骤，具体包括：

若检测到飞行器数据信息为非结构化数据，将所述非结构化数据送入反馈长短时记忆神经网络，对所述非结构化数据进行语义标注；

将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注；

基于所述语义标注和所述语句标注，确定所述非结构化数据的知识三元组。

本发明中，利用反馈长短时记忆神经网络与条件随机场模型对飞行器的非结构化数据进行处理，避免飞行器知识图谱中专业跨度差距大导致的各实体之间联系不足的问题。

可选的，所述若检测到飞行器数据信息为非结构化数据，将所述非结构化数据送入反馈长短时记忆神经网络，对所述非结构化数据进行语义标注步骤，具体包括：

若检测到飞行器数据信息为非结构化数据，对非结构化数据中的每个字进行字向量建模；

将各个字向量作为反馈长短时记忆网络的输入，得到对应的长短时记忆网络输出的隐藏状态，并将所述隐藏状态反馈给对应的字向量，以使每一字向量的输入将所述字向量对应的所述隐藏状态与前一字向量相结合；

基于所述反馈长短时记忆网络输出的隐藏状态，对所述非结构化数据进行语义标注，获得语义特征。

本发明中，对长短时记忆神经网络进行优化，通过建立反馈长短时记忆神经网络，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

可选的，所述将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注步骤，具体包括：

将反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，利用维特比算法获得分数最高的标签，以对所述非结构化数据进行语句标注。

本发明中，采用反馈长短时记忆神经网络与条件随机场模型结合的方式对非结构化数据进行处理，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

可选的，所述飞行器知识图谱的模式层包括飞行器研制国家、飞行器用途、飞行器适用范围和飞行器类型，所述知识三元组包括实体、关系和属性。

此外，为了实现上述目的，本发明还提供了一种飞行器知识图谱构建装置，所述飞行器知识图谱构建装置包括：

获取模块，用于当接收到构建指令时，获取飞行器数据信息；其中，所述飞行器数据信息包括结构化数据、半结构化数据和非结构化数据；

确定模块，用于基于所述构建指令对应的构建信息，确定飞行器知识图谱的模式层；

抽取模块，用于根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；其中，所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取；

填充模块，用于利用所述知识三元组，填充所述飞行器知识图谱的数据层，获得飞行器知识图谱。

此外，为了实现上述目的，本发明还提供了一种飞行器知识图谱构建设备，所述飞行器知识图谱构建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的飞行器知识图谱构建程序，所述飞行器知识图谱构建程序被所述处理器执行时实现如上所述的飞行器知识图谱构建方法的步骤。

此外，为了实现上述目的，本发明还提供了一种存储介质，所述存储介质上存储有飞行器知识图谱构建程序，所述飞行器知识图谱构建程序被处理器执行时实现如上所述的飞行器知识图谱构建方法的步骤。

本发明实施例提出的一种飞行器知识图谱构建方法、装置、设备及存储介质，该方法包括获取飞行器的结构化数据、半结构化数据和非结构化数据，在确定飞行器知识图谱的模式层后，利用字段抽取、规则模板抽取和反馈长短时记忆神经网络与条件随机场模型抽取的方式分别对飞行器的结构化数据、半结构化数据和非结构化数据进行抽取，以获得不同数据类型的知识三元组，进而构建飞行器知识图谱。本发明通过在对飞行器非结构化数据抽取过程中采用改进的反馈长短时记忆神经网络与条件随机场模型抽取的方式，解决了传统长短时记忆神经网络在上下文关联性低时识别效果不佳的问题，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

附图说明

图1为本发明实施例中飞行器知识图谱构建设备的结构示意图；

图2为本发明实施例中飞行器知识图谱构建方法的流程示意图；

图3为本发明实施例中飞行器知识图谱模式层的结构示意图；

图4为本发明实施例中BiLSTM-CRF模型的结构示意图；

图5为本发明实施例中fLSTM-CRF模型的结构示意图；

图6为本发明实施例中飞行器知识图谱的数据层实例与模式层的关系示意图示意图；

图7为本发明实施例中一种飞行器知识图谱构建装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的飞行器知识图谱构建设备的结构示意图。

设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。设备可能被称为用户终端、便携式终端、台式终端等。

通常，设备包括：至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的飞行器知识图谱构建程序，所述飞行器知识图谱构建程序配置为实现如前所述的飞行器知识图谱构建方法的步骤。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关飞行器知识图谱构建操作，使得飞行器知识图谱构建模型可以自主训练学习，提高效率和准确度。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的飞行器知识图谱构建方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信，从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near FieldCommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时，显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时，显示屏305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，电子设备的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在电子设备的不同表面或呈折叠设计；在一些实施例中，显示屏305可以是柔性显示屏，设置在电子设备的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对飞行器知识图谱构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例提供了一种飞行器知识图谱构建方法，参照图2，图2为本发明飞行器知识图谱构建方法的实施例的流程示意图。

本实施例中，所述飞行器知识图谱构建方法包括以下步骤：

步骤S100，当接收到构建指令时，获取飞行器数据信息；其中，所述飞行器数据信息包括结构化数据、半结构化数据和非结构化数据。

具体而言，获取飞行器数据信息步骤中，单一数据来源的飞行器数据信息完善度和可靠性不高，无法获得高质量的知识图谱，需要从多个途径进行数据源采集，因此，需要考虑不同位置、不同来源的不同类型数据。

在实际应用中，飞行器数据信息的来源可以包括互联网公开知识库Wikipedia、百度百科、Aircraft Wiki，主要飞行器制造商波音、空客、雷神、洛克希德·马丁、中航工业官网，飞行器知识手册等专业书籍，飞行器专业文献。

一方面，对于来源于网络上的半结构化和非结构化数据，可采用爬虫技术进行抓取，得到飞行器文档源文件，使用Python的第三方库Pandas和Numpy进行预处理，去除公式、图片等非文本内容，将文本内容转换为UTF8编码，并分别保存为DAT格式的半结构化和非结构化文本文件。具体的，在爬虫过程中，使用的工具为Python扩展包requests，lxml，beautifulsoup，其中requests包主要用于向http网站请求数据，lxml包负责解析网页结构，beautifulsoup包负责分析网页，并抓取内容。

另一方面，对于来源于《飞机手册》等飞行器专业书籍和文献的纸质数据，可通过对其进行数字化，并经数字化转换为结构化数据，并保存为UTF8编码的CSV格式的结构化数据文件，便于后续处理和提取。

步骤S200，基于所述构建指令对应的构建信息，确定飞行器知识图谱的模式层。

具体而言，在确定飞行器知识图谱的模式层步骤中，可根据接收的构建指令，匹配对应的构建信息，再基于构建信息确定飞行器知识图谱的模式层。

在实际应用中，可基于飞行器实体和关系词条确定飞行器知识词典，通过专家指导的方式，人工确定飞行器知识图谱的模式层。如图3所示，本实施例中，飞行器知识图谱的模式层可包括飞行器研制国家、飞行器用途、飞行器适用范围和飞行器类型。

步骤S300，根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；其中，所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取。

具体而言，根据所搭建的模式层，对收集到的数据按类型进行实体、关系和属性抽取，组成知识三元组。在对飞行器数据信息进行抽取步骤中，针对飞行器数据信息来源广、时间跨度大、精度差异大等特点，需要对不同类型的飞行器数据信息采用不同的方式进行知识抽取。

在实际应用中，若检测到所述飞行器数据信息为结构化数据，根据关键字段提取所述结构化数据的知识三元组；若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组；若检测到所述飞行器数据信息为非结构化数据，利用反馈长短时记忆神经网络与条件随机场模型提取所述非结构化数据的知识三元组。

对于结构化数据，例如CSV文件，可直接根据关键字段进行提取。

对于半结构化数据，可通过规则模板的方式，提取规则模板所需的关键字段；在所述半结构化数据中匹配所述关键字段对应的标志词，利用所述标志词与所述关键字段的关系信息，构建规则模板；利用正则表达式提取所述半结构化数据中适配所述规则模板的数据，以生成半结构化数据的知识三元组。

具体的，半结构化数据抽取可采用基于规则模板的结构化信息提取技术，本实施例提供一种抽取规则实现飞行器领域相关实体名、标签等信息的快速准确抽取。以维基百科的F-35“闪电”战斗机页面为例，介绍如何利用基于规则模板提取知识。首先对照网站原文和抓取到的文档，可以确定模板需要包含的关键字段包括飞行器名称、类型、制造商、首飞时间、速度、造价等，找到文档中对应的标志词，利用文档标志词和网页关键词之间的对应关系，建立基于规则的模板，通过判断是否符合正则表达式来适配关键词，抓取飞行器知识的实体信息。

在一些实施例中，所构建的规则模板可以按照网站名称进行保存，并快速扩展到该网站其他型号飞行器的实体信息抽取，不需要重复构建模板，同时也方便日后网站数据更新时对相应知识进行快速更新。对于其他网站获得的数据，构建模板和提取实体信息的方法类似。

对于非结构化数据，可通过将非结构化数据送入反馈长短时记忆神经网络，对所述非结构化数据进行语义标注；将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注；基于所述语义标注和所述语句标注，确定所述非结构化数据的知识三元组。

容易理解的，在自然语言命名实体识别中，传统的BiLSTM-CRF模型包含两个方面，BiLSTM和CRF方法。其中双向长短时记忆BiLSTM（Bidirectional Long-Short TermMemory）可借助模型的存储单元结构来保存较长的关联关系（该关联关系能够体现飞行器文本中的上下文信息）。但是BiLSTM主要从整体语义方面对文本进行分析，缺乏在语句层面上的特征分析。条件随机场CRF（Conditional Random Fields）可以将实体序列标注的重点放在语句级别。因此，将BiLSTM和CRF结合起来可以保证在提取足够上下文信息的同时，还能有效地进行实体序列标注，进而获得标注出的实体信息。

具体的，在反馈长短时记忆神经网络的处理过程中，可先对非结构化数据中的每个字进行字向量建模；将各个字向量作为反馈长短时记忆网络的输入，得到对应的长短时记忆网络输出的隐藏状态，并将该隐藏状态反馈给对应的字向量，同时该字向量也会接收到前一个字向量的输入，使每一字向量的输入都能将字向量对应的前一步隐藏状态与前一字节向量相结合；基于所述反馈长短时记忆网络输出的隐藏状态，对所述非结构化数据进行语义标注，获得语义特征。

容易理解的，以“F35是战斗机”这一获取到的飞行器数据信息进行抽取为例，如图4所示，在现有的长短时记忆网络的处理过程中，通常采用如下的实体识别过程：

预处理：将实体语句“F35是战斗机”中的每个字通过字符嵌入的方式（characterembedding）建模为字向量表达

，作为BiLSTM模型的输入。

LSTM训练模型：将语句的各个字嵌入后的字向量

作为双向LSTM各个时间步的输入（n代表句子共有n个字），再将前向LSTM输出的隐状态序列

与后向LSTM的隐状态序列

按位置进行拼接

，得到完整的隐状态序列

。

LSTM输出：将完整的隐状态向量从m维转换为k维，k是标注集的标签个数，从而得到抽取的句子特征，记作矩阵

。

因此，如果把

的每一维

都看作字

分类到第j个标签的打分值，则整个BiLSTM模型的处理过程可以表示为函数

。

然而，考虑到飞行器知识来源数据广，且句子上下文介绍的主题跨度较大，如飞行器航电系统和发动机两个属性专业差别较大，传统BiLSTM面对上下文不相关时实体信息识别较差且对计算内存要求高。本发明在传统方法中取消了后向LSTM过程，增加了一个反馈流程，形成了反馈长短时记忆网络fLSTM（feedback Long-Short Term Memory），如图5所示，使得输入序列和隐藏状态之间进行适当交互，通过将各个字向量作为反馈长短时记忆网络的输入，得到对应的长短时记忆网络输出的隐藏状态，并将该隐藏状态反馈给对应的字向量，同时该字向量也会接收到前一个字向量的输入，使每一字向量的输入都能将字向量对应的前一步隐藏状态与前一字节向量相结合，不仅增强了对上下文的建模能力，解决了BiLSTM对上下文关联性低时识别效果不佳的难题，而且对计算资源的要求显著降低。在计算中，通常执行2-3次的反馈过程，便可以实现良好的效果。

进一步的，在获得语义特征之后，需要将反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，利用维特比算法获得分数最高的标签，以对所述非结构化数据进行语句标注。

容易理解的，最后利用CRF模型进行语句级的序列标注，在本实施例中，在进行标注时，可用B代表实体关键字的开始，用I代表实体的非首字，用O代表非实体关键字，将“F35”标注为B，将“是”标注为O，将“站”标注为B，将“斗”标注为I，将“机”标注为I。在此之后，可利用标注后对应的标签序列来提取飞行器数据信息中的实体信息。

具体而言，将获得的

作为CRF模型的输入，利用动态规划的Viterbi算法求得使最终分数最高的标签序列。从基本原理上来讲，CRF模型是在LSTM模型基础上增加了转移矩阵，通过遍历排列组合的方式获取每种标注序列的得分，取最大标注序列得分为最终结果。例如，如果句子长度为n，共有k种标注类型，则需要计算

种标注序列得分。最终得分最高的标注序列即为CRF模型基于所述上下文信息得到的实体标注信息，进而根据标注出的实体关键字起始位置得到飞行器文本中的实体信息，例如具有对应关系的“F35”和“战斗机”。

在本实施例中，对于半结构化的数据，采用基于规则模板的结构化信息提取技术。针对不同的网站，借助语义词典构建特定的模板，利用正则表达式定义规则抽取实体及其属性值，并基于模式匹配的方法实现非分类关系的抽取。对于非结构化的数据，采用预先构建的深度学习抽取模型进行提取，该模型基于循环神经网络技术的双向长短时记忆网络BiLSTM和条件随机场CRF方法，并针对飞行器知识问题做了专门改进，增加了反馈层，获得了反馈长短时记忆网络fLSTM，使得输入序列和隐藏层之间实现适当的交互，提高了飞行器知识识别抽取的精度。

步骤S400，利用所述知识三元组，填充所述飞行器知识图谱的数据层，获得飞行器知识图谱。

具体而言，如图6所示，为本实施例飞行器知识图谱数据层实例与模式层的关系示意图，图中上半部分和下半部分分别为飞行器知识图谱的模式层和数据层。本实施例对抽取到的知识，进行共指消解，合并含义相同的实体，然后构建三元组列表，导入知识数据库中，利用数据库的知识填充图谱模式层，获得完整的基于资源描述框架（ResourceDescription Framework, RDF）的飞行器知识图谱。

进一步的，可通过将知识抽取获得的结构化数据，利用D2R工具转化为RDF模式，填充知识库数据层，并将整个知识图谱保存为RDFa格式，方便对知识进行存储和分享。

本实施例提供了一种飞行器知识图谱构建方法，通过在对飞行器非结构化数据抽取过程中采用改进的反馈长短时记忆神经网络与条件随机场模型抽取的方式，解决了传统长短时记忆神经网络在上下文关联性低时识别效果不佳的问题，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

参照图7，图7为本发明飞行器知识图谱构建装置实施例的结构框图。

如图7所示，本发明实施例提出的飞行器知识图谱构建装置包括：

获取模块10，用于当接收到构建指令时，获取飞行器数据信息；其中，所述飞行器数据信息包括结构化数据、半结构化数据和非结构化数据；

确定模块20，用于基于所述构建指令对应的构建信息，确定飞行器知识图谱的模式层；

抽取模块30，用于根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；其中，所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取；

填充模块40，用于利用所述知识三元组，填充所述飞行器知识图谱的数据层，获得飞行器知识图谱。

需要说明的是，飞行器知识图谱构建装置设有数据输入接口，所述数据输入接口与外部的构建指令发送设备进行通信连接，用于在接收到构建指令时，驱动飞行器知识图谱构建装置执行构建任务。

具体而言，飞行器知识图谱构建装置包括获取模块，所述获取模块接收数据输入接口接收的构建指令。其中，获取模块可采用爬虫程序，通过爬取网络上的半结构化和非结构化数据，以获得用于构建飞行器知识图谱的飞行器数据信息，所述获取模块还可采用调用程序，通过调用本地预先存储的飞行器关联的结构化数据，以获得用于构建飞行器知识图谱的飞行器数据信息。

在本实施例中，飞行器知识图谱构建装置包括确定模块，所述确定模块接收数据输入接口接收的构建指令，并利用构建指令中的构建信息，确定此次飞行器知识图谱构建的模式层需求。其中，确定模块可以是匹配程序，根据接收的构建指令中的构建信息，在本地或云端匹配构建信息对应的模式层内容，以使后续构建的飞行器知识图谱符合预先设定的模式层要求，该构建信息可以为根据专家指导生成的模式层内容。

在本实施例中，飞行器知识图谱构建装置包括抽取模块，所述抽取模块连接所述获取模块和所述确定模块，根据接收的确定模块的模式层内容，抽取获取模块中飞行器数据信息对应的知识三元组。其中，抽取模块包括字段抽取程序、规则模板抽取程序以及反馈长短时记忆神经网络与条件随机场模型抽取程序，用以分别对结构化数据、本结构化数据和非结构化数据进行知识三元组的抽取。

在本实施例中，飞行器知识图谱构建装置包括填充模块，所述填充模块连接所述抽取模块，用于根据接收的知识三元组，填充飞行器知识图谱的数据层，最终获得飞行器知识图谱。其中，填充模块可以为数据插入程序，用以将抽取模块在结构化数据、本结构化数据和非结构化数据中抽取的知识三元组对应的数据插入飞行器知识图谱对应的数据层，进而获得最终的飞行器知识图谱。

需要说明的是，飞行器知识图谱构建装置设有数据输出接口，所述数据输出接口与外部的知识图谱可视化模块进行通信连接，用于在填充模块获得飞行器知识图谱后，将所述飞行器知识图谱通过数据输出接口进行可视化展示。

作为一种实施方式，抽取模块30还用于若检测到所述飞行器数据信息为结构化数据，根据关键字段提取所述结构化数据的知识三元组；若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组；若检测到所述飞行器数据信息为非结构化数据，利用反馈长短时记忆神经网络与条件随机场模型提取所述非结构化数据的知识三元组。

作为一种实施方式，抽取模块30还用于若检测到所述飞行器数据信息为半结构化数据，提取规则模板所需的关键字段；在所述半结构化数据中匹配所述关键字段对应的标志词，利用所述标志词与所述关键字段的关系信息，构建规则模板；利用正则表达式提取所述半结构化数据中适配所述规则模板的数据，以生成半结构化数据的知识三元组。

作为一种实施方式，抽取模块30还用于若检测到飞行器数据信息为非结构化数据，将所述非结构化数据送入反馈长短时记忆神经网络，对所述非结构化数据进行语义标注；将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注；基于所述语义标注和所述语句标注，确定所述非结构化数据的知识三元组。

作为一种实施方式，抽取模块30还用于若检测到飞行器数据信息为非结构化数据，对非结构化数据中的每个字进行字向量建模；将当前字向量作为反馈长短时记忆网络的输入，并将所述反馈长短时记忆网络输出的隐藏状态反馈至下一字向量，以使每一字向量与前一字节向量的隐藏状态相结合；基于所述反馈长短时记忆网络输出的隐藏状态，对所述非结构化数据进行语义标注，获得语义特征。

作为一种实施方式，抽取模块30还用于将反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，利用维特比算法获得分数最高的标签，以对所述非结构化数据进行语句标注。

作为一种实施方式，所述飞行器知识图谱的模式层包括飞行器研制国家、飞行器用途、飞行器适用范围和飞行器类型，所述知识三元组包括实体、关系和属性。

本实施例提供了一种飞行器知识图谱构建装置，通过在对飞行器非结构化数据抽取过程中采用改进的反馈长短时记忆神经网络与条件随机场模型抽取的方式，解决了传统长短时记忆神经网络在上下文关联性低时识别效果不佳的问题，增强飞行器知识图谱不同实体之间的联系，提高飞行器知识图谱的构建效率和结构合理性。

本发明飞行器知识图谱构建装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有飞行器知识图谱构建程序，所述飞行器知识图谱构建程序被处理器执行时实现如上文所述的飞行器知识图谱构建方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种飞行器知识图谱构建方法，其特征在于，所述飞行器知识图谱构建方法包括以下步骤：

根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取，所述反馈长短时记忆神经网络取消了双向长短时记忆神经网络的后向LSTM过程，增加了一个反馈流程；其中：

在对所述飞行器数据信息执行抽取动作时，若检测到飞行器数据信息为非结构化数据，对非结构化数据中的每个字进行字向量建模；将各个字向量作为反馈长短时记忆神经网络的输入，得到对应的长短时记忆网络输出的隐藏状态，并将所述隐藏状态反馈给对应的字向量，以使每一字向量的输入将所述字向量对应的所述隐藏状态与前一字向量相结合；基于所述反馈长短时记忆神经网络输出的隐藏状态，对所述非结构化数据进行语义标注，获得语义特征；将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注；基于所述语义标注和所述语句标注，确定所述非结构化数据的知识三元组；

2.如权利要求1所述的飞行器知识图谱构建方法，其特征在于，所述根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组步骤，具体包括：

若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组。

3.如权利要求2所述的飞行器知识图谱构建方法，其特征在于，所述若检测到所述飞行器数据信息为半结构化数据，构建规则模板，并利用所述规则模板提取所述半结构化数据的知识三元组步骤，具体包括：

4.如权利要求1所述的飞行器知识图谱构建方法，其特征在于，所述将所述反馈长短时记忆神经网络输出的非结构化数据送入条件随机场模型，对所述非结构化数据进行语句标注步骤，具体包括：

5.如权利要求1-4任意一项所述的飞行器知识图谱构建方法，其特征在于，所述飞行器知识图谱的模式层包括飞行器研制国家、飞行器用途、飞行器适用范围和飞行器类型，所述知识三元组包括实体、关系和属性。

6.一种飞行器知识图谱构建装置，其特征在于，所述飞行器知识图谱构建装置包括：

抽取模块，用于根据所述模式层，对所述飞行器数据信息执行抽取动作，以获得所述飞行器数据信息的知识三元组；所述结构化数据的抽取动作为字段抽取，所述半结构化数据的抽取动作为规则模板抽取，所述非结构化数据的抽取动作为反馈长短时记忆神经网络与条件随机场模型的抽取，所述反馈长短时记忆神经网络取消了双向长短时记忆神经网络的后向LSTM过程，增加了一个反馈流程；其中：

7.一种飞行器知识图谱构建设备，其特征在于，所述飞行器知识图谱构建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的飞行器知识图谱构建程序，所述飞行器知识图谱构建程序被所述处理器执行时实现如权利要求1至5中任一项所述的飞行器知识图谱构建方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有飞行器知识图谱构建程序，所述飞行器知识图谱构建程序被处理器执行时实现如权利要求1至5中任一项所述的飞行器知识图谱构建方法的步骤。