CN111651447B

CN111651447B - 一种智能建造全寿期数据处理分析管控系统

Info

Publication number: CN111651447B
Application number: CN202010492997.2A
Authority: CN
Inventors: 万军; 何建
Original assignee: Nanjing Wisd Software Co ltd
Current assignee: Nanjing Wisd Software Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-09-15
Anticipated expiration: 2040-06-03
Also published as: CN111651447A

Abstract

本发明公开了一种智能建造全寿期数据处理分析管控系统，包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义相似度匹配模块和问句模糊检索模块，所述实体抽取模块将数据从原始库中清洗到信息库，所述知识图谱存储模块将信息库转化知识库，实现信息持久化保存，并利用知识图谱技术，从异构数据源抽取数据本体，通过本体集成和实例匹配进行知识融合，得到知识图谱，同时利用数据交换平台实现两个异构业务系统之间的数据处理与分析，实现知识图谱在大数据处理平台中快速进行分布式存储、查询、语义搜索和问答功能。

Description

一种智能建造全寿期数据处理分析管控系统

技术领域

本发明涉及集成开发技术领域，具体是一种智能建造全寿期数据处理分析管控系统。

背景技术

纵观国内外软件基础平台的发展，软件基础平台是在不断更迭、扩大的过程中形成的，从上世纪80年代兴起的第一代“CORBA”中间件，90年代兴起的第二代“J2EE中间件”发展到后来的第三代“SOA中间件”。软件基础平台的概念始终是不断演变的，不断吸收最新的用户需求、最新的产品、最新的技术。

近年来随着人工智能、大数据等技术和概念的流行，越来越多的技术被不断发掘出来，尤其是大数据时代的到来也给传统IT基础架构带来全新的挑战。大数据饱含具备空前规模和形式的非结构化信息，包括视频、图像，以及半结构化的数据，并且随着基于传感器的监视设备和输出数据越来越多，可用的数据量将继续呈指数级增长，因此，第四代基础架构平台也呼之欲出，但是，现有的大数据平台之间缺乏不同数据平台之间的数据交流，通常只能在独立的数据平台内进行简单功能的实现，比如查询、更改功能。

所以人们需要一种智能建造全寿期数据处理分析管控系统对数据进行全周期的处理与分析。

发明内容

本发明的目的在于提供一种智能建造全寿期数据处理分析管控系统，以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种智能建造全寿期数据处理分析管控系统，包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块；

实体抽取模块用于对原始库中分布式异构大数据元进行ETL信息抽取，包括NER命名实体抽取、清洗模块和关系抽取模块，实体抽取模块将所述原始库中的数据清洗到信息库；

本体抽取模块对所述实体抽取模块中清洗到信息库的数据进行本体抽取，将抽取出的实体、关系进行本体构建，形成本体图谱；

知识图谱存储和查询模块用于存储所述信息库中的多种连接数据，将信息库转化为知识库持久化保存；

语义搜索相似度匹配模块采用相似度计算方式，对用户输入的关键词进行语义准确搜索；

问句模糊检索模块根据用户输入的多关键词进行记忆补充和问句推荐。

进一步地，实体抽取模块包括NER模块、清洗模块和关系抽取模块；

NER模块包括实体匹配模块、属性匹配模块、地址人名识别模块和字典树模块，NER模块用于对命名实体进行识别；

所述清洗模块用于对原始库中的分布式异构大数据源进行清洗，并存储到所述信息库；

所述关系抽取模块用于抽取所述原始库中异构大数据源之间的关系。

进一步地，NER模块中，数据通过实体匹配模块实现基于字典树的实体匹配，将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配，匹配数据传输到所述地址人名识别模块，在所述地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别，将识别结果输入所述字典树模块，依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理，完成数据实体的信息抽取，将信息从原始库清洗到信息库。

优选地，本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块；

数据抽取模块用于抽取数据原始表中的所有本体数据；

数据转换模块用于将数据原始表映射为本体数据表，通过关联关系在数据原始表和本体数据表之间建立对应连接；

本体构建生成模块根据owl格式，将本体数据表中的信息值进行填充。

进一步地，数据原始表中包括概念、属性、关系、公理、函数五个元素；

本体数据表中包含类、属性、标签、范围和字段类型五个元素。

优选地，知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块；

输入模块将信息库中需要存储的数据输入到数据库中；

数据库用于存储各种数据和数据间的连接关系；

转化模块将存入数据库的数据进行知识存储，转化为知识库进行持久化保存；

实体查询模块根据查询条件，建立索引进行数据查询并返回查询数据。

优选地，语义搜索相似度匹配模块将用户输入关键词与知识库中存储数据进行相似度计算，得出与用户输入关键字相匹配的结果，包括集合模块、句子词向量模块和结果返回模块；

所述集合模块用于获取问句slot与模板slot，并计算问句slot与模板slot相似度A；所述句子词向量模块用于获取问句向量与模板向量，并计算问句向量与模板向量相似度B；

所述结果返回模块获取相似度A*B的值，按由高到低排序并且返回相似度大于0.5的有序结果集，其中所述相似度A*B为相似度A和相似度B相乘的结果。

进一步地，相似度A的计算过程包括，根据公式：

P＝{S_i,…,S_n}；

Q＝{T_i,…,T_n}；

其中P为知识库中数据的模板slot集合，Q为知识库中数据的问题slot集合，S_i,…,S_n分别表示数据库中每个数据的属性，T_i,…,T_n分别表示用户输入的每个关键词；

计算语义相似度B部分，通过BERT模型内部语义匹配机制，将句子转换为句向量，将得到的句向量与模板句向量的相似度进行计算，得到sim_B；

相似度A*B，根据公式：

sim_A*B＝sim_A*sim_B；

其中，sim_A是所述相似度A的计算结果，sim_B是所述相似度B的计算结果。

优选地，通过用户输入关键字与知识库中数据进行匹配，返回问句结果，问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板；

前缀匹配模块通过构建ACM实体字典树，将实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果；

规则匹配模块，对于多个关键词的多个前缀匹配结果，根据返回的槽的笛卡尔积组合结果去查询模板查找相关的查询模板；

替换查询模板，用于将匹配到的查询模板的槽通过递归的方式替换为前缀识别的实体结果，形成最后返回的问句结果。

进一步地，问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索；

一个关键词的模糊检索通过构建实体字典树进行前缀匹配，返回匹配结果；

多个关键词的模糊检索将前缀匹配的匹配结果，返回多个槽的笛卡尔积，根据所述笛卡尔积与所述查询模板查询结果进行规则匹配，查找相关的替换查询模板，将替换查询模板的槽通过递归方式进行替换，并返回问句结果。

与现有技术相比，本发明的有益效果是：本发明通过构建数据交换平台，实现两个异构业务系统之间的数据共享，比如原始库与信息库之间、信息库与知识库之间的数据共享，同时利用知识图谱形成业务知识谱系，结合大数据平台，实现分布式存储、查询、语义搜索、问答等智能应用。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明一种智能建造全寿期数据处理分析管控系统的结构示意图；

图2为本发明一种智能建造全寿期数据处理分析管控系统的实体抽取算法流程图；

图3为本发明一种智能建造全寿期数据处理分析管控系统的语义搜索相似度匹配算法流程图；

图4为本发明一种智能建造全寿期数据处理分析管控系统的问句模糊检索算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文使用的术语“ETL信息抽取”E作为构建数据仓库的一个环节，负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

本文使用的术语“NER”又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛，可以从非结构化的输入文本中抽取实体，并且可以按照业务需求识别出更多类别的实体。

本文使用的术语“BERT”是Google在2018年提出的完全基于Transformer编码器设计的自然语言预处理模型。

本文使用的术语“Bi-LSTM”是RNN(Recurrent Neural Network)的一种，由于其内部的结构特点，非常适用于对时序数据建模，可以更好的捕捉到句子中较长距离之间的词语的依赖关系。

本文使用的术语“CRF”是一种条件概率分布模型，在序列标注任务中引入CRF是为了判断模型对整个句子预测的序列标签是否是最靠谱的。

实施例

请参阅图1～图4，本发明实施例中，一种智能建造全寿期数据处理分析管控系统，包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块；

实体抽取模块包括NER模块、清洗模块和关系抽取模块；

清洗模块用于对原始库中的分布式异构大数据源进行清洗，并存储到所述信息库；

关系抽取模块用于抽取所述原始库中异构大数据源之间的关系。

NER模块中，数据通过实体匹配模块实现基于字典树的实体匹配，将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配，匹配数据传输到地址人名识别模块，在地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别，将识别结果输入所述字典树模块，依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理，完成数据实体的信息抽取，将信息从原始库清洗到信息库。

对于句子“Piece loves Pairs”这句话，bert+Bi-LSTM+CRF模型将其标记为(PER,0,LOC)比(PER,PER,LOC)所获得的分数高，该分数是通过CRF层计算得到的。

本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块；

数据抽取模块用于抽取数据原始表中的所有本体数据；

数据原始表中包括概念、属性、关系、公理、函数五个元素；

本体数据表中包含概念类、属性、标签、范围和字段类型五个元素。

通过访问数据原始表，读取数据原始表中所有元素的主键、外键、表名、表的字段名，表的备注、字段的备注，表之间的关联关系；

将数据原始表中的概念映射为本体的一个概念类，将表的备注信息映射为本体概念的标签信息，表的字段映射为本体数据类型属性，范围是数据原始表对应的类，范围是字段所对应的类型，将字段的备注信息映射为属性的标签信息；

通过主外键的关联关系将两张表构建一个对象类型的属性，范围是数据原始表对应的类型，范围是参照表对应的类。

知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块；

输入模块将信息库中需要存储的数据输入到数据库中；

数据库用于存储各种数据和数据间的连接关系；

原始数据库通过设计schema、讨论和实验测试决定数据库知识图谱中的三元组；

三元组决定方法为对sparql查询语句进行解析，找到需要查询的条件，若该项存在索引则根据已建立的索引查询到相应实体，若该项没有建立索引，则使用HBase的过滤器方式查询相应实体，根据返回条件，对相应实体进行返回，没有索引的情况为data属性或者值为Null。

Sparql查询语句样例如下：

问句：长江1000发动机研制项目的任务

match(proj:项目)-[rel_pp:组成]->(plan:计划定义)-[rel_pw:组成]->(wbs:WBS)-[rel_wt:组成]->(task:任务)where 1＝1and proj.entity_name＝～'.*长江1000发动机研制项目.*'return proj,rel_pp,plan,rel_pw,wbs,rel_wt,task；

问句：2018年～2019年的任务

with date('2018-01-01')as startDate,date('2019-12-31')as endDatematch(task:任务)where 1＝1and date(task.update_date)>＝startDate and date(task.update_date)<＝endDate return task；

问句：xieyongbo@engine参与的任务

match(user:用户)-[rel_ut:参与]->(task:任务)where 1＝1and user.entity_name＝～'.*xieyongbo@engine.*'return user,rel_ut,task。

集合模块用于获取问句slot与模板slot，并计算问句slot与模板slot相似度A；所述句子词向量模块用于获取问句向量与模板向量，并计算问句向量与模板向量相似度B；

结果返回模块获取相似度A*B的值，按由高到低排序并且返回相似度大于0.5的有序结果集，其中所述相似度A*B为相似度A和相似度B相乘的结果。

相似度A的计算过程包括，根据公式：

P＝{S_i,…,S_n}；

Q＝{T_i,…,T_n}；

其中P为知识库中数据的模板slot集合，Q为知识库中数据的问题slot集合，S_i,…,S_n分别表示数据库中每个数据的属性，T_i,…,T_n分别表示用户输入的每个关键词，输出浮点型数据，相似度sim_A∈[0,1]；

['宝华镇一期项目','PROJECT'],['存在','RELNAME'],['的','O'],['问题','O']

输出项：浮点型数据，相似度A∈[0,1]

本例中，“问题”问句中的概念，因此问句中的slot集合为：P＝'PROJECT','RELNAME','问题'

我们以模板句子“PROJECT的RELNAME的问题”为例，则模板的slot集合为Q＝'PROJECT','RELNAME','问题'因此，P∩Q＝'PROJECT','RELNAME','问题'；P∪Q＝'PROJECT','RELNAME','问题'；|P∩Q|＝3；|P∪Q|＝3；

根据公式，得到相似度sim_A＝1。

计算语义相似度B部分，通过bert模型内部语义匹配机制，将句子转换为句向量，将得到的句向量与模板句向量的相似度进行计算，得到sim_B，输出浮点型数据，相似度sim_B∈[0,1]；

句向量转换利用pooling(一种降维技术)来将BERT模型中神经网络的某一层，进行降维操作，句向量就是字向量通过pooling层后拼接起来的向量，每个句子会被转换为768维的句向量；

输出项：浮点型数据，相似度sim_B∈[0,1]

本例为:

相似度sim_B＝1。

相似度A*B，根据公式：

sim_A*B＝sim_A*sim_B；

其中，sim_A是所述相似度A的计算结果，sim_B是所述相似度B的计算结果，输出Json格式数据，内容是最终匹配到的模板。

问句模糊检索模块通过用户输入关键字与知识库中数据进行匹配，返回问句结果，问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板；

前缀匹配模块通过构建ACM实体字典树，将所述实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果，时间效率为O(1)；

问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索；

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种智能建造全寿期数据处理分析管控系统，其特征在于，包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块；

所述实体抽取模块用于对所述原始库中分布式异构大数据元进行ETL信息抽取，包括NER命名实体抽取、清洗模块和关系抽取模块，所述实体抽取模块将所述原始库中的数据清洗到信息库；

所述本体抽取模块对所述实体抽取模块中清洗到信息库的数据进行本体抽取，将抽取出的实体、关系进行本体构建，形成本体图谱；

所述知识图谱存储和查询模块用于存储所述信息库中的多种连接数据，将信息库转化为知识库持久化保存；

所述语义搜索相似度匹配模块采用相似度计算方式，对用户输入的关键词进行语义准确搜索；

所述问句模糊检索模块根据用户输入的关键词进行记忆补充和问句推荐；

所述语义搜索相似度匹配模块将用户输入关键词与知识库中存储数据进行相似度计算，得出与用户输入关键字相匹配的结果，包括集合模块、句子词向量模块和结果返回模块；

所述结果返回模块获取相似度A*B的值，按由高到低排序并且返回相似度大于0.5的有序结果集，其中所述相似度A*B为相似度A和相似度B相乘的结果；

所述相似度A的计算过程包括，根据公式：

P＝{S_i，…，S_n}；

Q＝{T_i，...，T_n}；

所述相似度A*B，根据公式：

sim_A*B＝sim_A*sim_B；

其中，sim_A是所述相似度A的计算结果，sim_B是所述相似度B的计算结果；

所述问句模糊检索模块通过用户输入关键字与知识库中数据进行匹配，返回问句结果，所述问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板；

所述前缀匹配模块通过构建ACM实体字典树，将所述实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果；

所述规则匹配模块，对于多个关键词的多个前缀匹配结果，根据返回的槽的笛卡尔积组合结果去查询模板查找相关的查询模板；

所述替换查询模板，用于将匹配到的查询模板的槽通过递归的方式替换为前缀识别的实体结果，形成最后返回的问句结果；

所述问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索；

所述一个关键词的模糊检索通过构建实体字典树进行前缀匹配，返回匹配结果；

所述多个关键词的模糊检索将前缀匹配模块的匹配结果，返回多个槽的笛卡尔积，根据所述笛卡尔积与所述查询模板查询结果进行规则匹配，查找相关的替换查询模板，将替换查询模板的槽通过递归方式进行替换，并返回问句结果。

2.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统，其特征在于，所述实体抽取模块包括NER模块、清洗模块和关系抽取模块；

所述NER模块包括实体匹配模块、属性匹配模块、地址人名识别模块和字典树模块，所述NER模块用于对命名实体进行识别；

3.根据权利要求2所述的一种智能建造全寿期数据处理分析管控系统，其特征在于，所述NER模块中，数据通过实体匹配模块实现基于字典树的实体匹配，将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配，匹配数据传输到所述地址人名识别模块，在所述地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别，将识别结果输入所述字典树模块，依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理，完成数据实体的信息抽取，将信息从原始库清洗到信息库。

4.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统，其特征在于，所述本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块；

所述数据抽取模块用于抽取数据原始表中的所有本体数据；

所述数据转换模块用于将数据原始表映射为本体数据表，通过关联关系在所述数据原始表和所述本体数据表之间建立对应连接；

所述本体构建生成模块根据owl格式，将所述本体数据表中的信息值进行填充。

5.根据权利要求4所述的一种智能建造全寿期数据处理分析管控系统，其特征在于，所述数据原始表中包括概念、属性、关系、公理、函数五个元素；

所述本体数据表中包含类、属性、标签、范围和字段类型五个元素。

6.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统，其特征在于，所述知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块；

所述输入模块将信息库中需要存储的数据输入到数据库中；

所述数据库用于存储各种数据和数据间的连接关系；

所述转化模块将存入数据库的数据进行知识存储，转化为知识库进行持久化保存；

所述实体查询模块根据查询条件，建立索引进行数据查询并返回查询数据。