CN111651447B - 一种智能建造全寿期数据处理分析管控系统 - Google Patents

一种智能建造全寿期数据处理分析管控系统 Download PDF

Info

Publication number
CN111651447B
CN111651447B CN202010492997.2A CN202010492997A CN111651447B CN 111651447 B CN111651447 B CN 111651447B CN 202010492997 A CN202010492997 A CN 202010492997A CN 111651447 B CN111651447 B CN 111651447B
Authority
CN
China
Prior art keywords
module
data
matching
similarity
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010492997.2A
Other languages
English (en)
Other versions
CN111651447A (zh
Inventor
万军
何建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wisd Software Co ltd
Original Assignee
Nanjing Wisd Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wisd Software Co ltd filed Critical Nanjing Wisd Software Co ltd
Priority to CN202010492997.2A priority Critical patent/CN111651447B/zh
Publication of CN111651447A publication Critical patent/CN111651447A/zh
Application granted granted Critical
Publication of CN111651447B publication Critical patent/CN111651447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能建造全寿期数据处理分析管控系统,包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义相似度匹配模块和问句模糊检索模块,所述实体抽取模块将数据从原始库中清洗到信息库,所述知识图谱存储模块将信息库转化知识库,实现信息持久化保存,并利用知识图谱技术,从异构数据源抽取数据本体,通过本体集成和实例匹配进行知识融合,得到知识图谱,同时利用数据交换平台实现两个异构业务系统之间的数据处理与分析,实现知识图谱在大数据处理平台中快速进行分布式存储、查询、语义搜索和问答功能。

Description

一种智能建造全寿期数据处理分析管控系统
技术领域
本发明涉及集成开发技术领域,具体是一种智能建造全寿期数据处理分析管控系统。
背景技术
纵观国内外软件基础平台的发展,软件基础平台是在不断更迭、扩大的过程中形成的,从上世纪80年代兴起的第一代“CORBA”中间件,90年代兴起的第二代“J2EE中间件”发展到后来的第三代“SOA中间件”。软件基础平台的概念始终是不断演变的,不断吸收最新的用户需求、最新的产品、最新的技术。
近年来随着人工智能、大数据等技术和概念的流行,越来越多的技术被不断发掘出来,尤其是大数据时代的到来也给传统IT基础架构带来全新的挑战。大数据饱含具备空前规模和形式的非结构化信息,包括视频、图像,以及半结构化的数据,并且随着基于传感器的监视设备和输出数据越来越多,可用的数据量将继续呈指数级增长,因此,第四代基础架构平台也呼之欲出,但是,现有的大数据平台之间缺乏不同数据平台之间的数据交流,通常只能在独立的数据平台内进行简单功能的实现,比如查询、更改功能。
所以人们需要一种智能建造全寿期数据处理分析管控系统对数据进行全周期的处理与分析。
发明内容
本发明的目的在于提供一种智能建造全寿期数据处理分析管控系统,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种智能建造全寿期数据处理分析管控系统,包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块;
实体抽取模块用于对原始库中分布式异构大数据元进行ETL信息抽取,包括NER命名实体抽取、清洗模块和关系抽取模块,实体抽取模块将所述原始库中的数据清洗到信息库;
本体抽取模块对所述实体抽取模块中清洗到信息库的数据进行本体抽取,将抽取出的实体、关系进行本体构建,形成本体图谱;
知识图谱存储和查询模块用于存储所述信息库中的多种连接数据,将信息库转化为知识库持久化保存;
语义搜索相似度匹配模块采用相似度计算方式,对用户输入的关键词进行语义准确搜索;
问句模糊检索模块根据用户输入的多关键词进行记忆补充和问句推荐。
进一步地,实体抽取模块包括NER模块、清洗模块和关系抽取模块;
NER模块包括实体匹配模块、属性匹配模块、地址人名识别模块和字典树模块,NER模块用于对命名实体进行识别;
所述清洗模块用于对原始库中的分布式异构大数据源进行清洗,并存储到所述信息库;
所述关系抽取模块用于抽取所述原始库中异构大数据源之间的关系。
进一步地,NER模块中,数据通过实体匹配模块实现基于字典树的实体匹配,将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配,匹配数据传输到所述地址人名识别模块,在所述地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别,将识别结果输入所述字典树模块,依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理,完成数据实体的信息抽取,将信息从原始库清洗到信息库。
优选地,本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块;
数据抽取模块用于抽取数据原始表中的所有本体数据;
数据转换模块用于将数据原始表映射为本体数据表,通过关联关系在数据原始表和本体数据表之间建立对应连接;
本体构建生成模块根据owl格式,将本体数据表中的信息值进行填充。
进一步地,数据原始表中包括概念、属性、关系、公理、函数五个元素;
本体数据表中包含类、属性、标签、范围和字段类型五个元素。
优选地,知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块;
输入模块将信息库中需要存储的数据输入到数据库中;
数据库用于存储各种数据和数据间的连接关系;
转化模块将存入数据库的数据进行知识存储,转化为知识库进行持久化保存;
实体查询模块根据查询条件,建立索引进行数据查询并返回查询数据。
优选地,语义搜索相似度匹配模块将用户输入关键词与知识库中存储数据进行相似度计算,得出与用户输入关键字相匹配的结果,包括集合模块、句子词向量模块和结果返回模块;
所述集合模块用于获取问句slot与模板slot,并计算问句slot与模板slot相似度A;所述句子词向量模块用于获取问句向量与模板向量,并计算问句向量与模板向量相似度B;
所述结果返回模块获取相似度A*B的值,按由高到低排序并且返回相似度大于0.5的有序结果集,其中所述相似度A*B为相似度A和相似度B相乘的结果。
进一步地,相似度A的计算过程包括,根据公式:
P={Si,…,Sn};
Q={Ti,…,Tn};
其中P为知识库中数据的模板slot集合,Q为知识库中数据的问题slot集合,Si,…,Sn分别表示数据库中每个数据的属性,Ti,…,Tn分别表示用户输入的每个关键词;
计算语义相似度B部分,通过BERT模型内部语义匹配机制,将句子转换为句向量,将得到的句向量与模板句向量的相似度进行计算,得到simB
相似度A*B,根据公式:
simA*B=simA*simB
其中,simA是所述相似度A的计算结果,simB是所述相似度B的计算结果。
优选地,通过用户输入关键字与知识库中数据进行匹配,返回问句结果,问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板;
前缀匹配模块通过构建ACM实体字典树,将实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果;
规则匹配模块,对于多个关键词的多个前缀匹配结果,根据返回的槽的笛卡尔积组合结果去查询模板查找相关的查询模板;
替换查询模板,用于将匹配到的查询模板的槽通过递归的方式替换为前缀识别的实体结果,形成最后返回的问句结果。
进一步地,问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索;
一个关键词的模糊检索通过构建实体字典树进行前缀匹配,返回匹配结果;
多个关键词的模糊检索将前缀匹配的匹配结果,返回多个槽的笛卡尔积,根据所述笛卡尔积与所述查询模板查询结果进行规则匹配,查找相关的替换查询模板,将替换查询模板的槽通过递归方式进行替换,并返回问句结果。
与现有技术相比,本发明的有益效果是:本发明通过构建数据交换平台,实现两个异构业务系统之间的数据共享,比如原始库与信息库之间、信息库与知识库之间的数据共享,同时利用知识图谱形成业务知识谱系,结合大数据平台,实现分布式存储、查询、语义搜索、问答等智能应用。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种智能建造全寿期数据处理分析管控系统的结构示意图;
图2为本发明一种智能建造全寿期数据处理分析管控系统的实体抽取算法流程图;
图3为本发明一种智能建造全寿期数据处理分析管控系统的语义搜索相似度匹配算法流程图;
图4为本发明一种智能建造全寿期数据处理分析管控系统的问句模糊检索算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文使用的术语“ETL信息抽取”E作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
本文使用的术语“NER”又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛,可以从非结构化的输入文本中抽取实体,并且可以按照业务需求识别出更多类别的实体。
本文使用的术语“BERT”是Google在2018年提出的完全基于Transformer编码器设计的自然语言预处理模型。
本文使用的术语“Bi-LSTM”是RNN(Recurrent Neural Network)的一种,由于其内部的结构特点,非常适用于对时序数据建模,可以更好的捕捉到句子中较长距离之间的词语的依赖关系。
本文使用的术语“CRF”是一种条件概率分布模型,在序列标注任务中引入CRF是为了判断模型对整个句子预测的序列标签是否是最靠谱的。
实施例
请参阅图1~图4,本发明实施例中,一种智能建造全寿期数据处理分析管控系统,包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块;
实体抽取模块用于对原始库中分布式异构大数据元进行ETL信息抽取,包括NER命名实体抽取、清洗模块和关系抽取模块,实体抽取模块将所述原始库中的数据清洗到信息库;
本体抽取模块对所述实体抽取模块中清洗到信息库的数据进行本体抽取,将抽取出的实体、关系进行本体构建,形成本体图谱;
知识图谱存储和查询模块用于存储所述信息库中的多种连接数据,将信息库转化为知识库持久化保存;
语义搜索相似度匹配模块采用相似度计算方式,对用户输入的关键词进行语义准确搜索;
问句模糊检索模块根据用户输入的多关键词进行记忆补充和问句推荐。
实体抽取模块包括NER模块、清洗模块和关系抽取模块;
NER模块包括实体匹配模块、属性匹配模块、地址人名识别模块和字典树模块,NER模块用于对命名实体进行识别;
清洗模块用于对原始库中的分布式异构大数据源进行清洗,并存储到所述信息库;
关系抽取模块用于抽取所述原始库中异构大数据源之间的关系。
NER模块中,数据通过实体匹配模块实现基于字典树的实体匹配,将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配,匹配数据传输到地址人名识别模块,在地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别,将识别结果输入所述字典树模块,依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理,完成数据实体的信息抽取,将信息从原始库清洗到信息库。
对于句子“Piece loves Pairs”这句话,bert+Bi-LSTM+CRF模型将其标记为(PER,0,LOC)比(PER,PER,LOC)所获得的分数高,该分数是通过CRF层计算得到的。
本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块;
数据抽取模块用于抽取数据原始表中的所有本体数据;
数据转换模块用于将数据原始表映射为本体数据表,通过关联关系在数据原始表和本体数据表之间建立对应连接;
本体构建生成模块根据owl格式,将本体数据表中的信息值进行填充。
数据原始表中包括概念、属性、关系、公理、函数五个元素;
本体数据表中包含概念类、属性、标签、范围和字段类型五个元素。
通过访问数据原始表,读取数据原始表中所有元素的主键、外键、表名、表的字段名,表的备注、字段的备注,表之间的关联关系;
将数据原始表中的概念映射为本体的一个概念类,将表的备注信息映射为本体概念的标签信息,表的字段映射为本体数据类型属性,范围是数据原始表对应的类,范围是字段所对应的类型,将字段的备注信息映射为属性的标签信息;
通过主外键的关联关系将两张表构建一个对象类型的属性,范围是数据原始表对应的类型,范围是参照表对应的类。
知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块;
输入模块将信息库中需要存储的数据输入到数据库中;
数据库用于存储各种数据和数据间的连接关系;
转化模块将存入数据库的数据进行知识存储,转化为知识库进行持久化保存;
实体查询模块根据查询条件,建立索引进行数据查询并返回查询数据。
原始数据库通过设计schema、讨论和实验测试决定数据库知识图谱中的三元组;
三元组决定方法为对sparql查询语句进行解析,找到需要查询的条件,若该项存在索引则根据已建立的索引查询到相应实体,若该项没有建立索引,则使用HBase的过滤器方式查询相应实体,根据返回条件,对相应实体进行返回,没有索引的情况为data属性或者值为Null。
Sparql查询语句样例如下:
问句:长江1000发动机研制项目的任务
match(proj:项目)-[rel_pp:组成]->(plan:计划定义)-[rel_pw:组成]->(wbs:WBS)-[rel_wt:组成]->(task:任务)where 1=1and proj.entity_name=~'.*长江1000发动机研制项目.*'return proj,rel_pp,plan,rel_pw,wbs,rel_wt,task;
问句:2018年~2019年的任务
with date('2018-01-01')as startDate,date('2019-12-31')as endDatematch(task:任务)where 1=1and date(task.update_date)>=startDate and date(task.update_date)<=endDate return task;
问句:xieyongbo@engine参与的任务
match(user:用户)-[rel_ut:参与]->(task:任务)where 1=1and user.entity_name=~'.*xieyongbo@engine.*'return user,rel_ut,task。
优选地,语义搜索相似度匹配模块将用户输入关键词与知识库中存储数据进行相似度计算,得出与用户输入关键字相匹配的结果,包括集合模块、句子词向量模块和结果返回模块;
集合模块用于获取问句slot与模板slot,并计算问句slot与模板slot相似度A;所述句子词向量模块用于获取问句向量与模板向量,并计算问句向量与模板向量相似度B;
结果返回模块获取相似度A*B的值,按由高到低排序并且返回相似度大于0.5的有序结果集,其中所述相似度A*B为相似度A和相似度B相乘的结果。
相似度A的计算过程包括,根据公式:
P={Si,…,Sn};
Q={Ti,…,Tn};
其中P为知识库中数据的模板slot集合,Q为知识库中数据的问题slot集合,Si,…,Sn分别表示数据库中每个数据的属性,Ti,…,Tn分别表示用户输入的每个关键词,输出浮点型数据,相似度simA∈[0,1];
['宝华镇一期项目','PROJECT'],['存在','RELNAME'],['的','O'],['问题','O']
输出项:浮点型数据,相似度A∈[0,1]
本例中,“问题”问句中的概念,因此问句中的slot集合为:P='PROJECT','RELNAME','问题'
我们以模板句子“PROJECT的RELNAME的问题”为例,则模板的slot集合为Q='PROJECT','RELNAME','问题'因此,P∩Q='PROJECT','RELNAME','问题';P∪Q='PROJECT','RELNAME','问题';|P∩Q|=3;|P∪Q|=3;
根据公式,得到相似度simA=1。
计算语义相似度B部分,通过bert模型内部语义匹配机制,将句子转换为句向量,将得到的句向量与模板句向量的相似度进行计算,得到simB,输出浮点型数据,相似度simB∈[0,1];
句向量转换利用pooling(一种降维技术)来将BERT模型中神经网络的某一层,进行降维操作,句向量就是字向量通过pooling层后拼接起来的向量,每个句子会被转换为768维的句向量;
['宝华镇一期项目','PROJECT'],['存在','RELNAME'],['的','O'],['问题','O']
输出项:浮点型数据,相似度simB∈[0,1]
本例为:
相似度simB=1。
相似度A*B,根据公式:
simA*B=simA*simB
其中,simA是所述相似度A的计算结果,simB是所述相似度B的计算结果,输出Json格式数据,内容是最终匹配到的模板。
问句模糊检索模块通过用户输入关键字与知识库中数据进行匹配,返回问句结果,问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板;
前缀匹配模块通过构建ACM实体字典树,将所述实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果,时间效率为O(1);
规则匹配模块,对于多个关键词的多个前缀匹配结果,根据返回的槽的笛卡尔积组合结果去查询模板查找相关的查询模板;
替换查询模板,用于将匹配到的查询模板的槽通过递归的方式替换为前缀识别的实体结果,形成最后返回的问句结果。
问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索;
一个关键词的模糊检索通过构建实体字典树进行前缀匹配,返回匹配结果;
多个关键词的模糊检索将前缀匹配的匹配结果,返回多个槽的笛卡尔积,根据所述笛卡尔积与所述查询模板查询结果进行规则匹配,查找相关的替换查询模板,将替换查询模板的槽通过递归方式进行替换,并返回问句结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种智能建造全寿期数据处理分析管控系统,其特征在于,包括原始库、信息库、知识库、实体抽取模块、本体抽取模块、知识图谱存储模块、语义搜索相似度匹配模块和问句模糊检索模块;
所述实体抽取模块用于对所述原始库中分布式异构大数据元进行ETL信息抽取,包括NER命名实体抽取、清洗模块和关系抽取模块,所述实体抽取模块将所述原始库中的数据清洗到信息库;
所述本体抽取模块对所述实体抽取模块中清洗到信息库的数据进行本体抽取,将抽取出的实体、关系进行本体构建,形成本体图谱;
所述知识图谱存储和查询模块用于存储所述信息库中的多种连接数据,将信息库转化为知识库持久化保存;
所述语义搜索相似度匹配模块采用相似度计算方式,对用户输入的关键词进行语义准确搜索;
所述问句模糊检索模块根据用户输入的关键词进行记忆补充和问句推荐;
所述语义搜索相似度匹配模块将用户输入关键词与知识库中存储数据进行相似度计算,得出与用户输入关键字相匹配的结果,包括集合模块、句子词向量模块和结果返回模块;
所述集合模块用于获取问句slot与模板slot,并计算问句slot与模板slot相似度A;所述句子词向量模块用于获取问句向量与模板向量,并计算问句向量与模板向量相似度B;
所述结果返回模块获取相似度A*B的值,按由高到低排序并且返回相似度大于0.5的有序结果集,其中所述相似度A*B为相似度A和相似度B相乘的结果;
所述相似度A的计算过程包括,根据公式:
P={Si,…,Sn};
Q={Ti,...,Tn};
其中P为知识库中数据的模板slot集合,Q为知识库中数据的问题slot集合,Si,…,Sn分别表示数据库中每个数据的属性,Ti,…,Tn分别表示用户输入的每个关键词;
计算语义相似度B部分,通过bert模型内部语义匹配机制,将句子转换为句向量,将得到的句向量与模板句向量的相似度进行计算,得到simB
所述相似度A*B,根据公式:
simA*B=simA*simB
其中,simA是所述相似度A的计算结果,simB是所述相似度B的计算结果;
所述问句模糊检索模块通过用户输入关键字与知识库中数据进行匹配,返回问句结果,所述问句模糊检索模块包括前缀匹配模块、规则匹配模块、查询模板和替换查询模板;
所述前缀匹配模块通过构建ACM实体字典树,将所述实体字典树中的父节点作为公共前缀补全输入关键词所有可能结果;
所述规则匹配模块,对于多个关键词的多个前缀匹配结果,根据返回的槽的笛卡尔积组合结果去查询模板查找相关的查询模板;
所述替换查询模板,用于将匹配到的查询模板的槽通过递归的方式替换为前缀识别的实体结果,形成最后返回的问句结果;
所述问句模糊检索模块分为一个关键词的模糊检索和多个关键词的模糊检索;
所述一个关键词的模糊检索通过构建实体字典树进行前缀匹配,返回匹配结果;
所述多个关键词的模糊检索将前缀匹配模块的匹配结果,返回多个槽的笛卡尔积,根据所述笛卡尔积与所述查询模板查询结果进行规则匹配,查找相关的替换查询模板,将替换查询模板的槽通过递归方式进行替换,并返回问句结果。
2.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统,其特征在于,所述实体抽取模块包括NER模块、清洗模块和关系抽取模块;
所述NER模块包括实体匹配模块、属性匹配模块、地址人名识别模块和字典树模块,所述NER模块用于对命名实体进行识别;
所述清洗模块用于对原始库中的分布式异构大数据源进行清洗,并存储到所述信息库;
所述关系抽取模块用于抽取所述原始库中异构大数据源之间的关系。
3.根据权利要求2所述的一种智能建造全寿期数据处理分析管控系统,其特征在于,所述NER模块中,数据通过实体匹配模块实现基于字典树的实体匹配,将数据输入到所述属性匹配模块进行基于规则的人名、邮箱、时间匹配,匹配数据传输到所述地址人名识别模块,在所述地址人名识别模块中分别通过bert、Bi-LSTM、CRF进行数据地址、人名识别,将识别结果输入所述字典树模块,依次对数据进行基于字典的关系匹配和基于字典树的属性匹配处理,完成数据实体的信息抽取,将信息从原始库清洗到信息库。
4.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统,其特征在于,所述本体抽取模块包括数据原始表、数据抽取模块、数据转换模块和本体构建生成模块;
所述数据抽取模块用于抽取数据原始表中的所有本体数据;
所述数据转换模块用于将数据原始表映射为本体数据表,通过关联关系在所述数据原始表和所述本体数据表之间建立对应连接;
所述本体构建生成模块根据owl格式,将所述本体数据表中的信息值进行填充。
5.根据权利要求4所述的一种智能建造全寿期数据处理分析管控系统,其特征在于,所述数据原始表中包括概念、属性、关系、公理、函数五个元素;
所述本体数据表中包含类、属性、标签、范围和字段类型五个元素。
6.根据权利要求1所述的一种智能建造全寿期数据处理分析管控系统,其特征在于,所述知识图谱存储模块包括输入模块、数据库、实体查询模块和转化模块;
所述输入模块将信息库中需要存储的数据输入到数据库中;
所述数据库用于存储各种数据和数据间的连接关系;
所述转化模块将存入数据库的数据进行知识存储,转化为知识库进行持久化保存;
所述实体查询模块根据查询条件,建立索引进行数据查询并返回查询数据。
CN202010492997.2A 2020-06-03 2020-06-03 一种智能建造全寿期数据处理分析管控系统 Active CN111651447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010492997.2A CN111651447B (zh) 2020-06-03 2020-06-03 一种智能建造全寿期数据处理分析管控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010492997.2A CN111651447B (zh) 2020-06-03 2020-06-03 一种智能建造全寿期数据处理分析管控系统

Publications (2)

Publication Number Publication Date
CN111651447A CN111651447A (zh) 2020-09-11
CN111651447B true CN111651447B (zh) 2023-09-15

Family

ID=72348432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010492997.2A Active CN111651447B (zh) 2020-06-03 2020-06-03 一种智能建造全寿期数据处理分析管控系统

Country Status (1)

Country Link
CN (1) CN111651447B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434096B (zh) * 2020-11-30 2023-05-23 上海天旦网络科技发展有限公司 基于智能标签的业务分析系统及方法
CN112597315B (zh) * 2020-12-28 2023-07-14 中国航天系统科学与工程研究院 一种基于SysML元模型本体的系统模型图谱构建方法
CN112765314B (zh) * 2020-12-31 2023-08-18 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN113627154B (zh) * 2021-08-05 2022-04-12 成都中世顺朗科技有限公司 用于文档自动识别入库的方法
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
CN116304115B (zh) * 2023-05-19 2023-08-11 中央军委后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李思珍.基于本体的行业知识图谱构建技术的研究与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,正文第8-15、17-35页. *

Also Published As

Publication number Publication date
CN111651447A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111651447B (zh) 一种智能建造全寿期数据处理分析管控系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN111339313A (zh) 一种基于多模态融合的知识库构建方法
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN112199961B (zh) 一种基于深度学习的知识图谱获取方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN113010663A (zh) 一种基于工业认知图谱的自适应推理问答方法和系统
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN113064999A (zh) 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN116108194A (zh) 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备
CN110196995B (zh) 一种基于带偏置随机游走的复杂网络特征提取方法
CN108959366B (zh) 一种开放性问答的方法
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
CN112035689A (zh) 一种基于视觉转语义网络的零样本图像哈希检索方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
CN114969279A (zh) 一种基于层次图神经网络的表格文本问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant