CN113297252A - 一种模式无感知的数据查询服务方法 - Google Patents

一种模式无感知的数据查询服务方法 Download PDF

Info

Publication number
CN113297252A
CN113297252A CN202110607154.7A CN202110607154A CN113297252A CN 113297252 A CN113297252 A CN 113297252A CN 202110607154 A CN202110607154 A CN 202110607154A CN 113297252 A CN113297252 A CN 113297252A
Authority
CN
China
Prior art keywords
data
data set
query
domain
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110607154.7A
Other languages
English (en)
Inventor
崔国玺
赵晓永
孙巍伟
李一鸣
黄民
邢继
徐钊
王儒博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110607154.7A priority Critical patent/CN113297252A/zh
Publication of CN113297252A publication Critical patent/CN113297252A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种模式无感知的数据查询服务方法,其包括数据采集:采集待共享的工业数据集;对采集到的待共享的工业数据集进行预处理;将预处理后的待共享的工业数据集进行数据集成;利用集成好的数据构建模式无感知的数据查询服务。本发明针对大型工业数据集的数据查询服务,能实现企业在模式无感知的状态下使用数据查询服务,提升企业基于数据驱动的智能决策能力。本发明可广泛在数据处理技术领域中应用。

Description

一种模式无感知的数据查询服务方法
技术领域
本发明涉及一种数据处理技术领域,特别是关于一种模式无感知的数据查询服务方法。
背景技术
近年来,数字化、智能化趋势下的新一代信息技术与实体经济深度融合,许多行业决策开始从业务驱动向数据驱动转变,数据将是信息产业持续高速增长的新引擎,围绕数据的开展利用将成为提高核心竞争力的关键因素。一方面,工业产业链条长,在工艺流程中沉淀着大量的复杂数据;另一方面,数据散落在各个独立系统之内,相互割裂、互不相通,数据孤岛现象普遍存在。大部分工业数据处于沉淀状态,无法发挥工业数据的价值。许多现有技术都想要解决这一难题,包括数据湖、Elasticsearch以及虚拟知识图谱等技术,效果均不理想。
数据湖技术是对企业中的所有数据进行统一存储的企业数据架构方法。现多用于数据量庞大且集中的企业当中,比如亚马逊云服务。但是其中以开源软件Hadoop为代表的数据湖技术等存在有一些不足,比如数据直接堆砌在数据湖中很容易形成“数据沼泽",只允许单向往数据湖中灌入数据,筛选难度大,应用场景少,没有输出或者极少输出,给数据的治理和利用带来了很大的困难。
Elasticsearch(简称ES)是一个支持分布式的搜索和分析引擎,也是目前较受欢迎的企业搜索引。但是,ES在处理请求和响应数据方面不支持多种数据格式,查询缺乏语义性和关联性。鉴于工业大数据具有强关联性等特点,该技术无法妥善处理工业大数据。
虚拟知识图谱技术是利用数据虚拟化的数据集成的范式。虚拟知识图谱技术能够较好地解决数据查询中缺乏语义性和关联性的问题,但是该技术依赖于图数据库,比如Neo4j、JanusGraph支持的存储量较小,无法支撑起PB级的工业大数据场景。
发明内容
针对上述问题,本发明的目的是提供一种模式无感知的数据查询服务方法,其针对大型工业数据集的数据查询服务,能实现企业在模式无感知的状态下使用数据查询服务,提升企业基于数据驱动的智能决策能力。
为实现上述目的,本发明采取以下技术方案:一种模式无感知的数据查询服务方法,其包括:步骤1、数据采集:采集待共享的工业数据集;步骤2、对采集到的待共享的工业数据集进行预处理;步骤3、将预处理后的待共享的工业数据集进行数据集成;步骤4、利用集成好的数据构建模式无感知的数据查询服务。
进一步,所述步骤1中,数据采集包括采集结构化数据、半结构化数据,并把这些数据从原生产系统转储至数据空间的数据库之中;对于用户无意导出数据集的情况,则允许数据空间远程访问由用户提供的数据源。
进一步,采集结构化数据包括以下步骤:
步骤1.1.1、构建数据空间内的自有存储平台,包括关系数据库、OLAP数据仓库以及HDFS,用于存储结构化数据;
步骤1.1.2、采集待共享的数据集,将采集到的数据以二维表格为单位,以CSV文件的格式导出;
步骤1.1.3、为采集到的数据集建立表结构;
按照采集到的结构化数据集的大小,选择数据库或者数据仓库,为该数据集建立存储空间,即建立一张新的数据表,该新的数据表的字段与数据集的字段名称相同,类型相同;如果数据集的体积超过1GB,选择数据仓库作为该数据集的存储组件;如果数据集的体积不足1GB,选择关系数据库作为该数据集的存储组件;
步骤1.1.4、将导出的CSV格式的数据集导入到新建的数据存储组件中。
进一步,采集半结构化数据包括以下步骤:
步骤1.2.1、采集非结构化的数据;
步骤1.2.2、将采集到的非结构化数据进行知识抽取,依次开展实体抽取、关系抽取和事件抽取;
步骤1.2.3、利用抽取好的知识进行知识图谱融合;利用protégé对所涉及到的领域本体进行建模,对于领域内的“概念类”进行建模;将抽取到的实体、关系、事件知识导入领域本体,进行领域知识的融合。
进一步,所述步骤2中,对采集得到的数据集和注册的数据源中的数据进行预处理,包括提取元数据和建立数据资产目录;所述元数据包括技术元数据、业务元数据和管理元数据;所述元数据提取方法包括以下步骤:
步骤2.1.1、提取业务元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,分别按照业务规则、业务描述、业务指标和业务术语维度提取业务元数据;分为两种方式:其一,由用户提供该数据集或数据源中各表的字段说明、数据集描述,从四个业务维度描述数据集和数据表;其二,在领域本体中定义业务规则,由业务规则定义/约束部分业务逻辑,用于对业务逻辑结构进行验证,以及控制或者影响业务逻辑的行为,利用业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述;
步骤2.1.2、提取技术元数据;
对于用户上传的数据集,从数据空间自有存储平台的INFORMATION_SCHEMA中读取技术元数据;对于注册的数据源,则从远程数据库的INFORMATION_SCHEMA表中读取元数据;读取的信息包括数据表及其数据字段、数据类型,注册为该数据集的技术元数据;
步骤2.1.3、提取管理元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,将涉及开发、运维管理方面的基本信息存储为管理元数据;
步骤2.1.4、将从远程数据源中读得的数据库和数据表的元数据导入数据空间的元数据库中,记录下各数据集、数据表和字段的描述性信息。
进一步,所述步骤3中,将预处理后的待共享的工业数据集在实例层次实现数据集成,具体为:采用本体技术,建立起表征领域概念以及它们之间关系的领域模型,利用本体的语义表达和关联能力,连接起相关领域概念和数据集,最终形成领域知识图谱;然后,以数据集中的每行数据记录为单位,将数据记录映射为知识图谱中的领域概念的实例,从而实现关系模型至RDF图模型的映射,即数据-业务映射,得到数据集图谱。
进一步,所述数据集图谱建立方法包括以下步骤:
步骤3.1.1、建立领域模型;
利用本体建模工具protégé对所涉及的领域概念、关系和领域事件进行建模,包括实体、类别、对象属性、数据属性,建立领域本体模型;领域本体采用RDF图模型来表达,即利用subject-predicate-object三元组来表达一条知识,进而形成知识图谱;
步骤3.1.2、在知识图谱基础上构建数据集图谱;
在知识图谱基础上,加入所采集的数据集,将数据集所代表的事物或者事件抽象为一个领域概念,即领域实体或者领域事件,而数据集的各个字段则顺理建模成为该领域概念的数据属性,则数据集作为一个节点跻身于前步形成的知识图谱中,形成数据集图谱。
进一步,建立数据-业务的映射的实质在于实现关系模型-RDF图模型的映射,具体方法包括以下步骤:
步骤3.2.1、将数据集中的一条数据记录映射为领域模型中的一个概念的实例;
步骤3.2.2、将数据记录中的字段映射为领域模型中概念的属性;
步骤3.2.3、保存映射关系;将上述步骤中的映射关系保存在相应的配置文件中;领域模型中概念之间的业务关联关系保存于本体文件当中,数据与概念之间的映射保存于映射文件当中;通过概念-实例的关系传导,将业务概念投射到数据记录层面,实现数据记录之间的关联。
进一步,所述步骤4中,构建一套数据访问服务,向用户提供数据查询接口,允许用户使用领域概念提出查询请求,并返回查询结果;
数据查询服务端点设置方法包括以下步骤:
步骤4.1.1、构建基于本体的数据访问引擎;
将用户的查询请求翻译转换为面向关系数据库的SQL查询请求,并交由所建立的关系数据库执行;在知识图谱基础上,构建基于本体的数据访问引擎,将来自于用户的SPARQL查询语句翻译转换为SQL查询语句,再将SQL语言发送给本地存储平台的数据库或者远程数据源,执行对数据库的查询,并返回查询结果;
步骤4.1.2、构建查询编辑器;
为用户编辑查询命令提供可视化界面,辅助用户方便地完成查询语句的构建;同时接收各数据库和数据源返回的查询结果,将查询结果呈现给用户。
进一步,所述步骤4中,还包括构建交互式数据分析增强服务的步骤;构建方法包括以下步骤:
步骤4.2.1、利用近似查询处理方法实现实时交互式分析服务;
步骤4.2.2、对近似查询到的数据可视化;
对于用户对数据集的探索性查询请求,采用可视化图表的方式展示查询结果;对于多维数据进行切片、块、旋转动作剖析数据,多角度多侧面观察数据;采用拖拽式的探索方式生成热图和树图、数据地图、散点图,帮助用户快速探索和了解数据集;
步骤4.2.3、查询服务结束后收集用户反馈;
对于每次用户查询后留下的查询日志进行收集,并且导入到系统中进行用户习惯调整和记忆,以便后续对探索式查询服务进行优化。
本发明由于采取以上技术方案,其具有以下优点:
本发明针对制造企业内外部数据多源、异构、多模态等复杂数据集合,利用虚拟知识图谱技术和OLAP技术相融合的方法构建工业数据空间,实现PB级的数据管理以及交互式数据分析,帮助用户在模式无感知的状态下使用数据查询服务,提升工业数据的利用能力。
附图说明
图1是本发明实施例中的数据查询服务方法的整体流程示意图;
图2是本发明实施例中的数据采集流程示意图;
图3是本发明实施例中的结构化数据采集流程示意图;
图4是本发明实施例中的采集半结构化数据流程示意图;
图5是本发明实施例中的元数据提取方法流程示意图;
图6是本发明实施例中的建立数据集图谱的关联与映射关系方法流程示意图;
图7是本发明实施例中的交互式数据分析增强服务的构建方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的模式无感知的数据查询服务系统是为具有一定合作关系和信任基础的上下游企业集群而搭建的数据共享平台,故在以下实施例中淡化了数据隐私的问题。数据主权单位提交数据或注册数据源→数据空间管理单位处理传入平台中的数据→数据使用单位对数据进行检索或者浏览。
本发明提供一种模式无感知的数据查询服务方法,如图1所示,包括以下步骤:
步骤1、数据采集:采集待共享的工业数据集;
步骤2、对采集到的待共享的工业数据集进行预处理;
步骤3、将预处理后的待共享的工业数据集进行数据集成;
步骤4、利用集成好的数据构建模式无感知的数据查询服务。
上述步骤1中,如图2所示,数据采集包括采集结构化数据、半结构化数据,并把这些数据从原生产系统转储至数据空间的数据库之中。对于用户无意导出数据集的情况,则允许数据空间远程访问由用户提供的数据源。
如图3所示,采集结构化数据步骤以下所示:
步骤1.1.1、构建数据空间内的自有存储平台;
设置多种已有常见数据库环境,包括关系数据库(MySQL、Postgres等)、OLAP数据仓库(Doris、Clickhouse等)以及HDFS等,作为数据空间的自有存储平台,用于存储结构化数据。
步骤1.1.2、采集待共享的数据集;
采集各单位、各部门分享的结构化数据,这些数据一般位于各业务系统的关系数据库中。将采集到的数据以二维表格为单位,以CSV文件的格式导出。
步骤1.1.3、为采集到的数据集建立表结构;
按照前一步骤采集到的结构化数据集的大小,选择数据库或者数据仓库,为该数据集建立相应的存储空间,即建立一张新的数据表,该新的数据表的字段与数据集的字段名称相同,类型相同。如果数据集的体积超过1GB,优先选择数据仓库作为该数据集的存储组件;如果数据集的体积不足1GB,优先选择关系数据库作为该数据集的存储组件。
步骤1.1.4、上传数据集;
将步骤1.1.2导出的CSV格式的数据集导入到步骤1.1.3中新建的数据存储组件中。针对一些大型数据集,采用OLAP组件压缩数据,并建立索引,以节省存储空间,提升检索速度。
如图4所示,采集半结构化数据包括以下步骤:
步骤1.2.1、采集非结构化的数据;
采集各单位、各部门分享的设计手册等文档数据,这些数据通常以半结构化或非结构化形式存在于文档之中。
步骤1.2.2、将采集到的非结构化数据进行知识抽取;
抽取这类数据时,依赖于实体关系发现框架LIMES进行知识抽取,依次开展实体抽取、关系抽取和事件抽取。
步骤1.2.3、利用抽取好的知识进行知识图谱融合;
利用protégé(本体编辑与建模软件)对所涉及到的领域本体进行建模,对于领域内的“概念类”进行建模;其中,概念类可是某一类个体的集合,个体则是概念类中的一个实例,将个体创建好之后可以添加个体的属性。将步骤1.2.2抽取到的实体、关系、事件等知识导入领域本体,进行领域知识的融合。
当用户无意导出数据集时,连接远程数据源包括以下步骤:
步骤1.3.1、部署前置机;
对于用户单位无意让渡数据控制权、不愿导出数据集的情况,由各单位、部门在各自所辖的服务器上自建数据库前置机,向数据空间开放数据访问服务,即由用户向数据空间管理员提交该数据库的驱动程序、访问地址、用户名、密码、端口号、数据库名称以及表名,以URL(统一资源定位符)地址串的形式表现为:driver://username:password@host:port/database。
步骤1.3.2、注册远程数据源;
在数据空间内测试前步由用户单位提供的远程数据源的访问连通性,并将测试有效的数据源地址URL保存数据空间元数据表中。数据音容将该远程数据源和数据集同等视为数据空间内的数据资源,将来共同为用户提供检索服务。
上述步骤2中,对采集得到的数据集和注册的数据源中的数据进行预处理,主要包括提取元数据和建立数据资产目录。其中:
如图5所示,元数据包括技术元数据、业务元数据和管理元数据;则元数据提取方法包括以下步骤:
步骤2.1.1、提取业务元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,分别按照业务规则、业务描述、业务指标和业务术语等维度提取业务元数据。具体分为两种方式:其一,由用户提供该数据集或数据源中各表的字段说明、数据集描述,从前述四个业务维度描述数据集和数据表;其二,在领域本体中定义业务规则,由业务规则定义/约束部分业务逻辑,用于对业务逻辑结构进行验证,以及控制或者影响业务逻辑的行为。利用业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述。
步骤2.1.2、提取技术元数据;
对于用户上传的数据集,从数据空间自有存储平台的INFORMATION_SCHEMA(信息模式)中读取技术元数据;对于注册的数据源,则从远程数据库的INFORMATION_SCHEMA(信息模式)表中读取元数据。读取的信息包括数据表及其数据字段、数据类型等,注册为该数据集的技术元数据。
步骤2.1.3、提取管理元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,将涉及开发、运维管理等方面的基本信息存储为管理元数据,这些信息由上传数据集或者注册数据源时由用户提供。该类信息将为系统需求开发和日常运维管理流程提供IT支持。
步骤2.1.4、导入元数据;
将从远程数据源中读得的数据库和数据表的元数据导入数据空间的元数据库中,记录下各数据集、数据表和字段的描述性信息。
数据资产目录建立方法包括以下步骤:
步骤2.2.1、检查及校验数据集和数据源的质量;
检查步骤1中上传数据集、注册数据源的质量,包括数据的主要字段中是否存在缺失值、重复值等情况。利用步骤2.1.1中在领域本体中定义的业务规则校验数据中是否存储异常值、非法值等情况。按照完整性、一致性、有效性及唯一性等维度生成数据质量报告。对于质量较差的情况,将该数据集通知数据上传单位做后续完善处理。
步骤2.2.2、建立数据资产目录;
完成前步的数据质量检查之后,按照主题域分组、主题域、业务对象、逻辑数据实体、属性和元数据等建立数据资产目录,形成数据分层结构。
上述步骤3中,将预处理后的待共享的工业数据集在实例层次实现数据集成,具体为:采用本体(ontology)技术,建立起表征领域概念以及它们之间关系的领域模型,进而利用本体的语义表达和关联能力,连接起相关领域概念和数据集(通常代表领域实体或者领域事件),最终形成领域知识图谱。然后,以数据集中的每行数据记录为单位,将数据记录映射为知识图谱中的领域概念的实例,从而可实现关系模型至RDF图模型的映射,也即数据-业务映射,得到数据集图谱。这种映射关系将保存在另一个配置文件中,称为数据-业务映射文件。
其中,建立数据集图谱是在概念层次实现数据记录的聚合,具体建立方法包括以下步骤:
步骤3.1.1、建立领域模型;
利用本体建模工具protégé对所涉及的领域概念、关系和领域事件进行建模,包括实体、类别、对象属性、数据属性等,建立领域本体模型。该模型涵盖了本领域中的重要概念、概念间的关系等领域知识。在技术规范上,领域本体采用RDF图模型来表达,即利用subject(主语)-predicate(谓词)-object(宾语)三元组来表达一条知识,进而形成知识图谱。
步骤3.1.2、在知识图谱基础上构建数据集图谱;
在知识图谱基础上,加入步骤1中所采集的数据集,将上述知识图谱进一步改造为“数据集图谱”。具体方式为,将数据集所代表的事物或者事件抽象为一个领域概念,即领域实体或者领域事件,而数据集的各个字段则顺理建模成为该领域概念的数据属性。则数据集即可作为一个节点跻身于前步形成的知识图谱中,形成数据集图谱。
如图6所示,建立数据集图谱的关联与映射关系方法为:在数据集图谱基础上,将数据集中的数据记录可视为对应该领域概念的实例,故在实例层次实现数据记录的聚合。将数据库中的数据以逻辑方式映射到构建的数据集图谱中,实现一种“虚拟”的知识图谱。建立数据-业务的映射的实质在于实现关系模型-RDF图模型的映射(D2R),具体方法包括以下步骤:
步骤3.2.1、将数据集中的一条数据记录映射为领域模型中的一个概念的实例;
针对步骤1中采集的数据集(已经存储在自有存储平台中的表或远程数据源中的表当中),面向步骤3.1.2中建立的数据集图谱,将数据集中的一条数据记录映射为领域模型中的一个概念的实例。
由于该数据集的抽象概念已在图谱中占据一个概念节点位置(暂称为概念A),故该数据集的每行记录实际为概念A的一个实例,故可使用谓词“rdf:type”来表达这种实例-概念之间的关系。可采用以下映射结构来表达这种关系:
(1)数据集图谱:标识为{id}的实例rdf:type概念A
(2)数据存储平台:SELECT`id`FROM概念A对应的数据表
其中,第(1)个映射结构为知识图谱中的一条“主语-谓词-宾语”表达式,其表示标识为id的所有实体都是概念A的实例;第(2)个映射结构为数据库中的一条查询结果集,其表示“概念A对应的数据集”的全部记录的id。将两个映射结构结合起来即为将数据表中的全部记录映射为概念A的实例。
步骤3.2.2、将数据记录中的字段映射为领域模型中概念的属性;
同样,由于某个数据集的抽象概念已在图谱中占据一个概念节点位置(仍称概念A),且该数据集的各字段与概念A各属性一一对应,且数据类型相同,故只需将相对应的字段与属性绑定即可。具体方式为,使用概念的“数据属性”来表征数据表的字段和领域概念的属性的映射关系。可采用以下映射结构来表达这种关系:
(3)数据集图谱:标识为{id}的实例数据属性a{字段a}^^xsd:string
(4)数据存储平台:SELECT`id`,`字段a`FROM一张数据表
其中,第(3)个映射结构为知识图谱中的一条“主语-谓词-宾语”表达式,其表示标识为id的实例“数据属性a”的取值为{字段a}的值,其数据类型为字符串类型(string);第(4)个映射结构为数据库中的一条查询结果集,其表示:一张数据表中的全部<记录id,字段a的取值>数值对。两个映射结构结合起来即为将数据表中标识为id的实例的“数据属性a”的取值赋为“字段a的取值”。
步骤3.2.3、保存映射关系;将上述步骤中的映射关系保存在相应的配置文件中。其中,领域模型中概念之间的业务关联关系保存于本体文件(.owl)当中,数据与概念之间的映射保存于映射文件(.mapping)当中。通过概念-实例的关系传导,可以将业务概念投射到数据记录层面,从而实现数据记录之间的关联。
上述步骤4中,针对步骤3中的虚拟知识图谱及业务-数据映射关系,构建一套数据访问服务,向用户提供数据查询接口。允许用户使用领域概念提出查询请求(该请求在本体层面,使用本体词汇来表达),并返回查询结果。
其中,在步骤3实现的知识图谱之上,设置一套模式无感知的数据查询服务,向用户提供一种面向领域概念的SPARQL查询接口,使得最终用户不需关心底层的数据存储和组织。数据查询服务端点设置方法包括以下步骤:
步骤4.1.1、构建基于本体的数据访问引擎;
将用户的查询请求翻译转换为面向关系数据库的SQL查询请求,并交由步骤1.1.1所建立的关系数据库执行。在步骤3实现的虚拟知识图谱基础上,构建基于本体的数据访问(ODBA)引擎,将来自于用户的SPARQL查询语句翻译转换为SQL查询语句,再将SQL语言发送给本地存储平台的数据库或者远程数据源,执行对数据库的查询,并返回查询结果。
步骤4.1.2、构建查询编辑器;
为用户编辑查询命令提供可视化界面,辅助用户方便地完成查询语句的构建。同时接收各数据库和数据源返回的查询结果,将查询结果呈现给用户。
上述步骤4中,还包括构建交互式数据分析增强服务的步骤,采用查询优化技术改善查询效率,提升用户的查询体验。如图7所示,交互式数据分析增强服务的构建方法包括以下步骤:
步骤4.2.1、利用近似查询处理方法实现实时交互式分析服务;
对于用户面向大型数据集的部分聚合函数计算,如求均值、中位数等函数计算,可采用部分采样等近似计算的方式,以损失一定的精度为代价,以求快速响应用户的查询请求。
步骤4.2.2、对近似查询到的数据可视化;
对于用户对数据集的探索性查询请求,采用可视化图表的方式展示查询结果。对于多维数据进行切片、块、旋转等动作剖析数据,多角度多侧面观察数据;采用拖拽式的探索方式生成热图和树图、数据地图、散点图等,帮助用户快速探索和了解数据集。
步骤4.2.3、查询服务结束后收集用户反馈;
对于每次用户查询后留下的查询日志进行收集,并且导入到系统中进行用户习惯调整和记忆,以便后续对探索式查询服务进行优化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种模式无感知的数据查询服务方法,其特征在于,包括:
步骤1、数据采集:采集待共享的工业数据集;
步骤2、对采集到的待共享的工业数据集进行预处理;
步骤3、将预处理后的待共享的工业数据集进行数据集成;
步骤4、利用集成好的数据构建模式无感知的数据查询服务。
2.如权利要求1所述数据查询服务方法,其特征在于,所述步骤1中,数据采集包括采集结构化数据、半结构化数据,并把这些数据从原生产系统转储至数据空间的数据库之中;对于用户无意导出数据集的情况,则允许数据空间远程访问由用户提供的数据源。
3.如权利要求2所述数据查询服务方法,其特征在于,采集结构化数据包括以下步骤:
步骤1.1.1、构建数据空间内的自有存储平台,包括关系数据库、OLAP数据仓库以及HDFS,用于存储结构化数据;
步骤1.1.2、采集待共享的数据集,将采集到的数据以二维表格为单位,以CSV文件的格式导出;
步骤1.1.3、为采集到的数据集建立表结构;
按照采集到的结构化数据集的大小,选择数据库或者数据仓库,为该数据集建立存储空间,即建立一张新的数据表,该新的数据表的字段与数据集的字段名称相同,类型相同;如果数据集的体积超过1GB,选择数据仓库作为该数据集的存储组件;如果数据集的体积不足1GB,选择关系数据库作为该数据集的存储组件;
步骤1.1.4、将导出的CSV格式的数据集导入到新建的数据存储组件中。
4.如权利要求2所述数据查询服务方法,其特征在于,采集半结构化数据包括以下步骤:
步骤1.2.1、采集非结构化的数据;
步骤1.2.2、将采集到的非结构化数据进行知识抽取,依次开展实体抽取、关系抽取和事件抽取;
步骤1.2.3、利用抽取好的知识进行知识图谱融合;利用protégé对所涉及到的领域本体进行建模,对于领域内的“概念类”进行建模;将抽取到的实体、关系、事件知识导入领域本体,进行领域知识的融合。
5.如权利要求1所述数据查询服务方法,其特征在于,所述步骤2中,对采集得到的数据集和注册的数据源中的数据进行预处理,包括提取元数据和建立数据资产目录;所述元数据包括技术元数据、业务元数据和管理元数据;所述元数据提取方法包括以下步骤:
步骤2.1.1、提取业务元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,分别按照业务规则、业务描述、业务指标和业务术语维度提取业务元数据;分为两种方式:其一,由用户提供该数据集或数据源中各表的字段说明、数据集描述,从四个业务维度描述数据集和数据表;其二,在领域本体中定义业务规则,由业务规则定义/约束部分业务逻辑,用于对业务逻辑结构进行验证,以及控制或者影响业务逻辑的行为,利用业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述;
步骤2.1.2、提取技术元数据;
对于用户上传的数据集,从数据空间自有存储平台的INFORMATION_SCHEMA中读取技术元数据;对于注册的数据源,则从远程数据库的INFORMATION_SCHEMA表中读取元数据;读取的信息包括数据表及其数据字段、数据类型,注册为该数据集的技术元数据;
步骤2.1.3、提取管理元数据;
对于用户上传的数据集或者注册数据源中的每个数据表,将涉及开发、运维管理方面的基本信息存储为管理元数据;
步骤2.1.4、将从远程数据源中读得的数据库和数据表的元数据导入数据空间的元数据库中,记录下各数据集、数据表和字段的描述性信息。
6.如权利要求1所述数据查询服务方法,其特征在于,所述步骤3中,将预处理后的待共享的工业数据集在实例层次实现数据集成,具体为:采用本体技术,建立起表征领域概念以及它们之间关系的领域模型,利用本体的语义表达和关联能力,连接起相关领域概念和数据集,最终形成领域知识图谱;然后,以数据集中的每行数据记录为单位,将数据记录映射为知识图谱中的领域概念的实例,从而实现关系模型至RDF图模型的映射,即数据-业务映射,得到数据集图谱。
7.如权利要求6所述数据查询服务方法,其特征在于,所述数据集图谱建立方法包括以下步骤:
步骤3.1.1、建立领域模型;
利用本体建模工具protégé对所涉及的领域概念、关系和领域事件进行建模,包括实体、类别、对象属性、数据属性,建立领域本体模型;领域本体采用RDF图模型来表达,即利用subject-predicate-object三元组来表达一条知识,进而形成知识图谱;
步骤3.1.2、在知识图谱基础上构建数据集图谱;
在知识图谱基础上,加入所采集的数据集,将数据集所代表的事物或者事件抽象为一个领域概念,即领域实体或者领域事件,而数据集的各个字段则顺理建模成为该领域概念的数据属性,则数据集作为一个节点跻身于前步形成的知识图谱中,形成数据集图谱。
8.如权利要求6所述数据查询服务方法,其特征在于,建立数据-业务的映射的实质在于实现关系模型-RDF图模型的映射,具体方法包括以下步骤:
步骤3.2.1、将数据集中的一条数据记录映射为领域模型中的一个概念的实例;
步骤3.2.2、将数据记录中的字段映射为领域模型中概念的属性;
步骤3.2.3、保存映射关系;将上述步骤中的映射关系保存在相应的配置文件中;领域模型中概念之间的业务关联关系保存于本体文件当中,数据与概念之间的映射保存于映射文件当中;通过概念-实例的关系传导,将业务概念投射到数据记录层面,实现数据记录之间的关联。
9.如权利要求1所述数据查询服务方法,其特征在于,所述步骤4中,构建一套数据访问服务,向用户提供数据查询接口,允许用户使用领域概念提出查询请求,并返回查询结果;
数据查询服务端点设置方法包括以下步骤:
步骤4.1.1、构建基于本体的数据访问引擎;
将用户的查询请求翻译转换为面向关系数据库的SQL查询请求,并交由所建立的关系数据库执行;在知识图谱基础上,构建基于本体的数据访问引擎,将来自于用户的SPARQL查询语句翻译转换为SQL查询语句,再将SQL语言发送给本地存储平台的数据库或者远程数据源,执行对数据库的查询,并返回查询结果;
步骤4.1.2、构建查询编辑器;
为用户编辑查询命令提供可视化界面,辅助用户方便地完成查询语句的构建;同时接收各数据库和数据源返回的查询结果,将查询结果呈现给用户。
10.如权利要求9所述数据查询服务方法,其特征在于,所述步骤4中,还包括构建交互式数据分析增强服务的步骤;构建方法包括以下步骤:
步骤4.2.1、利用近似查询处理方法实现实时交互式分析服务;
步骤4.2.2、对近似查询到的数据可视化;
对于用户对数据集的探索性查询请求,采用可视化图表的方式展示查询结果;对于多维数据进行切片、块、旋转动作剖析数据,多角度多侧面观察数据;采用拖拽式的探索方式生成热图和树图、数据地图、散点图,帮助用户快速探索和了解数据集;
步骤4.2.3、查询服务结束后收集用户反馈;
对于每次用户查询后留下的查询日志进行收集,并且导入到系统中进行用户习惯调整和记忆,以便后续对探索式查询服务进行优化。
CN202110607154.7A 2021-05-28 2021-05-28 一种模式无感知的数据查询服务方法 Pending CN113297252A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110607154.7A CN113297252A (zh) 2021-05-28 2021-05-28 一种模式无感知的数据查询服务方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110607154.7A CN113297252A (zh) 2021-05-28 2021-05-28 一种模式无感知的数据查询服务方法

Publications (1)

Publication Number Publication Date
CN113297252A true CN113297252A (zh) 2021-08-24

Family

ID=77326655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110607154.7A Pending CN113297252A (zh) 2021-05-28 2021-05-28 一种模式无感知的数据查询服务方法

Country Status (1)

Country Link
CN (1) CN113297252A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547168A (zh) * 2022-01-27 2022-05-27 大连理工大学 基于虚拟知识图谱的精细化工安全生产数据融合与重构方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN110866123A (zh) * 2019-11-06 2020-03-06 浪潮软件集团有限公司 基于数据模型构建数据图谱的方法及构建数据图谱的系统
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN111930965A (zh) * 2020-09-18 2020-11-13 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN110866123A (zh) * 2019-11-06 2020-03-06 浪潮软件集团有限公司 基于数据模型构建数据图谱的方法及构建数据图谱的系统
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN111930965A (zh) * 2020-09-18 2020-11-13 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋伟: "环境大数据异构信息融合方法研究" *
顾复 等: "科技资源描述模型和建立方法研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547168A (zh) * 2022-01-27 2022-05-27 大连理工大学 基于虚拟知识图谱的精细化工安全生产数据融合与重构方法
CN114547168B (zh) * 2022-01-27 2022-09-20 大连理工大学 基于虚拟知识图谱的精细化工安全生产数据融合与重构方法

Similar Documents

Publication Publication Date Title
US10936588B2 (en) Self-described query execution in a massively parallel SQL execution engine
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
US10521427B2 (en) Managing data queries
US11341263B2 (en) Efficient data query and utilization through a semantic storage model
Duggal et al. Big Data analysis: Challenges and solutions
CN111971666A (zh) 优化sql查询计划的维度上下文传播技术
US9507807B1 (en) Meta file system for big data
Ahmed et al. A literature review on NoSQL database for big data processing
US11106719B2 (en) Heuristic dimension reduction in metadata modeling
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN111611304A (zh) 知识驱动的联合大数据查询和分析平台
Khan et al. Predictive performance comparison analysis of relational & NoSQL graph databases
CN111611448A (zh) 知识驱动的联合大数据查询和分析平台
US11354313B2 (en) Transforming a user-defined table function to a derived table in a database management system
US10628421B2 (en) Managing a single database management system
CN115237937A (zh) 一种基于星际文件系统的分布式协同查询处理系统
CN113297252A (zh) 一种模式无感知的数据查询服务方法
US9275059B1 (en) Genome big data indexing
Ha et al. Translating a distributed relational database to a document database
WO2021057824A1 (zh) 查询数据的方法、装置、计算设备和存储介质
Tian et al. A framework for the data integration of earthquake events
Konagala Big Data Analytics Using Apache Hive to Analyze Health Data
Mezzoudj Towards large scale image retrieval system using parallel frameworks
Sethy et al. Performance comparison between apache hive and oracle SQL for big data analytics
Mao et al. MMDBench: A Benchmark for Hybrid Query in Multimodal Database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824