CN110618983A - 基于json文档结构的工业大数据多维分析与可视化方法 - Google Patents

基于json文档结构的工业大数据多维分析与可视化方法 Download PDF

Info

Publication number
CN110618983A
CN110618983A CN201910750749.0A CN201910750749A CN110618983A CN 110618983 A CN110618983 A CN 110618983A CN 201910750749 A CN201910750749 A CN 201910750749A CN 110618983 A CN110618983 A CN 110618983A
Authority
CN
China
Prior art keywords
data
analysis
json
mode
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910750749.0A
Other languages
English (en)
Other versions
CN110618983B (zh
Inventor
李敏波
许鑫星
董伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910750749.0A priority Critical patent/CN110618983B/zh
Publication of CN110618983A publication Critical patent/CN110618983A/zh
Application granted granted Critical
Publication of CN110618983B publication Critical patent/CN110618983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于工业大数据应用技术领域,具体为基于JSON文档结构的工业大数据多维分析与可视化方法。包括:以JSON为数据的基础载体,通过配置关系型数据库、文件系统数据源、定义数据转换与数据清洗操作,利用Spark和ElasticSearch并行化构建工业数据集市;通过图形化方式配置数据分析的整体流程构建多维结构的分析数据集,避免对海量数据进行重复关联操作;针对特定的数据分析场景,基于预先构建的多维分析数据集,通过可视化拖拽方式自定义数据分析报表的各个维度计算指标,生成交互式图形分析报表。本发明以JSON文档格式作为基础数据的载体,利用其存储解析上的优势,使得多维分析结构建模与自定义交互式分析更加便利和高效。

Description

基于JSON文档结构的工业大数据多维分析与可视化方法
技术领域
本发明属于工业大数据技术领域,具体涉及基于JSON文档结构的工业大数据多维分析与可视化方法。
背景技术
随着信息化与工业化的深度融合,信息化、智能化技术已经逐步深入到工业企业的方方面面。而相比于互联网行业,工业企业所积累的海量生产制造数据的价值密度更高,挖掘的价值更高,因此工业大数据是工业企业在未来全球化竞争中的核心优势与竞争力。
数据模型的建立通常依赖于其使用场景:用于单纯的存储数据或者用于数据分析。对于一般的业务数据库而言,数据模型是用来存储系统运行中产生的数据的,对接的是数据产生的源头,通过数据库范式、主外键约束等关系将业务操作逻辑保存进数据表,并通过分表等方式优化数据结构,使得数据冗余降低,从而提高存储效率。但是这样的模型设计在提升了存储效率的同时,使得数据的使用变得困难。对于数据分析而言,这种设计将导致数据统计分析变得非常复杂和困难。因此在数据分析的时候,我们需要将用于存储的数据模型转换为用于分析的数据模型。而对于OLAP(Online Analysis Processing)应用来说,数据模型的设计要求不再是去除冗余和高效存储了,而是高效查询聚合以及快速定位。
工业数据本身存在着复杂的关联关系,再加上工业数据的多源异构特性,若使用关系型数据库做数据仓库,无法通过一个完整的对象表示多源异构的工业大数据,当数据量非常巨大的时候,传统数据仓库的查询速度会显著降低,因而使得工业大数据的分析挖掘异常复杂。本发明通过基于JSON文档格式的数据源配置、数据转换与清洗动作的配置,利用Spark引擎以并行化的方式将分散在各个业务存储系统中的原始数据导入大数据综合存储平台中;通过图形化方式配置数据分析的整体流程来提前构建适用于多维分析的目标数据集,避免在具体分析时的重复关联操作。基于预构建的多维分析数据集,通过自定义配置检索条件以及用户查询语句的智能解析引擎,得到用户所查询的维度,并智能生成各类可视化图表。
发明内容
本发明的目的在于提供便利、高效的基于JSON文档结构的工业大数据多维分析与可视化方法。
本发明提供的工业大数据多维分析与可视化方法,包括:基于JSON文档格式的数据源配置、数据转换与数据清洗操作定义,通过Spark并行构建基于ElasticSearch的数据集市,实现多源异构工业数据的集中高效存储;通过图形化方式配置数据分析的整体流程来构建目标形式的分析数据集,实现多维分析数据建模;基于构建的多维分析数据集,通过自定义配置检索条件智能生成各类可视化图表。本发明以JSON文档格式作为基础数据的载体,利用其存储解析上的优势,使得多维分析结构建模与自定义交互式分析更加便利和高效。
本发明涉及的内容主要包括基于JSON文档的定制化数据导入与转换、多维分析数据建模、交互式智能数据分析、分析结果数据图表展示等。
本发明提出的基于JSON文档结构的工业大数据多维分析与可视化方法,具体步骤为:
(1)基于JSON配置文件的多源异构工业数据导入与转换。即以JSON为数据的基础载体,通过配置关系型数据库、文件系统等数据源、定义必要的数据转换与数据清洗操作,利用Spark和ElasticSearch并行化构建工业数据集市;
这里,数据集市(DataMart)是指大的数据集,包括多个数据集;而数据集(dataset):一组数据的集合;
(2)工业大数据多维分析结构建模。即基于上一阶段构建的数据集市,通过图形化方式配置数据分析的整体流程来构建多维结构的分析数据集,避免在实际分析时对海量数据进行重复关联操作;
(3)可视化分析与交互展示。即针对特定的数据分析场景,基于预先构建的多维分析数据集,通过可视化拖拽方式自定义数据分析报表的各个维度计算指标,生成交互式图形分析报表。
其中:
步骤(1)所述基于JSON配置文件的多源异构工业数据导入与转换的具体流程为:
利用JSON格式作为数据的基础载体,通过JSON格式定义对各类异构数据源中数据以及数据之间复杂关系的映射方式,并利用JSON文档配置自定义的数据转换以及数据清洗服务,利用Spark分布式并行计算平台,将分散在各个业务系统中的原始数据并行化导入到基于ElasticSearch的工业数据存储平台中。整个过程包括数据源配置、数据转换、数据清洗以及并行存储四个步骤。经过这个流程的处理,不仅构建了与业务系统物理分离的数据集市,而且还利用JSON文档保留了数据之间的复杂关系。
本流程中,JSON格式对各类异构数据源中数据与数据之间复杂关系的映射方式定义如下:
JSON文档存储关系型数据库类数据
关系型数据库表是基于表结构定义的,而JSON结构则是基于key-value对定义的。本发明基于关系型数据表的表结构定义,将数据库表的每一行数据映射为对应JSON的key-value对集合。
将一个表结构定义为:D(K,Vk),K表示所有键的集合,Vk为对应键值的集合。
例如对表1所示的结构化表数据,可以通过列名与值的关系映射为一组无序键值序列,其可以表示为一个JSON-Object(图1)。
表1关系型数据示例
Id Name Code Date Operator Result
1 工序1 1 2019-01-01 A good
JSON文件可以抽象为结构化文档形式,以该文档的逻辑含义为根节点,以属性节点作为叶子节点代表属性的具体取值(图2)。
JSON格式不仅能够抽象表示单维度数据库表,还能抽象表示多维度数据库表之间的复杂关联关系。关系型数据库表中的对应关系可细分为“一对一”、“一对多”和“多对多”。JSON对其描述方式如下:
(a)“一对一”数据表关联
关系型数据库表中的“一对一”关联表示待关联的两个数据库表中的记录是一对一的关系。以多工序产品生产数据为例,如果单个产品拥有工序一、工序二两个工序且每个工序最多只会产生一条记录时,产品与工序之间属于“一对一”的映射关系,此时两个数据库表中的数据可以在产品层级上合并,对应在文档结构的树状结构则是将两个维度数合为一颗生成树的过程,生成树的根节点变为含有这些维度的主体,原各维度的结构变为生成树根节点的左右子树。形成一条类似于图3所示的完整记录。
(b)“一对多”数据表关联
关系型数据库表中的“一对多”关联表示待关联的两个数据库表中的记录是一对多的关系。以多工序产品生产数据为例,如果图3中各工序的操作记录并非仅有一条,此时产品与各工序之间就存在“一对多”的映射关系。此时,利用类似“一对一”关联的处理方式,将原树结构的存储结构从对象类型变为对象数组即可完成“一对多关系”(图4)。
(c)多对多数据表关联
关系型数据库表中的“多对多”关联表示待关联的两个数据库表中的记录是多对多的关系。以多工序产品生产数据为例,假如上述工序数据中存在“错误”类型;并且“错误”类型的记录可能不止一条(有的产品工序失败了需要重试,直至成功),此时产品与“错误”类型之间属于“多对多”的映射关系;处理这种关系,我们通过分析实体将这种一对多关系通过唯一的分析实体变为多个“一对多”关系,利用“一对多”关系中关系为兄弟节点的维度节点结构来保存工序数据中可能存在的错误类型(图5)。
时序文件数据处理
时序文件往往具有数量多、信息冗余等特点,对于时间序列类文件与JSON格式的映射关系,本发明按时间划分的粒度将其分为“粗粒度”时间序列文件与“细粒度”时间序列文件两种情况:
(a)对于以小时或天为单位的粗粒度时间序列数据,可以直接通过嵌套对象数组的形式存入具体的逻辑实体中。以多工序产品生产数据为例,维度节点可以直接保存粗粒度的时间序列文件的地址(图6)。
(b)而对于以秒为单位的细粒度时间序列数据,如果继续以上述形式保存,则会使得叶子节点对应的对象数组过于庞大。时间序列数据可以作为独立的文档保存在独立的索引库中,通过id等唯一标识关联(图7),并按照特定的场景(比如不同的设备)对海量的细粒度时间序列文件数据进行逻辑分割。在以时间序列数据为主的存储节点中,时序数据主要通过以时间戳为索引的方式与生产数据相关联。
本流程中的数据源配置定义是为了将分散存储在工业企业数据库或文件系统中的各类异构数据统一采集到工业大数据存储平台中,而采用配置定义的方式对数据源进行统一描述,从而简化异构数据源的管理。本发明使用JSON文档格式作为数据源配置的载体,设计了数据源基础配置模板,能够涵盖多数类型的工业数据源。
其中,name表示该数据源的名称,source用来给定数据源的获取方式,type表示数据源的具体类型,通过配置不同的数据源类型,该模板不仅可以描述包括Mysql、Sqlserver在内的各关系型数据库,还可以描述包括Log、Json等在内的文件系统数据以及Mongodb,Elasticsearch等Nosql数据库;Datasource则表示数据源配置中的其他可拓展项。
本流程中的数据转换定义是指配置好数据源之后,还需要基于实际的业务分析场景对这些数据源进行各种转换操作,以得到符合业务分析逻辑的、目标形式的数据集。通过基于JSON配置文件的数据转换动作定义方式,来定义各数据集之间的转换动作,包括但不限于数据集合并,数据集拆分,数据类型转换,数据集内容填充,数据字段合并等。数据集合并操作的配置定义方式如下。
本流程中的数据清洗定义是为保证分析数据及的质量,而在数据接入阶段对源数据所做的预处理。本发明基于JSON文档实现了服务配置功能,可以定制化调用预定义在数据清洗模块中的数据清洗服务,包括字段的同义合并,非法字段过滤,异常数据清洗等功能。除此之外,基于配置文件的设计模式使得本发明还可以通过微服务的方式添加自定义的数据清洗功能。
数据清洗功能的定义模板中Name参数用于指定目标数据集的名称,type参数用于指定数据清洗服务类型。
本流程中的并行数据存储定义是指在定义好数据源、数据转换动作以及数据清洗逻辑之后,我们根据配置信息,定义数据源的接入配置,数据合并的规则,数据转换的规则,利用定义形成一条处理逻辑链条(图8),利用本发明实现的基于定制化配置文件的数据处理引擎,将定制的工业大数据导入与转换操作解析为Spark执行计划,利用Spark强大的并行处理能力将各类数据源中的数据转化为JSON文档数据,并通过预定义的数据转换操作和数据清洗服务对原始数据进行必要的预处理,最终使用Elasticsearch分布式文件存储引擎构建数据集市以替代传统的数据仓库。Elasticsearch面向文档存储,可以为每个文档的内容建立索引,因此能执行复杂的全文搜索。通过对多源异构的数据进行整合,不仅可以将完整的流程对象保存下来,其中数据表之间复杂的关联关系也可以得到完整的保存。最终的工业数据多维分析模型为一个文档集合,集合中每一个文档涵盖了分析数据的全维度信息,集合上可以表现为:
并在存储时利用倒排索引构建为以维度关键字为索引的形式(图9),为TB级数据提供秒级的数据查询和基本统计计算。
步骤(2)所述工业大数据多维分析结构建模的具体流程为:
针对不同的数据分析场景,基于上一阶段形成的多个独立数据集,通过图形化方式配置数据分析的整体流程来构建目标形式的分析数据集,避免在具体分析时的重复关联操作。主要步骤包括以下几个方面:(1)可视化配置数据分析流程;(2)解析数据分析流程,并生成执行计划;(3)基于Spark并行化生成多维分析数据模型。多维分析结构建模支持配置的数据分析流程包括数据转换、数据合并以及其他定制化操作等。
其中,数据转换功能是对待合并数据集的再次预处理,区别于数据清洗功能,数据转换功能是利用多维数据集中的整合数据,在原始数据集上完成的逻辑操作。
此处支持的数据转换操作包括添加新的逻辑字段,添加新的常量字段,字段的多维度映射等。添加逻辑字段是指利用多维数据集中的数据创造逻辑字段,通常应用与统计分析时可能遇到的一次通过率等情形,在原始数据集上加入这些需要迭代数据集内部数据才能获得的指标能加快多维分析的速度。添加常量字段则是指在数据集中加入在合并时可能丢弃的部分常量字段,例如扫描的文件名,数据库名等可能有用的信息。添加拼接字段常用于将多个字段拼接起来形成新的字段,例如常见的将日期和时间拼接成完成的时间格式,用来在时间分析时得到完整的分析结果。
数据集合并则是将多个数据集按条件合并,包括但不限于按字段合并,按流程合并,按机理合并。合并方式通过预定义的合并动作实现,包括对源数据集的一对一,一对多,多对多,笛卡尔积等数据集操作。文档结构上表现为以维度信息为键,值为该维度的属性集合或者下属维度的集合,解释为树状结构的文档结构。
步骤(3)所述可视化分析与交互展示的具体流程为:
主要包括自定义图表配置与多维度图表交互展示两个部分,提供多维分析报表的自主定义、分析报表的图形化展示与交互功能。在自定义图表配置部分,用户可以通过基于Web界面的可视化拖拽方式自定义数据分析报表的各个维度计算指标,系统通过将自定义报表的计算指标转化为对用户查询语句的智能解析,从而得到用户所需要查询的维度。
数据检索与数据聚合是两类常见的多维可视化分析操作,下面以此为例说明自定义图表设置的细节。
(1)数据检索
对于待分析的数据集,数据检索功能能快速定位到特征数据,通过倒排索引结构快速将关键词定位到原始数据上。对于关键词的查询,支持“与”、“或”、“非”的逻辑操作,查询条件可以包含等于、不等于、大于、小于、包含、不包含等关系,并提供统一的类SQL查询语句定义和简易的类四则运算条件查询定义。例如要检索的数据为product:a+b-c,系统会解析生成对应的SQL:where product=a and product=b and product<>c,而在系统内部会生成数据检索配置文件。
其中,dataset参数指定检索出来的目标数据集的名称,query_string则指定自定义数据检索条件。
(2)数据集聚合
聚合操作是可视化分析的基础,是通过对数据集分组计算统计指标的功能。分组功能支持嵌套与回溯,计算指标包括但不限于计数,累加,平均值,标准差等常用统计指标。通过嵌套分组与指标计算能完成大部分的定制化报表生成接口。
聚合查询的定义方式与检索类似,包括维度设置,指标设置,条件设置等,通过JSON定义调用远程接口。数据聚合的定义包括查询条件,聚合维度,指标计算公式以及过滤条件等信息:
其中query的定义即是数据检索的定义。dimension指的是数据的不变维度,例如直角坐标系的x轴数据、时间等。metric为计算指标,可以有多个并支持嵌套。维度和指标使用相同的定义结构,从而通过嵌套聚合完成大部分统计分析的绘图数据需求。
在图表交互展示部分,系统根据用户设置的数据检索条件,通过内置的分布式检索引擎智能化计算并提供用户所需的各维度数据,同时通过用户自主选定的图表样式生成用户所需的分组展示的个性化可视化图形,包括常规的柱状图,饼图,线图,以及他们的变形体,并在此基础上提供智能交互式体验。
附图说明
图1为关系型数据对应的JSON格式图。
图2为JSON文件对应的文档结构图。
图3为JSON格式文件描述“一对一”关联关系的文档结构图。
图4为JSON格式文件描述“一对多”关联关系的文档结构图。
图5为JSON格式文件描述“多对多”关联关系的文档结构图。
图6为粗粒度时间序列文件的JSON存储结构图。
图7为细粒度时间序列文件的JSON存储结构图。
图8为工业数据导入与转换的JSON配置文档示例。
图9为JSON文档数据的倒排索引以及聚合方式数据建模图。
图10为电子行业工业数据源配置与合并操作配置图。
图11为系统支持构建的图表类型选择界面图。
图12为柱状图图表设置界面图。
图13为多维分析平台操作流程图。
图14为统计分析查询示例。
图15为统计分析查询结果示例。
具体实施方式
下面结合实施实例对本发明的发明内容作进一步详细阐述。
(1)工业数据源配置:工业大数据包括各类多源异构数据类型,比如传统关系型数据库表数据、日志文件数据、时序文件数据等。首先通过JSON配置文件配置各类数据源的信息,以便对其进行集中管理。例如电子行业的数据包括测试流程为SPI,AOI,FT,FIX等操作,包括workorder与process_rec等详细数据。首先我们根据数据库信息配置数据源与数据位置,合并数据集的定义如图10所示。
(2)数据转换操作定义:对于同一数据,业务系统和分析系统对其定义方式可能存在较大差异,通过类似JSON文档定制化配置一些数据转换操作,我们可以得到符合业务分析逻辑的数据集。
(3)数据清洗操作定义:任何的原始的数据都必须经过必要的清洗操作才能更好地满足实际的分析需求,比如去除重复值、无效数据的过滤操作等。通过类似JSON模板定制化数据清洗操作,以保证分析数据集的质量。
(4)并行化数据存储:电子行业的数据也是多源头、多种结构的,在按照(1)、(2)以及(3)中所描述的方式配置好数据源、定义好必要的数据转换和清洗操作之后,系统会根据配置文件解析并生成并行化的数据导入与存储计划,利用Spark强大的基于内存的分布式并行化机制将分布在各个业务侧系统的分散数据源导入存储到基于ElasticSearch的分布式索引存储平台中,并且在并行化导入的过程中对原始数据进行必要的转换和清洗操作。
(5)多维分析结构建模:电子行业有很多复杂的分析场景,每一种场景所需要的分析数据集是存在差异的,而分析效率对于企业而言格外重要。针对不同的数据分析场景,通过图形化的方式配置数据分析的整体流程,系统根据配置文件解析并生成各种数据分析任务及执行计划,预先生成适应分析的多维数据集,避免在具体分析时的重复关联操作。
(6)多维可视化分析图表设置:图表是最直观的结果展示方式,针对电子行业不同的分析场景,我们可以通过基于Web界面的可视化配置方式来设置数据查询计划、选择图表类型并进行对应的图表配置。系统可供选择的图标类型有柱状图、双向柱状图、气泡图等,比如我们选择建立“柱状图”(图11),然后对数据源、分析指标以及拆分维度等进行自主设置,设置数据源为之前建立的多维数据源,分析指标为按产品分类计数,希望得到不同产品的数量(图12),系统会自动解析并生成如下对应的数据查询条件,在后台自动以分布式并行化的方式执行查询语句,返回查询结果,结果包括按产品分组之后不同产品的名称以及其数量(图14)。
(7)交互式图表展示
数据查询的返回结果是以JSON格式呈现的,例如按照产品分组查询,不设置条件时,返回结果为一个JSON格式,第一层是产品的不同取值,第二层是不同取值的数量(图15)。
系统的可视化交互展示部分则会根据返回的JSON数据文件,解析出来不同的产品取值时的计数结果,并将树状结构解析为生成图表的列表结构,即产品与计数的列表,再根据这个列表信息生成可视化图表。
用户可以自主在图表的基础上进行一定范围内的编辑、下钻等操作,从而实现智能的可视化交互。

Claims (7)

1.一种基于JSON文档结构的工业大数据多维分析与可视化方法,其特征在于,具体步骤为:
(1)基于JSON配置文件的多源异构工业数据导入与转换:即以JSON为数据的基础载体,通过配置关系型数据库、文件系统数据源、定义必要的数据转换与数据清洗操作,利用Spark和ElasticSearch并行化构建工业数据集市;
(2)工业大数据多维分析结构建模;即基于上一阶段构建的数据集市,通过图形化方式配置数据分析的整体流程来构建多维结构的分析数据集,避免在实际分析时对海量数据进行重复关联操作;
(3)可视化分析与交互展示;即针对特定的数据分析场景,基于预先构建的多维分析数据集,通过可视化拖拽方式自定义数据分析报表的各个维度计算指标,生成交互式图形分析报表。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述基于JSON配置文件的多源异构工业数据导入与转换的具体流程为:
利用JSON格式作为数据的基础载体,通过JSON格式定义对各类异构数据源中数据以及数据之间复杂关系的映射方式,并利用JSON文档配置自定义的数据转换以及数据清洗服务,利用Spark分布式并行计算平台,将分散在各个业务系统中的原始数据并行化导入到基于ElasticSearch的工业数据存储平台中;整个过程包括数据源配置、数据转换、数据清洗以及并行存储四个步骤;经过这个流程的处理,构建与业务系统物理分离的数据集市,并利用JSON文档保留数据之间的复杂关系。
3. 根据权利要求2所述的方法,其特征在于,步骤(1)中,JSON格式对各类异构数据源中数据与数据之间复杂关系的映射方式定义如下:
JSON文档存储关系型数据库类数据
关系型数据库表是基于行定义的,JSON结构则是基于key-value对定义的;基于关系型数据表的表结构定义,将数据库表的每一行数据映射为对应JSON的key-value对集合;
JSON文件可以抽象为结构化文档形式,进而表示为一个JSON-Object的结构,形式上为一组无序的键值序列,通过树状结构表示JSON-Object时根节点表示该文档结构的逻辑实体,叶子节点表示实体的具体属性;
JSON格式不仅用于抽象表示单维度数据库表,还用于抽象表示多维度数据库表之间的复杂关联关系;关系型数据库表中的对应关系细分为“一对一”、“一对多”和“多对多”;JSON对其描述方式如下:
(a)“一对一”数据表关联
关系型数据库表中的“一对一”关联表示待关联的两个数据库表中的记录是一对一的关系;
(b)“一对多”数据表关联
关系型数据库表中的“一对多”关联表示待关联的两个数据库表中的记录是一对多的关系;(c)多对多数据表关联
关系型数据库表中的“多对多”关联表示待关联的两个数据库表中的记录是多对多的关系;利用嵌套的JSON对象数组(JSON-Object Array),数组中每一个对象代表一个关联实体,在树状JSON结构上表现为兄弟节点关系;对于工序数据与其检测数据这样的关联关系表示为以产品为根节点,工序为第一层节点,检测数据为第二层节点的树状结构。
4.根据权利要求3所述的方法,其特征在于,步骤(1)中,时序文件数据处理方式为:
对于时间序列类文件与JSON格式的映射关系,基于时间划分的粒度将其分为“粗粒度”时间序列文件与“细粒度”时间序列文件两种情况:
(a)对于以小时或天为单位的粗粒度时间序列数据,直接通过嵌套对象数组的形式存入具体的逻辑实体中;
(b)对于以秒为单位的细粒度时间序列数据,由于时间序列数据会使文档结构过大,将保存为独立的索引结构,通过将id嵌入主体文档的方式来关联时序数据,并按照特定的场景对海量的细粒度时间序列文件数据进行逻辑分割;
在以时间序列数据为主的存储节点中,时序数据主要通过以时间戳为索引的方式与生产数据相关联。
5.根据权利要求4所述的方法,其特征在于,步骤(1)中:
数据源配置定义是为了将分散存储在工业企业数据库或文件系统中的各类异构数据统一采集到工业大数据存储平台中,采用配置定义的方式对数据源进行统一描述,以简化异构数据源的管理;具体使用JSON文档格式作为数据源配置的载体,设计涵盖数据源,数据转换规则,其它相关配置的数据源基础配置模板,以JSON-Object的方式配置,能够涵盖多数类型的工业数据源;
通过配置不同的数据源类型,数据源基础配置模板不仅描述包括Mysql、Sqlserver在内的各关系型数据库,还描述包括Log、Json在内的文件系统数据以及Mongodb,Elasticsearch Nosql数据库;Datasource表示数据源配置中的其他可拓展项;
数据转换定义是指配置好数据源之后,还需要基于实际的业务分析场景对这些数据源进行各种转换操作,以得到符合业务分析逻辑的、目标形式的数据集;具体通过基于JSON配置文件的数据转换动作定义方式,来定义各数据集之间的转换动作,包括数据集合并,数据集拆分,数据类型转换,数据集内容填充,数据字段合并;
数据清洗定义是为保证分析数据的质量,而在数据接入阶段对源数据所做的预处理;具体基于JSON文档实现服务配置功能,定制化调用预定义在数据清洗模块中的数据清洗服务,包括字段的同义合并、非法字段过滤、异常数据清洗等功能;除此之外,基于配置文件的设计模式,通过微服务的方式添加自定义的数据清洗功能;
并行数据存储定义是指在定义好数据源、数据转换动作以及数据清洗逻辑之后,根据通过JSON配置的数据源,数据集之间的合并动作,数据集内部数据的转换动作这些信息,利用基于定制化配置文件的数据处理引擎,将定制的工业大数据导入与转换操作解析为Spark执行计划,利用Spark强大的并行处理能力将各类数据源中的数据转化为JSON文档数据,并通过预定义的数据转换操作和数据清洗服务对原始数据进行预处理,最终使用Elasticsearch分布式文件存储引擎构建数据集市以替代传统的数据仓库;Elasticsearch面向文档存储,为每个文档的内容建立索引,因此能执行复杂的全文搜索;通过对多源异构的数据进行整合,将完整的流程对象保存下来,其中数据表之间复杂的关联关系也得到完整的保存;通过JSON文档数据的倒排索引以及聚合方式构建以各属性的关键词为索引,数据主体包含实体的全维度信息的数据结构的工业数据多维分析模型,为TB级数据提供秒级的数据查询和基本统计计算。
6.根据权利要求5所述的方法,其特征在于,步骤(2)所述工业大数据多维分析结构建模的具体流程为:
针对不同的数据分析场景,基于上一阶段形成的多个独立数据集,通过图形化方式配置数据分析的整体流程来构建目标形式的分析数据集,避免在具体分析时的重复关联操作;其步骤包括:(1)可视化配置数据分析;(2)解析数据分析,并生成执行计划;(3)基于Spark并行化生成多维分析数据模型;
多维分析结构建模支持配置的数据分析流程包括数据转换、数据集合并以及其他定制化操作;其中:
数据转换是对待合并数据集的再次预处理,区别于数据清洗功能,数据转换功能是利用多维数据集中的整合数据,在原始数据集上完成的逻辑操作;
支持数据转换操作包括添加新的逻辑字段,添加新的常量字段,添加拼接字段,字段的多维度映射;添加逻辑字段是指利用多维数据集中的数据创造逻辑字段;添加常量字段是指在数据集中加入在合并时可能丢弃的部分常量字段;添加拼接字段用于将多个字段拼接起来形成新的字段;
数据集合并是将多个数据集按条件合并,包括按字段合并,按流程合并,按机理合并;合并方式通过预定义的合并动作实现,包括对源数据集的一对一、一对多、多对多,笛卡尔积数据集操作;最终形成一个以逻辑分析主体为根节点,连接各维度节点并包含逻辑关系的树状结构,文档结构则表现为各维度以JSON-Object形式并列存储的一个大文档结构。
7.根据权利要求6所述的方法,其特征在于,步骤(3)所述可视化分析与交互展示的具体流程为:
包括自定义图表配置与多维度图表交互展示两个部分,提供多维分析报表的自主定义、分析报表的图形化展示与交互功能;在自定义图表配置部分,用户通过基于Web界面的可视化拖拽方式自定义数据分析报表的各个维度计算指标,通过将自定义报表的计算指标转化为对用户查询语句的智能解析,从而得到用户所需要查询的维度;
多维可视化分析操作包括数据检索与数据集聚合:
(1)数据检索
对于待分析的数据集,数据检索能快速定位到特征数据,通过倒排索引结构快速将关键词定位到原始数据上;对于关键词的查询,支持“与”、“或”、“非”的逻辑操作,查询条件包含等于、不等于、大于、小于、包含、不包含关系,并提供统一的类SQL查询语句定义和简易的类四则运算条件查询定义;
(2)数据集聚合
聚合操作是可视化分析的基础,是通过对数据集分组计算统计指标;分组功能支持嵌套与回溯,计算指标包括:计数,累加,平均值,标准差常用统计指标;通过嵌套分组与指标计算完成大部分的定制化报表生成接口;
聚合查询的定义方式与检索类似,包括:维度设置,指标设置,条件设置,通过JSON定义调用远程接口;数据聚合的定义使用JSON表现,涵盖查询的条件设置语句,指定聚合维度,指定指标计算类型,过滤条件这些信息;其中query的定义即是数据检索的定义;dimension指的是数据的不变维度;维度和指标使用相同的定义结构,从而通过嵌套聚合完成大部分统计分析的绘图数据需求;
在图表交互展示部分,根据用户设置的数据检索条件,通过内置的分布式检索引擎智能化计算并提供用户所需的各维度数据,同时通过用户自主选定的图表样式生成用户所需的分组展示的个性化可视化图形,包括常规的柱状图、饼图、线图,以及他们的变形体,并在此基础上提供智能交互式体验。
CN201910750749.0A 2019-08-15 2019-08-15 基于json文档结构的工业大数据多维分析与可视化方法 Active CN110618983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750749.0A CN110618983B (zh) 2019-08-15 2019-08-15 基于json文档结构的工业大数据多维分析与可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750749.0A CN110618983B (zh) 2019-08-15 2019-08-15 基于json文档结构的工业大数据多维分析与可视化方法

Publications (2)

Publication Number Publication Date
CN110618983A true CN110618983A (zh) 2019-12-27
CN110618983B CN110618983B (zh) 2023-01-06

Family

ID=68921198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750749.0A Active CN110618983B (zh) 2019-08-15 2019-08-15 基于json文档结构的工业大数据多维分析与可视化方法

Country Status (1)

Country Link
CN (1) CN110618983B (zh)

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874356A (zh) * 2020-01-19 2020-03-10 南京创维信息技术研究院有限公司 云端大数据系统及其构建方法
CN111240978A (zh) * 2020-01-09 2020-06-05 上海丰蕾信息科技有限公司 数据报告生成与分析方法
CN111241137A (zh) * 2020-01-08 2020-06-05 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111259202A (zh) * 2020-01-10 2020-06-09 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN111258888A (zh) * 2020-01-09 2020-06-09 上海丰蕾信息科技有限公司 数据报告生成与分析系统
CN111400430A (zh) * 2020-03-11 2020-07-10 广联达科技股份有限公司 数字建筑清单计价中快速组价的方法及系统
CN111444293A (zh) * 2020-04-17 2020-07-24 重庆市勘测院 一种多源异构安全监测数据的报表智能生成方法
CN111460019A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种异构数据源的数据转换方法及中间件
CN111538720A (zh) * 2020-03-12 2020-08-14 嘉陵江亭子口水利水电开发有限公司 电力行业基础数据清理的方法及系统
CN111538731A (zh) * 2020-05-14 2020-08-14 山东慧泰智能科技有限公司 一种工业数据自动生成报表系统
CN111563369A (zh) * 2020-05-11 2020-08-21 中冶赛迪重庆信息技术有限公司 一种屏幕可视化方法、装置、电子设备及介质
CN111639117A (zh) * 2020-05-26 2020-09-08 李绍兵 基于数据加工的业务处理方法及装置
CN111723552A (zh) * 2020-06-20 2020-09-29 四川大学 一种高效json文件格式及内容验证方法
CN111767335A (zh) * 2020-07-08 2020-10-13 苏州峰之鼎信息科技有限公司 数据可视化分析方法
CN111797095A (zh) * 2020-06-10 2020-10-20 阿里巴巴集团控股有限公司 索引构建方法和json数据查询方法
CN111881213A (zh) * 2020-07-28 2020-11-03 东航技术应用研发中心有限公司 一种储存、加工、使用飞行大数据的系统
CN111966720A (zh) * 2020-07-30 2020-11-20 上海泛微网络科技股份有限公司 一种数据处理方法及相关设备
CN111984684A (zh) * 2020-08-20 2020-11-24 北京捷报金峰数据技术有限公司 数据处理方法及装置
CN112131291A (zh) * 2020-09-11 2020-12-25 重庆誉存大数据科技有限公司 基于json数据的结构化解析方法、装置、设备及存储介质
CN112131302A (zh) * 2020-09-08 2020-12-25 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112148710A (zh) * 2020-09-21 2020-12-29 珠海市卓轩科技有限公司 微服务分库方法、系统和介质
CN112187953A (zh) * 2020-10-13 2021-01-05 南开大学 一种基于json的基因本体映射系统及方法
CN112216347A (zh) * 2020-09-14 2021-01-12 苏州创腾软件有限公司 科学数据基因组的处理方法、装置和存储介质
CN112231388A (zh) * 2020-10-14 2021-01-15 宁夏回族自治区教育信息化管理中心 一种多元化指标分析的动态图表构建方法
CN112232043A (zh) * 2020-09-22 2021-01-15 金蝶软件(中国)有限公司 报表生成方法、装置、计算机设备和存储介质
CN112256469A (zh) * 2020-10-29 2021-01-22 贵州电网有限责任公司信息中心 一种基于跨系统协同场景的问题智能定位方法
CN112364045A (zh) * 2020-10-23 2021-02-12 济南慧天云海信息技术有限公司 一种异构数据聚合方法
CN112446626A (zh) * 2020-12-01 2021-03-05 广东赛意信息科技有限公司 一种实时监控制造数据异常的应用工具
CN112463735A (zh) * 2020-11-26 2021-03-09 四三九九网络股份有限公司 一种大体积json文件拆分并按需请求的方法
CN112464632A (zh) * 2020-11-27 2021-03-09 四川科瑞软件有限责任公司 一种excel报表下的表格样式动态存储及转化方法
CN112508667A (zh) * 2020-12-08 2021-03-16 安徽经邦软件技术有限公司 一种基于云原生微服务架构的财务数据分析系统
CN112612923A (zh) * 2020-12-30 2021-04-06 深圳奥哲网络科技有限公司 统计分析图构建方法、系统、电子设备及存储介质
CN112650816A (zh) * 2020-09-15 2021-04-13 广州奥缔飞梭数字科技有限公司 一种数据智能分析可视化系统及方法
CN112685326A (zh) * 2021-01-26 2021-04-20 政采云有限公司 一种软件测试方法、系统、设备及可读存储介质
CN112783507A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 数据引流回放方法、装置、电子设备及可读存储介质
CN112800036A (zh) * 2020-12-30 2021-05-14 银盛通信有限公司 一种报表分析图自动生成及展示方法及系统
CN112818043A (zh) * 2021-01-26 2021-05-18 四川天翼网络服务有限公司 一种基于json自描述的数据源报表生成方法
CN112883021A (zh) * 2021-03-05 2021-06-01 北京维科维众科技发展有限公司 一种处理互联网营销跨渠道数据实时生成智能简报的系统
CN112949274A (zh) * 2021-03-04 2021-06-11 廖凌浩 一种文档数据录入的方法及系统
CN112965711A (zh) * 2021-03-04 2021-06-15 北京金山云网络技术有限公司 作业测试方法和装置、电子设备和存储介质
CN113032515A (zh) * 2021-03-25 2021-06-25 上海华客信息科技有限公司 基于多数据源生成图表的方法、系统、设备及存储介质
CN113127555A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种数据可视化画法匹配装置及方法
CN113220756A (zh) * 2021-03-25 2021-08-06 上海东普信息科技有限公司 物流数据实时处理方法、装置、设备及存储介质
CN113377829A (zh) * 2021-05-14 2021-09-10 中国民生银行股份有限公司 一种大数据统计方法和装置
CN113377604A (zh) * 2020-03-10 2021-09-10 北京京东振世信息技术有限公司 一种数据处理方法、装置、设备和存储介质
CN113420045A (zh) * 2021-07-21 2021-09-21 中睿信数字技术有限公司 一种基于交互式分析的技战法模型构建方法及系统
CN113421036A (zh) * 2021-08-23 2021-09-21 北京国电通网络技术有限公司 信息显示方法、装置、电子设备和计算机可读介质
CN113467777A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 路径识别方法、装置和系统
CN113486047A (zh) * 2021-07-12 2021-10-08 上海天旦网络科技发展有限公司 一种对目标客群进行调查分析的系统
CN113590085A (zh) * 2020-04-30 2021-11-02 深圳中砼物联网科技有限公司 多源异构数据的处理方法、计算机设备、存储介质
WO2021217659A1 (zh) * 2020-04-30 2021-11-04 深圳中砼物联网科技有限公司 多源异构数据的处理方法、计算机设备、存储介质
CN113641301A (zh) * 2021-02-19 2021-11-12 中国建设银行股份有限公司 一种数据管理方法及装置
CN113672594A (zh) * 2021-06-08 2021-11-19 厦门锐特信息技术有限公司 一种适用于物流供应链业务的bi报表系统
CN113761047A (zh) * 2021-03-18 2021-12-07 中科天玑数据科技股份有限公司 一种面向多源异构大数据的可视化联动效果实现方法
CN113934791A (zh) * 2021-10-20 2022-01-14 政采云有限公司 一种多维度数据统计度量系统及方法
CN113946594A (zh) * 2021-12-22 2022-01-18 昆仑智汇数据科技(北京)有限公司 一种工业多源异构数据的集成查询方法、装置及设备
CN114064777A (zh) * 2021-11-19 2022-02-18 杭州雷数科技有限公司 一种可配置化定时采集数据、调度数据、加密传输、可视化的方法
WO2022095463A1 (zh) * 2020-11-04 2022-05-12 北京沃东天骏信息技术有限公司 数据特征生成方法、装置、电子设备以及计算机可读介质
CN114489625A (zh) * 2022-04-08 2022-05-13 北京优锘科技有限公司 将json格式文本转换为可视化配置工具的方法和装置
CN114827306A (zh) * 2022-03-15 2022-07-29 西安电子科技大学 一种多源异构工业协议报文解析方法、系统、设备及介质
CN114860737A (zh) * 2022-06-28 2022-08-05 北京世纪好未来教育科技有限公司 教研数据的处理方法、装置、设备及介质
CN114881434A (zh) * 2022-04-22 2022-08-09 大连理工大学 一种映射飞机装配工艺的数据模块化关联管理方法
CN114925665A (zh) * 2022-06-08 2022-08-19 杭州比智科技有限公司 一种基于web表格的图表数据编辑方法及系统
WO2022196666A1 (ja) * 2021-03-16 2022-09-22 パナソニックIpマネジメント株式会社 情報処理装置及び情報処理方法
CN115374199A (zh) * 2022-08-08 2022-11-22 广州小飞信息科技有限公司 一种基于大数据的配置式可扩展统计入库系统及其方法
CN115858893A (zh) * 2023-03-02 2023-03-28 极限数据(北京)科技有限公司 数据可视化分析方法、装置、电子设备及存储介质
CN116360761A (zh) * 2023-03-26 2023-06-30 二十六度数字科技(广州)有限公司 基于数据标签的私域和公域自动化营销方法及系统
CN116361585A (zh) * 2023-06-02 2023-06-30 工业富联(佛山)产业示范基地有限公司 指标多维度分析方法、系统、电子设备及存储介质
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN117390030A (zh) * 2023-12-12 2024-01-12 北京仁科互动网络技术有限公司 多维参数映射配置方法、装置和电子设备
CN118012963A (zh) * 2024-02-05 2024-05-10 之江实验室 一种低代码数据探索方法及装置
CN118035321A (zh) * 2024-04-11 2024-05-14 成都数据集团股份有限公司 一种可视化数据库可视化方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统
US20170308606A1 (en) * 2016-04-22 2017-10-26 Quest Software Inc. Systems and methods for using a structured query dialect to access document databases and merging with other sources
EP3418919A1 (en) * 2017-06-23 2018-12-26 Palantir Technologies Inc. User interface for managing synchronization between data sources and cache databases
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN109460460A (zh) * 2018-11-05 2019-03-12 国家计算机网络与信息安全管理中心 一种面向智能应用的领域本体构建方法
CN109542011A (zh) * 2018-12-05 2019-03-29 国网江西省电力有限公司信息通信分公司 一种多源异构监测数据的标准化采集系统
US20190102389A1 (en) * 2017-10-04 2019-04-04 Dell Products Lp Storing and processing json documents in a sql database table
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN110019555A (zh) * 2017-12-26 2019-07-16 中国科学院沈阳自动化研究所 一种关系数据语义化建模方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308606A1 (en) * 2016-04-22 2017-10-26 Quest Software Inc. Systems and methods for using a structured query dialect to access document databases and merging with other sources
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统
EP3418919A1 (en) * 2017-06-23 2018-12-26 Palantir Technologies Inc. User interface for managing synchronization between data sources and cache databases
US20190102389A1 (en) * 2017-10-04 2019-04-04 Dell Products Lp Storing and processing json documents in a sql database table
CN110019555A (zh) * 2017-12-26 2019-07-16 中国科学院沈阳自动化研究所 一种关系数据语义化建模方法
CN109460460A (zh) * 2018-11-05 2019-03-12 国家计算机网络与信息安全管理中心 一种面向智能应用的领域本体构建方法
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN109542011A (zh) * 2018-12-05 2019-03-29 国网江西省电力有限公司信息通信分公司 一种多源异构监测数据的标准化采集系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴湘宁: "地质环境数据仓库联机分析处理与数据挖掘研究", 《中国优秀博士学位论文全文数据库 信息科技辑》 *
汪星刚: "大数据环境下机械产品配置设计关键技术研究", 《中国优秀博士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127555A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种数据可视化画法匹配装置及方法
CN111241137B (zh) * 2020-01-08 2023-08-22 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111241137A (zh) * 2020-01-08 2020-06-05 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111240978A (zh) * 2020-01-09 2020-06-05 上海丰蕾信息科技有限公司 数据报告生成与分析方法
CN111258888A (zh) * 2020-01-09 2020-06-09 上海丰蕾信息科技有限公司 数据报告生成与分析系统
CN111259202A (zh) * 2020-01-10 2020-06-09 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN111259202B (zh) * 2020-01-10 2023-08-04 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN110874356A (zh) * 2020-01-19 2020-03-10 南京创维信息技术研究院有限公司 云端大数据系统及其构建方法
CN113377604B (zh) * 2020-03-10 2023-09-29 北京京东振世信息技术有限公司 一种数据处理方法、装置、设备和存储介质
CN113377604A (zh) * 2020-03-10 2021-09-10 北京京东振世信息技术有限公司 一种数据处理方法、装置、设备和存储介质
CN111400430A (zh) * 2020-03-11 2020-07-10 广联达科技股份有限公司 数字建筑清单计价中快速组价的方法及系统
CN111538720A (zh) * 2020-03-12 2020-08-14 嘉陵江亭子口水利水电开发有限公司 电力行业基础数据清理的方法及系统
CN111538720B (zh) * 2020-03-12 2023-07-21 嘉陵江亭子口水利水电开发有限公司 电力行业基础数据清理的方法及系统
CN113467777A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 路径识别方法、装置和系统
CN111460019A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种异构数据源的数据转换方法及中间件
CN111444293A (zh) * 2020-04-17 2020-07-24 重庆市勘测院 一种多源异构安全监测数据的报表智能生成方法
WO2021217659A1 (zh) * 2020-04-30 2021-11-04 深圳中砼物联网科技有限公司 多源异构数据的处理方法、计算机设备、存储介质
CN113590085A (zh) * 2020-04-30 2021-11-02 深圳中砼物联网科技有限公司 多源异构数据的处理方法、计算机设备、存储介质
CN113590085B (zh) * 2020-04-30 2023-06-16 广东中砼物联网科技有限公司 多源异构数据的处理方法、计算机设备、存储介质
CN111563369A (zh) * 2020-05-11 2020-08-21 中冶赛迪重庆信息技术有限公司 一种屏幕可视化方法、装置、电子设备及介质
CN111538731A (zh) * 2020-05-14 2020-08-14 山东慧泰智能科技有限公司 一种工业数据自动生成报表系统
CN111538731B (zh) * 2020-05-14 2023-08-29 山东慧泰智能科技有限公司 一种工业数据自动生成报表系统
CN111639117A (zh) * 2020-05-26 2020-09-08 李绍兵 基于数据加工的业务处理方法及装置
CN111639117B (zh) * 2020-05-26 2023-12-01 四川三江数智科技有限公司 基于数据加工的业务处理方法及装置
CN111797095A (zh) * 2020-06-10 2020-10-20 阿里巴巴集团控股有限公司 索引构建方法和json数据查询方法
CN111797095B (zh) * 2020-06-10 2024-05-03 阿里巴巴集团控股有限公司 索引构建方法和json数据查询方法
CN111723552A (zh) * 2020-06-20 2020-09-29 四川大学 一种高效json文件格式及内容验证方法
CN111723552B (zh) * 2020-06-20 2023-03-21 四川大学 一种高效json文件格式及内容验证方法
CN111767335A (zh) * 2020-07-08 2020-10-13 苏州峰之鼎信息科技有限公司 数据可视化分析方法
CN111881213B (zh) * 2020-07-28 2021-03-19 东航技术应用研发中心有限公司 一种储存、加工、使用飞行大数据的系统
CN111881213A (zh) * 2020-07-28 2020-11-03 东航技术应用研发中心有限公司 一种储存、加工、使用飞行大数据的系统
CN111966720A (zh) * 2020-07-30 2020-11-20 上海泛微网络科技股份有限公司 一种数据处理方法及相关设备
CN111984684B (zh) * 2020-08-20 2021-07-23 北京捷报金峰数据技术有限公司 数据处理方法及装置
CN111984684A (zh) * 2020-08-20 2020-11-24 北京捷报金峰数据技术有限公司 数据处理方法及装置
CN112131302A (zh) * 2020-09-08 2020-12-25 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112131302B (zh) * 2020-09-08 2024-05-07 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112131291B (zh) * 2020-09-11 2023-12-15 重庆誉存大数据科技有限公司 基于json数据的结构化解析方法、装置、设备及存储介质
CN112131291A (zh) * 2020-09-11 2020-12-25 重庆誉存大数据科技有限公司 基于json数据的结构化解析方法、装置、设备及存储介质
CN112216347A (zh) * 2020-09-14 2021-01-12 苏州创腾软件有限公司 科学数据基因组的处理方法、装置和存储介质
CN112650816A (zh) * 2020-09-15 2021-04-13 广州奥缔飞梭数字科技有限公司 一种数据智能分析可视化系统及方法
CN112148710A (zh) * 2020-09-21 2020-12-29 珠海市卓轩科技有限公司 微服务分库方法、系统和介质
CN112148710B (zh) * 2020-09-21 2023-11-14 珠海市卓轩科技有限公司 微服务分库方法、系统和介质
CN112232043A (zh) * 2020-09-22 2021-01-15 金蝶软件(中国)有限公司 报表生成方法、装置、计算机设备和存储介质
CN112187953A (zh) * 2020-10-13 2021-01-05 南开大学 一种基于json的基因本体映射系统及方法
CN112187953B (zh) * 2020-10-13 2022-05-03 南开大学 一种基于json的基因本体映射系统及方法
CN112231388A (zh) * 2020-10-14 2021-01-15 宁夏回族自治区教育信息化管理中心 一种多元化指标分析的动态图表构建方法
CN112364045A (zh) * 2020-10-23 2021-02-12 济南慧天云海信息技术有限公司 一种异构数据聚合方法
CN112256469A (zh) * 2020-10-29 2021-01-22 贵州电网有限责任公司信息中心 一种基于跨系统协同场景的问题智能定位方法
US12038936B2 (en) 2020-11-04 2024-07-16 Beijing Wodong Tianjun information Technology Co. Ltd. Method and apparatus for generating data feature, electronic device and computer readable medium
WO2022095463A1 (zh) * 2020-11-04 2022-05-12 北京沃东天骏信息技术有限公司 数据特征生成方法、装置、电子设备以及计算机可读介质
CN112463735B (zh) * 2020-11-26 2023-04-07 四三九九网络股份有限公司 一种大体积json文件拆分并按需请求的方法
CN112463735A (zh) * 2020-11-26 2021-03-09 四三九九网络股份有限公司 一种大体积json文件拆分并按需请求的方法
CN112464632A (zh) * 2020-11-27 2021-03-09 四川科瑞软件有限责任公司 一种excel报表下的表格样式动态存储及转化方法
CN112464632B (zh) * 2020-11-27 2023-07-14 四川科瑞软件有限责任公司 一种excel报表下的表格样式动态存储及转化方法
CN112446626B (zh) * 2020-12-01 2023-12-19 广东赛意信息科技有限公司 一种实时监控制造数据异常的应用工具
CN112446626A (zh) * 2020-12-01 2021-03-05 广东赛意信息科技有限公司 一种实时监控制造数据异常的应用工具
CN112508667A (zh) * 2020-12-08 2021-03-16 安徽经邦软件技术有限公司 一种基于云原生微服务架构的财务数据分析系统
CN112800036A (zh) * 2020-12-30 2021-05-14 银盛通信有限公司 一种报表分析图自动生成及展示方法及系统
CN112612923A (zh) * 2020-12-30 2021-04-06 深圳奥哲网络科技有限公司 统计分析图构建方法、系统、电子设备及存储介质
CN112685326A (zh) * 2021-01-26 2021-04-20 政采云有限公司 一种软件测试方法、系统、设备及可读存储介质
CN112818043A (zh) * 2021-01-26 2021-05-18 四川天翼网络服务有限公司 一种基于json自描述的数据源报表生成方法
CN112783507A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 数据引流回放方法、装置、电子设备及可读存储介质
CN112783507B (zh) * 2021-01-29 2023-07-25 北京百度网讯科技有限公司 数据引流回放方法、装置、电子设备及可读存储介质
CN113641301A (zh) * 2021-02-19 2021-11-12 中国建设银行股份有限公司 一种数据管理方法及装置
CN112965711A (zh) * 2021-03-04 2021-06-15 北京金山云网络技术有限公司 作业测试方法和装置、电子设备和存储介质
CN112949274A (zh) * 2021-03-04 2021-06-11 廖凌浩 一种文档数据录入的方法及系统
CN112883021A (zh) * 2021-03-05 2021-06-01 北京维科维众科技发展有限公司 一种处理互联网营销跨渠道数据实时生成智能简报的系统
WO2022196666A1 (ja) * 2021-03-16 2022-09-22 パナソニックIpマネジメント株式会社 情報処理装置及び情報処理方法
CN113761047A (zh) * 2021-03-18 2021-12-07 中科天玑数据科技股份有限公司 一种面向多源异构大数据的可视化联动效果实现方法
CN113032515A (zh) * 2021-03-25 2021-06-25 上海华客信息科技有限公司 基于多数据源生成图表的方法、系统、设备及存储介质
CN113220756A (zh) * 2021-03-25 2021-08-06 上海东普信息科技有限公司 物流数据实时处理方法、装置、设备及存储介质
CN113377829A (zh) * 2021-05-14 2021-09-10 中国民生银行股份有限公司 一种大数据统计方法和装置
CN113672594A (zh) * 2021-06-08 2021-11-19 厦门锐特信息技术有限公司 一种适用于物流供应链业务的bi报表系统
CN113486047A (zh) * 2021-07-12 2021-10-08 上海天旦网络科技发展有限公司 一种对目标客群进行调查分析的系统
CN113420045A (zh) * 2021-07-21 2021-09-21 中睿信数字技术有限公司 一种基于交互式分析的技战法模型构建方法及系统
CN113420045B (zh) * 2021-07-21 2022-02-18 中睿信数字技术有限公司 一种基于交互式分析的技战法模型构建方法及系统
CN113421036A (zh) * 2021-08-23 2021-09-21 北京国电通网络技术有限公司 信息显示方法、装置、电子设备和计算机可读介质
CN113934791A (zh) * 2021-10-20 2022-01-14 政采云有限公司 一种多维度数据统计度量系统及方法
CN114064777B (zh) * 2021-11-19 2024-06-28 杭州雷数科技有限公司 一种可配置化定时采集数据、调度数据、加密传输、可视化的方法
CN114064777A (zh) * 2021-11-19 2022-02-18 杭州雷数科技有限公司 一种可配置化定时采集数据、调度数据、加密传输、可视化的方法
CN113946594B (zh) * 2021-12-22 2022-07-12 昆仑智汇数据科技(北京)有限公司 一种工业多源异构数据的集成查询方法、装置及设备
CN113946594A (zh) * 2021-12-22 2022-01-18 昆仑智汇数据科技(北京)有限公司 一种工业多源异构数据的集成查询方法、装置及设备
CN114827306A (zh) * 2022-03-15 2022-07-29 西安电子科技大学 一种多源异构工业协议报文解析方法、系统、设备及介质
CN114827306B (zh) * 2022-03-15 2024-01-19 西安电子科技大学 一种多源异构工业协议报文解析方法、系统、设备及介质
CN114489625A (zh) * 2022-04-08 2022-05-13 北京优锘科技有限公司 将json格式文本转换为可视化配置工具的方法和装置
CN114881434A (zh) * 2022-04-22 2022-08-09 大连理工大学 一种映射飞机装配工艺的数据模块化关联管理方法
CN114925665A (zh) * 2022-06-08 2022-08-19 杭州比智科技有限公司 一种基于web表格的图表数据编辑方法及系统
CN114860737A (zh) * 2022-06-28 2022-08-05 北京世纪好未来教育科技有限公司 教研数据的处理方法、装置、设备及介质
CN115374199A (zh) * 2022-08-08 2022-11-22 广州小飞信息科技有限公司 一种基于大数据的配置式可扩展统计入库系统及其方法
CN115858893A (zh) * 2023-03-02 2023-03-28 极限数据(北京)科技有限公司 数据可视化分析方法、装置、电子设备及存储介质
CN116360761B (zh) * 2023-03-26 2023-11-14 二十六度数字科技(广州)有限公司 基于数据标签的私域和公域自动化营销方法及系统
CN116360761A (zh) * 2023-03-26 2023-06-30 二十六度数字科技(广州)有限公司 基于数据标签的私域和公域自动化营销方法及系统
CN116361585A (zh) * 2023-06-02 2023-06-30 工业富联(佛山)产业示范基地有限公司 指标多维度分析方法、系统、电子设备及存储介质
CN116894032B (zh) * 2023-09-05 2023-11-21 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN117390030A (zh) * 2023-12-12 2024-01-12 北京仁科互动网络技术有限公司 多维参数映射配置方法、装置和电子设备
CN117390030B (zh) * 2023-12-12 2024-03-08 北京仁科互动网络技术有限公司 多维参数映射配置方法、装置和电子设备
CN118012963A (zh) * 2024-02-05 2024-05-10 之江实验室 一种低代码数据探索方法及装置
CN118035321A (zh) * 2024-04-11 2024-05-14 成都数据集团股份有限公司 一种可视化数据库可视化方法及系统

Also Published As

Publication number Publication date
CN110618983B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN110618983B (zh) 基于json文档结构的工业大数据多维分析与可视化方法
US11360950B2 (en) System for analysing data relationships to support data query execution
US11461294B2 (en) System for importing data into a data repository
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
JP6580737B2 (ja) データ検索装置、データ検索方法、データ検索プログラム、及び記録媒体
CN106095862B (zh) 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
US20170154057A1 (en) Efficient consolidation of high-volume metrics
CN111611304A (zh) 知识驱动的联合大数据查询和分析平台
CN103646100A (zh) 报表数据组织模型
CN116450908B (zh) 基于数据湖的自助式数据分析方法、装置和电子设备
Kricke et al. Graph data transformations in Gradoop
CN115309789B (zh) 一种基于业务对象智能动态化实时生成关联数据图的方法
CN111125045A (zh) 一种轻量级etl处理平台
CN110826845A (zh) 一种多维组合成本分摊装置及方法
Chatziantoniou et al. Just-In-Time Modeling with DataMingler.
Ahmed et al. Generating data warehouse schema
Hasan et al. An approach for metadata extraction and transformation for various data sources using R programming language
CN112667859A (zh) 基于内存的数据处理方法及装置
JP5916974B1 (ja) データ検索装置、プログラム、及び記録媒体
EP4404117A1 (en) Method for automatically identifying change contributors
CN118377771B (zh) 基于图数据结构的数据建模方法和系统
CN116975043B (zh) 一种基于流式框架的数据实时传输构建方法
CN118227767B (zh) 知识图谱驱动大模型的商业智能决策问答系统及方法
CN114329107B (zh) 基于全域数据字典的多种数据源联合查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant