CN114969187A - 数据分析系统及方法 - Google Patents

数据分析系统及方法 Download PDF

Info

Publication number
CN114969187A
CN114969187A CN202210609455.8A CN202210609455A CN114969187A CN 114969187 A CN114969187 A CN 114969187A CN 202210609455 A CN202210609455 A CN 202210609455A CN 114969187 A CN114969187 A CN 114969187A
Authority
CN
China
Prior art keywords
data
original
module
layer table
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210609455.8A
Other languages
English (en)
Inventor
张洪姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Shuneng Technology Co Ltd
Original Assignee
Xinao Shuneng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Shuneng Technology Co Ltd filed Critical Xinao Shuneng Technology Co Ltd
Priority to CN202210609455.8A priority Critical patent/CN114969187A/zh
Publication of CN114969187A publication Critical patent/CN114969187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及计算机技术领域,提供了一种数据分析系统及方法,数据分析系统包括:原始数据获取模块,用于从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中;数据预处理模块,用于将原始数据层表中的原始量测数据进行抽取、清洗和转换,得到物联设备量测点的明细数据,存储到明细数据层表中;数据处理模块,用于根据时间区域对明细数据层表中的明细数据进行处理,得到时间区域对应的目标业务数据。

Description

数据分析系统及方法
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据分析系统及方法。
背景技术
在基于物联网的企业业务平台中,为了了解企业和服务对象之间的业务进展情况,需要了解各个部门各个环节的数据情况,例如物联业务域、物联设备和物联量测点对应的量测数据。
在现有技术中,根据物联设备量测点的原始量测数据并不能直接了解各个部门各个环节的业务数据,从而无法便利地帮助企业了解自身业务,导致工作效率较低。
发明内容
有鉴于此,本公开实施例提供了一种数据分析系统及方法,以解决现有技术中不能直接了解业务数据的技术问题。
本公开实施例的第一方面,提供了一种数据分析系统,该数据分析系统包括:原始数据获取模块,用于从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中;数据预处理模块,用于将原始数据层表中的原始量测数据进行抽取、清洗和转换,得到物联设备量测点的明细数据,存储到明细数据层表中,明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间;数据处理模块,用于根据时间区域对明细数据层表中的明细数据进行处理,得到时间区域对应的目标业务数据,目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
本公开实施例的第二方面,提供了一种数据分析方法,该数据分析方法包括:从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中;将原始数据层表中的原始量测数据进行抽取、清洗和转换,得到物联设备量测点的明细数据,存储到明细数据层表中,明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间;根据时间区域对明细数据层表中的明细数据进行处理,得到时间区域对应的目标业务数据,目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
本公开实施例与现有技术相比存在的有益效果是:通过根据分布式文件系统中的原始量测数据得到物联设备量测点的明细数据,并根据该明细数据得到目标业务数据,以根据目标业务数据了解企业的各个部门各个环节的数据情况,从而可以了解业务场景,提高工作效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种数据分析系统的结构示意图;
图2是本公开实施例提供的一种表格的示意图;
图3是本公开实施例提供的一种折线图的示意图;
图4是本公开实施例提供的一种数据分析方法的流程示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
以下是本公开具体实施方式中的技术术语解释:
Hadoop,一种分布式系统基础架构。
HDFS(Hadoop Distribute File System,Hadoop的分布式文件系统):一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。
Hive:一个基于Hadoop的数据仓库基础工具,用来处理结构化数据,数据仓库一般来说分为4个层,每个层级用来存储不用类型的表。
Hive的ODS(Operation Data Store,原始数据)层:用于存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
Hive的DWD(Data Warehouse Detail,明细数据)层:对ODS的数据进行清洗,并对数据进行脱敏处理,即对数据进行轻度汇总。
Flume:是大数据组件,是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。
下面将结合附图详细说明根据本公开实施例的数据分析系统。
图1是本公开实施例提供的一种数据分析系统。如图1所示,数据分析系统包括:
原始数据获取模块101,用于从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中。
具体地,分布式文件系统可以为HDFS。全部量测点的原始量测数据可以被发送到kafka集群中,Flume可以将kafka集群中的原始量测数据发送到大数据集群HDFS路径。原始数据层表将HDFS数据加载到原始数据层表,并可以按照小时进行分区。
数据预处理模块102,用于将原始数据层表中的原始量测数据进行抽取、清洗和转换,得到物联设备量测点的明细数据,存储到明细数据层表中,明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间。
数据处理模块103,用于根据时间区域对明细数据层表中的明细数据进行处理,得到时间区域对应的目标业务数据,目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
具体地,时间区域指选择的时间段。例如,当前时间的前一天。
根据本开始实施例的技术方案,根据业务域、系统、设备类型、设备、量测点类型和量测点等目标业务数据,可以实现业务平台的数字化运营,对筛选企业用户的各个环节持续地进行追踪。
具体地,基于目标业务数据可以得到每天指标计算个数和大致的趋势走向图。其中,每天指标计算个数可以包括序号、粒度、每天指标计算数量等信息,粒度可以为业务域、系统、设备类型、设备、量测点类型、量测点。趋势走向图指的是用折线图来表示每天指标计算数量的趋势。在下文中,量测点可以称为测点。
在本公开实施例中,数据仓库(Hive)将原始量测数据存储在ODS层后,进行数据预处理并存储在DWD层,并进一步处理形成目标业务数据。根据目标业务数据可以得到指标数据、异常情况、监控告警等数据。以指标数据、异常情况、监控告警等数据为依据和起点,可以系统分析和评价企业的数据状况、经营成果和流量状况,从而清晰直观展示企业的过往经营业绩并预测企业未来持续稳定的能力。
在本公开实施例中,数据处理模块可以包括实时处理子模块和离线处理子模块,实时处理子模块用于根据时间区域对明细数据层表中的明细数据进行实时处理,得到时间区域对应的目标业务数据。离线处理子模块用于根据时间区域对明细数据层表中的大数据项目的明细数据进行离线处理,得到离线工作流和任务的处理数据。
基于某些业务域、系统、设备类型、设备、量测点类型、量测点的每天实时处理测点数量和每天大概趋势走向图,可以对物联测点的每天的上数情况有整体了解,可以得到企业设备每天上数的有多少测点、哪些测点应该是重点关注的、哪些数据是容易根据业务进展而做扩展的,进而观察和分析经营企业的发展状况和成长性。其中,可以用如图2所示的表格来表示每天实时处理测点数量,可以用如图3所示IDE折线图来表示每天实时处理测点数量的趋势。
每天离线工作流和任务处理数包括项目名称(bigdata)、状态、每天离线工作流和任务处理数量等信息,了解数据的上下游流向,从而可以根据工作流和任务的流转方向,从整体上来了解数据情况,用数据去驱动业务。其中,状态可以为成功或者失败。基于大数据项目的每天离线工作流和任务处理数量,可以明确数据的流转方向,从而根据工作流内容,了解工作流支持的业务场景,提高工作效率。
在本公开实施例中,数据分析系统还可以包括大数据统计模块,用于:获取数据库管理系统中按照不同时间粒度存储的大数据接口服务访问量数据;根据大数据接口服务访问量数据对不同的大数据接口进行服务访问量统计,得到大数据接口服务访问量统计数据。
具体地,可以使用排行榜功能,来表示大数据接口的访问总数量,从而可以从宏观上去了解大数据服务的访问情况。可以使用排行榜表示的大数据接口可以为indice-calculator(数据平台-指标计算)、calculate-channel(数据平台-指标计算通道)、gov-docking-platform(数据平台-某用户对接服务)、assembily-job(解决方案开发-工作)、electric-service(CIM(计算机集成制造系统)-建模)等。
以小时为时间粒度,大数据接口服务访问量包括大数据小时级接口的用户应用在0时、1时、...、23时、合计的接口访问量。该访问量数据可以为未来做增长时有可比较的基准。
在一种大数据接口服务访问量统计逻辑处理流程中,可以设计以下函数及其对应的参数:
devops.ads_bigdata_api_report_day:包括大数据接口ID、大数据接口的名称、用户的ID、接口访问的总数量、接口访问的总数量排名、天别等信息。
devops.ads_bigdata_api_report_month:包括大数据接口ID、大数据接口的名称、用户的ID、接口访问的总数量、接口访问的总数量排名、月份等信息。
devops.ads_bigdata_api_report_year:包括大数据接口ID、大数据接口的名称、用户的ID、接口访问的总数量、接口访问的总数量排名、年份等信息。
基于以上大数据接口服务访问量统计数据,通过查询引擎可以在报表平台进行数据集开发和报表开发,通过报表展示大数据接口服务访问量统计。具体地,可以用排行榜功能来表示大数据接口的访问总数量,从而可以根据用户访问接口的实际情况做出优化,提高对数据价值的高度敏感和重视。
在本公开实施例中,数据分析系统还可以包括质量监控模块,用于:根据时间区域对根据明细数据获取目标业务数据的过程进行质量监控,得到质量监控结果,质量监控结果至包括以下一种:应计算指标个数、实际计算指标个数、异常结果个数、延迟个数、计算完成率、异常结果比例和延迟结果比例。
根据数据平台天级别和小时级别的指标计算质量监控,可以针对关键节点、存在少量数据不一致或丢失情况,利用充足的资源和大数据能力去解决问题。
在一种数据平台指标计算质量监控逻辑处理流程中,可以设计以下函数及其对应的参数:
indice_result.ods_calc_code:包括自增ID、系统code、设备ID、系统ID、园区ID、指标编码、指标名称、指标描述、设备类型、状态、创建时间、创建人、更新时间、更新人、是否删除、开始时间、删除时间、指标级别、类型名称、对象类型、设备名称、系统名称、园区系统名称、单位等信息。
indice_result.dws_calc_result_hour:包括自增ID,系统编码,设备ID、指标编码、公式、业务时间、指标计算结果值、是否异常、创建时间、更新时间、分区。该分区可以按天进行。
基于以上质量监控结果,通过查询引擎可以在报表平台进行数据集开发和报表开发,通过报表展示质量监控结果。
具体地,数据平台指标计算质量监控_天级:包括应计算指标个数、实际计算指标个数、异常结果个数、延迟个数、计算完成率、异常结果比例、延迟结果比例等信息。数据平台指标计算质量监控_小时级:包括应计算指标个数、实际计算指标个数、异常结果个数、计算完成率、异常结果比例等信息。基于以上质量监控结果,可以从整体上了解到指标计算情况和异常情况,基于现有的问题进行解决和分析。
在本公开实施例中,数据分析系统还可以包括访问趋势统计模块,用于根据大数据接口服务访问量数据获取访问用户的访问趋势数据,访问趋势数据至少包括以下一种:日期、系统代码、系统名称、页面访问量和独立访客。
基于以上访问趋势数据可以得到每个系统名称下、每天的页面访问量和用户访问量,数据分析师可以基于访问趋势数据中的访问情况和访问量相应地进行优化。
在一种访问趋势统计逻辑处理流程中,可以设计以下函数及其对应的参数:
user_behavior.ods_event_behavior_log:包括ID、企业ID、系统编码、系统名称、登录服务的企业ID、手机号码、名字、事件编码、组件、事件名称、操作时间、设备ID、设备类型、设备系统、设备版本、用户类型、资源、事件水平、用户角色、用户特征、频率、周期、组成编码、平台类型、业务时间等信息。
基于以上访问趋势数据,通过查询引擎可以在报表平台进行数据集开发和报表开发,通过报表展示访问趋势数据。通过数据开发对以上访问趋势数据数据进行清洗后,算法工程师可以使用该访问趋势数据作为特征去训练相关的模型算法,去预测用户偏好和标签的属性,提供给业务方使用。
在本公开实施例中,数据分析系统还可以包括设备资产管理模块,用于根据时间区域对明细数据进行处理,得到设备资产管理数据,设备资产管理数据至少包括以下一种:园区编码、园区名称、系统编码、系统名称、设备类型、设备类型名称、设备ID、设备名称、设备所属公司和业务时间。
根据设备资产管理数据可以得到量测点数量、首次上数日期和最后上数日期,从而可以对企业设备资产进行管理,使得企业能迅速优化各个渠道,来提高单位时间的转化效率。
在一种设备资产管理逻辑处理流程中,可以设计以下函数及其对应的参数:
metric.ads_device_assets:包括园区编码、园区名称、系统编码、系统名称、设备类型、设备类型名称、设备ID、设备名称、设备所属公司、业务时间等信息。
基于以上设备资产管理数据,通过查询引擎可以在报表平台进行数据集开发和报表开发,通过报表展示设备资产管理数据。
在本公开实施例中,数据分析系统还可以包括告警模块,用于在目标业务数据触发告警策略时,生成告警数据进行告警,告警策略包括异常数据量大于等于设定的阈值。
具体地,告警数据可以包括用每天实时告警数量和趋势。每天实时告警数量包括日期、每天实时告警数量等信息,可以用表格表示,日期、每天实时告警数量的趋势可以用折线图表示。
告警模块可以通过数据量化服务器的各种行为。告警模块在监控获取的数据发生异常并且达到告警阈值或者触发告警策略时进行告警。监控和告警的目的是在事中及时发现问题并定位系统问题,以对所有风险的环节都容错,保证业务和服务的可靠性。
在本公开实施例中,数据分析系统还可以包括展示模块,用于将各模块的处理结果形成报表图像并将报表图像发送到显示装置进行显示。采用报表图像显示处理结果后,可用于大屏展示,也便于基于数据统计分析或领导决策。
在本公开实施例中,数据处理模块还可以进行外部企业和自身的报表数据统计统计。通过报表数据中的组织名称、项目名称、仪表板、图表名称等信息,可以了解到组织、项目、仪表板、图表的数量情况,有助于通过数据驱动来决策,提高预测概率和决策成功率。
本公开实施例中的数据分析系统,通过根据分布式文件系统中的原始量测数据得到物联设备量测点的明细数据,并根据该明细数据得到目标业务数据,以根据目标业务数据了解企业的各个部门各个环节的数据情况,从而可以了解业务场景,提高工作效率。
下述为本公开方法实施例,其被本公开系统实施例中的系统执行。下文描述的数据分析方法与上文描述的数据分析系统可相互对应参照。对于本公开方法实施例中未披露的细节,请参照本公开系统实施例。
图4是本公开实施例提供的一种数据分析方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图4所示,本公开实施例提供的数据分析方法包括:
S401,从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中。
S402,将原始数据层表中的原始量测数据进行抽取、清洗和转换,得到物联设备量测点的明细数据,存储到明细数据层表中,明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间;
S403,根据时间区域对明细数据层表中的明细数据进行处理,得到时间区域对应的目标业务数据,目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
在本公开实施例中,数据分析方法还可以包括:获取数据库管理系统中按照不同时间粒度存储的大数据接口服务访问量数据;根据大数据接口服务访问量数据对不同的大数据接口进行服务访问量统计,得到大数据接口服务访问量统计数据。
在本公开实施例中,数据分析方法还可以包括:根据时间区域对根据明细数据获取目标业务数据的过程进行质量监控,得到质量监控结果,质量监控结果至包括以下一种:应计算指标个数、实际计算指标个数、异常结果个数、延迟个数、计算完成率、异常结果比例和延迟结果比例。
在本公开实施例中,数据分析方法还可以包括:根据大数据接口服务访问量数据获取访问用户的访问趋势数据,访问趋势数据至少包括以下一种:日期、系统代码、系统名称、页面访问量和独立访客。
在本公开实施例中,数据分析方法还可以包括:根据时间区域对明细数据进行处理,得到设备资产管理数据,设备资产管理数据至少包括以下一种:园区编码、园区名称、系统编码、系统名称、设备类型、设备类型名称、设备ID、设备名称、设备所属公司和业务时间。
在本公开实施例中,数据分析方法还可以包括根据时间区域对明细数据层表中的明细数据进行实时处理,得到时间区域对应的目标业务数据。
在本公开实施例中,数据分析方法还可以包括:根据时间区域对明细数据层表中的大数据项目的明细数据进行离线处理,得到离线工作流和任务的处理数据。
在本公开实施例中,数据分析方法还可以包括:将各模块的处理结果形成报表图像并将报表图像发送到显示装置进行显示。
在本公开实施例中,数据分析方法还可以包括:在目标业务数据触发告警策略时,生成告警数据进行告警,告警策略包括异常数据量大于等于设定的阈值。
由于本公开的示例实施例的数据分析方法的各个步骤与上述数据分析系统的示例实施例的各个模块对应,因此对于本公开方法实施例中未披露的细节,请参照本公开上述的数据分析系统的实施例。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
本公开实施例中的数据分析方法,通过根据分布式文件系统中的原始量测数据得到物联设备量测点的明细数据,并根据该明细数据得到目标业务数据,以根据目标业务数据了解企业的各个部门各个环节的数据情况,从而可以了解业务场景,提高工作效率。
本公开实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述数据分析方法的步骤。
本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述数据分析方法的步骤。
图5是本公开实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种数据分析系统,其特征在于,所述数据分析系统包括:
原始数据获取模块,用于从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中;
数据预处理模块,用于将所述原始数据层表中的原始量测数据进行抽取、清洗和转换,得到所述物联设备量测点的明细数据,存储到明细数据层表中,所述明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间;
数据处理模块,用于根据时间区域对所述明细数据层表中的明细数据进行处理,得到所述时间区域对应的目标业务数据,所述目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
2.根据权利要求1所示的数据分析系统,其特征在于,所述数据分析系统还包括大数据统计模块,用于:
获取数据库管理系统中按照不同时间粒度存储的大数据接口服务访问量数据;
根据所述大数据接口服务访问量数据对不同的大数据接口进行服务访问量统计,得到大数据接口服务访问量统计数据。
3.根据权利要求1所示的数据分析系统,其特征在于,所述数据分析系统还包括质量监控模块,用于:
根据时间区域对根据明细数据获取目标业务数据的过程进行质量监控,得到质量监控结果,所述质量监控结果至包括以下一种:应计算指标个数、实际计算指标个数、异常结果个数、延迟个数、计算完成率、异常结果比例和延迟结果比例。
4.根据权利要求2所示的数据分析系统,其特征在于,所述数据分析系统还包括访问趋势统计模块,用于根据所述大数据接口服务访问量数据获取访问用户的访问趋势数据,所述访问趋势数据至少包括以下一种:日期、系统代码、系统名称、页面访问量和独立访客。
5.根据权利要求1所示的数据分析系统,其特征在于,所述数据分析系统还包括设备资产管理模块,用于根据时间区域对明细数据进行处理,得到设备资产管理数据,所述设备资产管理数据至少包括以下一种:园区编码、园区名称、系统编码、系统名称、设备类型、设备类型名称、设备ID、设备名称、设备所属公司和业务时间。
6.根据权利要求2所示的数据分析系统,其特征在于,所述数据处理模块包括实时处理子模块,用于根据时间区域对所述明细数据层表中的明细数据进行实时处理,得到所述时间区域对应的目标业务数据。
7.根据权利要求6所示的数据分析系统,其特征在于,所述数据处理模块包括离线处理子模块,用于根据时间区域对所述明细数据层表中的大数据项目的明细数据进行离线处理,得到离线工作流和任务的处理数据。
8.根据权利要求1所述的数据分析系统,其特征在于,所述数据分析系统还包括展示模块,用于将各模块的处理结果形成报表图像并将所述报表图像发送到显示装置进行显示。
9.根据权利要求4所述的数据分析系统,其特征在于,所述数据分析系统还包括告警模块,用于在所述目标业务数据触发告警策略时,生成告警数据进行告警,所述告警策略包括异常数据量大于等于设定的阈值。
10.一种数据分析方法,其特征在于,所述方法包括:
从分布式文件系统中获取全部物联设备量测点的原始量测数据并存储到原始数据层表中;
将所述原始数据层表中的原始量测数据进行抽取、清洗和转换,得到所述物联设备量测点的明细数据,存储到明细数据层表中,所述明细数据至少包括以下一种:企业系统编码、物联设备编码、域名、测点名、测点值、数据业务时间、系统更新时间;
根据时间区域对所述明细数据层表中的明细数据进行处理,得到所述时间区域对应的目标业务数据,所述目标业务数据至少包括以下一种:业务域、系统、设备类型、设备、量测点类型和量测点。
CN202210609455.8A 2022-05-31 2022-05-31 数据分析系统及方法 Pending CN114969187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210609455.8A CN114969187A (zh) 2022-05-31 2022-05-31 数据分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210609455.8A CN114969187A (zh) 2022-05-31 2022-05-31 数据分析系统及方法

Publications (1)

Publication Number Publication Date
CN114969187A true CN114969187A (zh) 2022-08-30

Family

ID=82958110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210609455.8A Pending CN114969187A (zh) 2022-05-31 2022-05-31 数据分析系统及方法

Country Status (1)

Country Link
CN (1) CN114969187A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820892A (zh) * 2023-07-14 2023-09-29 佛山众陶联供应链服务有限公司 一种针对于数仓的数据处理监控系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820892A (zh) * 2023-07-14 2023-09-29 佛山众陶联供应链服务有限公司 一种针对于数仓的数据处理监控系统

Similar Documents

Publication Publication Date Title
Bordin et al. DSPBench: A suite of benchmark applications for distributed data stream processing systems
CA2947158A1 (en) Systems, devices and methods for generating locality-indicative data representations of data streams, and compressions thereof
WO2019051042A1 (en) APPARATUS AND METHOD FOR REAL-TIME ANALYSIS, PREDICTION AND ABORIGINAL DATA BASE TRANSACTION LOG ACTIVITY REPORT
CN112989156A (zh) 一种基于大数据的政策与企业匹配的方法和系统
KR102529038B1 (ko) 리소스 관리 및 제어 방법 및 장치, 디바이스 및 저장매체
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
US20170046376A1 (en) Method and system for monitoring data quality and dependency
CN112948397A (zh) 一种数据处理系统、方法、装置及存储介质
CN112559475A (zh) 数据实时捕获和传输方法及系统
CN116308824A (zh) 基于知识图谱的团伙欺诈风险识别方法及相关设备
US20230018388A1 (en) Real time fault tolerant stateful featurization
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN114969187A (zh) 数据分析系统及方法
CN108520052A (zh) 慢查询信息检索方法、装置、服务器及可读存储介质
Neumaier et al. Measures for assessing the data freshness in Open Data portals
CN113360581A (zh) 数据处理方法、装置及存储介质
Jain et al. Scalable social analytics for live viral event prediction
CN117131059A (zh) 报表数据处理方法、装置、设备及存储介质
WO2023278975A1 (en) Making decisions for placing data in a multi-tenant cache
CN115033574A (zh) 信息生成方法、信息生成装置、电子设备及存储介质
CN115248815A (zh) 预测查询处理
CN113297436A (zh) 基于关系图网络的用户策略分配方法、装置及电子设备
CN112995243A (zh) 一种基于大数据的政策信息推送方法和系统
US10558647B1 (en) High performance data aggregations
CN112148491B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination