CN113128848A - 全业务指标的数据质量监控方法、电子设备及存储介质 - Google Patents
全业务指标的数据质量监控方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113128848A CN113128848A CN202110358163.7A CN202110358163A CN113128848A CN 113128848 A CN113128848 A CN 113128848A CN 202110358163 A CN202110358163 A CN 202110358163A CN 113128848 A CN113128848 A CN 113128848A
- Authority
- CN
- China
- Prior art keywords
- data
- service index
- service
- monitoring rule
- quality monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种全业务指标的数据质量监控方法、电子设备及计算机可读存储介质。该全业务指标的数据质量监控方法包括:获取业务指标;基于业务指标选取对应的监控规则;对对应的监控规则进行有效性校验;若校验成功,则利用监控规则的配置数据对业务指标进行校验。通过这种方式,能够实现提高数据中台的服务质量及数据质量监控的效率。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种全业务指标的数据质量监控方法、电子设备及计算机可读存储介质。
背景技术
在数据加工链条长且复杂,数据处理痛点多样导致多类应用数据库并存的场景下,“只控上游”的传统解决方案已无法满足应用侧(尤其是报表)的数据质量要求。下游也需要对数据做结果性校验及利用特定的业务逻辑从结果上判断数据准确性。
出于对查询性能的要求,通常报表数据会从数仓导出到各类专用的数据源中提供查询。大数据处理场景下数据库的种类可能还会很多,导致无法简单地从各类库中抽取数据进行统一检查。
业务角度来讲,报表层的逻辑不一定适合直接用来做监控。例如,在直播行业中,主播粒度的数据波动可能会比较大,直接监控主播粒度的指标可能会由于经常性的波动而判断错误,这时就会需要监控聚合后的维度,比如品类,根据品类数据与上个周期的差异来捕捉异常。甚至有些小品类也可能波动大,需要剔除,或通过限定监控的维度来实现。
由上述等原因导致现有数据中台的数据质量较低,且现有数据监控效率较低。
发明内容
本申请主要解决的技术问题是如何提高数据中台的服务质量及数据质量监控的效率。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种全业务指标的数据质量监控方法。该全业务指标的数据质量监控方法包括获取业务指标;基于业务指标选取对应的监控规则;对对应的监控规则进行有效性校验;若校验成功,则利用监控规则的配置数据对业务指标进行校验。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种电子设备。该电子设备包括处理器及与处理器耦接的存储器,处理器执行存储器中的程序指令时用于实现上述全业务指标的数据质量监控方法。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种计算机可读存储介质。该计算机可读存储介质上存储有程序指令,程序指令被执行时以实现上述全业务指标的数据质量监控方法。
本申请的有益效果是:区别于现有技术,本申请全业务指标的数据质量监控方法包括:获取业务指标;基于业务指标选取对应的监控规则;通过对应的监控规则进行有效性校验;若校验成功,则利用监控规则的配置数据对业务指标进行校验。通过这种方式,本申请为业务指标选取对应的监控规则,并对该监控规则的有效性进行校验,利用有效的监控规则对业务指标进行校验,能够对报表根据业务指标实际情况加上对应的监控规则,而不用关心不同数据源导致的数据采集等问题,每次产生数据后都利用监控规则对应用库的数据(业务指标)进行校验,能够保证一旦数据出现问题时能第一时间发现并处理,因此,能够提高数据中台的服务质量,且提高数据质量监控的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请全业务指标的数据质量监控方法一实施例的结构示意图;
图2是图1实施例全业务指标的数据质量监控方法中步骤S13的具体流程示意图;
图3是图1实施例全业务指标的数据质量监控方法中步骤S13的具体流程示意图;
图4是图1实施例全业务指标的数据质量监控方法中步骤S13的具体流程示意图;
图5是图1实施例全业务指标的数据质量监控方法中步骤S14的具体流程示意图;
图6是本申请全业务指标的数据质量监控方法一实施例的结构示意图;
图7是本申请全业务指标的数据质量监控方法一实施例的结构示意图;
图8是本申请全业务指标的数据质量监控方法一实施例的结构示意图;
图9是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
数据质量是数据中台服务质量的一个重要衡量指标。用户在错误的信息下做出错误的决策,结果影响可能是巨大的。若能监控中台提供的所有报表数据的质量,在数据出现问题时及时屏蔽掉,降低用户看到错误信息的几率,并且快速修复,在用户使用数据之前修复,就能避免一次错误数据的提供,提高数据中台的服务质量。为了能方便快速的执行监控规则,需要一个易用的方法来对所有的报表数据根据业务实际情况加上对应的监控规则,而不用关心不同数据源导致的数据采集等问题,每次产生数据后都采用对应的监控规则对应用库的数据进行规则校验,保证一旦数据出现问题时能第一时间发现并处理。
为此,本申请首先提出一种全业务指标的数据质量监控方法,如图1所示,图1是本申请全业务指标的数据质量监控方法一实施例的结构示意图。本实施例全业务指标的数据质量监控方法包括以下步骤:
步骤S11:获取业务指标。
业务指标可以是报表数据,其可以包括多个指标数据及其指标计算方式、来源、分组情况及计算规则等,还可以包括多个指标之间的逻辑关系等。
步骤S12:基于业务指标选取对应的监控规则。
本实施例可以对业务指标进行解析,以获得业务指标的至少部分上述属性,并基于上述属性选取对应的监控规则。其中监控规则基于其配置数据对业务指标进行校验,监控规则的配置数据从数据库获取。
业务指标的监控规则可以事先根据业务指标的属性及数据结构等进行设置并存储;在对业务指标进行监控时,从已存储的监控规则中选择与业务指标对应的监控规则。
步骤S13:对对应的监控规则进行有效性校验。
本实施例在利用监控规则对业务数据进行校验之前,先对监控规则的有效性进行校验,避免监控规则错误或者无效导致对业务数据校验错误及失败的问题,能够提供业务指标的数据质量的监控精确度。
可选地,本实施例的监控规则可以包括查询语言表达式是否能正常运行,本实施例可以通过如图2所示的方法实现步骤S13。本实施例的方法包括步骤S21至步骤S24:
步骤S21:获取与业务指标对应的查询语言表达式,并构建第一分布式数据集。
其中,本实施例的查询语言可以是结构化查询语言(Structured QueryLanguage,SQL);SQL是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
本实施例的分布式数据集可以是弹性分布式数据集(Resilient DistributedDataset,RDD);RDD是Spark计算引擎中的核心概念,其本质是一个泛型的数据对象,可以理解为数据容器,本身是一个复合型的数据结构。Spark是专为大规模数据处理而设计的快速通用的计算引擎。
SQL主要用于指定需进行数据质量监控的业务指标并获取从数据库获取其相关数据,该数据库定义了数据访问信息。
在一应用场景中,可以将获取的业务指标及相关数据、数据库访问信息及SQL等数据及之间的关系构建成第一分布式数据集。
步骤S22:判断第一分布式数据集对应的物理执行计划是否可执行。
在计算出第一分布式数据集对应的逻辑计划并优化后,会派生出多个不同的物理执行计划;不同的物理计划会产生不同的执行代价,因此,可以在物理执行计划执行之前进行代价估计,然后执行引擎将选择代价最小的物理计划作为第一分布式数据集对应的物理执行计划。
物理执行计划通常包括SQL查询的顺序、是否使用索引、以及使用索引的信息等,对物理执行计划的完整性及合法性进行验证。
步骤S23:如果物理执行计划可执行,则校验通过。
步骤S24:若物理执行计划不可执行,则校验不通过,返回语法错误信息。
获取监控规则的SQL表达式并构建为第一RDD;判断第一RDD对应的物理执行计划是否可执行,如果不可执行,则返回语法错误信息,如果可执行,则校验通过。
可选地,本实施例的监控规则进一步包括是否全表扫描,本实施例进一步可以通过如图3所示的方法实现是否全表扫描的有效性校验。本实施例的方法包括步骤S31至步骤S34:
步骤S31:若物理执行计划可执行,则从物理执行计划中获取表扫描器对象。
本实施例的表扫描器对象为全表扫描器对象。
全表扫描是数据库访问数据的存取方法,读取表中所有的行,并检查每一行是否满足语句的限制条件,一个多块读操作可以使一次I/O能读取多块数据块,利用多块读的方法可以十分高效地实现全表扫描。
若上述第一RDD对应的物理执行计划可执行,则从物理执行计划中获取表扫描器对象。
步骤S32:判断表扫描器对象是否包含日期条件过滤限制。
读取表中所有的行,并检查每一行是否是否包含日期条件过滤限制。
步骤S33:若表扫描器包含日期条件过滤限制,则校验通过。
步骤S34:若表扫描器对象未包含日期条件过滤限制,则校验失败,返回全表扫描错误信息。
基于校验通过的SQL表达式的物理执行计划,从物理执行计划中获取表扫描器对象,并逐个判断每个表扫描器对象是否有日期条件过滤限制,如果某个表扫描器对象中未包含日期条件过滤限制,则校验失败,且返回全表扫描错误信息,如果所有表扫描器对象中都包含日期条件过滤限制,则校验通过。
可选地,本实施例的监控规则进一步包括配置数据是否有效,本实施例进一步可以通过如图4所示的方法实现配置数据是否有效的有效性校验。本实施例的方法包括步骤S41至步骤S43:
步骤S41:判断查询语言表达式是否包含业务指标。
判断SQL表达式是否包含上述获取的业务指标。
步骤S42:若查询语言表达式包含业务指标,则校验通过。
步骤S43:若查询语言表达式不包含业务指标,则校验不通过。
针对报表数据中的每个被监控的业务指标,需校验SQL表达式中是否包含该业务指标,如果任意一个业务指标未包含在SQL表达式中,则校验失败,返回校验失败信息;如果所有业务指标都包含在SQL表达式中,则校验通过。
步骤S14:若校验成功,则利用监控规则的配置数据对业务指标进行校验。
若业务指标的所有监控规则的有效性校验均通过,则监控规则的有效性校验成功,利用监控规则的配置数据对业务指标进行校验;其中,监控规则的配置数据从数据库获取。
进一步地,若业务指标对应的监控规则的有效性校验不成功,则产生告警,以便及时查询问题及修复数据。
可选地,本实施例进一步可以通过如图5所示的方法实现步骤S14。本实施例的方法包括步骤S51至步骤S54:
步骤S51:基于监控规则及第一分布式数据集计算业务指标的同比配置信息及环比配置信息。
基于SQL表达式生成的第一RDD,针对不同业务指标,从监控规则的配置数据中获取与业务指标对应的数据,并基于该数据计算业务指标的同比配置信息及环比配置信息;并根据同比配置信息及环比配置信息构建第二分布式数据集。
基于监控规则从第一RDD中获取业务指标的数据集(每个具体指标参数的源数据),数据集至少具有一个时间维度,对数据集按照时间先后顺序进行排序,得到时间维度区间;获取时间维度区间的最小值和最大值,计算同比的时间区间及环比的时间区间;处理不符合同比环比计算公式的异常数据。
步骤S52:分别计算业务指标的样本实例,样本实例包括原始数据样本、同比数据样本及环比数据样本。
基于第二分布式数据集针对不同业务指标分别计算出原始数据样本、同比数据样本及环比数据样本。
基于上述同比的时间区间、环比的时间区间及筛查异常数据后的数据集计算业务指标的同比数据样本及环比数据样本;其中,同比数据样本包括用于计算业务指标的同比涨幅的数据,环比数据样本包括用于计算业务指标的环比涨幅的数据。
步骤S53:基于样本实例计算业务指标的涨幅百分比。
基于原始数据样本、同比数据样本及环比数据样本计算出每个业务指标的涨幅百分比。
基于同比环比计算公式计算每个业务指标的同比涨幅及环比涨幅。其中,同比涨幅为本期数与同期数之间的差值与同期数之间的比值百分,环比涨幅为本期数与上期数之间的差值与上期数之间的比值百分。
步骤S54:将涨幅百分比与阈值百分比进行比对,并记录样本实例的风险系数及明细数据。
根据阈值信息将业务指标的涨幅百分比进行区间比对,并判断涨幅百分比是否位于正常区间;最终计算并记录每个样本实例的风险系数及样本实例的明细数据。
本实施例可以采用轮询(默认6小时等,可动态调配)的方式进行业务指标的样本实例数据采样及计算,即采用轮询方式依次执行步骤S51至步骤S54。
若业务指标的涨幅百分比大于阈值百分比,则产生告警信息。
针对超出阈值区间的样本实例,采样轮询检查的方式进行告警:扫描样本实例数据并校验样本实例数据是否超出阈值,如果超出阈值,进行告警消息推送内容拼装,并发送给指定告警接收人,未超出阈值的指标样本数据不发送告警。针对告警后的监控数据,支持明细数据查询,实现数据可溯源。
出于对查询性能的要求,通常报表数据会从数仓导出到各类专用的数据源中提供查询。大数据处理场景下数据库的种类可能还会很多,导致无法简单地从各类库中抽取数据进行同步查询,且数据散落在不同存储的数据库中,无法级联(跨库)验证。
为此,本申请先将各个数据库中的元数据进行解析及打通处理,并存储处理后的元数据,以使得各个数据库中的元数据能够进行统一操作,而无需复杂的配置。
为此,本申请进一步提出另一实施例的全业务指标的数据质量监控方法,如图6所示,本实施例包括以下步骤:
步骤S61:批量获取已配置好的报表配置文件,并依次解析报表配置文件。
批量拉取BI工具-TableAU(数据分析工具)已配置好的报表配置文件(Xml),并逐个解析报表配置文件。
步骤S62:从报表配置文件的根节点递归查找报表配置文件的工作簿节点、数据源节点及数据源依赖节点,并提取查询语言表达式、字段中/英文名映射、数据库连接信息。
从报表配置文件的根节点递归查找报表配置文件的工作簿节点、数据源节点及数据源依赖节点等关键节点,并提取SQL表达式、字段中/英文名映射、数据库连接信息(如:主机地址、端口、用户名等)等。
步骤S63:根据报表工作簿的名称将查询语言表达式、字段中/英文名映射、数据库连接信息与处理系统关联,并进行结构化存储,以建立数据库,其中,数据库包括监控规则的配置数据。
将SQL表达式、字段中/英文名映射、数据库连接信息与海思系统关联,并进行结构化存储。
步骤S61至步骤S63实现了BI工具-TableAU元数据打通,基于处理后的元数据,能够实现不同数据库中数据的统一操作及跨库查询。
步骤S64:获取业务指标。
步骤S65:基于业务指标选取对应的监控规则。
步骤S66:对对应的监控规则进行有效性校验。
步骤S67:若校验成功,则利用监控规则的配置数据对业务指标进行校验。
步骤S64至步骤S67与上述步骤S11至步骤S14类似,这里不赘述。
在其它实施例中,不限定步骤S61至步骤S63与步骤S64之间的执行顺序。
本申请进一步提出另一实施例的全业务指标的数据质量监控方法,如图7所示,本实施例包括以下步骤:
步骤S71:完成访问安全认证。
完成基础HTTP协议访问安全认证(OAuth)。
步骤S72:批量获取已配置好的报表配置文件,并循环调用远程服务获取报表看板、报表数据集、报表数据源。
批量拉取BI工具-Cboard已配置好报表列表,并循环调用远程服务获取报表看板、报表数据集、报表数据源等元数据。
步骤S73:根据所述远程服务返回的数据进行反序列化为对象,并提取查询语言表达式、字段中/英文名映射、数据库连接信息。
根据返回JSON数据进行反序列化为对象,并提取SQL表达式、字段中/英文名映射、数据库连接信息(如:主机地址、端口、用户名等)等。
步骤S74:根据报表工作簿的名称将查询语言表达式、字段中/英文名映射、数据库连接信息与处理系统关联,并进行结构化存储,以建立数据库,其中,数据库包括监控规则的配置数据。
将SQL表达式、字段中/英文名映射、数据库连接信息与海思系统关联,并进行结构化存储。
步骤S71至步骤S74实现了BI工具-Cboard元数据打通,基于处理后的元数据,能够实现不同数据库中数据的统一操作及跨库查询。
步骤S75:获取业务指标。
步骤S76:基于业务指标选取对应的监控规则。
步骤S77:对对应的监控规则进行有效性校验。
步骤S78:若校验成功,则利用监控规则的配置数据对业务指标进行校验。
步骤S75至步骤S78与上述步骤S11至步骤S14类似,这里不赘述。
在其它实施例中,不限定步骤S71至步骤S74与步骤S75之间的执行顺序。
在其它实施例中,还可以实现其它BI工具元数据的打通。
在另一实施例中,还需要初始化监控规则的执行环境,具体地,初始化监控规则的计算引擎,并注册装载预定义函数;装载融合计算驱动程序,并验证驱动程序有效性;获取监控规则的配置数据,装载数据源连接器,完成业务指标的分布式数据集的构建。
监控规则计算分为两个部分,分别为监控规则的有效性校验及监控规则的配置数据对业务指标的校验,即监控规则实例计算两部分,且两个环境中均需要进行基础环境初始化。首先初始化Spark计算引擎的会话控制SparkSession及会话控制编目SparkSessionCatalog,并注册装载SQL执行中可能使用到的预定义函数(如:日期比较函数或字典排序函数,共168个;其次,装载融合计算驱动程序,驱动程序需统一遵循Java数据库连接(Java Database Connectivity,JDBC)规范,并验证驱动程序有效性;最后,获取监控规则的元数据配置,装载数据源连接器,完成RDD的构建,便于后续步骤使用。
在另一实施例中,还可以从客户端监听到查询语句,并生成物理执行计划;对配置的业务指标的样本实例数据进行核对,并将核对结果反馈给客户端。
本实施例进一步提供了基于Hive-JDBC协议的客户端交互式查询方法:基于Hive-JDBC协议,实现JDBC连接方式的查询引擎。
监听端口并通过Socket建立客户端长连接,接收JDBC客户端发送的SQL查询语句,生成并执行物理执行计划,将结果返回给客户端。查询引擎也需初始化执行环境:注册加载计算时所需的预定义函数,并初始化相关外部需融合计算的数据源(包括但不限于:Vertica、Mysql、CK等)连接信息及进行字典映射。客户端通过JDBC完成连接认证后,会为每个客户端分配独立的会话控制环境,避免客户端会话控制冲突引发的一系列问题。通过该查询引擎,可对监控配置的样本实例数据进行查询核对,便于查询问题,也可通过该查询引擎,提前分析出合理的阈值区间,进行监控规则的阈值调优。
其中,Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制;JDBC是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。
本申请进一步提出一种电子设备,如图8所示,图8是本申请电子设备一实施例的结构示意图。本实施例的电子设备80包括处理器81、存储器82、输入输出设备83以及总线84。
该处理器81、存储器82、输入输出设备83分别与总线84相连,该存储器82中存储有程序数据,处理器81用于执行程序数据以实现上述实施例的全业务指标的数据质量监控方法。
在本实施例中,处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器81也可以是任何常规的处理器等。
本申请进一步提出一种计算机可读存储介质,如图9所示,图9是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质90其上存储有程序指令91,程序指令91被处理器(图未示)执行时实现上述全业务指标的数据质量监控方法。
本实施例计算机可读存储介质90可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器等。
区别于现有技术,本申请全业务指标的数据质量监控方法包括:获取业务指标;基于业务指标选取对应的监控规则;通过对应的监控规则进行有效性校验;若校验成功,则利用监控规则的配置数据对业务指标进行校验。通过这种方式,本申请为业务指标选取对应的监控规则,并对该监控规则的有效性进行校验,利用有效的监控规则对业务指标进行校验,能够对报表根据业务指标实际情况加上对应的监控规则,而不用关心不同数据源导致的数据采集等问题,每次产生数据后都利用监控规则对应用库的数据(业务指标)进行校验,能够保证一旦数据出现问题时能第一时间发现并处理,因此,能够提高数据中台的服务质量,且提高数据质量监控的效率。
另外,上述功能如果以软件功能的形式实现并作为独立产品销售或使用时,可存储在一个移动终端可读取存储介质中,即,本申请还提供一种存储有程序数据的存储装置,所述程序数据能够被执行以实现上述实施例的方法,该存储装置可以为如U盘、光盘、服务器等。也就是说,本申请可以以软件产品的形式体现出来,其包括若干指令用以使得一台智能终端执行各个实施例所述方法的全部或部分步骤。
在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种全业务指标的数据质量监控方法,其特征在于,包括:
获取业务指标;
基于所述业务指标选取对应的监控规则;
对所述对应的监控规则进行有效性校验;
若校验成功,则利用所述监控规则的配置数据对所述业务指标进行校验。
2.根据权利要求1所述的数据质量监控方法,其特征在于,所述监控规则包括查询语言表达式是否能正常运行,所述对所述对应的监控规则进行有效性校验包括:
获取与所述业务指标对应的查询语言表达式,并构建第一分布式数据集;
判断所述第一分布式数据集对应的物理执行计划是否可执行;
如果所述物理执行计划可执行,则校验通过;
若所述物理执行计划不可执行,则校验不通过,返回语法错误信息。
3.根据权利要求2所述的数据质量监控方法,其特征在于,所述监控规则包括进一步包括是否全表扫描,所述对所述对应的监控规则进行有效性校验包括:
若所述物理执行计划可执行,则从所述物理执行计划中获取表扫描器对象;
判断所述表扫描器对象是否包含日期条件过滤限制;
若所述表扫描器包含所述日期条件过滤限制,则校验通过;
若所述表扫描器对象未包含所述日期条件过滤限制,则校验失败,返回全表扫描错误信息。
4.根据权利要求2所述的数据质量监控方法,其特征在于,所述监控规则包括进一步包括配置数据是否有效,所述对所述对应的监控规则进行有效性校验包括:
判断所述查询语言表达式是否包含所述业务指标;
若所述查询语言表达式包含所述业务指标,则校验通过。
5.根据权利要求2所述的数据质量监控方法,其特征在于,所述若校验成功,则利用所述监控规则的配置数据对所述业务指标进行校验包括采用轮询方式依次执行下述子步骤:
基于所述监控规则及所述第一分布式数据集计算所述业务指标的同比配置信息及环比配置信息;
分别计算所述业务指标的样本实例,所述样本实例包括原始数据样本、同比数据样本及环比数据样本;
基于所述样本实例计算所述业务指标的涨幅百分比;
将所述涨幅百分比与阈值百分比进行比对,并记录所述样本实例的风险系数及明细数据。
6.根据权利要求5所述的数据质量监控方法,其特征在于,进一步包括:
若所述涨幅百分比大于所述阈值百分比,则产生告警信息。
7.根据权利要求1所述的数据质量监控方法,其特征在于,在所述基于所述业务指标选取对应的监控规则之前包括:
批量获取已配置好的报表配置文件,并依次解析所述报表配置文件;
从所述报表配置文件的根节点递归查找所述报表配置文件的工作簿节点、数据源节点及数据源依赖节点,并提取查询语言表达式、字段中/英文名映射、数据库连接信息;
根据所述报表工作簿的名称将所述查询语言表达式、所述字段中/英文名映射、所述数据库连接信息与处理系统关联,并进行结构化存储,以建立数据库,其中,所述数据库包括所述监控规则的配置数据。
8.根据权利要求1所述的数据质量监控方法,其特征在于,在所述基于所述业务指标选取对应的监控规则之前包括:
完成访问安全认证;
批量获取已配置好的报表配置文件,并循环调用远程服务获取报表看板、报表数据集、报表数据源;
根据所述远程服务返回的数据进行反序列化为对象,并提取查询语言表达式、字段中/英文名映射、数据库连接信息;
根据所述报表工作簿的名称将所述查询语言表达式、字段中/英文名映射、数据库连接信息与处理系统关联,并进行结构化存储,以建立数据库,其中,所述数据库包括所述监控规则的配置数据。
9.根据权利要求1所述的数据质量监控方法,其特征在于,进一步包括:
从客户端监听到查询语句,生成并执行物理执行计划;
对配置的所述业务指标的样本实例数据进行核对,并将核对结果反馈给所述客户端。
10.根据权利要求1所述的数据质量监控方法,其特征在于,在所述对所述监控规则进行有效性校验之前包括:
初始化所述监控规则的计算引擎,并注册装载预定义函数;
装载融合计算驱动程序,并验证所述驱动程序有效性;
获取所述监控规则的配置数据,装载数据源连接器,完成所述业务指标的分布式数据集的构建。
11.一种电子设备,其特征在于,所述电子设备包括处理器及与所述处理器耦接的存储器,所述处理器执行所述存储器中的程序指令时用于实现权利要求1-10任一项所述的全业务指标的数据质量监控方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序指令,所述程序指令被执行时以实现权利要求1-10任一项所述的全业务指标的数据质量监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358163.7A CN113128848A (zh) | 2021-04-01 | 2021-04-01 | 全业务指标的数据质量监控方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358163.7A CN113128848A (zh) | 2021-04-01 | 2021-04-01 | 全业务指标的数据质量监控方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128848A true CN113128848A (zh) | 2021-07-16 |
Family
ID=76774671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110358163.7A Pending CN113128848A (zh) | 2021-04-01 | 2021-04-01 | 全业务指标的数据质量监控方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128848A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303380A (zh) * | 2023-01-10 | 2023-06-23 | 浪潮智慧科技有限公司 | 一种监测业务中的数据质量校验方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309125A (zh) * | 2019-06-24 | 2019-10-08 | 招商局金融科技有限公司 | 数据校验方法、电子装置及存储介质 |
CN112328619A (zh) * | 2020-09-24 | 2021-02-05 | 杭州小电科技股份有限公司 | 数据质量监控方法、装置、系统、电子装置和存储介质 |
CN112488855A (zh) * | 2020-11-23 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种基于规则模板的业务校验方法及设备 |
-
2021
- 2021-04-01 CN CN202110358163.7A patent/CN113128848A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309125A (zh) * | 2019-06-24 | 2019-10-08 | 招商局金融科技有限公司 | 数据校验方法、电子装置及存储介质 |
CN112328619A (zh) * | 2020-09-24 | 2021-02-05 | 杭州小电科技股份有限公司 | 数据质量监控方法、装置、系统、电子装置和存储介质 |
CN112488855A (zh) * | 2020-11-23 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种基于规则模板的业务校验方法及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303380A (zh) * | 2023-01-10 | 2023-06-23 | 浪潮智慧科技有限公司 | 一种监测业务中的数据质量校验方法、设备及介质 |
CN116303380B (zh) * | 2023-01-10 | 2024-01-23 | 浪潮智慧科技有限公司 | 一种监测业务中的数据质量校验方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506451B (zh) | 用于数据交互的异常信息监控方法及装置 | |
US10467316B2 (en) | Systems and methods for web analytics testing and web development | |
US10282197B2 (en) | Open application lifecycle management framework | |
CN109933514B (zh) | 一种数据测试方法和装置 | |
CN112148509A (zh) | 数据处理方法、装置、服务器及计算机可读存储介质 | |
CN114116496A (zh) | 自动化测试方法、装置、设备及介质 | |
CN109445768B (zh) | 数据库脚本生成方法、装置、计算机设备及存储介质 | |
CN113128848A (zh) | 全业务指标的数据质量监控方法、电子设备及存储介质 | |
CN113138906A (zh) | 一种调用链数据采集方法、装置、设备及存储介质 | |
CN111026972B (zh) | 物联网中的订阅数据推送方法、装置、设备及存储介质 | |
CN113515455B (zh) | 自动化测试方法以及系统 | |
CN115643172A (zh) | 一种异常检测方法、装置、终端设备及存储介质 | |
CN115576831A (zh) | 一种测试案例推荐方法、装置、设备及存储介质 | |
CN114579716A (zh) | 知识图谱的查询方法及装置 | |
CN113641523A (zh) | 一种日志处理方法及装置 | |
CN112579673A (zh) | 一种多源数据处理方法及装置 | |
CN111831534A (zh) | 一种对数据报表进行准确性验证的方法和装置 | |
CN113037521A (zh) | 识别通讯设备状态的方法、通讯系统及存储介质 | |
CN115186023B (zh) | 一种数据集生成方法、装置、设备及介质 | |
CN110688530A (zh) | 一种json数据的处理方法及装置 | |
CN112597109B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
CN113778886B (zh) | 一种测试用例的处理方法和装置 | |
CN118070067A (zh) | 基于Flink技术的数据校验方法、装置和计算机设备 | |
CN116431677B (zh) | 基于内存数据库的数据路由方法、系统和可读存储介质 | |
CN110019109B (zh) | 用于处理数据仓库数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |