CN110275878B - 业务数据检测方法、装置、计算机设备及存储介质 - Google Patents
业务数据检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110275878B CN110275878B CN201910557452.2A CN201910557452A CN110275878B CN 110275878 B CN110275878 B CN 110275878B CN 201910557452 A CN201910557452 A CN 201910557452A CN 110275878 B CN110275878 B CN 110275878B
- Authority
- CN
- China
- Prior art keywords
- dimension
- service data
- data
- target index
- coverage range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
Abstract
本公开关于一种业务数据检测方法、装置、计算机设备及存储介质。通过获取目标时间段的业务数据所包括的维度;基于业务数据的类型确定目标指标,所述目标指标包括多个与类型对应的指标;获取目标指标对应的维度覆盖范围,维度覆盖范围用于指示统计目标指标所需的维度;将业务数据所包括的维度与维度覆盖范围进行比对;当业务数据所包括的维度不满足维度覆盖范围时,确定业务数据异常。本公开的实施例通过确定统计某个指标所需的维度,来考虑业务数据在维度上是否完整,从所需维度的角度来切入,可以保证不会出现由于业务数据在维度上缺失而造成的数据质量差的问题,避免产生错误或片面的分析结论,提高了数据检测的效率以及分析的准确性。
Description
技术领域
本公开涉及数据处理领域,尤其涉及业务数据检测方法、装置、计算机设备及存储介质。
背景技术
目前,在对海量的业务数据进行监控以及分析时,通常采用多维根因分析方法,也即是,从多个维度对包括多个指标的业务数据进行分析。在多维根因分析的场景中,数据的质量很关键,如果是基于质量不高的数据进行数据分析时,很可能得出错误的结论。因此,如何从业务数据中检测出低质量的业务数据在多维根因分析的场景非常重要。
目前在对业务数据进行检测时,通常可以设置一个统计标准,对业务数据进行汇总后验证其是否满足该统计标准,基于验证结果来检测出业务数据的质量。
然而,上述现有的业务数据检测检测方法中,统计标准一般是某个标准需满足没有数值范围,或某个指标是否满足某种数据规律等方式,这类统计标准单一、片面,基于这类统计标准检测出的业务数据进行分析,也很容易产生错误或片面的分析结论,数据检测的效率较低,从而导致分析的准确性差。
发明内容
本公开提供一种业务数据检测方法、装置、计算机设备及存储介质,以至少解决相关技术中容易产生错误或片面的分析结论,数据检测的效率较低,从而导致分析的准确性差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种业务数据检测方法,包括:
获取目标时间段的业务数据所包括的维度;
基于所述业务数据的类型确定目标指标,所述目标指标包括多个与所述类型对应的指标;
获取目标指标对应的维度覆盖范围,维度覆盖范围用于指示统计目标指标所需的维度;
将业务数据所包括的维度与维度覆盖范围进行比对;
当业务数据所包括的维度不满足维度覆盖范围时,确定业务数据异常
在一种可能的实施方式中,将业务数据所包括的维度与维度覆盖范围进行比对,包括:
从目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量;
当业务数据所包括的维度数量与目标指标所需的维度数量不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实施方式中,将业务数据所包括的维度与维度覆盖范围进行比对,包括:
从目标指标对应的维度覆盖范围中,获取各个维度对应的枚举值;
当业务数据所包括的维度的枚举值的数量和取值范围的任一项与各个维度对应的枚举值的数量和取值范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实施方式中,将业务数据所包括的维度与维度覆盖范围进行比对,包括:
从目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期用于表示维度从创建到结束的时间段;
当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实施方式中,将业务数据所包括的维度与维度覆盖范围进行比对,包括:
从目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布范围;
当业务数据所包括的维度分布范围与各个维度对应的维度分布范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实施方式中,获取目标时间段的业务数据所包括的维度之后,方法还包括:
获取业务数据的数据格式;
将数据格式信息与预设数据格式规则进行匹配;
当业务数据的数据格式与预设数据格式规则不匹配时,确定业务数据异常。
在一种可能的实施方式中,确定业务数据异常之后,方法还包括:
获取异常的业务数据对应的维度;
基于维度,确定出异常的业务数据的位置;
输出异常业务数据报告,异常业务数据报告包括异常的业务数据的位置。
根据本公开实施例的第二方面,提供一种业务数据处理装置,包括:
第一获取单元,被配置为获取目标时间段的业务数据所包括的维度;
第一确定单元,被配置为基于所述业务数据的类型确定目标指标,所述目标指标包括多个与所述类型对应的指标;
第二获取单元,被配置为获取目标指标对应的维度覆盖范围,维度覆盖范围被配置为指示统计目标指标所需的维度;
比对单元,被配置为将业务数据所包括的维度与维度覆盖范围进行比对;
第二确定单元,被配置为当业务数据所包括的维度不满足维度覆盖范围时,确定业务数据异常。
在一种可能的实现方式中,上述比对单元具体被配置为:
从目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量;
当业务数据所包括的维度数量与目标指标所需的维度数量不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的枚举值;
当业务数据所包括的维度的枚举值的数量和取值范围的任一项与各个维度对应的枚举值的数量和取值范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期被配置为表示维度从创建到结束的时间段;
当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布范围;
当业务数据所包括的维度分布范围与各个维度对应的维度分布范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
获取业务数据的数据格式;
将数据格式信息与预设数据格式规则进行匹配;
当业务数据的数据格式与预设数据格式规则不匹配时,确定业务数据异常。
在一种可能的实现方式中,上述装置还包括:
输出单元,被配置为获取异常的业务数据对应的维度;基于维度,确定出异常的业务数据的位置;输出异常业务数据报告,异常业务数据报告包括异常的业务数据的位置。
根据本公开实施例的第三方面,提供一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如上述任一项的业务数据检测方法。
根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行如上述任一项的业务数据检测方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括可执行指令,当计算机程序产品中的指令由计算机设备的处理器执行时,使得计算机设备能够执行如上述任一项的业务数据检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开的实施例通过确定统计某个指标所需的维度,来考虑业务数据在维度上是否完整,从所需维度的角度来切入,可以保证不会出现由于业务数据在维度上缺失而造成的数据质量差的问题,避免产生错误或片面的分析结论,提高了数据检测的效率以及分析的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种业务数据检测的流程图;
图2为根据一示例性实施例示出的对业务数据的维度数量进行检测的实现流程图;
图3为根据一示例性实施例示出的对业务数据的维度枚举值进行检测的实现流程图;
图4为根据一示例性实施例示出的对业务数据的维度生命周期进行检测的的实现流程图;
图5是根据一示例性实施例示出的一种对业务数据的维度枚举值进行检测的的实现流程图;
图6是根据一示例性实施例示出的一种检测业务数据格式的流程图;
图7是提供的一示例性实施例示出的一种检测业务数据质量的流程图;
图8是提供的一示例性实施例示出的一种运行业务数据检测的流程图;
图9是根据一示例性实施例示出的一种业务数据检测装置;
图10是根据一示例性实施例示出的一种计算机设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
业务数据的根因分析是为了逐步找到问题的根本原因并加以解决,而在对业务数据进行多维根因分析过程中,是在根因分析的步骤中通过下钻维度来分许维度下对业务异常造成的影响程度,通常是针对某一时间段内的业务数据进行分析,在为了保证分析结果的准确性,对该时间段的业务数据的完整性和连续性进行检测,判断其是否符合预期,图1是根据一示例性实施例示出的一种业务数据检测的流程图,如图1所示,该数据处理方法用于计算机设备中,包括以下步骤。
在步骤101中,获取目标时间段的业务数据所包括的维度。
在一种可能的实现方式中,从数据库中获取某一时间段的业务数据,在数据库中也相应记录了每项业务数据的时间信息,该时间信息可以是数据库接收到业务数据时的时间信息、业务数据更新时的时间信息以及生成业务数据时的时间信息等,基于此,可以根据实际需求获取对应时间段内的业务数据。
在一种可能的实现方式中,上述数据库中所存储的业务数据可以通过数据表的形式进行存储,在该数据表中业务数据时由维度和指标组成,其中,维度通常是指业务数据的属性,可以包括:维度的数量、维度对应的枚举值、维度对应的生命周期以及维度对应的维度分布,指标通常是指业务数据量化的标准。
例如,在网页浏览的会话场景中,“城市”维度表示会话发起的城市,“网页”维度表示的是用户浏览过的网页的网址,“会话数”指标是会话的总数量,“每次会话浏览网页数量”指标是指每次会话的平均网页浏览量。
在步骤102中,基于业务数据的类型确定目标指标,目标指标包括多个与类型对应的指标;
在本发明的一个实施例中,基于业务数据的类型,确定出用于检测业务数据的完整性格连续性的目标指标,该目标指标可以包括验证业数据的维度、纬度值的预期指标,维度的生命周期指标,业务数据整体的连续指标,将业务数据进行降维后的连续指标,业务数据格式指标等,将这个指标确定为该业务数据的目标指标。
在步骤103中,获取目标指标对应的维度覆盖范围,维度覆盖范围用于指示统计目标指标所需的维度。
在多维根因分析场景下通常是判断业务数据的完整性和指标对应维度的连续性来衡量业务数据质量是否达标,针对于业务数据的完整性和指标对应维度的连续性获取业务数据中指标对应维度覆盖范围,该指标对应的维度覆盖范围用于判断业务数据是否完整以及指标对应的维度是否连续。
在一种可能的实现方式中,上述目标指标对应的维度覆盖范围至少包括目标指标的维度值预期数量、维度的枚举值的预期数量和预期范围、维度的预期生命周期、维度在其生命周期内的预期分布、以及业务数据的数据格式定义中的一项,基于上述目标指标对应的维度覆盖范围实现后续对业务数据质量的检测。
在步骤104中,将业务数据所包括的维度与维度覆盖范围进行比对。
在一种可能的实现方式中,统计出业务数据中每天的指标以及与指标对应的维度数量,将统计出的目标治疗对应的维度数量与所获取覆盖范围中的目标指标的维度值预期数量进行比对,以判断业务数据是否缺失。
在一种可能的实现方式中,统计出业务数据中目标指标对应维度的枚举值,将该枚举值与所获取覆盖范围中的维度的枚举值的预期数量和预期范围进行比对,以判断该业务数据是否正常。
在一种可能的实现方式中,统计出业务数据中目标指标对应维度的生命周期以及在该生命周期内的分布,将该目标指标对应维度的生命周期以及在该生命周期内的分布与所获取覆盖范围中的维度的预期生命周期、维度在其生命周期内的预期分布进行比对,以判断该业务数据是否具备价值。
在一种可能的实现方式中,获取业务数据中各个数据的格式信息,将各个数据的格式信息与所获取覆盖范围的业务数据的数据格式定义进行扫描,以判断业务数据的格式是否正确。
在步骤105中,当业务数据所包括的维度不满足维度覆盖范围时,确定业务数据异常。
在一种可能的实现方式中,确定业务数据异常后,获取异常的业务数据对应的维度,基于维度,确定出异常的业务数据的位置,输出异常业务数据报告,异常业务数据报告包括异常的业务数据的位置。
本公开的实施例通过确定统计某个指标所需的维度,来考虑业务数据在维度上是否完整,从所需维度的角度来切入,可以保证不会出现由于业务数据在维度上缺失而造成的数据质量差的问题,避免产生错误或片面的分析结论,提高了数据检测的效率以及分析的准确性。
上述实施例仅是本公开的实施方式的一个简要介绍以及各种可能实现方式的简要介绍,为了实现上述业务数据检测方法,基于目标指标对应的维度覆盖范围对业务数据的维度进行质量检测,当业务数据的维度不满足上述维度覆盖范围时,确定业务数据异常,则可以停止业务数据分析流程,以防止产生片面性或错误的分析结论。而对于具体如何对业务数据进行质量检测,本公开实施例可以通过下述图2至图6所示的任一种可能实现方式进行。
当目标指标对应的维度覆盖范围是标指标的维度值预期数量时,相应的,对业务数据所包括的维度的数量进行比对,实现对业务数据质量的检测,参见图2,该图2为根据一示例性实施例示出的对业务数据的维度数量进行检测的实现流程图,具体包括如下步骤:
在步骤201中,从目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量。
在步骤202中,当业务数据所包括的维度数量与目标指标所需的维度数量不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,可以基于总线架构建立指标-维度矩阵实现上述步骤201-203对业务数据的维度数量进行检测,具体的,该指标-维度矩阵中的行表示各个指标,该指标-维度矩阵中的列表示维度,在交叉点可以标记出指标与对应维度相关,通过该指标-维度矩阵可以实现快速维度查询以及进行比对,同时该指标-维度矩阵可以根据现有基础上增加指标,并根据将该指标与该指标-维度矩阵中对应的维度进行关联,或在该指标-维度矩阵中增加对应的新的维度。
例如,可以基于结构化查询语言(SQL,Structured Query Language)实现上述步骤,具体的,可以通过SELECT查询指令从数据库中获取目标指标对应维度的数量,再根据预期目标获取目标指标所需要的维度数量值,将两者进行比对,当维度数量相同时,即维度数量是完整的,确定业务数据无异常,当维度数量不相同时,即维度数量不完整,确定业务数据异常。
在本公开的一个实施例中,可以通过判断目标指标对应维度数量是否与预设的维度数量是否相同或在正常的范围区间内,实现验证业务数据的完整性,当然,还可以通过判断目标指标对应维度以及维度的数量是否与预设的维度以及维度数量是否一一对应,实现验证业务数据的完整性,本公开对此不作具体限定。
在基于Hive SQL实现获取业务数据所包括的维度的数量可以通过以下代码实现:
SELECT##查询命令,用于查询满足条件的所有记录
COUNT(DISTINCT dimension_key)AS quota_cnt##统计维度数量的命令
FROM${data_table}##指示从data_table中查询所有记录的命令
WHERE p_date=${verify_date}
AND task_id=${individual_task_id}##查询条件语句,所查询的记录应当同时满足${verify_date}和${individual_task_id}
当目标指标对应的维度覆盖范围是维度对应的枚举时,相应的,对业务数据所包括的维度的枚举值的数量和取值范围进行比对,实现对业务数据质量的检测,参见图3,该图3为根据一示例性实施例示出的对业务数据的维度枚举值进行检测的实现流程图,具体包括如下步骤:
在步骤301中,从目标指标对应的维度覆盖范围中,获取各个维度对应的枚举值。
在步骤302中,当业务数据所包括的维度的枚举值的数量和取值范围的任一项与各个维度对应的枚举值的数量和取值范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,一个正常业务数据中的指标所对应维度的枚举值通常是固定的,基于此,可以统计业务数据中指标对应维度的枚举值的数量和取值范围进行校验,判断业务数据的完整性。
例如,在SQL中,对业务数据进行枚举值比对,具体的,可以通过SELECT查询指令从数据库中目标指标对应维度的枚举值,再根据预期目标获取各个维度对应的枚举值,将两者进行比对,当枚举值的数量和/或取值范围匹配时,即维度的枚举值以及枚举范围是完整的,确定业务数据无异常,当维度数量不匹配时,即维度的枚举值以及枚举范围是不完整的,确定业务数据异常。
在本公开的一个实施例中,可以同时验证对目标指标对应维度枚举值的数量和取值范围是否与预设的维度枚举值和枚举范围是否匹配,当枚举值的数量以及取值范围均匹配时,确定业务数据是完整的,当然,还可以分别验证对目标指标对应维度枚举值的数量和取值范围是否与预设的维度枚举值和枚举范围是否匹配,当枚举值的数量与区中范围中任意一个匹配时,确定业务数据是完整的,本公开对此不作具体限定。
在基于Hive SQL实现获取业务数据所包括的维度的枚举值的数量和取值范围可以通过以下代码实现:
SELECT
DISTINCT dimension_value AS dimension_value_cnt##获取业务数据维度的枚举值的数量和取值范围
FROM${data_table}
WHERE p_date=${verify_date}
AND task_id=${individual_task_id}
AND dimension_key=${verify_dimension}##枚举值数量的查询条件
当目标指标对应的维度覆盖范围是维度的生命周期时,相应的,对业务数据所包括的维度的生命周期内是否有数据缺失进行验证,实现对业务数据完整性和连续性的检测,参见图4,该图4为根据一示例性实施例示出的对业务数据维度的生命周期内数据是否缺失进行检测的的实现流程图,具体包括如下步骤:
在步骤401中,从目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期用于表示维度从创建到结束的时间段。
在步骤402中,当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,由于目标指标的维度可能会受业务进程的影响而衍生,例如在分组分段、价格分段类的维度会随着分布的变化而进行调整,在对应维度下可能会产生新的子维度,或者直接增加了新的维度,而维度的生命周期过短的业务数据是不具备分析价值的,基于此,维度的生命周期内维度是否合理可以作为衡量业务质量的标准。
例如,在SQL中,对业务数据进行生命周期内数据的连续性进行验证,具体的,可以通过SELECT查询指令从数据库中基于预定时间内目标指标对应维度的生命周期,即维度从创建到结束的时间段,再从目标指标对应的维度覆盖范围中获取各个维度对应的生命周期,当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定该业务数据异常,相反,当业务数据中的任一维度在维度对应的生命周期上没有数据缺失时,确定该业务数据正常。
其中,在基于Hive SQL实现获取业务数据所包括的维度的生命周期可以通过以下代码实现:
SELECT
COUNT(1)
,datediff(pdate2dt(${verify_begin_date}),pdate2dt(${verify_end_date}))+1 AS date_num
##统计维度生命周期的命令
FROM${data_table}
WHERE p_date>=${verify_begin_date}
AND p_date<=${verify_end_date}
AND task_id=${individual_task_id}
AND dimension_key=${verify_dimension}
AND dimension_value=${verify_dimension_value}##维度生命周期的查询条件
当目标指标对应的维度覆盖范围是维度在其生命周期内的维度分布时,相应的,对业务数据所包括的维度的生命周期内维度的分布进行验证,实现对业务数据完整性和连续性的检测,图5是根据一示例性实施例示出的一种对业务数据维度在其生命周期内的维度分布进行检测的的实现流程图,如图5所示,包括以下步骤:
在步骤501中,从目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布。
在步骤502中,当业务数据所包括的维度分布与各个维度对应的维度分布不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,目标指标的维度在其生命周期内的分布是否相对固定还可以作为检测业务质量的标准。
例如,在SQL中,对业务数据对维度生命周期内的维度分布范围进行校验,具体的,可以通过SELECT查询指令从数据库中基于预定时间内目标指标对应维度生命周期内维度的分布范围,再从目标指标对应的维度覆盖范围中获取各个维度对应的维度分布,将两者进行比对,当维度的分布范围匹配时,即业务数据具备分析价值,确定业务数据无异常,相反,当指标的连续范围不匹配时,即业务数据不具备分析价值,确定该业务数据异常。
其中,在基于Hive SQL实现获取业务数据所包括的维度的生命周期可以通过以下代码实现:
SELECT
COUNT(1)
,datediff(pdate2dt(${verify_begin_date}),pdate2dt(${verify_end_date}))+1 AS date_num
##统计维度生命周期的命令
FROM${data_table}
WHERE p_date>=${verify_begin_date}
AND p_date<=${verify_end_date}
AND task_id=${individual_task_id}
AND dimension_key=${verify_dimension}
AND dimension_value=${verify_dimension_value}##维度生命周期的查询条件
在一种可能的实现方式中,通过预设的数据格式规则对业务数据的格式进行质量检测,图6是根据一示例性实施例示出的一种检测业务数据格式的流程图,如图6所示,包括以下步骤:
在步骤601中,获取业务数据的数据格式。
在步骤602中,将数据格式信息与预设数据格式规则进行匹配。
在步骤603中,当业务数据的数据格式与预设数据格式规则不匹配时,确定业务数据异常。
在一种可能的实现方式中,还可以通过判断业务数据中指标是否连续、数据格式是否符合预定的方式,以验证业务数据的质量。
例如,通过python自定义函数扫描的方式对业务数据中的各个指标以及各个数据的格式进行扫描,验证各个指标是否连续以及数据的格式是否符合预定义格式,进一步的,还以对业务数据中的时间信息进行差分计算,判断业务数据是否连续,基于上述过程来检测业务数据的质量。
本公开提供的实施例提供了对业务数据的完整性和连续性数据检测,通过验证维度、维度值是否符合预期、维度的枚举值以及枚举值范围是否符合标准、维度的生命周期是否符合预期(即生命周期太短暂不具备分析价值)、业务数据的各指标是否连续、时间是否连续(即不能缺失时间枚举或者指标存在空值)、数据格式是否符合根因分析算法定义等几个方面验证业务数据是否满足多维根因分析的要求,如果有一个方面不满足上述条件则中断根因分析流程。
在一种可能的实现方式中,参照图7所示,对业务数据的完整性和连续性数据检测还可以通过以下步骤实现:
步骤701,对业务数据的维度数量进行验证,当业务数据所包括的维度数量与目标指标所需的维度数量匹配时,执行步骤702;
步骤702,,对业务数据的维度的枚举值进行验证,当业务数据所包括的维度的枚举值的数量和取值范围的任一项与各个维度对应的枚举值的数量和取值范围匹配时,执行步骤703;
步骤703,对业务数据维度的生命周期内数据的连续性进行验证,当业务数据中的任一维度在维度对应的生命周期上没有数据缺失时,执行步骤704;
步骤704,对业务数据中维度的分布进行验证,当业务数据所包括的维度分布与各个维度对应的维度分布匹配时,执行步骤705;
步骤705,对业务数据的数据格式进行验证,当业务数据的数据格式与预设数据格式规则匹配,确定业务数据无异常。
在本公开的一个实施例中,对于上述任一步骤中,在验证业务数据时出现不匹配或不连续或不完整的情况下,结束当前业务数据的验证流程,当然,验证的顺序可以根据实际需要灵活设置,例如第一步可以对业务数据的数据格式进行验证,第二步对对业务数据中维度的分布进行验证,第三步对对业务数据维度的生命周期内数据的连续性进行验证,第四步对对业务数据的维度的枚举值进行验证,最后对对业务数据的维度数量进行验证,本公开对上述验证步骤的先后顺序不作具体限定。
为了加深对本公开实施例的实现方式的理解,下面基于图8提供的一种运行业务数据检测的流程图来说明上述业务数据检测方法,参见图8,当开始进行业务数据分析时,通过多维根因分许发现分析业务数据过程中所出现的问题,同时整理业务数据分析需求以及收集业务数据检测规则,基于业务数据分析需求对业务数据检测规则进行提炼,对提炼后的数据检测规则进行验证,当验证通过后,执行验证后的数据检测规则,对分析业务数据过程中所出现的问题进行溯源,当确定问题存在时,将异常业务数据输出并排查数据质量问题,当问题解决后,继续对业务数据进行分析,直至获得分析结果,并在预设应用内向用户展示该分析结果,结束业务数据分析流程。
在一种可能的实现方式中,解决业务数据质量问题的可以是将异常业务数据剔除,基于剔除异常业务数据后的业务数据进行数据分析,当然,还可以对异常业务数据进行排查,以解决异常业务数据所出现的问题,当异常业务数据的问题解决后,基于已解决问题的业务数据以及其他正常业务数据继续进行数据分析,当无法解决异常业务数据的问题时,将该异常业务数据剔除,基于剔除异常业务数据后的业务数据进行数据分析,本公开对此不作具体限定。
本公开关于一种业务数据检测方法、装置、计算机设备及存储介质,本公开的实施例通过确定统计某个指标所需的维度,来考虑业务数据在维度上是否完整,从所需维度的角度来切入,可以保证不会出现由于业务数据在维度上缺失而造成的数据质量差的问题,避免产生错误或片面的分析结论,提高了数据检测的效率以及分析的准确性。
通过本公开所提出的业务数据检测方法,首先,在多维根因分析场景中,将异常的业务数据进行过滤后,屏蔽了该异常业务数据对分析结论所造成负面影响,降低了80%产生片面性结论的概率,其次,可以提供40%的多维根因分析效率,节省了用于溯源业务数据质量问题的资源;最后,实现了对业务数据质量进行自动化检测,快速定位业务数据质量问题发送的维度和指标,大大提高了问题排查效率。
本公开所提出的业务数据检测方法还可以延伸到多维分析系统当中的数据质量校验当中,虽然多维分析是一种随机性较强的数据查询场景,但是很多情况下与根因分析的统计目标是一致的,因此,本公开所提出的业务数据检测方法还具备了衍生使用的价值。
图9是根据一示例性实施例示出的一种业务数据检测装置框图。参照图9,该装置包括:
第一获取单元901,被配置为获取业务数据以及业务数据的业务指标参数和业务维度参数;
第二获取单元902,被配置为获取目标指标对应的维度覆盖范围,维度覆盖范围被配置为指示统计目标指标所需的维度标准;
比对单元903,被配置为业务数据所包括的维度与维度覆盖范围进行比对;
确定单元904,被配置为当业务数据所包括的维度不满足维度覆盖范围时,确定业务数据异常。
在一种可能的实现方式中,上述比对单元903具体被配置为:
从目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量;
当业务数据所包括的维度数量与目标指标所需的维度数量不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元903还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期被配置为表示维度从创建到结束的时间段;
当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元903还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布;
当业务数据所包括的维度分布与各个维度对应的维度分布不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
在一种可能的实现方式中,上述比对单元903还具体被配置为:
从目标指标对应的维度覆盖范围中获取各个业务维度对应周期内指标所需要的连续时间范围;
当目标时间段的业务数据所包括的指标的连续时间与各个业务维度对应周期内指标所需要的连续时间范围不匹配时,确定业务数据异常;
当目标时间段的业务数据所包括的指标的连续时间与各个业务维度对应周期内指标所需要的连续时间范围匹配时,确定业务数据正常。
在一种可能的实现方式中,上述比对单元903还具体被配置为:
获取业务数据的数据格式;
将数据格式信息与预设数据格式规则进行匹配;
当业务数据的数据格式与预设数据格式规则不匹配时,确定业务数据异常。
在一种可能的实现方式中,上述装置还包括:
输出单元905,被配置为获取异常的业务数据对应的维度;基于维度,确定出异常的业务数据的位置;输出异常业务数据报告,异常业务数据报告包括异常的业务数据的位置。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种计算机设备的框图。该计算机设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002中存储有至少一条指令,至少一条指令由处理器1001加载并执行以实现上述各个方法实施例提供的业务数据检测方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (16)
1.一种业务数据检测方法,其特征在于,包括:
获取目标时间段的业务数据所包括的维度信息,所述维度信息为业务数据的属性;
基于所述业务数据的类型确定目标指标,所述目标指标用于检测所述业务数据的完整性和连续性,所述目标指标包括多个与所述类型对应的指标,所述指标为业务数据量化的标准;
获取所述目标指标对应的维度覆盖范围,所述维度覆盖范围用于指示统计所述目标指标所需的维度信息,所述维度覆盖范围至少包括所述目标指标所需的维度数量、维度信息的枚举值的数量和取值范围、维度对应的生命周期、维度在其生命周期内的维度分布、以及业务数据的预设数据格式规则中的一项,其中,所述目标指标所需的维度数量基于总线架构建立指标-维度矩阵进行检测,所述指标-维度矩阵中的行表示各个指标,列表示维度,交叉点用于标记指标与对应维度相关;所述业务数据的预设数据格式规则通过python自定义函数扫描的方式进行检测;
将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对;
当所述业务数据所包括的任意一个维度信息不满足所述维度覆盖范围时,确定所述业务数据异常。
2.根据权利要求1所述的方法,其特征在于,所述将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对,包括:
从所述目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量;
当所述业务数据所包括的维度信息数量与所述目标指标所需的维度数量不匹配时,确定所述业务数据所包括的维度信息不满足所述维度覆盖范围。
3.根据权利要求1所述的方法,其特征在于,所述将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对,包括:
从所述目标指标对应的维度覆盖范围中,获取各个维度对应的枚举值;
当所述业务数据所包括的维度信息的枚举值的数量和取值范围的任一项与所述各个维度对应的枚举值的数量和取值范围不匹配时,确定所述业务数据所包括的维度信息不满足所述维度覆盖范围。
4.根据权利要求1所述的方法,其特征在于,所述将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对,包括:
从所述目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期用于表示维度从创建到结束的时间段;
当所述业务数据中的任一维度在所述维度对应的生命周期上有数据缺失时,确定所述业务数据所包括的维度信息不满足维度覆盖范围。
5.根据权利要求1所述的方法,其特征在于,所述将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对,包括:
从所述目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布;
当所述业务数据所包括的维度信息分布与所述各个维度对应的维度分布不匹配时,确定所述业务数据所包括的维度信息不满足所述维度覆盖范围。
6.根据权利要求2所述的方法,其特征在于,所述获取目标时间段的业务数据所包括的维度信息之后,所述方法还包括:
获取所述业务数据的数据格式;
将所述数据格式信息与预设数据格式规则进行匹配;
当所述业务数据的数据格式与所述预设数据格式规则不匹配时,确定所述业务数据异常。
7.根据权利要求1所述的方法,其特征在于,确定所述业务数据异常之后,所述方法还包括:
获取异常的业务数据对应的维度;
基于所述维度,确定出所述异常的业务数据的位置;
输出异常业务数据报告,所述异常业务数据报告包括所述异常的业务数据的位置。
8.一种业务数据检测装置,其特征在于,包括:
第一获取单元,被配置为获取目标时间段的业务数据所包括的维度信息,所述维度信息为业务数据的属性;
第一确定单元,被配置为基于所述业务数据的类型确定目标指标,所述目标指标用于检测业务数据的完整性和连续性,所述目标指标包括多个与所述类型对应的指标,所述指标为业务数据量化的标准;
第二获取单元,被配置为获取目标指标对应的维度覆盖范围,所述维度覆盖范围被配置为指示统计所述目标指标所需的维度,所述维度覆盖范围至少包括所述目标指标所需的维度数量、维度信息的枚举值的数量和取值范围、维度对应的生命周期、维度在其生命周期内的维度分布、以及业务数据的预设数据格式规则中的一项,其中,所述目标指标所需的维度数量基于总线架构建立指标-维度矩阵进行检测,所述指标-维度矩阵中的行表示各个指标,列表示维度,交叉点用于标记指标与对应维度相关;所述业务数据的预设数据格式规则通过python自定义函数扫描的方式进行检测;
比对单元,被配置为将所述业务数据所包括的维度信息与所述维度覆盖范围进行比对;
第二确定单元,被配置为当所述业务数据所包括的任意一个维度信息不满足所述维度覆盖范围时,确定所述业务数据异常。
9.根据权利要求8所述的装置,其特征在于,所述比对单元具体被配置为:
从目标指标对应的维度覆盖范围中,获取目标指标所需的维度数量;
当业务数据所包括的维度数量与目标指标所需的维度数量不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
10.根据权利要求8所述的装置,其特征在于,所述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的枚举值;
当业务数据所包括的维度的枚举值的数量和取值范围的任一项与各个维度对应的枚举值的数量和取值范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
11.根据权利要求8所述的装置,其特征在于,所述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的生命周期,生命周期被配置为表示维度从创建到结束的时间段;
当业务数据中的任一维度在维度对应的生命周期上有数据缺失时,确定业务数据所包括的维度不满足维度覆盖范围。
12.根据权利要求8所述的装置,其特征在于,所述比对单元还具体被配置为:
从目标指标对应的维度覆盖范围中,获取各个维度对应的维度分布范围;
当业务数据所包括的维度分布范围与各个维度对应的维度分布范围不匹配时,确定业务数据所包括的维度不满足维度覆盖范围。
13.根据权利要求8所述的装置,其特征在于,所述比对单元还具体被配置为:
获取业务数据的数据格式;
将数据格式信息与预设数据格式规则进行匹配;
当业务数据的数据格式与预设数据格式规则不匹配时,确定业务数据异常。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
输出单元,被配置为获取异常的业务数据对应的维度;基于维度,确定出异常的业务数据的位置;输出异常业务数据报告,异常业务数据报告包括异常的业务数据的位置。
15.一种计算机设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的业务数据检测方法。
16.一种存储介质,当所述存储介质中的指令由计算机设备的处理器执行时,使得所述计算机设备能够执行如权利要求1至7中任一项所述的业务数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910557452.2A CN110275878B (zh) | 2019-06-25 | 2019-06-25 | 业务数据检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910557452.2A CN110275878B (zh) | 2019-06-25 | 2019-06-25 | 业务数据检测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110275878A CN110275878A (zh) | 2019-09-24 |
CN110275878B true CN110275878B (zh) | 2021-08-17 |
Family
ID=67963197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910557452.2A Active CN110275878B (zh) | 2019-06-25 | 2019-06-25 | 业务数据检测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110275878B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112799903A (zh) * | 2019-11-14 | 2021-05-14 | 北京沃东天骏信息技术有限公司 | 一种业务系统健康状态的评估方法和装置 |
CN111125194B (zh) * | 2019-12-25 | 2023-04-11 | 中国建筑科学研究院有限公司 | 应用于城市级清洁取暖的数据构造方法及装置 |
CN113132130B (zh) * | 2019-12-30 | 2023-04-07 | 中国移动通信集团北京有限公司 | 网络指标预测方法、装置、设备及存储介质 |
CN112486969B (zh) * | 2020-12-01 | 2021-08-03 | 罗嗣扬 | 应用于大数据和深度学习的数据清洗方法及云服务器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741955A (zh) * | 2017-09-15 | 2018-02-27 | 平安科技(深圳)有限公司 | 业务数据监控方法、装置、终端设备及存储介质 |
CN108764705A (zh) * | 2018-05-24 | 2018-11-06 | 国信优易数据有限公司 | 一种数据质量评估平台以及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292857B2 (en) * | 2010-11-23 | 2016-03-22 | Panorama Software Inc. | One-click exceptions |
JP6720610B2 (ja) * | 2016-03-22 | 2020-07-08 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
CN107895003A (zh) * | 2017-10-31 | 2018-04-10 | 山东浪潮云服务信息科技有限公司 | 一种数据质量检测方法和装置 |
CN108764707A (zh) * | 2018-05-24 | 2018-11-06 | 国信优易数据有限公司 | 一种数据评估系统以及方法 |
-
2019
- 2019-06-25 CN CN201910557452.2A patent/CN110275878B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741955A (zh) * | 2017-09-15 | 2018-02-27 | 平安科技(深圳)有限公司 | 业务数据监控方法、装置、终端设备及存储介质 |
CN108764705A (zh) * | 2018-05-24 | 2018-11-06 | 国信优易数据有限公司 | 一种数据质量评估平台以及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110275878A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110275878B (zh) | 业务数据检测方法、装置、计算机设备及存储介质 | |
CN110245078B (zh) | 一种软件的压力测试方法、装置、存储介质和服务器 | |
US10031829B2 (en) | Method and system for it resources performance analysis | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN109002391B (zh) | 自动检测嵌入式软件接口测试数据的方法 | |
WO2016008398A1 (zh) | 程序性能测试方法和装置 | |
US10467590B2 (en) | Business process optimization and problem resolution | |
CN111160329A (zh) | 一种根因分析的方法及装置 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN109639456B (zh) | 一种自动化告警的改进方法及告警数据的自动化处理平台 | |
CN108363024B (zh) | 一种充电桩故障点定位的方法和装置 | |
CN106294109B (zh) | 获取缺陷代码的方法及装置 | |
CN112948262A (zh) | 一种系统测试方法、装置、计算机设备和存储介质 | |
CN111506455B (zh) | 服务发布结果的查验方法及装置 | |
CN111367782A (zh) | 回归测试数据自动生成的方法及装置 | |
CN115545241A (zh) | 充电桩状态识别方法、装置、电子设备及存储介质 | |
CN115904955A (zh) | 性能指标的诊断方法、装置、终端设备及存储介质 | |
CN114676061A (zh) | 一种基于知识图谱自动化固件检测方法 | |
CN113742213A (zh) | 一种用于数据分析的方法、系统和介质 | |
CN113268419A (zh) | 测试用例优化信息的生成方法、装置、设备和存储介质 | |
CN112541177A (zh) | 一种基于数据安全的异常检测方法及系统 | |
CN111538673A (zh) | 基于测试用例的处理方法、装置、设备和存储介质 | |
CN110704326A (zh) | 一种测试分析方法及装置 | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN113094265B (zh) | 测试脚本的分析方法及分析装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |