CN111125222B - 一种数据测试方法及装置 - Google Patents

一种数据测试方法及装置 Download PDF

Info

Publication number
CN111125222B
CN111125222B CN201911320129.XA CN201911320129A CN111125222B CN 111125222 B CN111125222 B CN 111125222B CN 201911320129 A CN201911320129 A CN 201911320129A CN 111125222 B CN111125222 B CN 111125222B
Authority
CN
China
Prior art keywords
target
data
data processing
statistical value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911320129.XA
Other languages
English (en)
Other versions
CN111125222A (zh
Inventor
朱占磊
张英龙
王东石
赵晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SF Intra City Technology Co Ltd
Original Assignee
Beijing SF Intra City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SF Intra City Technology Co Ltd filed Critical Beijing SF Intra City Technology Co Ltd
Priority to CN201911320129.XA priority Critical patent/CN111125222B/zh
Publication of CN111125222A publication Critical patent/CN111125222A/zh
Application granted granted Critical
Publication of CN111125222B publication Critical patent/CN111125222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种数据测试方法及装置,针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;从所述目标测试数据集中,抽取预设数量的目标类型数据;确定所述抽取的目标类型数据在所述预设类型下的第二统计值;根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。与现有技术相比,本申请能够使测试结果更加准确,并且不依赖于业务人员的专业知识,可以应用于多种数据的测试,通用性强。

Description

一种数据测试方法及装置
技术领域
本申请涉及计算机技术领域,尤其是涉及一种数据测试方法及装置。
背景技术
随着科技的不断发展,大数据处理成为了时下的热门技术。大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通常,大数据需要进行处理才能反映出一些具有可用性的信息,大数据的处理过程通常包括数据抽取、数据转换、数据装载三个流程。而在大数据的使用当中,大数据处理的正确性尤为重要。
目前,现有的大数据测试方法通常是先计算出处理结果的各种数据指标,再由专业人员依据业务经验观察数据指标是否符合预期。然而,业务人员只能在数据指标发生较为明显的偏差时才能发现问题,而且,这个过程严重依赖于业务人员对业务的熟悉程度,难以成为一个通用的测试技术。
发明内容
有鉴于此,本申请的目的在于提供一种数据测试方法及装置,能够使测试结果更加准确,并且不依赖于业务人员的专业知识,可以应用于多种数据的测试,通用性强。
本申请实施例提供了一种数据测试方法,所述方法包括:
针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;
从所述目标测试数据集中,抽取预设数量的目标类型数据;
确定所述抽取的目标类型数据在所述预设类型下的第二统计值;
根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
在一种可能的实施方式中,所述根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确,包括:
对比所述第一统计值与所述第二统计值;
若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确;
若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
在一种可能的实施方式中,所述预设类型包括以下至少一种:
均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度。
在一种可能的实施方式中,所述从所述目标测试数据集中,抽取预设数量的目标类型数据,包括:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
在一种可能的实施方式中,在确定所述目标数据处理流程的数据处理结果不正确之后,所述方法还包括:
确定所述目标数据处理流程中出现错误的位置,和/或,确定所述目标处理流程对应的原始数据中的异常数据。
本申请实施例还提供了一种数据测试装置,所述装置包括:
第一确定模块,用于针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;
抽取模块,用于从所述目标测试数据集中,抽取预设数量的目标类型数据;
第三确定模块,用于确定所述抽取的目标类型数据在所述预设类型下的第二统计值;
数据测试模块,用于根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
在一种可能的实施方式中,所述数据测试模块具体用于:
对比所述第一统计值与所述第二统计值;
若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确;
若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
在一种可能的实施方式中,所述预设类型包括以下至少一种:
均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度。
在一种可能的实施方式中,所述抽取模块具体用于:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
在一种可能的实施方式中,所述装置还包括:
第三确定模块,用于确定所述目标数据处理流程中出现错误的位置,和/或,确定所述目标处理流程对应的原始数据中的异常数据。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据测试方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据测试方法的步骤。
本申请实施例提供的数据测试方法及装置,针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;从所述目标测试数据集中,抽取预设数量的目标类型数据;确定所述抽取的目标类型数据在所述预设类型下的第二统计值;根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。与现有技术相比,本申请通过确定目标数据集中全量目标类型数据在预设类型下的第一统计值,从目标数据集中抽取部分目标类型数据,计算抽取的目标类型数据在所述预设类型下的第二统计值,并根据第一统计值与第二统计值确定目标数据处理流程的数据处理结果是否正确,能够使测试结果更加准确,并且不依赖于业务人员的专业知识,可以应用于多种数据的测试,通用性强。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据测试方法的流程图;
图2示出了本申请实施例所提供的另一种数据测试方法的流程图;
图3示出了本申请实施例所提供的一种数据测试装置的结构示意图;
图4示出了本申请实施例所提供的另一种数据测试装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,现有的大数据测试方法通常是先计算出处理结果的各种数据指标,再由专业人员依据业务经验观察数据指标是否符合预期。然而,业务人员只能在数据指标发生较为明显的偏差时才能发现问题,而且,这个过程严重依赖于业务人员对业务的熟悉程度,难以成为一个通用的测试技术。
基于此,本申请实施例提供了一种数据测试方法,以降低数据传输的丢包率,减少数据传输时延。
请参阅图1,图1为本申请实施例所提供的一种数据测试方法的流程图。如图1中所示,本申请实施例提供的数据测试方法,包括:
S101、针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值。
该步骤中,针对经过目标数据处理流程得到目标测试数据集,可以计算目标数据集中全部目标类型数据在一种或多种预设类型下的第一统计值。
这里,目标数据处理流程可以是针对大数据的数据处理流程,目标数据处理流程可以包括数据抽取、数据转换、数据装载等过程,由于大数据是从不同数据库中提取出来的,来自不同数据库的数据可能会有不同的形式与内容,就需要对数据进行数据抽取、数据转换,将这些数据转换为能够统一处理的结构化数据,在这个过程中,可能会出现偏差等错误,因此,需要对数据处理进行测试。
其中,预设类型可以包括均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度等,第一统计值可以是上述预设类型的一种或多种。
S102、从所述目标测试数据集中,抽取预设数量的目标类型数据。
该步骤中,可以从目标测试数据集中,按照每个数据被抽取的概率值,抽取出预设数量的目标类型数据,目标测试数据集中可以包括一种或多种类型的数据,目标类型数据可以是目标测试数据集中多种数据的一种。由于目标测试数据集中的数据数量极其庞大,可以通过蓄水池采样算法或其他抽样算法进行抽样。
S103、确定所述抽取的目标类型数据在所述预设类型下的第二统计值。
该步骤中,可以计算抽取到的目标类型数据在预设类型下的第二统计值,确定第二统计值的方式与确定第一统计值的方式相同,具体的,若预设类型为均值,则第一统计值为全量的目标类型数据的均值,而第二统计值则为抽取到的目标类型数据的均值。
S104、根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
这里,抽样数据对应的第二统计值,与全量数据的第一统计值,之间存在一定的关系,不同类型的统计值之间的关系可以通过合理的推导得到,比如,预设类型为均值时,第一统计值和第二统计值的理论值相等,由于数据的分布特性,在实施过程中,二者之间可以存在一定的变化幅度,也即二者之间存在置信区间,具体的,置信区间的大小可以为百分之5,也即第一统计值与第二统计值之间相差的大小不超过百分之5,即可认为目标数据处理流程的数据处理结果是正确的,反之则可以认为目标数据处理流程的处理结果不正确,目标数据处理流程中的一个或多个步骤出现错误,或从数据库中提取的原始数据存在异常数据。
请参阅图2,图2为本申请另一实施例提供的数据测试方法的流程图。如图2中所示,本申请实施例提供的数据测试方法,包括:
S201、针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值。
S202、从所述目标测试数据集中,抽取预设数量的目标类型数据。
S203、确定所述抽取的目标类型数据在所述预设类型下的第二统计值。
S204、对比所述第一统计值与所述第二统计值。
该步骤中,可以对比第一统计值与第二统计值的大小,并根据二者之间的差值判断目标数据处理流程的数据处理结果是否正确。
S205、若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确。
该步骤中,不同预设类型的第一统计值和第二统计值之间具有不同的关系,比如,在预设类型为均值的情况下,若数据处理流程无误,第一统计值与第二统计值之间的差值应在置信区间之内。
其中,目标关系的具体内容可以视预设类型而定,目标关系可以根据预设类型、目标类型数据的类型等因素推导得到。
S206、若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
其中,S201至S203的描述可以参照S101至S103的描述,并且能达到相同的技术效果,对此不做赘述。
在一种可能的实施方式中,所述预设类型包括以下至少一种:
均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度。
在一种可能的实施方式中,所述从所述目标测试数据集中,抽取预设数量的目标类型数据,包括:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
该步骤中,通过利用蓄水池采样算法,可以通过流式的方式对数据进行采样,不需要预先知道数据的总量,对于每一个输入的数据,根据采样概率直接算出该样本是否采样,最终可以从任意大小的数据集中等概率的采样出一个固定大小的数据集。
具体的,可以先构建一个样本量为k的采样池,顺序将目标测试数据集中前k个目标类型数据放入池中,并从第k+i(i为正整数)个目标类型数据开始,对于每个新的目标类型数据,使用概率为k/(k+i)的概率函数决定该新数据是否进入池中,如果需要进入,则使用等概率的方式替换池中的k个目标类型数据的某一个,被替换的目标类型数据被舍弃。如果不需要进入池中,则直接舍弃该新的目标类型数据。这样,即使不确定目标测试数据集中目标类型数据的总数n,每个目标类型数据被抽取到的概率都为k/n。
其中,对于目标测试数据集前k个目标类型数据,其被抽取为样本的概率为(k/(k+1))*((k+1)/(k+2))*…*((n-1)/n)=k/n,而对于第k+i个目标类型数据,其被抽取到的概率为(k/(k+i))*((k+i)/(k+i+1))*…*((n-1)/n)=k/n。
在一种可能的实施方式中,在确定所述目标数据处理流程的数据处理结果不正确之后,所述方法还包括:
确定所述目标数据处理流程中出现错误的位置,和/或,确定所述目标处理流程对应的原始数据中的异常数据。
该步骤中,可以使用遍历的方法,确定目标数据处理流程中出现错误的位置和/或,确定所述目标处理流程对应的原始数据中的异常数据。
本申请实施例提供的数据测试方法,针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;从所述目标测试数据集中,抽取预设数量的目标类型数据;确定所述抽取的目标类型数据在所述预设类型下的第二统计值;根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。与现有技术相比,本申请通过确定目标数据集中全量目标类型数据在预设类型下的第一统计值,从目标数据集中抽取部分目标类型数据,计算抽取的目标类型数据在所述预设类型下的第二统计值,并根据第一统计值与第二统计值确定目标数据处理流程的数据处理结果是否正确,能够使测试结果更加准确,并且不依赖于业务人员的专业知识,可以应用于多种数据的测试,通用性强。
请参阅图3、图4,图3为本申请实施例所提供的一种数据测试装置的结构示意图,图4为本申请实施例所提供的另一种数据测试装置的结构示意图。如图3中所示,所述数据测试装置300包括:
第一确定模块310,用于针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;
抽取模块320,用于从所述目标测试数据集中,抽取预设数量的目标类型数据;
第二确定模块330,用于确定所述抽取的目标类型数据在所述预设类型下的第二统计值;
数据测试模块340,用于根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
进一步的,如图4所示,所述数据测试装置400包括第一确定模块410、抽取模块420、第二确定模块430、数据测试模块440、第三确定模块450,所述第三确定模块450用于:
确定所述目标数据处理流程中出现错误的位置,和/或,确定所述目标处理流程对应的原始数据中的异常数据。
在一种可能的实施方式中,所述数据测试模块440具体用于:
对比所述第一统计值与所述第二统计值;
若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确;
若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
在一种可能的实施方式中,所述抽取模块420具体用于:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
在一种可能的实施方式中,所述预设类型包括以下至少一种:
均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度。
本申请实施例提供的数据测试装置,针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;从所述目标测试数据集中,抽取预设数量的目标类型数据;确定所述抽取的目标类型数据在所述预设类型下的第二统计值;根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。与现有技术相比,本申请通过确定目标数据集中全量目标类型数据在预设类型下的第一统计值,从目标数据集中抽取部分目标类型数据,计算抽取的目标类型数据在所述预设类型下的第二统计值,并根据第一统计值与第二统计值确定目标数据处理流程的数据处理结果是否正确,能够使测试结果更加准确,并且不依赖于业务人员的专业知识,可以应用于多种数据的测试,通用性强。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的数据测试方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的数据测试方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据测试方法,其特征在于,所述方法包括:
针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;
从所述目标测试数据集中,抽取预设数量的目标类型数据;
确定所述抽取的目标类型数据在所述预设类型下的第二统计值;
根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确,包括:
对比所述第一统计值与所述第二统计值;
若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确;
若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
3.根据权利要求1所述的方法,其特征在于,所述预设类型包括以下至少一种:
均值、方差、最大值、1/4分位数、中位数、3/4分位数、最小值、众数、峰度、偏度。
4.根据权利要求1所述的方法,其特征在于,所述从所述目标测试数据集中,抽取预设数量的目标类型数据,包括:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
5.根据权利要求2所述的方法,其特征在于,在确定所述目标数据处理流程的数据处理结果不正确之后,所述方法还包括:
确定所述目标数据处理流程中出现错误的位置,和/或,确定所述目标数据处理流程对应的原始数据中的异常数据。
6.一种数据测试装置,其特征在于,所述装置包括:
第一确定模块,用于针对目标数据处理流程得到的目标测试数据集,确定目标数据集中全量目标类型数据在预设类型下的第一统计值;
抽取模块,用于从所述目标测试数据集中,抽取预设数量的目标类型数据;
第二确定模块,用于确定所述抽取的目标类型数据在所述预设类型下的第二统计值;
数据测试模块,用于根据所述第一统计值和所述第二统计值,确定所述目标数据处理流程的数据处理结果是否正确。
7.根据权利要求6所述的装置,其特征在于,所述数据测试模块具体用于:
对比所述第一统计值与所述第二统计值;
若所述第一统计值与所述第二统计值之间满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果正确;
若所述第一统计值与所述第二统计值之间不满足所述预设类型对应的目标关系,则确定所述目标数据处理流程的数据处理结果不正确。
8.根据权利要求6所述的装置,其特征在于,所述抽取模块具体用于:
利用蓄水池采样算法,从所述目标测试数据集中,抽取预设数量的目标类型数据。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至5任一所述的数据测试方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的数据测试方法的步骤。
CN201911320129.XA 2019-12-19 2019-12-19 一种数据测试方法及装置 Active CN111125222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911320129.XA CN111125222B (zh) 2019-12-19 2019-12-19 一种数据测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911320129.XA CN111125222B (zh) 2019-12-19 2019-12-19 一种数据测试方法及装置

Publications (2)

Publication Number Publication Date
CN111125222A CN111125222A (zh) 2020-05-08
CN111125222B true CN111125222B (zh) 2023-05-02

Family

ID=70500354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911320129.XA Active CN111125222B (zh) 2019-12-19 2019-12-19 一种数据测试方法及装置

Country Status (1)

Country Link
CN (1) CN111125222B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883056B (zh) * 2021-03-11 2023-08-11 杭州广立微电子股份有限公司 一种半导体测试数据处理方法及装置
CN113381995B (zh) * 2021-06-08 2023-07-07 珠海格力电器股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113484468A (zh) * 2021-06-25 2021-10-08 广州市广软科技有限公司 基于四分位数算法的机动车环保检测分析方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133771A (zh) * 2014-08-13 2014-11-05 五八同城信息技术有限公司 一种测试方法及装置
WO2014178851A1 (en) * 2013-04-30 2014-11-06 Hewlett-Packard Development Company, L.P. Incrementally updating statistics

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024286B2 (en) * 2009-01-08 2011-09-20 Teradata Us, Inc. Independent column detection in selectivity estimation
US10839314B2 (en) * 2016-09-15 2020-11-17 Infosys Limited Automated system for development and deployment of heterogeneous predictive models
US11023463B2 (en) * 2016-09-26 2021-06-01 Splunk Inc. Converting and modifying a subquery for an external data system
US20180293272A1 (en) * 2017-04-05 2018-10-11 Futurewei Technologies, Inc. Statistics-Based Multidimensional Data Cloning
US11663358B2 (en) * 2017-05-08 2023-05-30 Autodesk, Inc. Perturbation-based techniques for anonymizing datasets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014178851A1 (en) * 2013-04-30 2014-11-06 Hewlett-Packard Development Company, L.P. Incrementally updating statistics
CN104133771A (zh) * 2014-08-13 2014-11-05 五八同城信息技术有限公司 一种测试方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Big Data Analytics and Mining for Effective Visualization and Trends Forecasting of Crime Data;Mingchen Feng et.al;《IEEE Access》;20190722;全文 *
基于数据包抽样的互联网业务流精确分类;钮晓娜等;《计算机应用研究》;20091015(第10期);全文 *

Also Published As

Publication number Publication date
CN111125222A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125222B (zh) 一种数据测试方法及装置
KR102260417B1 (ko) 트래픽 탐지 방법 및 장치
CN108228722B (zh) 破碎化区域采样点的地理空间分布均匀度检测方法
CN111049858B (zh) 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备
CN113127305A (zh) 异常检测方法及装置
US9235463B2 (en) Device and method for fault management of smart device
CN113485931B (zh) 测试方法、装置、电子设备及计算机可读存储介质
CN110647913B (zh) 基于聚类算法的异常数据检测方法及装置
CN107547266B (zh) 在线量异常点的检测方法和装置、计算机设备和存储介质
CN112769612A (zh) 一种告警事件去误报方法及装置
US9331912B2 (en) Violation sign condition setting supporting system, violation sign condition setting supporting method, and violation sign condition setting supporting program
CN110737650A (zh) 数据质量检测方法及装置
CN111506455B (zh) 服务发布结果的查验方法及装置
US10824597B2 (en) Cache folder identification method and device
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN110765005A (zh) 软件可靠性评估方法和装置
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN115344627A (zh) 数据筛选方法、装置、电子设备及存储介质
CN115408858A (zh) 脉谱参数分区方法、装置、电子设备以及存储介质
WO2021223214A1 (zh) 接口性能测试方法和装置、服务器、计算机可读存储介质
CN109213513A (zh) 软件份额占比的确定方法、装置及计算机可读存储介质
CN108984101B (zh) 在分布式存储系统中确定事件之间关系的方法及装置
CN115001997B (zh) 基于极值理论的智慧城市网络设备性能异常阈值评估方法
CN115290798B (zh) 变压器油色谱在线监测装置的稳定性能监测方法及终端
CN113094717B (zh) 效果评估方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant