CN114385460A - 数据稳定性的检测方法及装置、存储介质 - Google Patents

数据稳定性的检测方法及装置、存储介质 Download PDF

Info

Publication number
CN114385460A
CN114385460A CN202011112111.3A CN202011112111A CN114385460A CN 114385460 A CN114385460 A CN 114385460A CN 202011112111 A CN202011112111 A CN 202011112111A CN 114385460 A CN114385460 A CN 114385460A
Authority
CN
China
Prior art keywords
interval
data set
data
dimensional
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011112111.3A
Other languages
English (en)
Inventor
段戎
白成成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011112111.3A priority Critical patent/CN114385460A/zh
Publication of CN114385460A publication Critical patent/CN114385460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据稳定性的检测方法及装置、存储介质,属于计算机技术领域。该方法包括:获取待处理数据集和参考数据集,该待处理数据集和该参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据;确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到;根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测。本申请有助于提高数据稳定性检测的灵活性,应用场景广泛。

Description

数据稳定性的检测方法及装置、存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种数据稳定性的检测方法及装置、存储介质。
背景技术
在数据处理领域中,为了提高数据处理效率,可以采用算法模型(例如人工智能(artificial intelligence,AI)模型)对数据进行批量处理。例如,利用算法模型对包括多条数据记录的待处理数据集进行处理。为了保证数据处理的准确性,在利用算法模型对待处理数据集进行处理之前,可以检测待处理数据集的稳定性。其中,待处理数据集的稳定性可以采用该待处理数据集相对于参考数据集的群体稳定性指标(population stabilityindex,PSI)来表征,该参考数据集是采用该算法模型准确处理的任一数据集,该参考数据集包括多条数据记录。
目前,检测待处理数据集的稳定性的过程包括:首先通过分箱的方法将该待处理数据集和该参考数据集分别划分为多个数据区间,使每个数据区间包括至少一条数据记录;然后根据将该待处理数据集划分得到的每个数据区间中的数据记录的条数和该待处理数据集中的数据记录的总条数计算该数据区间上的数据频率,以及根据将该参考数据集划分得到的每个数据区间中的数据记录的条数和该参考数据集中的数据记录的总条数计算该数据区间上的数据频率;之后根据将该待处理数据集划分得到的多个数据区间上的数据频率和将该参考数据集划分得到的多个数据区间上的数据频率确定该待处理数据集相对于该参考数据集的PSI;最后根据该待处理数据集相对于该参考数据集的PSI对该待处理数据集进行稳定性检测。
但是,采用PSI仅能够检测单维数值型数据集(也即是待处理数据集中的数据记录均是单维数据记录,每条数据记录仅包括一个维度的数据,且该一个维度的数据为数值型数据,数值型数据指的是数据类型是数值型的数据,通常为实数,在计算机中一般以浮点数或整数类型存储,例如,1、2、30、100等均为数值型数据)的稳定性,而实际应用中,待处理数据集通常是多维数据集(也即是数据集中的数据记录是多维数据记录,每条数据记录包括至少两个维度的数据),采用PSI无法检测多维数据集的稳定性,因此目前检测数据稳定性的方案的灵活性较差,该检测数据稳定性的方案的应用场景的局限性较大。
发明内容
本申请提供了一种数据稳定性的检测方法及装置、存储介质,有助于提高数据稳定性检测的灵活性,应用场景广泛。本申请的技术方案如下:
第一方面,提供了一种数据稳定性的检测方法,该方法包括:获取待处理数据集和参考数据集,该待处理数据集和该参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据,n为大于或等于1的整数;确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到,m为大于或等于1的整数;根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测。
本申请提供的技术方案,由于可以确定待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数,根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数对该待处理数据集进行稳定性检测,该待处理数据集可以是多维数据集,因此该数据稳定性的检测方案可以检测多维数据集的稳定性,该数据稳定性的检测方案的灵活性较高,应用场景较广。
可选地,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,包括:通过迭代的方式,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数。
本申请提供的技术方案,通过迭代的方式确定待处理数据集在多维数据区间上的区间分数以及参考数据集在该多维数据区间上的区间分数,这样可以精细化确定多维数据区间以及区间分数,有助于提高算法的精度以及数据区间的分辨率。
可选地,通过迭代的方式,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,包括:针对该n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件,其中,该n个维度对应的重合区域是从该n个维度中的每个维度确定的该待处理数据集和该参考数据集的重合区域,每个维度对应的重合区域中包括该待处理数据集和该参考数据集在该维度上相同的数据;将达到该截止条件时确定的该待处理数据集在至少一个多维数据区间上的区间分数确定为该待处理数据集在m个多维数据区间上的区间分数;将达到该截止条件时确定的该参考数据集在该至少一个多维数据区间上的区间分数确定为该参考数据集在该m个多维数据区间上的区间分数。
本申请提供的技术方案,通过迭代的方式确定待处理数据集在多维数据区间上的区间分数以及参考数据集在该多维数据区间上的区间分数,这样可以精细化确定多维数据区间以及区间分数,有助于提高算法的精度以及数据区间的分辨率。
可选地,该m个多维数据区间包括m1个多维重合区间,该多维重合区间是该待处理数据集和该参考数据集的重合区间,m1为大于或等于1且小于或等于m的整数;该处理过程包括:根据该n个维度中的每个维度对应的重合区域确定该维度的至少一个单维数据区间;根据该n个维度的单维数据区间确定至少一个多维重合区间;对于该至少一个多维重合区间中的每个多维重合区间,根据该待处理数据集中处于该多维重合区间的数据记录确定该待处理数据集在该多维重合区间上的区间分数,以及,根据该参考数据集中处于该多维重合区间的数据记录确定该参考数据集在该多维重合区间上的区间分数。
本申请提供的技术方案,通过区间切割法从单一维度对待处理数据集和参考数据集的重合区域进行区间划分,并对从不同维度划分得到的单维数据区间进行组合来确定多维数据区间,以及确定待处理数据集在多维数据区间上的区间分数和参考数据集在该多维数据区间上的区间分数,可以便于根据该待处理数据集在该多维数据区间上的区间分数和该参考数据集在该多维数据区间上的区间分数来对该待处理数据集进行稳定性检测。
可选地,该m个多维数据区间还包括m2个多维非重合区间,该多维非重合区间是该待处理数据集和该参考数据集的非重合区间,m2为大于或等于0的整数,且m1+m2=m;该处理过程还包括:根据该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在第一多维非重合区间上的区间分数,该第一多维非重合区间是该待处理数据集中与该参考数据集不重合的数据区间,该第一多维重合区间是该至少一个多维重合区间中与该第一多维非重合区间相邻的多维重合区间;根据该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在第二多维非重合区间上的区间分数,该第二多维非重合区间是该参考数据集中与该待处理数据集不重合的数据区间,该第二多维重合区间是该至少一个多维重合区间中与该第二多维非重合区间相邻的多维重合区间。
本申请提供的技术方案,根据待处理数据集在第一多维重合区间上的区间分数确定该待处理数据集在第一多维非重合区间上的区间分数,以及,根据参考数据集在第二多维重合区间上的区间分数确定该参考数据集在第二多维非重合区间上的区间分数,如此确定非重合区间上的区间分数的方式可以称为最近邻跟随法或包围跟随法。
可选地,该处理过程还包括:根据该待处理数据集中处于第一多维混合区间的数据记录确定该待处理数据集在该第一多维混合区间的上的区间分数,该第一多维混合区间由该第一多维重合区间和该第一多维非重合区间构成;根据该参考数据集中处于第二多维混合区间的数据记录确定该参考数据集在该第二多维混合区间的上的区间分数,该第二多维混合区间由该第二多维重合区间和该第二多维非重合区间构成;相应地,根据该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在第一多维非重合区间上的区间分数,包括:根据该待处理数据集在该第一多维混合区间的上的区间分数和该待处理数据集在该第一多维重合区间上的区间分数,确定该待处理数据集在该第一多维非重合区间上的区间分数;根据该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在第二多维非重合区间上的区间分数,包括:根据该参考数据集在该第二多维混合区间的上的区间分数和该参考数据集在该第二多维重合区间上的区间分数,确定该参考数据集在该第二多维非重合区间上的区间分数。
本申请提供的技术方案,根据待处理数据集在第一多维混合区间的上的区间分数和该待处理数据集在第一多维重合区间上的区间分数确定该待处理数据集在第一多维非重合区间上的区间分数,以及,根据参考数据集在第二多维混合区间的上的区间分数和该参考数据集在第二多维重合区间上的区间分数确定该参考数据集在第二多维非重合区间上的区间分数,如此确定非重合区间上的区间分数的方式可以称为最近邻跟随法或包围跟随法。
可选地,在通过迭代的方式,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数之前,该方法还包括:从该n个维度中的每个维度确定该待处理数据集和该参考数据集的重合区域,得到该n个维度对应的重合区域;根据该待处理数据集和该参考数据集在该n个维度的重合区域,确定该待处理数据集和该参考数据集的非重合区域;根据该待处理数据集和该参考数据集的非重合区域,确定该多维非重合区间。
本申请提供的技术方案,通过确定待处理数据集和参考数据集的重合区域,以及该待处理数据集和该参考数据集的非重合区域,可以便于确定该待处理数据集和该参考数据集的多维重合区间以及多维非重合区间。
可选地,该截止条件包括:该多维数据区间的数量达到预设数量。
可选地,该n个维度中的每个维度对应一种数据类型,该n个维度对应的数据类型包括数值型和类别型中的至少一种,该待处理数据集中的数据记录的该n个维度对应的数据类型与该参考数据集中的数据记录的该n个维度对应的数据类型相同;根据该n个维度中的每个维度对应的重合区域确定该维度的至少一个单维数据区间,包括:对于数值型对应的维度,对该维度对应的重合区域进行区间划分,得到该维度的至少一个单维数据区间,其中,执行至少两次该处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量不同;对于类别型对应的维度,将该维度对应的重合区域中同一种类别型的数据确定为一个单维数据区间。
本申请提供的技术方案,通过区间切割法从单一维度对待处理数据集和参考数据集的重合区域进行区间划分,可以便于对从不同维度划分得到的单维数据区间进行组合来确定多维数据区间,以对待处理数据集进行稳定性检测。
可选地,对于数值型对应的维度,执行至少两次该处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量呈线性增加或者呈指数型增加。
本申请提供的技术方案,通过按照处理过程的执行次数增加对重合区域进行区间划分得到的单维数据区间的数量,有助于精细化确定多维数据区间以及区间分数,从而有助于提高算法的精度以及数据区间的分辨率。
可选地,根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测,包括:根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,确定该待处理数据集相对于该参考数据集的稳定性指标;根据该待处理数据集相对于该参考数据集的稳定性指标,对该待处理数据集进行稳定性检测。
本申请提供的技术方案,通过确定待处理数据集相对于参考数据集的稳定性指标,可以便于根据该稳定性指标,量化检测该待处理数据集的稳定性。
可选地,根据该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,确定该待处理数据集相对于该参考数据集的稳定性指标,包括:对于该m个多维数据区间中的每个多维数据区间,根据该待处理数据集在该多维数据区间上的区间分数和该待处理数据集在该m个多维数据区间上的区间分数,确定该待处理数据集在该多维数据区间上的分数占比,以及,根据该参考数据集在该多维数据区间上的区间分数和该参考数据集在该m个多维数据区间上的区间分数,确定该参考数据集在该多维数据区间上的分数占比;根据该待处理数据集在该m个多维数据区间上的分数占比和该参考数据集在该m个多维数据区间上的分数占比,确定该待处理数据集相对于该参考数据集的稳定性指标。
本申请提供的技术方案,通过确定待处理数据集在多维数据区间上的分数占比,以及参考数据集在该多维数据区间上的分数占比,可以便于根据该待处理数据集在m个多维数据区间上的分数占比和该参考数据集在该m个多维数据区间上的分数占比确定该待处理数据集相对于该参考数据集的稳定性指标。
第二方面,提供了一种数据稳定性的检测装置,该装置包括用于执行如上述第一方面或第一方面的任一可选方式提供的方法的各个模块。
第三方面,提供了一种计算机装置,该计算机装置包括存储器和处理器;
该存储器用于存储计算机程序;
该处理器用于执行该存储器中存储的该计算机程序以执行如第一方面或第一方面的任一可选方式提供的方法。
第四方面,提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行如第一方面或第一方面的任一可选方式所提供的方法。
第五方面,提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,当该芯片运行时用于实现如第一方面或第一方面的任一可选方式所提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供的数据稳定性的检测方法及装置、存储介质,待处理数据集和参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度(n为大于或等于1的整数)的数据,获取该待处理数据集和该参考数据集之后,首先确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,然后根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数对该待处理数据集进行稳定性检测,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到。由于可以确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该待处理数据集可以是多维数据集,因此该数据稳定性的检测方案可以检测多维数据集的稳定性,该数据稳定性的检测方案的灵活性较高,应用场景较广。
附图说明
图1是本申请实施例提供的一种单维数据记录的示意图;
图2是本申请实施例提供的一种多维数据记录的示意图;
图3是本申请实施例提供的一种计算机装置的硬件结构示意图;
图4是本申请实施例提供的一种数据稳定性的检测方法的流程图;
图5是本申请实施例提供的一种根据区间分数对待处理数据集进行稳定性检测的流程图;
图6是本申请实施例提供的一种确定待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数的流程图;
图7是本申请实施例提供的一种处理过程的流程图;
图8是本申请实施例提供的一种确定非重合区间上的区间分数的示意图;
图9是本申请实施例提供的另一种确定非重合区间上的区间分数的示意图;
图10是本申请实施例提供的一种确定待处理数据集与参考数据集的重合区域和非重合区域的流程图;
图11是本申请实施例提供的一种数据稳定性的检测装置的逻辑结构示意图。
具体实施方式
为使本申请的原理、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了便于理解,首先对本申请实施例中所涉及的名词进行介绍。
有监督学习:指的是从标签化的训练数据集中推断出函数(或称为算法模型)的机器学习。训练数据集通常包括多组训练实例,每组训练实例包括一条数据记录(又称输入对象或输入数据)以及与该数据记录对应的标签值(又称为输出对象、输出数据、输出值或监督信号等),每条数据记录对应的标签值是通过对该数据记录进行标记得到的,每条数据记录对应的标签值表示将该数据记录作为输入数据时期望得到的输出值。通过有监督学习算法分析训练数据集可以产生一个算法模型,该算法模型可以用于处理数据。示例地,该算法模型可以是AI模型等任何能够进行数据处理的模型。
数据记录:由至少一个数据字段(或数据项)构成的一条数据称为一条数据记录。其中,每个数据字段(或数据项)是该数据记录的一个维度上的数据,也即是每个数据字段(或数据项)对应一个维度。
单维数据记录:指的是维度数等于1的数据记录,也即是数据记录仅包括一个维度的数据(或者说数据记录仅包括一个数据字段或数据项)。例如,请参考图1,其示出了本申请实施例提供的一种单维数据记录的示意图,如图1所示,数据记录11、数据记录12、数据记录13和数据记录14分别是一条单维数据记录(也即是图1示出了四条单维数据记录),该数据记录11至数据记录14分别是经费报销记录。数据记录11表示某公司的某员工的经费报销金额为160元,其中,“160”是该数据记录11的一个维度的数据,或者说是该数据记录11的一个数据字段、数据项。数据记录12、数据记录13和数据记录14同理,在此不再赘述。
多维数据记录:指的是维度数大于1的数据记录,也即是数据记录包括至少两个维度的数据(或者说数据记录包括至少两个数据字段或至少两个数据项)。例如,请参考图2,其示出了本申请实施例提供的一种多维数据记录的示意图,如图2所示,数据记录21、数据记录22、数据记录23和数据记录24分别是一条多维数据记录(也即是图2示出了四条多维数据记录),数据记录21至数据记录24中的每条数据记录具体是一条三维数据记录,数据记录21至数据记录24分别是经费报销记录。数据记录21表示某公司的某员工的经费报销金额为160元,报销币种为人民币,报销水平为低,其中,“人民币”、“160”和“低”为该数据记录21的三个维度的数据,或者是该数据记录21的三个数据字段、三个数据项。数据记录22、数据记录23和数据记录24同理,在此不再赘述。
数值型数据:指的是数据类型是数值型(纯数值)的数据(或称为数据字段、数据项),数值型数据通常为实数,在计算机中通常以浮点数或整数类型存储。例如,图1所示的数据记录11至数据记录14中的数据“160”、“200”、“50”、“1000”以及图2所示的数据记录21至数据记录24中的数据“160”、“200”、“50”、“1000”均为数值型数据。
类别型数据:指的是数据类型是类别型的数据(或称为数据字段、数据项),类别型数据在计算机中通常以字符串类型存储,例如,“高”、“中”、“低”、“优秀”、“良好”、“开心”、“难过”等均为类别型数据。例如,图2所示的数据记录21中的数据“人民币”、“低”、数据记录22中的数据“美元”、“高”、数据记录23中的数据“英镑”、“中”以及数据记录24中的数据“欧元”、“低”均为类别型数据。
数值型数据记录:指的是各个维度的数据均为数值型数据的数据记录。
类别型数据记录:指的是各个维度的数据均为类别型数据的数据记录。
混合型数据记录:指的是既包括数值型数据又包括类别型数据的数据记录。也即是,数据记录的一些维度的数据是数值型数据,另一些维度的数据是类别型数据,例如图2所示的数据记录21至数据记录24均为混合型数据记录。
单维数据区间:单一维度上的数据的区间,例如图1所示的数据记录11至数据记录14中的数据所在的区间,或者图2所示的数据记录21至数据记录24的其中一个维度上的数据所在的区间。
多维数据区间:至少两个单维数据区间拼接而成的数据区间。例如数据区间1和数据区间2均为单维数据区间,该数据区间1和该数据区间2拼接而成的数据区间为二维数据区间,该二维数据区间可以为:数据区间1_数据区间2。例如图2所示的至少两个维度上的数据所在的区间拼接而成的区间为多维数据区间。
数据稳定性:本文所述的数据稳定性指的是数据集的稳定性。某一数据集的稳定性可以采用该某一数据集相对于参考数据集的稳定性指标(stability index,SI)来表征,该某一数据集相对于参考数据集的SI用于衡量该某一数据集相对于该参考数据集是否稳定,也即是,衡量该某一数据集相对于该参考数据集的变化程度。其中,该某一数据集如本文所述的待处理数据集,其指的是采用算法模型待处理的数据集,该参考数据集是采用该算法模型正确处理的数据集。可选地,该待处理数据集和该参考数据集来源于同一个数据源。本领域技术人员应当理解,本申请实施例以待处理数据集和参考数据集均应用于算法模型为例说明数据稳定性,数据稳定性检测的意义并不仅限于算法模型,本申请实施例提供的技术方案可以适用于任何需要检测数据稳定性的场景,本申请实施例不对数据稳定性的检测场景进行限定。
本申请涉及数据挖掘和机器学习,该机器学习可以是有监督学习或者无监督学习。机器学习的主要意义在于得到一个算法模型来进行数据处理,例如利用算法模型进行数据预测、数据分类等。在数据挖掘和机器学习领域,可以在给定的训练数据集上运用适当的算法进行分析得到算法模型,或者对训练数据集进行建模得到算法模型。一个典型的算法模型的运作方式包括:首先利用标签化的训练数据集进行模型训练得到算法模型,然后将待处理数据集输入该算法模型,利用该算法模型对该待处理数据集进行处理得到处理结果。示例地,该算法模型可以是预测模型,该预测模型可以根据输入的待预测数据输出预测结果;或者,该算法模型可以是分类模型,该分类模型可以根据输入的待分类数据输出分类结果。
通常,可以采用一个模型评价指标(例如对数据处理的准确率)来衡量算法模型的输出结果的好坏,且可以对算法模型的输出结果进行监测来确定算法模型的输出结果是否满足业务标准的水平。算法模型能够有效工作的假设之一就是算法模型的输入数据是独立同分布的(也即是算法模型的不同批次的输入数据相互独立且服从同一分布,换言之也即是算法模型的输入数据是稳定的),算法模型的输入数据独立同分布的是保证该算法模型的输出结果满足业务标准的水平的一个重要因素(也即是,算法模型的输入数据的稳定性是保证该算法模型的输出结果满足业务标准的水平的一个重要因素)。对于一个已经完成训练调优的算法模型来说,如果采用该算法模型对两个批次的输入数据处理得到的输出结果的差异较大,就有理由怀疑是否是该两个批次的输入数据的差异较大,例如,该两个批次的输入数据中,后一批次的输入数据相对前一批次的输入数据的变化程度较大,该后一批次的输入数据的稳定性较差。
算法模型的运维需要对算法模型的输出结果进行监测,也就意味着需要对算法模型的输入数据的稳定性进行监测。可以理解的是,当监测到算法模型的输入数据的稳定性变差时,并不意味着算法模型的输出结果一定会变差,但是,当监测到算法模型的输入数据的稳定性变差时,可以给算法模型的运维人员提供必要的信息以决定是否对算法模型进行相应的调整和适配,也可以进行回溯是否是数据源出现了问题。示例地,当采用算法模型对两个批次的输入数据处理得到的输出结果的差异较大时,可以对该算法模型进行重新训练,并采用重新训练的算法模型对待处理数据进行处理;或者,根据该算法模型对该两个批次的输入数据处理得到的输出结果的差异调整该算法模型,并采用调整后的算法模型对待处理数据进行处理。可见,对算法模型的输入数据进行稳定性检测是保证算法模型能够与其输入数据匹配,以及保证算法模型能够对其输入数据进行准确处理的重要手段,也是算法模型运维的重要手段。
算法模型的输入数据通常是批量的,也即是算法模型的输入数据通常可以是一个数据集。在本文中,将待检测稳定性的数据集称为待处理数据集,待处理数据集的稳定性可以采用该待处理数据集相对于参考数据集的变化来表征,可以根据参考数据集对待处理数据集进行稳定性检测。其中,该待处理数据集和该参考数据集可以是同一算法模型的两个批次的输入数据,且该参考数据集是采用该算法模型准确处理的数据集。目前,可以采用卡方检验的方式检测待处理数据集的稳定性,或者采用PSI检测待处理数据集的稳定性。其中,PSI是一种衡量两个数据集的差异的指标,对于两个数据集而言,其中一个数据集相对于另一个数据集的PSI可以反映出该一个数据集相对于该另一个数据集的变化程度。
其中,采用卡方检验的方式检测待处理数据集的稳定性的方案为:通过卡方检验确定待处理数据集的概率分布和参考数据集的概率分布,根据该待处理数据集的概率分布和该参考数据集的概率分布检测该待处理数据集的稳定性。但是这样的方案的检测结果太过敏感,检测结果会退化为简单的二值判断:待处理数据集相对于参考数据集是否发生变化(也即是变了或者没变),该方案无法定量的表征待处理数据集相对于参考数据集的变化程度,这使得该方案难以在实际的数据稳定性检测中得到应用。
其中,采用PSI检测待处理数据集的稳定性的方案为:首先通过分箱的方法将待处理数据集和参考数据集分别划分为多个数据区间;然后计算每个数据区间上的数据频率;之后根据将该待处理数据集划分得到的多个数据区间上的数据频率和将该参考数据集划分得到的多个数据区间上的数据频率确定该待处理数据集相对于该参考数据集的PSI;最后根据该待处理数据集相对于该参考数据集的PSI对该待处理数据集进行稳定性检测。但是,采用PSI仅能够检测单维数值型数据集的稳定性,而实际应用中,待处理数据集通常是多维数据集,且待处理数据集可以是数值型数据集(也即是待处理数据集中的数据记录均是数值型数据记录)、类别型数据集(也即是待处理数据集中的数据记录均是类别型数据记录),或者是混合型数据集(也即是待处理数据集中的数据记录均是混合型数据记录),采用PSI无法检测多维数据集、类别型数据集以及混合型数据集的稳定性,因此该检测数据稳定性的方案的灵活性较差,应用场景的局限性较大。
有鉴于此,本申请实施例提供一种数据稳定性的检测方案,在该技术方案中,待处理数据集和参考数据集中的每条数据记录包括n个维度的数据,可以对该n个维度中每个维度的数据进行区间划分得到多个单维数据区间,根据该n个维度的单维数据区间确定m个多维数据区间,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,之后根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数对该待处理数据集进行稳定性检测。该数据稳定性的检测方案可以检测多维数据集的稳定性,灵活性较高,应用场景较广。其中,该多维数据集可以是数值型数据集,类别型数据集或者是混合型数据集,并且该数据稳定性的检测方案还可以用于检测单维数据集的稳定性。
本申请实施例提供的数据稳定性的检测方法可以应用于计算机装置中,该计算机装置可以是通用计算机装置,例如可以是终端或者服务器。其中,该终端可以是个人电脑、智能手机、平板电脑、笔记本电脑或台式电脑等,该服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心,且该服务器可以是通用裸金属服务器或弹性计算云平台等。可选地,该计算机装置是多核心、大内存的高性能服务器,该高性能服务器在处理海量数据方面具有一定优势,可以快速、有效地处理高维度的大数据。
示例地,请参考图3,其示出了本申请实施例提供的一种计算机装置300的硬件结构示意图。参见图3,该计算机装置300包括处理器302、存储器304、通信接口306和总线308,处理器302、存储器304和通信接口306通过总线308彼此通信连接。本领域技术人员应当明白,图9所示的处理器302、存储器304和通信接口306之间的连接方式仅仅是示例性的,在实现过程中,处理器302、存储器304和通信接口306还可以采用除了总线308之外的其他连接方式彼此通信连接。
其中,存储器304可以用于存储计算机程序3042,该计算机程序可以包括指令和数据。在本申请实施例中,存储器304可以是各种类型的存储介质,例如随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、非易失性RAM(non-volatile RAM,NVRAM)、可编程ROM(programmable ROM,PROM)、可擦除PROM(erasablePROM,EPROM)、电可擦除PROM(electrically erasable PROM,EEPROM)、闪存、光存储器和寄存器等。并且,该存储器304可以包括硬盘和/或内存,内存是用于暂时存放数据的存储器,硬盘是用于持久化存储数据的存储器,硬盘中可以部署用于管理数据库的数据库管理系统(database management system,DBMS)。
其中,处理器302可以是通用处理器,通用处理器可以是通过读取并执行存储器(例如存储器304)中存储的计算机程序(例如计算机程序3042)来执行特定步骤和/或操作的处理器,通用处理器在执行上述步骤和/或操作的过程中可能用到存储在存储器(例如存储器304)中的数据。通用处理器可以是,例如但不限于,中央处理器(central processingunit,CPU)。此外,处理器302也可以是专用处理器,专用处理器可以是专门设计的用于执行特定步骤和/或操作的处理器,该专用处理器可以是,例如但不限于,数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integratedcircuit,ASIC)或者可编程逻辑器件(programmable logic device,PLD),该PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合等。此外,处理器302还可以是多个处理器的组合,例如多核处理器。处理器302可以包括至少一个电路,以执行本申请实施例提供的方法的全部或部分步骤。
其中,通信接口306可以包括输入/输出(input/output,I/O)接口、物理接口和逻辑接口等用于实现计算机装置300内部的器件互连的接口,以及用于实现计算机装置300与其他设备互连的接口。I/O接口可以是,例如但不限于键盘、鼠标、显示屏等。物理接口可以是千兆的以太接口(gigabit Ethernet,GE),其可以用于实现计算机装置300与其他设备互连。逻辑接口是计算机装置300内部的接口,其可以用于实现计算机装置300内部的器件互连。容易理解,通信接口306可以用于计算机装置300与其他设备通信,例如,通信接口306用于计算机装置300与其他设备之间信息的发送和接收。
其中,总线308可以是任何类型的,用于实现处理器302、存储器304和通信接口306互连的通信总线,例如系统总线。
上述器件可以分别设置在彼此独立的芯片上,也可以至少部分的或者全部的设置在同一块芯片上。将各个器件独立设置在不同的芯片上,还是整合设置在一个或者多个芯片上,往往取决于产品设计的需要。本申请实施例对上述器件的具体实现形式不做限定。示例地,该计算机装置300还包括主板,上述器件至少部分的或者全部的设置在该主板上。
图3所示的计算机装置300仅仅是示例性的,在实现过程中,计算机装置300还可以包括其他组件,例如,该计算机装置300还可以包括电源组件,以为上述各个器件提供工作能量,本文不再一一列举该计算机装置300中的其他组件。该图3所示的计算机装置300可以通过执行本申请实施例提供的数据稳定性的检测方法来检测数据的稳定性。
下面介绍本申请实施例提供的数据稳定性的检测方法,该数据稳定性的检测方法可以用于如图3所示的计算机装置300。
示例地,请参考图4,其示出了本申请实施例提供的一种数据稳定性的检测方法的流程图,如图4所示,该数据稳定性的检测方法可以包括如下几个步骤:
步骤401、获取待处理数据集和参考数据集,该待处理数据集和该参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据。
可选地,待处理数据集是待经过算法模型处理的数据集,参考数据集是已经过该算法模型正确处理的任一数据集,该待处理数据集与该参考数据集来源于同一数据源。计算机装置可以从数据源获取待处理数据集,或者从未经过该算法模型处理的数据集中获取待处理数据集;计算机装置可以从已经过该算法模型处理过的数据集中获取参考数据集。示例地,该参考数据集是经过该算法模型处理过的该待处理数据集的前一批次的数据集。例如该待处理数据集是某公司员工2月的经费报销数据,该参考数据集是该某公司员工1月的经费报销数据。
在本申请实施例中,该待处理数据集和该参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据,n为大于或等于1的整数,该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数相等。其中,该n个维度中的每个维度对应一种数据类型,每个维度对应的数据类型为该维度上的数据的类型,该n个维度对应的数据类型可以包括数值型和类别型中的至少一种。如果一条数据记录的n个维度对应的数据类型均为数值型,则该数据记录为数值型数据记录,如果一条数据记录的n个维度对应的数据类型均为类别型,则该数据记录为类别型数据记录,如果一条数据记录的n个维度对应的数据类型包括数值型和类别型(也即是一些维度对应的数据类型为数值型,另一些维度对应的数据类型为类别型),则该数据记录为混合型数据记录。示例地,该数据记录可以为图1所示的单维数据记录(n=1),或者为图2所示的多维数据记录(n大于1)。在本申请实施例中,该待处理数据集中的数据记录的n个维度与该参考数据集中的数据记录的n个维度可以一一对应,且该待处理数据集和该参考数据集中一一对应的维度对应的数据类型相同。
示例地,为了便于描述,将待处理数据集称为数据集D1,将参考数据集称为数据集D2,数据集D1的维度数为n1,数据集D2的维度数为n2,则n1=n2。其中,数据集D1中的数据记录可以表示为S1={a1,a2,a3...an1},a1,a2,a3...an1依次表示数据集D1中的数据记录的n1个维度的数据,a1,a2,a3...an1一一对应该n1个维度;数据集D2中的数据记录可以表示为S2={b1,b2,b3...bn2},b1,b2,b3...bn2依次表示数据集D2中的数据记录的n2个维度的数据,b1,b2,b3...bn2一一对应该n2个维度;并且a1,a2,a3...an1与b1,b2,b3...bn2一一对应,a1的数据类型与b1的数据类型相同,a2的数据类型与b2的数据类型相同,a3的数据类型与b3的数据类型相同,依次类推,an的数据类型与bn的数据类型相同。
需要说明的是,计算机装置获取到待处理数据集和参考数据集之后,可以检测该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数是否相等,检测该待处理数据集中的数据记录的维度与该参考数据集中的数据记录的维度是否一一对应,以及,检测该待处理数据集和该参考数据集中一一对应的维度对应的数据类型是否相同;如果该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数相等,该待处理数据集中的数据记录的维度与该参考数据集中的数据记录的维度一一对应,且该待处理数据集和该参考数据集中一一对应的维度对应的数据类型相同,该计算机装置执行该步骤401的后续步骤;如果该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数不相等,或者该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数相等,但该待处理数据集中的数据记录的维度与该参考数据集中的数据记录的维度不一一对应;或者,该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数相等,该待处理数据集中的数据记录的维度与该参考数据集中的数据记录的维度一一对应,但该待处理数据集和该参考数据集中一一对应的维度对应的数据类型不相同,该计算机装置可以生成提示信息,以告知用户无法进行后续步骤。计算机装置生成提示信息后,可以对该待处理数据集中的数据记录进行检测,以确定每个数据记录的各个维度对应的数据类型,本申请实施例在此不再赘述。
步骤402、确定待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数,该m个多维数据区间根据n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到。
计算机装置获取到待处理数据集和参考数据集之后,如果该待处理数据集中的数据记录的维度数与该参考数据集中的数据记录的维度数相等,该待处理数据集中的数据记录的维度与该参考数据集中的数据记录的维度一一对应,且该待处理数据集和该参考数据集中一一对应的维度对应的数据类型相同,该计算机装置通过执行该步骤402,来确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数。其中,该m个多维数据区间根据n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到,m为大于或等于1的整数。关于该步骤402的实现过程将在下文中进行详细介绍,此处先不做赘述。
步骤403、根据待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测。
计算机装置获取到待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数之后,根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测。示例地,请参考图5,其示出了本申请实施例提供的一种根据区间分数对待处理数据集进行稳定性检测的流程图。如图5所示,该方法可以包括如下几个步骤:
子步骤4031、根据待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数,确定该待处理数据集相对于该参考数据集的稳定性指标。
可选地,对于该m个多维数据区间中的每个多维数据区间(例如多维数据区间i),计算机装置根据待处理数据集在该多维数据区间(例如多维数据区间i)上的区间分数和该待处理数据集在该m个多维数据区间上的区间分数,确定该待处理数据集在该多维数据区间(例如多维数据区间i)上的分数占比,以及,根据参考数据集在该多维数据区间(例如多维数据区间i)上的区间分数和该参考数据集在该m个多维数据区间上的区间分数,确定该参考数据集在该多维数据区间(例如多维数据区间i)上的分数占比;之后计算机装置根据该待处理数据集在该m个多维数据区间上的分数占比和该参考数据集在该m个多维数据区间上的分数占比,确定该待处理数据集相对于该参考数据集的稳定性指标。
可选地,对于该m个多维数据区间中的每个多维数据区间(例如多维数据区间i),计算机装置将待处理数据集在该多维数据区间(例如多维数据区间i)上的区间分数与该待处理数据集在该m个多维数据区间上的区间分数的总和的比值确定为该待处理数据集在该多维数据区间(例如多维数据区间i)上的分数占比,将参考数据集在该多维数据区间(例如多维数据区间i)上的区间分数与该参考数据集在该m个多维数据区间上的区间分数的总和的比值确定为该参考数据集在该多维数据区间(例如多维数据区间i)上的分数占比。示例地,该待处理数据集在多维数据区间i上的分数占比可以采用下述公式(1)表示,该参考数据集在该多维数据区间i上的分数占比可以采用下述公式(2)表示:
Figure BDA0002728924010000121
Figure BDA0002728924010000122
在公式(1)和公式(2)中,m表示多维数据区间的总数量,
Figure BDA0002728924010000123
表示待处理数据集在多维数据区间i上的分数占比,
Figure BDA0002728924010000124
表示该待处理数据集在该多维数据区间i上的区间分数,
Figure BDA0002728924010000125
表示该待处理数据集在m个多维数据区间上的区间分数的总和,
Figure BDA0002728924010000126
表示参考数据集在多维数据区间i上的分数占比,
Figure BDA0002728924010000127
表示该参考数据集在该多维数据区间i上的区间分数,
Figure BDA0002728924010000128
表示该参考数据集在该m个多维数据区间上的区间分数的总和。
可选地,计算机装置根据该待处理数据集在该m个多维数据区间上的分数占比和该参考数据集在该m个多维数据区间上的分数占比,基于对称K-L散度(kullback-leiblerdivergence)方法计算该待处理数据集相对于该参考数据集的稳定性指标。K-L散度是一种量化两种概率分布之间差异的方式,又叫相对熵。示例地,该待处理数据集相对于该参考数据集的稳定性指标可以采用下述公式(3)表示:
Figure BDA0002728924010000129
在公式(3)中,SI表示该待处理数据集相对于该参考数据集的稳定性指标,ln为对数符号,表示以无理数e为底的对数,以无理数e为底的对数也叫做自然对数。
在本申请实施例中,计算机装置可以根据待处理数据集在多维数据区间i上的区间分数与该待处理数据集在m个多维数据区间上的区间分数,采用公式(1)计算该待处理数据集在该多维数据区间i上的分数占比;根据参考数据集在该多维数据区间i上的区间分数与该参考数据集在该m个多维数据区间上的区间分数,采用公式(2)计算该参考数据集在该多维数据区间i上的分数占比;之后,计算机装置根据该待处理数据集在该多维数据区间i上的分数占比以及该参考数据集在该多维数据区间i上的分数占比,采用公式(3)计算该待处理数据集相对于该参考数据集的稳定性指标。
需要说明的是,公式(3)中所述的稳定性指标SI为一统称,在本申请实施例中,待处理数据集可以是数值型数据集(也即是待处理数据集中的数据记录均为数值型数据记录)、类别型数据集(也即是待处理数据集中的数据记录均为类别型数据记录)或混合型数据集(也即是待处理数据集中的数据记录均为混合型数据记录),且数值型数据集可以是单维数值型数据集或多维数值型数据集,类别型数据集可以是单维类别型数据集或多维类别型数据集。对于单维数值型数据集,该稳定性指标可以是PSI;对于单维类别型数据集,该稳定性指标可以是类别型变量群体稳定性指标(categorical variable populationstability index,cPSI);对于多维数值型数据集、多维类别型数据集以及混合型数据集,该稳定性指标可以是多变量群体稳定性指标(multi-variable population stabilityindex,MSI),其中,PSI、cPSI以及MSI的计算过程均如公式(3)所示,在此不再赘述。
子步骤4032、根据该待处理数据集相对于该参考数据集的稳定性指标,对该待处理数据集进行稳定性检测。
可选地,计算机装置检测该待处理数据集相对于该参考数据集的稳定性指标是否大于第一指标阈值,如果该待处理数据集相对于该参考数据集的稳定性指标不大于该第一指标阈值,该计算机装置确定该待处理数据集相对于该参考数据集的变化程度较小,该待处理数据集稳定;如果该待处理数据集相对于该参考数据集的稳定性指标大于该第一指标阈值,该计算机装置检测该待处理数据集相对于该参考数据集的稳定性指标是否大于第二指标阈值(该第二指标阈值大于该第一指标阈值),如果该待处理数据集相对于该参考数据集的稳定性指标不大于该第二指标阈值,则该待处理数据集相对于该参考数据集的稳定性指标介于该第一指标阈值与该第二指标阈值之间,该计算机装置确定该待处理数据集相对于该参考数据集发生的中等程度的变化;如果该待处理数据集相对于该参考数据集的稳定性指标大于该第二指标阈值,该计算机装置确定该待处理数据集相对于该参考数据集的变化程度较大,该待处理数据集不稳定。示例地,第一指标阈值为0.1,第二指标阈值为0.2。
计算机装置对待处理数据集进行稳定性检测后,可以生成检测结果,并展示该检测结果(例如显示检测结果或播报检测结果),以方便用户查看,其中,该检测结果可以包括该待处理数据集相对于该参考数据集的稳定性指标所处的指标区间以及对该稳定性指标的说明。示例地,该稳定性指标所处的指标区间以及对该稳定性指标的说明可以如下表1所示:
表1
SI 指标说明
SI<0.1 变化程度较小,该待处理数据集稳定,无需担心
0.1<SI<0.2 变化程度中等
SI>0.2 变化程度较大,该待处理数据集不稳定,需要进行采用措施
可选地,计算机装置对待处理数据集进行稳定性检测后,还可以输出该待处理数据集与该参考数据集的差异对比详情,以方便用户在确定该待处理数据集相对于该参考数据集的变化程度较大时,快速定位到变化程度较大的数据记录,也即是快速定位到问题点。可选地,计算机装置可以在该待处理数据集相对于该参考数据集的变化程度较大(例如SI>0.2)时,输出该待处理数据集与该参考数据集的差异对比详情,可以理解的是,在该待处理数据集相对于该参考数据集的变化程度较小(例如SI<0.1,或者0.1<SI<0.2)时,计算机装置也可以输出该待处理数据集与该参考数据集的差异对比详情,本申请实施例对此不做限定。可选地,计算机装置中可以部署有DBMS,计算机装置可以将该待处理数据集与该参考数据集的差异对比详情持久化存储至DBMS,以便于用户后续根据DBMS中存储的该待处理数据集与该参考数据集的差异对比详情对该待处理数据集与该参考数据集的差异进行回溯分析。
可选地,该待处理数据集与该参考数据集的差异对比详情可以包括至少一个多维数据区间,该待处理数据集在该多维数据区间上的区间分数,以及该参考数据集在该多维数据区间上的区间分数。示例地,该待处理数据集与该参考数据集的差异对比详情可以如下表2所示:
表2
Figure BDA0002728924010000141
在一个具体的示例性中,该待处理数据集与该参考数据集的差异对比详情如下表3所示:
表3
多维数据区间 区间分数D1 区间分数D2
(1.343,102.598]_(-181.696,1762.482]_... 236782.5 273360.750
(1902.598,3803.854]_(-181.696,1762.482]_... 130028.5 149175.750
(1902.598,3803.854]_(1726.482,3634.659]_... 122601.5 141175.250
(1.343,1902.598]_(1726.482,3634.659]_... 122561.5 141146.750
(1.343,1902.598]_(-181.696,1762.482]_... 83771.5 95128.500
(1.343,1902.598]_(1726.482,3634.659]_... 0.0 1.000
(11408.876,13310.131]_(-181.696,1762.482]_... 0.0 2.125
(3803.854,5705.109]_(0.969,1.0]_... 0.0 1.000
(3803.854,5705.109]_(3634.659,5542.836]_... 0.0 1.000
在表2和表3中,区间分数D1表示待处理数据集D1在多维数据区间上的区间分数,区间分数D2表示参考数据集D2在多维数据区间上的区间分数。表3中的每个多维数据区间是由至少两个单维数据区间拼接而成的,例如,多维数据区间(1.343,102.598]_(-181.696,1762.482]_...由包括单维数据区间(1.343,102.598]和单维数据区间(-181.696,1762.482]的多个单维数据区间拼接而成,其他的多维数据区间与此同理,本申请实施例在此不再赘述。
下面介绍步骤402的具体实现。在本申请实施例中,可以通过迭代的方式确定待处理数据集在多维数据区间上的区间分数以及参考数据集在该多维数据区间上的区间分数,这样可以精细化确定多维数据区间以及区间分数,有助于提高算法的精度以及数据区间的分辨率。其中,数据区间的分辨率指的是单位尺寸内的数据区间的数量,例如,对于一维数据区间,数据区间的分辨率为单位长度内的数据区间的数量;对于二维数据区间,数据区间的分辨率为单位面积内的数据区间的数量;对于三维数据区间,数据区间的分辨率为单位体积内的数据区间的数量,本申请实施例对此不做限定。
可选地,该步骤402可以包括:通过迭代的方式,确定待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数。
示例地,请参考图6,其示出了本申请实施例提供的一种确定待处理数据集在m个多维数据区间上的区间分数以及参考数据集在该m个多维数据区间上的区间分数的流程图,该图6所示的可以是通过迭代的方式确定区间分数的流程图。参见图6,该方法可以包括如下步骤:
子步骤4021、针对n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件,其中,该n个维度对应的重合区域是从该n个维度中的每个维度确定的待处理数据集和参考数据集的重合区域,每个维度对应的重合区域中包括该待处理数据集和该参考数据集在该维度上相同的数据。
可选地,计算机装置可以先从n个维度中的每个维度确定的待处理数据集和参考数据集的重合区域,将从每个维度确定的该待处理数据集和该参考数据集的重合区域确定为该维度对应的重合区域,从而计算机装置可以得到该n个维度对应的重合区域。之后,该计算机装置针对该n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件。其中,每次执行处理过程确定的多维数据区间的数量不同,且确定的多维数据区间的数量随着处理过程的执行次数的增加而增加,该截止条件可以是多维数据区间的数量收敛,例如,该多维数据区间的数量达到预设数量,该预设数量可以根据情况设置,本申请实施例对此不做限定。
可选地,在本申请实施例中,该m个多维数据区间可以包括m1个多维重合区间,该多维重合区间是该待处理数据集和该参考数据集的重合区间,该m1为大于或等于1且小于或等于m的整数。可选地,该m个多维数据区间还可以包括m2个多维非重合区间,该多维非重合区间是该待处理数据集和该参考数据集的非重合区间,该m2为大于或等于0的整数,且m1+m2=m。示例地,请参考图7,其示出了本申请实施例提供的一种处理过程的流程图。参见图7,该处理过程可以包括如下几个步骤:
子步骤40211、根据n个维度中的每个维度对应的重合区域确定该维度的至少一个单维数据区间。
可选地,该n个维度中的每个维度对应一种数据类型,该n个维度对应的数据类型包括数值型和类别型中的至少一种,该待处理数据集中的数据记录的该n个维度对应的数据类型与该参考数据集中的数据记录的该n个维度对应的数据类型相同,例如,该待处理数据集中的数据记录的n个维度与该参考数据集中的数据记录的n个维度一一对应,且该待处理数据集和该参考数据集中一一对应的维度对应的数据类型相同。该子步骤40211可以包括:对于数值型对应的维度,对该维度对应的重合区域进行区间划分,得到该维度的至少一个单维数据区间;对于类别型对应的维度,将该维度对应的重合区域中同一种类别型的数据确定为一个单维数据区间。其中,对于数值型对应的维度,执行至少两次该处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量不同,可选地,执行至少两次该处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量呈线性增加或者呈指数型增加,且每次执行处理过程可以对该维度对应的重合区域等间距进行区间划分。
示例地,对于数值型对应的维度,假设待处理数据集D1的维度1上的数据(例如a1)的范围为[0,90],参考数据集D2的维度1上的数据(例如b1)的范围为[10,100],则该待处理数据集D1和该参考数据集D2在该维度1上的重合区域为[10,90],该维度1对应的重合区域为[10,90],计算机装置对该重合区域[10,90]进行区间划分,得到该维度1的至少一个单维数据区间。例如,在首次执行该处理过程时,计算机装置将该重合区域[10,90]划分为两个单维数据区间,分别为[10,50]和[50,90]。在后续次每次执行该处理过程时,计算机装置可以在前一次处理过程的基础上呈线性增加对该重合区域划分的单维数据区间的数量。例如,在第二次执行该处理过程时,计算机装置将该重合区域[10,90]划分为三个单维数据区间,分别为[10,37]、[37,64]和[64,90];在第三次执行该处理过程时,计算机装置将该重合区域[10,90]划分为四个单维数据区间,分别为[10,30]、[30,50]、[50,70]和[70,90],依次类推。或者,在后续每次执行该处理过程时,计算机装置可以在前一次处理过程的基础上呈指数型增加对该重合区域划分的单维数据区间的数量。例如,在第二次执行该处理过程时,计算机装置将该重合区域[10,90]划分为四个(2的平方)单维数据区间,分别为:[10,30]、[30,50]、[50,70]和[70,90];在第三次执行该处理过程时,计算机装置将该重合区域[10,90]划分为八个(2的三次方)单维数据区间,分别为:[10,20]、[20,30]、[30,40]、[40,50]、[50,60]、[60,70]、[70,80]和[80,90],依次类推。
示例地,对于类别型对应的维度,假设待处理数据集D1的维度2上的数据(例如a2)包括:人民币、美元、韩元、英镑和欧元,参考数据集D2的维度2上的数据(例如b2)包括:人民币、美元、韩元、英镑和欧元,则该待处理数据集D1和该参考数据集D2在该维度2上的重合区域为:人民币、美元、韩元、英镑和欧元。计算机装置将该重合区域中,同一种类别型的数据确定为一个单维数据区间,例如,计算机装置可以确定五个单维数据区间,分别为:人民币、美元、韩元、英镑和欧元。
需要说明的是,计算机装置在执行处理过程时,对数值型对应的维度对应的重合区间划分得到的单维数据区间的数量随着处理过程次数的增加而增加,对类别型对应的维度的重合区间确定的单维数据区间的数量相等。计算机装置通过对数值型对应的维度对应的重合区间划分,可以实现数值型数据的离散化。
子步骤40212、根据该n个维度的单维数据区间确定至少一个多维重合区间。
可选地,计算机装置可以将该n个维度中的每个维度的每个单维数据区间与其他所有维度的各个单维数据区间分别进行拼接,得到至少一个多维重合区间。例如,计算机装置从该n个维度中的每个维度选择一个单维数据区间得到n个单维数据区间,将该n个单维数据区间拼接组成一个多维重合区间,按照此方法,总共可以确定出至少一个多维重合区间。可选地,在一些实施方式中,可以将多个单维数据区间拼接而成的称为“星座”(constellation),可以理解的是,该“星座”也即是该多维数据区间。
示例地,假设待处理数据集D1和参考数据集D2均是三维数据集(也即是数据集中的数据记录是三维数据记录,每条数据记录包括三个维度的数据),根据该三个维度中的维度1对应的重合区域确定该维度1的至少一个单维数据区间包括:单维数据区间11、单维数据区间12和单维数据区间13,根据该三个维度中的维度2对应的重合区域确定该维度2的至少一个单维数据区间包括:单维数据区间21和单维数据区间22,根据该三个维度中的维度3对应的重合区域确定该维度3的至少一个单维数据区间包括:单维数据区间31,计算机装置根据该三个维度的单维数据区间确定的至少一个多维重合区间包括:多维重合区间1、多维重合区间2、多维重合区间3、多维重合区间4、多维重合区间5和多维重合区间6,该多维重合区间1、多维重合区间2、多维重合区间3、多维重合区间4、多维重合区间5和多维重合区间6可以如下表4所示:
表4
多维重合区间 多维重合区间所包含的单维数据区间
多维重合区间1 单维数据区间11_单维数据区间21_单维数据区间31
多维重合区间2 单维数据区间11_单维数据区间22_单维数据区间31
多维重合区间3 单维数据区间12_单维数据区间22_单维数据区间31
多维重合区间4 单维数据区间12_单维数据区间22_单维数据区间31
多维重合区间5 单维数据区间13_单维数据区间21_单维数据区间31
多维重合区间6 单维数据区间13_单维数据区间22_单维数据区间31
如表4所示,该表4中的第1行数据表示:多维重合区间1是由单维数据区间11、单维数据区间21和单维数据区间31依次拼接构成的;该表4中的第2行数据表示:多维重合区间2是由单维数据区间11、单维数据区间22和单维数据区间31依次拼接构成的,依次类推。
子步骤40213、对于该至少一个多维重合区间中的每个多维重合区间,根据该待处理数据集中处于该多维重合区间的数据记录确定该待处理数据集在该多维重合区间上的区间分数,以及,根据该参考数据集中处于该多维重合区间的数据记录确定该参考数据集在该多维重合区间上的区间分数。
可选地,对于该至少一个多维重合区间,计算机装置统计该待处理数据集中处于该多维重合区间的数据记录的条数,以及该参考数据集中处于该多维重合区间的数据记录的条数,根据该待处理数据集中处于该多维重合区间的数据记录的条数确定该待处理数据集在该多维重合区间上的区间分数,根据该参考数据集中处于该多维重合区间的数据记录的条数确定该待参考数据集在该多维重合区间上的区间分数。可选地,在首次执行该处理过程时,计算机装置将该待处理数据集中处于该多维重合区间的数据记录的条数确定为该待处理数据集在该多维重合区间上的区间分数,以及将该参考数据集中处于该多维重合区间的数据记录的条数确定为该参考数据集在该多维重合区间上的区间分数;在后续每次执行该处理过程时,计算机装置根据本次执行处理过程确定的该待处理数据集中处于该多维重合区间的数据记录的条数以及前一次处理过程确定的区间分数,确定本次处理过程中该待处理数据集在该多维重合区间上的区间分数,以及,根据本次执行处理过程确定的该参考数据集中处于该多维重合区间的数据记录的条数以及前一次处理过程确定的区间分数,确定本次处理过程中该参考数据集在该多维重合区间上的区间分数。
示例地,首次执行该处理过程确定的待处理数据集D1在多维重合区间p(也即是第p个多维重合区间)上的区间分数如下公式(4)所示,参考数据集D2在该多维重合区间p上的区间分数如下公式(5)所示:
Figure BDA0002728924010000181
Figure BDA0002728924010000182
在公式(4)和公式(5)中,p为大于或等于1且小于或等于p1的整数,p1表示首次执行处理过程确定的多维重合区间的总数量;
Figure BDA0002728924010000183
表示首次执行处理过程确定的待处理数据集D1在多维重合区间p上的区间分数,
Figure BDA0002728924010000184
表示首次执行处理过程确定的待处理数据集D1中处于多维重合区间p的数据记录的条数;
Figure BDA0002728924010000185
表示首次执行处理过程确定的参考数据集D2在多维重合区间p上的区间分数,
Figure BDA0002728924010000186
表示首次执行处理过程确定的参考数据集D2中处于多维重合区间p的数据记录的条数。
示例地,第j次执行该处理过程确定的待处理数据集D1在多维重合区间q(也即是第q个多维重合区间)上的区间分数如下公式(6)所示,参考数据集D2在该多维重合区间q上的区间分数如下公式(7)所示:
Figure BDA0002728924010000187
Figure BDA0002728924010000188
在公式(6)和公式(7)中,j表示执行处理过程的次数,j为大于1的整数;q为大于或等于1且小于或等于qj的整数,qj表示第j次执行处理过程确定的多维重合区间的总数量;
Figure BDA0002728924010000189
表示第j次执行处理过程确定的待处理数据集D1在多维重合区间q上的区间分数,
Figure BDA00027289240100001810
表示第j次执行处理过程确定的待处理数据集D1中处于多维重合区间q的数据记录的条数,
Figure BDA00027289240100001811
表示第j次执行处理过程确定的参考数据集D2在多维重合区间q上的区间分数,
Figure BDA00027289240100001812
表示第j次执行处理过程确定的参考数据集D2中处于多维重合区间q的数据记录的条数,
Figure BDA00027289240100001813
表示第j-1次执行处理过程确定的第一目标分数,该第一目标分数是第j-1次执行处理过程确定的该待处理数据集D1在第一目标区间上的区间分数,
Figure BDA00027289240100001814
表示第j-1次执行处理过程确定的第二目标分数,该第二目标分数是第j-1次执行处理过程确定的该参考数据集D2在第一目标区间上的区间分数,该第j次执行处理过程确定的该多维重合区间q属于该第一目标区间;或者该第一目标分数是第j-1次执行处理过程确定的该待处理数据集D1在第二目标区间上的区间分数和该待处理数据集D1在第三目标区间上的区间分数的平均分数,该第二目标分数是第j-1次执行处理过程确定的该参考数据集D2在第二目标区间上的区间分数和该参考数据集D2在第三目标区间上的区间分数的平均分数,该第j次执行处理过程确定的该多维重合区间q的一部分属于该第二目标区间,另一部分属于该第三目标区间。
子步骤40214、根据该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在第一多维非重合区间上的区间分数,该第一多维非重合区间是该待处理数据集中与该参考数据集不重合的数据区间,该第一多维重合区间是该至少一个多维重合区间中与该第一多维非重合区间相邻的多维重合区间。
可选地,计算机装置在每次执行处理过程时,可以确定待处理数据集在第一多维混合区间的上的区间分数,根据该待处理数据集在该第一多维混合区间的上的区间分数和该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在该第一多维非重合区间上的区间分数。其中,该第一多维混合区间由该第一多维重合区间和该第一多维非重合区间构成,该第一多维重合区间与该第一多维非重合区间相邻。可选地,计算机装置根据该待处理数据集中处于该第一多维混合区间的数据记录确定该待处理数据集在该第一多维混合区间的上的区间分数,将该待处理数据集在该第一多维混合区间的上的区间分数与该待处理数据集在该第一多维重合区间上的区间分数的差值,确定为该待处理数据集在该第一多维非重合区间上的区间分数。计算机装置根据该待处理数据集中处于该第一多维混合区间的数据记录确定该待处理数据集在该第一多维混合区间的上的区间分数的实现过程,可以参考上述子步骤40213中,计算机装置根据该待处理数据集中处于多维重合区间的数据记录确定该待处理数据集在该多维重合区间上的区间分数的实现过程,本申请实施例在此不再赘述。
示例地,请参考图8,其示出了本申请实施例提供的一种确定非重合区间上的区间分数的示意图,该图8以待处理数据集D1和参考数据集D2均为单维数据集为例说明。该待处理数据集D1中与该参考数据集D2的非重合区间D11为单维非重合区间[0,10],计算机装置在执行处理过程时,可以分别确定该待处理数据集D1在单维混合区间D1x上的区间分数SD1x以及该待处理数据集D1在单维重合区间D12上的区间分数SD12,将该待处理数据集D1在该单维混合区间D1x上的区间分数SD1x与该待处理数据集D1在该单维重合区间D12上的区间分数SD12的差值确定为该待处理数据集D1在该单维非重合区间D11上的区间分数,也即是,该待处理数据集D1在该单维非重合区间D11上的区间分数SD11=SD1x-SD12
再示例地,请参考图9,其示出了本申请实施例提供的另一种确定非重合区间上的区间分数的示意图,该图9以待处理数据集D1和参考数据集D2均为二维数据集为例说明。该待处理数据集D1中与该参考数据集D2的非重合区间D11为多维非重合区间,计算机装置在执行处理过程时,可以分别确定该待处理数据集D1在多维混合区间D1x上的区间分数SD1x以及该待处理数据集D1在多维重合区间D12上的区间分数SD12,将该待处理数据集D1在该多维混合区间D1x上的区间分数SD1x与该待处理数据集D1在该多维重合区间D12上的区间分数SD12的差值确定为该待处理数据集D1在该多维非重合区间D11上的区间分数,也即是,该待处理数据集D1在该多维非重合区间D11上的区间分数SD11=SD1x-SD12。示例地,该多维混合区间D1x是第一多维混合区间,该多维重合区间D12是第一多维重合区间,该多维非重合区间D11是第一多维非重合区间,该多维混合区间D1x由该多维重合区间D12和该多维非重合区间D11构成,该多维非重合区间D11与该多维重合区间D12相邻。
子步骤40215、根据该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在第二多维非重合区间上的区间分数,该第二多维非重合区间是该参考数据集中与该待处理数据集不重合的数据区间,该第二多维重合区间是该至少一个多维重合区间中与该第二多维非重合区间相邻的多维重合区间。
可选地,计算机装置在每次执行处理过程时,可以确定参考数据集在第二多维混合区间的上的区间分数,根据该参考数据集在该第二多维混合区间的上的区间分数和该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在该第二多维非重合区间上的区间分数。其中,该第二多维混合区间由该第二多维重合区间和该第二多维非重合区间构成,该第二多维重合区间与该第二多维非重合区间相邻。可选地,计算机装置根据该参考数据集中处于该第二多维混合区间的数据记录确定该参考数据集在该第二多维混合区间的上的区间分数,将该参考数据集在该第二多维混合区间的上的区间分数与该参考数据集在该第二多维重合区间上的区间分数的差值,确定为该参考数据集在该第二多维非重合区间上的区间分数。计算机装置根据该参考数据集中处于该第二多维混合区间的数据记录确定该参考数据集在该第二多维混合区间的上的区间分数的实现过程,可以参考上述子步骤40213中,计算机装置根据该参考数据集中处于多维重合区间的数据记录确定该参考数据集在该多维重合区间上的区间分数的实现过程,本申请实施例在此不再赘述。
示例地,请继续参考图8,参考数据集D2中与待处理数据集D1的非重合区间D22为单维非重合区间[90,100],计算机装置在执行处理过程时,可以分别确定该参考数据集D2在单维混合区间D2x上的区间分数SD2x以及该参考数据集D2在单维重合区间D21上的区间分数SD21,将该参考数据集D2在该单维混合区间D2x上的区间分数SD2x与该参考数据集D2在该单维重合区间D21上的区间分数SD21的差值确定为该参考数据集D2在该单维非重合区间D22上的区间分数,也即是,该参考数据集D2在该单维非重合区间D22上的区间分数SD22=SD2x-SD21
再示例地,请继续参考图9,参考数据集D2中与待处理数据集D1的非重合区间D22为多维非重合区间,计算机装置在执行处理过程时,可以分别确定该参考数据集D2在多维混合区间D2x上的区间分数SD2x以及该参考数据集D2在多维重合区间D21上的区间分数SD21,将该参考数据集D2在该多维混合区间D2x上的区间分数SD2x与该参考数据集D2在该多维重合区间D21上的区间分数SD21的差值确定为该参考数据集D2在多维非重合区间D22上的区间分数,也即是,该参考数据集D2在该多维非重合区间D22上的区间分数SD22=SD2x-SD21。示例地,该多维混合区间D2x是第二多维混合区间,该多维重合区间D21是第二多维重合区间,该多维非重合区间D22是第二多维非重合区间,该多维混合区间D2x由该多维重合区间D21和该多维非重合区间D22构成,该多维非重合区间D22与该多维重合区间D21相邻。
本申请实施例提供的数据稳定性的检测方法,计算机装置根据待处理数据集在第一多维混合区间的上的区间分数和该待处理数据集在第一多维重合区间上的区间分数确定该待处理数据集在该第一多维非重合区间上的区间分数,以及,根据参考数据集在第二多维混合区间的上的区间分数和该参考数据集在第二多维重合区间上的区间分数确定该参考数据集在该第二多维非重合区间上的区间分数,如此确定非重合区间上的区间分数的方式可以称为最近邻跟随法或包围跟随法。该数据稳定性的检测方法中,计算机装置通过区间切割法从单一维度对待处理数据集和参考数据集的重合区域进行区间划分,对从不同维度对划分得到的单维数据区间进行组合来确定多维数据区间,以及确定待处理数据集在多维数据区间上的区间分数和参考数据集在该多维数据区间上的区间分数,根据该待处理数据集在该多维数据区间上的区间分数和该参考数据集在该多维数据区间上的区间分数对待处理数据集进行稳定性检测。
子步骤4022、将达到截止条件时确定的待处理数据集在至少一个多维数据区间上的区间分数确定为该待处理数据集在m个多维数据区间上的区间分数。
计算机装置每执行一次处理过程,可以检测是否达到截止条件,如果达到该截止条件,该计算机装置将达到该截止条件时确定的所有多维数据区间(也即是达到截止条件时对应的处理过程确定的多维数据区间)确定为m个多维数据区间,并确定该待处理数据集在该m个多维数据区间上的区间分数,其中,该m个多维数据区间可以包括m1个多维重合区间和m2个多维非重合区间。
子步骤4023、将达到截止条件时确定的参考数据集在至少一个多维数据区间上的区间分数确定为该参考数据集在m个多维数据区间上的区间分数。
计算机装置每执行一次处理过程,可以检测是否达到截止条件,如果达到该截止条件,该计算机装置将达到该截止条件时确定的所有多维数据区间(也即是达到截止条件时对应的处理过程确定的多维数据区间)确定为m个多维数据区间,并确定该参考数据集在该m个多维数据区间上的区间分数。其中,该m个多维数据区间可以包括m1个多维重合区间和m2个多维非重合区间。
可选地,在前述子步骤4021之前,该方法还包括:确定n个维度对应的重合区域,以及该待处理数据集和该参考数据集的非重合区域。
示例地,请参考图10,其示出了本申请实施例提供的一种确定待处理数据集与参考数据集的重合区域和非重合区域的流程图。参见图10,该方法可以包括如下步骤:
步骤S1、从n个维度中的每个维度确定待处理数据集和参考数据集的重合区域,得到该n个维度对应的重合区域。
计算机装置可以从n个维度中的每个维度确定的待处理数据集和参考数据集的重合区域,将从每个维度确定的该待处理数据集和该参考数据集的重合区域确定为该维度对应的重合区域,从而计算机装置可以得到该n个维度对应的重合区域。其中,每个维度对应的重合区域包括该待处理数据集和该参考数据集在该维度上相同的数据。
可选地,该n个维度中的每个维度对应一种数据类型,该n个维度对应的数据类型包括数值型和类别型中的至少一种。示例地,对于数值型对应的维度,假设待处理数据集D1的维度1上的数据(例如a1)的范围为[0,90],参考数据集D2的维度1上的数据(例如b1)的范围为[10,100],则该待处理数据集D1和该参考数据集D2在该维度1上的重合区域为[10,90],该维度1对应的重合区域为[10,90]。对于类别型对应的维度,假设待处理数据集D1的维度2上的数据(例如a2)包括:人民币、美元、韩元、英镑和欧元,参考数据集D2的维度2上的数据(例如b2)包括:人民币、美元、韩元、英镑和欧元,则该待处理数据集D1和该参考数据集D2在该维度2上的重合区域为:人民币、美元、韩元、英镑和欧元,该维度2对应的重合区域为人民币、美元、韩元、英镑和欧元。
步骤S2、根据待处理数据集和参考数据集在n个维度的重合区域,确定该待处理数据集和该参考数据集的非重合区域。
计算机装置可以将待处理数据集中与参考数据集不重合的区域确定为该待处理数据集和该参考数据集的非重合区域,以及,将参考数据集中与待处理数据集不重合的区域确定为该参考数据集和该待处理数据集的非重合区域。示例地,假设待处理数据集D1的范围为[0,90],参考数据集D2的范围为[10,100],则该待处理数据集D1和该参考数据集D2的非重合区域为[0,10],该参考数据集D2和该待处理数据集D1的非重合区域为[90,100]。
步骤S3、根据待处理数据集和参考数据集的非重合区域,确定多维非重合区间。
计算机装置可以将待处理数据集和参考数据集的非重合区域,确定为多维非重合区间。例如,该待处理数据集D1和该参考数据集D2的非重合区域[0,10],以及,该参考数据集D2和该待处理数据集D1的非重合区域为[90,100]均为非重合区间,这里以单维数据为例说明非重合区间,多维非重合区间与此同理。例如,图10中的非重合区间D11和D22均为多维非重合区间,在此不再赘述。
综上所述,本申请实施例提供的数据稳定性的检测方法,待处理数据集和参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据,获取该待处理数据集和该参考数据集之后,首先确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,然后根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数对该待处理数据集进行稳定性检测,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到。由于可以确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该待处理数据集可以是多维数据集,因此该数据稳定性的检测方案可以检测多维数据集的稳定性,该数据稳定性的检测方案的灵活性较高,应用场景较广。
本申请实施例提供的数据稳定性的检测方法,可以适用于检测单维数据集的稳定性和多维数据集的稳定性,该多维数据集可以是数值型数据集、类别型数据集或者是混合型数据集。也即是,本申请实施例提供的数据稳定性的检测方法可以适用于检测单维数值型数据集、单维类别型数据集、多维数值型数据集、多维类别型数据集以及混合型数据集的稳定性。该数据稳定性的检测方法可以应用于大部分的有监督学习的算法模型,作为算法模型的输入数据的预处理或者算法模型运维中的一部分,作为事前数据检测告警或者事后数据分析,例如,该数据稳定性的检测方法目前已经在财经领域的AI模型中应用。
下述为本申请的装置实施例,可以用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图11,其示出了本申请实施例提供的一种数据稳定性的检测装置1100的逻辑结构示意图,该数据稳定性的检测装置1100可以是计算机装置(例如服务器或终端)或计算机装置中的功能组件,用于执行前述数据稳定性的检测方法。参见图11,该数据稳定性的检测装置1100可以包括但不限于:
获取模块1110,用于获取待处理数据集和参考数据集,该待处理数据集和该参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据,n为大于或等于1的整数。该获取模块1110可以用于执行前述步骤401。
第一确定模块1120,用于确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到,m为大于或等于1的整数。该第一确定模块1120可以用于执行前述步骤402。
检测模块1130,用于根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,对该待处理数据集进行稳定性检测。该检测模块1130可以用于执行前述步骤403。
可选地,该第一确定模块1120,用于通过迭代的方式,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数。
可选地,该第一确定模块1120,用于:
针对该n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件,其中,该n个维度对应的重合区域是从该n个维度中的每个维度确定的该待处理数据集和该参考数据集的重合区域,每个维度对应的重合区域中包括该待处理数据集和该参考数据集在该维度上相同的数据;
将达到该截止条件时确定的该待处理数据集在至少一个多维数据区间上的区间分数确定为该待处理数据集在该m个多维数据区间上的区间分数;
将达到该截止条件时确定的该参考数据集在该至少一个多维数据区间上的区间分数确定为该参考数据集在该m个多维数据区间上的区间分数。
可选地,该m个多维数据区间包括m1个多维重合区间,该多维重合区间是该待处理数据集和该参考数据集的重合区间,m1为大于或等于1且小于或等于m的整数;该处理过程包括:
根据该n个维度中的每个维度对应的重合区域确定该维度的至少一个单维数据区间;
根据该n个维度的单维数据区间确定至少一个多维重合区间;
对于该至少一个多维重合区间中的每个多维重合区间,根据该待处理数据集中处于该多维重合区间的数据记录确定该待处理数据集在该多维重合区间上的区间分数,以及,根据该参考数据集中处于该多维重合区间的数据记录确定该参考数据集在该多维重合区间上的区间分数。
可选地,该m个多维数据区间还包括m2个多维非重合区间,该多维非重合区间是该待处理数据集和该参考数据集的非重合区间,m2为大于或等于0的整数;该处理过程还包括:
根据该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在第一多维非重合区间上的区间分数,该第一多维非重合区间是该待处理数据集中与该参考数据集不重合的数据区间,该第一多维重合区间是该至少一个多维重合区间中与该第一多维非重合区间相邻的多维重合区间;
根据该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在第二多维非重合区间上的区间分数,该第二多维非重合区间是该参考数据集中与该待处理数据集不重合的数据区间,该第二多维重合区间是该至少一个多维重合区间中与该第二多维非重合区间相邻的多维重合区间。
可选地,该处理过程还包括:
根据该待处理数据集中处于第一多维混合区间的数据记录确定该待处理数据集在该第一多维混合区间的上的区间分数,该第一多维混合区间由该第一多维重合区间和该第一多维非重合区间构成;
根据该参考数据集中处于第二多维混合区间的数据记录确定该参考数据集在该第二多维混合区间的上的区间分数,该第二多维混合区间由该第二多维重合区间和该第二多维非重合区间构成;
根据该待处理数据集在第一多维重合区间上的区间分数,确定该待处理数据集在第一多维非重合区间上的区间分数,包括:根据该待处理数据集在该第一多维混合区间的上的区间分数和该待处理数据集在该第一多维重合区间上的区间分数,确定该待处理数据集在该第一多维非重合区间上的区间分数;
根据该参考数据集在第二多维重合区间上的区间分数,确定该参考数据集在第二多维非重合区间上的区间分数,包括:根据该参考数据集在该第二多维混合区间的上的区间分数和该参考数据集在该第二多维重合区间上的区间分数,确定该参考数据集在该第二多维非重合区间上的区间分数。
可选地,请继续参考图11,该数据稳定性的检测装置1100还包括:
第二确定模块1140,用于:
在第一确定模块1120通过迭代的方式,确定该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数之前,从该n个维度中的每个维度确定该待处理数据集和该参考数据集的重合区域,得到该n个维度对应的重合区域;
根据该待处理数据集和该参考数据集在该n个维度的重合区域,确定该待处理数据集和该参考数据集的非重合区域;
根据该待处理数据集和该参考数据集的非重合区域,确定该多维非重合区间。
可选地,该截止条件包括:该多维数据区间的数量达到预设数量。
可选地,该n个维度中的每个维度对应一种数据类型,该n个维度对应的数据类型包括数值型和类别型中的至少一种,该待处理数据集中的数据记录的该n个维度对应的数据类型与该参考数据集中的数据记录的该n个维度对应的数据类型相同;
根据该n个维度中的每个维度对应的重合区域确定该维度的至少一个单维数据区间,包括:
对于数值型对应的维度,对该维度对应的重合区域进行区间划分,得到该维度的至少一个单维数据区间,其中,执行至少两次所述处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量不同;
对于类别型对应的维度,将该维度对应的重合区域中同一种类别型的数据确定为一个单维数据区间。
可选地,对于数值型对应的维度,执行至少两次所述处理过程对该维度对应的重合区域进行区间划分得到的单维数据区间的数量呈线性增加或者呈指数型增加。
可选地,该检测模块1130,用于:
根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,确定该待处理数据集相对于该参考数据集的稳定性指标;
根据该待处理数据集相对于该参考数据集的稳定性指标,对该待处理数据集进行稳定性检测。
可选地,根据该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,确定该待处理数据集相对于该参考数据集的稳定性指标,包括:
对于该m个多维数据区间中的每个多维数据区间,根据该待处理数据集在该多维数据区间上的区间分数和该待处理数据集在该m个多维数据区间上的区间分数,确定该待处理数据集在该多维数据区间上的分数占比,以及,根据该参考数据集在该多维数据区间上的区间分数和该参考数据集在该m个多维数据区间上的区间分数,确定该参考数据集在该多维数据区间上的分数占比;
根据该待处理数据集在该m个多维数据区间上的分数占比和该参考数据集在该m个多维数据区间上的分数占比,确定该待处理数据集相对于该参考数据集的稳定性指标。
综上所述,本申请实施例提供的数据稳定性的检测装置,待处理数据集和参考数据集分别包括至少一条数据记录,每条数据记录包括n个维度的数据,获取该待处理数据集和该参考数据集之后,首先确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,然后根据该待处理数据集在该m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数对该待处理数据集进行稳定性检测,该m个多维数据区间根据该n个维度的单维数据区间确定,该n个维度中每个维度的单维数据区间通过对该维度的数据进行区间划分得到。由于可以确定该待处理数据集在m个多维数据区间上的区间分数以及该参考数据集在该m个多维数据区间上的区间分数,该待处理数据集可以是多维数据集,因此该数据稳定性的检测方案可以检测多维数据集的稳定性,该数据稳定性的检测方案的灵活性较高,应用场景较广。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,当该计算机程序被处理器执行时实现如上述方法实施例提供的数据稳定性的检测方法的全部或部分步骤。
本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行如上述方法实施例提供的数据稳定性的检测方法的全部或部分步骤。
本申请实施例提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,当该芯片运行时用于实现如上述方法实施例提供的数据稳定性的检测方法的全部或部分步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储装置。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
在本申请中,术语“第一”和“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“至少一个”指一个或多个,“多个”指两个或两个以上,除非另有明确的限定。
本申请实施例提供的方法实施例和装置实施例等不同类型的实施例均可以相互参考,本申请实施例对此不做限定。本申请实施例提供的方法实施例操作的先后顺序能够进行适当调整,操作也能够根据情况进行响应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
在本申请提供的相应实施例中,应该理解到,所揭露的装置等可以通过其它的构成方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元描述的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络设备(例如终端设备)上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (26)

1.一种数据稳定性的检测方法,其特征在于,所述方法包括:
获取待处理数据集和参考数据集,所述待处理数据集和所述参考数据集分别包括至少一条数据记录,每条所述数据记录包括n个维度的数据,所述n为大于或等于1的整数;
确定所述待处理数据集在m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,所述m个多维数据区间根据所述n个维度的单维数据区间确定,所述n个维度中每个维度的单维数据区间通过对所述维度的数据进行区间划分得到,所述m为大于或等于1的整数;
根据所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,对所述待处理数据集进行稳定性检测。
2.根据权利要求1所述的方法,其特征在于,
所述确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,包括:
通过迭代的方式,确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数。
3.根据权利要求2所述的方法,其特征在于,
所述通过迭代的方式,确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,包括:
针对所述n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件,其中,所述n个维度对应的重合区域是从所述n个维度中的每个维度确定的所述待处理数据集和所述参考数据集的重合区域,每个所述维度对应的重合区域中包括所述待处理数据集和所述参考数据集在所述维度上相同的数据;
将达到所述截止条件时确定的所述待处理数据集在至少一个多维数据区间上的区间分数确定为所述待处理数据集在所述m个多维数据区间上的区间分数;
将达到所述截止条件时确定的所述参考数据集在所述至少一个多维数据区间上的区间分数确定为所述参考数据集在所述m个多维数据区间上的区间分数。
4.根据权利要求3所述的方法,其特征在于,
所述m个多维数据区间包括m1个多维重合区间,所述多维重合区间是所述待处理数据集和所述参考数据集的重合区间,所述m1为大于或等于1且小于或等于m的整数;
所述处理过程包括:
根据所述n个维度中的每个维度对应的重合区域确定所述维度的至少一个单维数据区间;
根据所述n个维度的单维数据区间确定至少一个多维重合区间;
对于所述至少一个多维重合区间中的每个多维重合区间,根据所述待处理数据集中处于所述多维重合区间的数据记录确定所述待处理数据集在所述多维重合区间上的区间分数,以及,根据所述参考数据集中处于所述多维重合区间的数据记录确定所述参考数据集在所述多维重合区间上的区间分数。
5.根据权利要求4所述的方法,其特征在于,
所述m个多维数据区间还包括m2个多维非重合区间,所述多维非重合区间是所述待处理数据集和所述参考数据集的非重合区间,所述m2为大于或等于0的整数;
所述处理过程还包括:
根据所述待处理数据集在第一多维重合区间上的区间分数,确定所述待处理数据集在第一多维非重合区间上的区间分数,所述第一多维非重合区间是所述待处理数据集中与所述参考数据集不重合的数据区间,所述第一多维重合区间是所述至少一个多维重合区间中与所述第一多维非重合区间相邻的多维重合区间;
根据所述参考数据集在第二多维重合区间上的区间分数,确定所述参考数据集在第二多维非重合区间上的区间分数,所述第二多维非重合区间是所述参考数据集中与所述待处理数据集不重合的数据区间,所述第二多维重合区间是所述至少一个多维重合区间中与所述第二多维非重合区间相邻的多维重合区间。
6.根据权利要求5所述的方法,其特征在于,
所述处理过程还包括:
根据所述待处理数据集中处于第一多维混合区间的数据记录确定所述待处理数据集在所述第一多维混合区间的上的区间分数,所述第一多维混合区间由所述第一多维重合区间和所述第一多维非重合区间构成;
根据所述参考数据集中处于第二多维混合区间的数据记录确定所述参考数据集在所述第二多维混合区间的上的区间分数,所述第二多维混合区间由所述第二多维重合区间和所述第二多维非重合区间构成;
所述根据所述待处理数据集在第一多维重合区间上的区间分数,确定所述待处理数据集在第一多维非重合区间上的区间分数,包括:根据所述待处理数据集在所述第一多维混合区间的上的区间分数和所述待处理数据集在所述第一多维重合区间上的区间分数,确定所述待处理数据集在所述第一多维非重合区间上的区间分数;
所述根据所述参考数据集在第二多维重合区间上的区间分数,确定所述参考数据集在第二多维非重合区间上的区间分数,包括:根据所述参考数据集在所述第二多维混合区间的上的区间分数和所述参考数据集在所述第二多维重合区间上的区间分数,确定所述参考数据集在所述第二多维非重合区间上的区间分数。
7.根据权利要求5或6所述的方法,其特征在于,
在通过迭代的方式,确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数之前,所述方法还包括:
从所述n个维度中的每个维度确定所述待处理数据集和所述参考数据集的重合区域,得到所述n个维度对应的重合区域;
根据所述待处理数据集和所述参考数据集在所述n个维度的重合区域,确定所述待处理数据集和所述参考数据集的非重合区域;
根据所述待处理数据集和所述参考数据集的非重合区域,确定所述多维非重合区间。
8.根据权利要求3至7任一项所述的方法,其特征在于,
所述截止条件包括:所述多维数据区间的数量达到预设数量。
9.根据权利要求4至7任一项所述的方法,其特征在于,
所述n个维度中的每个维度对应一种数据类型,所述n个维度对应的数据类型包括数值型和类别型中的至少一种,所述待处理数据集中的数据记录的所述n个维度对应的数据类型与所述参考数据集中的数据记录的所述n个维度对应的数据类型相同;
所述根据所述n个维度中的每个维度对应的重合区域确定所述维度的至少一个单维数据区间,包括:
对于数值型对应的维度,对所述维度对应的重合区域进行区间划分,得到所述维度的至少一个单维数据区间,其中,执行至少两次所述处理过程对所述维度对应的重合区域进行区间划分得到的单维数据区间的数量不同;
对于类别型对应的维度,将所述维度对应的重合区域中同一种类别型的数据确定为一个单维数据区间。
10.根据权利要求9所述的方法,其特征在于,
对于数值型对应的维度,执行至少两次所述处理过程对所述维度对应的重合区域进行区间划分得到的单维数据区间的数量呈线性增加或者呈指数型增加。
11.根据权利要求1至10任一项所述的方法,其特征在于,
所述根据所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,对所述待处理数据集进行稳定性检测,包括:
根据所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集相对于所述参考数据集的稳定性指标;
根据所述待处理数据集相对于所述参考数据集的稳定性指标,对所述待处理数据集进行稳定性检测。
12.根据权利要求11所述的方法,其特征在于,
所述根据所述待处理数据集在m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集相对于所述参考数据集的稳定性指标,包括:
对于所述m个多维数据区间中的每个多维数据区间,根据所述待处理数据集在所述多维数据区间上的区间分数和所述待处理数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集在所述多维数据区间上的分数占比,以及,根据所述参考数据集在所述多维数据区间上的区间分数和所述参考数据集在所述m个多维数据区间上的区间分数,确定所述参考数据集在所述多维数据区间上的分数占比;
根据所述待处理数据集在所述m个多维数据区间上的分数占比和所述参考数据集在所述m个多维数据区间上的分数占比,确定所述待处理数据集相对于所述参考数据集的稳定性指标。
13.一种数据稳定性的检测装置,其特征在于,所述装置包括:
获取模块,用于获取待处理数据集和参考数据集,所述待处理数据集和所述参考数据集分别包括至少一条数据记录,每条所述数据记录包括n个维度的数据,所述n为大于或等于1的整数;
第一确定模块,用于确定所述待处理数据集在m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,所述m个多维数据区间根据所述n个维度的单维数据区间确定,所述n个维度中每个维度的单维数据区间通过对所述维度的数据进行区间划分得到,所述m为大于或等于1的整数;
检测模块,用于根据所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,对所述待处理数据集进行稳定性检测。
14.根据权利要求13所述的装置,其特征在于,
所述第一确定模块,用于通过迭代的方式,确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数。
15.根据权利要求14所述的装置,其特征在于,
所述第一确定模块,用于:
针对所述n个维度对应的重合区域执行至少一次处理过程,直至达到截止条件,其中,所述n个维度对应的重合区域是从所述n个维度中的每个维度确定的所述待处理数据集和所述参考数据集的重合区域,每个所述维度对应的重合区域中包括所述待处理数据集和所述参考数据集在所述维度上相同的数据;
将达到所述截止条件时确定的所述待处理数据集在至少一个多维数据区间上的区间分数确定为所述待处理数据集在所述m个多维数据区间上的区间分数;
将达到所述截止条件时确定的所述参考数据集在所述至少一个多维数据区间上的区间分数确定为所述参考数据集在所述m个多维数据区间上的区间分数。
16.根据权利要求15所述的装置,其特征在于,
所述m个多维数据区间包括m1个多维重合区间,所述多维重合区间是所述待处理数据集和所述参考数据集的重合区间,所述m1为大于或等于1且小于或等于m的整数;
所述处理过程包括:
根据所述n个维度中的每个维度对应的重合区域确定所述维度的至少一个单维数据区间;
根据所述n个维度的单维数据区间确定至少一个多维重合区间;
对于所述至少一个多维重合区间中的每个多维重合区间,根据所述待处理数据集中处于所述多维重合区间的数据记录确定所述待处理数据集在所述多维重合区间上的区间分数,以及,根据所述参考数据集中处于所述多维重合区间的数据记录确定所述参考数据集在所述多维重合区间上的区间分数。
17.根据权利要求16所述的装置,其特征在于,
所述m个多维数据区间还包括m2个多维非重合区间,所述多维非重合区间是所述待处理数据集和所述参考数据集的非重合区间,所述m2为大于或等于0的整数;
所述处理过程还包括:
根据所述待处理数据集在第一多维重合区间上的区间分数,确定所述待处理数据集在第一多维非重合区间上的区间分数,所述第一多维非重合区间是所述待处理数据集中与所述参考数据集不重合的数据区间,所述第一多维重合区间是所述至少一个多维重合区间中与所述第一多维非重合区间相邻的多维重合区间;
根据所述参考数据集在第二多维重合区间上的区间分数,确定所述参考数据集在第二多维非重合区间上的区间分数,所述第二多维非重合区间是所述参考数据集中与所述待处理数据集不重合的数据区间,所述第二多维重合区间是所述至少一个多维重合区间中与所述第二多维非重合区间相邻的多维重合区间。
18.根据权利要求17所述的装置,其特征在于,
所述处理过程还包括:
根据所述待处理数据集中处于第一多维混合区间的数据记录确定所述待处理数据集在所述第一多维混合区间的上的区间分数,所述第一多维混合区间由所述第一多维重合区间和所述第一多维非重合区间构成;
根据所述参考数据集中处于第二多维混合区间的数据记录确定所述参考数据集在所述第二多维混合区间的上的区间分数,所述第二多维混合区间由所述第二多维重合区间和所述第二多维非重合区间构成;
所述根据所述待处理数据集在第一多维重合区间上的区间分数,确定所述待处理数据集在第一多维非重合区间上的区间分数,包括:根据所述待处理数据集在所述第一多维混合区间的上的区间分数和所述待处理数据集在所述第一多维重合区间上的区间分数,确定所述待处理数据集在所述第一多维非重合区间上的区间分数;
所述根据所述参考数据集在第二多维重合区间上的区间分数,确定所述参考数据集在第二多维非重合区间上的区间分数,包括:根据所述参考数据集在所述第二多维混合区间的上的区间分数和所述参考数据集在所述第二多维重合区间上的区间分数,确定所述参考数据集在所述第二多维非重合区间上的区间分数。
19.根据权利要求17或18所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于:
在所述第一确定模块通过迭代的方式,确定所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数之前,从所述n个维度中的每个维度确定所述待处理数据集和所述参考数据集的重合区域,得到所述n个维度对应的重合区域;
根据所述待处理数据集和所述参考数据集在所述n个维度的重合区域,确定所述待处理数据集和所述参考数据集的非重合区域;
根据所述待处理数据集和所述参考数据集的非重合区域,确定所述多维非重合区间。
20.根据权利要求15至19任一项所述的装置,其特征在于,
所述截止条件包括:所述多维数据区间的数量达到预设数量。
21.根据权利要求16至19任一项所述的装置,其特征在于,
所述n个维度中的每个维度对应一种数据类型,所述n个维度对应的数据类型包括数值型和类别型中的至少一种,所述待处理数据集中的数据记录的所述n个维度对应的数据类型与所述参考数据集中的数据记录的所述n个维度对应的数据类型相同;
所述根据所述n个维度中的每个维度对应的重合区域确定所述维度的至少一个单维数据区间,包括:
对于数值型对应的维度,对所述维度对应的重合区域进行区间划分,得到所述维度的至少一个单维数据区间,其中,执行至少两次所述处理过程对所述维度对应的重合区域进行区间划分得到的单维数据区间的数量不同;
对于类别型对应的维度,将所述维度对应的重合区域中同一种类别型的数据确定为一个单维数据区间。
22.根据权利要求21所述的装置,其特征在于,
对于数值型对应的维度,执行至少两次所述处理过程对所述维度对应的重合区域进行区间划分得到的单维数据区间的数量呈线性增加或者呈指数型增加。
23.根据权利要求13至22任一项所述的装置,其特征在于,
所述检测模块,用于:
根据所述待处理数据集在所述m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集相对于所述参考数据集的稳定性指标;
根据所述待处理数据集相对于所述参考数据集的稳定性指标,对所述待处理数据集进行稳定性检测。
24.根据权利要求23所述的装置,其特征在于,
所述根据所述待处理数据集在m个多维数据区间上的区间分数以及所述参考数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集相对于所述参考数据集的稳定性指标,包括:
对于所述m个多维数据区间中的每个多维数据区间,根据所述待处理数据集在所述多维数据区间上的区间分数和所述待处理数据集在所述m个多维数据区间上的区间分数,确定所述待处理数据集在所述多维数据区间上的分数占比,以及,根据所述参考数据集在所述多维数据区间上的区间分数和所述参考数据集在所述m个多维数据区间上的区间分数,确定所述参考数据集在所述多维数据区间上的分数占比;
根据所述待处理数据集在所述m个多维数据区间上的分数占比和所述参考数据集在所述m个多维数据区间上的分数占比,确定所述待处理数据集相对于所述参考数据集的稳定性指标。
25.一种计算机装置,其特征在于,所述计算机装置包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的所述计算机程序以执行如权利要求1至12任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的方法。
CN202011112111.3A 2020-10-16 2020-10-16 数据稳定性的检测方法及装置、存储介质 Pending CN114385460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011112111.3A CN114385460A (zh) 2020-10-16 2020-10-16 数据稳定性的检测方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011112111.3A CN114385460A (zh) 2020-10-16 2020-10-16 数据稳定性的检测方法及装置、存储介质

Publications (1)

Publication Number Publication Date
CN114385460A true CN114385460A (zh) 2022-04-22

Family

ID=81193450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011112111.3A Pending CN114385460A (zh) 2020-10-16 2020-10-16 数据稳定性的检测方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN114385460A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112445A (zh) * 2023-10-07 2023-11-24 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112445A (zh) * 2023-10-07 2023-11-24 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质
CN117112445B (zh) * 2023-10-07 2024-01-16 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11244765B2 (en) Systems and methods for topological data analysis using nearest neighbors
WO2021174944A1 (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
WO2017013529A1 (en) System and method for determining credit worthiness of a user
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
KR20220147550A (ko) 다중 목표의 이미지-텍스트 매칭 모델의 훈련 방법, 이미지-텍스트 검색 방법 및 장치
TW202042132A (zh) 一種異常交易節點的檢測方法及裝置
CN112131322B (zh) 时间序列分类方法及装置
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN115795000A (zh) 基于联合相似度算法对比的围标识别方法和装置
CN110443264A (zh) 一种聚类的方法和装置
CN110751354B (zh) 一种异常用户的检测方法和装置
KR20150112832A (ko) 산출 프로그램, 산출 장치 및 산출 방법
CN114357184A (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN114385460A (zh) 数据稳定性的检测方法及装置、存储介质
US20190205341A1 (en) Systems and methods for measuring collected content significance
US11487964B2 (en) Comprehensive data science solution for segmentation analysis
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN114121204A (zh) 基于患者主索引的患者记录匹配方法、存储介质及设备
WO2024103765A1 (zh) 敏感数据识别模型的生成方法、装置、设备及存储介质
CN109783816A (zh) 短文本聚类方法及终端设备
CN117649695B (zh) 一种人脸图像生成方法、装置、设备及存储介质
CN112529708B (zh) 一种客户识别方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination