CN111581197A - 对数据集中的数据表进行抽样和校验的方法及装置 - Google Patents

对数据集中的数据表进行抽样和校验的方法及装置 Download PDF

Info

Publication number
CN111581197A
CN111581197A CN202010369864.6A CN202010369864A CN111581197A CN 111581197 A CN111581197 A CN 111581197A CN 202010369864 A CN202010369864 A CN 202010369864A CN 111581197 A CN111581197 A CN 111581197A
Authority
CN
China
Prior art keywords
data
data table
sampling
tables
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010369864.6A
Other languages
English (en)
Other versions
CN111581197B (zh
Inventor
高炘
张世瑛
赵吉昆
梁晔华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010369864.6A priority Critical patent/CN111581197B/zh
Publication of CN111581197A publication Critical patent/CN111581197A/zh
Application granted granted Critical
Publication of CN111581197B publication Critical patent/CN111581197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本公开提供了一种对数据集中的数据表进行抽样和校验的方法及装置。该数据集包括多个数据表,多个数据表具有多个共同指标。上述对数据集中的数据表进行抽样的方法包括:获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值;根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率;根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表;以及根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样,该抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。

Description

对数据集中的数据表进行抽样和校验的方法及装置
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种对数据集中的数据表进行抽样和校验的方法及装置。
背景技术
数据湖作为源业务系统数据库的缓存,采用原始格式进行数据存储的方式避免了对原始数据进行加工或处理导致的数据不准确或者数据结构失真等问题。数据湖高质量数据的重要性不言而喻,其中数据湖海量结构化数据和源业务系统的数据一致性又是数据质量衡量的一项重要内容。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:大型机构的数据湖能够存储的数据量能够达到10PB(1PB=1024TB)级,若采取全量数据一致性比较的方式会十分复杂,需要从各个源业务应用系统数据库中获取全量数据,然后和数据湖中的数据表进行逐一对比数据一致性,这种方式虽然能检验所有的入湖数据,但是却耗费大量的时间和人力资源,且验证过的数据表不一定会出现在当期的业务使用中,因此用全量数据进行数据一致性校验会产生大量额外且不必要的工作。
发明内容
有鉴于此,本公开提供了一种能够高效且准确地对大型数据集中的数据表进行抽样和校验的方法、装置、电子设备及计算机可读存储介质。
本公开的第一个方面提供了一种对数据集中的数据表进行抽样的方法。该数据集包括多个数据表,多个数据表具有多个共同指标。上述方法包括:获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值;根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率;根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表;以及根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样,该抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。
根据本公开的实施例,上述方法还包括:构建预定模型。上述构建预定模型包括:确定数据集中用于构建预定模型的多个样本数据表;获取多个共同指标针对多个样本数据表中每个样本数据表的取值,得到分别对应多个样本数据表的多组取值;获取多个样本数据表各自的实际抽样概率;以多组取值作为样本数据输入至初始模型,对应得到多个样本数据表各自的预测抽样概率;以及根据多个样本数据表各自的预测抽样概率及各自的实际抽样概率,优化初始模型,以得到预定模型;其中,初始模型采用的算法为逻辑回归算法。
根据本公开的实施例,根据多个数据表的抽样概率的分布划分多个数据表包括:根据多个数据表的抽样概率的分布确定抽样概率分布的极差,极差为抽样概率的最大值与最小值的差;根据抽样概率的大小顺序对多个数据表进行排序;根据预设组数和极差确定组距;以及以组距等距划分排序后的多个数据表,得到至少两个数据表组。
根据本公开的实施例,根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样包括:确定每个数据表组中所有数据表的抽样概率的平均值,得到针对每个数据表组的平均概率值;根据平均概率值自大到小,向至少两个数据表组分配自大到小的编号;确定向至少两个数据表组分配的编号的总和;以及确定针对每个数据表组的抽样比例为每个数据表组的编号与总和的比值。
本公开的第二个方面提供了一种对数据集中的数据表进行校验的方法。该方法包括:从源数据库中获取标准数据表;基于上述提及任一种抽样的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,数据湖中的数据表通过缓存源数据库中的标准数据表得到;以及将待校验数据表与标准数据表进行一致性校验。
根据本公开的实施例,将待校验数据表与标准数据表进行一致性校验,包括以下至少之一:校验待校验数据表与标准数据表中的表信息是否一致;校验待校验数据表中的主键是否重复。表信息包括:表名、表中的字段以及表的记录,表中的字段包括:字段名、字段类型及字段属性。上述主键用于唯一识别表的记录。
本公开的第三个方面提供了一种对数据集中的数据表进行抽样的装置。该数据集包括多个数据表,多个数据表具有多个共同指标。上述装置包括:共同指标取值获取模块,用于获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值;数据表抽样概率确定模块,用于根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率;数据表分组模块,用于根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表;以及抽样模块,用于根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样,该抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。
本公开的第四个方面提供了一种对数据集中的数据表进行校验的装置。该装置包括:标准数据表获取模块,用于从源数据库中获取标准数据表;待校验数据表获取模块,用于基于上述提及的任一种抽样的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,数据湖中的数据表通过缓存源数据库中的标准数据表得到;以及一致性校验模块,用于将待校验数据表与标准数据表进行一致性校验。
本公开的第五个方面提供了一种电子设备。该电子设备包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序;其中,当一个或多个计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现如上所述的方法。
本公开的第六个方面提供了一种计算机可读存储介质,其上存储有可执行指令,其中,该指令被处理器执行时使处理器实现如上所述的方法。
本公开的第七个方面提供了一种计算机程序,该计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,可以至少部分地解决相关技术中对大容量的数据互中存储的数据进行一致性比较时所存在的需要耗费大量人力和时间的问题,通过根据能够反映数据表被抽取时的相对重要程度的抽样概率的分布来对多个数据表进行分组,可以使得多个数据表的分组能够反映各个数据表的相对重要程度,之后通过对每个数据表组按照抽样比例进行抽样,可以使得抽样得到的数据表具有较好的代表性,以保证后续对数据集中数据和源业务系统中数据进行一致性校验时校验结果的准确性。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的对数据集中的数据表进行抽样和校验的方法及装置的应用场景;
图2示意性示出了根据本公开实施例的数据集的结构框图;
图3示意性示出了根据本公开实施例的对数据集中的数据表进行抽样的方法的流程图;
图4示意性示出了图3所示的方法中操作S13的详细流程图;
图5示意性示出了图3所示的方法中操作S14的详细流程图;
图6示意性示出了图3所示的方法中还包括构建预定模型的操作S10的示意图;
图7示意性示出了根据本公开实施例的构建预定模型的流程图;
图8示意性示出了根据本公开实施例的对数据集中的数据表进行抽样的装置的框图;
图9示意性示出了根据本公开实施例的对数据集中的数据表进行校验的方法流程图;
图10示意性示出了根据本公开实施例的对数据集中的数据表进行校验的装置流程图;以及
图11示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、操作、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、操作、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种对数据集中的数据表进行抽样的方法,该数据集包括多个数据表,多个数据表具有多个共同指标。上述方法可以先获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值。然后根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率。接着根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表。最后根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样,该抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。基于上述抽样方法还提供了对数据集中的数据表进行校验的方法、对数据集中的数据表进行抽样的装置、对数据集中的数据表进行校验的装置、电子设备以及计算机可读存储介质。
下面结合图1来介绍对数据集中的数据表进行抽样和校验的方法及装置的应用场景。
图1示意性示出了根据本公开实施例的对数据集中的数据表进行抽样和校验的方法及装置的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
参照图1所示,在一些应用场景中,在将源数据库中的数据(可以是结构化数据或者非结构化数据)缓存至数据湖(hub)中后,需要校验源数据库中数据和数据湖中数据的一致性,特别是两者中结构化数据的一致性。
源数据库例如为源业务系统数据库。在源业务系统数据库中具有海量的数据。源业务系统数据库中的数据以原始格式缓存至数据湖中进行存储。例如源业务系统数据库可以是以下类型的数据库:oracle数据库、MySQL数据库以及DB2数据库等。源业务系统数据库涵盖历史数据和当前业务数据等。数据湖以原始格式存储数据,因此在存储数据时无需对数据进行结构化处理,可以很容易的收集数据,消除数据孤岛,具有更好的扩展性,便于从数据湖中发掘更多的价值。其中,确保或者检验数据湖中的数据表和源业务系统数据库的数据表的内容一致性是衡量数据湖中存储的数据质量的一项重要内容。
在一些机构中,数据湖中存储的数据量能够达到10PB(1PB=1024TB)级,若采取全量数据一致性比较的方式会十分复杂,如图1所示,将数据湖中的全部数据表与源业务系统数据库中的数据表抽取出来进行一校验,将会耗费大量的时间和内存成本,且验证过的数据表不一定会出现在当期的业务使用中。因此用全量数据进行数据一致性校验会产生大量额外且不必要的工作。
下文要介绍的进行抽样的方法是针对结构化的数据库/数据集,在结构化的数据库中,基本数据单元为数据表。通过对数据集中的数据表进行抽样来使得抽取出来的数据表可以较为准确地反映/代表全部数据表的情况。
相关技术中对数据表进行单一的随机抽取和等距抽取的方法不适用于具有特殊词义的金融数据。发明人发现,分层抽样是一个很好的思路,但如何进行分层抽样则是需要解决的技术问题。
本公开的第一个示例性实施例提供了一种对数据集中的数据表进行抽样的方法。
图2示意性示出了根据本公开实施例的数据集的结构框图,参照图2所示,本实施例中的数据集包括多个数据表,“多个”数据表的含义为:数据表的个数至少为2个。多个数据表具有多个共同指标,“多个”共同指标的含义为:共同指标的个数至少为2个。如图2所示,以方框示例了6个数据表,这6个数据表具有3个共同指标:指标A、指标B和指标C。在上述数据集中,各个数据表具有的指标可以相同,也可以不同,进行抽取时考虑的是多个数据表的共同指标,即所有数据表都具有的指标。
上述共同指标的取值针对每个数据表都有不同的表现,反映了各个数据表的属性。其中,指标的具体表现形式可以根据实际抽取用途进行变化。例如,在一实例中,若数据表的抽取用于针对数据湖进行逻辑分析加工的新增业务功能进行校验测试,则多个数据表的共同指标可以包括以下几个指标:业务项目的重要性指标、业务项目的关注度指标、测试时间指标、源业务系统风险等级指标和数据入湖算法指标等。
业务项目的重要性指标用于表征当前数据表对应的业务项目的重要程度。例如,业务项目的重要性可以根据对该业务项目的定位分为重要程度依次降低的重点项目、专业重点项目、IT架构转型项目、一般项目和空白五个级别。例如可以按照上述五个级别设置业务项目的重要性指标的取值为:5、4、3、2、1,数值越大,表示重要程度越高。
业务项目的关注度指标用于表征当前数据表对应的业务项目是否为关注项目,按照当前数据表对应的业务项目是关注项目或不是关注项目可以对应设置该业务项目的关注度指标的取值为2或1。
测试时间指标用于表征当前数据表对应的业务项目在本次新增业务功能的测试中是否被涉及,按照当前数据表对应的业务项目在本次新增业务的测试中不会被涉及和会被涉及两种情况可以分别对应设置该测试时间指标的取值为:1和0。
源业务系统风险等级指标用于表征与当前数据湖中数据表的数据来源对应的源业务系统的风险等级,按照对公系统、对客系统、内部经营分析系统这三种风险等级可以对应设置该源业务系统风险等级指标的取值为:3、2、1,数值越大,表示风险等级越高。
数据入湖算法指标用于表征当前数据湖中数据表从源业务系统缓存至数据湖中所采用的入湖算法,按照增量数据追加入湖、增存数据合并入湖、存量数据入湖、历史拉链入湖这四种入湖算法可以对应设置该数据入湖算法指标的取值为:2、2、1、1。
需要说明的是,上述各共同指标针对每个数据表的取值对应的数值仅作为示例,根据实际需要可以变化上述数值。另外,上述示例的指标是按照实际抽取用途设置的,在其他实施方式中,对应的指标具体的表现形式可以根据实际抽取用途进行变化。
图3示意性示出了根据本公开实施例的对数据集中的数据表进行抽样的方法的流程图。
参照图3所示,本实施例的对数据集中的数据表进行抽样的方法,包括以下操作:S11~S14。
在操作S11,获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值。
根据本公开的实施例,该操作S11可以由电子设备执行,由电子设备从数据集中获取多个共同指标针对每个数据表的取值。数据集可以存储于一存储设备中,该电子设备可以是与上述存储设备为独立的两个设备。或者,该数据集也可以存储于上述电子设备中。
共同指标针对每个数据表的取值反映了各个数据表在上述共同指标衡量条件下的属性。针对每个数据表,都会得到一组取值,例如,共同指标的个数为n个,n为大于等于2的正整数,则针对每个数据表可以得到包含n个共同指标取值的数据组。
在后续的操作中,将上述针对每个数据表的一组取值作为预定模型的输入。该针对每个数据表的一组取值可以采用向量形式来表示,例如可以表示为向量Xi=(xi1,xi2,xi3,……,xin),向量Xi表示针对第i个数据表的共同指标取值的向量,i表示数据表的序号;xi1、xi2、xi3、……、xin分别表示多个共同指标中第1个共同指标、第2个共同指标、第3个共同指标、……、第n个共同指标分别针对第i个数据表的取值。假设数据集包括s个数据表,s为大于等于2的正整数,则i取值为1,2,......,s,对于该数据集中的s个数据表,可以得到表征共同指标取值的一组向量:{X1,X2,……,Xs}。
根据本公开的实施例,上述取值可以是归一化的取值,xi1、xi2、xi3、……、xin的取值均在[0,1]区间范围内。通过以归一化处理后的各个共同指标的取值作为预定模型的输入,可以减少由于共同指标取值的选取特性差异对输出结果引起的偏差。
在操作S12,根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率。
根据本公开的实施例,该操作S12可以由电子设备执行,预定模型可以是在电子设备中预先构建的。
本实施例中,该预定模型中的参数是预先训练好的,通过将针对第i个数据表的一组取值的向量表示(向量Xi)作为预定模型的输入,可以基于预先训练好的参数从该预定模型输出得到针对第i个数据表的抽样概率Pi
在操作S13,根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表。
根据本公开的实施例,该操作S13可以由电子设备执行,将数据集中的多个数据表按照抽样概率的分布进行分组,得到至少两个数据表组,每个数据表组包括至少一个数据表。该电子设备可以为分组后的每个数据表分配编号,该编号用于表明该数据表所在的数据表组。具体编号的方式将在操作S14中进行详细介绍,这里不作详述。
图4示意性示出了图3所示的方法中操作S13的详细流程图。
根据本公开的实施例,参照图4所示,根据多个数据表的抽样概率的分布划分多个数据表的操作S13包括以下子操作:S131~S134。
在子操作S131,根据多个数据表的抽样概率的分布确定抽样概率分布的极差,极差为抽样概率的最大值与最小值的差。
每个数据表对应一个抽样概率,多个数据表的抽样概率可以形成介于[0,1]之间的概率值分布,上述概率值分布反映了多个数据表中每个数据表被抽取的概率值的相对大小。极差可以反映出多个数据表的概率值的离散状态。
在子操作S132,根据抽样概率的大小顺序对多个数据表进行排序。
通过将多个数据表按照抽样概率的取值的相对大小进行排序,便于后续按照组距将多个数据表进行分组。
在子操作S133,根据预设组数和极差确定组距。
在一些实施例中,预设组数例如可以是5~12组。该预设组数例如可以根据抽样概率的分布的密集情况进行设置,对应抽样概率的分布相对密集的情况,预设组数可以设置多一些,使得组距相对小一些,以使每组数据表内的各个数据表之间的抽样概率差异较小。对应抽样概率的分布相对较为稀疏的情况,预设组数可以设置少一些,使得组距相对大一些,以使各个数据表组之间的差异相对大一些,例如使得第一个数据表组和第二个数据表组的抽样概率之间的差异较大。在另一些实施例中,预设组数可以是预先存储于电子设备中的经验值,例如为5~12之间的任意整数,例如预设组数可以为6、8或者10。
在子操作S134,以上述组距等距划分排序后的多个数据表,得到至少两个数据表组。
将排序后的多个数据表按照上述组距进行等距划分,落在同一概率取值范围内的数据表构成一个数据表组。各个数据表组对应的概率取值范围区间设置为半开半闭区间。上述子操作S131~S134可以由电子设备中的处理器执行,上述子操作S131~S134可以通过计算机指令被处理器执行来实现。
每个数据表的抽样概率反映了数据表被抽取时的相对重要程度,该相对重要程度与数据表中的共同指标的值是相关的,多个数据表的分组能够准确反映各个数据表的相对重要程度,具有较好的代表性和较高的准确度。
下面以一个示例说明根据抽样概率的分布密集情况设置组距的方式,对于多个数据表的抽样概率例如为以下两种示例性的值,以多个数据表为14个数据表进行示例,这14个数据表对应的抽样概率分别为以下两种示例性情形:
(A)0.1,0.2,0.3,0.33,0.4,0.5,0.55,0.6,0.7,0.75,0.8,0.85,0.9,0.9,
(B)0.1,0.3,0.4,0.4,0.6,0.6,0.6,0.7,0.8,0.8,0.9,0.9,0.9,0.9。
示例性(A)相较于示例性(B)而言,多个数据表的抽样概率的分布更为密集,此时对应示例性(A)设置的预设组数可以为9,极差为0.8,组距设置为0.8/(9-1)=0.1,划分上面示例中的14个数据表对应的概率区间可以为:[0.05,0.15)、[0.15,0.25)、[0.25,0.35)、[0.35,0.45)、[0.45,0.55)、[0.55,0.65)、[0.65,0.75)、[0.75,0.85)、[0.85,0.95),则对应上述概率区间,上述14个数据表对应的抽样概率分别被划分至以下组:{0.1}、{0.2}、{0.3,0.33}、{0.4}、{0.5}、{0.55,0.6}、{0.7}、{0.75,0.8}、{0.85,0.9,0.9},从而各个数据表按照上述抽样概率的划分而实现分组,即,抽样概率为0.1的数据表为一组,抽样概率为0.2的数据表为一组,抽样概率为0.3和0.33的数据表为一组,抽样概率为0.4的数据表为一组,以此类推。其中,在组距确定后,各个概率区间对应的起点/终点可以根据实际需要进行变化。
对应示例性(B)设置的预设组数可以为5,极差为0.8,组距为0.8/(5-1)=0.2,划分上述14个数据表对应的概率区间可以为:[0.05,0.25)、[0.25,0.45)、[0.45,0.65)、[0.65,0.85)、[0.85,1.05),则对应上述概率区间,上述14个数据表对应的抽样概率分别被划分至以下组中:{0.1}、{0.3,0.4,0.4}、{0.6,0.6,0.6}、{0.7,0.8,0.8}、{0.9,0.9,0.9,0.9},从而各个数据表按照上述抽样概率的划分而实现分组,即,抽样概率为0.1的数据表为一组,抽样概率为0.3、0.4和0.4的数据表为一组,抽样概率为0.6、0.6和0.6的数据表为一组,抽样概率为0.7、0.8和0.8的数据表为一组,以此类推。当然,组距确定后,各个概率区间对应的起点/终点可以根据实际需要进行变化。
在操作S14,根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样,该抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。
图5示意性示出了图3所示的方法中操作S14的详细流程图。
在本公开的一实施例中,参照图5所示,根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样的操作S14包括以下子操作:S141~S144。
在子操作S141,确定每个数据表组中所有数据表的抽样概率的平均值,得到针对每个数据表组的平均概率值。
在子操作S142,根据平均概率值自大到小,向至少两个数据表组分配自大到小的编号。
在子操作S143,确定向至少两个数据表组分配的编号的总和。
在子操作S144,确定针对每个数据表组的抽样比例为每个数据表组的编号与总和的比值。
抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值,抽样总数假设为m个,m例如为10~104之间的正整数。那么每个数据表组的编号占编号总和的比值即为每个数据表组中抽取的数据表个数占抽样总数的比值。例如对多个数据表进行分组得到6个数据表组,对数据表组分配自大到小的编号:6、5、4、3、2、1,上述6组数据表组分别对应的抽样比例为:6/21、5/21、4/21、3/21,2/21、1/21,那么对应在这6个数据表组中分别抽取以下个数的数据表:m×6/21、m×5/21、m×4/21、m×3/21,m×2/21、m×1/21,各个数据表组抽取个数作取整运算,使得各个数据表组抽取个数的总和等于抽样总数m。
可以理解的是,上述编号的数值仅作为示例,多个数据表组的编号的数值不一定为等差数列或者按照预定间距排列,只要满足与平均概率值的相对大小对应的编号方式均在本公开的保护范围之内。在一实例中,编号的大小可以与平均概率值呈正相关。
上述子操作S141~S144可以由电子设备中的处理器执行。在一实施例中,上述子操作S141~S144可以通过计算机程序被处理器执行来实现。
根据本公开的实施例,上述对数据集中的数据表进行抽样的方法还可以包括图6中的操作S10。
图6示意性示出了图3所示的方法中还包括构建预定模型的操作S10的示意图;图7示意性示出了根据本公开实施例的构建预定模型的流程图。
根据本公开的实施例,参照图6所示,在操作S12中提及的预定模型是预先构建得到的情况下,执行操作S12时,只需要调用预先构建的预定模型即可。即上述方法还包括操作S10:构建预定模型。
根据本公开的实施例,参照图7所示,构建预定模型的操作S10包括以下子操作:S101~S105。
在操作S101,确定数据集中用于构建预定模型的多个样本数据表。
在操作S102,获取多个共同指标针对多个样本数据表中每个样本数据表的取值,得到分别对应多个样本数据表的多组取值。
在操作S103,获取多个样本数据表各自的实际抽样概率。
在操作S104,以多组取值作为样本数据输入至初始模型,对应得到多个样本数据表各自的预测抽样概率。
在操作S105,根据多个样本数据表各自的预测抽样概率及各自的实际抽样概率,优化初始模型,以得到预定模型。其中,初始模型采用的算法例如可以为逻辑回归算法。
根据本公开的实施例,在操作S101,可以从数据集中获取若干数据表来用于构建预定模型,为了与前面描述的用于抽样的数据集中的多个数据表进行区分,将上述获取的若干数据表称为样本数据表。上述样本数据表形成的集合(样本数据集)可以是数据集的一部分(子集)或者是全部的数据集。
根据本公开的实施例,在操作S102,可以采用向量形式来表示对应于每个样本数据表的一组取值。该向量形式例如可以表示为:Xi 0=(xj1 0,xj2 0,xj3 0,……,xjn 0),向量Xj 0表示针对第j个样本数据表的共同指标的取值组成的向量,j表示样本数据表的序号;xj1 0、xj2 0、xj3 0、……、xjn 0分别表示第1个共同指标、第2个共同指标、第3个共同指标、……、第n个共同指标分别针对第j个样本数据表的取值。假设样本数据表的总个数为k个,k为大于等于2的正整数,则j的取值为1,2,......,k,对于该样本数据集中的k个数据表,可以得到表征共同指标取值的一组向量:{X1 0,X2 0,……,Xk 0}。
根据本公开的实施例,上述取值可以是归一化的取值,xj1 0、xj2 0、xj3 0、……、xjn 0均在[0,1]区间范围内。通过以归一化处理后的各个共同指标的取值作为初始模型的输入,可以减少由于共同指标取值的选取特性差异对输出结果引起的偏差。
根据本公开的实施例,在操作S103,对应每个样本数据表的实际抽样概率可以通过历史数据获取。例如,在某一时间段的历史数据中,针对不同的项目的需求会抽取不同的数据表,根据每个数据表被抽取的次数确定实际抽样概率。比如,示例性的情形,在历史数据中,一共抽取20次数据表。其中,多个样本数据表中的第一个样本数据表被抽取的次数为5次,第二个样本数据表被抽取的次数为8次,第三个样本数据表被抽取的次数为10次,以此类推,则可以得到第一个样本数据表的实际抽样概率为5/20,第二个样本数据表的实际抽样概率为8/20,第三个样本数据表的实际抽样概率为10/20,以此类推,可以得到多个样本数据表中每个样本数据表的实际抽样概率。其中,例如以Pj 0表示针对第j个样本数据表的实际抽样概率。
初始模型采用的算法为逻辑回归算法,基于逻辑回归可以建立初始模型并通过执行操作S104和操作S105的训练过程不断优化以得到预定模型。
预定模型的构建过程即为确定输入的向量Xj 0和数据表的实际抽样概率Pj 0之间的映射关系中的系数的过程,从而在构建好预定模型之后,任意输入一个向量Xi,便可以对应输出预测的准确的抽样概率Pi
预定模型可以采用机器学习的方式对初始模型进行训练优化得到。
下面介绍预定模型的数学表达式及其构建过程。
针对每个样本数据表,向量Xj 0=(xj1 0,xj2 0,xj3 0,……,xjn 0)对应一个实际抽样概率Pj 0,在向量Xi 0和实际抽样概率Pj 0之间建立以下关系:
Yj=W·Xj 0 (1)
Pj 0(Yj)=1/(1+e-Yj) (2)
W=[w1,w2,w3,……,wn] (3)
其中,Yj为针对第j个样本数据表的共同指标的取值的加权和,用于表征第j个样本数据表的重要程度;W·Xj 0表示向量W和向量Xj 0的向量内积(点积)运算,W表示共同指标的取值的权重系数向量,为待求量,w1、w2、w3、……、wn分别表示各个共同指标针对样本数据集中每个数据表的的取值的权重系数。
根据公式(1)~(3)可知,预定模型的构建过程实质上是确定权重系数向量W的过程。权重系数向量W的选取越准确,得到的预定模型越准确,根据预定模型得到的每个数据表的抽样概率越能反映出该数据表的重要程度,从而使得抽样得到的数据表具有较好的代表性和较高的准确度。另外采用机器学习方法确定预定模型中权重系数向量W的方式,在后续可以进一步通过拓宽样本数据表的数量的选取进行进一步完善,具有较好的可拓展性。
权重系数向量W的求解过程可以采用机器学习的方式,或者也可以采用最优化迭代求解的方式得到。
例如,在初始模型中,对应初始权重系数向量,输出为预测抽样概率。由电子设备预先给出一初始权重系数向量W0,针对第j个样本数据表的共同指标取值向量Xj 0代入初始模型中,得到
Yj0=W0·Xj 0 (4)
Pj 0(Yj0)=1/(1+e-Yj0) (5)
Yj0为针对第j个样本数据表的初始共同指标的取值加权和,用于表征第j个样本数据表的重要程度;W0表示共同指标的取值的初始权重系数向量,为设定量;Pj 0(Yj0)为针对第j个样本数据表的预测抽样概率。
根据预测抽样概率Pj 0(Yj0)与实际抽样概率Pj 0(Yj)之间的差距来优化初始权重系数向量W0,从而得到优化后的权重系数向量W’,使得最终的权重系数向量满足公式(1)和(2)。如此,在确定权重系数向量之后,预定模型构建完成。
本实施例的抽样的方法通过抽样的方式对数据表进行抽取,可以用于数据湖中数据表与源数据库中数据表的一致性校验,相较于相关技术可以大大减少各种资源的消耗。虽然该抽样方法仅抽取部分数据进行数据质量的校验,但是其抽取的数据具有较高的代表性,因此基于该抽样方法得到数据表进行一致性校验的准确性也较高。同时,通过在预定模型的构建中通过基于初始模型进行多次训练,从而得到优化的权重系数向量,并且可以通过扩大训练数据集的范围进一步优化权重系数向量,在效率上大大高于全量数据校验。上述抽样的方法不同于传统的随机抽样、等距抽样以及分层抽样等不考虑数据特征以及数据分布的抽样方式,也不同于高斯概率抽样等一些基于离散数据分布的抽样。上述抽样方法是对抽样数据进行精准特征分析后,智能地抽取代表性数据。通过共同指标的设定,能够充分考虑金融领域中数据的特殊性。此外,上述抽样的方法可以根据数据表的特征进行灵活抽样,因此该方法能够在其他类型的结构化数据的抽样中加以运用,既提高了抽样数据的代表性,也能减少数据清洗,数据整合等一些数据预处理过程的投入消耗,在很大程度上提高了数据质量。
本公开的第二个示例性实施例中,提供了一种对数据集中的数据表进行抽样的装置,用于执行上述抽样的方法。该数据集包括多个数据表,多个数据表具有多个共同指标。
图8示意性示出了根据本公开实施例的对数据集中的数据表进行抽样的装置的框图。
参照图8所示,对数据集中的数据表进行抽样的装置20包括:共同指标取值获取模块21、数据表抽样概率确定模块22、数据表分组模块23以及抽样模块24。
共同指标取值获取模块21用于获取多个共同指标针对多个数据表中每个数据表的取值,得到针对每个数据表的一组取值。
数据表抽样概率确定模块22用于根据预定模型及针对每个数据表的一组取值,确定多个数据表中每个数据表的抽样概率。
数据表分组模块23用于根据多个数据表的抽样概率的分布划分多个数据表,以得到至少两个数据表组,其中每个数据表组包括至少一个数据表。
抽样模块24用于根据预设规则,确定针对每个数据表组的抽样比例,以对每个数据表组进行抽样。
上述数据表分组模块23还可以包括以下子模块:极差确定子模块23a、数据表排序子模块23b、组距确定子模块23c、数据表分组子模块23d。
极差确定子模块23a用于根据多个数据表的抽样概率的分布确定抽样概率分布的极差,极差为抽样概率的最大值与最小值的差。
数据表排序子模块23b用于根据抽样概率的大小顺序对多个数据表进行排序。
组距确定子模块23c用于根据预设组数和极差确定组距。
数据表分组子模块23d用于以上述组距等距划分排序后的多个数据表,得到至少两个数据表组。
上述抽样模块24还可以包括以下子模块:平均概率值确定子模块24a、编号分配子模块24b、编号总和确定子模块24c、抽样比例确定子模块24d。
平均概率值确定子模块24a用于确定每个数据表组中所有数据表的抽样概率的平均值,得到针对每个数据表组的平均概率值。
编号分配子模块24b用于根据平均概率值自大到小,向至少两个数据表组分配自大到小的编号。
编号总和确定子模块24c用于确定向至少两个数据表组分配的编号的总和。
抽样比例确定子模块24d用于确定针对每个数据表组的抽样比例为每个数据表组的编号与总和的比值。
在另一实施例中,参照图8中虚线框所示,上述抽样的装置20还包括:预定模型构建模块25。
该预定模型构建模块25可以包括以下子模块:样本数据表确定子模块25a、样本取值确定子模块25b、实际抽样概率确定子模块25c、预测抽样概率确定子模块25d以及权重系数向量确定子模块25e。
样本数据表确定子模块25a用于确定数据集中用于构建预定模型的多个样本数据表。
样本取值确定子模块25b用于获取多个共同指标针对多个样本数据表中每个样本数据表的取值,得到分别对应多个样本数据表的多组取值。
实际抽样概率确定子模块25c用于获取多个样本数据表各自的实际抽样概率。
预测抽样概率确定子模块25d用于以多组取值作为样本数据输入至初始模型,对应得到多个样本数据表各自的预测抽样概率。
权重系数向量确定子模块25e用于根据多个样本数据表各自的预测抽样概率及各自的实际抽样概率,优化初始模型,以得到最终的权重系数向量,从而得到预定模型。其中,初始模型采用的算法为逻辑回归算法。
本公开的第三个示例性实施例提供了一种对数据集中的数据表进行校验的方法和装置。
图9示意性示出了根据本公开实施例的对数据集中的数据表进行校验的方法流程图。
本实施例中,参照图9所示,对数据集中的数据表进行校验的方法包括以下操作:S31~S33。
在操作S31,从源数据库中获取标准数据表。
在操作S32,基于上述抽样的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,数据湖中的数据表通过缓存源数据库中的标准数据表得到。
在一实施例中,上述源数据库为源系统业务数据库。上述抽样的方法为第一实施例中的抽样的方法。
在操作S33,将待校验数据表与标准数据表进行一致性校验。
在本公开的一实施例中,将待校验数据表与标准数据表进行一致性校验,包括以下至少之一:校验待校验数据表与标准数据表中的表信息是否一致;校验待校验数据表中的主键是否重复。表信息包括:表名、表中的字段以及表的记录,表中的字段包括:字段名、字段类型及字段属性。上述主键用于唯一识别表的记录。主键也称主关键字(primarykey),是表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录。在两个表的关系中,主键用来在一个表中引用来自于另一个表中的特定记录。一个表的主键可以由多个关键字共同组成,并且主关键字的列不能包含空值。在一实施例中,该主键例如还可以唯一确定一个实体。
图10示意性示出了根据本公开实施例的对数据集中的数据表进行校验的装置流程图。
参照图10所示,本实施例的对数据集中的数据表进行校验的装置40包括:标准数据表获取模块41、待校验数据表获取模块42以及一致性校验模块43。
标准数据表获取模块41用于从源数据库中获取标准数据表。
待校验数据表获取模块42用于基于上述抽样的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,数据湖中的数据表通过缓存源数据库中的标准数据表得到。
在一实施例中,待校验数据表获取模块42用于执行上述抽样的方法,该待校验数据表获取模块42可以包括:共同指标取值获取模块21、数据表抽样概率确定模块22、数据表分组模块23以及抽样模块24。在一实施例中,上述待校验数据表获取模块42还可以包括预定模型构建模块25,预定模型构建模块25可以参照前面第二实施例的描述,这里不再赘述。
一致性校验模块43用于将待校验数据表与标准数据表进行一致性校验。一致性校验模块43可以是位于标准数据表所在的存储装置中,或者是位于待校验数据表所在的存储装置中,或者单独位于一第三方的存储装置中,该第三方的存储装置独立于所述标准数据表和所述待校验数据表所在的存储装置。
上述实施例中,模块、子模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。例如,数据表排序子模块23b和编号分配子模块24b可以在一个模块中实现,编号总和确定子模块24c和抽样比例确定子模块24d可以在一个模块中实现。根据本公开实施例的模块、子模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块中共同指标取值获取模块21、数据表抽样概率确定模块22、数据表分组模块23、抽样模块24、预定模型构建模块25、标准数据表获取模块41以及一致性校验模块43中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第四个示例性实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序;其中,当一个或多个计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现如上所述的方法。
图11示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。
如图11所示,本实施例中,电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器500执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的第五个示例性实施例提供了一种计算机可读存储介质,其上存储有可执行指令,其中,该指令被处理器执行时使处理器实现如上所述的方法。
本公开的实施例还提供了一种计算机程序产品,该计算机程序产品包括一个或多个可读指令/程序,当上述一个或多个指令/程序被执行时,实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种对数据集中的数据表进行抽样的方法,所述数据集包括多个数据表,所述多个数据表具有多个共同指标,所述方法包括:
获取所述多个共同指标针对所述多个数据表中每个数据表的取值,得到针对所述每个数据表的一组取值;
根据预定模型及针对所述每个数据表的一组取值,确定所述多个数据表中每个数据表的抽样概率;
根据所述多个数据表的抽样概率的分布划分所述多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表;以及
根据预设规则,确定针对所述每个数据表组的抽样比例,以对所述每个数据表组进行抽样,所述抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。
2.根据权利要求1所述的方法,还包括:构建所述预定模型,所述构建所述预定模型包括:
确定所述数据集中用于构建所述预定模型的多个样本数据表;
获取所述多个共同指标针对所述多个样本数据表中每个样本数据表的取值,得到分别对应所述多个样本数据表的多组取值;
获取所述多个样本数据表各自的实际抽样概率;
以所述多组取值作为样本数据输入至初始模型,对应得到所述多个样本数据表各自的预测抽样概率;以及
根据所述多个样本数据表各自的预测抽样概率及各自的实际抽样概率,优化所述初始模型,以得到所述预定模型;
其中,所述初始模型采用的算法为逻辑回归算法。
3.根据权利要求1所述的方法,其中,所述根据所述多个数据表的抽样概率的分布划分所述多个数据表包括:
根据所述多个数据表的抽样概率的分布确定抽样概率分布的极差,所述极差为抽样概率的最大值与最小值的差;
根据所述抽样概率的大小顺序对所述多个数据表进行排序;
根据预设组数和所述极差确定组距;以及
以所述组距等距划分排序后的多个数据表,得到至少两个数据表组。
4.根据权利要求3所述的方法,所述根据预设规则,确定针对所述每个数据表组的抽样比例,以对所述每个数据表组进行抽样包括:
确定每个数据表组中所有数据表的抽样概率的平均值,得到针对所述每个数据表组的平均概率值;
根据所述平均概率值自大到小,向所述至少两个数据表组分配自大到小的编号;
确定向所述至少两个数据表组分配的编号的总和;以及
确定针对所述每个数据表组的抽样比例为所述每个数据表组的编号与所述总和的比值。
5.一种对数据集中的数据表进行校验的方法,包括:
从源数据库中获取标准数据表;
基于权利要求1-4中任一项所述的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,所述数据湖中的数据表通过缓存所述源数据库中的标准数据表得到;以及
将所述待校验数据表与所述标准数据表进行一致性校验。
6.根据权利要求5所述的方法,其中,所述将所述待校验数据表与所述标准数据表进行一致性校验,包括以下至少之一:
校验所述待校验数据表与所述标准数据表中的表信息是否一致,所述表信息包括:表名、表中的字段以及表的记录,所述表中的字段包括:字段名、字段类型及字段属性;
校验所述待校验数据表中的主键是否重复,所述主键用于唯一识别表的记录。
7.一种对数据集中的数据表进行抽样的装置,所述数据集包括多个数据表,所述多个数据表具有多个共同指标,所述装置包括:
共同指标取值获取模块,用于获取所述多个共同指标针对所述多个数据表中每个数据表的取值,得到针对所述每个数据表的一组取值;
数据表抽样概率确定模块,用于根据预定模型及针对所述每个数据表的一组取值,确定所述多个数据表中每个数据表的抽样概率;
数据表分组模块,用于根据所述多个数据表的抽样概率的分布划分所述多个数据表,以得到至少两个数据表组,每个数据表组包括至少一个数据表;以及
抽样模块,用于根据预设规则,确定针对所述每个数据表组的抽样比例,以对所述每个数据表组进行抽样,所述抽样比例为每个数据表组中抽取的数据表个数占抽样总数的比值。
8.一种对数据集中的数据表进行校验的装置,包括:
标准数据表获取模块,用于从源数据库中获取标准数据表;
待校验数据表获取模块,用于基于权利要求1-4中任一项所述的方法从数据湖中的数据集抽取数据表,以得到待校验数据表,所述数据湖中的数据表通过缓存所述源数据库中的标准数据表得到;以及
一致性校验模块,用于将所述待校验数据表与所述标准数据表进行一致性校验。
9.一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储一个或多个计算机程序;
其中,当一个或多个计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,其中,该指令被处理器执行时使处理器实现权利要求1至6中任一项所述的方法。
CN202010369864.6A 2020-04-30 2020-04-30 对数据集中的数据表进行抽样和校验的方法及装置 Active CN111581197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010369864.6A CN111581197B (zh) 2020-04-30 2020-04-30 对数据集中的数据表进行抽样和校验的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010369864.6A CN111581197B (zh) 2020-04-30 2020-04-30 对数据集中的数据表进行抽样和校验的方法及装置

Publications (2)

Publication Number Publication Date
CN111581197A true CN111581197A (zh) 2020-08-25
CN111581197B CN111581197B (zh) 2023-06-13

Family

ID=72122882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010369864.6A Active CN111581197B (zh) 2020-04-30 2020-04-30 对数据集中的数据表进行抽样和校验的方法及装置

Country Status (1)

Country Link
CN (1) CN111581197B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035287A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种数据清洗结果的测试方法、装置、存储介质及设备
WO2022151590A1 (zh) * 2021-01-18 2022-07-21 平安科技(深圳)有限公司 数据的抽样检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278989B1 (en) * 1998-08-25 2001-08-21 Microsoft Corporation Histogram construction using adaptive random sampling with cross-validation for database systems
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN110033117A (zh) * 2019-02-19 2019-07-19 阿里巴巴集团控股有限公司 模型校准方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278989B1 (en) * 1998-08-25 2001-08-21 Microsoft Corporation Histogram construction using adaptive random sampling with cross-validation for database systems
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN110033117A (zh) * 2019-02-19 2019-07-19 阿里巴巴集团控股有限公司 模型校准方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张维铭等: "可变样本容量和抽样区间的联合中位值和极差控制图", 《应用概率统计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035287A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种数据清洗结果的测试方法、装置、存储介质及设备
CN112035287B (zh) * 2020-09-01 2023-07-14 中国银行股份有限公司 一种数据清洗结果的测试方法、装置、存储介质及设备
WO2022151590A1 (zh) * 2021-01-18 2022-07-21 平安科技(深圳)有限公司 数据的抽样检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111581197B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
US11748379B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
Anselin et al. Operational local join count statistics for cluster detection
US11734233B2 (en) Method for classifying an unmanaged dataset
US10621492B2 (en) Multiple record linkage algorithm selector
EP2625628A2 (en) Probabilistic data mining model comparison engine
US11928879B2 (en) Document analysis using model intersections
CN111414548B (zh) 对象推荐方法、装置、电子设备和介质
WO2016206557A1 (zh) 一种风险识别方法及装置
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN111581197B (zh) 对数据集中的数据表进行抽样和校验的方法及装置
US8650180B2 (en) Efficient optimization over uncertain data
CN113159934A (zh) 一种网点客流量的预测方法、系统、电子设备及存储介质
CN105787004A (zh) 一种文本分类方法及装置
CN116304891B (zh) 基于多源数据迁移学习的类别预测方法和装置
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
US20230237076A1 (en) Automatically drawing infographics for statistical data based on a data model
US20220374401A1 (en) Determining domain and matching algorithms for data systems
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN114331679A (zh) 数据问题的分析方法及相关装置
Wirawan et al. Application of data mining to prediction of timeliness graduation of students (a case study)
CN110866549A (zh) 一种对评估对象的聚类方法及装置
CN112836060A (zh) 一种科技创新数据的图谱构建方法及装置
US11977987B2 (en) Automatic hypothesis generation using geospatial data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant