CN111651466A - 数据采样方法及装置 - Google Patents

数据采样方法及装置 Download PDF

Info

Publication number
CN111651466A
CN111651466A CN202010388467.3A CN202010388467A CN111651466A CN 111651466 A CN111651466 A CN 111651466A CN 202010388467 A CN202010388467 A CN 202010388467A CN 111651466 A CN111651466 A CN 111651466A
Authority
CN
China
Prior art keywords
sampling
database table
production database
development
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010388467.3A
Other languages
English (en)
Other versions
CN111651466B (zh
Inventor
章海怒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202010388467.3A priority Critical patent/CN111651466B/zh
Publication of CN111651466A publication Critical patent/CN111651466A/zh
Application granted granted Critical
Publication of CN111651466B publication Critical patent/CN111651466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书提供一种数据采样方法及装置。该方法可以包括:分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。

Description

数据采样方法及装置
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据采样方法及装置。
背景技术
目前,生产数据库中的业务数据的数据量是非常庞大的,如果直接在生产数据库上进行SQL开发(Structured Query Language,结构化查询语言)或者应用开发,那么在SQL开发或者应用开发的调试与试运行阶段需要对全部的业务数据进行处理,将会带来很大的资源消耗。
在现有技术中,为了降低这种资源消耗,可以划分出开发数据库,开发数据库被用于进行SQL开发或者应用开发。开发数据库中的数据是根据相应的采样规则对生产数据库中的数据进行采样得到的,开发数据库中只采集生产数据库中的部分数据,但是采样规则需要由相关人员手动配置和维护。
生产数据库中不同的数据表中相同业务属性的数据通常需要采取相同的采样规则。此时,由相关人员手动配置和维护采样规则的工作量大且容易出错,人工维护的成本高。一旦出现采样规则的配置不当,可能使得生产数据库的不同数据表中相同业务属性的数据被配置了不同的采样规则,容易导致开发数据库中采集到的数据不合理,开发数据库中的数据与生产数据库中的数据性状不一致,影响后续的开发过程。
发明内容
有鉴于此,本说明书提供了一种数据采样方法及装置,以实现对生产数据库中的数据进行采样。
为实现上述目的,本说明书提供技术方案如下:
根据本说明书的第一方面,提出了一种数据采样方法,该方法包括:
分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
根据本说明书的第二方面,提出了一种数据采样装置,该装置包括:
获取单元,用于分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
采样单元,用于在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
更新单元,用于根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
根据本说明书的第三方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述的安全策略配置方法。
根据本说明书的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的安全策略配置方法。
本说明书基于上述技术方案,在生产数据库的状态描述信息和开发数据库的状态描述信息不一致的情况下或者在对开发数据库表和生产数据库表校验失败的情况下,对生产数据库中的生产数据库表进行采样,并且根据采样得到的最新采样数据对开发数据库的开发数据库表进行更新,可以根据生产数据库的状态描述信息和开发数据库的状态描述信息,实现对开发数据库中的开发数据库表自动更新,提高了数据采样的性能与效率,可以确保开发数据库中的数据与生产数据库中的数据对齐,提升开发数据库中的数据精确度,保证了数据采样的完整性,可以减少生产数据库和开发数据库的人工维护成本,同时可以利用开发数据库中的数据进行数据开发操作,降低了数据开发过程中的资源消耗。
附图说明
图1是本说明书示出的一种数据采样方法的流程图。
图2是本说明书一示例性实施例示出的一种数据采样方法的流程图。
图3是本说明书一示例性实施例示出的一种电子设备的结构示意图。
图4是本说明书一示例性实施例示出的一种数据采样装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在数据的开发过程中,可以划分出开发数据库,该开发数据库可以在数据开发过程中用于调试与试运行,可以避免数据开发过程中的调试与试运行对生产数据库中的全部业务数据进行处理,可以减少资源消耗。
在相关技术中,相关人员需要手动为生产数据库配置固定的采样规则,并通过数据抽取工具根据固定的采样规则对生产数据库进行采样,此时采样规则的设定受到数据抽取工具的限制,相关人员配置的采样规则需要能够被数据抽取工具所支持,另外人工维护和配置采样规则的成本高,并且无法根据生产数据库中的数据变化情况自动更新采样后的数据,容易导致采样得到的数据不准确,使得开发数据库中的数据与生产数据库中的数据性状不一致,影响后续的开发过程。
因此,本说明书通过改进数据采样方式以解决相关技术中存在的上述技术问题。下面结合实施例进行详细说明。
图1是本说明书示出的一种数据采样方法的流程图。该方法可以由数据采样装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中。如图1所示,该方法可以包括以下步骤:
步骤102,分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据。
在一个实施例中,数据采样装置可以分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,其中,生产数据库中的生产数据库表包括业务处理过程中产生的所有数据信息,而开发数据库中的开发数据库表包括在历史时刻从生产数据库的生产数据库表中采样得到的历史采样数据。
状态描述信息可以包括生产数据库包含的生产数据库表或者开发数据库包含的开发数据库表的存储路径、存储的数据类型、最后更新时间戳等表的详细信息,本说明书中并不对此进行限定。
步骤104,在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样。
在一个实施例中,在生产数据库的状态描述信息和开发数据库的状态描述信息不一致的情况下,数据采样装置可以对生产数据库的生产数据库表进行采样。数据采样装置可以确定生产数据库表中包含的目标数据元,并根据预设的数据元与采样规则的映射关系,获得目标数据元对应的采样规则,那么数据采样装置可以基于目标数据元对应的采样规则对生产数据库表中对应于该目标数据元的目标字段数据进行采样。其中,采样规则可以包括随机抽样、分层抽样和整群抽样,当然还可以包括其他采样规则,本说明书中并不对此进行限制。数据元可以包括字段长度、类型、内容的范围和字段含义等信息。
在另一个实施例中,数据采样装置确定的生产数据库表中包含的目标数据元有多个的情况下,数据采样装置还可以确定各个目标数据元之间的采样顺序,然后按照确定的采样顺序依次通过各个目标数据元对应的采样规则对生产数据库表进行采样。其中,数据采样装置进行首次采样的采样目标为生产数据库,而非首次采样的采样目标为前一次采样的采样结果。
在另一个实施例中,数据采样装置确定的生产数据库表中包含的目标数据元有多个并且存在多个目标数据元对应于同一特定采样规则的情况下,数据采样装置可以选取优先级最高的目标数据元,并基于特定采样规则对生产数据库表中对应于被选取的优先级最高的目标数据元的目标字段数据进行采样。
步骤106,根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
数据采样装置可以通过对生产数据库的生产数据库表进行采样获得最新采样数据,并根据采样得到的最新采样数据对开发数据库的开发数据库表进行更新。
在一个实施例中,在生产数据库的状态描述信息和开发数据库的状态描述信息一致的情况下,数据采样装置可以对生产数据库表和开发数据库表进行校验,以确定开发数据库表中的数据是否记录于生产数据库表中。而若开发数据库表中数据未记录在生产数据库表中的情况下,则表明校验失败,数据采样装置可以对生产数据库表进行采样,并根据采样得到的最新采样数据对开发数据库表进行更新;若开发数据库表中的数据全部记录在生产数据库表中,则表明校验成功,不需要重新对生产数据库表进行采样,也不需要进行其他操作。
由以上技术方案可见,本说明书中在生产数据库的状态描述信息和开发数据库的状态描述信息不一致的情况下或者在对开发数据库表和生产数据库表校验失败的情况下,对生产数据库中的生产数据库表进行采样,并且根据采样得到的最新采样数据对开发数据库的开发数据库表进行更新,可以根据生产数据库的状态描述信息和开发数据库的状态描述信息,实现对开发数据库中的开发数据库表自动更新,提高了数据采样的性能与效率,可以确保开发数据库中的数据与生产数据库中的数据对齐,提升开发数据库中的数据精确度,保证了数据采样的完整性,可以减少生产数据库和开发数据库的人工维护成本,同时可以利用开发数据库中的数据进行数据开发操作,降低了数据开发过程中的资源消耗。
为了便于理解,下面结合附图对本说明书的技术方案进行进一步说明。请参见图2,图2是本说明书一示例性实施例一种数据采样方法的流程图。该方法可以由数据采样装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中。如图2所示;可以包括以下步骤:
步骤202,获取采样触发事件。
在本实施例中,数据采样装置可以在接收到相应的采样触发事件后触发数据采样流程,其中,采样触发事件可以是数据抽取或者数据计算等数据操作。或者,数据采样装置还可以根据预先设定的固定采样频率定时地触发数据采样流程,本说明书中并不对此进行限制。
步骤204,分别获取生产数据库的状态描述信息和开发数据库的状态描述信息。
在本实施例中,假定生产数据库中的生产数据库表A如下表1所示,记录了业务处理过程中的数据信息。而开发数据库中的开发数据库表B如下表2所示,开发数据库的开发数据库表B包括在历史时刻从生产数据库的生产数据库表A中采样得到的历史采样数据。
表1
名字 性别 ID
用户1 012312
用户2 012323
用户3 012334
用户4 012345
用户5 012356
用户6 012367
…… …… ……
表2
名字 性别 ID
用户2 012323
用户4 012345
用户5 012356
在本实施例中,数据采样装置可以在接收到采样触发事件后,分别获取生产数据库的状态描述信息和开发数据库的状态描述信息。此时,数据采样装置获得的生产数据库中的生产数据库表A的状态描述信息可以为:数据量为100条,最后更新时间为2020年3月20日上午8点。数据采样装置获得的开发数据库的开发数据库表B状态描述信息可以为:数据量为3条,最后更新时间为2020年3月20日上午7点。其中,更新后的生产数据库表A如下表3所示。
表3
名字 性别 ID
用户1 012312
用户2 012323
用户3 012334
用户5 012356
用户6 012367
…… …… ……
步骤206,比较状态描述信息是否一致。
步骤208,进行校验。
在本实施例中,数据采样装置可以将获取到的生产数据库表A的状态描述信息和开发数据库表B的状态描述信息进行比较,数据采样装置经过比较可以获得上述生产数据库表A的更新时间与开发数据库表B的更新时间不一致,因此,可以确定生产数据库的状态描述信息和开发数据库的状态描述信息不一致,转入步骤210。当然本说明书中还可以根据其他的状态描述信息例如生产数据库在预设时间内新增的数据量等确定生产数据库的状态描述信息和开发数据库的状态描述信息是否一致,本说明书中并不对此进行限定。
在本实施例中,如果数据采样装置经过比较获得生产数据库表A的更新时间与开发数据库表B的更新时间一致,则可以确定生产数据库的状态描述信息和开发数据库的状态描述信息一致,那么数据采样装置可以对生产数据库表A和开发数据库表B进行校验,确定开发数据库表B中的数据是否记录于生产数据库表A中,如果开发数据库表B中的数据全部记录于生产数据库表A中,则表明校验成功,生产数据库表A未发生更新,那么也不需要对开发数据库表B进行更新;如果开发数据库表B的数据未全部记录于生产数据库表A中,则表明校验失败,转入步骤210,需要对生产数据库A进行重新采样。
其中,数据采样装置还可以对生产数据库表A和开发数据库表B中记录的数据进行哈希计算,例如可以采用MD5算法,那么数据采样装置还可以通过比较哈希值确定开发数据库表B中的数据是否全部记录于生产数据库表A中。
步骤210,确定生产数据库表中包含的目标数据元。
步骤212,获取目标数据元对应的采样规则。
步骤214,对生产数据库表进行采样。
在本实施例中,数据采样装置可以先确定生产数据库表A中包含的目标字段有名字、性别、ID,其中,目标字段可以被预先关联至对应的目标数据元,目标字段“名字”可以被预先关联至目标数据元“姓名”,目标字段“性别”可以被预先关联至目标数据元“性别”,目标字段“ID”可以被预先关联至目标数据元“身份证号”,那么数据采样装置可以根据生产数据库表A中包含的目标字段确定对应的目标数据元。
在本实施例中,数据采样装置还可以预先存储有生产数据库中若干数据元与采样规则的映射关系,例如数据元“姓名”对应随机抽样,数据元“性别”对应分层抽样,数据元“身份证号”对应随机抽样,以及数据元“订单号”对应整群抽样等,本说明书中通过数据元与采样规则的映射关系以及生产数据库中的目标字段与数据元的关联关系,可以确保生产数据库中不同生产数据库表中相同含义的字段采用相同的采样规则,那么相同含义的字段可以采样得到相同的数据,可以避免采样规则的配置错误,可以避免开发数据库中的数据与生产数据库中的数据性状不一致。
那么数据采样装置可以基于生产数据库表A中的目标数据元对应的采样规则分别对生产数据库A中对应的目标字段数据“名字”、“性别”和“ID”进行采样,假定数据表A中性别的男女比例为2:1。
在本实施例中,生产数据库表A中存在三个目标数据元,因此,数据采样装置可以确定三个目标数据元的采样顺序,例如,确定的采样顺序依次为“姓名”、“性别”和“身份证号”。那么数据采样装置可以首先基于目标数据元“姓名”对应的采样规则“随机抽样”对生产数据库表中对应于“名字”的字段数据进行采样,获得第一采样数据,接着,数据采样装置可以基于目标数据元“性别”对应的采样规则“分层抽样”对第一采样数据中对应于“性别”的字段数据进行采样,获得第二采样数据,其中,获得的第二采样数据中男女比例为2:1。数据采样装置可以继续基于目标数据元“身份证号”对应的采样规则“随机抽样”对第二采样数据中对应于“ID”的字段数据进行采样,获得最新采样数据,可以使得获得的最新采样数据与生产数据库A中的数据性状保持一致。
在本实施例中,数据采样装置中还可以预先存储生产数据库中若干数据元的优先级,假定生产数据库表A中的目标数据元按照优先级从高到低依次为“身份证号”、“性别”和“姓名”,那么数据采样装置可以根据目标数据元的优先级确定针对生产数据库表A的最佳采样方法。
其中,数据采样装置在获取生产数据库表A中的目标数据元对应的采样规则后,可以确定目标数据元“身份证号”和目标数据元“姓名”对应同一采样规则“随机抽样”,因而,数据采样装置可以选取优先级最高的“身份证号”,并基于随机抽样的规则对生产数据库表A中的对应于目标数据元的“ID”字段数据进行采样,数据采样装置不再基于目标数据元“姓名”对应的采样规则对生产数据库中的目标字段数据进行采样,可以避免重复执行相同的采样规则,可以减少采样过程中的资源消耗,提升数据采样的效率。
在本实施例中,数据采样装置对更新后的生产数据库表A进行采样,并获得最新采样数据如下表4所示,表4中性别的男女比例也保持2:1。
表4
名字 性别 ID
用户2 012323
用户5 012356
用户6 012367
步骤216,获得最新的采样数据。
步骤218,对开发数据库表进行更新。
在本实施例中,数据采样装置可以根据采样得到的最新采样数据对开发数据库表B进行更新,从而使得开发数据库表B始终与生产数据库表A对齐,可以及时校准开发数据库表B中的数据精确度。
由以上技术方案可见,本说明书中在生产数据库的状态描述信息和开发数据库的状态描述信息不一致的情况下或者在对开发数据库表和生产数据库表校验失败的情况下,对生产数据库中的生产数据库表进行采样,并且根据采样得到的最新采样数据对开发数据库的开发数据库表进行更新,可以根据生产数据库的状态描述信息和开发数据库的状态描述信息,实现对开发数据库中的开发数据库表自动更新,提高了数据采样的性能与效率,可以确保开发数据库中的数据与生产数据库中的数据对齐,提升开发数据库中的数据精确度,保证了数据采样的完整性,可以减少生产数据库和开发数据库的人工维护成本,同时可以利用开发数据库中的数据进行数据开发操作,降低了数据开发过程中的资源消耗。
图3示出了根据本说明书的一示例性实施例的电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310,当然还可能包括其他业务所需要的硬件。处理器302从非易失性存储器310中读取对应的计算机程序到内存308中然后运行,在逻辑层面上形成数据采样装置。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图4,在软件实施例中,该安全策略配置装置可以包括获取单元402、采样单元404和更新单元406。其中:
获取单元402,用于分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
采样单元404,用于在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
更新单元406,用于根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
可选的,所述采样单元404具体用于:
确定所述生产数据库表中包含的目标数据元;
根据预设的数据元与采样规则的映射关系,获取所述目标数据元对应的采样规则;
基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样。
可选的,所述采样单元404具体用于:
在所述目标数据元的数量为多个的情况下,确定各个目标数据元之间的采样顺序;
按照所述采样顺序依次通过各个目标数据元对应的采样规则对所述生产数据库表进行采样;其中,首次采样的采样目标为所述生产数据库表,非首次采样的采样目标为前一次采样的采样结果。
可选的,所述采样单元404具体用于:
在所述目标数据元的数量为多个且多个目标数据元对应于同一特定采样规则的情况下,选取优先级最高的目标数据元;
基于所述特定采样规则对所述生产数据库表中对应于被选取的目标数据元的目标字段数据进行采样。
可选的,所述采样规则包括随机抽样、分层抽样和整群抽样。
可选的,还包括:
校验单元408,用于在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息一致的情况下,对所述开发数据库表和所述生产数据库表进行校验,以确定所述开发数据库表中的数据是否记录于所述生产数据库表中;
更新单元410,用于若所述开发数据库表中的数据未记录于所述生产数据库表中,则对所述生产数据库表进行采样,并根据采样得到的最新采样数据对所述开发数据库表进行更新。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由报文的发送装置的处理器执行以完成上述方法,该方法可以包括:
分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
可选的,确定所述生产数据库表中包含的目标数据元;根据预设的数据元与采样规则的映射关系,获取所述目标数据元对应的采样规则;基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样。
可选的,在所述目标数据元的数量为多个的情况下,确定各个目标数据元之间的采样顺序;按照所述采样顺序依次通过各个目标数据元对应的采样规则对所述生产数据库表进行采样;其中,首次采样的采样目标为所述生产数据库表,非首次采样的采样目标为前一次采样的采样结果。
可选的,在所述目标数据元的数量为多个且多个目标数据元对应于同一特定采样规则的情况下,选取优先级最高的目标数据元;基于所述特定采样规则对所述生产数据库表中对应于被选取的目标数据元的目标字段数据进行采样。
可选的,所述采样规则包括随机抽样、分层抽样和整群抽样。
可选的,在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息一致的情况下,对所述开发数据库表和所述生产数据库表进行校验,以确定所述开发数据库表中的数据是否记录于所述生产数据库表中;
若所述开发数据库表中的数据未记录于所述生产数据库表中,则对所述生产数据库表进行采样,并根据采样得到的最新采样数据对所述开发数据库表进行更新。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (14)

1.一种数据采样方法,其特征在于,包括:
分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
2.根据权利要求1所述的方法,其特征在于,对所述生产数据库的生产数据库表进行采样,包括:
确定所述生产数据库表中包含的目标数据元;
根据预设的数据元与采样规则的映射关系,获取所述目标数据元对应的采样规则;
基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样。
3.根据权利要求2所述的方法,其特征在于,基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样,包括:
在所述目标数据元的数量为多个的情况下,确定各个目标数据元之间的采样顺序;
按照所述采样顺序依次通过各个目标数据元对应的采样规则对所述生产数据库表进行采样;其中,首次采样的采样目标为所述生产数据库表,非首次采样的采样目标为前一次采样的采样结果。
4.根据权利要求2所述的方法,其特征在于,基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样,包括:
在所述目标数据元的数量为多个且多个目标数据元对应于同一特定采样规则的情况下,选取优先级最高的目标数据元;
基于所述特定采样规则对所述生产数据库表中对应于被选取的目标数据元的目标字段数据进行采样。
5.根据权利要求2所述的方法,其特征在于,所述采样规则包括随机抽样、分层抽样和整群抽样。
6.根据权利要求1所述的方法,其特征在于,还包括:
在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息一致的情况下,对所述开发数据库表和所述生产数据库表进行校验,以确定所述开发数据库表中的数据是否记录于所述生产数据库表中;
若所述开发数据库表中的数据未记录于所述生产数据库表中,则对所述生产数据库表进行采样,并根据采样得到的最新采样数据对所述开发数据库表进行更新。
7.一种数据采样装置,其特征在于,包括:
获取单元,用于分别获取生产数据库的状态描述信息和开发数据库的状态描述信息,所述开发数据库的开发数据库表包括在历史时刻从所述生产数据库的生产数据库表中采样得到的历史采样数据;
采样单元,用于在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息不一致的情况下,对所述生产数据库的生产数据库表进行采样;
更新单元,用于根据采样得到的最新采样数据对所述开发数据库的开发数据库表进行更新。
8.根据权利要求7所述的装置,其特征在于,所述采样单元具体用于:
确定所述生产数据库表中包含的目标数据元;
根据预设的数据元与采样规则的映射关系,获取所述目标数据元对应的采样规则;
基于所述目标数据元对应的采样规则对所述生产数据库表中对应于所述目标数据元的目标字段数据进行采样。
9.根据权利要求8所述的装置,其特征在于,所述采样单元具体用于:
在所述目标数据元的数量为多个的情况下,确定各个目标数据元之间的采样顺序;
按照所述采样顺序依次通过各个目标数据元对应的采样规则对所述生产数据库表进行采样;其中,首次采样的采样目标为所述生产数据库表,非首次采样的采样目标为前一次采样的采样结果。
10.根据权利要求8所述的装置,其特征在于,所述采样单元具体用于:
在所述目标数据元的数量为多个且多个目标数据元对应于同一特定采样规则的情况下,选取优先级最高的目标数据元;
基于所述特定采样规则对所述生产数据库表中对应于被选取的目标数据元的目标字段数据进行采样。
11.根据权利要求8所述的装置,其特征在于,所述采样规则包括随机抽样、分层抽样和整群抽样。
12.根据权利要求7所述的装置,其特征在于,还包括:
校验单元,用于在所述生产数据库的状态描述信息和所述开发数据库的状态描述信息一致的情况下,对所述开发数据库表和所述生产数据库表进行校验,以确定所述开发数据库表中的数据是否记录于所述生产数据库表中;
更新单元,用于若所述开发数据库表中的数据未记录于所述生产数据库表中,则对所述生产数据库表进行采样,并根据采样得到的最新采样数据对所述开发数据库表进行更新。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
CN202010388467.3A 2020-05-09 2020-05-09 数据采样方法及装置 Active CN111651466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388467.3A CN111651466B (zh) 2020-05-09 2020-05-09 数据采样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388467.3A CN111651466B (zh) 2020-05-09 2020-05-09 数据采样方法及装置

Publications (2)

Publication Number Publication Date
CN111651466A true CN111651466A (zh) 2020-09-11
CN111651466B CN111651466B (zh) 2023-07-25

Family

ID=72349489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388467.3A Active CN111651466B (zh) 2020-05-09 2020-05-09 数据采样方法及装置

Country Status (1)

Country Link
CN (1) CN111651466B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925949A (zh) * 2021-02-24 2021-06-08 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212647A1 (en) * 2002-05-07 2003-11-13 Matthew Jay Bangel Method, system and program product for maintaining a change history for a database design
US20120330900A1 (en) * 2011-06-27 2012-12-27 Nikhil Patwardhan Database sampling
US20150293952A1 (en) * 2014-04-11 2015-10-15 Bank Of America Corporation Method for tracking differences between production and development databases to perform an automatic synchronization
US20170199922A1 (en) * 2016-01-13 2017-07-13 American Express Travel Related Services Co., Inc. System and method for managing data and updates to a database structure
CN108255906A (zh) * 2017-05-04 2018-07-06 平安科技(深圳)有限公司 数据补录方法及装置
CN109857803A (zh) * 2018-12-13 2019-06-07 杭州数梦工场科技有限公司 数据同步方法、装置、设备、系统及计算机可读存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
WO2020015067A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212647A1 (en) * 2002-05-07 2003-11-13 Matthew Jay Bangel Method, system and program product for maintaining a change history for a database design
US20120330900A1 (en) * 2011-06-27 2012-12-27 Nikhil Patwardhan Database sampling
US20150293952A1 (en) * 2014-04-11 2015-10-15 Bank Of America Corporation Method for tracking differences between production and development databases to perform an automatic synchronization
US20170199922A1 (en) * 2016-01-13 2017-07-13 American Express Travel Related Services Co., Inc. System and method for managing data and updates to a database structure
CN108255906A (zh) * 2017-05-04 2018-07-06 平安科技(深圳)有限公司 数据补录方法及装置
WO2020015067A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN109857803A (zh) * 2018-12-13 2019-06-07 杭州数梦工场科技有限公司 数据同步方法、装置、设备、系统及计算机可读存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘照;姜波;曹馨元;李浩;: "基于EPS的GIS数据生产与入库一体化设计与实现", no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925949A (zh) * 2021-02-24 2021-06-08 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质
CN112925949B (zh) * 2021-02-24 2024-06-11 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111651466B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
KR20190019892A (ko) 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
CN106897342B (zh) 一种数据校验方法和设备
CN112328842B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109299205B (zh) 将规划行业使用的空间数据进行入库的方法和装置
CN114780537A (zh) 流表存储及报文转发方法、装置、计算设备及介质
CN109471874A (zh) 数据分析方法、设备及存储介质
CN116126843A (zh) 一种数据质量评估方法、装置、电子设备和存储介质
CN111651466B (zh) 数据采样方法及装置
CN110362569A (zh) 数据表的校验方法及装置、电子设备、存储介质
US20230153286A1 (en) Method and system for hybrid query based on cloud analysis scene, and storage medium
CN110750537A (zh) 一种客户身份识别方法及装置、设备、介质
CN113918593A (zh) 识别金融数据异常的方法及装置、存储介质、计算设备
CN114564501A (zh) 一种数据库数据存储、查询方法、装置、设备及介质
CN110928910B (zh) 高速读写Shapfile中的矢量要素的方法和装置
CN109739876B (zh) 基于Sqltoy-orm框架的数据库的数据查询方法和装置
CN113986932B (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN109597812B (zh) 会议室批量上线方法、装置、计算机设备及存储介质
CN111127065A (zh) 用户职住地的获取方法和装置
CN113127436B (zh) 一种数据同步方法、装置、服务器及存储介质
CN111428050B (zh) 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN110221971B (zh) 搜索引擎的测试方法及装置、电子设备、存储介质
CN117349284A (zh) 数据库分库分表方法、装置、电子设备和计算机存储介质
CN116401245A (zh) 一种数据索引构建方法及系统
CN111291237A (zh) 数据信息的管理方法和装置
CN118227470A (zh) 数据库测试方法、装置、设备、介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant