CN113157804A - 同步数据的对账方法、装置、计算机设备及存储介质 - Google Patents

同步数据的对账方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113157804A
CN113157804A CN202110332262.8A CN202110332262A CN113157804A CN 113157804 A CN113157804 A CN 113157804A CN 202110332262 A CN202110332262 A CN 202110332262A CN 113157804 A CN113157804 A CN 113157804A
Authority
CN
China
Prior art keywords
data
target
metadata
dimension
reconciliation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110332262.8A
Other languages
English (en)
Other versions
CN113157804B (zh
Inventor
赵海川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110332262.8A priority Critical patent/CN113157804B/zh
Publication of CN113157804A publication Critical patent/CN113157804A/zh
Priority to PCT/CN2021/125860 priority patent/WO2022199009A1/zh
Application granted granted Critical
Publication of CN113157804B publication Critical patent/CN113157804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种同步数据的对账方法、装置、计算机设备及存储介质,其中,该方法包括:在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。这样,可以基于对账的结果分析数据同步过程是否完成,从而确保后续数据处理过程中所采用的数据为目标同步数据,提高对于同步数据处理的效率。

Description

同步数据的对账方法、装置、计算机设备及存储介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种同步数据的对账方法、装置、计算机设备及存储介质。
背景技术
由于平台的算力限制,或是数据传输目的,或是响应于一定的数据请求,一些平台可能会将一部分数据传输至其他平台进行处理或存储等,从而使得其他平台协助处理或存储数据,又或是在其他平台接收数据之后,借助传输的数据完成自身的目标需求。通常,将上述数据传输过程称之为数据同步。
由于数据同步技术的限制,以及可能存在的数据格式、特性不匹配的情况,从而导致数据在同步过程中可能存在缺失、乱码、错误等问题出现,进而导致无法完成后续数据处理过程,或是利用错误的同步数据进行处理之后,得到不准确的数据处理结果,从而影响对于同步数据的处理效率。
发明内容
本公开实施例至少提供一种同步数据的对账方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种同步数据的对账方法,所述对账方法包括:
在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
本公开实施例中,基于包括多个数据特征维度下的元数据的数据信息统计文件,对目标维度下的数据同步进行对账,从而分析数据同步过程是否完成,使得后续数据处理过程中所采用的数据为完整同步后的数据,有助于提高对于同步数据处理的效率,调高数据传输的准确性。
一种可选的实施方式中,所述在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据,包括:
接收第一数据库发送的第一数据;
基于预设目标特征对应的特征字段,从所述第一数据中提取与所述特征字段对应的目标数据;
确定提取出的目标数据为所述第一数据的元数据。
本可选的实施方式中,基于目标特征对应的特征字段对第一数据进行提取,便可以获取到与目标特征对应的目标数据,进而得到包括多个目标数据的元数据,该元数据可以包括目标需求对应的目标特征。
一种可选的实施方式中,所述确定提取出的目标数据为所述第一数据的元数据,包括:
将所述第一数据以及所述目标数据关联存储在预设的关系型数据库中;
确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据。
本可选的实施方式中,将目标数据存储于关系型数据库中,当调用其中一种特征数据,便可以同时调用出于该特征数据对应的其他特征数据。
一种可选的实施方式中,所述生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件,包括:
确定所述元数据记载的所述第一数据的发送时间为所述元数据指示的数据更新时间;
基于预设目标特征对应的特征字段,确定针对所述第一数据的多个数据特征维度;
针对所述数据更新时间以及多个数据特征维度,建立与所述数据更新时间对应的、包括多个数据特征维度的数据信息统计文件。
本可选的实施方式中,基于数据更新时间建立包括多个目标维度的数据信息统计文件,在对账时无需查找全部特征数据,而是可以基于对账时间查找对应的数据信息统计文件进行对账,从而可以提高对账效率,解决由于长时间的数据累积和增长而导致的对账变慢的问题。
一种可选的实施方式中,所述将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中,包括:
分离所述元数据中针对各数据特征维度的数据信息;
将分离出的各数据信息添加至所述数据信息统计文件中对应的数据特征维度下。
一种可选的实施方式中,所述基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账,包括:
响应所述多个数据特征维度中任一数据特征维度的对账请求,将请求对账的数据特征维度确定为目标维度;
从所述第一数据库中获取发送的所述第一数据中在所述目标维度下数据的第一数据量,以及所述数据信息统计文件中所述目标维度下记载的第二数据量;
基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功。
本可选的实施方式中,通过比较同步前后在细致划分的目标维度下的数据量,确定在目标维度下的数据是否同步成功,可以提高对账的细粒度,从而提高对账过程的准确性。
一种可选的实施方式中,所述基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功,包括:
若所述第一数据量与所述第二数据量相等,则确定在所述目标维度下的数据同步成功;
若所述第一数据量与所述第二数据量不相等,则确定在所述目标维度下的数据同步失败;
若在所述目标维度下的数据同步失败,将所述目标维度上传至异常处理中心;其中,所述异常处理中心用于针对异常的数据特征维度进行处理。
本可选的实施方式中,在确定在目标维度下的数据同步不成功时,将对应的异常数据特征维度上传至异常处理中心,方便针对同步异常的数据进行处理。
第二方面,本公开实施例还提供一种同步数据的对账装置,所述对账装置包括:
获取模块,用于在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成模块,用于生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
添加模块,用于将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
对账模块,用于基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
一种可能的实施方式中,所述获取模块包括:
接收单元,用于接收第一数据库发送的第一数据;
提取单元,用于基于预设目标特征对应的特征字段,从所述第一数据中提取与所述特征字段对应的目标数据;
第一确定单元,用于确定提取出的目标数据为所述第一数据的元数据。
一种可能的实施方式中,所述第一确定单元具体用于:
将所述第一数据以及所述目标数据关联存储在预设的关系型数据库中;
确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据。
一种可能的实施方式中,所述生成模块具体用于:
确定所述元数据记载的所述第一数据的发送时间为所述元数据指示的数据更新时间;
基于预设目标特征对应的特征字段,确定针对所述第一数据的多个数据特征维度;
针对所述数据更新时间以及多个数据特征维度,建立与所述数据更新时间对应的、包括多个数据特征维度的数据信息统计文件。
一种可能的实施方式中,所述添加模块具体用于:
分离所述元数据中针对各数据特征维度的数据信息;
将分离出的各数据信息添加至所述数据信息统计文件中对应的数据特征维度下。
一种可能的实施方式中,所述对账模块包括:
第二确定单元,用于响应所述多个数据特征维度中任一数据特征维度的对账请求,将请求对账的数据特征维度确定为目标维度;
获取单元,用于从所述第一数据库中获取发送的所述第一数据中在所述目标维度下数据的第一数据量,以及所述数据信息统计文件中所述目标维度下记载的第二数据量;
第三确定单元,用于基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功。
一种可能的实施方式中,所述第三确定单元具体用于:
若所述第一数据量与所述第二数据量相等,则确定在所述目标维度下的数据同步成功;
若所述第一数据量与所述第二数据量不相等,则确定在所述目标维度下的数据同步失败;
若在所述目标维度下的数据同步失败,将所述目标维度上传至异常处理中心;其中,所述异常处理中心用于针对异常的数据特征维度进行处理。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的一种同步数据的对账方法、装置、计算机设备及可读存储介质,包括:在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
本公开实施例中,通过基于第一数据对应的元数据生成对应的数据信息统计文件,并基于数据信息统计文件,对目标维度下的数据同步进行对账,并基于对账的结果分析数据同步过程是否完成,从而确保后续数据处理过程中所采用的数据为目标同步数据,提高对于同步数据处理的效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种同步数据的对账方法的流程图;
图2示出了本公开实施例所提供的一种同步数据的对账装置的示意图;
图3示出了本公开实施例所提供的同步数据的对账装置中,获取模块的具体示意图;
图4示出了本公开实施例所提供的同步数据的对账装置中,对账模块的具体示意图;
图5示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,由于数据同步技术的限制,以及可能存在的数据格式、特性不匹配的情况,从而导致数据在同步过程中可能存在缺失、乱码、错误等问题出现,进而导致无法完成后续数据处理过程,或是利用错误的同步数据进行处理之后,得到不准确的数据处理结果,从而影响对于同步数据的处理效率。
基于上述研究,本公开提供了一种同步数据的对账方法,通过基于第一数据对应的元数据生成对应的数据信息统计文件,并基于数据信息统计文件,对目标维度下的数据同步进行对账,并基于对账的结果分析数据同步过程是否完成,从而确保后续数据处理过程中所采用的数据为目标同步数据,提高对于同步数据处理的效率。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种同步数据的对账方法进行详细介绍,本公开实施例所提供的同步数据的对账方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该同步数据的对账方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,图1为本公开实施例提供的一种同步数据的对账方法的流程图,所述对账方法包括步骤S101~S104,其中:
S101:在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据。
该步骤中,在接收到第一数据库发送的第一数据至目标数据库之后,可以获取第一数据中的元数据。
其中,所述第一数据库为预先与接收第一数据的目标数据库建立通信连接的数据库,当目标数据库向第一数据库发送数据请求时,或者,第一数据库主动发送第一数据时,可以通过第一数据库与目标数据库之间建立的通信接口传输第一数据。对应的,第一数据为目标数据库向第一数据库发送数据请求或是第一数据库主动向目标数据库传输的数据。
在本公开实施例中,第一数据的元数据为表征第一数据特征的数据。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
本公开实施例中,所述元数据可以包含用户自定义特征信息、更新时间、针对数据的操作类型(如更新、注销等)、数据类型、数据等级等信息。
具体的,所述在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据,包括:
接收第一数据库发送的第一数据;
基于预设目标特征对应的特征字段,从所述第一数据中提取与所述特征字段对应的目标数据;
确定提取出的目标数据为所述第一数据的元数据。
示例性的,以第一数据为人物对象信息时,预设目标特征例如可以包括目标对象的姓名、年龄、证件号码、所在位置以及对该任务的关注级别等,用来表征人物对象的特征的字段信息,对应的,特征字段可以为该预设目标特征对应的字段信息,如:name、age、ID、location、class等。此外,还可以包括新增、注销、更新等表征第一数据状态的特征字段。在确定预设目标特征对应的特征字段之后,可以基于var语言等提取第一数据中与多个特征字段对应的多个目标数据。从而,可以获取到与预设目标特征对应的目标数据,进而得到包括多个目标数据的元数据,该元数据可以包括目标需求对应的目标特征。
本公开实施例中,在接收第一数据库发送的第一数据之后,基于确定的特征字段,提取所述第一数据库中的目标数据,并将提取出的目标数据进行整合,从而得到对应每个第一数据的元数据。
具体的,所述确定提取出的目标数据为所述第一数据的元数据,包括:
将所述第一数据以及所述目标数据关联存储在预设的关系型数据库中;
确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据。
示例性的,可以将第一数据以及从第一数据中提取出的目标数据存储在预设的关系型数据库中。其中,关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮K-DB等。
在将第一数据以及从第一数据中提取出的目标数据存储在预设的关系型数据库之后,便可以确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据,同时,当想要调用关系型数据库中任一特征数据时,可以获取与其相关的全部特征数据。
S102:生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件。
该步骤中,基于元数据所指示的数据更新时间,可以建立包括多个数据特征维度的数据信息统计文件。
其中,元数据所指示的数据更新时间,可以是指第一数据的发送时间,也可以是指所述第一数据中所包含的各种数据对应的时间,如采集时间、汇总时间、更新时间等。
相应的,若元数据所指示的数据更新时间为发送时间,则相应的创建一个数据信息统计文件即可,若元数据所指示的数据更新时间为各种数据对应的时间,则可以根据后续的对账需求,创建与各时间对应的数据信息统计文件,并若创建多个数据信息统计文件的话,针对不同数据的数据信息统计文件种中包括的多种数据特征维度可以相同,也可以不同。
具体的,在一种可能的实施方式中,所述生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件,包括:
确定所述元数据记载的所述第一数据的发送时间为所述元数据指示的数据更新时间;
基于预设目标特征对应的特征字段,确定针对所述第一数据的多个数据特征维度;
针对所述数据更新时间以及多个数据特征维度,建立与所述数据更新时间对应的、包括多个数据特征维度的数据信息统计文件。
示例性的,可以根据元数据中的指示的数据更新时间,在数据库中创建对应不同数据更新时间的数据信息统计文件,即基于“分表机制”创建对应不同数据更新时间的数据信息统计文件。数据信息统计文件的文件名称可以以feature_${更新时间年月}的规则命名。这样,基于数据更新时间建立包括多个数据特征维度的数据信息统计文件,在对账时无需查找全部特征数据,而是可以基于对账时间查找对应的数据信息统计文件进行对账,从而可以提高对账效率,解决由于时间累赠而导致的对账变慢的问题。
示例性的,可以基于元数据中表征的目标特征,生成对应的数据特征维度,可以针对每个目标特征建立对应的数据特征维度,或者从多个目标特征中按照目标需求选取其中几个目标特征作为数据特征维度,这样,通过细致划分的目标维度对同步数据进行对账,可以提高对账的细粒度,从而提高对账过程的准确性。
示例性的,若元数据对应的发送时间,即数据更新时间为2020年10月01日,那么便可以将基于该发送时间建立一数据信息统计文件,所述数据信息统计文件可以包括关注级别、数据变更情况、人物特性等几个目标维度。对应的,若元数据对应的发送时间为2020年10月02日,也可以建立对应该发送时间的数据信息统计文件。
S103:将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中。
该步骤中,在针对每个所述元数据指示的数据更新时间以及针对所述第一数据的多个数据特征维度,建立对应的数据信息统计文件之后,还需要将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中。
具体的,所述将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中,包括:
分离所述元数据中针对各数据特征维度的数据信息;
将分离出的各数据信息添加至所述数据信息统计文件中对应的数据特征维度下。
在向数据信息统计文件中添加信息时,可以基于任一数据特征维度,从数据库中提取元数据中包括的、与该任一数据特征维度对应的数据信息。例如,该任一数据特征维度为关注级别时,可以提取出每个元数据中有关于关注级别的数据信息。
在分离每个元数据中针对不同特征维度的数据信息之后,可以按照元数据指示的数据更新时间,将对应的对数据信息添加至所述数据信息统计文件中的对应的数据特征维度下。
示例性的,根据元数据中对应的数据更新时间,将元数据中对应的数据信息以操作日志的形式增量添加到与数据更新时间对应的数据信息统计文件中,以便进行后续的对账查询及分析统计。
此外,还可以设立一监控机制,用于表征不同特征同步数量的监控指标,例如每接收一次数据,并将数据及元数据存储完毕后,更新各数据特征维度中预设的至少一种数据特征维度下数据的同步信息,以此作为监控指标,可以达到实时监控特征同步的效果。还可以建立对应不同特征的监控图表,以达到图表实时监控各特征下同步数据的效果。该步骤中,通过记录数据同步过程中的各种特征的特征数量,解决数据同步期间实时监控的问题。
S104:基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
该步骤中,可以通过数据信息统计文件,对接收的第一数据中对应目标维度下的数据进行同步对账。
其中,对账,就是核对账目,是指在会计核算中,为保证账簿记录正确可靠,对账簿中的有关数据进行检查和核对的工作。在本公开实施例中,通过对账检验数据同步过程中是否发生数据遗漏等情况。
具体的,所述基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账,包括:
响应所述多个数据特征维度中任一数据特征维度的对账请求,将请求对账的数据特征维度确定为目标维度;
从所述第一数据库中获取发送的所述第一数据中在所述目标维度下数据的第一数据量,以及所述数据信息统计文件中所述目标维度下记载的第二数据量;
基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功。
具体的,若所述第一数据量与所述第二数据量相等,则确定在所述目标维度下的数据同步成功,若所述第一数据量与所述第二数据量不相等,则确定所述目标数据库中所述目标维度下的数据同步失败,并且如果在所述目标维度下的数据同步失败的话,可以将所述目标维度上传至异常处理中心。其中,所述异常处理中心用于针对异常的数据特征维度进行处理。
本公开实施例中,通过比较同步前后在目标维度下的数据数量,从而确定在目标维度下的数据是否同步成功,可以快速地确定数据同步过程中是否针对目标维度同步完成,并且,通过细致划分的目标维度对同步数据进行对账,可以提高对账的细粒度,从而提高对账过程的准确性。
具体的,由于第一数据库在发送数据时明确对应不同目标维度的特征数据的数量,因此可以从第一数据库中获取目标维度下数据的发送量,并查询在数据信息统计文件中,对应不同目标维度的特征数据的数据量,将二者进行比照,便可以确定针对该目标维度的数据同步过程是否成功,即是否发生数据遗漏等问题。
示例性的,在对账时,可以提供一个对账接口服务,接口支持对一定数据更新时间范围内的特征同步数据做对账,或者基于一定的目标维度进行特征数据对账。服务根据指定的更新时间,计算出需要查询的数据库表列表,然后依据对账请求逐一查询分表,最后将这些分表的查询统计结果汇总后进行返回。基于同步数据基于接收的目标维度下特征数据的数量,结合第一数据库统计的针对不同目标维度下的特征数据的数量,即可核对出来针对目标维度的同步数据和发送数据的数量是否一致。若一致,则确定所述目标数据库中所述目标维度下的数据同步成功,若不一致,则确定所述目标数据库中所述目标维度下的数据同步失败。
此外,在本公开实施例中,可以选择尽量细粒度的目标维度,如xxx日新增的xxx类型的人数,由此可以提高对于数据对账的准确性,从而提高后续数据处理过程的准确性。
此外,当异常处理中心接收到上传的异常数据时,可以分析其对应的特征维度,例如:针对2020年10月01日新增的受关注人物数据时,可以通知第一数据库重新发送第一数据,或者和从新发送第一数据中该特征维度对应的特征数据,直至针对该目标维度的数据对账成功。由此,通过在确定出目标维度下数据同步不成功时,将对应的异常数据特征维度上传至异常处理中心,方便工作人员针对同步异常的数据进行处理。
本公开实施例中,通过基于第一数据对应的元数据生成对应的数据信息统计文件,并基于数据信息统计文件,对目标维度下的数据同步进行对账,并基于对账的结果分析数据同步过程是否完成,从而确保后续数据处理过程中所采用的数据为目标同步数据,提高对于同步数据处理的效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与同步数据的对账方法对应的同步数据的对账装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述同步数据的对账方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图2、图3、图4所示,图2为本公开实施例提供的一种同步数据的对账装置的示意图;图3为本公开实施例所提供的同步数据的对账装置中获取模块的示意图;图4为本公开实施例所提供的同步数据的对账装置中对账模块的示意图。如图2所示,所述对账装置包括:获取模块210、生成模块220、添加模块230、对账模块240;其中:
获取模块210,用于在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成模块220,用于生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
添加模块230,用于将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
对账模块240,用于基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
一种可能的实施方式中,如图3所示,所述获取模块210包括:
接收单元211,用于接收第一数据库发送的第一数据;
提取单元212,用于基于预设目标特征对应的特征字段,从所述第一数据中提取与所述特征字段对应的目标数据;
第一确定单元213,用于确定提取出的目标数据为所述第一数据的元数据。
一种可能的实施方式中,所述第一确定单元213具体用于:
将所述第一数据以及所述目标数据关联存储在预设的关系型数据库中;
确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据。
一种可能的实施方式中,所述生成模块220具体用于:
确定所述元数据记载的所述第一数据的发送时间为所述元数据指示的数据更新时间;
基于预设目标特征对应的特征字段,确定针对所述第一数据的多个数据特征维度;
针对所述数据更新时间以及多个数据特征维度,建立与所述数据更新时间对应的、包括多个数据特征维度的数据信息统计文件。
一种可能的实施方式中,所述添加模块230具体用于:
分离所述元数据中针对各数据特征维度的数据信息;
将分离出的各数据信息添加至所述数据信息统计文件中对应的数据特征维度下。
一种可能的实施方式中,如图4所示,所述对账模块240包括:
第二确定单元241,用于响应所述多个数据特征维度中任一数据特征维度的对账请求,将请求对账的数据特征维度确定为目标维度;
获取单元242,用于从所述第一数据库中获取发送的所述第一数据中在所述目标维度下数据的第一数据量,以及所述数据信息统计文件中所述目标维度下记载的第二数据量;
第三确定单元243,用于基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功。
一种可能的实施方式中,所述第三确定单元243具体用于:
若所述第一数据量与所述第二数据量相等,则确定在所述目标维度下的数据同步成功;
若所述第一数据量与所述第二数据量不相等,则确定在所述目标维度下的数据同步失败;
若在所述目标维度下的数据同步失败,将所述目标维度上传至异常处理中心;其中,所述异常处理中心用于针对异常的数据特征维度进行处理。
本公开实施例通过基于第一数据对应的元数据生成对应的数据信息统计文件,并基于数据信息统计文件,对目标维度下的数据同步进行对账,并基于对账的结果分析数据同步过程是否完成,从而确保后续数据处理过程中所采用的数据为目标同步数据,提高对于同步数据处理的效率。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的同步数据的对账方法,本公开实施例还提供了一种计算机设备,如图5所示,为本公开实施例提供的计算机设备结构示意图,包括:
处理器501、存储器502、和总线503;存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当所述计算机设备运行时,所述处理器501与所述存储器502之间通过总线503通信,使得所述处理器501执行以下指令:
在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的同步数据的对账方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的同步数据的对账方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种同步数据的对账方法,其特征在于,所述对账方法包括:
在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
2.根据权利要求1所述的同步数据的对账方法,其特征在于,所述在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据,包括:
接收第一数据库发送的第一数据;
基于预设目标特征对应的特征字段,从所述第一数据中提取与所述特征字段对应的目标数据;
确定提取出的目标数据为所述第一数据的元数据。
3.根据权利要求2所述的同步数据的对账方法,其特征在于,所述确定提取出的目标数据为所述第一数据的元数据,包括:
将所述第一数据以及所述目标数据关联存储在预设的关系型数据库中;
确定所述关系型数据库中与所述第一数据对应的所述目标数据为所述第一数据的元数据。
4.根据权利要求2所述的同步数据的对账方法,其特征在于,所述生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件,包括:
确定所述元数据记载的所述第一数据的发送时间为所述元数据指示的数据更新时间;
基于预设目标特征对应的特征字段,确定针对所述第一数据的多个数据特征维度;
针对所述数据更新时间以及多个数据特征维度,建立与所述数据更新时间对应的、包括多个数据特征维度的数据信息统计文件。
5.根据权利要求1所述的同步数据的对账方法,其特征在于,所述将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中,包括:
分离所述元数据中针对各数据特征维度的数据信息;
将分离出的各数据信息添加至所述数据信息统计文件中对应的数据特征维度下。
6.根据权利要求1所述的同步数据的对账方法,其特征在于,所述基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账,包括:
响应所述多个数据特征维度中任一数据特征维度的对账请求,将请求对账的数据特征维度确定为目标维度;
从所述第一数据库中获取发送的所述第一数据中在所述目标维度下数据的第一数据量,以及所述数据信息统计文件中所述目标维度下记载的第二数据量;
基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功。
7.根据权利要求6所述的同步数据的对账方法,其特征在于,所述基于所述第一数据量以及所述第二数据量,确定在所述目标维度下的数据是否同步成功,包括:
若所述第一数据量与所述第二数据量相等,则确定在所述目标维度下的数据同步成功;
若所述第一数据量与所述第二数据量不相等,则确定在所述目标维度下的数据同步失败;
若在所述目标维度下的数据同步失败,将所述目标维度上传至异常处理中心;其中,所述异常处理中心用于针对异常的数据特征维度进行处理。
8.一种同步数据的对账装置,其特征在于,所述对账装置包括:
获取模块,用于在接收到第一数据库发送的第一数据时,获取所述第一数据的元数据;
生成模块,用于生成与所述元数据指示的数据更新时间相对应的、包括多个数据特征维度的数据信息统计文件;
添加模块,用于将所述元数据中在各数据特征维度下的数据信息添加至所述数据信息统计文件中;
对账模块,用于基于所述数据信息统计文件,对所述多个数据特征维度中目标维度下的数据进行对账。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的同步数据的对账方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的同步数据的对账方法的步骤。
CN202110332262.8A 2021-03-26 2021-03-26 同步数据的对账方法、装置、计算机设备及存储介质 Active CN113157804B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110332262.8A CN113157804B (zh) 2021-03-26 2021-03-26 同步数据的对账方法、装置、计算机设备及存储介质
PCT/CN2021/125860 WO2022199009A1 (zh) 2021-03-26 2021-10-22 同步数据的对账方法、装置、设备、介质及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110332262.8A CN113157804B (zh) 2021-03-26 2021-03-26 同步数据的对账方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113157804A true CN113157804A (zh) 2021-07-23
CN113157804B CN113157804B (zh) 2022-10-04

Family

ID=76885125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110332262.8A Active CN113157804B (zh) 2021-03-26 2021-03-26 同步数据的对账方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN113157804B (zh)
WO (1) WO2022199009A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022199009A1 (zh) * 2021-03-26 2022-09-29 北京市商汤科技开发有限公司 同步数据的对账方法、装置、设备、介质及程序
CN116756247A (zh) * 2023-08-21 2023-09-15 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质
CN117033450A (zh) * 2023-10-10 2023-11-10 北京轻松怡康信息技术有限公司 多维度数据的处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8427580B1 (en) * 2009-12-02 2013-04-23 Applied Micro Circuits Corporation System and method for data synchronization
CN107506462A (zh) * 2017-08-30 2017-12-22 中国建设银行股份有限公司 企业级数据的数据处理方法、系统、电子设备、存储介质
CN111008209A (zh) * 2019-12-12 2020-04-14 京东数字科技控股有限公司 数据的对账方法、装置及系统、存储介质、电子装置
CN111708841A (zh) * 2020-06-08 2020-09-25 中国工商银行股份有限公司 数据库数据同步方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001287013A1 (en) * 2000-09-01 2002-03-13 Kinexus Corporation Method and system for financial data aggregation, analysis and reporting
CN109284301A (zh) * 2018-08-31 2019-01-29 阿里巴巴集团控股有限公司 数据核对方法及装置
CN110502502B (zh) * 2019-08-15 2023-06-23 中国平安财产保险股份有限公司 数据核对方法、装置、设备及计算机可读存储介质
CN113157804B (zh) * 2021-03-26 2022-10-04 北京市商汤科技开发有限公司 同步数据的对账方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8427580B1 (en) * 2009-12-02 2013-04-23 Applied Micro Circuits Corporation System and method for data synchronization
CN107506462A (zh) * 2017-08-30 2017-12-22 中国建设银行股份有限公司 企业级数据的数据处理方法、系统、电子设备、存储介质
CN111008209A (zh) * 2019-12-12 2020-04-14 京东数字科技控股有限公司 数据的对账方法、装置及系统、存储介质、电子装置
CN111708841A (zh) * 2020-06-08 2020-09-25 中国工商银行股份有限公司 数据库数据同步方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022199009A1 (zh) * 2021-03-26 2022-09-29 北京市商汤科技开发有限公司 同步数据的对账方法、装置、设备、介质及程序
CN116756247A (zh) * 2023-08-21 2023-09-15 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质
CN116756247B (zh) * 2023-08-21 2023-11-17 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质
CN117033450A (zh) * 2023-10-10 2023-11-10 北京轻松怡康信息技术有限公司 多维度数据的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022199009A1 (zh) 2022-09-29
CN113157804B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN113157804B (zh) 同步数据的对账方法、装置、计算机设备及存储介质
US10339038B1 (en) Method and system for generating production data pattern driven test data
CN110275920B (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
EP3352098B1 (en) Method of generating and transforming test data and a system therefor
US20130097134A1 (en) System and method for subject identification from free format data sources
AU2013200233A1 (en) Data quality analysis
CN109656999A (zh) 大数据量的数据同步方法、设备、存储介质及装置
US20240095256A1 (en) Method and system for persisting data
US11475031B2 (en) Identification and compiling of information relating to an entity
CN110502529B (zh) 数据处理方法、装置、服务器及存储介质
CN111125045B (zh) 一种轻量级etl处理平台
EP4216076A1 (en) Method and apparatus of processing an observation information, electronic device and storage medium
CN116701355A (zh) 数据视图处理方法、装置、计算机设备及可读存储介质
KR101508068B1 (ko) 데이터 중복성 제거 장치 및 그 방법
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
CN116628042A (zh) 数据处理方法、装置、设备及介质
CN113836187A (zh) 数据处理方法、装置、服务器及计算机可读存储介质
CN112732812A (zh) 一种基于大数据画像的个人信用分析方法
CN111967237B (zh) 汇款表单填写方法及装置
CN113297230B (zh) 数据验证方法及装置
CN115982158A (zh) 基于数据集市的监管数据处理方法、装置、设备及介质
CN114691678A (zh) 溯源数据存储方法以及系统
CN113935851A (zh) 合同结算方法、装置、设备及存储介质
CN116820326A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051718

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant