CN111563076A - 数据稽核方法、装置、网络设备及存储介质 - Google Patents
数据稽核方法、装置、网络设备及存储介质 Download PDFInfo
- Publication number
- CN111563076A CN111563076A CN202010386327.2A CN202010386327A CN111563076A CN 111563076 A CN111563076 A CN 111563076A CN 202010386327 A CN202010386327 A CN 202010386327A CN 111563076 A CN111563076 A CN 111563076A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- tables
- data tables
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施方式涉及通信技术领域,公开了一种数据稽核方法,包括:获取N个数据表;根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表;根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图;根据数据流转图对N个数据表进行数据稽核。本发明实施方式还提供了一种数据稽核装置、网络设备及存储介质。本发明实施方式提供的数据稽核方法、装置、网络设备及存储介质,可以提高数据一致性稽核的效率。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种数据稽核方法、装置、网络设备及存储介质。
背景技术
数据在流转的过程中,可能因为网络故障、人工操作失误等因素导致原来应当一致的数据出现不一致的情况,而数据的不一致可能导致严重的业务问题,因此,有必要对流转的数据的一致性进行稽核。
对流转的数据进行一致性稽核时,现有方法主要是通过人工获取数据之间的关联关系,然后进行数据之间的流转校验工作。
然而,发明人发现现有技术至少存在以下问题:一致性稽核的人员在稽核前需要对业务流转方向、数据流转情况、数据字典等多种情况进行了解后,才能进行一致性稽核,效率较低。
发明内容
本发明实施方式的目的在于提供一种数据稽核方法、装置、网络设备及存储介质,可以提高数据一致性稽核的效率。
为解决上述技术问题,本发明的实施方式提供了一种数据稽核方法,包括:获取N个数据表,N为大于等于2的正整数;根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表;根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图;根据数据流转图对N个数据表进行数据稽核。
本发明的实施方式还提供了一种数据稽核装置,包括:第一获取模块,用于获取N个数据表,N为大于等于2的正整数;第二获取模块,用于根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表;构建模块,用于根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图;稽核模块,用于根据数据流转图对N个数据表进行数据稽核。
本发明的实施方式还提供了一种网络设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的数据稽核方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的数据稽核方法。
本发明实施方式相对于现有技术而言,根据每两个数据表的关联关系获取关联数据表,然后根据关联数据表中各数据表的时间先后关系构建数据流转图,再根据数据流转图进行数据稽核,由于数据流转图是根据时间先后关系构建的,包括了数据流转方向、数据流转情况和数据结构等多种信息,因此根据数据流转图进行数据一致性稽核,可以提高数据一致性稽核的效率。
另外,在根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表之前,还包括:采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,其中,关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。通过关联关系模型判断每两个数据表的关联关系,可以自动获取N个数据表中存在关联关系的数据表,提高待稽核数据准备的效率,减少由人工操作引起的失误。
另外,采用关联关系模型执行以下步骤判断N个数据表中每两个数据表之间的关联关系:对每一数据表进行数据抽样,得到每一数据表的抽样数据;将每两个数据表中一个数据表的每个字段与另一个数据表的每个字段进行组合,根据抽样数据计算在各个字段组合下的数据留存率和数据倍率,其中,数据留存率为在字段组合下的一个字段的数据在另一个字段中的留存率,数据倍率为在字段组合下的一个字段的总记录个数与所在数据表中非重复记录个数的比值;若存在字段组合的数据留存率大于第一预设值且数据倍率小于或等于第二预设值,则判定当前的两个数据表存在关联关系。通过对数据表进行数据抽样,根据抽样数据判断每两个数据表之间的关联关系,可以减少运算量;由于数据留存率可以代表两个数据表之间的字段的相关度,而数据倍率则可以反映字段是否可以代表数据表的核心数据,因此通过数据留存率和数据倍率二个维度,可以有效地评估两个数据表之间的关联关系。
另外,在根据抽样数据计算在各个字段组合下的数据留存率和数据倍率之后,还包括:S1:若存在字段组合的数据留存率大于第一预设值且数据倍率大于第二预设值,则选取各个字段组合下的数据留存率和/或数据倍率最接近于1的字段组合作为基础字段组合,并将基础字段组合的数据留存率和数据倍率作为基准数据;S2:增加任意一组除基础字段组合外的字段组合,将增加的字段组合中的每个字段与所在数据表中的基础字段进行拼接,计算拼接后的数据留存率和数据倍率;S3:若拼接后的数据留存率相比基准数据的变化在预设范围内、且数据倍率比基准数据更接近于1,则根据拼接后的字段更新基础字段组合,根据拼接后的数据留存率和数据倍率更新基准数据,并根据更新后的基准数据判断当前两个数据表的关联关系,若根据更新后的基准数据未能确定当前两个数据表的关联关系,则返回执行S2;S4:若拼接后的数据留存率相比基准数据的变化超出预设范围、或拼接后的数据倍率比基准数据更远离于1,则保留拼接前的基础字段并返回执行S2。在数据留存率大于第一预设值且数据倍率大于第二预设值的情况下,通过增加字段组合并计算增加字段组合后的数据留存率和数据倍率,可以进一步判断两个数据表是否存在关联关系,从而进一步挖掘可能存在关联关系的数据表。
另外,在采用关联关系模型判断N个数据表中每两个数据表之间的关联关系之前,还包括:去除N个数据表中的M个预设字段,M为正整数;计算剩余字段的每一字段中非重复记录个数占字段总记录个数的比例,其中,剩余字段为每一数据表在去除预设字段后剩余的字段;去除比例小于预设比例对应的字段。通过去除预设字段和非重复记录个数占总记录个数比例小于预设比例的数据预处理,可以使预处理后的字段较能代表数据表的数据量级,显著减少判断关联关系时的运算量,提高运算的效率。
另外,根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图,包括:根据数据表的记录时间平均值获取关联数据表中每两个数据表的时间先后关系;根据时间先后关系对关联数据表中各个数据表进行排序,当关联数据表中存在两个第一数据表的记录时间平均值与另一个第二数据表的差值相等时,根据第一数据表与第二数据表的记录时间标准差确定第一数据表和第二数据表的排序;根据排序的结果形成关联数据表的数据流转图。通过比较每两个数据表的时间先后关系,并根据记录时间标准差确定最短的时间路径,从而可以快速确定关联数据表中各个数据表的先后关系。
另外,根据数据流转图对N个数据表进行数据稽核,包括:判断数据流转图中各个数据表的字段值是否属于预设值;将不属于预设值的字段值作为疑似异常字段值;对疑似异常字段值进行数据稽核。通过判断数据表中的字段值是否为疑似异常字段值,针对疑似异常字段值进行一致性稽核,可以进一步提高数据一致性稽核的效率。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是本发明第一实施方式提供的数据稽核方法的流程示意图;
图2是本发明第一实施方式提供的数据稽核方法中S103细化步骤的流程示意图;
图3是本发明第二实施方式提供的数据稽核方法的流程示意图;
图4是本发明第二实施方式提供的数据稽核方法中S202细化步骤的流程示意图;
图5是本发明第二实施方式提供的数据稽核方法中S2022后步骤的流程示意图;
图6是本发明第三实施方式提供的数据稽核方法的流程示意图;
图7是本发明第四实施方式提供的数据稽核装置的模块结构示意图;
图8是本发明第五实施方式提供的网络设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种数据稽核方法,通过获取N个数据表,根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表;根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图,根据数据流转图对N个数据表进行数据稽核。由于数据流转图是根据时间先后关系构建的,包括了数据流转方向、数据流转和数据结构情况等多种信息,因此可以根据数据流转图直接进行数据一致性稽核,提高了数据一致性稽核的效率。
应当说明的是,本发明实施方式提供的数据稽核方法的执行主体为服务端,其中,服务端可以用独立的服务器或者多个服务器组成的服务器集群来实现,以下以服务端为例进行说明。
本发明实施方式提供的数据稽核方法的具体流程如图1所示,具体包括以下步骤:
S101:获取N个数据表,N为大于等于2的正整数。
其中,数据表为待进行数据稽核的数据表。可选地,本发明实施方式中的数据表是指可能发生数据流转的数据表。由于流转时至少存在两个数据表,因此N为大于等于2的正整数。
可以理解的是,服务端可以获取数据库中的所有数据表(即数据库的数据表数量为N个),也可以是获取数据库的部分数据表(即数据库的数据表数量大于N),具体数量可以根据实际需要进行设置,这里不做具体限制。
可选地,为了保证关联关系模型判断关联关系的准确性,数据表在建表时应根据数据库建表三范式进行建表。
S102:根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表。
其中,关联数据表是指所有具有关联关系的数据表。
可选地,服务端可根据数据表之间的调用关系、主辅表关系或两个数据表之间的字段相关度等来获取每两个数据表之间的关联关系,具体可以根据实际情况进行设置,这里不做具体限定。
在获取到每两个数据表之间的关联关系后,服务端就可根据每两个数据之间的关联关系获取N个数据表中的关联数据表。例如,若A数据表与B数据表有关联关系,B数据表与C数据表有关联关系,则可以确定A数据表、B数据表和C数据表为关联数据表。
S103:根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图。
在一个具体的例子中,如图2所示,S103具体可以包括以下步骤:
S1031:根据数据表的记录时间平均值获取关联数据表中每两个数据表的时间先后关系。
具体地,数据表每条记录均具有记录时间,可以取数据表中记录时间平均值来代表数据表的时间。可选地,数据表的记录时间平均值可以是抽样数据中数据的记录时间平均值。
S1032:根据时间先后关系对关联数据表中各个数据表进行排序,当关联数据表中存在两个第一数据表的记录时间平均值与另一个第二数据表的差值相等时,根据第一数据表与第二数据表的记录时间标准差确定第一数据表和第二数据表的排序。
可选地,服务端根据时间先后关系对关联数据表中各个数据表进行排序时,可以采用预设算法(例如快速排序算法)对各个数据表进行排序,其中,预设算法可以根据实际需要进行设置,这里不做具体限制。当存在两个数据表(第一数据表)的记录时间平均值与另一个数据表(第二数据表)的差值相等时,服务端分别计算两个第一数据表与第二数据表的记录时间标准差,将较小的记录时间标准差对应的第一数据表与第二数据表确定为相邻关系。其中,记录时间标准差是将第一数据表中的每条记录的时间与第二数据表的每条记录的时间作标准差。
例如,A数据表(第一数据表)、B数据表(第一数据表)和C数据表(第二数据表)为关联数据表,A数据表记录时间平均值与C数据表的差值等于B数据表记录时间平均值与C数据表的差值,则无法确定该三个数据表的先后顺序,若通过计算,A数据表与C数据表的记录时间标准差小于B数据表与C数据表的记录时间标准差,则可以确定A数据表与C数据表为相邻关系,从而可以进一步确定关联数据表中三个数据表的时间先后顺序。
S1033:根据排序的结果形成关联数据表的数据流转图。
在确定好关联数据表中各个数据表的时间先后关系之后,服务端即可以根据排序的结果形成关联数据表的数据流转图。可以理解的是,数据流转图是指将关联数据表中的各个数据表按照时间的先后顺序排列设置。
S104:根据数据流转图对N个数据表进行数据稽核。
其中,数据稽核可以包括一致性、完整性和及时性等稽核。可选地,数据稽核为数据一致性稽核。
应当说明的是,根据数据流转图对N个数据表进行数据一致性稽核时,可以是服务端采用预设的规则对数据进行一致性稽核,也可以由人工根据构建好的数据流转图对数据进行一致性稽核,还可以由服务端和人工共同完成,具体稽核的方式可以根据实际需要进行设置,本实施方式对此不做具体限制。
在一个具体的例子中,根据数据流转图对N个数据表进行数据稽核,具体可以为:判断数据流转图中各个数据表的字段值是否属于预设值;将不属于预设值的字段值作为疑似异常字段值,对疑似异常字段值进行数据稽核。
其中,预设值可以为单个值,也可以是多个,当预设值为连续的多个值时,其代表的是一个数值范围,具体的数值可以根据实际情况进行设置,此处不做具体限制。可选地,关联数据表中各个数据表的预设值可以相同也可以不同。
例如,若A数据表中的记录情况为:A(1)[type=1](30%)和A(2)[type=1|type=2](65%),代表业务的用户在流经A数据表时可能会存在两类情况,第一类在A数据表产生一条type字段为1的记录,这类用户占全部用户的30%,第二类用户在A数据表产生两条type为1和2的记录,这类用户占全部用户的65%,即预设值为类型1或类型2,那么可以将剩余5%作为疑似异常字段值。type字段可以理解为A表中其中一个分类字段,例如产品表的产品ID或工单表的工单类型等。
可选地,服务端根据数据流转图对N个数据表进行数据一致性稽核时,可以只对关联数据表中的关联字段进行稽核,也可以对其它字段进行稽核,具体稽核的字段可以根据实际需要进行设置,这里不做具体限制。当只对关联字段或部分字段进行稽核时,由于数据表中需有一个字段作为主键,而主键的字段值要求是唯一的,因此可以将字段与其它值拼接起来以保证主键的唯一性,例如可以转换为用户ID加字段值的结构形式,将字段与用户ID进行拼接。
在一个具体的例子中,在根据数据流转图对N个数据表进行数据稽核前,可将数据流转图配置为人机界面。由于通过人机展示数据流转图,可以使数据流转方向、数据流转情况等信息直观易懂,因此可以方便工作人员进行数据一致性稽核,提高稽核的效率。
与现有技术相比,本发明实施方式提供的数据稽核方法,根据每两个数据表的关联关系获取关联数据表,然后根据关联数据表中各数据表的时间先后关系构建数据流转图,再根据数据流转图进行数据稽核,由于数据流转图是根据时间先后关系构建的,包括了数据流转方向、数据流转情况和数据结构等多种信息,因此根据数据流转图进行数据一致性稽核,可以提高数据一致性稽核的效率。
本发明的第二实施方式涉及一种数据稽核方法。第二实施方式与第一实施方式大致相同,主要区别之处在于:在根据N个数据表中每两个数据之间的关联关系获取N个数据表中的关联数据表之前,还包括:采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,其中,关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。
本发明实施方式提供的数据稽核方法的具体流程如图3所示,具体包括以下步骤:
S201:获取N个数据表,N为大于等于2的正整数。
S202:采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,其中,关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。
S203:根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表。
S204:根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图。
S205:根据数据流转图对N个数据表进行数据稽核。
其中,S201、S203-S205与第一实施方式中的S101-S104相同,具体可以参见第一实施方式中的描述,为了避免重复,这里不再赘述。
对于S202,具体说明如下:
可选地,字段相关度可以用两个数据表之间字段名是否相同或相似、字段值相同的个数和/或非重复记录相同的个数等因素来衡量,具体可以根据实际需要进行设置,这里不做具体限制。
在一个具体的例子中,服务端采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,具体可以是:
采用关联关系模型执行如图4所示的步骤来判断N个数据表中每两个数据表之间的关联关系:
S2021:对每一数据表进行数据抽样,得到每一数据表的抽样数据。
由于一般的数据表包括的数据记录的数量巨大,若在计算数据留存率和数据倍率时,将数据表中所有数据都参与到计算中,则会导致占用服务端的计算资源较多,因此,对每个数据表进行数据抽样,根据抽样数据判断每两个数据表的关联关系,可以减少服务端的计算资源的占用。可以理解的是,为了使计算的结果具有代表性,数据抽样应覆盖一定的范围。可选地,每个数据表进行数据抽样时,抽取的比例或总行数可以相同也可以不同。可选地,若数据表包括的记录较少,数据抽样时可以抽取全部的数据。
S2022:将每两个数据表中一个数据表的每个字段与另一个数据表的每个字段进行组合,根据抽样数据计算在各个字段组合下的数据留存率和数据倍率,其中,数据留存率为在字段组合下的一个字段的数据在另一个字段中的留存率,数据倍率为在字段组合下的一个字段的总记录个数与所在数据表非重复记录个数的比值。
其中,数据留存率的计算例如是:两个数据表分别为A和B,A数据表包括字段a,B数据表包括字段b,在抽样数据中字段a中包括100个号码,字段b中包括字段a中的100个号码的80个号码,则在字段a和字段b的字段组合下数据留存率=80/100=80%。可以理解的是,例子中计算的是a字段中的数据在b字段中的数据留存率,而b字段中的80个号码在a字段均有相应的记录,因此计算b字段在a字段中的数据留存率则为80/80=100%。可选地,可以选取较小的数值(如例子中的80%)作为字段组合下的数据留存率。
而数据倍率的计算例如是:数据表A中有100个号码,该100个号码在A数据表的抽样数据中的记录也为100条,则数据倍率=100/100=1;数据表B中有80个号码,该80个号码在B数据表的抽样数据中的记录有240条,则数据倍率=240/80=3。可选地,可以选取较大的数值(如例子中的3)作为字段组合下的数据倍率。
S2023:若存在字段组合的数据留存率大于第一预设值且数据倍率小于或等于第二预设值,则判定当前的两个数据表存在关联关系。
其中,第一预设值和第二预设值可以根据实际情况进行设置,这里不做具体限制。
可以理解的是,当数据留存率越大时,两个数据表存在关联关系的可能性越大,反之越低。当数据倍率越大时,字段重复记录的个数较多,说明该字段可能为所在数据表的辅助字段而非主要(核心)字段,即使此时的数据留存率较高,仍难以说明两个数据表之间存在关联关系,因此,可以将数据倍率与数据留存率作为二个相关的数据维度,来评估两个数据表之间的关联关系。
具体地,服务端将计算的数据留存率与第一预设值进行比较,将计算的数据倍率与第二预设值进行比较,若数据留存率大于第一预设值且数据倍率小于或等于第二预设值,则判定两个数据表存在关联关系,并将当前字段组合的字段作为关联字段。可选地,若数据留存率小于或等于第一预设值或数据倍率大于第二预设值,表明两个数据表存在关联关系的可能性较低,则判定两个数据表不存在关联关系。
由于存在数据流转的数据表之间的具体字段及字段值均可能发生变化,因此通过抽取单个字段组合来计算数据留存率和数据倍率的方式,可能导致关联关系的判断不够准确。为了使两个数据表的关联关系的判断更加准确,进一步挖掘可能存在关联关系的数据表,可选地,在S2022之后,如图5所示,还可以包括以下步骤:
S2024:若存在字段组合的数据留存率大于第一预设值且数据倍率大于第二预设值,则选取各个字段组合下的数据留存率和/或数据倍率最接近于1的字段组合作为基础字段组合,并将基础字段组合的数据留存率和数据倍率作为基准数据。
具体地,若存在字段组合的数据留存率大于第一预设值且数据倍率大于第二预设值,说明数据留存率满足要求而数据倍率不满足要求,则可对字段组合作进一步处理,以作进一步的判断。可选地,服务端在选取各个字段组合下的数据留存率和/或数据倍率最接近于1的字段组合作为基础字段组合时,若在各个字段组合下存在数据留存率和数据倍率均最接近于1的字段组合,则选取该字段组合作为基础字段组合;若不存在数据留存率和数据倍率均最接近于1的字段组合,则选取数据留存率或数据倍率最接近于1的字段组合作为基础字段组合。可选地,选取数据留存率最接近于1的字段组合作为基础字段组合。可以理解的是,基础字段组合中的字段为基础字段。
可选地,服务端也可以选取任意一个字段组合作为基础字段组合,并轮番选取其它的字段组合作为基础字段组合进行计算和判断,不影响最终的计算和判断的结果。
S2025:增加任意一组除基础字段组合外的字段组合,将增加的字段组合中的每个字段与所在数据表中的基础字段进行拼接,计算拼接后的数据留存率和数据倍率。
例如,若基础字段组合包括A数据表的a字段和B数据表的b字段,新增的字段组合包括A数据表的c字段和B数据表的d字段,则拼接为:将A数据表中的a字段与c字段进行拼接为ac字段,将B数据表中的b字段与d字段进行拼接为bd字段,然后计算拼接后ac字段与bd字段的组合下的数据留存率和数据倍率。
S2026:判断拼接后的数据留存率相比基准数据的变化是否在预设范围内且数据倍率比基准数据更接近于1,若是,则进入S2027,若否,则进入S2027’。
其中,预设范围可以根据实际情况进行设置,这里不做具体限制。
具体地,服务端将拼接后的数据留存率与基准数据的数据留存率作比较,判断两者之间的差异(即变化)是否在预设范围内,同时将数据倍率与基准数据的数据倍率作比较,判断两者与1的距离的差异;若拼接后的数据留存率相比基准数据的变化在预设范围且数据倍率比基准数据更接近于1,则说明增加的字段是合适的,可以保留,进入S2027;若拼接后的数据留存率相比基准数据的变化超出预设范围或数据倍率比基准数据更远离于1,则说明增加的字段是不合适的,需要去除,进入S2027’。
S2027:根据拼接后的字段更新基础字段组合,根据拼接后的数据留存率和数据倍率更新基准数据,进入S2028。
具体地,服务端根据拼接后的字段更新基础字段组合,将更新后的基础字段组合作为新的基础字段组合;根据拼接后的数据留存率和数据倍率更新基准数据,将更新后的基准数据作为新的基准数据。
S2027’:保留拼接前的基础字段,返回执行S2025。
具体地,若增加的字段组合不合适,服务端将增加的字段从拼接的字段中去除,返回拼接前的基础字段,并返回执行S2025,继续判断另外的字段组合是否合适。可选地,若增加的字段组合不合适,则服务端将其从除基础字段外的字段组合的集合中去除,即后续不会再增加该字段组合。
S2028:判断根据更新后的基准数据对应的数据留存率是否大于第一预设值且数据倍率小于第二预设值,若是,则进入S2029,若否,则返回执行S2025。
具体地,服务端判断更新后的基准数据对应的数据留存率是否大于第一预设值且数据倍率小于第二预设值,若数据留存率大于第一预设值且数据倍率小于第二预设值,则进入S2029;若数据留存率小于第一预设值或数据倍率大于等于第二预设值,则返回执行S2025,继续增加新的字段组合作进一步的判断。
S2029:判定两个数据表存在关联关系,并将此时的基础字段组合作为关联字段。
可选地,服务端在判定两个数据表存在关联关系后,仍可以返回执行S2025,若结果仍能判定两个数据表存在关联关系,则将更新后的基础字段组合作为关联字段。
在数据留存率大于第一预设值且数据倍率大于第二预设值的情况下,通过增加字段组合并计算增加字段组合后的数据留存率和数据倍率,可以进一步判断两个数据表是否存在关联关系,从而进一步挖掘可能存在关联关系的数据表。
在S203中,由于关联关系模型判断出每两个数据表之间的关联关系,因此可以根据每两个数据表之间的关联关系获取到N个数据表中的所有关联数据表。
与现有技术相比,本发明实施方式提供的数据稽核方法,通过关联关系模型判断每两个数据表的关联关系,可以自动获取N个数据表中存在关联关系的数据表,提高待稽核数据准备的效率,减少由人工操作引起的失误。
本发明的第三实施方式涉及一种数据稽核方法。第三实施方式与第一实施方式大致相同,主要区别之处在于:在采用关联关系模型判断N个数据表中每两个数据表之间的关联关系之前,还包括:去除N个数据表的M个预设字段,计算剩余字段的每一字段中非重复记录个数占该字段总记录个数的比例,去除比例小于预设比例对应的字段。
本发明实施方式提供的数据稽核方法的具体流程如图6所示,具体包括以下步骤:
S301:获取N个数据表,N为大于等于2的正整数。
S302:去除N个数据表中的M个预设字段,M为正整数。
S303:计算剩余字段的每一字段中非重复记录个数占字段总记录个数的比例,其中,剩余字段为每一数据表在去除预设字段后剩余的字段。
S304:去除比例小于预设比例对应的字段。
S305:采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,其中,关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。
S306:根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表。
S307:根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图。
S308:根据数据流转图对N个数据表进行数据稽核。
其中,S301与第一实施方式中的S101相同,S305与第二实施方式中的S202相同,S306-S308与第一实施方式中的S102-S104相同,具体可以参见第一实施方式和第二实施方式中的描述,为了减少重复,这里不再赘述。
对于S302-S304,具体地,预设字段可以为不可能存在关联关系的字段,例如时间类型的字段,或者标签特征的字段(如性别标签字段、职业标签字段等划分大类的字段),具体可以根据实际需要进行设置,这里不做具体限定。在去除预设字段后,服务端再计算剩余字段中非重复记录个数占字段总记录个数的比例,并去除比例小于预设比例对应的字段。其中,预设比例可以根据实际需要进行设置。可以理解的是,若字段中重复记录个数较多,则该字段可能为该数据表的辅助字段而非主要字段,不能代表该数据表的数据量级。在去除预设字段和非重复记录个数占字段总记录个数的比例小于预设比例的字段的预处理后,可以使预处理后的字段较能代表该数据表的数据量级。而由于预处理后字段的个数会减少较多,因此服务端根据预处理后的字段进行关联关系的判断时,可以显著减少判断的运算量。
与现有技术相比,本发明实施方式提供的数据稽核方法,通过去除预设字段和非重复记录个数占总记录个数比例小于预设比例的数据预处理,可以使预处理后的字段代表数据表的数据量级,显著减少关联关系模型根据字段相关度判断关联关系时的运算量,提高运算的效率。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第四实施方式涉及一种数据稽核装置400,如图7所示,包含:第一获取模块401、第二获取模块402、构建模块403和稽核模块404。各功能模块详细说明如下:
第一获取模块401,用于获取N个数据表,N为大于等于2的正整数;
第二获取模块402,用于根据N个数据表中每两个数据表之间的关联关系获取N个数据表中的关联数据表;
构建模块403,用于根据关联数据表中各个数据表的时间先后顺序构建关联数据表的数据流转图;
稽核模块404,用于根据数据流转图对N个数据表进行数据稽核。
进一步地,本发明实施方式提供的数据稽核装置400还包括判断模块,其中,判断模块用于:
采用关联关系模型判断N个数据表中每两个数据表之间的关联关系,其中,关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。
进一步地,判断模块还用于:
采用关联关系模型执行以下步骤判断N个数据表中每两个数据表之间的关联关系:
对每一数据表进行数据抽样,得到每一数据表的抽样数据;
将每两个数据表中一个数据表的每个字段与另一个数据表的每个字段进行组合,根据抽样数据计算在各个字段组合下的数据留存率和数据倍率,其中,数据留存率为在字段组合下的一个字段的数据在另一个字段中的留存率,数据倍率为在字段组合下的一个字段的总记录个数与所在数据表中非重复记录个数的比值;
若存在字段组合的数据留存率大于第一预设值且数据倍率小于或等于第二预设值,则判定当前的两个数据表存在关联关系。
进一步地,判断模块还用于执行以下步骤:
S1:若存在字段组合的数据留存率大于第一预设值且数据倍率大于第二预设值,则选取各个字段组合下的数据留存率和/或数据倍率最接近于1的字段组合作为基础字段组合,并将基础字段组合的数据留存率和数据倍率作为基准数据;
S2:增加任意一组除基础字段组合外的字段组合,将增加的字段组合中的每个字段与所在数据表中的基础字段进行拼接,计算拼接后的数据留存率和数据倍率;
S3:若拼接后的数据留存率相比基准数据的变化在预设范围内、且数据倍率比基准数据更接近于1,则根据拼接后的字段更新基础字段组合,根据拼接后的数据留存率和数据倍率更新基准数据,并根据更新后的基准数据判断当前两个数据表的关联关系,若根据更新后的基准数据未能确定当前两个数据表的关联关系,则返回执行S2;
S4:若拼接后的数据留存率相比基准数据的变化超出预设范围、或拼接后的数据倍率比基准数据更远离于1,则保留拼接前的基础字段并返回执行S2。
进一步地,本发明实施方式提供的数据稽核装置400还包括预处理模块,其中,预处理模块用于:
去除N个数据表中的M个预设字段,M为正整数;
计算剩余字段的每一字段中非重复记录个数占字段总记录个数的比例,其中,剩余字段为每一数据表在去除预设字段后剩余的字段;
去除比例小于预设比例对应的字段。
进一步地,构建模块403还用于:
根据数据表的记录时间平均值获取关联数据表中每两个数据表的时间先后关系;
根据时间先后关系对关联数据表中各个数据表进行排序,当关联数据表中存在两个第一数据表的记录时间平均值与另一个第二数据表的差值相等时,根据第一数据表与第二数据表的记录时间标准差确定第一数据表和第二数据表的排序;
根据排序的结果形成关联数据表的数据流转图。
进一步地,稽核模块404还用于:
判断数据流转图中各个数据表的字段值是否属于预设值;
将不属于预设值的字段值作为疑似异常字段值;
对疑似异常字段值进行数据稽核。
进一步地,本发明实施方式提供的数据稽核装置400还包括配置模块,其中,配置模块用于:将数据流转图配置为人机界面。
不难发现,本实施方式为与第一实施方式、第二实施方式及第三实施方式相对应的装置实施例,本实施方式可与第一实施方式、第二实施方式及第三实施方式互相配合实施。第一实施方式、第二实施方式及第三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式、第二实施方式及第三实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第五实施方式涉及一种网络设备,如图8所示,包括至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述的数据稽核方法。
其中,存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器501。
处理器501负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。
本发明第六实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种数据稽核方法,其特征在于,包括:
获取N个数据表,所述N为大于等于2的正整数;
根据所述N个数据表中每两个数据表之间的关联关系获取所述N个数据表中的关联数据表;
根据所述关联数据表中各个数据表的时间先后顺序构建所述关联数据表的数据流转图;
根据所述数据流转图对所述N个数据表进行数据稽核。
2.根据权利要求1所述的数据稽核方法,其特征在于,在所述根据所述N个数据表中每两个数据表之间的关联关系获取所述N个数据表中的关联数据表之前,还包括:
采用关联关系模型判断所述N个数据表中每两个数据表之间的关联关系,其中,所述关联关系模型根据每两个数据表中的字段相关度来判断每两个数据表之间的关联关系。
3.根据权利要求2所述的数据稽核方法,其特征在于,所述采用关联关系模型判断所述N个数据表中每两个数据表之间的关联关系,包括:
采用关联关系模型执行以下步骤判断所述N个数据表中每两个数据表之间的关联关系:
对每一数据表进行数据抽样,得到每一数据表的抽样数据;
将每两个数据表中一个数据表的每个字段与另一个数据表的每个字段进行组合,根据所述抽样数据计算在各个字段组合下的数据留存率和数据倍率,其中,所述数据留存率为在所述字段组合下的一个字段的数据在另一个字段中的留存率,所述数据倍率为在所述字段组合下的一个字段的总记录个数与所在数据表中非重复记录个数的比值;
若存在字段组合的数据留存率大于第一预设值且数据倍率小于或等于第二预设值,则判定当前的两个数据表存在关联关系。
4.根据权利要求3所述的数据稽核方法,其特征在于,在所述根据所述抽样数据计算在各个字段组合下的数据留存率和数据倍率之后,还包括:
S1:若存在字段组合的所述数据留存率大于所述第一预设值且所述数据倍率大于所述第二预设值,则选取各个字段组合下的数据留存率和/或数据倍率最接近于1的字段组合作为基础字段组合,并将所述基础字段组合的数据留存率和数据倍率作为基准数据;
S2:增加任意一组除所述基础字段组合外的字段组合,将增加的字段组合中的每个字段与所在数据表中的基础字段进行拼接,计算拼接后的数据留存率和数据倍率;
S3:若拼接后的数据留存率相比所述基准数据的变化在预设范围内、且数据倍率比所述基准数据更接近于1,则根据拼接后的字段更新基础字段组合,根据拼接后的数据留存率和数据倍率更新所述基准数据,并根据更新后的基准数据判断当前两个数据表的关联关系,若根据更新后的基准数据未能确定当前两个数据表的关联关系,则返回执行所述S2;
S4:若拼接后的数据留存率相比所述基准数据的变化超出所述预设范围、或拼接后的数据倍率比所述基准数据更远离于1,则保留拼接前的基础字段并返回执行所述S2。
5.根据权利要求2所述的数据稽核方法,其特征在于,在所述采用关联关系模型判断所述N个数据表中每两个数据表之间的关联关系之前,还包括:
去除所述N个数据表中的M个预设字段,所述M为正整数;
计算剩余字段的每一字段中非重复记录个数占所述字段总记录个数的比例,其中,所述剩余字段为每一所述数据表在去除所述预设字段后剩余的字段;
去除所述比例小于预设比例对应的字段。
6.根据权利要求1所述的数据稽核方法,其特征在于,所述根据所述关联数据表中各个数据表的时间先后顺序构建所述关联数据表的数据流转图,包括:
根据数据表的记录时间平均值获取所述关联数据表中每两个数据表的时间先后关系;
根据所述时间先后关系对所述关联数据表中各个数据表进行排序,当所述关联数据表中存在两个第一数据表的记录时间平均值与另一个第二数据表的差值相等时,根据所述第一数据表与所述第二数据表的记录时间标准差确定所述第一数据表和所述第二数据表的排序;
根据排序的结果形成所述关联数据表的数据流转图。
7.根据权利要求1所述的数据稽核方法,其特征在于,所述根据所述数据流转图对所述N个数据表进行数据稽核,包括:
判断所述数据流转图中各个数据表的字段值是否属于预设值;
将不属于所述预设值的字段值作为疑似异常字段值;
对所述疑似异常字段值进行数据稽核。
8.一种数据稽核装置,其特征在于,包括:
第一获取模块,用于获取N个数据表,所述N为大于等于2的正整数;
第二获取模块,用于根据所述N个数据表中每两个数据表之间的关联关系获取所述N个数据表中的关联数据表;
构建模块,用于根据所述关联数据表中各个数据表的时间先后顺序构建所述关联数据表的数据流转图;
稽核模块,用于根据所述数据流转图对所述N个数据表进行数据稽核。
9.一种网络设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的数据稽核方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据稽核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010386327.2A CN111563076B (zh) | 2020-05-09 | 2020-05-09 | 数据稽核方法、装置、网络设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010386327.2A CN111563076B (zh) | 2020-05-09 | 2020-05-09 | 数据稽核方法、装置、网络设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563076A true CN111563076A (zh) | 2020-08-21 |
CN111563076B CN111563076B (zh) | 2023-06-30 |
Family
ID=72074628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010386327.2A Active CN111563076B (zh) | 2020-05-09 | 2020-05-09 | 数据稽核方法、装置、网络设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563076B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100042745A1 (en) * | 2007-05-25 | 2010-02-18 | Fujitsu Limited | Workflow diagram generation program, apparatus and method |
US20120095974A1 (en) * | 2010-10-18 | 2012-04-19 | Verisign, Inc. | Database synchronization and validation |
WO2012130489A1 (en) * | 2011-04-01 | 2012-10-04 | Siemens Aktiengesellschaft | Method, system, and computer program product for maintaining data consistency between two databases |
CN109241068A (zh) * | 2018-08-22 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 前后台数据比对的方法、装置及终端设备 |
CN109325055A (zh) * | 2018-08-02 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 业务关联数据表的筛选及核对方法、装置、电子设备 |
CN109766345A (zh) * | 2019-01-10 | 2019-05-17 | 深圳前海微众银行股份有限公司 | 元数据处理方法及装置、设备、可读存储介质 |
CN110009473A (zh) * | 2018-12-27 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及存储介质 |
US20190236172A1 (en) * | 2018-01-29 | 2019-08-01 | Hewlett-Packard Development Company, L.P. | Databases to store device history data |
-
2020
- 2020-05-09 CN CN202010386327.2A patent/CN111563076B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100042745A1 (en) * | 2007-05-25 | 2010-02-18 | Fujitsu Limited | Workflow diagram generation program, apparatus and method |
US20120095974A1 (en) * | 2010-10-18 | 2012-04-19 | Verisign, Inc. | Database synchronization and validation |
WO2012130489A1 (en) * | 2011-04-01 | 2012-10-04 | Siemens Aktiengesellschaft | Method, system, and computer program product for maintaining data consistency between two databases |
US20190236172A1 (en) * | 2018-01-29 | 2019-08-01 | Hewlett-Packard Development Company, L.P. | Databases to store device history data |
CN109325055A (zh) * | 2018-08-02 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 业务关联数据表的筛选及核对方法、装置、电子设备 |
CN109241068A (zh) * | 2018-08-22 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 前后台数据比对的方法、装置及终端设备 |
CN110009473A (zh) * | 2018-12-27 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及存储介质 |
CN109766345A (zh) * | 2019-01-10 | 2019-05-17 | 深圳前海微众银行股份有限公司 | 元数据处理方法及装置、设备、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111563076B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766269A (zh) | 一种任务分配方法、装置、可读存储介质及终端设备 | |
CN109272219B (zh) | 绩效考核方法、装置、计算机设备及存储介质 | |
CN101635651A (zh) | 一种网络日志数据管理方法、系统及装置 | |
CN110874744B (zh) | 一种数据异常检测方法及装置 | |
CN110610431A (zh) | 基于大数据的智能理赔方法及智能理赔系统 | |
CN109241068A (zh) | 前后台数据比对的方法、装置及终端设备 | |
CN103250376A (zh) | 用于执行与通信网络的节点有关的预测分析的方法和系统 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN111476375B (zh) | 一种确定识别模型的方法、装置、电子设备及存储介质 | |
CN101778400A (zh) | 基于数据库的话务量分析与预测系统及使用该系统的话务量预测方法 | |
CN116502877A (zh) | 项目进度监控方法、装置、电子设备和可读存储介质 | |
CN113254572B (zh) | 一种基于云平台的电子文档分类监管系统 | |
CN113806343A (zh) | 一种车联网数据质量的评估方法和系统 | |
CN116600329A (zh) | 一种消息错误识别码定界方法及装置 | |
CN111563076A (zh) | 数据稽核方法、装置、网络设备及存储介质 | |
CN116070958A (zh) | 归因分析方法、装置、电子设备和存储介质 | |
CN114022045A (zh) | 一种区域经济发展水平确定方法、装置及终端设备 | |
CN111654853B (zh) | 一种基于用户信息的数据分析方法 | |
CN115221218A (zh) | 车辆数据的质量评估方法、装置、计算机设备和存储介质 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN110244096B (zh) | 一种电能量计量系统中对电表满码自动发现与处理的方法 | |
CN108959596B (zh) | 一种公交阶梯票价预测方法 | |
CN113626516A (zh) | 数据增量同步方法和系统 | |
CN113538115B (zh) | 创业孵化器的智能匹配方法、系统、装置及可读存储介质 | |
CN117372210B (zh) | 一种法律服务咨询系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |