CN111489218A - 数据的审核方法、装置及设备 - Google Patents

数据的审核方法、装置及设备 Download PDF

Info

Publication number
CN111489218A
CN111489218A CN201910081687.9A CN201910081687A CN111489218A CN 111489218 A CN111489218 A CN 111489218A CN 201910081687 A CN201910081687 A CN 201910081687A CN 111489218 A CN111489218 A CN 111489218A
Authority
CN
China
Prior art keywords
data
hierarchy
information
auditing
virtual column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910081687.9A
Other languages
English (en)
Other versions
CN111489218B (zh
Inventor
高超
高靖昆
孙亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910081687.9A priority Critical patent/CN111489218B/zh
Publication of CN111489218A publication Critical patent/CN111489218A/zh
Application granted granted Critical
Publication of CN111489218B publication Critical patent/CN111489218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • G06Q30/0637Approvals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据的审核方法、装置及设备,方法包括:获取关联数据,关联数据包括ID信息相同的所有数据;对关联数据进行分层归类,获得每个数据所属于的分层信息,分层信息至少包括:第一层级和位于第一层级下的至少一个第二层级;对第二层级中相同属性的数据进行统计,获得虚拟列数据;根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。通过对关联数据进行分层归类,基于分层归类后的关联数据获取虚拟列数据,基于虚拟列数据和第一层级中的数据进行数据审核操作,有效地提高了对数据进行审核的精确可靠性。

Description

数据的审核方法、装置及设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据的审核方法、装置及设备。
背景技术
对于计算机电商领域的应用系统而言,在应用系统获取到业务数据之后,可以利用预设算法对业务数据进行分析处理。然而,由于应用系统之间的分布式特性,在利用固定算法对业务数据进行解析时,可能会导致应用系统之间发生一些预期之外的结果,比如:价格计算错误、已使用红包但是实际付款并未扣减等等,这些情况可能会导致用户的利益损失,造成资损。
发明内容
本发明实施例提供一种数据的审核方法、装置及设备,避免数据一致性出现问题。
第一方面,本发明实施例提供一种数据的审核方法,包括:
获取关联数据,所述关联数据包括ID信息相同的所有数据;
对所述关联数据进行分层归类,获得每个数据所属于的分层信息,所述分层信息至少包括:第一层级和位于所述第一层级下的至少一个第二层级;
对所述第二层级中相同属性的数据进行统计,获得虚拟列数据;
根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
第二方面,本发明实施例提供一种数据的审核装置,包括:
获取模块,用于获取关联数据,所述关联数据包括ID信息相同的所有数据;
分层模块,用于对所述关联数据进行分层归类,获得每个数据所属于的分层信息,所述分层信息至少包括:第一层级和位于所述第一层级下的至少一个第二层级;
统计模块,用于对所述第二层级中相同属性的数据进行统计,获得虚拟列数据;
审核模块,用于根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的一种数据的审核方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的一种数据的审核方法。
通过获取关联数据,对关联数据进行分层归类,对分层归类后的较低级别中相同属性的数据进行统计,获得虚拟列数据,而后根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作,有效地提高了对数据进行审核的精确度和可靠性,从而可以有效地降低用户的利益损失,避免造成资损,同时也保证了该审核方法使用的准确可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据的审核方法的流程图;
图2为本发明实施例提供的对所述关联数据进行分层归类之后的分层示意图一;
图3为本发明实施例提供的对所述关联数据进行分层归类之后的分层示意图二;
图4为本发明实施例提供的获取关联数据的流程图;
图5为本发明实施例提供的对所述关联数据进行分层归类的流程;
图6为本发明实施例提供的对所述第二层级中相同属性的数据进行统计,获得虚拟列数据的流程图;
图7为本发明实施例提供的获得虚拟列数据的示意图一;
图8为本发明实施例提供的获得虚拟列数据的示意图二;
图9为本发明应用实施例提供的根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作的流程图;
图10为本发明应用实施例提供的根据所述审核模型对所述数据进行审核的流程图;
图11为本发明实施例提供的一种数据的审核装置的结构示意图;
图12为与图11所示实施例提供的数据的审核装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
在计算机电商领域,业务端(业务方)可以向应用系统发送数据,在应用系统接收到数据之后,可以对数据进行审核,由于应用系统之间的分布式特性,在利用审核算法对数据进行审核时,可能会导致系统之间发生一些预期之外的结果,这些情况可能会导致用户的利益损失,造成资损。举例来说,通过业务端所提供的数据包括:主订单实付价、主订单总价、子订单优惠价等等信息,通过对业务端所提供的数据的分析处理可以得到审核算法“主订单实付价=主订单总价”,而后,可以对上述所获取的审核算法对数据进行审核处理。然而,在利用预设的审核算法“主订单实付价=主订单总价”对上述数据进行审核时,由于没有考虑到子订单优惠价这个参数,从而导致数据的计算结果错误,进而可能导致用户的利益受到损失。
为了避免出现上述问题,尽量降低用户的利益损失;参考附图1所示,本实施例提供了一种数据的审核方法,其中,数据可以是电商领域数据或者其他领域的数据;该审核方法的执行主体可以是审核装置,可以理解的是,该审核装置可以实现为软件、或者软件和硬件的组合。在审核装置执行数据的审核方法时,可以有效地降低用户的利益损失,同时避免造成资损。具体的,该方法包括如下步骤:
S101:获取关联数据,关联数据包括ID信息相同的所有数据。
其中,关联数据与数据的ID信息相对应,其可以包括ID信息相同的所有数据;具体的,关联数据中可以包括一个或多个数据,而所包括的一个或多个数据的ID信息均相同。
另外,本实施例对于获取关联数据的具体实现方式不做限定,本领域技术人员可以根据具体的使用需求进行设置,例如:关联数据可以存储在预设区域内,通过访问预设区域可以获取到关联数据。或者,关联数据也可以是存储在其他业务端内,通过与业务端的通信连接来获取到存储至业务端内的关联数据,具体的,可以向业务端发送数据获取请求,使得业务端可以基于数据请求返回关联数据;或者,业务端可以主动将关联数据发送至审核装置,从而使得审核装置可以主动地获取关联数据。较为优选的,参考附图4所示,本实施例中的获取关联数据可以包括:
S1011:获取多个数据以及与每个数据相对应的ID信息。
其中,所获取的每个数据均对应有各自的ID信息,而多个数据可以为ID信息相同的多个数据,或者,也可以为ID信息不同的多个数据。并且,多个数据以及每个数据所对应的ID信息可以由端主动或者被动地发送至审核装置,使得审核装置所获取的数据更加真实、可靠,并且也减少了业务端需要对数据进行处理(即根据数据确定关联数据)的操作步骤。
S1012:将同一ID信息所对应的所有数据确定为与ID信息相对应的关联数据。
在获取到多个数据之后,可以对多个数据中的每个数据的ID信息进行分析处理,将同一个ID信息所对应的所有数据确定为与ID信息相对应的关联数据,从而实现了基于ID信息可以将多个数据进行关联。可以理解的是,由于多个数据之间的ID信息可以是相同的或者不同的,因此,对于多个数据而言,可以获取到与ID信息相对应的一组(个)或多组(个)关联数据。举例来说:多个数据包括:数据a(id1)、数据b(id2)、数据c(id2)、数据d(id1)、数据e(id2)和数据f(id1),通过对数据之间id信息之间的分析处理可以获取到:与id1相对应的关联数据包括:数据a、数据d和数据f;与id2相对应的关联数据包括:数据b、数据c和数据e。从而可知,多个数据可以对应有一个或多个关联数据,所包括的关联数据的个数与数据的id信息相关。
通过业务端直接发送多个数据以及每个数据所对应的ID信息,使得审核装置可以准确、有效地获取到多个数据和数据的ID信息,进而根据ID信息来确定与该ID信息相对应的关联数据,有效地保证了关联数据获取的准确可靠性,进一步保证了该审核方法使用的准确性。
S102:对关联数据进行分层归类,获得每个数据所属于的分层信息,分层信息至少包括:第一层级和位于第一层级下的至少一个第二层级。
在获取到关联数据之后,可以对关联数据进行分层归类处理,从而可以获取到每个数据所属于的分层信息。具体的,参考附图5所示,本实施例中的对关联数据进行分层归类可以包括:
S1021:确定与关联数据相对应的数据结构。
其中,关联数据一般是一个结构化的数据,每个或者每组关联数据均对应有各自的数据结构,如图2所示,一个关联数据可以包括主订单和位于主订单下的三个子订单,上述主订单与子订单之间的框架或者从属关系即构成了该关联数据的数据结构;如图3所示,一个关联数据可以包括物流单、位于物流单下的主支付单和位于主支付单下的三个子支付单,上述物流单、主支付单与子支付单之间的框架或者从属关系即构成了该关联数据的数据结构。
另外,本实施例对于确定与关联数据相对应的数据结构的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求来选择不同的实现方式,例如:可以利用预设的结构感知算法对关联数据进行分析,获得与关联数据相对应的数据结构;或者,预先设置有多种标准数据结构,采用多种标准数据结构对关联数据进行分析匹配,将与关联数据相匹配的标准数据结构确定为与关联数据相对应的数据结构。当然的,本领域技术人员还可以采用其他的方式来确定与关联数据相对应的数据结构,只要能够保证与关联数据相对应的数据结构确定的准确可靠性即可,在此不再赘述。
S1022:基于数据结构对关联数据中的所有数据进行分层归类。
在获取到关联数据的数据结构之后,可以基于该数据结构对关联数据中的所有数据进行分层归类,从而可以获取到每个数据分层信息所属的分层信息,此时的分层信息至少可以包括:第一层级和位于第一层级下的至少一个第二层级。
需要注意的是,上述的分层信息可以不仅仅包括第一层级和位于第一层级下的至少一个第二层级,还可以包括第三层级、第四层级或者第五层级等等。一般情况下,第一层级可以是指分层信息中的首个层级或者最高层级,当然的,其还可以是指中间层级。举例来说:如图2所示,数据结构为主订单和位于主订单下的三个子订单所构成的从属结构,此时,在基于上述的数据结构对关联数据中的所有数据进行分层归类时,可以将主订单划分为第一层级,将子订单划分为第二层级。如图3所示,数据结构为物流单、位于物流单下的主支付单以及位于主支付单下的三个子支付单所构成的从属结构,此时,在基于上述的数据结构对关联数据中的所有数据进行分层归类时,可以将物流单划分为第一层级,将主支付单划分为第二层级,将三个子支付单划分为位于第二层级下的第三层级,此时的关联数据包括第一层级、第二层级和第三层级。或者,也可以将物流单和主支付单划分为第一层级,将子支付单划分为位于第一层级下的第二层级,此时的关联数据包括第一层级和第二层级。综上可知,针对同一种数据结构的关联数据,可以根据不同的需求实现不同的分层归类处理,从而可以获取到不同的分层归类结果。当然的,本领域技术人员还可以根据具体的数据结构将关联数据进行其他类型的分层归类,在此不再赘述。
S103:对第二层级中相同属性的数据进行统计,获得虚拟列数据。
其中,数据的属性可以是指数据的名称或者数据的主体;举例来说,关联数据包括以下数据:订单状态为状态一,卖家信息为信息二,总价信息为价格三,此时,对于上述关联数据而言,所包括的数据的属性分别为订单状态、卖家信息和总价信息。在获取到数据的分层归类之后,可以获取同一个第二层级中的数据的属性,并对相同属性的数据进行统计,从而可以基于统计结果来获取虚拟列数据,所获取的虚拟列数据中可以包括对相同属性的数据进行统计后的统计结果,可以理解的是,虚拟列数据中可以只包括对一种属性的数据的统计结果,比如:对所有子订单的总价进行统计,获得包括总价和的虚拟列数据;对所有子订单的调整价统计,获得包括调整价和的虚拟列数据等等。或者,虚拟列数据中也可以包括对多种属性的数据的统计结果,例如:一个虚拟列数据中可以包括调整价和以及总价和这两个统计数据;从而使得虚拟列数据中可以综合第二层级中所有关联数据的数据特征。
可以理解的是,上述获取的虚拟列数据与第二层级中的关联数据相对应,而上述的第二层级可以不仅仅是最低层级,其还可以是指中间层级,例如第二层级下包括有两个第三层级,此时,可以对第三层级中的关联数据进行统计,获得与第三层级中关联数据相对应的虚拟列数据。需要注意的是,对于分层归类后的第一个层级或者首个层级而言,其不存在相应的虚拟列数据,也即虚拟列数据是与分层归类后的除首个层级或者第一个层级以外的其他低层级或者中间层级中的关联数据相对应的数据信息。
具体的,本实施例对于获得虚拟列数据的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,参考附图6所示,本实施例中的对第二层级中相同属性的数据进行统计,获得虚拟列数据可以包括:
S1031:获取第二层级中所有数据所对应的属性信息。
S1032:将属性信息相同的数据进行统计,获得至少一个统计结果。
S1033:根据至少一个统计结果获取虚拟列数据。
其中,本实施例对于第二层级中所有数据的属性信息的具体获取方式不做限定,本领域技术人员可以根据具体的设计需求选择不同的实现方式,例如:可以采用预设的算法对第二层级中所有数据的名称或者主体进行识别,从而可以获取与第二层级中所有数据相对应的属性信息。在获取到所有数据的属性信息之后,可以对属性信息相同的数据进行统计,这里的统计可以可以包括:对数值类的数据进行求和、对信息类的数据进行统计归类。
举例来说,如图7所示,对关联数据进行分层归类之后,可以获取到第一层级和位于第一层级下的第二层级,第一层级包括主订单的数据,第二层级包括三个子订单的数据。此时,通过对第二层级中数据进行分析识别后,可以获取到第二层级中每个子订单中的数据的属性信息均包括:主订单id、子订单id、订单状态、卖家id、总价、调整价和优惠价等等;而后对属性信息相同的数据进行统计,具体的统计操作可以包括:将多个子订单中的主订单id统计为一个虚拟列数据中的订单id,将多个子订单中的订单状态统计为一个虚拟列数据中的订单状态;将多个子订单中的总价进行统计求和,获得一个虚拟列数据中的总价信息;将多个子订单中的调整价进行统计求和,获得一个虚拟列数据中的调整价信息,从而可以获取综合有第二层级中的关联数据的虚拟列数据,实现了根据至少一个统计结果获取虚拟列数据的过程。
如图8所示,对关联数据进行分层归类之后,可以获取到第一层级和位于第一层级下的第二层级,第一层级包括物流单的数据和主支付单的数据,第二层级包括三个子支付单的数据。此时,通过对第二层级中数据进行分析识别后,可以获取到第二层级中每个子支付单中的数据的属性信息均包括:主订单id、子订单id、支付状态、卖家id、卖家id和实付款等等;而后对属性信息相同的数据进行统计,具体的统计操作可以包括:将多个子支付单中的主订单id统计为一个虚拟列数据中的订单id,将多个子支付单中的支付状态统计为一个虚拟列数据中的支付状态,将多个子支付单中的卖家id统计为一个虚拟列数据中的卖家id,将多个子支付单中的实付款进行统计求和,获得一个虚拟列数据中的实付款统计信息,从而可以获取综合有第二层级中的关联数据的虚拟列数据,实现了根据至少一个统计结果获取虚拟列数据的过程。
S104:根据第一层级中的数据和虚拟列数据进行数据审核操作。
在获取到虚拟列数据之后,可以基于第一层级中的所有数据和虚拟列数据进行数据审核操作。具体的,可以基于第一层级中的数据和虚拟列数据来获取一审核算法,而后利用所获取的审核算法对数据进行审核操作,由于审核算法考虑到虚拟列数据,因此,在利用审核模型对数据进行审核,从而获得比较准确的审核结果。
需要注意的是,本实施例中的方法不仅适用于订单场景,对所有与数据计算相关的数据对账都可以适用,比如:发票计算、积分计算等。
本实施例提供的数据的审核方法,通过获取关联数据,对关联数据进行分层归类,对分层归类后的较低级别中相同属性的数据进行统计,获得虚拟列数据,而后根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作,有效地提高了对数据进行审核的精确度和可靠性,从而可以有效地降低用户的利益损失,避免造成资损,同时也保证了该审核方法使用的准确可靠性。
图9为本发明应用实施例提供的根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作的流程图;图10为本发明应用实施例提供的根据所述审核模型对所述数据进行审核的流程图;参考附图9-10所示,本实施例对于根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作可以包括:
S1041:对所述虚拟列数据和所述第一层级中的数据进行拟合处理,获得审核模型。
具体的,在获取到虚拟列数据之后,可以对所获取的虚拟列数据和第一层级中的数据进行拟合处理,具体的,可以利用线性回归拟合算法对虚拟列数据和第一层级中的数据进行拟合处理,从而可以获取到与第一层级和虚拟列数据相对应的审核模型,所获取的审核模型可以为线性公式,例如:主订单的总价=子订单总价的和,主订单调整价=子订单调整价的和,主支付单实付款=主订单总价+主订单调整价-子订单优惠价的和+物流单邮费,子支付单实付款=子订单总价+子订单调整价-优惠价等等。由于所获取的审核模型综合考虑了第一层级中的所有数据和第二层级中的关联数据的特性,从而提高了审核模型的审核准确性。
可选地,在获得虚拟列数据之后,为了便于对虚拟列数据和数据进行拟合处理,本实施例中的方法还可以包括:
S1040:将虚拟列数据添加至第一层级中。
将虚拟列数据添加至第一层级中之后,第一层级中即包括了虚拟列数据中的数据。此时,在对虚拟列数据和第一层级中的数据进行拟合处理时,可以直接利用线性回归拟合算法对第一层级中的所有数据(包括虚拟列数据)进行拟合处理即可,此时方便对虚拟列数据和第一层级中的数据进行拟合处理,并可以提高对数据进行拟合处理的质量和效率。
S1042:根据所述审核模型对所述数据进行审核。
由于审核模型是基于虚拟列数据和第一层级中的所有数据进行拟合所得的,因此,该审核模型考虑到了所有数据的数据特征,在利用审核模型对数据进行审核,从而获得比较准确的审核结果。具体的,本实施例中的根据审核模型对数据进行审核可以包括:
S10421:利用审核模型获取与数据相对应的预测数据。
S10422:获取数据与相对应的预测数据之间的残差信息。
S10423:根据残差信息对数据进行审核。
在获取到审核模型之后,可以利用审核模型对数据进行预测,从而可以获取到与数据相对应的预测数据,在获取到预测数据之后,可以获取数据与预测数据之间的残差信息,其中,残差信息为数据与预测数据之间的差值,即实际值与预测值之间的差值。在获取到残差信息之后,可以基于残差信息对数据进行审核,其中,一种可实现的方式为:将残差信息与预设阈值进行分析比较,从而实现对数据进行审核。此时,根据残差信息对数据进行审核可以包括:
S104231:若残差信息大于或等于预设的阈值信息,则确定数据为异常数据。
S104232:若残差信息小于预设的阈值信息,则确定数据为正常数据。
可以理解的是,在确定数据为异常数据之后,则说明该数据不符合审核模型所对应的线性公式关系,此时,为了提高该方法的实用性,本实施例中的方法还可以包括:
S10424:将异常数据进行反馈,以对异常数据进行调整/修正。
具体的,可以将异常数据反馈至提供数据的业务端,以使得业务端根据反馈信息对异常数据进行调整或修正。
可以想到的是,本实施例中的方法还可以采用在确定数据为异常数据之后,可以利用预设的告警方式进行告警指示,使得用户可以基于告警信息来对异常数据进行查看,确认异常数据是否真的不符合审核模型所对应的线性公式关系,若确定该数据是异常数据,则可以对异常数据按照预设的策略进行调整或修正。
通过上述方式实现根据审核模型对数据进行审核,可以准确地识别出数据是正常数据或异常数据,有效地保证了对数据进行审核的准确可靠性,可以规避掉大约90%以上的拟合计算错误的情况,进而提高了对数据进行审核的准确性和效率,进一步保证了该审核方法的实用性。
图11为本发明实施例提供的一种数据的审核装置的结构示意图;参考附图11所示,本实施例提供了一种数据的审核装置,该审核装置可以执行上述的数据的审核方法,具体的,该审核装置可以包括:
获取模块11,用于获取关联数据,关联数据包括ID信息相同的所有数据;
分层模块12,用于对关联数据进行分层归类,获得每个数据所属于的分层信息,分层信息至少包括:第一层级和位于第一层级下的至少一个第二层级;
统计模块13,用于对第二层级中相同属性的数据进行统计,获得虚拟列数据;
审核模块14,用于根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
可选地,在获取模块11获取关联数据时,该获取模块11可以用于执行:获取多个数据以及与每个数据相对应的ID信息;将同一ID信息所对应的所有数据确定为与ID信息相对应的关联数据。
可选地,在分层模块12对关联数据进行分层归类时,该分层模块12可以用于执行:确定与关联数据相对应的数据结构;基于数据结构对关联数据中的所有数据进行分层归类。
可选地,在统计模块13对第二层级中相同属性的数据进行统计,获得虚拟列数据时,该统计模块13可以用于执行:获取第二层级中所有数据所对应的属性信息;将属性信息相同的数据进行统计,获得至少一个统计结果;根据至少一个统计结果获取虚拟列数据。
可选地,本实施例中的分层模块12还可以用于在获得虚拟列数据之后,将虚拟列数据添加至第一层级中。
可选地,审核模块14根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作时,该审核模块14可以用于执行:对所述虚拟列数据和所述第一层级中的数据进行拟合处理,获得审核模型;根据所述审核模型对所述数据进行审核。
在审核模块14对虚拟列数据和第一层级中的数据进行拟合处理时,该审核模块14可以用于执行:利用线性回归拟合算法对虚拟列数据和第一层级中的数据进行拟合处理。
可选地,在审核模块14根据审核模型对数据进行审核时,该审核模块14可以用于执行:利用审核模型获取与数据相对应的预测数据;获取数据与相对应的预测数据之间的残差信息;根据残差信息对数据进行审核。
其中,在审核模块14还根据残差信息对数据进行审核时,该审核模块14用于执行:若残差信息大于或等于预设的阈值信息,则确定数据为异常数据;或者,若残差信息小于预设的阈值信息,则确定数据为正常数据。
可选地,本实施例中的审核模块14还可以用于在确定数据为异常数据之后,将异常数据进行反馈,以对异常数据进行调整/修正。
图11所示装置可以执行图1-图10所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图11所示数据的审核装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图12所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图1-图10所示实施例中提供的数据的审核方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取关联数据,关联数据包括ID信息相同的所有数据;
对关联数据进行分层归类,获得每个数据所属于的分层信息,分层信息至少包括:第一层级和位于第一层级下的至少一个第二层级;
对第二层级中相同属性的数据进行统计,获得虚拟列数据;
根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
可选地,第一处理器21用于执行前述图1-图10所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图10所示方法实施例中数据的审核方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种数据的审核方法,其特征在于,包括:
获取关联数据,所述关联数据包括ID信息相同的所有数据;
对所述关联数据进行分层归类,获得每个数据所属于的分层信息,所述分层信息至少包括:第一层级和位于所述第一层级下的至少一个第二层级;
对所述第二层级中相同属性的数据进行统计,获得虚拟列数据;
根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
2.根据权利要求1所述的方法,其特征在于,获取关联数据,包括:
获取多个数据以及与每个所述数据相对应的ID信息;
将同一ID信息所对应的所有数据确定为与所述ID信息相对应的关联数据。
3.根据权利要求1所述的方法,其特征在于,对所述关联数据进行分层归类,包括:
确定与所述关联数据相对应的数据结构;
基于所述数据结构对所述关联数据中的所有数据进行分层归类。
4.根据权利要求1所述的方法,其特征在于,对所述第二层级中相同属性的数据进行统计,获得虚拟列数据,包括:
获取所述第二层级中所有数据所对应的属性信息;
将所述属性信息相同的数据进行统计,获得至少一个统计结果;
根据至少一个所述统计结果获取所述虚拟列数据。
5.根据权利要求1所述的方法,其特征在于,在获得虚拟列数据之后,所述方法还包括:
将所述虚拟列数据添加至所述第一层级中。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,对所述虚拟列数据和所述第一层级中的数据进行拟合处理,包括:
利用线性回归拟合算法对所述虚拟列数据和所述第一层级中的数据进行拟合处理。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作,包括:
对所述虚拟列数据和所述第一层级中的数据进行拟合处理,获得审核模型;
根据所述审核模型对所述数据进行审核。
8.根据权利要求7所述的方法,其特征在于,根据所述审核模型对所述数据进行审核,包括:
利用所述审核模型获取与所述数据相对应的预测数据;
获取所述数据与相对应的所述预测数据之间的残差信息;
根据所述残差信息对所述数据进行审核。
9.根据权利要求8所述的方法,其特征在于,根据所述残差信息对所述数据进行审核,包括:
若所述残差信息大于或等于预设的阈值信息,则确定所述数据为异常数据;或者,
若所述残差信息小于预设的阈值信息,则确定所述数据为正常数据。
10.根据权利要求9所述的方法,其特征在于,在确定所述数据为异常数据之后,所述方法还包括:
将所述异常数据进行反馈,以对所述异常数据进行调整/修正。
11.一种数据的审核装置,其特征在于,包括:
获取模块,用于获取关联数据,所述关联数据包括ID信息相同的所有数据;
分层模块,用于对所述关联数据进行分层归类,获得每个数据所属于的分层信息,所述分层信息至少包括:第一层级和位于所述第一层级下的至少一个第二层级;
统计模块,用于对所述第二层级中相同属性的数据进行统计,获得虚拟列数据;
审核模块,用于根据所述第一层级中的数据和所述虚拟列数据进行数据审核操作。
12.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至10中任一项所述的数据的审核方法。
CN201910081687.9A 2019-01-28 2019-01-28 数据的审核方法、装置及设备 Active CN111489218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910081687.9A CN111489218B (zh) 2019-01-28 2019-01-28 数据的审核方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910081687.9A CN111489218B (zh) 2019-01-28 2019-01-28 数据的审核方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111489218A true CN111489218A (zh) 2020-08-04
CN111489218B CN111489218B (zh) 2023-04-18

Family

ID=71791460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910081687.9A Active CN111489218B (zh) 2019-01-28 2019-01-28 数据的审核方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111489218B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095341A1 (en) * 2013-09-27 2015-04-02 International Business Machines Corporation System and a method for hierarchical data column storage and efficient query processing
CN106663258A (zh) * 2014-02-26 2017-05-10 威图数据研究公司 通过混合的基于统计和用户测量方法测量多屏幕互联网用户概况、交易行为和用户群体结构
CN107909472A (zh) * 2017-12-08 2018-04-13 上海壹账通金融科技有限公司 经营数据审核方法、装置、设备及计算机可读存储介质
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095341A1 (en) * 2013-09-27 2015-04-02 International Business Machines Corporation System and a method for hierarchical data column storage and efficient query processing
CN106663258A (zh) * 2014-02-26 2017-05-10 威图数据研究公司 通过混合的基于统计和用户测量方法测量多屏幕互联网用户概况、交易行为和用户群体结构
CN107909472A (zh) * 2017-12-08 2018-04-13 上海壹账通金融科技有限公司 经营数据审核方法、装置、设备及计算机可读存储介质
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXANDER KOGAN等: "Design and Evaluation of a Continuous Data Level Auditing System" *
陈倩佳;卢佩玲;: "列控工程数据自动审核的研究与实现" *

Also Published As

Publication number Publication date
CN111489218B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US20200134493A1 (en) Automatic correction of indirect bias in machine learning models
US9779406B2 (en) User feature identification method and apparatus
US20140074562A1 (en) Configurable rating and metering
US20210295231A1 (en) Machine learning model training outliers
CN116227779A (zh) 物流订单的管理方法及设备
CN116843452A (zh) 风险监管方法、装置、设备、介质和程序产品
US20170344943A1 (en) Incentivized adjustment of optimal delivery route
US11994971B2 (en) System and method for optimizing performance of online services
CN106293890B (zh) 一种基于复杂度的业务处理方法和装置
US11030674B2 (en) Cognitive order processing by predicting resalable returns
US20190066115A1 (en) Calculation of benchmark dispute overage and rejection data with redress options
CN111489218B (zh) 数据的审核方法、装置及设备
CN116611754A (zh) 跨境商品的出口线上申报方法、系统及设备
US20230342226A1 (en) Event handling based on tracing execution paths
CN115580520A (zh) 一种针对混合云的异常告警方法、装置及电子设备
US20140074674A1 (en) Tracking for royalty determination
US20220318671A1 (en) Microservice compositions
US10235719B2 (en) Centralized GAAP approach for multidimensional accounting to reduce data volume and data reconciliation processing costs
AU2022214554A1 (en) Dynamic application builder for multidimensional database environments
CN110264306B (zh) 基于大数据的产品推荐方法、装置、服务器及介质
US11822959B2 (en) Methods and systems for processing requests using load-dependent throttling
US20240273395A1 (en) Automated customized machine learning model validation flow
US20220101068A1 (en) Outlier detection in a deep neural network using t-way feature combinations
CN113987417A (zh) 一种数据自修改系统、方法和计算机装置
CN110728547A (zh) 信息处理方法、介质、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant