CN111488269B - 数据仓库的指标检测方法、装置和系统 - Google Patents

数据仓库的指标检测方法、装置和系统 Download PDF

Info

Publication number
CN111488269B
CN111488269B CN201910086600.7A CN201910086600A CN111488269B CN 111488269 B CN111488269 B CN 111488269B CN 201910086600 A CN201910086600 A CN 201910086600A CN 111488269 B CN111488269 B CN 111488269B
Authority
CN
China
Prior art keywords
index
entity
matrix
full
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910086600.7A
Other languages
English (en)
Other versions
CN111488269A (zh
Inventor
朱成生
王榕
俞飞江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910086600.7A priority Critical patent/CN111488269B/zh
Publication of CN111488269A publication Critical patent/CN111488269A/zh
Application granted granted Critical
Publication of CN111488269B publication Critical patent/CN111488269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据仓库的指标检测方法、装置和系统。其中,该方法包括:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。本申请解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。

Description

数据仓库的指标检测方法、装置和系统
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据仓库的指标检测方法、装置和系统。
背景技术
目前的数据仓库中包含多种不同的特征数据库,例如指标库、风险特征库、用户画像特征库和风险模型特征库等,为了解决不用特征数据库中存在指标重复的问题,现有技术中提供了两种方法,一种方法为通过规范指标命名,确定指标的唯一性;另一种方法为通过文本分析及血缘,来分析指标的计算逻辑的相似性。目前这两种方法均是采用正向逻辑检测的方法,但是,由于命名规范性无法系统管控,而且血缘分析涉及多级血缘,识别率有限,导致检测指标重复的效率低且准确率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据仓库的指标检测方法、装置和系统,以至少解决数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
根据本申请实施例的一个方面,提供了一种数据仓库的指标检测方法,包括:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
根据本申请实施例的另一方面,还提供了一种数据仓库的指标检测装置,包括:获取模块,用于如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;处理模块,用于使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器,处理器用于运行程序,其中,在程序运行时执行以下步骤:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
根据本申请实施例的另一方面,还提供了一种数据仓库的指标检测系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
根据本申请实施例的一个方面,提供了一种数据仓库的指标检测方法,包括:接收在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据;如果检测数据仓库中存入了产生的业务数据,将业务数据作为需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出业务数据是否为重复数据;在识别出业务数据是重复数据的情况下,将业务数据从数据仓库中删除。
在本申请实施例中,如果检测到数据仓库中存在需要判重的指标,则可以获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该指标是否为重复指标,实现数据仓库中指标重复检测的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请实施例提供的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现数据仓库的指标检测方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种数据仓库的指标检测方法的流程图;
图3是根据本申请实施例的一种可选的数据仓库的指标检测方法的流程图;
图4是根据本申请实施例的一种可选的数据仓库的指标检测方法的详细流程图;
图5是根据本申请实施例的一种可选的指标检测交互示意图;
图6是根据本申请实施例的一种数据仓库的指标检测装置的示意图;
图7是根据本申请实施例的另一种数据仓库的指标检测方法的流程图;以及
图8是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
维度:可以是指为了达成一个分析目的,而设定分析问题的角度/视角。例如,在交易场景中,纬度可以是会员、商品、订单等。
指标:可以是指服务于某个维度进行的可量化可累加统计。例如,在交易场景中,指标可以是支付金额。
维度模型:可以是数据仓库建设中的一种数据建模方法。Kimball最先提出这一概念。其最简单的描述就是,按照事实表、维表来构建数据仓库,数据集市。这种方法的被人广泛知晓的名字是星型模式(Star-schema)。实体关系(E-R)建模通常用于为单位的所有进程创建一个复杂的模型。这种方法已被证实在创建高效的联机事务处理(OLTP,OnlineTransaction Processing)系统方面很有效。相反,维度建模针对零散的业务进程创建个别的模型。例如,销售信息可以创建为一个模型,库存可以创建为另一个模型,而客户帐户也可以创建为另一个模型。每个模型捕获事实数据表中的事实,以及那些事实在链接到事实数据表的维度表中的特性。由这些排列产生的架构称为星型架构或雪花型架构,已被证实在数据仓库设计中很有效。
实施例1
根据本申请实施例,还提供了一种数据仓库的指标检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据仓库的指标检测方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的数据仓库的指标检测方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据仓库的指标检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的数据仓库的指标检测方法。图2是根据本申请实施例的一种数据仓库的指标检测方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S22,如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体。
数据仓库可以由事实表和维度表构成,事实表用于存储事实的度量及指向各个维的外键值,维度表用于保存该维度的元数据,即维度的描述信息,包括维度的层次及成员类别等。上述的数据仓库中可以包含多种不同的特征数据库,例如指标库、风险特征库、用户画像特征库和风险模型特征库等,由于特征数据库中存在指标重复的问题,因此,需要对指标进行重复检测。在本申请实施例中,数据仓库可以是数据库,例如,指标库。
上述的需要判重的指标可以是新增加至数据仓库的指标,也可以是数据仓库管理过程中,人为确定需要进行检测的指标。通过对数据仓库中原有的指标进行重复检测,可以避免数据仓库中指标膨胀的问题;另外,通过对新增加至数据仓库的指标进行重复检测,同样可以避免数据仓库中指标膨胀的问题。
上述的预先设置的指标库可以是数据仓库中的所有指标库,也可以是根据检测需要而人为选择的部分指标库。
可以根据需要判重的指标,选取一定的实体样本,该实体样本中包括需要判重的指标,以及该指标对应的实体。例如,基于会员登录的指标,可以选取会员最近一天登录的次数,得到相应的实体样本。为了对指标进行重复检测,还需要获取该指标相应的全量指标数据源,该全量指标数据源中包括所有指标库或者部分指标库中所有指标,以及每个指标相对应的实体。
步骤S24,使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
上述的迭代碰撞分析模型可以是根据检测需要,预先建立的模型,利用该模型,可以对实体样本和全量指标数据源进行指标迭代碰撞分析,利用实体样本不断碰撞全量指标数据源中的指标,最终得到碰撞成功的指标。如果能够得到碰撞成功的指标,则表明该指标是重复指标;如果无法得到碰撞成功的指标,则表明该指标不是重复指标。
本申请上述实施例1所提供的方案,如果检测到数据仓库中存在需要判重的指标,则可以获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该指标是否为重复指标,实现数据仓库中指标重复检测的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请提供的上述实施例1的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
本申请上述实施例中,步骤S24,使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标,包括:
步骤S242,将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标。
通过将实体样本和全量指标数据源进行迭代碰撞分析,可以得到全量指标数据源中,与需要判重的指标一致的第一指标,并将一致的第一指标计入实体相似指标队列,例如,m1{k1,k4,k10};m2{k1,k5},其中m代表实体,kn代表第一指标。
步骤S244,获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标。
在通过迭代碰撞分析,得到至少一个第一指标之后,可以通过对至少一个第一指标与需要判重的指标进行相似度计算统计,得到每个第一指标与需要判重的指标的相似度。在碰撞成功的第一指标为多个的情况下,不同第一指标与需要判重的指标的相似度不同,为了准确地确定需要判重的指标是否为重复指标,可以按照相似度从大到小的顺序对多个第一指标进行排序,并按照实际检测需要,确定需要输出的指标的数量,并输出TPO指标,得到至少一个第二指标。
步骤S246,对第二指标进行二次验证,如果验证成功,则确定需要判重的指标为重复指标。
为了进一步提高检测结果的准确度,可以对第二指标进行二次验证,如果验证成功,则确定需要判重的指标与该第二指标重复,也即,需要判重的指标为重复指标;如果验证失败,则确定需要判重的指标与该第二指标不重复。另外,如果需要判重的指标与所有第二指标均验证失败,则可以确定需要判重的指标不是重复指标。
本申请上述实施例中,步骤S242,将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:
步骤S2420,在实体样本以第一矩阵的形式存储的情况下,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵。
为了方便对实体样本和全量指标数据源进行迭代碰撞分析,可以将实体样本按照矩阵形式存储,其中,实体样本对应的实体矩阵用B表示,矩阵B中每列表示需要判重的指标,每行表示需要判重指标对应的实体。可以对实体样本,也即第一矩阵进行分成抽样处理,可以得到第二矩阵,用于S表示,其中,S与B的指标分布保持一致。
步骤S2422,在全量指标数据源以第三矩阵的形式存储的情况下,从全量指标数据源中抽取出与第二矩阵中具有相同实体的指标,生成第四矩阵。
同理,可以将实体样本按照矩阵形式存储,其中,全量指标数据源对应的全量实体指标矩阵用A表示,矩阵A中每列表示获取到的所有指标,每行表示所有指标对应的实体。可以将全量指标数据源对应的全量实体指标矩阵和第二矩阵进行关联筛选,从A中抽取与S相同实体对应的指标,生成第四矩阵,用A1表示。通过对全量指标数据进行抽取,可以减少矩阵S中实体的数量,从而达到降低迭代碰撞分析时间,提高检测效率的效果。
步骤S2424,将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标。
通过将S中每个实体与A1中相应实体进行迭代碰撞分析,得到与需要判重的指标碰撞成功的第一指标,并将第一指标计入实体相似指标队列中。
本申请上述实施例中,在步骤S2422,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,该方法还可以包括如下步骤:
步骤S2426,对实体样本中需要判重的指标的指标值进行分布分析处理,得到实体样本的指标分布。
为了方便对实体样本进行分层抽样处理,可以对矩阵B进行分布分析,分析得到矩阵B中指标值的分布,即得到实体样本的指标分布,为后续分层抽样做准备。
需要说明的是,对于连续值,可以首先进行分箱处理,然后再进行分布分析。
步骤S2428,基于实体样本的指标分布对实体样本进行分层抽样处理,得到第二矩阵,其中,第二矩阵的指标分布与实体样本的指标分布一致。
通过基于实体样本的指标分布,对矩阵B进行分层抽样生成矩阵S,从而可以确保S与B指标分布一致。
本申请上述实施例中,步骤S2424,将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标,包括:
步骤S212,获取需要判重的指标的指标类型。
上述的指标类型由用户输入,包括:字符型或数值型,例如,对于支付金额指标,指标类型为数值型;对于商品名称指标,指标类型为字符型。还有一些指标的指标类型为字符型,但是实际是数值型,例如,订单号指标,该指标的指标类型为字符型,但实际为数值型。
步骤S214,在指标类型为字符的情况下,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标。
对于字符型指标,为了能够实现迭代碰撞分析,需要对矩阵A1中每个指标与矩阵S中指标进行文本相似度处理,通过余弦文本相似度计算,得到两个矩阵中指标的向量空间距离,距离越近,表明相似度越高,从而可以根据相似度判断出两个矩阵中的指标是否一致,如果一致,则确定相应的指标为第一指标。
步骤S216,在指标类型为数值的情况下,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标。
对于数值型指标,不同指标的指标值精度可能不同,无法直观判断指标是否一致,因此,为了能够实现迭代碰撞分析,首先可以对矩阵A1中每个指标的指标值,以及矩阵S中指标的指标值进行精度转换,例如,将数值精度转换为小数后2位。然后通过指标值判断两个矩阵中的指标是否一致,如果一致,则确定相应的指标为第一指标。
本申请上述实施例中,步骤S214,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标,包括:
步骤S2142,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵。
对于字符型指标,为了判断矩阵A1和矩阵S中指标是否一致,首先可以对两个矩阵中指标进行向量化处理,具体可以通过ONEHOT或Embedding算法进行向量化处理,但不仅限于此。
步骤S2144,获取第一向量矩阵中每个实体对应的指标与第二向量矩阵中相应实体对应的指标的相似度。
可以通过余弦文本相似度计算,得到矩阵A1的每一个指标与矩阵S的指标的向量空间距离,并将向量空间距离作为相似度,距离越近,则相似度越高。
步骤S2146,获取第二向量矩阵中相似度大于相似度阈值的指标,得到第一指标。
上述的相似度阈值可以是用户输入的文本相似度,用于判断两个指标是否一致。如果相似度大于该相似度阈值,则可以确定两个指标为相同指标,两个指标一致,从而可以确定相应的指标为第一指标。
本申请上述实施例中,步骤S216,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,包括:
步骤S2162,获取需要判重的指标的精度阈值。
上述的精度阈值可以是用户输入的数值精度,用于判断两个指标是否一致。
步骤S2164,基于精度阈值,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
可以根据用户输入的数值精度,首先就进行精度转换,然后在判断矩阵A1中每个指标与矩阵S中的指标是否一致。
需要说明的是,由于有一些指标的指标类型为字符型,但是实际是数值型,因此可以对矩阵A1和矩阵S中的指标进行类型转换,同一转换成数值型,然后再进行精度转换。
本申请上述实施例中,步骤S216,基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标,包括:
步骤S2166,基于转换后的第二矩阵中每个实体对应的指标的指标值,以及转换后的第四矩阵中相应实体对应的指标的指标值,判断转换后的第二矩阵中每个实体对应的指标和转换后的第四矩阵中相应实体对应的指标是否一致。
步骤S2168,如果一致,则确定转换后的第四矩阵中相应的指标为第一指标。
对于数值型指标,精度转换后的所有指标的指标值精度相同,如果矩阵A1中的指标的指标值与矩阵S中的指标的指标值相同,则可以确定两个指标一致,也即,可以确定矩阵A1中相应的指标为第一指标。
本申请上述实施例中,步骤S244,获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标,包括:
步骤S2442,基于第一指标及对应的实体,以及第二矩阵中实体的总数量,得到至少一个第一指标与需要判重的指标的相似度。
在获取到至少一个第一指标之后,可以基于第一指标和相应的实体,以及矩阵S中实体的总数量,即矩阵S的总行数,利用如下公式统计矩阵S与矩阵A1中每个指标的相似度:
same=count(kn)/m,
其中,count(kn)代表第kn个指标对应的实体数量,m代表矩阵S中实体的总数量,same值越高表明指标相似度越大。
例如,通过迭代碰撞分析得到的实体相似指标队列:m1{k1,k4,k10};m2{k1,k5},则通过上述公式,可以得到k1的相似度为2/m,k4的相似度为1/m,k5的相似度为1/m,k10的相似度为1/m。
步骤S2444,按照相似度从大到小的顺序对至少一个第一指标进行排序。
步骤S2446,获取指标排序参数N。
上述的指标排序参数N可以是用户输入的相似指标TOP N参数。
步骤S2448,获取排序后的至少一个第一指标中的前N个指标,得到第二指标。
在通过上述公式计算得到每个第一指标的相似度之后,可以按照相似度从大到小对第一指标进行排序,并获取排序最前的N个指标,作为第二指标。
例如,仍对于实体相似指标队列:m1{k1,k4,k10};m2{k1,k5},在得到每个指标的相似度之后,可以按照相似度从大到小进行排序,排序后的指标为:k1、k4、k5和k10。当用户输入的相似指标TOP N参数为1时,可以获取排序最前的1个指标,即指标k1作为第二指标。
本申请上述实施例中,步骤S246,对第二指标进行二次验证包括如下至少之一:
步骤S2462,对第二指标和需要判重的指标进行血缘分析,判断第二指标与需要判重的指标是否一致,如果一致,则确定验证成功。
步骤S2464,对第二指标和需要判重的指标进行逻辑分析,判断第二指标的口径与需要判重的指标的口径是否一致,如果一致,则确定验证成功。
在本申请实施例中,在获取到第二指标之后,可以分别对第二指标进行血缘二次验证和口径二次验证,并输出最终结果,即输出相似指标列表。最终得到的相似指标可以是血缘二次验证和口径二次验证均通过的指标。
对于血缘二次验证,可以通过血缘分析,判断第二指标和需要判重的指标是否一致,如果一致,则确定血缘二次验证成功,否者,确定血缘二次验证失败。
对于口径二次验证,可以通过实现逻辑分析,判断第二指标和需要判重的指标的口径是否一致,如果一致,则确定口径二次验证成功,否者,确定口径二次验证失败。
下面结合图3至图5对本申请一种优选的实施例进行详细说明。其中,图4示出了图3中的方法的详细实现步骤。
如图3所示,该方法包括如下步骤:
步骤S31,参数输入及全量指标初始化。
可选地,该步骤包括图4中所示的步骤S41。用户可以输入需要判重的指标、该指标的指标类型、相似度阈值、精度阈值、相似指标TOP N参数等。具体地,用户可以直接输入指标,或者用户可以输入该指标的编号(该编号可以是唯一指标编码,从而确定不同的指标)。
为了对该指标进行重复检测,可以对全量指标进行初始化,获取用于重复检测的指标库中所有指标及对应的实体,得到全量指标数据源,该全量指标数据源以矩阵形式存储,也即,得到全量实体指标矩阵A。如图5所示,用户可以选择纬度和指标“mem.log_cnt”,然后用户点击“运行”按钮,调用检测引擎进行检测,并返回检测结果。
步骤S32,判定指标矩阵抽样。
可选地,该步骤包括图4中所示的步骤S42至步骤S44。在用户输入需要判重的指标之后,可以根据输入指标获取对应的实体,并生成相应的实体样本,该实体样本可以以矩阵形式进行存储,也即,生成实体矩阵B。通过对矩阵B进行分布分析,可以得到矩阵B的指标值分布,进一步对矩阵B进行分层抽样生成矩阵S,其中,S与B指标分布一致。
步骤S33,关联筛选。
可选地,该步骤包括图4中所示的步骤S45。在得到矩阵S之后,可以从矩阵A中抽取与矩阵S相同实体和对应的指标,生成矩阵A1。
步骤S34,逆向迭代碰撞分析。
可选地,该步骤包括图4中所示的步骤S46至步骤S413。可以将矩阵S中每个实体与矩阵A1对应实体进行指标迭代碰撞计算,具体可以分为两个分支,在判断出用户输入的指标的指标类型是字符型或数值型之后,可以分别执行两个分支,其中,如果是字符型,则执行图4中所示的步骤S48至步骤S410;如果是数值型,则执行图4中所示的步骤S411至步骤S413。
对于字符型指标,可以通过ONEHOT或Embedding算法进行词向量化,然后通过余弦文本相似度计算,给出矩阵A1的每一个指标与矩阵S的指标的向量空间距离,距离越近,相似度越高,再根据用户输入的相似度阀值,就可以判断出矩阵A1的每一个指标与矩阵S的指标是否一致。最后将一致的指标计入该实体相似指标队列。
对于数值型指标,可以首先进行类型转换,将所有指标的指标类型统一转换成数值型,然后根据用户输入的数值精度,先做精度换算,再判定矩阵A的每一个指标与矩阵B的指标是否一致。最后将一致的指标计入该实体相似指标队列。
步骤S35,相似度计算统计。
可选地,该步骤包括图4中所示的步骤S414。可以通过公式same=count(kn)/m统计矩阵S与矩阵A1每个指标的相似性,其中,count(kn)代表第kn个指标碰撞成功的实体数量,m代表矩阵S中实体的总数量,same值越高,指标越相似。
步骤S36,输出TOP指标。
可选地,该步骤包括图4中所示的步骤S415。可以根据用户输入的相似指标TOP N参数,根据same进行排序,并获取排序前N的指标,输出TOP指标。
步骤S37,二次验证。
可选地,该步骤包括图4中所示的步骤S416至步骤S417。在得到TOP指标之后,可以通过血缘分析进行血缘二次验证,判断指标是否一致;另外可以通过实现逻辑进行口径二次验证,判断口径是否一致,从而得到二次验证结果。
步骤S38,输出相似指标。
可选地,该步骤包括图4中所示的步骤S418。可以根据二次验证结果,最终输出相似指标。由用户进行二次确认,如果没有重复,则可以将指标存入数据仓库。
例如,在通过检测引擎进行检测,得到检测结果之后,可以显示相似指标和血缘结果,用户可以根据显示的相似指标和血缘结果,进行确认,在“确认检测结果”的位置选择“是”或者“否”。如图5所示,相似指标可以是“log_mem_cnt(100%)”,血缘结果可以是
“input_src:secdw.idl_tb_ent_login_fht(会员登录)
output_src:secdw.idl_tb_mem_behav_login_sdt(会员登录)”。
通过上述方案,可以通过迭代碰撞分析将已经新开发的指标和指标库中的原有指标进行迭代碰撞处理,计算出已经存在的指标,从而达到数据仓库中指标重复检测的目的,解决系统指标冗余的问题。而且通过逆向迭代碰撞分析,检测结果可靠性高,例如可以达到99%以上,并且检测效率高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种用于实施上述数据仓库的指标检测方法的数据仓库的指标检测装置,如图6所示,该装置600包括:获取模块602和处理模块604。
其中,获取模块602用于如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;处理模块604用于使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
数据仓库可以由事实表和维度表构成,事实表用于存储事实的度量及指向各个维的外键值,维度表用于保存该维度的元数据,即维度的描述信息,包括维度的层次及成员类别等。上述的数据仓库中可以包含多种不同的特征数据库,例如指标库、风险特征库、用户画像特征库和风险模型特征库等,由于特征数据库中存在指标重复的问题,因此,需要对指标进行重复检测。在本申请实施例中,数据仓库可以是数据库,例如,指标库。
上述的需要判重的指标可以是新增加至数据仓库的指标,也可以是数据仓库管理过程中,人为确定需要进行检测的指标。通过对数据仓库中原有的指标进行重复检测,可以避免数据仓库中指标膨胀的问题;另外,通过对新增加至数据仓库的指标进行重复检测,同样可以避免数据仓库中指标膨胀的问题。
上述的预先设置的指标库可以是数据仓库中的所有指标库,也可以是根据检测需要而人为选择的部分指标库。
上述的迭代碰撞分析模型可以是根据检测需要,预先建立的模型,利用该模型,可以对实体样本和全量指标数据源进行指标迭代碰撞分析,利用实体样本不断碰撞全量指标数据源中的指标,最终得到碰撞成功的指标。如果能够得到碰撞成功的指标,则表明该指标是重复指标;如果无法得到碰撞成功的指标,则表明该指标不是重复指标。
此处需要说明的是,上述获取模块602和处理模块604对应于实施例1中的步骤S22至步骤S24,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例2所提供的方案,如果检测到数据仓库中存在需要判重的指标,则可以获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该指标是否为重复指标,实现数据仓库中指标重复检测的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请提供的上述实施例2的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
本申请上述实施例中,如图6所示,处理模块604包括:分析子模块606、获取子模块608和验证子模块610。
其中,分析子模块用于将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取子模块用于获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标;验证子模块用于对第二指标进行二次验证,如果验证成功,则确定需要判重的指标为重复指标。
此处需要说明的是,上述分析子模块、获取子模块和验证子模块对应于实施例1中的步骤S242至步骤S246,三个子模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,分析子模块包括:第一处理单元、抽取单元和第二处理单元。
其中,第一处理单元用于在实体样本以第一矩阵的形式存储的情况下,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵;抽取单元用于在全量指标数据源以第三矩阵的形式存储的情况下,从全量指标数据源中抽取出与第二矩阵中具有相同实体的指标,生成第四矩阵;第二处理单元用于将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标。
此处需要说明的是,上述第一处理单元、抽取单元和第二处理单元对应于实施例1中的步骤S2420至步骤S2424,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,分析子模块还包括:第三处理单元。
其中,第三处理单元用于对实体样本中需要判重的指标的指标值进行分布分析处理,得到实体样本的指标分布;第一处理单元还用于基于实体样本的指标分布对实体样本进行分层抽样处理,得到第二矩阵,其中,第二矩阵的指标分布与实体样本的指标分布一致。
此处需要说明的是,上述第三处理单元和第一处理单元对应于实施例1中的步骤S2426至步骤S2428,两个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,第二处理单元包括:获取子单元、第一处理子单元和第二处理子单元。
其中,获取子单元用于获取需要判重的指标的指标类型;第一处理子单元用于在指标类型为字符的情况下,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标;第二处理子单元用于在指标类型为数值的情况下,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标。
此处需要说明的是,上述获取子单元、第一处理子单元和第二处理子单元对应于实施例1中的步骤S212至步骤S216,三个子单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,第一处理子单元还用于对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;获取第一向量矩阵中每个实体对应的指标与第二向量矩阵中相应实体对应的指标的相似度;获取第二向量矩阵中相似度大于相似度阈值的指标,得到第一指标。
此处需要说明的是,上述第一处理子单元对应于实施例1中的步骤S2142至步骤S2146,该子单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,第二处理子单元还用于获取需要判重的指标的精度阈值;基于精度阈值,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
此处需要说明的是,上述第二处理子单元对应于实施例1中的步骤S2162至步骤S2164,该子单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,第二处理子单元还用于基于转换后的第二矩阵中每个实体对应的指标的指标值,以及转换后的第四矩阵中相应实体对应的指标的指标值,判断转换后的第二矩阵中每个实体对应的指标和转换后的第四矩阵中相应实体对应的指标是否一致;如果一致,则确定转换后的第四矩阵中相应的指标为第一指标。
此处需要说明的是,上述第二处理子单元对应于实施例1中的步骤S2166至步骤S2168,该子单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,获取子模块包括:第四处理单元、排序单元、第一获取单元和第二获取单元。
其中,第四处理单元用于基于第一指标及对应的实体,以及第二矩阵中实体的总数量,得到至少一个第一指标与需要判重的指标的相似度;排序单元用于按照相似度从大到小的顺序对至少一个第一指标进行排序;第一获取单元用于获取指标排序参数N;第二获取单元用于获取排序后的至少一个第一指标中的前N个指标,得到第二指标。
此处需要说明的是,上述第四处理单元、排序单元、第一获取单元和第二获取单元对应于实施例1中的步骤S2442至步骤S2448,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,验证子模块包括如下至少之一:第一验证单元和第二验证单元。
其中,第一验证单元用于对第二指标和需要判重的指标进行血缘分析,判断第二指标与需要判重的指标是否一致,如果一致,则确定验证成功;第二验证单元用于对第二指标和需要判重的指标进行逻辑分析,判断第二指标的口径与需要判重的指标的口径是否一致,如果一致,则确定验证成功。
此处需要说明的是,上述第一验证单元和第二验证单元对应于实施例1中的步骤S2462至步骤S2464,两个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例3
根据本申请实施例,还提供了一种数据仓库的指标检测系统,包括:
处理器。以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
本申请上述实施例3所提供的方案,如果检测到数据仓库中存在需要判重的指标,则可以获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该指标是否为重复指标,实现数据仓库中指标重复检测的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请提供的上述实施例3的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
实施例4
根据本申请实施例,还提供了一种数据仓库的指标检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例的另一种数据仓库的指标检测方法的流程图。如图7所示,该方法可以包括如下步骤:
步骤S72,接收在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据。
具体地,上述的不同操作可以是业务部门针对不同维度的数据进行的操作,其中,维度可以是会员、商品、订单等,但不仅限于此,对于不同的业务,相应的维度不同。上述的业务数据可以是针对不同维度进行操作所产生的指标,例如,对于会员维度,业务数据可以是会员最近1天登录次数;对于订单维度,业务数据可以是订单相应的支付金额。
例如,以风险模型特征库的应用场景为例,该风险模型特征库针对会员维度,业务部门在对会员风险进行评估的过程中,会针对不同的风险评估需求,产生相应的会员指标。
步骤S74,如果检测数据仓库中存入了产生的业务数据,将业务数据作为需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体。
数据仓库可以由事实表和维度表构成,事实表用于存储事实的度量及指向各个维的外键值,维度表用于保存该维度的元数据,即维度的描述信息,包括维度的层次及成员类别等。上述的数据仓库中可以包含多种不同的特征数据库,例如指标库、风险特征库、用户画像特征库和风险模型特征库等,由于特征数据库中存在指标重复的问题,因此,需要对指标进行重复检测。在本申请实施例中,数据仓库可以是数据库,例如,指标库。
上述的需要判重的指标可以是新增加至数据仓库的指标,也可以是数据仓库管理过程中,人为确定需要进行检测的指标。通过对数据仓库中原有的指标进行重复检测,可以避免数据仓库中指标膨胀的问题;另外,通过对新增加至数据仓库的指标进行重复检测,同样可以避免数据仓库中指标膨胀的问题。
上述的预先设置的指标库可以是数据仓库中的所有指标库,也可以是根据检测需要而人为选择的部分指标库。
可以根据需要判重的指标,选取一定的实体样本,该实体样本中包括需要判重的指标,以及该指标对应的实体。例如,基于会员登录的指标,可以选取会员最近一天登录的次数,得到相应的实体样本。为了对指标进行重复检测,还需要获取该指标相应的全量指标数据源,该全量指标数据源中包括所有指标库或者部分指标库中所有指标,以及每个指标相对应的实体。
例如,仍以风险模型特征库的应用场景为例,在产生相应的指标之后,业务部门会将相应的指标上线,存储在风险模型特征库中,为了避免风险模型特征库中指标膨胀,需要对上线的指标进行检测,判断指标是否为重复指标。
步骤S76,使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出业务数据是否为重复数据。
上述的迭代碰撞分析模型可以是根据检测需要,预先建立的模型,利用该模型,可以对实体样本和全量指标数据源进行指标迭代碰撞分析,利用实体样本不断碰撞全量指标数据源中的指标,最终得到碰撞成功的指标。如果能够得到碰撞成功的指标,则表明该指标是重复指标;如果无法得到碰撞成功的指标,则表明该指标不是重复指标。
步骤S78,在识别出业务数据是重复数据的情况下,将业务数据从数据仓库中删除。
在确定业务数据是重复数据的情况下,可以确定数据仓库中已经存在相同的数据,为了避免数据仓库中数据膨胀的问题,可以将业务数据从数据仓库中删除,确保相同的数据在数据仓库中仅存在一个。
例如,仍以风险模型特征库的应用场景为例,在判断出上线的指标为重复指标之后,可以禁止该指标上线,也即禁止将该指标存储至风险模型特征库;在判断出上线的指标不是重复指标之后,可以允许该指标上线,也即,允许将该指标存储至风险模型特征库,从而避免了风险模型特征库中指标膨胀的问题。
本申请上述实施例4所提供的方案,在接收到在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据之后,如果检测到数据仓库中存入了产生的业务数据,可以将业务数据作为需要判重的指标,然后获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该业务数据是否为重复数据,如果是,则将业务数据从数据仓库中删除,实现数据仓库中指标重复检测,避免数据仓库中数据膨胀的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请提供的上述实施例4的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
本申请上述实施例中,步骤S76,使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标,包括:
步骤S762,将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标。
通过将实体样本和全量指标数据源进行迭代碰撞分析,可以得到全量指标数据源中,与需要判重的指标一致的第一指标,并将一致的第一指标计入实体相似指标队列,例如,m1{k1,k4,k10};m2{k1,k5},其中m代表实体,kn代表第一指标。
步骤S764,获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标。
在通过迭代碰撞分析,得到至少一个第一指标之后,可以通过对至少一个第一指标与需要判重的指标进行相似度计算统计,得到每个第一指标与需要判重的指标的相似度。在碰撞成功的第一指标为多个的情况下,不同第一指标与需要判重的指标的相似度不同,为了准确地确定需要判重的指标是否为重复指标,可以按照相似度从大到小的顺序对多个第一指标进行排序,并按照实际检测需要,确定需要输出的指标的数量,并输出TPO指标,得到至少一个第二指标。
步骤S766,对第二指标进行二次验证,如果验证成功,则确定业务数据为重复数据。
为了进一步提高检测结果的准确度,可以对第二指标进行二次验证,如果验证成功,则确定需要判重的指标与该第二指标重复,也即,需要判重的指标为重复指标;如果验证失败,则确定需要判重的指标与该第二指标不重复。另外,如果需要判重的指标与所有第二指标均验证失败,则可以确定需要判重的指标不是重复指标。
本申请上述实施例中,步骤S762,将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:
步骤S7620,在实体样本以第一矩阵的形式存储的情况下,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵。
为了方便对实体样本和全量指标数据源进行迭代碰撞分析,可以将实体样本按照矩阵形式存储,其中,实体样本对应的实体矩阵用B表示,矩阵B中每列表示需要判重的指标,每行表示需要判重指标对应的实体。可以对实体样本,也即第一矩阵进行分成抽样处理,可以得到第二矩阵,用于S表示,其中,S与B的指标分布保持一致。
步骤S7622,在全量指标数据源以第三矩阵的形式存储的情况下,从全量指标数据源中抽取出与第二矩阵中具有相同实体的指标,生成第四矩阵。
同理,可以将实体样本按照矩阵形式存储,其中,全量指标数据源对应的全量实体指标矩阵用A表示,矩阵A中每列表示获取到的所有指标,每行表示所有指标对应的实体。可以将全量指标数据源对应的全量实体指标矩阵和第二矩阵进行关联筛选,从A中抽取与S相同实体对应的指标,生成第四矩阵,用A1表示。通过对全量指标数据进行抽取,可以减少矩阵S中实体的数量,从而达到降低迭代碰撞分析时间,提高检测效率的效果。
步骤S7624,将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标。
通过将S中每个实体与A1中相应实体进行迭代碰撞分析,得到与需要判重的指标碰撞成功的第一指标,并将第一指标计入实体相似指标队列中。
本申请上述实施例中,在步骤S7622,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,该方法还可以包括如下步骤:
步骤S7626,对实体样本中需要判重的指标的指标值进行分布分析处理,得到实体样本的指标分布。
为了方便对实体样本进行分层抽样处理,可以对矩阵B进行分布分析,分析得到矩阵B中指标值的分布,即得到实体样本的指标分布,为后续分层抽样做准备。
需要说明的是,对于连续值,可以首先进行分箱处理,然后再进行分布分析。
步骤S7628,基于实体样本的指标分布对实体样本进行分层抽样处理,得到第二矩阵,其中,第二矩阵的指标分布与实体样本的指标分布一致。
通过基于实体样本的指标分布,对矩阵B进行分层抽样生成矩阵S,从而可以确保S与B指标分布一致。
本申请上述实施例中,步骤S7624,将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标,包括:
步骤S712,获取需要判重的指标的指标类型。
上述的指标类型由用户输入,包括:字符型或数值型,例如,对于支付金额指标,指标类型为数值型;对于商品名称指标,指标类型为字符型。还有一些指标的指标类型为字符型,但是实际是数值型,例如,订单号指标,该指标的指标类型为字符型,但实际为数值型。
步骤S714,在指标类型为字符的情况下,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标。
对于字符型指标,为了能够实现迭代碰撞分析,需要对矩阵A1中每个指标与矩阵S中指标进行文本相似度处理,通过余弦文本相似度计算,得到两个矩阵中指标的向量空间距离,距离越近,表明相似度越高,从而可以根据相似度判断出两个矩阵中的指标是否一致,如果一致,则确定相应的指标为第一指标。
步骤S716,在指标类型为数值的情况下,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标。
对于数值型指标,不同指标的指标值精度可能不同,无法直观判断指标是否一致,因此,为了能够实现迭代碰撞分析,首先可以对矩阵A1中每个指标的指标值,以及矩阵S中指标的指标值进行精度转换,例如,将数值精度转换为小数后2位。然后通过指标值判断两个矩阵中的指标是否一致,如果一致,则确定相应的指标为第一指标。
实施例5
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行数据仓库的指标检测方法中以下步骤的程序代码:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
可选地,图8是根据本申请实施例的一种计算机终端的结构框图。如图8所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器802以及存储器804。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的数据仓库的指标检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据仓库的指标检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
可选的,上述处理器还可以执行如下步骤的程序代码:将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标;对第二指标进行二次验证,如果验证成功,则确定需要判重的指标为重复指标。
可选的,上述处理器还可以执行如下步骤的程序代码:在实体样本以第一矩阵的形式存储的情况下,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在全量指标数据源以第三矩阵的形式存储的情况下,从全量指标数据源中抽取出与第二矩阵中具有相同实体的指标,生成第四矩阵;将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标。
可选的,上述处理器还可以执行如下步骤的程序代码:在对实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,对实体样本中需要判重的指标的指标值进行分布分析处理,得到实体样本的指标分布;基于实体样本的指标分布对实体样本进行分层抽样处理,得到第二矩阵,其中,第二矩阵的指标分布与实体样本的指标分布一致。
可选的,上述处理器还可以执行如下步骤的程序代码:获取需要判重的指标的指标类型;在指标类型为字符的情况下,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标;在指标类型为数值的情况下,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标。
可选的,上述处理器还可以执行如下步骤的程序代码:对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;获取第一向量矩阵中每个实体对应的指标与第二向量矩阵中相应实体对应的指标的相似度;获取第二向量矩阵中相似度大于相似度阈值的指标,得到第一指标。
可选的,上述处理器还可以执行如下步骤的程序代码:获取需要判重的指标的精度阈值;基于精度阈值,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
可选的,上述处理器还可以执行如下步骤的程序代码:基于转换后的第二矩阵中每个实体对应的指标的指标值,以及转换后的第四矩阵中相应实体对应的指标的指标值,判断转换后的第二矩阵中每个实体对应的指标和转换后的第四矩阵中相应实体对应的指标是否一致;如果一致,则确定转换后的第四矩阵中相应的指标为第一指标。
可选的,上述处理器还可以执行如下步骤的程序代码:基于第一指标及对应的实体,以及第二矩阵中实体的总数量,得到至少一个第一指标与需要判重的指标的相似度;按照相似度从大到小的顺序对至少一个第一指标进行排序;获取指标排序参数N;获取排序后的至少一个第一指标中的前N个指标,得到第二指标。
可选的,上述处理器还可以执行如下步骤的程序代码:对第二指标和需要判重的指标进行血缘分析,判断第二指标与需要判重的指标是否一致,如果一致,则确定验证成功;对第二指标和需要判重的指标进行逻辑分析,判断第二指标的口径与需要判重的指标的口径是否一致,如果一致,则确定验证成功。
采用本申请实施例,如果检测到数据仓库中存在需要判重的指标,则可以获取该指标的实体样本,以及全量指标数据源,进一步使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出该指标是否为重复指标,实现数据仓库中指标重复检测的目的。
容易注意到的是,利用迭代碰撞分析模型对实体样本和全量指标数据源进行迭代碰撞处理,可以实现基于需要判重的指标的实体样本进行逆向碰撞检测的方式,用实体样本不断碰撞指标库中的指标,最终输出重复的指标,从而有效避免指标重复的情况发生,达到了提高检测结果可靠性,提升检测效率,避免指标膨胀的技术效果。
由此,本申请实施例提供的方案解决了数据仓库中不同的特征数据库(例如指标库、风险特征库、用户画像特征库和风险模型特征库等)存在指标重复,现有技术中采用正向逻辑检测的方法来检测重复指标,导致检测指标重复的效率低且准确率低的技术问题。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据;如果检测数据仓库中存入了产生的业务数据,将业务数据作为需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出业务数据是否为重复数据;在识别出业务数据是重复数据的情况下,将业务数据从数据仓库中删除。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据仓库的指标检测方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:如果检测到数据仓库中存在需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出需要判重的指标是否为重复指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将实体样本和全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取至少一个第一指标中与需要判重的指标匹配成功的至少一个第二指标;对第二指标进行二次验证,如果验证成功,则确定需要判重的指标为重复指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:在实体样本以第一矩阵的形式存储的情况下,对实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在全量指标数据源以第三矩阵的形式存储的情况下,从全量指标数据源中抽取出与第二矩阵中具有相同实体的指标,生成第四矩阵;将第二矩阵中每个实体与第四矩阵中相应实体进行迭代碰撞分析,得到至少一个第一指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:在对实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,对实体样本中需要判重的指标的指标值进行分布分析处理,得到实体样本的指标分布;基于实体样本的指标分布对实体样本进行分层抽样处理,得到第二矩阵,其中,第二矩阵的指标分布与实体样本的指标分布一致。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取需要判重的指标的指标类型;在指标类型为字符的情况下,对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行文本相似度处理,得到第一指标;在指标类型为数值的情况下,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到第一指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对第二矩阵中每个实体对应的指标和第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;获取第一向量矩阵中每个实体对应的指标与第二向量矩阵中相应实体对应的指标的相似度;获取第二向量矩阵中相似度大于相似度阈值的指标,得到第一指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取需要判重的指标的精度阈值;基于精度阈值,对第二矩阵中每个实体对应的指标的指标值和第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于转换后的第二矩阵中每个实体对应的指标的指标值,以及转换后的第四矩阵中相应实体对应的指标的指标值,判断转换后的第二矩阵中每个实体对应的指标和转换后的第四矩阵中相应实体对应的指标是否一致;如果一致,则确定转换后的第四矩阵中相应的指标为第一指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于第一指标及对应的实体,以及第二矩阵中实体的总数量,得到至少一个第一指标与需要判重的指标的相似度;按照相似度从大到小的顺序对至少一个第一指标进行排序;获取指标排序参数N;获取排序后的至少一个第一指标中的前N个指标,得到第二指标。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对第二指标和需要判重的指标进行血缘分析,判断第二指标与需要判重的指标是否一致,如果一致,则确定验证成功;对第二指标和需要判重的指标进行逻辑分析,判断第二指标的口径与需要判重的指标的口径是否一致,如果一致,则确定验证成功。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:接收在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据;如果检测数据仓库中存入了产生的业务数据,将业务数据作为需要判重的指标,获取需要判重的指标的实体样本,并获取全量指标数据源,其中,实体样本用于记录需要判重的指标及对应的实体,全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对实体样本和全量指标数据源进行迭代碰撞处理,识别出业务数据是否为重复数据;在识别出业务数据是重复数据的情况下,将业务数据从数据仓库中删除。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种数据仓库的指标检测方法,包括:
如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;
使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标;
其中,所述使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;
其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;
将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
2.根据权利要求1所述的方法,其中,在对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,所述方法还包括:
对所述实体样本中所述需要判重的指标的指标值进行分布分析处理,得到所述实体样本的指标分布;
基于所述实体样本的指标分布对所述实体样本进行分层抽样处理,得到所述第二矩阵,其中,所述第二矩阵的指标分布与所述实体样本的指标分布一致。
3.根据权利要求1所述的方法,其中,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标,包括:
对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;
获取所述第一向量矩阵中每个实体对应的指标与所述第二向量矩阵中相应实体对应的指标的相似度;
获取所述第二向量矩阵中相似度大于相似度阈值的指标,得到所述第一指标。
4.根据权利要求1所述的方法,其中,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,包括:
获取所述需要判重的指标的精度阈值;
基于所述精度阈值,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
5.根据权利要求1所述的方法,其中,基于转换后的第二矩阵和转换后的第四矩阵,得到所述第一指标,包括:
基于所述转换后的第二矩阵中每个实体对应的指标的指标值,以及所述转换后的第四矩阵中相应实体对应的指标的指标值,判断所述转换后的第二矩阵中每个实体对应的指标和所述转换后的第四矩阵中相应实体对应的指标是否一致;
如果一致,则确定所述转换后的第四矩阵中相应的指标为所述第一指标。
6.根据权利要求1所述的方法,其中,获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标,包括:
基于所述第一指标及对应的实体,以及所述第二矩阵中实体的总数量,得到所述至少一个第一指标与所述需要判重的指标的相似度;
按照所述相似度从大到小的顺序对所述至少一个第一指标进行排序;
获取指标排序参数N;
获取排序后的至少一个第一指标中的前N个指标,得到所述第二指标。
7.根据权利要求1所述的方法,其中,对所述第二指标进行二次验证包括如下至少之一:
对所述第二指标和所述需要判重的指标进行血缘分析,判断所述第二指标与所述需要判重的指标是否一致,如果一致,则确定验证成功;
对所述第二指标和所述需要判重的指标进行逻辑分析,判断所述第二指标的口径与所述需要判重的指标的口径是否一致,如果一致,则确定验证成功。
8.一种数据仓库的指标检测装置,包括:
获取模块,用于如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;
处理模块,用于使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标;
其中,所述处理模块包括:分析子模块,用于将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取子模块,用于获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;验证子模块,用于对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;
其中,所述分析子模块还用于:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;
所述分析子模块还用于:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
9.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标;其中,所述使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
10.一种计算机设备,包括:处理器,所述处理器用于运行程序,其中,在所述程序运行时执行以下步骤:如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标;其中,所述使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
11.一种数据仓库的指标检测系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标;其中,所述使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
12.一种数据仓库的指标检测方法,包括:
接收在对业务执行不同操作的过程中,获取对应不同操作时所产生的业务数据;
如果检测数据仓库中存入了所述产生的业务数据,将所述业务数据作为需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;
使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述业务数据是否为重复数据;
在识别出所述业务数据是重复数据的情况下,将所述业务数据从所述数据仓库中删除;
其中,所述使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标;其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标;将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:获取所述需要判重的指标的指标类型;在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵中的每个实体和转换后的第四矩阵中相应实体的指标一致性,得到所述第一指标。
13.根据权利要求12所述的方法,其中,在对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,所述方法还包括:
对所述实体样本中所述需要判重的指标的指标值进行分布分析处理,得到所述实体样本的指标分布;
基于所述实体样本的指标分布对所述实体样本进行分层抽样处理,得到所述第二矩阵,其中,所述第二矩阵的指标分布与所述实体样本的指标分布一致。
CN201910086600.7A 2019-01-29 2019-01-29 数据仓库的指标检测方法、装置和系统 Active CN111488269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910086600.7A CN111488269B (zh) 2019-01-29 2019-01-29 数据仓库的指标检测方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910086600.7A CN111488269B (zh) 2019-01-29 2019-01-29 数据仓库的指标检测方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111488269A CN111488269A (zh) 2020-08-04
CN111488269B true CN111488269B (zh) 2023-11-14

Family

ID=71793892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910086600.7A Active CN111488269B (zh) 2019-01-29 2019-01-29 数据仓库的指标检测方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111488269B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920381B (zh) * 2021-12-15 2022-04-15 深圳市明源云科技有限公司 重复派生指标识别方法、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324915A (zh) * 2007-06-15 2008-12-17 华为技术有限公司 电子标签识别方法、射频识别系统和电子标签
CN103150260A (zh) * 2011-11-25 2013-06-12 华为数字技术(成都)有限公司 重复数据删除方法和装置
CN108460043A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 计算数据指标的方法和装置
CN108694195A (zh) * 2017-04-10 2018-10-23 腾讯科技(深圳)有限公司 一种分布式数据仓库的管理方法及系统
CN108959578A (zh) * 2018-07-06 2018-12-07 山东浪潮商用系统有限公司 一种税务数据碰撞分析方法
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817855B2 (en) * 2014-03-17 2017-11-14 SynerScope B.V. Method and system for determining a measure of overlap between data entries

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324915A (zh) * 2007-06-15 2008-12-17 华为技术有限公司 电子标签识别方法、射频识别系统和电子标签
CN103150260A (zh) * 2011-11-25 2013-06-12 华为数字技术(成都)有限公司 重复数据删除方法和装置
CN108460043A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 计算数据指标的方法和装置
CN108694195A (zh) * 2017-04-10 2018-10-23 腾讯科技(深圳)有限公司 一种分布式数据仓库的管理方法及系统
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备
CN108959578A (zh) * 2018-07-06 2018-12-07 山东浪潮商用系统有限公司 一种税务数据碰撞分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Diego Alvarez-Estevez等.Large-scale validation of an automatic EEG arousal detection algorithm using different heterogeneous databases.arxiv.2018,全文. *
梁红兵.银行数据仓库构建过程中的数据清洗及VIP客户的挖掘.中国硕士学位论文全文数据库.2014,全文. *
陈农心等.基于语义分析的信访信件判重方法研究与应用.信息系统工程.2016,(第10期),132-134. *

Also Published As

Publication number Publication date
CN111488269A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN109510737A (zh) 协议接口测试方法、装置、计算机设备和存储介质
CN109345417B (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN112669138A (zh) 数据处理方法及相关设备
CN110781251A (zh) 保险知识图谱生成方法、装置、设备及存储介质
CN106485261A (zh) 一种图像识别的方法和装置
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN110858353B (zh) 获取案件裁判结果的方法和系统
CN110929764A (zh) 图片审核方法和装置,电子设备及存储介质
CN108460068A (zh) 报表导入导出的方法、装置、存储介质及终端
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN112634017A (zh) 远程开卡激活方法、装置、电子设备及计算机存储介质
CN111488269B (zh) 数据仓库的指标检测方法、装置和系统
CN112508119A (zh) 特征挖掘组合方法、装置、设备及计算机可读存储介质
CN115455457B (zh) 基于智慧大数据的链数据管理方法、系统和存储介质
CN115658620B (zh) 一种基于大数据的数据授权共享方法及系统
CN116610583A (zh) Sca工具成熟度评价方法、装置、设备、介质和产品
CN116167457A (zh) 一种数据标注方法、装置、计算机设备和存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113837843B (zh) 产品推荐方法、装置、介质及电子设备
CN113657546B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN115063143A (zh) 账户数据处理方法、装置、计算机设备和存储介质
CN113269179A (zh) 数据处理方法、装置、设备及存储介质
CN112328779A (zh) 训练样本构建方法、装置、终端设备及存储介质
CN113807870B (zh) 车辆信息认证方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant