CN113486302A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN113486302A CN113486302A CN202110786822.7A CN202110786822A CN113486302A CN 113486302 A CN113486302 A CN 113486302A CN 202110786822 A CN202110786822 A CN 202110786822A CN 113486302 A CN113486302 A CN 113486302A
- Authority
- CN
- China
- Prior art keywords
- data
- detection
- value
- processed
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 684
- 230000002159 abnormal effect Effects 0.000 claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 143
- 238000012545 processing Methods 0.000 claims description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 description 19
- 238000012360 testing method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000010998 test method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本说明书提供数据处理方法及装置,其中所述数据处理方法包括:将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。实现了快速、准确的对异常数据进行识别,降低了企业出现安全风险的概率。
Description
技术领域
本说明书涉及计算机技术领域,特别涉及一种数据处理方法。本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网和金融行业的快速发展,涌现了大量的互联网金融企业,用户可以向互联网金融企业发起借款,而互联网金融企业则会基于用户个人数据评估出用户的信用等级,并根据用户的信用等级对用户进行放款,从而避免互联网金融企业向用户放款过程中,欺诈、违约等安全风险的发生。
但由于用户个人数据的来源多种多样,且数量较大,而现有技术中只能通过宽泛的规定对用户个人数据进行校验,无法准确识别出用户个人数据中的异常数据,增加了互联网金融企业出现安全风险的概率。
发明内容
有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:
将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;
基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:
获取模块,被配置为将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;
确定模块,被配置为基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现任意所述数据处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现任意所述数据处理方法的步骤。
本说明书提供的数据处理方法,通过将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得第一检测模块输出的检测数据的检测值,以及获得第二检测模块输出的检测数据的密度分布值;从而基于检测数据的检测值和检测数据的密度分布值,快速、准确的确定出检测数据是否为异常数据,降低了企业出现安全风险的概率,避免了安全风险对企业造成的损失。
附图说明
图1是本说明书一实施例提供的一种数据处理方法的流程图;
图2是本说明书一实施例提供的一种数据处理方法中符合正态分布规则的训练样本数据的示意图;
图3是本说明书一实施例提供的一种数据处理方法中通过Z-Score测试法计算出异常值的示意图;
图4是本说明书一实施例提供的一种数据处理方法中通过箱型图法计算出异常值的示意图;
图5是本说明书一实施例提供的一种应用于检测贷款金额数据是否为异常数据场景下的数据处理方法的处理流程图;
图6是本说明书一实施例提供的一种数据处理装置的结构示意图;
图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
数值型数据:可以为本金、利息、罚息、利率、逾期天数等数据。
IoT设备:物联网(Internet of Things)设备,简称为IoT设备,是指按约定的协议与网络相连接的设备,设备通过信息传播媒介进行信息交换和通信,以实现智能化识别、定位、跟踪、监管等功能。
密度分布:也叫概率密度分布,概率指事件随机发生的机率,对于均匀分布函数,密度分布等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
KNN模型:K-近邻(K-Nearest Neighbor)模型,简称为KNN模型,是一种即可用于分类又可用于回归的机器学习算法。
OCSVM模型:单类支持向量机(one class support vector machine)模型,简称为OCSVM模型,是一种用于进行异常数据检测的模型。
LOF模型:局部异常因子(Local Outlier Factor)模型,简称为LOF模型,是一种用于对数据进行清洗、剔除无效数据和异常数据的模型。
HBOS模型:基于直方图的异常值得分(Histogram-based Outlier Score)模型,是一种无监督训练模型。
Kolmogorov Smirnov(k-s)test:柯尔莫哥洛夫-斯米尔诺夫检验,用以检验数据是否符合某种分布,在本说明书实施例中,用于检测数据是否符合正态分布。
Lillifors test:是一种能够用于检测数据是否符合正态分布的检验方法。
BOX-COX变化:是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。
Log变化:对数变换,是一种数据转换方法。
Z-Score测试法:Z-Score也称为Z值,Z-Score测试法是一维或低维特征空间中的参数异常检测方法。该方法假定数据是正态分布,异常值是两边分布尾部的数据点,因此远离数据的平均值。
Tukey:也称为箱型图法,是一种用作显示一组数据分散情况资料的统计图。
Grubbs测试法:也称为格拉布斯检测法,Grubbs测试法是一种从数据中找出异常值的方法,使用Grubbs测试需要数据总体是符合正态分布的。
天空一体化的卫星:是指天空一体化系统中的卫星,该天空一体化系统是指利用卫星、无人机、无人船等设备构成的信息网络系统,用于实时的、大范围的对目标对象进行监测。
互联网金融企业在给用户(中小微企业和/或个人用户)授信的过程中,能够通过互联网金融企业自身存储的用户数据,再结合用户输入、合作伙伴、空天一体化的卫星以及IoT设备等提供的外部数据(单源数据)作为增信的来源;互联网金融企业通过自身存储的用户数据以及外部数据,对用户进行充分的分析、评估和授信,从而确保可以在无抵押的情况下对用户放款。
而太空中的空天一体化的卫星所产生的数据是否正常、农业贷款过程中农户所提供的自证数据是否就是农民真实拥有的农田的体现、合作机构(合作伙伴)提供的车辆贷款中的信息是否真实以及IoT设备产生的数据是否被人为干预等问题,都会直接或间接的影响到互联网金融企业对用户进行放款。
如果互联网金融企业获取到的单源数据质量存在问题,一方面会影响贷款的提额、降额,比如是否尽最大程度满足中小微客户的需要、是否及时降额避免引发坏账造成资损;另一方面,秉着严格遵从监管部门要求的态度,向监管呈报的数据必须是真实无误的。因此保证单源数据质量不存在问题,是互联网金融企业亟需解决的问题。
但是单源数据的来源不但多种多样,而且用户、软硬件每日产生的数据达到了数千万的量级。互联网金融企业自身存储的数据可以通过自身的检测、核对等方式保证其质量,但是单源数据想要保证其质量,通过现有技术几乎无法做到。原因在于,想要核对单源数据的正确性,但没有核对的对手方。现有技术中,核对方式是当上游数据不等于下游数据就提示数据存在异常,而在单源数据的场景下,互联网金融企业只能拿到下游数据,无法拿到源头数据,所以无法做一致性核对。例如,合作机构提供的贷款信息诸如本金、利息、罚息、利率、逾期天数等数据是否是真实有效的,现有技术中没有有效的识别手段。
因此,现有技术只能靠一些宽泛的硬规则对单源数据进行校验。在宽泛的规则治理下势必会有一些漏网之鱼,会有一些隐蔽的、不正确的数据混杂在其中。
基于此,在本说明书中,提供了一种数据处理方法,本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤102:将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值。
其中,检测数据可以理解为由用户主动提供或者第三方平台向数据处理平台提供的用户特征信息,该检测数据可以为任意一种类型的数据,例如数值型数据、字符型数据以及多媒体数据;为了便于理解,本说明书中仅以检测数据为数值型数据为例,对数据处理方法进行详细介绍。并且,数据处理方法的应用场景不同,对应的检测数据也不同;例如,数据处理方法应用在图书馆借书场景下,检测数据可以为学号、借书数量、借书日期;数据处理方法应用在借贷场景下,检测数据可以为贷款金额数据、本金、利息、罚息、利率、逾期天数。
数据处理平台可以理解为检测获取到的检测数据是否为异常数据的异常数据检测平台。
第三方平台可以理解为能够为数据处理平台提供检测数据的平台,该第三方平台可以包括但不限于车辆借贷平台、卫星平台以及IoT设备平台。
目标对象可以理解对检测数据进行检测的对象;实际应用中,目标对象可以看做一个对检测数据进行检测的检测模型;并且数据处理方法的应用场景不同,对应的目标对象也不同;例如在对图像进行异常检测的应用场景下,目标对象可以是异常图像检测模型,在对数值型数据进行异常检测的应用场景下,目标对象可以是异常数据检测模型。
在目标对象为检测模型的情况下,第一检测模块可以理解为检测模型的第一检测层,该第二检测模块可以理解为检测模型的第二检测层。
检测数据的检测值可以理解为进行归一化处理之后的检测数据;在检测数据为数值型数据的情况下,数据处理平台接收到的检测数据可以为贷款金额数据、贷款利率;但是贷款金额数据、贷款利率之间具有较大的差异,例如,贷款金额数据可以为9320000、25000000;贷款利率可以为0.167332、0.1288;基于此,数据处理平台通过目标对象的第一检测模块将贷款金额数据、贷款利率进行归一化处理;将贷款金额数据、贷款利率按比例缩放,映射到一个的数值区间内,该数值区间可以为[0,1],[-1,1];便于后续对检测数据进行处理。
密度分布值可以理解为表征检测数据的密度分布的数值;在检测数据为贷款金额数据的情况下,密度分布值可以理解为表征贷款金额数据的密度分布的数值。
具体地,数据处理平台将获取到的检测数据输入至目标对象的第一检测模块和第二检测模块,基于该第一检测模块对检测数据进行检测,获得第一检测模块输出的检测数据的检测值;基于该第二检测模块对检测数据进行检测,获得第二检测模块输出的所述检测数据的密度分布值。
举例说明,以数据处理方法应用在对用户的贷款金额进行检测的场景为例,对通过目标对象获得检测数据的检测值以及密度分布值进行详细说明,其中,检测数据可以为借贷平台提供的多条用户的贷款金额数据,比如该贷款金额数据为100条,数据处理平台可以为异常数据检测平台,第三方平台可以为借贷平台,目标对象可以为对贷款金额数据中的异常数据进行检测的异常检测模型,以下简称为异常检测模型;第一检测模块可以理解为异常检测模型的第一异常检测层,第二检测模块可以理解为异常检测模型的第二异常检测层。
异常数据检测平台能够获取到借贷平台所提供的100条贷款金额数据后,并将该贷款金额数据输入至异常检测模型的第一异常检测层以及第二异常检测层中。
在异常检测模型的第一异常检测层接收到100条贷款金额数据之后,对该贷款金额数据进行归一化处理,获得该100条贷款金额数据一一对应的检测值,并将该检测值进行输出。
在异常检测模型的第二异常检测层接收到100条贷款金额数据之后,能够对该贷款金额的密度分布进行检测,从而确定出100条贷款金额的密度分布值,并将该密度分布值进行输出。
在实际应用中,异常检测模型的第一异常检测层可以是由KNN模型和OCSVM模型共同构成的异常值检测模型,通过KNN模型和OCSVM模型对检测数据进行检测;异常检测模型的第二异常检测层可以是由LOF模型和HBOS模型共同构成的密度检测模型,通过LOF模型和HBOS模型对检测数据的密度分布值进行检测。
步骤104:基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
其中,异常数据可以理解为存在异常的检测数据,例如,在检测数据为贷款金额数据的情况下,异常数据可以为金额为0的贷款金额数据;在检测数据为借书数量的情况下,异常数据可以为数量为-1的借书数量。
具体地,数据处理平台在通过目标对象获取到检测数据的检测值和检测数据的密度分布值之后,基于检测数据的检测值和密度分布值,确定检测数据是否为异常数据。
进一步的,基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据的具体实现方式如下所述:
所述基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据,包括:
在所述检测数据的检测值位于目标检测值区间外的情况下,确定所述检测数据为异常数据,或者
在所述检测数据的密度分布值与目标密度分布值的偏差度大于等于目标偏差阈值的情况下,确定所述检测数据为异常数据。
其中,目标检测值区间可以理解为通过历史检测数据确定的、用于判断检测数据是否为异常的区间;在本说明书实施例中,通过目标对象的第一检测模块对训练样本数据中异常数据与非异常数据的区间分布规律进行计算,并将非异常数据的分布区间作为目标检测值区间;当检测数据的检测值位于目标检测值区间内的情况下,该检测数据为非异常数据,当检测数据的检测值位于目标检测值区间外的情况下,该检测数据为异常数据。
目标密度分布值可以理解为通过历史检测数据确定的,用于判断检测数据的密度分布是否符合为正常的密度分布值,在本说明书实施例中,通过目标对象的第二检测模块对训练样本数据的密度分布进行检测,确定出训练样本数据的密度分布规律,并根据该密度分布规律确定出用于对检测数据进行检测的目标密度分布值。
偏差度可以理解为表示检测数据的密度分布值与目标密度分布值之间偏差大小的数值,该偏差度为非负数;在表示检测数据的密度分布值与目标密度分布值之间偏差大小的数值为负数的情况下,获取该数值的相反数,并将该相反数作为偏差度;在表示检测数据的密度分布值与目标密度分布值之间偏差大小的数值为正数的情况下,将该数值作为偏差度。
目标偏差阈值可以理解为用于限定正常检测数据的密度分布值与目标密度分布值之间的偏差大小的阈值,在实际应用中,由于检测数据的多种多样,每个检测数据的密度分布值与目标密度分布值不会完全一致,因此通过目标偏差阈值限定检测数据的密度分布值与目标密度分布值之间的偏差大小。目标偏差阈值可以根据实际需要进行设置,本说明书对此不做任何限定。
具体地,数据处理平台在获取到所述检测数据的检测值和密度分布值后,能够基于该检测值和密度分布值对所述检测数据是否为异常数据进行确定;在检测数据的检测值位于目标检测值区间外的情况下,确定该检测数据为异常数据,或者在检测数据的密度分布值与目标密度分布值的偏差度大于等于目标偏差阈值的情况下,确定该检测数据为异常数据。
沿用上例,对通过检测值与密度分布值确定检测数据是否为异常数据进行详细说明。
异常数据检测平台在通过异常检测模型获取到100条贷款金额数据的检测值以及密度分布值之后;通过异常检测模型的第一检测层可以判断出该贷款金额数据对应的100条检测值是否全部位于目标检测值区间内,若是,则表示贷款金额数据中不存在异常的贷款金额数据,该贷款金额数据为正常数据;若否,则表示贷款金额数据中存在异常的贷款金额数据,该贷款金额数据为异常数据。
或者,异常数据检测平台可以将该贷款金额数据的密度分布值与目标密度分布值做差,并计算出两者之间差值,在该差值为正数的情况下,并将该差值作为贷款金额数据的密度分布值与目标密度分布值的偏差度;在该差值为负数的情况下,获取该差值的相反数,并将该相反数作为贷款金额数据的密度分布值与目标密度分布值的偏差度;判断该偏差度是否大于等于目标偏差阈值,若是,则表示贷款金额数据的密度分布存在异常,从而将该贷款金额数据确定为异常数据;若否,则表示贷款金额数据的密度分布不存在异常,该贷款金额数据为是非异常数据。
本说明书实施例中,通过判断检测数据的检测值是否位于目标检测值区间内、或者判断检测数据的密度分布值与目标密度分布值的偏差度是否大于等于目标偏差阈值,这两个检测维度对异常数据进行检测,从而精准、有效的判断出获取到的检测数据是否为异常数据,避免了由于异常数据对企业造成的损失。
此外,在本说明书实施例在通过目标对象获得检测数据的检测值以及密度分布值之前,还需要对该目标对象进行生成;从而实现基于目标对象获得到的检测数据的检测值以及密度分布值,确定出检测数据是否为异常数据;具体实现生成目标对象方式如下所述:
所述将获取的检测数据输入目标对象的第一检测模块和第二检测模块之前,还包括步骤1042至步骤1048:
步骤1402:在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据。
其中,初始数据可以理解为能够用于对初始对象进行处理的数据,在初始对象为待训练检测模型的情况下,初始数据可以理解为能够用于对待训练检测模型进行训练的初始样本数据。
预设判定条件可以根据实际应用进行设置,例如预设判断条件包括初始数据是否符合正态分布规则。
在初始数据为初始样本数据的情况下,待处理数据可以理解为满足预设判定条件的初始样本数据,本说明书实施例中,将满足预设判定条件的初始样本数据确定为用于对检测模型进行训练的训练样本数据。
具体地,数据处理平台在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据。
进一步地,在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据,还包括:
在获得的初始样本数据满足预设判定条件的情况下,将所述初始样本数据确定为训练样本数据。
其中,初始样本数据可以理解为用于对待训练检测模型进行训练的样本数据,在实际应用中,目标对象的不同,初始数据也会不同,例如目标对象为针对贷款金额数据中的异常金额数据进行检测的异常检测模型,相应地,初始数据可以为历史贷款金额数据,比如,历史贷款金额数据可以是9320000、2500000。
预设判定条件可以为初始样本数据是否为正态分布。
训练样本数据可以理解为满足预设判定条件的初始样本数据,在预设判定条件为是否为正态分布的情况下,该训练样本数据可以为满足正态分布的初始样本数据。
具体地,在获得的初始样本数据满足预设判定条件的情况下,将所述初始样本数据确定为训练样本数据。
沿用上例,对确定待处理数据做进一步详细说明,在异常数据检测平台通过异常检测模型获得贷款金额数据的检测值以及密度分布值之前,还需要对待训练的异常检测模型进行训练,从而获得训练完成的异常检测模型,从而实现通过异常检测模型检测出的检测值以及密度分布值,确定借贷平台提供的贷款金额数据是否为异常数据。
而对待训练的异常检测模型进行训练,首先需要获取到初始样本数据,并对该初始样本数据进行判定,在该初始样本数据满足正态分布规则的情况下,将初始样本数据确定为用于对训练的异常检测模型进行训练的训练样本数据。
本说明书实施例中,通过将满足预设判定条件的初始样本数据确定为训练样本数据,实现了后续通过满足预设判定的训练样本数据对待训练检测模型进行训练,从而有效的提高了完成训练的异常检测模型的性能。
步骤1044:根据初始对象的第一检测模块对所述待处理数据进行检测,获得所述待处理数据的检测值,基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间。
其中,在目标对象为检测模型的情况下,初始对象可以为待训练检测模型。
具体地,数据处理平台根据初始对象的第一检测模块对待处理数据进行检测,获得待处理数据的检测值,基于待处理数据的检测值确定待处理数据的目标检测值区间。
进一步的,所述根据初始对象的第一检测模块对所述待处理数据进行检测,获得所述待处理数据的检测值,基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间,还包括:
根据待训练检测模型的第一检测层对所述训练样本数据进行检测,获得所述训练样本数据的检测值,基于所述训练样本数据的检测值确定所述训练样本数据的目标检测值区间。
其中,待训练检测模型的第一检测层可以为由KNN和OCSVM共同构成的异常值检测模型,通过该异常值检测模型能够确定训练样本数据的目标检测值区间。
具体地,数据处理平台在确定训练样本数据之后,根据待训练检测模型的第一检测层对训练样本数据进行检测,获得训练样本数据的检测值,基于训练样本数据的检测值确定训练样本数据的目标检测值区间。
沿用上例,对基于训练样本数据的检测值确定训练样本数据的目标检测值区间做进一步详细描述。
在确定训练样本数据后,异常数据检测平台将该训练样本数据输入至待训练的异常检测模型的第一检测层,该第一检测层是由KNN和OCSVM共同构成的异常值检测模型,通过该异常值检测模型对训练样本数据进行归一化处理,获得训练样本数据对应的检测值;之后该第一检测层将训练样本数据的检测值作为运算参数,通过检测值算法计算出训练样本数据对应的目标检测值区间。
本说明书实施例中,通过待训练检测模型的第一检测层对训练样本数据进行检测,获得训练样本数据的检测值,从而保证了训练样本数据的一致性,并且基于训练样本数据的检测值确定训练样本数据的目标检测值区间;避免了后续对检测数据进行检测过程中出现异常值误报的情况,实现了通过检测模型有效的对检测数据是否为异常数据进行检测。
步骤1046:根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值。
具体地,根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值。
进一步的,所述根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值,还包括:
根据所述待训练检测模型的第二检测层对所述训练样本数据进行检测,获得所述训练样本数据的目标密度分布值以及目标偏差阈值。
其中,待训练检测模型的第二检测层可以理解为由LOF模型与HBOS模型共同构成的密度检测模型。
具体地,根据待训练检测模型的第二检测层对训练样本数据进行检测,获得训练样本数据的目标密度分布值以及目标偏差阈值。
沿用上例。对获得训练样本数据的目标密度分布值以及目标偏差阈值进行详细说明。
异常数据检测平台将训练样本数据输入至待训练的异常检测模型的第二检测层中,该第二检测层是由LOF模型与HBOS模型共同构成的密度检测模型;通过使用LOF模型与HBOS模型对训练样本数据进行检测,获得该训练样本数据的目标密度分布值,在基于该目标密度分布值确定出目标偏差阈值。
本说明书实施例中,根据待训练检测模型的第二检测层对训练样本数据进行检测,获得训练样本数据的目标密度分布值以及目标偏差阈值,实现从密度分布的维度对检测数据进行检测,进一步提高了训练完成的检测模型的性能。
步骤1048:根据所述待处理数据以及所述待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述初始对象进行处理,生成目标对象。
其中,目标对象包括第一检测模块和第二检测模块。
具体地,数据处理平台根据待处理数据以及待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对初始对象进行处理,生成目标对象。
进一步的,所述根据所述待处理数据以及所述待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述初始对象进行处理,生成目标对象,还包括:
根据所述训练样本数据以及所述训练样本数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述待训练检测模型进行训练,生成训练后的检测模型。
具体地,基于待训练检测模型的第一检测层获取的训练样本数据的目标检测值区间、第二检测层获取的训练样本数据的目标密度分布值、目标偏差阈值以及训练样本数据对待训练检测模型进行训练,生成训练后的检测模型。
沿用上例,对生成训练后的检测模型做进一步详细说明。
数据处理平台将该训练样本数据以及训练样本数据对应的目标检测值区间、目标密度分布值、目标偏差阈值作为训练输入,输入至待训练的异常检测模型中,对待训练的异常检测模型进行训练,从而获得训练完成的异常检测模型。
本说明书实施例中,通过待处理数据以及基于初始对象的第一检测模块和第二检测模块获得的待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值,对初始对象进行处理,生成目标对象,从而实现了后续通过目标对象确定出检测数据是否为异常数据,降低了企业出现安全风险的概率,避免了违约、逾期等安全风险对企业造成的损失。
本说明书实施例中,通过满足预设判定条件的待处理数据以及通过初始对象的第一检测模块确定的目标检测值区间、初始对象的第二检测模块获得的目标密度分布值以及目标偏差阈值,对初始对象进行处理,保证了目标对象的性能,避免了后续目标对象在对检测数据进行检测过程中误报情况的发生,基于生成的目标对象,实现了后续快速、准确的对异常数据进行识别,降低了企业出现安全风险的概率。
在生成目标对象的过程中,如果仅通过初始数据对初始对象进行处理,可能会导致生成的目标对象的性能较低,例如在生成训练完成的检测模型的过程中,如果通过初始样本对象而不是通过符合正态分布规则的待处理数据,对待训练的检测模型进行训练,可能会导致训练完成的检测模型在进行检测的过程中准确性较低;在这种情况下,通过将满足预设判定条件的初始数据确定为待处理数据,以解决上述问题,具体实现方式如下所述:
所述在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据,还包括:
获得初始数据,判断所述初始数据是否满足正态分布,
若是,则将所述初始数据确定为待处理数据;
若否,则按照正态分布规则对所述初始数据进行转换,并在转换成功的情况下,将转换后的初始数据确定为待处理数据。
具体地,数据处理平台在获取到初始数据之后,需要判断该初始数据是否满足正态分布,若是,则将该初始数据确定为待处理数据;若否,则按照正态分布规则对该初始数据进行转换,并在转换成功的情况下,将转换后的初始数据确定为待处理数据。
沿用上例,对将初始数据确定为待处理数据做进一步详细说明;在生成训练完成的异常检测模型的过程中,如果通过符合正态分布的样本数据对待训练异常检测模型进行训练,可以提高训练完成的异常检测模型的性能。
基于此,参见图2,图2为本说明书一实施例提供的一种数据处理方法中符合正态分布规则的训练样本数据的示意图。异常数据检测平台在获取到初始样本数据之后,通过检验算法对该初始样本数据进行检验,从而判断出该初始样本数据是否符合正态分布。
具体地,符合正态分布的初始样本数据可以通过图2中阴影区域进行表示,其中0.0、0.1、0.2、0.3、0.4等数据用于表示初始样本数据的概率密度;数值0用于表示的初始样本数据平均值,数值-1σ、1σ为一个标准差,数值-1σ、1σ与数值0之间的区域范围,用于表示距离平均值小于一个标准差的初始样本数据,此区域范围所占比率约为全部初始样本数据的68.2%(34.1%+34.1%);数值-2σ、2σ为两个标准差,数值-2σ、2σ与数值0之间的区域范围,用于表示距离平均值小于两个标准差的初始样本数据,此区域范围所占比率约为全部初始样本数据的95.4%(68.2%+13.6%*2);数值-3σ、3σ为三个标准差,数值-3σ、3σ与数值0之间的区域范围,用于表示距离平均值小于三个标准差的初始样本数据,此区域范围所占比率约为全部初始样本数据的99.6%(95.4%+2.1%*2);数值-3σ、3σ远离数值0之外的区域范围,表示距离平均值大于三个标准差的初始样本数据,此区域范围所占比率约为全部初始样本数据的0.2%(0.1%+0.1%)。
在该初始样本数据符合正态分布的情况下,则将该初始样本数据确定为训练样本数据,通过该训练样本数据对待训练异常检测模型进行训练。
在该初始样本数据不符合正态分布的情况下,则通过变换算法按照正态分布规则,将该初始样本数据转换为符合正态分布的初始样本数据,在转换成功的情况下,将转换成功的初始样本数据确定为训练样本数据,得到训练所需要的、满足正态分布的数据,并通过该训练样本数据对待训练异常检测模型进行训练。
在实际应用过程中,该检验算法可以是任意一种检验数据是否符合正态分布的算法,本说明书实施例中,可以根据实际应用的需要通过任意检验算法对初始样本数据进行检验,本说明书实施例对此不做任何限定;例如检验算法可以为Kolmogorov Smirnov(k-s)test、Lillifors test等检验算法。
该变换算法可以是任意一种能够将不符合正态分布的数据转换为符合正态分布的算法,本说明书实施例中,可以根据实际应用的需要通过任意变换算法将不符合正态分布的初始样本数据转换为符合正态分布的初始样本数据,本说明书实施例对此不做任何限定。例如变换算法可以为BOX-COX变化、Log变化等变换算法。
本说明书实施例中,通过将满足正态分布的初始数据确定为待处理数据,实现了后续通过符合正态分布的待处理数据对初始对象进行处理,提高了目标对象的性能,并且,在初始数据不符合正态分布的情况下,按照正态分布规则对初始数据进行转换,并将转换成功的初始数据确定为待处理数据,增强了数据处理平台对于初始数据的适应性,提高了对初始对象进行处理的效率。
但在另一种情况下,当按照正态分布规则对所述初始数据进行转换的过程中,出现转换失败的情况时,数据处理平台则无法确定用于对初始对象进行处理的待处理数据。
基于此,所述按照正态分布规则对所述初始数据进行转换之后,还包括:
在转换失败的情况下,重新获取候选数据,并对所述候选数据进行正态分布判定。
其中,候选数据可以理解为在无法将初始数据确定为待处理数据时,数据处理平台重新获取的数据。
具体地,数据处理平台在按照正态分布规则对初始数据进行转换,在转换失败的情况下,重新获取候选数据,并对候选数据进行正态分布判定。
沿用上例,对在转换失败的情况下重新获取候选数据进行详细说明,异常数据检测平台通过变换算法对不符合正态分布的初始样本数据进行转换的过程中,如果出现转换失败的情况,则会从离线数据表中重新获取候选数据,并通过检验算法对候选数据进行检验,从而判断出该候选数据是否符合正态分布。
本说明书实施例中,在转换失败的情况下重新获取候选数据,并对该候选数据进行正态分布判定,避免了使用不符合正态分布的初始数据对初始对象进行处理,导致生成的目标对象性能较低的风险,有效的保证了目标对象的性能。
在通过初始对象的第一检测模型获得待处理数据的检测值之后,能够通过检测值算法计算出待处理数据的目标检测值区间,在实际应用中,若仅通过一种检测值算法对目标检测值区间进行计算,可能无法充分考虑到待处理数据具有多样性的特点,从而导致计算出的目标检测值区间存在异常,对目标对象的性能造成影响。
基于此,所述基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间,包括:
将所述待处理数据的检测值通过第一检测值算法进行计算,获得所述待处理数据的第一检测值区间;
将所述待处理数据的检测值通过第二检测值算法进行计算,获得所述待处理数据的第二检测值区间;
将所述待处理数据的检测值通过第三检测值算法进行计算,获得所述待处理数据的第三检测值区间;
基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间。
其中,第一检测值算法可以理解为第一种用于计算出待处理数据的第一检测值区间的算法,具体可以为Z-Score测试法。
第二检测值算法可以理解为第二种用于计算出待处理数据的第二检测值区间的算法,具体可以为Tukey箱型图法。
第三检测值算法可以理解为第二种用于计算出待处理数据的第三检测值区间的算法,具体可以为Grubbs测试法。
具体地,数据处理平台在获得待处理数据的检测值之后,首先,将待处理数据的检测值通过第一检测值算法进行计算,获得待处理数据的第一检测值区间;其次,将待处理数据的检测值通过第二检测值算法进行计算,获得待处理数据的第二检测值区间;然后,将待处理数据的检测值通过第三检测值算法进行计算,获得待处理数据的第三检测值区间;基于第一检测值区间、第二检测值区间以及第三检测值区间,确定待处理数据的目标检测值区间。
沿用上例,对通过第一检测值算法、第二检测值算法以及第三检测值算法确定目标检测值区间进行详细说明。
待训练的异常检测模型的第一检测层在获得训练样本数据的检测值之后,首先,第一检测层通过Z-Score测试法算计出训练样本数据的第一检测值区间。
具体地,如图3所示,图3是本说明书一实施例提供的一种数据处理方法中通过Z-Score测试法计算出异常值的示意图。Z-Score测试法假定数据是正态分布,异常值是两边分布尾部的数据点,因此,当通过Z-Score测试法对符合正态分布规则的检测值进行检测时,检测值中的异常值就是位于正态分布两侧尾部区域内的检测值,将该区域内的检测值确定为异常值,并将正常检测值所处的区间,确定为训练样本数据的第一检测值区间。而异常值所处的区域与正态分布的中心值之间距离的远近,取决于使用公式计算出的归一化数据点Zi的设定阈值Zthr,若ZI>Zthr则认为该Zi对应的检测值为异常值。计算归一化数据点Zi的公式为:Zi=(Xi-μ)/σ,其中,Xi为一个检测值,σ为所有检测值的Xi的标准偏差,μ为所有检测值的Xi的平均值。Zthr可以根据实际应用进行设置,本说明书实施例对此不做任何限定。Zthr可以被设定为2.5、3.0或3.5。
其次,通过箱型图法算计出训练样本数据的第二检测值区间,具体地,符合正态分布规则的检测值的平均值μ以及的标准偏差σ,极易受到个别异常值的影响,从而影响判定的有效性,因此,第一检测层通过引入箱型图法对检测值中的异常值进行检测。异常值可以通过IQR(Inter Quartile Range)计算得到。计算第一分位数Q1和第三四分位数Q3,异常值是位于四分位数范围之外的检测值Xi。
如图4所示,图4是本说明书一实施例提供的一种数据处理方法中通过箱型图法计算出异常值的示意图。图中IQR(四分位间距)通过Q3-Q1获得,区间(Q1,Q3)涵盖了符合正态分布的检测值最中间的50%的数据,具有稳健性。若检测值落在(Q1-1.5IQR,Q3+1.5IQR)范围内则认为是正常值,待训练的异常检测模型的第一检测层将(Q1-1.5IQR,Q3+1.5IQR)范围确定为第二检测值区间;若检测值落在(Q1-1.5IQR,Q3+1.5IQR)范围外则认为是异常值。
最后,通过Grubbs测试法算计出训练样本数据的第三检测值区间,具体地,待训练的异常检测模型的第一检测层将检测值按照从小到大的顺序进行排序,并计算出符合正态分布规则的检测值的平均值μ以及的标准偏差σ。
计算最小检测值与平均值μ之间的差值以及计算最大检测值与平均值μ之间的差值,将两者差值中,较大差值对应的检测值确定为可疑检测值。计算出可疑检测值的standard score(标准分值),如果该标准分值大于Grubbs临界值,那么该可疑检测值就是异常值。
根据Grubbs测试法算计出检测值中的异常值之后,基于检测值中异常值与正常检测值的分布规律,第一检测层将正常检测值的所处的区间确定为第三检测值区间。
待训练检测模型的第一检测层基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间。
本说明书实施例中,通过将待处理数据的检测值通过第二检测值算法、第二检测值算法以及第三检测值算法进行计算,获得所述待处理数据的第一检测值区间、所述第二检测值区间以及所述第三检测值区间,并基于第一检测值区间、第二检测值区间以及第三检测值区间,精准的确定待处理数据的目标检测值区间,通过三种方法的结合,避免了后续对检测数据进行检测过程中异常值的误报,提高了检测的准确率,实现了后续有效的对检测数据是否为异常数据进行检测。
进一步地,所述基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间,包括:
获取所述第一检测值区间的最大值与最小值、所述第二检测值区间的最大值与最小值以及所述第三检测值区间的最大值与最小值;
基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间的最大值与最小值,确定所述待处理数据的目标检测值区间。
具体地,数据处理平台在获取到待处理数据的第一检测值区间、第二检测值区间以及第三检测值区间之后,获取第一检测值区间的最大值与最小值、第二检测值区间的最大值与最小值以及第三检测值区间的最大值与最小值;基于第一检测值区间、第二检测值区间以及第三检测值区间的最大值与最小值,确定待处理数据的目标检测值区间。
沿用上例,对通过第一检测值区间、第二检测值区间以及第三检测值区间的最大值以及最小值确定待处理数据的目标检测值区间做进一步详细说明。
待训练检测模型的第一检测层在获取到待处理数据的第一检测值区间、第二检测值区间以及第三检测值区间之后,分别获取第一检测值区间的最大值与最小值、第二检测值区间的最大值与最小值以及第三检测值区间的最大值与最小值。
将第一检测值区间的最大值、第二检测值区间的最大值以及第三检测值区间的最大值的大小进行比较,并获取三者之中的最大值;将第一检测值区间的最小值、第二检测值区间的最小值以及第三检测值区间的最小值的大小进行比较,并获取三者之中的最小值。基于三者之中的最大值以及最小值,确定目标检测值区间。
本说明书实施例中,基于获取到的第一检测值区间、第二检测值区间以及第三检测值区间的最大值与最小值,精准的确定待处理数据的目标检测值区间,避免了后续对检测数据进行检测过程中异常值的误报,提高了检测的准确率,实现了后续有效的对检测数据是否为异常数据进行检测。
在本说明书实施例中,如果仅通过第一检测模块生成的目标检测值区间对初始对象进行处理,可能会导致生成的目标对象在检测过程中存在准确率低、误报率高的问题,这是因为若仅仅从是否满足目标检测值区间这一维度对检测数据进行检测;那么目标对象无法检测出满足目标检测值区间、但密度分布存在错误的检测数据,导致检测过程中出现误报,增加了企业的安全风险。基于此,本说明书通过初始对象的第二检测模块获得待处理数据的目标密度分布值以及目标偏差阈值,实现了从密度分布的维度进行检测,具体实现方式包括:
所述根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值,包括:
根据所述初始对象的第二检测模块将所述待处理数据划分为至少两个待处理数据子集,并对每个待处理数据子集进行检测,获取每个待处理数据子集的密度分布值;
基于所述每个待处理数据子集的密度分布值确定出所述待处理数据的目标密度分布值以及目标偏差阈值。
具体地,数据处理平台将待处理数据输入至初始对象的第二检测模块中,根据初始对象的第二检测模块将待处理数据划分为至少两个待处理数据子集,并对每个待处理数据子集进行检测,获取每个待处理数据子集的密度分布值;基于每个待处理数据子集的密度分布值确定出待处理数据的目标密度分布值以及目标偏差阈值。
沿用上例,对基于每个待处理数据子集的密度分布值确定出待处理数据的目标密度分布值以及目标偏差阈值进行详细说明。
数据处理平台将确定的样本训练数据输入至待训练检测的第二检测层,该第二检测层是一个将LOF模型与HBOS模型进行结合,生成的密度检测子模型。
该密度检测子模型在接收到样本训练数据之后,通过LOF模型将样本训练数据划分为至少两个样本训练数据子集,并通过HBOS模型对每个样本训练数据子集的密度分布值进行检测,获得每个样本训练数据子集的密度分布值。
该密度检测子模型基于每个样本训练数据子集的密度分布值,确定出训练样本数据的目标密度分布值,并根据训练样本数据的目标密度分布值以及每个样本训练数据子集的密度分布值,确定出训练样本数据的目标偏差阈值。
本说明书实施例中,通过第二检测模块将待处理数据划分为至少两个待处理数据子集,并获取每个待处理数据子集的密度分布值;之后基于每个待处理数据子集的密度分布值确定出待处理数据的目标密度分布值以及目标偏差阈值。进一步提高了生成的目标对象的性能,实现了后续通过目标对象确定出检测数据是否为异常数据的准确度,避免了互联网金融企业的损失。
进一步地,所述基于所述每个待处理数据子集的密度分布值确定出所述待处理数据的目标密度分布值以及目标偏差阈值,包括:
基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,计算平均密度分布值,并将所述平均密度分布值作为所述待处理数据的目标密度分布值;
基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,确定最大密度分布值与最小密度分布值;
基于所述最大密度分布值、所述最小密度分布值以及所述平均密度分布值,确定出所述待处理数据的目标偏差阈值。
具体地,初始对象的第二检测模型基于至少两个待处理数据子集中的每个待处理数据子集的密度分布值,计算平均密度分布值,并将平均密度分布值作为待处理数据的目标密度分布值;基于至少两个待处理数据子集中的每个待处理数据子集的密度分布值,确定最大密度分布值与最小密度分布值;基于最大密度分布值、最小密度分布值以及平均密度分布值,确定出待处理数据的目标偏差阈值。
沿用上例,对基于每个待处理数据子集的密度分布值确定出待处理数据的目标密度分布值以及目标偏差阈值做进一步详细说明。
待训练检测模型的密度检测子模型在获取到至少两个训练样本数据子集中的每个训练样本数据子集的密度分布值之后,将每个训练样本数据子集的密度分布值相加获得总密度分布值,并将该总密度分布值与每个训练样本数据子集的数量做除法,从而计算出一个计算平均密度分布值,并将该平均密度分布值作为训练样本数据的目标密度分布值。
在确定出训练样本数据的目标密度分布值之后,从至少两个训练样本数据中的每个训练样本数据子集的密度分布值的大小进行比较,确定出最大密度分布值与最小密度分布值。
将最大密度分布值与该平均密度分布值做减法,获得最大密度分布值与该平均密度分布值的差值,并根据该差值确定出第一差值,该第一差值为正数;在最大密度分布值与平均密度分布值的差值为正数的情况下,将该差值确定为第一差值;在最大密度分布值与平均密度分布值的差值为负数的情况下,获取该差值的相反数,将该相反数确定为第一差值。
将最小密度分布值与该平均密度分布值做减法,获得最小密度分布值与该平均密度分布值的差值,并根据该差值确定出第二差值,该第二差值为正数;在最大密度分布值与平均密度分布值的差值为正数的情况下,将该差值确定为第二差值;在最大密度分布值与平均密度分布值的差值为负数的情况下,获取该差值的相反数,将该相反数确定为第二差值。
将该第一差值与该第二差值相加并除以2,从而获得训练样本数据的目标偏差阈值。
本说明书实施例中,将通过至少两个待处理数据子集中的每个待处理数据子集的密度分布值计算出平均密度分布值,作为待处理数据的目标密度分布值;并基于平均密度分布值以及至少两个待处理数据子集中的每个待处理数据子集的密度分布值,确定最大密度分布值与最小密度分布值确定出待处理数据的目标偏差阈值。进一步提高了生成的目标对象的性能,实现了后续通过目标对象确定出检测数据是否为异常数据的准确度,降低了企业出现安全风险的概率。
本说明书提供的数据处理方法,通过将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得第一检测模块输出的检测数据的检测值,以及获得第二检测模块输出的检测数据的密度分布值;从而基于检测数据的检测值和检测数据的密度分布值,快速、准确的确定出检测数据是否为异常数据,降低了企业出现安全风险的概率,避免了违约、逾期等安全风险对企业造成的损失。
下述结合附图5,以本说明书提供的数据处理方法在检测贷款金额数据是否为异常数据场景下的应用为例,对所述数据处理方法进行进一步说明。其中,图5示出了本说明书一实施例提供的一种应用于检测贷款金额数据是否为异常数据场景下的数据处理方法的处理流程图,具体包括以下步骤:
步骤502:获取训练数据。
其中,训练数据可以理解为上述实施例中的初始数据。
具体地,数据处理平台从离线表中获取数值型数据作为训练数据,该数值型数据是表示数量、可以进行数值运算的数据类型。数值型数据由数字、小数点、正负号和表示乘幂的字母E组成,数值精度达16位。数值型数据又分为4种不同类型:数值型(Numeric)、浮点型(FLOAT)、双精度型(DOUBLE)、整型(INTEGER)。该数值型数据可以是价格、本金、罚息、利率、费率等。比如,在数值型数据为价格的情况下,具体可以为9320000、25000000;在数值型数据为利率的情况下,具体可以为0.167332、0.1288。
步骤504:判断数据是否符合正态分布。
具体地,数据的分布是多种多样的,而数值型数据大多符合正态分布规则,或者将数值型数据进行转换后能够符合正态分布,因此,需要对训练数据进行判定,使用Kolmogorov Smirnov(k-s)test、Lillifors test等检验方法,判定获取到训练数据是否符合正态分布。
若是,则执行步骤508和步骤510与步骤512,实现通过符合正态分布的训练数据对待训练检测模型进行训练。
在本说明书实施例中,步骤508和步骤510与步骤512为并列关系。实际应用中,步骤508和步骤510与步骤512的执行先后顺序可以根据实际需要进行调整,或者步骤508和步骤510与步骤512也可以根据实际需要同时执行,本说明书不做具体限定。
若否,则执行步骤506。
步骤506:通过BOX-COX变化、Log变化是数据符合正态分布。
具体地,在训练数据不符合正态分布的情况下,通过使用BOX-COX变化、Log变化等变化方法对不符合正态分布的训练数据进行转换,获得符合正态分布的训练数据,并将该训练数据作为训练输入,对待训练检测模型进行训练。
步骤508:使用Z-Score法、Box法、Grubbs法进行异常阈值区间判断。
其中,Box法可以理解为上述实施例中的箱型图法;异常阈值区间可以理解为上述实施例中的目标检测值区间。
具体地,在训练数据符合正态分布的情况下,将该训练数据输入至由KNN和OCSVM共同构成的异常值检测模型中,该异常值检测模型通过使用Z-Score法对训练数据进行检测,获得Z-Score法检测出的异常阈值区间(Z-scoremin,Z-scoremax)。
通过使用Box法对训练数据进行检测,获得通过Box法检测出的异常阈值区间(Tukeymin,Tukeymax,)。
通过使用Grubbs法对训练数据进行检测,获得通过Grubbs法检测出的异常阈值区间(Grubbsmin,Grubbsmax)。
将上述三种检测方法获得异常阈值区间进行结合,选择[min(Z-scoremin,Tukeymin,Grubbsmin),max(Z-scoremax,Tukeymax,Grubbsmax)]作为总异常阈值区间。
步骤510:使用KNN和OCSVM通过密度/距离等方式找到除最大值/最小端的异常值。
具体地,在获取到总异常阈值区间之后,通过训练数据对由KNN和OCSVM共同构成的异常值检测模型进行训练,该异常值检测模型基于异常阈值区间对训练数据中的异常值进行判定,通过密度/距离等方式找到除最大端和最小端之外的异常值。
在训练数据中的数值的位于异常阈值区间内的情况下,该数值为正常值,在训练数据中的数值位于异常阈值区间外的情况下,该数值为异常值。
步骤512:通过LOF和HBOS结合判断数据的分布密度。
具体地,在训练数据符合正态分布的情况下,将该训练数据输入至由LOF模型与HBOS模型共同构成的密度检测模型中,对密度检测模型进行训练。
LOF模型将训练数据拆分成不同的局部训练数据;再通过HBOS模型计算每个局部内分箱离散化后的训练数据出现的相对频率,从而判断出训练数据的密度分布,并且固定训练数据的相对频率阈值。
步骤514:智能模型(阈值/密度)。
其中,智能模型可以理解上述实施例中的目标对象。
具体地,在由KNN和OCSVM共同构成的异常值检测模型以及由LOF模型与HBOS模型共同构成的密度检测模型完成训练之后,将该异常值检测模型与密度检测模型作为一个智能模型进行输出,从而获得一个检测数值型数据是否为异常的智能模型。
步骤516:获取新数据。
其中,新数据可以理解为上述实施例中的检测数据,在本实施例中,该贷款金额数据为贷款金额数据。
具体地,将获取到的贷款金额数据输入至智能模型,该智能模型使用KNN和OCSVM共同构成的异常值检测模型、以及由LOF模型与HBOS模型共同构成的密度检测模型对贷款金额数据进行检测。
其中,通过异常值检测模型对贷款金额数据进行检测,包括:
通过异常值检测模型对贷款金额数据进行检测,判定贷款金额数据是否位于异常阈值区间内。
若是,则表示获取到的贷款金额数据不存在异常。
若否,则表示获取到的贷款金额数据存在异常。
其中,通过密度检测模型对贷款金额数据进行检测,包括:
通过密度检测模型判定贷款金额数据的密度分布与训练数据的密度分布之间的频率偏差,是否超过相对频率阈值。
若是,则表示获取到的贷款金额数据存在异常。
若否,则表示获取到的贷款金额数据不存在异常。
步骤518:向用户展示异常数据。
具体地,在智能模型对获取到的贷款金额数据进行检测之后,向用户展示检测为异常的数据。
本说明书提供的数据处理方法,通过将获取的新输入智能模型的异常值检测模型和密度检测模型,从而基于贷款金额数据的异常值和贷款金额数据的密度分布,快速、准确的确定出贷款金额数据是否为异常数据,降低了企业出现安全风险的概率。
与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图6示出了本说明书一实施例提供的一种数据处理装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;
确定模块604,被配置为基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
在本说明书一实施例中,所述确定模块604,还包括:
确定子模块,被配置为在所述检测数据的检测值位于目标检测值区间内的情况下,确定所述检测数据为异常数据,或者
在所述检测数据的密度分布值与目标密度分布值的偏差度大于等于目标偏差阈值的情况下,确定所述检测数据为异常数据。
在本说明书一实施例中,所述数据处理装置,还包括:
数据确定模块,被配置为在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据;
区间确定模块,被配置为根据初始对象的第一检测模块对所述待处理数据进行检测,获得所述待处理数据的检测值,基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间;
密度确定模块,被配置为根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值;
生成模块,被配置为根据所述待处理数据以及所述待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述初始对象进行处理,生成目标对象,其中,所述目标对象包括所述第一检测模块和所述第二检测模块。
在本说明书一实施例中,所述数据确定模块,还包括:
判断模块,被配置为获得初始数据,判断所述初始数据是否满足正态分布,
若是,则将所述初始数据确定为待处理数据;
转换模块,被配置为若否,则按照正态分布规则对所述初始数据进行转换,并在转换成功的情况下,将转换后的初始数据确定为待处理数据。
在本说明书一实施例中,所述转换模块,还包括:
获取候选数据模块,被配置为在转换失败的情况下,重新获取候选数据,并对所述候选数据进行正态分布判定。
在本说明书一实施例中,所述区间确定模块,还包括:
第一区间确定子模块,被配置为将所述待处理数据的检测值通过第一检测值算法进行计算,获得所述待处理数据的第一检测值区间;
第二区间确定子模块,被配置为将所述待处理数据的检测值通过第二检测值算法进行计算,获得所述待处理数据的第二检测值区间;
第三区间确定子模块,被配置为将所述待处理数据的检测值通过第三检测值算法进行计算,获得所述待处理数据的第三检测值区间;
目标区间确定模块,被配置为基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间。
在本说明书一实施例中,所述目标区间确定模块,还包括:
第一目标区间确定子模块,被配置为获取所述第一检测值区间的最大值与最小值、所述第二检测值区间的最大值与最小值以及所述第三检测值区间的最大值与最小值;
第二目标区间确定子模块,被配置为基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间的最大值与最小值,确定所述待处理数据的目标检测值区间。
在本说明书一实施例中,所述密度确定模块,还包括:
第一密度确定子模块,被配置为根据所述初始对象的第二检测模块将所述待处理数据划分为至少两个待处理数据子集,并对每个待处理数据子集进行检测,获取每个待处理数据子集的密度分布值;
第二密度确定子模块,被配置为基于所述每个待处理数据子集的密度分布值确定出所述待处理数据的目标密度分布值以及目标偏差阈值。
在本说明书一实施例中,所述第二密度确定子模块,还包括:
平均密度计算模块,被配置为基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,计算平均密度分布值,并将所述平均密度分布值作为所述待处理数据的目标密度分布值;
最大值与最小值确定模块,被配置为基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,确定最大密度分布值与最小密度分布值;
偏差阈值确定模块,被配置为基于所述最大密度分布值、所述最小密度分布值以及所述平均密度分布值,确定出所述待处理数据的目标偏差阈值。
在本说明书一实施例中,所述数据确定模块,还包括:
样本数据确定模块,被配置为在获得的初始样本数据满足预设判定条件的情况下,将所述初始样本数据确定为训练样本数据。
在本说明书一实施例中,所述区间确定模块,还包括:
样本区间确定模块,被配置为根据待训练检测模型的第一检测层对所述训练样本数据进行检测,获得所述训练样本数据的检测值,基于所述训练样本数据的检测值确定所述训练样本数据的目标检测值区间。
在本说明书一实施例中,所述密度确定模块,还包括:
样本密度确定模块,被配置为根据所述待训练检测模型的第二检测层对所述训练样本数据进行检测,获得所述训练样本数据的目标密度分布值以及目标偏差阈值。
在本说明书一实施例中,所述生成模块,还包括:
模型生成模块,被配置为根据所述训练样本数据以及所述训练样本数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述待训练检测模型进行训练,生成训练后的检测模型。
本说明书提供的数据处理装置,通过将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得第一检测模块输出的检测数据的检测值,以及获得第二检测模块输出的检测数据的密度分布值;从而基于检测数据的检测值和检测数据的密度分布值,快速、准确的确定出检测数据是否为异常数据,降低了企业出现安全风险的概率。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现任意所述数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现任意所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (16)
1.一种数据处理方法,包括:
将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;
基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
2.根据权利要求1所述的数据处理方法,所述基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据,包括:
在所述检测数据的检测值位于目标检测值区间内的情况下,确定所述检测数据为异常数据,或者
在所述检测数据的密度分布值与目标密度分布值的偏差度大于等于目标偏差阈值的情况下,确定所述检测数据为异常数据。
3.根据权利要求1或2所述的数据处理方法,所述将获取的检测数据输入目标对象的第一检测模块和第二检测模块之前,还包括:
在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据;
根据初始对象的第一检测模块对所述待处理数据进行检测,获得所述待处理数据的检测值,基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间;
根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值;
根据所述待处理数据以及所述待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述初始对象进行处理,生成目标对象,其中,所述目标对象包括所述第一检测模块和所述第二检测模块。
4.根据权利要求3所述的数据处理方法,所述在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据,还包括:
获得初始数据,判断所述初始数据是否满足正态分布,
若是,则将所述初始数据确定为待处理数据;
若否,则按照正态分布规则对所述初始数据进行转换,并在转换成功的情况下,将转换后的初始数据确定为待处理数据。
5.根据权利要求4所述的数据处理方法,所述按照正态分布规则对所述初始数据进行转换之后,还包括:
在转换失败的情况下,重新获取候选数据,并对所述候选数据进行正态分布判定。
6.根据权利要求3所述的数据处理方法,所述基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间,包括:
将所述待处理数据的检测值通过第一检测值算法进行计算,获得所述待处理数据的第一检测值区间;
将所述待处理数据的检测值通过第二检测值算法进行计算,获得所述待处理数据的第二检测值区间;
将所述待处理数据的检测值通过第三检测值算法进行计算,获得所述待处理数据的第三检测值区间;
基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间。
7.根据权利要求6所述的数据处理方法,所述基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间,确定所述待处理数据的目标检测值区间,包括:
获取所述第一检测值区间的最大值与最小值、所述第二检测值区间的最大值与最小值以及所述第三检测值区间的最大值与最小值;
基于所述第一检测值区间、所述第二检测值区间以及所述第三检测值区间的最大值与最小值,确定所述待处理数据的目标检测值区间。
8.根据权利要求3所述的数据处理方法,所述根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值,包括:
根据所述初始对象的第二检测模块将所述待处理数据划分为至少两个待处理数据子集,并对每个待处理数据子集进行检测,获取每个待处理数据子集的密度分布值;
基于所述每个待处理数据子集的密度分布值确定出所述待处理数据的目标密度分布值以及目标偏差阈值。
9.根据权利要求8所述的数据处理方法,所述基于所述每个待处理数据子集的密度分布值确定出所述待处理数据的目标密度分布值以及目标偏差阈值,包括:
基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,计算平均密度分布值,并将所述平均密度分布值作为所述待处理数据的目标密度分布值;
基于所述至少两个待处理数据子集中的每个待处理数据子集的密度分布值,确定最大密度分布值与最小密度分布值;
基于所述最大密度分布值、所述最小密度分布值以及所述平均密度分布值,确定出所述待处理数据的目标偏差阈值。
10.根据权利要求3所述的数据处理方法,所述在获得的初始数据满足预设判定条件的情况下,将所述初始数据确定为待处理数据,还包括:
在获得的初始样本数据满足预设判定条件的情况下,将所述初始样本数据确定为训练样本数据。
11.根据权利要求10所述的数据处理方法,所述根据初始对象的第一检测模块对所述待处理数据进行检测,获得所述待处理数据的检测值,基于所述待处理数据的检测值确定所述待处理数据的目标检测值区间,还包括:
根据待训练检测模型的第一检测层对所述训练样本数据进行检测,获得所述训练样本数据的检测值,基于所述训练样本数据的检测值确定所述训练样本数据的目标检测值区间。
12.根据权利要求11所述的数据处理方法,所述根据所述初始对象的第二检测模块对所述待处理数据进行检测,获得所述待处理数据的目标密度分布值以及目标偏差阈值,还包括:
根据所述待训练检测模型的第二检测层对所述训练样本数据进行检测,获得所述训练样本数据的目标密度分布值以及目标偏差阈值。
13.根据权利要求12所述的数据处理方法,所述根据所述待处理数据以及所述待处理数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述初始对象进行处理,生成目标对象,还包括:
根据所述训练样本数据以及所述训练样本数据的目标检测值区间、目标密度分布值、目标偏差阈值对所述待训练检测模型进行训练,生成训练后的检测模型。
14.一种数据处理装置,包括:
获取模块,被配置为将获取的检测数据输入目标对象的第一检测模块和第二检测模块,获得所述第一检测模块输出的所述检测数据的检测值,以及获得所述第二检测模块输出的所述检测数据的密度分布值;
确定模块,被配置为基于所述检测数据的检测值和所述检测数据的密度分布值,确定所述检测数据是否为异常数据。
15.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至13任意一项所述数据处理方法的步骤。
16.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至13任意一项所述数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786822.7A CN113486302A (zh) | 2021-07-12 | 2021-07-12 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786822.7A CN113486302A (zh) | 2021-07-12 | 2021-07-12 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486302A true CN113486302A (zh) | 2021-10-08 |
Family
ID=77938858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786822.7A Pending CN113486302A (zh) | 2021-07-12 | 2021-07-12 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486302A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999156A (zh) * | 2022-05-27 | 2022-09-02 | 北京汽车研究总院有限公司 | 车前行人横穿场景的自动识别方法、装置、介质和车辆 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116580800A (zh) * | 2023-04-14 | 2023-08-11 | 太原金域临床检验所有限公司 | 一种参考区间构建方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168854A (zh) * | 2017-06-01 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 互联网广告异常点击检测方法、装置、设备及可读存储介质 |
CN109726198A (zh) * | 2018-12-06 | 2019-05-07 | 中科恒运股份有限公司 | 异常数据处理方法及装置 |
CN110956224A (zh) * | 2019-08-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 评估模型生成、评估数据处理方法、装置、设备及介质 |
CN111078505A (zh) * | 2019-12-26 | 2020-04-28 | 安徽容知日新科技股份有限公司 | 一种监测数据处理方法、装置和计算设备 |
CN111581046A (zh) * | 2020-03-19 | 2020-08-25 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
CN111814910A (zh) * | 2020-08-12 | 2020-10-23 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN112149757A (zh) * | 2020-10-23 | 2020-12-29 | 新华三大数据技术有限公司 | 一种异常检测方法、装置、电子设备及存储介质 |
CN112835769A (zh) * | 2021-02-24 | 2021-05-25 | 北京顶象技术有限公司 | 一种业务数据异常诊断方法、装置、设备及存储介质 |
WO2021120775A1 (zh) * | 2019-12-19 | 2021-06-24 | 中国银联股份有限公司 | 一种数据异常检测方法与装置 |
US20210191846A1 (en) * | 2020-09-08 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Data processing method and apparatus, device and storage medium |
CN113048807A (zh) * | 2021-03-15 | 2021-06-29 | 太原理工大学 | 一种空冷机组背压异常检测方法 |
CN113076215A (zh) * | 2021-04-08 | 2021-07-06 | 华南理工大学 | 一种独立于数据类型的无监督异常检测方法 |
-
2021
- 2021-07-12 CN CN202110786822.7A patent/CN113486302A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168854A (zh) * | 2017-06-01 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 互联网广告异常点击检测方法、装置、设备及可读存储介质 |
CN109726198A (zh) * | 2018-12-06 | 2019-05-07 | 中科恒运股份有限公司 | 异常数据处理方法及装置 |
CN110956224A (zh) * | 2019-08-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 评估模型生成、评估数据处理方法、装置、设备及介质 |
WO2021120775A1 (zh) * | 2019-12-19 | 2021-06-24 | 中国银联股份有限公司 | 一种数据异常检测方法与装置 |
CN111078505A (zh) * | 2019-12-26 | 2020-04-28 | 安徽容知日新科技股份有限公司 | 一种监测数据处理方法、装置和计算设备 |
CN111581046A (zh) * | 2020-03-19 | 2020-08-25 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
CN111814910A (zh) * | 2020-08-12 | 2020-10-23 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备及存储介质 |
US20210191846A1 (en) * | 2020-09-08 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Data processing method and apparatus, device and storage medium |
CN112149757A (zh) * | 2020-10-23 | 2020-12-29 | 新华三大数据技术有限公司 | 一种异常检测方法、装置、电子设备及存储介质 |
CN112835769A (zh) * | 2021-02-24 | 2021-05-25 | 北京顶象技术有限公司 | 一种业务数据异常诊断方法、装置、设备及存储介质 |
CN113048807A (zh) * | 2021-03-15 | 2021-06-29 | 太原理工大学 | 一种空冷机组背压异常检测方法 |
CN113076215A (zh) * | 2021-04-08 | 2021-07-06 | 华南理工大学 | 一种独立于数据类型的无监督异常检测方法 |
Non-Patent Citations (4)
Title |
---|
刘凤魁;邓春宇;王晓蓉;王新迎;: "基于改进快速密度峰值聚类算法的电力大数据异常值检测", 电力信息与通信技术, no. 06, 15 June 2017 (2017-06-15), pages 36 - 41 * |
卓琳;赵厚宇;詹思延;: "异常检测方法及其应用综述", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30), pages 9 - 15 * |
周春蕾;田品卓;杨晨琛;王皓;: "基于聚类和核密度估计假设检验的异常值检测方法", 数据采集与处理, no. 05, 15 September 2017 (2017-09-15), pages 997 - 1004 * |
李海斌;李琦;汤汝鸣;吴;吕志远;裴丹;史俊杰;董旭;房双德;杨一飞;吴烨;: "一种无监督的数据库用户行为异常检测方法", 小型微型计算机系统, no. 11, 15 November 2018 (2018-11-15), pages 2464 - 2472 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999156A (zh) * | 2022-05-27 | 2022-09-02 | 北京汽车研究总院有限公司 | 车前行人横穿场景的自动识别方法、装置、介质和车辆 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN115861011B (zh) * | 2023-02-15 | 2023-05-05 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116580800A (zh) * | 2023-04-14 | 2023-08-11 | 太原金域临床检验所有限公司 | 一种参考区间构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486302A (zh) | 数据处理方法及装置 | |
CN111260620B (zh) | 图像异常检测方法、装置和电子设备 | |
CN115082920B (zh) | 深度学习模型的训练方法、图像处理方法和装置 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113705362B (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
CN112669143A (zh) | 基于关联网络的风险评估方法、装置、设备以及存储介质 | |
CN111428217A (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN114281932A (zh) | 工单质检模型的训练方法、装置、设备及存储介质 | |
CN114445663A (zh) | 检测对抗样本的方法、装置及计算机程序产品 | |
CN114169439A (zh) | 异常通信号码的识别方法、装置、电子设备和可读介质 | |
CN112037174A (zh) | 染色体异常检测方法、装置、设备及计算机可读存储介质 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
CN110633971A (zh) | 资损估计方法以及装置 | |
CN116309364A (zh) | 变电站异常巡检方法及装置、存储介质、计算机设备 | |
Hamidieh | Estimating the tail shape parameter from option prices | |
CN114970670A (zh) | 模型公平性评估方法及装置 | |
CN114882273A (zh) | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 | |
CN114091903A (zh) | 资损评估模型的训练方法及装置、资损评估方法及装置 | |
CN116562952A (zh) | 虚假交易订单检测方法及装置 | |
CN114118570A (zh) | 业务数据预测方法及装置、电子设备和存储介质 | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 | |
CN111815658A (zh) | 一种图像识别方法及装置 | |
CN111383028B (zh) | 预测模型训练方法及装置、预测方法及装置 | |
CN117649695B (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
CN115034333B (zh) | 联邦学习方法、联邦学习装置及联邦学习系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |