CN112650741A

CN112650741A - 异常数据的识别与修正方法、系统、设备及可读存储介质

Info

Publication number: CN112650741A
Application number: CN202011593097.3A
Authority: CN
Inventors: 刘栩良
Original assignee: Ping An Consumer Finance Co Ltd
Current assignee: Ping An Consumer Finance Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13
Anticipated expiration: 2040-12-29
Also published as: CN112650741B

Abstract

本发明公开了一种异常数据的识别与修正方法，包括：获取用户数据，所述用户数据包括交易数据；基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数；通过所述聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据；识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据。本发明还公开了一种异常数据的识别与修正系统、设备及可读存储介质。本发明的有益效果在于：以线性回归计算出聚类算法需要的K值，弥补K‑means聚类算法的K值选定常难以估计的缺陷，提高了异常数据的识别效率与精确度。

Description

异常数据的识别与修正方法、系统、设备及可读存储介质

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种异常数据的识别与修正方法与、系统、设备及可读存储介质。

背景技术

随着信息化的不断发展和互联网的广泛应用，产生大量的数据，需要对产生的大量测数据进行有效的管理，而大量的历史数据和新产生的数据中存在很多异常数据。发明人发现，征信上报业务字段太多，且每个字段出现错误信息无法实时修改，需要对成千上万个维度的数据进行校验拦截和修复，当前的多维度数据中的异常数据难以识别。

发明内容

有鉴于此，本发明实施例的目的是提供一种异常数据的识别与修正方法与、系统、设备及可读存储介质，以解决异常数据不能进行有效的识别，造成决策失误、工作效率的降低等问题。

为实现上述目的，本发明实施例提供了一种异常数据的识别与修正方法，包括：

获取用户数据，所述用户数据包括交易数据；

基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数；

通过所述聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据；

识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据。

进一步地，所述交易数据包括输入数据和观测数据，所述基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数包括：

将所述输入数据作为所述线性回归模型的输入，所述观测数据作为所述线性回归模型的输出，求出所述线性回归模型的模型参数；

将所述模型参数通过代价函数进行计算，得到所述交易数据的最小聚类点数。

进一步地，所述将所述输入数据作为所述线性回归模型的输入，所述观测数据作为所述线性回归模型的输出，求出所述线性回归模型的模型参数包括：

获取所述输入数据的初始权重值与所述观测数据的初始权重值；

通过线性回归模型基于所述输入数据的初始权重值与所述观测数据的初始权重值，对所述输入数据进行加权线性回归，得到所述线性回归模型的模型参数。

进一步地，所述通过聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据包括：

根据聚类算法计算所述交易数据，以使所述交易数据分成最小聚类点数的数据簇；

获取每个所述数据簇对应的聚类中心；

将所述数据簇中与所述聚类中心的距离大于预设权值的子数据作为异常数据。

进一步地，所述根据聚类算法计算所述交易数据，以使所述交易数据分成最小聚类点数的数据簇包括：

从所述交易数据中随机选取所述最小聚类点数的个数的子数据作为初始聚类中心；

计算所述交易数据中的除初始聚类中心外的其他子数据到所述初始聚类中心的距离；

基于所述距离将所述交易数据中的除初始聚类中心外的其他子数据关联到对应的初始聚类中心，得到多个初始数据簇；

重新确定每个初始数据簇的更新聚类中心；

判断所述更新聚类中心与所述初始聚类中心是否一致；

当所述初始聚类中心与所述更新聚类中心不一致时，计算所述交易数据中的除更新聚类中心外的其他子数据到所述更新聚类中心的距离，直至更新聚类中心不发生变化，得到所述最小聚类点数的数据簇。

进一步地，所述属性数据包括所述用户数据所属的数据类别，所述识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据包括：

识别所述用户数据的数据类别；

基于所述数据类别，通过所述纠正算法修改所述异常数据，得到正常数据。

进一步地，所述基于所述数据类别，通过所述纠正算法修改所述异常数据，得到正常数据包括：

当所述数据类别为金额数据时，通过所述纠正算法将所述异常数据修正为预设值。

为实现上述目的，本发明实施例提供了一种异常数据的识别与修正系统，包括：

获取模块，用于获取用户数据，所述用户数据包括交易数据；

第一计算模块，用于基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数；

第二计算模块，用于通过所述聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据；

识别模块，用于识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据。

为实现上述目的，本发明实施例提供了一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的异常数据的识别与修正方法的步骤。

为实现上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的异常数据的识别与修正方法的步骤。

本发明实施例提供的异常数据的识别与修正方法与、系统、设备及可读存储介质，通过线性回归算法对用户数据进行最小聚类点数的计算，再将最小聚类点数代入至聚类算法中，通过该聚类算法对用户数据进行聚类，得到异常数据，最后对异常数据进行纠正；以线性回归计算出聚类算法需要的K值，弥补K-means聚类算法的K值选定常难以估计的缺陷，提高了异常数据的识别效率与精确度。

附图说明

图1为本发明异常数据的识别与修正方法实施例一的流程图。

图2为本发明异常数据的识别与修正系统实施例二的程序模块示意图。

图3为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参阅图1，示出了本发明实施例一之异常数据的识别与修正方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S100，获取用户数据，所述用户数据包括交易数据。

具体地，用户数据可以为征信数据，征信数据是宏观经济研究分析的重要指标，包括征信数据中的每个业务场景的交易数据，例如：用户ID、交易金额、还款金额等。用户数据可以从各个银行或者第三方平台进行获取得到。

步骤S120，基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数。

具体地，通过线性回归模型计算交易数据的聚类中心的个数，并对聚类中心的个数进行调优，以得到最优的最小聚类点数。

示例性地，所述交易数据包括输入数据和观测数据，所述步骤S120具体包括：

步骤S121，将所述输入数据作为所述线性回归模型的输入，所述观测数据作为所述线性回归模型的输出，求出所述线性回归模型的模型参数。

具体地，准备用户还款金额数据集作为输入数据；

使用一元线性回归模型：y＝ax+b；

拟合输入数据x与观测数据y之间的关系。其中的参数a，b通常使用最小二乘拟合，即寻找使代价函数：

计算最小的a，b使得拟合曲线尽可能地接近所有的观测数据y，N与i为整数。

示例性地，所述步骤S121具体包括：

获取所述输入数据的初始权重值与所述观测数据的初始权重值。

具体地，实际情况各观测数据的误差差异很大且实际应用中各种数据的比重不一，这时就可以使用一个权重系数w_i来表示第i个观测点的权重，例如，对于误差小的观测数据，w_i的值更大，而考虑了这个权重系数w_i的线性回归，就是加权线性回归。

具体地，回归模型公式使用：y＝ax+b；

代价函数中加入权重系数w计算，即修改为：

配置初始权重系数w_i和特殊要求的属性权重，后期模型经过数据积累之后，形成模型权重系数w_i。

步骤S122，将所述模型参数通过代价函数进行计算，得到所述交易数据的最小聚类点数。

具体地，求解代价函数，分别将J(a，b)对a，b求偏微分，使这两个偏微分同时为0的(a，b)即为最优解。即求解方程组

即：

解得a，b为：

步骤S140，通过所述聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据。

具体地，聚类算法为K-Means聚类算法，由于K-Means聚类算法主要有两个最重大的缺陷，都和初始值有关：K是先验给定的，但是K值的选定往往非常难以估计，对于大型数据集，到底应该划分几个类群，这在算法启动前是无法准确给出的；K均值算法需要初始随机种子点启动算法，这个随机种子点很关键，选取不同的随机种子点将得到完全不同的结果和算法执行效率，随机种子点即为K值。因此，以线性回归计算出聚类算法需要的K值，弥补K-means算法的K值缺陷，两种算法相辅相成。将a与b中的最小值作为K值。

示例性地，所述步骤S140具体包括：

步骤S141，根据聚类算法计算所述交易数据，以使所述交易数据分成最小聚类点数的数据簇。

示例性地，所述步骤S141具体包括：

从所述交易数据中随机选取所述最小聚类点数的个数的子数据作为初始聚类中心；计算所述交易数据中的除初始聚类中心外的其他子数据到所述初始聚类中心的距离；基于所述距离将所述交易数据中的除初始聚类中心外的其他子数据关联到对应的初始聚类中心，得到多个初始数据簇；重新确定每个初始数据簇的更新聚类中心；判断所述更新聚类中心与所述初始聚类中心是否一致；当所述初始聚类中心与所述更新聚类中心不一致时，计算所述交易数据中的除更新聚类中心外的其他子数据到所述更新聚类中心的距离，直至更新聚类中心不发生变化，得到所述最小聚类点数的数据簇。

具体地，从交易数据中随机选择k个子数据作为初始的k个聚类中心，可以表示为质心向量：{μ₁,μ₂,…,μ_k}。对于n＝1，2，...,N，将交易数据划分C簇，初始化为

对于i＝1，2...，m，计算交易数据中的除初始聚类中心外的其他子数据xi和各个质心向量μj(j＝1，2，...，k)的距离，计算公式为：dij＝||xi-μj||22，将交易数据中的除初始聚类中心外的其他子数据xi标记最小的为dij所对应的类别λ_i，此时更新聚类中心C_λi＝C_λi∪{xi}。

对于j＝1，2，...，k，对C_j中所有的样本点重新计算新的质心：

如果所有的k个聚类中心，即k个聚类中心对应的质心向量都没有发生变化，则表示数据簇分组成功。

步骤S142，获取每个所述数据簇对应的聚类中心。

步骤S143，将所述数据簇中与所述聚类中心的距离大于预设权值的子数据作为异常数据。

具体地，将每个数据簇中与聚类中心的距离大于预设权值的子数据作为异常数据，输出异常数据C＝{C1，C2，...，Ck}。若交易数据对应的场景不一样，可以通过多线程方式进行计算，组成N个随机森林组合，生成N个异常数据集Cn，以实现对多维数据进行异常数据的处理，提高了聚类效率。

步骤S160，识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据。

具体地，设置初始化的纠正算法，如：还款金额小于0，则更改为0，使数据符合要求，得到正常数据。

示例性地，所述属性数据包括所述用户数据所属的数据类别，所述步骤S160具体包括：

步骤S161，识别所述用户数据的数据类别。

步骤S162，基于所述数据类别，通过所述纠正算法修改所述异常数据，得到正常数据。

具体地，根据异常数据对用户数据的异常位置进行识别得到异常信息，如：异常数据为交易金额为0，可以得知该交易数据的属性是交易记录的数据，每一个属性会附带一个业务ID，交易属性的业务ID为交易号，通过交易号即可定位到该异常数据对应的交易信息和所属用户。

示例性地，所述步骤S162具体包括：

具体地，由于金额数据不能为负值，因此，可以将异常数据修正为预设值0。

实施例二

请继续参阅图2，示出了本发明异常数据的识别与修正系统实施例二的程序模块示意图。在本实施例中，异常数据的识别与修正系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述异常数据的识别与修正方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述异常数据的识别与修正系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

获取模块200，用于获取用户数据，所述用户数据包括交易数据。

第一计算模块202，用于基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数。

示例性地，所述交易数据包括输入数据和观测数据，所述第一计算模块202具体用于：

将所述输入数据作为所述线性回归模型的输入，所述观测数据作为所述线性回归模型的输出，求出所述线性回归模型的模型参数。

具体地，准备用户还款金额数据集作为输入数据；

使用一元线性回归模型：y＝ax+b；

计算最小的a，b使得拟合曲线尽可能地接近所有的观测数据y。

即：

解得a，b为：

第二计算模块204，用于通过所述聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据。

示例性地，所述第二计算模块204具体用于：

根据聚类算法计算所述交易数据，以使所述交易数据分成最小聚类点数的数据簇。

示例性地，从所述交易数据中随机选取所述最小聚类点数的个数的子数据作为初始聚类中心；计算所述交易数据中的除初始聚类中心外的其他子数据到所述初始聚类中心的距离；基于所述距离将所述交易数据中的除初始聚类中心外的其他子数据关联到对应的初始聚类中心，得到多个初始数据簇；重新确定每个初始数据簇的更新聚类中心；判断所述更新聚类中心与所述初始聚类中心是否一致；当所述初始聚类中心与所述更新聚类中心不一致时，计算所述交易数据中的除更新聚类中心外的其他子数据到所述更新聚类中心的距离，直至更新聚类中心不发生变化，得到所述最小聚类点数的数据簇。

对于i＝1，2...，m，计算交易数据中的除初始聚类中心外的其他子数据xi和各个质心向量μj(j＝1，2，...，k)的距离，计算公式为：dij＝||xi-μj||22，将交易数据中的除初始聚类中心外的其他子数据xi标记最小的为dij所对应的类别λi，此时更新聚类中心C_λi＝C_λi∪{xi}。

获取每个所述数据簇对应的聚类中心。

具体地，将每个数据簇中与聚类中心的距离大于预设权值的子数据作为异常数据，输出异常数据C＝{C1，C2，...Ck}。若交易数据对应的场景不一样，可以通过多线程方式进行计算，组成N个随机森林组合，生成N个异常数据集Cn。

识别模块206，用于识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据。

示例性地，所述属性数据包括所述用户数据所属的数据类别，所述识别模块206具体用于：

识别所述用户数据的数据类别。

实施例三

参阅图3，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图3所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及异常数据的识别与修正系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的异常数据的识别与修正系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行异常数据的识别与修正系统20，以实现实施例一的异常数据的识别与修正方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述服务器2与外部终端相连，在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是，图3仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述异常数据的识别与修正系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图2示出了所述实现异常数据的识别与修正系统20实施例二的程序模块示意图，该实施例中，所述异常数据的识别与修正系统20可以被划分为所述获取模块200、所述第一计算模块202、所述第二计算模块204以及所述识别模块206。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述异常数据的识别与修正系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序，被处理器执行时实现实施例一的异常数据的识别与修正方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种异常数据的识别与修正方法，其特征在于，包括：

获取用户数据，所述用户数据包括交易数据；

2.根据权利要求1所述的异常数据的识别与修正方法，其特征在于，所述交易数据包括输入数据和观测数据，所述基于线性回归模型计算所述交易数据的最小聚类点数，所述最小聚类点数为聚类算法的聚类中心的个数包括：

3.根据权利要求2所述的异常数据的识别与修正方法，其特征在于，所述将所述输入数据作为所述线性回归模型的输入，所述观测数据作为所述线性回归模型的输出，求出所述线性回归模型的模型参数包括：

4.根据权利要求1所述的异常数据的识别与修正方法，其特征在于，所述通过聚类算法与所述最小聚类点数计算所述交易数据的子数据，以将距离大于预设权值的子数据作为异常数据包括：

获取每个所述数据簇对应的聚类中心；

5.根据权利要求4所述的异常数据的识别与修正方法，其特征在于，所述根据聚类算法计算所述交易数据，以使所述交易数据分成最小聚类点数的数据簇包括：

重新确定每个初始数据簇的更新聚类中心；

判断所述更新聚类中心与所述初始聚类中心是否一致；

6.根据权利要求1所述的异常数据的识别与修正方法，其特征在于，所述属性数据包括所述用户数据所属的数据类别，所述识别所述异常数据在所述用户数据的属性数据，通过纠正算法在所述属性数据中修改所述异常数据，得到正常数据包括：

识别所述用户数据的数据类别；

7.根据权利要求1所述的异常数据的识别与修正方法，其特征在于，所述基于所述数据类别，通过所述纠正算法修改所述异常数据，得到正常数据包括：

8.一种异常数据的识别与修正系统，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的异常数据的识别与修正方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的异常数据的识别与修正方法的步骤。