CN114443628B

CN114443628B - 一种基于聚类的金融缺失数据处理方法

Info

Publication number: CN114443628B
Application number: CN202111565832.4A
Authority: CN
Inventors: 陈丽芳; 李晓婉; 谢振平; 刘渊; 崔乐乐; 宋设; 杨宝华
Original assignee: Jiangnan University; Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Jiangnan University; Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2024-04-26
Anticipated expiration: 2041-12-20
Also published as: CN114443628A

Abstract

本发明公开了一种基于聚类的金融缺失数据处理方法，包括：获取金融数据集；对金融数据集进行两步处理；对经过两步处理得到数据集进行聚类操作，整合其聚类后的簇；通过相似度度量将缺失数据对象划分的到最想似的簇中，并通过簇内信息进行填补。本发明提出一种整体和局部相结合的基于聚类的金融缺失数据处理方法，极大程度上保留了原样本的分布情况，减少缺失数据所导致的误差，更准确的对缺失数据进行填充。

Description

一种基于聚类的金融缺失数据处理方法

技术领域

本发明涉及数据处理的技术领域，尤其涉及一种基于聚类的金融缺失数据处理方法。

背景技术

针对金融缺失数据处理的方法，中国专利CN201810215615.4，使用滑动窗口动态评估数据是否缺失，再利用数据内部的时间和空间特性对缺失数据进行填补；中国专利CN202110588570.7，通过将网络缺失数据对应的空间特征向量与此前历史数据相关的上下文向量进行联合，对缺失数据进行填充；中国专利CN201810996476.3，缺失数据所在的矩阵与邻近矩阵进行相似度的对比，选择相似度高的未缺失的项目值作为有缺失数据向本的插补值；中国专利CN112732685A，利用KNN最近邻填补算法和极大似然算法相结合对异常数据进行处理。

相关论文有：(1)RAJAPS，THANGAVEL K.Soft clustering based missingvalueimputation[C]//Annual Convention of the Computer Society of India.Singapore：Springer，2016：119-133.提出基于粗糙K均值的缺失值填补，通过将一个对象防止到一个以上的群集中来解决脆性问题；(2)TRANCT，ZHANGM，ANDREAEP，etal.Improvingperformance of classification on incomplete data usingfeatureselection and clustering[J].Applied Soft Computing，2018，73：848-861.提出整合填补方法，基于聚类和特征选择的不完整数据填补的新方法；(3)SHIH，WANGP，YANGX，etal.An improved mean imputation clustering algorithm for incomplete data[J].Neural ProcessingLetters，2020：1-14.提出一种针对不完整数据的改进均值填补聚类算法；(4)NIKFALAZAR S，YEH C H，BEDINGFIELD S，et al.Missing data imputationusingdecision trees and fuzzy clusteringwith iterative learning[J].Knowledgeand Information Systems，2020，62；(6)：2419-2437.提出一种新的混合填补方法，以使用混合填补方法来处理MCAR类型的缺失值；(5)冷泳林，张清辰，鲁富宇.基于AP聚类的不完整大数据填充[J].计算机工程与应用，2015，51；(10)：123-127.提出基于AP聚类的不完整数据填充算法；(6)WANGP，CHEN X.Three-way ensemble clustering for incomplete data[J].IEEE Access，2020，8：91855-91864.提出一种基于集成聚类算法的缺失数据填充。

以上基于聚类的方法要么是只考虑了缺失数据的局部情况，要么就是从整体出发而未考虑缺失信息带来的误差，从而无法准确的对缺失数据进行填充。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有技术要么是只考虑了缺失数据的局部情况，要么就是从整体出发而未考虑缺失信息带来的误差，从而无法准确的对缺失数据进行填充。

为解决上述技术问题，本发明提供如下技术方案：获取金融数据集；对所述金融数据集进行两步处理；对经过所述两步处理得到数据集进行聚类操作，整合其聚类后的簇；通过相似度度量将缺失数据对象划分的到最想似的簇中，并通过簇内信息进行填补。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：所述两步处理包括，一步是不处理数据集中的缺失值，一步是将数据集分为缺失数据集和完整的数据集。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：所述不处理数据集中的缺失值包括，对金融缺失数据集进行k-means聚类处理；所述k-means聚类处理过程如下：选定簇的个数k为8，使用余弦相似度计算各个样本点到簇中心的距离；对于分类后的产生的8个簇，使用欧式距离计算到簇内其他点距离均值最小的点作为质心，重复以上过程直至簇中心没有移动，得8个簇。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：所述余弦相似度计算公式为：

其中，cosθ表示余弦相似度，A表示对象点向量(x₁,y₁)，B表示质心向量(x₂,y₂)。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：所述欧式距离的计算公式为：

其中，d(x,y)表示欧式距离，n表示维数，i表示第i维，x_i表示第一个点的第i维坐标，y_i表示第二个点的第i维坐标。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：判断所述簇中心没有移动的标准为所述质心没有改变。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：将所述数据集分为缺失数据集和完整数据集的分类标准包括，根据是否有缺失值将所述数据集分为缺失数据集和完整数据集。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：对所述完整数据集进行k-means聚类处理，得到8个簇。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：还包括，使用皮尔森相关来进一步分析通过两次聚类得到的簇，将第一次聚类得到的簇视为变量X，第二次聚类得到的簇视为变量Y，使用皮尔森来计算X与Y的相似程度，皮尔森计算公式：

其中，N为样本总量；

如果ρ_X,Y大于预设值，表示两个簇之间相关，即在聚类中这个簇没有因为信息的缺失而受影响，则选用这类簇用于缺失值填补。

作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案，其中：计算所述缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离：

其中，d(x,y)表示欧式距离，n表示维数，i表示第i维，x_i表示第一个点的第i维坐标，y_i表示第二个点的第i维坐标；

基于计算结果进行相似度的度量，将所述缺失数据对象划分到最相似的簇中，并将所述簇的属性均值填充给所述缺失数据对象。

本发明的有益效果：本发明提出一种整体和局部相结合的基于聚类的金融缺失数据处理方法，极大程度上保留了原样本的分布情况，减少缺失数据所导致的误差，更准确的对缺失数据进行填充。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于聚类的金融缺失数据处理方法的基本流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的一个实施例，提供了一种基于聚类的金融缺失数据处理方法，包括：

S1：获取金融数据集。

需要说明的是，本实施例所获取的金融数据集某一公司提供的数据集。

S2：对金融数据集进行两步处理。

需要说明的是，两步处理包括：

一步是不处理数据集中的缺失值，一步是将数据集分为缺失数据集和完整的数据集。

S3：对经过两步处理得到数据集进行聚类操作，整合其聚类后的簇。

需要说明的是，不处理数据集中的缺失值包括：

对金融缺失数据集进行k-means聚类处理；

k-means聚类处理过程如下：

选定簇的个数k为8，使用余弦相似度计算各个样本点到簇中心(每个聚类中数值的均值，也称为质心)的距离；

对于分类后的产生的8个簇，使用欧式距离计算到簇内其他点距离均值最小的点作为质心，重复以上过程直至簇中心没有移动，得8个簇。

其中，余弦相似度计算公式为：

欧式距离的计算公式为：

判断簇中心没有移动的标准为质心没有改变。

进一步的，将数据集分为缺失数据集和完整数据集的分类标准包括：

根据是否有缺失值将数据集分为缺失数据集和完整数据集。

对完整数据集进行k-means聚类处理，重复上述步骤中的k-means聚类处理过程，得到8个簇。

其中，这里簇的个数和上一步中得到的簇个数相同，即它们的分类相同。

S4：通过相似度度量将缺失数据对象划分的到最想似的簇中，并通过簇内信息进行填补。

需要说明的是，使用皮尔森相关来进一步分析S3步骤中通过两次聚类得到的簇，将第一次聚类得到的簇视为变量X，第二次聚类得到的簇视为变量Y，使用皮尔森来计算X与Y的相似程度，皮尔森计算公式：

其中，N为样本总量；

进一步的，计算缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离：

基于计算结果进行相似度的度量，将缺失数据对象划分到最相似的簇中，并将簇的属性均值填充给缺失数据对象。

本发明提供了一种新的金融缺失数据处理方法，使用聚类，极大程度上保留了原样本的分布情况，将整体信息和局部信息结合，减少缺失数据所导致的误差，更准确的对缺失数据进行填充。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于聚类的金融缺失数据处理方法，其特征在于，包括：

获取金融数据集；

对所述金融数据集进行两步处理；

两步处理包括，一步是不处理数据集中的缺失值，一步是将数据集分为缺失数据集和完整的数据集；

所述不处理数据集中的缺失值包括，对金融缺失数据集进行k-means聚类处理；

k-means聚类处理过程如下：

选定簇的个数k为8，使用余弦相似度计算各个样本点到簇中心的距离；

余弦相似度计算公式为：

其中，cosθ表示余弦相似度，A表示对象点向量(x₁,y₁)，B表示质心向量(x₂,y₂)；

对于分类后的产生的8个簇，使用欧式距离计算到簇内其他点距离均值最小的点作为质心，重复以上过程直至簇中心没有移动，得8个簇；

欧式距离的计算公式为：

判断所述簇中心没有移动的标准为所述质心没有改变；

对所述完整数据集进行k-means聚类处理，得到8个簇；

将所述数据集分为缺失数据集和完整数据集的分类标准包括根据是否有缺失值将所述数据集分为缺失数据集和完整数据集；

对经过所述两步处理得到数据集进行聚类操作，整合其聚类后的簇；

使用皮尔森相关来进一步分析通过两次聚类得到的簇，将第一次聚类得到的簇视为变量X，第二次聚类得到的簇视为变量Y，使用皮尔森来计算X与Y的相似程度，皮尔森计算公式：

其中，N为样本总量；

如果ρ_X,Y大于预设值，表示两个簇之间相关，即在聚类中这个簇没有因为信息的缺失而受影响，则选用这类簇用于缺失值填补；

计算所述缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离：

基于计算结果进行相似度的度量，将所述缺失数据对象划分到最相似的簇中，并将所述簇的属性均值填充给所述缺失数据对象；

通过相似度度量将缺失数据对象划分的到最相似的簇中，并通过簇内信息进行填补。