CN114443628B - 一种基于聚类的金融缺失数据处理方法 - Google Patents

一种基于聚类的金融缺失数据处理方法 Download PDF

Info

Publication number
CN114443628B
CN114443628B CN202111565832.4A CN202111565832A CN114443628B CN 114443628 B CN114443628 B CN 114443628B CN 202111565832 A CN202111565832 A CN 202111565832A CN 114443628 B CN114443628 B CN 114443628B
Authority
CN
China
Prior art keywords
data set
clusters
missing
cluster
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111565832.4A
Other languages
English (en)
Other versions
CN114443628A (zh
Inventor
陈丽芳
李晓婉
谢振平
刘渊
崔乐乐
宋设
杨宝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Jiangnan University
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University, Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Jiangnan University
Priority to CN202111565832.4A priority Critical patent/CN114443628B/zh
Publication of CN114443628A publication Critical patent/CN114443628A/zh
Application granted granted Critical
Publication of CN114443628B publication Critical patent/CN114443628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于聚类的金融缺失数据处理方法,包括:获取金融数据集;对金融数据集进行两步处理;对经过两步处理得到数据集进行聚类操作,整合其聚类后的簇;通过相似度度量将缺失数据对象划分的到最想似的簇中,并通过簇内信息进行填补。本发明提出一种整体和局部相结合的基于聚类的金融缺失数据处理方法,极大程度上保留了原样本的分布情况,减少缺失数据所导致的误差,更准确的对缺失数据进行填充。

Description

一种基于聚类的金融缺失数据处理方法
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种基于聚类的金融缺失数据处理方法。
背景技术
针对金融缺失数据处理的方法,中国专利CN201810215615.4,使用滑动窗口动态评估数据是否缺失,再利用数据内部的时间和空间特性对缺失数据进行填补;中国专利CN202110588570.7,通过将网络缺失数据对应的空间特征向量与此前历史数据相关的上下文向量进行联合,对缺失数据进行填充;中国专利CN201810996476.3,缺失数据所在的矩阵与邻近矩阵进行相似度的对比,选择相似度高的未缺失的项目值作为有缺失数据向本的插补值;中国专利CN112732685A,利用KNN最近邻填补算法和极大似然算法相结合对异常数据进行处理。
相关论文有:(1)RAJAPS,THANGAVEL K.Soft clustering based missingvalueimputation[C]//Annual Convention of the Computer Society of India.Singapore:Springer,2016:119-133.提出基于粗糙K均值的缺失值填补,通过将一个对象防止到一个以上的群集中来解决脆性问题;(2)TRANCT,ZHANGM,ANDREAEP,etal.Improvingperformance of classification on incomplete data usingfeatureselection and clustering[J].Applied Soft Computing,2018,73:848-861.提出整合填补方法,基于聚类和特征选择的不完整数据填补的新方法;(3)SHIH,WANGP,YANGX,etal.An improved mean imputation clustering algorithm for incomplete data[J].Neural ProcessingLetters,2020:1-14.提出一种针对不完整数据的改进均值填补聚类算法;(4)NIKFALAZAR S,YEH C H,BEDINGFIELD S,et al.Missing data imputationusingdecision trees and fuzzy clusteringwith iterative learning[J].Knowledgeand Information Systems,2020,62;(6):2419-2437.提出一种新的混合填补方法,以使用混合填补方法来处理MCAR类型的缺失值;(5)冷泳林,张清辰,鲁富宇.基于AP聚类的不完整大数据填充[J].计算机工程与应用,2015,51;(10):123-127.提出基于AP聚类的不完整数据填充算法;(6)WANGP,CHEN X.Three-way ensemble clustering for incomplete data[J].IEEE Access,2020,8:91855-91864.提出一种基于集成聚类算法的缺失数据填充。
以上基于聚类的方法要么是只考虑了缺失数据的局部情况,要么就是从整体出发而未考虑缺失信息带来的误差,从而无法准确的对缺失数据进行填充。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有技术要么是只考虑了缺失数据的局部情况,要么就是从整体出发而未考虑缺失信息带来的误差,从而无法准确的对缺失数据进行填充。
为解决上述技术问题,本发明提供如下技术方案:获取金融数据集;对所述金融数据集进行两步处理;对经过所述两步处理得到数据集进行聚类操作,整合其聚类后的簇;通过相似度度量将缺失数据对象划分的到最想似的簇中,并通过簇内信息进行填补。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:所述两步处理包括,一步是不处理数据集中的缺失值,一步是将数据集分为缺失数据集和完整的数据集。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:所述不处理数据集中的缺失值包括,对金融缺失数据集进行k-means聚类处理;所述k-means聚类处理过程如下:选定簇的个数k为8,使用余弦相似度计算各个样本点到簇中心的距离;对于分类后的产生的8个簇,使用欧式距离计算到簇内其他点距离均值最小的点作为质心,重复以上过程直至簇中心没有移动,得8个簇。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:所述余弦相似度计算公式为:
其中,cosθ表示余弦相似度,A表示对象点向量(x1,y1),B表示质心向量(x2,y2)。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:所述欧式距离的计算公式为:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:判断所述簇中心没有移动的标准为所述质心没有改变。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:将所述数据集分为缺失数据集和完整数据集的分类标准包括,根据是否有缺失值将所述数据集分为缺失数据集和完整数据集。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:对所述完整数据集进行k-means聚类处理,得到8个簇。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:还包括,使用皮尔森相关来进一步分析通过两次聚类得到的簇,将第一次聚类得到的簇视为变量X,第二次聚类得到的簇视为变量Y,使用皮尔森来计算X与Y的相似程度,皮尔森计算公式:
其中,N为样本总量;
如果ρX,Y大于预设值,表示两个簇之间相关,即在聚类中这个簇没有因为信息的缺失而受影响,则选用这类簇用于缺失值填补。
作为本发明所述的基于聚类的金融缺失数据处理方法的一种优选方案,其中:计算所述缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;
基于计算结果进行相似度的度量,将所述缺失数据对象划分到最相似的簇中,并将所述簇的属性均值填充给所述缺失数据对象。
本发明的有益效果:本发明提出一种整体和局部相结合的基于聚类的金融缺失数据处理方法,极大程度上保留了原样本的分布情况,减少缺失数据所导致的误差,更准确的对缺失数据进行填充。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于聚类的金融缺失数据处理方法的基本流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种基于聚类的金融缺失数据处理方法,包括:
S1:获取金融数据集。
需要说明的是,本实施例所获取的金融数据集某一公司提供的数据集。
S2:对金融数据集进行两步处理。
需要说明的是,两步处理包括:
一步是不处理数据集中的缺失值,一步是将数据集分为缺失数据集和完整的数据集。
S3:对经过两步处理得到数据集进行聚类操作,整合其聚类后的簇。
需要说明的是,不处理数据集中的缺失值包括:
对金融缺失数据集进行k-means聚类处理;
k-means聚类处理过程如下:
选定簇的个数k为8,使用余弦相似度计算各个样本点到簇中心(每个聚类中数值的均值,也称为质心)的距离;
对于分类后的产生的8个簇,使用欧式距离计算到簇内其他点距离均值最小的点作为质心,重复以上过程直至簇中心没有移动,得8个簇。
其中,余弦相似度计算公式为:
其中,cosθ表示余弦相似度,A表示对象点向量(x1,y1),B表示质心向量(x2,y2)。
欧式距离的计算公式为:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标。
判断簇中心没有移动的标准为质心没有改变。
进一步的,将数据集分为缺失数据集和完整数据集的分类标准包括:
根据是否有缺失值将数据集分为缺失数据集和完整数据集。
对完整数据集进行k-means聚类处理,重复上述步骤中的k-means聚类处理过程,得到8个簇。
其中,这里簇的个数和上一步中得到的簇个数相同,即它们的分类相同。
S4:通过相似度度量将缺失数据对象划分的到最想似的簇中,并通过簇内信息进行填补。
需要说明的是,使用皮尔森相关来进一步分析S3步骤中通过两次聚类得到的簇,将第一次聚类得到的簇视为变量X,第二次聚类得到的簇视为变量Y,使用皮尔森来计算X与Y的相似程度,皮尔森计算公式:
其中,N为样本总量;
如果ρX,Y大于预设值,表示两个簇之间相关,即在聚类中这个簇没有因为信息的缺失而受影响,则选用这类簇用于缺失值填补。
进一步的,计算缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;
基于计算结果进行相似度的度量,将缺失数据对象划分到最相似的簇中,并将簇的属性均值填充给缺失数据对象。
本发明提供了一种新的金融缺失数据处理方法,使用聚类,极大程度上保留了原样本的分布情况,将整体信息和局部信息结合,减少缺失数据所导致的误差,更准确的对缺失数据进行填充。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于聚类的金融缺失数据处理方法,其特征在于,包括:
获取金融数据集;
对所述金融数据集进行两步处理;
两步处理包括,一步是不处理数据集中的缺失值,一步是将数据集分为缺失数据集和完整的数据集;
所述不处理数据集中的缺失值包括,对金融缺失数据集进行k-means聚类处理;
k-means聚类处理过程如下:
选定簇的个数k为8,使用余弦相似度计算各个样本点到簇中心的距离;
余弦相似度计算公式为:
其中,cosθ表示余弦相似度,A表示对象点向量(x1,y1),B表示质心向量(x2,y2);
对于分类后的产生的8个簇,使用欧式距离计算到簇内其他点距离均值最小的点作为质心,重复以上过程直至簇中心没有移动,得8个簇;
欧式距离的计算公式为:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;
判断所述簇中心没有移动的标准为所述质心没有改变;
对所述完整数据集进行k-means聚类处理,得到8个簇;
将所述数据集分为缺失数据集和完整数据集的分类标准包括根据是否有缺失值将所述数据集分为缺失数据集和完整数据集;
对经过所述两步处理得到数据集进行聚类操作,整合其聚类后的簇;
使用皮尔森相关来进一步分析通过两次聚类得到的簇,将第一次聚类得到的簇视为变量X,第二次聚类得到的簇视为变量Y,使用皮尔森来计算X与Y的相似程度,皮尔森计算公式:
其中,N为样本总量;
如果ρX,Y大于预设值,表示两个簇之间相关,即在聚类中这个簇没有因为信息的缺失而受影响,则选用这类簇用于缺失值填补;
计算所述缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离:
其中,d(x,y)表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;
基于计算结果进行相似度的度量,将所述缺失数据对象划分到最相似的簇中,并将所述簇的属性均值填充给所述缺失数据对象;
通过相似度度量将缺失数据对象划分的到最相似的簇中,并通过簇内信息进行填补。
CN202111565832.4A 2021-12-20 2021-12-20 一种基于聚类的金融缺失数据处理方法 Active CN114443628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565832.4A CN114443628B (zh) 2021-12-20 2021-12-20 一种基于聚类的金融缺失数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565832.4A CN114443628B (zh) 2021-12-20 2021-12-20 一种基于聚类的金融缺失数据处理方法

Publications (2)

Publication Number Publication Date
CN114443628A CN114443628A (zh) 2022-05-06
CN114443628B true CN114443628B (zh) 2024-04-26

Family

ID=81364310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565832.4A Active CN114443628B (zh) 2021-12-20 2021-12-20 一种基于聚类的金融缺失数据处理方法

Country Status (1)

Country Link
CN (1) CN114443628B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010365B2 (en) * 2018-03-29 2021-05-18 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
不完整数据的聚类研究;冷泳林;张清辰;鲁富宇;;河南科学(第11期);全文 *
冷泳林 ; 张清辰 ; 鲁富宇 ; .基于AP聚类的不完整大数据填充.计算机工程与应用.2015,(10),第3.4节. *
基于AP聚类的不完整大数据填充;冷泳林;张清辰;鲁富宇;;计算机工程与应用(第10期);第3.4节 *
基于不完备集双聚类的缺失数据填补算法;韩飞;沈镇林;;计算机工程(第04期);第2节 *
缺失数据处理方法研究综述;熊中敏等;计算机工程与应用;第3章 *

Also Published As

Publication number Publication date
CN114443628A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
WO2021072879A1 (zh) 证件中的目标文本提取方法、装置、设备及可读存储介质
JP4376145B2 (ja) 画像分類学習処理システム及び画像識別処理システム
US20080260254A1 (en) Automatic 3-D Object Detection
EP3311311A1 (en) Automatic entity resolution with rules detection and generation system
JP5349407B2 (ja) 平均値シフト手順を使用してサンプルをクラスタリングするプログラム
Afzalan et al. An automated spectral clustering for multi-scale data
US11062120B2 (en) High speed reference point independent database filtering for fingerprint identification
US20160048728A1 (en) Method and system for optical character recognition that short circuit processing for non-character containing candidate symbol images
CN108561127B (zh) 一种基于随机模拟的地层压力预测方法
CN111291824B (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
WO2019095587A1 (zh) 人脸识别方法、应用服务器及计算机可读存储介质
WO2021217854A1 (zh) 假阳性过滤方法、装置、设备及存储介质
CN114443628B (zh) 一种基于聚类的金融缺失数据处理方法
US8457388B2 (en) Method and system for searching for global minimum
JPWO2019026523A1 (ja) クラスタリングの評価値算出方法及びクラスタ数決定方法
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
CN111027609B (zh) 一种图像数据加权分类方法和系统
Huang et al. Bidirectional discrimination with application to data visualization
US20230351229A1 (en) Methods and systems for identifying patterns in data using delimited feature-regions
CN111192302A (zh) 一种基于运动平滑性和ransac算法的特征匹配方法
CN110929801A (zh) 一种基于改进的Euclid距离KNN分类方法和系统
CN110837804A (zh) 一种稀疏混合字典学习的人脸鉴别方法
JP2006031114A (ja) 画像分割処理システム
CN109740013A (zh) 图像数据处理方法及图像检索方法
CN112800138B (zh) 大数据分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant