CN108763305A - 数据特征提取的方法、装置、计算机设备和存储介质 - Google Patents

数据特征提取的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108763305A
CN108763305A CN201810362785.5A CN201810362785A CN108763305A CN 108763305 A CN108763305 A CN 108763305A CN 201810362785 A CN201810362785 A CN 201810362785A CN 108763305 A CN108763305 A CN 108763305A
Authority
CN
China
Prior art keywords
data
initial data
characteristic
ccipca
algorithms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810362785.5A
Other languages
English (en)
Inventor
王义文
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810362785.5A priority Critical patent/CN108763305A/zh
Priority to PCT/CN2018/095388 priority patent/WO2019200738A1/zh
Publication of CN108763305A publication Critical patent/CN108763305A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • G06Q20/3829Payment protocols; Details thereof insuring higher security of transaction involving key management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请揭示了本申请的数据特征提取的方法、装置、计算机设备和存储介质,用于对区块链上的数据进行数据特征提取,其中方法包括:获取区块链上的原始数据;将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。本申请利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。

Description

数据特征提取的方法、装置、计算机设备和存储介质
技术领域
本申请涉及到计算机技术领域,特别是涉及到一种数据特征提取的方法、装置、计算机设备和存储介质。
背景技术
区块链是一种去中心化、无需信任的新型数据架构,它由网络中所有的节点共同拥有、管理和监督,不接受单一方面的控制。
区块链是一个刚刚兴起的技术,各企业正在做前期的技术研发和发展布局,所以对区块链上的数据进行分析是一个必要的过程,但是随着区块链上的数据日益增多,如何快速地提取区块链上的原始数据的特征数据,是亟需解决的问题。
发明内容
本申请的主要目的为提供一种数据特征提取的方法、装置、计算机设备和存储介质,旨在可以快速提取区块链上的原始数据的特征数据。
本申请提出一种数据特征提取的方法,用于对区块链上的数据进行数据特征提取,所述方法包括:
获取区块链上的原始数据;
将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
对所述原始数据进行加窗处理;
将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
将获取的所述原始数据存入到缓存区;
将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
将获取到的特征数据分批次地进行相关矩阵分析;
将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
将输出的特征数据实时地添加到可视化的散点图中。
进一步地,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
对输出的特征数据进行分类;
将分类后的特征数据输入到对应的运算模型进行计算。
本申请还提供一种数据特征提取的装置,用于对区块链上的数据进行数据特征提取,所述装置包括:
获取单元,用于获取区块链上的原始数据;
特征提取单元,用于将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的数据特征提取的方法、装置、计算机设备和存储介质,利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。
附图说明
图1为本申请一实施例的数据特征提取的方法的流程示意图;
图2为本申请一实施例的数据特征提取的方法的流程示意图;
图3为本申请一实施例的数据特征提取的方法的流程示意图;
图4为本申请一实施例的数据特征提取的方法的流程示意图;
图5为本申请一实施例的数据特征提取的装置的结构示意框图;
图6为本申请一实施例的特征提取单元的结构示意框图;
图7为本申请一实施例的特征提取单元的结构示意框图;
图8为本申请一实施例的特征提取单元的结构示意框图;
图9为本申请一实施例的数据特征提取的装置的结构示意框图;
图10为本申请一实施例的数据特征提取的装置的结构示意框图;
图11为本申请一实施例的数据特征提取的装置的结构示意框图;
图12为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提出一种数据特征提取的方法,用于对区块链上的数据进行数据特征提取,所述方法包括:
S1、获取区块链上的原始数据;
S2、将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
如上述步骤S1所述,上述的原始数据是指从区块链上直接下载下来的数据,未经过任何数据处理的数据。从区块链上获取原始数据的方法包括,输入待下载的数据的关键字、关键词等检索词,然后将与检索词相关的数据下载下来。在其它实施例中,还可以设置区块下载,即指定区块只要有数据更新,即会将更新的数据下载下来,以达到实时分析处理的高效性。上述区块是指某一指定领域或某一企业的区块。
如上述步骤S2所述,上述CCIPCA(无偏协方差无关增量主成分分析,CandidCovariance-free Incremental Principal Component Analysis)算法,可用于在线数据流降维的处理,该算法对数据流中的异常点较为敏感,降维精度受异常点的影响较大。本实施例中,充分利用区块链上的数据不会被篡改的产生的特点,所以在用CCIPCA算法降维之前无需进行离群点处理的过程,提高提取数据特征的效率。
本实施例中,上述CCIPCA算法中计算所述原始数据的特征数据的具体过程如下:
假设数据流按样本向量u(1),u(2),…收集,向量可能无限大。每个u(n),n=1,2,…,是一个d维向量。不失一般性,假设u(n)的均值为0。A={u(n)uT(n)}是一个dxd维的协方差矩阵,T代表矩阵转置。采用增量更新的方式计算协方差矩阵:
令v(0)=v(1),即数据分布的第一个方向,ν代表协方差矩阵。对于增量估计,上式可以写成一种递归的形式:
其中,v=λx为样本协方差矩阵,特征向量X和特征值λ可分别计算x=v/||v||和λ=||v||得到。由以上得到的是第一阶向量,第二阶向量如下:
其中,u1(n)=u(n),在完备空间中,u2(n)被用作下一迭代的输入。
本实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2,包括:
S21、对所述原始数据进行加窗处理;
S22、将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
如上述步骤S21和S22所述,上述加窗处理是指在数据上加一个滑动窗口,用于将部分历史数据丢弃,只处理滑动窗口内的数据,使本申请更关注于新数据的特征提取,以达到实时处理的效果。本申请中,加入滑动窗口之后,虽然对于特征提取的精准度有一定的影响,但是减少对历史数据的依赖性,可以大大地降低计算量,进而提高对实时获取的原始数据进行特征提取的速度。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2,包括:
S201、将获取的所述原始数据存入到缓存区;
S202、将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
如上述步骤S201和S202所述,上述缓存区是指用于存放原始数据的存储空间。本实施例中,获取到区块链上的原始数据之后,并不是直接输入到CCIPCA算法中计算,而是先存储到缓存区内,然后将缓存内的原始数据按照时间进度进行分批处理,即将缓存区内的原始数据按照一定的规则进行划分,比如,每X的数据量为一个批次等,然后按照时间上的先后顺序,分批次的将原始数据输入到CCIPCA算法中计算。具体地,缓存区内的原始数据,进行分批,每一批次的数据量相等,然后按照数据获取的时间,逐批次地输入到CCIPCA算法中进行迭代。设一批输入p个样本,算法运行时在一批样本数据全部输入后才进行迭代计算,其它时候则将已经获得的原始数据放入到缓冲区,等待其它原始数据的输入。迭代过程为:在CCIPCA算法计算时,在接收到一批原始数据进行刷新后,依次对第i个特征向量进行刷新,得到第i个特征向量新的估计值,然后对这个新的估计值做残差运算。再以新得到的样本对第i+1个特征向量进行刷新。相比于逐个输入原始数据进行刷新,可以使计算前期的特征向量误差相对较小,收敛趋稳定后,再让样本对其进行残差运算,以此来控制误差的累积,具体如下:
对于每批p个原始数据的样本向量:u(1),u(2),……,u(p),在前k各主成分v1(n),v2(n),……,vk(n)由如下方法刷新:
对i=1,2,…,k:
1)vi(n)=ui(n)
2)对n=1,2,…,p;
3)对n=1,2,…,p;
在另一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2,包括:
S203、在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
如上述步骤S203所述,上述第一个样本是指对应上述第一个待求的特征数据的原始数据。上述判断收敛的依据是,第i个特征向量连续r个固执之间的距离(距离定义为内积的绝对值与1的距离)都小于一个阈值q(设q小于10-4)时,认为该特征向量收敛完毕,以得到算法所能得到的最好的收敛值。然后,让原始数据对第1到i个特征向量最后得到的收敛值依次做残差运算,在对第i+1个特征向量进行刷新。为了防止某个特征向量一直无法收敛使算法长时间循环,可以另外附加一个终止条件:当输入m(m大于104)个原始数据后,依然没有完成收敛,则终止循环。
参照图2,本实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2之后,包括:
S3、将获取到的特征数据分批次地进行相关矩阵分析;
S4、将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
如上述步骤S3所述,上述相关矩阵也叫相关系数矩阵,其是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析,协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关,当变量大于或等于三组的时候,即会使用相应的协方差矩阵。
如上述步骤S4所述,上述的不相关特征数据可能是欺诈数据,该欺诈数据并不是篡改后的数据,而是按照正规的途径完成的欺诈数据,近似于现有的淘宝刷单(自己下单买自己的货物,然后在留言区内进行正向评价等),此时可以进行欺诈数据的识别,即上述的按照预设规则进行处理。在一个实施例中,可以将上述的不相关特征数据通过Voronoi算法对其进行异常值识别,得出欺诈数据。具体的过程包括:
a、将上述不相关特征数据制作成点集S的Voronoi图;
b、计算点集S中各点的V-异常因子,并找出每个点的V-邻近点,具体为:b1、对点集S中的一点pi的Voronoi多边形V(pi)来确定其临近点,计算pi到其各邻近点的平均距离,用平均距离的倒数来衡量Pi的异常程度;
b2、对点集S的任意一点p,由V(p)边确定的p的邻近点称为p的V-邻近点,点p所有V-邻近点的集合记作V(p)。
b3、点p所有V-邻近点到p的平均距离的倒数,称为p点的V-异常因子,记作Vd(p),
其中,∣Vd(p)∣为p所有V-邻近点的个数;
Vd(p)反映了点p周围点的分布密度,Vd(p)越大,表面p点周围点集的分布越稀疏,其异常因子也就越小。
c、根据各点的V-异常因子从小到大排列;
d、输出各点的V-异常因子,以及异常因子最小的前n个点,该前n个点对应的数据即会判定为欺诈数据风险最高的数据。
当获取到欺诈数据后,可以根据欺诈数据的具体情况作出想用的动作。比如,欺诈数据是合作企业产生的,则自动发出警报邮件等给本企业的高管人员,使本企业高管在于合作企业进行合作时保持警惕。
参照图3,在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2之后,包括:
S5、将输出的特征数据实时地添加到可视化的散点图中。
如上述步骤S5所述,上述散点图scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图。散点图中包含的数据越多,比较的效果就越好。本实施例中会实时的将提取的特征数据以点的形式体现在散点图中,以便于人们通过肉眼及时地发现离散点,以便于对离散点对应的数据进行分析等。
参照图4,本实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤S2之后,包括:
S6、对输出的特征数据进行分类;
S7、将分类后的特征数据输入到对应的运算模型进行计算。
如上述步骤S6和S7所述,上述将特征数据分类是指将不同类型的特征数据集合到一起,比如,特征数据中包括多种类型,如金融类、物流类、出口类、农作物类、牲畜类等,具体的分类方法,可以根据数据的来源等进行分类,比如特征数据对应的原始数据是金融企业的数据,其归类到金融类的特征数据。上述特征数据的分类,可以是设计者预选分好类别,也可以是自动进行分类,比如根据特征数据的属性进行分类等。上述对应的运算模型包括多种,比如短期盈利模型、出口量预测模型、物流速度预测模型等。在一具体实施例中,需要对各种行业的保险、贷款等业务进行对应场景的预测,那么可以对上述分类后的特征数据集合进行调用,比如,需要对金融行业的短期盈利能力进行预测,那么调用上述金融类的特征数据,然后输入短期盈利模型进行预测,具体为:将金融类的特征数据输入到K-means算法中,进行第一次聚类计算;将第一次聚类计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测;根据预测结果确定金融行业的短期盈利能力,如果金融行业的短期盈利能力比较高,则推出对应金融行业的贷款、理财等业务。
本申请的数据特征提取的方法,利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。
参照图5,本申请实施例提出一种数据特征提取的装置,用于对区块链上的数据进行数据特征提取,所述装置包括:
获取单元10,用于获取区块链上的原始数据;
特征提取单元20,用于将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
在上述获取单元10中,上述的原始数据是指从区块链上直接下载下来的数据,未经过任何数据处理的数据。从区块链上获取原始数据的方法包括,输入待下载的数据的关键字、关键词等检索词,然后将与检索词相关的数据下载下来。在其它实施例中,还可以设置区块下载,即指定区块只要有数据更新,即会将更新的数据下载下来,以达到实时分析处理的高效性。上述区块是指某一指定领域或某一企业的区块。
在上述特征提取单元20中,上述CCIPCA(无偏协方差无关增量主成分分析,CandidCovariance-free Incremental Principal Component Analysis)算法,可用于在线数据流降维的处理,该算法对数据流中的异常点较为敏感,降维精度受异常点的影响较大。本实施例中,充分利用区块链上的数据不会被篡改的产生的特点,所以在用CCIPCA算法降维之前无需进行离群点处理的过程,提高提取数据特征的效率。
本实施例中,上述CCIPCA算法中计算所述原始数据的特征数据的具体过程如下:
假设数据流按样本向量u(1),u(2),…收集,向量可能无限大。每个u(n),n=1,2,…,是一个d维向量。不失一般性,假设u(n)的均值为0。A={u(n)uT(n)}是一个dxd维的协方差矩阵,T代表矩阵转置。采用增量更新的方式计算协方差矩阵:
令v(0)=v(1),即数据分布的第一个方向,ν代表协方差矩阵。对于增量估计,上式可以写成一种递归的形式:
其中,v=λx为样本协方差矩阵,特征向量x和特征值λ可分别计算x=v/||v||和λ=||v||得到。由以上得到的是第一阶向量,第二阶向量如下:
其中,u1(n)=u(n),在完备空间中,u2(n)被用作下一迭代的输入。
参照图6,本实施例中,上述特征提取单元20,包括:
加窗模块21,用于对所述原始数据进行加窗处理;
第一计算模块22,用于将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
上述加窗模块21和第一计算模块22中,上述加窗处理是指在数据上加一个滑动窗口,用于将部分历史数据丢弃,只处理滑动窗口内的数据,使本申请更关注于新数据的特征提取,以达到实时处理的效果。本申请中,加入滑动窗口之后,虽然对于特征提取的精准度有一定的影响,但是减少对历史数据的依赖性,可以大大地降低计算量,进而提高对实时获取的原始数据进行特征提取的速度。
参照图7,在一个实施例中,上述特征提取单元20,包括:
缓存模块201,用于将获取的所述原始数据存入到缓存区;
第二计算模块202,用于将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
在上述缓存模块201和第二计算模块202中,上述缓存区是指用于存放原始数据的存储空间。本实施例中,获取到区块链上的原始数据之后,并不是直接输入到CCIPCA算法中计算,而是先存储到缓存区内,然后将缓存内的原始数据按照时间进度进行分批处理,即将缓存区内的原始数据按照一定的规则进行划分,比如,每X的数据量为一个批次等,然后按照时间上的先后顺序,分批次的将原始数据输入到CCIPCA算法中计算。具体地,缓存区内的原始数据,进行分批,每一批次的数据量相等,然后按照数据获取的时间,逐批次地输入到CCIPCA算法中进行迭代。设一批输入p个样本,算法运行时在一批样本数据全部输入后才进行迭代计算,其它时候则将已经获得的原始数据放入到缓冲区,等待其它原始数据的输入。迭代过程为:在CCIPCA算法计算时,在接收到一批原始数据进行刷新后,依次对第i个特征向量进行刷新,得到第i个特征向量新的估计值,然后对这个新的估计值做残差运算。再以新得到的样本对第i+1个特征向量进行刷新。相比于逐个输入原始数据进行刷新,可以使计算前期的特征向量误差相对较小,收敛趋稳定后,再让样本对其进行残差运算,以此来控制误差的累积,具体如下:
对于每批p个原始数据的样本向量:u(1),u(2),……,u(p),在前k各主成分v1(n),v2(n),……,vk(n)由如下方法刷新:
对i=1,2,…,k:
1)vi(n)=ui(n)
2)对n=1,2,…,p;
3)对n=1,2,…,p;
参照图8,在另一个实施例中,上述特征提取单元20,包括:
第三计算单元203,用于在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
在上述第三计算单元203中,上述第一个样本是指对应上述第一个待求的特征数据的原始数据。上述判断收敛的依据是,第i个特征向量连续r个固执之间的距离(距离定义为内积的绝对值与1的距离)都小于一个阈值q(设q小于10-4)时,认为该特征向量收敛完毕,以得到算法所能得到的最好的收敛值。然后,让原始数据对第1到i个特征向量最后得到的收敛值依次做残差运算,在对第i+1个特征向量进行刷新。为了防止某个特征向量一直无法收敛使算法长时间循环,可以另外附加一个终止条件:当输入m(m大于104)个原始数据后,依然没有完成收敛,则终止循环。
参照图9,本实施例中,上述数据特征提取的装置,还包括:
相关分析单元30,用于将获取到的特征数据分批次地进行相关矩阵分析;
处理单元40,用于将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
在上述相关分析单元30中,上述相关矩阵也叫相关系数矩阵,其是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析,协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关,当变量大于或等于三组的时候,即会使用相应的协方差矩阵。
在上述处理单元40中,上述的不相关特征数据可能是欺诈数据,该欺诈数据并不是篡改后的数据,而是按照正规的途径完成的欺诈数据,近似于现有的淘宝刷单(自己下单买自己的货物,然后在留言区内进行正向评价等),此时可以进行欺诈数据的识别,即上述的按照预设规则进行处理。在一个实施例中,可以将上述的不相关特征数据通过Voronoi算法对其进行异常值识别,得出欺诈数据。具体的过程包括:
a、将上述不相关特征数据制作成点集S的Voronoi图;
b、计算点集S中各点的V-异常因子,并找出每个点的V-邻近点,具体为:b1、对点集S中的一点pi的Voronoi多边形V(pi)来确定其临近点,计算pi到其各邻近点的平均距离,用平均距离的倒数来衡量Pi的异常程度;
b2、对点集S的任意一点p,由V(p)边确定的p的邻近点称为p的V-邻近点,点p所有V-邻近点的集合记作V(p)。
b3、点p所有V-邻近点到p的平均距离的倒数,称为p点的V-异常因子,记作Vd(p),
其中,∣Vd(p)∣为p所有V-邻近点的个数;
Vd(p)反映了点p周围点的分布密度,Vd(p)越大,表面p点周围点集的分布越稀疏,其异常因子也就越小。
c、根据各点的V-异常因子从小到大排列;
d、输出各点的V-异常因子,以及异常因子最小的前n个点,该前n个点对应的数据即会判定为欺诈数据风险最高的数据。
当获取到欺诈数据后,可以根据欺诈数据的具体情况作出想用的动作。比如,欺诈数据是合作企业产生的,则自动发出警报邮件等给本企业的高管人员,使本企业高管在于合作企业进行合作时保持警惕。
参照图10,在一个实施例中,上述数据特征提取的装置,还包括:
添加单元50,用于将输出的特征数据实时地添加到可视化的散点图中。
在上述添加单元50中,上述散点图scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图。散点图中包含的数据越多,比较的效果就越好。本实施例中会实时的将提取的特征数据以点的形式体现在散点图中,以便于人们通过肉眼及时地发现离散点,以便于对离散点对应的数据进行分析等。
参照图11,本实施例中,上述数据特征提取的装置,还包括:
分类单元60,用于对输出的特征数据进行分类;
运算单元70,用于将分类后的特征数据输入到对应的运算模型进行计算。
在上述分类单元70和运算单元80中,上述将特征数据分类是指将不同类型的特征数据集合到一起,比如,特征数据中包括多种类型,如金融类、物流类、出口类、农作物类、牲畜类等,具体的分类方法,可以根据数据的来源等进行分类,比如特征数据对应的原始数据是金融企业的数据,其归类到金融类的特征数据。上述特征数据的分类,可以是设计者预选分好类别,也可以是自动进行分类,比如根据特征数据的属性进行分类等。上述对应的运算模型包括多种,比如短期盈利模型、出口量预测模型、物流速度预测模型等。在一具体实施例中,需要对各种行业的保险、贷款等业务进行对应场景的预测,那么可以对上述分类后的特征数据集合进行调用,比如,需要对金融行业的短期盈利能力进行预测,那么调用上述金融类的特征数据,然后输入短期盈利模型进行预测,具体为:将金融类的特征数据输入到K-means算法中,进行第一次聚类计算;将第一次聚类计算得到的各类聚类输入到预设的SVR预测模型中进行回归预测;根据预测结果确定金融行业的短期盈利能力,如果金融行业的短期盈利能力比较高,则推出对应金融行业的贷款、理财等业务。
本申请的数据特征提取的装置,利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。
参照图12,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储CCIPCA算法以及得出的特征数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据特征提取的方法。
上述处理器执行上述数据特征提取的方法,用于对区块链上的数据进行数据特征提取,所述方法包括:获取区块链上的原始数据;将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:对所述原始数据进行加窗处理;将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:将获取的所述原始数据存入到缓存区;将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:将获取到的特征数据分批次地进行相关矩阵分析;将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:将输出的特征数据实时地添加到可视化的散点图中。
在一个实施例中,上述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:对输出的特征数据进行分类;将分类后的特征数据输入到对应的运算模型进行计算。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本发明实施例的计算机设备,执行的数据特征提取的方法,利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现数据特征提取的方法,用于对区块链上的数据进行数据特征提取,所述方法包括:获取区块链上的原始数据;将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
上述执行的数据特征提取的方法,利用数据是区块链上下载的,其无法篡改的特性,所以在数据特征提取的过程中并没有进行离散点处理的过程,而使用CCIPCA算法直接进行数据特征提取,数据特征提取更快。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:对所述原始数据进行加窗处理;将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:将获取的所述原始数据存入到缓存区;将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:将获取到的特征数据分批次地进行相关矩阵分析;将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:将输出的特征数据实时地添加到可视化的散点图中。
在一个实施例中,上述处理器将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:对输出的特征数据进行分类;将分类后的特征数据输入到对应的运算模型进行计算。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种数据特征提取的方法,其特征在于,用于对区块链上的数据进行数据特征提取,所述方法包括:
获取区块链上的原始数据;
将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
2.根据权利要求1所述的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
对所述原始数据进行加窗处理;
将窗口内的原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
3.根据权利要求1所述的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
将获取的所述原始数据存入到缓存区;
将缓存区内的原始数据分批次地输入所述CCIPCA算法中,当一个批次的原始数据输入完毕后,开始进行迭代计算,得到所述原始数据的特征数据。
4.根据权利要求1所述的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤,包括:
在CCIPCA算法计算时,对于第一个待求的特征数据,先输入第一个样本进行计算直到其收敛,对后面的输入样本计算残差以计算后一个特征数据,并以此类推,逐个计算特征数据。
5.根据权利要求1所述的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
将获取到的特征数据分批次地进行相关矩阵分析;
将同一批次中与该批次内的其它特征数据不相关的不相关特征数据,按照预设规则进行处理。
6.根据权利要求1所述的的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
将输出的特征数据实时地添加到可视化的散点图中。
7.根据权利要求1所述的的数据特征提取的方法,其特征在于,所述将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据的步骤之后,包括:
对输出的特征数据进行分类;
将分类后的特征数据输入到对应的运算模型进行计算。
8.一种数据特征提取的装置,其特征在于,用于对区块链上的数据进行数据特征提取,所述装置包括:
获取单元,用于获取区块链上的原始数据;
特征提取单元,用于将所述原始数据输入到CCIPCA算法中计算所述原始数据的特征数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810362785.5A 2018-04-20 2018-04-20 数据特征提取的方法、装置、计算机设备和存储介质 Pending CN108763305A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810362785.5A CN108763305A (zh) 2018-04-20 2018-04-20 数据特征提取的方法、装置、计算机设备和存储介质
PCT/CN2018/095388 WO2019200738A1 (zh) 2018-04-20 2018-07-12 数据特征提取的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810362785.5A CN108763305A (zh) 2018-04-20 2018-04-20 数据特征提取的方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN108763305A true CN108763305A (zh) 2018-11-06

Family

ID=64011024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810362785.5A Pending CN108763305A (zh) 2018-04-20 2018-04-20 数据特征提取的方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN108763305A (zh)
WO (1) WO2019200738A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245514A (zh) * 2019-04-30 2019-09-17 清华大学 一种基于区块链的分布式计算方法及系统
CN110569654A (zh) * 2019-08-30 2019-12-13 广州奇化有限公司 供应链快速响应模式的区块链可信数据处理方法及装置
CN110705321A (zh) * 2019-10-16 2020-01-17 榆林学院 计算机辅助翻译系统
CN110865930A (zh) * 2019-12-13 2020-03-06 厦门华厦学院 一种移动通信故障分布式自主采集分析系统
CN111008227A (zh) * 2019-12-27 2020-04-14 广西民族师范学院 一种数据分析处理平台
US11164658B2 (en) 2019-05-28 2021-11-02 International Business Machines Corporation Identifying salient features for instances of data
CN117310348A (zh) * 2023-11-23 2023-12-29 东莞市时实电子有限公司 一种电源适配器故障实时监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
US20120170659A1 (en) * 2009-09-04 2012-07-05 Stmicroelectronics Pvt. Ltd. Advance video coding with perceptual quality scalability for regions of interest
CN107483969A (zh) * 2017-09-19 2017-12-15 上海爱优威软件开发有限公司 一种基于pca的数据传输方法及系统
CN107563260A (zh) * 2016-06-30 2018-01-09 中国矿业大学 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统
CN107633254A (zh) * 2017-07-25 2018-01-26 平安科技(深圳)有限公司 建立预测模型的装置、方法及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933089A (zh) * 2015-05-15 2015-09-23 江苏博智软件科技有限公司 一种基于加速迭代的大数据集谱聚类的方法
CN107194950B (zh) * 2017-04-26 2020-06-12 天津大学 一种基于慢特征分析的多人跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758283A (zh) * 2005-11-03 2006-04-12 复旦大学 模拟多尺度交叠感受野的神经网络及其建立方法和应用
US20120170659A1 (en) * 2009-09-04 2012-07-05 Stmicroelectronics Pvt. Ltd. Advance video coding with perceptual quality scalability for regions of interest
CN107563260A (zh) * 2016-06-30 2018-01-09 中国矿业大学 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统
CN107633254A (zh) * 2017-07-25 2018-01-26 平安科技(深圳)有限公司 建立预测模型的装置、方法及计算机可读存储介质
CN107483969A (zh) * 2017-09-19 2017-12-15 上海爱优威软件开发有限公司 一种基于pca的数据传输方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245514A (zh) * 2019-04-30 2019-09-17 清华大学 一种基于区块链的分布式计算方法及系统
US11164658B2 (en) 2019-05-28 2021-11-02 International Business Machines Corporation Identifying salient features for instances of data
CN110569654A (zh) * 2019-08-30 2019-12-13 广州奇化有限公司 供应链快速响应模式的区块链可信数据处理方法及装置
CN110569654B (zh) * 2019-08-30 2020-05-12 广州奇化有限公司 供应链快速响应模式的区块链可信数据处理方法及装置
CN110705321A (zh) * 2019-10-16 2020-01-17 榆林学院 计算机辅助翻译系统
CN110865930A (zh) * 2019-12-13 2020-03-06 厦门华厦学院 一种移动通信故障分布式自主采集分析系统
CN110865930B (zh) * 2019-12-13 2022-06-17 厦门华厦学院 一种移动通信故障分布式自主采集分析系统
CN111008227A (zh) * 2019-12-27 2020-04-14 广西民族师范学院 一种数据分析处理平台
CN117310348A (zh) * 2023-11-23 2023-12-29 东莞市时实电子有限公司 一种电源适配器故障实时监测方法及系统
CN117310348B (zh) * 2023-11-23 2024-03-12 东莞市时实电子有限公司 一种电源适配器故障实时监测方法及系统

Also Published As

Publication number Publication date
WO2019200738A1 (zh) 2019-10-24

Similar Documents

Publication Publication Date Title
CN108763305A (zh) 数据特征提取的方法、装置、计算机设备和存储介质
Sharma et al. Survey of stock market prediction using machine learning approach
Hallak et al. Contextual markov decision processes
CN111126668B (zh) 基于图卷积网络的Spark作业时间预测方法和装置
CN114372573B (zh) 用户画像信息识别方法、装置、计算机设备和存储介质
CN109858957A (zh) 理财产品推荐方法、装置、计算机设备及存储介质
Yu et al. Control chart recognition based on the parallel model of CNN and LSTM with GA optimization
CN109034941B (zh) 产品推荐方法、装置、计算机设备和存储介质
Samimi et al. LSM algorithm for pricing American option under Heston–Hull–White’s stochastic volatility model
CN112699941A (zh) 植物病害严重程度图像分类方法、装置、计算机设备和存储介质
CN111209929A (zh) 访问数据处理方法、装置、计算机设备及存储介质
CN115222454A (zh) 基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质
CN111340365A (zh) 企业数据处理方法、装置、计算机设备和存储介质
Eggensperger et al. Surrogate Benchmarks for Hyperparameter Optimization.
Zhai et al. Cost prediction method based on an improved fuzzy model
Billah et al. Stock price prediction: comparison of different moving average techniques using deep learning model
Collier et al. Massively scaling heteroscedastic classifiers
Neskorodieva et al. Automatic Analysis Method of Audit Data Based on Neural Network Mapping
Borovska et al. Research and development of models and program for optimal product line control
WO2019204072A1 (en) Model interpretation
CN109767263A (zh) 营收数据预测方法、装置、计算机设备和存储介质
Gutiérrez-Fandiño et al. Persistent homology captures the generalization of neural networks without a validation set
Mahar et al. Bitcoin price prediction app using deep learning algorithm
Riesener et al. Identification of evaluation criteria for algorithms used within the context of product development
CN113850670A (zh) 银行产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination