CN110147804B - 一种不平衡数据处理方法、终端及计算机可读存储介质 - Google Patents

一种不平衡数据处理方法、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN110147804B
CN110147804B CN201810520058.7A CN201810520058A CN110147804B CN 110147804 B CN110147804 B CN 110147804B CN 201810520058 A CN201810520058 A CN 201810520058A CN 110147804 B CN110147804 B CN 110147804B
Authority
CN
China
Prior art keywords
data
vector
feature
characteristic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810520058.7A
Other languages
English (en)
Other versions
CN110147804A (zh
Inventor
何玉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen University
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810520058.7A priority Critical patent/CN110147804B/zh
Publication of CN110147804A publication Critical patent/CN110147804A/zh
Application granted granted Critical
Publication of CN110147804B publication Critical patent/CN110147804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种不平衡数据处理方法、终端及计算机可读存储介质,该方法包括:获取第一原始数据;经过第一变换将第一原始数据生成第一特征数据;经过第二变换将第一特征数据生成克隆数据;分别计算第一原始数据的第i向量与克隆数据的第i向量的误差,i的取值从1到k;根据误差对第一特征数据的向量进行排序,生成第二特征数据;对第二特征数据中的特征信息进行位置互换,生成第三特征数据;经过第三变换将第三特征数据生成仿真小样本数据。通过本申请,可以避免生成的仿真小样本数据与第一原始数据间存在极大空间分布相似度的问题,以使不平衡数据集的数据分布达到均衡,提高数据分析过程中的准确性或数据预测过程中的准确性。

Description

一种不平衡数据处理方法、终端及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种不平衡数据处理方法、终端及计算机可读存储介质。
背景技术
不平衡数据集是指在整个数据集样本空间中,某个类别的样本数量要远多于其它类别。其中,将数据比较多的类定义为多数类,将数据比较少的类定义为少数类。
对不平衡数据集的分类在医疗诊断、入侵检测、预防欺骗、生产设备故障诊断等领域有着广泛的应用。
目前,对于不均衡数据集的处理方法通常可以分为两类:一种是基于数据层面的方法,即通过改变数据的分布,使得不平衡数据集变为均衡的数据集。另一种是基于方法层面的方法,它通过改变少数类中误分类样本的权重,从而获得更好的分类效果。
合成少数过采样技术(SMOTE,Synthetic Minority Oversampling Technique)是一种典型的基于数据层面处理非均衡数据集的方法。它是指对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。
具体地,SMOTE可以包括以下几个步骤:第一,对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻;第二,根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本。其中,假设选择的近邻为xn;第三,对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
Figure BDA0001673656290000011
通过分析上述步骤可以知道,该方法是对原始数据中相邻的数据之间进行线性插值,根据线性插值所生成的数据与原始数据间存在极大的相似度,表征出来的结果为:在少数类样本中数据比较密集的区域,数据更加密集,数据稀疏的区域依然稀疏,导致重构的少数类样本有可能会进入多数类样本空间,从而无法克服不平衡数据集的数据分布不平衡的问题,导致在数据分析过程中准确性低或数据预测过程中准确性低。
发明内容
本申请实施例提供一种不平衡数据处理方法、终端及计算机可读存储介质,可以避免生成的仿真小样本数据与第一原始数据间存在极大空间分布相似度的问题,以使不平衡数据集的数据分布达到均衡,提高数据分析过程中的准确性或数据预测过程中的准确性。
第一方面,本发明实施例提供了一种不平衡数据处理方法,该方法包括:
获取第一原始数据;
经过第一变换将第一原始数据生成第一特征数据;其中,所述第一特征数据中包括多个不同的特征信息,所述特征信息用于表征所述第一原始数据的特征,所述第一原始数据的维数k小于所述第一特征数据的维数m;
经过第二变换将所述第一特征数据生成克隆数据;其中,所述克隆数据与所述第一原始数据相似度小于目标阈值;所述第一原始数据的维数k与所述克隆数据的维数k相同;
分别计算所述第一原始数据的第i向量与所述克隆数据的第i向量的误差,所述i的取值从1到所述k;其中,所述第一原始数据的向量与所述第一特征数据的向量一一对应;
根据所述误差对所述第一特征数据的向量进行排序,生成第二特征数据;
对所述第二特征数据中的特征信息进行位置互换,生成第三特征数据;
经过第三变换将所述第三特征数据生成仿真小样本数据;其中,所述仿真小样本数据用于填充不平衡数据集中的少数类样本。
通过实施本发明实施例,可以避免生成的仿真小样本数据与第一原始数据间存在极大的相似度的问题。该仿真小样本数据可以用来均衡不平衡数据集中的数据分布。
可选的,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
通过实施本发明实施例,终端结合第一原始数据和克隆数据所确定的误差对第一特征数据进行排序,以生成第二特征数据。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
通过实施本发明实施例,终端对第二特征数据中的任意向量中的特征信息进行位置互换,生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
可选的,所述经过第一变换将第一原始数据生成第一特征数据包括:
确定Q个编码层权重,Q为正整数;
将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数。
通过实施本发明实施例,终端结合编码方式将第一原始数据生成第一特征数据。
可选的,所述经过第二变换将所述第一特征数据生成克隆数据包括:
在第一预设区间内构建Q个第一输出层权重;
将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure BDA0001673656290000041
其中,
Figure BDA0001673656290000042
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
通过实施本发明实施例,终端结合第一解码方式将第一特征数据生成克隆数据。
可选的,所述经过第三变换将所述第三特征数据生成仿真小样本数据包括:
在第二预设区间内构建Q个第二输出层权重;
将所述第三特征数据通过以下第二解码方式生成所述仿真小样本数据:
Figure BDA0001673656290000051
其中,
Figure BDA0001673656290000052
表示所述仿真小样本数据;/>
Figure BDA0001673656290000054
表示所述第三特征数据;V(i)'表示第i个第二输出层权重,i∈(1,Q),i为正整数。
通过实施本发明实施例,终端结合第二解码方式将第三特征数据生成仿真小样本数据。
第二方面,本发明实施例提供了一种终端,所述终端包括:
第一变换单元,用于经过第一变换将第一原始数据生成第一特征数据;其中,所述第一特征数据中包括多个不同的特征信息,所述特征信息用于表征所述第一原始数据的特征,所述第一原始数据的维数k小于所述第一特征数据的维数m;
第二变换单元,用于经过第二变换将所述第一特征数据生成克隆数据;其中,所述克隆数据与所述第一原始数据相似度小于目标阈值;所述第一原始数据的维数k与所述克隆数据的维数k相同;
计算单元,用于分别计算所述第一原始数据的第i向量与所述克隆数据的第i向量的误差,所述i的取值从1到所述k;其中,所述第一原始数据的向量与所述第一特征数据的向量一一对应;
排序单元,用于根据所述误差对所述第一特征数据的向量进行排序,生成第二特征数据;
位置互换单元,用于对所述第二特征数据中的特征信息进行位置互换,生成第三特征数据;
第三变换单元,用于经过第三变换将所述第三特征数据生成仿真小样本数据;其中,所述仿真小样本数据用于填充不平衡数据集中的少数类样本。
可选的,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
可选的,所述位置互换单元具体用于对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
可选的,所述位置互换单元具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述位置互换单元还具体用于对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
可选的,所述位置互换单元还具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
具体用于生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
可选的,所述位置互换单元具体用于对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
可选的,所述位置互换单元具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述位置互换单元还具体用于对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
可选的,所述位置互换单元还具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
具体用于生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
可选的,所述第一变换单元包括确定单元和编码单元;
所述确定单元,用于确定Q个编码层权重,Q为正整数;
所述编码单元,用于将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数。
可选的,所述第二变换单元包括第一构建单元和第一解码单元;
所述第一构建单元,用于在第一预设区间内构建Q个第一输出层权重;
所述第一解码单元,用于将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure BDA0001673656290000074
其中,
Figure BDA0001673656290000075
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
可选的,所述第三变换单元包括第二构建单元和第二解码单元;
所述第二构建单元,用于在第二预设区间内构建Q个第二输出层权重;
所述第二解码单元,用于将所述第三特征数据通过以下第二解码方式生成所述仿真小样本数据:
Figure BDA0001673656290000071
其中,
Figure BDA0001673656290000072
表示所述仿真小样本数据;/>
Figure BDA0001673656290000076
表示所述第三特征数据;V(i)'表示第i个第二输出层权重,i∈(1,Q),i为正整数。
第三方面,本发明实施例提供了一种终端,该终端具有实现上述第一方面中终端行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。
在一种可能的实现方式中,该终端的结构中包括处理器和存储器,存储器用于存储支持该终端执行上述方法的程序,处理器被配置为用于执行存储器中存储的程序。该终端还可以包括通信接口,用于该终端与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存为上述终端所用的计算机软件指令,其包含用于执行上述第一方面为终端所设计的程序。
第五方面,本发明实施例提供了一种计算机程序,所述计算机程序包括上述终端所用的程序指令,所述程序指令当被终端的处理器执行时使所述处理器执行上述第一方面为终端所设计的程序。
通过实施本发明实施例,可以避免生成的仿真小样本数据与第一原始数据间存在的极大空间分布相似度的问题,提高数据分析过程中的准确性或数据预测过程中的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种不平衡数据处理方法的流程示意图;
图1A是本发明实施例提供的一种将第一原始数据生成第一特征数据的过程示意图;
图1B是本发明实施例提供的一种将第一特征数据生成克隆数据的过程示意图;
图2A是本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2B是本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2C是本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2D是本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2E是本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2F是本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2G是本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2H本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2I为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2J为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2K是本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2L是本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2M是本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图;
图2N是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的的特征信息进行位置互换的示意图;
图2O是本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的的特征信息进行位置互换的示意图;
图2P是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的的特征信息进行位置互换的示意图;
图2Q是本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的的特征信息进行位置互换的示意图;
图2R是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2S是本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2T是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2U是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2V是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2W是本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图;
图2X是本发明实施例提供的一种将第三特征数据生成仿真小样本数据的过程示意图;
图3是本发明实施例提供的一种终端的结构示意图;
图4是本发明实施例提供的另一种终端的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
首先,介绍本申请涉及的主要发明构思。
现有技术中,基于数据层面对不平衡数据集的处理方法,例如,SMOTE技术根据线性插值所生成的数据容易出现在少数类样本中数据比较密集的区域,数据更加密集,数据稀疏的区域,数据依然稀疏的问题,从而影响了不平衡数据集的分类效果。为了解决上述问题,本申请提出了一种不平衡数据处理方法,其创新点在于:首先,对第一原始数据进行第一变换处理,得到包含特征信息的第一特征数据;其次,对第一特征数据进行第二变换处理,得到与第一原始数据相似度小于目标阈值的克隆数据;之后,分别计算第一原始数据中的第i向量与克隆数据的第i向量的误差;根据计算得到的误差对第一特征数据中的向量进行排序,得到第二特征数据;然后,对第二特征数据中的特征信息进行位置互换,生成第三特征数据;最后,对第三特征数据进行第三变换处理,生成仿真样本数据。所生成的仿真小样本数据可以用来填充不平衡数据集中的少数类样本,可以解决上述现有技术中所提到的缺陷。
本申请实施例中所涉及的第一原始数据包括不平衡数据集中的少数类样本数据。
基于上述发明构思,下面结合图1所示的本发明实施例提供的不平衡数据的处理方法的流程示意图,具体说明本发明实施例如何处理不平衡数据,该方法包括但不限于如下步骤S101-S106:
S101、经过第一变换将第一原始数据生成第一特征数据;其中,第一特征数据中包括多个不同的特征信息,特征信息用于表征第一原始数据的特征,第一原始数据的维数k小于所述第一特征数据的维数m。
在一种可能的实现方式中,S101之前还包括获取第一原始数据,例如接收外部设备发送而来的第一原始数据,或者自身采集到的第一原始数据,等等;这里所涉及的第一原始数据包括不平衡数据集中的少数类样本数据,可以包括医疗诊断中的基因样本数据、或入侵检测中的入侵样本数据、或预防欺骗中的欺骗行为样本数据、或生产设备故障诊断中的运行样本数据等不同领域中的样本数据。该第一原始数据可以用矩阵的形式表示。
例如,第一原始数据X为k行D列的矩阵可以包括但不限于如下表现形式:
Figure BDA0001673656290000111
在上述矩阵中,k和D为正整数。
由矩阵的性质可以知道,一个矩阵的行空间的维数等于列空间的维数,等于这个矩阵的秩。矩阵的秩是指极大无关组中所含向量的个数。
例如,当第一原始数据X为行满秩的情况下,第一原始数据的维数为k。
又例如,当第一原始数据X为满秩矩阵的情况下,第一原始数据维数为k。
在一种可能的实现方式中,第一特征数据中包括多个不同的特征信息,该特征信息可以反映第一原始数据的特征。
可选的,这里所涉及的特征信息可以包括基因。多个不同的基因构成了第一特征数据,该第一特征数据可以用矩阵的形式表示。
例如,第一特征数据H为m行ζ列的矩阵可以包括但不限于如下表现形式:
Figure BDA0001673656290000112
在上述表达式中,m和ζ为正整数。
如前所述,例如,当第一特征数据H为行满秩的情况下,第一特征数据的维数为m。
又例如,当第一特征数据H为满秩矩阵的情况下,第一特征数据的维数为m。
在一种可能的实现方式中,上述ζ可以用于表征基因座的个数。结合百度百科关于“基因座”的定义,基因座,又称座位。具体来说是指基因在染色体上所占的位置。
可选的,这里所提及的基因座ζ与第一原始数据中的数据个数N的关系表达式可以包括但不限于如下表现形式:
2Dζ≤10N
由上述表达式可以得到:
Figure BDA0001673656290000121
可选的,经过第一变换将第一原始数据生成第一特征数据包括:
确定Q个编码层权重,Q为正整数;
将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数。
接下来,将详细阐述终端确定Q个编码层权重的过程。
首先,终端实现极限学习机(Extreme Learning Machine,ELM)算法和自动编码器算法的融合,构成极速自动编码器算法。其中,极速自动编码器算法中包括编码方式、第一解码方式和第二解码方式。
在一种可能的实现方式中,编码层激活函数包括ReLU函数。ReLU函数的表达式可以如下所示:
Figure BDA0001673656290000122
在上述表达式中,α是一个较小值,例如,α=0.01。
以终端确定第1个编码层权重W(1)为例,终端构建输入和输出均为X的极限学习机ELM(1),在第一预设区间内构建的第1个第一输出层权重为:
Figure BDA0001673656290000131
在一种可能的实现方式中,上述第一预设区间可以包括[-1,1],也可以包括[0,1],本发明实施例不作具体限定。
根据极限学习机ELM(1)的计算规则:
Figure BDA0001673656290000132
其中,S(1)为极限学习机ELM(1)的隐含层输入矩阵,该隐含层输入矩阵可以表示为:
Figure BDA0001673656290000133
H(1)为极限学习机ELM(1)的隐含层输出矩阵,该隐含层输出矩阵可以表示为:
Figure BDA0001673656290000134
由XW(1)=S(1)和H(1)V(1)=X,可推得W(1)=X+S(1)和H(1)=X[V(1)]+
由于H(1)=ReLU[S(1)],所以S(1)=ReLU-1[H(1)]。进而可以得到第1个编码层权重W(1)的计算公式:
W(1)=X+ReLU-1[X[V(1)]+]
在上述计算公式中,X+=(XTX)-1X-T表示ELM(1)输入矩阵X的伪逆,[V(1)]+=[[V(1)]T[V(1)]]-1[V(1)]T表示ELM(1)输出层权重V(1)的伪逆,ReLU-1(·)表示修正线性单元ReLU(·)的反函数。
对于第i=2,3,…,Q个编码层,为了确定W(i)(其中,i=2,3…,Q),终端构建输入和输出均为H的极限学习机ELM(i),在第一预设区间内构建的第i个第一输出层权重为:
Figure BDA0001673656290000141
在一种可能的实现方式中,上述第一预设区间可以包括[-1,1],也可以包括[0,1],本发明实施例不作具体限定。
根据极限学习机ELM(i)的计算规则:
Figure BDA0001673656290000142
其中,S(i)为极限学习机ELM(i)的隐含层输入矩阵,该隐含层输入矩阵可以表示为:
Figure BDA0001673656290000143
H(i)为极限学习机ELM(i)的隐含层输出矩阵,该隐含层输出矩阵可以表示为:
Figure BDA0001673656290000144
由H(i-1)W(i)=S(i)和H(i)V(i)=H(i-1),可推得W(i)=[H(i-1)]+S(i)和H(i)=H(i-1)[V(i)]+
由于H(i)=ReLU[S(i)],所以S(i)=ReLU-1[H(i)]。进而可以得到第i个编码层权重W(i)(其中,i=2,3…,Q)的计算公式:
W(i)=[H(i-1)]+ReLU-1[H(i-1)[V(i)]+]
在上述计算公式中,[H(i-1)]+=([H(i-1)]TH(i-1))-1[H(i-1)]-T表示ELM(i)输入矩阵H(i -1)的伪逆,[V(i)]+=[[V(i)]T[V(i)]]-1[V(i)]T表示ELM(i)输出层权重V(i)的伪逆,ReLU-1(·)表示修正线性单元ReLU(·)的反函数。
在确定了Q个编码层权重之后,将第一原始数据通过以下编码方式生成第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数,具体的实现过程请参见图1A。
例如,假设第一原始数据为10行2列的矩阵X(10×2),根据基因座ζ与第一原始数据中的数据个数N的关系表达式可以得到ζ=25,从而可以确定Q个编码层权重为2行25列的矩阵W(i) (2×25),在经过第一变换之后,生成的第一特征数据为10行25列的矩阵H(10×25)。那么,H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]的计算过程可以表示为:
H(10×25)=ReLU[...[ReLU[ReLU[X(10×2)·W(1) (2×25)]·W(2) (2×25)]...·W(Q) (2×25)]
S102、经过第二变换将第一特征数据生成克隆数据;其中,克隆数据与第一原始数据相似度小于目标阈值;第一原始数据的维数k与克隆数据的维数k相同。
以第一特征数据为10行25列的矩阵H(10×25)为例,对第一特征数据进行第二变换之后,生成的克隆数据为10行2列的矩阵
Figure BDA0001673656290000151
可选的,所述经过第二变换将所述第一特征数据生成克隆数据包括:
在第一预设区间内构建Q个第一输出层权重;
将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure BDA0001673656290000152
其中,
Figure BDA0001673656290000153
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
如前所述,第一预设空间可以包括[-1,1],也可以包括[0,1]。
在一种可能的实现方式中,终端在[-1,1]的区间内构建Q个第一输出层权重。在第一预设空间[-1,1]内构建的第1个第一输出层权重包括但不限于如下表现形式:
Figure BDA0001673656290000154
在第一预设空间[-1,1]内构建的第i个(其中,i=2,3…,Q)第一输出层权重包括但不限于如下表现形式:
Figure BDA0001673656290000155
终端在确定了Q个第一输出层权重之后,将第一特征数据通过以下第一解码方式生成克隆数据:
Figure BDA0001673656290000161
在上述第一解码方式中,
Figure BDA0001673656290000162
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数,具体地实现过程请参见图1B。
以第一特征数据为10行25列的矩阵H(10×25)为例,根据基因座ζ与第一原始数据中的数据个数N的关系表达式可以得到ζ=25。第i个(i=2,3…,Q)第一输出层权重为25行25列的矩阵V(i) (25×25),第1个第一输出层权重为25行2列的矩阵V(1) (25×2)。在经过第二变换之后,生成的克隆数据为10行2列的矩阵。
S103、分别计算第一原始数据的第i向量与克隆数据的第i向量的误差,所述i的取值从1到k;其中,第一原始数据的向量与第一特征数据的向量一一对应。
例如,第一原始数据
Figure BDA0001673656290000163
克隆数据/>
Figure BDA0001673656290000164
以计算第一原始数据中的第1向量[x11x12]和克隆数据中的第1向量[x'11x'12]的误差为例,终端根据以下误差公式计算上述两个向量之间的误差:
Figure BDA0001673656290000165
那么,可以理解的是,终端计算第一原始数据中的第i向量(i=2,3…,10)和克隆数据中的第i向量(i=2,3…,10)的误差可以参考上述终端计算第一原始数据中的第1向量和克隆数据中的第1向量的误差,此处不再多加赘述。
S104、根据误差对第一特征数据的向量进行排序,生成第二特征数据。
如前所述,第一原始数据
Figure BDA0001673656290000171
克隆数据/>
Figure BDA0001673656290000172
终端根据误差公式计算得到第一原始数据X中的第1向量和克隆数据
Figure BDA0001673656290000173
中的第1向量的误差为0.02;终端根据误差公式计算得到第一原始数据X中的第2向量和克隆数据/>
Figure BDA0001673656290000174
中的第1向量的误差为0.5;终端根据误差公式计算得到第一原始数据X中的第3向量和克隆数据/>
Figure BDA0001673656290000175
中的第3向量的误差为0.08;终端根据误差公式计算得到第一原始数据X中的第4向量和克隆数据/>
Figure BDA0001673656290000176
中的第4向量的误差为0.1;终端根据误差公式计算得到第一原始数据X中的第5向量和克隆数据/>
Figure BDA0001673656290000177
中的第5向量的误差为1.32;终端根据误差公式计算得到第一原始数据X中的第6向量和克隆数据/>
Figure BDA0001673656290000178
中的第6向量的误差为2.83;终端根据误差公式计算得到第一原始数据X中的第7向量和克隆数据/>
Figure BDA0001673656290000179
中的第7向量的误差为0.91;终端根据误差公式计算得到第一原始数据X中的第8向量和克隆数据/>
Figure BDA00016736562900001710
中的第8向量的误差为0.01;终端根据误差公式计算得到第一原始数据X中的第9向量和克隆数据/>
Figure BDA00016736562900001711
中的第9向量的误差为1.94;终端根据误差公式计算得到第一原始数据X中的第10向量和克隆数据/>
Figure BDA00016736562900001712
中的第10向量的误差为1.04。
在确定了上述第一原始数据中的第i向量与克隆数据中的第i向量的误差之后,终端对上述计算得到的误差由小到大进行排序,得到排序后的结果为:0.01、0.02、0.08、0.91、0.1、0.5、1.04、1.32、1.94、2.83。从而可以确定误差矩阵包括但不限于如下表现形式:
Figure BDA0001673656290000181
如前所述,由于上述误差矩阵中的每个误差与第一原始数据中的第i向量之间存在一一对应关系,如0.01对应第一原始数据中的第8向量。终端根据上述排序结果对第一特征数据中的第i向量进行排序,以生成第二特征数据。
可选的,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
例如,对第一原始数据
Figure BDA0001673656290000182
经过第一变换之后生成的第一特征数据为
Figure BDA0001673656290000183
然后终端结合上述误差排序结果对第一特征数据中的第i向量进行排序,生成的第二特征数据可以表示为:/>
Figure BDA0001673656290000191
上述第二特征数据中的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差。
S105、对第二特征数据中的特征信息进行位置互换,生成第三特征数据。
在一种可能的实现方式中,终端对第二特征数据中的向量中的特征信息(例如,该特征信息包括基因)进行位置互换用于表征终端对基因执行交叉、变异操作。其中,终端对基因执行变异操作包括终端对第二特征数据中的第u向量中的y个特征信息和第二特征数据中的第s向量中的y个特征信息进行位置互换,其中u和s的取值从1到k。终端对基因执行交叉操作包括终端对第二特征数据中的第p向量中的至少两个特征信息进行位置互换,其中p的取值从1到k。
在一种可能的实现方式中,终端对第二特征数据中的特征信息(例如,基因)可以执行变异操作。
在另一种可能的实现方式中,终端对第二特征数据中的特征信息(例如,基因)可以执行交叉操作。
在另一种可能的实现方式中,终端对第二特征数据中的特征信息(例如,基因)可以先执行交叉操作,后执行变异操作。在这种实现方式中,包括以下几种情况:情况一:终端可以先对第二特征数据中的第i向量中的特征信息进行交叉操作,然后对第二特征数据中的第i向量中的特征信息和第j向量中的特征信息进行变异操作,其中,第i向量和第j向量为不同的向量。情况二:终端可以先对第二特征数据中的第i向量中的特征信息进行交叉操作,然后对第二特征数据中的第j向量中的特征信息和第k向量中的特征信息进行变异操作,其中,第i向量、第j向量和第k向量为不同的向量。
在另一种可能的实现方式中,终端对第二特征数据中的特征信息(例如,基因)可以先执行变异操作,后执行交叉操作。在这种实现方式中,包括以下几种情况:情况一:终端先对第二特征数据中的第i向量中的特征信息和第j向量中的特征信息进行变异操作,然后对第二特征数据中的第i向量中的特征信息进行交叉操作,其中,第i向量和第j向量为不同的向量。情况二:终端先对第二特征数据中的第i向量中的特征信息和第j向量中的特征信息进行变异操作,然后对第二特征数据中的第j向量中的特征信息进行交叉操作,其中,第i向量和第j向量为不同的向量。情况三:终端先对第二特征数据中的第i向量中的特征信息和第j向量中的特征信息进行变异操作,然后对第二特征数据中的第k向量中的特征信息进行交叉操作,其中,第i向量、第j向量和第k向量为不同的向量。
在一种可能的实现方式中,终端对第二特征数据中的向量的特征信息进行位置互换之后,生成的第三特征数据的维数与第二特征数据的维数相同或不同。具体来说,终端对第二特征数据中的第1向量中的特征信息进行位置互换后,生成的第三特征数据的维数与第二特征数据的维数相同包括:终端将执行位置互换后的新的第1向量替换位置互换前的第1向量。生成的第三特征数据的维数与第二特征数据的维数不同包括:终端将执行位置互换后的新的第1向量增加到第二特征数据中。在一种可能的实现方式中,这里所涉及的位置互换包括两种情形。其中,情形一为终端对第二特征数据中的任意向量中的特征信息进行位置互换;情形二为终端对第二特征数据中误差小的向量中的特征信息进行位置互换。以下对上述两种情形进行具体阐述:情形一:终端对第二特征数据中的任意向量中的特征信息进行位置互换。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
例如,第二特征数据为
Figure BDA0001673656290000201
对第二特征数据中的第1向量[h11h12h13…h125]中的两个特征信息(如h11、h12)进行位置互换,生成新的第1向量为[h12h11h13…h125]。终端将新生成的第1向量替换原先的第1向量,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000211
具体地,请参见图2A。图2A为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,终端对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。需要说明的是,这里所涉及的对第二特征数据中的第1向量中的特征信息进行位置互换只是作为一个示例,终端可以对第二特征数据中的任意向量中的特征信息进行位置互换。
又例如,第二特征数据为
Figure BDA0001673656290000212
对第二特征数据中的第1向量[h11h12h13…h125]中的三个特征信息(如h11、h12、h13)进行位置互换,生成新的第1向量为[h13h11h12…h125]。终端将新生成的第1向量替换原先的第1向量,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000213
具体地,请参见图2B。图2B为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,终端对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
例如,第二特征数据为
Figure BDA0001673656290000214
对第二特征数据中的第1向量中[h11h12…h125]的两个特征信息(如h11、h12)进行位置互换,生成新的第1向量[h12h11…h125]。终端将新生成的第1向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000215
具体地,请参见图2C。图2C为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+1维,第二特征数据的维数为k维。
又例如,第二特征数据为
Figure BDA0001673656290000221
对第二特征数据中的第1向量[h11h12h13…h125]中的三个特征信息(如h11、h12、h13)进行位置互换,生成新的第1向量[h13h11h12…h125],将新的第1向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000222
具体地,请参见图2D,图2D为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+1维,第二特征数据的维数为k维。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
在一种可能的实现方式中,y为正整数。例如,y可以包括1、2、10等。
例如,第二特征数据为
Figure BDA0001673656290000223
对第二特征数据中的第1向量中的一个特征信息(如h11)和第二特征数据中的第2向量中的一个特征信息(如h21)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000224
具体地,请参见图2E,图2E为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据为
Figure BDA0001673656290000231
对第二特征数据中的第1向量中的两个特征信息(如h11、h12)和第二特征数据中的第2向量中的两个特征信息(如h21、h22)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000232
具体地,请参见图2F,图2F为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
例如,第二特征数据为
Figure BDA0001673656290000233
对第二特征数据中的第1向量[h11h12…h125]中的一个特征信息(如h11)与第二特征数据中的第2向量[h21h22…h225]中的一个特征信息(如h21)进行位置互换,生成新的第1向量[h21h12…h125]和新的第2向量[h11h22…h225],将新的第1向量和第2向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000234
具体地,请参见图2G,图2G为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+2维,第二特征数据的维数为k维。
又例如,第二特征数据为
Figure BDA0001673656290000241
对第二特征数据中的第1向量[h11h12…h125]中的两个特征信息(如h11、h12)与第二特征数据中的第2向量[h21h22…h225]中的两个特征信息(如h21、h22)进行位置互换,生成新的第1向量[h21h22…h125]和新的第2向量[h11h12…h225],将新的第1向量和第2向量增加到第二特征数据中,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000242
具体地,请参见图2H,图2H为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+2维,第二特征数据的维数为k维。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k;
对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
例如,第二特征数据为
Figure BDA0001673656290000243
终端首先对第二特征数据中的第1向量中的两个特征信息(如h11、h12)进行位置互换;然后,终端对第二特征数据中的第1向量中的一个特征信息(如h12)和第二特征数据中的第2向量中的一个特征信息(如h21)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000244
具体地,请参见图2I,图2I为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据为
Figure BDA0001673656290000251
终端首先对第二特征数据中的第1向量中的两个特征信息(如h11、h12)进行位置互换;然后,终端对第二特征数据中的第2向量中的一个特征信息(如h21)和第二特征数据中的第3向量中的一个特征信息(如h31)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000252
具体地,请参见图2J,图2J为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据为
Figure BDA0001673656290000253
终端首先对第二特征数据中的第1向量中的一个特征信息(如h11)和第二特征数据中的第2向量中的一个特征信息(如h21)进行位置互换;然后,终端对第二特征数据中的第1向量中的两个特征信息(如h21、h12)进行位置互换,生成的第三特征数据可以表示为:/>
Figure BDA0001673656290000254
具体地,请参见图2K,图2K为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据为
Figure BDA0001673656290000255
终端首先对第二特征数据中的第1向量中的一个特征信息(如h11)和第二特征数据中的第2向量中的一个特征信息(如h21)进行位置互换;然后,终端对第二特征数据中的第2向量中的两个特征信息(如h11、h22)进行位置互换,生成的第三特征数据可以表示为:/>
Figure BDA0001673656290000256
具体地,请参见图2L,图2L为本发明实施例提供的另一种终端对第二特征数据中的特征信息进行位置互换的示意图。对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k;
生成所述第三特征数据的第k+2向量;所述第k+2向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+2向量和第k+3向量;所述第k+2向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+3向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
例如,第二特征数据为
Figure BDA0001673656290000261
终端先对第二特征数据中的第1向量中[h11h12…h125]的两个特征信息(如h11、h12)进行位置互换,生成新的向量[h12h11…h125];然后,终端对第二特征数据中的第1向量中的一个特征信息(如h12)和第二特征数据中的第2向量中的一个特征信息(如h21)进行位置互换,生成新的向量[h12h22…h225]和[h21h11…h125],将上述三个新生成的向量增加到第二特征数据中,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000262
具体地,请参见图2M,图2M为本发明实施例提供的一种终端对第二特征数据中的特征信息进行位置互换的示意图此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。
情形二:终端对第二特征数据中误差小的向量中的特征信息进行位置互换。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
在一种可能的实现方式中,终端对第二特征数据中的前R个的第p向量中的至少两个特征信息进行位置互换。例如,R可以包括5。需要说明的是,这里所提及的终端对第二特征数据中的前5个的第p向量中的特征信息进行位置互换只是作为一种示例,终端还可以对第二特征数据中的前8个的第p向量中的特征信息进行位置互换,本发明实施例不作具体限定。
例如,第二特征数据表示为
Figure BDA0001673656290000271
对第二特征数据中的第1向量(第1向量位于前5个向量中的向量)中的两个特征信息(如h81、h82)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000272
具体地,请参见图2N,图2N为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据表示为
Figure BDA0001673656290000281
对第二特征数据中的第1向量中的两个特征信息(如h81、h82、h83)进行位置互换,生成的第三特征数据可以表示为
Figure BDA0001673656290000282
具体地,请参见图2O,图2O为本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。/>
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
在一种可能的实现方式中,终端对第二特征数据中的前5个向量中的至少两个特征信息进行位置互换。
例如,第二特征数据表示为
Figure BDA0001673656290000291
对第二特征数据中的第5向量中的两个特征信息(如h41、h42)进行位置互换,生成新的第5向量[h42h41…h425]。终端将新生成的第5向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000292
具体地,请参见图2P,图2P为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。/>
又例如,第二特征数据表示为
Figure BDA0001673656290000293
对第二特征数据中的第1向量中的两个特征信息(如h41、h42、h43)进行位置互换,生成新的第1向量[h43h41h42…h425]。终端将新生成的第1向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000301
具体地,请参见图2Q,图2Q为本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。此时,终端对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
在一种可能的实现方式中,终端对第二特征数据中的前3个向量中第1向量中的一个特征信息和第二特征数据中前3个的向量中第2向量的一个特征信息进行位置互换。
例如,第二特征数据为
Figure BDA0001673656290000302
对第二特征数据中的第1向量中的一个特征信息(如h81)和第二特征数据中的第2向量中的一个特征信息(如h11)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000311
具体地,请参见图2R,图2R为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
又例如,第二特征数据为
Figure BDA0001673656290000312
对第二特征数据中的第1向量中的两个特征信息(如h81、h82)和第二特征数据中的第2向量中的两个特征信息(如h11、h12)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000313
具体地,请参见图2S,图2S为本发明实施例提供的另一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。上述对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
在一种可能的实现方式中,终端对第二特征数据中的前3个向量中第1向量中的一个特征信息和第二特征数据中前3个的向量中第2向量中的一个特征信息进行位置互换。
例如,第二特征数据为
Figure BDA0001673656290000321
对第二特征数据中的第1向量[h81h82…h825]中的一个特征信息(如h81)和第二特征数据中的第2向量[h11h12…h125]中的一个特征信息(如h11)进行位置互换,生成新的第1向量[h11h82…h825]和新的第2向量[h81h12…h125],将新的第1向量和第2向量增加到第二特征数据中,生成新的第三特征数据可以表示为
Figure BDA0001673656290000331
具体地,请参见图2T,图2T为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+2维,第二特征数据的维数为k维。
在一种可能的实现方式中,终端对第二特征数据中的前3个向量中第1向量中的两个特征信息和第二特征数据中前3个的向量中第2向量中的两个特征信息进行位置互换。
例如,第二特征数据为
Figure BDA0001673656290000332
对第二特征数据中的第1向量[h81h82…h825]中的两个特征信息(如h81、h82)和第二特征数据中的第2向量[h11h12…h125]中的一个特征信息(如h11、h12)进行位置互换,生成新的第1向量[h11h12…h825]和新的第2向量[h81h82…h125],将新生成的第1向量和新生成的第2向量增加到第二特征数据中,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000341
具体地,请参见图2U,图2U为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。需要说明的是,这里所涉及的第二特征数据中的第1向量和第二特征数据中的第2向量均只是作为一个示例。对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第三特征数据的维数为k+2维,第二特征数据的维数为k维。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k;
对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
在一种可能的实现方式中,这里所涉及的R可以包括大于0的正整数,例如,5。
例如,第二特征数据表示为
Figure BDA0001673656290000342
终端先对第二特征数据中的第1向量(第1向量位于前5个向量中的向量)中的两个特征信息(如h81、h82)进行位置互换;然后对第1向量中的一个特征信息(如h83)和第2向量中的一个特征信息(如h13)进行位置互换,生成的第三特征数据可以表示为/>
Figure BDA0001673656290000351
具体地,请参见图2V,图2V为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数相同。
可选的,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k;
生成所述第三特征数据的第k+2向量;所述第k+2向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+2向量和第k+3向量;所述第k+2向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+3向量为将所述第二特征数据中的所述第s向量中前R个的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
例如,第二特征数据表示为
Figure BDA0001673656290000352
终端先对第二特征数据中的第1向量(第1向量位于前5个向量中的向量)中的两个特征信息(如h81、h82)进行位置互换,生成新的向量[h82h81…h825];然后对第1向量中的一个特征信息(如h83)和第2向量中的一个特征信息(如h13)进行位置互换,生成新的向量[h82h81h13…h825]和[h11h12h83…h125],将上述新生成的向量增加到第二特征数据中,生成的第三特征数据可以表示为
Figure BDA0001673656290000361
具体地,请参见图2W,图2W为本发明实施例提供的一种终端对第二特征数据中前R个的向量中的特征信息进行位置互换的示意图。此时,对第二特征数据进行位置互换后所生成的第三特征数据的维数与第二特征数据的维数不同。例如,第二特征数据的维数为k维,第三特征数据的维数为k+3维。
S106、经过第三变换将第三特征数据生成仿真小样本数据;其中,仿真小样本数据用于填充不平衡数据集中的少数类样本。
在一种可能的实现方式中,以第三特征数据为100行25列的矩阵
Figure BDA0001673656290000362
为例,对第三特征数据进行第三变换之后,生成的仿真小样本数据为100行2列的矩阵/>
Figure BDA0001673656290000363
生成的仿真小样本数据可以用来填充不平衡数据集中的少数类样本。
可选的,所述经过第三变换将所述第三特征数据生成仿真小样本数据包括:
在第二预设区间内构建Q个第二输出层权重;
将所述第三特征数据通过以下第二解码方式生成所述仿真小样本数据:
Figure BDA0001673656290000364
其中,
Figure BDA0001673656290000365
表示所述仿真小样本数据;/>
Figure BDA0001673656290000366
表示所述第三特征数据;V(i)'表示第i个第二输出层权重,i∈(1,Q),i为正整数。
在一种可能的实现方式中,终端在第二预设区间(如,[-1,1]、[0,1])内构建Q个第二输出层权重。
在第二预设空间[-1,1]内构建的第1个第一输出层权重包括但不限于如下表现形式:
Figure BDA0001673656290000371
在第二预设空间[-1,1]内构建的第i个(其中,i=2,3…,Q)第二输出层权重包括但不限于如下表现形式:
Figure BDA0001673656290000372
终端在确定了Q个第二输出层权重之后,将第三特征数据通过以下第二解码方式生成仿真小样本数据:
Figure BDA0001673656290000373
在上述第二解码方式中,
Figure BDA0001673656290000374
表示所述克隆数据;/>
Figure BDA0001673656290000375
表示所述第三特征数据;V(i)表示第i个第二输出层权重,i∈(1,Q),i为正整数,具体的实现过程请参见图2X。
例如,以第一特征数据为100行25列的矩阵
Figure BDA0001673656290000376
为例,根据基因座ζ与第一原始数据中的数据个数N的关系表达式可以得到ζ=25。第1个第二输出层权重为25行2列的矩阵V(1) (25×2),第i个(i=2,3…,Q)第二输出层权重为25行25列的矩阵V(i) (25×25),第1个第一输出层权重为25行2列的矩阵V(1) (25×2)。在经过第三变换之后,生成的仿真小样本数据为100行2列的矩阵。
假设这样一个应用场景,不平衡数据集中包括多数类样本和少数类样本。例如,少数类样本(也即第一原始数据)包括10个,多数类样本(也即第二原始数据)包括20个。终端从上述100个仿真样本数据中选择10个样本数据填充到第一原始数据中,使得不平衡数据中的少数类样本的数量和多数类样本的数量达到均衡。
在一种可能的实现方式中,终端采用无放回抽样机制从上述100个仿真小样本数据中选择10个样本数据填充到第一原始数据中,使得不平衡数据中的少数类样本的数量和多数类样本的数量达到均衡。
在另一种可能的实现方式中,终端采用随机划分机制将上述仿真小样本数据分成10份,终端选择10份中的任意一份填充到第一原始数据中,以使不平衡数据集中的少数类样本的数量和多数类样本的数量达到均衡。
在一种可能的实现方式中,终端采用随机样本划分机制将第一原始数据和第二原始数据都划分成2份,第一份不平衡数据集中包括10个第二原始数据和5个第一原始数据,第二份不平衡数据集中包括10个第二原始数据和5个第一原始数据。终端从上述100个仿真小样本数据中随机选择5个样本数据填充到第一份不平衡数据集中,使得第一份不平衡数据集中的多数类样本数据和少数类样本数据达到均衡。终端从上述100个仿真小样本数据中随机选择5个样本数据填充到第二份不平衡数据集中,使得第二份不平衡数据集中的多数类样本数据和少数类样本数据达到均衡。需要说明的是,这里所涉及的终端采用随机样本划分机制将第一原始数据和第二原始数据都划分成2份只是作为一种示例,具体划分成多少份由集成学习系统确定。
实施本发明实施例,可以避免生成的仿真小样本数据与第一原始数据间存在极大空间分布相似度的问题,以使不平衡数据集的数据分布达到均衡。
为了便于更好地实施本发明实施例的上述方案,本发明实施例还描述了与上述图1所述方法实施例属于同一发明构思下的一种终端的结构示意图。下面结合附图来进行详细说明:
如图3所示,该终端300用于执行图1上述方法实施例中终端的功能,包括:第一变换单元301、第二变换单元302、计算单元303、排序单元304、位置互换单元305、第三变换单元306。
其中,所述第一变换单元301,用于经过第一变换将第一原始数据生成第一特征数据;其中,所述第一特征数据中包括多个不同的特征信息,所述特征信息用于表征所述第一原始数据的特征,所述第一原始数据的维数k小于所述第一特征数据的维数m;
所述第二变换单元302,用于经过第二变换将所述第一特征数据生成克隆数据;其中,所述克隆数据与所述第一原始数据相似度小于目标阈值;所述第一原始数据的维数k与所述克隆数据的维数k相同;
所述计算单元303,用于分别计算所述第一原始数据的第i向量与所述克隆数据的第i向量的误差,所述i的取值从1到所述k;其中,所述第一原始数据的向量与所述第一特征数据的向量一一对应;
所述排序单元304,用于根据所述误差对所述第一特征数据的向量进行排序,生成第二特征数据;
所述位置互换单元305,用于对所述第二特征数据中的特征信息进行位置互换,生成第三特征数据;
所述第三变换单元306,用于经过第三变换将所述第三特征数据生成仿真小样本数据;其中,所述仿真小样本数据用于填充不平衡数据集中的少数类样本。
可选的,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
可选的,所述位置互换单元305具体用于对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
可选的,所述位置互换单元305具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述位置互换单元305还具体用于对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
可选的,所述位置互换单元305还具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
具体用于生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
可选的,所述位置互换单元305具体用于对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
可选的,所述位置互换单元305具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
可选的,所述位置互换单元305还具体用于对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
可选的,所述位置互换单元305还具体用于生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
具体用于生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
可选的,所述第一变换单元301包括确定单元和编码单元;
所述确定单元,用于确定Q个编码层权重,Q为正整数;
所述编码单元,用于将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数。
可选的,所述第二变换单元302包括第一构建单元和第一解码单元;
所述第一构建单元,用于在第一预设区间内构建Q个第一输出层权重;
所述第一解码单元,用于将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure BDA0001673656290000401
其中,
Figure BDA0001673656290000402
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
可选的,所述第三变换单元306包括第二构建单元和第二解码单元;
所述第二构建单元,用于在第二预设区间内构建Q个第二输出层权重;
所述第二解码单元,用于将所述第三特征数据通过以下第二解码方式生成所述仿真小样本数据:
Figure BDA0001673656290000411
其中,
Figure BDA0001673656290000412
表示所述仿真小样本数据;/>
Figure BDA0001673656290000413
表示所述第三特征数据;V(i)'表示第i个第二输出层权重,i∈(1,Q),i为正整数。
可以理解的是,本实施例的终端300的各功能单元的功能可根据上述图1所示方法实施例中的方法具体实现,其具体实现过程可以参照上述放大实施例的相关描述,此处不再赘述。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种处理不平衡数据的终端,下面结合附图来进行详细说明:
如图4示出的本发明实施例提供的一种用于处理不平衡数据的终端的结构示意图,该终端400可以包括至少一个处理器401,通信总线402,存储器403以及至少一个通信接口404。
处理器401可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
通信总线402可包括一通路,在上述组件之间传送信息。所述通信接口404,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(RadioAccess Technology,RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器403可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器403用于存储执行本发明方案的程序代码,并由处理器401来控制执行。所述处理器401用于执行所述存储器403中存储的程序代码,执行以下步骤:
经过第一变换将第一原始数据生成第一特征数据;其中,所述第一特征数据中包括多个不同的特征信息,所述特征信息用于表征所述第一原始数据的特征,所述第一原始数据的维数k小于所述第一特征数据的维数m;
经过第二变换将所述第一特征数据生成克隆数据;其中,所述克隆数据与所述第一原始数据相似度小于目标阈值;所述第一原始数据的维数k与所述克隆数据的维数k相同;
分别计算所述第一原始数据的第i向量与所述克隆数据的第i向量的误差,所述i的取值从1到所述k;其中,所述第一原始数据的向量与所述第一特征数据的向量一一对应;
根据所述误差对所述第一特征数据的向量进行排序,生成第二特征数据;
对所述第二特征数据中的特征信息进行位置互换,生成第三特征数据;
经过第三变换将所述第三特征数据生成仿真小样本数据;其中,所述仿真小样本数据用于填充不平衡数据集中的少数类样本。
其中,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换可以包括:
对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换可以包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换还可以包括:
对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换还可以包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换可以包括:
对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换可以包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换还可以包括:
对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
其中,处理器401对所述第二特征数据中的特征信息进行位置互换还可以包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
其中,处理器401经过第一变换将第一原始数据生成第一特征数据可以包括:
确定Q个编码层权重,Q为正整数;
将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数。
其中,处理器401经过第二变换将所述第一特征数据生成克隆数据包括:
在第一预设区间内构建Q个第一输出层权重;
将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure BDA0001673656290000441
其中,
Figure BDA0001673656290000442
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
其中,处理器401经过第三变换将所述第三特征数据生成仿真小样本数据包括:
在第二预设区间内构建Q个第二输出层权重;
将所述第三特征数据通过以下第二解码方式生成所述仿真小样本数据:
Figure BDA0001673656290000443
其中,
Figure BDA0001673656290000444
表示所述仿真小样本数据;/>
Figure BDA0001673656290000445
表示所述第三特征数据;V(i)'表示第i个第二输出层权重,i∈(1,Q),i为正整数。
在具体实现中,作为一种可选的实施例,处理器401可以包括一个或多个CPU,例如图4中的CPU0和CPU1。
在具体实现中,作为一种可选的实施例,终端400可以包括多个处理器,例如图4中的处理器401和处理器408。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种可选的实施例,终端400还可以包括输出设备405和输入设备406。输出设备405和处理器401通信,可以以多种方式来显示信息。例如,输出设备405可以是液晶显示器(Liquid Crystal Display,LCD),发光二级管(Light Emitting Diode,LED)显示设备,阴极射线管(Cathode Ray Tube,CRT)显示设备,或投影仪(projector)等。输入设备406和处理器401通信,可以以多种方式接受用户的输入。例如,输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。
在具体实现中,终端400可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备。本发明实施例不限定终端400的类型。
本发明实施例还提供了一种计算机存储介质,用于存储为上述图1所示的终端所用的计算机软件指令,其包含用于执行上述方法实施例所涉及的程序。通过执行存储的程序,可以实现对不平衡数据的处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (13)

1.一种不平衡数据处理方法,其特征在于,所述方法包括:
获取第一原始数据;
经过第一变换将所述第一原始数据生成第一特征数据;其中,所述第一特征数据中包括多个不同的特征信息,所述特征信息用于表征所述第一原始数据的特征,所述第一原始数据的维数k小于所述第一特征数据的维数m;
经过第二变换将所述第一特征数据生成克隆数据;其中,所述克隆数据与所述第一原始数据相似度小于目标阈值;所述第一原始数据的维数k与所述克隆数据的维数k相同;
分别计算所述第一原始数据的第i向量与所述克隆数据的第i向量的误差,所述i的取值从1到所述k;其中,所述第一原始数据的向量与所述第一特征数据的向量一一对应;
根据所述误差对所述第一特征数据的向量进行排序,生成第二特征数据;
对所述第二特征数据中的特征信息进行位置互换,生成第三特征数据;
经过第三变换将所述第三特征数据生成仿真小样本数据;其中,所述仿真小样本数据用于填充不平衡数据集中的少数类样本;
其中,所述经过第一变换将第一原始数据生成第一特征数据包括:
确定Q个编码层权重,Q为正整数;
将所述第一原始数据通过以下编码方式生成所述第一特征数据:
H=ReLU[...[ReLU[ReLU[X·W(1)]·W(2)]...·W(Q)]
其中,H表示所述第一特征数据;X表示所述第一原始数据;W(i)表示第i个编码层权重,i∈(1,Q),i为正整数;
其中,所述经过第二变换将所述第一特征数据生成克隆数据包括:
在第一预设区间内构建Q个第一输出层权重;
将所述第一特征数据通过以下第一解码方式生成所述克隆数据:
Figure FDA0004269409090000011
其中,
Figure FDA0004269409090000012
表示所述克隆数据;H表示所述第一特征数据;V(i)表示第i个第一输出层权重,i∈(1,Q),i为正整数。
2.根据权利要求1所述的方法,其特征在于,所述第二特征数据包括所述第二特征数据的第j向量所对应的误差小于第二特征数据的第j+1向量所对应的误差,所述j的取值从1到k-1;所述第二特征数据的第h向量所对应的误差为所述第一特征数据的第n向量对应的第一原始数据的向量的误差;所述第h向量与所述第n向量相同;所述h和所述n的取值从1到所述k。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换;所述p的取值从1到所述k。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
5.根据权利要求1或3所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中的第u向量中的y个特征信息和所述第二特征数据中的第s向量中的y个特征信息进行位置互换。
6.根据权利要求1或4所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中的第u向量中的y个特征信息替换所述第二特征数据中的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中的所述第s向量中的y个特征信息替换所述第二特征数据中的所述第u向量中的y个特征信息后得到的向量。
7.根据权利要求1所述的方法,所述对所述第二特征数据中的特征信息进行位置互换包括:
对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换,R为小于等于m的正整数。
8.根据权利要求1所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为对所述第二特征数据中前R个的第p向量中的至少两个特征信息进行位置互换后得到的向量;所述p的取值从1到所述k。
9.根据权利要求1或7所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换还包括:
对所述第二特征数据中前R个的第u向量中的y个特征信息和所述第二特征数据中前R个的第s向量中的y个特征信息进行位置互换。
10.根据权利要求1或8所述的方法,其特征在于,所述对所述第二特征数据中的特征信息进行位置互换还包括:
生成所述第三特征数据的第k+1向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;或者,
生成所述第三特征数据的第k+1向量和第k+2向量;所述第k+1向量为将所述第二特征数据中前R个的第u向量中的y个特征信息替换所述第二特征数据中前R个的第s向量中的y个特征信息后得到的向量;所述第k+2向量为将所述第二特征数据中前R个的所述第s向量中的y个特征信息替换所述第二特征数据中前R个的所述第u向量中的y个特征信息后得到的向量。
11.一种终端,其特征在于,包括用于执行如权利要求1-10任一权利要求所述的方法的单元。
12.一种终端,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10任一项所述的方法。
CN201810520058.7A 2018-05-25 2018-05-25 一种不平衡数据处理方法、终端及计算机可读存储介质 Active CN110147804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810520058.7A CN110147804B (zh) 2018-05-25 2018-05-25 一种不平衡数据处理方法、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810520058.7A CN110147804B (zh) 2018-05-25 2018-05-25 一种不平衡数据处理方法、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110147804A CN110147804A (zh) 2019-08-20
CN110147804B true CN110147804B (zh) 2023-07-14

Family

ID=67589185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810520058.7A Active CN110147804B (zh) 2018-05-25 2018-05-25 一种不平衡数据处理方法、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110147804B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132225A (zh) * 2020-09-28 2020-12-25 天津天地伟业智能安全防范科技有限公司 一种基于深度学习的数据增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469122A (zh) * 2015-12-29 2016-04-06 郑州轻工业学院 一种基于非平衡样本的计算机数据挖掘方法
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN105469122A (zh) * 2015-12-29 2016-04-06 郑州轻工业学院 一种基于非平衡样本的计算机数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种适用于不均衡数据集分类的KNN算法;杜娟 等;科学技术与工程(12);第54-59页 *
不均衡数据集文本分类中少数类样本生成方法研究;杜娟 等;计算机应用研究(10);第137-140页 *

Also Published As

Publication number Publication date
CN110147804A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
US11416268B2 (en) Aggregate features for machine learning
US20180357541A1 (en) Training task optimization system, training task optimization method and non-transitory computer readable medium for operating the same
CN109840154B (zh) 一种移动云环境下基于任务依赖的计算迁移方法
CN102722412A (zh) 组合计算装置和方法
Farahat et al. Distributed column subset selection on mapreduce
CN110083969B (zh) 基于离散优化的数字集成电路布局方法及终端设备
KR102618916B1 (ko) 데이터 분류 방법 및 시스템, 그리고 분류기 트레이닝 방법 및 시스템
CN113240127A (zh) 基于联邦学习的训练方法、装置、电子设备及存储介质
CN112434188A (zh) 一种异构数据库的数据集成方法、装置及存储介质
WO2023087914A1 (zh) 推荐内容的选择方法、装置、设备、存储介质及程序产品
CN111597054B (zh) 一种信息处理方法、系统、电子设备及存储介质
CN112906865A (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
CN110009048B (zh) 一种神经网络模型的构建方法以及设备
CN110147804B (zh) 一种不平衡数据处理方法、终端及计算机可读存储介质
EP3871115A1 (en) Data retrieval
CN116304251A (zh) 标签处理方法、装置、计算机设备和存储介质
CN115292390A (zh) 负荷信息生成方法、装置、电子设备和计算机可读介质
CN109993338A (zh) 一种链路预测方法及装置
CN113868523A (zh) 推荐模型训练方法、电子设备及存储介质
CN113255933A (zh) 特征工程和图网络生成方法和装置、分布式系统
CN112750074B (zh) 小样本图像特征增强方法及系统、图像分类方法及系统
US11416581B2 (en) Multiplication of a matrix with an input vector
CN111209953B (zh) 近邻向量的召回方法、装置、计算机设备及存储介质
CN117173552B (zh) 一种水下目标检测方法、系统、电子设备及存储介质
Shakir Hameed et al. Appling the Roulette Wheel Selection Approach to Address the Issues of Premature Convergence and Stagnation in the Discrete Differential Evolution Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant