CN106803099A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN106803099A
CN106803099A CN201611250179.1A CN201611250179A CN106803099A CN 106803099 A CN106803099 A CN 106803099A CN 201611250179 A CN201611250179 A CN 201611250179A CN 106803099 A CN106803099 A CN 106803099A
Authority
CN
China
Prior art keywords
data
groups
node
classification
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611250179.1A
Other languages
English (en)
Inventor
董超
张霞
赵立军
崔朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611250179.1A priority Critical patent/CN106803099A/zh
Publication of CN106803099A publication Critical patent/CN106803099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法,包括:将预设训练集中的数据放入第一节点中;采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;对所述至少两组数据进行一对多的SVM训练。采用该方法,通过预设的相似度聚类算法,将第一节点中的多个类别的数据类聚成组,而每组数据就是聚类完成的一类数据,并对该聚类完成的数据进行SVM训练,将聚类成组的每一组数据分别再次作为新的数据放入新的对应节点中,继续进行类聚成组的过程,从而形成一个层次结构的数据分类处理过程,其中,采用类聚成组的算法,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率,由于是将训练集中的数据按照层次结构处理,提高了数据处理的效率。

Description

一种数据处理方法和装置
技术领域
本申请涉及人工智能领域,更具体的说是涉及一种数据处理方法和装置。
背景技术
在人工智能领域,分类问题一直占据着很重要的角色,因其在实际工程中常常会涉及到此类问题,各式各样的分类器层出不穷,比如贝叶斯网络、决策树、逻辑回归等等。支持向量机(SVM,Support Vector Machine)因其具强大的理论逻辑,同时在实际实验中有较高的准确率,所以经常会被应用到解决实际问题中。
然而,传统的支持向量机只能解决二分类问题,怎么将支持向量机应用到多分类问题就成为一大难点。
目前,将支持向量机应用到多分类问题上的主流思路是将多分类问题逐个拆解成二分类问题,然后通过训练多个二分类器来实现多分类问题的分类。著名的将SVM应用到多类问题上的解决方法主要有一对多、一对一、二叉树SVM等算法。这些算法在一定程度上都能够实现SVM在多类问题上的分类,但是这其中也存在一些缺陷。例如,一个具有N类的训练样本集,一对多方式是将N类中的一类数据作为一组训练样本,其余N-1类作为另一组训练样本,每一类都重复此过程训练出一个二分类器,总体需要训练出N个分类器,但此方法中因为使用一类对N-1类的数据,训练过程中会出现数据不平衡的问题,这样会降低分类器的准确度。
发明内容
有鉴于此,本申请提供了一种数据处理方法和装置,解决了现有技术中多分类问题中分类器准确度较低的问题。
为实现上述目的,本申请提供如下技术方案:
一种数据处理方法,包括:
将预设训练集中的数据放入第一节点中;
采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
对所述至少两组数据进行支持向量机SVM训练。
上述的方法,优选的,所述将预设训练集中的数据放入第一节点中之后,还包括:
分析所述数据的类别的个数;
基于所述类别的个数等于2,将每个类别的数据记为一组,对所述两组数据进行SVM训练;
基于所述类别的个数大于2,执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组步骤。
上述的方法,优选的,所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据,包括:
依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
基于所述相似度生成离散度图;
依据预设的转换规则,将所述离散度图转换成最小生成树;
依据预设的分割规则,将所述最小生成树分割成至少两组。
上述的方法,优选的,所述依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度,包括:
依据第一类别的数据分布和第二类别的数据分布,以及所述第一类别和第二类别的距离,计算得到所述第一类别和第二类别的相似度;
具体采用如下公式计算:
其中,SIMij表示第一类别i和第二类别j的相似度,Ri表示第一类别i的数据分布,Rj表示第二类别j的数据分布,Dij表示的第一类别i和第二类别j的距离。
上述的方法,优选的,所述基于所述相似度生成离散度图,包括:
依据所述相似度,得到任意两个类别间的离散度,建立离散度矩阵,所述离散度矩阵中包含至少两个类别,以及类别之间的离散度;
依据所述离散度矩阵建立离散度图,所述离散图中每个节点表示一个类别,节点之间的带权边表示类别之间的离散度。
上述的方法,优选的,所述最小生成树中任意两个节点之间的带权边的权重值表示所述两个节点之间的离散度,所述依据预设的分割规则,将所述最小生成树分割成至少两组,包括:
依据预设的阈值,将所述最小生成树中权重值大于所述阈值的边截断,以实现将所述最小生成树被截为至少三个图;
将每个图中所有节点合并为一组,以实现将所述最小生成树分割成至少两组。
上述的方法,优选的,所述对所述至少两组数据进行SVM训练,包括:
依次从所述至少两组数据中获取每一组数据作为一组训练样本,分别进行训练。
上述的方法,优选的,还包括:
依据分成的至少两组数据,生成与所述数据组数对应个数的第二节点;
将每组数据依次放入对应的第二节点中;
将任一第二节点作为新的第一节点,并循环执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据步骤。
一种数据处理装置,包括:
训练集处理模块,用于将预设训练集中的数据放入第一节点中;
类聚处理模块,用于采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
训练模块,用于对所述至少两组数据进行支持向量机SVM训练。
上述的装置,优选的,所述类聚处理模块,包括:
计算单元,用于依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
生成单元,用于基于所述相似度生成离散度图;
转换单元,用于依据预设的转换规则,将所述离散度图转换成最小生成树;
分割单元,用于依据预设的分割规则,将所述最小生成树分割成至少两组。
经由上述的技术方案可知,与现有技术相比,本申请提供了一种数据处理方法,包括:将预设训练集中的数据放入第一节点中;采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;对所述至少两组数据进行SVM训练。采用该方法,通过预设的相似度聚类算法,将第一节点中的多个类别的数据类聚成组,而每组数据就是聚类完成的一类数据,并对该聚类完成的数据进行SVM训练,该过程中,采用的类聚成组的算法,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据处理方法实施例1的流程图;
图2为本申请提供的一种数据处理方法实施例2的流程图;
图3为本申请提供的一种数据处理方法实施例3的流程图;
图4为本申请提供的一种数据处理方法实施例3中离散度图示意图;
图5为本申请提供的一种数据处理方法实施例3中用于生成最小生成树的离散度示意图;
图6为本申请提供的一种数据处理方法实施例3中基于图5的离散度示意图得到最小生成树过程示意图;
图7为本申请提供的一种数据处理方法实施例3中分割最小生成树示意图;
图8为本申请提供的一种数据处理方法实施例4的流程图;
图9为本申请提供的一种数据处理方法实施例5的流程图;
图10为本申请提供的一种数据处理方法实施例5中多层次结构示意图;
图11为本申请提供的一种数据处理装置实施例1的结构示意图;
图12为本申请提供的一种数据处理装置实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,需要说明的是,该SVM处理多分类问题时,需要对训练集中的每个类别的数据作为一组训练样本,剩余的数据作为一组训练样本,每一类别都重复该过程。而在本申请中的训练集中可以包含有多个类别的数据,为实现对该训练集中的数据进行多分类,通过预设的相似度聚类算法,将该训练集中的多个类别的数据类聚成组,得到多个组,每个组中可以包含有一个或者多个分类的数据,该组中的多个分类的数据具有较高的相似度,进而在后续的SVM训练过程中,可将该类聚成组的每一组进行SVM一对多的训练,由于每组中的类别较少,相应的,进行训练过程中,一次训练的数据较少,降低了训练的复杂度;并且由于类聚成组的算法对训练集中的数据进行分组,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
如图1所示的,为本申请提供的一种数据处理方法实施例1的流程图,该方法可以包括以下步骤:
步骤S101:将预设训练集中的所有类别的数据放入第一节点中;
其中,该训练集中包含有数据,该数据为待分类进行SVM训练的数据。
具体的,将该训练集中的所有数据放入第一节点中,以实现对该数据进行分类的过程。
其中,该第一节点是用于承载该数据的结构,后续实现相似度聚类算法的步骤是基于该第一节点中承载的数据进行的。
需要说明的是,该训练集中数据已有分类的类别,比如对给定的新闻稿件按照栏目进行分类,比如判断一篇新闻是否属于政治、经济、娱乐以及体育等。该新闻中包含的类别可以为文字、图片、当天新闻、政治、经济等多种类别。
需要说明的是,该训练集中的数据的类别可以为一种、两种甚至多种。
需要说明的是,针对不同个数类别的处理方法不同,本实施例中主要针对类别较多的数据进行处理,其余处理方式在后续实施例中会详细说明,本实施例不做详述。
步骤S102:采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
其中,该预设的相似度聚类算法,是将该第一节点的训练集中所有的数据聚类成组,每一组为一类。
例如,该新闻属于政治、经济等类别。
具体的,根据该预设的相似度聚类算法,将该第一节点中的数据类聚成组,得到了至少两组数据。
步骤S103:对所述至少两组数据进行SVM训练。
其中,基于SVM对该得到的至少两组数据分别进行训练。
其中,当该一组数据中包含的数据为该训练集中的一个类别的数据时,可以采用一对一的算法;当该一组数据中包含的数据为该训练集中的两个甚至更多类别的数据时,可以采用一对多的算法。
需要说明的是,具体训练过程后续实施例中会详细说明,本实施例中不做详述。
综上,本实施例提供的一种数据处理方法,包括:将预设训练集中的数据放入第一节点中;采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;对所述至少两组数据进行SVM训练。采用该方法,通过预设的相似度聚类算法,将第一节点中的多个类别的数据类聚成组,而每组数据就是聚类完成的一类数据,并对该聚类完成的数据进行SVM训练,该过程中,采用的类聚成组的算法,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
如图2所示的,为本申请提供的一种数据处理方法实施例2的流程图,该方法可以包括以下步骤:
步骤S201:将预设训练集中的数据放入第一节点中;
步骤S201与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S202:分析所述数据的类别的个数;
其中,该类别的个数为一个时,无需进行分组,也无需进行SVM训练。
如果该类别的个数是两个时,无需进行分组,直接依据其现有的两个类别,将每个类别的数据记为一组,并对两组数据进行SVM训练,即执行步骤S203;
如果类别的个数大于两个时,则,需要进行分组,并针对每一组数据进行SVM训练,执行步骤S204-205。
步骤S203:基于所述类别的个数等于2,将每个类别的数据记为一组,对所述两组数据进行SVM训练;
步骤S204:基于所述类别的个数大于2,采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
步骤S205:对所述至少两组数据进行SVM训练。
其中,步骤S204-205与实施例1中的步骤S102-103一致,本实施例中不做赘述。
综上,本实施例提供的一种数据处理方法中,还包括:分析所述数据的类别的个数;基于所述类别的个数等于2,将每个类别的数据记为一组,对所述两组数据进行SVM训练;基于所述类别的个数大于2,执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组步骤。采用该方法,对训练集中的数据的类别个数进行分析,基于该训练集中数据的类别个数,对该数据进行不同的处理,数据处理灵活。
如图3所示的,为本申请提供的一种数据处理方法实施例3的流程图,该方法可以包括以下步骤:
步骤S301:将预设训练集中的数据放入第一节点中;
其中,步骤S301与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S302:依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
其中,预设相似度算法,以对该训练集中各个类别的数据之间的相似度进行计算,进而实现基于该相似度进行后续的类聚成组过程。
其中,该步骤S302具体实现为:依据第一类别的数据分布和第二类别的数据分布,以及所述第一类别和第二类别的距离,计算得到所述第一类别和第二类别的相似度;
具体采用如下公式(1)计算:
其中,SIMij表示第一类别i和第二类别j的相似度,Ri表示第一类别i的数据分布,Rj表示第二类别j的数据分布,Dij表示的第一类别i和第二类别j的距离。
具体的,该第一类别与第二类别的距离可以采用在高维特征空间中的欧式距离。
其中,该第一类别i的数据分布具体采用如下公式(2)计算:
其中,该第一类别i和第二类别j的距离具体采用如下公式(3)计算:
Dij=||mi-mj|| (3)
其中,该公式(2)和公式(3)中,xt表示当前类别中的数据样本点,li表示类别i中数据样本点的个数,mi是类别i在高维特征空间的中心。
其中,该mi具体采用如下公式(4)计算:
其中,该Φ(xs)为核函数。
具体实施中,该核函数表征的为空间中任一点x到某一中心xc之间欧式距离的单调函数,其公式为Φ(x)=k||x-xc||,其中k为系数。
具体实施中,采用上述计算公式,依次对该训练集中的所有类别的数据分布进行计算两个类别之间的相似度。
步骤S303:基于所述相似度生成离散度图;
其中,该相似度表征了两个类别间的相似程度,基于该相似度能够得到该两个类别的离散度,进而依据该离散度能够生成该训练集中数据的离散度图。
其中,该离散度图以图的形式表征了该训练集中数据的离散程度。
其中,该步骤S303具体实现为:依据所述相似度,得到任意两个类别间的离散度,建立离散度矩阵,所述离散度矩阵中包含至少两个类别,以及类别之间的离散度;依据所述离散度矩阵建立离散度图,所述离散度图中每个节点表示一个类别,节点之间的带权边表示类别之间的离散度。
具体的,该相似度与离散度为倒数关系,类别之间的离散度用来描述类别之间的可分性。
具体采用如下公式(5)计算:
需要说明的是,具体实施中,为提高计算过程中的准确度,还可以直接依据两个类别的数据分布,以及两个类别之间的距离直接计算该离散度。
具体采用如下公式(6)计算:
其中,SEPij表示第一类别i和第二类别j的离散度,Ri表示第一类别i的数据分布,Rj表示第二类别j的数据分布,Dij表示的第一类别i和第二类别j的距离。
具体实施中,计算得到各个类别之间的离散度后,可以生成一表格以记录该离散度。
如下表1所示的,为5个类别之间的离散度。
表1
类别 1 2 3 4 5
1 2.5 1.5 5.6 3.4
2 2.5 2.8 4.6 3.5
3 1.5 2.8 4.2 3.4
4 5.6 4.6 4.2 4.7
5 3.4 3.5 3.4 4.7
具体的,基于该离散度,建立一离散度图,该图中,包括节点和边,其中,每个节点表示一个类别,节点之间的带权边表示类别之间的离散度。
如图4所示的为本实施例中提供的离散度图示意图,图中包括5个节点以及相应的节点间的边,该节点间的边的权值与上述表1中内容一致。
步骤S304:依据预设的转换规则,将所述离散度图转换成最小生成树;
其中,该离散度图转换为最小生成树的过程可以使用Prim(普里姆)或Kruskai(克鲁斯卡尔)算法实现。
本实施例中以Prim算法为例进行说明,当然不限制于该Prim算法。
具体的,该Prim算法的基本思想是,首先以一个该离散度图中的任一结点作为最小生成树的初始结点,然后以迭代的方式找出初始结点与最小生成树中各结点权重最小边,并加入到最小生成树中。加入之后,如果图中有环路,即产生回路,则跳过这条边,选择下一个结点,继续寻找不形成回路的边。当所有结点都加入到最小生成树中之后,就得出了连通图中的最小生成树。一个具有N个结点的离散度图生成的最小生成树中具有N个结点和N-1条边。
其中,任意两个结点之间边的权重值采用该两个结点之间的离散度值表示。
其中,该迭代的方式找到当最小生成树中只有一个初始结点A时,找到与该初始结点的权重最小的结点,假如为B,加入到最小生成树中,然后在图中找除了这两个结点A和B之外的所有结点,分别与当前的两个结点比较,找出最小距离的那个结点,假如是C,C与A的距离小于其他所有结点与A和B的距离,那么将C加入到最小生成树中,并与A相连,依次类推。
如图5所示的是用于生成最小生成树的离散度示意图,其中,该图中包含6个结点v1-6。其中,v1和v2的离散度为6,v1和v3的离散度为1,v1和v4的离散度为5,v2和v5的离散度为3,v2和v3的离散度为5,v3和v4的离散度为5,v3和v5的离散度为6,v3和v6的离散度为4,v5和v6的离散度为6,v4和v6的离散度为2。
如图6所示的为基于图5的离散度示意图得到最小生成树过程示意图,其中,以v1为初始结点,该v1权值最小(取值为1)的边为v1与v3的边,则选择v3,v3剩余边中权值最小(取值为4)的边为v3与v6的边,则选择v6,该v6剩余边中权值最小(取值为2)的边为v6与v4的边,v4与v3、v1的边的权值均为5,而将v3或者v1选择后,形成环路,则放弃选择v3或者v1,选择另一条路,从经过的四个结点中(v4、v6、v3和v1)剩余边中选择不形成环路且权值最小(取值为5)的边为v3与v2的边,则选择v2,v2剩余边中权值最小(取值为3)的边为v5与v2的边,至此完成的最小生成树中包含6个全部结点以及5条边。
步骤S305:依据预设的分割规则,将所述最小生成树分割成至少两组;
其中,该分割规则根据该最小生成树的权值计算生成分割的条件,分割得到多组,每组中包含的节点对应的数据相似度较高,进而在后续步骤中针对相似度较高的类别的数据进行SVM训练。
其中,该步骤S305具体实现为:依据预设的阈值,将所述最小生成树中权重值大于所述阈值的边截断,以实现将所述最小生成树被截为至少两个图;将每个图中所有节点合并为一组,以实现将所述最小生成树分割成至少两组。
其中,该阈值是根据类别的相关内容计算得到。
计算该阈值,具体采用如下公式(7)计算:
其中,δ为阈值,该N表示类别个数,∑W表示该最小生成树中每个带权边表示类别之间的离散度之和。
如图7所示的为分割最小生成树示意图,其中,该最小生成树包括v1-v6一共6个节点,其中,v1和v3的离散度为1,v3和v6的离散度为4,v6和v4的离散度为2,v2和v3的离散度为5,v2和v5的离散度为3。计算得到的阈值δ=1/(6-1)(1+4+6+5+3)=3,则将该离散度大于该3的边截断,截断v3和v6之间、v2和v3之间的边,得到三组,图中采用//表示截断。
步骤S306:对所述至少两组数据进行SVM训练。
其中,步骤S306与实施例1中的步骤S103一致,本实施例中不做赘述。
需要说明的是,通过多组实验证明本实施例提出的方法在准确度以及时间性能上较其他代表性SVM多分方法有显著的提高。相同数据集上本发明所述方法的准确率比其他方法要高出2-3%,而在时间性能上,本发明的分类时间比其他方法要少出几倍甚至几十倍,这和数据的类别个数有关,类别个数越多,本发明的时间性能提升越明显。
综上,本实施例提供的一种数据处理方法中,依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;基于所述相似度生成离散度图;依据预设的转换规则,将所述离散度图转换成最小生成树;依据预设的分割规则,将所述最小生成树分割成至少两组。采用该方法,保证了组与组之间的离散度最大化,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
如图8所示的,为本申请提供的一种数据处理方法实施例4的流程图,该方法可以包括以下步骤:
步骤S801:将预设训练集中的数据放入第一节点中;
步骤S802:采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
其中,步骤S801-802与实施例1中的步骤S101-102一致,本实施例中不做赘述。
步骤S803:依次从所述至少两组数据中获取每一组数据作为一组训练样本,分别进行训练。
具体的,将该类聚成组得到的多组数据中,分别获取每一组数据进行训练,可以采用一对多的算法,得到与所述数据组数对应的二分类器。
由于每组中可以包含多个节点,即多个类别的数据,则相对现有技术中针对N类的训练样本集,总体需要训练出N个分类器而言,减少了分类器的数量。
例如,当有K个组时,会生成K个SVM二分类器,K的取值为正整数。
综上,本实施例提供的一种数据处理方法,依次从所述至少两组数据中获取每一组数据作为一组训练样本,分别进行训练,该训练过程中,会得到与该数据组数对应的二分类器,减少训练SVM的数量,达到提高效率的效果。
如图9所示的,为本申请提供的一种数据处理方法实施例5的流程图,该方法可以包括以下步骤:
步骤S901:将预设训练集中的数据放入第一节点中;
步骤S902:采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
步骤S903:对所述至少两组数据进行SVM训练;
其中,步骤S901-903与实施例1中的步骤S101-103一致,本实施例中不做赘述。
步骤S904:依据分成的至少两组数据,生成与所述数据组数对应个数的第二节点;
步骤S905:将每组数据依次放入对应的第二节点中;
其中,为提高SVM训练的准确度,在经过将所述第一节点中的数据类聚成组之后,循环进行类聚成组以及SVM训练的过程。
具体的,将该分成的多组数据,放入与其组数对应的第二节点中,每个第二节点中放入一组数据。
步骤S906:将任一第二节点作为新的第一节点,并循环执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据步骤。
其中,将一个第二节点作为新的第一节点,进行类聚成组以及SVM训练过程。
其中,该第二节点与第一节点类似,也是用于承载该数据的结构,并且,该第二节点可以视为第一节点的子节点。
具体的,当一组数据中只有一个类别时,则结束,方有两个类别时,直接对该两个类别分别进行SVM训练,当有三个及以上的类别时,循环执行该步骤S902步骤。
需要说明的是,本实施例中提供的方案中,每次执行类聚成组过程,则生成多个组,对每个组进行聚类成组再次得到该组下的多个组,得到的为多层次结构。
如图10所示的为本实施例中得到的多层次结构示意图,其中,第一层类聚成组时,将N类数据分为k组,得到n1类、n2类…nk类;第二层类聚成组时,将该n2类数据分为p组,得到m1类、m2类…mp类,图中,虚线椭圆表征类聚成组以及进行SVM训练的过程。
综上,本实施例提供的一种数据处理方法,还包括:依据分成的至少两组数据,生成与所述数据组数对应个数的第二节点;将每组数据依次放入对应的第二节点中;将任一第二节点作为新的第一节点,并循环执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据步骤。采用该方法,通过对类聚成组的每组数据再次进行类聚成组处理,得到多层次结构,而使用多层次结构,可以减少使用训练模型进行数据分类过程中SVM的数量,达到提高效率的效果。
上述本发明提供的实施例中详细描述了一种数据处理方法,对于本发明的数据处理方法可采用多种形式的装置实现,因此本发明还提供了一种数据处理装置,下面给出具体的实施例进行详细说明。
如图11所示的为本申请提供的一种数据处理装置实施例1的结构示意图,该装置包括以下结构:训练集处理模块1101、类聚处理模块1102和训练模块1103;
其中,该训练集处理模块1101,用于将预设训练集中的数据放入第一节点中;
其中,该类聚处理模块1102,用于采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
其中,该训练模块1103,用于对所述至少两组数据进行支持向量机SVM训练。
优选的,该装置还包括:
分析判断模块,用于分析所述数据的类别的个数;
基于所述类别的个数等于2,将每个类别的数据记为一组,触发所述训练模块对所述两组数据进行SVM训练;
基于所述类别的个数大于2,执触发所述类聚处理模块。
优选的,所述训练模块,具体用于:
依次从所述至少两组数据中获取每一组数据作为一组训练样本,分别进行训练。
优选的,所述装置还包括:
组数据处理模块,用于依据分成的至少两组数据,生成与所述数据组数对应个数的第二节点,并将每组数据依次放入对应的第二节点中后,触发所述类聚处理模块将任一第二节点作为新的第一节点,并循环执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据步骤。
综上,本实施例提供的一种数据处理装置,通过预设的相似度聚类算法,将第一节点中的多个类别的数据类聚成组,而每组数据就是聚类完成的一类数据,相对该聚类完成的数据进行SVM训练,该过程中,采用的类聚成组的算法,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
如图12所示的为本申请提供的一种数据处理装置实施例2的结构示意图,该装置包括以下结构:训练集处理模块1201、类聚处理模块1202和训练模块1203;
其中,该类聚处理模块包括计算单元1204、生成单元1205、转换单元1206和分割单元1207;
其中,该训练集处理模块1201和训练模块1203的结构功能与实施例1中相应结构功能一致,本实施例中不做赘述。
其中,该计算单元1204,用于依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
其中,该生成单元1205,用于基于所述相似度生成离散度图;
其中,该转换单元1206,用于依据预设的转换规则,将所述离散度图转换成最小生成树;
其中,该分割单元1207,用于依据预设的分割规则,将所述最小生成树分割成至少两组。
综上,本实施例提供的一种数据处理装置,保证了组与组之间的离散度最大化,使得SVM在二分类时达到间隔最大化的效果,提高分类准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
将预设训练集中的数据放入第一节点中;
采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
对所述至少两组数据进行支持向量机SVM训练。
2.根据权利要求1所述的方法,其特征在于,所述将预设训练集中的数据放入第一节点中之后,还包括:
分析所述数据的类别的个数;
基于所述类别的个数等于2,将每个类别的数据记为一组,对所述两组数据进行SVM训练;
基于所述类别的个数大于2,执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组步骤。
3.根据权利要求1所述的方法,其特征在于,所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据,包括:
依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
基于所述相似度生成离散度图;
依据预设的转换规则,将所述离散度图转换成最小生成树;
依据预设的分割规则,将所述最小生成树分割成至少两组。
4.根据权利要求3所述的方法,其特征在于,所述依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度,包括:
依据第一类别的数据分布和第二类别的数据分布,以及所述第一类别和第二类别的距离,计算得到所述第一类别和第二类别的相似度;
具体采用如下公式计算:
SIM i j = R i 2 + R j 2 D i j 2
其中,SIMij表示第一类别i和第二类别j的相似度,Ri表示第一类别i的数据分布,Rj表示第二类别j的数据分布,Dij表示的第一类别i和第二类别j的距离。
5.根据权利要求3所述的方法,其特征在于,所述基于所述相似度生成离散度图,包括:
依据所述相似度,得到任意两个类别间的离散度,建立离散度矩阵,所述离散度矩阵中包含至少两个类别,以及类别之间的离散度;
依据所述离散度矩阵建立离散度图,所述离散图中每个节点表示一个类别,节点之间的带权边表示类别之间的离散度。
6.根据权利要求3所述的方法,其特征在于,所述最小生成树中任意两个节点之间的带权边的权重值表示所述两个节点之间的离散度,所述依据预设的分割规则,将所述最小生成树分割成至少两组,包括:
依据预设的阈值,将所述最小生成树中权重值大于所述阈值的边截断,以实现将所述最小生成树被截为至少三个图;
将每个图中所有节点合并为一组,以实现将所述最小生成树分割成至少两组。
7.根据权利要求1所述的方法,其特征在于,所述对所述至少两组数据进行SVM训练,包括:
依次从所述至少两组数据中获取每一组数据作为一组训练样本,分别进行训练。
8.根据权利要求1所述的方法,其特征在于,还包括:
依据分成的至少两组数据,生成与所述数据组数对应个数的第二节点;
将每组数据依次放入对应的第二节点中;
将任一第二节点作为新的第一节点,并循环执行所述采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据步骤。
9.一种数据处理装置,其特征在于,包括:
训练集处理模块,用于将预设训练集中的数据放入第一节点中;
类聚处理模块,用于采用预设的相似度聚类算法将所述第一节点中的数据类聚成组,得到至少两组数据;
训练模块,用于对所述至少两组数据进行支持向量机SVM训练。
10.根据权利要求9所述的装置,其特征在于,所述类聚处理模块,包括:
计算单元,用于依据预设相似度算法,计算所述训练集中任意两个类别的数据之间的相似度;
生成单元,用于基于所述相似度生成离散度图;
转换单元,用于依据预设的转换规则,将所述离散度图转换成最小生成树;
分割单元,用于依据预设的分割规则,将所述最小生成树分割成至少两组。
CN201611250179.1A 2016-12-29 2016-12-29 一种数据处理方法和装置 Pending CN106803099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611250179.1A CN106803099A (zh) 2016-12-29 2016-12-29 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611250179.1A CN106803099A (zh) 2016-12-29 2016-12-29 一种数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN106803099A true CN106803099A (zh) 2017-06-06

Family

ID=58985343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611250179.1A Pending CN106803099A (zh) 2016-12-29 2016-12-29 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106803099A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063735A (zh) * 2018-07-02 2018-12-21 北京理工大学 一种基于昆虫生物学参数的昆虫分类方案设计方法
CN109542854A (zh) * 2018-11-14 2019-03-29 网易(杭州)网络有限公司 数据压缩方法、装置、介质及电子设备
CN111178533A (zh) * 2018-11-12 2020-05-19 第四范式(北京)技术有限公司 实现自动半监督机器学习的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063735A (zh) * 2018-07-02 2018-12-21 北京理工大学 一种基于昆虫生物学参数的昆虫分类方案设计方法
CN111178533A (zh) * 2018-11-12 2020-05-19 第四范式(北京)技术有限公司 实现自动半监督机器学习的方法及装置
CN111178533B (zh) * 2018-11-12 2024-04-16 第四范式(北京)技术有限公司 实现自动半监督机器学习的方法及装置
CN109542854A (zh) * 2018-11-14 2019-03-29 网易(杭州)网络有限公司 数据压缩方法、装置、介质及电子设备
CN109542854B (zh) * 2018-11-14 2020-11-24 网易(杭州)网络有限公司 数据压缩方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
Zhang et al. Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced data
CN108399228A (zh) 文章分类方法、装置、计算机设备及存储介质
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
Yue-Ju et al. Soil quality assessment using weighted fuzzy association rules
CN106803099A (zh) 一种数据处理方法和装置
CN106991296A (zh) 基于随机化贪心特征选择的集成分类方法
CN107563450A (zh) 聚类簇的获取方法及装置
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN105512954A (zh) 一种针对大规模柔性作业车间调度的集成搜索方法
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
CN103208007A (zh) 一种基于支持向量机和遗传算法的人脸识别方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
Yang et al. Ksm: Fast multiple task adaption via kernel-wise soft mask learning
Yeh et al. Convolution neural network hyperparameter optimization using simplified swarm optimization
Deng et al. Tri-training and data editing based semi-supervised clustering algorithm
CN114743133A (zh) 一种轻量化的小样本视频分类识别方法及系统
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
CN108491968A (zh) 基于农产品质量安全应急资源调度模型计算方法
CN106503386A (zh) 评估光功率预测算法性能优劣的方法及装置
CN109978051A (zh) 基于混合神经网络的监督分类方法
Cotta et al. Applying memetic algorithms to the analysis of microarray data
CN113392868A (zh) 一种模型训练的方法、相关装置、设备及存储介质
Fan et al. Transformer-based contrastive learning framework for image anomaly detection
CN103744924A (zh) 基于频繁模式的选择性集成分类方法
CN106022382A (zh) 面向复杂数据的混合范数多不定核分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170606

RJ01 Rejection of invention patent application after publication