CN107403199A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN107403199A
CN107403199A CN201710665195.5A CN201710665195A CN107403199A CN 107403199 A CN107403199 A CN 107403199A CN 201710665195 A CN201710665195 A CN 201710665195A CN 107403199 A CN107403199 A CN 107403199A
Authority
CN
China
Prior art keywords
votes
class
data
highest
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710665195.5A
Other languages
English (en)
Other versions
CN107403199B (zh
Inventor
郑瑞平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710665195.5A priority Critical patent/CN107403199B/zh
Publication of CN107403199A publication Critical patent/CN107403199A/zh
Application granted granted Critical
Publication of CN107403199B publication Critical patent/CN107403199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据处理方法和装置,涉及数据处理领域。本发明通过根据决策树对训练数据集中数据的分类结果,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数,再将各个类对应的最高投票数中的最小值确定为该类的判定阈值,能够确定数据被判定为某个类别时所需要满足的最小投票数,从而能够应对各种分类数量的分类问题,提高了分类的准确率。

Description

数据处理方法和装置
技术领域
本发明涉及数据处理领域,特别涉及一种数据处理方法和装置。
背景技术
随机森林是一个由许多基础分类器构成的组合分类器,其中的基础分类器为决策树。不同决策树之间是独立同分布的。当输入一个测试样本时,由所有决策树的投票结果来确定最终样本的所属类别。
在实际应用中,为了提升准确率,一种改进方式是加权随机森林方法。
加权随机森林方法针对二分类问题。首先设置叶子节点的投票权重均为0.5,然后向每棵决策树中输入一个完备的训练样本集。当样本到达某个叶子节点后,将该节点的权重调整为判断正确的样本数量与到达叶子节点的样本总数的比值。通过上述的调整过程,以修正分类器中叶子节点的权重。
发明内容
发明人发现,加权随机森林方法只能够解决二分类问题。然而,在实际的应用场景中还存在多分类问题。例如,将图像分类为美食、自然、建筑、人像,将用户分类为20岁以下、20~40岁、40岁以上等等。
针对上述问题,发明人提供了一种用于训练适用于各种分类数量的随机森林模型的数据处理方法。
根据本发明实施例的第一个方面,提供一种数据处理方法,包括:将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;根据分类结果,统计训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;对于训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。
在一个实施例中,如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。
在一个实施例中,数据处理方法还包括:如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
在一个实施例中,根据各个类对应的最高投票数中的最小值确定该类的判定阈值包括:将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。
在一个实施例中,数据处理方法还包括:根据随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。
在一个实施例中,采用随机森林模型中的决策树的分类结果和判定阈值对数据进行分类包括:将待测数据输入到随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;根据分类结果,统计待测数据对每个类的投票数;在待测数据对每个类的投票数中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果。
在一个实施例中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果包括:将投票数大于或等于判定阈值的类中预设的优先级最高的类确定为待测数据的分类结果;或者,将投票数大于或等于判定阈值的类中投票数最多的类确定为待测数据的分类结果;或者,在投票数大于或等于判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为待测数据的分类结果。
在一个实施例中,随机森林模型的分类数量大于或等于三类。
根据本发明实施例的第二个方面,提供一种数据处理装置,包括:分类结果获取模块,被配置为将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;投票数统计模块,被配置为根据分类结果统计训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;最高投票数确定模块,被配置为对于训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;判定阈值确定模块,被配置为根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。
在一个实施例中,最高投票数确定模块进一步被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。
在一个实施例中,数据处理装置还包括:投票数修正模块,被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
在一个实施例中,判定阈值确定模块进一步被配置为:将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。
在一个实施例中,数据处理装置还包括:预测模块,被配置为根据随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。
在一个实施例中,预测模块包括:分类结果获取单元,被配置为将待测数据输入到随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;投票数统计单元,被配置为根据分类结果统计待测数据对每个类的投票数;分类单元,被配置为在待测数据对每个类的投票数中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果。
在一个实施例中,分类单元进一步被配置为:将投票数大于或等于判定阈值的类中预设的优先级最高的类确定为待测数据的分类结果;或者,将投票数大于或等于判定阈值的类中投票数最多的类确定为待测数据的分类结果;或者,在投票数大于或等于判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为待测数据的分类结果。
在一个实施例中,随机森林模型的分类数量大于或等于三类。
根据本发明实施例的第三个方面,提供一种数据处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任意一种数据处理方法。
根据本发明实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种数据处理方法。
上述发明中的一个实施例具有如下优点或有益效果:通过根据决策树对训练数据集中数据的分类结果,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数,再将各个类对应的最高投票数中的最小值确定为该类的判定阈值,能够确定数据被判定为某个类别时所需要满足的最小投票数,从而能够应对各种分类数量的分类问题,提高了分类的准确率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所采用的随机森林模型中的决策树的示意图。
图2为本发明数据处理方法一个实施例的流程图。
图3为本发明数据处理方法的另一个实施例的流程图。
图4为本发明数据处理装置的一个实施例的结构图。
图5为本发明数据处理装置的另一个实施例的结构图。
图6为本发明数据处理装置的又一个实施例的结构图。
图7为本发明数据处理装置的再一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明所采用的随机森林模型中的决策树的示意图。在图1所示的示例性实施例中,随机森林模型的分类数量为3类。本领域技术人员应当清楚,根据需要,可以设置其他数量的类别数。
并且,本发明能够解决背景技术中无法解决的多分类问题,即,分类数大于或等于三的分类问题。然而,本发明对二分类问题也是适用的。本领域技术人员可以根据实际需要选择分类数量。
图2为本发明数据处理方法一个实施例的流程图。如图2所示,该实施例的数据处理方法包括步骤S202~S208。
在步骤S202中,将多个训练数据集分别输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果。
训练数据集是已知分类的数据的集合,每个数据包括了一个样本的若干特征。在一个实施例中,训练数据集中不同类别的数据的数量之差可以小于预设值,即,可以令每个类的数据数量相差不大。
随机森林模型可以是采用训练数据集中的数据构建的,也可以是采用其他数据集构建的。
在一个实施例中,可以从训练数据集中有放回地多次抽取数据,形成多个子集,再采用每个子集中的数据训练并生成决策树。
在形成每个子集时,可以令子集包括所有类别的数据,并且每个类别的数据数量大于预设值。
采用数据训练并生成决策树的方法可以采用现有技术的实现方式,这里不再赘述。
在步骤S204中,根据分类结果,统计训练数据集中的每个数据对每个类的投票数。
数据对某个类的投票数为数据被判定为该类的次数。
例如,训练数据集中存在数据A,随机森林模型中有500棵决策树。设在将数据X输入到随机森林模型中的决策树中后,有400棵决策树将数据X划分为A类、有50棵决策树将数据X划分为B类、有50棵决策树将数据X划分为C类,则数据X对A类、B类和C类的投票数分别为400、50、50。
在步骤S206中,对于训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数。
例如,数据X对A类、B类和C类的投票数分别为400、50、50,则将数据X和A类同时对应的400记为最高投票数。
训练数据集中的每个数据均可以确定出一个最高投票数。即,确定出的最高投票数的个数等于训练数据集中的数据个数。
步骤S206是以数据为查看基准,查看每个数据对各个类的投票数的最大值。最高投票数对应的类表示随机森林模型中的决策树对数据的分类结果,某个数据的最高投票数所对应的类即为对该数据的分类结果。
在步骤S208中,根据各个类对应的最高投票数中的最小值确定该类的判定阈值。
步骤S208是以类为查看基准,查看每个类对应的一个或多个最高投票数中的最小值。
某个类别的判定阈值表示数据被判定为该类别时所需要满足的最小投票数。因此,在后续的预测过程中,可以采用上述随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。
在一个实施例中,可以将各个类对应的最高投票数中的最小值确定为该类的判定阈值。
在一个实施例中,还可以采用多个不同的训练数据集重复步骤S202~S206,以获得每个训练数据集的训练过程中各个类对应的最高投票数中的最小值,然后将这多个最小值的均值确定为该类的判定阈值。
上述实施例的方法通过根据决策树对训练数据集中数据的分类结果,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数,再将各个类对应的最高投票数中的最小值确定为该类的判定阈值,能够确定数据被判定为某个类别时所需要满足的最小投票数,从而能够应对各种分类数量的分类问题,提高了分类的准确率。
上述实施例需要为每个类均确定一个判定阈值。如果某个类不存在相应的最高投票数,说明没有数据被判定到该类。出现这种情况的原因可能是在决策树训练的过程中产生了错误;或者是训练数据的选择不合理,其中并没有属于该类的数据或属于该类的数据极少。此时,可以选择重新训练决策树、重新选择样本的特征形成训练数据集或者调整训练数据集中不同类别的数据占比等等,以使训练结果更准确。
在一个实施例中,可以采用投票矩阵统计对训练数据集的分类结果。矩阵的每一行表示每个数据,每一列表示每个类,矩阵中的每个元素表示某个数据对某个类的投票结果。
公式(1)中的矩阵示例性地展示了在一次训练过程中的投票结果。在实际的训练过程中会采用大量数据。为了便于展示和说明,本实施例以5个数据为例进行阐述。并且,设该实施例中所训练的随机森林模型具有500棵决策树,分类数量为4。矩阵从上到下的每一行依次代表数据1至数据6、从左至右的每一列依次代表类别A至类别D。
首先,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数。为了便于展示,可以将同一数据对各个类的投票数中值不是最大的投票数置为0。处理后的结果可以参考公式(2)中的矩阵。
然后,将各个类对应的最高投票数中的最小值确定为该类的判定阈值,例如可以将矩阵中每一列的非0元素中的最小值确定为该列所对应的类别的判定阈值。
例如,类别A对应两个最高投票数,分别为400和380,将380确定为类别A的判定阈值;类别B仅对应一个最高投票数460,因此可以将460确定为类别B的判定阈值。对于其他类别,可以采用相同或相似的确定方式,这里不再赘述。
在上述实施例中,也可以不将投票数中值不是最大的投票数置为0,而是记录最高投票数所对应的矩阵中的坐标。置0只是一种直观的处理方式,本领域技术人员可以根据需要进行选择。
采用投票矩阵这种方式进行统计比较清晰、直观。根据需要,本领域技术人员也可以采用其他统计方式,例如用表格记录、或者直接记录每个类对应的最高投票数的数值等等。
在训练过程中,可能会出现同一数据对各个类的投票数中值最大的投票数有多个的情况。此时,可以将这多个值最大的投票数对应的类中,优先级最高的类对应的投票数确定为最大投票数。
类别的优先级可以是预设的。例如,设分类目的是对医学图片进行分类,类别分别是肝癌、肝硬化和正常肝。由于肝癌是医疗诊断中需要特别注意的,因此优先级最高,其次是肝硬化,最后是正常肝。因此,当一个数据对两个以上的类别投票值相同、且均为最大值,那么可以优先将该数据划分为这两个以上的类别中优先级最高的类别。
如果数据Y对肝癌和肝硬化的投票数分别为240,对正常肝的投票是20,那么可以仅将肝癌对应的240确定为最高投票数,即,将数据Y判定为肝癌类别。
在一个实施例中,如果同一数据对各个类的投票数中值最大的投票数有多个,可以将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
即,可以将对应类的预设的优先级不是最高的投票数置为比原值低的任意数值。
继续以采用矩阵进行统计的方式为例。公式(3)中的矩阵示例性地展示了在一次训练过程中的投票结果。本实施例以5个数据为例进行阐述。并且,设该实施例中所训练的随机森林模型具有500棵决策树,分类数量为4。矩阵从上到下的每一行依次代表数据1至数据6、从左至右的每一列依次代表类别A至类别D、并且类别A至类别D的优先级依次递减。
可以看到,数据2对类别A和类别B的投票数均为最高。此时,可以采用上述方法对公式(3)中的矩阵进行修正,修正结果如公式(4)所示。
公式(4)与公式(3)相比,区别仅在于第二行第二列中的200被置为0。根据需要,也可以将原矩阵中第二行第二列中的200修改为比原值200小的任意值,例如190。这里的修改过程是一种示例性的实施手段,其根本目的在于,不令同一数据对各个类的投票数中值最大的多个投票数中优先级非最高的类对应的投票数参与判定阈值确定的过程。
然后可以根据修正后的矩阵确定每个数据对应的最高投票数,结果如矩阵(5)所示。
此时,类别A的判定阈值为200,类别B的判定阈值为460。
通过上述实施例的方法,能够在同一数据对各个类的投票数中值最大的投票数有多个时,仅令其中优先级最高的类对应的投票数参与判定阈值的确定,从而能够降低干扰样本的影响,提高了分类的准确率。
在确定了各个类对应的判定阈值以后,还可以根据随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。下面结合图3描述本发明数据处理方法的另一个实施例。
图3为本发明数据处理方法的另一个实施例的流程图。如图3所示,该实施例的数据处理方法包括步骤S302~S306。
在步骤S302中,将待测数据输入到随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果。
待测数据是从类别未知的样本的相关信息中提取的数据,待测数据所采用的特征可以与步骤S202中的训练数据相同,以使分类结果准确。
在步骤S304中,根据分类结果,统计待测数据对每个类的投票数。
在步骤S306中,在待测数据对每个类的投票数中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果。
由于在训练阶段,投票数大于或等于判定阈值的类均为训练数据集中数据的分类结果,因此通过这种方式确定待测数据的分类结果准确率较高。
如果投票数大于或等于判定阈值的类有一个,可以直接将其确定为待测数据的分类结果。
如果投票数大于或等于判定阈值的类有一个或多个,即数量不确定、或者数量确定为多个,本发明提供了三种示例性的处理方式。
第一种方式为,将投票数大于或等于判定阈值的类中预设的优先级最高的类确定为待测数据的分类结果。从而,可以将不确定的待测数据划分到优先级更高的类别中。
在一个实施例中,可以按照类别的预设的优先级从高到低的顺序,逐一查看待测数据对各个类别的投票数,并将首个投票数高于判定阈值的类别确定为待测数据的分类结果。
第二种方式为,将投票数大于或等于判定阈值的类中投票数最多的类确定为待测数据的分类结果。这种方式不考虑类别的优先级,而是采用大多数决策树给出的分类结果作为最终分类结果。
第三种方式为,在投票数大于或等于判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为待测数据的分类结果。
该预设值例如可以是一个负数。此时,当优先级最高的类的投票数最高,可以将优先级最高的类确定为待测数据的分类结果;当优先级最高的类的投票数不是最高、但是与投票数最高的其它类别的投票数差距不大,即优先级最高的类与其他类的投票数之差大于该负数预设值,那么仍然可以将优先级最高的类确定为待测数据的分类结果;当优先级最高的类的投票数不是最高、并且投票数又远远低于投票数最高的其它类别的投票数,即优先级最高的类与其他类的投票数之差小于该负数预设值,那么可以将投票数最多的其它类别确定为待测数据的分类结果。这种方式综合考虑了类别的优先级和投票数。
此外,如果在待测数据对每个类的投票数中,不存在投票数大于或等于判定阈值的类,可以将其中票数最高的类作为分类结果,还可以将这样的待测样本进行记录,并采用其他方式进行处理。
下面参考图4描述本发明一个实施例的数据处理装置。
图4为本发明数据处理装置的一个实施例的结构图。如图4所示,该实施例的数据处理装置包括:分类结果获取模块41,被配置为将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;投票数统计模块42,被配置为根据分类结果统计训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;最高投票数确定模块43,被配置为对于训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;判定阈值确定模块44,被配置为根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。
最高投票数确定模块43可以进一步被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。
判定阈值确定模块44可以进一步被配置为:将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。
在一个实施例中,数据处理装置还可以包括投票数修正模块45,被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
在一个实施例中,随机森林模型的分类数量大于或等于三类。
下面参考图5描述本发明另一个实施例的数据处理装置。
图5为本发明数据处理装置的另一个实施例的结构图。如图5所示,该实施例的数据处理装置包括分类结果获取模块51、投票数统计模块52、最高投票数确定模块53、判定阈值确定模块54、投票数修正模块55,这些模块的具体实施方式可以参考图4实施例中的分类结果获取模块41、投票数统计模块42、最高投票数确定模块43、判定阈值确定模块44、投票数修正模块45。此外,该实施例的数据处理装置还包括:预测模块56,被配置为根据随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。
在一个实施例中,预测模块56还可以包括:分类结果获取单元561,被配置为将待测数据输入到随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;投票数统计单元562,被配置为根据分类结果统计待测数据对每个类的投票数;分类单元563,被配置为在待测数据对每个类的投票数中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果。
在一个实施例中,分类单元563可以进一步被配置为:将投票数大于或等于判定阈值的类中预设的优先级最高的类确定为待测数据的分类结果;或者,将投票数大于或等于判定阈值的类中投票数最多的类确定为待测数据的分类结果;或者,在投票数大于或等于判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为待测数据的分类结果。
图6为本发明数据处理装置的又一个实施例的结构图。如图6所示,该实施例的装置600包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的数据处理方法。
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图7为本发明数据处理装置的再一个实施例的结构图。如图7所示,该实施例的装置700包括:存储器710以及处理器720,还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种数据处理方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种数据处理方法,其特征在于,包括:
将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;
根据分类结果,统计所述训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;
对于所述训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;
根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。
2.根据权利要求1所述的数据处理方法,其特征在于,如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。
3.根据权利要求1所述的数据处理方法,其特征在于,还包括:
如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
4.根据权利要求1所述的数据处理方法,其特征在于,所述根据各个类对应的最高投票数中的最小值确定该类的判定阈值包括:
将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,
将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。
5.根据权利要求1所述的数据处理方法,其特征在于,还包括:
根据所述随机森林模型中的决策树的分类结果和所述判定阈值对数据进行分类。
6.根据权利要求5所述的数据处理方法,其特征在于,所述采用所述随机森林模型中的决策树的分类结果和所述判定阈值对数据进行分类包括:
将待测数据输入到所述随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;
根据分类结果,统计所述待测数据对每个类的投票数;
在待测数据对每个类的投票数中,将投票数大于或等于所述判定阈值的类确定为所述待测数据的分类结果。
7.根据权利要求6所述的数据处理方法,其特征在于,所述将投票数大于或等于所述判定阈值的类确定为所述待测数据的分类结果包括:
将投票数大于或等于所述判定阈值的类中预设的优先级最高的类确定为所述待测数据的分类结果;或者,
将投票数大于或等于所述判定阈值的类中投票数最多的类确定为所述待测数据的分类结果;或者,
在投票数大于或等于所述判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为所述待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为所述待测数据的分类结果。
8.根据权利要求1所述的数据处理方法,其特征在于,所述随机森林模型的分类数量大于或等于三类。
9.一种数据处理装置,其特征在于,包括:
分类结果获取模块,被配置为将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;
投票数统计模块,被配置为根据分类结果统计所述训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;
最高投票数确定模块,被配置为对于所述训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;
判定阈值确定模块,被配置为根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。
10.根据权利要求9所述的数据处理装置,其特征在于,所述最高投票数确定模块进一步被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。
11.根据权利要求9所述的数据处理装置,其特征在于,还包括:
投票数修正模块,被配置为如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。
12.根据权利要求9所述的数据处理装置,其特征在于,所述判定阈值确定模块进一步被配置为:
将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,
将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。
13.根据权利要求9所述的数据处理装置,其特征在于,还包括:
预测模块,被配置为根据所述随机森林模型中的决策树的分类结果和所述判定阈值对数据进行分类。
14.根据权利要求13所述的数据处理装置,其特征在于,所述预测模块包括:
分类结果获取单元,被配置为将待测数据输入到所述随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;
投票数统计单元,被配置为根据分类结果统计所述待测数据对每个类的投票数;
分类单元,被配置为在待测数据对每个类的投票数中,将投票数大于或等于所述判定阈值的类确定为所述待测数据的分类结果。
15.根据权利要求14所述的数据处理装置,其特征在于,所述分类单元进一步被配置为:
将投票数大于或等于所述判定阈值的类中预设的优先级最高的类确定为所述待测数据的分类结果;或者,
将投票数大于或等于所述判定阈值的类中投票数最多的类确定为所述待测数据的分类结果;或者,
在投票数大于或等于所述判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为所述待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为所述待测数据的分类结果。
16.根据权利要求9所述的数据处理装置,其特征在于,所述随机森林模型的分类数量大于或等于三类。
17.一种数据处理装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-8中任一项所述的数据处理方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述的数据处理方法。
CN201710665195.5A 2017-08-07 2017-08-07 数据处理方法和装置 Active CN107403199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710665195.5A CN107403199B (zh) 2017-08-07 2017-08-07 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710665195.5A CN107403199B (zh) 2017-08-07 2017-08-07 数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN107403199A true CN107403199A (zh) 2017-11-28
CN107403199B CN107403199B (zh) 2021-02-26

Family

ID=60402541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710665195.5A Active CN107403199B (zh) 2017-08-07 2017-08-07 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN107403199B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410069A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
CN111310939A (zh) * 2018-12-11 2020-06-19 王俊杰 用于物品回收的远程查验处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法
CN105493024A (zh) * 2014-11-28 2016-04-13 华为技术有限公司 一种数据阈值预测方法与相关装置
CN105528595A (zh) * 2016-02-01 2016-04-27 成都通甲优博科技有限责任公司 在无人机航拍图像中对输电线路绝缘子的识别定位方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105493024A (zh) * 2014-11-28 2016-04-13 华为技术有限公司 一种数据阈值预测方法与相关装置
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法
CN105528595A (zh) * 2016-02-01 2016-04-27 成都通甲优博科技有限责任公司 在无人机航拍图像中对输电线路绝缘子的识别定位方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410069A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
WO2020048247A1 (zh) * 2018-09-03 2020-03-12 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
CN111310939A (zh) * 2018-12-11 2020-06-19 王俊杰 用于物品回收的远程查验处理系统

Also Published As

Publication number Publication date
CN107403199B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
WO2017143921A1 (zh) 一种多重抽样模型训练方法及装置
CN107665333A (zh) 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质
CN106156791A (zh) 业务数据分类方法和装置
CN106202177A (zh) 一种文本分类方法及装置
CN104573742B (zh) 医学图像分类方法和系统
CN110378343A (zh) 一种财务报销数据处理方法、装置及系统
CN107315954A (zh) 一种文件类型识别方法及服务器
CN110348441A (zh) 增值税发票识别方法、装置、计算机设备及存储介质
CN110874604A (zh) 模型训练方法及终端设备
CN108022146A (zh) 征信数据的特征项处理方法、装置、计算机设备
CN106651373A (zh) 一种混合欺诈交易检测分类器建立方法及装置
CN106339719A (zh) 一种图像识别方法及装置
CN108536595A (zh) 测试用例智能化匹配方法、装置、计算机设备及存储介质
CN108764302A (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN106919957A (zh) 处理数据的方法及装置
CN106445977A (zh) 图片推送方法及装置
CN110378389A (zh) 一种Adaboost分类器计算机创建装置
WO2022105130A1 (zh) 复合表情识别方法、装置、终端设备及存储介质
CN112365007A (zh) 模型参数确定方法、装置、设备及存储介质
CN110059607A (zh) 活体多重检测方法、装置、计算机设备及存储介质
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN107403199A (zh) 数据处理方法和装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN110503567A (zh) 数据校验方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant