CN107085572A - 对在时间上逐一到达的输入数据进行分类的方法和系统 - Google Patents

对在时间上逐一到达的输入数据进行分类的方法和系统 Download PDF

Info

Publication number
CN107085572A
CN107085572A CN201610084957.8A CN201610084957A CN107085572A CN 107085572 A CN107085572 A CN 107085572A CN 201610084957 A CN201610084957 A CN 201610084957A CN 107085572 A CN107085572 A CN 107085572A
Authority
CN
China
Prior art keywords
grader
input data
recent
classification
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610084957.8A
Other languages
English (en)
Inventor
徐卓然
侯翠琴
夏迎炬
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610084957.8A priority Critical patent/CN107085572A/zh
Priority to US15/406,916 priority patent/US20170236070A1/en
Publication of CN107085572A publication Critical patent/CN107085572A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对在时间上逐一到达的输入数据进行分类的方法和系统,包括:a)分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;b)基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及c)利用所选择的分类器对当前的输入数据进行分类。本发明提出的方法和系统不需要特意地检测概念漂移,能够自动处理概念漂移,并且能够实现很高的分类精度。

Description

对在时间上逐一到达的输入数据进行分类的方法和系统
技术领域
本发明涉及一种分类方法和系统,具体地涉及对在时间上逐一到达的输入数据进行分类的方法和系统。
背景技术
在线学习是一种不断学习新数据,并更新已有模型的机器学习方法,具有广泛的应用领域,例如流数据挖掘。
概念漂移是在线学习所特有的一个问题,是指时间上前后的数据概念之间存在冲突,无法用一个机器学习模型描述。现实世界的不断变化是概念漂移的根源。例如,在垃圾邮件分类应用中,关于新年促销的邮件在2月至10月会被当作垃圾邮件,而在11月至12月则被认为是普通邮件。
参见图1,图1示出一种典型的现有在线学习方法100的示意图。在方法100中,每当获得新数据110(步骤101),首先调用分类器120对新数据分类(步骤102)。这里的分类器120是机器学习中的分类器,例如支持向量机、决策树、K最近邻、神经网络等。分类结果130作为输出反馈给用户或其他程序(步骤103)。接下来,获得这个数据的真实类别(步骤104)。获得真实类别的方法可以是自动获得,也可以是人工反馈。如果无法获得某数据的真实类别140,并不会影响方法的继续进行。方法100将跳过这一数据,不使用这个数据更新分类器120。
接下来,要检测和处理概念漂移(步骤105)。首先,检测概念漂移(步骤105a),当检测到概念漂移时,对分类器120进行更新,例如删除分类器120中对应旧概念的部分。最后,用数据和其真实类别更新分类器(步骤105b)。
现有的在线学习方法使用统计学或降维的方法检测概念漂移,检测精度有限。确定分类器的哪一部分对应旧概念也很困难。这些问题导致现有的在线学习方法和系统的分类精度有限。
由此可见,由于存在概念漂移,现有的在线学习方法无法很好地实现数据分类。
因此,需要提供一种具备处理概念漂移能力的分类方法和系统。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
为解决上述问题,本发明提供一种对在时间上逐一到达的输入数据进行分类的方法和系统。
根据本发明的一个方面,提供一种对在时间上逐一到达的输入数据进行分类的方法,包括:a)分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;b)基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及c)利用所选择的分类器对当前的输入数据进行分类。
根据本发明的另一个方面,提供一种对在时间上逐一到达的输入数据进行分类的系统,包括:训练装置,所述训练装置分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;选择装置,所述选择装置基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及分类装置,所述分类装置利用所选择的分类器对当前的输入数据进行分类。
与现有技术相比,本发明提出的方法和系统不需要特意地检测概念漂移,能够自动处理概念漂移。此外,利用本发明提出的方法和系统对输入数据进行分类,能够实现很高的分类精度。
通过以下结合附图对本发明的优选实施方式的详细说明,本发明的上述以及其他优点将更加明显。
附图说明
为了进一步阐述本发明的以上和其他优点和特征,下面结合附图对本发明的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本发明的典型示例,而不应看作是对本发明的范围的限定。在附图中:
图1是示出一种典型的现有在线学习方法的示意图;
图2是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的方法的示意图;
图3是示出根据本发明的一种实施方式如何利用输入数据对分类器进行训练的示意图;
图4是示出根据本发明的优选实施方式如何选择精度最高的分类器的示意图;
图5是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的系统的示意图;
图6是示出根据本发明的另一种实施方式的对在时间上逐一到达的输入数据进行分类的系统的示意图;
图7是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的系统中的选择装置的示意图;
图8是示出可用于实施根据本发明的实施方式的方法和系统的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
首先参照图2,图2是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的方法1000的示意图。如图2所示,方法1000包括如下步骤:训练分类器(步骤1001),选择分类精度最高的分类器(步骤1002)以及对输入数据进行分类(步骤1003)。
根据方法1000,首先分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练(步骤1001)。其中,分类器的数量C是需要预先确定的参数,并且分类器可以是任何机器学习的分类器,例如支持向量机、决策树、K最近邻、神经网络等。更具体地,分类器可以为SVM分类器、随机树林分类器、决策树分类器、KNN分类器以及朴素贝叶斯分类器。本发明不以此为限,本领域的技术人员可以根据实际需要,选择适合的分类器。
此外,所述C个分类器可以是相同的分类器或不同的分类器,即可以只使用一种类型的分类器,也可以混合使用多种类型的分类器。
在优选实施方式中,在累积了预定数量的已获得其真实类别的近期输入数据后进行步骤1001。
在优选实施方式中,在步骤1001中用于对预定数量的一组分类器中的每个分类器进行训练的学习样本的数量Si通过如下公式计算:
Si=i*N
其中,i=1,……,C,C表示所述一组分类器中的分类器的数量,并且N表示用于对所述一组分类器中的第一个分类器进行训练的近期输入数据的数量。
在优选实施方式中,设定C个分类器中的第一个分类器使用N个近期输入数据训练,第二个分类器使用2N个近期输入数据训练,以此类推。C个分类器中,哪一个分类器作为第一个,哪一个作为第二个,对算法没有影响,可以随机决定。算法也不限于分别以N个、2N个、3N个这种等差数列递增的输入数据对各分类器进行分类,任意的递增方式都可以。
选取训练数据时,要从最近的已获得其真实类别的数据开始取。因此,在上述优选实施方式中,第一个分类器的训练数据是最近的N个数据,第二个分类器是最近的2N个数据,以此类推。以这种方式取得的训练数据能保证:无论概念漂移何时发生,总有一批训练数据最符合当前数据分布。使用这批数据所训练的分类器也最适应当前分布。即,这个分类器会在最近的一批数据上分类精度最高。因此,它的分类结果会被分类器融合方法选择作为融合后的结果。
参见图3,图3是示出根据本发明的一种实施方式如何利用输入数据对分类器进行训练的示意图。假设当前正在对第101个数据进行分类,而概念漂移发生在第50个数据处。以前面的优选实施方式为例,取N=10,则第1、5、10个分类器的训练数据如图3所示。
由于概念漂移发生在第50个数据处,第10个分类器的训练数据包含概念漂移前后的数据,所以其在当前数据分布上的分类精度应该较低。第5个分类器的训练数据包含全部概念漂移后的数据,所以其分类精度应该是最高的。第1个分类器的训练数据仅包含漂移后的数据,但其训练数据较少,分类精度应该低于第5个分类器。依据分类器融合算法,第5个分类器的分类结果应该作为融合后的结果。对分类结果的融合,将在后面的内容中详细描述。
接着,在完成步骤1001之后,基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器(步骤1002)。在优选实施方式中,基于预定数量的已获得其真实类别的近期输入数据计算所述一组分类器中的每个分类器的权重,其中,在时间上越近期的输入数据在分类器分类正确的情况下,对分类器的权重的贡献越大,并且选择权重最高的分类器作为对近期输入数据的分类精度最高的分类器。本领域的技术人员容易理解的是,可以根据实际应用设定用于计算分类器权重的近期输入数据的数量M。
参见图4,图4是示出根据本发明的优选实施方式如何选择精度最高的分类器的示意图。如图所示,步骤1002’可以包括如下步骤:利用预定数量的已知其真实类别的输入数据,计算每个分类器的权重(步骤1012)以及通过所计算的权重从分类器中选择权重最高的分类器(步骤1022)。
举例来说,若用于计算分类器权重的近期输入数据的数量M被设定为5,并且当前处理的数据为第105个数据,则利用此前已经获得真实类别的第100个至第104个数据计算各分类器的权重。
本领域的技术人员容易理解的是,在变化实施方式中,近期输入数据的真实类别可以是定时获得的,或者是分批获得的。在这种情况下,若在处理第105个数据时,尚未获知第104个数据的真实类别,则使用已获得其真实类别的此前的输入数据来计算权重,如可以利用第99个至第103个数据来计算各分类器的权重。以此类推,在此不多加赘述。
在进一步优选的实施方式中,在步骤1012中通过如下公式计算所述一组分类器中的每个分类器的权重Wi
其中,M表示预定的已获得其真实类别的近期输入数据的数量;
其中,k表示已获得其真实类别的近期输入数据中的第k个近期输入数据,k=1,……,M;
其中,rk表示第i个分类器对第k个近期输入数据的分类结果,lk表示第k个近期输入数据的真实类别;并且
其中,当第i个分类器对第k个近期输入数据的分类正确时,p(rk,lk)=1,否则,p(rk,lk)=0。
下面对如何计算分类器的权重进行详细说明。
在获得新数据后,各个分类器独立对新数据进行分类。因此,C个分类器会产生C个分类结果。算法依据每个分类器在最近的一批已获得其真实类别的数据上的分类结果和其真实类别,为每个分类器计算一个权重Wi。越新的数据对权重计算的影响越大,即在上述公式中的参数k针对越近期的数据其取值越小。换言之,最近期的数据,其对应的k值为1,倒数第二个最近期的数据,其对应的k值为2,倒数第三个最近期的数据,其对应的k值为3,以此类推。
在获得每个分类器的权重后,找到权重最大的分类器,并以这个分类器的分类结果作为融合后的结果。
在优选实施方式中,假设正在处理数据D6,权重在最近5个数据上计算,即M值取为5。在数据D6之前,已经处理过数据D1-D5。在D1-D5中,D1是最旧的数据,其对应k值为5,D5是最新的数据,其对应k值为1。
如果一个分类器对数据D1-D5的分类结果和D1-D5的实际类别如下表1,并且表1对应的各数据的分类器分类结果rk和真实类别lk的值如表2所示。
数据 D1 D2 D3 D4 D5
分类结果 1 2 3 4 5
真实类别 0 2 3 6 5
表1
r5 r4 r3 r2 r1
1 2 3 4 5
l5 l4 l3 l2 l1
0 2 3 6 5
表2
那么这个分类器在处理D6时,基于数据D1-D5计算权重的公式如下所示:
从而,如上所述计算每个分类器的权重,来从分类器中选择分类精度最高的分类器。
然后,方法1000进行到最后一步,利用所选择的分类器对当前的输入数据进行分类(步骤1003)。
在其他实施方式中,方法1000还可以包括利用存储器存储近期输入数据及其真实类别。并且,在优选实施方式中,通过如下公式计算所述存储器存储的近期输入数据的最大数量Q:
Q=C*N
在如上所述的各种方法中,输入数据的真实类别可以由用户反馈得到或者自动获得。
下面参照图5,图5是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的系统2000的示意图。如图所示,系统2000包括训练装置2001、选择装置2002以及分类装置2003。
其中,训练装置2001分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练。选择装置2002基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器。分类装置2003利用所选择的分类器对当前的输入数据进行分类。
在优选实施方式中,在累积了预定数量的已获得其真实类别的近期输入数据后利用所述训练装置对所述一组分类器进行训练。
在优选实施方式中,所述真实类别由用户反馈得到或者自动获得。
在优选实施方式中,所述一组分类器中的分类器可以为相同的分类器或为不同的分类器。
在优选实施方式中,其中所述一组分类器中的分类器可以选自以下分类器中的一个或更多个:SVM分类器、随机树林分类器、决策树分类器、KNN分类器以及朴素贝叶斯分类器。本发明不以此为限,本领域的技术人员可以根据实际需要,选择适合的分类器。
在优选实施方式中,选择装置2002基于预定数量的已获得其真实类别的近期输入数据计算所述一组分类器中的每个分类器的权重,并且根据权重来选择分类器中分类精度最高的分类器。具体地,选择装置2002选择权重最高的分类器作为对近期输入数据的分类精度最高的分类器,其中,在时间上越近期的输入数据在分类器分类正确的情况下,对分类器的权重的贡献越大。参见图6,图6是示出根据本发明的一种实施方式的对在时间上逐一到达的输入数据进行分类的系统中的选择装置的示意图。在如图6所示的实施方式中,系统2000中的选择装置2002”可以包括计算单元2012和选择单元2022。
其中,计算单元2012利用预定数量的已知其真实类别的输入数据,计算每个分类器的权重。在优选实施方式中,可以利用前面结合方法实施方式描述的公式计算每个分类器的权重,在此不再赘述。并且,选择单元2022用于通过所计算的权重从分类器中选择权重最高的分类器,作为分类精度最高的分类器。
在优选实施方式中,用于对预定数量的一组分类器中的每个分类器进行训练的学习样本的数量可以利用前面结合方法实施方式描述的公式计算,在此不再赘述。
现在参照图7,图7是示出根据本发明的另一种实施方式的对在时间上逐一到达的输入数据进行分类的系统2000’的示意图。在如图7所示的变化实施方式中,系统2000’包括训练装置2001’、选择装置2002’、分类装置2003’。与系统2000相比,系统2000’的区别在于,还包括存储器2004。存储器2004用于存储近期输入数据及其真实类别。在优选实施方式中,可以利用前面结合方法实施方式描述的公式计算存储器2004存储的近期输入数据的最大数量Q,在此不再赘述。
接下来参见图8,图8示出了可用于实施根据本发明的实施方式的方法和系统的计算机的示意性框图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中,还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 802、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提供一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行根据本发明的原理和构思实现的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、闪存、磁光盘、存储卡、存储棒等。
典型应用场景
本发明主要应用于流数据挖掘领域。例如,垃圾邮件分类,股票涨跌预测,商品推荐等。在这些应用中,系统要一边进行预测(分类,推荐等等),一边用新得到的数据进行更新。
在垃圾邮件分类任务中,真实类别来自用户“标记垃圾邮件”或“标记非垃圾邮件”。需要注意的是,这种标记的数据只占全部邮件的一小部分。每周(或每几周)收集一次当周(或这几周)的标记数据,作为训练数据保存起来。更新分类器的频率可以是每周、每月等等。每次更新至少要利用最近数个月的数据。融合分类结果时,权重计算至少使用近一周的数据。由于权重计算量较大,每次分类重新计算对效率有较大影响,可每天或每几天计算一次权重。
股票涨跌预测系统的实现与垃圾邮件分类基本相同。不同之处在于,每次涨跌预测后很快就能获得实际的涨跌信息。因此,涨跌预测的正确与否可以自动获得,每次预测的数据都会被作为训练数据保存起来。
在商品推荐中,不使用多个分类器,而是使用多个协同过滤模型。协同过滤模型的训练不同于分类器,只需要商品的浏览数据或订单数据,不需要推荐正确与否的数据。因此,可以在不同时间的浏览、订单数据上直接训练多个协同过滤模型。在融合推荐结果时,仍需要推荐正确与否的历史数据来计算权重。推荐正确与否,可通过用户实际选择的商品、链接等来计算。
还需要指出的是,在本发明的装置、方法和系统中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应该视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按时间顺序执行。某些步骤可以并行或彼此独立地执行。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
附记
附记1.一种对在时间上逐一到达的输入数据进行分类的方法,包括:
a)分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;
b)基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及
c)利用所选择的分类器对当前的输入数据进行分类。
附记2.如附记1所述的方法,其中所述步骤b)进一步包括:
基于预定数量的已获得其真实类别的近期输入数据计算所述一组分类器中的每个分类器的权重,其中,在时间上越近期的输入数据在分类器分类正确的情况下,对分类器的权重的贡献越大;以及
选择权重最高的分类器作为对近期输入数据的分类精度最高的分类器。
附记3.如附记2所述的方法,其中通过如下公式计算所述一组分类器中的每个分类器的权重Wi
其中,M表示预定的已获得其真实类别的近期输入数据的数量;
其中,k表示已获得其真实类别的近期输入数据中的第k个近期输入数据,k=1,……,M;
其中,rk表示第k个近期输入数据的真实类别,lk表示第i个分类器对第k个近期输入数据的分类结果;并且
其中,当第i个分类器对第k个近期输入数据的分类正确时,p(rk,lk)=1,否则,p(rk,lk)=0。
附记4.如附记1所述的方法,其中步骤a)中用于对预定数量的一组分类器中的每个分类器进行训练的学习样本的数量Si通过如下公式计算:
Si=i*N
其中,i=1,……,C,C表示所述一组分类器中的分类器的数量,并且N表示用于对所述一组分类器中的第一个分类器进行训练的近期输入数据的数量。
附记5.如附记3所述的方法,还包括利用存储器存储近期输入数据及其真实类别。
附记6.如附记4所述的方法,其中通过如下公式计算所述存储器存储的近期输入数据的最大数量Q:
Q=C*N。
附记7.如附记1-6中的任一项所述的方法,其中在累积了预定数量的已获得其真实类别的近期输入数据后进行步骤a)。
附记8.如附记1-6中的任一项所述的方法,其中步骤a)中的所述真实类别由用户反馈得到或者自动获得。
附记9.如附记1-6中的任一项所述的方法,其中所述一组分类器中的分类器为相同的分类器或为不同的分类器。
附记10.如附记1-6中的任一项所述的方法,其中所述一组分类器中的分类器选自以下分类器中的一个或更多个:SVM分类器、随机树林分类器、决策树分类器、KNN分类器以及朴素贝叶斯分类器。
附记11.一种对在时间上逐一到达的输入数据进行分类的系统,包括:
训练装置,所述训练装置分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;
选择装置,所述选择装置基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及
分类装置,所述分类装置利用所选择的分类器对当前的输入数据进行分类。
附记12.如附记11所述的系统,其中所述选择装置基于预定数量的已获得其真实类别的近期输入数据计算所述一组分类器中的每个分类器的权重,其中,在时间上越近期的输入数据在分类器分类正确的情况下,对分类器的权重的贡献越大,并且所述选择装置选择权重最高的分类器作为对近期输入数据的分类精度最高的分类器。
附记13.如附记12所述的系统,其中所述选择装置通过如下公式计算所述一组分类器中的每个分类器的权重Wi
其中,N1表示预定的已获得其真实类别的近期输入数据的数量;
其中,k表示已获得其真实类别的近期输入数据中的第k个近期输入数据,k=1,……,M;
其中,rk表示第k个近期输入数据的真实类别,lk表示第i个分类器对第k个近期输入数据的分类结果;并且
其中,当第i个分类器对第k个近期输入数据的分类正确时,p(rk,lk)=1,否则,p(rk,lk)=0。
附记14.如附记11所述的系统,其中用于对预定数量的一组分类器中的每个分类器进行训练的学习样本的数量Si通过如下公式计算:
Si=i*N
其中,i=1,……,C,C表示所述一组分类器中的分类器的数量,并且N表示用于对所述一组分类器中的第一个分类器进行训练的近期输入数据的数量。
附记15.如附记13所述的系统,还包括存储器,用于存储近期输入数据及其真实类别。
附记16.如附记14所述的系统,其中通过如下公式计算所述存储器存储的近期输入数据的最大数量Q:
Q=C*N。
附记17.如附记11-16中的任一项所述的系统,其中在累积了预定数量的已获得其真实类别的近期输入数据后利用所述训练装置对所述一组分类器进行训练。
附记18.如附记11-16中的任一项所述的系统,其中所述真实类别由用户反馈得到或者自动获得。
附记19.如附记11-16中的任一项所述的系统,其中所述一组分类器中的分类器为相同的分类器或为不同的分类器。
附记20.如附记11-16中的任一项所述的系统,其中所述一组分类器中的分类器选自以下分类器中的一个或更多个:SVM分类器、随机树林分类器、决策树分类器、KNN分类器以及朴素贝叶斯分类器。

Claims (10)

1.一种对在时间上逐一到达的输入数据进行分类的方法,包括:
a)分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;
b)基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及
c)利用所选择的分类器对当前的输入数据进行分类。
2.如权利要求1所述的方法,其中所述步骤b)进一步包括:
基于预定数量的已获得其真实类别的近期输入数据计算所述一组分类器中的每个分类器的权重,其中,在时间上越近期的输入数据在分类器分类正确的情况下,对分类器的权重的贡献越大;以及
选择权重最高的分类器作为对近期输入数据的分类精度最高的分类器。
3.如权利要求2所述的方法,其中通过如下公式计算所述一组分类器中的每个分类器的权重Wi
<mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,M表示预定数量的已获得其真实类别的近期输入数据的数量;
其中,k表示已获得其真实类别的近期输入数据中的第k个近期输入数据,k=1,……,M;
其中,rk表示第i个分类器对第k个近期输入数据的分类结果,lk表示第k个近期输入数据的真实类别;并且
其中,当第i个分类器对第k个近期输入数据的分类正确时,p(rk,lk)=1,否则,p(rk,lk)=0。
4.如权利要求1所述的方法,其中步骤a)中用于对预定数量的一组分类器中的每个分类器进行训练的学习样本的数量Si通过如下公式计算:
Si=i*N
其中,i=1,……,C,C表示所述一组分类器中的分类器的数量,并且N表示用于对所述一组分类器中的第一个分类器进行训练的近期输入数据的数量。
5.如权利要求1-4中的任一项所述的方法,其中在累积了预定数量的已获得其真实类别的近期输入数据后进行步骤a)。
6.如权利要求1-4中的任一项所述的方法,其中步骤a)中的所述真实类别由用户反馈得到或者自动获得。
7.如权利要求1-4中的任一项所述的方法,其中所述一组分类器中的分类器为相同的分类器。
8.如权利要求1-4中的任一项所述的方法,其中所述一组分类器中的分类器为不同的分类器。
9.如权利要求1-4中的任一项所述的方法,其中所述一组分类器中的分类器选自以下分类器中的一个或更多个:SVM分类器、随机树林分类器、决策树分类器、KNN分类器以及朴素贝叶斯分类器。
10.一种对在时间上逐一到达的输入数据进行分类的系统,包括:
训练装置,所述训练装置分别利用在时间上从新到旧数量递增的已获得其真实类别的近期输入数据作为学习样本对预定数量的一组分类器进行训练;
选择装置,所述选择装置基于所述一组分类器的近期分类结果,从所述一组分类器中选择对近期输入数据的分类精度最高的分类器;以及
分类装置,所述分类装置利用所选择的分类器对当前的输入数据进行分类。
CN201610084957.8A 2016-02-14 2016-02-14 对在时间上逐一到达的输入数据进行分类的方法和系统 Pending CN107085572A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610084957.8A CN107085572A (zh) 2016-02-14 2016-02-14 对在时间上逐一到达的输入数据进行分类的方法和系统
US15/406,916 US20170236070A1 (en) 2016-02-14 2017-01-16 Method and system for classifying input data arrived one by one in time

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610084957.8A CN107085572A (zh) 2016-02-14 2016-02-14 对在时间上逐一到达的输入数据进行分类的方法和系统

Publications (1)

Publication Number Publication Date
CN107085572A true CN107085572A (zh) 2017-08-22

Family

ID=59559699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610084957.8A Pending CN107085572A (zh) 2016-02-14 2016-02-14 对在时间上逐一到达的输入数据进行分类的方法和系统

Country Status (2)

Country Link
US (1) US20170236070A1 (zh)
CN (1) CN107085572A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704084A (zh) * 2017-10-17 2018-02-16 郭明昭 手写输入识别方法和用户设备
CN108009686A (zh) * 2017-12-13 2018-05-08 阳光电源股份有限公司 一种光伏发电功率预测方法、装置及系统
WO2021253226A1 (en) * 2020-06-16 2021-12-23 Huawei Technologies Co., Ltd. Learning proxy mixtures for few-shot classification

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080608B2 (en) * 2016-05-06 2021-08-03 Workfusion, Inc. Agent aptitude prediction
EP3367261A1 (de) * 2017-02-28 2018-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum klassifizieren von information und klassifizierungsprozessor
US10958609B2 (en) * 2017-12-08 2021-03-23 Verizon Media Inc. Controlling a graphical user interface based upon a prediction of a messaging action of a messaging account
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
JP7032366B2 (ja) * 2019-10-09 2022-03-08 株式会社日立製作所 運用支援システム及び方法
US11687812B2 (en) * 2020-08-18 2023-06-27 Accenture Global Solutions Limited Autoclassification of products using artificial intelligence

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704084A (zh) * 2017-10-17 2018-02-16 郭明昭 手写输入识别方法和用户设备
CN108009686A (zh) * 2017-12-13 2018-05-08 阳光电源股份有限公司 一种光伏发电功率预测方法、装置及系统
CN108009686B (zh) * 2017-12-13 2021-12-10 阳光电源股份有限公司 一种光伏发电功率预测方法、装置及系统
WO2021253226A1 (en) * 2020-06-16 2021-12-23 Huawei Technologies Co., Ltd. Learning proxy mixtures for few-shot classification

Also Published As

Publication number Publication date
US20170236070A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
CN107085572A (zh) 对在时间上逐一到达的输入数据进行分类的方法和系统
CN108960719B (zh) 选品方法和装置以及计算机可读存储介质
Radhi et al. Optimal configuration of remanufacturing supply network with return quality decision
US7996331B1 (en) Computer-implemented systems and methods for performing pricing analysis
US11783195B2 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
CN109102332A (zh) 一种数据处理的方法、装置和电子设备
CN106228183A (zh) 一种半监督学习分类方法与装置
CN105956083A (zh) 应用软件分类系统、应用软件分类方法及服务器
CN109325639A (zh) 一种用于信用预测评估的信用评分卡自动化分箱方法
CN108846695A (zh) 终端更换周期的预测方法及装置
US9582758B2 (en) Data classification method, storage medium, and classification device
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN108428188A (zh) 理赔风险预测方法、系统、设备及存储介质
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN106294882A (zh) 数据挖掘方法以及装置
CN107545038A (zh) 一种文本分类方法与设备
CN108090503A (zh) 多分类器的在线调整方法、装置、存储介质及电子设备
Navarra et al. Stochastic strategic planning of open-pit mines with ore selectivity recourse
CN110019563B (zh) 一种基于多维数据的肖像建模方法和装置
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN106682871A (zh) 确定简历级别的方法及装置
CN104572613A (zh) 数据处理装置、数据处理方法和程序
CN110807159B (zh) 数据标记方法、装置、存储介质及电子设备
CN107316081A (zh) 一种基于极限学习机的不确定数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170822

WD01 Invention patent application deemed withdrawn after publication