CN103426007B - 一种机器学习分类方法及装置 - Google Patents

一种机器学习分类方法及装置 Download PDF

Info

Publication number
CN103426007B
CN103426007B CN201310384790.3A CN201310384790A CN103426007B CN 103426007 B CN103426007 B CN 103426007B CN 201310384790 A CN201310384790 A CN 201310384790A CN 103426007 B CN103426007 B CN 103426007B
Authority
CN
China
Prior art keywords
classification
training
sorter model
task
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310384790.3A
Other languages
English (en)
Other versions
CN103426007A (zh
Inventor
崔庆君
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's data management (Beijing) Co.,Ltd.
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN201310384790.3A priority Critical patent/CN103426007B/zh
Publication of CN103426007A publication Critical patent/CN103426007A/zh
Application granted granted Critical
Publication of CN103426007B publication Critical patent/CN103426007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种机器学习分类方法及装置,所述方法包括:利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;利用所述多级分类结构逐级判断所述待分类数据的类别。如此即可简单方便的构建一个多级分类结构,且过程中无任何代码开发。

Description

一种机器学习分类方法及装置
技术领域
本发明涉及网络技术领域,具体涉及一种机器学习分类方法及装置。
背景技术
机器学习分类是一门多领域交叉学科,可应用在文本挖掘、机器翻译、人工智能和搜索引擎等领域,目前使用较为广泛的分类器有Libsvm、决策树C5.0、朴素贝叶斯等。
目前,各分类器都是独立使用的,不具备与其它分类器直接兼容组合使用的条件,例如,若利用C5.0和Libsvm构建两级分类器则需要额外实现拼接,如此,就使得现有的机器学习分类的形式较为单一,缺少将各分类器串联、对比和综合使用的复杂形式,致使分类效果受到制约。
另外,不同分类算法对数据的理解方式有所不同,开发者的设计倾向以及接口封装也有所不同,使得绝大多数的分类器具有不同的数据输入输出格式,兼容性很差。若要实现分类器的相互兼容,还要两两制作格式转换器,切换成本较高。
发明内容
本发明实施例的机器学习分类方法及装置,实现了简单方便的构建多级分类结构的目的。
为此,本发明实施例提供如下技术方案:
一种机器学习分类方法,所述方法包括:
利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;
接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;
根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;
利用所述多级分类结构逐级判断所述待分类数据的类别。
优选的,所述利用训练配置文件和训练样本进行训练,得到至少一个分类器模型,包括:
分析所述训练配置文件,为每个分类任务建立一个训练进程;
依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
优选的,所述训练配置文件还包括属性选择指示,则
所述依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,包括:
从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性,并对所述至少一个优选属性进行训练。
优选的,所述根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构,包括:
按照所述分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,形成所述多级分类结构。
优选的,如果一个节点映射至少两个分类器模型,所述方法还包括:
设置每个分类器模型的权重,并对所述至少两个分类器模型的输出结果进行加权处理,作为该节点的判断结果。
优选的,所述分类配置文件还包括至少一个规则分类器,则
所述根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构,包括:
根据所述分类拓扑结构、至少一个分类器模型、和至少一个规则分类器建立所述多级分类结构。
一种机器学习分类装置,所述装置包括:
模型训练单元,用于利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;
接收单元,用于接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;
构建单元,用于根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;
判断单元,用于利用所述多级分类结构逐级判断所述待分类数据的类别。
优选的,所述模型训练单元包括:
进程建立单元,用于分析所述训练配置文件,为每个分类任务建立一个训练进程;
模型训练子单元,用于依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
优选的,所述训练配置文件还包括属性选择指示,则
所述模型训练子单元,具体用于从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性,并依据每个分类任务的任务参数分别对所述至少一个优选属性进行训练,获得所述分类任务对应的分类器模型。
优选的,所述构建单元,具体用于按照所述分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,形成所述多级分类结构。
优选的,如果一个节点映射至少两个分类器模型,所述构建单元还包括:
权重设置单元,用于设置每个分类器模型的权重,并对所述至少两个分类器模型的输出结果进行加权处理,作为该节点的判断结果。
优选的,所述分类配置文件还包括至少一个规则分类器,则
所述构建单元,具体用于根据所述分类拓扑结构、至少一个分类器模型、和至少一个规则分类器建立所述多级分类结构。
本发明实施的机器学习分类方法及装置,首先利用训练配置文件与训练样本获得至少一个分类器模型,其次再依据用户设置的分类配置文件建立一个多级分类结构,多级分类结构中包含至少一个上述预先训练好的分类器模型,如此即可简单方便的构建一个多级分类结构,且过程中无任何代码开发。另外,本发明还通过定义通用数据格式的方式,容易的实现了不同类型的分类器的兼容。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1是本发明机器学习分类方法的流程图;
图2是本发明中类属信息的示意图;
图3是本发明中样本格式的示意图;
图4是本发明中二级分类结构的示意图;
图5是本发明中训练获得分类器模型实施例1的流程图;
图6是本发明中训练获得分类器模型实施例2的流程图;
图7是本发明机器学习分类装置的示意图;
图8是本发明中模型训练单元的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
参见图1,示出了本发明机器学习分类方法的流程图,可包括:
步骤101,利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性。
在实现自动分类之前,要先根据需要进行学习训练,在训练过程中,输入为用于表示用户训练需求的训练配置文件、作为训练对象的训练样本,输出为分类器模型。
本发明中的训练配置文件可采用格式精简、通用的JSON(JavaScript ObjectNotation,是一种轻量级的数据交换格式)格式实现,其中,训练配置文件可包含以下信息:
1.分类任务
即,用户想要训练获得哪种类型的分类器模型,如Libsvm分类器模型、决策树C5.0分类器模型、朴素贝叶斯分类器模型等等。
2.各分类任务对应的任务参数
任务参数可具体体现为分类器的通用参数和个性化参数两种,二者可分离保存。其中,通用参数可包含:开关字段、独享训练数据字段、模型类型、模型存储路径等;个性化参数可按需求进行扩展,如朴素贝叶斯分类器中的类条件概率估计方法、或者Libsvm分类器中选择的核函数等等。
3.数据格式定义
现有技术中,不同分类器具有不同的数据格式,若要相互兼容,需两两进行格式切换,成本较高,本发明为了构建包含不同分类器的多级分类结构,显然需要解决各分类器间的兼容性问题,为此,本发明定义了一种通用的数据格式,如此,只要实现各分类器的数据格式与通用数据格式间的简单转换即可实现各分类器间的兼容。
作为本发明数据格式定义的一种体现形式,其可被分为两部分:
(1)类属信息定义,也可称为分类元信息,包含类别定义和样本属性定义。具体可参见图2所示示例。
其中,第一行定义了分类体系中的类别名称。图2所示示例为一个甲状腺功能减退者预测的二级分类任务,第一级分类用以区分病例是否为“甲状腺功能减退者”,即病例为hypothyroid(甲状腺功能减退者)还是negative(非甲状腺功能减退者),第二级分类用以对甲状腺功能减退者进一步分类为primaryhypothyroid、compensated hypothyroid、secondary hypothyroid中的哪种。
需要说明的是,在类属信息定义时我们可以不区分类别层级,也就是说,在分类器训练中各分类器均为独立训练,组建多级分类结构主要是在分类过程中通过分类配置文件设计而成,对此将在下文做介绍。
从第二行开始,每行均是在描述一个属性信息,属性信息可包含属性名称和属性类型,二者可通过冒号隔开。属性类型可分为连续属性和离散属性两种。如,age属性为连续属性,可用continuous关键词标识;而sex属性为离散属性,可通过枚举的方式列出枚举值,如M或F,需要说明的是,此处定义的枚举值应与训练样本中所使用的相一致,否则会影响训练出的分类器模型的分类准确性。
另外,需要说明的是,类属定义中还隐含了一个信息,即属性的编号。编号从1开始,默认第一定义的属性为1编号,依次向下递增。考虑到使用方便和节省空间,在训练样本的描述中使用属性编号而非属性名称,毕竟分类器不关心类属名称,仅关心类属编号和类型。
(2)样本格式,在类属信息定义基础上,描述样本内容的数据格式,每条样本包含类别和各属性取值。具体可参见图3所示示例。
为方便显示,仅列出了训练样本的前14个属性值。如图3所示,每行为一个样本,列间使用制表符分割,第一列为样本类别,后续的每一列表示一个样本属性,每一个属性由属性编号、冒号和属性值三部分组成。属性顺序无要求。若属性缺失,可使用问号代替。
本步骤即是自动分类之前的学习训练过程,此处暂不详述分类器模型的形成过程。
步骤102,接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性。
在步骤101完成分类器模型的学习训练过程之后,即可在需要时利用训练好的分类器模型建立多级分类结构,进行分类识别。在分类过程中,输入为用于指示建立多级分类结构的分类配置文件、作为分类对象的待分类数据,输出为分类结果。
本发明中的分类配置文件也可采用格式精简、通用的JSON格式实现,其中,分类配置文件可包含以下信息:
1.预先训练好的至少一个分类器模型
即,用户想要利用哪些类型的分类器模型处理待分类数据,如Libsvm分类器模型、决策树C5.0分类器模型、朴素贝叶斯分类器模型等等。
2.数据格式定义
上文介绍中,在训练过程中为了简单方便的实现各分类器间的兼容,本发明定义了一种通用的数据格式,且训练过程中使用的训练样本亦是符合本发明的数据格式定义的,因此,若要使用上述训练好的分类器模型获得准确的分类结果,那么在分类过程中,也需要定义本发明的通用数据格式,且待分类数据包含的属性也要符合本发明的数据格式定义。
此处不再对本发明定义的通用数据格式进行赘述。
3.分类拓扑结构
分类配置文件由用户根据当前的使用需要设置,可据其建立满足用户需求的多级分类结构,且结构与各节点分类器松耦合。相对现有技术在每次应用开发时独立搭建形成多级分类结构的方式,本发明方案无需每次重新编程搭建,既能节省研发和维护成本,又可尽量减少框架在使用过程中的编码开销。
分类拓扑结构主要体现以下两方面信息:
(1)层级关系。上下级之间使用级别编号连接,每个分类节点都是拓扑结构中的一个节点。
(2)每层级的各个节点映射的分类器模型。包括节点在分类体系中的级别、该节点使用的分类器、该节点接收的类别、该节点输出的类别。
如此,就可在无任何代码开发的情况下,只由用户根据需要设置分类配置文件的方式,就可将各个节点串联起来形成一个复杂的多级分类结构。
步骤103,根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构。
步骤104,利用所述多级分类结构逐级判断所述待分类数据的类别。
结合上文中的甲状腺功能减退者预测的二级分类任务,分类配置文件中即可做如下指示:第一级分类Level0采用预先训练好的Libsvm分类器模型,判断病例是否为“甲状腺功能减退者”,输出类别为:hypothyroid、negative;第二级分类Level1采用预先训练好的朴素贝叶斯分类器模型,为甲状腺功能减退者进一步分类,输入类别为hypothyroid,输出类别为:primary hypothyroid、compensated hypothyroid、secondary hypothyroid。接收到分类配置文件之后,即可在分类拓扑结构的指示下,为各层级节点映射上指定的分类器模型,形成图4所示的二级分类结构,然后就可用其逐层级的判断识别待分类数据的类别并输出。
逐级判断识别在本示例中可体现为,先利用Libsvm分类器模型对待分类数据包含的属性进行判断,确定其为甲状腺功能减退者的概率,并输出判决类别,如为negative则不再进行第二层级的判断,直接将非甲状腺功能减退者作为该待分类数据的类别输出。若Libsvm分类器模型输出为hypothyroid,则继续利用贝叶斯分类器模型对待分类数据包含的属性进行判断,确定其为哪种类型的甲状腺功能衰退,并将判决结果作为该待分类数据的类别输出。
下面对本发明步骤101中训练获得分类器模型的过程进行解释说明,具体可参见图5所示实施例1的流程图,可包括:
步骤201,分析所述训练配置文件,为每个分类任务建立一个训练进程;
步骤202,依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
接收到用户设置的训练配置文件,并从中解析出训练需求,若用户本次训练只需要获得一个分类器模型,即配置文件中包含一个分类任务,则只建立一个训练进程,按照指定的任务参数完成训练,并将获得的分类器模型保存至指定路径,方便后续分类过程中读取。若用户本次要训练至少两个分类器模型,即配置文件中包含至少两个分类任务,则要建立至少两个训练进程,也就是说,一个分类任务对应一个训练进程,各分类器模型之间是相互独立的完成训练过程的。
参见图6,示出了本发明训练获得分类器模型实施例2的流程图,可包括:
步骤301,分析所述训练配置文件,为每个分类任务建立一个训练进程;
步骤302,从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性;
步骤303,依据每个分类任务的任务参数分别对所述至少一个优选属性进行训练,获得所述分类任务对应的分类器模型。
为了构建效果更好的模型,提高本发明分类器模型的分类识别准确性,用户设置的训练配置文件中还可包括属性选择指示,用于控制训练前自动进行属性选择,从中找到更具代表性的优选属性进行学习训练。
作为选择优选属性的实现方式,可采用卡方检验法、信息增益法、类间最大距离法等,本发明对此可不做限定。
另外,上文在介绍步骤103建立多级分类结构时提到,要按照分类拓扑结构的指示,为各层级的节点映射至少一个分类器模型,也就是说,用户可以在拓扑节点上指定单一的分类器模型,也可以指定至少两个分类器模型,并使这至少两个分类器模型通过线性组合的方式构成一个组合分类器,达到更好的分类效果。
对应这种一个节点映射至少两个分类器模型的情况,在建立多级分类结构时,除了要将这至少两个分类器模型映射到节点上之外,还要为每个分类器模型设置一个权重,形成组合分类器。对应地,每个分类器模型的输出结果进行加权处理之后即为组合分类器的输出结果。
如一个级别为Level2的节点,映射了Libsvm和贝叶斯两个分类器模型,且二者的权重分别为0.8、0.2,若这个节点的输出类别有3种,那么最终的输出结果就受两个分类器模型输出结果的影响。将二者的输出加权处理后,取其中最大的概率对应的类别作为该节点的输出类别。当然,一个节点除了可映射至少两个不同类型、不同侧重点的分类器模型之外,还可映射至少两个相同类型、不同侧重点的分类器模型,如两个Libsvm分类器模型,均可实现分类器间的互补,保证召回率与准确率相平衡。
此外,作为本发明的一种优选方案,分类配置文件中也可包含属性选择指示,用户控制分类前自动进行属性选择,从中找到更具代表性的优选属性进行分类。也就是说,在利用多级分类结果对待分类数据进行类别识别时,可先从待分类数据包含的至少一个属性中选择出至少一个优选属性,并利用这至少一个优选属性作为输入,由分类器模型判断输出类别。其实现过程与实现方式与上文图6处所做介绍相类似,此处不再赘述。
本发明除了可利用训练好的分类器模型组建多级分类结构并进行类别识别之外,还可兼容利用规则分类器。对应于此,建立多级分类结构的过程为:按照分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,或者为节点映射指定的一个规则分类器,形成多级分类结构。即,多层分类结构中的每个节点可以是系统默认或用户定义的规则分类器,或者,也可以是内置支持的预先训练好的分类器模型。
下面对本发明规则分类器的实现过程进行解释说明。
首先,规则分类器的工作原理可理解为:待分类数据的某个属性与设定的类别规则匹配后会得到一个的分值,综合待分类数据的所有属性得分后得到的即是待分类数据在各个输出类别的得分,可将其中得分最高的类别作为输出类别。
其次,在将规则分类器映射到多级分类结构的节点上时,我们设计了抽象规则分类器接口,用户通过指定接口的方式即可将规则分类器无缝嵌入到多级分类结构中。用户继承分类器基类实现自有的规则分类器,增加注册宏,便可通过c++类注册器将分类器注册到多级分类结构中,因此,用户使用规则分类器只需要在配置文件中指明类名称即可。
相应地,本发明还提供一种机器学习分类装置,具体可参见图7所示示意图,所述装置可包括:
模型训练单元401,用于利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;
接收单元402,用于接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;
构建单元403,用于根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;
判断单元404,用于利用所述多级分类结构逐级判断所述待分类数据的类别。
参见图8,示出了本发明模型训练单元的构成示意图,可包括:
进程建立单元501,用于分析所述训练配置文件,为每个分类任务建立一个训练进程;
模型训练子单元502,用于依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
优选的,如果所述训练配置文件还包括属性选择指示,则
所述模型训练子单元,具体用于从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性,并依据每个分类任务的任务参数分别对所述至少一个优选属性进行训练,获得所述分类任务对应的分类器模型。
作为本发明构建单元的一种实现,其可体现为:
所述构建单元,具体用于按照所述分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,形成所述多级分类结构。
当一个节点上映射至少两个分类器模型时,所述构建单元还包括:
权重设置单元,用于设置每个分类器模型的权重,并对所述至少两个分类器模型的输出结果进行加权处理,作为该节点的判断结果。
优选的,所述分类配置文件还包括至少一个规则分类器,则
所述构建单元,具体用于根据所述分类拓扑结构、至少一个分类器模型、和至少一个规则分类器建立所述多级分类结构。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (12)

1.一种机器学习分类方法,其特征在于,所述方法包括:
利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;所述数据格式定义包括:类属信息定义,包含类别定义和样本属性定义;及样本格式,在类属信息定义基础上,描述样本内容的数据格式,每条样本包含类别和各属性取值;
接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;所述分类拓扑结构体现信息包括:层级关系和每层级的各个节点映射的分类器模型;
根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;
利用所述多级分类结构逐级判断所述待分类数据的类别。
2.根据权利要求1所述的方法,其特征在于,所述利用训练配置文件和训练样本进行训练,得到至少一个分类器模型,包括:
分析所述训练配置文件,为每个分类任务建立一个训练进程;
依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
3.根据权利要求2所述的方法,其特征在于,所述训练配置文件还包括属性选择指示,则
所述依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,包括:
从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性,并对所述至少一个优选属性进行训练。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构,包括:
按照所述分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,形成所述多级分类结构。
5.根据权利要求4所述的方法,其特征在于,如果一个节点映射至少两个分类器模型,所述方法还包括:
设置每个分类器模型的权重,并对所述至少两个分类器模型的输出结果进行加权处理,作为该节点的判断结果。
6.根据权利要求1所述的方法,其特征在于,所述分类配置文件还包括至少一个规则分类器,则
所述根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构,包括:
根据所述分类拓扑结构、至少一个分类器模型、和至少一个规则分类器建立所述多级分类结构。
7.一种机器学习分类装置,其特征在于,所述装置包括:
模型训练单元,用于利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;所述数据格式定义包括:类属信息定义,包含类别定义和样本属性定义;及样本格式,在类属信息定义基础上,描述样本内容的数据格式,每条样本包含类别和各属性取值;
接收单元,用于接收分类配置文件和待分类数据,所述分类配置文件包含分类拓扑结构、至少一个预先训练的分类器模型、所述数据格式定义,所述待分类数据包含至少一个符合所述数据格式定义的属性;所述分类拓扑结构体现信息包括:层级关系和每层级的各个节点映射的分类器模型;
构建单元,用于根据所述分类拓扑结构和所述至少一个分类器模型建立一个多级分类结构;
判断单元,用于利用所述多级分类结构逐级判断所述待分类数据的类别。
8.根据权利要求7所述的装置,其特征在于,所述模型训练单元包括:
进程建立单元,用于分析所述训练配置文件,为每个分类任务建立一个训练进程;
模型训练子单元,用于依据每个分类任务的任务参数分别对所述训练样本包含的至少一个预设属性进行训练,获得所述分类任务对应的分类器模型。
9.根据权利要求8所述的装置,其特征在于,所述训练配置文件还包括属性选择指示,则
所述模型训练子单元,具体用于从所述训练样本包含的至少一个预设属性中选择出至少一个优选属性,并依据每个分类任务的任务参数分别对所述至少一个优选属性进行训练,获得所述分类任务对应的分类器模型。
10.根据权利要求7所述的装置,其特征在于,
所述构建单元,具体用于按照所述分类拓扑结构的指示,为各层级节点映射指定的至少一个分类器模型,形成所述多级分类结构。
11.根据权利要求10所述的装置,其特征在于,如果一个节点映射至少两个分类器模型,所述构建单元还包括:
权重设置单元,用于设置每个分类器模型的权重,并对所述至少两个分类器模型的输出结果进行加权处理,作为该节点的判断结果。
12.根据权利要求7所述的装置,其特征在于,所述分类配置文件还包括至少一个规则分类器,则
所述构建单元,具体用于根据所述分类拓扑结构、至少一个分类器模型、和至少一个规则分类器建立所述多级分类结构。
CN201310384790.3A 2013-08-29 2013-08-29 一种机器学习分类方法及装置 Active CN103426007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310384790.3A CN103426007B (zh) 2013-08-29 2013-08-29 一种机器学习分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310384790.3A CN103426007B (zh) 2013-08-29 2013-08-29 一种机器学习分类方法及装置

Publications (2)

Publication Number Publication Date
CN103426007A CN103426007A (zh) 2013-12-04
CN103426007B true CN103426007B (zh) 2016-12-28

Family

ID=49650716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310384790.3A Active CN103426007B (zh) 2013-08-29 2013-08-29 一种机器学习分类方法及装置

Country Status (1)

Country Link
CN (1) CN103426007B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN104657422B (zh) * 2015-01-16 2018-05-15 北京邮电大学 一种基于分类决策树的内容发布智能分类方法
CN106067028A (zh) * 2015-04-19 2016-11-02 北京典赞科技有限公司 基于gpu的自动化机器学习的建模方法
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
EP3336634B1 (en) * 2016-12-14 2020-02-26 ABB Schweiz AG Computer system and method for monitoring the status of a technical system
CN106909654B (zh) * 2017-02-24 2020-07-21 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107291902B (zh) * 2017-06-23 2020-05-08 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN108334895B (zh) * 2017-12-29 2022-04-26 腾讯科技(深圳)有限公司 目标数据的分类方法、装置、存储介质及电子装置
CN108257675A (zh) * 2018-02-07 2018-07-06 平安科技(深圳)有限公司 慢阻肺发病风险预测方法、服务器及计算机可读存储介质
CN108845993B (zh) * 2018-06-06 2022-04-12 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
US11138473B1 (en) 2018-07-15 2021-10-05 University Of South Florida Systems and methods for expert-assisted classification
CN110909970A (zh) * 2018-09-17 2020-03-24 北京京东金融科技控股有限公司 信用评分方法和装置
CN109697292B (zh) * 2018-12-17 2023-04-21 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN109784387A (zh) * 2018-12-29 2019-05-21 天津南大通用数据技术股份有限公司 基于神经网络和贝叶斯模型的多层次递进分类方法及系统
CN110046256A (zh) * 2019-04-22 2019-07-23 成都四方伟业软件股份有限公司 案件判别结果的预测方法及装置
CN110175238B (zh) * 2019-05-31 2021-06-15 杭州网易再顾科技有限公司 舆情分类方法、介质、装置和计算设备
CN110309587B (zh) * 2019-06-28 2024-01-16 京东城市(北京)数字科技有限公司 决策模型构建方法、决策方法与决策模型
CN110619349A (zh) * 2019-08-12 2019-12-27 深圳市识农智能科技有限公司 植物图像分类方法及装置
CN113806371B (zh) * 2021-09-27 2024-01-19 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0823183B8 (pt) * 2008-10-31 2021-06-22 Fundacio Inst Guttmann método e sistema implementado por computador para otimizar previsões para intervenções personalizadas para um determinado usuário em processos cujo substrato é a plasticidade neuronal.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法

Also Published As

Publication number Publication date
CN103426007A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN103426007B (zh) 一种机器学习分类方法及装置
CN110168530B (zh) 电子设备和操作该电子设备的方法
US8868468B2 (en) Intelligent decision supporting system and method for making intelligent decisions and classifying text using classifiers trained to define different semantic standards
CN105069047B (zh) 一种地理信息的检索方法及装置
CN110413780A (zh) 文本情感分析方法、装置、存储介质及电子设备
CN105955981B (zh) 一种基于需求分类和主题分析的个性化旅行包推荐方法
CN110020185A (zh) 智能搜索方法、终端及服务器
EP3349152A1 (en) Classifying data
CN109344884A (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
WO2018081020A1 (en) Computerized domain expert
CN107851198A (zh) 媒体分类
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN110096519A (zh) 一种大数据分类规则的优化方法和装置
CN103778206A (zh) 一种网络服务资源的提供方法
CN110245227A (zh) 文本分类的融合分类器的训练方法及设备
CN104361015A (zh) 一种邮件分类识别方法
CN115100395A (zh) 一种融合poi预分类和图神经网络的城市街区功能分类方法
Sousa et al. Ensemble of decision trees with global constraints for ordinal classification
CN106775694B (zh) 一种软件配置代码制品的层次分类方法
US11960531B2 (en) Content analysis
CN112181814A (zh) 一种针对于缺陷报告的多标签标记方法
CN110083663A (zh) 一种数据展示的分类优化方法和装置
CN114547323A (zh) 一种二维重叠大样本数据源的细粒度知识图谱融合方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191226

Address after: 755000 block B, Zhongguancun Industrial Park, Shapotou District, Zhongwei City, Ningxia Hui Autonomous Region

Patentee after: People's data management (Zhongwei) Co., Ltd

Address before: 100020, Beijing, Chaoyang District, East Third Ring Road, No. 1 global financial center, West Tower, 16 floor

Patentee before: People Search Network AG

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100026 room 370, 3 / F, building 15, 2 Jintai West Road, Chaoyang District, Beijing

Patentee after: People's data management (Beijing) Co.,Ltd.

Address before: 755000 block B, Zhongguancun Industrial Park, Shapotou District, Zhongwei City, Ningxia Hui Autonomous Region

Patentee before: People's data management (Zhongwei) Co.,Ltd.