CN104978328A

CN104978328A - 一种获取层级分类器以及文本分类的方法及装置

Info

Publication number: CN104978328A
Application number: CN201410134704.8A
Authority: CN
Inventors: 母亦翔
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-04-03
Filing date: 2014-04-03
Publication date: 2015-10-14

Abstract

本发明涉及一种获取层级分类器以及进行文本分类的方法及装置。该方法包括：建立层级分类器的层级类别结构，层级类别结构包含多层，每层包含一个或多个类别节点，层级类别结构的每个分支结束的最末一个类别节点定义为叶子节点，其他类别节点定义为树干节点；依据层级类别结构对训练样本标注，获取各树干节点的分类器模型的标注数据；提取训练样本的特征信息，特征信息包含至少一个特征项；在各树干节点，通过分类器训练器利用相应树干节点的标注数据与训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并与各树干节点相应的分类器模型形成具有层级类别结构的层级分类器。通过该方案能够生成多层级的分类器并快速有效地划分文本类别。

Description

一种获取层级分类器以及文本分类的方法及装置

技术领域

本发明涉及计算机信息领域，尤其涉及一种获取层级分类器以及进行文本分类的方法及装置。

背景技术

随着互联网在全球范围内的快速发展，人们面临的信息呈指数增加。面对纷繁芜杂的信息，如何能够快速、准确全面获取到所需要的信息已经成为人们急切要解决的问题。

目前，针对众多纷繁的信息主要是以通过分类器来实现数据分类，以用在用户检索或搜索数据时可以快速获取到所需要的数据信息。所谓分类器（Classifier），是可以将获取到的数据分放到预设的各类别中。而现有技术中，对海量数据处理的方式中，一种方式是，利用词频匹配技术建立分类器。另一种方式是，采用机器学习的方式建立分类器。基于这两种方式来实现海量数据的检索、插入、索引、过滤等处理。

例如，在广告检索系统中，利用词频匹配建立分类器的方式实现检索功能。其主要依靠广告商在注册的时候所提供的广告所属行业、标识、关键词等相关信息，并将这些广告信息划归到所确定的该广告所属类别标签下。进而通过简单的词频统计，为每个类别选定一个种子词表。从而可以利用词频匹配技术，确定文本的分类结果。然而，该方式完全依赖原始注册信息进行词频分析，这样往往因应用环境及时间变化会造成大量无关的词。因此，直接影响分类器数据的准确性，以及影响线上相关性，降低用户体验。或者，在该广告检索系统中，采用机器学习的方式建立分类器。即，将所有广告类别（或广告行业）都放在同一层次，即餐饮、服装等所有行业都放到同一级别上。每次确定出某一文本的分类结果，给出包括所有行业都在内的概率分布。尽管机器学习的方式比基于词频匹配的方式准确性和召回率都有所提高，但是，这种不分层的分类器，无论训练还是预测或检索准确率低，并且扩展性差。比如，当数据类别不断扩展时，训练和预测的时候需要存储的权值向量会线性增长，此时系统就无法支持更大规模的分类。

发明内容

本发明的主要目的在于提供一种，以解决现有技术存在的问题，其中：

依据本发明的第一方面，提供了一种获取层级分类器的方法，包括：建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点；依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据；提取训练样本的特征信息，所述特征信息包含至少一个特征项；在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

根据本发明的方法，通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

根据本发明的方法，在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型进一步包括：在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。

根据本发明的方法，依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据的步骤，进一步包括：基于层级类别结构，分别选择与各个树干节点相关的种子词；基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。

依据本发明的第二方面，提供了一种文本分类的方法，其特征在于，包括：分析待分类文本，以提取与待分类文本相关的特征信息；基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的；基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数；当在类别概率值大于预设阈值的所有类别树干节点处的分类都完成后，将分类终结的各级的各个类别终结节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

根据本发明的方法，所述各个节点的分类器模型是按照根据本发明的第一方面所述的方法而获取的分类器模型。

根据本发明的方法，针对所述特征项，基于统计方法过滤冗余特征项。

依据本发明的第三方面，提供了一种获取层级分类器的装置，包括：层级结构建立模块，用于建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点；获取模块，用于依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据；提取模块，用于提取训练样本的特征信息，所述特征信息包含至少一个特征项；训练模块，用于在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

根据本发明的装置，其中：通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

根据本发明的装置，所述训练模块进一步包括：输入子模块，用于在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；训练子模块，用于使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。

根据本发明的装置，所述获取模块进一步包括：第一获取子模块，用于基于层级类别结构，分别选择与各个树干节点相关的种子词；第二获取子模块，用于基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。

依据本发明的第四方面，提供了一种文本分类的装置，包括：文本分析模块，用于分析待分类文本，以提取与待分类文本相关的特征信息；第一分类模块，用于基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的；第二分类模块，用于基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数；确定模块，用于当在类别概率值大于预设阈值的所有分类节点处的分类都完成后，将各级的各个类别节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

根据本发明的装置所述根节点的分类器模型以及各个节点的分类器模型是如本发明第三方面所述的装置而获取的分类器模型。

根据本发明的装置，针对所述特征项，基于统计方法过滤冗余特征项。

根据本发明的获取层级分类器以及进行文本分类的方法和装置可以通过生成层级分类器并进行文本分类，由此解决了无层级的扁平分类器的可操作性差以及扩展性差的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明的实施例的获取层级分类器的方法的流程图；

图2是根据本发明的实施例的层级类别结构的示意图；

图3是根据本发明的实施例的文本分类方法的流程图；

图4是根据本发明的实施例的获取层级分类器的装置结构图；以及

图5是根据本发明的实施例的文本分类装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将参考附图，详细描述本发明改进的技术方案。为了更好地理解本发明的技术方案，首先介绍本发明的获取层级分类器的方法。

图1所示，图1是根据本发明一个实施例的获取层级分类器的方法的流程图。

在步骤110处，建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个节点，其中层级类别结构的每个分支结束的最末一个节点被定义为叶子节点，其他节点被定义为树干节点。

具体而言，参考图2，图2是根据本发明的实施例的层级类别结构的示意图。例如，基于需要进行分类的数据库可能包含的类别，可以建立一种层级类别结构，如图2所示，该层级类别结构可以是树形结构，并且具有多层，并且该树形结构的每一分支结束的最末一个类别节点被定义为叶子节点，层级类别结构中的其他类别节点被定义为树干节点。例如，该层级类别结构可以具有三层，其中每一层包含一个或多个类别节点。例如，从根节点往下的第一层的各个类别节点为一级类别节点，第二层的各个类别节点为二级类别节点，第三层的各个类别节点为三级类别节点。其中，二级类别节点和与之相连的三级类别节点之间为父子关系；一级类别节点和与之相连的二级类别节点之间为父子关系，确定了各个类别节点以及相互的从属关系，从而建立了层级类别结构。应该理解，根节点为树干节点，其他各个层上的各级类别节点如果是每一分支结束的最末一个类别节点则是相应层级类别的叶子节点；如果否，则是相应层级类别的树干节点。以广告信息数据库为例，第一层例如可以包括若干个一级类别节点，例如一级类别节点“服装”、“家庭日用品”、“数码”等等；针对一级类别节点“家庭日用品”，与其具有父子关系的子节点（二级类别节点）可以有若干个，例如二级类别节点“家具”、“家纺家饰”、“厨具餐具”等等；针对二级类别节点“家具”，与其具有父子关系的子节点（三级类别节点）可以有若干个，例如三级类别节点“家具综合”、“地毯”、“床上用品”等等；针对二级类别节点“厨具餐具”，与其具有父子关系的子节点（三级类别节点）可以有若干个，例如三级类别节点“刀具”、“盆桶”、“晾衣架”、“雨具阳伞”等等。例如假设此处的三级类别节点都是每一分支的结束节点，所以它们都是第三级类别叶子节点。同理，可以确定层级类别结构的其他各个节点的类别。

如图2所示，其示出了层级类别结构中的一部分，其中，圆圈表示节点，边线表示节点间的父子关系，带虚线框的圆圈表示该节点具有训练的子分类器，每个子分类器都是一个最大熵模型分类器。其中二级类别的节点1.1和节点1.2、以及三级类别的节点2.1.1、节点2.1.2、节点2.2.1和节点2.2.2为每一分支结束的最末一个类别节点，也就是叶子节点；而其中的根节点R、一级类别的节点1、节点2以及二级类别的节点2.1和节点2.2为树干节点。

在确定了层次分类结构之后，在步骤120处，依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据。具体而言，从数据库中的原始数据中抽取一部分数据作为训练样本，并且基于在步骤120处建立的层级类别结构针对训练样本进行标注。具体地，基于层级类别结构的各个树干节点的类别，对训练样本进行标注，从而获取各个树干节点处的标注数据。

可选地，可以基于层级类别结构，针对每个树干节点，基于数据库中的原始数据分别选择与各个类别节点相关的种子词；基于所述种子词并针对原始数据通过迭代的方式获取与各个类别相关的训练样本并进行标注以获取各级分类器模型的标注数据。

具体而言，针对在每个树干节点处基于类别属性选择种子词，将所选择的种子词作为该类别的初始集合，进而通过不断迭代，扩充训练样本以得到每个树干节点处的标注数据。

例如，在根节点处，其需要分类的为一级类别，因此与根节点这个树干节点相关的种子词为一级类别的种子词，因此将基于一级类别属性选择所有一级类别的种子词，然后通过迭代的方式召回训练样本并进行自动标注从而获得一级类别分类器模型（根节点处）的标注数据。

然后再在一级类别节点处进行数据标注。例如，在某个一级节点处，其需要分类的为二级类别，因此与一级节点（树干节点）相关的种子词为相应的二级类别的种子词，因此将基于其所包含的所有二级类别属性选择该一级类别所包含的所有二级类别的种子词，然后通过迭代的方式召回该训练样本并进行自动标注从而获得二级分类器模型（该一级节点处）的标注数据。

举例而言，例如一级类别节点“家庭日用品”，其需要分类的相应的二级类别例如有“家具”、“家纺家饰”、“日化用品”、“厨具餐具”等。则将基于属于该一级类别下的二级类别属性选择所有二级类别的种子词，然后获取与该树干节点“家庭日用品”相关的训练样本从而获得一级节点“家庭日用品”的标注数据。

同理获取其他一级类别节点处的标注数据。

然后再按照类似的方法获取再下一级类别节点（树干节点）处的标注数据，直到所有分类器模型的标注数据都已经被获取为止。

然后在步骤130处，提取训练样本的特征信息，所述特征信息包含至少一个特征项。

具体而言，针对训练样本，提取其中的特征项。训练样本的特征项是代表该训练样本的具有标识性的字、词、短语等特征项，并且每个训练样本可以包含有多个特征项，以及为每个特征项计算出与其对应的特征数据。例如，可以调用文本挖掘器（TextMiner）来获取特征项。所述特征项例如可以包括分词（Token）、关键词（Keyword）、主题（Topic）、通用关键词（GeneralKeyword）、名称实体（NamedEntity）、扩展关键词（扩展Keyword）等等。各个特征项的具体数据例如可以包含如下内容：

a)分词特征:例如以"1-"开头，后接分词名称，如"1-iphone，1-ipad"；

b)关键词特征:例如以"2-"开头，后接关键词名称，如"2-iphone4s，2-ipad2"；

c)主题特征:例如以"3-"开头，后接主题ID，如"3-1，3-10"；

d)通用关键词特征:例如以"4-"开头，后接通用关键词名称，如"4-鲜花"；

e)名称实体特征:例如以"5-"开头，后接名称实体类型，如"5-BRAND"；

f)扩展关键词特征:例如以"6-"开头，后接扩展关键词名称，如"6-鲜花速递"；

如果有新的特征项加入，可以将其按如上模式设计或递增添加到特征模板中。

接下来，在步骤140处，在各个树干节点通过分类器训练器利用相应节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

具体而言，针对每个树干节点，获取了该树干节点处的标注数据，并且获取了训练样本的特征信息。然后在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；并且使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应树干节点处的分类器模型。参考图2的层次分类结构示意图，层次分类结构中的每个树干节点对应一个分类器，根节点是一级分类器，一级类别的树干节点是每个一级类别内的二级分类器，以此类推。因此，除了根节点，其他树干节点的分类器训练器都只是一个局部分类器，只用到部分训练样本。针对不同层次，不同粒度，可以设计不同的特征，已形成相应的分类器。

下面，以树干节点“家庭日用品”为例，描述该节点处的分类器模型的训练过程。

首先获取该节点的标注数据。“家庭日用品”节点为一级类别节点，也即是获取该一级类别下所有二级类别的标注数据。

并且从数据库中通过上述方法获取该节点的训练样本的特征信息。

然后，在该节点处将训练样本的特征信息与标注数据输入分类器训练器。接着，使用最大熵算法利用相应节点的标注数据和特征信息在分类器训练器中进行训练，以获取相应节点处的分类器模型参数从而得到相应节点处的分类器模型。也即是说，确定了各个树干节点处的分类器模型的参数，该参数是指在该分类器模型下各个特征项的特征值，也即是各个特征项在该分类器的子分类下的权重。举例来说，在“家庭日用品”分类节点（一级分类）的分类器模型下某个特征项A在各个子分类节点（二级分类，例如“家具”、“家纺家饰”、“厨具餐具”）下的权重。

同理，训练各个树干节点处的分类器模型，从而得到具有层级类别结构的层级分类器。也即是说，该层级分类器包括若干个分类器模型，层级分类器结构的各个树干节点具有一个相应的分类器模型。

至此，参照图1和图2描述了获取层级分类器的方法，该方法通过获取到训练样本的特征项，并基于层级类别结构对训练样本进行标注以获得层级类别结构的各个树干节点对应的标注数据，进而可以利用标注数据在层级分类器训练器中按照预先建立的层级类别结构对训练样本的特征项的特征值进行训练，以获取位于所述层级类别结构各个树干节点处的层级分类器模型。

下面，利用形成的层级分类器并参考图3来描述本发明的文本分类方法。如图3所示，图3是根据本发明一实施例的文本分类方法的流程图。

在步骤310处，分析待分类文本，以提取与待分类文本相关的特征信息。

例如，分析数据库中的待分类文本，从其中提取待分类文本的特征信息。特征信息的提取过程与上面训练样本的特征信息的提取相类似，在此不再累述。

在步骤320处，基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的。

将待分类文本的特征值从层级类别结构的根节点处开始概率值计算。应该理解，根节点处加载了针对一级类别所训练的分类器，并且在其他树干节点上也已经加载了针对相应类别所训练好的分类器。

具体而言，基于预建立的层级类别结构（如图2所示出的树型结构），所获取的待分类文本的特征项的特征值从根节点进入从而开始逐层计算，以判断该待分类文本的类别。

在步骤330处，基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数。

具体而言，从根节点出发，先按照第一级分类体系的进行分类，由于是最大熵分类器，每类的输出值是一个概率值，其和为1；基于此，根据层级类别结构逐层计算待分类文本的特征值在每个节点上的概率值，并根据该概率值与预设的阈值进行比较，以确定该分类文本是否有必要当前层级的下一层级继续分类。进一步而言，逐个递归的对其下层的每个子分类节点进行分类，在判断是否继续向下分类时，会根据一个阈值进行控制，如果其上层的分类结果小于该阈值，就不需要向下继续分类。

举例而言，可如图2的层级类别结构所示，设待分类文本D为东莞餐饮公司。其分类文本D在一级类别节点N1处，概率值P1为0.1；在一级类别节点N2处，概率值P2为0.9，所以N1节点结束，N2节点继续往下分；在N2节点的二级类别节点N2.1处，概率值P2.1为0.8*0.9=0.72，在N2节点的二级类别节点N2.2处，概率值P2.2为0.2*0.9=0.18，所以N2.2节点结束，P2.1节点继续往下分；在N2节点的二级类别节点N2.2的三级类别节点N2.1.1处，概率值P2.1.1为0.2*0.72=0.144，在N2节点的二级类别节点N2.2的三级类别节点N2.1.2处，概率值P2.1.2为0.8*0.72=0.576，

在步骤340处，当在类别概率值大于预设阈值的所有类别树干节点处的分类都完成后，将各级的各个分类终结时的终结节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

具体而言，将概率值按照顺序排序，从而将概率值最大的那个终结节点的类别作为待分类文本的类别。

承接上面的示例，例如分类文本D的分类终结的节点为：N1、N2.2、以及N2.1.2。而三个节点处的概率值分别为：0.1、0.18、0.576，因此分类文本D的类别被分类到节点N2.1.2。

应该理解，上述各个树干节点的分类器模型是按照参考图1-图2所描述的方法而获取的分类器模型。

可选地，针对所述特征项，可以基于统计方法过滤冗余特征项。

本发明还提供了一种获取层级分类器的装置。如图4所示，图4是根据本发明一实施例的获取层级分类器的装置400的结构图。

该装置400可以包括：层级结构建立模块410、获取模块420、提取模块430、以及训练模块440。

根据本发明的实施例，层级结构建立模块410可以用于建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点。

根据本发明的实施例，获取模块420可以用于依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据。

根据本发明的实施例，提取模块430可以用于提取训练样本的特征信息，所述特征信息包含至少一个特征项。

根据本发明的实施例，训练模块440可以用于在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

根据本发明的实施例，在该装置400中，通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

根据本发明的实施例，在该装置400中，所述训练模块440可以进一步包括：输入子模块，用于在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；训练子模块，用于使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。

根据本发明的实施例，在该装置400中，所述获取模块420可以进一步包括：第一获取子模块，用于基于层级类别结构，分别选择与各个树干节点相关的种子词；第二获取子模块，用于基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。

由于图4所描述的本发明的获取层级分类器的装置所包括的各个模块的具体实施方式与本发明的获取层级分类器的方法中的步骤的具体实施方式是相对应的，由于已经对图1进行了详细的描述，所以为了不模糊本发明，在此不再对各个模块的具体细节进行描述。

本发明还提供了一种文本分类的装置。如图5所示，图5是根据本发明一实施例的文本分类的装置500的结构图。该装置500可以包括：文本分析模块510、第一分类模块520、第二分类模块530以及确定模块540。

根据本发明的实施例，在该装置500中，文本分析模块510可以用于分析待分类文本，以提取与待分类文本相关的特征信息。

根据本发明的实施例，在该装置500中，第一分类模块520可以用于基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的。

根据本发明的实施例，在该装置500中，第二分类模块530可以用于基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数。

根据本发明的实施例，在该装置500中，确定模块540可以用于当在类别概率值大于预设阈值的所有分类节点处的分类都完成后，将各级的各个类别节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

根据本发明的实施例，在该装置500中，所述根节点的分类器模型以及各个节点的分类器模型是如参考图4所述的装置而获取的分类器模型。

根据本发明的实施例，在该装置500中，针对所述特征项，基于统计方法过滤冗余特征项。

由于图5所描述的本发明的文本分类的装置所包括的各个模块的具体实施方式与本发明的文本分类的方法中的步骤的具体实施方式是相对应的，由于已经对图3进行了详细的描述，所以为了不模糊本发明，在此不再对各个模块的具体细节进行描述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的获取层级分类器以及进行文本分类的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A8、一种获取层级分类器的装置，包括：

层级结构建立模块，用于建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点；

获取模块，用于依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据；

提取模块，用于提取训练样本的特征信息，所述特征信息包含至少一个特征项；

训练模块，用于在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

A9、根据权利要求A8所述的装置，其中：通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

A10、根据权利要求A9所述的装置，其特征在于，所述训练模块进一步包括：

输入子模块，用于在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；

训练子模块，用于使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。

A11、根据权利要求A8所述的装置，其特征在于，所述获取模块进一步包括：

第一获取子模块，用于基于层级类别结构，分别选择与各个树干节点相关的种子词；

第二获取子模块，用于基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。

A12、一种文本分类的装置，包括：

文本分析模块，用于分析待分类文本，以提取与待分类文本相关的特征信息；

第一分类模块，用于基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的；

第二分类模块，用于基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数；

确定模块，用于当在类别概率值大于预设阈值的所有分类节点处的分类都完成后，将各级的各个类别节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

A13、根据权利要求A12所述的装置，其特征在于，所述根节点的分类器模型以及各个节点的分类器模型是如权利要求A8-A11任一项所述的装置而获取的分类器模型。

A14、根据权利要求A12或A13所述的装置，其特征在于，针对所述特征项，基于统计方法过滤冗余特征项。

Claims

1.一种获取层级分类器的方法，包括：

建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点；

依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据；

提取训练样本的特征信息，所述特征信息包含至少一个特征项；

在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

2.根据权利要求1所述的方法，其中：通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

3.根据权利要求1所述的方法，其特征在于，在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型进一步包括：

在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器；

使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。

4.根据权利要求1所述的方法，其特征在于，依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据的步骤，进一步包括：

基于层级类别结构，分别选择与各个树干节点相关的种子词；

基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。

5.一种文本分类的方法，其特征在于，包括：

分析待分类文本，以提取与待分类文本相关的特征信息；

基于所述特征信息与相应的特征值，利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类，以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值，其中，所述层级类别结构是预先建立的；

基于所述特征信息与相应的特征值，在所述第n-1级类别概率值大于预设阈值的第n-1级类别节点处，利用该n-1级类别节点的分类器模型对所述待分类文本进行分类，以获取所述待分类文本在与该第n-1级类别节点相对应的各个第n级类别节点处的各个第n级类别概率值，其中，n为大于等于2的整数；

当在类别概率值大于预设阈值的所有类别树干节点处的分类都完成后，将分类终结的各级的各个类别终结节点处的概率值按照预定顺序进行排序，以确定所述分类文本所属类别。

6.根据权利要求5所述的方法，其特征在于，所述各个节点的分类器模型是按照权利要求1-4任一项所述的方法而获取的分类器模型。

7.根据权利要求5或6所述的方法，其特征在于，针对所述特征项，基于统计方法过滤冗余特征项。

8.一种获取层级分类器的装置，包括：

9.根据权利要求8所述的装置，其中：通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。

10.一种文本分类的装置，包括：