CN103324628A

CN103324628A - 一种针对发布文本的行业分类方法和系统

Info

Publication number: CN103324628A
Application number: CN2012100765644A
Authority: CN
Inventors: 叶莎妮; 姚伶伶; 朱鉴; 王迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2013-09-25
Anticipated expiration: 2032-03-21
Also published as: CN103324628B

Abstract

本发明公开了一种针对发布文本的行业分类方法和系统，方法包括：进行一级行业类别特征词集合挖掘和二级行业分类模型训练，并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系；根据两级的层次类别体系，对发布文本进行一级行业和二级行业分类。通过本发明，能够提高针对发布文本的行业分类的准确率和召回率。

Description

一种针对发布文本的行业分类方法和系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种针对发布文本的行业分类方法和系统。

背景技术

目前，对搜索检索串(query)、以及信息检索系统中用户提交的搜索词和发布文本进行行业分类，实质上是一种短文本分类技术。基于信息检索系统的应用场景，通常需要人工标注分类体系。现有技术中常见的文本分类方法有：朴素贝叶斯(Bayes)、神经网络(Nnet)、支持向量机(SVM，Support VectorMachine)、k最邻近(kNN，k-Nearest Neighbor)等统计分类算法以及基于人工推理规则的分类方法。

受限于信息检索系统的应用场景，以及发布文本短小、内容较少(短的只有几个字，长的也不过几十个字)的特征，现有技术中常用的基于SVM模型的文本分类方法处理效果不好，文本分类的准确率只有70％左右，而召回率则更低。

另外，现有技术是基于人工标注的训练集进行模型训练，抽取特征，而训练样本的数量有限，无法自动挖掘出高质量的特征词库，这使得分类模型的区分能力有限；而且人工标注的训练集也需要消耗大量的人力资源。基于人工标注的训练集对于信息检索系统中的搜索词以及发布文本的覆盖很有限，召回率一般都很低。此外，现有技术无法根据信息检索的行业应用特点，很好的覆盖各个行业的搜索词以及发布文本，很难达到实用的标准。

发明内容

有鉴于此，本发明的主要目的在于提供一种针对发布文本的行业分类方法和系统，以解决现有信息检索系统中的文本行业分类方法准确率和召回率不高的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种针对发布文本的行业分类方法，该方法包括：

进行一级行业类别特征词集合挖掘和二级行业分类模型训练，并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系；

根据所述两级的层次类别体系，对发布文本进行一级行业和二级行业分类。

所述一级行业类别特征词集合挖掘具体为：

基于人工标注的初始的一级行业类别特征词集合，采用全文匹配的分类方式，对不同来源的网页进行分类；

对拥有分类属性的网页进行全文切词，抽取类别特征词，并计算抽取的类别特征词对所属类别的权重向量；

将抽取的类别特征词合并入所述一级行业类别特征词集合。

所述一级行业类别特征词集合以哈希表的形式建立，所述哈希表以类别特征词作为关键字，以类别特征词对于一级行业类别的权重向量作为键值。

所述二级行业分类模型训练具体为：

对每个一级行业采用最大熵模型作为分类器，对已标注样例集进行学习得到初步分类模型；

通过选择算法利用上一环节训练的分类器对未标注样例进行分类，选择置信度低的样例提交人工标注，再将人工标注后的样例加人到已标注样例集中进行再次训练，如此迭代。

所述对发布文本进行一级行业分类，具体为：

对发布文本进行切词，得到词序列；

根据切词后的每个词查询一级行业类别特征词集合，得到每个词对应的键值；

对所述词序列对应的相同的类别权重进行叠加并归一化；

选取类别权重最大的至少一个类别作为一级行业类别结果。

所述对发布文本进行二级行业分类，具体为：

在进行一级行业分类之后，在具体的一级行业类目中加载相应的最大熵模型文件，采用最大熵模型进行二级行业分类。

本发明还提供了一种针对发布文本的行业分类系统，该系统包括：

层次类别体系构建模块，用于进行一级行业类别特征词集合挖掘和二级行业分类模型训练，并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系；

分类模块，用于根据所述两级的层次类别体系，对发布文本进行一级行业和二级行业分类。

所述层次类别体系构建模块进一步包括：

一级行业类别特征词集合挖掘子模块，用于基于人工标注的初始的一级行业类别特征词集合，采用全文匹配的分类方式，对不同来源的网页进行分类；对拥有分类属性的网页进行全文切词，抽取类别特征词，并计算抽取的类别特征词对所属类别的权重向量；将抽取的类别特征词合并入所述一级行业类别特征词集合。

所述层次类别体系构建模块进一步包括：

二级行业分类模型训练子模块，用于对每个一级行业采用最大熵模型作为分类器，对已标注样例集进行学习得到初步分类模型；通过选择算法利用上一环节训练的分类器对未标注样例进行分类，选择置信度低的样例提交人工标注，再将人工标注后的样例加人到已标注样例集中进行再次训练，如此迭代。

所述分类模块进一步包括：一级行业分类子模块，用于对发布文本进行切词，得到词序列；根据切词后的每个词查询一级行业类别特征词集合，得到每个词对应的键值；对所述词序列对应的相同的类别权重进行叠加并归一化；选取类别权重最大的至少一个类别作为一级行业类别结果。

所述分类模块进一步包括：二级行业分类子模块，用于在所述一级行业分类子模块进行一级行业分类之后，二级行业分类子模块在具体的一级行业类目中加载相应的最大熵模型文件，采用最大熵模型进行二级行业分类。

本发明所提供的一种针对发布文本的行业分类方法和系统，提高了针对发布文本的行业分类的准确率和召回率。

附图说明

图1为本发明实施例的一种针对发布文本的行业分类方法的流程图；

图2为本发明实施例的一级行业类别特征词集合挖掘的流程图；

图3为本发明实施例的二级行业分类模型训练的示意图；

图4为本发明实施例的一级行业自动分类的流程图；

图5为本发明实施例的一种针对发布文本的行业分类系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

本发明将繁杂的行业类别组织成一个两级的层次类别体系，对一级行业和二级行业分别采用不同的方法进行自动分类，从而使每个行业类别的准确率和召回率都达到最优的状态。

一级行业的分类方法主要包括：基于人工标注的初始的一级行业类别特征词集合(该集合中包括少量的人工标注的一级行业类别特征词)，对数以亿计的网页采用全文匹配的分类方式，对每个网页进行分类；对于拥有分类属性的网页进行全文切词，抽取类别特征词，计算抽取的类别特征词对于所属类别的权重贡献(即权重向量)，然后将这些从网页中抽取的类别特征词合并入一级行业类别特征词集合中；待全部网页特征词抽取完毕，就自动得到了一个全面的一级行业类别特征词集合，从而构建得到一级行业类别特征词词典。根据该词典再对query(搜索检索串)、搜索词、发布文本进行线性分类。

二级行业的分类方法主要包括：基于上述得到的一级行业类别特征词集合，从中挑出特定一级行业下属的二级行业对应的特征词，作为初始的标注样例集合；采用主动学习方法与最大熵分类器，分类器对已标注样例集合进行学习，而选择算法则选择一个未标注的样例进行标注，再将标注后的样例加人到已标注样例集中；学习器和选择算法交替工作，经过多次循环，分类器的性能逐渐提高，可以使二级行业分类的准确率平均达到95％以上；并且在进行二级行业分类时，不用担心召回覆盖的不足，大大节省了人力，使二级行业分类达到了实用的标准。

由此可以看出，一级行业的分类方法主要包括两个流程：一级行业类别特征词集合自动挖掘流程(即通过离线训练，构建分类所需的一级行业类别特征词词典)和一级行业自动分类流程。二级行业的分类方法也主要包括两个流程：二级行业类别特征词集合迭代挖掘流程和二级行业自动分类流程。

下面首先介绍一级行业类别特征词集合挖掘流程，参见图2所示，该流程主要包括：

步骤201，网页先验赋权：对不同的网页来源赋予不同的先验权重。

所述不同的网页来源包括：随机自然网页数据(如新闻网页、blog网页等等)和信息发布着陆页数据。所谓信息发布着陆页(landingpage)，是指信息检索系统中用户提交的发布文本对应的实际着陆页面。其中，信息发布着陆页数据可以赋予较高的先验权重，随机自然网页数据可以赋予较低的先验权重。

步骤202，对每个网页分别进行特征词抽取，主要包括：

1、网页切词：取出网页的标题和主体内容，进行大小写、全半角归一化处理；对于长度过短(＜1000字节)或过长(＞500000字节)的网页进行过滤，也即只对标题和主体内容的长度在1000字节到500000字节之间的网页进行特征词抽取的处理；对网页进行全文匹配，也即对网页的标题和主体内容进行切词处理，并将所得切词与人工标注的一级行业类别特征词集合进行匹配，匹配成功的切词记为类别特征词；

2、网页类别计算：针对每个网页，对该网页中所有出现的类别特征词按分类进行权值相加，其中网页标题(title)可以配置加权，最后分别取权值最高的两个一级类别作为该网页的类别属性；

3、类别特征词抽取：从有特定一级类别的网页中抽取具有代表性的词，扩充该类别的特征词文件，参加下一轮的迭代训练。本方法对数以亿计的网页进行特征词抽取，这个过程使用hadoop平台，开发map-reduce程序来提高处理性能。

4、单个页面类别特征词权重计算：从特定一级类别的网页中抽取具有代表性的特征词word_i在网页page_k中的权重为：

其中，pos_w_j表示特征词在当前网页j位置的权重，出现在网页标题这些重要位置上时，权重较高；如果特征词在网页中出现n次，则将每个位置的权重叠加即得到特征词在当前网页中的权重。

步骤203，类别特征词全局权重计算：对数以亿计的网页完成上述步骤202之后，按照网页的类别将网页进行聚合，对于同一类别网页抽取特征词，计算特征词对当前类别的权重。如属于Cid_j(例如医疗行业Cid₃₃)的网页总共有N个，挖掘到的特征词集合为{word₁，word₂，......，word_n}，特征词word_i对于当前类别Cid_j的权重为：

{word}_{i}_{cid}_{j} - w = \frac{Σ_{k = 1}^{N} wo {rd}_{i}_{page}_{k}_w}{N} * {word}_{i}_idf .

也即某个词对于某个类别的隶属程度设定为：某类别网页中某特征词的单网页权重之和*该特征词的idf权值/该类别的网页数量。其中，idf(inverse documentfrequency，反文档频率)权值是一个词语普遍重要性的度量。

步骤204，后处理去噪声：本方法采用数以亿计的网页作为训练语料，鉴于网页这种资源的特殊性，需要对分类没有特殊贡献的通用词进行过滤或降权；同时要对地名这类没有类别倾向性的特征词进行降权。

步骤205，一级行业类别特征词词典构建：将一级行业类别特征词集合构建成一个哈希表(Hash table)，以特征词的签名作为哈希表的关键字，以特征词与一级行业类别的权重向量作为键值。

特征词word_i与一级行业类别集合{Cid₁，Cid₂，......，Cid_M}的权重向量为{word_i_cid₁_w，word_i_cid₂_w，......，word_i_cid_M_w}，其中每一个word_i_cid_j_w由步骤203训练计算得出，并且在这里做归一化处理，即word_j_Cid_j_w＝1n(word_i_Cid_j_w*1000)，即类别特征词全局权重*1000后取自然对数。word_i_Cid_j_w小于0则不计入权重向量。

二级行业类别特征词集合挖掘流程主要包括：对每个一级行业单独训练二级行业分类模型文件。基于主动学习方法来构建二级行业训练语料。通过主动选择要学习的样例从而有效地降低学习算法的样本复杂度，通过选择标记样例使得用更少的标记样例达到更高的预测精度。主动学习方法一般由分类器和选择算法两个部分组成，分类器对已标注样例集进行学习，而选择算法选择一个未标注的样例进行标注，再将标注后的样例加入到已标注样例集中；分类器和选择算法交替工作，经过多次循环，分类器的性能逐渐提高，当满足预设条件时(例如准确率达到90％)，整个过程终止。

图3所示为本发明实施例的二级行业分类模型训练的示意图。本发明采用最大熵模型作为分类器，对已标注样例集进行学习得到一个初步分类模型，而选择算法则利用上一环节训练的分类器对未标注样例进行分类，选择置信度较低的样例提交人工标注，再将人工标注后的样例加人到已标注样例集中进行再次训练，如此迭代，直至满足分类准确率要求。迭代过程的示例如下：

其中初始的训练集合，可以很方便的从对应的一级行业特征词中进行自动挑选，无需人工费力去构建。二级行业分类模型借助主动学习框架，可以不断的增大训练集合，得到每个二级类目特定的训练集合。在有了训练集合之后，对每个一级行业采用最大熵分类器进行单独训练，就得到了相应二级行业分类模型文件，即相应的二级行业类别特征词集合。

在经过一级行业类别特征词集合挖掘、以及二级行业类别特征词集合迭代挖掘过程后，本发明的实施例得到的二级的层次行业类别体系如下表所示：

表1

在构建完两级的层次行业类别体系后，一级行业自动分类流程如图4所示，主要包括：

步骤401，对搜索检索串(query)或搜索词进行切词，得到词序列{word₁，word₂，......，word_n}；

步骤402，根据切词后的每个词word_i查询一级行业类别特征词词典(即步骤205构建的哈希表)，得到词word_i对应的键值，即word_i与一级行业类别特征词集合{Cid₁，Cid₂，......，Cid_M}对应的权重向量{word_i_cid₁_w，word_i_cid₂_w，......，word_i_cid_M_w}；

步骤403，对检索串的词序列对应的相同的类别权重进行叠加并归一化，即

{query_cid}_{j}_w = Σ_{i = 1}^{n} {word}_{i}_{cid}_{j}_w / n;

步骤404，选取最终类别权重最大的一个或多个类别，作为一级行业类别结果，即取query_cid_j_w最大的类别Cid_j。

需要说明的是，对于一级行业类别区分度很低或者没有对应类别的搜索词，采用搜索的摘要对拍卖词进行适当语义扩展，然后再参与一级行业分类，以减少短串表意的歧义性，增加行业分类的准确率。

在进行一级行业分类之后，在具体的一级行业类目中，加载相应的最大熵模型文件，采用最大熵模型(Maximum Entropy Model)进行二级行业分类。

对应上述针对发布文本的行业分类方法，本发明还提供了一种针对发布文本的行业分类系统，如图5所示，主要包括：层次类别体系构建模块10和分类模块20。

其中，层次类别体系构建模块10，用于进行一级行业类别特征词集合挖掘和二级行业分类模型训练，并依此构建由一级行业类别特征词集合和二级行业类别特征词集合组成的两级的层次类别体系；

分类模块20，用于根据所述两级的层次类别体系，对发布文本进行一级行业和二级行业分类。

较佳的，层次类别体系构建模块10可进一步包括：一级行业类别特征词集合挖掘子模块11，用于基于人工标注的初始的一级行业类别特征词集合，采用全文匹配的分类方式，对不同来源的网页进行分类；对拥有分类属性的网页进行全文切词，抽取类别特征词，并计算抽取的类别特征词对所属类别的权重向量；将抽取的类别特征词合并入所述一级行业类别特征词集合。

其中，一级行业类别特征词集合可以以哈希表的形式建立，所述哈希表以类别特征词作为关键字，以类别特征词对于一级行业类别的权重向量作为键值。

较佳的，层次类别体系构建模块10可进一步包括：二级行业分类模型训练子模块12，用于对每个一级行业采用最大熵模型作为分类器，对已标注样例集进行学习得到初步分类模型；通过选择算法利用上一环节训练的分类器对未标注样例进行分类，选择置信度低的样例提交人工标注，再将人工标注后的样例加人到已标注样例集中进行再次训练，如此迭代。

较佳的，分类模块20进一步包括：一级行业分类子模块21，用于对发布文本进行切词，得到词序列；根据切词后的每个词查询一级行业类别特征词集合，得到每个词对应的键值；对所述词序列对应的相同的类别权重进行叠加并归一化；选取类别权重最大的至少一个类别作为一级行业类别结果。

分类模块20进一步包括：二级行业分类子模块22，用于在一级行业分类子模块21进行一级行业分类之后，二级行业分类子模块22在具体的一级行业类目中加载相应的最大熵模型文件，采用最大熵模型进行二级行业分类。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种针对发布文本的行业分类方法，其特征在于，该方法包括：

2.根据权利要求1所述针对发布文本的行业分类方法，其特征在于，所述一级行业类别特征词集合挖掘具体为：

将抽取的类别特征词合并入所述一级行业类别特征词集合。

3.根据权利要求2所述针对发布文本的行业分类方法，其特征在于，所述一级行业类别特征词集合以哈希表的形式建立，所述哈希表以类别特征词作为关键字，以类别特征词对于一级行业类别的权重向量作为键值。

4.根据权利要求1所述针对发布文本的行业分类方法，其特征在于，所述二级行业分类模型训练具体为：

5.根据权利要求1至4任一项所述针对发布文本的行业分类方法，其特征在于，所述对发布文本进行一级行业分类，具体为：

对发布文本进行切词，得到词序列；

对所述词序列对应的相同的类别权重进行叠加并归一化；

选取类别权重最大的至少一个类别作为一级行业类别结果。

6.根据权利要求5所述针对发布文本的行业分类方法，其特征在于，所述对发布文本进行二级行业分类，具体为：

7.一种针对发布文本的行业分类系统，其特征在于，该系统包括：

8.根据权利要求7所述针对发布文本的行业分类系统，其特征在于，所述层次类别体系构建模块进一步包括：

9.根据权利要求8所述针对发布文本的行业分类系统，其特征在于，所述一级行业类别特征词集合以哈希表的形式建立，所述哈希表以类别特征词作为关键字，以类别特征词对于一级行业类别的权重向量作为键值。

10.根据权利要求7所述针对发布文本的行业分类系统，其特征在于，所述层次类别体系构建模块进一步包括：

11.根据权利要求7至10任一项所述针对发布文本的行业分类系统，其特征在于，所述分类模块进一步包括：一级行业分类子模块，用于对发布文本进行切词，得到词序列；根据切词后的每个词查询一级行业类别特征词集合，得到每个词对应的键值；对所述词序列对应的相同的类别权重进行叠加并归一化；选取类别权重最大的至少一个类别作为一级行业类别结果。

12.根据权利要求11所述针对发布文本的行业分类系统，其特征在于，所述分类模块进一步包括：二级行业分类子模块，用于在所述一级行业分类子模块进行一级行业分类之后，二级行业分类子模块在具体的一级行业类目中加载相应的最大熵模型文件，采用最大熵模型进行二级行业分类。