CN103488707A

CN103488707A - 一种基于贪心策略和启发式算法搜索候选类别的方法

Info

Publication number: CN103488707A
Application number: CN201310405219.5A
Authority: CN
Inventors: 何力; 贾焰; 杨树强; 周斌; 韩伟红; 李爱平; 韩毅; 李莎莎; 丁兆云
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2014-01-01
Anticipated expiration: 2033-09-06
Also published as: CN103488707B

Abstract

本发明公开的基于贪心策略和启发式算法搜索候选类别的方法，属于互联网技术领域，用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别，它采用评价指标V_k对搜索出的候选类别进行量化评价，且采用贪心策略和启发式算法得出最大的评价指标V_k值，并求出具有最大V_k值的特征权重矩阵G，进而，准确地搜索出候选类别，且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

Description

一种基于贪心策略和启发式算法搜索候选类别的方法

技术领域

本发明属于互联网技术领域，具体涉及一种基于贪心策略和启发式算法搜索候选类别的方法。

背景技术

以互联网为代表的信息革命极大改变了人们的生活、生产方式，社会对网络信息系统的依赖也日益增强。然而，互联网的自由性、开放性、迅捷性以及低廉的成本和高额的利润同时也使其成为了有害信息发育繁殖的沃土。各种令人不安的信息如湍急暗流隐藏在互联网信息大潮下，包括色情、邪教、赌博、毒品、虚假新闻、宣扬暴力在内的各种有害信息充斥于互联网上。因此，对网络和信息的安全管理与控制尤为关键。

基于互联网分类目录的网络访问控制是网络安全管理的一种重要技术手段，通过建立全面、精确的互联网分类目录，可以实现快速、精细的网络访问控制。互联网分类目录按照一个概念或主题类别层次将海量网页信息组织为网络资源分类目录，以更好地搜索、访问和管理这些网络资源，例如开放目录专案(Open Directory Project，简称ODP目录)、雅虎目录(Yahoo!Directory)等。要自动构建网络资源目录，就需要实现对互联网上未知类别信息的分类，这里的信息类别一般被组织为一个层次式结构，典型的是一棵树(tree)或者有向无环图(Directed Acyclic Graph)，这种类别层次一般规模巨大，其类别数目可以达到数千、甚至数万之多。面向网页的大规模层次分类技术(large scalehierarchical classification)就是研究如何按照这样一个规模巨大的类别层次对网页进行准确分类，因此，大规模层次分类技术是构建互联网分类目录的基础，是构建健康、和谐的互联网环境的重要技术手段，同时也是很多网络应用的基础，包括绿色上网、网络信誉管理、安全过滤等。

类别层次规模巨大是大规模层次分类技术面临的一个主要挑战，大规模层次分类问题求解方法的不同主要体现在对这一挑战性问题的处理策略上，目前有三种处理策略：全局处理策略(overall-conquer)、分而治之的策略(divide-and-conquer)和化繁为简的策略(reduce-and-conquer)。整体处理策略将所有类别作为一个整体，在整个数据集上进行分类的学习，然后对待分类文档进行分类。分而治之策略按照类别层次将一个大规模的全局分类问题分解为一个个小规模的局部分类问题，然后分别进行分类的学习，对待分类文档进行自上而下的分类。化繁为简的策略通过搜索类别层次中所有与待分类文档相关的类别，然后在所有候选类别上进行分类的学习和预测，将一个大规模的分类问题降低为一个小规模的分类问题。

采用化繁为简策略的分类方法：首先根据待分类文档搜索候选类别，然后根据候选类别的样本训练分类器并对待分类文档进行分类，因此，这种方法又被称为两阶段分类方法，其核心思想是通过减小分类器学习的类别数目以提高分类准确率。两阶段方法基于这样一个假设：在一棵大规模类别层次树中，给定一个文档，其相关类别数量远少于不相关类别。两阶段分类方法的优点是通过候选搜索有效减小了数据规模，因此可以灵活的选择分类方法和分类器，分类准确率比较高，因此在大规模层次分类问题中应用的较为广泛。但是这种优点是建立在候选类别搜索正确的前提之上的，因为其中的分类依赖于候选搜索的准确性，要确保分类正确，就应当使计算出来的候选类别集合包含待分类文档的真实类别，因此，候选类别搜索是大规模层次分类中的一项关键技术，然而已有的两阶段分类方法并未对候选搜索方法进行深入研究。

发明内容

针对现有技术存在的问题，本发明旨在提供一种基于贪心策略和启发式算法搜索候选类别的方法，用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别，它采用评价指标V_k对搜索出的候选类别进行量化评价，且采用贪心策略和启发式算法得出最大的评价指标V_k值，进而，准确地搜索出候选类别。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法，用以从测试文档中搜索出候选类别，其包括以下步骤：

步骤S01、输入已知信息：提供样本集合I＝{d₁,d₂,...,d_n}，特征集合F＝{f₁,f₂,...f_m}，类别集合L＝{l₁,l₂,...l_r}；

步骤S02、初始化评价指标V_k及特征权重矩阵G：采用词频向量初始化类别的特征权重矩阵G，通过统计每个词在同一类别l_i所有文档中的出现次数得到该类别的词频向量，从而,为每个类别l_i建立一个词频向量w_i，w_ij为特征f_j关于类别l_i的权重，并对词频向量进行标准化，使得每个词频向量w_i满足通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G＝{w₁,w₂,...,w_i...w_r}^T，并计算出初始评价指标V_k值；

步骤S03、采用贪心策略和启发式算法更新评价指标V_k及特征权重矩阵G，并求出具有最大V_k值的特征权重矩阵G，具体包括以下步骤：

S031、启发式优化解：采用步骤S02求得的初始类别的特征权重矩阵G依次对每个样本文本d进行候选搜索测试，计算样本文本d的候选类别集合E(d)，如果

即当前解不能正确搜索到样本文本d的候选类别，则按照权重更新方法Correct-Error(c,d)更新G，通过运行Correct-Error(c,d)，可以保证c∈E(d),即通过执行该更新算法，使当前样本文本能够被正确地搜索到其候选类别，其中，Correct-Error包括三步：（1）计算样本最大类别相关性得分(score(d)_max)和样本类别相关性得分(score_c(d))之差Δ＝score(d)_max-score_c(d)；（2）计算样本类别的每个特征值的并用g(Δ，t_j)对样本类别的特征向量进行更新w_cj’＝w_cj+g(Δ,t_j)；（3）对更新后的向量进行标准化

其中，所述类别相关性得分采用内积或者余弦相似度计算，采用词频向量〈t₁,t₂,...t_m〉表示样本文本d，d的真实类别为c，d关于类别c的相似性得分为score_c，d在所有类别L＝{l₁,l₂,...l_r}中的最高的相似性得分为score_max,Δ是二者的分差，g(Δ，t_j)是更新w_cj时的增加量，ρ是调节因子且默认取值为1；

S032、迭代终止判定：在每次遍历整个样本集合I之后计算V_k，如果得到了一个可接受的解V_k即该V_k大于或等于一常数，或者迭代次数达到设定上限值，则迭代终止；

步骤S04、根据步骤S03得出的最大V_k值的特征权重矩阵G，计算出相应的候选类别集合，即为要找到候选类别集合；

其中，

其中，|I|为样本总数，V_k(d_i)可根据以下算出：对于候选搜索算法Γ和测试文档d，由算法Γ搜索的候选类别集合为E，假设E的大小为k，对于单标签分类问题，如果E包含d的真实类别，则V_k(d)=1，否则为0；对于多标签分类问题，如果E中包含a个d的真实类别，则V_k(d)＝a/l_d，其中,l_d是d的真实类别数目。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法，其具有以下技术效果：

本发明提供的基于贪心策略和启发式算法搜索候选类别的方法，用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别，它采用评价指标V_k对搜索出的候选类别进行量化评价，且采用贪心策略和启发式算法得出最大的评价指标V_k值，并求出具有最大V_k值的特征权重矩阵G，进而，准确地搜索出候选类别，且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

附图说明

图1为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的流程简图；

图2为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试数据的类别分布图；

图3为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试数据的文档分布图；

图4为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试结果。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案：

请参阅图1，针对现有技术存在的问题，本发明旨在提供一种基于贪心策略和启发式算法搜索候选类别的方法，用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别，它采用评价指标V_k对搜索出的候选类别进行量化评价，且采用贪心策略和启发式算法得出最大的评价指标V_k值，进而，准确地搜索出候选类别。

步骤S02、初始化评价指标V_k及特征权重矩阵G：采用词频向量初始化类别的特征权重矩阵G，通过统计每个词在同一类别l_i所有文档中的出现次数得到该类别的词频向量，从而,为每个类别l_i建立一个词频向量w_i，w_ij为特征f_j关于类别l_i的权重，并对词频向量进行标准化，使得每个词频向量w_i满足

通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G＝{w₁,w₂,...,w_i...w_r}^T，并计算出初始评价指标V_k值；

即当前解不能正确搜索到样本文本d的候选类别，则按照权重更新方法Correct-Error(c,d)更新G，通过运行Correct-Error(c,d)，可以保证c∈E(d),即通过执行该更新算法，使当前样本文本能够被正确地搜索到其候选类别，其中，Correct-Error包括三步：（1）计算样本最大类别相关性得分(score(d)_max)和样本类别相关性得分(score_c(d))之差Δ＝score(d)_max-score_c(d)；（2）计算样本类别的每个特征值的

并用g(Δ，t_j)对样本类别的特征向量进行更新w_cj’＝w_cj+g(Δ,t_j)；（3）对更新后的向量进行标准化

其中，

以下为启发式算法程序化过程：

Algorithm Heuristic-Learning(I,F,L,k)

Initial weight-matrix G according I,F and L.

Compute V_k for G.

WHILE((V_k＜δ)&&(iterations count＜N)):

FOR each document d∈I:

FOR each category l∈L:

score_l(d)＝Inner Product(d,w_l).

Sort descending categories in L by score(d).

E(d)=the top-k categories.

FOR each category c∈label(d):

IF c∈E(d),THEN

Correct-Error(c,d).

Compute V_k.

END.

以下为贪心策略程序化过程：

Algorithm Correct-Error(c,d)

Δ＝score(d)_max-score_c(d).

FOR each f_j∈F,

g (Δ, t_{j}) = ρ * (\frac{t_{j}}{Σ_{i = 1}^{m} {t_{i}}^{2}} * Δ) .

w_cj’＝w_cj+g(Δ,t_j).

FOR each f_j∈F,

w_{cj} = \frac{{w_{cj}}^{,}}{Σ_{i = 1}^{m} {w_{ci}}^{,}} .

应用实施例

由于大规模层次分类问题目前还没有公认的测试数据集和评价标准，本实施例根据大规模层次分类问题在实际应用中的需求以及国家对互联网内容安全监管的需要，采用ODP简体中文网站作为实验对象，以V_k作为候选搜索算法的评价标准，本应用实施例包括数据预处理和候选搜索方法测试比较两部分。

ODP简体中文网站目录是一个深度为6层的类别层次树，包括参考、商业、休闲、体育、健康、计算机、新闻、家庭、社会、游戏、艺术、购物、科学13个大类，1763个类别，整个目录包括24570个网站。我们按照ODP中的网站URL进行爬取，然后对采集到的网页进行解析、分词和停用词过滤，最终将每个网站表示为一个文档，测试数据的类别分布图如图2和文档分布图如图3所示。

网页文档是一种高维数据，我们所采用的数据集在数据预处理之后包含大约20万个中文单词，因此需要进行特征降维以解决文本特征向量高维问题，本实施例采用特征词子集选择方法以实现特征降维，且具体采用基于词频逆文档频率值的方法，另外我们发现在实验中，当特征词数量大于3500时，通过增加特征词数量已经难以有效提高算法的性能，因此取特征词数目为3500。

实验使用的是一台处理器为P8700，内存8G的PC机，实验时，先将数据集随机分为10份，其中1份为测试集，其余作为训练集，然后计算V_k，如此反复10次，以这10次的平均值作为最终结果，并与已有候选搜索方法进行测试比较，这些方法包括词频向量方法TF(具体可参见[1])、TFIDF(具体可参见[2]和[3])、IG&DF(具体可参见[4])、DFICF(具体可参见[5])以及HSVM(具体可参见[6])，对于这些方法，我们分别按照相关工作中所述算法进行了实现，SVM采用的是台湾大学林智仁教授的LibLinear(具体可参见[7])的Java版本，具体为LibLinear类型4的多类别线性SVM分类器，为了提高算法效率，修改了算法的语料读取接口。为了便于比较HL算法的收敛性，我们还实现了一个基本算法SH(Simple-Heuristic algorithm)，最终得到的不同候选搜索方法的测试结果如图4的表格所示，包括V1、V10、学习时间和测试时间，参数p表示算法的迭代次数。

由图4可知：HSVM的V1值最大，但其V10并不理想，这是因为HSVM在自上而下的递归求解过程中，难以找到全局的top-k类别，HL算法V10值最大，达到了0.905，相比已有方法提高了7.5%左右。显然，对于候选搜索问题，V10相比V1更具参考价值，因为候选搜索的最终目标是根据候选类别训练分类器以对待分类文档分类，所以应该以V10作为评价候选搜索方法好坏的主要指标。

[1]Xue GR,Xing DK,Yang Q,et al.Deep classification in large-scaletext hierarchies//Proceedings of the31st Annual International ACMSIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:619–626

[2]Oh H,Choi Y,Myaeng S.Combining global and local information forenhanced deep classification//Proceedings of the25th ACM SIGAPPSymposium on Applied Computing.Sierre,Switzerland,2010:1760–1767

[3]Xing Dikan,Xue Gui-Rong,Yang Qiang,et al.Deep classifier:automatically categorizing search results into large-scalehierarchies//Proceedings of the1st ACM International Conference onWeb Search and Data Mining.New York,USA,2008:139-148

[4]Malik H,Fradkin D,Moerchen F.Singe pass text classification bydirect feature weighting.Knowledge and Information Systems,2011,28:79–98

[5]Guan Hu,Zhou Jingyu,Guo Minyi.A class-feature-centroid classifierfor text categorization//Proceedings of the 18th internationalconference on World Wide Web.Madrid,Spain,2009:201-210

[6]Malik H.Improving hierarchical SVMs by hierarchy flattening and lazyclassification//Proceedings of the Large-Scale HierarchicalClassification Workshop in 32nd European Conference on InformationRetrial.Milton Keynes,UK,2010:1-12

[7]Fan Ronf-En,Chang Kai-Wei,Hsieh Cho-Jui,et al.LIBLINEAR:alibrary for large linear classification.Journal of Machine LearningResearch,2008,9:1871-1874

Claims

1.一种基于贪心策略和启发式算法搜索候选类别的方法，用以从测试文档中搜索出候选类别，其特征在于，其包括以下步骤：

其中，