CN103488707A - 一种基于贪心策略和启发式算法搜索候选类别的方法 - Google Patents

一种基于贪心策略和启发式算法搜索候选类别的方法 Download PDF

Info

Publication number
CN103488707A
CN103488707A CN201310405219.5A CN201310405219A CN103488707A CN 103488707 A CN103488707 A CN 103488707A CN 201310405219 A CN201310405219 A CN 201310405219A CN 103488707 A CN103488707 A CN 103488707A
Authority
CN
China
Prior art keywords
sub
classification
candidate
trannum
img
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310405219.5A
Other languages
English (en)
Other versions
CN103488707B (zh
Inventor
何力
贾焰
杨树强
周斌
韩伟红
李爱平
韩毅
李莎莎
丁兆云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310405219.5A priority Critical patent/CN103488707B/zh
Publication of CN103488707A publication Critical patent/CN103488707A/zh
Application granted granted Critical
Publication of CN103488707B publication Critical patent/CN103488707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的基于贪心策略和启发式算法搜索候选类别的方法,属于互联网技术领域,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

Description

一种基于贪心策略和启发式算法搜索候选类别的方法
技术领域
本发明属于互联网技术领域,具体涉及一种基于贪心策略和启发式算法搜索候选类别的方法。
背景技术
以互联网为代表的信息革命极大改变了人们的生活、生产方式,社会对网络信息系统的依赖也日益增强。然而,互联网的自由性、开放性、迅捷性以及低廉的成本和高额的利润同时也使其成为了有害信息发育繁殖的沃土。各种令人不安的信息如湍急暗流隐藏在互联网信息大潮下,包括色情、邪教、赌博、毒品、虚假新闻、宣扬暴力在内的各种有害信息充斥于互联网上。因此,对网络和信息的安全管理与控制尤为关键。
基于互联网分类目录的网络访问控制是网络安全管理的一种重要技术手段,通过建立全面、精确的互联网分类目录,可以实现快速、精细的网络访问控制。互联网分类目录按照一个概念或主题类别层次将海量网页信息组织为网络资源分类目录,以更好地搜索、访问和管理这些网络资源,例如开放目录专案(Open Directory Project,简称ODP目录)、雅虎目录(Yahoo!Directory)等。要自动构建网络资源目录,就需要实现对互联网上未知类别信息的分类,这里的信息类别一般被组织为一个层次式结构,典型的是一棵树(tree)或者有向无环图(Directed Acyclic Graph),这种类别层次一般规模巨大,其类别数目可以达到数千、甚至数万之多。面向网页的大规模层次分类技术(large scalehierarchical classification)就是研究如何按照这样一个规模巨大的类别层次对网页进行准确分类,因此,大规模层次分类技术是构建互联网分类目录的基础,是构建健康、和谐的互联网环境的重要技术手段,同时也是很多网络应用的基础,包括绿色上网、网络信誉管理、安全过滤等。
类别层次规模巨大是大规模层次分类技术面临的一个主要挑战,大规模层次分类问题求解方法的不同主要体现在对这一挑战性问题的处理策略上,目前有三种处理策略:全局处理策略(overall-conquer)、分而治之的策略(divide-and-conquer)和化繁为简的策略(reduce-and-conquer)。整体处理策略将所有类别作为一个整体,在整个数据集上进行分类的学习,然后对待分类文档进行分类。分而治之策略按照类别层次将一个大规模的全局分类问题分解为一个个小规模的局部分类问题,然后分别进行分类的学习,对待分类文档进行自上而下的分类。化繁为简的策略通过搜索类别层次中所有与待分类文档相关的类别,然后在所有候选类别上进行分类的学习和预测,将一个大规模的分类问题降低为一个小规模的分类问题。
采用化繁为简策略的分类方法:首先根据待分类文档搜索候选类别,然后根据候选类别的样本训练分类器并对待分类文档进行分类,因此,这种方法又被称为两阶段分类方法,其核心思想是通过减小分类器学习的类别数目以提高分类准确率。两阶段方法基于这样一个假设:在一棵大规模类别层次树中,给定一个文档,其相关类别数量远少于不相关类别。两阶段分类方法的优点是通过候选搜索有效减小了数据规模,因此可以灵活的选择分类方法和分类器,分类准确率比较高,因此在大规模层次分类问题中应用的较为广泛。但是这种优点是建立在候选类别搜索正确的前提之上的,因为其中的分类依赖于候选搜索的准确性,要确保分类正确,就应当使计算出来的候选类别集合包含待分类文档的真实类别,因此,候选类别搜索是大规模层次分类中的一项关键技术,然而已有的两阶段分类方法并未对候选搜索方法进行深入研究。
发明内容
针对现有技术存在的问题,本发明旨在提供一种基于贪心策略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而,准确地搜索出候选类别。
本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,用以从测试文档中搜索出候选类别,其包括以下步骤:
步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合F={f1,f2,...fm},类别集合L={l1,l2,...lr};
步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;
步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G,并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:
S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d),如果
Figure BDA0000378307300000032
即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分(score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2)计算样本类别的每个特征值的并用g(Δ,tj)对样本类别的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化
Figure BDA0000378307300000042
其中,所述类别相关性得分采用内积或者余弦相似度计算,采用词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;
S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值,则迭代终止;
步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的候选类别集合,即为要找到候选类别集合;
其中,
Figure BDA0000378307300000043
其中,|I|为样本总数,Vk(di)可根据以下算出:对于候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0;对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。
本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,其具有以下技术效果:
本发明提供的基于贪心策略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。
附图说明
图1为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的流程简图;
图2为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试数据的类别分布图;
图3为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试数据的文档分布图;
图4为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应用实施例中的测试结果。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案:
针对现有技术存在的问题,本发明旨在提供一种基于贪心策略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而,准确地搜索出候选类别。
请参阅图1,针对现有技术存在的问题,本发明旨在提供一种基于贪心策略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而,准确地搜索出候选类别。
本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,用以从测试文档中搜索出候选类别,其包括以下步骤:
步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合F={f1,f2,...fm},类别集合L={l1,l2,...lr};
步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足
Figure BDA0000378307300000061
通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;
步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G,并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:
S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d),如果
Figure BDA0000378307300000062
即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分(score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2)计算样本类别的每个特征值的
Figure BDA0000378307300000071
并用g(Δ,tj)对样本类别的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化
Figure BDA0000378307300000072
其中,所述类别相关性得分采用内积或者余弦相似度计算,采用词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;
S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值,则迭代终止;
步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的候选类别集合,即为要找到候选类别集合;
其中,
Figure BDA0000378307300000073
其中,|I|为样本总数,Vk(di)可根据以下算出:对于候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0;对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。
以下为启发式算法程序化过程:
Algorithm Heuristic-Learning(I,F,L,k)
Initial weight-matrix G according I,F and L.
Compute Vk for G.
WHILE((Vk<δ)&&(iterations count<N)):
FOR each document d∈I:
FOR each category l∈L:
scorel(d)=Inner Product(d,wl).
Sort descending categories in L by score(d).
E(d)=the top-k categories.
FOR each category c∈label(d):
IF c∈E(d),THEN
Correct-Error(c,d).
Compute Vk.
END.
以下为贪心策略程序化过程:
Algorithm Correct-Error(c,d)
Δ=score(d)max-scorec(d).
FOR each fj∈F,
g ( Δ , t j ) = ρ * ( t j Σ i = 1 m t i 2 * Δ ) .
wcj’=wcj+g(Δ,tj).
FOR each fj∈F,
w cj = w cj , Σ i = 1 m w ci , .
应用实施例
由于大规模层次分类问题目前还没有公认的测试数据集和评价标准,本实施例根据大规模层次分类问题在实际应用中的需求以及国家对互联网内容安全监管的需要,采用ODP简体中文网站作为实验对象,以Vk作为候选搜索算法的评价标准,本应用实施例包括数据预处理和候选搜索方法测试比较两部分。
ODP简体中文网站目录是一个深度为6层的类别层次树,包括参考、商业、休闲、体育、健康、计算机、新闻、家庭、社会、游戏、艺术、购物、科学13个大类,1763个类别,整个目录包括24570个网站。我们按照ODP中的网站URL进行爬取,然后对采集到的网页进行解析、分词和停用词过滤,最终将每个网站表示为一个文档,测试数据的类别分布图如图2和文档分布图如图3所示。
网页文档是一种高维数据,我们所采用的数据集在数据预处理之后包含大约20万个中文单词,因此需要进行特征降维以解决文本特征向量高维问题,本实施例采用特征词子集选择方法以实现特征降维,且具体采用基于词频逆文档频率值的方法,另外我们发现在实验中,当特征词数量大于3500时,通过增加特征词数量已经难以有效提高算法的性能,因此取特征词数目为3500。
实验使用的是一台处理器为P8700,内存8G的PC机,实验时,先将数据集随机分为10份,其中1份为测试集,其余作为训练集,然后计算Vk,如此反复10次,以这10次的平均值作为最终结果,并与已有候选搜索方法进行测试比较,这些方法包括词频向量方法TF(具体可参见[1])、TFIDF(具体可参见[2]和[3])、IG&DF(具体可参见[4])、DFICF(具体可参见[5])以及HSVM(具体可参见[6]),对于这些方法,我们分别按照相关工作中所述算法进行了实现,SVM采用的是台湾大学林智仁教授的LibLinear(具体可参见[7])的Java版本,具体为LibLinear类型4的多类别线性SVM分类器,为了提高算法效率,修改了算法的语料读取接口。为了便于比较HL算法的收敛性,我们还实现了一个基本算法SH(Simple-Heuristic algorithm),最终得到的不同候选搜索方法的测试结果如图4的表格所示,包括V1、V10、学习时间和测试时间,参数p表示算法的迭代次数。
由图4可知:HSVM的V1值最大,但其V10并不理想,这是因为HSVM在自上而下的递归求解过程中,难以找到全局的top-k类别,HL算法V10值最大,达到了0.905,相比已有方法提高了7.5%左右。显然,对于候选搜索问题,V10相比V1更具参考价值,因为候选搜索的最终目标是根据候选类别训练分类器以对待分类文档分类,所以应该以V10作为评价候选搜索方法好坏的主要指标。
本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,其具有以下技术效果:
本发明提供的基于贪心策略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。
[1]Xue GR,Xing DK,Yang Q,et al.Deep classification in large-scaletext hierarchies//Proceedings of the31st Annual International ACMSIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:619–626
[2]Oh H,Choi Y,Myaeng S.Combining global and local information forenhanced deep classification//Proceedings of the25th ACM SIGAPPSymposium on Applied Computing.Sierre,Switzerland,2010:1760–1767
[3]Xing Dikan,Xue Gui-Rong,Yang Qiang,et al.Deep classifier:automatically categorizing search results into large-scalehierarchies//Proceedings of the1st ACM International Conference onWeb Search and Data Mining.New York,USA,2008:139-148
[4]Malik H,Fradkin D,Moerchen F.Singe pass text classification bydirect feature weighting.Knowledge and Information Systems,2011,28:79–98
[5]Guan Hu,Zhou Jingyu,Guo Minyi.A class-feature-centroid classifierfor text categorization//Proceedings of the 18th internationalconference on World Wide Web.Madrid,Spain,2009:201-210
[6]Malik H.Improving hierarchical SVMs by hierarchy flattening and lazyclassification//Proceedings of the Large-Scale HierarchicalClassification Workshop in 32nd European Conference on InformationRetrial.Milton Keynes,UK,2010:1-12
[7]Fan Ronf-En,Chang Kai-Wei,Hsieh Cho-Jui,et al.LIBLINEAR:alibrary for large linear classification.Journal of Machine LearningResearch,2008,9:1871-1874

Claims (1)

1.一种基于贪心策略和启发式算法搜索候选类别的方法,用以从测试文档中搜索出候选类别,其特征在于,其包括以下步骤:
步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合F={f1,f2,...fm},类别集合L={l1,l2,...lr};
步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足通过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;
步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G,并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:
S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d),如果
Figure FDA0000378307290000012
即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分(score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2)计算样本类别的每个特征值的
Figure FDA0000378307290000013
并用g(Δ,tj)对样本类别的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化
Figure FDA0000378307290000021
其中,所述类别相关性得分采用内积或者余弦相似度计算,采用词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;
S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值,则迭代终止;
步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的候选类别集合,即为要找到候选类别集合;
其中,
Figure FDA0000378307290000022
其中,|I|为样本总数,Vk(di)可根据以下算出:对于候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0;对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。
CN201310405219.5A 2013-09-06 2013-09-06 一种基于贪心策略和启发式算法搜索候选类别的方法 Active CN103488707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310405219.5A CN103488707B (zh) 2013-09-06 2013-09-06 一种基于贪心策略和启发式算法搜索候选类别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310405219.5A CN103488707B (zh) 2013-09-06 2013-09-06 一种基于贪心策略和启发式算法搜索候选类别的方法

Publications (2)

Publication Number Publication Date
CN103488707A true CN103488707A (zh) 2014-01-01
CN103488707B CN103488707B (zh) 2017-09-01

Family

ID=49828933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310405219.5A Active CN103488707B (zh) 2013-09-06 2013-09-06 一种基于贪心策略和启发式算法搜索候选类别的方法

Country Status (1)

Country Link
CN (1) CN103488707B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984756A (zh) * 2014-05-29 2014-08-13 重庆大学 基于半监督概率潜在语义分析的软件变更日志分类方法
CN106775694A (zh) * 2016-12-08 2017-05-31 中国科学院软件研究所 一种软件配置代码制品的层次分类方法
CN108182181A (zh) * 2018-02-01 2018-06-19 中国人民解放军国防科技大学 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN109521447A (zh) * 2018-11-16 2019-03-26 福州大学 一种基于贪心策略的失踪目标搜索方法
CN111695728A (zh) * 2020-06-04 2020-09-22 南京音飞峰云科技有限公司 基于机器学习的密集库设备调度策略参数动态调优方法
CN112579583A (zh) * 2020-12-14 2021-03-30 中山大学 一种面向事实检测的证据与声明联合抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050179694A1 (en) * 2004-02-13 2005-08-18 Fujitsu Limited Drawing comparison apparatus
CN101178721A (zh) * 2007-10-12 2008-05-14 北京拓尔思信息技术有限公司 一种对论坛中有用帖子信息进行分类并整理的方法
CN101751433A (zh) * 2008-12-22 2010-06-23 汉王科技股份有限公司 名片字符条目分类方法与装置
CN102306298A (zh) * 2011-07-19 2012-01-04 北京航空航天大学 一种基于Wiki的图像分类体系动态演化方法
CN103177292A (zh) * 2011-12-21 2013-06-26 重庆金美通信有限责任公司 一种基于混合遗传算法的地铁乘务排班算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050179694A1 (en) * 2004-02-13 2005-08-18 Fujitsu Limited Drawing comparison apparatus
CN101178721A (zh) * 2007-10-12 2008-05-14 北京拓尔思信息技术有限公司 一种对论坛中有用帖子信息进行分类并整理的方法
CN101751433A (zh) * 2008-12-22 2010-06-23 汉王科技股份有限公司 名片字符条目分类方法与装置
CN102306298A (zh) * 2011-07-19 2012-01-04 北京航空航天大学 一种基于Wiki的图像分类体系动态演化方法
CN103177292A (zh) * 2011-12-21 2013-06-26 重庆金美通信有限责任公司 一种基于混合遗传算法的地铁乘务排班算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI HE.ETC: "Improving deep classification by centroid-based candidate selection strategy", 《INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 *
XUE GUI-RONG.ETC: "Deep Classification in Large-scale Text Hierarchies", 《PROCEEDINGS OF THE 31ST ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFOMATION RETRIEVAL》 *
何力等: "大规模层次分类问题研究及其进展", 《计算机学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984756A (zh) * 2014-05-29 2014-08-13 重庆大学 基于半监督概率潜在语义分析的软件变更日志分类方法
CN103984756B (zh) * 2014-05-29 2017-04-12 重庆大学 基于半监督概率潜在语义分析的软件变更日志分类方法
CN106775694A (zh) * 2016-12-08 2017-05-31 中国科学院软件研究所 一种软件配置代码制品的层次分类方法
CN106775694B (zh) * 2016-12-08 2019-10-25 中国科学院软件研究所 一种软件配置代码制品的层次分类方法
CN108182181A (zh) * 2018-02-01 2018-06-19 中国人民解放军国防科技大学 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN108182181B (zh) * 2018-02-01 2021-03-26 中国人民解放军国防科技大学 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN109521447A (zh) * 2018-11-16 2019-03-26 福州大学 一种基于贪心策略的失踪目标搜索方法
CN109521447B (zh) * 2018-11-16 2022-10-14 福州大学 一种基于贪心策略的失踪目标搜索方法
CN111695728A (zh) * 2020-06-04 2020-09-22 南京音飞峰云科技有限公司 基于机器学习的密集库设备调度策略参数动态调优方法
CN112579583A (zh) * 2020-12-14 2021-03-30 中山大学 一种面向事实检测的证据与声明联合抽取方法
CN112579583B (zh) * 2020-12-14 2022-07-29 中山大学 一种面向事实检测的证据与声明联合抽取方法

Also Published As

Publication number Publication date
CN103488707B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
Wu Advances in K-means clustering: a data mining thinking
US8577823B1 (en) Taxonomy system for enterprise data management and analysis
CN103488707A (zh) 一种基于贪心策略和启发式算法搜索候选类别的方法
CN109714341A (zh) 一种Web恶意攻击识别方法、终端设备及存储介质
Han et al. Image annotation by input–output structural grouping sparsity
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
KR20200017575A (ko) 유사 특허 검색 서비스 시스템 및 방법
CN113901376B (zh) 恶意网站检测方法、装置、电子设备和计算机存储介质
US9569525B2 (en) Techniques for entity-level technology recommendation
CN107193915A (zh) 一种企业信息分类方法及装置
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN109492093A (zh) 基于高斯混合模型和em算法的文本分类方法及电子装置
Huang et al. Improving biterm topic model with word embeddings
CN109063478A (zh) 可移植的可执行文件的病毒检测方法、装置、设备及介质
Budhiraja et al. A supervised learning approach for heading detection
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
Kotouza et al. A dockerized framework for hierarchical frequency-based document clustering on cloud computing infrastructures
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN112434009A (zh) 端到端的数据探查方法、装置、计算机设备和存储介质
Sun et al. Text tendency analysis based on multi-granularity emotional chunks and integrated learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant