CN104331498B - 一种对互联网用户访问的网页内容自动分类的方法 - Google Patents

一种对互联网用户访问的网页内容自动分类的方法 Download PDF

Info

Publication number
CN104331498B
CN104331498B CN201410663630.7A CN201410663630A CN104331498B CN 104331498 B CN104331498 B CN 104331498B CN 201410663630 A CN201410663630 A CN 201410663630A CN 104331498 B CN104331498 B CN 104331498B
Authority
CN
China
Prior art keywords
text
training
web page
sample
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410663630.7A
Other languages
English (en)
Other versions
CN104331498A (zh
Inventor
孙洋
冯先宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asialnfo Technology (nanjing) Co Ltd
Original Assignee
Asialnfo Technology (nanjing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asialnfo Technology (nanjing) Co Ltd filed Critical Asialnfo Technology (nanjing) Co Ltd
Priority to CN201410663630.7A priority Critical patent/CN104331498B/zh
Publication of CN104331498A publication Critical patent/CN104331498A/zh
Application granted granted Critical
Publication of CN104331498B publication Critical patent/CN104331498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种对互联网用户访问的网页内容自动分类的方法,基于文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网页样本的自动分类。本发明能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题,决策系统也解决了单个分类器带来的分类不准的问题,由于很多操作可以采用并行的MapReduce架构,所以大大减小了分类器的训练时间,分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。

Description

一种对互联网用户访问的网页内容自动分类的方法
技术领域
本发明属于计算机技术领域,涉及网络技术,为一种对互联网用户访问的网页内容自动分类的方法。
背景技术
随着移动互联网信息的迅猛发展,面对上亿级的海量信息,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源,海量信息的挖掘成为了科学技术发展和人类生活质量进一步提高的瓶颈,文本自动分类作为挖掘的基础也成为现代信息处理研究的一大研究热点。
文本自动分类系统经历了三个里程碑阶段:
阶段一:知识工程法。最初大多使用知识工程的方法建立自动分类系统,即利用专家规则来进行分类,这样需要花费大量的人力、物力制定规则,而且只能在有限的领域内发挥作用,对于上亿级的数据更是束手无策;
阶段二:统计方法与机器学习相结合。九十年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法,但统计方法是从事物的外在数量上的表现去推断该事物可能的规律性,它主要考虑测试预想的假设和数据模型拟合,依赖于显式的基本概率模型。所以在实际问题中,样本数量往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意,而且分类结果的准确率很低,原因在于机器学习方法较少考虑文本的语义信息。
阶段三:统计学习理论与机器学习相结合。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设,但与传统统计学相比,统计学习理论就是研究小样本统计估计和预测,建立在一套较坚实的理论基础之上,为解决有限样本学习问题提供了一个框架。统计学习理论主要包括四个方面:(1)经验风险最小化准则下统计学习一致性的条件;(2)学习过程收敛速度的理论;(3)学习过程泛化能力的理论,即建立的小样本归纳推理准则;(4)实现新的准则的实际方法(算法)。
针对目前移动互联网的大数据,人为的干预已经不能满足要求,如何能够获得一套既解放人力又能够分类准确的文本分类系统,为以后对用户上网浏览网页打上准确的类别标签,这样对以后分析用户的行为,挖掘用户潜在价值等提供夯实的基础。目前有很多的文本分类器应用到文本当中,但是对于大规模的网页文本分类过程中存在分类规模小、文本数据稀疏、数据维度高无法解决的、分类器运行一段时间后分类效果差的缺陷。
发明内容
本发明要解决的技术问题是:随着互联网技术的发展,现有的文本自动分类系统对于大规模的网页文本分类过程中存在分类规模小、文本数据稀疏、数据维度高无法解决的、分类器运行一段时间后分类效果差的缺陷。
本发明的技术方案为:一种对互联网用户访问的网页内容自动分类的方法,基于文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网页样本的自动分类,包括以下步骤:
1)训练网页文本分类器,构建分类模型,得到决策系统:首先从用户访问的网页内容中抽取训练样本集,用于训练网页文本分类器,训练样本集中,训练语料通过定向爬虫定向爬取获得,采用支持向量机对爬取的训练语料实施预处理,通过挑选最可能为支持向量的训练样本,或筛减最不可能为支持向量的训练样本,或所述两种方法同时采用,来实现训练样本集的减小,然后进行以下步骤训练网页文本分类器:
11)抽取训练样本:
采用聚类算法K-MEANS,首先将训练语料按照互联网网页固有的类别划分成N个大类,设定K值和阈值,然后分别对每个大类进行聚类,类簇中心点和到中心点的距离小于阈值的样本点组成一个子类,得到K个子类,依次对N个大类进行聚类,一共聚出N*K个子类,然后从N*K个子类中每类随机抽取M篇作为训练语料;
12)特征选择:
网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容,特征词的衡量标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要;使用特征词直接代表正文,降低处理数据量和空间维度,减少数据稀疏问题;特征选择的过程为:将样本的网页正文中每个词作为一个特征词候选,首先通过分词后的词性过滤和去停用词两种策略筛掉一部分的特征词候选;然后采用信息增益选择特征向量,对每个特征词候选计算信息增益公式为:
IG(T)=Entropy(C)-Entropy(C|T) (1)
其中T表示特征词候选,C表示网页文本内容的类别;
Entropy(C)表示包含所有特征词候选时的信息量;
Entropy(C|T)表示特征词候选T已经完全确定时的信息量,其中包含两种情况:一种是特征词候选T出现标记为t,一种是特征词候选T不出现标记为t',所以
Entropy(C|T)=P(T)Entropy(C|t)+P(T')Entropy(C|t'); (2)
其中Entropy()是信息熵公式;求得Entropy(C|T)和Entropy(C),最后得到每个特征词候选的信息增益IG(T),对所有特征词候选按照信息增益值进行由大到小排序,取前3000维构成一个特征词库;将所有训练样本中的网页正文使用特征词库表示后,进行文本分类器的训练;
13)使用支持向量机训练文本分类器,构建决策系统,决策系统包括由不同训练样本集训练得到的多个文本分类器;
2)对未知网页正文进行分类:首先将分类器训练出的决策系统读入到分类系统中,然后进行以下步骤:
21)首先经过Nutch适配器,Nutch适配器包括模板抽取、最大正文抽取和PDF抽取手段,根据网页的结构来自动选择适合的方法,然后抽取出网页正文;
22)对抽取出的正文,进行文本分词,表示为词汇空间;
23)通过文本分类器训练过程构建的特征词库来过滤词汇空间的特征词,通过词汇空间将未知网页的网页正文映射到特征词库构成的特征向量空间中;
24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类,按照决策森林的方法投票表决网页正文最终的分类结果。
进一步的,定时自适应获得新样本,训练增强文本分类器:
如果某个网页样本点已经被准确地分类,那么在选入样本训练集中的概率就被降低或者不变;相反,如果某个网页样本点没有被准确地分类,那么它被选中的概率被提高;将文本分类器分类错误的或者分类模糊的网页文本作为新样本,加入原有训练样本集,得到新的训练样本集,当新的训练样本集达到设定的规模,自动重新依据步骤1)训练网页文本分类器。
对于移动互联网这个大数据平台来说,选择支持向量机(SVM)的模型理论无疑是一个非常好的文本分类方式,从算法本身已体现了它独特的优点,只需要确立最优的分类间隔,而最终的支持向量是两类样本中离分类面最近且平行于最优分类超平面的样本点,所以在文本分类过程中只是与支持向量做计算,所以计算过程会非常快。
但是支持向量机虽然分类过程很快,但是使用网页文本内容作为样本训练过程却出现时间和空间复杂度比较高,所以本发明在网页样本和空间维度上着手做改进。样本上选取训练网页样本集的时候引入常用聚类算法,这样降低了网页样本集的数量,也让参加训练的网页样本差异比较明显质量比较高;空间上使用特征选择方式,将作为样本的网页文本使用特征词来表示,映射到特征空间中,降低了空间维度和算法的复杂度;借助于决策森林思想构建决策系统,将训练集按随机划分成若干子集,并行在每个子集上训练支持向量机模块,采取多分类器投票策略,训练出多个分类器。由于很多工作都可以并行,所以采用MapReduce并行架构;
更进一步的,本发明自适应获得新样本增强分类器,在对网页文本分类工程中,自动“聚焦于”那些分类错误或分类模糊的样本上,获得新的样本集,为下一轮的文本分类器提供更有价值的训练样本。
本发明具有以下特点及有益效果:
1、训练文本分类器过程中,抽取训练样本集,使用聚类算法解决样本数据量过大问题,抽取更方便计算的样本集;
2、训练文本分类器过程中,通过特征选择,降低空间维度,减少数据稀疏问题,降低分类器训练过程中维度过高问题;
3、文本分类器过程中,借助于决策森林思想构建决策系统,采取多分类器投票策略,提高分类准确率;
4、文本分类器更新,自适应获得新的网页文本样本增强分类器,做到定期更新使得分类更加准确。
附图说明
图1为训练网页文本分类器,构建分类模型的流程图。
图2为对未知网页正文进行分类的流程图。
图3为支持向量机的示意图,(a)为随意的分类线,(b)为最优分类线及支持向量。
图4为二维图像映射到三维图像的示意图,(a)为二维图,(b)为三维图。
具体实施方式
本发明是一套依据支持向量机这种统计学习理论,借助于决策森林的多数投票策略,通过对有限的互联网用户访问的网页内容样本进行有监督的机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,自动定期训练分类器。这套分类系统既有严格的理论基础,又能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题,决策系统也解决了单个分类器带来的分类不准的问题,由于很多操作可以采用并行的MapReduce架构,所以大大减小了分类器的训练时间,分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。
本发明对移动互联网数据通过文本自动分类器自动分类,下面通过实施例进行具体说明:
一、首先是训练网页文本分类器,构建分类模型如图1给出。
用户访问的网页内容作为训练语料的作用有两点,一个是抽取部分样本来训练文本分类器,另一个是使用未参与训练的样本对文本分类器进行开放测试。
由于用户访问的网页数量过大,所以抽取训练样本集:训练语料是通过定向爬虫定向爬取获得的,对训练语料的要求是保证语料的数量多、语涵盖的范围广,比如做体育的语料中,最好涵盖足球、篮球、羽毛球、游泳等各项体育类别,但是这样就要求大量的人完成这样的工作,工作强度非常高,所以提出使用聚类来帮助训练语料的抽取工作。通过挑选最可能为支持向量的训练样本或筛减最不可能为支持向量的训练样本或以上两种方法同时采用对训练集实施预处理,以实现训练集规模的减小,实现训练过程的加速。
步骤一:训练样本抽取过程:
引入常用聚类算法KMEANS,首先将训练语料按照互联网网页固有的类别,例如体育、育儿、财经等网页的类别,划分成N个大类,设定K值和阈值。然后分别对每个类进行聚类,中心点和到中心点的距离小于此阈值的样本点组成一个子类,会聚出K个子类,通过这种方法,依次对N个大类进行聚类,一共会聚出N*K个子类,然后从N*K个子类中每类随机抽取M篇作为训练语料,这样保证语料的数量多、语涵盖的范围广。由于每个类之间动作一样互不干预所以可以使用MapReduce并行架构。
自然语言对中文的处理是将训练样本网页正文中每个词为一维映射到向量空间(VSM)中,即使对互联网网页使用了聚类方式抽取样本降低了训练样本过大的问题,但是向量空间也面临着维度特别多和数据稀疏问题,所以如何能够将几百万甚至几千万维度的空间向量降低到几千或者几万维度,将会大大减少文本分类器训练和分类的空间开销,降低计算复杂度,所以对网页正文我们采取特征选择方式。
步骤二:特征选择:
网页文本分类器内的特征选择是指使用一些意义比较明确的词汇代表网页正文内容的,特征词的衡量标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要,例如足球、儿童这样的词汇类别比较明显。这样使用特征词直接代表正文,处理数据量和空间维度迅速降低,同时也减少数据稀疏问题。
特征选择的过程为:对作为样本的网页正文中每个词作为一个特征词,首先通过分词后的词性过滤和去停用词两种策略简单去掉一批无关紧要的特征词;然后引入了特征选择,系统中采用信息增益选择特征向量,对一个特征而言,系统有它和没它时信息量(熵)将发生变化,而前后信息量的差值就是这个特征给系统带来的信息增益。
对每个特征词计算信息增益公式为:
IG(T)=Entropy(C)-Entropy(C|T) (1)
其中T表示特征词,C表示网页文本内容的类别;
Entropy(C)表示包含所有特征词时系统的信息量;
Entropy(C|T)表示特征T已经完全确定时系统的信息,其中包含两种情况:一种是特征T出现标记为t,一种是特征T不出现标记为t',所以
Entropy(C|T)=P(T)Entropy(C|t)+P(T')Entropy(C|t'); (2)
其中Entropy(x)是信息熵(Entropy)公式:
Entropy(x)=-∑p(xi)log(p(xi)) (3)
一般用符号Entropy表示,用来衡量单一事件发生时所包含的信息量的多少,如果事件发生的机率是P(x),则信息本体的定义就是:-log(P(x)),信息熵公式为现有技术,不再详述。
将公式(3)的形式带入(2),求得Entropy(C|T),在将公式(3)的形式带入求得Entropy(C),最后得到每个T特征的信息增益IG(T),对所有特征按照信息增益值进行由大到小排序,取前3000维构成一个特征词库。
这样所有的网页正文样本,包括以后待分类的网页正文都要映射到这几千维的特征空间上,也就是通过这3000维的特征词来表示每一篇网页正文。这样将所有训练样本中的网页正文使用特征词表示后,进行文本分类器的训练。
步骤三:使用支持向量机训练得到文本分类器,构建决策系统,决策系统包括由不同训练样本集训练得到的多个文本分类器:
图3给出支持向量机(SVM)如下的定义:
定义一:L为分类线,L1、L2分别为过各类中离分类线最近的样本且平行于分类线的直线,他们之间的距离叫做分类间隔。
定义二:最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。
定义三:两类样本中离分类面最近的点且平行于最优分类超平面的样本点叫做支持向量。
支持向量机数学表示:
已知:N个观测线性可分样本(x1,y1),(x2,y2),…,(xn,yn),
其中xi训练样本中第i篇网页正文样本的特征向量,yi表示该网页正文的类别,n表示样本数量。
求解:
目标:最优分类面wT·x+b=0
使用支持向量机训练样本为现有技术,也不再详述。
实际在使用网页正文训练文本分类器过程中,特征向量维数很高而且是非线性的,所以需要提供一种手段,能够有效的将非线性问题转换为线性问题,由此引入了核函数(一种非线性映射),将输入特征变量映射到一个高维特征空间,实现将低维空间的非线性不可分问题映射到高维空间则可能变成线性可分,然后在变换空间中寻找最优分类超平面,二维到三维的映射如图4所示,φ(x)表示核函数。常见的内核函数有如下几种:线性内核、径向基函数、内核多项式内核、S形内核,在本发明中使用的是线性核函数,实验证明核函数的引入在计算最优分类面中并没有增加计算复杂度。
引用支持向量机训练的文本分类器的优点:从支持向量机的理论模型可以看出它是一种非常快速的文本分类方法:(1)支持向量机明确提出一个分类间隔概念,并把使分类间隔最宽作为确定线性分界面的最佳原则。(2)分类间隔又有线性可分作条件,只需找到处在分类间隔边缘上的点,以便确定最优的分类间隔就行,而其它数据点的作用,只是要求所确定的分类间隔能保证把它们置在分类间隔外确定的一方就行。(3)数据点就分成两部分,一种对确定分类间隔参数很重要,而另一类(一般说占数据的大部分)对确定隔离带的参数没有直接的影响,在这个意义上说它们对确定隔离带参数无关紧要。
局限:支持向量机在机器学习中显示了很多优点,但是人们使用其来处理海量的网页文本时发现存在以下局限性:(1)由于支持向量机的训练过程实质是求解一个二次规划问题,其求解时间复杂度为O(N3)。由于要存储核矩阵,空间复杂度为O(N2)。当网页正文训练集规模巨大时,支持向量机的训练时间会太长,同时核矩阵的规模太大将导致内存空间不足;(2)支持向量机的训练结果是用支持向量表示的,当支持向量数目太大将导致超出内存限制,使得分类器不能全部装入内存,影响分类器的使用;(3)集中表示的分类器存在分类倾向的问题;
改善:针对处理互联网大规模的网页文本时存在的问题,本发明从以下几个方面改善:
(1)序贯最小化方法(SMO),求解二次规划问题,解决内存问题:J.PLATT提出了SMO(Sequential Minimal Optimization)算法,该算法将工作集的规模减小到最小,每次只优化两个拉格朗日乘子,同时固定其他拉格朗日乘子。由于两个变量的最优化问题可以解析求解,在算法中不需要使用数值计算方法求解二次规划问题,因此内循环只需很少的计算。引入缓存策略,每次联合优化过程,需要用到上一次优化后的偏置和边界样本决策。因此,每次优化完成后,需要重新计算偏置;而边界样本决策可以存储在缓存中,便于读取和更新。工作集的样本选择上J.PLATT设计了启发式算法,每次选择两个样本进入工作集,第一个为违反KKT,条件的样本,非边界样本优先;第二个为与前一个样本有最大误差的样本。本发明在支持向量机进行文本分类器的训练时,对训练样本即采取序贯最小化方法来减少训练时间。
(2)借助于决森策林思想,即构造多个文本分类器组成一个决策系统,然后采取多分类器投票策略:这种做法也可以将大规模的网页文本训练集随机划分成若干子集,并行在每个子集上训练支持向量机模块,大大缩短了单个训练器训练的时间。之后分类的过程中也需要决策系统中的每个分类器投票分类,通过多分类器投票可以大大的减少单个分类器带来分类倾向的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这个决策系统中的每一分类器都很简单,但是他们组合起来却很强大。
序贯最小化方法和决森策林的方法均为现有技术,本发明中不再详述。
这样使用用户网页的正文作为样本,通过以上三步根据不同样本训练出多个文本分类器,最终保存为一个文件系统,即决策系统,保存着分类器模型中所有的参数。
二、未知网页正文分类过程
对新来的待分类的移动互联网网页分类流程如图2(也是图1中的文本分类过程):首先将分类器训练出的网页文本分类模型文件读入到系统中,然后进行以下步骤:
步骤一:首先经过Nutch适配器,此适配器包含有模板抽取、最大正文抽取、PDF抽取等多种手段,适配器会根据网页的结构来自动选择适合的方法,然后抽取出网页正文;
步骤二:对抽取出的正文,进行文本分词,表示为词汇空间;
步骤三:通过文本分类器训练过程的特征选择步骤构建的特征词库来过滤特征词,最终将文本映射到特征向量空间中;
步骤四:经过决策系统内的多个文本分类器投票表决最终的分类结果。
三、自适应获得新样本增强分类器
文本分类器在对网页文本分类一段时间后会出现分类准确率降低的现象,因为作为训练的网页文本样本都是时间比较早,内容比较落后,而且也极有可能会出现新的类别,对于日新月异的网页新内容为了保证分类质量,引入文本分类器一个增量学习的过程,这样不断添加扩充新的网页样本使分类器更准确。
我们借助于自适应增强的思想:如果某个网页样本点已经被准确地分类,那么在选入样本训练集中的概率就被降低或者不变;相反,如果某个网页样本点没有被准确地分类,那么它被选中的概率被提高。通过这样的方式,能“聚焦于”那些较难分(更富信息)的样本上。所以最终会人工评估对分类器算法最终分类错误的或者分类模糊(不确定性大)的网页文本作为新样本,然后加入到新的训练样本集中,当样本集达到一定的规模,自动重新训练网页文本分类器。

Claims (1)

1.一种对互联网用户访问的网页内容自动分类的方法,其特征是基于文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网页样本的自动分类,包括以下步骤:
1)训练网页文本分类器,构建分类模型,得到决策系统:首先从用户访问的网页内容中抽取训练样本集,用于训练网页文本分类器,训练样本集中,训练语料通过定向爬虫定向爬取获得,采用支持向量机对爬取的训练语料实施预处理,通过挑选最可能为支持向量的训练样本,或筛减最不可能为支持向量的训练样本,或所述两种方法同时采用,来实现训练样本集的减小,然后进行以下步骤训练网页文本分类器:
11)抽取训练样本:
采用聚类算法K-MEANS,首先将训练语料按照互联网网页固有的类别划分成N个大类,设定K值和阈值,然后分别对每个大类进行聚类,类簇中心点和到中心点的距离小于阈值的样本点组成一个子类,得到K个子类,依次对N个大类进行聚类,一共聚出N*K个子类,然后从N*K个子类中每类随机抽取M篇作为训练语料;
12)特征选择:
网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容,特征词的衡量标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要;使用特征词直接代表正文,降低处理数据量和空间维度,减少数据稀疏问题;特征选择的过程为:将样本的网页正文中每个词作为一个特征词候选,首先通过分词后的词性过滤和去停用词两种策略筛掉一部分的特征词候选;然后采用信息增益选择特征向量,对每个特征词候选计算信息增益公式为:
IG(T)=Entropy(C)-Entropy(C|T) (1)
其中T表示特征词候选,C表示网页文本内容的类别;
Entropy(C)表示包含所有特征词候选时的信息量;
Entropy(C|T)表示特征词候选T已经完全确定时的信息量,其中包含两种情况:一种是特征词候选T出现标记为t,一种是特征词候选T不出现标记为t',所以
Entropy(C|T)=P(t)Entropy(C|t)+P(t')Entropy(C|t'); (2)
其中Entropy()是信息熵公式,P()表示机率;求得Entropy(C|T)和Entropy(C),最后得到每个特征词候选的信息增益IG(T),对所有特征词候选按照信息增益值进行由大到小排序,取前3000维构成一个特征词库;将所有训练样本中的网页正文使用特征词库表示后,进行文本分类器的训练;
13)使用支持向量机训练文本分类器,构建决策系统,决策系统包括由不同训练样本集训练得到的多个文本分类器;
2)对未知网页正文进行分类:首先将分类器训练出的决策系统读入到分类系统中,然后进行以下步骤:
21)首先经过Nutch适配器,Nutch适配器包括模板抽取、最大正文抽取和PDF抽取手段,根据网页的结构来自动选择适合的方法,然后抽取出网页正文;
22)对抽取出的正文,进行文本分词,表示为词汇空间;
23)通过文本分类器训练过程构建的特征词库来过滤词汇空间的特征词,通过词汇空间将未知网页的网页正文映射到特征词库构成的特征向量空间中;
24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类,按照决策森林的方法投票表决网页正文最终的分类结果;
最后,定时自适应获得新样本,训练增强文本分类器:
如果某个网页样本点已经被准确地分类,那么在选入样本训练集中的概率就被降低或者不变;相反,如果某个网页样本点没有被准确地分类,那么它被选中的概率被提高;将文本分类器分类错误的或者分类模糊的网页文本作为新样本,加入原有训练样本集,得到新的训练样本集,当新的训练样本集达到设定的规模,自动重新依据步骤1)训练网页文本分类器。
CN201410663630.7A 2014-11-19 2014-11-19 一种对互联网用户访问的网页内容自动分类的方法 Active CN104331498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410663630.7A CN104331498B (zh) 2014-11-19 2014-11-19 一种对互联网用户访问的网页内容自动分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410663630.7A CN104331498B (zh) 2014-11-19 2014-11-19 一种对互联网用户访问的网页内容自动分类的方法

Publications (2)

Publication Number Publication Date
CN104331498A CN104331498A (zh) 2015-02-04
CN104331498B true CN104331498B (zh) 2017-08-01

Family

ID=52406225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410663630.7A Active CN104331498B (zh) 2014-11-19 2014-11-19 一种对互联网用户访问的网页内容自动分类的方法

Country Status (1)

Country Link
CN (1) CN104331498B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
CN104834940A (zh) * 2015-05-12 2015-08-12 杭州电子科技大学 一种基于支持向量机的医疗影像检查疾病分类方法
US10437871B2 (en) 2015-08-12 2019-10-08 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
CN105045924A (zh) * 2015-08-26 2015-11-11 苏州大学张家港工业技术研究院 一种问题分类方法及系统
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选系统及方法
CN106933847B (zh) * 2015-12-30 2019-12-27 北京神州泰岳软件股份有限公司 一种建立数据分类模型的方法和装置
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN106815369B (zh) * 2017-01-24 2019-09-20 中山大学 一种基于Xgboost分类算法的文本分类方法
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN107463715A (zh) * 2017-09-13 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN109919317B (zh) * 2018-01-11 2024-06-04 华为技术有限公司 一种机器学习模型训练方法和装置
CN108764961B (zh) * 2018-04-13 2022-12-23 微梦创科网络科技(中国)有限公司 广告主的分类方法及系统
CN108875365B (zh) * 2018-04-22 2023-04-07 湖南省金盾信息安全等级保护评估中心有限公司 一种入侵检测方法及入侵检测检测装置
CN108932318B (zh) * 2018-06-26 2022-03-04 四川政资汇智能科技有限公司 一种基于政策资源大数据的智能分析及精准推送方法
CN109101817B (zh) * 2018-08-13 2023-09-01 亚信科技(成都)有限公司 一种识别恶意文件类别的方法及计算设备
CN109033477A (zh) * 2018-09-12 2018-12-18 广州粤创富科技有限公司 一种宠物情绪识别方法及装置
CN109447111B (zh) * 2018-09-20 2021-12-03 杭州师范大学 一种基于子类训练样本的遥感监督分类方法
CN109408638B (zh) * 2018-10-22 2021-04-30 科大讯飞股份有限公司 定标集更新方法及装置
CN110222180B (zh) * 2019-06-04 2021-05-28 江南大学 一种文本数据分类与信息挖掘方法
CN112434208B (zh) * 2020-12-03 2024-05-07 百果园技术(新加坡)有限公司 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN112765990B (zh) * 2020-12-31 2024-01-12 平安科技(深圳)有限公司 直播弹幕实时合并方法、装置、计算机设备及存储介质
CN116701812B (zh) * 2023-08-03 2023-11-28 中国测绘科学研究院 基于区块单元的地理信息网页文本主题分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8879831B2 (en) * 2011-12-15 2014-11-04 Microsoft Corporation Using high-level attributes to guide image processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法

Also Published As

Publication number Publication date
CN104331498A (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN104331498B (zh) 一种对互联网用户访问的网页内容自动分类的方法
US9779085B2 (en) Multilingual embeddings for natural language processing
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN109948149B (zh) 一种文本分类方法及装置
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN102214246B (zh) 一种互联网上汉语电子文档阅读分级的方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN101587493A (zh) 文本分类方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN106446230A (zh) 一种优化机器学习文本中词语分类的方法
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN106407406A (zh) 一种文本处理方法和系统
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN105930416A (zh) 一种用户反馈信息的可视化处理方法及系统
CN107807958A (zh) 一种文章列表个性化推荐方法、电子设备及存储介质
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN106777193A (zh) 一种自动撰写特定稿件的方法
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Sun Yang

Inventor after: Feng Xianhong

Inventor before: Sun Yang

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant