CN102508859A - 一种基于网页特征的广告分类方法及装置 - Google Patents

一种基于网页特征的广告分类方法及装置 Download PDF

Info

Publication number
CN102508859A
CN102508859A CN2011103001303A CN201110300130A CN102508859A CN 102508859 A CN102508859 A CN 102508859A CN 2011103001303 A CN2011103001303 A CN 2011103001303A CN 201110300130 A CN201110300130 A CN 201110300130A CN 102508859 A CN102508859 A CN 102508859A
Authority
CN
China
Prior art keywords
advertisement
webpage
sample
information
sample information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103001303A
Other languages
English (en)
Other versions
CN102508859B (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES CO LTD
Izp China Network Technology Co ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201110300130.3A priority Critical patent/CN102508859B/zh
Publication of CN102508859A publication Critical patent/CN102508859A/zh
Application granted granted Critical
Publication of CN102508859B publication Critical patent/CN102508859B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于网页特征的广告分类方法和系统,该方法包括以下步骤:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;根据广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使分类结果沿所述链接网络进行传播,以获得修正后的分类结果;根据修正后的分类结果更新训练集。本发明能够充分利用已有的标注数据,避免大量重复性劳动。

Description

一种基于网页特征的广告分类方法及装置
技术领域
本发明涉及网页分类、广告分类、迁移学习等领域,具体涉及利用网页分类数据对广告进行自动分类。
背景技术
网络分类广告是充分利用计算机网络的优势,对大规模的生活实用信息,按主题进行科学分类,并提供快速检索的一种广告形式。近来,网络分类广告已成为一种新的网络广告形式,其通过采用广告分类技术来为满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求,并为广大网民提供实用、丰富、真实的消费和商务信息资源。与传统媒体分类广告相比,网络分类广告容量大,表现形式多样化、立体化,可查询、收藏信息。
目前已有广告分类技术主要分为两类,一类是利用传统的文本分类方法;另一类是针对广告领域标注数据少的特点采用迁移学习的方法。传统文本分类方法:通过对广告样本手工标注得到训练集,利用机器学习分类模型进行训练,从而得到广告分类器;迁移学习方法:在网页等标注样本比较充足而广告的标注样本获取比较困难的情况下,将网页样本的特征空间向广告域空间或公共空间进行映射,在映射后特征空间上训练分类器,从而可以利用网页的标注样本对广告样本进行分类。
传统文本分类方法需要大量的广告标注样本,从而消耗大量的人力物力,且无法充分利用已标注过的丰富网页样本。迁移学习的方法可以比较好的利用现有网页样本资源,但往往忽视了网页之间的关联及网页与广告之间的关联。
传统的广告分类技术中,广告相关的描述通常比较短,相关关键词数目也比较少,导致其特征描述不充分,不利于广告的自动分类。同时,对广告的类别标注数据非常少,训练数据严重不足。
目前还没有一种能够克服传统技术中不足的广告分类的技术。
发明内容
为克服现有技术中的不足,本发明提供了一种利用网页的标注数据实现广告的自动分类的方法和装置。本发明通过利用广告样本与网页样本之间的关联关系来对广告进行自动分类,能够提高广告分类的效率和准确率。
为了解决上述技术问题,本发明提供了一种基于网页特征的广告分类方法,其特征在于,包括以下步骤:步骤A:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;步骤B:利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;步骤D:根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;步骤E:根据修正后的分类结果更新训练集。
进一步,该方法还包括,在所述步骤A中,从所述网页样本信息中的提取的所述网页特征信息的元素包括:网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/或连接访问参数;从所述广告样本信息中提取的所述广告特征信息的元素具体包括:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。
进一步,该方法还包括,在所述步骤B中,所述共同的特征空间为:通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
进一步,该方法还包括,在所述步骤C中,所述分类结果包括:所述广告样本信息中的每个广告样本被分到各个类别中的概率。
进一步,该方法还包括,在所述步骤D中,与广告样本相关联的网页样本信息包括:展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
进一步,该方法还包括,步骤D中,针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步,该方法还包括,在所述步骤D中,所述对所述分类结果进行修正具体包括:cij(i=1,...,n,j=1,...,m)为步骤C中得到的第i个广告样本被分为第j个类别j的概率,Vi={vi1 ,...,vik}为与第i个广告样本相关联的网页样本集合,通过如下表达式来修正分类概率pij
p ij = ( 1 - α ) c ij + α * Σ l = 1 k c il Outdegree ( v ij )
其中Out deg ree(vij)为节点vij的出度,α为预设权值,0<α<1。
进一步,该方法还包括,在所述步骤E中,所述更新训练集具体包括:针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步,该方法还包括,按预定迭代次数重复步骤C至E,将迭代结束后得到的分类结果作为最终分类结果。
进一步,该方法还包括,第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
本发明还提供一种基于网页类别特征的广告分类装置,其特征在于,包括以下单元:提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;映射单元,用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;训练单元,用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;修正单元,用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;更新单元,用于根据修正后的分类结果更新训练集。
进一步,该装置还包括,所述修正单元针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步,该装置还包括,所述更新单元针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步,该装置还包括,在所述广告分类装置中将所述更新单元更新后的训练集返回给所述训练单元,通过所述训练单元和所述修正单元重新获得修正后的分类结果,所述更新单元针对所述重新获得的修正后的分类结果重新更新所述训练集,在所述训练单元、所述修正单元和所述更新单元中按预定迭代次数重复上述操作,将迭代结束后得到的分类结果作为最终分类结果。
进一步,该装置还包括,所述训练单元第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
与现有技术相比,本发明具有以下优点:
(1)能够充分利用已有的标注数据,避免大量重复性劳动;
(2)利用广告的历史投放和点击数据对分类效果的修正能够比较充分考虑广告与其所投放页面之间的语义关联;
(3)通过迭代过程可使分类结果更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是为根据本发明实施例一的基于网页特征的广告分类方法的流程图;
图2是迁移学习方法的示意图;
图3是获得共有映射特征空间的示意图;
图4是根据本发明第二实施例的基于网页特征的广告分类装置的结构图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1为根据本发明实施例一的基于网页特征的广告分类方法的流程图,下面结合图1具体说明该方法的各步骤。
步骤S110,从网页样本信息中提取网页特征信息、以及从广告样本信息中提取广告特征信息。
在本实施例中,样本是一个网页或广告,特征是对样本的描述。一个样本可以表示成(x,y),其中x就是特征向量,也称作特征信息。另外还有一个y是样本的类别标签。通常,广告样本信息不带有标注信息,网页样本信息带有标注信息。标注信息通常是根据网页内容或相关查询词所作出的,是指人工或自动对网页所属类别所做出的判断。在本步骤中,从广告样本信息和网页样本信息(下文简称为广告样本和网页样本)中提取有效的广告特征向量和网页特征向量作为网页特征信息和广告特征信息。本步骤是机器学习的重要环节,旨在从所收集到的样本数据中提取有效的特征,使这些特征能够对样本进行比较准确的描述,并对外界干扰因素具备一定的鲁棒性。
根据网页分类的特点,可以从三个角度提取网页特征向量,分别为:从网页内容的角度、从网页查询关键词的角度、以及从网页链接的角度。
从网页内容的角度,可以提取网页中关键词数量、词的平均长度、锚文本数及长度、可见文本比例、锚文本比例等统计参数,以及内容中关键词的TF*IDF(词频-逆文档频度)特征、N-gram(N元文法)相似度特征等语言参数等,作为网页特征向量的元素。
对于网页查询关键词的角度,可以通过分析互联网用户的搜索报文或搜索引擎的搜索日志,得到用户通过搜索行为到达特定网页时所使用的关键词列表,这些关键词可以视为互联网用户对该网页所作出的标注行为。相对网页本身的内容,搜索关键词往往能够提供对网页更准确的描述,因此在本实施例中,还可以考察网页相关的查询词,将TF(词频)或TF*IDF(词频-逆文档频度)等参数作为网页特征向量的元素。
从网页链接的角度,可以提取网页的出入度、PageRank(网页级别)、TrustRank(网页的信任指数)、SpamRank(网页的作弊级别)等链接访问参数作为网页特征向量的元素。
以上为网页特征向量的获得,下面将说明广告特征向量元素的获得。
广告特征向量的各元素可以从如下渠道获得:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、广告本身的内容特征及图片、视频等多媒体广告的图像相关特征等。其中,竞价关键词、描述文本、广告文本内容等可以用TF*IDF或TF等统计特征,而竞价、投放时间等可以表示为数值型特征,投放区域可以区域编号的枚举型参数表示,而图片、视频等可以用SIFT特征(尺度不变特征)等进行描述。
步骤S120,利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息。
在本步骤中,利用迁移学习方法将网页特征信息和广告特征信息分别从其所位于的网页域特征空间和广告域特征空间映射到共同的特征空间。迁移学习方法旨在实现不同领域、学习任务之间的知识迁移,使人们可以借鉴在一个熟悉问题中已学习到的知识来更快更方便的解决相近的新问题。迁移学习的工作过程可表示如图2所示,其中,源域样本对应本实施例的网页样本,目标域样本对应本实施例的广告样本,源域知识是指源域样本在其所组成的特征空间中的分布情况,模型训练是指将源域样本和目标域样本从其各自所在的特征空间映射到共同的特征空间。在本实施例中,目标域样本(广告)中无标注样本或标注样本很少,而源域样本(普通网页)中存在大量标注样本,可以适用迁移学习中的自学习方法(self-taught learning)。该方法的主要思想是通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间,如图3所示,其中特征空间1表示目标域样本所在的特征空间,特征空间2表示源域样本所在的特征空间。
具体的,假设预设有m个广告(样本)的分类类别,用l={1,...,m}来表示类别序号,每个类别中第i个训练样本记为
Figure BDA0000097000400000071
其中
Figure BDA0000097000400000072
为源域或目标域的样本元素,
Figure BDA0000097000400000073
为样本的类别标示,i为自然数,表示样本元素序号。那么第l个类别的线性预测模型可以写为:
f l ( Q , x ) = w l T x + v l T Qx , QQT=I    (1)
其中,Q矩阵表示所有分类器共有的结构参数,为正交矩阵,wl和vl分别表示各个分类器的权重向量,I为单位矩阵。通过这个模型,可以得到m个类别中共有的低维特征结构Q,从而得到低维的特征映射向量Qx。最佳的Q是能够使m个分类器上的经验风险之和最小化,通过以下公式得出:
f ^ ( Q , x ) = min Q , f l Σ l = 1 m Σ i = 1 n l L ( f l ( Q , X i l ) , y i l ) n l + r ( f l ) - - - ( 2 )
L(x)为损失函数,表示预测值
Figure BDA0000097000400000076
与实际值
Figure BDA0000097000400000077
之间的误差,可以采取二次误差函数等形式,即r(fl)为约束项,以控制模型复杂度。
上述优化问题可以通过对fl进行矩阵分解求得。通过求得最佳低维特征结构Q,得到最佳特征映射向量Qx,从而实现了将网页特征信息和广告特征信息映射到共同的特征空间,映射后的向量即为映射到共同的特征空间的网页样本信息和广告样本信息。
步骤S130,基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,对广告样本信息进行分类以获得分类结果。
在将网页特征信息和广告特征信息映射到共同的特征空间后,在映射后的共同的特征空间上,基于映射到共同的特征空间后的网页样本信息和当前的训练集训练用于对映射到共同的特征空间后的广告样本进行分类的分类器,以获得各广告样本被分配至广告类别的概率。其中,当前的训练集可由已标注样本(网页样本或少量的广告标注样本)构成,将已标注样本的集合作为训练集以用于训练分类器。
分类器可以选择常用的SVM(support vector machine,支持向量机)算法、Adaboost算法、C4.5决策树算法等任一方法。其中SVM算法对小样本量、高特征维度的分类任务表现出较优的分类性能;Adaboost算法是通过对一组弱分类器进行组合以实现增强分类效果,理论和实践已证明,只要弱分类器的分类效果优于随机猜测,对一定数目的弱分类器进行融合能够取得良好效果;C4.5决策树是一种常用的决策树,通过比较各个特征的信息增益选取信息增益最大的特征进行分类。
将在下面描述,根据广告的历史投放和点击数据建立网页-广告之间的关联关系,在网页-广告关联网络上,对步骤130得到的广告分类结果沿该网络在相邻节点间进行传播,从而实现对广告分类结果进行两阶段(对应于步骤S140和S150)修正。
S140,根据广告的历史投放和点击数据构建网页-广告之间的链接网络,对步骤S130的分类结果沿链接网络进行传播,以获得修正后的分类结果。
以cij(i=1,...,n,j=1,...,m)表示步骤S130得到的第i个广告样本被分为第j个类别的概率,Vi={vil,...,vik}为与第i个广告样本相关联的网页或广告样本集合。更具体地,例如,与广告样本相关联的网页样本可以是展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页等网页样本。而广告样本之间的链接关系可以是同一广告主所投放的具有链接关系的广告(显式关系)或具有同一竞价关键词的广告(隐式关系)。可通过如下表达式来修正分类概率pij
p ij = ( 1 - α ) c ij + α * Σ l = 1 k c il Outdegree ( v ij ) - - - ( 3 )
其中Out deg ree(vij)为节点vij的出度,α为预设权值。
在公式(3)中的Out deg ree(vij)也可采用in deg ree(vij)(入度)来实现。
也就是说,针对各广告样本,依据与广告样本相关联的网页样本的出度或入度,构建网页-广告之间的链接网络,利用分类概率在链接网络中的传播来修正该广告样本的分类概率。
本步骤中利用图模型对分类样本的分类结果进行修正,也可以采用co-training等策略实现,即利用图模型加入新的特征。Co-training一般是指将训练样本的特征向量分为不同类型(如网页的内容相关特征、链接相关特征两类),在每类特征上分别训练分类器,然后对不同分类器的预测结果进行融合。此处可借鉴Co-training的思想,在步骤S130得到的分类概率的基础上,在广告-网页关系网络上抽取新的链接特征,从而在新特征上训练新的分类器对未分类样本进行分类,与步骤S130的分类结果进行融合。
由此得到了修正后的分类结果,即,修正后的各个广告样本被分到各个类别中的概率。
步骤S150,根据修正后的分类结果更新训练集。
根据得到的修正后分类结果,选取效果比较好的待分类广告样本并将其加入相应类别的训练集,例如可选取置信度高的待分类样本(即,预测概率最高的分类样本和/或预测概率最低的分类样本)。置信度是指分类器在多大程度上确定对特定样本做出的类别预测是正确的,预测概率高表示分类器比较确定该样本属于该类别,而预测概率低表示分类器比较确定该样本不属于该类别,二者都是置信度高的体现。
具体的,根据步骤S140得到的修正后分类结果,可根据如下两种策略来根据分类样本更新训练集:(1)针对每个广告类别选择若干个(L个)预测概率最大的广告样本加入训练集,其中L是预先指定的样本数;(2)假设步骤S140得到的第i个广告样本的分类概率向量为(pi1,...,pim),其中pij(j=1,...,m)为第i个样本被认为属于第i个类别的概率。根据预先指定的阈值α,当pij>α时,将第i个样本加入第i个类别的训练集中。
作为优选的,在更新训练集之后,可以重复步骤S130-S150,直至得到预期的广告分类效果或达到预定的迭代次数,将得到的结果作为最终分类结果。预期的广告分类效果是指在对测试集进行分类时准确率达到预先指定的阈值,该阈值可根据经验选取,例如阈值范围可以设置为0.9~1,具体取值可以根据实际的需求来确定。迭代次数也可以根据数据集特点具体指定,一般经过50-100次迭代应该能够取得比较好的效果,该比较好的效果是指前后两次迭代的结果基本相同或误差在规定的误差范围内。其中,第一次训练时,训练集元素可由已标注样本(网页样本或少量的广告标注样本)构成,此后在每次迭代中,可以从待分类的广告样本中选取新的样本加入训练集,从而实现自动扩展训练集的效果。
实施例二
图4是根据本发明第二实施例的基于网页类别特征的广告分类装置的结构图,下面结合图2具体说明该系统的各部分组成。
本实施例的广告分类装置可以是与各网站服务器网络连接的任何具有计算及存储功能的电子装置,也可以为集网站服务器为一体的计算机装置。
该装置包括以下各单元:
提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息。
映射单元,与提取单元相连接,用于利用迁移学习方法将提取单元提取的网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息。
训练单元,与映射单元相连接,用于基于映射单元映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果。
修正单元,与训练单元相连接,用于根据该广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使训练单元的分类结果沿该链接网络进行传播,以获得修正后的分类结果。
更新单元,与修正单元相连接,用于根据修正单元修正后的分类结果更新训练集。
优选的,修正单元针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
优选的,更新单元针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
优选的,在本实施例的广告分类装置中将该更新单元更新后的训练集返回给该训练单元,通过该训练单元和该修正单元重新获得修正后的分类结果,该更新单元针对该重新获得的修正后的分类结果重新更新该训练集,在该训练单元、该修正单元和该更新单元中按预定迭代次数重复上述操作,将迭代结束后得到的分类结果作为最终分类结果。其中,该训练单元第一次训练分类器时,其中的该当前的训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (11)

1.一种基于网页特征的广告分类方法,其特征在于,包括以下步骤:
步骤A:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;
步骤B:利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;
步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;
步骤D:根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;
步骤E:根据修正后的分类结果更新训练集。
2.根据权利要求1所述的方法,其特征在于,在所述步骤A中,
从所述网页样本信息中提取的网页特征信息的元素包括:网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/或连接访问参数;
从所述广告样本信息中提取的广告特征信息的元素具体包括:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。
3.根据权利要求1所述的方法,其特征在于,在所述步骤B中,所述共同的特征空间为:通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
4.根据权利要求1所述的方法,其特征在于,在所述步骤C中,所述分类结果包括:所述广告样本信息中的每个广告样本被分到各个类别中的概率。
5.根据权利要求1至4中任一项所述的方法,其特征在于,步骤D中,
针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
6.根据权利要求5所述的方法,其特征在于,在所述步骤D中,与广告样本相关联的网页样本信息包括:展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
7.根据权利要求5所述的方法,其特征在于,在所述步骤D中,所述对所述分类结果进行修正具体包括:
cij(i=1,...,n,j=1,...,m)为步骤C中得到的第i个广告样本被分为第j个类别j的概率,Vi={vil,...,vik)为与第i个广告样本相关联的网页样本集合,通过如下表达式来修正分类概率pij
p ij = ( 1 - α ) c ij + α * Σ l = 1 k c il Outdegree ( v ij )
其中Out deg ree(vij)为节点vij的出度,α为预设权值,0<α<1。
8.根据权利要求5所述的方法,其特征在于,在所述步骤E中,所述更新训练集具体包括:
针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,
将分类概率大于预设值的分类样本加入相应类别的训练集。
9.根据权利要求1所述的方法,其特征在于,按预定迭代次数重复步骤C至E,将迭代结束后得到的分类结果作为最终分类结果。
10.根据权利要求9所述的方法,其特征在于,第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
11.一种基于网页类别特征的广告分类装置,其特征在于,包括以下单元:
提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;
映射单元,用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;
训练单元,用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;
修正单元,用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;
更新单元,用于根据修正后的分类结果更新训练集。
CN201110300130.3A 2011-09-29 2011-09-29 一种基于网页特征的广告分类方法及装置 Expired - Fee Related CN102508859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110300130.3A CN102508859B (zh) 2011-09-29 2011-09-29 一种基于网页特征的广告分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110300130.3A CN102508859B (zh) 2011-09-29 2011-09-29 一种基于网页特征的广告分类方法及装置

Publications (2)

Publication Number Publication Date
CN102508859A true CN102508859A (zh) 2012-06-20
CN102508859B CN102508859B (zh) 2014-10-29

Family

ID=46220945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110300130.3A Expired - Fee Related CN102508859B (zh) 2011-09-29 2011-09-29 一种基于网页特征的广告分类方法及装置

Country Status (1)

Country Link
CN (1) CN102508859B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880688A (zh) * 2012-09-14 2013-01-16 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN104391883A (zh) * 2014-11-05 2015-03-04 北京航空航天大学 一种基于迁移学习的在线广告受众排序方法
CN104462246A (zh) * 2014-11-19 2015-03-25 北京奇虎科技有限公司 链接与网页关联的方法和装置
CN104751234A (zh) * 2013-12-31 2015-07-01 华为技术有限公司 一种用户资产的预测方法及装置
CN105144239A (zh) * 2013-04-26 2015-12-09 奥林巴斯株式会社 图像处理装置、程序及图像处理方法
CN105224949A (zh) * 2015-09-23 2016-01-06 电子科技大学 基于跨领域迁移学习的sar图像地物分类方法
CN105809478A (zh) * 2016-03-07 2016-07-27 合网络技术(北京)有限公司 一种广告标签的标注方法及系统
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106227858A (zh) * 2016-07-28 2016-12-14 北京橘子文化传媒有限公司 一种移动互联网网页或媒体平台文章内容的准确提取方法
CN106557566A (zh) * 2016-11-18 2017-04-05 杭州费尔斯通科技有限公司 一种文本训练方法及装置
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
CN108090208A (zh) * 2017-12-29 2018-05-29 广东欧珀移动通信有限公司 融合数据处理方法及装置
CN108304395A (zh) * 2016-02-05 2018-07-20 北京迅奥科技有限公司 网页作弊检测
CN104102639B (zh) * 2013-04-02 2018-07-27 腾讯科技(深圳)有限公司 基于文本分类的推广触发方法和装置
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN108665293A (zh) * 2017-03-29 2018-10-16 华为技术有限公司 特征重要性获取方法及装置
CN108804430A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种sem投放数据分类系统及其分类方法
CN109461011A (zh) * 2017-09-05 2019-03-12 腾讯科技(深圳)有限公司 机器学习方法、装置及系统
CN109711430A (zh) * 2018-11-23 2019-05-03 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN110335250A (zh) * 2019-05-31 2019-10-15 上海联影智能医疗科技有限公司 网络训练方法、装置、检测方法、计算机设备和存储介质
CN110809768A (zh) * 2018-06-06 2020-02-18 北京嘀嘀无限科技发展有限公司 数据清洗系统和方法
CN111767735A (zh) * 2019-03-26 2020-10-13 北京京东尚科信息技术有限公司 执行任务的方法、装置及计算机可读存储介质
CN113240179A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 融合时空信息的轨道人流量预测方法及系统
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252185A (ja) * 2008-04-10 2009-10-29 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム及び記録媒体
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252185A (ja) * 2008-04-10 2009-10-29 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム及び記録媒体
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880688A (zh) * 2012-09-14 2013-01-16 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN102880688B (zh) * 2012-09-14 2016-07-27 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN103853654B (zh) * 2012-11-30 2017-03-01 国际商业机器公司 网页测试路径的选择方法和装置
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN104102639B (zh) * 2013-04-02 2018-07-27 腾讯科技(深圳)有限公司 基于文本分类的推广触发方法和装置
CN105144239A (zh) * 2013-04-26 2015-12-09 奥林巴斯株式会社 图像处理装置、程序及图像处理方法
CN104751234B (zh) * 2013-12-31 2018-10-19 华为技术有限公司 一种用户资产的预测方法及装置
CN104751234A (zh) * 2013-12-31 2015-07-01 华为技术有限公司 一种用户资产的预测方法及装置
CN104391883B (zh) * 2014-11-05 2017-06-20 北京航空航天大学 一种基于迁移学习的在线广告受众排序方法
CN104391883A (zh) * 2014-11-05 2015-03-04 北京航空航天大学 一种基于迁移学习的在线广告受众排序方法
CN104462246A (zh) * 2014-11-19 2015-03-25 北京奇虎科技有限公司 链接与网页关联的方法和装置
CN104462246B (zh) * 2014-11-19 2019-03-05 北京奇虎科技有限公司 链接与网页关联的方法和装置
CN105224949A (zh) * 2015-09-23 2016-01-06 电子科技大学 基于跨领域迁移学习的sar图像地物分类方法
CN105224949B (zh) * 2015-09-23 2018-11-13 电子科技大学 基于跨领域迁移学习的sar图像地物分类方法
CN108304395A (zh) * 2016-02-05 2018-07-20 北京迅奥科技有限公司 网页作弊检测
CN105809478A (zh) * 2016-03-07 2016-07-27 合网络技术(北京)有限公司 一种广告标签的标注方法及系统
CN105809478B (zh) * 2016-03-07 2020-02-18 优酷网络技术(北京)有限公司 一种广告标签的标注方法及系统
CN106096413B (zh) * 2016-06-21 2019-01-29 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106227858A (zh) * 2016-07-28 2016-12-14 北京橘子文化传媒有限公司 一种移动互联网网页或媒体平台文章内容的准确提取方法
CN106227858B (zh) * 2016-07-28 2019-06-25 北京橘子文化传媒有限公司 一种移动互联网网页或媒体平台文章内容的准确提取方法
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN106649434B (zh) * 2016-09-06 2020-10-13 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN106557566B (zh) * 2016-11-18 2019-06-07 杭州费尔斯通科技有限公司 一种文本训练方法及装置
CN106557566A (zh) * 2016-11-18 2017-04-05 杭州费尔斯通科技有限公司 一种文本训练方法及装置
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN108665293A (zh) * 2017-03-29 2018-10-16 华为技术有限公司 特征重要性获取方法及装置
CN108665293B (zh) * 2017-03-29 2021-08-31 华为技术有限公司 特征重要性获取方法及装置
CN108804430A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种sem投放数据分类系统及其分类方法
CN109461011A (zh) * 2017-09-05 2019-03-12 腾讯科技(深圳)有限公司 机器学习方法、装置及系统
CN109461011B (zh) * 2017-09-05 2022-11-15 腾讯科技(深圳)有限公司 机器学习方法、装置及系统
CN107944874B (zh) * 2017-12-13 2021-07-20 创新先进技术有限公司 基于迁移学习的风控方法、装置及系统
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
US11061966B2 (en) 2017-12-29 2021-07-13 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for processing fusion data and information recommendation system
CN108090208A (zh) * 2017-12-29 2018-05-29 广东欧珀移动通信有限公司 融合数据处理方法及装置
CN110809768A (zh) * 2018-06-06 2020-02-18 北京嘀嘀无限科技发展有限公司 数据清洗系统和方法
CN110809768B (zh) * 2018-06-06 2020-09-18 北京嘀嘀无限科技发展有限公司 数据清洗系统和方法
CN109711430A (zh) * 2018-11-23 2019-05-03 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN109711430B (zh) * 2018-11-23 2021-10-01 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN111767735A (zh) * 2019-03-26 2020-10-13 北京京东尚科信息技术有限公司 执行任务的方法、装置及计算机可读存储介质
CN110335250A (zh) * 2019-05-31 2019-10-15 上海联影智能医疗科技有限公司 网络训练方法、装置、检测方法、计算机设备和存储介质
CN113240179A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 融合时空信息的轨道人流量预测方法及系统
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质
CN115687625B (zh) * 2022-11-14 2024-01-09 五邑大学 文本分类方法、装置、设备及介质

Also Published As

Publication number Publication date
CN102508859B (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN104834729B (zh) 题目推荐方法和题目推荐装置
US9147154B2 (en) Classifying resources using a deep network
CN103336793B (zh) 一种个性化论文推荐方法及其系统
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN110020185A (zh) 智能搜索方法、终端及服务器
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN105117429A (zh) 基于主动学习和多标签多示例学习的场景图像标注方法
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN103299324A (zh) 使用潜在子标记来学习用于视频注释的标记
CN101561805A (zh) 文档分类器生成方法和系统
CN103971161A (zh) 基于柯西分布量子粒子群的混合推荐方法
CN103942220A (zh) 一种适用于it运维系统的工单智能关联知识库知识的方法
CN104298776A (zh) 基于lda模型的搜索引擎结果优化系统
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN108959580A (zh) 一种标签数据的优化方法及系统
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111754208A (zh) 一种招聘简历自动筛选方法
CN105677838A (zh) 基于用户需求的用户档案创建、个性化搜索排名方法和系统
Oskuie et al. A survey of web spam detection techniques
CN102760127A (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
US20210173857A1 (en) Data generation device and data generation method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee after: Izp (China) Network Technology Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: BEIJING IZP NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20160111

Address after: 100190, Haidian District, Beijing South Street, northeast flourishing, Beijing Zhongguancun software incubator, building 1, block C, three, 1322-D

Patentee after: IZP (BEIJING) TECHNOLOGIES Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: Izp (China) Network Technology Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141029

Termination date: 20160929

CF01 Termination of patent right due to non-payment of annual fee