发明内容
为克服现有技术中的不足,本发明提供了一种利用网页的标注数据实现广告的自动分类的方法和装置。本发明通过利用广告样本与网页样本之间的关联关系来对广告进行自动分类,能够提高广告分类的效率和准确率。
为了解决上述技术问题,本发明提供了一种基于网页特征的广告分类方法,其特征在于,包括以下步骤:步骤A:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;步骤B:利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;步骤D:根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;步骤E:根据修正后的分类结果更新训练集。
进一步,该方法还包括,在所述步骤A中,从所述网页样本信息中的提取的所述网页特征信息的元素包括:网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/或连接访问参数;从所述广告样本信息中提取的所述广告特征信息的元素具体包括:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。
进一步,该方法还包括,在所述步骤B中,所述共同的特征空间为:通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
进一步,该方法还包括,在所述步骤C中,所述分类结果包括:所述广告样本信息中的每个广告样本被分到各个类别中的概率。
进一步,该方法还包括,在所述步骤D中,与广告样本相关联的网页样本信息包括:展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
进一步,该方法还包括,步骤D中,针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步,该方法还包括,在所述步骤D中,所述对所述分类结果进行修正具体包括:cij(i=1,...,n,j=1,...,m)为步骤C中得到的第i个广告样本被分为第j个类别j的概率,Vi={vi1 ,...,vik}为与第i个广告样本相关联的网页样本集合,通过如下表达式来修正分类概率pij:
其中Out deg ree(vij)为节点vij的出度,α为预设权值,0<α<1。
进一步,该方法还包括,在所述步骤E中,所述更新训练集具体包括:针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步,该方法还包括,按预定迭代次数重复步骤C至E,将迭代结束后得到的分类结果作为最终分类结果。
进一步,该方法还包括,第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
本发明还提供一种基于网页类别特征的广告分类装置,其特征在于,包括以下单元:提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;映射单元,用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;训练单元,用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;修正单元,用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;更新单元,用于根据修正后的分类结果更新训练集。
进一步,该装置还包括,所述修正单元针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步,该装置还包括,所述更新单元针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步,该装置还包括,在所述广告分类装置中将所述更新单元更新后的训练集返回给所述训练单元,通过所述训练单元和所述修正单元重新获得修正后的分类结果,所述更新单元针对所述重新获得的修正后的分类结果重新更新所述训练集,在所述训练单元、所述修正单元和所述更新单元中按预定迭代次数重复上述操作,将迭代结束后得到的分类结果作为最终分类结果。
进一步,该装置还包括,所述训练单元第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
与现有技术相比,本发明具有以下优点:
(1)能够充分利用已有的标注数据,避免大量重复性劳动;
(2)利用广告的历史投放和点击数据对分类效果的修正能够比较充分考虑广告与其所投放页面之间的语义关联;
(3)通过迭代过程可使分类结果更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1为根据本发明实施例一的基于网页特征的广告分类方法的流程图,下面结合图1具体说明该方法的各步骤。
步骤S110,从网页样本信息中提取网页特征信息、以及从广告样本信息中提取广告特征信息。
在本实施例中,样本是一个网页或广告,特征是对样本的描述。一个样本可以表示成(x,y),其中x就是特征向量,也称作特征信息。另外还有一个y是样本的类别标签。通常,广告样本信息不带有标注信息,网页样本信息带有标注信息。标注信息通常是根据网页内容或相关查询词所作出的,是指人工或自动对网页所属类别所做出的判断。在本步骤中,从广告样本信息和网页样本信息(下文简称为广告样本和网页样本)中提取有效的广告特征向量和网页特征向量作为网页特征信息和广告特征信息。本步骤是机器学习的重要环节,旨在从所收集到的样本数据中提取有效的特征,使这些特征能够对样本进行比较准确的描述,并对外界干扰因素具备一定的鲁棒性。
根据网页分类的特点,可以从三个角度提取网页特征向量,分别为:从网页内容的角度、从网页查询关键词的角度、以及从网页链接的角度。
从网页内容的角度,可以提取网页中关键词数量、词的平均长度、锚文本数及长度、可见文本比例、锚文本比例等统计参数,以及内容中关键词的TF*IDF(词频-逆文档频度)特征、N-gram(N元文法)相似度特征等语言参数等,作为网页特征向量的元素。
对于网页查询关键词的角度,可以通过分析互联网用户的搜索报文或搜索引擎的搜索日志,得到用户通过搜索行为到达特定网页时所使用的关键词列表,这些关键词可以视为互联网用户对该网页所作出的标注行为。相对网页本身的内容,搜索关键词往往能够提供对网页更准确的描述,因此在本实施例中,还可以考察网页相关的查询词,将TF(词频)或TF*IDF(词频-逆文档频度)等参数作为网页特征向量的元素。
从网页链接的角度,可以提取网页的出入度、PageRank(网页级别)、TrustRank(网页的信任指数)、SpamRank(网页的作弊级别)等链接访问参数作为网页特征向量的元素。
以上为网页特征向量的获得,下面将说明广告特征向量元素的获得。
广告特征向量的各元素可以从如下渠道获得:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、广告本身的内容特征及图片、视频等多媒体广告的图像相关特征等。其中,竞价关键词、描述文本、广告文本内容等可以用TF*IDF或TF等统计特征,而竞价、投放时间等可以表示为数值型特征,投放区域可以区域编号的枚举型参数表示,而图片、视频等可以用SIFT特征(尺度不变特征)等进行描述。
步骤S120,利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息。
在本步骤中,利用迁移学习方法将网页特征信息和广告特征信息分别从其所位于的网页域特征空间和广告域特征空间映射到共同的特征空间。迁移学习方法旨在实现不同领域、学习任务之间的知识迁移,使人们可以借鉴在一个熟悉问题中已学习到的知识来更快更方便的解决相近的新问题。迁移学习的工作过程可表示如图2所示,其中,源域样本对应本实施例的网页样本,目标域样本对应本实施例的广告样本,源域知识是指源域样本在其所组成的特征空间中的分布情况,模型训练是指将源域样本和目标域样本从其各自所在的特征空间映射到共同的特征空间。在本实施例中,目标域样本(广告)中无标注样本或标注样本很少,而源域样本(普通网页)中存在大量标注样本,可以适用迁移学习中的自学习方法(self-taught learning)。该方法的主要思想是通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间,如图3所示,其中特征空间1表示目标域样本所在的特征空间,特征空间2表示源域样本所在的特征空间。
具体的,假设预设有m个广告(样本)的分类类别,用l={1,...,m}来表示类别序号,每个类别中第i个训练样本记为
其中
为源域或目标域的样本元素,
为样本的类别标示,i为自然数,表示样本元素序号。那么第l个类别的线性预测模型可以写为:
QQT=I (1)
其中,Q矩阵表示所有分类器共有的结构参数,为正交矩阵,wl和vl分别表示各个分类器的权重向量,I为单位矩阵。通过这个模型,可以得到m个类别中共有的低维特征结构Q,从而得到低维的特征映射向量Qx。最佳的Q是能够使m个分类器上的经验风险之和最小化,通过以下公式得出:
L(x)为损失函数,表示预测值
与实际值
之间的误差,可以采取二次误差函数等形式,即
r(f
l)为约束项,以控制模型复杂度。
上述优化问题可以通过对fl进行矩阵分解求得。通过求得最佳低维特征结构Q,得到最佳特征映射向量Qx,从而实现了将网页特征信息和广告特征信息映射到共同的特征空间,映射后的向量即为映射到共同的特征空间的网页样本信息和广告样本信息。
步骤S130,基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,对广告样本信息进行分类以获得分类结果。
在将网页特征信息和广告特征信息映射到共同的特征空间后,在映射后的共同的特征空间上,基于映射到共同的特征空间后的网页样本信息和当前的训练集训练用于对映射到共同的特征空间后的广告样本进行分类的分类器,以获得各广告样本被分配至广告类别的概率。其中,当前的训练集可由已标注样本(网页样本或少量的广告标注样本)构成,将已标注样本的集合作为训练集以用于训练分类器。
分类器可以选择常用的SVM(support vector machine,支持向量机)算法、Adaboost算法、C4.5决策树算法等任一方法。其中SVM算法对小样本量、高特征维度的分类任务表现出较优的分类性能;Adaboost算法是通过对一组弱分类器进行组合以实现增强分类效果,理论和实践已证明,只要弱分类器的分类效果优于随机猜测,对一定数目的弱分类器进行融合能够取得良好效果;C4.5决策树是一种常用的决策树,通过比较各个特征的信息增益选取信息增益最大的特征进行分类。
将在下面描述,根据广告的历史投放和点击数据建立网页-广告之间的关联关系,在网页-广告关联网络上,对步骤130得到的广告分类结果沿该网络在相邻节点间进行传播,从而实现对广告分类结果进行两阶段(对应于步骤S140和S150)修正。
S140,根据广告的历史投放和点击数据构建网页-广告之间的链接网络,对步骤S130的分类结果沿链接网络进行传播,以获得修正后的分类结果。
以cij(i=1,...,n,j=1,...,m)表示步骤S130得到的第i个广告样本被分为第j个类别的概率,Vi={vil,...,vik}为与第i个广告样本相关联的网页或广告样本集合。更具体地,例如,与广告样本相关联的网页样本可以是展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页等网页样本。而广告样本之间的链接关系可以是同一广告主所投放的具有链接关系的广告(显式关系)或具有同一竞价关键词的广告(隐式关系)。可通过如下表达式来修正分类概率pij:
其中Out deg ree(vij)为节点vij的出度,α为预设权值。
在公式(3)中的Out deg ree(vij)也可采用in deg ree(vij)(入度)来实现。
也就是说,针对各广告样本,依据与广告样本相关联的网页样本的出度或入度,构建网页-广告之间的链接网络,利用分类概率在链接网络中的传播来修正该广告样本的分类概率。
本步骤中利用图模型对分类样本的分类结果进行修正,也可以采用co-training等策略实现,即利用图模型加入新的特征。Co-training一般是指将训练样本的特征向量分为不同类型(如网页的内容相关特征、链接相关特征两类),在每类特征上分别训练分类器,然后对不同分类器的预测结果进行融合。此处可借鉴Co-training的思想,在步骤S130得到的分类概率的基础上,在广告-网页关系网络上抽取新的链接特征,从而在新特征上训练新的分类器对未分类样本进行分类,与步骤S130的分类结果进行融合。
由此得到了修正后的分类结果,即,修正后的各个广告样本被分到各个类别中的概率。
步骤S150,根据修正后的分类结果更新训练集。
根据得到的修正后分类结果,选取效果比较好的待分类广告样本并将其加入相应类别的训练集,例如可选取置信度高的待分类样本(即,预测概率最高的分类样本和/或预测概率最低的分类样本)。置信度是指分类器在多大程度上确定对特定样本做出的类别预测是正确的,预测概率高表示分类器比较确定该样本属于该类别,而预测概率低表示分类器比较确定该样本不属于该类别,二者都是置信度高的体现。
具体的,根据步骤S140得到的修正后分类结果,可根据如下两种策略来根据分类样本更新训练集:(1)针对每个广告类别选择若干个(L个)预测概率最大的广告样本加入训练集,其中L是预先指定的样本数;(2)假设步骤S140得到的第i个广告样本的分类概率向量为(pi1,...,pim),其中pij(j=1,...,m)为第i个样本被认为属于第i个类别的概率。根据预先指定的阈值α,当pij>α时,将第i个样本加入第i个类别的训练集中。
作为优选的,在更新训练集之后,可以重复步骤S130-S150,直至得到预期的广告分类效果或达到预定的迭代次数,将得到的结果作为最终分类结果。预期的广告分类效果是指在对测试集进行分类时准确率达到预先指定的阈值,该阈值可根据经验选取,例如阈值范围可以设置为0.9~1,具体取值可以根据实际的需求来确定。迭代次数也可以根据数据集特点具体指定,一般经过50-100次迭代应该能够取得比较好的效果,该比较好的效果是指前后两次迭代的结果基本相同或误差在规定的误差范围内。其中,第一次训练时,训练集元素可由已标注样本(网页样本或少量的广告标注样本)构成,此后在每次迭代中,可以从待分类的广告样本中选取新的样本加入训练集,从而实现自动扩展训练集的效果。
实施例二
图4是根据本发明第二实施例的基于网页类别特征的广告分类装置的结构图,下面结合图2具体说明该系统的各部分组成。
本实施例的广告分类装置可以是与各网站服务器网络连接的任何具有计算及存储功能的电子装置,也可以为集网站服务器为一体的计算机装置。
该装置包括以下各单元:
提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息。
映射单元,与提取单元相连接,用于利用迁移学习方法将提取单元提取的网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息。
训练单元,与映射单元相连接,用于基于映射单元映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果。
修正单元,与训练单元相连接,用于根据该广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使训练单元的分类结果沿该链接网络进行传播,以获得修正后的分类结果。
更新单元,与修正单元相连接,用于根据修正单元修正后的分类结果更新训练集。
优选的,修正单元针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
优选的,更新单元针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。
优选的,在本实施例的广告分类装置中将该更新单元更新后的训练集返回给该训练单元,通过该训练单元和该修正单元重新获得修正后的分类结果,该更新单元针对该重新获得的修正后的分类结果重新更新该训练集,在该训练单元、该修正单元和该更新单元中按预定迭代次数重复上述操作,将迭代结束后得到的分类结果作为最终分类结果。其中,该训练单元第一次训练分类器时,其中的该当前的训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。