CN102243659B - 基于动态贝叶斯模型的网页垃圾检测方法 - Google Patents

基于动态贝叶斯模型的网页垃圾检测方法 Download PDF

Info

Publication number
CN102243659B
CN102243659B CN201110200276.0A CN201110200276A CN102243659B CN 102243659 B CN102243659 B CN 102243659B CN 201110200276 A CN201110200276 A CN 201110200276A CN 102243659 B CN102243659 B CN 102243659B
Authority
CN
China
Prior art keywords
mrow
cheating
webpage
website
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110200276.0A
Other languages
English (en)
Other versions
CN102243659A (zh
Inventor
张卫丰
常成成
田先桃
张迎周
周国强
许碧欢
陆柳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201110200276.0A priority Critical patent/CN102243659B/zh
Publication of CN102243659A publication Critical patent/CN102243659A/zh
Application granted granted Critical
Publication of CN102243659B publication Critical patent/CN102243659B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。

Description

基于动态贝叶斯模型的网页垃圾检测方法
技术领域
本发明涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,属于信息安全领域。
背景技术
搜索引擎是通向当今互联网的一座桥梁,是网民在海量的网页中找到自己感兴趣信息的工具。由于网络存在巨大的用户流量,这为广告提供了一个巨大的潜在市场。而网络广告高达3%以上的点击率可以使得这种潜在对象转变为现实的广告目标对象,进而导致直接或者间接的商品购买行为。相对于传统广告,这类广告的费用相对较低。于是,一大批急于打开市场而又苦于无法提供巨额广告费的中小厂商便成了网络广告的第一批客户。而大量研究结果显示,用户在使用搜索引擎时只会浏览前几页的返回结果[1,2,3],对于商业网站而言,就某些查询占据靠前的排序,会给网站带来流量的大幅增加,流量的变大意味着更多的交易。
因为强大的利润诱惑,搜索引擎优化行业犹如雨后春笋般在快速地发展。搜索引擎优化,是针对搜索引擎对网页的检索特点,让网站建设各项基本要素适合搜索引擎的检索原则,从而使搜索引擎收录尽可能多的网页,并在搜索引擎自然检索结果中排名靠前,最终达到网站推广的目的。追求高排名是搜索引擎优化师们的目标。通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页内容进行相关的优化,使其符合用户浏览习惯,提高网站访问量,最终提升网站的销售能力或宣传能力。商业网站都希望通过各种形式来干扰搜索引擎的排序,当中尤以各种依靠广告为生的网站为甚。然而,短期内大幅提高网站排名是一件困难的事情,一个页面一般需要经过长期的发展过程,才能变得“知名”。因而目前搜索引擎优化技术被很多目光短浅的人,用一些搜索引擎优化作弊的不正当手段,牺牲用户体验,一味迎合搜索引擎的缺陷来提高排名,这种搜索引擎优化方法是不可取的,最终也会受到用户的唾弃。
在建立网站或设计网页时使用一些不道德的方法来操控搜索引擎的排名算法,让自己的网页获得较高排名,这种做法就是搜索引擎作弊。这样的网页就叫做网页垃圾。
[1]Craig Silverstein,Hannes Marais,Monika Henzinger,and Michael Moricz.Analysis of a Very Large Web Search Engine Query Log.SIGIRForum,33(1):6-12,1999.
[2]Allan Borodin,Gareth O.Roberts,Jerrey S.Rosenthal,and Panayiotis Tsaparas.Link Analysis Ranking:Algorithms,Theory,and Experiments.ACM Trans.Inter.Tech.,5(1):231-297,2005.
[3]Bernard J Jansen and Amanda Spink.An Analysis of Web Documents Retrievedand Viewed.In The 4th International Conference on Internet Computing,pages65-69.Las Vegas,Nevada,2003.
发明内容
技术问题:本发明的目的是提供一种基于动态贝叶斯的垃圾网页检测方法,解决传统的动态贝叶斯模型存在以下几点缺点:
1、全部信息需求总能在某一个网址对应的网页就能满足,然后结束本次会话。但从实际的用户搜索经验就可以知道,尤其是在信息类型的查询中,用户点击了某个网址后可能只满足了部分的需要,然后继续往下查找。
2、如果上一个网址的摘要没有被查看,下一个网址的摘要就不会被查看,这也与实际情况不符。
本发明是一种改进的动态贝叶斯模型,其更符合搜索引擎用户的行为习惯。
技术方案:本发明的基于动态贝叶斯模型的网页垃圾检测方法分为三大部分:
一.日志分析
步骤11)收集网页点击日志;
步骤12)对日志内容进行分析,提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息;
步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列,编号为0,1,2……;
步骤14)对于每个查询词,以其对应的网址编号和是否被点击建立会话文件,
二.采用期望最大化算法计算吸引度au和满意度su
步骤21)初始化吸引度au和满意度su
步骤22)由条件独立性可推导出事件Ai,Si的后验概率,
Q ( A i j ) : = Σ e ∈ { 0,1 } Σ e ′ ∈ { 0,1 } Σ s ∈ { 0,1 } α i ( e ) β i + 1 ( e ′ ) P ( E i + 1 = e ′ | S i j = s ) P ( S i j = s | C i j ) P ( C i j | A i j , E i j = e ) P ( A i j ) Σ e ∈ { 0,1 } α i ( e ) β i ( e )
公式7
Q ( S i j ) : = Σ e ∈ { 0,1 } Σ e ′ ∈ { 0,1 } α i ( e ) β i + 1 ( e ′ ) P ( E i + 1 = e ′ | S i j ) P ( S i j | C i j ) P ( C i j | E i = e ) Σ e ∈ { 0,1 } α i ( e ) β i ( e )
公式8
其中,αi(e),βi(e′)表示前项后项公式;表示用户是否检查返回结果列表中第j个会话的第i个网址的摘要;变量表示用户是否点击返回结果列表中第j个会话的第i个网址;表示第j个会话的第i个网址的满意度的二值变量;表示第j个会话的第i个网址的吸引度的二值变量;表示满意的情况下点击与否的概率;表示点击情况下,满意与否的概率;表示在条件下发生的条件概率;表示浏览摘要与否Ei=e的情况下点击发生的概率;
步骤23)通过最大化后验概率更新吸引度au和满意度su
a u = arg max a Σ j = 1 N Σ i = 1 M I ( d i j = u ) ( Q ( A i j = 0 ) log ( 1 - a ) + Q ( A i j = 1 ) log ( a ) ) + P ( a ) 公式9
s u = arg max s Σ j = 1 N Σ i = 1 M I ( d i j = u ) ( Q ( S i j = 0 ) log ( 1 - s ) + Q ( S i j = 1 ) log ( s ) ) + P ( s ) 公式10
其中,表示第j个会话的第i个位置的网址;u表示网页地址;I为示性函数,即满足括号内的等式为1,不满足括号内的等式为0;P(a)和P(s)表示a和s的先验贝塔分布;a=P(Ci=1|Ei=1),表示用户检查了第i个网址的摘要的条件下点击的概率;s=P(Si=1|Ci=1),表示用户点击了第i个网址,阅读内容后满意的概率;
步骤24)以步骤23)得到的吸引度au和满意度su重复步骤22)、步骤23);
步骤25)迭代20次后,对网页是否为作弊网页进行预测,即迭代后的吸引度au、满意度su大于等于选定的阈值为正常网页,小于选定的阈值为作弊网页;
三.进行验证
步骤31)让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页,认为作弊的打分为1,不是作弊为-1,无法判断为0;得分最高的3个网页作为查询的作弊网页;
步骤32)通过提出的评价指标中的查准率、召全率、作弊度,来验证本发明提出的方法。
有益效果:由于改进的动态贝叶斯模型假设只有用户查看了网址并且被该网址吸引后才会产生一个点击,本发明具有以下一些特殊优点和有益成果:
在改进的动态贝叶斯中提出了一个简单有效的方法,认为用户放弃查看下一个位置的概率与前一次点击位置的距离有关。也就是说,随着没有找到能吸取注意力的网址的时间越长,则越有可能放弃本次查询。
改进的动态贝叶斯是根据用户浏览搜索引擎结果返回列表的特点来建立,因而与其它点击模型相比,它也更能体现浏览行为的本质,表明用户的喜好。也正因为这点,根据改进的动态贝叶斯中实际的相关性对网页进行排名的结果反映了用户的需求。
附图说明
图1是本发明方案的流程图,rui表示用户角度的文档-查询对的相关性,λ是一个与排名位置有关的全局参数,γ表示浏览返回列表的持续度。
图2是展开两个时间帧的动态贝叶斯网络。Ai∈{0,1}:一个会话中处于位置i的二值吸引变量,Ei∈{0,1}:一个会话中处于位置i的二值检查变量,Ci∈{0,1}:一个会话中处于位置i的二值点击变量,Si∈{0,1}:一个会话中处于位置i的二值满意变量。
具体实施方式
假设只有用户查看了网址的摘要并且被这个网址吸引后才会产生一个点击,(见图2)。用户是否被网页吸引的概率仅依赖于网页本身(公式1)。用户点击了网址后,可能会满意找到的网页,也可能认为这是一个不相关的网页,此时的满意度确实是查询与网页真实的相关度,可以根据该满意度对网页进行排名,它是一个与位置无关的满意度;如果用户没有点击该网址,那么可以认为网址对应的网页是没有满意度的(公式2)。
P(Ci=1|Ei=0)=0 P ( C i = 1 | E i = 1 ) = a u i (公式1)
P ( S i = 1 | C i = 1 ) = s u i P(Si=0|Ci=0)=1(公式2)
其中,Ei表示用户是否检查返回结果列表中第i个网址的摘要,变量Ci表示用户是否点击返回结果列表中第i个网址,Sui表示用户是否满意点击的第ui个网址中的内容,ui表示第i个位置的网页地址。
在动态贝叶斯模型中,用户对某个网址对应的网页满意后,规定用户将停止本次查询,认为一个网页已经完全满足了用户的需求。但是在实际中,用户的需求往往会由多个网页共同提供,多个网页的信息集合才是用户的最终所求。因此,在改进的动态贝叶斯模型中,用户对本次网页可能获得一定的满意度;用户决定是否查看下一个网页时,要参考从第一个网页到现在为止所获得的满意度之和来决定(公式3)。
P(Ei=1|Si-1=1)=1-γi    (公式3)
其中,γ表示浏览返回列表的持续度。
另外在动态贝叶斯模型中,假设用户从上往下浏览网页,直到用户找到满意的网页,或者放弃本次查询;是否放弃仅与一个常数相关,文中并没有给出有效的方法求取。在改进的动态贝叶斯中提出了一个简单有效的方法,认为用户放弃查看下一个位置的概率与前一次点击位置的距离有关。也就是说,随着没有找到能吸取注意力的网页的时间越长,则越有可能放弃本次查询(见公式4)。
P(Ei=1|Si-1=0)=1-λi    (公式4)
其中,ri=argl<imax(Cl=1),表示用户角度的文档-查询对的相关性,M表示网址的总个数。
建立动态贝叶斯模型需要以下步骤:
1.收集网页点击日志
2.对日志内容进行分析处理
步骤1)对日志内容进行分析,提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息;
步骤2)按照每个查询词下所有的用户身份标识号码的个数进行降序排列,编号为0,1,2……;
步骤3)对于每个查询词,以其对应的网址编号和是否被点击建立会话文件,文件中一行表示一个会话;
会话实例如下:(网址编号,是否被点击)
011021
002130
002131
会话实例的第一行表示第一个会话,返回3个结果,分别是011021。每两个数字为一组,每一组的第一个数字表示网址的编号,第二个数字表示对应的网址是否被点击,“0”表示没有被点击,“1”表示被点击。第二行表示第二个会话,第三行表示第三个会话,表示方式同上。
3.基于会话文件和本发明提出的动态贝叶斯模型计算吸引度和满意度
步骤1)由会话文件计算公式1-4;
步骤2)计算前项后项公式5、6;
α i ( e ) = P ( C 1 j , . . . C i - 1 j , E i = e )
= Σ e ′ ∈ { 0,1 } Σ s ∈ { 0,1 } α i - 1 ( e ′ ) P ( E i = e | S i - 1 = s ) P ( S i - 1 = s | C i - 1 ) P ( C i - 1 | E i - 1 = e ′ ) (公式5)
β i ( e ) = P ( C 1 j , . . . C M j | E i = e )
= Σ e ′ ∈ { 0,1 } Σ s ∈ { 0,1 } β i + 1 ( e ′ ) P ( E i + 1 = e ′ | S i = s ) P ( S i = s | C i ) P ( C i | E i = e ) (公式6)
其中,表示第j个会话的第i个网址的点击情况。
步骤3)采用期望最大化算法计算事件Ai,Si后验概率,A表示二值吸引度变量,S表示二值满意度变量;
期望最大化算法是于1977年被提出的求参数极大似然估计的一种方法,该算法包括两个步骤:最大化完整数据的对数似然函数的期望和最大化不完整数据的对数似然函数,它是通过迭代地最大化完整数据的对数似然函数的期望来最大化不完整数据的对数似然函数。
1)由条件独立性可推导得事件Ai,Si的后验概率(公式7-8)
Q ( A i j ) : = Σ e ∈ { 0,1 } Σ e ′ ∈ { 0,1 } Σ s ∈ { 0,1 } α i ( e ) β i + 1 ( e ′ ) P ( E i + 1 = e ′ | S i j = s ) P ( S i j = s | C i j ) P ( C i j | A i j , E i j = e ) P ( A i j ) Σ e ∈ { 0,1 } α i ( e ) β i ( e )
(公式7)
Q ( S i j ) : = Σ e ∈ { 0,1 } Σ e ′ ∈ { 0,1 } α i ( e ) β i + 1 ( e ′ ) P ( E i + 1 = e ′ | S i j ) P ( S i j | C i j ) P ( C i j | E i = e ) Σ e ∈ { 0,1 } α i ( e ) β i ( e )
(公式8)
2)通过最大化后验概率更新吸引度au和满意度su
假设su,au的先验分布服从贝塔分布,即Be(1,1),那么它的后验分布为Be(x+1,n-x+1),n表示观察的次数,x表示观察到1的次数。
a u = arg max a Σ j = 1 N Σ i = 1 M I ( d i j = u ) ( Q ( A i j = 0 ) log ( 1 - a ) + Q ( A i j = 1 ) log ( a ) ) + log P ( a ) (公式9)
s u = arg max s Σ j = 1 N Σ i = 1 M I ( d i j = u ) ( Q ( S i j = 0 ) log ( 1 - s ) + Q ( S i j = 1 ) log ( s ) ) + log P ( s ) (公式10)
其中,I为二值变量,即满足括号内的等式为1,不满足括号内的等式为0,表示第j个会话的第i个位置的网址,u表示网址,a=P(Ci=1|Ei=1),s=P(Si=1|Ci=1),P(a)和P(s)表示先验贝塔分布。
采用期望最大化算法,通过不断迭代1)、2)步,就可以得到逼近真实参数的au和su
步骤3)设定迭代20次,对网页是否为作弊网页进行预测,即迭代后的吸引度au、满意度su大于等于选定阈值为正常网页,小于选定阈值为作弊网页。
4.验证算法
让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页,认为作弊的打分为1,不是作弊为-1,无法判断为0;得分最高的3个网页作为查询的作弊网页。
5.评价指标
在发明中同样用到了机器学习与信息提取中使用的查准率和召全率。令R表示与查询相关的网页集合,R为集合的大小;A表示我们的算法返回的前10个结果。查准率和召全率的计算方法如下:
(公式11)
(公式12)
在信息检索中,相关可以分为多个级别,高度相关的文档比部分相关的文档更有价值,其在评价中应该赋予更大的权值。另外,文档在序列中的位置越靠后,这个文档的价值越小。从用户的角度考虑,由于时间、精力以及从已经阅读过的文档中所得到的信息等原因,用户可能根本不会去看这些排名靠后的文档。在这种评价方法中,每一个网址都对它所在的位置有一定的贡献,其贡献值与文档的相关度有关。
本发明提出了一个新的评价标准,称为作弊度。令M表示原返回列表中作弊网页的集合,|M|表示集合的大小;N表示我们的算法排名中前10个网址为作弊网页的集合,|N|表示集合的大小。
(公式13)
查准率和召全率度量了算法产生结果的精确程度和完全程度,而作弊度则度量了算法打击作弊行为的能力。

Claims (1)

1.一种基于动态贝叶斯模型的网页垃圾检测方法,其特征在于该方法分为三大部分: 
一.日志分析 
步骤11)收集网页点击日志; 
步骤12)对日志内容进行分析,提取其中的用户身份标识号码、查询词、结果排名、是否被点击以及网址; 
步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列; 
步骤14)对于每个查询词,以其对应的网址和是否被点击建立会话文件; 
二.采用期望最大化算法计算吸引度au和满意度su
步骤21)初始化吸引度au和满意度su; 
步骤22)由条件独立性可推导出事件Ai,Si的后验概率, 
公式5 
   公式6 
                                                      公式7 
                                                      公式8 
其中,表示用户是否检查返回结果列表中第j个会话的第i个网址的摘要;Ei+1表示用户是否检查下一个网址的摘要;变量表示用户是否点击返回结果列表中第j个会话的第i个网址;表示第j个会话的第i个网址的满意度的二值变量;表示第j个会话的第i个网址的吸引度的二值变量;表示满意的情况下点击下一个网址与否的概率; 表示点击情况下,满意与否的概率;表示在条件下发生的条件概率;表示浏览摘要与否Ei=e的情况下点击发生的概率;e,e’和s均为枚举变量,取0和1两个值; 
步骤23)通过最大化后验概率更新吸引度au和满意度su
  公式9 
  公式10 
其中,表示第j个会话的第i个位置的网址;u表示网页地址;N表示一次查询中会话的个数;M表示每个会话的网页地址的个数;I为示性函数,即满足括号内的等式为1,不满足括号内的等式为0;P(a)和P(s)表示a和s的先验贝塔分布;a=P(Ci=1|Ei=1),表示用户检查了第i个网址的摘要的条件下点击的概率;s=P(Si=1|Ci=1),表示用户点击了第i个网址,阅读内容后满意的概率; 
步骤24)以步骤23)得到的吸引度au和满意度su重复步骤22)、步骤23); 
步骤25)迭代20次后,对网页是否为作弊网页进行预测,迭代后的吸引度au、满意度su大于等于选定的阈值为正常网页,小于选定的阈值为作弊网页; 
三.进行验证 
步骤31)让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页,认为作弊的打分为1,不是作弊为-1,无法判断为0;得分最高的3个网页作为查询的作弊网页; 
步骤32)通过提出的评价指标中的查准率、召全率、作弊度,来验证所提出的方法; 
其中:令R表示与查询相关的网页集合,|R|为集合的大小;A表示我们的算法返回的前10个结果;查准率和召全率的计算方法如下: 
    (公式11) 
    (公式12) 
作弊度:令M表示原返回列表中作弊网页的集合,|M|表示集合的大小;N表示我们的算法排名中前10个网址为作弊网页的集合,|N|表示集合的大小; 
    (公式13) 
查准率和召全率度量了算法产生结果的精确程度和完全程度,而作弊度则度量了算法打击作弊行为的能力。 
CN201110200276.0A 2011-07-18 2011-07-18 基于动态贝叶斯模型的网页垃圾检测方法 Expired - Fee Related CN102243659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110200276.0A CN102243659B (zh) 2011-07-18 2011-07-18 基于动态贝叶斯模型的网页垃圾检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110200276.0A CN102243659B (zh) 2011-07-18 2011-07-18 基于动态贝叶斯模型的网页垃圾检测方法

Publications (2)

Publication Number Publication Date
CN102243659A CN102243659A (zh) 2011-11-16
CN102243659B true CN102243659B (zh) 2014-07-16

Family

ID=44961714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110200276.0A Expired - Fee Related CN102243659B (zh) 2011-07-18 2011-07-18 基于动态贝叶斯模型的网页垃圾检测方法

Country Status (1)

Country Link
CN (1) CN102243659B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117715049B (zh) * 2024-02-05 2024-04-12 成都一心航科技有限公司 一种针对手机浏览器的反作弊系统以及反作弊方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424433B (zh) * 2013-08-22 2018-12-11 腾讯科技(深圳)有限公司 一种应用程序的反作弊方法和相关系统
CN103823905A (zh) * 2014-03-18 2014-05-28 北京奇虎科技有限公司 对搜索结果页中网址进行标示的方法和装置
CN110147472B (zh) * 2017-07-14 2021-10-15 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN113407907B (zh) * 2021-06-04 2022-04-12 电子科技大学 一种融合不完整监测序列的层次系统结构函数学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Dynamic Bayesian Network Click Model for Web Search Ranking;Olivier Chapelle et al.;《WWW 2009》;20090420;全文 *
Olivier Chapelle et al..A Dynamic Bayesian Network Click Model for Web Search Ranking.《WWW 2009》.2009,全文.
朱丹梅.搜索引擎作弊检测方法研究.《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》.2012,第四章. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117715049B (zh) * 2024-02-05 2024-04-12 成都一心航科技有限公司 一种针对手机浏览器的反作弊系统以及反作弊方法

Also Published As

Publication number Publication date
CN102243659A (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
JP5078910B2 (ja) 観察したユーザの行動からの広告品質の推定
JP4747200B2 (ja) 広告品質の予測
CN107665444B (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
US8364627B2 (en) Method and system for generating a linear machine learning model for predicting online user input actions
US8515937B1 (en) Automated identification and assessment of keywords capable of driving traffic to particular sites
JP4994394B2 (ja) 推定した広告品質を用いた広告の選別、ランク付けおよび奨励
CN102243659B (zh) 基于动态贝叶斯模型的网页垃圾检测方法
US8311957B2 (en) Method and system for developing a classification tool
US8768050B2 (en) Accurate text classification through selective use of image data
US8874555B1 (en) Modifying scoring data based on historical changes
US20090265290A1 (en) Optimizing ranking functions using click data
US9760907B2 (en) Granular data for behavioral targeting
US20100161385A1 (en) Method and System for Content Based Demographics Prediction for Websites
US20090210409A1 (en) Increasing online search engine rankings using click through data
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
CN101650731A (zh) 基于用户反馈的赞助搜索广告的建议关键词生成方法
CN104391883A (zh) 一种基于迁移学习的在线广告受众排序方法
WO2012024066A2 (en) Contextual advertising with user features
US20190065611A1 (en) Search method and apparatus
CN112612951A (zh) 一种面向收益提升的无偏学习排序方法
CN105550282A (zh) 利用多维数据预测用户兴趣的方法
CN105740276A (zh) 适用于商业化搜索的点击反馈模型的估算方法和装置
CN110020209B (zh) 内容和搜索词的相关性确定方法及系统、展示方法及系统
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
US20130311233A1 (en) Method for predicting revenue to be generated by a webpage comprising a list of items having common properties

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20111116

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000207

Denomination of invention: Webpage junk detection method based on dynamic Bayesian model

Granted publication date: 20140716

License type: Common License

Record date: 20161109

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000207

Date of cancellation: 20180116

EC01 Cancellation of recordation of patent licensing contract
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140716

Termination date: 20180718

CF01 Termination of patent right due to non-payment of annual fee