CN104598460B - 垃圾锚文本识别方法及装置 - Google Patents

垃圾锚文本识别方法及装置 Download PDF

Info

Publication number
CN104598460B
CN104598460B CN201310529335.8A CN201310529335A CN104598460B CN 104598460 B CN104598460 B CN 104598460B CN 201310529335 A CN201310529335 A CN 201310529335A CN 104598460 B CN104598460 B CN 104598460B
Authority
CN
China
Prior art keywords
anchor text
measured
rubbish
webpage
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310529335.8A
Other languages
English (en)
Other versions
CN104598460A (zh
Inventor
付昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310529335.8A priority Critical patent/CN104598460B/zh
Publication of CN104598460A publication Critical patent/CN104598460A/zh
Application granted granted Critical
Publication of CN104598460B publication Critical patent/CN104598460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种垃圾锚文本识别方法及装置,属于互联网信息处理技术领域。其中所述方法包括:接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页;判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。本发明能够快速、有效地识别出垃圾锚文本。

Description

垃圾锚文本识别方法及装置
技术领域
本发明涉及互联网信息处理技术领域,特别涉及一种垃圾锚文本识别方法及装置。
背景技术
随着互联网技术的飞速发展及广泛应用,从网络中获取各种所需信息已经被大多数网络用户所接受,而且逐渐成为用户日常生活中不可缺少的一部分。为了给用户提供更方便、快捷的信息查询方式,通常会在某一网页中给出一些可以链接其它相关网页的文字,这些文字是能够描述相关网页内容的关键词,用户可以根据所述关键词的描述进一步点击进入相关网页查找自己所需的资料。例如,当用户输入http://news.sina.com.cn进入新浪网的新闻中心网页时,在网页的不同位置会出现“体育”、“财经”、“音乐”、“科技”,或是“今日天气”、“视频新闻”、“军事论坛”等等关键词,用户如果希望了解体育相关信息就可以选择点击“体育”,进入网址为http://sports.sina.com.cn的网页获取相关体育信息。这里,描述相关网页内容的关键词称为中心词,一个网页中指向另一网页的链接文字称为网页锚文本,多个网页锚文本可以指向同一个链接网址。在上面的例子中,“体育”、“财经”、“音乐”、“科技”、“今日天气”、“视频新闻”、“军事论坛”等分别指向不同的网页,“体育”就是网址为http://sports.sina.com.cn的网页的锚文本,“财经”就是网址为http://finance.sina.com.cn的网页的锚文本,其它以此类推,分别是所指向网页的锚文本。
锚文本具有一定的权重,搜索引擎可以基于锚文本权重进行内容相关度计算,以获取用户查询序列与网页的相关度,从而对搜索结果中的网页进行精确排名。权重高的锚文本利用搜索引擎搜索时,则锚文本会优先被查到,即其所指向的网页在排序时会排在搜索结果的前面。正常情形下,锚文本均可以对指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是,互联网上存在大量的作弊行为,锚文本本身不再都是对所指向的页面内容的高度概括,锚文本与所指向的页面也不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,就可能出现很多含有垃圾词汇的锚文本、锚文本所指向的网页是无关网页或垃圾网页,对于含有垃圾词汇的锚文本用户可以直接识别,而对于无关网页或垃圾网页用户并不清楚其是否与网页的实际内容相关,只能通过一一打开每个网页查看其中的内容,进而获取所需信息,这显然给用户迅速获取信息造成很多麻烦,降低了查询效率。这种本身含有垃圾词汇的锚文本和所指向的网页是无关网页或垃圾网页的锚文本统称为垃圾锚文本。显然,通过各种技术识别垃圾锚文本并防止其被搜索出是非常有必要的。而目前还没有一种方法能够充分、有效地识别垃圾锚文本。
发明内容
本发明提供一种垃圾锚文本识别方法及装置,以解决现有技术无法充分、有效地识别垃圾锚文本等问题。
所述技术方案如下:
第一方面,本发明实施例提供了一种垃圾锚文本识别方法,所述垃圾锚文本识别方法,包括:接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页;判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
第二方面,本发明实施例提供了一种垃圾锚文本识别装置,所述垃圾锚文本识别装置,包括:接收模块、判断模块、以及第一垃圾锚识别模块,接收模块,用于接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页;判断模块,用于判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;第一垃圾锚识别模块,用于若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
本发明实施例提供的技术方案带来的有益效果是:
通过判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页,若是政府类网站的网页或教育类网站的网页,而且待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。解决了现有技术无法充分、有效地识别垃圾锚文本等问题,本发明能够快速、有效地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明一个实施例提供的垃圾锚文本识别方法的流程图;
图2是本发明另一个实施例提供的垃圾锚文本识别方法的流程图;
图3是本发明又一个实施例提供的垃圾锚文本识别方法的流程图;
图4是本发明又一个实施例提供的垃圾锚文本识别方法的流程图;
图5是本发明一个实施例提供的垃圾锚文本识别装置的主要架构框图;
图6是本发明另一个实施例提供的垃圾锚文本识别装置的主要架构框图;
图7是本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图;
图8是本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图;
图9是一种终端的结构框图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的垃圾锚文本识别方法及装置其具体实施方式、结构、特征及功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
第一实施例
请参考图1,其示出了本发明一个实施例提供的垃圾锚文本识别方法的流程图。该方法可以由垃圾锚文本识别装置所执行的识别过程;垃圾锚文本识别装置可以运行在终端、服务器等设备上,所述垃圾锚文本识别方法,可包括以下步骤101-105:
步骤101,接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页。
一个网页中指向另一网页的链接文字称为锚文本。例如,当客户端用户需要验证待测锚文本是否是垃圾锚文本的时候,则用户首先可以在垃圾锚文本识别装置提供的输入框中输入待测锚文本,然后点击垃圾锚文本识别装置提供的网络页面上的验证按钮或菜单,则垃圾锚文本识别装置就会接收到客户端发送的验证请求,验证请求中携带用户输入的待测锚文本,并根据验证请求获取到待测锚文本所指向的网页。或者例如,用户利用搜索引擎在基于锚文本进行搜索时,则用户也可以在输入框中输入待测锚文本,然后点击搜索引擎提供的网络页面上的搜索按钮或菜单,则垃圾锚文本识别装置就会接收到客户端发送的搜索请求,搜索请求中携带用户输入的待测锚文本,并根据搜索请求获取到待测锚文本所指向的网页。
步骤103,判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页。
政府类网站的网页例如可以是网页的统一资源定位符(Uniform ResourceLocator,URL,也被称为网页网址)中含有“gov.cn”等。教育类网站的网页可以是网页的网址中含有“edu.cn”等。
具体地,判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页时可以采用如下方法:将政府类网站的网页的网址和教育类网站的网页的网址预先进行存储,然后将待测锚文本所指向的网页的网址与预先存储的政府类网站的网页的网址和教育类网站的网页的网址进行匹配,若相匹配,则判定为待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页。反之,若不相匹配,则判定为待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页。
步骤105,若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
机构可以包括行政机构、企事业机构等。行政机构名称主要有政府、发改委、办事处、审计署、司法部、行政厅、统计局等。企事业机构名称主要有研究院、公司、水电站、加工厂等。
本步骤中,在待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页的情况下,则待测锚文本中含有的垃圾词汇例如可以是游戏类词汇、色情类词汇、缴费充值类词汇、广告类词汇等。举例说明,若锚文本所指向的网页是教育类网站的网页,锚文本所在的网页也为教育类网站的网页,当锚文本所在的网页被黑客攻击或感染病毒的情况下,则在锚文本中可能就会含有例如“充话费”、“淘宝女装”等垃圾词汇。
优选地,步骤105中,还可包括:
若待测锚文本所指向的网页是政府类网站或教育类网站,且待测锚文本含有机构名称,则将待测锚文本识别为正常锚文本。本步骤中,若待测锚文本含有机构名称,则不论待测锚文本是否含有垃圾词汇,则均将待测锚文本识别为正常锚文本。
优选地,步骤105中,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本,可以包括:
预先将机构名称和垃圾词汇进行存储;将待测锚文本与预先存储的机构名称和垃圾词汇进行匹配,判断待测锚文本是否含有垃圾词汇和机构名称;若待测锚文本与预先存储的机构名称均不相匹配,并且待测锚文本与预先存储的垃圾词汇相匹配,则判定为待测锚文本是垃圾锚文本。
机构名称和垃圾词汇均可以预先被存储于数据库中。
综上所述,本实施例提供的垃圾锚文本识别方法,通过判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页,若是政府类网站的网页或教育类网站的网页,而且待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。解决了现有技术无法充分、有效地识别垃圾锚文本等问题,本发明能够快速、有效地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第二实施例
请参考图2,其示出了本发明另一个实施例提供的垃圾锚文本识别方法的流程图。该方法可以由垃圾锚文本识别装置所执行的识别过程;垃圾锚文本识别装置可以运行在终端、服务器等设备上;其与图1所示的垃圾锚文本识别方法相似,其不同之处在于,图1的步骤103之后还可以包括:步骤201-209。
步骤201,待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页,则判断待测锚文本所指向的网页是否是权威网站的网页,若待测锚文本所指向的网页是权威网站的网页,则进行步骤203,若待测锚文本所指向的网页不是权威网站的网页,则进行步骤205。
权威网站通常能获得大家认可的网站、人气比较高的网站,例如可以包括百度网站(网址是http://www.baidu.com)、腾讯网站(网址是http://www.qq.com)、搜狐网站(网址是http://www.sohu.com)等。
具体地,判断待测锚文本所指向的网页是否是权威网站的网页时可以采用如下方法:可以将权威网站的网页的网址预先进行存储,然后将待测锚文本所指向的网页的网址与预先存储的权威网站的网页的网址进行匹配,若相匹配,则判定为待测锚文本所指向的网页是权威网站的网页。反之,若不相匹配,则判定为待测锚文本所指向的网页不是权威网站的网页。
步骤203,将待测锚文本识别为正常锚文本。
步骤205,若待测锚文本所指向的网页不是权威网站的网页,则判断待测锚文本是否含有机构名称,若待测锚文本含有机构名称,则进行步骤203,若待测锚文本不含有机构名称,则进行步骤207。
机构可以包括行政机构、企事业机构等。行政机构名称主要有政府、发改委、办事处、审计署、司法部、行政厅、统计局等。企事业机构名称主要有研究院、公司、水电站、加工厂等。
优选地,步骤205中,判断待测锚文本是否含有机构名称,可以包括:
预先将机构名称进行存储;将待测锚文本与预先存储的机构名称进行匹配,判断待测锚文本是否含有机构名称;若待测锚文本与预先存储的机构名称相匹配,则判定为待测锚文本含有机构名称,若待测锚文本与预先存储的机构名称均不相匹配,则判定为待测锚文本不含有机构名称。
机构名称可以预先被存储于数据库中。若待测锚文本为“**人事部”,预先存储的机构名称也有“人事部”,则可以认为待测锚文本与预先存储的机构名称相匹配,即待测锚文本含有机构名称。
步骤207,若待测锚文本不含有机构名称,则判断待测锚文本是否含有品牌词,若是,则进行步骤209。
品牌是制造商或经销商加在商品上的标志。它由名称、名词、符号、象征、设计或它们的组合构成。一般包括两个部分:品牌名称和品牌标志,这里的品牌词通常是指品牌名称,例如可以包括淘宝、蘑菇街等。
优选地,步骤207中,判断待测锚文本是否含有品牌词,可以包括:
预先将品牌词进行存储;将待测锚文本与预先存储的品牌词进行匹配,判断待测锚文本是否含有品牌词;若待测锚文本与预先存储的品牌词相匹配,则判定为待测锚文本含有品牌词,若待测锚文本与预先存储的品牌词不相匹配,则判定为待测锚文本不含有品牌词。
品牌词可以预先被存储于数据库中。若待测锚文本为“淘宝清仓”,预先存储的品牌词有“淘宝”,则可以认为待测锚文本与预先存储的品牌词相匹配,即待测锚文本含有品牌词。
步骤209,若待测锚文本含有品牌词,并且待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将待测锚文本识别为垃圾锚文本。
以淘宝网的网址http://www.taobao.com为例,淘宝网的网址包括URL(也被称为网页网址)的访问方式http和域名www.taobao.com,其中,taobao.com是淘宝网网址的顶级域名,www.taobao.com是顶级域名taobao.com的子域名,并且www表示此域名是万维网域名。
若含有品牌词的锚文本所指向的网页网址的顶级域名与品牌词对应的品牌网网址的顶级域名相同,则在正常情况下,这些含有品牌词的锚文本所指向的网页的网址的域名应该是品牌词对应的品牌网网址的子域名,或是与品牌词对应的品牌网网址相同级别的域名,例如含有品牌词“淘宝”的待测锚文本“淘宝女装”所指向的网页的网址http://www.***.taobao.com的域名是品牌“淘宝”网站网址http://www.taobao.com的域名的子域名,也可以看出,待测锚文本“淘宝女装”所指向的网页网址的顶级域名与品牌词对应的品牌网“淘宝网”网址的顶级域名相同。再例如,待测锚文本“蘑菇街衣服”所指向的网页的网址http://www.***.mogujie.com的域名也是品牌“蘑菇街”网站网址http://www.mogujie.com的域名的子域名,也可以看出,待测锚文本“蘑菇街衣服”所指向的网页网址的顶级域名与品牌词对应的品牌网“蘑菇街”网址的顶级域名相同。
综上所述,本实施例提供的垃圾锚文本识别方法,还通过在待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页时,并且测锚文本所指向的网页不是权威网站的网页,待测锚文本不含有机构名称但含有品牌词,并且待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将待测锚文本识别为垃圾锚文本,从而可以根据锚文本所指向的网页信息和待测锚文本的信息更加充分、准确地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第三实施例
请参考图3,其示出了本发明又一个实施例提供的垃圾锚文本识别方法的流程图。该方法可以由垃圾锚文本识别装置所执行的识别过程;垃圾锚文本识别装置可以运行在终端、服务器等设备上;其与图2所示的垃圾锚文本识别方法相似,其不同之处在于,图2的步骤101之后或者图2的步骤209之后还可以包括:步骤301-305,图3中以将步骤301-305设置于步骤209之后为例进行说明。
步骤301,得到待测锚文本的所有父链及所有父链的个数,得到所有父链中属于垃圾网址的个数。
锚文本的父链即锚文本所在的网页的网址。例如,123网址之家的网址http://www.123.org.cn/里含有“京东商城”锚文本,360导航的网址http://hao.360.cn/?360safe里也含有“京东商城”锚文本,则锚文本“京东商城”的父链就为http://www.123.org.cn/和http://hao.360.cn/?360safe。在实际应用中,得到待测锚文本的所有父链可以采用如下方法:将待测锚文本与网页内的文本进行比较,若网页内的文本与待测锚文本进行匹配,则认为网页的网址即为锚文本的父链。
垃圾网址例如可以为色情类网站的网址、与锚文本无关的网站的网址等。父链除了是垃圾网址之外,还可以包括的类别为贸易类网址、交友类网址、导航类网址等。垃圾网址可以预先被存储于数据库中。
优选地,步骤301中,得到所有父链中属于垃圾网址的个数,可以包括:预先将垃圾网址进行存储;将待测锚文本的父链与预先存储的垃圾网址进行匹配,判断每个父链是否属于垃圾网址;若父链与预先存储的垃圾网址相匹配,则判定为父链属于垃圾网址,若父链与预先存储的垃圾网址均不相匹配,则判定为父链不属于垃圾网址;根据判定出的结果统计得到所有父链中属于垃圾网址的个数。
步骤303,根据所有父链的个数和所有父链中属于垃圾网址的个数计算出所有父链中属于垃圾网址的个数占所有父链的个数的比例,判断比例是否大于一预设值,若比例大于预设值,则进行步骤305,若比例不大于预设值,则进行步骤203。
所有父链中属于垃圾网址的个数占所有父链的个数的比例等于(所有父链中属于垃圾网址的个数/所有父链的个数)*100%。预设值可以设定为80%或其它任意数值。
步骤305,若比例大于预设值,则将待测锚文本识别为垃圾锚文本。
综上所述,本实施例提供的垃圾锚文本识别方法,还通过在待测锚文本的所有父链中属于垃圾网址的个数占所有父链的个数的比例大于预设值时,则将待测锚文本识别为垃圾锚文本。这样,还能通过分析待测锚文本的所有父链中属于垃圾网址的情况,能够更加充分、准确地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第四实施例
请参考图4,其示出了本发明又一个实施例提供的垃圾锚文本识别方法的流程图。该方法可以由垃圾锚文本识别装置所执行的识别过程;垃圾锚文本识别装置可以运行在终端、服务器等设备上;其与图3所示的垃圾锚文本识别方法相似,其不同之处在于,图3的步骤105和305之后还可以包括:步骤401。
步骤401,将垃圾锚文本的权重设置为零或设置为小于一设定值。
将垃圾锚文本的权重设置为零或设置为小于一设定值(设定值可以根据实际需要而设定为任意值)后,在利用搜索引擎基于锚文本进行搜索时,则被识别为垃圾锚文本所指向的网页在排序时会排在搜索结果的最后,正常锚文本所指向的网页在排序时会排在搜索结果的前面,从而可以使用户能够快速获取所需信息,提升查询效率。
综上所述,本实施例提供的垃圾锚文本识别方法,还通过将垃圾锚文本的权重设置为零或设置为小于一设定值,这样,在利用搜索引擎基于锚文本进行搜索时,则被识别为垃圾锚文本所指向的网页在排序时会排在搜索结果的最后,正常锚文本所指向的网页在排序时会排在搜索结果的前面,从而可以使用户能够快速获取所需信息,提升查询效率。
以下为本发明的装置实施例,在装置实施例中未详尽描述的细节,可以参考上述对应的方法实施例。
第五实施例
请参考图5,其示出了本发明一个实施例提供的垃圾锚文本识别装置的主要架构框图。所述垃圾锚文本识别装置,包括:接收模块501、判断模块503、以及第一垃圾锚识别模块505。
具体地,接收模块501,用于接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页。
判断模块503,用于判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页。
第一垃圾锚识别模块505,用于若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
垃圾词汇包括游戏类词汇、色情类词汇、缴费充值类词汇、广告类词汇等,机构包括行政机构、企事业机构等。行政机构名称主要有政府、发改委、办事处、审计署、司法部、行政厅、统计局等。企事业机构名称主要有研究院、公司、水电站、加工厂等。
综上所述,本实施例提供的垃圾锚文本识别装置,通过判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页,若是政府类网站的网页或教育类网站的网页,而且待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。解决了现有技术无法充分、有效地识别垃圾锚文本等问题,本发明能够快速、有效地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第六实施例
请参考图6,其示出了本发明另一个实施例提供的垃圾锚文本识别装置的主要架构框图。其与图5所示的垃圾锚文本识别装置相似,其不同之处在于,所述垃圾锚文本识别装置,还可以包括:权威网站判断模块601、第一正常锚识别模块603、机构名称判断模块605、第二正常锚识别模块607、品牌词判断模块609、及第二垃圾锚识别模块611。
权威网站判断模块601,用于若待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页,则判断待测锚文本所指向的网页是否是权威网站的网页。
第一正常锚识别模块603,用于若待测锚文本所指向的网页是权威网站的网页,则将待测锚文本识别为正常锚文本。
机构名称判断模块605,用于若待测锚文本所指向的网页不是权威网站的网页,则判断待测锚文本是否含有机构名称。
第二正常锚识别模块607,用于若待测锚文本含有机构名称,则将待测锚文本识别为正常锚文本。
品牌词判断模块609,用于若待测锚文本不含有机构名称,则判断待测锚文本是否含有品牌词。
第二垃圾锚识别模块611,用于若待测锚文本含有品牌词,并且待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将待测锚文本识别为垃圾锚文本。
综上所述,本实施例提供的垃圾锚文本识别装置,还通过在待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页时,并且测锚文本所指向的网页不是权威网站的网页,待测锚文本不含有机构名称但含有品牌词,并且待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将待测锚文本识别为垃圾锚文本,从而可以根据锚文本所指向的网页信息和待测锚文本的信息更加充分、准确地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第七实施例
请参考图7,其示出了本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图。其与图6所示的垃圾锚文本识别装置相似,其不同之处在于,所述垃圾锚文本识别装置,还可以包括:父链识别模块701、垃圾网址比例判断模块703以及结果确定模块705。
父链识别模块701,用于得到待测锚文本的所有父链及所有父链的个数,得到所有父链中属于垃圾网址的个数。
垃圾网址比例判断模块703,用于根据所有父链的个数和所有父链中属于垃圾网址的个数计算出所有父链中属于垃圾网址的个数占所有父链的个数的比例,判断比例是否大于一预设值。
结果确定模块705,用于若比例大于预设值,则将待测锚文本识别为垃圾锚文本。
综上所述,本实施例提供的垃圾锚文本识别装置,还通过在待测锚文本的所有父链中属于垃圾网址的个数占所有父链的个数的比例大于预设值时,则将待测锚文本识别为垃圾锚文本。这样,还能通过分析待测锚文本的所有父链中属于垃圾网址的情况,能够更加充分、准确地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
第八实施例
请参考图8,其示出了本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图。其与图7所示的垃圾锚文本识别装置相似,其不同之处在于,所述垃圾锚文本识别装置,还可以包括:垃圾锚文本处理模块801。
垃圾锚文本处理模块801,用于将垃圾锚文本的权重设置为零或设置为小于一设定值。
综上所述,本实施例提供的垃圾锚文本识别装置,还通过将垃圾锚文本的权重设置为零或设置为小于一设定值,这样,在利用搜索引擎基于锚文本进行搜索时,则被识别为垃圾锚文本所指向的网页在排序时会排在搜索结果的最后,正常锚文本所指向的网页在排序时会排在搜索结果的前面,从而可以使用户能够快速获取所需信息,提升查询效率。
第九实施例
请参考图9,其示出了一种终端的结构框图。如图9所示,以垃圾锚文本识别装置运行在终端上作为示例,终端包括存储器902、存储控制器904,一个或多个(图中仅示出一个)处理器906、外设接口908、射频模块910、摄像模块914、音频模块916、触控屏幕918以及按键模块920。这些组件通过一条或多条通讯总线/信号线相互通讯。
可以理解,图9所示的结构仅为示意,终端还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。
存储器902可用于存储软件程序以及模块,如本发明实施例中的在终端内进行垃圾锚文本识别方法对应的程序指令/模块(例如,垃圾锚文本识别装置中的接收模块501、判断模块503、第一垃圾锚识别模块505等),处理器902通过运行存储在存储器904内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的在终端内进行垃圾锚文本识别方法。
存储器902可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器906远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器906以及其他可能的组件对存储器902的访问可在存储控制器904的控制下进行。
外设接口908将各种输入/输入装置耦合至CPU以及存储器902。处理器906运行存储器902内的各种软件、指令以执行终端的各种功能以及进行数据处理。
在一些实施例中,外设接口908,处理器906以及存储控制器904可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
射频模块910用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。射频模块910可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块910可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE),宽带码分多址技术(wideband code divisionmultiple access,W-CDMA),码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA),蓝牙,无线保真技术(Wireless,Fidelity,WiFi)(如美国电气和电子工程师协会标准IEEE802.11a,IEEE802.11b,IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over internet protocal,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access,Wi-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。
摄像模块914用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器902内,并可通过射频模块910发送。
音频模块916向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口908处接收声音数据,将声音数据转换为电信息,将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息,将电信号转换为声音数据,并将声音数据传输至外设接口908中以进行进一步的处理。音频数据可以从存储器902处或者通过射频模块910获取。此外,音频数据也可以存储至存储器902中或者通过射频模块910进行发送。在一些实例中,音频模块916还可包括一个耳机播孔,用于向耳机或者其他设备提供音频接口。
触控屏幕918在终端与用户之间同时提供一个输出及输入界面。具体地,触控屏幕918向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。触控屏幕918还接收用户的输入,例如用户的点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕918显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。
按键模块920同样提供用户向终端进行输入的接口,用户可以通过按下不同的按键以使终端执行不同的功能。
此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的垃圾锚文本识别方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种垃圾锚文本识别方法,其特征在于,所述垃圾锚文本识别方法,包括:
接收输入的待测锚文本,根据所述待测锚文本获取所述待测锚文本所指向的网页;
判断所述待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;
若所述待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,所述待测锚文本含有垃圾词汇并且所述待测锚文本不含有机构名称,则将所述待测锚文本识别为垃圾锚文本。
2.根据权利要求1所述的垃圾锚文本识别方法,其特征在于,所述垃圾词汇包括游戏类词汇、色情类词汇、缴费充值类词汇、广告类词汇中的至少一个,所述机构包括行政机构、企事业机构中的至少一个。
3.根据权利要求1所述的垃圾锚文本识别方法,其特征在于,判断所述待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页之后,还包括:
若所述待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页,则判断所述待测锚文本所指向的网页是否是权威网站的网页;
若所述待测锚文本所指向的网页是权威网站的网页,则将所述待测锚文本识别为正常锚文本;
若所述待测锚文本所指向的网页不是权威网站的网页,则判断所述待测锚文本是否含有机构名称;
若所述待测锚文本含有机构名称,则将所述待测锚文本识别为正常锚文本;
若所述待测锚文本不含有机构名称,则判断所述待测锚文本是否含有品牌词;
若所述待测锚文本含有品牌词,并且所述待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将所述待测锚文本识别为垃圾锚文本。
4.根据权利要求1所述的垃圾锚文本识别方法,其特征在于,还包括:
得到所述待测锚文本的所有父链及所述所有父链的个数,得到所述所有父链中属于垃圾网址的个数;
根据所述所有父链的个数和所述所有父链中属于垃圾网址的个数计算出所述所有父链中属于垃圾网址的个数占所述所有父链的个数的比例,判断所述比例是否大于一预设值;
若所述比例大于所述预设值,则将所述待测锚文本识别为垃圾锚文本。
5.根据权利要求1、3、4中任一项所述的垃圾锚文本识别方法,其特征在于,还包括:
将垃圾锚文本的权重设置为零或设置为小于一设定值。
6.一种垃圾锚文本识别装置,其特征在于,所述垃圾锚文本识别装置,包括:
接收模块,用于接收输入的待测锚文本,根据所述待测锚文本获取所述待测锚文本所指向的网页;
判断模块,用于判断所述待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;
第一垃圾锚识别模块,用于若所述待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,所述待测锚文本含有垃圾词汇并且所述待测锚文本不含有机构名称,则将所述待测锚文本识别为垃圾锚文本。
7.根据权利要求6所述的垃圾锚文本识别装置,其特征在于,所述垃圾词汇包括游戏类词汇、色情类词汇、缴费充值类词汇中的至少一个,所述机构包括行政机构、企事业机构中的至少一个。
8.根据权利要求6所述的垃圾锚文本识别装置,其特征在于,所述垃圾锚文本识别装置,还包括:
权威网站判断模块,用于若所述待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页,则判断所述待测锚文本所指向的网页是否是权威网站的网页;
第一正常锚识别模块,用于若所述待测锚文本所指向的网页是权威网站的网页,则将所述待测锚文本识别为正常锚文本;
机构名称判断模块,用于若所述待测锚文本所指向的网页不是权威网站的网页,则判断所述待测锚文本是否含有机构名称;
第二正常锚识别模块,用于若所述待测锚文本含有机构名称,则将所述待测锚文本识别为正常锚文本;
品牌词判断模块,用于若所述待测锚文本不含有机构名称,则判断所述待测锚文本是否含有品牌词;
第二垃圾锚识别模块,用于若所述待测锚文本含有品牌词,并且所述待测锚文本所指向的网页网址的顶级域名与待测锚文本含有的品牌词对应的品牌网网址的顶级域名不相同,则将所述待测锚文本识别为垃圾锚文本。
9.根据权利要求6所述的垃圾锚文本识别装置,其特征在于,所述垃圾锚文本识别装置,还包括:
父链识别模块,用于得到所述待测锚文本的所有父链及所述所有父链的个数,得到所述所有父链中属于垃圾网址的个数;
垃圾网址比例判断模块,用于根据所述所有父链的个数和所述所有父链中属于垃圾网址的个数计算出所述所有父链中属于垃圾网址的个数占所述所有父链的个数的比例,判断所述比例是否大于一预设值;
结果确定模块,用于若所述比例大于所述预设值,则将所述待测锚文本识别为垃圾锚文本。
10.根据权利要求6、8、9中任一项所述的垃圾锚文本识别装置,其特征在于,所述垃圾锚文本识别装置,还包括:
垃圾锚文本处理模块,用于将垃圾锚文本的权重设置为零或设置为小于一设定值。
CN201310529335.8A 2013-10-30 2013-10-30 垃圾锚文本识别方法及装置 Active CN104598460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310529335.8A CN104598460B (zh) 2013-10-30 2013-10-30 垃圾锚文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310529335.8A CN104598460B (zh) 2013-10-30 2013-10-30 垃圾锚文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN104598460A CN104598460A (zh) 2015-05-06
CN104598460B true CN104598460B (zh) 2018-11-02

Family

ID=53124259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310529335.8A Active CN104598460B (zh) 2013-10-30 2013-10-30 垃圾锚文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN104598460B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1638016A1 (en) * 2004-09-15 2006-03-22 PCSafe Inc. Methods and systems for filtering URLs, webpages, and content
KR100742130B1 (ko) * 2006-02-09 2007-07-24 엔에이치엔(주) 키워드 기반 스팸 검출 방법 및 시스템
CN103064984A (zh) * 2013-01-25 2013-04-24 清华大学 垃圾网页的识别方法及系统
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1638016A1 (en) * 2004-09-15 2006-03-22 PCSafe Inc. Methods and systems for filtering URLs, webpages, and content
KR100742130B1 (ko) * 2006-02-09 2007-07-24 엔에이치엔(주) 키워드 기반 스팸 검출 방법 및 시스템
CN103064984A (zh) * 2013-01-25 2013-04-24 清华大学 垃圾网页的识别方法及系统
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于扩展锚文本的网页特征识别;严海兵;《苏州科技学院学报》;20090630;第26卷(第2期);全文 *
隐藏型垃圾网页检测技术的研究与实现;周政;《中国优秀硕士学位论文全文数据库》;20130415(第4期);全文 *

Also Published As

Publication number Publication date
CN104598460A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104243517B (zh) 不同终端之间的内容分享方法及装置
CN107872772B (zh) 诈骗短信的检测方法及装置
KR101880521B1 (ko) 위치-기반 서비스에서 사용자들 매칭
CN104702406B (zh) 身份验证方法及装置
CN104935744A (zh) 一种验证码显示方法、验证码显示装置及移动终端
CN104965848B (zh) 一种前端资源加载方法及装置
US20110231778A1 (en) Customizing content displayed for a user based on user preferences of another user
CN109656980A (zh) 数据处理方法、电子设备、装置及可读存储介质
CN106251869A (zh) 语音处理方法及装置
CN105094861A (zh) 网页应用程序加载方法、装置及系统
CN104462051B (zh) 分词方法及装置
CN105022760B (zh) 一种新闻推荐方法及装置
CN104424241B (zh) 基于二维码的网站链接处理方法、装置及系统
CN106326091A (zh) 一种浏览器网页兼容性的检测方法及系统
CN105657479A (zh) 一种视频处理方法及装置
CN103248407A (zh) 一种移动终端及其访问、共享网络资源的方法和系统
CN105320885A (zh) 恶意网站检测方法及装置
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
US10873643B2 (en) Unified content posting
CN105100005A (zh) 身份验证方法及装置
CN108512803A (zh) 提醒更改账号绑定电话号码的方法及装置
CN104598460B (zh) 垃圾锚文本识别方法及装置
WO2015021908A1 (en) Method, apparatus and system for security verification
CN104376481B (zh) 一种获取业务权限的方法及装置
CN106844396B (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210923

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right