CN102682011B - 建立域名描述名称信息表、搜索的方法、装置及系统 - Google Patents

建立域名描述名称信息表、搜索的方法、装置及系统 Download PDF

Info

Publication number
CN102682011B
CN102682011B CN201110060363.0A CN201110060363A CN102682011B CN 102682011 B CN102682011 B CN 102682011B CN 201110060363 A CN201110060363 A CN 201110060363A CN 102682011 B CN102682011 B CN 102682011B
Authority
CN
China
Prior art keywords
domain name
title
domain
name
anchor text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110060363.0A
Other languages
English (en)
Other versions
CN102682011A (zh
Inventor
曲先洋
耿方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201110060363.0A priority Critical patent/CN102682011B/zh
Publication of CN102682011A publication Critical patent/CN102682011A/zh
Application granted granted Critical
Publication of CN102682011B publication Critical patent/CN102682011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了建立域名描述名称信息表、搜索的方法、装置及系统,属于互联网通信领域。所述方法建立域名描述名称信息表的包括:爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;获取所述域名的域名描述名称;将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。所述搜索系统包括:建立域名描述名称信息表的装置和搜索的装置。本发明为用户辨别恶意网站提供帮助。

Description

建立域名描述名称信息表、搜索的方法、装置及系统
技术领域
本发明涉及互网通信领域,特别涉及一种建立域名描述名称信息表、搜索的方法、装置及系统。
背景技术
随着互联网逐渐深入人们的生活,使得全球出现大量的网站,截止到2010年2月全球的网站数量已经达到2.34亿个;与此同时,以木马和钓鱼网站为代表的恶意网站也与日俱增,危害人们的生活。
其中,网页搜索引擎是用户上网的主要入口之一,用户常常利用网页搜索引擎搜索需要的查询结果,网页搜索引擎搜索的查询结果中往往包括恶意网站对应的查询结果,给用户的信息安全带来了很大的危害。
发明内容
为了帮助用户辨别恶意网站,本发明提供了建立域名描述名称信息表、搜索的方法、装置及系统。所述技术方案如下:
一种建立域名描述名称信息表的方法,所述方法包括:
爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;
获取所述域名的域名描述名称;
将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。
如果所述域名的置信度超过第一阈值,则所述获取所述域名的域名描述名称,包括:
获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;
从所述主页面的标题和描述信息中提取所述域名的域名描述名称。
从所述主页面的标题和描述信息中提取所述域名的域名描述名称,包括:
对所述主页面的标题和描述信息进行分割得到分词;
从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。
如果所述域名的置信息度未超过第一阈值,则所述获取所述域名的域名描述名称,包括:
根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;
从所述获取的锚文本中提取所述域名的域名描述名称。
所述根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本,包括:
从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;
从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。
从所述获取的锚文本中提取所述域名的域名描述名称,包括:
对所述获取的锚文本进行分割得到分词,统计每个分词出现的次数;
将出现次数最多的分词确定为所述域名的域名描述名称。
所述获取所述域名的域名描述名称之前,还包括:
根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。
一种利用所述建立的域名描述名称信息表进行搜索的方法,所述方法包括:
接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;
根据域名描述名称信息表,获取所述查询结果的域名描述名称;
显示所述查询结果和所述查询结果的域名描述名称。
所述根据域名描述名称信息表,获取所述查询结果的域名描述名称,包括:
从所述查询结果包括的链接中提取所述查询结果对应的网页页面所在的域名;
根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。
一种建立域名描述名称信息表的装置,所述装置包括:
第一获取模块,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;
第二获取模块,用于获取所述域名的域名描述名称;
存储模块,用于将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。
如果所述域名的置信度超过第一阈值,则所述第二获取模块包括:
第一获取单元,用于获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;
第一提取单元,用于从所述主页面的标题和描述信息中提取所述域名的域名描述名称。
所述第一提取单元包括:
第一分割子单元,用于对所述主页面的标题和描述信息进行分割得到分词;
第一确定子单元,用于从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。
如果所述域名的置信度未超过第一阈值,则所述第二获取模块包括:
第二获取单元,用于根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;
第二提取单元,用于从所述获取的锚文本中提取所述域名的域名描述名称。
所述第二获取单元包括:
查找子单元,用于从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;
去除子单元,用于从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。
所述第二提取单元包括:
第二分割子单元,用于对所述获取的锚文本进行分割得到分词,统计每个分词出现的次数;
第二确定子单元,用于将出现次数最多的分词确定为所述域名的域名描述名称。
所述装置还包括:
置信度计算模块,用于根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。
一种利用所述建立的域名描述名称信息表进行搜索的装置,所述装置包括:
第三获取模块,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;
第四获取模块,用于根据域名描述名称信息表,获取所述查询结果的域名描述名称;
显示模块,用于显示所述查询结果和所述查询结果的域名描述名称。
所述第四获取模块包括:
第三提取单元,用于从所述查询结果的链接中提取所述查询结果对应的网页页面所在的域名;
查找单元,用于根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。
一种搜索系统,所述搜索系统包括建立域名描述名称信息表的装置和搜索的装置;
所述建立域名描述名称信息表的装置,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;获取所述域名的域名描述名称;将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中;
所述搜索的装置,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;根据所述域名描述名称信息表,获取所述查询结果的域名描述名称;显示所述查询结果和所述查询结果的域名描述名称。
通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中;当接收到搜索请求时,获取查询词对应的查询结果,根据建立的域名描述名称获取查询结果对应的域名描述名称,显示获取的查询结果和域名描述名称。如此,用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
附图说明
图1是本发明实施例1提供的一种建立域名描述名称信息表的方法流程图;
图2是本发明实施例2提供的一种建立域名描述名称信息表的方法流程图;
图3是本发明实施例3提供的一种搜索的方法流程图;
图4是本发明实施例4提供的一种搜索的方法流程图;
图5是本发明实施例5提供的一种建立域名描述名称信息表的装置示意图;
图6是本发明实施例6提供的一种搜索的装置示意图;
图7是本发明实施例7提供的一种搜索系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种建立域名描述名称信息表的方法,包括:
步骤101:爬取网页页面中的链接,并获取该链接对应的网页页面所在的域名;
步骤102:获取该域名的域名描述名称;
步骤103:将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。
在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例2
如图2所示,本发明实施例提供了一种建立域名描述名称信息表的方法,包括:
步骤201:通过对当前网页页面进行爬取,获取当前网页页面中的链接;
具体地,对当前网页页面中的内容进行爬取,当爬取到当前网页页面中的链接时,从当前网页页面中提取爬取的链接。
其中,在本实施例中,可以对互联网中的各个网页页面进行爬取。另外,可以通过网页爬虫技术或网络蜘蛛算法来对互联网中的各个网页页面进行爬取。
例如,对于互联网中的某个网页页面进行爬取,当爬取到该网页页面中的一条链接“http://news.qq.com/000411.htm”时,提取爬取的该条链接。
步骤202:根据获取的链接,解析出获取的链接对应的网页页面所在的域名;
其中,互联网中的任一个链接都由该链接对应的网页页面所在的域名以及该网页页面在该域名上的存储地址组成。
具体地,对该链接进行解析,解析出该链接中的域名,其中,解析出的域名为该链接对应的网页页面所在的域名。
例如,对于提取的链接“http://news.qq.com/000411.htm”由该链接对应的网页页面所在的域名“http://news.qq.com”和该链接对应的网页页面在域名“http://news.qq.com”上的存储地址“000411.htm”组成。所以在本实施例中,对该条链接“http://news.qq.com/000411.htm”进行解析,解析该链接中包括的域名为“http://news.qq.com”,其中,解析出的域名“http://news.qq.com”为该链接对应的网页页面所在的域名。
进一步地,获取当前网页页面所在的网站,将解析出的域名和获取的网站作为一条记录并存储在域名与网站的对应关系中。
进一步地,还可以从当前网页页面的源文件中提取该链接的锚文本,将解析出的域名和提取的锚文本作为一条记录并存储在域名与锚文本的对应关系中。
进一步地,获取当前网页页面所在的网站,将获取的网站和提取的锚文本作为一条记录存储在网站与锚文本的对应关系中。
步骤203:判断域名描述名称信息表中是否存在解析出的域名对应的域名描述名称,如果是,则结束操作,如果否,则执行步骤204;
其中,域名描述名称信息表用于存储域名与域名描述名称的对应关系,如表1所示的域名描述名称信息表。
表1
域名 域名描述名称
http://news.sohu.com 搜狐新闻
http://news.163.com 网易新闻
…… ……
具体地,根据解析出的域名查找域名描述名称信息表,如果从域名描述名称信息表中查找到对应的域名描述名称,则结束操作,否则,继续执行步骤204。
例如,判断出如表1所示的域名描述名称信息表中不存在解析出的域名“http://news.qq.com”对应的域名描述名称,然后执行步骤204。
步骤204:计算解析的域名的置信度,如果解析的域名的置信度超过预设第一阈值,则执行步骤205,否则,执行步骤207;
其中,计算解析的域名的置信度的操作可以具体为:根据域名与网站的对应关系,获取与该域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取与该域名具有链接关系的网站的信誉度,根据与该域名具有链接关系的网站的信誉度计算该域名的置信度。
其中,在本实施例中,事先根据网站的权威度、流行度和大小等特征,为互联网中的网站设置信誉度,并存储该网站与该网站的信誉度的对应关系。
步骤205:获取解析的域名对应的主页面,从该主页面中提取该主页面的标题和描述信息;
其中,每个网页页面都存在一个源文件,在源文件中包括网页页面的标题和描述信息等内容;在源文件中使用代码<meta name=″description″content=″″/>来记录网页页面中的描述信息,使用代码<title></title>来记录网页页面中的标题。
具体地,根据解析的域名链接到对应的主页面中,扫描该主页面的源文件中的代码,并对扫描的代码进行解析得到该主页面的标题和描述信息。
例如,对于“腾讯新闻”主页面,“腾讯新闻”主页面的源文件中包括如下的代码<meta name=″description″content=″腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站″/>以及<title>腾讯新闻</title>。
相应地,对于域名“http://news.qq.com”对应的主页面为“腾讯新闻”主页面,对“腾讯新闻”主页面的源代码进行扫描并对扫描的每条代码进行解析,当扫描到源文件中的代码<meta name=″description″content=″腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站″/>时,解析出“腾讯新闻”主页面的描述信息为“腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站”;当扫描到源文件中的代码<title>腾讯新闻</title>时,解析出“腾讯新闻”主页面的标题为“腾讯新闻”。
其中,每个域名对应的主页面为每个域名对应网站的首页,例如,域名“http://news.qq.com”对应的“腾讯新闻”主页面为域名“http://news.qq.com”对应的腾讯新闻网站的首页。
步骤206:从提取的主页面的标题和描述信息中提取解析出的域名的域名描述名称,并将解析出的域名和提取的域名描述名称的对应关系存储在域名描述名称信息表中,结束操作;
具体地,对主页面的标题和描述信息进行分割得到多个分词,从主页面的标题和分割得到的多个分词中选择对主页面最具代表性的词,将选择的词确定为解析出的域名的域名描述名称,将解析出的域名和确定出的域名描述名称的对应关系存储在域名描述名称信息表中。
其中,从主页面的标题和分割得到的多个分词中选择对主页面最具代表性的词的操作可以有多种,其中一种可以为:分别统计标题和每个分词在主页面包括的各链接对应网页页面中出现的次数,并确定出主页面所属网站的类型;获取属于确定类型的网站,并从获取的网站中去除主页面所属的网站,分别统计标题和每个分词在剩下每个网站包括的各网页页面中出现的次数,根据标题在主页面包括的各链接对应网页页面中出现的次数以及在剩下网站包括的网页页面中出现的次数,计算出标题的比值,根据每个分词在主页面包括的链接对应网页页面中出现的次数以及在剩下每个网站包括的网页页面中出现的次数,分别计算出每个分词的比值,将比值最大的词确定为对主页面最具代表性的词。
例如,对“腾讯新闻”主页面的标题“腾讯新闻”和描述信息“腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站”进行分割得到的分词包括腾讯、新闻、腾讯公司......,确定出“腾讯新闻”主页面属于网站的类型为新闻类型的网站,获取属于新闻类型的网站包括腾讯新闻网站、网易新闻网站和搜狐新闻网站,从获取的网站中去除“腾讯新闻”主页面所属的腾讯新闻网站,分别统计标题“腾讯新闻”以及每个分词在“腾讯新闻”主页面包括的各链接对应的网页页面中出现的次数,分别统计标题“腾讯新闻”以及每个分词在剩下的网易新闻网站和搜狐新闻网站包括的各网页页面中出现的次数,根据标题“腾讯新闻”和每个分词分别在“腾讯新闻”主页面包括的链接对应网页页面中出现的次数以及在剩下的网站包括的各网页页面中出现的次数,分别计算出标题“腾讯新闻”的比值以及每个分词的比值,选择比值最大的词,假设为“腾讯新闻”,将选择的“腾讯新闻”确定为域名“http://news.qq.com”的域名描述名称;将解析的域名“http://news.qq.com”和确定的域名描述名称“腾讯新闻”作为一条对应关系存储在如表1所示的域名描述名称信息表中,得到的结果如表2所示。
表2
域名 域名描述名称
http://news.qq.com 腾讯新闻
http://news.sohu.com 搜狐新闻
http://news.163.com 网易新闻
…… ……
步骤207:根据域名与锚文本的对应关系,获取解析出的域名对应的锚文本;
具体地,根据解析出的域名,从域名与锚文本的对应关系中查找出对应的锚文本,从查找的锚文本中去除重复的锚文本、计算剩下每个锚文本的置信度,选择置信度超过第二阈值的锚文本,去除选择的锚文本中的噪音。
其中,计算锚文本的置信度的操作可以具体为:根据锚文本与网站的对应关系,获取锚文本所在的网页页面位于的网站,根据网站与信誉度的对应关系,获取该网站的信誉度,再根据该网站的信誉度计算该锚文本的置信度。
步骤208:从获取的锚文本中提取解析的域名的描述名称,将解析的域名和获取的域名描述名称的对应关系存储在域名描述名称信息表中。
具体地,对获取的每个锚文本进行分割得到多个分词,统计每个分词出现的次数,将出现次数最多的分词确定为解析出的域名的域名描述名称,将解析出的域名和确定出的域名描述名称的对应关系存储在域名描述名称信息表中。
在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例3
如图3所示,本发明实施例提供了一种利用实施例1建立的域名描述名称信息表进行搜索的方法,包括:
步骤301:接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;
步骤302:根据域名描述名称信息表,获取该查询结果的域名描述名称;
步骤303:显示该查询结果和该查询结果的域名描述名称。
在本发明实施例中,获取查询结果的域名描述名称,显示查询结果和查询结果的域名描述名称。如此,用户可以通过查询结果的域名描述名称确定出查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例4
如图4所示,本发明实施例提供了一种利用实施例2得到的域名信息表搜索网页页面的方法,包括:
步骤401:接收搜索请求,且该搜索请求至少携带用户提交的查询词;
其中,用户可以在客户端打开网页搜索引擎的首页,然后用户向网页搜索引擎的首页输入查询词,再通过网页搜索引擎的首页向网页搜索引擎提交输入的查询词。
步骤402:根据搜索请求携带的查询词,获取对应的查询结果,提取每个查询结果的域名;
其中,网页搜索引擎搜索的每个查询结果中包括查询结果对应的网页页面的标题和链接等信息。
具体地,根据接收的查询词,通过现有的搜索方法搜索对应的查询结果,从每个查询结果包括的链接中提取每个查询结果的域名。
例如,假设用户提交的查询词为“北京奥运会”,网页搜索引擎根据查询词“北京奥运会”搜索到如表3所示的三个查询结果,从表3中的第一条查询结果中的链接中提取域名为“http://news.qq.com”,从表3中的第二条查询结果中的链接中提取的域名为“http://news.sohu.com”,从表3中的第三条查询结果中的链接中提取的域名为“http://news.163.com”。
表3
步骤403:根据每个查询结果的域名和域名描述名称信息表,获取每个查询结果对应的域名描述名称;
具体地,根据每个查询结果的域名,从域名描述名称信息表中查找出每个查询结果对应的域名描述名称。
例如,根据表3中的第一条查询结果的域名“http://news.qq.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“腾讯新闻”;根据表3中的第二条查询结果的域名“http://news.sohu.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“搜狐新闻”;根据表3中的第三条查询结果的域名“http://news.163.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“网易新闻”。
步骤404:将每个查询结果和每个查询结果对应的域名描述名称显示给用户。
例如,如表4所示,将表3中的第一条查询结果和其对应的域名描述名称“腾讯新闻”显示给用户,将表3中的第二条查询结果和其对应的域名描述名称“搜狐新闻”显示给用户,将表3中的第三条查询结果和其对应的域名描述名称显示给用户。
表4
在本发明实施例中,从每个查询结果中的URL中提取每个查询结果的域名,根据域名描述名称信息表和每个查询结果的域名,获取每个查询结果的域名描述名称,显示每个查询结果和每个查询结果的域名描述名称。用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例5
如图5所示,本发明实施例提供了一种建立域名描述名称信息表的装置,包括:
第一获取模块501,用于爬取网页页面中的链接,并获取爬取的链接对应的网页页面所在的域名;
第二获取模块502,用于获取获取的域名的域名描述名称;
存储模块503,用于将获取的域名和域名描述名称的对应关系存储在域名描述名称信息表中。
其中,如果获取的域名的置信度超过第一阈值,则第二获取模块502包括:
第一获取单元,用于获取该域名对应的主页面,从该主页面的源文件中获取该主页面的标题和描述信息;
第一提取单元,用于从该主页面的标题和描述信息中提取该域名的域名描述名称。
其中,第一提取单元包括:
第一分割子单元,用于对该主页面的标题和描述信息进行分割得到分词;
第一确定子单元,用于从主页面的标题和分割得到的分词中选择对主页面最具代表性的词,将选择的词确定为该域名的域名描述名称。
其中,如果该域名的置信度未超过第一阈值,则第二获取模块502包括:
第二获取单元,用于根据已存储的域名与锚文本的对应关系,获取该域名对应的锚文本;
第二提取单元,用于从获取的锚文本中提取该域名的域名描述名称。
其中,第二获取单元包括:
查找子单元,用于从已存储的域名与锚文本的对应关系中查找出该域名对应的锚文本;
去除子单元,用于从该锚文本中去除重复的锚文本、计算剩下的锚文本的置信度,选择置信度超过第二阈值的锚文本,去除选择的锚文本中的噪音。
其中,第二提取单元包括:
第二分割子单元,用于对获取的锚文本进行分割得到分词,统计每个分词出现的次数;
第二确定子单元,用于将出现次数最多的分词确定为该域名的域名描述名称。
进一步地,该装置还包括:
置信度计算模块,用于根据已存储的域名与网站的对应关系,获取与该域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取该网站的信誉度,根据信誉度计算该域名的置信度。
在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例6
如图6所示,本发明实施例提供了一种利用实施例5建立的域名描述信息表进行搜索的装置,包括:
第三获取模块601,用于接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;
第四获取模块602,用于根据域名描述名称信息表,获取该查询结果的域名描述名称;
显示模块603,用于显示该查询结果和该查询结果的域名描述名称。
其中,第四获取模块602包括:
第三提取单元,用于从该查询结果的链接中提取该查询结果对应的网页页面所在的域名;
查找单元,用于根据该域名从域名描述名称信息表中查找到该查询结果的域名描述名称。
在本发明实施例中,获取查询结果的域名描述名称,显示查询结果和查询结果的域名描述名称。如此,用户可以通过查询结果的域名描述名称确定出查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
实施例7
如图7所示,本发明实施例提供了一种搜索系统,包括建立域名描述名称信息表的装置701和搜索的装置702;
建立域名描述名称信息表的装置701,用于爬取网页页面中的链接,并获取该链接对应的网页页面所在的域名;获取该域名的域名描述名称;将该域名和域名描述名称的对应关系存储在域名描述名称信息表中;
搜索的装置702,用于接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;根据域名描述名称信息表,获取该查询结果的域名描述名称;显示该查询结果和该查询结果的域名描述名称。
在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中;当接收到搜索请求时,获取查询词对应的查询结果,根据建立的域名描述名称获取查询结果对应的域名描述名称,显示获取的查询结果和域名描述名称。如此,用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。
需要说明的是:上述实施例提供的一种建立域名描述名称信息表的装置在建立域名描述名称信息表时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供建立域名描述名称信息表的装置与建立域名描述名称信息表的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
需要说明的是:上述实施例提供的一种利用建立的域名描述名称信息表进行搜索的装置在搜索查询结果时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供利用建立的域名描述名称信息表的装置与利用建立的域名描述名称信息表的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种建立域名描述名称信息表的方法,其特征在于,所述方法包括:
爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;
获取所述域名的域名描述名称;
将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中;
其中,所述域名的域名描述名称是基于所述域名置信度获取的,所述域名置信度的计算方式如下:根据与所述域名具有链接关系的网站的信誉度计算所述域名置信度。
2.如权利要求1所述的方法,其特征在于,如果所述域名的置信度超过第一阈值,则所述获取所述域名的域名描述名称,包括:
获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;
从所述主页面的标题和描述信息中提取所述域名的域名描述名称。
3.如权利要求2所述的方法,其特征在于,从所述主页面的标题和描述信息中提取所述域名的域名描述名称,包括:
对所述主页面的标题和描述信息进行分割得到分词;
从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。
4.如权利要求1所述的方法,其特征在于,如果所述域名的置信息度未超过第一阈值,则所述获取所述域名的域名描述名称,包括:
根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;
从所述获取的锚文本中提取所述域名的域名描述名称。
5.如权利要求4所述的方法,其特征在于,所述根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本,包括:
从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;
从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。
6.如权利要求4所述的方法,其特征在于,从所述获取的锚文本中提取所述域名的域名描述名称,包括:
对所述获取的锚文本进行分割得到分词,统计每个分词出现的次数;
将出现次数最多的分词确定为所述域名的域名描述名称。
7.如权利要求1所述的方法,其特征在于,所述获取所述域名的域名描述名称之前,还包括:
根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。
8.一种利用权利要求1建立的域名描述名称信息表进行搜索的方法,其特征在于,所述方法包括:
接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;
根据域名描述名称信息表,获取所述查询结果的域名描述名称;
显示所述查询结果和所述查询结果的域名描述名称。
9.如权利要求8所述的方法,其特征在于,所述根据域名描述名称信息表,获取所述查询结果的域名描述名称,包括:
从所述查询结果包括的链接中提取所述查询结果对应的网页页面所在的域名;
根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。
10.一种建立域名描述名称信息表的装置,其特征在于,所述装置包括:
第一获取模块,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;
第二获取模块,用于获取所述域名的域名描述名称;
存储模块,用于将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中;
其中,所述域名的域名描述名称是基于所述域名置信度获取的,所述域名置信度的计算方式如下:根据与所述域名具有链接关系的网站的信誉度计算所述域名置信度。
11.如权利要求10所述的装置,其特征在于,如果所述域名的置信度超过第一阈值,则所述第二获取模块包括:
第一获取单元,用于获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;
第一提取单元,用于从所述主页面的标题和描述信息中提取所述域名的域名描述名称。
12.如权利要求11所述的装置,其特征在于,所述第一提取单元包括:
第一分割子单元,用于对所述主页面的标题和描述信息进行分割得到分词;
第一确定子单元,用于从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。
13.如权利要求10所述的装置,其特征在于,如果所述域名的置信度未超过第一阈值,则所述第二获取模块包括:
第二获取单元,用于根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;
第二提取单元,用于从所述获取的锚文本中提取所述域名的域名描述名称。
14.如权利要求13所述的装置,其特征在于,所述第二获取单元包括:
查找子单元,用于从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;
去除子单元,用于从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。
15.如权利要求13所述的装置,其特征在于,所述第二提取单元包括:
第二分割子单元,用于对所述获取的锚文本进行分割得到分词,统计每个分词的出现的次数;
第二确定子单元,用于将出现次数最多的分词确定为所述域名的域名描述名称。
16.如权利要求10所述的装置,其特征在于,所述装置还包括:
置信度计算模块,用于根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。
17.一种利用权利要求10建立的域名描述名称信息表进行搜索的装置,其特征在于,所述装置包括:
第三获取模块,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;
第四获取模块,用于根据域名描述名称信息表,获取所述查询结果的域名描述名称;
显示模块,用于显示所述查询结果和所述查询结果的域名描述名称。
18.如权利要求17所述的装置,其特征在于,所述第四获取模块包括:
第三提取单元,用于从所述查询结果的链接中提取所述查询结果对应的网页页面所在的域名;
查找单元,用于根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。
19.一种搜索系统,其特征在于,所述搜索系统包括建立域名描述名称信息表的装置和搜索的装置;
所述建立域名描述名称信息表的装置,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;获取所述域名的域名描述名称;将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中;其中,所述域名的域名描述名称是基于所述域名置信度获取的,所述域名置信度的计算方式如下:根据与所述域名具有链接关系的网站的信誉度计算所述域名置信度;
所述搜索的装置,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;根据所述域名描述名称信息表,获取所述查询结果的域名描述名称;显示所述查询结果和所述查询结果的域名描述名称。
CN201110060363.0A 2011-03-14 2011-03-14 建立域名描述名称信息表、搜索的方法、装置及系统 Active CN102682011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110060363.0A CN102682011B (zh) 2011-03-14 2011-03-14 建立域名描述名称信息表、搜索的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110060363.0A CN102682011B (zh) 2011-03-14 2011-03-14 建立域名描述名称信息表、搜索的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN102682011A CN102682011A (zh) 2012-09-19
CN102682011B true CN102682011B (zh) 2017-04-12

Family

ID=46813957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110060363.0A Active CN102682011B (zh) 2011-03-14 2011-03-14 建立域名描述名称信息表、搜索的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN102682011B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778115A (zh) * 2012-10-17 2014-05-07 腾讯科技(深圳)有限公司 网站名称提取方法及装置
CN102968451B (zh) * 2012-10-25 2016-08-03 北京奇虎科技有限公司 浏览器格式页面中加载网址数据的方法和客户端
CN102955847B (zh) * 2012-10-25 2016-07-06 北京奇虎科技有限公司 浏览器格式页面中加载网址数据的系统
CN103902550B (zh) * 2012-12-25 2017-05-10 深圳市世纪光速信息技术有限公司 搜索站点的方法和装置
CN105183905A (zh) * 2015-09-30 2015-12-23 北京奇虎科技有限公司 一种官方网站网址的查询词挖掘方法和装置
CN106649366B (zh) * 2015-10-30 2020-05-22 北京国双科技有限公司 关键词搜索结果的分类方法和装置
CN110020049A (zh) * 2017-10-27 2019-07-16 北京国双科技有限公司 域名翻译和查询的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842008A (zh) * 2005-04-01 2006-10-04 国际商业机器公司 用于通过网络提供定制内容的方法和系统
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和系统
CN101855631A (zh) * 2007-11-08 2010-10-06 上海惠普有限公司 用于聚焦爬行的导航排名

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050097088A1 (en) * 2003-11-04 2005-05-05 Dominic Bennett Techniques for analyzing the performance of websites
CN101059818A (zh) * 2007-06-26 2007-10-24 申屠浩 加强搜索引擎结果安全性的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842008A (zh) * 2005-04-01 2006-10-04 国际商业机器公司 用于通过网络提供定制内容的方法和系统
CN101855631A (zh) * 2007-11-08 2010-10-06 上海惠普有限公司 用于聚焦爬行的导航排名
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和系统

Also Published As

Publication number Publication date
CN102682011A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN102693271B (zh) 一种网络信息推荐方法及系统
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
CN103885987B (zh) 一种音乐推荐方法和系统
CN103870461B (zh) 主题推荐方法、装置和服务器
US8255414B2 (en) Search assist powered by session analysis
US9552435B2 (en) Method and system for incremental collection of forum replies
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103617267B (zh) 社交化扩展搜索方法及装置、系统
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN103678321A (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN102171689A (zh) 响应于搜索查询提供针对讨论话题的帖子
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN102664926A (zh) 用户信息共享方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN111224923A (zh) 一种仿冒网站的检测方法、装置及系统
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
WO2012151752A1 (en) Annotating search results with images
US9110943B2 (en) Identifying an image for an entity
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131121

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131121

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

GR01 Patent grant
GR01 Patent grant