CN104392009B - 获取移动站点链接地址的方法和装置 - Google Patents

获取移动站点链接地址的方法和装置 Download PDF

Info

Publication number
CN104392009B
CN104392009B CN201410800383.0A CN201410800383A CN104392009B CN 104392009 B CN104392009 B CN 104392009B CN 201410800383 A CN201410800383 A CN 201410800383A CN 104392009 B CN104392009 B CN 104392009B
Authority
CN
China
Prior art keywords
mobile
website
webpage
site
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410800383.0A
Other languages
English (en)
Other versions
CN104392009A (zh
Inventor
王智广
魏少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410800383.0A priority Critical patent/CN104392009B/zh
Publication of CN104392009A publication Critical patent/CN104392009A/zh
Application granted granted Critical
Publication of CN104392009B publication Critical patent/CN104392009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取移动站点链接地址的方法和装置,其中,方法包括:获取包含多个PC站点的PC站点链接地址列表;利用移动用户代理向PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求;判断页面访问请求的返回页面类型是否为移动网页;若页面访问请求对应的返回页面类型为移动网页,获取移动网页所属站点的链接地址作为移动站点。根据该方案,利用PC站点和移动站点的相关性进行移动站点的挖掘,获得了更高的移动站点挖掘的召回率,并且挖掘结果准确,全面。

Description

获取移动站点链接地址的方法和装置
技术领域
本发明涉及互联网技术领域,具体涉及一种获取移动站点链接地址的方法和装置。
背景技术
随着移动互联网和无线通信的快速发展,越来越多的用户使用智能手机,平板电脑等移动设备访问网页,请求互联网资源,进行搜索和查询等。与传统的PC访问方式相比,移动设备访问方式更加方便,用户能够随时随地对互联网进行访问。
然而,移动设备与PC的配置不同,例如,移动设备的显示屏幕的尺寸一般远小于PC的显示屏幕,比例也往往不一致。因此,在移动设备上打开PC站点,可能不利于用户观看。然而用户使用移动设备进行搜索时,搜索结果页面中包含大量PC站点。因此,移动搜索引擎应该为用户提供适于显示的页面,这就需要对移动站点进行挖掘,收录移动资源,尽可能在搜索结果中给出移动站点。但现有技术中的移动站点挖掘方法并不准确,难以满足召回率的要求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的获取移动站点链接地址的方法和装置。
根据本发明的一个方面,提供了一种获取移动站点链接地址的方法,包括:
获取包含多个PC站点的PC站点链接地址列表;
利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求;
判断所述页面访问请求的返回页面类型是否为移动网页;
若所述页面访问请求对应的返回页面类型为移动网页,获取所述移动网页所属站点的链接地址作为移动站点。
可选地,所述利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求进一步为:向列表中的PC站点的首页发起页面访问请求和/或向列表中PC站点下的随机选取的网页发起页面访问请求;
所述判断页面访问请求的返回页面类型是否为移动网页进一步为:判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否者为移动网页;
若所述向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
可选地,所述判断所述页面访问请求的返回页面类型是否为移动网页进一步包括:
判断所述页面访问请求的返回页面的URL是否具有移动网页的URL特征;
将具有移动网页的URL特征的返回页面类型判断为移动网页。
可选地,所述判断所述页面访问请求的返回页面类型是否为移动网页进一步包括:
对所述页面访问请求的返回页面进行页面解析以获取页面内容;
根据所述页面内容判断所述返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。
可选地,所述获取包含多个PC站点的PC站点链接地址列表进一步为:
根据搜索引擎的索引库中收录的PC站点获取所述PC站点链接地址列表。
可选地,所述方法还包括:将获取的移动站点收录入移动搜索引擎索引库中。
可选地,所述方法还包括:接收客户端发送的搜索请求;根据所述搜索请求中的用户代理信息,判断所述客户端是否为移动设备;若所述客户端为移动设备,将所述移动搜索引擎索引库中收录的与所述搜索请求相关的移动站点返回给所述客户端。
根据本发明的另一方面,提供了一种获取移动站点链接地址的装置,包括:
PC站点获取模块,适于获取包含多个PC站点的PC站点链接地址列表;
请求模块,适于利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求;
判断模块,适于判断所述页面访问请求的返回页面类型是否为移动网页;
移动站点获取模块,适于在所述页面访问请求的返回页面类型为移动页面时,获取所述移动页面所属站点的链接地址作为移动站点。
可选地,所述请求模块进一步适于:向列表中的PC站点的首页发起页面访问请求和/或向列表中PC站点下的随机选取的网页发起页面访问请求;
所述判断模块进一步适于:判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否者为移动网页;
若所述向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
可选地,所述判断模块进一步适于:
判断所述页面访问请求的返回页面的URL是否具有移动网页的URL特征;
将具有移动网页的URL特征的返回页面类型判断为移动网页。
可选地,所述判断模块进一步适于:对所述页面访问请求的返回页面进行页面解析以获取页面内容;根据所述页面内容判断所述返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。
可选地,所述PC站点获取模块进一步适于:根据搜索引擎的索引库中收录的PC站点获取所述PC站点链接地址列表。
可选地,所述装置还包括:收录模块,适于将获取的移动站点收录入移动搜索引擎索引库中。
可选地,所述装置还包括:搜索处理模块,适于:接收客户端发送的搜索请求;根据所述搜索请求中的用户代理信息,判断所述客户端是否为移动设备;若所述客户端为移动设备,将所述移动搜索引擎索引库中收录的与所述搜索请求相关的移动站点返回给所述客户端。
根据本发明的获取移动站点链接地址的方法和装置,获取PC站点链接地址列表,利用移动用户代理向PC站点链接地址列表中的PC站点发起页面访问请求,若返回的是移动网页,认为该PC站点具有相应的移动站点,且返回的移动站点就是该PC站点对应的移动站点,根据返回的移动网页确定移动站点的链接地址。根据该方案,利用PC站点和移动站点的相关性进行移动站点的挖掘,获得了更高的移动站点挖掘的召回率,并且挖掘结果准确,全面。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的获取移动站点链接地址的方法的流程图;
图2示出了根据本发明另一个实施例的获取移动站点链接地址的方法的流程图;
图3示出了根据本发明一个实施例的获取移动站点链接地址的装置的结构框图;
图4示出了根据本发明另一个实施例的获取移动站点链接地址的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的获取移动站点链接地址的方法的流程图,如图1所示,方法包括如下步骤:
步骤S110,获取包含多个PC站点的PC站点链接地址列表。
PC站点是指适合在普通电脑设备上显示的站点,移动站点是指适合在移动设备,例如手机、平板电脑上显示的站点。PC站点链接地址列表可以来自搜索引擎的蜘蛛程序在爬行网页时得到的部分PC站点的列表,或是已挖掘的PC站点。
PC站点链接地址列表中包括多个PC站点首页的URL,例如,http://www.360.cn,http://www.so.com等。进一步地,站点列表还可以包括在PC站点首页上通过一次或多次链接访问到的页面,例如对其中的360站点,链接地址列表中还包括首页中“论坛”链接对应的URL:http://bbs.360safe.com/index.html等。
本发明将获取的PC站点列表用于移动站点挖掘。现有的挖掘移动站点的方式都是根据移动站点的URL特征完成的。很多移动站点包括3g”“,mobile”,“wap”等具有移动特征的字符串,例如,3g.163.com等,若能从站点的域名中提取出上述字符串,该站点即为移动站点。然而这种方式并不准确。首先,不是所有的移动站点都包含这些字符串;而且具有移动特征的字符串难以罗列完整。另外特征字符串在URL中的位置也是多变的。特征字符串可能在站点URL的最前面,如移动站点3g.163.com,但也可能在中间位置,例如,移动站点cn.mobile.reuters.com等。因此,上述挖掘方法不够准确,同时,挖掘过程中需要筛选掉大量的PC站点,效率较低。
通过分析当前互联网站点的特点,发现移动站点一般具有对应的PC站点,并且移动站点的URL与对应的PC站点的URL相似,而带有一定的移动特征。本发明根据这一特点,提供了一种利用PC站点挖掘移动站点的方法。由于PC站点的挖掘已经比较完善,根据PC站点的特性直接获取移动站点的方式更加快速,准确。
步骤S120,利用移动用户代理向PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求。
移动终端或PC都是通过http协议访问互联网资源。http请求报文的首部中包括用户代理(user-agent,简称UA)字段。UA用于记录发送http请求的终端的部分信息。
为了便于理解本发明,下面先简单介绍一下UA信息的具体内容。UA是一个特殊的字符串头,其中包含一系列有关终端的信息。例如,计算机终端使用的操作系统及版本、CPU类型、浏览器类型及版本、浏览器渲染引擎等。通常情况下,UA的标准格式为:浏览器标识;操作系统标识;加密等级标识;浏览器语言;渲染引擎标识;版本信息,其中,浏览器标识是形如Mozilla/5.0或Opera/7.54等标记浏览器产品的字串;常见的操作系统标识包括:FressBSD,Linux,Mac,Solaris以及Windows等。浏览器版本信息中显示浏览器的真实版本信息,格式为Version/版本号。例如,Iphone用户访问网页时发送的请求时User-agent信息为Mozilla/5.0(iPhone;CPU iPhone OS 5_0like Mac OS X)AppleWebKit/534.46(KHTML,like Gecko)Version/5.1Mobile/9A334Safari/755.48.3。
在UA包含的上述信息中,与本发明最相关的是能够反映终端类型的信息,例如,操作系统标识。移动终端的操作系统标识包括IOS,Android,Symbian等。如果操作系统为上述几种类型,则访问站点能够得知该请求来自移动终端。
现有互联网站点的另外一个特点是,能够根据不同的访问终端返回不同类型的网页,其中,站点正是根据http请求中的UA字段判断终端类型。例如,用户通过手机访问http://www.so.com,站点接收该http请求,提取出UA字段,得知请求来自移动终端,则向终端返回相应的移动网页,例如http://m.so.com,或通过自动跳转程序,将终端的页面请求重定向至移动页面。
利用互联网站点的这一特性以及UA信息,本发明中,执行移动站点挖掘的服务器程序将从服务器发出的http请求中的UA修改为移动终端的形式。例如,原服务器的操作系统为Solaris,现在被修改为了Android/4.0,或IOS,然后向PC站点链接地址列表中的各PC站点分别发送这些经过修改的http请求。通过这种方式,使站点判断该http请求来自移动终端,而返回相应类型的页面。
步骤S130,判断页面访问请求的返回页面类型是否为移动网页。
页面类型包括移动网页和PC网页。经过步骤S120,站点接收的是UA表现为移动终端特征的http请求。因此,如果该PC站点具有对应的移动站点,将向请求方返回移动网页或定向至移动网页。若PC站点没有移动站点,仍然返回PC网页。
页面类型可通过站点返回页面的URL特征判断,若URL中带有mobile,wap或3g等字样,判断页面类型为移动网页。或者,通过分析返回网页的内容是否适于移动设备显示等方式进行判断。
步骤S140,若页面访问请求对应的返回页面类型为移动网页,获取移动网页所属站点的链接地址作为移动站点。
移动站点与对应的PC站点具有类似的URL,例如,移动站点http://m.so.com/对应于PC站点http://www.so.com/。类似地,还有移动站点3g.163.com,m.jd.com,wap.ganji.com/Beijing/test等,分别都包含有与PC站点相同的二级域名特征so,163,jd,ganji等。从返回的移动网页的URL提取出这种作为站点标识的域名特征,得到站点所属的链接地址。
根据本发明上述实施例提供的方法,获取PC站点链接地址列表,利用移动用户代理向PC站点链接地址列表中的PC站点发起页面访问请求,若返回的是移动网页,认为该PC站点具有相应的移动站点,且返回的移动站点就是该PC站点对应的移动站点,根据返回的移动网页确定移动站点的链接地址。根据该方案,利用PC站点和移动站点的相关性进行移动站点的挖掘,获得了更高的移动站点挖掘的召回率,并且挖掘结果准确,全面。
图2示出了根据本发明另一个实施例的获取移动站点链接地址的方法的流程图,如图2所示,方法包括如下步骤:
步骤S210,根据搜索引擎的索引库中收录的PC站点获取PC站点链接地址列表。
在本实施例中,将移动站点挖掘的方法应用于移动搜索引擎。PC站点和对应的移动站点的内容一般也是对应的,本发明根据PC站点的按关键词分类的索引库获取移动站点的索引库,更加快速。
步骤S220,利用移动用户代理向PC站点链接地址列表中的一个PC站点发起页面访问请求。
该步骤包括向链接地址列表中的PC站点的首页发起页面访问请求,或向链接地址列表中PC站点下的随机选取的网页发起页面访问请求,或以上的结合。随机选取的网页可以是随机选取的PC站点首页上的链接,这种方式用于提高判断的准确性。
步骤S230,判断页面访问请求的返回页面的URL是否具有移动网页的URL特征,将具有移动网页的URL特征的返回页面类型判断为移动网页。
具体地,判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否都为移动网页;若向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
页面类型可通过站点返回页面的URL特征判断,若URL中带有mobile,wap,3g或m等字样,判断页面类型为移动网页。例如,页面http://m.51job.com,http://wap.baidu.com都为移动网页。
部分移动站点的URL与PC站点的URL一致,例如,PC站点的URL为http://www.baidu.com;当以移动用户代理请求时,返回的URL仍然为http://www.baidu.com,但移动网页的内容与PC网页不同,适于在移动终端显示。
在本发明的一个实施例中,通过另一种方式判断返回页面类型。具体地,对页面访问请求的返回页面进行页面解析以获取页面内容;根据页面内容判断返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。一般地,移动网页与对应的PC网页相比,内容较少,页面尺寸网页中各元素分布也有所不同。网页内容中还可能带有“触屏版”,“电脑版”等字样,根据上述内容进行判断。或者,同时以PC形式的User-agent发送请求,通过网页内容对比进行判断。
步骤S240,根据返回移动网页的URL获取移动站点的URL。
移动站点与对应的PC站点具有类似的URL,例如,移动站点http://m.so.com/对应于PC站点http://www.so.com/。类似地,还有移动站点3g.163.com,m.jd.com,wap.ganji.com/Beijing/test等,分别都包含有与PC站点相同的二级域名特征so,163,jd,ganji等。从移动网页的URL提取出这种作为站点标识的域名特征,从而得到移动站点的URL。
步骤S250,将获取的移动站点收录入移动搜索引擎索引库中。
对于搜索关键词,如果在PC站点中出现,则相应的移动站点中一般也会包含该关键词。具体地,该步骤根据相应PC站点的关键词分类,将该移动站点收录如移动搜索索引库的同一关键词分类下。
步骤S260,接收客户端发送的搜索请求。
客户端发送的搜索请求中带有关键字和客户端的UA信息。
步骤S270,根据搜索请求中的用户代理信息,判断客户端是否为移动设备,若为移动设备,执行步骤S280。
对客户端发送的http请求的UA字段进行分析,UA字段信息中包括反映终端类型的信息,例如,操作系统标识。移动终端的操作系统标识包括IOS,Android,Symbian等。如果操作系统为上述几种类型,则能够得知该请求来自移动终端。也可以通过UA中的终端类型标识等进行判断。
步骤S280,将移动搜索引擎索引库中收录的与搜索请求相关的移动站点返回给客户端。
通常移动搜索引擎向用户返回的搜索结果页面中包含大量的PC网页,这些PC网页的尺寸,内容可能不利于移动终端显示。
本发明实施例中,当用户使用移动搜索时,在搜索结果页中,优先列出与搜索有关的移动页面。
根据本发明上述实施例提供的方法,将获取移动站点链接地址的方法应用于移动搜索。根据搜索引擎的索引库中收录的PC站点获取所述PC站点链接地址列表,利用移动用户代理向PC站点链接地址列表中的PC站点发起页面访问请求,根据返回的移动网页确定移动站点的链接地址。对移动站点进行收录。根据该方案,利用PC站点和移动站点的相关性进行移动站点的挖掘,获得了更高的移动站点挖掘的召回率,并且挖掘结果准确,全面。并且,当用户使用移动搜索时,优先展现移动站点,利于用户查看,并且索引库的维护更加容易。
图3示出了根据本发明一个实施例的获取移动站点链接地址的装置的结构框图,如图3所示,装置包括:
PC站点获取模块310,适于获取包含多个PC站点的PC站点链接地址列表。
PC站点是指适合在普通电脑设备上显示的站点,移动站点是指适合在移动设备,例如手机、平板电脑上显示的站点。PC站点链接地址列表可以来自搜索引擎的蜘蛛程序在爬行网页时得到的部分PC站点的列表,或是已挖掘的PC站点。
PC站点链接地址列表中包括多个PC站点首页的URL,例如,http://www.360.cn,http://www.so.com等。进一步地,站点列表还可以包括在PC站点首页上通过一次或多次链接访问到的页面,例如对其中的360站点,链接地址列表中还包括首页中“论坛”链接对应的URL:http://bbs.360safe.com/index.html等。
本发明将获取的PC站点列表用于移动站点挖掘。通过分析当前互联网站点的特点,发现移动站点一般具有对应的PC站点,并且移动站点的URL与对应的PC站点的URL相似,而带有一定的移动特征。本发明根据这一特点,提供了一种利用PC站点挖掘移动站点的方法。由于PC站点的挖掘已经比较完善,根据PC站点的特性直接获取移动站点的方式更加快速,准确。
请求模块320,适于利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求。
移动终端或PC都是通过http协议访问互联网资源。http请求报文的首部中包括用户代理(user-agent)字段。User-agent用于记录发送http请求的终端的部分信息。
在User-agent包含的终端信息中,与本发明最相关的是能够反映终端类型的信息,例如,操作系统标识。移动终端的操作系统标识包括IOS,Android,Symbian等。如果操作系统为上述几种类型,则访问站点能够得知该请求来自移动终端。
现有互联网站点能够根据不同的访问终端返回不同类型的网页。利用站点的这一特性。本发明实施例中,请求模块320将从服务器发出的http请求中的User-agent修改为移动终端的形式。例如,原服务器的操作系统为Solaris,现在被修改为了Android/4.0,或IOS,然后向PC站点链接地址列表中的各PC站点分别发送这些经过修改的http请求。通过这种方式,使站点判断该http请求来自移动终端,而返回相应类型的页面。
判断模块330,适于判断页面访问请求的返回页面类型是否为移动网页。
页面类型包括移动网页和PC网页。站点接收的是User-agent表现为移动终端特征的http请求。因此,如果该PC站点具有对应的移动站点,将向请求方返回移动网页或定向至移动网页。若PC站点没有移动站点,仍然返回PC网页。
具体地,判断模块330可通过站点返回页面的URL特征判断,若URL中带有mobile,wap或3g等字样,判断页面类型为移动网页。或者,判断模块330通过分析返回网页的内容是否适于移动设备显示等方式进行判断。具体地,判断模块330对页面访问请求的返回页面进行页面解析以获取页面内容;根据页面内容判断返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。
移动站点获取模块340,适于在页面访问请求的返回页面类型为移动页面时,获取移动页面所属站点的链接地址作为移动站点。
移动站点与对应的PC站点具有类似的URL,例如,移动站点http://m.so.com/对应于PC站点http://www.so.com/。类似地,还有移动站点3g.163.com,m.jd.com,wap.ganji.com,分别都包含有与PC站点相同的二级域名特征so,163,jd,ganji等。移动站点获取模块340可以从移动网页的URL提取出这种作为站点标识的域名特征,根据域名特征获取移动页面站点的链接地址。
在本发明的一个实施例中,请求模块320进一步适于:向列表中的PC站点的首页发起页面访问请求和/或向列表中PC站点下的随机选取的网页发起页面访问请求;判断模块330进一步适于:判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否都为移动网页;若向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
图4示出了根据本发明另一个实施例的获取移动站点链接地址的装置的结构框图,如图4所示,装置包括:
PC站点获取模块410,适于获取包含多个PC站点的PC站点链接地址列表。
请求模块420,适于利用移动用户代理向PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求。
判断模块430,适于判断页面访问请求的返回页面类型是否为移动网页。
移动站点获取模块440,适于在页面访问请求的返回页面类型为移动页面时,获取移动页面所属站点的链接地址作为移动站点。
可选地,PC站点获取模块410进一步适于:根据搜索引擎的索引库中收录的PC站点获取PC站点链接地址列表。
可选地,装置还包括:收录模块450,适于将移动站点获取模块440获取的移动站点收录入移动搜索引擎索引库中。
可选地,装置还包括:搜索处理模块460,适于:接收客户端发送的搜索请求;根据搜索请求中的用户代理信息,判断客户端是否为移动设备;若客户端为移动设备,将移动搜索引擎索引库中收录的与搜索请求相关的移动站点返回给客户端。
根据本发明上述实施例提供的装置,利用移动用户代理向PC站点链接地址列表中的PC站点发起页面访问请求,若返回的是移动网页,认为该PC站点具有相应的移动站点,且返回的移动站点就是该PC站点对应的移动站点,根据返回的移动网页确定移动站点的链接地址。根据该方案,利用PC站点和移动站点的相关性进行移动站点的挖掘,获得了更高的移动站点挖掘的召回率,并且挖掘结果准确,全面。另外,将获取移动站点链接地址的方法应用于移动搜索,移动索引库的维护更加容易。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的获取移动站点链接地址的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何页序。可将这些单词解释为名称。

Claims (14)

1.一种获取移动站点链接地址的方法,包括:
获取包含多个PC站点的PC站点链接地址列表;
利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求;
判断所述页面访问请求的返回页面类型是否为移动网页;
若所述页面访问请求对应的返回页面类型为移动网页,获取所述移动网页所属站点的链接地址作为移动站点。
2.根据权利要求1所述的方法,其中,所述利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求进一步为:向列表中的PC站点的首页发起页面访问请求和/或向列表中PC站点下的随机选取的网页发起页面访问请求;
所述判断页面访问请求的返回页面类型是否为移动网页进一步为:判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否都为移动网页;
若所述向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
3.根据权利要求1或2所述的方法,其中,所述判断所述页面访问请求的返回页面类型是否为移动网页进一步包括:
判断所述页面访问请求的返回页面的URL是否具有移动网页的URL特征;
将具有移动网页的URL特征的返回页面类型判断为移动网页。
4.根据权利要求1或2所述的方法,其中,所述判断所述页面访问请求的返回页面类型是否为移动网页进一步包括:
对所述页面访问请求的返回页面进行页面解析以获取页面内容;
根据所述页面内容判断所述返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。
5.根据权利要求1所述的方法,其中,所述获取包含多个PC站点的PC站点链接地址列表进一步为:
根据搜索引擎的索引库中收录的PC站点获取所述PC站点链接地址列表。
6.根据权利要求1或5所述的方法,其中,所述方法还包括:将获取的移动站点收录入移动搜索引擎索引库中。
7.根据权利要求6所述的方法,其中,所述方法还包括:
接收客户端发送的搜索请求;
根据所述搜索请求中的用户代理信息,判断所述客户端是否为移动设备;
若所述客户端为移动设备,将所述移动搜索引擎索引库中收录的与所述搜索请求相关的移动站点返回给所述客户端。
8.一种获取移动站点链接地址的装置,包括:
PC站点获取模块,适于获取包含多个PC站点的PC站点链接地址列表;
请求模块,适于利用移动用户代理向所述PC站点链接地址列表中一个或多个PC站点分别发起页面访问请求;
判断模块,适于判断所述页面访问请求的返回页面类型是否为移动网页;
移动站点获取模块,适于在所述页面访问请求的返回页面类型为移动页面时,获取所述移动页面所属站点的链接地址作为移动站点。
9.根据权利要求8所述的装置,其中,所述请求模块进一步适于:向列表中的PC站点的首页发起页面访问请求和/或向列表中PC站点下的随机选取的网页发起页面访问请求;
所述判断模块进一步适于:判断PC站点返回的站点首页的页面类型是否为移动网页和/或该PC站点下的随机选取的网页发起的页面访问请求的返回页面类型是否都为移动网页;
若所述向各个PC站点的首页和/或各个PC站点下的随机选取的网页发起的页面访问请求的返回页面都为移动网页,判断移动网页所属的站点作为移动站点。
10.根据权利要求8或9所述的装置,其中,所述判断模块进一步适于:
判断所述页面访问请求的返回页面的URL是否具有移动网页的URL特征;
将具有移动网页的URL特征的返回页面类型判断为移动网页。
11.根据权利要求8或9所述的装置,所述判断模块进一步适于:对所述页面访问请求的返回页面进行页面解析以获取页面内容;根据所述页面内容判断所述返回页面是否适合移动设备显示,将适合移动设备显示的返回页面类型判断为移动网页。
12.根据权利要求8所述的装置,所述PC站点获取模块进一步适于:根据搜索引擎的索引库中收录的PC站点获取所述PC站点链接地址列表。
13.根据权利要求8或12所述的装置,所述装置还包括:收录模块,适于将获取的移动站点收录入移动搜索引擎索引库中。
14.根据权利要求13所述的装置,所述装置还包括:搜索处理模块,适于:接收客户端发送的搜索请求;根据所述搜索请求中的用户代理信息,判断所述客户端是否为移动设备;若所述客户端为移动设备,将所述移动搜索引擎索引库中收录的与所述搜索请求相关的移动站点返回给所述客户端。
CN201410800383.0A 2014-12-19 2014-12-19 获取移动站点链接地址的方法和装置 Active CN104392009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410800383.0A CN104392009B (zh) 2014-12-19 2014-12-19 获取移动站点链接地址的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410800383.0A CN104392009B (zh) 2014-12-19 2014-12-19 获取移动站点链接地址的方法和装置

Publications (2)

Publication Number Publication Date
CN104392009A CN104392009A (zh) 2015-03-04
CN104392009B true CN104392009B (zh) 2016-10-12

Family

ID=52609913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410800383.0A Active CN104392009B (zh) 2014-12-19 2014-12-19 获取移动站点链接地址的方法和装置

Country Status (1)

Country Link
CN (1) CN104392009B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630987B (zh) * 2015-12-25 2019-06-21 北京搜狗科技发展有限公司 自适应用户代理的统一资源定位符前缀挖掘方法和装置
CN108062371A (zh) * 2017-12-12 2018-05-22 华南理工大学 一种Android设备网页数据处理系统及其数据处理方法
CN112351114B (zh) * 2019-08-06 2022-05-31 中移(苏州)软件技术有限公司 一种信息处理方法、装置以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037674B2 (en) * 2009-09-22 2015-05-19 Thwapr, Inc. Hybrid transcoding for mobile media sharing
CN103870486A (zh) * 2012-12-13 2014-06-18 深圳市世纪光速信息技术有限公司 确定网页类型的方法和装置
CN103324695B (zh) * 2013-06-05 2016-06-08 百度在线网络技术(北京)有限公司 一种wap网页索引库的建立方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于移动搜索的Spider爬行策略的研究和实现";祁鹏;《中国优秀硕士学位论文全文数据库》;20110415;全文 *
"搜索引擎中主题爬虫的研究与实现";刘玮玮;《中国优秀硕士学位论文全文数据库》;20070115;全文 *

Also Published As

Publication number Publication date
CN104392009A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
US9787784B2 (en) Tracking web server
CN107609135B (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
US7814083B2 (en) Method and system for supporting information access and record media therefor
CN103258057B (zh) 在电子地图界面上展示兴趣点poi的方法和装置
CN102664925B (zh) 一种展现搜索结果的方法及装置
CN109672658B (zh) Json劫持漏洞的检测方法、装置、设备及存储介质
CN105868096A (zh) 用于在浏览器中显示web页面测试结果的方法、装置及设备
CN111274781A (zh) 表格显示方法、装置、存储介质及电子设备
WO2011140784A1 (zh) 屏蔽移动终端访问无线网络信息的方法、移动终端和系统
CN104392009B (zh) 获取移动站点链接地址的方法和装置
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN105635064A (zh) Csrf攻击检测方法及装置
CN103729439A (zh) 一种网页预加载方法和装置
CN105117340B (zh) 用于iOS浏览器应用质量评估的URL检测方法和装置
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN109547294A (zh) 一种基于固件分析的联网设备型号探测方法、装置
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
US10095791B2 (en) Information search method and apparatus
KR101637016B1 (ko) 이용자 반응형 웹페이지 제공 방법
CN105306462A (zh) 网页链接检测方法及装置
CN110874475A (zh) 漏洞挖掘方法、漏洞挖掘平台及计算机可读存储介质
CN104680063A (zh) 一种信息拦截方法及终端
US20220050885A1 (en) Favorites management and information search service providing system and favorites management and information search service providing method using same
CN103365764A (zh) 一种无线页面测试方法与设备
CN104331458A (zh) 以锚文本作为网页标题的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right