CN104077293A - 网页获取方法和装置 - Google Patents

网页获取方法和装置 Download PDF

Info

Publication number
CN104077293A
CN104077293A CN201310102493.5A CN201310102493A CN104077293A CN 104077293 A CN104077293 A CN 104077293A CN 201310102493 A CN201310102493 A CN 201310102493A CN 104077293 A CN104077293 A CN 104077293A
Authority
CN
China
Prior art keywords
web page
page interlinkage
type
search
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310102493.5A
Other languages
English (en)
Inventor
杨柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310102493.5A priority Critical patent/CN104077293A/zh
Publication of CN104077293A publication Critical patent/CN104077293A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页获取方法和装置,属于网络技术领域。所述方法包括:接收终端设备发送的请求消息;根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库;从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。本发明通过根据指定搜索类型确定其对应的网页链接数据库,并从对应的网页链接数据库中获取属于指定搜索类型的网页链接,将获取到的网页链接发送给终端设备,避免了当使用某些关键字进行搜索时,获取到的网页不符合用户需求的情况,由于通过搜索类型获取到属于该搜索类型的网页链接,提高了获取的网页信息的有效性。

Description

网页获取方法和装置
技术领域
本发明涉及网络技术领域,特别涉及一种网页获取方法和装置。
背景技术
随着网络技术的不断发展,网络提供的各种信息和服务极大地丰富了用户的日常生活。用户在搜索信息过程中,只需要在搜索框中输入关键字,服务器在接收到包括该关键字的搜索请求后,在海量网页中筛选出和用户输入关键字相关的网页对应的网页链接,并将筛选后获取的网页链接返回给用户。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中,服务器根据用户输入关键字搜索到的网页至少需要包括该关键字,如,当用户输入“热门话题”时,服务器返回的网页链接对应的网页内容中包括“热门话题”关键字,但是该网页却不一定是热门话题,而真正的热门话题网页也不一定包括“热门话题”关键字。通过关键字搜索网页的方法获取的网页常常不符合用户的需求,降低了网页信息的有效性。
发明内容
为了解决网页信息有效性的问题,本发明实施例提供了一种网页获取方法和装置。所述技术方案如下:
一方面,提供了一种网页获取方法,所述方法包括:
接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
接收终端设备发送的请求消息之前,所述方法还包括:
建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接。
建立至少一个网页链接数据库之后,所述方法还包括:
根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
将抓取到的网页链接按照对应的搜索类型分别存储。
根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接,包括:
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
或,
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
或,
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备,包括:
从所述与所述指定搜索类型对应的网页链接数据库中随机获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;或,
从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
另一方面,提供了一种网页获取装置,所述装置包括:
接收模块,用于接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
确定模块,用于根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
所述装置还包括:
建立模块,用于建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接。
所述装置还包括:
抓取模块,用于根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
存储模块,用于将抓取到的网页链接按照对应的搜索类型分别存储。
所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
或,
所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
或,
所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
所述获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中随机获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;或,
所述获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供了一种网页获取方法和装置,通过接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。采用本发明实施例提供的技术方案,通过根据指定搜索类型确定其对应的网页链接数据库,并从对应的网页链接数据库中获取属于指定搜索类型的网页链接,将获取到的网页链接发送给终端设备,避免了当使用某些关键字进行搜索时,获取到的网页不符合用户需求的情况,由于通过搜索类型获取到属于该搜索类型的网页链接,提高了获取的网页信息的有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中提供的一种网页获取方法流程图;
图2是本发明实施例中提供的一种网页获取方法流程图;
图3是本发明实施例中提供的一种网页获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例中提供的一种网页获取方法流程图,本发明实施例的执行主体是服务器,参见图1,该方法包括:
101:接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
在本发明实施例中,搜索类型是指服务器提供的用于搜索的字段,该搜索类型可以显示在终端设备指定位置,而搜索类型的具体数量可以为至少一个,以便用户通过点击或者滑动等触摸操作对搜索类型进行选择,以触发终端设备根据用户选择的指定搜索类型向服务器发送携带该指定搜索类型的请求消息。该搜索类型可以由技术人员在开发过程中或者维护过程中进行设置。需要说明的是,本发明实施例对具体的搜索类型以及搜索类型的数量不作具体限定。
为了便于描述,在本发明实施例中,将用户当前所选择的搜索类型称为指定搜索类型。
服务器通过网络信道接收终端设备发送的请求消息,对请求消息进行解析,获取请求消息中携带的指定搜索类型。
102:根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
服务器中存储有搜索类型以及对应的网页链接数据库,每个网页链接数据库可以对应一个或者多个搜索类型。
服务器根据获取的请求消息中携带的指定搜索类型和至少一个网页链接数据库,通过字符串匹配、特征值匹配等方式,确定与指定搜索类型对应的网页链接数据库。
其中,每个网页链接数据库包含服务器统计的属于其搜索类型的网页链接,服务器周期性进行对网页链接的统计,获取对应于搜索类型的网页链接,以便更及时地将最新的网页链接更新到网页链接数据库中。该周期可以是1小时、2小时、1天等,本发明实施例对此不作具体限定。
103:从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
其中,预设数量是服务器向终端设备发送的网页链接的数量。该预设数量可以由服务器默认,也可以由用户在终端设备进行设置,对此,本发明实施例不作具体限定。
服务器确定的与指定搜索类型对应的网页链接数据库中包括了大量的网页链接,服务器从中获取预设数量的网页链接发送给终端设备,以便于用户的查看。
本发明实施例提供了一种网页获取方法,通过接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。采用本发明实施例提供的技术方案,通过根据指定搜索类型确定其对应的网页链接数据库,并从对应的网页链接数据库中获取属于指定搜索类型的网页链接,将获取到的网页链接发送给终端设备,避免了当使用某些关键字进行搜索时,获取到的网页不符合用户需求的情况,由于通过搜索类型获取到属于该搜索类型的网页链接,提高了获取的网页信息的有效性。
图2是本发明实施例中提供的一种网页获取方法流程图,本发明实施例的执行主体是服务器,参见图2,该方法包括:
201:建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接;
服务器根据至少一个搜索类型建立至少一个网页链接数据库,每个网页链接数据库可以对应一个或者多个搜索类型。优选地,搜索类型和网页链接数据库一一对应。每个网页链接数据库中存储已抓取的网页链接,用于为终端设备提供网页链接。
202:根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
优选地,每隔预设时长,根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接。
其中,预设抓取条件是指被抓取的网页链接应满足的条件。如预设抓取条件可以为网页链接的点击次数、分享次数、评论次数、收藏次数等达到一定数值。本发明实施例对预设抓取条件不作具体限定,且该网页链接的点击次数、分享次数、评论次数、收藏次数的数值之间可以相等也可以不等。
服务器在网络中抓取网页链接时,获取各个网页链接的属性信息,该属性信息可以为网页的更新时间、类别、点击次数、收藏次数、转载次数等信息,从网页链接的属性信息中获取预设抓取条件对应的属性信息,将对应的属性信息和预设抓取条件进行比较,如果对应的属性信息符合预设抓取条件,则抓取该网页链接。
该步骤202服务器根据搜索类型和预设抓取条件进行网页链接的抓取可以为以下任一项:
(1)根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
其中,第一预设数值用于衡量网页链接的点击次数是否符合服务器的预设抓取条件。
服务器根据每个网页链接数据库对应的搜索类型,获取和该搜索类型对应的网页链接点击次数,当该网页链接的点击次数大于预设抓取条件中的第一预设数值时,服务器抓取该网页链接。
如当搜索类型为“热门话题”时,为了避免服务器通过网络抓取的网页链接对应的网页内容中仅仅包含“热门话题”关键字时,就将该网页对应的网页链接作为网页链接数据库中的网页链接的情况,服务器对该“热门话题”进行分析,如“热门话题”可能包含各个领域的一些焦点问题,对于这些焦点问题引起的网友的点击次数是很高的,据此,优选地,服务器将搜索类型“热门话题”、“热门分享”等和搜索领域相关联,即将搜索类型和各个网站对应的分类领域相关联,如体育、财经、军事、民生等,在关联的各个领域中,获取各个领域的各个网页链接的点击次数,抓取点击次数大于第一预设数值的网页链接。
如当搜索类型为“军事”、“民生”、“体育”、“健康”等时,服务器将各个搜索类型和搜索领域相关联,按照预设抓取条件在与各个搜索类型对应的搜索领域中进行网页链接的抓取。在搜索类型为“军事”的搜索领域中,获取该搜索领域中的各个网页链接的点击次数,抓取点击次数大于第一预设数值的网页链接,同理,在与搜索类型为“军事”、“民生”、“体育”、“健康”对应的搜索领域中抓取网页链接。
(2)根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
其中,第二预设数值用于衡量网页链接的转载次数是否符合服务器预设抓取条件。
服务器根据每个网页链接数据库对应的搜索类型,获取和该搜索类型对应的网页链接转载次数,当该网页链接的转载次数大于预设抓取条件中的第二预设数值时,服务器抓取该网页链接。
(3)根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
其中,第三预设数值用于衡量网页链接的收藏次数是否符合服务器预设抓取条件。
服务器根据每个网页链接数据库对应的搜索类型,获取和该搜索类型对应的网页链接收藏次数,当该网页链接的收藏次数大于预设抓取条件中的第三预设数值时,服务器抓取该网页链接。
需要说明是,第一预设数值、第二预设数值和第三预设数值的取值可以相同,也可以不同,对此,本发明实施例不作具体限定。上述仅是本发明实施例中提供的三种可参考的不同的预设抓取条件,本发明实施例中的预设抓取条件还可以是更新时间、网友投票等,而不同的网页链接数据库可以对应相同的预设抓取条件,也可以对应不同的预设抓取条件,对此,本发明实施例不在赘述。
203:将抓取到的网页链接按照对应的搜索类型分别存储;
服务器根据搜索类型,将按照预设抓取条件获取的网页链接存储在对应的网页链接数据库中。
在步骤202中的例子的基础上,当根据搜索类型“热门话题”抓取到的网页链接包括“新型军火”、“房价上涨”、“篮球赛事”、“饮食习惯”时,服务器将这些抓取到的网页链接存储到“热门话题”对应的网页链接数据库中。
在步骤202中的例子的基础上,当根据搜索类型“军事”、“民生”、“体育”、“健康”获取的网页链接包括“新型军火”、“房价上涨”、“篮球赛事”、“饮食习惯”时,服务器根据网页链接对应的搜索类型,将网页链接存储在搜索类型对应的网页链接数据库中,网页链接“新型军火”对应的搜索类型为“军事”,则网页链接“新型军火”存储在“军事”对应的网页链接数据库中;网页链接“房价上涨”对应的搜索类型为“民生”,则网页链接“房价上涨”存储在“民生”对应的网页链接数据库中;网页链接“篮球赛事”对应的搜索类型为“体育”,则网页链接“篮球赛事”存储在“体育”对应的网页链接数据库中;网页链接“饮食习惯”对应的搜索类型为“健康”,则网页链接“饮食习惯”存储在“健康”对应的网页链接数据库中。
步骤202-203是服务器抓取网页链接更新网页链接数据库的过程,该过程可以周期性地进行,不受终端设备业务的影响,通过对网页链接数据库的更新可以提高为终端设备提供的网页链接的质量。
204:接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
在网络通信过程中,服务器和终端设备都按照一定的网络协议进行消息的发送和接收,服务器通过网络通道接收终端设备发送的请求消息,通过解析请求消息,获取请求消息携带的指定搜索类型。
优选地,当用户选择了指定搜索类型,终端设备检测到来自用户的摇动指令时,终端设备向服务器发送携带指定搜索类型的请求消息。终端设备初次向服务器发送携带指定搜索类型的请求消息时,需要用户指定搜索类型并且摇动终端设备,服务器在接收到该携带搜索类型的请求消息后向终端设备发送预设数量的网页链接。终端设备接收服务器发送的预设数量的网页链接,并显示给用户,用户可以根据需要浏览网页链接对应的网页。当用户需要获取更多的关于同一个指定搜索类型的网页链接时,只需要再次摇动终端设备,而不需要对同一个指定搜索类型进行选择,终端设备接收到摇动指令后,向服务器发送携带指定搜索类型的请求消息。
具体地,终端设备实时检测来自用户的摇动指令的方法有很多种,例如,可以通过传感器来实现,在终端设备上安装加速度传感器,通过实时采集因摇动终端设备而产生的加速度检测用户是否发出摇动指令。其中,加速度传感器可以是对终端设备在X方向、Y方向和Z方向的加速度进行测量的三维加速度传感器;或者,可以是对终端设备在X方向和Y方向的加速度进行测量的二维加速度传感器,本实施例不对终端设备上的加速度传感器进行限定。具体地,以三维加速度传感器为例,当三维加速度传感器实时采集到终端设备在X方向或者Y方向或者Z方向中任一方向的加速度的数值发生变化时,即认为检测到用户发出摇动指令。当然,还有其它实时检测来自用户的摇动指令的方法,本实施例在此不作具体限定。
205:根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
在服务器中,搜索类型和网页链接数据库具有对应关系,服务器根据指定搜索类型,在服务器进行匹配,确定与指定搜索类型对应的网页链接数据库。
在指定搜索类型对应的网页链接数据库中的网页链接,是由服务器根据预设抓取条件周期性地在网络中进行抓取而获取的,通过长期的积累和不断的更新,网页链接数据库中包含的网页链接数据量大,信息丰富。
206:从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
该步骤206服务器向终端设备发送网页链接的过程包括以下任一项:
(1)从所述与所述指定搜索类型对应的网页链接数据库中随机选取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;
指定搜索类型对应的网页链接数据库中的网页链接数量较多,服务器需要根据预设数量进行网页链接的选取。服务器采用随机选取的方法,从指定搜索类型对应的网页链接数据库中获取预设数量的网页链接。
由于同一个网页链接数据库中包含的网页链接数量庞大,采用随机选取的方法可以有效提高网络链接的选取效率。
(2)从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
其中,预设获取规则是指服务器在网页链接数据库中选取网页链接时所采用的方式。该预设获取规则可以是根据网页链接的更新时间选取预设数量的网页链接,如,当该预设获取规则为获取近3个小时内更新的网页链接时,服务器根据该预设规则在与指定搜索类型对应的网页链接数据库中,获取更新时间不超过3个小时的预设数量的网页链接,并向终端设备发送获取的网页链接;该预设获取规则也可以是根据网页链接的点击次数选取预设数量的网页链接,如,当该预设获取规则为获取点击次数超过1万次的网页链接时,服务器根据该预设规则在与指定搜索类型对应的网页链接数据库中,获取点击次数超过1万次的预设数量的网页链接,并向终端设备发送获取的网页链接;该预设获取规则还可以是根据网页链接在服务器中的存储地址选取预设数量的网页链接等,如,当该预设获取规则为获取地址为奇数的网页链接,服务器根据该预设规则在与指定搜索类型对应的网页链接数据库中,获取存储地址为奇数的预设数量的网页链接,并向终端设备发送获取的网页链接;对此,本发明实施例不作具体限定。
服务器根据指定搜索类型对应的网页链接数据库中的网页链接,按照预设获取规则和预设数量选取网页链接,向终端设备发送选取的网页链接,对于同一用户多次发送的携带同一指定搜索类型的请求消息,服务器将按照预设获取规则获取不同的网页链接发送给终端设备。
本发明实施例提供了一种网页获取方法,通过接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。采用本发明实施例提供的技术方案,通过根据指定搜索类型在网页链接数据库中选取预设数量的网页链接发送给终端设备,可以将指定搜索类型和网页链接进行对应设置,避免了终端设备自行设置搜索类型在实时搜索过程中,获取的网页链接内容和搜索类型不匹配的情况,提高了网页获取的效率。
图3是本发明实施例中提供的一种网页获取装置结构示意图,参见图3,该装置包括:
接收模块301,用于接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
确定模块302,用于根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
获取模块303,用于从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
所述装置还包括:
建立模块304,用于建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接。
所述装置还包括:
抓取模块305,用于根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
存储模块306,用于将抓取到的网页链接按照对应的搜索类型分别存储。
所述抓取模块305,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
或,
所述抓取模块305,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
或,
所述抓取模块305,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
所述获取模块303,用于从所述与所述指定搜索类型对应的网页链接数据库中随机获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;或,
所述获取模块303,用于从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
本发明实施例提供了一种网页获取装置,通过接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。采用本发明实施例提供的技术方案,通过根据指定搜索类型确定其对应的网页链接数据库,并从对应的网页链接数据库中获取属于指定搜索类型的网页链接,将获取到的网页链接发送给终端设备,避免了当使用某些关键字进行搜索时,获取到的网页不符合用户需求的情况,由于通过搜索类型获取到属于该搜索类型的网页链接,提高了获取的网页信息的有效性。需要说明的是:上述实施例提供的网页获取装置在网页获取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网页获取装置与网页获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页获取方法,其特征在于,所述方法包括:
接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
2.根据权利要求1所述的方法,其特征在于,接收终端设备发送的请求消息之前,所述方法还包括:
建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接。
3.根据权利要求2所述的方法,其特征在于,建立至少一个网页链接数据库之后,所述方法还包括:
根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
将抓取到的网页链接按照对应的搜索类型分别存储。
4.根据权利要求3所述的方法,其特征在于,根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接,包括:
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
或,
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
或,
根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
5.根据权利要求1所述的方法,其特征在于,从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备,包括:
从所述与所述指定搜索类型对应的网页链接数据库中随机获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;或,
从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
6.一种网页获取装置,其特征在于,所述装置包括:
接收模块,用于接收终端设备发送的请求消息,所述请求消息携带指定搜索类型;
确定模块,用于根据所述指定搜索类型,确定与所述指定搜索类型对应的网页链接数据库,所述指定搜索类型对应的网页链接数据库包括服务器统计的属于所述指定搜索类型的网页链接;
获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中获取预设数量的网页链接发送给终端设备。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
建立模块,用于建立至少一个网页链接数据库,每个网页链接数据库对应至少一个搜索类型,所述网页链接数据库包括服务器统计的属于所述网页链接数据库对应的搜索类型的网页链接。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
抓取模块,用于根据每个网页链接数据库对应的搜索类型以及预设抓取条件,从网络中抓取属于每个网页链接数据库对应的搜索类型的网页链接;
存储模块,用于将抓取到的网页链接按照对应的搜索类型分别存储。
9.根据权利要求8所述的装置,其特征在于,所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且点击次数大于第一预设数值的网页链接;
或,
所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且转载次数大于第二预设数值的网页链接;
或,
所述抓取模块,用于根据每个网页链接数据库对应的搜索类型,从网络中抓取属于每个网页链接数据库对应的搜索类型、且收藏次数大于第三预设数值的网页链接。
10.根据权利要求6所述的装置,其特征在于,所述获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中随机获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备;或,
所述获取模块,用于从所述与所述指定搜索类型对应的网页链接数据库中按照预设获取规则获取预设数量的网页链接,将所述预设数量的网页链接发送给终端设备。
CN201310102493.5A 2013-03-27 2013-03-27 网页获取方法和装置 Pending CN104077293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310102493.5A CN104077293A (zh) 2013-03-27 2013-03-27 网页获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310102493.5A CN104077293A (zh) 2013-03-27 2013-03-27 网页获取方法和装置

Publications (1)

Publication Number Publication Date
CN104077293A true CN104077293A (zh) 2014-10-01

Family

ID=51598553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310102493.5A Pending CN104077293A (zh) 2013-03-27 2013-03-27 网页获取方法和装置

Country Status (1)

Country Link
CN (1) CN104077293A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408198A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页页面内容的获取方法和装置
CN106033414A (zh) * 2015-03-09 2016-10-19 北大方正集团有限公司 一种热点信息处理方法和系统
CN106446060A (zh) * 2016-09-06 2017-02-22 北京易游华成科技有限公司 信息推送及搜索设备、方法和系统
CN106951434A (zh) * 2017-02-06 2017-07-14 广东神马搜索科技有限公司 一种用于搜索引擎的搜索方法、装置及可编程设备
CN108287757A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种数据获取、数据显示的方法及装置
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN110209798A (zh) * 2017-12-22 2019-09-06 北京奇虎科技有限公司 一种redis数据库的数据展示方法和装置
CN110969482A (zh) * 2019-11-27 2020-04-07 杭州古点网络科技有限公司 一种广告的精准投放方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408198A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页页面内容的获取方法和装置
CN104408198B (zh) * 2014-12-15 2018-07-17 北京国双科技有限公司 网页页面内容的获取方法和装置
CN106033414A (zh) * 2015-03-09 2016-10-19 北大方正集团有限公司 一种热点信息处理方法和系统
CN106446060A (zh) * 2016-09-06 2017-02-22 北京易游华成科技有限公司 信息推送及搜索设备、方法和系统
CN108287757A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种数据获取、数据显示的方法及装置
CN106951434A (zh) * 2017-02-06 2017-07-14 广东神马搜索科技有限公司 一种用于搜索引擎的搜索方法、装置及可编程设备
CN106951434B (zh) * 2017-02-06 2020-03-10 广东神马搜索科技有限公司 一种用于搜索引擎的搜索方法、装置及可编程设备
CN110209798A (zh) * 2017-12-22 2019-09-06 北京奇虎科技有限公司 一种redis数据库的数据展示方法和装置
CN110209798B (zh) * 2017-12-22 2024-05-10 北京奇虎科技有限公司 一种redis数据库的数据展示方法和装置
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN110969482A (zh) * 2019-11-27 2020-04-07 杭州古点网络科技有限公司 一种广告的精准投放方法
CN110969482B (zh) * 2019-11-27 2023-08-01 杭州古点网络科技有限公司 一种广告的精准投放方法

Similar Documents

Publication Publication Date Title
CN104077293A (zh) 网页获取方法和装置
EP3819792A2 (en) Method, apparatus, device, and storage medium for intention recommendation
Oussalah et al. A software architecture for Twitter collection, search and geolocation services
CN102667761B (zh) 可扩展的集群数据库
CN104077402B (zh) 数据处理方法和数据处理系统
CN102932206B (zh) 监测网站访问信息的方法和系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN105447139B (zh) 一种数据采集统计方法及其系统、终端、服务设备
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
CN106339394A (zh) 一种信息处理方法及装置
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
JP2009048380A (ja) 検索システム、検索装置、および検索方法
CN103577478A (zh) 网页推送方法及系统
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104899324A (zh) 一种基于idc有害信息监测系统的样本训练系统
CN103745006A (zh) 一种互联网信息搜索系统及方法
CN105574030A (zh) 一种信息搜索方法及装置
CN103559258A (zh) 基于云计算的网页排序方法
CN104281619A (zh) 搜索结果排序系统及方法
JP2006331070A (ja) コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法
CN101894109A (zh) 一种数据库建立方法和装置
CN103365961A (zh) 一种面向精准搜索的网站结构化标注方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141001