CN106611027A - 网站排名数据处理方法和装置 - Google Patents

网站排名数据处理方法和装置 Download PDF

Info

Publication number
CN106611027A
CN106611027A CN201510708788.6A CN201510708788A CN106611027A CN 106611027 A CN106611027 A CN 106611027A CN 201510708788 A CN201510708788 A CN 201510708788A CN 106611027 A CN106611027 A CN 106611027A
Authority
CN
China
Prior art keywords
website
search information
data
url
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510708788.6A
Other languages
English (en)
Other versions
CN106611027B (zh
Inventor
王名洋
吴丹
祁文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510708788.6A priority Critical patent/CN106611027B/zh
Publication of CN106611027A publication Critical patent/CN106611027A/zh
Application granted granted Critical
Publication of CN106611027B publication Critical patent/CN106611027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网站排名数据处理方法和装置。其中,该方法包括:利用搜索引擎对目标关键词进行搜索,得到目标关键词的搜索信息,其中,搜索信息包含与目标关键词关联的目标网站;根据搜索信息,确定策略选择指令,其中,策略选择指令为:第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,或者,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据;响应于策略选择指令,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果;根据数据爬取结果,确定与目标关键词关联的目标网站的排名。本申请解决了无法提取网站排名数据的技术问题。

Description

网站排名数据处理方法和装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网站排名数据处理方法和装置。
背景技术
网站在搜索引擎中的搜索排名对于网站推广有着重要作用。因此,网站运营商通常都比较关注自身网站在搜索引擎中的搜索排名。搜索引擎一般都提供这样的一种服务,用户可以通过输入关键词来检索自己关心的信息,搜索引擎根据这个关键词展示给用户一些网站供用户访问,排名靠前的网站自然会受到大部分用户的关注。网站运营商也可以通过这样的手段来查看自己在搜索引擎上的搜索排名。
然而,网站运营商通常会提供给搜索引擎运营商大量的搜索关键词,如果网站运营商想要知道自身网站在搜索引擎上的搜索排名,则需要手动将每个搜索关键词手工输入到搜索引擎中,然后查看搜索排名。这种手工搜索的方式只能查看搜索信息无法提取网站排名数据。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网站排名数据处理方法和装置,以至少解决无法提取网站排名数据的技术问题。
根据本申请实施例的一个方面,提供了一种网站排名数据处理方法,包括:利用搜索引擎对目标关键词进行搜索,得到所述目标关键词的搜索信息,其中,所述搜索信息包含与所述目标关键词关联的目标网站;根据所述搜索信息,确定策略选择指令,其中,所述策略选择指令为:第一爬取策略用于爬取所述搜索信息中排名在所述目标网站以前的数据,或者,第二爬取策略用于爬取所述搜索信息中包含有所述目标网站的预设数量的数据;响应于所述策略选择指令,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果;根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名。
进一步地,根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名包括:获取所述目标网站的统一资源定位符;按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号。
进一步地,所述策略选择指令为所述第一爬取策略,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果包括:按照所述搜索信息中网站的排名先后顺序依次爬取网页数据,直到所述目标网站的统一资源定位符第一次匹配到所述搜索信息中网站的统一资源定位符。
进一步地,所述策略选择指令为所述第二爬取策略,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果包括:从所述搜索信息中爬取所述预设数量的数据;其中,按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号包括:按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与爬取所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
进一步地,在记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号之后,所述方法还包括:将所述数据爬取结果以及所述目标网站的排名序号输出展示。
根据本申请实施例的另一方面,还提供了一种网站排名数据处理装置,包括:搜索单元,用于利用搜索引擎对目标关键词进行搜索,得到所述目标关键词的搜索信息,其中,所述搜索信息包含与所述目标关键词关联的目标网站;第一确定单元,用于根据所述搜索信息,确定策略选择指令,其中,所述策略选择指令为:第一爬取策略用于爬取所述搜索信息中排名在所述目标网站以前的数据,或者,第二爬取策略用于爬取所述搜索信息中包含有所述目标网站的预设数量的数据;爬取单元,用于响应于所述策略选择指令,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果;以及第二确定单元,用于根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名。
进一步地,所述第二确定单元包括:获取模块,用于获取所述目标网站的统一资源定位符;匹配模块,用于按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号。
进一步地,所述策略选择指令为所述第一爬取策略,所述爬取单元包括:第一爬取模块,用于在识别出的爬取策略为所述第一爬取策略时,按照所述搜索信息中网站的排名先后顺序依次爬取网页数据,直到所述目标网站的统一资源定位符第一次匹配到所述搜索信息中网站的统一资源定位符。
进一步地,所述策略选择指令为所述第二爬取策略,所述爬取单元包括:第二爬取模块,用于从所述搜索信息中爬取所述预设数量的数据;其中,所述匹配模块包括:匹配子模块,用于按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与爬取所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
进一步地,所述装置还包括:显示单元,用于在记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号之后,将所述数据爬取结果以及所述目标网站的排名序号输出展示。
根据本申请实施例,通过利用目标关键词在搜索引擎中进行搜索,得到搜索信息,识别接收到的策略选择指令是用于选择第一爬取策略,还是用于选择第二爬取策略,最后,基于识别的爬取策略从搜索信息中爬取数据,从而实现搜索引擎中网站排名数据的爬取,解决了现有技术中无法提取网站排名数据的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站排名数据处理方法的流程图;
图2是根据本申请实施例优选的网站排名数据处理方法的流程图;
图3是根据本申请实施例的网站排名数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种网站排名数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的网站排名数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,利用搜索引擎对目标关键词进行搜索,得到目标关键词的搜索信息,其中,搜索信息包含与目标关键词关联的目标网站。
步骤S104,根据搜索信息,确定策略选择指令,其中,策略选择指令为:第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,或者,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据。
步骤S106,响应于策略选择指令,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果。
步骤S108,根据数据爬取结果,确定与目标关键词关联的目标网站的排名。
目标关键词可以是一个或者多个,目标关键词与目标网站相关联,即目标关键词与目标网站相关,本实施例中,通过策略选择指令从第一爬取策略和第二选择爬取策略中选择一个爬取策略来爬取目标关键词在搜索引擎上的搜索信息中的网站排名数据。其中,第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据。具体地,可以设置两个爬虫程序,用于分别执行第一爬取策略和第二爬取策略,用户可以根据需求来选择相应的网站排名数据爬取方式。
根据本申请实施例,通过利用目标关键词在搜索引擎中进行搜索,得到搜索信息,识别接收到的策略选择指令是用于选择第一爬取策略,还是用于选择第二爬取策略,最后,基于识别的爬取策略从搜索信息中爬取数据,从而实现搜索引擎中网站排名数据的爬取,解决了现有技术中无法提取网站排名数据的技术问题。
进一步地,本申请实施例中,通过提供第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据和第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据,用户可以根据需求来选择数据的爬取策略,增加了数据爬取的灵活性。
需要说明的是,本申请实施例中,步骤S102与步骤S104及S106之间并没有限定其顺序,在方案执行时,可以先执行步骤S102,也可以先执行步骤S104和S106,这里并没有不当限定。
优选地,根据数据爬取结果,确定与目标关键词关联的目标网站的排名包括:获取目标网站的统一资源定位符;按照搜索信息中网站的排名先后顺序,将目标网站的统一资源定位符与搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为目标网站在搜索信息中的排名序号。
本实施例中,无论是第一爬取策略还是第二爬取策略,在进行数据爬取的过程中,都利用目标网站的统一资源定位符(Uniform Resoure Locator,简称为URL)按照搜索信息中网站的先后顺序进行匹配,并记录匹配到的网站的排名序号,作为目标网站在搜索信息中的排名序号。
通过记录排名序号,可以快速直观地确定出目标网站在目标关键词的搜索信息中的排名或者排名及其占位。
进一步地,策略选择指令为第一爬取策略,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果包括:按照搜索信息中网站的排名先后顺序依次爬取网页数据,直到目标网站的统一资源定位符第一次匹配到搜索信息中网站的统一资源定位符。
对于第一爬取策略,爬取第一次匹配到搜索信息中的URL以前的所有数据,例如,在搜索信息中,目标网站排在第9条,在进行排名数据爬取时,将目标网站的URL与搜索信息中的网站的URL进行匹配,当匹配到第9条时,第一次匹配成功,记录排名序号9,并爬取搜索信息中第1-9条的排名数据。
根据本申请实施例,通过爬取第一次匹配到搜索信息中网站的统一资源定位符以前(包括匹配到的)网站排名数据,相对于爬取搜索信息中前N页所有的数据而言,爬取的数据量小,避免造成爬虫资源的浪费和数据库存储的压力。
可选地,策略选择指令为第二爬取策略,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果包括:从搜索信息中爬取预设数量的数据;其中,按照搜索信息中网站的排名先后顺序,将目标网站的统一资源定位符与搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号包括:按照搜索信息中网站的排名先后顺序,将目标网站的统一资源定位符与爬取所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
对于第二爬取策略,设置爬取的总数据量即预设数据量,例如,搜索信息前10页,对于爬取的这些网站排名数据,利用目标网站URL进行匹配,记录所有匹配上的排名序号,这样,就可以知道目标网站在搜索信息中,这些数据的排名及占位。
优选地,在记录匹配到的统一资源定位符的排名序号,作为目标网站在搜索信息中的排名序号之后,方法还包括:将数据爬取结果以及目标网站的排名序号输出展示。本申请实施例,通过在后台对网站排名数据进行爬取,并将爬取结果在前端进行展示,方便用户查看爬取结果。
下面结合图2对本申请另一个可选实施方式进行说明,具体地,按照用户的不同需求来分配不同的爬虫进行数据的抓取和匹配,其中,用户需求分为:1.需要查看目标网站排在第几名;2.需要查看前N个排名结果中,目标网站占据了几个位置,并且都在哪几名中进行了占位。如图2所示,包括:
步骤S202,用户选择需要查询的种类,分为爬虫1(部分匹配),爬虫2(全部匹配)。
步骤S204,若用户选择的种类匹配的是爬虫1,则爬虫1按照用户所输入的关键词在搜索引擎结果页中按序与目标网站URL进行数据匹配。
步骤S206,若匹配到一条搜索信息与目标URL相同,则停止爬取,传回所爬取的内容及序号。
步骤S208,将得到的排名结果在前端页面进行展现。
步骤S210,若用户选择的种类匹配的是爬虫2,则爬虫2按照用户所输入的关键词去将搜索引擎前N页的搜索信息全部进行抓取,传回所爬取的内容及相应序号。
步骤S212,将爬取回的内容与目标URL进行数据匹配,得到所有匹配的序号,在前端进行数据的展现。
根据本申请实施例,通过根据用户需求调用与用户需求对应的网络爬虫的类型,减少不必要的数据读取匹配和存储。
本申请实施例还提供了一种网站排名数据处理装置,该装置可以用于执行本申请实施例的网站排名数据处理方法,如图3所示,该装置包括:搜索单元10、第一确定单元20、爬取单元30和第二确定单元40。
搜索单元10用于利用搜索引擎对目标关键词进行搜索,得到目标关键词的搜索信息,其中,搜索信息包含与目标关键词关联的目标网站。
第一确定单元20用于根据搜索信息,确定策略选择指令,其中,策略选择指令为:第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,或者,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据。
爬取单元30用于响应于策略选择指令,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果。
第二确定单元40用于根据数据爬取结果,确定与目标关键词关联的目标网站的排名。
目标关键词可以是一个或者多个,目标关键词与目标网站相关联,即目标关键词与目标网站相关,本实施例中,通过策略选择指令从第一爬取策略和第二选择爬取策略中选择一个爬取策略来爬取目标关键词在搜索引擎上的搜索信息中的网站排名数据。其中,第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据。具体地,可以设置两个爬虫程序,用于分别执行第一爬取策略和第二爬取策略,用户可以根据需求来选择相应的网站排名数据爬取方式。
根据本申请实施例,通过利用目标关键词在搜索引擎中进行搜索,得到搜索信息,识别接收到的策略选择指令是用于选择第一爬取策略,还是用于选择第二爬取策略,最后,基于识别的爬取策略从搜索信息中爬取数据,从而实现搜索引擎中网站排名数据的爬取,解决了现有技术中无法提取网站排名数据的技术问题。
进一步地,本申请实施例中,通过提供第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据和第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据,用户可以根据需求来选择数据的爬取策略,增加了数据爬取的灵活性。
优选地,第二确定单元包括:获取模块,用于获取目标网站的统一资源定位符;匹配模块,用于按照搜索信息中网站的排名先后顺序,将目标网站的统一资源定位符与搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为目标网站在搜索信息中的排名序号。
本实施例中,无论是第一爬取策略还是第二爬取策略,在进行数据爬取的过程中,都利用目标网站的统一资源定位符(Uniform Resoure Locator,简称为URL)按照搜索信息中网站的先后顺序进行匹配,并记录匹配到的网站的排名序号,作为目标网站在搜索信息中的排名序号。
通过记录排名序号,可以快速直观地确定出目标网站在目标关键词的搜索信息中的排名或者排名及其占位。
优选地,所述策略选择指令为所述第一爬取策略,爬取单元包括:第一爬取模块,用于按照搜索信息中网站的排名先后顺序依次爬取网页数据,直到目标网站的统一资源定位符第一次匹配到搜索信息中网站的统一资源定位符。
对于第一爬取策略,爬取第一次匹配到搜索信息中的URL以前的所有数据,例如,在搜索信息中,目标网站排在第9条,在进行排名数据爬取时,将目标网站的URL与搜索信息中的网站的URL进行匹配,当匹配到第9条时,第一次匹配成功,记录排名序号9,并爬取搜索信息中第1-9条的排名数据。
根据本申请实施例,通过爬取第一次匹配到搜索信息中网站的统一资源定位符以前(包括匹配到的)网站排名数据,相对于爬取搜索信息中前N页所有的数据而言,爬取的数据量小,避免造成爬虫资源的浪费和数据库存储的压力。
可选地,所述策略选择指令为所述第二爬取策略,爬取单元包括:第二爬取模块,用于从搜索信息中爬取预设数量的数据;其中,匹配模块包括:匹配子模块,用于按照搜索信息中网站的排名先后顺序,将目标网站的统一资源定位符与爬取所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
对于第二爬取策略,设置爬取的总数据量即预设数据量,例如,搜索信息前10页,对于爬取的这些网站排名数据,利用目标网站URL进行匹配,记录所有匹配上的排名序号,这样,就可以知道目标网站在搜索信息中,这些数据的排名及占位。
优选地,装置还包括:显示单元,用于在记录匹配到的统一资源定位符的排名序号,作为目标网站在搜索信息中的排名序号之后,将所述数据爬取结果目标网站的排名序号输出展示。本申请实施例,通过在后台对网站排名数据进行爬取,并将爬取结果在前端进行展示,方便用户查看爬取结果。
所述网站排名数据处理装置包括处理器和存储器,上述搜索单元10、第一确定单元20、爬取单元30和第二确定单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述第一爬取策略和第二爬取策略都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数爬取网站排名数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:利用搜索引擎对目标关键词进行搜索,得到目标关键词的搜索信息,其中,搜索信息包含与目标关键词关联的目标网站;根据搜索信息,确定策略选择指令,其中,策略选择指令为:第一爬取策略用于爬取搜索信息中排名在目标网站以前的数据,或者,第二爬取策略用于爬取搜索信息中包含有目标网站的预设数量的数据;响应于策略选择指令,对搜索信息中策略选择指令所指示的数据进行爬取,以得到目标关键词的数据爬取结果;根据数据爬取结果,确定与目标关键词关联的目标网站的排名。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种网站排名数据处理方法,其特征在于,包括:
利用搜索引擎对目标关键词进行搜索,得到所述目标关键词的搜索信息,其中,所述搜索信息包含与所述目标关键词关联的目标网站;
根据所述搜索信息,确定策略选择指令,其中,所述策略选择指令为:第一爬取策略,用于爬取所述搜索信息中排名在所述目标网站以前的数据,或者,第二爬取策略,用于爬取所述搜索信息中包含有所述目标网站的预设数量的数据;
响应于所述策略选择指令,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果;
根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名。
2.根据权利要求1所述的方法,其特征在于,根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名包括:
获取所述目标网站的统一资源定位符;
按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号。
3.根据权利要求2所述的方法,其特征在于,所述策略选择指令为所述第一爬取策略,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果包括:
按照所述搜索信息中网站的排名先后顺序依次爬取网页数据,直到所述目标网站的统一资源定位符第一次匹配到所述搜索信息中网站的统一资源定位符。
4.根据权利要求2所述的方法,其特征在于,所述策略选择指令为所述第二爬取策略,
对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果包括:从所述搜索信息中爬取所述预设数量的数据;
其中,按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号包括:按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与爬取的所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
5.根据权利要求2所述的方法,其特征在于,在记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号之后,所述方法还包括:
将所述数据爬取结果以及所述目标网站的排名序号输出展示。
6.一种网站排名数据处理装置,其特征在于,包括:
搜索单元,用于利用搜索引擎对目标关键词进行搜索,得到所述目标关键词的搜索信息,其中,所述搜索信息包含与所述目标关键词关联的目标网站;
第一确定单元,用于根据所述搜索信息,确定策略选择指令,其中,所述策略选择指令为:第一爬取策略用于爬取所述搜索信息中排名在所述目标网站以前的数据,或者,第二爬取策略用于爬取所述搜索信息中包含有所述目标网站的预设数量的数据;
爬取单元,用于响应于所述策略选择指令,对所述搜索信息中所述策略选择指令所指示的数据进行爬取,以得到所述目标关键词的数据爬取结果;以及
第二确定单元,用于根据所述数据爬取结果,确定与所述目标关键词关联的目标网站的排名。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
获取模块,用于获取所述目标网站的统一资源定位符;
匹配模块,用于按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与所述搜索信息中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号。
8.根据权利要求7所述的装置,其特征在于,所述策略选择指令为所述第一爬取策略,所述爬取单元包括:
第一爬取模块,用于按照所述搜索信息中网站的排名先后顺序依次爬取网页数据,直到所述目标网站的统一资源定位符第一次匹配到所述搜索信息中网站的统一资源定位符。
9.根据权利要求7所述的装置,其特征在于,当所述策略选择指令为所述第二爬取策略时,
所述爬取单元包括:第二爬取模块,用于从所述搜索信息中爬取所述预设数量的数据;
其中,所述匹配模块包括:匹配子模块,用于按照所述搜索信息中网站的排名先后顺序,将所述目标网站的统一资源定位符与爬取的所述预设数量的数据中网站的统一资源定位符进行匹配,记录匹配到的统一资源定位符的排名序号。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
显示单元,用于在记录匹配到的统一资源定位符的排名序号,作为所述目标网站在搜索信息中的排名序号之后,将所述数据爬取结果以及所述目标网站的排名序号输出展示。
CN201510708788.6A 2015-10-27 2015-10-27 网站排名数据处理方法和装置 Active CN106611027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708788.6A CN106611027B (zh) 2015-10-27 2015-10-27 网站排名数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708788.6A CN106611027B (zh) 2015-10-27 2015-10-27 网站排名数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106611027A true CN106611027A (zh) 2017-05-03
CN106611027B CN106611027B (zh) 2019-10-25

Family

ID=58614460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708788.6A Active CN106611027B (zh) 2015-10-27 2015-10-27 网站排名数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106611027B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443631A (zh) * 2019-06-28 2019-11-12 山东开创云软件有限公司 一种优化网站排名的计费方法、装置及存储介质
CN110472135A (zh) * 2019-06-28 2019-11-19 山东开创云软件有限公司 一种提升网站排名的监控方法及装置
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499965B1 (en) * 2004-02-25 2009-03-03 University Of Hawai'i Software agent for locating and analyzing virtual communities on the world wide web
CN103605737A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站分析方法及装置
CN104778207A (zh) * 2015-03-11 2015-07-15 张翔 网络购物的综合搜索引擎方法及其系统
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499965B1 (en) * 2004-02-25 2009-03-03 University Of Hawai'i Software agent for locating and analyzing virtual communities on the world wide web
CN103605737A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站分析方法及装置
CN104778207A (zh) * 2015-03-11 2015-07-15 张翔 网络购物的综合搜索引擎方法及其系统
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443631A (zh) * 2019-06-28 2019-11-12 山东开创云软件有限公司 一种优化网站排名的计费方法、装置及存储介质
CN110472135A (zh) * 2019-06-28 2019-11-19 山东开创云软件有限公司 一种提升网站排名的监控方法及装置
CN110472135B (zh) * 2019-06-28 2022-05-27 山东开创云计算有限公司 一种提升网站排名的监控方法及装置
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质
CN113722572B (zh) * 2021-10-11 2024-03-29 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Also Published As

Publication number Publication date
CN106611027B (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110532451B (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
US9514202B2 (en) Information processing apparatus, information processing method, program for information processing apparatus and recording medium
CN107105031A (zh) 信息推送方法和装置
US20150254346A1 (en) Presentation of search results based on the size of the content sources from which they are obtained
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
JP6015959B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
EP3563240B1 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
CN105574162B (zh) 关键字自动超级链接的方法
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN106776860A (zh) 一种搜索摘要生成方法及装置
US20200225820A1 (en) Minimally invasive user metadata
CN110889045B (zh) 标签分析方法、装置及计算机可读存储介质
CN108009147B (zh) 电子书封面生成方法、电子设备及计算机存储介质
CN106649647A (zh) 基于人工智能的搜索结果排序方法和装置
CN109819002B (zh) 数据推送方法和装置、存储介质及电子装置
CN106611027A (zh) 网站排名数据处理方法和装置
CN106649347A (zh) 一种兴趣信息的识别方法及装置
CN106910135A (zh) 用户推荐方法及装置
CN104951566B (zh) 一种关键词搜索排名确定方法及装置
CN106611029A (zh) 提高网站站内搜索效率的方法和装置
CN111125543B (zh) 书籍推荐排序模型的训练方法、计算设备及存储介质
WO2019227705A1 (zh) 图片录入方法、服务器及计算机存储介质
CN107085573A (zh) 热点信息的获取方法及装置
CN104408188B (zh) 数据处理方法和装置
CN115544342A (zh) 一种基于网站内容搜索引擎的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant