CN108062328A - 获取网站自然搜索排名的方法和装置 - Google Patents

获取网站自然搜索排名的方法和装置 Download PDF

Info

Publication number
CN108062328A
CN108062328A CN201610982675.XA CN201610982675A CN108062328A CN 108062328 A CN108062328 A CN 108062328A CN 201610982675 A CN201610982675 A CN 201610982675A CN 108062328 A CN108062328 A CN 108062328A
Authority
CN
China
Prior art keywords
search
search result
content
natural
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610982675.XA
Other languages
English (en)
Inventor
贺达
潘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610982675.XA priority Critical patent/CN108062328A/zh
Publication of CN108062328A publication Critical patent/CN108062328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取网站自然搜索排名的方法和装置。其中,该方法包括:获取搜索内容;获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果;过滤掉第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,具有预设标识的内容用于表示搜索引擎主动添加的内容;从自然搜索结果中查找目标网站在自然搜索结果中的排列位置;将查找到排列位置所对应的排名作为目标网站的排名。本发明解决了由于搜索引擎的搜索结果中包含有付费搜索结果造成的无法直接获取网站的自然搜索排名的技术问题。

Description

获取网站自然搜索排名的方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种获取网站自然搜索排名的方法和装置。
背景技术
目前网民获取网站信息通常习惯于通过搜索引擎如百度,谷歌,Bing等搜索自己喜爱或者关心的关键词,然后根据搜索引擎在搜索结果,从中再去挑选关注的内容。因此,是否能在搜索引擎的搜索结果中获取一个好的排名对于网站本身内容在网络上的是否较好的传播具有重要的意义。
目前的搜索引擎大多有竞价排名的机制,针对特定的商业词或品牌关键词可以通过竞价的方式获取一个较好的排名,但是其网站本身的内容质量并不能够有很好的保障,例如前段时间某搜索引擎提供商爆出的莆田系医院导致病患没有得到及时治疗的问题,就是某些杂牌医院通过竞价排名在某搜索引擎获取到较高的搜索排名,误导网民辨识,最终导致耽误治疗。而一些声誉较好的医院则因为没有竞价排名导致排名靠后,可见通过竞价排名的机制,并不能很好的反映一个网站的建站水平和其在互联网上的影响力。
在莆田系医院事件后,国家规定竞价排名也属于广告推广,必须加入标示。目前对于搜索引擎,并没有可以直接获取自然搜索排名的办法,只能够通过人工在浏览网页时去识别有无商业推广的标示来辨别哪些是自然搜索结果,并不能明显的统计排名。同时人工搜索的结果会和之前的搜索关键词关联,并不能客观的反映当前搜索词产生的自然搜索结果。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种获取网站自然搜索排名的方法和装置,以至少解决由于搜索引擎的搜索结果中包含有付费搜索结果造成的无法直接获取网站的自然搜索排名的技术问题。
根据本发明实施例的一个方面,提供了一种获取网站自然搜索排名的方法,包括:获取搜索内容;获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果;过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,所述具有预设标识的内容用于表示所述搜索引擎主动添加的内容;从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置;将查找到的排列位置所对应的排名作为所述目标网站的排名。
进一步地,所述具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果包括:解析所述第一搜索结果中用于表示所述付费搜索内容的第一标识和用于表示所述搜索引擎本身的内容的第二标识;根据所述第一标识和所述第二标识过滤掉所述第一搜索结果中的所述付费搜索内容和所述搜索引擎本身的内容,得到所述自然搜索结果。
进一步地,从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置包括:按照所述第一搜索结果的顺序更新所述自然搜索结果的排序;在更新后的所述自然搜索结果中查找到与所述目标网站的网址相同的第二搜索结果;将所述第二搜索结果在更新后的所述自然搜索结果中的排列位置作为所述目标网站在所述自然搜索结果中的排列位置。
进一步地,获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果包括:获取所述搜索引擎的搜索条件;根据所述搜索内容和所述搜索条件生成URL地址,其中,所述URL地址指向所述第一搜索结果所在的页面;爬取所述URL地址指向的所述页面,得到所述第一搜索结果。
进一步地,获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果包括:清除浏览器的cookies信息;通过所述浏览器打开所述搜索引擎对所述搜索内容进行搜索得到所述第一搜索结果所在的页面;对所述页面进行解析得到所述第一搜索结果。
根据本发明实施例的另一方面,还提供了一种获取网站自然搜索排名的装置,包括:第一获取单元,用于获取搜索内容;第二获取单元,用于获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果;过滤单元,用于过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,所述具有预设标识的内容用于表示所述搜索引擎主动添加的内容;查找单元,用于从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置;排名单元,用于将查找到的排列位置所对应的排名作为所述目标网站的排名。
进一步地,所述具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,所述过滤单元包括:第一解析模块,用于解析所述第一搜索结果中用于表示所述付费搜索内容的第一标识和用于表示所述搜索引擎本身的内容的第二标识;过滤模块,用于根据所述第一标识和所述第二标识过滤掉所述第一搜索结果中的所述付费搜索内容和所述搜索引擎本身的内容,得到所述自然搜索结果。
进一步地,所述查找单元包括:更新模块,用于按照所述第一搜索结果的顺序更新所述自然搜索结果的排序;查找模块,用于在更新后的所述自然搜索结果中查找到与所述目标网站的网址相同的第二搜索结果;位置模块,用于将所述第二搜索结果在更新后的所述自然搜索结果中的排列位置作为所述目标网站在所述自然搜索结果中的排列位置。
进一步地,所述第二获取单元包括:获取模块,用于获取所述搜索引擎的搜索条件;生成模块,用于根据所述搜索内容和所述搜索条件生成URL地址,其中,所述URL地址指向所述第一搜索结果所在的页面;爬取模块,用于爬取所述URL地址指向的所述页面,得到所述第一搜索结果。
进一步地,所述第二获取单元包括:清除模块,用于清除浏览器的cookies信息;搜索模块,用于通过所述浏览器打开所述搜索引擎对所述搜索内容进行搜索得到所述第一搜索结果所在的页面;第二解析模块,用于对所述页面进行解析得到所述第一搜索结果。
在本发明实施例中,采用获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果,并过滤掉第一搜索结果中具有预设标识的付费搜索内容和搜索引擎本身的内容,获取自然搜索结果的方式,通过在自然搜索结果中查找目标网站的网址,达到了获取目标网站自然搜索排名的目的,从而实现了根据搜索内容获取网站自然搜索排名的技术效果,进而解决了由于搜索引擎的搜索结果中包含有付费搜索结果造成的无法直接获取网站的自然搜索排名的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的获取网站自然搜索排名的方法的流程图;
图2是根据本发明实施例的另一种可选的获取网站自然搜索排名的方法的流程图;
图3是根据本发明实施例的一种可选的获取网站自然搜索排名的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种获取网站自然搜索排名的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的获取网站自然搜索排名的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取搜索内容。
搜索结果是搜索引擎对搜索内容进行搜索后获取到的,搜索内容不同,获取到的搜索结果也不同,因此应该先确定搜索内容。
步骤S104,获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果。
步骤S106,过滤掉第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,具有预设标识的内容用于表示搜索引擎主动添加的内容。
第一搜索结果中所包括的信息内容有一定的排列顺序,信息内容的排列位置越靠前,表示该信息内容在第一搜索结果中的排名越高。信息内容在第一搜索结果中的排列位置是搜索引擎根据一定的因素进行设置的。其中,将第一搜索结果中的一部分信息内容称之为自然搜索结果,自然搜索结果在第一搜索结果中的排列位置是搜索引擎根据自然搜索结果与搜索内容的相关程度、点击率等因素进行设置的,如:自然搜索结果与搜索内容的相关程度越高,其排列位置越靠前,自然结果的点击率越高,其排列位置越靠前。第一搜索结果中除了自然搜索结果以外的信息内容,是搜索引擎主动添加的内容,影响该部分信息内容的在第一搜索结果中的排列位置的因素主要是:支付的费用的多少,搜索引擎对于该部分内容进行推广的优先级的高低等。搜索引擎根据不同的因素设置信息内容的排列位置,并对自然搜索内容和搜索引擎主动添加的内容进行综合排列得到第一搜索结果。
搜索引擎主动添加的内容具有与其内容相对应的预设标识,通过该预设标识,可以将搜索引擎主动添加的内容与自然搜索结果区分开。将第一搜索结果中具预设标识的内容过滤掉,可以得到自然搜索结果。
步骤S108,从自然搜索结果中查找目标网站在自然搜索结果中的排列位置。
步骤S110,将查找到的排列位置所对应的排名作为目标网站的排名。
在本发明实施例中,采用获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果,并过滤掉第一搜索结果中具有预设标识的付费搜索内容和搜索引擎本身的内容,获取自然搜索结果的方式,通过在自然搜索结果中查找目标网站的网址,达到了获取目标网站自然搜索排名的目的,从而实现了根据搜索内容获取网站自然搜索排名的技术效果,进而解决了由于搜索引擎的搜索结果中包含有付费搜索结果造成的无法直接获取网站的自然搜索排名的技术问题。
可选地,具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,过滤掉第一搜索结果中具有预设标识的内容,得到自然搜索结果包括:解析第一搜索结果中用于表示付费搜索内容的第一标识和用于表示搜索引擎本身的内容的第二标识;根据第一标识和第二标识过滤掉第一搜索结果中的付费搜索内容和搜索引擎本身的内容,得到自然搜索结果。
第一搜索结果中搜索引擎主动添加的内容包括付费内容和搜索引擎本身的内容,付费内容在第一搜索结果中的排列位置受到其支付的费用多少的影响,支付的费用越多,付费内容的排列位置越靠前;搜索引擎本身的内容在第一搜索结果中的排列位置受到搜索引擎对该内容进行推广的优先级的高低的影响,搜索引擎对该内容进行推广的优先级越高,则该内容的排列位置越靠前,其中付费内容具有第一标识,搜索引擎本身的内容具有第二标识。对第一搜索结果进行解析,解析出其中的第一标识和第二标识,将具有第一标识的内容和具有第二标识的内容过滤掉,即可将第一搜索结果中的付费结果和搜索引擎本身的结果过滤掉,也就是过滤掉了第一搜索结果中搜索引擎主动添加的内容,过滤后得到的内容为自然搜索结果。
例如:在第一搜索结果中包括A、B、C三条信息内容,其中A为付费内容,具有“广告”标识;B为搜索引擎本身的内容,具有“推广”标识;C为自然搜索结果,具有“自然搜索”标识。在获取第一搜索结果后,对第一搜索结果进行解析,解析出第一标识“广告”和第二标识“推广”。将具有第一标识“广告”和第二标识“推广”的内容过滤掉,可以将A内容和B内容过滤掉,得到的C内容,为自然搜索结果。
可选地,从自然搜索结果中查找目标网站在自然搜索结果中的排列位置包括:按照第一搜索结果的顺序更新自然搜索结果的排序;在更新后的自然搜索结果中查找到与目标网站的网址相同的第二搜索结果;将第二搜索结果在更新后的自然搜索结果中的排列位置作为目标网站在自然搜索结果中的排列位置。
对获取到的自然搜索结果的排序进行更新,并且保持自然搜索结果中的信息内容的相对排列顺序不变,得到自然搜索结果的排名。此时,在自然搜索结果中查找与目标网站的网址相同的第二搜索结果,由于第二搜索结果的网址与目标网站的网址相同,因此第二搜索结果所指示的就是目标网站,而第二搜索结果在自然搜索结果中的排名就是目标网站的自然搜索排名。
例如:第一搜索结果中包括A、B、C、D、E五条信息内容,其排序依次为1、2、3、4、5,其中B为付费搜索内容,D为搜索引擎本身的内容;将第一搜索结果中的付费搜索结果和搜索本身的内容过滤掉之后,得到自然搜索结果包括A、C、E三条信息内容,其排序依次为1、3、5;对自然搜索结果的排序进行更新,并且保持其中的信息内容的相对排列顺序不变,得到A、C、E三条信息内容的排序依次为1、2、3;在自然搜索结果中查找得到第二搜索结果C,第二搜索结果C的网址与目标网站的网址相同,即第二搜索结果C指示的就是目标网站,则目标网站的自然搜索排名即为第二搜索结果C在自然搜索结果中的排名,为第2名。
对自然搜索结果的排序更新时应该结合分页信息,即按照分页的先后对自然搜索结果进行排序,例如:第一搜索结果包括两页,第一页中包括A、B、C、D四条信息内容,排序依次为1、2、3、4,第二页中包括E、F、G三条信息内容,排序依次为1、2、3,过滤掉搜索引擎主动添加的内容后得到的自然搜索结果包括两页,其中,第一页中包括B、D两条信息内容,排序依次为2、4,第二页中包括E、F两条信息内容,排序依次为1、2,结合分页信息对自然搜索结果的排序进行更新时,先对第一页中的自然搜索结果进行排序,得到B信息内容和D信息内容的排序依次为1、2;然后对第二页中的自然搜索结果进行排序,得到E信息内容和F信息内容的排序依次为3、4,更新完成后得到的自然搜索结果中B、D、E、F的排序依次为1、2、3、4。
可选地,获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果包括:获取搜索引擎的搜索条件;根据搜索内容和搜索条件生成URL地址,其中,URL地址指向第一搜索结果所在的页面;爬取URL地址指向的页面,得到第一搜索结果。
根据搜索内容和搜索引擎的搜索条件,可以生成一个URL地址,该URL地址指向的页面就是该搜索引擎对搜索内容进行搜索得到的页面,该页面中包含有第一搜索结果。将生成的URL地址注入到爬虫程序中,爬虫程序根据该URL地址对该URL地址指向的页面进行爬取,得到第一搜索结果。需要说明的是,将URL地址注入到爬虫程序中时,爬虫程序中不能有任何的cookies信息,防止cookies信息对爬虫程序爬取到的第一搜索结果中的信息内容及其排序造成影响。
可选地,获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果包括:清除浏览器的cookies信息;通过浏览器打开搜索引擎对搜索内容进行搜索得到第一搜索结果所在的页面;对页面进行解析得到第一搜索结果。
在浏览器中打开搜索引擎的搜索页面,在搜索页面中输入搜索内容,通过该搜索引擎对搜索内容进行搜索,可以得到搜索结果页面,该搜索结果页面中包括第一搜索结果,对该搜索结果页面进行解析即可得到第一搜索结果。浏览器的cookies信息会对获取到的第一搜索结果的信息内容及其排序造成影响,因此,在对搜索内容进行搜索之前,应该将浏览器的cookies信息清除。
图2是根据本发明实施例的另一种可选的获取网站自然搜索排名的方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,获取指定的搜索关键词和需要计算自然搜索排名的网站网址。
指定的搜索关键词(相当于搜索内容)不同,搜索引擎的搜索结果也不同,因此应该先确定指定的搜索关键词,需要计算自然搜索排名的网站网址(相当于目标网站网址)指向该需要计算自然搜过排名的网站(相当于目标网站)。
步骤S202,针对需要计算自然搜索排名的搜索引擎,按照搜索引擎的规则拼接关键词查询的URL请求。
根据搜索引擎的规则(相当于搜索条件)拼接关键词查询的URL请求(相当于URL地址),该URL请求用于请求获取搜索引擎对该关键词进行搜索得到的搜索结果页面。
步骤S203,将拼接的URL请求注入无cookies信息的网络爬虫程序,爬取搜索结果页信息。
网络爬虫程序能够根据URL请求获取搜索引擎搜索关键词进行搜索得到的搜索结果页面,并且爬取该页面的信息。在将URL请求注入到网络爬虫程序中时,该网络爬虫程序中不能包含任何的cookies信息,以保证爬取到的搜索结果页面信息不会受到cookies信息的影响。
步骤S204,解析爬取的搜索结果信息,获取搜索结果列表内容,通过解析规则解析广告标示关键词过滤掉付费搜索,通过搜索引擎标示,过滤掉搜索引擎本身内容。
对网络爬虫程序爬取到的搜索结果信息进行解析,可以获取到搜索结果页面的页面源码,其中包括有与搜索关键词相关的搜索结果列表内容(相当于第一搜索结果),和其他与搜索关键词不相关的其他内容,如:广告内容等,与搜索关键词不相关的其他内容不属于搜索结果。仅获取搜索结果列表内容,在搜索结果列表内容中包括有自然搜索结果和搜索引擎主动添加的内容,其中,自然搜索结果在搜索结果列表内容中的排列位置是搜索引擎根据自然搜索结果与搜索关键词的相关程度,自然搜索结果的点击率等因素进行设置的,搜索引擎主动添加的内容在搜索结果列表内容中的排列位置则是受其他因素影响,其他因素包括:支付的费用的多少,搜索引擎对于该部分内容进行推广的优先级的高低等。
搜索引擎主动添加的内容具有与其内容相对应的预设标识,通过该预设标识,可以将搜索引擎主动添加的内容与自然搜索结果区分开。搜索引擎主动添加的内容包括:付费搜索结果和搜索引擎本身内容。
解析出其中的广告标示关键词(相当于第一预设标识)和搜索引擎标示(相当于第二预设标识),其中,广告标示关键词用于标示该搜索结果为付费搜索结果,搜索引擎标示用于标示该搜索结果为搜索引擎本身内容。根据广告标示关键词和搜索结果标示将付费搜索内容和搜索引擎本身的内容过滤掉。过滤后得到的搜索结果仅包括自然搜索结果。
例如:在搜索结果列表内容中包括A、B、C三条信息内容,其中A为付费内容,具有广告标示关键词“广告”;B为搜索引擎本身的内容,具有搜索结果标示“推广”;C为自然搜索结果,具有标示“自然搜索”。在获取到搜索结果列表内容后,对搜索结果列表内容进行解析,解析出广告标示关键词“广告”和搜索结果标示“推广”。将具有广告标示关键词“广告”和搜索结果标示“推广”的内容过滤掉,可以将A内容和B内容过滤掉,得到的C内容,为自然搜索结果。
步骤S205,对过滤后的搜索结果信息,结合搜索引擎结果分页信息,得到自然搜索排名顺序,将结果中的URL和指定的网站网址进行比较。
结合搜索结果的分页信息对过滤后的搜索结果信息的排名顺序进行更新,得到自然搜索结果的排名顺序,然后通过比较,在自然搜索结果中查找与需要计算自然搜索排名的目标网站的网址相同的URL网址(相当于第二搜索结果)。
步骤S206,与指定需要计算自然搜索排名的网址重合的URL所在的搜索结果排名名次即为该网站在指定搜索关键词下的自然搜索排名。
与需要计算自然搜索排名的目标网站的网址相同的URL网址在搜索结果中的排名就是该目标网站在上述指定关键词下的自然搜索排名。
根据本发明实施例,还提供了一种获取网站自然搜索排名的装置实施例,图3是根据本发明实施例的一种可选的获取网站自然搜索排名的装置的示意图,如图3所示,该装置主要包括:
第一获取单元301,用于获取搜索内容。
搜索结果是搜索引擎对搜索内容进行搜索后获取到的,搜索内容不同,获取到的搜索结果也不同,因此应该先确定搜索内容。
第二获取单元302,用于获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果。
过滤单元303,用于过滤掉第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,具有预设标识的内容用于表示搜索引擎主动添加的内容。
第一搜索结果中所包括的信息内容有一定的排列顺序,信息内容的排列位置越靠前,表示该信息内容在第一搜索结果中的排名越高。信息内容在第一搜索结果中的排列位置是搜索引擎根据一定的因素进行设置的。其中,将第一搜索结果中的一部分信息内容称之为自然搜索结果,自然搜索结果在第一搜索结果中的排列位置是搜索引擎根据自然搜索结果与搜索内容的相关程度、点击率等因素进行设置的,如:自然搜索结果与搜索内容的相关程度越高,其排列位置越靠前,自然结果的点击率越高,其排列位置越靠前。第一搜索结果中除了自然搜索结果以外的信息内容,是搜索引擎主动添加的内容,影响该部分信息内容在第一搜索结果中的排列位置的因素主要包括支付的费用的多少和搜索引擎对于该部分内容进行推广的优先级的高低等。搜索引擎根据不同的因素设置相关信息内容的排列位置,并对自然搜索内容和搜索引擎主动添加的内容进行综合排列得到第一搜索结果。
搜索引擎主动添加的内容具有与其内容相对应的预设标识,通过该预设标识,可以将搜索引擎主动添加的内容与自然搜索结果区分开。通过过滤单元303将第一搜索结果中具预设标识的内容过滤掉,即得到自然搜索结果。
查找单元304,用于从自然搜索结果中查找目标网站在自然搜索结果中的排列位置。
排名单元305,用于将查找到的排列位置所对应的排名作为目标网站的排名。
在本发明实施例中,采用获取搜索引擎根据搜索内容进行搜索得到的第一搜索结果,并过滤掉第一搜索结果中具有预设标识的付费搜索内容和搜索引擎本身的内容,获取自然搜索结果的方式,通过在自然搜索结果中查找目标网站的网址,达到了获取目标网站自然搜索排名的目的,从而实现了根据搜索内容获取网站自然搜索排名的技术效果,进而解决了由于搜索引擎的搜索结果中包含有付费搜索结果造成的无法直接获取网站的自然搜索排名的技术问题。
可选地,具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,过滤单元包括:第一解析模块,用于解析第一搜索结果中用于表示付费搜索内容的第一标识和用于表示搜索引擎本身的内容的第二标识;过滤模块,用于根据第一标识和第二标识过滤掉第一搜索结果中的付费搜索内容和搜索引擎本身的内容,得到自然搜索结果。
第一搜索结果中搜索引擎主动添加的内容包括付费内容和搜索引擎本身的内容,付费内容在第一搜索结果中的排列位置受到其支付的费用多少的影响,支付的费用越多,付费内容的排列位置越靠前;搜索引擎本身的内容在第一搜索结果中的排列位置受到搜索引擎对该内容进行推广的优先级的高低的影响,搜索引擎对该内容进行推广的优先级越高,则该内容的排列位置越靠前,其中付费内容具有第一标识,搜索引擎本身的内容具有第二标识。对第一搜索结果进行解析,解析出其中的第一标识和第二标识,将具有第一标识的内容和具有第二标识的内容过滤掉,即可将第一搜索结果中的付费结果和搜索引擎本身的结果过滤掉,也就是过滤掉了第一搜索结果中搜索引擎主动添加的内容,过滤后得到的内容为自然搜索结果。
例如:在第一搜索结果中包括A、B、C三条信息内容,其中A为付费内容,具有“广告”标识;B为搜索引擎本身的内容,具有“推广”标识;C为自然搜索结果,具有“自然搜索”标识。在获取第一搜索结果后,对第一搜索结果进行解析,解析出第一标识“广告”和第二标识“推广”。将具有第一标识“广告”和第二标识“推广”的内容过滤掉,可以将A内容和B内容过滤掉,得到的C内容,为自然搜索结果。
可选地,查找单元包括:更新模块,用于按照第一搜索结果的顺序更新自然搜索结果的排序;查找模块,用于在更新后的自然搜索结果中查找到与目标网站的网址相同的第二搜索结果;位置模块,用于将第二搜索结果在更新后的自然搜索结果中的排列位置作为目标网站在自然搜索结果中的排列位置。
对获取到的自然搜索结果的排序进行更新,并且保持自然搜索结果中的信息内容的相对排列顺序不变,得到自然搜索结果的排名。此时,在自然搜索结果中查找与目标网站的网址相同的第二搜索结果,由于第二搜索结果的网址与目标网站的网址相同,因此第二搜索结果所指示的就是目标网站,而第二搜索结果在自然搜索结果中的排名就是目标网站的自然搜索排名。
例如:第一搜索结果中包括A、B、C、D、E五条信息内容,其排序依次为1、2、3、4、5,其中B为付费搜索内容,D为搜索引擎本身的内容;将第一搜索结果中的付费搜索结果和搜索本身的内容过滤掉之后,得到自然搜索结果包括A、C、E三条信息内容,其排序依次为1、3、5;对自然搜索结果的排序进行更新,并且保持其中的信息内容的相对排列顺序不变,得到A、C、E三条信息内容的排序依次为1、2、3;在自然搜索结果中查找得到第二搜索结果C,第二搜索结果C的网址与目标网站的网址相同,即第二搜索结果C指示的就是目标网站,则目标网站的自然搜索排名即为第二搜索结果C在自然搜索结果中的排名,为第2名。
对自然搜索结果的排序更新时应该结合分页信息,即按照分页的先后对自然搜索结果进行排序,例如:第一搜索结果包括两页,第一页中包括A、B、C、D四条信息内容,排序依次为1、2、3、4,第二页中包括E、F、G三条信息内容,排序依次为1、2、3,过滤掉搜索引擎主动添加的内容后得到的自然搜索结果包括两页,其中,第一页中包括B、D两条信息内容,排序依次为2、4,第二页中包括E、F两条信息内容,排序依次为1、2,结合分页信息对自然搜索结果的排序进行更新时,先对第一页中的自然搜索结果进行排序,得到B信息内容和D信息内容的排序依次为1、2;然后对第二页中的自然搜索结果进行排序,得到E信息内容和F信息内容的排序依次为3、4,更新完成后得到的自然搜索结果中B、D、E、F的排序依次为1、2、3、4。
可选地,第二获取单元包括:获取模块,用于获取搜索引擎的搜索条件;生成模块,用于根据搜索内容和搜索条件生成URL地址,其中,URL地址指向第一搜索结果所在的页面;爬取模块,用于爬取URL地址指向的页面,得到第一搜索结果。
根据搜索内容和搜索引擎的搜索条件,可以生成一个URL地址,该URL地址指向的页面就是该搜索引擎对搜索内容进行搜索得到的页面,该页面中包含有第一搜索结果。将生成的URL地址注入到爬虫程序中,爬虫程序根据该URL地址对该URL地址指向的页面进行爬取,得到第一搜索结果。需要说明的是,将URL地址注入到爬虫程序中时,爬虫程序中不能有任何的cookies信息,以免cookies信息对爬虫程序爬取到的第一搜索结果中的信息内容及其排序造成影响。
可选地,第二获取单元包括:清除模块,用于清除浏览器的cookies信息;搜索模块,用于通过浏览器打开搜索引擎对搜索内容进行搜索得到第一搜索结果所在的页面;第二解析模块,用于对页面进行解析得到第一搜索结果。
在浏览器中打开搜索引擎的搜索页面,在搜索页面中输入搜索内容,通过该搜索引擎对搜索内容进行搜索,可以得到搜索结果页面,该搜索结果页面中包括第一搜索结果,对该搜索结果页面进行解析即可得到第一搜索结果。浏览器的cookies信息会对获取到的第一搜索结果的信息内容及其排序造成影响,因此,在对搜索内容进行搜索之前,应该将浏览器的cookies信息清除。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种获取网站自然搜索排名的方法,其特征在于,包括:
获取搜索内容;
获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果;
过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,所述具有预设标识的内容用于表示所述搜索引擎主动添加的内容;
从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置;
将查找到的排列位置所对应的排名作为所述目标网站的排名。
2.根据权利要求1所述的方法,其特征在于,所述具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果包括:
解析所述第一搜索结果中用于表示所述付费搜索内容的第一标识和用于表示所述搜索引擎本身的内容的第二标识;
根据所述第一标识和所述第二标识过滤掉所述第一搜索结果中的所述付费搜索内容和所述搜索引擎本身的内容,得到所述自然搜索结果。
3.根据权利要求1或2所述的方法,其特征在于,从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置包括:
按照所述第一搜索结果的顺序更新所述自然搜索结果的排序;
在更新后的所述自然搜索结果中查找到与所述目标网站的网址相同的第二搜索结果;
将所述第二搜索结果在更新后的所述自然搜索结果中的排列位置作为所述目标网站在所述自然搜索结果中的排列位置。
4.根据权利要求1所述的方法,其特征在于,获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果包括:
获取所述搜索引擎的搜索条件;
根据所述搜索内容和所述搜索条件生成URL地址,其中,所述URL地址指向所述第一搜索结果所在的页面;
爬取所述URL地址指向的所述页面,得到所述第一搜索结果。
5.根据权利要求1所述的方法,其特征在于,获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果包括:
清除浏览器的cookies信息;
通过所述浏览器打开所述搜索引擎对所述搜索内容进行搜索得到所述第一搜索结果所在的页面;
对所述页面进行解析得到所述第一搜索结果。
6.一种获取网站自然搜索排名的装置,其特征在于,包括:
第一获取单元,用于获取搜索内容;
第二获取单元,用于获取搜索引擎根据所述搜索内容进行搜索得到的第一搜索结果;
过滤单元,用于过滤掉所述第一搜索结果中具有预设标识的内容,得到自然搜索结果,其中,所述具有预设标识的内容用于表示所述搜索引擎主动添加的内容;
查找单元,用于从所述自然搜索结果中查找目标网站在所述自然搜索结果中的排列位置;
排名单元,用于将查找到的排列位置所对应的排名作为所述目标网站的排名。
7.根据权利要求6所述的装置,其特征在于,所述具有预设标识的内容包括付费搜索内容和搜索引擎本身的内容,所述过滤单元包括:
第一解析模块,用于解析所述第一搜索结果中用于表示所述付费搜索内容的第一标识和用于表示所述搜索引擎本身的内容的第二标识;
过滤模块,用于根据所述第一标识和所述第二标识过滤掉所述第一搜索结果中的所述付费搜索内容和所述搜索引擎本身的内容,得到所述自然搜索结果。
8.根据权利要求6所述的装置,其特征在于,所述查找单元包括:
更新模块,用于按照所述第一搜索结果的顺序更新所述自然搜索结果的排序;
查找模块,用于在更新后的所述自然搜索结果中查找到与所述目标网站的网址相同的第二搜索结果;
位置模块,用于将所述第二搜索结果在更新后的所述自然搜索结果中的排列位置作为所述目标网站在所述自然搜索结果中的排列位置。
9.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
获取模块,用于获取所述搜索引擎的搜索条件;
生成模块,用于根据所述搜索内容和所述搜索条件生成URL地址,其中,所述URL地址指向所述第一搜索结果所在的页面;
爬取模块,用于爬取所述URL地址指向的所述页面,得到所述第一搜索结果。
10.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
清除模块,用于清除浏览器的cookies信息;
搜索模块,用于通过所述浏览器打开所述搜索引擎对所述搜索内容进行搜索得到所述第一搜索结果所在的页面;
第二解析模块,用于对所述页面进行解析得到所述第一搜索结果。
CN201610982675.XA 2016-11-08 2016-11-08 获取网站自然搜索排名的方法和装置 Pending CN108062328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610982675.XA CN108062328A (zh) 2016-11-08 2016-11-08 获取网站自然搜索排名的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610982675.XA CN108062328A (zh) 2016-11-08 2016-11-08 获取网站自然搜索排名的方法和装置

Publications (1)

Publication Number Publication Date
CN108062328A true CN108062328A (zh) 2018-05-22

Family

ID=62137022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610982675.XA Pending CN108062328A (zh) 2016-11-08 2016-11-08 获取网站自然搜索排名的方法和装置

Country Status (1)

Country Link
CN (1) CN108062328A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209912A (zh) * 2019-04-19 2019-09-06 山东开创云软件有限公司 一种网站排名顺序获取方法、装置、终端和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101849232A (zh) * 2007-04-29 2010-09-29 林海涛 搜索引擎及其对中介信息的过滤方法
CN101887438A (zh) * 2009-05-11 2010-11-17 富士通株式会社 确定网页的搜索引擎优化规则的方法和设备
US20120191691A1 (en) * 2008-04-07 2012-07-26 Robert Hansen Method for assessing and improving search engine value and site layout based on passive sniffing and content modification
CN103605737A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101849232A (zh) * 2007-04-29 2010-09-29 林海涛 搜索引擎及其对中介信息的过滤方法
US20120191691A1 (en) * 2008-04-07 2012-07-26 Robert Hansen Method for assessing and improving search engine value and site layout based on passive sniffing and content modification
CN101887438A (zh) * 2009-05-11 2010-11-17 富士通株式会社 确定网页的搜索引擎优化规则的方法和设备
CN103605737A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站分析方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209912A (zh) * 2019-04-19 2019-09-06 山东开创云软件有限公司 一种网站排名顺序获取方法、装置、终端和存储介质
CN110209912B (zh) * 2019-04-19 2021-04-30 山东开创云计算有限公司 一种网站排名顺序获取方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
CN103118111B (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
US7752220B2 (en) Alternative search query processing in a term bidding system
JP6301958B2 (ja) 検索語句を構成し、広告を配信し、製品情報を検索するための方法および装置
US7634462B2 (en) System and method for determining alternate search queries
CN102124462B (zh) 查询识别和关联
CN105608134B (zh) 一种基于多线程的网络爬虫系统及其网页爬取方法
US20140195893A1 (en) Method and Apparatus for Generating Webpage Content
CN105765573B (zh) 网站通信量优化方面的改进
CN102473190B (zh) 为网页分配关键词
US8682881B1 (en) System and method for extracting structured data from classified websites
CN109636494A (zh) 药品推荐方法及系统
CN103546326B (zh) 一种网站流量统计的方法
CN103605737B (zh) 网站分析方法及装置
KR20070053282A (ko) 정보에 대한 말단 사용자 요청에 응답하는 방법 및 장치
CN107463591A (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
DE112012003366T5 (de) Synthese von Verzeichnissen, Domains und Subdomains
US20090319481A1 (en) Framework for aggregating information of web pages from a website
CN108052632A (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN106815265A (zh) 裁判文书的搜索方法及装置
CN103646342A (zh) 一种搜索引擎消费数据和回报数据的拼接方法和平台
US20140059028A1 (en) International search engine optimization analytics
CN104572932A (zh) 一种兴趣标签的确定方法及装置
CN104216901B (zh) 信息搜索的方法和系统
CN108062328A (zh) 获取网站自然搜索排名的方法和装置
CN107544994B (zh) 关联数据的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180522

RJ01 Rejection of invention patent application after publication