CN106970962A - 一种获取搜索引擎搜索结果的方法和装置 - Google Patents
一种获取搜索引擎搜索结果的方法和装置 Download PDFInfo
- Publication number
- CN106970962A CN106970962A CN201710170469.3A CN201710170469A CN106970962A CN 106970962 A CN106970962 A CN 106970962A CN 201710170469 A CN201710170469 A CN 201710170469A CN 106970962 A CN106970962 A CN 106970962A
- Authority
- CN
- China
- Prior art keywords
- pages
- grades
- level pages
- level
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获取搜索引擎搜索结果的方法和装置。所述方法包括:输入待测试的搜索引擎、关键词和页码;将关键词和页码输入搜索引擎对应的搜索引擎模板,获得关键词和页码对应的一级页面地址;将一级页面地址输入到预设的浏览器中,通过浏览器访问一级页面地址,并获取一级页面地址对应一级页面信息和二级页面信息。本发明采用自动化的方式获取搜索引擎的搜索结果,通过预先设置搜索引擎模板的方式,自动获得一级页面地址,并将一级页面地址输入预设的浏览器中,进而通过访问该一级页面地址,自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率,提高搜索效果以及获得搜索结果的效率。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种获取搜索引擎搜索结果的方法和装置。
背景技术
目前,随着大数据时代的到来,用户可以通过搜索引擎从海量数据中搜索出自身所需的数据。在实际应用中,搜索引擎开发人员经常需要验证搜索算法爬取回来的结果与预想是否一致,需要验证的方面包括搜索结果的内容、数量、排序等。然而,在验证过程中,需要开发人员手动访问搜索引擎主页,在搜索框输入关键词,跳转到搜索结果页的第一页,通过眼睛判断网页访问情况,手动截取屏幕信息,点击网页链接并获取二级界面信息,第一页操作完毕,手动点击下一页按钮进行跳转以及手动截屏。
所以,开发人员手工进行搜索验证的效率低,且覆盖范围小,准确率低,而且结果展示不直观。因此,如何高效而准确地获取实际搜索结果就成为了本领域亟待解决的技术问题。
发明内容
本发明要解决的技术问题是提供一种获取搜索引擎搜索结果的方法和装置,用以解决现有技术中开发人员手工进行搜索验证的效率低且准确率低的技术问题。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明公开了一种获取搜索引擎搜索结果的方法,所述方法包括:输入待测试的搜索引擎、关键词和页码;将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址;将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
其中,将所述一级页面地址输入到预设的浏览页中,包括:预设多个浏览器;采用多线程的方式,将所述一级页面地址同时输入到所述多个浏览器中。
其中,获取所述一级页面地址对应一级页面信息,包括:根据所述搜索引擎模板中的Xpath,在所述一级页面地址对应的HtmlDom树中,获取所述一级页面信息。
其中,获取所述一级页面地址对应的二级页面信息,包括:通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
其中,所述一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息;所述二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
本发明还提供了一种获取搜索引擎搜索结果的装置,所述装置包括:输入模块,用于输入待测试的搜索引擎、关键词和页码;将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址;获取模块,用于将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
其中,所述获取模块,用于:预设多个浏览器;采用多线程的方式,将所述一级页面地址同时输入到所述多个浏览器中。
其中,所述获取模块,用于:根据所述搜索引擎模板中的Xpath,在所述一级页面地址对应的HtmlDom树中,获取所述一级页面信息。
其中,所述获取模块,用于:通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
其中,所述一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息;所述二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
本发明有益效果如下:
本发明采用自动化的方式获取搜索引擎的搜索结果,通过预先设置搜索引擎模板的方式,自动获得一级页面地址,并将一级页面地址输入预设的浏览器中,进而通过访问该一级页面地址,自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率,提高搜索效果以及获得搜索结果的效率。
附图说明
图1是根据本发明一实施例的获取搜索引擎搜索结果的方法流程图;
图2是根据本发明一实施例的获取搜索引擎搜索结果的示意图;
图3是根据本发明一实施例的一级页面解析示意图;
图4是根据本发明一实施例的其他页码的一级页面示意图;
图5是根据本发明另一实施例的一级页面解析示意图;
图6是根据本发明另一实施例的其他页码的一级页面示意图;
图7是根据本发明一实施例的获取搜索引擎搜索结果的装置结构图。
具体实施方式
本发明提出一种高效、准确、自动获取搜索引擎搜索结果的方法和装置,本发明可以应用于搜索结果的快速批量验证。本发明对搜索引擎进行解析,生成对应的搜索引擎模板,根据搜索引擎模板获取一级页面信息和二级页面信息,并可以采用多线程、多浏览器的方式,同时进行搜索以优化性能,提高获取搜索结果的效率,判定搜索结果的准确性和可用性。
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供一种获取搜索引擎搜索结果的方法。本实施例可以应用在搜索工具中。
图1是根据本发明一实施例的获取搜索引擎搜索结果的方法流程图。
步骤S110,输入待测试的搜索引擎、关键词和页码。
步骤S120,将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址。
一级页面地址是指搜索结果页(一级页面)的URL(Uniform Resource Locator,统一资源定位符)地址。在搜索结果页中包括多个搜索结果项。
通过对每种搜索引擎采用的URL格式进行分析,可以获得每种搜索引擎对应的搜索引擎模板。
搜索引擎模板包括:一级页面的URL地址的格式模板及用于二级页面的URL、标题、摘要定位的XPath(Xml Path Language,可扩展标记语言路径语言)。
在本实施例中,将所述关键词和所述页码输入所述搜索引擎对应的一级页面的URL地址的格式模板,获得所述关键词和所述页码对应的一级页面地址。
步骤S130,将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
在本实施例中,可以预设多个浏览器;采用多线程的方式,将所述一级页面地址同时输入到预设的多个浏览器中。将一级页面地址直接输入到浏览器中,可以省略开发人员人工在浏览器中选择搜索引擎,在搜索引擎中输入关键词进行搜索,并在诸多搜索结果页中选择页码的过程,有效提高了搜索效率。
一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面(搜索结果项对应的页面)的编码URL信息、标题信息和摘要信息。其中,一级页面截屏信息是一级页面的截屏;编码URL为经过搜索引擎编码的URL地址,需要通过访问该编码URL才能够得到真实的URL地址。
二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,二级页面的标题信息和包含所述关键词的段落信息。其中,二级页面截屏信息是二级页面的截屏。
具体而言,通过所述浏览器访问所述一级页面地址,可以在浏览器中显示一级页面地址对应的一级页面,通过浏览器解析所述一级页面,可以生成所述一级页面地址对应的HtmlDom树;根据搜索引擎模板中用于二级页面的URL、标题和摘要定位的Xpath,可以在所述一级页面地址对应的HtmlDom树中,获取到一级页面中包含的二级页面的编码URL信息、标题信息和摘要信息。
通过浏览器访问二级页面的编码URL,可以获取到二级页面信息。进一步地,通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
可以在浏览器中打开二级页面的编码URL对应的二级页面,通过Selenium获取该二级页面的URL,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。打开二级页面后获得的二级页面的URL为该二级页面真实的URL。
还可以在浏览器中打开二级页面的编码URL对应的二级页面,通过HttpGet获取二级页面的响应码,如果该响应码不等于200或者二级页面为空白页,则记录该二级页面无法访问,如果该响应码等于200且二级页面不是空白页,则记录二级页面访问成功,进而在访问成功的二级页面中获取该二级页面的URL信息并且进行截屏,以及获取二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
在获取到一级页面信息之后,可以将二级页面的编码URL信息、标题信息和摘要信息,存储在二级页面结果集合中。
在本实施例中,由于打来浏览器会占用较长时间,为了提高搜索效率,一级页面信息和二级页面信息异步返回。
如图2所示,为根据本发明一实施例的获取搜索引擎搜索结果的示意图。
预先设置搜索引擎模板库,在搜索引擎模板库中包括:一级页面的URL地址的格式模板及用于二级页面的URL、标题、摘要定位的XPath(Xml Path Language,可扩展标记语言路径语言)。图2中左侧使用的为URL地址的格式模板,右侧使用的为用于二级页面的URL、标题、摘要定位的XPath。
用户在搜索工具中输入搜索引擎、关键词和页码的信息。
搜索工具执行搜索过程。具体地,搜索工具获取搜索引擎对应的一级页面的URL地址的格式模板,并将关键词和页码输入到该格式模板中获得一级页面地址;从预先设置的包含多个浏览器的浏览器池中获取一个或多个浏览器,将一级页面地址输入到该一个或多个浏览器中,同时访问该一级页面地址。
针对其中一个浏览器进行说明,浏览器访问该一级页面地址,通过解析生成该一级页面地址对应的HtmlDom树;对一级页面地址对应的一级页面进行截图,并根据搜索引擎模板库中,该搜索引擎对应的二级页面的URL、标题、摘要定位的XPath,在HtmlDom树中分别获取每个二级页面的编码URL地址、二级页面的title(标题)和二级页面的摘要。
浏览器打开二级页面的编码URL地址,获取真实的URL地址;通过HttpGet方式,获取二级页面的响应码(ResponseCode);判断该ResponseCode是否等于200,如果否,则直接确定二级页面无法访问;如果是,则获取二级页面截屏信息,并判断二级页面是否为空白屏(空白页面),如果否,则确定二级页面访问成功,记录二级页面中包含关键词的段落,如果否,则确定二级页面访问失败。
在获得一级页面信息和二级页面信息之后,输出该一级页面信息和二级页面信息,以便进行验证搜索算法的准确性。其中,二级页面信息中二级页面的title可以使用一级页面信息中的二级页面的title。
例如:输入百度搜索引擎、张三、页码1;根据百度搜索引擎对应的一级页面的URL地址的格式模板,生成百度搜索引擎对应的包含“张三”和“页码1”的一级页面地址;获取火狐浏览器,将包含“张三”和“页码1”的一级页面地址输入到火狐浏览器中,得到如图3所示的页面;火狐浏览器对一级页面进行解析,可以获得HtmlDom树,图3中下面方框所在位置的代码为二级页面的编码URL。如果需要获取其他页码对应的一级页面信息和二级页面信息,用户可以更改输入的页码。由于每种搜索引擎具有各自的页码表示方式,一级页面的URL地址的格式模板中还应包含页码转换算法,如图3中,rev_idx=1表示页码1对应的一级页面,图4中,pn=20表示页码3对应的一级页面。
又如:输入搜狗搜索引擎、张三、页码1;根据搜狗搜索引擎对应的一级页面的URL的格式模板,生成搜狗搜索引擎对应的包含“张三”和“页码1”的一级页面地址;获取火狐浏览器,将包含“张三”和“页码1”的一级页面地址输入到火狐浏览器中,得到如图5所示的页面;火狐浏览器对一级页面进行解析,可以获得HtmlDom树,图5中下面方框所在位置的代码为二级页面的编码URL。如果需要获取其他页码对应的一级页面信息和二级页面信息,用户可以更改输入的页码。图5未写出page,表示页码1对应的一级页面,图6中,page=3表示页码3对应的一级页面。
本发明完全自动化的获取搜索引擎的搜索结果,采取了对网页全面分析、配置多模板、截屏、抓取title和包含关键词段落等多种方式,来保证搜索结果的准确性。
为了提高搜索结果的发现效率,本发明可以基于任务进行搜索,每个任务可以支持配置多个搜索引擎和关键词,并且,本发明主要从以下四个方面对搜索性能进行了优化。
(1)通过关键词和页码获得搜索引擎对应的URL,相比较于在搜索框输入关键词和点击“下一页”的方式,本发明简单直接,而且高效易扩展。
(2)多线程、多浏览器同时进行搜索,搜索效率高。
(3)HttpGet快速获取URL响应情况。在实际搜索过程中发现,一级页面中的相当一部分地址无法访问,通过HttpGet获取响应码的方式可以快速判断页面响应情况。
(4)异步返回测试结果。在实际搜索过程中发现,打开浏览器会占用相对较长时间,所以,为了快速展示主要信息,采用一级页面信息和二级页面信息异步返回的方式提高测试速度。
本发明还提供了一种获取搜索引擎搜索结果的装置,图7是根据本发明一实施例的获取搜索引擎搜索结果的装置结构图。
输入模块710,用于输入待测试的搜索引擎、关键词和页码;将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址;
获取模块720,用于将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
进一步地,所述获取模块720,用于:预设多个浏览器;采用多线程的方式,将所述一级页面地址同时输入到所述多个浏览器中。
进一步地,所述获取模块720,用于:根据所述搜索引擎模板中的Xpath,在所述一级页面地址对应的HtmlDom树中,获取所述一级页面信息。
进一步地,所述获取模块720,用于:通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
进一步地,所述一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息;所述二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
本实施例所述的装置的功能已经在图1~图6所示的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
Claims (10)
1.一种获取搜索引擎搜索结果的方法,其特征在于,所述方法包括:
输入待测试的搜索引擎、关键词和页码;
将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址;
将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
2.如权利要求1所述的方法,其特征在于,将所述一级页面地址输入到预设的浏览页中,包括:
预设多个浏览器;
采用多线程的方式,将所述一级页面地址同时输入到所述多个浏览器中。
3.如权利要求1所述的方法,其特征在于,获取所述一级页面地址对应一级页面信息,包括:
根据所述搜索引擎模板中的Xpath,在所述一级页面地址对应的HtmlDom树中,获取所述一级页面信息。
4.如权利要求1所述的方法,其特征在于,获取所述一级页面地址对应的二级页面信息,包括:
通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
5.如权利要求1~4中任一项所述的方法,其特征在于,
所述一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息;
所述二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
6.一种获取搜索引擎搜索结果的装置,其特征在于,所述装置包括:
输入模块,用于输入待测试的搜索引擎、关键词和页码;将所述关键词和所述页码输入所述搜索引擎对应的搜索引擎模板,获得所述关键词和所述页码对应的一级页面地址;
获取模块,用于将所述一级页面地址输入到预设的浏览器中,通过所述浏览器访问所述一级页面地址,并获取所述一级页面地址对应一级页面信息和二级页面信息。
7.如权利要求6所述的装置,其特征在于,所述获取模块,用于:
预设多个浏览器;
采用多线程的方式,将所述一级页面地址同时输入到所述多个浏览器中。
8.如权利要求6所述的装置,其特征在于,所述获取模块,用于:
根据所述搜索引擎模板中的Xpath,在所述一级页面地址对应的HtmlDom树中,获取所述一级页面信息。
9.如权利要求6所述的装置,其特征在于,所述获取模块,用于:
通过Selenium或者HttpGet,获取所述一级页面地址对应的二级页面信息。
10.如权利要求6~9中任一项所述的装置,其特征在于,
所述一级页面信息包括:一级页面截屏信息,一级页面中包含的二级页面的编码统一资源定位符URL信息、标题信息和摘要信息;
所述二级页面信息包括:二级页面的URL信息,二级页面是否访问成功的信息,二级页面截屏信息,以及二级页面的标题信息和包含所述关键词的段落信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710170469.3A CN106970962B (zh) | 2017-03-21 | 2017-03-21 | 一种获取搜索引擎搜索结果的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710170469.3A CN106970962B (zh) | 2017-03-21 | 2017-03-21 | 一种获取搜索引擎搜索结果的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106970962A true CN106970962A (zh) | 2017-07-21 |
CN106970962B CN106970962B (zh) | 2020-08-11 |
Family
ID=59329777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710170469.3A Active CN106970962B (zh) | 2017-03-21 | 2017-03-21 | 一种获取搜索引擎搜索结果的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106970962B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784096A (zh) * | 2017-10-19 | 2018-03-09 | 王守刚 | 一种阅读辅助系统及方法 |
CN108052442A (zh) * | 2017-10-30 | 2018-05-18 | 努比亚技术有限公司 | 一种引擎测试方法、终端和计算机可读存储介质 |
CN108427759A (zh) * | 2018-03-19 | 2018-08-21 | 四川意高汇智科技有限公司 | 用于海量数据处理的实时数据计算方法 |
CN113343152A (zh) * | 2021-06-25 | 2021-09-03 | 咪咕数字传媒有限公司 | 网络资源获取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744853A (zh) * | 2013-11-08 | 2014-04-23 | 北京奇虎科技有限公司 | 提供搜索引擎网页快照信息的方法及装置 |
CN104516887A (zh) * | 2013-09-27 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 一种网页数据搜索方法、装置和系统 |
US20160004697A1 (en) * | 2014-07-05 | 2016-01-07 | Maurice H.P.M. van Putten | Bilingual Search Engine for Mobile Devices |
-
2017
- 2017-03-21 CN CN201710170469.3A patent/CN106970962B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516887A (zh) * | 2013-09-27 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 一种网页数据搜索方法、装置和系统 |
CN103744853A (zh) * | 2013-11-08 | 2014-04-23 | 北京奇虎科技有限公司 | 提供搜索引擎网页快照信息的方法及装置 |
US20160004697A1 (en) * | 2014-07-05 | 2016-01-07 | Maurice H.P.M. van Putten | Bilingual Search Engine for Mobile Devices |
Non-Patent Citations (1)
Title |
---|
小辉辉可爱多: "利用selenium和chrome浏览器进行自动化网页搜索与浏览", 《博客园URL: HTTPS://WWW.CNBLOGS.COM/LIANGXUEHUI/P/5797185.HTML》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784096A (zh) * | 2017-10-19 | 2018-03-09 | 王守刚 | 一种阅读辅助系统及方法 |
CN107784096B (zh) * | 2017-10-19 | 2021-11-26 | 王守刚 | 一种阅读辅助系统及方法 |
CN108052442A (zh) * | 2017-10-30 | 2018-05-18 | 努比亚技术有限公司 | 一种引擎测试方法、终端和计算机可读存储介质 |
CN108427759A (zh) * | 2018-03-19 | 2018-08-21 | 四川意高汇智科技有限公司 | 用于海量数据处理的实时数据计算方法 |
CN113343152A (zh) * | 2021-06-25 | 2021-09-03 | 咪咕数字传媒有限公司 | 网络资源获取方法及装置 |
CN113343152B (zh) * | 2021-06-25 | 2023-08-15 | 咪咕数字传媒有限公司 | 网络资源获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106970962B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10362050B2 (en) | System and methods for scalably identifying and characterizing structural differences between document object models | |
US7827166B2 (en) | Handling dynamic URLs in crawl for better coverage of unique content | |
CN102073725B (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
US9223895B2 (en) | System and method for contextual commands in a search results page | |
CN106095979B (zh) | Url合并处理方法和装置 | |
US20080270376A1 (en) | Web spam page classification using query-dependent data | |
US20060288015A1 (en) | Electronic content classification | |
CN106970962A (zh) | 一种获取搜索引擎搜索结果的方法和装置 | |
EP1997038A2 (en) | Methods and apparatus for enabling use of web content on various types of devices | |
KR20060044525A (ko) | 검색 결과 관련성의 자동화된 최적화를 위한 시스템 및방법 | |
US7240045B1 (en) | Automatic system for configuring to dynamic database search forms | |
US20200026802A1 (en) | Image quality independent searching of screenshots of web content | |
CN105718533A (zh) | 信息推送方法和装置 | |
CN103812906B (zh) | 一种网址推荐方法、装置和通信系统 | |
CN105260469B (zh) | 一种处理网站地图的方法、装置及设备 | |
CN112417338B (zh) | 一种页面适配方法、系统及设备 | |
US8140508B2 (en) | System and method for contextual commands in a search results page | |
JP2010128928A (ja) | 検索システム及び検索方法 | |
CN104881428A (zh) | 一种信息图网页的信息图提取、检索方法和装置 | |
CN113806661B (zh) | 网站信息无障碍检测工具 | |
Knap | Towards Odalic, a Semantic Table Interpretation Tool in the ADEQUATe Project. | |
CN104268246B (zh) | 生成访问互联网站点指令脚本的方法及访问方法和装置 | |
CN109547294A (zh) | 一种基于固件分析的联网设备型号探测方法、装置 | |
CN104182402A (zh) | 浏览器界面地址栏输入控制方法及系统 | |
US20100131542A1 (en) | Suggested websites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |