CN104636346A - 网页数据查询方法及装置 - Google Patents

网页数据查询方法及装置 Download PDF

Info

Publication number
CN104636346A
CN104636346A CN201310549593.2A CN201310549593A CN104636346A CN 104636346 A CN104636346 A CN 104636346A CN 201310549593 A CN201310549593 A CN 201310549593A CN 104636346 A CN104636346 A CN 104636346A
Authority
CN
China
Prior art keywords
page data
product information
data
inquiry
web data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310549593.2A
Other languages
English (en)
Inventor
曹辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310549593.2A priority Critical patent/CN104636346A/zh
Publication of CN104636346A publication Critical patent/CN104636346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例提出一种网页数据查询方法及装置,其方法包括:获取网站多个页面数据;对获取的页面数据进行解析,提取出所述页面数据中的产品信息;接收用户输入的查询请求;根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询;展示查询结果。通过本发明实施例的方法,可以根据用户需要选择查询条件,使得对网页上产品信息的查询更为便利,在网站没有提供用户所需要的查询条件的情况下,省去了用户打开一个个页面所耗费的时间,可以节约大量的人力。

Description

网页数据查询方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种网页数据查询方法及装置。
背景技术
目前许多网站都会提供信息查询的功能,如图1所示,用户在网站的前端页面选择查询条件,然后向网站后台服务器发送查询请求,网站后台服务器收到用户的查询请求后,根据用户的查询条件从数据库中获取查询结果,并把查询结果返回前台页面进行显示。
但是,现有网站的前台查询页面提供给用户可选的查询条件通常都较少,用户很难按照自己的需求进行查询。如图2所示,其为现有的一个汽车信息类网站提供的查询页面示意图,该查询功能只提供了按照价格、国别、品牌、排量、级别、结构和座椅7项查询条件。而用户要想根据汽车的燃油标号、进气形式、气缸个数、变速箱类型和挡位个数等其他重要参数进行查询就无法实现了,用户只能打开某一型号汽车的具体页面进行查询,费时费力。
综上所述,现有的网站查询功能存在查询条件少的问题。
发明内容
本发明实施例的目的是提供一种网页数据查询方法及装置,以解决现有的网站查询功能存在查询条件少的问题。
本发明实施例提出一种网页数据查询方法,包括:
获取网站多个页面数据;
对获取的页面数据进行解析,提取出所述页面数据中的产品信息;
接收用户输入的查询请求;
根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询;
展示查询结果。
本发明实施例还提出一种网页数据查询装置,包括:
页面数据获取模块,用于获取网站多个页面数据;
解析模块,用于对获取的页面数据进行解析,提取出所述页面数据中的产品信息;
查询请求接收模块,用于接收用户输入的查询请求;
查询模块,用于根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询;
展示模块,用于展示查询结果。
相对于现有技术,本发明的有益效果是:
本发明实施例的方法及装置,通过从网页上获取信息并解析,并将解析得到的数据保存到本地,从而用户可以根据需要输入或选择查询条件,使得对网页上产品信息的查询更为便利,在网站没有提供用户所需查询条件的情况下,省去了打开一个个页面所耗费的时间,可以节约大量的人力。
附图说明
图1为现有的网站信息查询示意图;
图2为现有的一个汽车信息类网站提供的查询页面示意图;
图3为本发明实施例的一种网页数据查询方法的流程图;
图4为本发明实施例的一种拉取的网页页面示意图;
图5为与图4的页面对应的页面数据的示意图;
图6为本发明实施例的一种展示查询结果的示意图;
图7为本发明实施例的另一种网页数据查询方法的流程图;
图8为本发明实施例的一种网页数据查询装置的结构图;
图9为本发明实施例的另一种网页数据查询装置的结构图。
具体实施方式
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
请参见图3,其为本发明实施例的一种网页数据查询方法的流程图,其包括以下步骤:
S31,获取网站多个页面数据。
所述页面数据是指与网站服务器发布的网页信息对应的数据,可以根据需要定时从网站服务器获取页面数据。
S32,对获取的页面数据进行解析,提取出所述页面数据中的产品信息。
由于不同网站使用的页面格式不同,有的使用json格式,有的使用xml格式,有的使用html格式,拉取网页信息时针对不同的格式需要使用不同的解释器(解释器是能够执行计算机语言编写的程序的系统软件)。如图4所示的一种汽车产品的网页,其采用的是json格式,与其对应的页面数据如图5所示。利用json解释器就可以从该页面数据中获取如车型中有几款车、每款车的各项参数等产品信息。
S33,接收用户输入的查询请求。所述查询请求中可以包含用户根据需要而输入或选择的查询条件,例如针对汽车产品,查询条件可以是燃油标号、进气形式、气缸个数、变速箱类型和挡位个数等。用户可以直接键入需要的查询条件,也可以根据展示的选项选择相应的查询条件。
S34,根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询。
S35,展示查询结果。
请参见图6,其为展示查询结果的示意图,左栏列出了用户比较关注的产品参数信息,当用户在左栏选择某一项参数信息后(图6中选择了“燃油标号”这一产品参数信息),在中栏出现相应筛选条件,用户可以选择一项或多项筛选条件,并最终在右栏展示查询结果。
通过本发明实施例的方法,可以根据用户需要选择查询条件,使得对网页上产品信息的查询更为便利,在网站没有提供用户所需要的查询条件的情况下,省去了用户打开一个个页面所耗费的时间,可以节约大量的人力。
请参见图7,其为本发明实施例的另一种网页数据查询方法的流程图,其包括以下步骤:
S71,枚举包含产品信息的多个页面的网址。所述网址中可以包含产品编号。
枚举的网址例如:http://www.autohome.com.cn/3085/options.html。其中“3085”为产品编号,只要改变网址中的产品编号即可获取全部产品型号的网址。
S72,向网站服务器发出获取与所述网址对应的页面数据的请求。即将枚举的网址发送给网站服务器,请求获取相应的页面数据。网站服务器会判断发送来的网址是否存在,如果存在并且有数据,则提取相应的页面数据。
S73,接收网站服务器发送来的所述页面数据。
S74,对获取的页面数据进行解析,提取出所述页面数据中的产品信息。
S75,将每个产品的参数作为一条记录保存到数据库中,以便于查询。所述数据库可以是sqlite数据库,由于数据库文件是sqlite格式,因此无论在pc或者手机上都有很好兼容性,也为开发查询程序提供了便利。
S76,接收用户输入的查询请求。
S77,根据所述查询请求中的查询条件,对数据库中的产品信息进行查询。
具体来说,当接收到查询请求后,对数据库中的数据进行遍历,查找与查询条件相匹配的产品的信息,并最终获取用户需要的产品参数。由于产品信息存放于本地的数据库中,相对于现有的网络查询方式,省去了网络传输数据所需的时间,进而提高了检索速度。
S78,展示查询结果。
本发明实施例的网页数据查询方法,通过从网页获取信息并解析,将解析得到的每个产品的数据作为一条记录保存到数据库中,在为用户提供查询便利的同时,进一步提高了查询速度。
本发明实施例还提出了一种网页数据查询装置,请参见图8,其包括:页面数据获取模块81、解析模块82、查询请求接收模块83、查询模块84以及展示模块85。解析模块82与页面数据获取模块81相连,查询模块84与查询请求接收模块83相连,展示模块85与查询模块84相连。
页面数据获取模块81用于获取网站多个页面数据。所述页面数据是指与网站服务器发布的网页信息对应的数据,可以根据需要定时从网站服务器获取页面数据。
解析模块82用于对页面数据获取模块81获取的页面数据进行解析,提取出页面数据中的产品信息。解析模块82可以利用解释器来解析页面数据,由于不同网站使用的页面格式不同,有的使用json格式,有的使用xml格式,有的使用html格式,所以解析模块82可以借助不同的解释器来解析不同格式的页面数据。
查询请求接收模块83用于接收用户输入的查询请求。用户可以根据需要输入查询条件。查询请求接收模块83也可以向用户展示多个查询条件的选项,以供用户选择。
查询模块84用于根据查询请求接收模块83接收到的查询请求中的查询条件,对提取出的所述产品信息进行查询,并找出符合查询条件的数据。
展示模块85用于展示查询模块84获得的查询结果。
通过本发明实施例的装置,用户可以根据需要输入查询条件,使得对网页上产品信息的查询更为便利,在网站没有提供用户所需查询条件的情况下,省去了打开一个个页面所耗费的时间,可以节约大量的人力。
请参见图9,其为本发明实施例的另一种网页数据查询装置的结构图。与图8的实施例相比,本实施例的网页数据查询装置还包括保存模块86及sqlite数据库87。本实施例的页面数据获取模块81进一步包括:枚举单元811、请求发送单元812及数据接收单元813。请求发送单元812与枚举单元811相连,数据接收单元813与解析模块82相连,保存模块86分别与解析模块82及sqlite数据库87相连。
枚举单元811用于枚举包含产品信息的多个页面的网址。枚举单元811枚举的网址中可以包含产品编号,只要改变网址中的产品编号即可获取全部产品型号的网址。
请求发送单元812用于向网站服务器发出获取页面数据的请求,请求中包含了枚举单元811枚举的网址。网站服务器接收到请求后,会判断发送来的网址是否存在,如果存在并且有数据,则提取相应的页面数据。
数据接收单元813用于接收网站服务器发送来的所述页面数据。
保存模块86用于将解析模块82解析出的每个产品的参数作为一条记录保存到sqlite数据库87中。由于sqlite数据库87中的文件是sqlite格式,因此无论在pc或者手机上都有很好兼容性,由于产品信息存放于本地的数据库中,相对于现有的网络查询方式,省去了网络传输数据所需的时间,进而提高了检索速度,也为开发查询程序提供了便利。当然,除了本实施例所采用的sqlite数据库,本发明的装置也可以采用其它格式的数据库来存放产品信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (12)

1.一种网页数据查询方法,其特征在于,包括:
获取网站多个页面数据;
对获取的页面数据进行解析,提取出所述页面数据中的产品信息;
接收用户输入的查询请求;
根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询;
展示查询结果。
2.如权利要求1所述的网页数据查询方法,其特征在于,所述获取网站多个页面数据的步骤包括:
枚举包含产品信息的多个页面的网址;
向网站服务器发出获取与所述网址对应的页面数据的请求;
接收网站服务器发送来的所述页面数据。
3.如权利要求2所述的网页数据查询方法,其特征在于,所述枚举包含产品信息的多个页面的网址的步骤中,所述网址中包含产品编号。
4.如权利要求1所述的网页数据查询方法,其特征在于,所述提取出所述页面数据中的产品信息的步骤之后包括:将每个产品的参数作为一条记录进行保存。
5.如权利要求1所述的网页数据查询方法,其特征在于,所述提取出所述页面数据中的产品信息的步骤之后包括:将提取出的所述产品信息保存在数据库中。
6.如权利要求5所述的网页数据查询方法,其特征在于,所述提取出所述页面数据中的产品信息的步骤之后包括:所述数据库为sqlite数据库。
7.一种网页数据查询装置,其特征在于,包括:
页面数据获取模块,用于获取网站多个页面数据;
解析模块,用于对获取的页面数据进行解析,提取出所述页面数据中的产品信息;
查询请求接收模块,用于接收用户输入的查询请求;
查询模块,用于根据所述查询请求中的查询条件,对提取出的所述产品信息进行查询;
展示模块,用于展示查询结果。
8.如权利要求7所述的网页数据查询装置,其特征在于,所述页面数据获取模块进一步包括:
枚举单元,用于枚举包含产品信息的多个页面的网址;
请求发送单元,用于向网站服务器发出获取与所述网址对应的页面数据的请求;
数据接收单元,用于接收网站服务器发送来的所述页面数据。
9.如权利要求8所述的网页数据查询装置,其特征在于,所述枚举单元枚举的所述网址中包含产品编号。
10.如权利要求7所述的网页数据查询装置,其特征在于,所述网页数据查询装置进一步包括:
保存模块,用于将每个产品的参数作为一条记录进行保存。
11.如权利要求7所述的网页数据查询装置,其特征在于,所述网页数据查询装置还包括:
数据库,用于保存所述解析模块提取出的所述产品信息。
12.如权利要求11所述的网页数据查询装置,其特征在于,所述数据库为sqlite数据库。
CN201310549593.2A 2013-11-07 2013-11-07 网页数据查询方法及装置 Pending CN104636346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310549593.2A CN104636346A (zh) 2013-11-07 2013-11-07 网页数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310549593.2A CN104636346A (zh) 2013-11-07 2013-11-07 网页数据查询方法及装置

Publications (1)

Publication Number Publication Date
CN104636346A true CN104636346A (zh) 2015-05-20

Family

ID=53215118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310549593.2A Pending CN104636346A (zh) 2013-11-07 2013-11-07 网页数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN104636346A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808671A (zh) * 2016-03-01 2016-07-27 王博 一种产品信息获取方法及终端
CN107066610A (zh) * 2017-05-02 2017-08-18 中国联合网络通信集团有限公司 一种价格查询方法及设备
CN107229624A (zh) * 2016-03-23 2017-10-03 百度在线网络技术(北京)有限公司 一种页面提供方法和页面提供装置
CN108959291A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 查询方法及相关装置
CN111061804A (zh) * 2019-10-30 2020-04-24 平安科技(深圳)有限公司 基于大数据的异步数据处理方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN101782998A (zh) * 2009-01-20 2010-07-21 复旦大学 一种违规在线产品信息的智能判断方法与系统
CN103020281A (zh) * 2012-12-27 2013-04-03 中国科学院计算机网络信息中心 一种基于空间数据数值索引的数据存储与检索方法
CN103309961A (zh) * 2013-05-30 2013-09-18 北京智海创讯信息技术有限公司 基于马尔可夫随机场的网页正文提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782998A (zh) * 2009-01-20 2010-07-21 复旦大学 一种违规在线产品信息的智能判断方法与系统
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN103020281A (zh) * 2012-12-27 2013-04-03 中国科学院计算机网络信息中心 一种基于空间数据数值索引的数据存储与检索方法
CN103309961A (zh) * 2013-05-30 2013-09-18 北京智海创讯信息技术有限公司 基于马尔可夫随机场的网页正文提取方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808671A (zh) * 2016-03-01 2016-07-27 王博 一种产品信息获取方法及终端
CN107229624A (zh) * 2016-03-23 2017-10-03 百度在线网络技术(北京)有限公司 一种页面提供方法和页面提供装置
CN107066610A (zh) * 2017-05-02 2017-08-18 中国联合网络通信集团有限公司 一种价格查询方法及设备
CN108959291A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 查询方法及相关装置
CN108959291B (zh) * 2017-05-19 2023-03-24 腾讯科技(深圳)有限公司 查询方法及相关装置
CN111061804A (zh) * 2019-10-30 2020-04-24 平安科技(深圳)有限公司 基于大数据的异步数据处理方法、装置、设备和存储介质
CN111061804B (zh) * 2019-10-30 2023-09-29 平安科技(深圳)有限公司 基于大数据的异步数据处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN105279224B (zh) 信息推送方法及装置
CN101276361B (zh) 一种显示相关关键词的方法及系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN104156390A (zh) 一种评论推荐方法和系统
CN104636346A (zh) 网页数据查询方法及装置
CN105450586A (zh) 信息推送方法、系统、服务器及客户端
US8959083B1 (en) Searching using social context
CN102076115A (zh) 一种在移动终端内发布广告信息的控制方法及装置
CN103618774A (zh) 一种基于网络行为的资源推荐方法及装置、系统
CN102663064A (zh) 一种收藏夹数据的处理方法及装置
CN105373608A (zh) 一种基于输入法的场景式内容推送方法及其系统
CN102982023A (zh) 一种提供搜索建议的方法及装置
CN103425670A (zh) 一种向用户提供内容推荐信息的方法、装置和设备
CN103440260A (zh) 一种用于提供呈现信息的方法与设备
CN102651031A (zh) 一种用于提供搜索结果的方法与设备
CN105303501A (zh) 一种基于图片推荐的社区信息服务系统和方法
US10146559B2 (en) In-application recommendation of deep states of native applications
CN102982136A (zh) 浏览器地址栏中显示推荐网址信息的方法和浏览器
CN105787066A (zh) 基于全量分析的数字内容分发系统
CN102831117A (zh) 选择字体、字体的确定、推荐、生成方法及其设备
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
US20140278982A1 (en) Clustering of ads with organic map content
CN104572981B (zh) 一种网页页面缓存处理方法和移动终端设备
CN106257451A (zh) 网站访问的方法及装置
CN102567533A (zh) 网页信息添加方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150520

RJ01 Rejection of invention patent application after publication