CN110717801A - 一种商品信息推送方法及装置 - Google Patents
一种商品信息推送方法及装置 Download PDFInfo
- Publication number
- CN110717801A CN110717801A CN201810768395.8A CN201810768395A CN110717801A CN 110717801 A CN110717801 A CN 110717801A CN 201810768395 A CN201810768395 A CN 201810768395A CN 110717801 A CN110717801 A CN 110717801A
- Authority
- CN
- China
- Prior art keywords
- commodity
- network
- link
- page
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000004044 response Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种商品信息推送方法及装置,方法包括:接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;提取所述至少一个网络页面中所包含的网络链接形成链接集合;对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。解决了现有技术中网络信息采集获取到的数据容易存在乱码或抓取到的信息混乱的技术问题。
Description
技术领域
本申请涉及电子技术领域,尤其涉及一种商品信息推送方法及装置。
背景技术
伴随着互联网的发展,人们逐渐倾向使用社交网络平台进行交流。在社交网络平台中,用户可以完成内容发表、分享事物、进行互动等操作,不同用户可以根据同一个话题进行深入讨论。在用户生活学习中如果需要针对某一话题进行信息搜集时,网络数据采集则成为高效,快捷的方法。
但是由于网络信息采集时,所涉及的网络信息响应格式以及信息的呈现方式各不相同,因而获取到的数据容易存在乱码或抓取到的信息混乱;另外,抓取的数据还可能存在大量与搜索主题不符合的数据,从而会浪费用户大量的时间处理不必要的数据。
发明内容
本申请提供一种商品信息推送方法及装置,用以解决现有技术中由于网络信息采集时,所涉及的网络信息响应格式以及信息的呈现方式各不相同,因而获取到的数据容易存在乱码或抓取到的信息混乱的技术问题。
第一方面,本申请实施例提供一种商品信息推送方法,包括:
接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
提取所述至少一个网络页面中所包含的网络链接形成链接集合;
对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
本申请实施例所提供的方法,通过一次关键词的输入可以将与该关键词相关的商品信息进行汇总后输出,可以减少打开客户端搜索词汇获取结果的步骤,从而有效的提高商品搜索的效率。
一种可能的实施方式中,所述提取所述至少一个网络页面中所包含的网络链接形成链接集合包括:
若所述至少一个网络页面中包括展示所述商品描述信息的商品详情页面,则将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
一种可能的实施方式中,所述提取所述至少一个网络页面中所包含的网络链接形成链接集合包括:
若所述至少一个网络页面中任一网络页面包括多个分页面,则获取所述任一网络页面中每个分页面的分页面网络链接;
根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面;如果是,则将所述任一分页面的网络链接添加到所述链接集合中;
否则;判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
一种可能的实施方式中,对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合包括:
访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;
判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
本申请实施例所提供的方法在提取商品的描述信息后,按照固定的格式显示所以能够有效的适应网络信息编码,过滤无效信息,输出规范信息,便于用查看提供用户的使用体验。
一种可能的实施方式中,判断所述商品描述信息是否包括预设参数之前,还包括:
判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;
将获取的商品价格添加到所述第二商品描述信息中。
一种可能的实施方式中,访问所述链接集合中的每个网络链接包括:
当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;
以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;
利用所述价格请求链接访问所述链接集合中的每个网络链接,获取每个网络链接所对应的商品价格信息。
第二方面,本申请实施例提供一种商品信息推送装置,包括:
搜索单元,用于接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
提取单元,用于提取所述至少一个网络页面中所包含的网络链接形成链接集合;
获取单元,用于对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
推送单元,用于按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
一种可能的实施方式中,所述提取单元具体用于若所述至少一个网络页面中包括展示所述商品描述信息的商品详情页面,则将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
一种可能的实施方式中,所述提取单元具体用于若所述至少一个网络页面中任一网络页面包括多个分页面,则获取所述任一网络页面中每个分页面的分页面网络链接;根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面;如果是,则将所述任一分页面的网络链接添加到所述链接集合中;否则;判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
一种可能的实施方式中,所述获取单元具体用于访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
一种可能的实施方式中,所述获取单元还用于在判断所述商品描述信息是否包括预设参数之前,判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;将获取的商品价格添加到所述第二商品描述信息中。
一种可能的实施方式中,所述获取单元还用于当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;利用所述价格请求链接访问所述链接集合中的每个网络链接。
第三方面,本申请实施例还提供一种计算设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器、通信接口;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,利用所述通信接口执行第一方面各种实施方式中任一所述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面各种实施方式中任一所述的方法。
本申请有益效果如下:
本申请实施例所提供的方法和装置通过一次关键词的输入可以将与该关键词相关的商品信息进行汇总后输出,可以减少打开客户端搜索词汇获取结果的步骤,从而有效的提高商品搜索的效率。
附图说明
图1为本申请实施例所提供的一种商品信息推送方法的流程示意图;
图2为现有技术中网络页面以分页面的方式呈现的效果图;
图3为现有技术中商品详情页面的示例图;
图4为本申请实施例所提供的方法应用到电商平台场景进行信息推送的方法流程示意图;
图5为本申请实施例所提供的方法应用到论坛贴吧场景进行信息推送的方法流程示意图;
图6为现有技术中论坛贴中显示信息的示例图;
图7为本申请实施例所提供的一种商品信息推送装置的结构示意图;
图8为本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
基于现有网络信息采集时,所涉及的网络信息响应格式以及信息的呈现方式各不相同,从而导致获取到的数据容易存在乱码或抓取到的信息混乱的技术问题。本申请提供一种商品信息推送方法,该方法的整体思路是:
本申请实施例所提供的方法是:首先根据设定的搜索词汇,自动操作浏览器获取搜索结果页面,并根据搜索结果页面,提取网络链接,建立链接集合。针对链接集合,依次进行数据访问,获取网络响应,并提取网络响应中的有效信息;根据规划的信息输出格式,对该有效信息进行格式调整后输出固定格式的数据。
以下结合附图和具体的应用场景对本申请实施例所提供的方法和装置做进一步详细的说明:
实施例一
以下结合说明书附图1对本申请实施例所提供的一种商品信息推送方法做进一步详细的说明,该方法具体实现方式可以包括以下步骤:
步骤101,接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
在本申请实施例中,在接收到关键词之后可以将该关键词在电商平台或者是论坛中搜索与该关键词相关的网络页面。
步骤102,提取所述至少一个网络页面中所包含的网络链接(在该实施例中链接和网络链接为同一概念)形成链接集合;
通过某一关键词在电商平台或者是论坛中可能获取到与这个关键词相关的多个页面,但是基于电商平台以及论坛对搜索结果的显示设置,并不能一次性将所有结果都以商品详情页面的形式显示,所以可能会以多页显示的形式呈现。如果是多页显示,只获取多页显示网页的链接则并不能获取最全的商品信息,只能是获取到多页显示中某一页网络页面的链接,为了获取到所有网络页面的链接,所以基于上述两种网页呈现方式,本申请实施例在提取所述至少一个网络页面中所包含的网络链接时的具体实现方式可以是:
1、若所述至少一个网络页面是包括展示所述商品描述信息的商品详情页面,具体实现包括:
将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
2、若所述至少一个网络页面中任一网络页面包括多个分页面(如图2所示),则具体实现包括:
获取所述任一网络页面中每个分页面的分页面网络链接;
根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面(商品详情如图3所示);如果是,则将所述任一分页面的网络链接添加到所述链接集合中;
否则,判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
步骤103,对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
用户在浏览电商平台所提供的商品时,一般会基于商品的某些关键因素来决定购买,例如:价格、评价、平牌、商品的某一个特性等等,所以为了给用户提供有效的搜索结果,本申请实施例所提供的方法中在形成商品信息集合时,会基于获取的商品描述信息某一个或者是某几个参数对商品描述信息进行初步的筛选去除信息中的无效信息,具体实现可以是:
A1,访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;
A2,判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
用户决定是否购买商品,价格因素占了很大比重,所以在本申请实施例中,在判断商品描述信息中是否包括商品的其他描述信息之前,还会对商品的价格信息是否获取到做一次初选判断,具体实现可以是:在判断所述商品描述信息是否包括预设参数之前,还包括:
判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;
将获取的商品价格添加到所述第二商品描述信息中。
进一步,在某一关键词所获取到的网络链接超过预定数量时,如果逐个获取每个网络链接中商品的价格则会出现操作复杂且耗时长的问题,本申请实施例提供一种批量获取商品价格的方法,具体实现可以是:
B1,当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;
B2,以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;
B3,利用所述价格请求链接访问所述链接集合中的每个网络链接。
步骤104,按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
在获取到各网络页面中的商品描述信息后,为了保证信息清晰且正确的显示给用户,本申请实施例中所提供的方案中,可以确定显示描述信息时,所需要显示的关键属性(例如:商品的品牌、型号、价格、评论、最大优点、性能参数),然后依次从每个商品描述信息中获取每个关键属性的值后按照固定的格式添加到预设的表格中,然后将添加商品描述信息的表格作为商品的描述信息推送给用户。
本申请实施例所提供的方法,通过一次关键词的输入可以将与该关键词相关的商品信息进行汇总后输出,可以减少打开客户端搜索词汇获取结果的步骤,从而有效的提高商品搜索的效率。
另外,本申请实施例所提供的方法在提取商品的描述信息后,按照固定的格式显示所以能够有效的适应网络信息编码,过滤无效信息,输出规范信息,便于用查看提供用户的使用体验。
实施例二
如图4所示,为了更清楚详细的说明本申请实施例所提供的方法,下面基于电商平台所提供的数据对本申请实施例所提供的一种商品信息推送方法做进一步详细的说明,具体步骤可以包括:
步骤401,从电商平台搜索某项商品,获取搜索结果页面链接形成网络链接集合;
初步获取的搜索结果页面如图2所示是通过多页显示的方式呈现的,则对应的可以进一步的获取多页显示中多个分页面的网络链接。而且根据图2所示的结果每个分页面中还包括了多个商品详情页面的链接,在本申请实施例中可以通过逐层获取的方式将每个商品详情页面的链接获取到。
对于某一搜索关键词(针对某一商品)搜索结果过多,网站会分为多页显示商品,所有搜索结果即为电商平台展示的所有相关商品。在具体的实例中,如图2所示的多页显示情况,为了获得多个页面中所包括的商品信息,则须进行结果页面的翻页操作,以获取所有的搜索结果,并将搜索结果存为商品的链接集合;
例如图2所示,当搜索空调品类时,网站会分为5页展示(即包括5个分页面),在本申请实施例中会通过翻页等操作获取到5页中每个分页面的网络链接,为了获取每个商品的详细信息,本申请实施例还进一步的获取每个商品详情页面的网络链接,通过商品详情页面的网络链接可以单独点击进去查看商品详情信息。所以本申请实施例所提供的方法针对多页显示的搜索结果,可以通过翻页操作,最终拿到展示每个商品详情信息的网络页面的链接,如下图3所示的页面,从而获取每个商品的详细信息。
步骤402,一次性获取链接组中所有网络链接所对应的商品价格信息;具体实现可以是:将网络链接集合中的多个网络链接按照预设分组阈值分成至少一个链接组,并以链接组为单位,通过一个链接请求获取链接组中所有链接所对应的价格信息。
例如,以20个网络链接为一个链接组,构建商品价格请求链接进行访问,一次性获取链接组中所有链接所对应的商品价格,减少以单个商品请求价格的次数;该实施例中可以通过步骤401中得到的所有商品链接提取商品编号(例如:链接为https://item.jd.com/1581064.html,则对应的商品编号为:1581064),将20个商品编号编写入一个请求链接中,则可以一次性获取多个(即20个)商品的价格,获得的价格作为结果与后续信息统一存储。
步骤403,依次访问链接集合中每个网络链接,获取商品详情页面响应,并依据固定格式提取商品具体参数。
步骤404,依据商品链接中的商品ID,构建商品评价请求并获取响应,获得商品的评论信息;
在该实施例中获取评论信息的方式可以和获取价格信息的方式相同,具体实现参见步骤402中价格信息的获取方式,此处不再赘述。
步骤405,按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
在将商品描述信息推送给用户之前,需要判断商品信息是否完整,商品信息缺失严重的则删除此条商品数据,符合要求的则将每个商品数据存储到数据库。其中在判断商品信息是否完整的时候,可以主要判断商品描述信息中是否包括商品价格、商品名称、商品型号等信息,当然可以基于用户的搜索需求调整商品描述信息是否完整的判断标准,在此不做具体限定。
另外,对于商品描述信息中比较重要的评价因素,例如:价格、主要功能以及评论信息等,在第一次获取时,没有获取到则可以通过单独价格请求、评论信息请求等再次获取相关的信息。
本实施例所提供的方法,通过商品搜索结果链接,自行构建商品链接集合,构造商品相关请求,获取商品有关的价格,参数等信息,例如商品信息集合可以是表1所示的情况:
商品名称 | 商品ID | 标价 | 售价 | 价格区间 | 评论数 | 好评率 | 好评 | 中评 | 差评 |
AAA | 1581064 | 1999 | 1199 | 1000-1500 | 9400 | 97% | 9200 | 800 | 1100 |
BBB | 1581245 | 1999 | 1499 | 1000-1500 | 9200 | 97% | 9000 | 800 | 1100 |
CCC | 3229666 | 4999 | 2299 | 2000-2500 | 8600 | 98% | 8500 | 400 | 900 |
表1
现有技术中电商平台以多页显示的方式反馈用户搜索的商品信息时,本申请实施例所提供的方法能够将多页中所有商品信息统一获取后,再以固定的格式推送给用户,使得用户能够以最快的速度获取到所需购买商品的主要信息,可减少用户单独搜索商品的时间,并将数据较为规范,有对比性的提供给用户,提升网络数据获取的速度和信息整齐度。
实施例三
如图5所示,为了更清楚详细的说明本申请实施例所提供的方法,下面基于论坛信息所提供的数据对本申请实施例所提供的一种商品信息推送方法做进一步详细的说明,具体步骤可以包括:
步骤501,设定针对论坛内容的搜索词,并得到搜索结果,提取需要的论帖链接(等同于实施例一中的网络链接);
步骤502,基于提取到的论帖链接构建网络链接集合;
搜索结果如图6所示,每个标题为一个可点击进入的结果,将每个帖子中的链接提取出来构建网络链接集合,当搜索结果分为多页展示,则进行翻页操作得到每一页中的网络链接。
步骤503,依次访问网络链接集合中的每个链接,获取论帖页面的响应;
在本申请实施例中,可以通过解析器来提取论帖页面中的文本内容,为了避免乱码带来的提取不到的现象,本申请实施例在提取信息时可以指定解析器来避免编码格式错误;
步骤504,针对获取到的论帖页面的响应,提取每条论帖的有效信息;其中,该有效信息可以包括:论帖的回复时间,发布者,发布内容等信息;
在该实施例中为了保留对用户有用的信息,还可以对有效信息进行筛选,具体实现可以包括:
进行信息过滤,具体实现可以是:针对得到的每条有效信息,送入信息过滤函数,去除部分存在敏感词的信息;通过自定义过滤词库,如果包含某些敏感词,即判定该条信息为不符合主题的信息,不符合主题则删除。
步骤505,按照预设的信息显示格式在界面中显示提取的有效信息。
本实施例提供的方法,依据设定的搜索词,自动控制浏览器搜索相关论帖,获取搜索结果,并对论帖内容按照固定格式数据,剔除敏感数据,删除无效数据,最后存储数据。本方法旨于减少用户搜索论坛的时间和精力,提取论帖内容,过滤信息并存储为格式固定的数据,提升用户获取网络信息的速度和信息整齐度。
实施例四
如图7所示,基于上述方法本申请实施例还提供一种商品信息推送装置,该装置具体可以包括:
搜索单元701,用于接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
提取单元702,用于提取所述至少一个网络页面中所包含的网络链接形成链接集合;
可选的,该提取单元702具体用于若所述至少一个网络页面中包括展示所述商品描述信息的商品详情页面,则将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
可选的,该提取单元702具体用于若所述至少一个网络页面中任一网络页面包括多个分页面,则获取所述任一网络页面中每个分页面的分页面网络链接;根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面;如果是,则将所述任一分页面的网络链接添加到所述链接集合中;否则;判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
获取单元703,用于对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
可选的,该获取单元703具体用于访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
可选的,该获取单元703还用于在判断所述商品描述信息是否包括预设参数之前,判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;将获取的商品价格添加到所述第二商品描述信息中。
可选的,该获取单元703还用于当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;利用所述价格请求链接访问所述链接集合中的每个网络链接。
推送单元704,用于按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
实施例五
如图8所示,基于同一发明构思,本申请实施例还提供了一种计算设备,参照图8,该设备包括:
至少一个处理器801,以及
与所述至少一个处理器801通信连接的存储器802、通信接口803;
其中,所述存储器802存储有可被所述至少一个处理器801执行的指令,所述至少一个处理器801通过执行所述存储器802存储的指令,利用所述通信接口803执行本申请实施例一中的商品信息推送方法。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本申请实施例所述商品信息推送方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种商品信息推送方法,其特征在于,包括:
接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
提取所述至少一个网络页面中所包含的网络链接形成链接集合;
对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
2.如权利要求1所述的方法,其特征在于,所述提取所述至少一个网络页面中所包含的网络链接形成链接集合包括:
若所述至少一个网络页面中包括展示所述商品描述信息的商品详情页面,则将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
3.如权利要求2所述的方法,其特征在于,所述提取所述至少一个网络页面中所包含的网络链接形成链接集合包括:
若所述至少一个网络页面中任一网络页面包括多个分页面,则获取所述任一网络页面中每个分页面的分页面网络链接;
根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面;如果是,则将所述任一分页面的网络链接添加到所述链接集合中;
否则;判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
4.如权利要求1所述的方法,其特征在于,对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合包括:
访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;
判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
5.如权利要求4所述的方法,其特征在于,判断所述商品描述信息是否包括预设参数之前,还包括:
判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;
将获取的商品价格添加到所述第二商品描述信息中。
6.如权利要求4或5所述的方法,其特征在于,访问所述链接集合中的每个网络链接包括:
当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;
以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;
利用所述价格请求链接访问所述链接集合中的每个网络链接,获取每个网络链接所对应的商品价格信息。
7.一种商品信息推送装置,其特征在于,包括:
搜索单元,用于接收到搜索一商品的搜索关键词,搜索与所述关键词对应的至少一个网络页面;
提取单元,用于提取所述至少一个网络页面中所包含的网络链接形成链接集合;
获取单元,用于对所述链接集合中的各网络链接进行数据访问,获取每个网络链接所对应网络页面中的商品描述信息形成商品信息集合;
推送单元,用于按照预设的信息显示格式在一个网络页面中向用户推送所述商品信息集合中的所述商品描述信息。
8.如权利要求7所述的装置,其特征在于,所述提取单元具体用于若所述至少一个网络页面中包括展示所述商品描述信息的商品详情页面,则将所述至少一个网络页面中商品详情页面的第一网络链接添加到所述链接集合中。
9.如权利要求8所述的装置,其特征在于,所述提取单元具体用于若所述至少一个网络页面中任一网络页面包括多个分页面,则获取所述任一网络页面中每个分页面的分页面网络链接;根据所述分页面网络链接进行所述分页面数据访问,判断任一分页面是否为所述商品详情页面;如果是,则将所述任一分页面的网络链接添加到所述链接集合中;否则;判断所述分页面中是否包括所述商品详情页面的网络链接,如果包括,则将所述分页面中所包括的商品详情页面的第二网络链接添加到所述链接集合中。
10.如权利要求7所述的装置,其特征在于,所述获取单元具体用于访问所述链接集合中的每个网络链接,并从获取的商品详情页面响应中依据固定格式提取商品描述信息;判断所述商品描述信息是否包括预设参数,如果第一商品描述信息不包括所述预设参数,则删除所述第一商品描述信息;否则,存储所述商品描述信息形成商品信息集合。
11.如权利要求10所述的装置,其特征在于,所述获取单元还用于在判断所述商品描述信息是否包括预设参数之前,判断每个商品描述信息中是否包括商品价格,如果第二商品描述信息中不包括商品价格,则生成价格请求链接获取所述第二商品描述信息所对应商品的商品价格;将获取的商品价格添加到所述第二商品描述信息中。
12.如权利要求10或11所述的装置,其特征在于,所述获取单元还用于当所述链接集合中包括多个网络链接时,按照预设的分组阈值将所述多个网络链接分成至少一个链接组;以所述链接组为单位,从所述链接组中的每个链接中获取商品ID,将获取到的商品ID拼接成价格请求链接;利用所述价格请求链接访问所述链接集合中的每个网络链接。
13.一种计算设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器、通信接口;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,利用所述通信接口执行权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810768395.8A CN110717801A (zh) | 2018-07-13 | 2018-07-13 | 一种商品信息推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810768395.8A CN110717801A (zh) | 2018-07-13 | 2018-07-13 | 一种商品信息推送方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717801A true CN110717801A (zh) | 2020-01-21 |
Family
ID=69209228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810768395.8A Pending CN110717801A (zh) | 2018-07-13 | 2018-07-13 | 一种商品信息推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717801A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666513A (zh) * | 2020-04-23 | 2020-09-15 | 北京三快在线科技有限公司 | 页面处理方法、装置、电子设备及可读存储介质 |
CN111753240A (zh) * | 2020-06-30 | 2020-10-09 | 上海二三四五网络科技有限公司 | 一种基于h5页面自动提供匹配信息的控制方法及装置 |
CN113704607A (zh) * | 2021-08-26 | 2021-11-26 | 阿里巴巴(中国)有限公司 | 推荐和展示方法、装置以及电子设备 |
CN113821718A (zh) * | 2021-02-01 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 一种物品信息推送方法和装置 |
US11204975B1 (en) | 2020-08-10 | 2021-12-21 | Coupang Corp. | Program interface remote management and provisioning |
CN114168865A (zh) * | 2021-12-14 | 2022-03-11 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7584120B1 (en) * | 1999-04-07 | 2009-09-01 | Cbs Interactive Inc. | Method and apparatus for defining data of interest |
CN106547778A (zh) * | 2015-09-21 | 2017-03-29 | 北京国双科技有限公司 | 网页的爬取方法和装置 |
-
2018
- 2018-07-13 CN CN201810768395.8A patent/CN110717801A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7584120B1 (en) * | 1999-04-07 | 2009-09-01 | Cbs Interactive Inc. | Method and apparatus for defining data of interest |
CN106547778A (zh) * | 2015-09-21 | 2017-03-29 | 北京国双科技有限公司 | 网页的爬取方法和装置 |
Non-Patent Citations (1)
Title |
---|
唐伟: "半结构化网页中商品属性抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666513A (zh) * | 2020-04-23 | 2020-09-15 | 北京三快在线科技有限公司 | 页面处理方法、装置、电子设备及可读存储介质 |
CN111753240A (zh) * | 2020-06-30 | 2020-10-09 | 上海二三四五网络科技有限公司 | 一种基于h5页面自动提供匹配信息的控制方法及装置 |
US11204975B1 (en) | 2020-08-10 | 2021-12-21 | Coupang Corp. | Program interface remote management and provisioning |
TWI787706B (zh) * | 2020-08-10 | 2022-12-21 | 南韓商韓領有限公司 | 用於供應計算介面的系統以及用於將引用指派至目標計算介面的系統與方法 |
CN113821718A (zh) * | 2021-02-01 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 一种物品信息推送方法和装置 |
CN113704607A (zh) * | 2021-08-26 | 2021-11-26 | 阿里巴巴(中国)有限公司 | 推荐和展示方法、装置以及电子设备 |
CN113704607B (zh) * | 2021-08-26 | 2023-10-20 | 阿里巴巴(中国)有限公司 | 推荐和展示方法、装置以及电子设备 |
CN114168865A (zh) * | 2021-12-14 | 2022-03-11 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717801A (zh) | 一种商品信息推送方法及装置 | |
EP3089055B1 (en) | Method and device for displaying information flows in social network, and server | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
JP5449628B2 (ja) | マルチステージを使用したカテゴリ情報の決定 | |
US8073865B2 (en) | System and method for content extraction from unstructured sources | |
US8700621B1 (en) | Generating query suggestions from user generated content | |
CN106469382A (zh) | 闲置商品对象信息处理方法及装置 | |
EP2941724A1 (en) | Method and apparatus for generating webpage content | |
CN110413872B (zh) | 用于展示信息的方法和装置 | |
CN109597974B (zh) | 报表生成方法及装置 | |
JP2016505993A (ja) | 検索語句を構成し、広告を配信し、製品情報を検索するための方法および装置 | |
US9330075B2 (en) | Method and apparatus for identifying garbage template article | |
CN103425680A (zh) | 页面展示广告的选取方法和系统 | |
CN106446149B (zh) | 一种通知信息的过滤方法及装置 | |
CN106294402A (zh) | 一种异构数据源的数据搜索方法及其装置 | |
CN102402535A (zh) | 一种建设产品库的方法及系统 | |
CN111192089A (zh) | 一种电子券的生成方法、装置及计算机系统 | |
CN104731809A (zh) | 对象的属性信息的处理方法及装置 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN103699544A (zh) | 跨页选择数据的方法和系统 | |
CN106415637A (zh) | 佣金分配方法和系统 | |
CN107665116B (zh) | 页面资源位信息处理方法及装置 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN106815196B (zh) | 软文展现次数统计方法和装置 | |
CN106257449A (zh) | 一种信息确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |
|
RJ01 | Rejection of invention patent application after publication |