CN109711951A - 商品自动化采集与迁移方法 - Google Patents
商品自动化采集与迁移方法 Download PDFInfo
- Publication number
- CN109711951A CN109711951A CN201910051199.3A CN201910051199A CN109711951A CN 109711951 A CN109711951 A CN 109711951A CN 201910051199 A CN201910051199 A CN 201910051199A CN 109711951 A CN109711951 A CN 109711951A
- Authority
- CN
- China
- Prior art keywords
- commodity
- data packet
- database
- moving method
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。本发明的方法省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。
Description
技术领域
本发明属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法。
背景技术
相关技术中,业内的商品数据采集方法可以具备采集淘宝、天猫、京东、国美在线、苏宁易购等一线电商平台中的商品数据的功能,包括商品标题、主图、价格等属性数据,其优点是已经满足了一线电商平台的在线商家的需求,使用起来也很方便。但是也存在一些不足,具体如下:
只支持固定页面格式的电商数据采集,如果电商平台页面结构发生变化,则此类采集方法会受到很大制约。另外,该采集方式也不支持二线电商平台的数据采集与自动化迁移,比如,某省或市县级的供销社电商平台中的商品数据就无法通过此类工具进行采集和数据迁移,如要完成此项工作,目前还是以人工重新录入、投入开发人员对接等方式来完成,无疑是增加了很大的成本。
商品详情页的数据不支持与原系统保持一致,特别是图文混排的详情数据,在导入新系统后往往还需要人工重新编辑一次。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种商品自动化采集与迁移方法,以解决现有技术中商品数据的采集方法不适用复杂多变的电商平台页面结构的技术问题,以及改善受制于该采集方法而增加劳动成本的弊端。
为实现以上目的,本发明采用如下技术方案:
本申请提供一种商品自动化采集与迁移方法,包括如下步骤:
S1,设置商品页面URL规则以及URL中的变量;
S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;
S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;
S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;
S5,将S4中的预设数据包迁移到预设平台页面。
进一步的,S2中所述商品源数据包括文字及商品图片信息;所述数据库一是NOSQL-MongoDB数据库;所述数据库二是MySql和MongoDB。
上述的商品自动化采集与迁移方法中,S2遍历过程中,遇到空的商品URL,自动抛弃并记录。
上述的商品自动化采集与迁移方法中,S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。
上述的商品自动化采集与迁移方法中,S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。
上述的商品自动化采集与迁移方法中,S5中所述将S4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤S6:
迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。
上述的商品自动化采集与迁移方法中,S6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。
上述的商品自动化采集与迁移方法中,所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。
上述的商品自动化采集与迁移方法中,所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
上述的商品自动化采集与迁移方法中,所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
上述的商品自动化采集与迁移方法中,标题、价格、主图和商品详情信息元素属于商品数据。
上述的商品自动化采集与迁移方法中,待店铺信息、商品分类信息匹配完成后,商品数据匹配迁入到预设平台页面中;迁入的商品数据默认为“待审核”状态,经审核后在线上发布。
本发明采用以上技术方案,能够达到的有益效果包括:
省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种商品自动化采集与迁移方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
本发明通过“数据采集”、“自动学习”、“数据迁入”三大步骤,主要思路就是先根据规则把要采集平台的商品数据全部采集并做保存,然后再对采集到的商品数据进行模拟学习并把学习成果保存后校核,确认之后再进行数据的迁入工作,迁入到预设平台页面。
下面结合附图介绍本申请实施例中提供的一个具体的商品自动化采集与迁移方法。
如图1所示,一种商品自动化采集与迁移方法,包括如下步骤:
S1,设置商品页面URL规则以及URL中的变量;
S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;
S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;
S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;
S5,将S4中的预设数据包迁移到预设平台页面。
上述的商品自动化采集与迁移方法中,设置商品页面URL规则以及URL中的变量的具体方式可以采用如下方式:
1、以商品URL为采集思路,以下提供两种采集方式1.1和1.2:
1.1、URL_part1+变量+URL_part2,如:“http://product.gxyj.com/”+“*#n#*”+“.html”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。
采集商品URL的方式还可以采用如下办法:
1.2、批量导入完整的商品URL,导入的格式可以是文本文件、EXCEL。
2、以店铺URL为采集思路,以下提供两种采集方式2.1和2.2::
2.1、URL_part1+变量+URL_part2,如:
“http://www.gxyj.com/shop/index.jhtml?shopId=”+“*#n#*”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。机器人会自动识别每个店铺中的分类商品列表,并对商品信息逐一进行遍历采集。
采集店铺URL的方式还可以采用如下办法:
2.2、批量导入完整的店铺URL,导入的格式可以是文本文件、EXCEL。
3、以商品分类URL为采集思路,以下提供两种采集方式3.1和3.2:
3.1、URL_part1+变量+URL_part2,如:
“http://www.gxyj.com/searchproducts/pv.jhtml?searchType=CATEGORY&catId=”+“*#n#*”,这里需要设置变量n的范围,代表商品分类ID的变化。机器人会自动根据变量范围进行商品遍历采集。
商品分类URL的采集方式还可以是:
3.2、批量导入完整的商品分类URL,导入的格式可以是文本文件、EXCEL。
S2中所述的商品源数据包括商品分类URL的文本文件或EXCEL、店铺URL的文本文件或EXCEL和商品URL的文本文件或EXCEL。
数据库一可以是NOSQL-MongoDB数据库,数据库二可以是是MySql和MongoDB的组合;S2中所述商品源数据包括文字及商品图片信息,根据需要将商品源数据按照是否互为关系分类保存到不同的数据库中。
S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。数据库二可以是是MySql和MongoDB的组合。
商品详情信息包括文字描述和商品图片顺序。
对商品源数据进行学习,主要使用python和MapReduce技术,从MongoDB中取出商品源数据进行分析学习,把分析结果数据存入MySql和MongoDB数据库中,最后根据预设预设平台页面的商品规则生成符合预设平台页面的商品规范的数据包。生成的数据包包括PC端应用程序能够识别的数据包,也包括手机端应用程序能够识别的数据包。
S2遍历过程中,遇到空的商品URL,自动抛弃并记录。
上述的商品自动化采集与迁移方法中,S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。
上述的商品自动化采集与迁移方法中,S5中所述将S4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤S6:
迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。
上述的商品自动化采集与迁移方法中,S6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。
上述的商品自动化采集与迁移方法中,所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。
上述的商品自动化采集与迁移方法中,所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
上述的商品自动化采集与迁移方法中,所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
上述的商品自动化采集与迁移方法中,标题、价格、主图和商品详情信息元素属于商品数据。
上述的商品自动化采集与迁移方法中,待店铺信息、商品分类信息匹配完成后,商品数据匹配迁入到预设平台页面中;迁入的商品数据默认为“待审核”状态,经审核后在线上发布。
通过本发明的方法能够降低劳动复杂度,适应性广泛,省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.商品自动化采集与迁移方法,其特征在于,包括如下步骤:
S1,设置商品页面URL规则以及URL中的变量;
S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;
S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;
S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;
S5,将S4中的预设数据包迁移到预设平台页面。
2.根据权利要求1所述的商品自动化采集与迁移方法,其特征在于,
S2中所述商品源数据包括文字及商品图片信息;所述数据库一是NOSQL-MongoDB数据库;所述数据库二是MySql和MongoDB。
3.根据权利要求2所述的商品自动化采集与迁移方法,其特征在于,
S2遍历过程中,遇到空的商品URL,自动抛弃并记录。
4.根据权利要求3所述的商品自动化采集与迁移方法,其特征在于,
S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。
5.根据权利要求4所述的商品自动化采集与迁移方法,其特征在于,
S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。
6.根据权利要求5所述的商品自动化采集与迁移方法,其特征在于,
S5中所述将S4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤S6:
迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。
7.根据权利要求6所述的商品自动化采集与迁移方法,其特征在于,
S6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。
8.根据权利要求7所述的商品自动化采集与迁移方法,其特征在于,
所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。
9.根据权利要求7所述的商品自动化采集与迁移方法,其特征在于,
所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
10.根据权利要求7所述的商品自动化采集与迁移方法,其特征在于,
所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051199.3A CN109711951A (zh) | 2019-01-18 | 2019-01-18 | 商品自动化采集与迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051199.3A CN109711951A (zh) | 2019-01-18 | 2019-01-18 | 商品自动化采集与迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109711951A true CN109711951A (zh) | 2019-05-03 |
Family
ID=66262499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910051199.3A Pending CN109711951A (zh) | 2019-01-18 | 2019-01-18 | 商品自动化采集与迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109711951A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222703A (zh) * | 2021-05-20 | 2021-08-06 | 青岛海信智慧生活科技股份有限公司 | 一种商品图片批量上传方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243744A (zh) * | 2010-05-11 | 2011-11-16 | 腾讯科技(深圳)有限公司 | 一种商品审核方法及装置 |
CN103854220A (zh) * | 2014-03-28 | 2014-06-11 | 深圳市淘海科技有限公司 | 实现跨平台购物的实现方法及装置 |
US20170221121A1 (en) * | 2014-08-30 | 2017-08-03 | Bruce L. Davis | Methods and arrangements including data migration among computing platforms, e.g. through use of steganographic screen encoding |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN107291718A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 页面资源投放方法及装置 |
CN107609193A (zh) * | 2017-10-16 | 2018-01-19 | 杭州时间线信息科技有限公司 | 一种适合商品详情页中图片的智能自动处理方法和系统 |
CN108074172A (zh) * | 2018-01-09 | 2018-05-25 | 北京值得买科技股份有限公司 | 电商商品信息发布方法和系统 |
-
2019
- 2019-01-18 CN CN201910051199.3A patent/CN109711951A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243744A (zh) * | 2010-05-11 | 2011-11-16 | 腾讯科技(深圳)有限公司 | 一种商品审核方法及装置 |
CN103854220A (zh) * | 2014-03-28 | 2014-06-11 | 深圳市淘海科技有限公司 | 实现跨平台购物的实现方法及装置 |
US20170221121A1 (en) * | 2014-08-30 | 2017-08-03 | Bruce L. Davis | Methods and arrangements including data migration among computing platforms, e.g. through use of steganographic screen encoding |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN107291718A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 页面资源投放方法及装置 |
CN107609193A (zh) * | 2017-10-16 | 2018-01-19 | 杭州时间线信息科技有限公司 | 一种适合商品详情页中图片的智能自动处理方法和系统 |
CN108074172A (zh) * | 2018-01-09 | 2018-05-25 | 北京值得买科技股份有限公司 | 电商商品信息发布方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222703A (zh) * | 2021-05-20 | 2021-08-06 | 青岛海信智慧生活科技股份有限公司 | 一种商品图片批量上传方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107734059B (zh) | 工业互联网云平台 | |
CN109754200A (zh) | 物料清单管理方法、装置及计算机可读存储介质 | |
CN106548381A (zh) | 智能用户标签系统及实现方法 | |
CN112668968B (zh) | 一种基于领域驱动设计的仓储管理建模方法及系统 | |
CN110880084A (zh) | 一种仓库补货的方法和装置 | |
CN110796416B (zh) | 一种基于工业联网订单处理方法及计算机存储介质 | |
US20140067472A1 (en) | System and Method For Segmenting A Customer Base | |
CN102592236A (zh) | 一种互联网广告人群分析系统和分析方法 | |
CN110555578A (zh) | 一种销量预测方法和装置 | |
CN109032089A (zh) | 工业设备的数据采集方法及装置 | |
Zhang et al. | A framework and implementation of Customer Platform-connection manufactory to service (CPMS) model in product service system | |
CN111400430A (zh) | 数字建筑清单计价中快速组价的方法及系统 | |
CN106156987A (zh) | 库存差异的均衡方法及装置 | |
Rejeb et al. | Potential of big data for marketing: A literature review | |
CN109978619A (zh) | 机票定价策略筛选的方法、系统、设备以及介质 | |
CN110618842B (zh) | 一种业务处理方法、装置及电子设备和存储介质 | |
CN109886618B (zh) | 一种优化物流作业的方法及装置 | |
CN109711951A (zh) | 商品自动化采集与迁移方法 | |
Kamble et al. | Big data analytics for supply chain transformation: A systematic literature review using scor framework | |
Khan et al. | Business leadership in the digital age: IKEA’s story in the retail and consumer sector | |
CN116883111A (zh) | 商品推荐文本生成方法、装置及设备 | |
CN115907875A (zh) | 价格区间的造价编制方法、装置、电子设备及介质 | |
Hamim et al. | SMEs retailing in Malaysia: Challenges for industrial revolution 4.0 implementation | |
Zeba et al. | ERP systems in croatian enterprises and industry 4.0 | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190503 |
|
WD01 | Invention patent application deemed withdrawn after publication |