CN116342230A - 一种基于大数据分析的电商数据存储平台 - Google Patents
一种基于大数据分析的电商数据存储平台 Download PDFInfo
- Publication number
- CN116342230A CN116342230A CN202310631444.4A CN202310631444A CN116342230A CN 116342230 A CN116342230 A CN 116342230A CN 202310631444 A CN202310631444 A CN 202310631444A CN 116342230 A CN116342230 A CN 116342230A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- commodity
- program
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 55
- 238000013500 data storage Methods 0.000 title claims abstract description 52
- 238000004140 cleaning Methods 0.000 claims abstract description 30
- 238000013461 design Methods 0.000 claims abstract description 18
- 238000013523 data management Methods 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000010354 integration Effects 0.000 claims abstract description 9
- 238000005192 partition Methods 0.000 claims abstract description 8
- 238000012544 monitoring process Methods 0.000 claims description 37
- 238000007726 management method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 21
- 238000011084 recovery Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000005012 migration Effects 0.000 claims description 14
- 238000013508 migration Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 13
- 230000008676 import Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013079 data visualisation Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 26
- 241001178520 Stomatepia mongo Species 0.000 description 5
- 238000007418 data mining Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于大数据分析的电商数据存储平台,包括数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块;数据采集和清洗模块,包括数据采集单元和数据清洗单元;数据采集单元用以采集商品相关数据;数据清洗单元包括数据值处理程序、数据格式化程序、数据集成程序、数据去重程序和数据排序程序;数据存储和管理模块,包括数据库选择和数据库设计单元、数据库建表单元、数据导入单元、数据分区单元;数据分析和建模模块,根据数据采集和清洗模块处理后的数据,分析用户购买行为和商品属性,建立商品推荐模型,用以提升用户购买转化率和销售额。本发明有效地获取和存储数据,并基于大数据分析为电商向用户推出商品推荐,提高业务效率和竞争力。
Description
技术领域
本发明涉及一种数据分析存储技术,尤其是涉及一种基于大数据分析的电商数据存储平台。
背景技术
目前的电子商贸的数据存储管理中,主要是采用单一的商品出入库管理,来进行日常的电子商贸信息数据的管理,并未有能够获取多种信息数据,并根据网络电子商贸活动状况给予经营者经营管理意见的电商数据管理的方案,使得电商运营过程中,无法很好的管理已有数据,也无法很好的根据已有数据有效地进行分析。
发明内容
本发明解决的技术问题是提供一种基于大数据分析的电商数据存储平台,能够有效地获取和存储数据,并能够基于大数据分析为电商向用户推出商品推荐,提高业务效率和竞争力。
本发明的技术解决方案是:
一种基于大数据分析的电商数据存储平台,其中,包括数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块;
所述数据采集和清洗模块,包括数据采集单元和数据清洗单元;
所述数据采集单元用以采集商品相关数据,设有模拟用户行为的数据获取程序、API接口数据获取程序和日志数据获取程序;
所述数据获取程序,在指定的电商网站上自动获取设定的待获取的时间、数据项目信息,存储至数据库中;
所述API接口数据获取程序,根据电商网站提供的API接口,通过商品列表API接口获取指定商品的ID、名称、价格、库存和销量信息,通过订单API接口获取指定订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述日志数据获取程序,获取电商网站的日志文件,获取用户的IP地址、访问时间和访问页面的信息,以及解析点单日志文件,获取订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述数据清洗单元包括数据值处理程序、数据格式化程序、数据集成程序、数据去重程序和数据排序程序;
所述数据存储和管理模块,包括数据库选择和数据库设计单元、数据库建表单元、数据导入单元、数据分区单元、数据索引单元、数据备份和恢复单元、数据安全和权限管理单元、数据监控和性能优化单元、数据迁移和升级单元;
所述数据分析和建模模块,根据所述数据采集和清洗模块处理后的数据,分析用户购买行为和商品属性,建立商品推荐模型,用以提升用户购买转化率和销售额。
如上所述的基于大数据分析的电商数据存储平台,其中,所述数据采集单元的模拟用户行为的数据获取程序,包括模拟用户输入关键词搜索、获取搜索结果页面上的商品列表、商品名称、价格、评价和销量信息;以及模拟用户进入商品详情页面,获取商品描述、规格、图片、评论和优惠活动信息,并存储至数据库中。
如上所述的基于大数据分析的电商数据存储平台,其中,所述数据值处理程序包括删除无效数据程序、数据类型转换程序、缺失值处理程序和异常值处理程序;所述删除无效数据程序为删除包含错误值的数据的商品相关数据;所述数据类型转换程序为将内容分类相同的不同数据类型的数据值转换为指定数据类型的数据值;所述缺失值处理程序为将0或空白的数据值转换为与之含义相同的设定数据值;所述异常值处理程序为将不同项目的数据值为相同的数据值时,修改其中一个项目的数据值为统一格式的新的数据值;
所述数据格式化程序为将数据格式调整为另一便于计算的数据格式;数据集成程序为将商品的多个数据项目归集为一个商品信息列;数据去重程序为删除存在重复的数据记录;所述数据排序程序为用以将商品相关数据按照一个设定规则排序。
如上所述的基于大数据分析的电商数据存储平台,其中,包括实时数据处理和分析模块;所述实时数据处理和分析模块包括实时推荐单元、实时监控单元和实时反馈单元;
所述实时推荐单元采用基于协同过滤算法,根据所述数据采集和清洗模块处理后的数据所分析得到用户历史行为和相似用户行为,推荐符合用户偏好的商品;
所述实时监控单元采用实时数据库挖掘算法,监控和分析电商平台的实时数据,包括监控网站流量、用户活跃度和订单量,结合机器学习算法,识别异常数据和报警;
所述实时反馈单元根据所述实时监控单元和实时推荐单元的数据信息,进行数据分析,对用户进行展示相应推荐商品和优惠信息的操作。
如上所述的基于大数据分析的电商数据存储平台,其中,包括数据可视化和报表模块,其为使用指定图形或报表的形式展示所述数据采集和清洗模块、数据分析和建模模块和实时数据处理和分析模块的数据信息。
如上所述的基于大数据分析的电商数据存储平台,其中,所述数据库选择和数据库设计单元,选择NoSQL数据库中的MongoDB;
所述数据库建表单元,使用MongoDB的命令或MongoDB可视化管理工具Robo3T创建相应的数据表;并建立集合索引;
所述数据导入单元,使用MongoDB的导入工具mongodump的导入工具将外部数据源导入到MongoDB数据库中,
所述数据分区单元,使用MongoDB对数据进行分区;
所述数据索引单元,在建立的商品表中,为商品的品类和价格字段建立复合索引;
所述数据备份和恢复单元,设定备份时间,使用MongoDB的备份和恢复工具mongorestore进行备份,确定自动和/或手动恢复数据的设定;
所述数据安全和权限管理单元,采用SSL/TLS加密、访问控制和角色管理;
所述数据监控和性能优化单元,使用MongoDB的监控工具Mongostat和mongotop进行实时监控和性能优化;
所述数据迁移和升级单元,使用MongoDB的升级和迁移工具mongoupgrade和mongomirror对MongoDB数据库进行升级和迁移。
如上所述的基于大数据分析的电商数据存储平台,其中,所述数据存储和管理模块采用HDFS数据结构,其中,设有namenode节点采用分布式的哈希表对数据块的位置信息进行存储,所述哈希表的数据分散存储在不同的datanode节点上;当需要范围数据块位置信息时,先在本地缓存中查找该范围数据块的位置信息,如果缓存中不存在该位置信息,则向分布式的哈希表中查询该范围数据块的位置信息,然后将查询结果存储到本地缓存中以供下次访问;客户端根据返回的位置信息直接访问相应的datanode节点进行数据读取或写入操作。
由以上说明得知,本发明确实具有如下的优点:
本发明的基于大数据分析的电商数据存储平台,设有数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块、实时数据处理和分析模块。通过对电商平台数据的采集和规范化处理,存储在指定数据库中,设定符合电商平台运营的数据库表格类型,根据存储的数据进行建模,实现依据用户的行为喜好,向用户发送商品或优惠活动推荐。借此,本发明能够通过有效地获取和存储数据,基于大数据分析为电商向用户推出商品推荐,提高业务效率和竞争力;为电商平台的运营和电商经营者提供更为有效的数据存储依靠,数据分析支持,以及提升竞争力的数据转化结果运用,提高电商与客户之间的契合度,提高在电商市场中的竞争力。
附图说明
图1为本发明的较佳实施例的系统平台模块结构示意图;
图2为某个电商平台上某个商品的销售记录例子的一个数据格式的图表。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本发明提出了一种基于大数据分析的电商数据存储平台,其较佳的实施例中,请参照图1所示,本发明的基于大数据分析的电商数据存储平台包括数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块;所述数据采集和清洗模块,包括数据采集单元和数据清洗单元。
所述数据采集单元用以采集商品相关数据,设有模拟用户行为的数据获取程序、API接口数据获取程序和日志数据获取程序;
所述数据获取程序,在指定的电商网站上自动获取设定的待获取的时间、数据项目信息,存储至数据库中;
所述API接口数据获取程序,根据电商网站提供的API接口,通过商品列表API接口获取指定商品的ID、名称、价格、库存和销量信息,通过订单API接口获取指定订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述日志数据获取程序,获取电商网站的日志文件,获取用户的IP地址、访问时间和访问页面的信息,以及解析点单日志文件,获取订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述数据清洗单元包括数据值处理程序、数据格式化程序、数据集成程序、数据去重程序和数据排序程序;
所述数据存储和管理模块,包括数据库选择和数据库设计单元、数据库建表单元、数据导入单元、数据分区单元、数据索引单元、数据备份和恢复单元、数据安全和权限管理单元、数据监控和性能优化单元、数据迁移和升级单元;
较佳的,可以采用如下的数据存储和管理的方案:
1. 数据库选择:选择适合电商业务的关系型数据库,如MySQL、Oracle、SQLServer等。如果数据量过大,可以考虑使用分布式数据库,如Hadoop、Cassandra等。
2. 数据库设计:根据业务需求,设计相应的数据库表结构。可以采用范式化或反范式化的设计方法,根据查询和分析的需求进行优化。
3. 数据库建表:根据数据库设计,创建相应的数据库表。可以采用自动化建表工具,如Liquibase、Flyway等,以减少手动操作的错误。
4. 数据导入:将清洗后的数据导入到数据库表中,以便后续的查询和分析。可以采用ETL工具,如Kettle、Talend等,进行数据的批量导入。
5. 数据分区:对数据进行分区,以提高查询和分析的效率。可以采用水平分区、垂直分区等方法,根据数据的访问模式进行选择。
6. 数据索引:对数据进行索引,以提高查询和分析的效率。可以采用B-tree、Hash等索引方法,根据数据的查询模式进行选择。
7. 数据备份和恢复:对存储的数据进行备份和恢复,以保证数据的安全性和可靠性。可以采用定期备份和异地备份等方法,以应对各种突发情况。
8. 数据安全和权限管理:对存储的数据进行安全和权限管理,以防止数据泄漏和恶意访问。可以采用加密、访问控制等方法,根据用户访问角色进行权限管理。
9. 数据监控和性能优化:对存储的数据进行监控和性能优化,以保证数据的质量和可用性。可以采用监控工具,如Nagios、Zabbix、Grafana等,以及性能优化工具,如Explain、Tuning Advisor等。
10. 数据迁移和升级:对存储的数据进行迁移和升级,以适应新的业务需求。可以采用升级工具,如Flyway、Liquibase等,以及迁移工具,如Kettle、Talend等。
数据存储和管理的方案需要考虑数据库选择、数据库设计、数据库建表、数据导入、数据分区、数据索引、数据备份和恢复、数据安全和权限管理、数据监控和性能优化、数据迁移和升级等多个方面,以保证数据的质量、可用性和可靠性。
下面是数据存储和管理的一个较为具体的例子:
一个电商平台需要存储和管理用户订单数据。
1. 数据库选择:选择MySQL作为关系型数据库,因为MySQL具有可靠性、扩展性、兼容性和易用性等优势,同时也具有开源、免费、社区活跃等优势。
2. 数据库设计:设计订单数据表,包括订单号、用户ID、商品ID、购买数量、购买金额、下单时间、支付时间、配送地址、订单状态等字段,以满足后续的查询和分析需求。
3. 数据库建表:使用Liquibase工具自动化建表,以确保数据的准确性和一致性。
4. 数据导入:使用Kettle工具进行数据的批量导入,将清洗后的订单数据导入到订单数据表中。
5. 数据分区:对订单数据进行按时间分区,以便后续的查询和分析。例如,可以按月份或季度进行分区。
6. 数据索引:对订单数据进行索引,以提高查询的效率。可以采用B-tree索引方法,对订单号、用户ID、商品ID等字段进行索引。
7. 数据备份和恢复:定期对订单数据进行备份,使用异地备份策略,以确保数据的安全性和可靠性。同时,建立数据恢复机制,以应对各种突发情况。
8. 数据安全和权限管理:采用加密和访问控制等方法,保护订单数据的安全性和隐私性。同时,根据用户角色和权限进行访问控制,确保数据的合法性和完整性。
9. 数据监控和性能优化:使用Zabbix和Grafana等监控工具,对订单数据进行监控和性能优化,以保证数据的质量和可用性。例如,检测订单数据的异常情况、优化索引、优化查询语句等。
10. 数据迁移和升级:在业务需求变化时,使用Flyway或Liquibase等升级工具,对订单数据进行升级和迁移,以适应新的业务需求。
该例子中,针对电商平台的订单数据,我们可以采用MySQL作为关系型数据库,设计订单数据表,并使用自动化工具进行建表和数据导入,同时对订单数据进行分区、索引、备份和权限管理,以保证数据的质量、可用性和可靠性。在后续的数据监控和性能优化中,我们可以使用监控工具和性能优化工具,对订单数据进行监控和优化,以满足业务需求。
所述数据分析和建模模块,根据所述数据采集和清洗模块处理后的数据,分析用户购买行为和商品属性,建立商品推荐模型,用以提升用户购买转化率和销售额。数据分析和建模是数据科学的核心环节,通过合理的分析方案和方法,可以从数据中提取有用的信息和知识,为业务决策提供有力支持。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,所述数据采集单元的模拟用户行为的数据获取程序,包括模拟用户输入关键词搜索、获取搜索结果页面上的商品列表、商品名称、价格、评价和销量信息;以及模拟用户进入商品详情页面,获取商品描述、规格、图片、评论和优惠活动信息,并存储至数据库中。具体而言,较佳的,可以是采集电商网站的用户行为数据、商品数据、订单数据、支付数据等。具体采集方式包括:网络爬虫:利用网络爬虫技术,通过模拟用户行为,采集网站上的数据。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,所述数据值处理程序包括删除无效数据程序、数据类型转换程序、缺失值处理程序和异常值处理程序;所述删除无效数据程序为删除包含错误值的数据的商品相关数据;所述数据类型转换程序为将内容分类相同的不同数据类型的数据值转换为指定数据类型的数据值;所述缺失值处理程序为将0或空白的数据值转换为与之含义相同的设定数据值;所述异常值处理程序为将不同项目的数据值为相同的数据值时,修改其中一个项目的数据值为统一格式的新的数据值;所述数据格式化程序为将数据格式调整为另一便于计算的数据格式;数据集成程序为将商品的多个数据项目归集为一个商品信息列;数据去重程序为删除存在重复的数据记录;所述数据排序程序为用以将商品相关数据按照一个设定规则排序。
如上所述的基于大数据分析的电商数据存储平台的数据采集和清洗模块的一个具体例子如下:
一份销售数据,包含了某个电商平台上某个商品的销售记录,数据格式如图2所示。
需要对这份数据进行清洗,使其符合我们的需求和标准。具体的清洗方案如下:
删除无效数据:发现第3行的商品价格和购买数量为负数,这显然是不合理的,所以可以直接将这一行删除。
数据类型转换:发现购买时间这一列的数据类型为字符串,我们需要将其转换为日期类型,以便后续的时间分析。具体的转换方法可以使用Python中的datetime库。
缺失值处理:发现第2行的支付状态为0,这可能是因为该订单还没有支付,所以可以将其视为缺失值,用NaN填充,以便后续的缺失值处理。
异常值处理:发现第1行的订单号和用户ID相同,这显然是不合理的,因为每个订单号应该对应一个唯一的用户ID,所以可以将其视为异常值,用随机数替换用户ID。
数据格式化:发现商品价格这一列的数据格式为小数点后两位,需要将其格式化为整数,以便后续的计算和分析。
数据集成:可以将商品名称、商品价格、购买数量三列合并为一个商品信息列,以便后续的商品分析。
数据去重:发现第2行和第5行的订单号重复,这可能是因为该用户在不同时间购买了相同的商品,所以将其视为重复数据,只保留最新的一条记录。
数据排序:可以按照购买时间对数据进行排序,以便后续的时间分析和趋势分析。
如上所述,对于这份销售数据,可以采用删除无效数据、数据类型转换、缺失值处理、异常值处理、数据格式化、数据集成、数据去重、数据排序等方式进行数据清洗,以满足后续的分析和挖掘需求。具体的实现方法,可以通过采用数据库中相应的处理工具实现。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,包括实时数据处理和分析模块;所述实时数据处理和分析模块包括实时推荐单元、实时监控单元和实时反馈单元;
所述实时推荐单元,基于用户行为数据和商品属性数据,使用实时推荐算法,实现实时推荐功能。采用基于协同过滤算法,根据所述数据采集和清洗模块处理后的数据所分析得到用户历史行为和相似用户行为,推荐符合用户偏好的商品;
所述实时监控单元,采用实时数据库挖掘算法,监控和分析电商平台的实时数据,包括监控网站流量、用户活跃度和订单量,结合机器学习算法,识别异常数据和报警;
所述实时反馈单元,根据所述实时监控单元和实时推荐单元的数据信息,进行数据分析,对用户进行展示相应推荐商品和优惠信息的操作。例如,在用户浏览或购买商品时,展示相应的推荐商品或优惠信息,提升用户体验和购买转化率。
具体的,实时数据挖掘技术指的是在数据流中实时发现并提取有用的信息和模式的技术。它主要针对实时数据流,对数据进行快速分析和处理,以实现实时监控、实时预测、实时决策等功能。实时数据挖掘技术主要包括以下方面:
流式聚类:基于聚类算法,对数据流中的数据进行聚类,以发现数据的分布情况和异常点。
流式分类:基于分类算法,对数据流中的数据进行分类,以实现实时预测和决策。
流式关联规则挖掘:基于关联规则挖掘算法,对数据流中的数据进行挖掘,以发现数据之间的关联关系。
流式异常检测:基于异常检测算法,对数据流中的数据进行检测,以发现数据中的异常点和异常行为。
流式时序数据挖掘:基于时序数据挖掘算法,对数据流中的时序数据进行挖掘和分析,以发现数据中的周期性、趋势性等规律。 实时数据挖掘技术需要具备实时性、高效性、准确性和可扩展性等特点,以支持实时数据处理和分析。它在电商、金融、物联网等领域中有广泛的应用,可以帮助企业实现实时监控、实时预测和实时决策等功能,提升业务效率和竞争力。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,包括数据可视化和报表模块,其为使用指定图形或报表的形式展示所述数据采集和清洗模块、数据分析和建模模块和实时数据处理和分析模块的数据信息。例如,使用仪表盘和报表等方式展示监控指标和推荐效果,以便于对业务进行实时调整和优化。具体的,需要将分析结果进行可视化和报告,以便于对结果进行解读和展示。可以使用Python的Matplotlib、Seaborn等库进行可视化,使用Jupyter Notebook、PowerPoint等工具进行报告撰写和展示。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,所述数据库选择和数据库设计单元,选择NoSQL数据库中的MongoDB;在数据库设计方面,可以按照上述的数据库设计例子设计相应的数据表和字段,同时需要制定相应的数据库设计规范和标准,例如命名规范、数据类型规范等。在数据库建模方面,可以使用UML建模工具,例如StarUML等。
所述数据库建表单元,使用MongoDB的命令或MongoDB可视化管理工具Robo3T创建相应的数据表;并建立集合索引;在创建数据表时,需要考虑到数据类型、索引、约束等因素,并根据具体的业务需求进行调整和优化,例如在订单表中可以为买家ID、卖家ID、商品ID等字段建立索引,以提高查询效率。
所述数据导入单元,使用MongoDB的导入工具mongodump的导入工具将外部数据源导入到MongoDB数据库中,在数据导入的过程中,需要对数据进行清洗和去重,并保证数据的格式和结构与数据库设计一致。
所述数据分区单元,使用MongoDB对数据进行分区;为了更好地管理和查询数据,可以考虑使用MongoDB的分片技术对数据进行分区。可以根据数据的特点和访问频率,选择不同的分区策略和算法,例如基于范围的分区、基于散列的分区等。
所述数据索引单元,在建立的商品表中,为商品的品类和价格字段建立复合索引;MongoDB提供多种类型的索引,例如单字段索引、复合索引、全文索引等。可以根据具体的业务需求和查询特点,选择不同类型的索引和相应的索引算法,例如在商品表中可以为商品类别和价格字段建立复合索引,以提高查询效率。
所述数据备份和恢复单元,设定备份时间,使用MongoDB的备份和恢复工具mongorestore进行备份,确定自动和/或手动恢复数据的设定;为了保证数据的安全性和可靠性,需要定期对MongoDB数据库进行备份和恢复。可以使用MongoDB提供的备份和恢复工具mongodump和mongorestore,或使用第三方备份软件进行备份。在备份策略和方案的制定过程中,需要考虑到数据的大小、备份频率、备份存储位置等因素,并制定相应的备份计划和恢复方案;
所述数据安全和权限管理单元,采用SSL/TLS加密、访问控制和角色管理;MongoDB提供了多种安全和权限管理措施,例如SSL/TLS加密、访问控制、角色管理等。可以根据具体的业务需求,选择不同的安全和权限管理策略,并使用MongoDB提供的工具和命令进行实现;
所述数据监控和性能优化单元,使用MongoDB的监控工具Mongostat和mongotop进行实时监控和性能优化;为了保证MongoDB数据库的性能和健康状态,需要对数据库进行实时监控和性能优化。可以使用MongoDB提供的性能监控工具mongostat和mongotop,或使用第三方监控软件进行监控。在性能优化方面,可以考虑使用MongoDB的查询优化技术、索引优化技术、缓存技术等。
所述数据迁移和升级单元,使用MongoDB的升级和迁移工具mongoupgrade和mongomirror对MongoDB数据库进行升级和迁移。可以使用MongoDB提供的升级和迁移工具mongoupgrade和mongomirror,或使用第三方迁移软件进行迁移。在迁移过程中,需要考虑到数据格式和结构的转换、数据兼容性处理等因素。
其中,符合电商平台数据存储的数据库,需要考虑到电商平台中常见的数据对象和业务需求。以下是一个电商平台数据库设计例子:
用户表(user):用于存储用户相关信息,包括用户ID、用户名、密码、昵称、头像、性别、生日等。
商品表(product):用于存储商品相关信息,包括商品ID、商品名称、商品描述、商品价格、商品类别等。
店铺表(shop):用于存储店铺相关信息,包括店铺ID、店铺名称、店铺描述、店铺地址、联系电话等。
订单表(order):用于存储订单相关信息,包括订单ID、买家ID、卖家ID、商品ID、订单状态、订单金额、下单时间等。
收货地址表(address):用于存储用户的收货地址信息,包括地址ID、用户ID、收件人姓名、联系电话、详细地址等。
购物车表(cart):用于存储用户的购物车信息,包括购物车ID、用户ID、商品ID、商品数量等。
支付表(payment):用于存储订单的支付信息,包括支付ID、订单ID、支付方式、支付金额、支付时间等。
评价表(comment):用于存储用户对商品和店铺的评价信息,包括评价ID、用户ID、商品ID、店铺ID、评价内容、评价时间等。 在实现上述数据库时,需要考虑到数据的完整性和一致性,例如在订单表中,买家ID和卖家ID应该对应用户表中的用户ID,商品ID应该对应商品表中的商品ID,订单状态应该符合业务规定等。同时,兼具数据的查询效率和性能优化,例如在商品表中可以建立商品类别和价格的索引,以便于快速查询不同类别和价格的商品。
如上所述的本发明的基于大数据分析的电商数据存储平台,其较佳的实施例中,所述数据存储和管理模块采用HDFS数据结构,其中,设有namenode节点采用分布式的哈希表对数据块的位置信息进行存储,所述哈希表的数据分散存储在不同的datanode节点上;当需要范围数据块位置信息时,先在本地缓存中查找该数据块的位置信息,如果缓存中不存在该信息,则向分布式的哈希表中查询该数据块的位置信息,然后将查询结果存储到本地缓存中以供下次访问。客户端可以根据返回的位置信息直接访问相应的datanode节点进行数据读取或写入操作。该方式可以充分利用哈希表的快速查找和本地缓存的高效访问,同时具备较好的容错性和扩展性。
本发明的基于大数据分析的电商数据存储平台,设有数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块、实时数据处理和分析模块。通过对电商平台数据的采集和规范化处理,存储在指定数据库中,设定符合电商平台运营的数据库表格类型,根据存储的数据进行建模,实现依据用户的行为喜好,向用户发送商品或优惠活动推荐。借此,本发明能够通过有效地获取和存储数据,基于大数据分析为电商向用户推出商品推荐,提高业务效率和竞争力;为电商平台的运营和电商经营者提供更为有效的数据存储依靠,数据分析支持,以及提升竞争力的数据转化结果运用,提高电商与客户之间的契合度,提高在电商市场中的竞争力。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作出的等同变化与修改,均应属于本发明保护的范围。
Claims (7)
1.一种基于大数据分析的电商数据存储平台,其特征在于,包括数据采集和清洗模块、数据存储和管理模块、数据分析和建模模块;
所述数据采集和清洗模块,包括数据采集单元和数据清洗单元;
所述数据采集单元用以采集商品相关数据,设有模拟用户行为的数据获取程序、API接口数据获取程序和日志数据获取程序;
所述数据获取程序,在指定的电商网站上自动获取设定的待获取的时间、数据项目信息,存储至数据库中;
所述API接口数据获取程序,根据电商网站提供的API接口,通过商品列表API接口获取指定商品的ID、名称、价格、库存和销量信息,通过订单API接口获取指定订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述日志数据获取程序,获取电商网站的日志文件,获取用户的IP地址、访问时间和访问页面的信息,以及解析点单日志文件,获取订单的ID、用户ID、商品ID和订单状态信息,存储至数据库中;
所述数据清洗单元包括数据值处理程序、数据格式化程序、数据集成程序、数据去重程序和数据排序程序;
所述数据存储和管理模块,包括数据库选择和数据库设计单元、数据库建表单元、数据导入单元、数据分区单元、数据索引单元、数据备份和恢复单元、数据安全和权限管理单元、数据监控和性能优化单元、数据迁移和升级单元;
所述数据分析和建模模块,根据所述数据采集和清洗模块处理后的数据,分析用户购买行为和商品属性,建立商品推荐模型,用以提升用户购买转化率和销售额。
2.如权利要求1所述的基于大数据分析的电商数据存储平台,其特征在于,所述数据采集单元的模拟用户行为的数据获取程序,包括模拟用户输入关键词搜索、获取搜索结果页面上的商品列表、商品名称、价格、评价和销量信息;以及模拟用户进入商品详情页面,获取商品描述、规格、图片、评论和优惠活动信息,并存储至数据库中。
3.如权利要求1所述的基于大数据分析的电商数据存储平台,其特征在于,所述数据值处理程序包括删除无效数据程序、数据类型转换程序、缺失值处理程序和异常值处理程序;所述删除无效数据程序为删除包含错误值的数据的商品相关数据;所述数据类型转换程序为将内容分类相同的不同数据类型的数据值转换为指定数据类型的数据值;所述缺失值处理程序为将0或空白的数据值转换为与之含义相同的设定数据值;所述异常值处理程序为将不同项目的数据值为相同的数据值时,修改其中一个项目的数据值为统一格式的新的数据值;
所述数据格式化程序为将数据格式调整为另一便于计算的数据格式;数据集成程序为将商品的多个数据项目归集为一个商品信息列;数据去重程序为删除存在重复的数据记录;所述数据排序程序为用以将商品相关数据按照一个设定规则排序。
4.如权利要求1所述的基于大数据分析的电商数据存储平台,其特征在于,包括实时数据处理和分析模块;所述实时数据处理和分析模块包括实时推荐单元、实时监控单元和实时反馈单元;
所述实时推荐单元采用基于协同过滤算法,根据所述数据采集和清洗模块处理后的数据所分析得到用户历史行为和相似用户行为,推荐符合用户偏好的商品;
所述实时监控单元采用实时数据库挖掘算法,监控和分析电商平台的实时数据,包括监控网站流量、用户活跃度和订单量,结合机器学习算法,识别异常数据和报警;
所述实时反馈单元根据所述实时监控单元和实时推荐单元的数据信息,进行数据分析,对用户进行展示相应推荐商品和优惠信息的操作。
5.如权利要求3或4的所述基于大数据分析的电商数据存储平台,其特征在于,包括数据可视化和报表模块,其为使用指定图形或报表的形式展示所述数据采集和清洗模块、数据分析和建模模块和实时数据处理和分析模块的数据信息。
6.如权利要求1所述的基于大数据分析的电商数据存储平台,其特征在于,所述数据库选择和数据库设计单元,选择NoSQL数据库中的MongoDB;
所述数据库建表单元,使用MongoDB的命令或MongoDB可视化管理工具Robo3T创建相应的数据表;并建立集合索引;
所述数据导入单元,使用MongoDB的导入工具mongodump的导入工具将外部数据源导入到MongoDB数据库中,
所述数据分区单元,使用MongoDB对数据进行分区;
所述数据索引单元,在建立的商品表中,为商品的品类和价格字段建立复合索引;
所述数据备份和恢复单元,设定备份时间,使用MongoDB的备份和恢复工具mongorestore进行备份,确定自动和/或手动恢复数据的设定;
所述数据安全和权限管理单元,采用SSL/TLS加密、访问控制和角色管理;
所述数据监控和性能优化单元,使用MongoDB的监控工具Mongostat和mongotop进行实时监控和性能优化;
所述数据迁移和升级单元,使用MongoDB的升级和迁移工具mongoupgrade和mongomirror对MongoDB数据库进行升级和迁移。
7.如权利要求1所述的基于大数据分析的电商数据存储平台,其特征在于,所述数据存储和管理模块采用HDFS数据结构,设有namenode节点采用分布式的哈希表对数据块的位置信息进行存储,所述哈希表的数据分散存储在不同的datanode节点上;当需要范围数据块位置信息时,先在本地缓存中查找该范围数据块的位置信息,如果缓存中不存在该位置信息,则向分布式的哈希表中查询该范围数据块的位置信息,然后将查询结果存储到本地缓存中以供下次访问;客户端根据返回的位置信息直接访问相应的datanode节点进行数据读取或写入操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631444.4A CN116342230B (zh) | 2023-05-31 | 2023-05-31 | 一种基于大数据分析的电商数据存储平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631444.4A CN116342230B (zh) | 2023-05-31 | 2023-05-31 | 一种基于大数据分析的电商数据存储平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116342230A true CN116342230A (zh) | 2023-06-27 |
CN116342230B CN116342230B (zh) | 2023-08-08 |
Family
ID=86880818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310631444.4A Active CN116342230B (zh) | 2023-05-31 | 2023-05-31 | 一种基于大数据分析的电商数据存储平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342230B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596638A (zh) * | 2023-07-11 | 2023-08-15 | 中国标准化研究院 | 一种基于数值化处理模型的信息推荐方法 |
CN116977018A (zh) * | 2023-07-04 | 2023-10-31 | 北京泰镝科技股份有限公司 | 第三方平台商品库的系统及方法 |
CN117135379A (zh) * | 2023-10-26 | 2023-11-28 | 武汉耳东信息科技有限公司 | 一种基于大数据的直播平台数据分析管理系统 |
CN117289872A (zh) * | 2023-10-10 | 2023-12-26 | 北京三博脑科医院有限公司 | 一种计算机大数据存储系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663626A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 基于区域特征的协同过滤推荐方法 |
CN103577123A (zh) * | 2013-11-12 | 2014-02-12 | 河海大学 | 一种基于hdfs的小文件优化存储方法 |
CN110490685A (zh) * | 2019-03-27 | 2019-11-22 | 南京国科双创信息技术研究院有限公司 | 一种基于大数据分析的产品推荐方法 |
CN111708740A (zh) * | 2020-06-16 | 2020-09-25 | 荆门汇易佳信息科技有限公司 | 基于云平台的海量搜索查询日志计算分析系统 |
CN112685385A (zh) * | 2020-12-31 | 2021-04-20 | 广西中科曙光云计算有限公司 | 一种用于智慧城市建设的大数据平台 |
CN113222704A (zh) * | 2021-05-21 | 2021-08-06 | 刘天琼 | 智慧供应链数字DaaS跨境电商服务平台 |
US20220058716A1 (en) * | 2020-08-18 | 2022-02-24 | Qilu University Of Technology | Commodity recommendation system based on actionable high utility negative sequential rules mining and its working method |
CN114240528A (zh) * | 2021-10-29 | 2022-03-25 | 天津理工大学 | 一种用于乡村旅游的交互式景区导视系统 |
CN114610539A (zh) * | 2022-03-14 | 2022-06-10 | 浪潮云信息技术股份公司 | 一种MongoDB数据库备份方法及装置 |
CN114676123A (zh) * | 2022-04-08 | 2022-06-28 | 温州市鹿城区中津先进科技研究院 | 一种电商数据分析方法 |
CN115481938A (zh) * | 2022-10-28 | 2022-12-16 | 浪潮卓数大数据产业发展有限公司 | 地区电商发展水平的评价方法及系统 |
CN115495692A (zh) * | 2022-10-14 | 2022-12-20 | 山东智豆数字科技有限公司 | 一种电商数据策略系统 |
CN116051241A (zh) * | 2023-02-01 | 2023-05-02 | 浙江红太阳企业管理咨询有限公司 | 一种基于大数据的电商管理平台 |
-
2023
- 2023-05-31 CN CN202310631444.4A patent/CN116342230B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663626A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 基于区域特征的协同过滤推荐方法 |
CN103577123A (zh) * | 2013-11-12 | 2014-02-12 | 河海大学 | 一种基于hdfs的小文件优化存储方法 |
CN110490685A (zh) * | 2019-03-27 | 2019-11-22 | 南京国科双创信息技术研究院有限公司 | 一种基于大数据分析的产品推荐方法 |
CN111708740A (zh) * | 2020-06-16 | 2020-09-25 | 荆门汇易佳信息科技有限公司 | 基于云平台的海量搜索查询日志计算分析系统 |
US20220058716A1 (en) * | 2020-08-18 | 2022-02-24 | Qilu University Of Technology | Commodity recommendation system based on actionable high utility negative sequential rules mining and its working method |
CN112685385A (zh) * | 2020-12-31 | 2021-04-20 | 广西中科曙光云计算有限公司 | 一种用于智慧城市建设的大数据平台 |
CN113222704A (zh) * | 2021-05-21 | 2021-08-06 | 刘天琼 | 智慧供应链数字DaaS跨境电商服务平台 |
CN114240528A (zh) * | 2021-10-29 | 2022-03-25 | 天津理工大学 | 一种用于乡村旅游的交互式景区导视系统 |
CN114610539A (zh) * | 2022-03-14 | 2022-06-10 | 浪潮云信息技术股份公司 | 一种MongoDB数据库备份方法及装置 |
CN114676123A (zh) * | 2022-04-08 | 2022-06-28 | 温州市鹿城区中津先进科技研究院 | 一种电商数据分析方法 |
CN115495692A (zh) * | 2022-10-14 | 2022-12-20 | 山东智豆数字科技有限公司 | 一种电商数据策略系统 |
CN115481938A (zh) * | 2022-10-28 | 2022-12-16 | 浪潮卓数大数据产业发展有限公司 | 地区电商发展水平的评价方法及系统 |
CN116051241A (zh) * | 2023-02-01 | 2023-05-02 | 浙江红太阳企业管理咨询有限公司 | 一种基于大数据的电商管理平台 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977018A (zh) * | 2023-07-04 | 2023-10-31 | 北京泰镝科技股份有限公司 | 第三方平台商品库的系统及方法 |
CN116596638A (zh) * | 2023-07-11 | 2023-08-15 | 中国标准化研究院 | 一种基于数值化处理模型的信息推荐方法 |
CN116596638B (zh) * | 2023-07-11 | 2023-09-22 | 中国标准化研究院 | 一种基于数值化处理模型的信息推荐方法 |
CN117289872A (zh) * | 2023-10-10 | 2023-12-26 | 北京三博脑科医院有限公司 | 一种计算机大数据存储系统 |
CN117135379A (zh) * | 2023-10-26 | 2023-11-28 | 武汉耳东信息科技有限公司 | 一种基于大数据的直播平台数据分析管理系统 |
CN117135379B (zh) * | 2023-10-26 | 2023-12-22 | 武汉耳东信息科技有限公司 | 一种基于大数据的直播平台数据分析管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116342230B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116342230B (zh) | 一种基于大数据分析的电商数据存储平台 | |
Ponniah | Data warehousing fundamentals for IT professionals | |
US20180246886A1 (en) | Data migration for platform integration | |
EP2691884B1 (en) | Management and storage of distributed bookmarks | |
US7593957B2 (en) | Hybrid data provider | |
WO2022156529A1 (zh) | 企业用户的商品推荐方法和装置 | |
US11086855B1 (en) | Enterprise connectivity | |
US10055452B2 (en) | Most likely classification code | |
US20240095256A1 (en) | Method and system for persisting data | |
JP6375029B2 (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
US7337029B2 (en) | Design data management system and trace system | |
CN109086296B (zh) | 一种基于浏览器和服务器结构的电子商务系统 | |
Baruti | Analysis and Implementation of a Business Intelligence QlikView application for logistic and procurement management. Sews Cabind case for the shortage problem. | |
US11551464B2 (en) | Line based matching of documents | |
US11226725B1 (en) | User interface for machine learning feature engineering studio | |
Paulraj | Data Warehousing Fundamentals For It Professionals | |
Ayyavaraiah | Data Mining For Business Intelligence | |
El Attaoui et al. | ETL applied to Klarna e-commerce dataset | |
CN114429369A (zh) | 工业设备电商销售平台的商品数据展示方法 | |
Rana et al. | A Comparative Analysis of Data Cleansing Tools | |
CA3141742A1 (en) | Digital duplicate | |
CN118297483A (zh) | 基于大数据分析的企业数据治理系统及方法 | |
CN113934753A (zh) | 数据开发方法及系统 | |
CN113220783A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Buxmann et al. | Data Management: Concepts and SAP Solutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |