CN110163722B

CN110163722B - 用于农产品精准销售的大数据分析系统及分析方法

Info

Publication number: CN110163722B
Application number: CN201910393064.5A
Authority: CN
Inventors: 李朋起; 赵学健; 孙知信; 胡冰; 孙哲
Original assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Current assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-08-23
Anticipated expiration: 2039-05-13
Also published as: CN110163722A

Abstract

本发明揭示了一种用于农产品精准销售的大数据分析系统及分析方法，系统包括大数据基础平台模块、数据采集模块、数据预处理模块以及数据处理模块，方法包括大数据基础平台步骤、数据采集步骤、数据预处理步骤以及数据处理步骤。本发明以大数据平台为基础，实现了数据信息的存储与分析，对用户进行了完备的客户画像，并最终达到了精准销售的目的。

Description

用于农产品精准销售的大数据分析系统及分析方法

技术领域

本发明涉及一种数据分析系统及相对应的数据分析方法，具体涉及一种用于农产品精准销售的大数据分析系统及分析方法，属于计算机数据平台构建及数据平台分析领域。

背景技术

近年来，我国的经济、科技水平得到了快速的发展提高，为农业现代化的实现积聚了丰厚的物质条件和技术基础。在以大数据、物联网、云计算、人工智能等为代表的新一代信息技术的推动下，“互联网+农业”正成为推动我国农业产业转型升级的新动力。现阶段，农业领域内的数据类型和数据量都在持续性地剧烈增长，从而给农业大数据的获取、集成、存储及处理等方面带来了巨大的挑战。也正因如此，如何从大量的农业数据信息中有针对性地获取所需的数据信息，并将其运用于实际的生产生活中，也就成为了本领域内技术人员亟待解决的问题。

目前，随着云计算、大数据等重要技术的发展和成熟，为农业数据存储、分析提供了一种技术解决方案。具体而言，农产品销售平台是农业大数据生成的主要方式，也是推动互联网农业发展的重要数据来源。互联网农业在大数据平台中的应用十分广泛，其主要数据的来源包括商品信息、用户信息及用户行为日志信息等。综上所述，如何构建出一种基于农产品的大数据精准销售平台，并在该平台的基础上进行数据信息的处理分析，从而实现精准销售的目的，也就成为了本领域内技术人员共同的研究目标。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种用于农产品精准销售的大数据分析系统及分析方法，具体如下：

一种用于农产品精准销售的大数据分析系统，包括：

大数据基础平台模块，用于收集和存储互联网中的数据信息；

数据采集模块，用于从所述大数据基础平台模块内提取出特征数据信息并形成特征数据集；

数据预处理模块，用于对所述数据集中的数据信息进行预处理；

数据处理模块，用于对经过预处理后的数据集中的数据信息进行分析处理，并最终输出分析结果；

所述数据处理模块具体包括，

离线数据分析模块，用于通过L-BFGS迭代训练得到训练模型，评估用户下一阶段的消费情况，

实时数据分析模块，用于分析用户感兴趣的商品，利用Apriori关联度进行分析，获取推荐的商品列表、完成定制化推荐。

优选地，所述大数据基础平台模块具体包括：

Flume日志采集单元，用于监控数据路径并获取路径中的数据；

Kafka消息队列单元，用于离线数据及实时数据的获取；

Spark单元，用于获取实时数据，将所获取的数据通过数据流进行处理并将处理后的数据存储于Hbase中；

HDFS单元，用于储存离线数据并使用Hive对所储存的数据进行分析。

优选地，所述数据预处理模块具体包括：

一致性检测单元，用于对数据信息进行初步过滤，根据每个变量的合理取值范围及相互关系检查数据信息是否合规；

无效值过滤单元，用于对用户日志访问信息中的错误访问进行去除并做到用户行为分析；

ETL操作单元，用于进行数据转换，实现数据的进一步清洗，操作方式包括日志格式的转换，字段的添加与删减以及固定格式的转储。

优选地，所述特征数据信息包括商品信息、用户信息以及用户日志访问信息；所述商品信息包括商品编号、商品类别以及商品详情；所述用户信息包括用户姓名、联系方式以及用户地址。

一种用于农产品精准销售的大数据分析方法，包括如下步骤：

S1、大数据基础平台步骤，构建大数据基础平台，收集和存储互联网中的数据信息；

S2、数据采集步骤，从所述大数据基础平台内提取出特征数据信息并形成特征数据集；

S3、数据预处理步骤，对所述数据集中的数据信息进行预处理；

S4、数据处理步骤，对经过预处理后的数据集中的数据信息进行分析处理，并最终输出分析结果；

所述数据处理步骤具体包括，

S41、离线数据分析子步骤，通过L-BFGS迭代训练得到训练模型，评估用户下一阶段的消费情况，

S42、实时数据分析子步骤，分析用户感兴趣的商品，利用Apriori关联度进行分析，获取推荐的商品列表、完成定制化推荐。

优选地，S1所述大数据基础平台步骤具体包括：

S11、Flume日志采集步骤，监控数据路径并获取路径中的数据；

S12、Kafka消息队列步骤，获取离线数据及实时数据；

S13、Spark步骤，获取实时数据，将所获取的数据通过数据流进行处理并将处理后的数据存储于Hbase中；

S14、HDFS步骤，储存离线数据并使用Hive对所储存的数据进行分析。

优选地，S3所述数据预处理步骤具体包括：

S31、一致性检测步骤，对数据信息进行初步过滤，根据每个变量的合理取值范围及相互关系检查数据信息是否合规；

S32、无效值过滤步骤，对用户日志访问信息中的错误访问进行去除并做到用户行为分析；

S33、ETL操作步骤，进行数据转换，实现数据的进一步清洗，操作方式包括日志格式的转换，字段的添加与删减以及固定格式的转储。

优选地，S41所述离线数据分析子步骤具体包括：

S411、根据历史数据信息，以3a天为窗口，a天为滑动步长进行数据分析，获取三个特征，即登陆记录比、页面转化率比以及购买记录比；

S412、分别设置三个a天的权重，越靠近预测接段的时间段权重越大；

S413、对特征数据集进行划分，将其按照预设比重划分为训练集与测试集；

S414、使用训练集，通过L-BFGS迭代训练得到训练模型；

S415、使用测试集测试已经过训练的所述训练模型；

S416、进行数据评估、得到评估值；

S417、重复S412~S416，使所述训练模型的评估值达到预期值；

S418、得到最终的评估结果并依此评估下一阶段消费水平。

优选地，S42所述实时数据分析子步骤具体包括：

S421、将用户群划分为新用户及历史用户；

S422、根据购买商品的Topn对新用户进行筛选推荐；

S423、根据用户的购买清单，进行Apriori关联度分析，对历史用户进行筛选推荐；

S424、使用对应编号代替商品，简化数据分析操作及保存过程；

S425、使用Apriori方法找到频繁项集并生成候选项集；

S426、检查频繁项集内的每个元素是否都是频繁的，构建K+1项候选集列表；

S427、挖掘关联规则，获取推荐列表；

S428、结合新用户及历史用户的推荐结果，完成对用户的定制化推荐。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明所提出的一种用于农产品精准销售的大数据分析系统及分析方法，以大数据平台为基础，实现了数据信息的存储与分析，对用户进行了完备的客户画像，并最终达到了精准销售的目的。

此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于与大数据精准销售有关的其他技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的系统结构示意图；

图2为本发明中大数据基础平台模块的结构示意图；

图3为本发明中数据采集步骤的流程示意图；

图4为本发明中数据预处理步骤的流程示意图；

图5为本发明中离线数据分析子步骤的流程示意图；

图6为L-BFGS算法的分析流程示意图；

图7为本发明中实时数据分析子步骤的流程示意图。

具体实施方式

针对现有技术中所存在的诸多问题，本发明提出了一种用于农产品精准销售的大数据分析系统及分析方法，具体如下。

一种用于农产品精准销售的大数据分析系统，如图1所示，包括：

大数据基础平台模块，用于收集和存储互联网中的数据信息。

数据采集模块，用于从所述大数据基础平台模块内提取出特征数据信息并形成特征数据集。所述特征数据信息包括商品信息、用户信息以及用户日志访问信息；所述商品信息包括商品编号、商品类别以及商品详情等；所述用户信息包括用户姓名、联系方式以及用户地址等。

数据预处理模块，用于对所述数据集中的数据信息进行预处理。

数据处理模块，用于对经过预处理后的数据集中的数据信息进行分析处理，并最终输出分析结果。

所述数据处理模块具体包括，

离线数据分析模块，用于通过L-BFGS迭代训练得到训练模型，评估用户下一阶段的消费情况；

如图2所示，所述大数据基础平台模块具体包括，

Flume日志采集单元（一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统），用于监控数据路径并获取路径中的数据；

Kafka消息队列单元(消息中间件，转储工具)，用于离线数据及实时数据的获取，Kafka包括生产者和消费者两部分，生产者为接收的Flume中的数据，消费者从Kafka中获取数据；

所述数据预处理模块具体包括，

本发明重点介绍了一种用于农产品精准销售的大数据分析方法，包括如下步骤：

S1、大数据基础平台步骤，构建大数据基础平台，收集和存储互联网中的数据信息。

所述大数据基础平台步骤具体包括，

S12、Kafka消息队列步骤，获取离线数据及实时数据；

S2、数据采集步骤，从所述大数据基础平台内提取出特征数据信息并形成特征数据集。所述特征数据信息包括商品信息、用户信息以及用户日志访问信息；所述商品信息包括商品编号、商品类别以及商品详情等；所述用户信息包括用户姓名、联系方式以及用户地址等；所述用户日志访问信息是指用户访问APP或WEB网页时留下的数据访问记录。

此步骤中获取采集的数据信息，分为结构化数据信息（数据库），半结构化数据信息（文本文件，日志信息），非结构化信息（互联网数据）。此处所述商品信息和用户信息的结构化数据，用户日志访问信息为半结构化数据。

如图3所示，服务器接收数据后，日志数据负载均衡到多个Tomcat上，Tomcat服务器写入用户行为日志文件中，通过用户行为日志数据的落盘实现了业务系统与数据采集系统的解耦。

S3、数据预处理步骤，对所述数据集中的数据信息进行预处理，主要针对一致性检测、无效值过滤以及ETL(萃取、Extract，转置、Transform，加载、Load)操作进行数据清洗。

如图4所示，所述数据预处理步骤具体包括，

S31、一致性检测步骤，对数据信息进行初步过滤，根据每个变量的合理取值范围及相互关系检查数据信息是否合规，若存在超出正常范围、逻辑上不合理或者相互矛盾的数据，则进行删除；

S32、无效值过滤步骤，对用户日志访问信息中的错误访问进行去除，包括400，404等错误，且地址后缀是 jpg、gif、avi 等的数据记录均可以过滤删除，做到用户行为分析；

S4、数据处理步骤，对经过预处理后的数据集中的数据信息进行分析处理，并最终输出分析结果。所述数据处理步骤具体包括如下两大子步骤。

S41、离线数据分析子步骤，如图5所示，通过L-BFGS迭代训练得到训练模型，评估用户下一阶段的消费情况。

所述离线数据分析子步骤具体包括，

S411、根据历史数据信息，以3a天为窗口，a天为滑动步长进行数据分析，预测下一a天的购买比重，并获取三个特征，即登陆记录比、页面转化率比以及购买记录比。

举例描述为，以30天为窗口，10天为滑动步长进行数据分析，统计30天内每10天登陆记录比，页面转化率比，购买记录比，实现分析下一阶段购买记录比。登陆记录比为10天内实际网站登陆天数与总天数（10天）的比值（介于0-1之间）；页面转化率比为10天内到达支付页面场景的次数与登陆次数的比值（若出现一次登陆，多次购买，该比值可能会大于1，进行归一化处理实现数据在0-1之间）；购买记录比为10天内实际购买天数与总天数（10天）的比值。

数据采集的具体实现方式如图6所示，得到固定格式数据集,第一组数据集采集为，得到A1，A2,A3这3行9个数据，以及A4B3，将A4B3与A1，A2,A3数值组合起来为（A4B3,[A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3]）组成第一组数据集，即通过登陆记录比，页面转化率比，购买记录比这三个特征对下一阶段的购买率的预测。

S412、分别设置三个a天的权重，越靠近预测接段的时间段权重越大。初始默认设置为（0.2，0.3，0.5），即获取的数据集为：（A4B3,[A1B1*0.2,A1B2*0.2,A1B3*0.2,A2B1*0.3,A2B2*0.3,A2B3*0.3,A3B1*0.5,A3B2*0.5,A3B3*0.5]）。

S413、对特征数据集进行划分，将其按照预设比重，此处为（0.8，0.2）的比重划分为训练集与测试集；

S414、使用训练集，通过L-BFGS迭代训练得到训练模型。L-BFGS算法就是对拟牛顿算法的一个改进，是基于拟牛顿法BFGS算法的改进。L-BFGS算法的基本思想是：算法只保存并利用最近m次迭代的曲率信息来构造海森矩阵的近似矩阵。

S415、使用测试集测试已经过训练的所述训练模型；

S416、进行数据评估、得到评估值；

S417、重复S412~S416，使所述训练模型的评估值达到预期值；

S418、得到最终的评估结果，即通过A（n），A（n+1）,A （n+2）评估出最终结果a(n+3)b3，并依此评估下一阶段消费水平。

S42、实时数据分析子步骤，如图7所示，分析用户感兴趣的商品，利用Apriori关联度进行分析，获取推荐的商品列表、完成定制化推荐。利用Apriori算法进行推荐运行在Spark平台上，Spark框架的优点在于Spark是基于内存的计算，它的数据计算主要是在内存中完成的，产生的中间数据也大部分保存在内存上，不必再进行I/O操作，节约了资源。

所述实时数据分析子步骤具体包括，

S421、将用户群划分为新用户及历史用户。

S422、根据购买商品的Topn对新用户进行筛选推荐。新用户的推荐主要依靠平台销售的TOPn,设置定时任务将新的消费数据信息存储到HDFS上，进行归并计算，获取最新的销售TOPn，新的TOPn预存储在关系数据库中，以便于随时查询，导出。减少了推荐过程中的I/O线程，提高了运行效率。

S423、根据用户的购买清单，进行Apriori关联度分析，对历史用户进行筛选推荐。根据历史数据分析获取用户消费商品信息，获取订单数据。再结合用户特征以及商品购物清单，进行Apriori关联度分析，获取推荐的商品信息

S425、使用Apriori方法找到频繁项集并生成候选项集；

S427、挖掘关联规则，获取推荐列表；

综上所述，本发明所提出的一种用于农产品精准销售的大数据分析系统及分析方法，以大数据平台为基础，实现了数据信息的存储与分析，对用户进行了完备的客户画像，并最终达到了精准销售的目的。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种用于农产品精准销售的大数据分析方法，其特征在于，包括如下步骤：

所述数据处理步骤具体包括，

S42、实时数据分析子步骤，分析用户感兴趣的商品，利用Apriori关联度进行分析，获取推荐的商品列表、完成定制化推荐；

S41所述离线数据分析子步骤具体包括：

S414、使用训练集，通过L-BFGS迭代训练得到训练模型；

S415、使用测试集测试已经过训练的所述训练模型；

S416、进行数据评估、得到评估值；

S417、重复S412~S416，使所述训练模型的评估值达到预期值；

S418、得到最终的评估结果并依此评估下一阶段消费水平；

S42所述实时数据分析子步骤具体包括：

S421、将用户群划分为新用户及历史用户；

S422、根据购买商品的Topn对新用户进行筛选推荐；

S425、使用Apriori方法找到频繁项集并生成候选项集；

S427、挖掘关联规则，获取推荐列表；

2.根据权利要求1所述的用于农产品精准销售的大数据分析方法，其特征在于，S1所述大数据基础平台步骤具体包括：

S12、Kafka消息队列步骤，获取离线数据及实时数据；

3.根据权利要求1所述的用于农产品精准销售的大数据分析方法，其特征在于，S3所述数据预处理步骤具体包括：

4.根据权利要求1所述的用于农产品精准销售的大数据分析方法，其特征在于：所述特征数据信息包括商品信息、用户信息以及用户日志访问信息；所述商品信息包括商品编号、商品类别以及商品详情；所述用户信息包括用户姓名、联系方式以及用户地址。

5.一种用于农产品精准销售的大数据分析系统，用于实现如权利要求1~4任一所述的用于农产品精准销售的大数据分析方法，其特征在于，包括：

所述数据处理模块具体包括，

实时数据分析模块，用于分析用户感兴趣的商品，利用Apriori关联度进行分析，获取推荐的商品列表、完成定制化推荐；

所述大数据基础平台模块具体包括：

Kafka消息队列单元，用于离线数据及实时数据的获取；

HDFS单元，用于储存离线数据并使用Hive对所储存的数据进行分析；

所述数据预处理模块具体包括：

ETL操作单元，用于进行数据转换，实现数据的进一步清洗，操作方式包括日志格式的转换，字段的添加与删减以及固定格式的转储；

所述特征数据信息包括商品信息、用户信息以及用户日志访问信息；所述商品信息包括商品编号、商品类别以及商品详情；所述用户信息包括用户姓名、联系方式以及用户地址。