CN112835960A

CN112835960A - 一种在数字展会的数据分析方法与系统

Info

Publication number: CN112835960A
Application number: CN202110220525.6A
Authority: CN
Inventors: 陈永红
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-25
Anticipated expiration: 2041-02-26
Also published as: CN112835960B

Abstract

本发明公开了一种在数字展会的数据分析方法与系统，包括：数据采集步骤，采集展会平台内部数据和网络舆情数据；所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息；数据预处理步骤，对采集的数据进行数据汇集与建模，具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换；数据挖掘步骤，使用聚类分析方法将预处理后的数据分为多个组类，使用GSA优化的神经网络建立用户需求预测模型；数据展示步骤，使用Python语言绘制和生成数据报表，实现动态数据展示。本发明能够解决展会海量数据的分析和处理问题，为展会平台和参展商提供决策依据。

Description

一种在数字展会的数据分析方法与系统

技术领域

本发明涉及大数据分析与处理领域，特别涉及一种在数字展会的数据分析方法与系统。

背景技术

中国经济和社会已进入了数字化转型升级的快车道。“会展”是最具跨行业、学科、专业和各种新技术综合应用的大舞台，也是构筑“数字中国”的重要手段和内容，特别是互联网技术快速应用的今天，基于“互联网+会展”诞生的线上会展正极大地助力我国会展业创新升级。信息技术的发展开创了会展业发展新局面，实现了会展业的升级——线上与线下“双线驱动”。“互联网+”会展创新发展不仅是国家战略，也是未来不可阻挡的时代发展趋势。“双线会展”创新模式的落地，是运用跨界思维，把“互联网+”全面落地到商业模式、营销、产品、服务中，在互联网上培育打造出另一种全新的数字会展产业经济形态，进而促进我国会展产业创新升级和可持续发展。

数字展会是一种全新的会展组织策划、企业参展和观众观展的方式，它不是传统的会展网上信息展示，并区别于虚拟展会和网络展会，是互联网时代下的新型会展生态圈。数字展会是一种互联网技术和思想下的新型会展生态圈和展示方式，其本质是以互联网为基础，将云计算、大数据、移动互联网技术、社交社群、会展产业链中的各个实体构建成数字信息集成化的一体展示空间，从而形成全方位立体化的新型展览和服务模式，这也是对实体会展模式的一种有效补充。数字展会具有全天候、用户广、费用低、规模伸缩自如等优点，是互联网技术在会展业的应用。

随着数字展会不断发展，展会规模不断扩大，如何合理地分析和处理展会的海量数据，全面细致地分析出用户的行为习惯，是实现展会平台精益管理和参展商精准营销的关键。目前尚没有针对数字展会的数据分析方法，展会平台依赖于传统数据和传统分析方法，存在数据分析能力不足的问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种在数字展会的数据分析方法与系统，能够解决展会海量数据的分析和处理问题，为展会平台和参展商提供决策依据。

本发明采用如下技术方案：

一方面，一种在数字展会的数据分析方法，包括：

数据采集步骤，采集展会平台内部数据和网络舆情数据；所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息；

数据预处理步骤，对采集的数据进行数据汇集与建模，具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换；

数据挖掘步骤，使用聚类分析方法将预处理后的数据分为多个组类，使用GSA优化的神经网络建立用户需求预测模型；

数据展示步骤，使用Python语言绘制和生成数据报表，实现动态数据展示，提升报表统计效率。

优选的，数据采集步骤中，使用数据库技术采集展会平台内部数据；使用基于展会主题的聚焦爬虫技术采集网络舆情数据。

优选的，数据预处理步骤中，所述数据清洗为对脏数据进行检测和修正，以及对数据在属性级维度进行整合和分解；所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。

优选的，所述数据清洗具体包括：

将数据属性值分箱，通过考察属性值的周围值来平滑属性的值，属性值被分布到若干等宽的“箱”中，用箱中属性值的平均值、中值、从数和边缘值来替换“箱”中的属性值；

使用“箱”中所有样本的属性均值填补空缺值；

定义属性上数据的关联规则，用来发现能给出更多信息的规则，不符合规则的数据被认为是过时或无关数据；

对整个数据集按照进行排序，然后将可能匹配的记录相邻排列在一起，从而检测并去除重复数据；

对清洗后的数据做属性维度的整合，将多数据源整合为单一数据源。

优选的，数据挖掘步骤中，所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。

优选的，所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:

令展品样本集合Ω，即Ω＝{x_i|x_i＝(x_i1,x_i2,…,x_id),i＝1,2,…,n}，其中x_i＝(x_i1,x_i2,…,x_id)为一个维向量，n为样本容量；d为样本的特征维数，范围根据具体选取的特征个数而定；假设类别数为K，最大迭代次数为T_max，最大允许误差为ε_max；

从样本集Ω随机选取K个初始点分别作为K个类别的簇类中心，记为C＝{c_j|c_j＝(c_j1,c_j2,…,c_jd),j＝1,2,…,K}，其中c_j代表第j个类的中心点；

迭代计算第i个样本x_i与第j个样本c_j的I-divergence距离；

更新各个簇类的中心点；

计算类内误差平方和SSE，并将其最小化；

迭代结束并得到最终的聚类中心C，并且已知的样本集Ω被划分为K个不同类别的展品子集。

优选的，数据挖掘步骤中，所述GSA优化的神经网络采用GSA优化BP神经网络；其中GSA是一种启发式优化算法，由遗传算法与模拟退火算法相结合构成。

优选的，所述使用GSA优化的神经网络建立用户需求预测模型，具体包括：

(a)提取网络舆情数据和用户基本数据中的关键词，将关键词组合得到该用户的热门展品特征库；根据热门展品特征库的图结构，从中发现权重最高的N个节点，然后对这N个节点的特征进行合并，合并的原则是综合两个特征的频率和其共现的频率，如下：

其中，Freq(A)为展品特征A出现的频率，Freq(B)为展品特征A出现的频率，Freq(A)+Freq(B)为展品特征A和B共现的频率；

(b)初始化BP神经网络，确定BP神经网络结构，主要确定隐含层的个数和每层上的神经元个数；

(c)初始化GSA的控制参数，确定种群个体大小、最大的进化次数、初始温度、冷却系数和终止温度参数；

(d)计算种群中个体的适应度，每个个体都代表了一个BP神经网络的网络参数，利用适应度函数计算每个个体的适应度；

(e)遗传模拟退火操作；经过选择、交叉、变异和退火操作之后产生新的种群，计算新种群中个体的适应度值；

(f)将(a)中的展品特征数据分为三部分：训练集、验证集和预测集；训练集作为预测模型的输入样本数据，用来学习构建完成的模型的网络参数；验证集用来验证模型的误差是否在要求的范围内，保存验证完成的用户需求预测模型；

(g)将预测集作为已经构建完成的预测模型的输入，通过用户需求预测模型得到预测集的预测值。

另一方面，一种在数字展会的数据分析系统，包括：

数据采集模块，用于采集展会平台内部数据和网络舆情数据；所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息；

数据预处理模块，用于对采集的数据进行数据汇集与建模，具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换；

数据挖掘模块，用于使用聚类分析方法将预处理后的数据分为多个组类，使用GSA优化的神经网络建立用户需求预测模型；

数据展示模块，用于使用Python语言绘制和生成数据报表，实现动态数据展示，提升报表统计效率。

与现有技术相比，本发明的有益效果如下：

本发明针对数字展会数据的特点和数字展会领域存在的问题提出了一种数字展会的数据分析方法和系统，通过的数字展会大数据的采集、挖掘、处理和分析，建立展品聚类模型和用户需求模型，并使用数据可视化技术生成数据报表；从而统计分析用户的参展和消费行为，以及展品的热度趋势；为展会平台提供决策依据，以实现展会平台精益管理和参展商精准营销；促进数字展会不断向着智能化、现代化方向发展，为数字展会系统的建设和发展提供了有力支撑。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，从而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下列举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。

附图说明

图1是根据发明实施例所述的一种数字展会的数据分析方法的流程图

图2是根据发明实施例所述的一种数字展会的数据分析方法的流程框图；

图3是根据发明实施例所述的一种基于展会主题的聚焦爬虫技术的流程图；

图4是根据发明实施例所述的一种数据清洗方法的结构图；

图5是根据发明实施例所述的数据挖掘技术中GSA算法的流程图；

图6是根据发明实施例所述的一种GSA优化BP神经网络用户需求预测模型的流程图；

图7是根据发明实施例所述的一种数字展会的数据分析系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。

参见图1和图2所示，一种在数字展会的数据分析方法，包括：

S101，数据采集步骤，采集展会平台内部数据和网络舆情数据；所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息；

S102，数据预处理步骤，对采集的数据进行数据汇集与建模，具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换；

S103，数据挖掘步骤，使用聚类分析方法将预处理后的数据分为多个组类，使用GSA优化的神经网络建立用户需求预测模型；

S104数据展示步骤，使用Python语言绘制和生成数据报表，实现动态数据展示，提升报表统计效率。

本实施例中，使用数据库技术采集展会平台内部数据。用户基本数据包括性别、地址、收藏、订单、浏览历史等；展会数据包括展会主题、展览时间、展览范围、展区信息等；参展商公司数据为公司名称、公司简介、公司参展特色等。

本实施例中，使用基于展会主题的聚焦爬虫技术采集网络舆情数据。网络舆情数据包括微博、微信公众号等平台上的与该展会主题相关的文本信息。

参见图3所示，发明实施例所述的基于展会主题的聚焦爬虫技术包括采集配置(CrawlerConfig)、URL过滤(CrawlerFilter)、URL排重(CrawlerRefresh)、采集控制(CrawlerControl)和数据采集(CrawlerProcess)五部分。

采集配置主要是对采集站点的信息进行管理，对采集站点的名称、采集点入口URL、所属分类、站点性质、所属地区、是否更新等主要属性进行维护，同时对采集URL过滤规则、采集的频率等采集实施方案进行管理维护。

URL过滤是对采集的URL进行基于正则表达式的过滤筛选，剔除与展会主题不相关的网页以及定制对微博、微信公众号等平台的采集，减少系统和带宽的开销，减少垃圾数据的产生，提高系统分析结果的准确性。

URL排重是根据采集配置模块中维护的信息，自动地对已抓取的网页进行排重处理，剔除不需要进行更新的网页数据，避免网页数据的重复采集，造成系统和带宽的消耗。对于需要进行更新的网页，则对其进行增量式的爬取，实现对该类网页的数据更新，掌握最新消息。

对于不同采集站点，其规模相异，网站的更新的频率和更新量也相差较大，不同类型网站的更新规律也不同，因此，采集控制根据采集配置维护的信息，对采集频率进行控制，合理分配采集资源。同时，为了达到更快的采集速度及更高的采集性能，采用并行多线程形式进行信息采集，由采集控制进行具体的调度和协调。

数据采集根据采集配置维护的采集点入口URL，对采集点的网页数据进行采集，包括HTML网页数据、微博类网页数据和RSS网页数据。

进一步的，数据预处理步骤中，所述数据清洗为对脏数据进行检测和修正，以及对数据在属性级维度进行整合和分解；所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。

具体的，参见图4所示，所述数据清洗具体包括：

使用“箱”中所有样本的属性均值填补空缺值；

进一步的，数据挖掘步骤中，所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。

所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:

迭代计算第i个样本x_i与第j个样本c_j的I-divergence距离；

更新各个簇类的中心点；

计算类内误差平方和SSE，并将其最小化；

进一步的，数据挖掘步骤中，所述GSA优化的神经网络采用GSA优化BP神经网络；其中GSA是一种启发式优化算法，由遗传算法与模拟退火算法相结合构成。

参见图5所示，所述使用GSA优化的神经网络建立用户需求预测模型，具体包括：

具体的，参见图6所示，所述BP神经网络的网络结构包括以下步骤：

(1)设定BP神经网络的隐含层数，以及每层神经元个数的范围，将隐含层数、第一层、第二层等的神经元个数分别进行二进制编码，随机产生M个同样编码的染色体。将M个编码成相应的神经网络。

(2)分别设置不同的初始连接权值学习训练S1形成的网络，计算初始状态下每个个体的适应度，适应度函数是神经网络的误差函数，选择适应度值大的个体作为父代，并进行遗传操作。对当代群体用遗传算法中的交叉、变异操作进行处理，产生新群体。

(3)重复(2)，直到群体中的某个个体能满足结束条件为止，此时得到的个体近似为BP神经网络的最优解。

本实施例中，数据可视化部分包括绘制聚类算法结果散点图、用户对不同展品类别的需求程度值、展品的热度趋势预测曲线图。具体地，系统使用Python语言的plotly模块实现。

参见图7所示，一种在数字展会的数据分析系统，包括：

数据采集模块701，用于采集展会平台内部数据和网络舆情数据；所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息；

数据预处理模块702，用于对采集的数据进行数据汇集与建模，具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换；

数据挖掘模块703，用于使用聚类分析方法将预处理后的数据分为多个组类，使用GSA优化的神经网络建立用户需求预测模型；

数据展示模块704，用于使用Python语言绘制和生成数据报表，实现动态数据展示，提升报表统计效率。

一种数字展会的数据分析系统的具体实现与一种数字展会的数据分析方法中的实现相同，本发明不再重复说明。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种在数字展会的数据分析方法，其特征在于，包括：

数据展示步骤，使用Python语言绘制和生成数据报表，实现动态数据展示。

2.根据权利要求1所述的在数字展会的数据分析方法，其特征在于，数据采集步骤中，使用数据库技术采集展会平台内部数据；使用基于展会主题的聚焦爬虫技术采集网络舆情数据。

3.根据权利要求1所述的在数字展会的数据分析方法，其特征在于，数据预处理步骤中，所述数据清洗为对脏数据进行检测和修正，以及对数据在属性级维度进行整合和分解；所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。

4.根据权利要求3所述的在数字展会的数据分析方法，其特征在于，所述数据清洗具体包括：

使用“箱”中所有样本的属性均值填补空缺值；

5.根据权利要求1所述的在数字展会的数据分析方法，其特征在于，数据挖掘步骤中，所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。

6.根据权利要求5所述的在数字展会的数据分析方法，其特征在于，所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:

迭代计算第i个样本x_i与第j个样本c_j的I-divergence距离；

更新各个簇类的中心点；

计算类内误差平方和SSE，并将其最小化；

7.根据权利要求1所述的在数字展会的数据分析方法，其特征在于，数据挖掘步骤中，所述GSA优化的神经网络采用GSA优化BP神经网络；其中GSA是一种启发式优化算法，由遗传算法与模拟退火算法相结合构成。

8.根据权利要求7所述的在数字展会的数据分析方法，其特征在于，所述使用GSA优化的神经网络建立用户需求预测模型，具体包括：

9.一种在数字展会的数据分析系统，其特征在于，包括：

数据展示模块，用于使用Python语言绘制和生成数据报表，实现动态数据展示。