CN112835960A - 一种在数字展会的数据分析方法与系统 - Google Patents

一种在数字展会的数据分析方法与系统 Download PDF

Info

Publication number
CN112835960A
CN112835960A CN202110220525.6A CN202110220525A CN112835960A CN 112835960 A CN112835960 A CN 112835960A CN 202110220525 A CN202110220525 A CN 202110220525A CN 112835960 A CN112835960 A CN 112835960A
Authority
CN
China
Prior art keywords
data
exhibition
neural network
gsa
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110220525.6A
Other languages
English (en)
Other versions
CN112835960B (zh
Inventor
陈永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202110220525.6A priority Critical patent/CN112835960B/zh
Publication of CN112835960A publication Critical patent/CN112835960A/zh
Application granted granted Critical
Publication of CN112835960B publication Critical patent/CN112835960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在数字展会的数据分析方法与系统,包括:数据采集步骤,采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;数据预处理步骤,对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;数据挖掘步骤,使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;数据展示步骤,使用Python语言绘制和生成数据报表,实现动态数据展示。本发明能够解决展会海量数据的分析和处理问题,为展会平台和参展商提供决策依据。

Description

一种在数字展会的数据分析方法与系统
技术领域
本发明涉及大数据分析与处理领域,特别涉及一种在数字展会的数据分析方法与系统。
背景技术
中国经济和社会已进入了数字化转型升级的快车道。“会展”是最具跨行业、学科、专业和各种新技术综合应用的大舞台,也是构筑“数字中国”的重要手段和内容,特别是互联网技术快速应用的今天,基于“互联网+会展”诞生的线上会展正极大地助力我国会展业创新升级。信息技术的发展开创了会展业发展新局面,实现了会展业的升级——线上与线下“双线驱动”。“互联网+”会展创新发展不仅是国家战略,也是未来不可阻挡的时代发展趋势。“双线会展”创新模式的落地,是运用跨界思维,把“互联网+”全面落地到商业模式、营销、产品、服务中,在互联网上培育打造出另一种全新的数字会展产业经济形态,进而促进我国会展产业创新升级和可持续发展。
数字展会是一种全新的会展组织策划、企业参展和观众观展的方式,它不是传统的会展网上信息展示,并区别于虚拟展会和网络展会,是互联网时代下的新型会展生态圈。数字展会是一种互联网技术和思想下的新型会展生态圈和展示方式,其本质是以互联网为基础,将云计算、大数据、移动互联网技术、社交社群、会展产业链中的各个实体构建成数字信息集成化的一体展示空间,从而形成全方位立体化的新型展览和服务模式,这也是对实体会展模式的一种有效补充。数字展会具有全天候、用户广、费用低、规模伸缩自如等优点,是互联网技术在会展业的应用。
随着数字展会不断发展,展会规模不断扩大,如何合理地分析和处理展会的海量数据,全面细致地分析出用户的行为习惯,是实现展会平台精益管理和参展商精准营销的关键。目前尚没有针对数字展会的数据分析方法,展会平台依赖于传统数据和传统分析方法,存在数据分析能力不足的问题。
发明内容
本发明的目的在于克服现有技术的不足,提出一种在数字展会的数据分析方法与系统,能够解决展会海量数据的分析和处理问题,为展会平台和参展商提供决策依据。
本发明采用如下技术方案:
一方面,一种在数字展会的数据分析方法,包括:
数据采集步骤,采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
数据预处理步骤,对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
数据挖掘步骤,使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
数据展示步骤,使用Python语言绘制和生成数据报表,实现动态数据展示,提升报表统计效率。
优选的,数据采集步骤中,使用数据库技术采集展会平台内部数据;使用基于展会主题的聚焦爬虫技术采集网络舆情数据。
优选的,数据预处理步骤中,所述数据清洗为对脏数据进行检测和修正,以及对数据在属性级维度进行整合和分解;所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。
优选的,所述数据清洗具体包括:
将数据属性值分箱,通过考察属性值的周围值来平滑属性的值,属性值被分布到若干等宽的“箱”中,用箱中属性值的平均值、中值、从数和边缘值来替换“箱”中的属性值;
使用“箱”中所有样本的属性均值填补空缺值;
定义属性上数据的关联规则,用来发现能给出更多信息的规则,不符合规则的数据被认为是过时或无关数据;
对整个数据集按照进行排序,然后将可能匹配的记录相邻排列在一起,从而检测并去除重复数据;
对清洗后的数据做属性维度的整合,将多数据源整合为单一数据源。
优选的,数据挖掘步骤中,所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。
优选的,所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:
令展品样本集合Ω,即Ω={xi|xi=(xi1,xi2,…,xid),i=1,2,…,n},其中xi=(xi1,xi2,…,xid)为一个维向量,n为样本容量;d为样本的特征维数,范围根据具体选取的特征个数而定;假设类别数为K,最大迭代次数为Tmax,最大允许误差为εmax
从样本集Ω随机选取K个初始点分别作为K个类别的簇类中心,记为C={cj|cj=(cj1,cj2,…,cjd),j=1,2,…,K},其中cj代表第j个类的中心点;
迭代计算第i个样本xi与第j个样本cj的I-divergence距离;
更新各个簇类的中心点;
计算类内误差平方和SSE,并将其最小化;
迭代结束并得到最终的聚类中心C,并且已知的样本集Ω被划分为K个不同类别的展品子集。
优选的,数据挖掘步骤中,所述GSA优化的神经网络采用GSA优化BP神经网络;其中GSA是一种启发式优化算法,由遗传算法与模拟退火算法相结合构成。
优选的,所述使用GSA优化的神经网络建立用户需求预测模型,具体包括:
(a)提取网络舆情数据和用户基本数据中的关键词,将关键词组合得到该用户的热门展品特征库;根据热门展品特征库的图结构,从中发现权重最高的N个节点,然后对这N个节点的特征进行合并,合并的原则是综合两个特征的频率和其共现的频率,如下:
Figure BDA0002954645000000031
其中,Freq(A)为展品特征A出现的频率,Freq(B)为展品特征A出现的频率,Freq(A)+Freq(B)为展品特征A和B共现的频率;
(b)初始化BP神经网络,确定BP神经网络结构,主要确定隐含层的个数和每层上的神经元个数;
(c)初始化GSA的控制参数,确定种群个体大小、最大的进化次数、初始温度、冷却系数和终止温度参数;
(d)计算种群中个体的适应度,每个个体都代表了一个BP神经网络的网络参数,利用适应度函数计算每个个体的适应度;
(e)遗传模拟退火操作;经过选择、交叉、变异和退火操作之后产生新的种群,计算新种群中个体的适应度值;
(f)将(a)中的展品特征数据分为三部分:训练集、验证集和预测集;训练集作为预测模型的输入样本数据,用来学习构建完成的模型的网络参数;验证集用来验证模型的误差是否在要求的范围内,保存验证完成的用户需求预测模型;
(g)将预测集作为已经构建完成的预测模型的输入,通过用户需求预测模型得到预测集的预测值。
另一方面,一种在数字展会的数据分析系统,包括:
数据采集模块,用于采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
数据预处理模块,用于对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
数据挖掘模块,用于使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
数据展示模块,用于使用Python语言绘制和生成数据报表,实现动态数据展示,提升报表统计效率。
与现有技术相比,本发明的有益效果如下:
本发明针对数字展会数据的特点和数字展会领域存在的问题提出了一种数字展会的数据分析方法和系统,通过的数字展会大数据的采集、挖掘、处理和分析,建立展品聚类模型和用户需求模型,并使用数据可视化技术生成数据报表;从而统计分析用户的参展和消费行为,以及展品的热度趋势;为展会平台提供决策依据,以实现展会平台精益管理和参展商精准营销;促进数字展会不断向着智能化、现代化方向发展,为数字展会系统的建设和发展提供了有力支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下列举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。
附图说明
图1是根据发明实施例所述的一种数字展会的数据分析方法的流程图
图2是根据发明实施例所述的一种数字展会的数据分析方法的流程框图;
图3是根据发明实施例所述的一种基于展会主题的聚焦爬虫技术的流程图;
图4是根据发明实施例所述的一种数据清洗方法的结构图;
图5是根据发明实施例所述的数据挖掘技术中GSA算法的流程图;
图6是根据发明实施例所述的一种GSA优化BP神经网络用户需求预测模型的流程图;
图7是根据发明实施例所述的一种数字展会的数据分析系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。
参见图1和图2所示,一种在数字展会的数据分析方法,包括:
S101,数据采集步骤,采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
S102,数据预处理步骤,对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
S103,数据挖掘步骤,使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
S104数据展示步骤,使用Python语言绘制和生成数据报表,实现动态数据展示,提升报表统计效率。
本实施例中,使用数据库技术采集展会平台内部数据。用户基本数据包括性别、地址、收藏、订单、浏览历史等;展会数据包括展会主题、展览时间、展览范围、展区信息等;参展商公司数据为公司名称、公司简介、公司参展特色等。
本实施例中,使用基于展会主题的聚焦爬虫技术采集网络舆情数据。网络舆情数据包括微博、微信公众号等平台上的与该展会主题相关的文本信息。
参见图3所示,发明实施例所述的基于展会主题的聚焦爬虫技术包括采集配置(CrawlerConfig)、URL过滤(CrawlerFilter)、URL排重(CrawlerRefresh)、采集控制(CrawlerControl)和数据采集(CrawlerProcess)五部分。
采集配置主要是对采集站点的信息进行管理,对采集站点的名称、采集点入口URL、所属分类、站点性质、所属地区、是否更新等主要属性进行维护,同时对采集URL过滤规则、采集的频率等采集实施方案进行管理维护。
URL过滤是对采集的URL进行基于正则表达式的过滤筛选,剔除与展会主题不相关的网页以及定制对微博、微信公众号等平台的采集,减少系统和带宽的开销,减少垃圾数据的产生,提高系统分析结果的准确性。
URL排重是根据采集配置模块中维护的信息,自动地对已抓取的网页进行排重处理,剔除不需要进行更新的网页数据,避免网页数据的重复采集,造成系统和带宽的消耗。对于需要进行更新的网页,则对其进行增量式的爬取,实现对该类网页的数据更新,掌握最新消息。
对于不同采集站点,其规模相异,网站的更新的频率和更新量也相差较大,不同类型网站的更新规律也不同,因此,采集控制根据采集配置维护的信息,对采集频率进行控制,合理分配采集资源。同时,为了达到更快的采集速度及更高的采集性能,采用并行多线程形式进行信息采集,由采集控制进行具体的调度和协调。
数据采集根据采集配置维护的采集点入口URL,对采集点的网页数据进行采集,包括HTML网页数据、微博类网页数据和RSS网页数据。
进一步的,数据预处理步骤中,所述数据清洗为对脏数据进行检测和修正,以及对数据在属性级维度进行整合和分解;所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。
具体的,参见图4所示,所述数据清洗具体包括:
将数据属性值分箱,通过考察属性值的周围值来平滑属性的值,属性值被分布到若干等宽的“箱”中,用箱中属性值的平均值、中值、从数和边缘值来替换“箱”中的属性值;
使用“箱”中所有样本的属性均值填补空缺值;
定义属性上数据的关联规则,用来发现能给出更多信息的规则,不符合规则的数据被认为是过时或无关数据;
对整个数据集按照进行排序,然后将可能匹配的记录相邻排列在一起,从而检测并去除重复数据;
对清洗后的数据做属性维度的整合,将多数据源整合为单一数据源。
进一步的,数据挖掘步骤中,所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。
所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:
令展品样本集合Ω,即Ω={xi|xi=(xi1,xi2,…,xid),i=1,2,…,n},其中xi=(xi1,xi2,…,xid)为一个维向量,n为样本容量;d为样本的特征维数,范围根据具体选取的特征个数而定;假设类别数为K,最大迭代次数为Tmax,最大允许误差为εmax
从样本集Ω随机选取K个初始点分别作为K个类别的簇类中心,记为C={cj|cj=(cj1,cj2,…,cjd),j=1,2,…,K},其中cj代表第j个类的中心点;
迭代计算第i个样本xi与第j个样本cj的I-divergence距离;
更新各个簇类的中心点;
计算类内误差平方和SSE,并将其最小化;
迭代结束并得到最终的聚类中心C,并且已知的样本集Ω被划分为K个不同类别的展品子集。
进一步的,数据挖掘步骤中,所述GSA优化的神经网络采用GSA优化BP神经网络;其中GSA是一种启发式优化算法,由遗传算法与模拟退火算法相结合构成。
参见图5所示,所述使用GSA优化的神经网络建立用户需求预测模型,具体包括:
(a)提取网络舆情数据和用户基本数据中的关键词,将关键词组合得到该用户的热门展品特征库;根据热门展品特征库的图结构,从中发现权重最高的N个节点,然后对这N个节点的特征进行合并,合并的原则是综合两个特征的频率和其共现的频率,如下:
Figure BDA0002954645000000071
其中,Freq(A)为展品特征A出现的频率,Freq(B)为展品特征A出现的频率,Freq(A)+Freq(B)为展品特征A和B共现的频率;
(b)初始化BP神经网络,确定BP神经网络结构,主要确定隐含层的个数和每层上的神经元个数;
(c)初始化GSA的控制参数,确定种群个体大小、最大的进化次数、初始温度、冷却系数和终止温度参数;
(d)计算种群中个体的适应度,每个个体都代表了一个BP神经网络的网络参数,利用适应度函数计算每个个体的适应度;
(e)遗传模拟退火操作;经过选择、交叉、变异和退火操作之后产生新的种群,计算新种群中个体的适应度值;
(f)将(a)中的展品特征数据分为三部分:训练集、验证集和预测集;训练集作为预测模型的输入样本数据,用来学习构建完成的模型的网络参数;验证集用来验证模型的误差是否在要求的范围内,保存验证完成的用户需求预测模型;
(g)将预测集作为已经构建完成的预测模型的输入,通过用户需求预测模型得到预测集的预测值。
具体的,参见图6所示,所述BP神经网络的网络结构包括以下步骤:
(1)设定BP神经网络的隐含层数,以及每层神经元个数的范围,将隐含层数、第一层、第二层等的神经元个数分别进行二进制编码,随机产生M个同样编码的染色体。将M个编码成相应的神经网络。
(2)分别设置不同的初始连接权值学习训练S1形成的网络,计算初始状态下每个个体的适应度,适应度函数是神经网络的误差函数,选择适应度值大的个体作为父代,并进行遗传操作。对当代群体用遗传算法中的交叉、变异操作进行处理,产生新群体。
(3)重复(2),直到群体中的某个个体能满足结束条件为止,此时得到的个体近似为BP神经网络的最优解。
本实施例中,数据可视化部分包括绘制聚类算法结果散点图、用户对不同展品类别的需求程度值、展品的热度趋势预测曲线图。具体地,系统使用Python语言的plotly模块实现。
参见图7所示,一种在数字展会的数据分析系统,包括:
数据采集模块701,用于采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
数据预处理模块702,用于对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
数据挖掘模块703,用于使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
数据展示模块704,用于使用Python语言绘制和生成数据报表,实现动态数据展示,提升报表统计效率。
一种数字展会的数据分析系统的具体实现与一种数字展会的数据分析方法中的实现相同,本发明不再重复说明。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (9)

1.一种在数字展会的数据分析方法,其特征在于,包括:
数据采集步骤,采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
数据预处理步骤,对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
数据挖掘步骤,使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
数据展示步骤,使用Python语言绘制和生成数据报表,实现动态数据展示。
2.根据权利要求1所述的在数字展会的数据分析方法,其特征在于,数据采集步骤中,使用数据库技术采集展会平台内部数据;使用基于展会主题的聚焦爬虫技术采集网络舆情数据。
3.根据权利要求1所述的在数字展会的数据分析方法,其特征在于,数据预处理步骤中,所述数据清洗为对脏数据进行检测和修正,以及对数据在属性级维度进行整合和分解;所述脏数据包括不完整数据、重复数据、过时数据以及与展会领域无关的数据。
4.根据权利要求3所述的在数字展会的数据分析方法,其特征在于,所述数据清洗具体包括:
将数据属性值分箱,通过考察属性值的周围值来平滑属性的值,属性值被分布到若干等宽的“箱”中,用箱中属性值的平均值、中值、从数和边缘值来替换“箱”中的属性值;
使用“箱”中所有样本的属性均值填补空缺值;
定义属性上数据的关联规则,用来发现能给出更多信息的规则,不符合规则的数据被认为是过时或无关数据;
对整个数据集按照进行排序,然后将可能匹配的记录相邻排列在一起,从而检测并去除重复数据;
对清洗后的数据做属性维度的整合,将多数据源整合为单一数据源。
5.根据权利要求1所述的在数字展会的数据分析方法,其特征在于,数据挖掘步骤中,所述聚类分析方法采用基于I-divergence测度的K-means聚类算法。
6.根据权利要求5所述的在数字展会的数据分析方法,其特征在于,所述采用基于I-divergence测度的K-means聚类算法包括以下步骤:
令展品样本集合Ω,即Ω={xi|xi=(xi1,xi2,…,xid),i=1,2,…,n},其中xi=(xi1,xi2,…,xid)为一个维向量,n为样本容量;d为样本的特征维数,范围根据具体选取的特征个数而定;假设类别数为K,最大迭代次数为Tmax,最大允许误差为εmax
从样本集Ω随机选取K个初始点分别作为K个类别的簇类中心,记为C={cj|cj=(cj1,cj2,…,cjd),j=1,2,…,K},其中cj代表第j个类的中心点;
迭代计算第i个样本xi与第j个样本cj的I-divergence距离;
更新各个簇类的中心点;
计算类内误差平方和SSE,并将其最小化;
迭代结束并得到最终的聚类中心C,并且已知的样本集Ω被划分为K个不同类别的展品子集。
7.根据权利要求1所述的在数字展会的数据分析方法,其特征在于,数据挖掘步骤中,所述GSA优化的神经网络采用GSA优化BP神经网络;其中GSA是一种启发式优化算法,由遗传算法与模拟退火算法相结合构成。
8.根据权利要求7所述的在数字展会的数据分析方法,其特征在于,所述使用GSA优化的神经网络建立用户需求预测模型,具体包括:
(a)提取网络舆情数据和用户基本数据中的关键词,将关键词组合得到该用户的热门展品特征库;根据热门展品特征库的图结构,从中发现权重最高的N个节点,然后对这N个节点的特征进行合并,合并的原则是综合两个特征的频率和其共现的频率,如下:
Figure FDA0002954644990000021
其中,Freq(A)为展品特征A出现的频率,Freq(B)为展品特征A出现的频率,Freq(A)+Freq(B)为展品特征A和B共现的频率;
(b)初始化BP神经网络,确定BP神经网络结构,主要确定隐含层的个数和每层上的神经元个数;
(c)初始化GSA的控制参数,确定种群个体大小、最大的进化次数、初始温度、冷却系数和终止温度参数;
(d)计算种群中个体的适应度,每个个体都代表了一个BP神经网络的网络参数,利用适应度函数计算每个个体的适应度;
(e)遗传模拟退火操作;经过选择、交叉、变异和退火操作之后产生新的种群,计算新种群中个体的适应度值;
(f)将(a)中的展品特征数据分为三部分:训练集、验证集和预测集;训练集作为预测模型的输入样本数据,用来学习构建完成的模型的网络参数;验证集用来验证模型的误差是否在要求的范围内,保存验证完成的用户需求预测模型;
(g)将预测集作为已经构建完成的预测模型的输入,通过用户需求预测模型得到预测集的预测值。
9.一种在数字展会的数据分析系统,其特征在于,包括:
数据采集模块,用于采集展会平台内部数据和网络舆情数据;所述展会平台内部数据包括用户基本信息、展会和展品信息和参展商公司信息;
数据预处理模块,用于对采集的数据进行数据汇集与建模,具体包括数据质量分析和提升、数据指标体系建立、数据清洗和数据转换;
数据挖掘模块,用于使用聚类分析方法将预处理后的数据分为多个组类,使用GSA优化的神经网络建立用户需求预测模型;
数据展示模块,用于使用Python语言绘制和生成数据报表,实现动态数据展示。
CN202110220525.6A 2021-02-26 2021-02-26 一种数字展会的数据分析方法与系统 Active CN112835960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220525.6A CN112835960B (zh) 2021-02-26 2021-02-26 一种数字展会的数据分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220525.6A CN112835960B (zh) 2021-02-26 2021-02-26 一种数字展会的数据分析方法与系统

Publications (2)

Publication Number Publication Date
CN112835960A true CN112835960A (zh) 2021-05-25
CN112835960B CN112835960B (zh) 2022-07-01

Family

ID=75933980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220525.6A Active CN112835960B (zh) 2021-02-26 2021-02-26 一种数字展会的数据分析方法与系统

Country Status (1)

Country Link
CN (1) CN112835960B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496545A (zh) * 2022-11-17 2022-12-20 北京名洋数字科技股份有限公司 线上展会数据分析方法、系统及存储介质
CN116628071A (zh) * 2023-05-04 2023-08-22 毕加展览有限公司 一种数字化展览管理平台的数据交互方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002087132A2 (en) * 2001-04-20 2002-10-31 Anvil Informatics, Inc. Method and system for data analysis
WO2005006249A1 (en) * 2003-07-09 2005-01-20 Raptor International Holdings Pty Ltd Method and system of data analysis using neural networks
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN107329970A (zh) * 2017-05-23 2017-11-07 成都联宇云安科技有限公司 一种针对手机管控系统舆情大数据进行分析处理的方法
JP2019008573A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似文書検索方法及びプログラム
CA3128957A1 (en) * 2019-03-04 2020-03-03 Bhaskar Bhattacharyya Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002087132A2 (en) * 2001-04-20 2002-10-31 Anvil Informatics, Inc. Method and system for data analysis
WO2005006249A1 (en) * 2003-07-09 2005-01-20 Raptor International Holdings Pty Ltd Method and system of data analysis using neural networks
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN107329970A (zh) * 2017-05-23 2017-11-07 成都联宇云安科技有限公司 一种针对手机管控系统舆情大数据进行分析处理的方法
JP2019008573A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似文書検索方法及びプログラム
CA3128957A1 (en) * 2019-03-04 2020-03-03 Bhaskar Bhattacharyya Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔静静: "基于I-K-Means聚类的朴素贝叶斯HRNB分类算法在入侵检测中的应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
樊重俊等: "《大数据分析与应用》", 31 January 2016, 立信会计出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496545A (zh) * 2022-11-17 2022-12-20 北京名洋数字科技股份有限公司 线上展会数据分析方法、系统及存储介质
CN116628071A (zh) * 2023-05-04 2023-08-22 毕加展览有限公司 一种数字化展览管理平台的数据交互方法及系统
CN116628071B (zh) * 2023-05-04 2023-12-05 毕加展览有限公司 一种数字化展览管理平台的数据交互方法及系统

Also Published As

Publication number Publication date
CN112835960B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN108629630B (zh) 一种基于特征交叉联合深度神经网络的广告推荐方法
Kalampokis et al. Linked open government data analytics
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN112835960B (zh) 一种数字展会的数据分析方法与系统
CN111709714B (zh) 基于人工智能的流失人员预测方法和装置
Smojver et al. Exploring knowledge flow within a technology domain by conducting a dynamic analysis of a patent co-citation network
CN112100372B (zh) 头版新闻预测分类方法
CN107220902A (zh) 在线社会网络的级联规模预测方法
CN112508600A (zh) 一种基于互联网公开数据的车辆价值评估方法
CN117333037A (zh) 一种面向出版大数据的产业大脑构建方法及装置
CN111460323A (zh) 基于人工智能的焦点用户挖掘方法和装置
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Davis et al. Automatically generating scenarios from a text corpus: A case study on electric vehicles
Guo et al. Network representation learning based on community-aware and adaptive random walk for overlapping community detection
CN112734510B (zh) 基于融合改进模糊聚类和兴趣衰减的商品推荐方法
Gao Constructing the social network prediction model based on data mining and link prediction analysis
CN112256884A (zh) 一种基于知识图谱的数据资产库访问方法和装置
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
CN113656692B (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
Lin et al. Toward knowledge as a service (KaaS): Predicting popularity of knowledge services leveraging graph neural networks
Zheng et al. Modeling stochastic service time for complex on-demand food delivery
Samizadeh et al. Web mining based on word-centric search with clustering approach using MLP-PSO hybrid
CN113222207B (zh) 基于社区结构的招投标公司网络关系预测方法及预测系统
Ugli et al. Movie Recommendation System Using Community Detection Based on the Girvan–Newman Algorithm
CN107545461A (zh) 一种出版物选题及发行的分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant