CN113051474A - 一种融合多平台多终端搜索指数的客流预测方法及系统 - Google Patents
一种融合多平台多终端搜索指数的客流预测方法及系统 Download PDFInfo
- Publication number
- CN113051474A CN113051474A CN202110315248.7A CN202110315248A CN113051474A CN 113051474 A CN113051474 A CN 113051474A CN 202110315248 A CN202110315248 A CN 202110315248A CN 113051474 A CN113051474 A CN 113051474A
- Authority
- CN
- China
- Prior art keywords
- search
- passenger flow
- keywords
- flow prediction
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种融合多平台多终端搜索指数的客流预测方法及系统,属于客流预测领域,包括以下步骤:选定与待预测景区相关的搜索关键词;从不同搜索引擎平台获取多平台多终端的搜索关键词的搜索指数;基于卷积神经网络对多平台多终端的搜索指数数据特征提取和合并得到特征集;将特征集输入至基于注意力机制的长短期记忆人工神经网络的客流预测模型,对客流进行预测。本发明解决了未能有效融合多平台多终端搜索指数数据和客流预测准确性不高的技术问题。同时基于卷积神经网络、长短期记忆神经网络和注意力机制的综合深度神经网络模型,实现了对多平台多终端搜索指数数据的深度特征融合,客流预测性能得到了提升。
Description
技术领域
本发明属于客流预测领域,更具体地,涉及一种融合多平台多终端搜索指数的客流预测方法及系统。
背景技术
随着国际旅游业的高速发展,旅游业已成为世界领先领域之一,旅游支出成为人们生活支出的重要组成部分。为实现更有效的旅游资源配置,对政府和旅游企业的准确预测是非常必要的。随着技术的不断发展,在规划出行时,通常会使用搜索引擎获取大量的出行信息,搜索引擎在记录搜索痕迹的同时,也一定程度上反映出人们的兴趣与旅游意图。源于此,基于搜索查询数据的旅游预测受到研究者们日益广泛的关注,越来越多的研究学者尝试着采取不同的方法开展客流预测研究。
在具体的研究调研中发现,目前研究者满普遍集中于单一平台同一终端的搜索指数数据,而随着时代的进步及互联网的普及,搜索引擎平台呈现出多样化发展趋势,在不同终端进行搜索活动时,生成的搜索数据在反映用户搜索偏好与兴趣关注上也有着不同倾向,仅以某单一来源的搜索指数囊括全部的数据表现存在严重的偏差。若要全面考察来自于不同平台不同终端的数据对客流预测结果的影响,则会涉及到庞大的数据体量。传统的机器学习预测方法不能满足众多数据处理的需求。
文献“基于长短期记忆网络的客流预测模型研究”采用历史客流数据的时间序列开展基于长短期记忆网络的客流预测,未考虑到搜索指数数据对客流预测结果的重要影响作用。
文献“A Method Based on GA-CNN-LSTM for Daily Tourist Flow Predictionat Scenic Spots,MDPI”基于百度搜索指数数据及长短期记忆网络模型开展客流预测。一方面,该研究采用的搜索指数仅考虑了单一索引“百度指数”的综合检索量,未能考虑到不同搜索指数平台、不同终端用户行为特征。另一方面,在具体的预测框架结构及流程设计上,仅经由滞后期的选择以确立对当下客流预测结果影响最大的某个滞后期下的搜索数据,以一维序列输入卷积神经网络施行特征提取,丢失了时间维度上的趋势波动特征。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种融合多平台多终端搜索指数的客流预测方法及系统,旨在解决现有的标准LSTM模型在每步客流预测时由于使用了相同的状态向量导致在预测时无法充分学习序列编码的细节信息,最终导致客流预测的精准度较差的问题。
为实现上述目的,一方面,本发明提供了一种融合多平台多终端搜索指数的客流预测方法,包括以下步骤:
基于卷积神经网络对多平台多终端的搜索指数数据特征提取和合并得到特征集;
将特征集输入至基于注意力机制的长短期记忆人工神经网络的客流预测模型,对客流进行预测。
优选地,多平台多终端的搜索指数数据的获取方法,包括以下步骤:
确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
优选地,与待预测景区相关的搜索关键词集合的获取方法,包括以下步骤:
将目的地与除目的地外的流形旅游相关因素结合,获取种子关键词;
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,获取搜索关键词的扩展集合;
计算搜索关键词扩展集合中不同关键词与客流量数据之间的皮尔逊相关系数,确定与待预测景区相关的搜索关键词集合。
优选地,卷积神经网络对多平台多终端的搜索指数数据进行特征提取的方法,包括以下步骤:
基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于特定时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
优选地,搜索关键词的扩展集合的获取方法为:
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,重复进行若干次,直至拓展的关键词数量小于预设值时停止迭代,删除重复关键词,得到搜索关键词的扩展集合。
优选地,流形旅游相关因素包括旅游、目的地、住宿、交通、景区、饮食、购物和天气。
优选地,种子关键词的拓展包括有关旅游的扩展关键词、有关住宿的扩展关键词、有关交通的扩展关键词、有关饮食的扩展关键词和有关购物的扩展关键词。
另一方面,本发明提供了一种融合多多平台多终端搜索指数的客流预测系统,包括特征提取模块和客流预测模块;
所述特征提取模块用于基于卷积神经网络对多平台多终端的搜索指数数据进行特征提取和合并,得到特征集;
所述客流预测模块用于将特征集输入至客流预测模型,对客流进行预测;其中,客流预测模型为基于注意力机制的长短期记忆人工神经网络。
优选地,特征提取模块包括搜索指数获取单元和特征构建单元;
搜索指数获取单元用于获取多平台多终端的搜索指数数据;
搜索指数获取单元包括多平台多终端收集器、搜索指数计算器和数据整合器;
多平台多终端收集器用于确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
搜索指数计算器用于基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
数据整合器用于将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
特征构建单元用于获取特征集,包括矩阵构建器和特征提取器;
矩阵构建器用于基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
特征提取器用于将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;其中,所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明中基于深度学习的模型框架(基于卷积神经网络、长短期记忆神经网络和注意力机制的综合深度神经网络模型)适宜开展基于庞大数据体量的多源搜索指数数据的客流预测问题,且拥有较普遍机器学习方法更优异的预测性能;特别是在LSTM模型中加入注意力机制,能够更好地捕捉数据中的有效信息,克服标准LSTM模型在每步预测时由于使用了相同的状态向量导致在预测时无法充分学习序列编码的细节信息的问题。具体的加入注意力机制的LSTM模型的工作原理为:基于输入数据和神经元的历史输出,经由LSTM神经网络三个门控单元,遗忘门、输入门和输出门对信息流进行控制,预测当前时间步,基于输入信息流对预测时间步的影响程度分配以输入数据各个维度的权重;然后基于各个维度的权重对输入数据加权求和,得到当前时间步,交给神经元的最终输入;神经元接收最终输入以及历史输出;最后经过全连接层,得到预测结果。因此,本发明基于卷积神经网络、长短期记忆神经网络和注意力机制的综合深度神经网络模型,实现了对多平台多终端搜索指数数据的深度特征融合,客流预测性能得到了提升。
本发明中深度融合多平台多终端的搜索指数数据,其中多平台包括各类可提供检索功能的搜索引擎,如谷歌、百度、搜狗和360搜索等;多终端包括基于同一平台不同检索终端提供的检索数据,如用户可经由电脑PC端、移动端和平板端施行检索行为。基于多平台多终端的搜索指数数据进行特征提取,能够获得更加全面的对用户检索行为的数据反映,以输入模型进行后续客流预测,获取更准确的预测结果。
附图说明
图1是本发明实施例提供的旅游客流量预测方法的流程图;
图2是本发明实施例提供的基于卷积神经网络进行特征提取的详细内部流程图;
图3是本发明实施例提供的基于注意力机制的长短期记忆人工神经网络模型的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,本发明提供了一种融合多平台多终端搜索指数的客流预测方法,包括以下步骤:
基于卷积神经网络对多平台多终端的搜索指数数据特征提取和合并得到特征集;
将特征集输入至基于注意力机制的长短期记忆人工神经网络的客流预测模型,对客流进行预测。
优选地,多平台多终端的搜索指数数据的获取方法,包括以下步骤:
确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
优选地,与待预测景区相关的搜索关键词集合的获取方法,包括以下步骤:
将目的地与除目的地外的流形旅游相关因素结合,获取种子关键词;
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,获取搜索关键词的扩展集合;
计算搜索关键词扩展集合中不同关键词与客流量数据之间的皮尔逊相关系数,确定与待预测景区相关的搜索关键词集合。
优选地,卷积神经网络对多平台多终端的搜索指数数据进行特征提取的方法,包括以下步骤:
基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于特定时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
优选地,搜索关键词的扩展集合的获取方法为:
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,重复进行若干次,直至拓展的关键词数量小于预设值时停止迭代,删除重复关键词,得到搜索关键词的扩展集合。
优选地,流形旅游相关因素包括旅游、目的地、住宿、交通、景区、饮食、购物和天气。
优选地,种子关键词的拓展包括有关旅游的扩展关键词、有关住宿的扩展关键词、有关交通的扩展关键词、有关饮食的扩展关键词和有关购物的扩展关键词。
另一方面,本发明提供了一种融合多多平台多终端搜索指数的客流预测系统,包括特征提取模块和客流预测模块;
所述特征提取模块用于基于卷积神经网络对多平台多终端的搜索指数数据进行特征提取和合并,得到特征集;
所述客流预测模块用于将特征集输入至客流预测模型,对客流进行预测;其中,客流预测模型为基于注意力机制的长短期记忆人工神经网络。
优选地,特征提取模块包括搜索指数获取单元和特征构建单元;
搜索指数获取单元用于获取多平台多终端的搜索指数数据;
搜索指数获取单元包括多平台多终端收集器、搜索指数计算器和数据整合器;
多平台多终端收集器用于确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
搜索指数计算器用于基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
数据整合器用于将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
特征构建单元用于获取特征集,包括矩阵构建器和特征提取器;
矩阵构建器用于基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
特征提取器用于将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;其中,所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
实施例
本实施例提供了一种客流量预测方法。图1为实施例提供的客流量预测方法流程图,具体包括如下步骤:
步骤101:选定与待预测景区相关的搜索关键词
搜索关键词来源于游客经由搜索引擎检索旅游目的地相关信息的历史数据记录,对于分析游客的决策过程和未来行为具有重要价值。为实现对景区客流量预测的更高准确率,在进行搜索关键词的选定时,应充分考虑搜索关键词的重要程度及范围选定。具体包括如下步骤:
步骤1011:基于现有相关研究中的八个流形旅游相关因素“旅游、目的地、住宿、交通、景区、饮食、购物、天气”,以目的地与流形旅游相关因素组合形成七个种子关键词。如假设待预测景区为九寨沟,则总共可形成九寨沟旅游、九寨沟住宿、九寨沟交通、九寨沟景区、九寨沟饮食、九寨沟购物、九寨沟天气七个种子关键词;
步骤1012:在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,重复进行若干次,当拓展的关键词数量呈现显著收敛时停止迭代,删除重复关键词,得到搜索关键词的扩展集合Ki;
如经由种子关键词拓展,一般可得到有关旅游的扩展关键词,如地图、游记、图片和美景等;有关住宿的扩展关键词,如酒店和民宿等;有关交通的扩展关键词,如路线、机场、公交、大巴和火车站;有关饮食的扩展关键词,如餐饮、美食和小吃等;有关购物的扩展关键词,如特产和纪念品等;
步骤1013:计算所得搜索关键词扩展集合Ki中不同关键词与客流量数据之间的皮尔逊相关系数,基于计算结果消除相关性程度较低的搜索关键词,最终确定与待预测景区相关的搜索关键词集合Kn;
步骤102:从不同搜索引擎平台获取多平台多终端的搜索关键词的搜索指数;具体包括以下步骤:
步骤1021:确定获取关键词搜索指数的搜索引擎平台集合Pn;
步骤1022:确定步骤1021下得到的不同搜索引擎平台能够提供的检索终端类别集合M;
步骤1023:基于与待预测景区相关的搜索关键词集合Kn,对每一搜索关键词Kt分别获取每一搜索引擎平台Pt下所有检索终端M的搜索指数;
步骤1024:为搜索指数设定同一时间频率进行数据整合;进一步地,考虑到不同搜索引擎平台端口获得的搜索指数频率不同,为搜索指数设定月度、周度或日度的数据频率以实现数据形式的统一性;
步骤103:基于卷积神经网络对多平台多终端的搜索指数数据分别进行特征提取和合并得到融合的特征集;
图2是实施例提供的基于卷积神经网络进行特征提取的详细内部流程图;
基于与待预测景区相关的搜索关键词集合Kn,每一搜索引擎平台下的每一搜索终端基于特定时间步长都可形成一个大小为“时间序列长度×搜索关键词数×时间序列步长”的三维矩阵,该矩阵的行数为搜索关键词数,列数为时间序列长度,高度为时间序列长度即样本总数目;累计可得到三维矩阵个数为其中,p为搜索引擎平台的总个数;Mi为选定的第i个搜索引擎平台下的终端个数;s矩阵总数即为各个搜索引擎平台下终端个数的累加和;
具体如图2所示,考虑百度和搜狗搜索两大搜索引擎平台,以及两个搜索引擎平台下电脑端和移动端两个终端的搜索指数数据,则共计可以得到百度电脑端、百度移动端、搜狗电脑端和搜狗移动端关键词矩阵四个三维矩阵,并分别输入卷积神经网络进行特征提取;
进一步地,卷积神经网络通常情况下有两种网络层;卷积层用于学习具有小型的、可移动的窗口对应特征;池化层用于降低特征的维数;在卷积神经网络的结构上,根据所得的搜索指数矩阵结构,基于过往研究中几种常见的卷积神经网络结构进行适当修改,如LeNet-5结构、AlexNet结构、ZF Net结构和VGG Net等,以适应当前的关键词特征提取;
当对每一输入的三维矩阵都采用相同结构的卷积神经网络模型进行特征提取时,所得的每一特征向量都具有相同的数据结构,且所得特征向量个数与输入三维矩阵个数相同,如实施例中输入为四个三维矩阵,则提取出的特征向量个数也是四个;将卷积神经网络提取的若干具有相同数据结构的特征向量进行合并,则可以得到融合的特征集;
步骤104:采用合并后的特征集,构建基于注意力机制的长短期记忆人工神经网络的客流预测模型,并进行客流预测。
图3是实施例提供的基于注意力机制的长短期记忆神经网络模型的结构图,包括特征输入层、长短期记忆网络层、注意力机制层、全连接层和输出层。
其中,用卷积神经网络输出特征作为长短期记忆网络层的输入,充分发挥LSTM(Long short-term memory)的时间序列处理优势,保持特征信息。长短期记忆神经网络是一种改进的循环神经网络(RNN)模型,解决了RNN训练过程中梯度爆炸或者梯度消失等问题,所有的RNN都有一种重复的神经网络模型链式的形式。在标准的RNN中,重复的模块只有一个非常简单的结构,例如一个tanh层或者sigmoid层。与单一tanh循环体结构不同,LSTM是一种拥有三个“门”的特殊网络结构,包括遗忘门、输入门和输出门。遗忘门用于选择忘记过去无用信息;输入门用于确定有用的信息被存放在细胞状态中;输出门决定输出信息。
输入门:it=σ(Wi*[ht-1,xt]+bi);
遗忘门:ft=σ(Wf*[ht-1,xt]+bf);
输出门:Ot=σ(WO*[ht-1,xt]+bO);
工作记忆:ht=Ot·tanh(Ct);
其中,Wi、Wf、WO和Wc为权重矩阵;bi、bf、bO和bc分别为各个函数的阈值;ht-1为时间步为t-1时的工作记忆;xt为时间步为t时的输入;σ为sigmoid激活函数;tanh为双曲正切激活函数;“·”代表向量内积;采用优化函数adam优化长短期记忆网络结构。
进一步地,注意力机制层用于识别关键词提取最主要的特征,能够更好地捕捉数据中的有效信息,克服标准LSTM模型在每步预测时由于使用了相同的状态向量导致在预测时无法充分学习序列编码的细节信息的问题。基于输入数据和神经元的历史输出,预测当前时间步,输入数据各个维度的权重;然后基于各个维度的权重对输入数据加权求和,得到当前时间步,交给神经元的最终输入;神经元接收最终输入以及历史输出;最后经过全连接层,得到预测结果。
本发明与现有技术相比,存在以下优势:
本发明中基于深度学习的模型框架适宜开展基于庞大数据体量的多源搜索指数数据的客流预测问题,且拥有较普遍机器学习方法更优异的预测性能;特别是在LSTM模型中加入注意力机制,能够更好地捕捉数据中的有效信息,克服标准LSTM模型在每步预测时由于使用了相同的状态向量导致在预测时无法充分学习序列编码的细节信息的问题。具体的加入注意力机制的LSTM模型的工作原理为:基于输入数据和神经元的历史输出,经由LSTM神经网络三个门控单元,遗忘门、输入门和输出门对信息流进行控制,预测当前时间步,基于输入信息流对预测时间步的影响程度分配以输入数据各个维度的权重;然后基于各个维度的权重对输入数据加权求和,得到当前时间步,交给神经元的最终输入;神经元接收最终输入以及历史输出;最后经过全连接层,得到预测结果。
本发明中深度融合多平台多终端的搜索指数数据,其中多平台包括各类可提供检索功能的搜索引擎,如谷歌、百度、搜狗和360搜索等;多终端包括基于同一平台不同检索终端提供的检索数据,如用户可经由电脑PC端、移动端和平板端施行检索行为。基于多平台多终端的搜索指数数据进行特征提取,能够获得更加全面的对用户检索行为的数据反映,以输入模型进行后续客流预测,获取更准确的预测结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种融合多平台多终端搜索指数的客流预测方法,其特征在于,包括以下步骤:
基于卷积神经网络对多平台多终端的搜索指数数据进行特征提取和合并,得到特征集;
将特征集输入至客流预测模型,对客流进行预测;其中,客流预测模型为基于注意力机制的长短期记忆人工神经网络。
2.根据权利要求1所述的客流预测方法,其特征在于,所述多平台多终端的搜索指数数据的获取方法,包括以下步骤:
确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
3.根据权利要求2所述的客流预测方法,其特征在于,所述与待预测景区相关的搜索关键词集合的获取方法,包括以下步骤:
将目的地与除目的地外的流形旅游相关因素结合,获取种子关键词;
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,获取搜索关键词的扩展集合;
计算搜索关键词扩展集合中不同关键词与客流量数据之间的皮尔逊相关系数,确定与待预测景区相关的搜索关键词集合。
4.根据权利要求1至3任一所述的客流预测方法,其特征在于,所述卷积神经网络对多平台多终端的搜索指数数据进行特征提取的方法,包括以下步骤:
基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;其中,所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
5.根据权利要求3所述的客流预测方法,其特征在于,搜索关键词的扩展集合的获取方法为:
在搜索引擎工具中输入种子关键词,检索除种子关键词外相关的搜索关键词,重复进行若干次,直至拓展的关键词数量小于预设值时停止迭代,删除重复关键词,得到搜索关键词的扩展集合。
6.根据权利要求3或5所述的客流预测方法,其特征在于,所述流形旅游相关因素包括旅游、目的地、住宿、交通、景区、饮食、购物和天气。
7.根据权利要求6所述的客流预测方法,其特征在于,种子关键词的拓展包括有关旅游的扩展关键词、有关住宿的扩展关键词、有关交通的扩展关键词、有关饮食的扩展关键词和有关购物的扩展关键词。
8.一种融合多多平台多终端搜索指数的客流预测系统,其特征在于,包括特征提取模块和客流预测模块;
所述特征提取模块用于基于卷积神经网络对多平台多终端的搜索指数数据进行特征提取和合并,得到特征集;
所述客流预测模块用于将特征集输入至客流预测模型,对客流进行预测;其中,客流预测模型为基于注意力机制的长短期记忆人工神经网络。
9.根据权利要求8所述的客流预测系统,其特征在于,所述多平台多终端的搜索指数数据采用搜索指数获取单元获取;
所述搜索指数获取单元包括多平台多终端收集器、搜索指数计算器和数据整合器;
所述多平台多终端收集器用于确定关键词搜索指数的搜索引擎平台集合及其能够提供的检索终端类别集合;
所述搜索指数计算器用于基于与待预测景区相关的搜索关键词集合,计算每一搜索关键词对应每一搜索引擎平台下所有检索终端的搜索指数;
所述数据整合器用于将每个搜索指数设定在同一时间频率下进行数据整合,获取多平台多终端的搜索指数数据。
10.根据权利要求8或9所述的客流预测系统,其特征在于,所述特征集的获取采用特征构建单元;
所述特征构建单元包括矩阵构建器和特征提取器;
所述矩阵构建器用于基于与待预测景区相关的搜索关键词集合,为每一搜索引擎平台下每一搜索终端的关键词指数基于时间步长构建一个三维矩阵;其中,三维矩阵的三个维度分别为时间序列长度,搜索关键词数和时间步长;
所述特征提取器用于将三维矩阵输入至相同的卷积神经网络模型进行特征提取,获取特征向量;其中,所述特征向量具有相同的数据结构,且特征向量的个数与三维矩阵的个数相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110315248.7A CN113051474B (zh) | 2021-03-24 | 2021-03-24 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110315248.7A CN113051474B (zh) | 2021-03-24 | 2021-03-24 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051474A true CN113051474A (zh) | 2021-06-29 |
CN113051474B CN113051474B (zh) | 2023-09-15 |
Family
ID=76515081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110315248.7A Active CN113051474B (zh) | 2021-03-24 | 2021-03-24 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051474B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828771A (zh) * | 2023-02-13 | 2023-03-21 | 深圳市仕瑞达自动化设备有限公司 | 一种机械传动元件的性能评估方法、系统及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100142327A1 (en) * | 2007-06-01 | 2010-06-10 | Kepesi Marian | Joint position-pitch estimation of acoustic sources for their tracking and separation |
CN111062524A (zh) * | 2019-12-04 | 2020-04-24 | 合肥工业大学 | 基于优化遗传算法的景区短期客流量的预测方法及系统 |
CN111160622A (zh) * | 2019-12-09 | 2020-05-15 | 北京建筑大学 | 基于混合神经网络模型的景区客流预测方法和装置 |
CN111738535A (zh) * | 2020-08-25 | 2020-10-02 | 北京交通大学 | 轨道交通时空短时客流预测方法、装置、设备及存储介质 |
CN111860939A (zh) * | 2020-06-02 | 2020-10-30 | 合肥工业大学 | 基于注意力机制和rclstm网络的客流量预测方法及系统 |
CN111985706A (zh) * | 2020-08-15 | 2020-11-24 | 西北工业大学 | 一种基于特征选择和lstm的景区日客流量预测方法 |
CN112183862A (zh) * | 2020-09-29 | 2021-01-05 | 长春理工大学 | 一种城市路网的交通流量预测方法及系统 |
CN112418547A (zh) * | 2020-12-03 | 2021-02-26 | 北京工业大学 | 一种基于gcn-lstm组合模型的公交车站点客流量预测方法 |
-
2021
- 2021-03-24 CN CN202110315248.7A patent/CN113051474B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100142327A1 (en) * | 2007-06-01 | 2010-06-10 | Kepesi Marian | Joint position-pitch estimation of acoustic sources for their tracking and separation |
CN111062524A (zh) * | 2019-12-04 | 2020-04-24 | 合肥工业大学 | 基于优化遗传算法的景区短期客流量的预测方法及系统 |
CN111160622A (zh) * | 2019-12-09 | 2020-05-15 | 北京建筑大学 | 基于混合神经网络模型的景区客流预测方法和装置 |
CN111860939A (zh) * | 2020-06-02 | 2020-10-30 | 合肥工业大学 | 基于注意力机制和rclstm网络的客流量预测方法及系统 |
CN111985706A (zh) * | 2020-08-15 | 2020-11-24 | 西北工业大学 | 一种基于特征选择和lstm的景区日客流量预测方法 |
CN111738535A (zh) * | 2020-08-25 | 2020-10-02 | 北京交通大学 | 轨道交通时空短时客流预测方法、装置、设备及存储介质 |
CN112183862A (zh) * | 2020-09-29 | 2021-01-05 | 长春理工大学 | 一种城市路网的交通流量预测方法及系统 |
CN112418547A (zh) * | 2020-12-03 | 2021-02-26 | 北京工业大学 | 一种基于gcn-lstm组合模型的公交车站点客流量预测方法 |
Non-Patent Citations (5)
Title |
---|
WENXING LU等: "A Method Based on GA-CNN一LSTM for Daily Tourist Flow Prediction at Scenic Spots", 《ENTROPY》 * |
WENXING LU等: "A Method Based on GA-CNN一LSTM for Daily Tourist Flow Prediction at Scenic Spots", 《ENTROPY》, 25 February 2020 (2020-02-25), pages 6 - 7 * |
ZHONGYI HU等: "Multistep-ahead air passengers traffic prediction with hybrid ARIMA-SVMs models", THE SCIENTIFIC WORLD JOURNAL, no. 4 * |
邓宁等: "《旅游大数据》", 31 March 2019, pages: 68 - 76 * |
陈远;刘福珍;吴江;: "基于二模复杂网络的共享经济平台用户交互行为研究", 数据分析与知识发现, no. 06 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828771A (zh) * | 2023-02-13 | 2023-03-21 | 深圳市仕瑞达自动化设备有限公司 | 一种机械传动元件的性能评估方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113051474B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021043193A1 (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN111985706B (zh) | 一种基于特征选择和lstm的景区日客流量预测方法 | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN114241282A (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN110175628A (zh) | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 | |
CN108986453A (zh) | 一种基于情境信息的交通状况预测方法、系统及装置 | |
CN113905391A (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN110675632B (zh) | 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN111506760B (zh) | 一种基于困难感知的深度集成度量图像检索方法 | |
CN115051925B (zh) | 一种基于迁移学习的时空序列预测方法 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
Elayidom et al. | A generalized data mining framework for placement chance prediction problems | |
CN115879509A (zh) | 基于代理辅助进化算法的卷积神经网络结构优化方法 | |
CN115510322A (zh) | 一种基于深度学习的多目标优化推荐方法 | |
CN116797274A (zh) | 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法 | |
Kim et al. | A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea | |
CN113051474A (zh) | 一种融合多平台多终端搜索指数的客流预测方法及系统 | |
Sood et al. | Neunets: An automated synthesis engine for neural network design | |
CN111652444B (zh) | 一种基于K-means和LSTM的日游客量预测方法 | |
CN115034478B (zh) | 一种基于领域自适应与知识迁移的交通流量预测方法 | |
CN116415177A (zh) | 一种基于极限学习机的分类器参数辨识方法 | |
CN114116692B (zh) | 一种基于mask和双向模型的缺失POI轨迹补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |