CN108428205B - 一种城市公共地图用户访问量差异因素分析方法 - Google Patents
一种城市公共地图用户访问量差异因素分析方法 Download PDFInfo
- Publication number
- CN108428205B CN108428205B CN201810115237.2A CN201810115237A CN108428205B CN 108428205 B CN108428205 B CN 108428205B CN 201810115237 A CN201810115237 A CN 201810115237A CN 108428205 B CN108428205 B CN 108428205B
- Authority
- CN
- China
- Prior art keywords
- matrix
- user access
- data
- variable
- public map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000556 factor analysis Methods 0.000 title description 2
- 238000011161 development Methods 0.000 claims abstract description 24
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000011160 research Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000010238 partial least squares regression Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000011425 standardization method Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 238000007619 statistical method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000003337 fertilizer Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种城市公共地图用户访问量差异因素分析方法,该方法首先采用Hadoop云技术框架,对海量公共地图访问日志数据进行统计分析,基于IP地址快速解析地图用户所在城市信息,统计各城市公共地图用户访问量,然后分析城市规模及其社会发展状况的空间差异综合特征,提取和简化公共地图用户访问量的影响因素及解释变量,建立访问量关于解释变量的偏最小二乘回归方程,并求取解释变量重要性指标用于表示各个解释变量对城市公共地图用户访问量的影响程度。本发明方法充分利用了城市发展特征的有效信息,克服了城市社会经济各变量之间较强的多重共线性,并定量化表达各因素对城市公共地图用户访问量的影响力大小。
Description
技术领域
本发明涉及网络空间信息服务技术,尤其涉及一种城市公共地图用户访问量差异因素分析方法。
背景技术
随着Internet的快速发展和移动网络的不断普及,用户对公共地图服务的需求与日俱增,自2005年谷歌推出谷歌地图和谷歌地球至今的12年间,雅虎、微软、百度、腾讯等互联网公司也纷纷推出自己的互联网地图产品。功能和服务种类的不断发展和完善,网络地图的用户量在不断增长,市场规模不断扩大。据iiMedia Research数据显示,2016年中国手机地图用户查询信息分布排名前四位的分别是餐饮、银行、休闲厅和酒店,以用户所在地理位置为基础提供地理信息服务,已经成为网络地图的核心。而用户所在的位置,存在明显的区域差异性。不同地区间社会经济发展状况等的差异,使得各个区域的用户生活方式存在很大差异,造成用户对于互联网地图的需求也存在很大不同。而区域差异问题一直是各国地理学家、政府以及经济学家密切关注的重要问题之一,采用科学的方法衡量和描述区域间的差异状况及变化规律,一直是学者们争相解决的难题。了解互联网地图的用户访问量分布及用户行为习惯,对于互联网地图的进一步发展及地图服务厂商的资源配置都具有重要的作用。而互联网地图在为越来越多的用户提供服务的同时,也记录着庞大的用户数据。通过对这些用户数据进行挖掘,可以了解网络地图用户访问量分布差异和行为习惯。
目前,国内外学者用来研究区域差异问题的方法可以分为以下四类:第一类是通过使用一些常用的统计指数如泰尔指数、基尼指数等来衡量区域差异问题,此类方法在经济学、社会学研究中的应用尤为广泛。第二类方法是通过理论分析自行构建一组评价指标来比较区域间的差异,这类方法通常也被称为公理法,此类方法在使用时必须确保构建的评价指标的准确性。第三类方法是函数法,即通过构建区域问题评价函数来衡量区域间的差异。第四类是模型法,通过空间分析模型、区域经济模型等来模拟区域间发展的不平衡性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种城市公共地图用户访问量差异因素分析方法。
本发明解决其技术问题所采用的技术方案是:一种城市公共地图用户访问量差异因素分析方法,包括以下步骤:
1)研究对象的选取与数据采集:采用Hadoop云技术框架,对海量公共地图访问日志数据进行处理,基于IP地址快速解析地图用户所在城市信息,获得各城市公共地图用户访问量数据;
2)确定影响因素与解释变量;所述影响因素包括城市规模、该城市的人口质量、经济水平、公共交通发展水平和公共服务业发展水平;所述解释变量包括对应城市规模的城市的面积x1与人口数量x2;对应人口质量的人均受教育年限x3和18至40岁人口占比x4;对应经济水平的人均GDP x5;对应公共交通发展水平的日均客运量x6、地铁站数量x7、公交站数量x8、停车场数量x9和加油站数量x10;对应公共服务业发展水平的餐饮店数量x11、旅游景点数量x12、酒店数量x13和金融设施数量x14;
3)采用z-score标准化方法,对数据进行标准化处理,使所有数据处于同一量纲之下,然后去除数据的单位限制,将所有数据转化为无量纲的纯数值,并得到用户访问量的数据矩阵和解释变量数据矩阵;
所述数据包括步骤1)中的选取n个城市的用户访问量数据和步骤2)中的解释变量数据;
所述数据矩阵的形成如下:假设有m个城市公共地图用户访问量的解释变量,作为函数自变量;选取n个城市的用户访问量,作为样本点;因变量为城市公共地图用户访问量,则用户访问量的数据矩阵是一个n*1矩阵,解释变量的数据矩阵是一个n*m矩阵;利用z-score标准化方法,我们将进行标准化处理后的用户访问量数据矩阵记为F0,标准化处理后的解释变量数据矩阵记为E0;
4)利用主成分分析法对解释变量矩阵E0进行成分提取,并根据交叉有效性原则确定提取的解释变量成分个数h,使得主成分既能代表解释变量矩阵E0的变异信息,又能使解释变量矩阵E0与用户访问量矩阵F0的相关程度达到最大,并确定用户访问量矩阵F0与h个解释变量成分之间的偏最小二乘回归方程;
5)根据偏最小二乘回归分析,求取各个解释变量的变量重要性指标,用以定量化比较各个解释变量对城市公共地图用户访问量的贡献程度。
按上述方案,所述步骤1)中选取的城市公共地图用户访问量数据为对城市进行访问量排序,依据排序结果选择访问量排名前28的城市作为公共地图用户访问量的研究对象。
按上述方案,所述步骤3)中
其中,E(y)表示各城市公共地图用户访问量Y的平均值,SY为Y的标准差,E(xi)为第i个解释变量xi的均值,i=1,2,3,…,m,为解释变量xi的标准差,E0m指示第m个解释变量在n个城市中值的分布。。按上述方案,所述步骤4)具体如下:
4.1)按照如下公式(3),从解释变量矩阵E0中提取第一个解释变量主成分t1,即t1是解释变量xi,i=1,2,…,m,的线性组合。使t1尽可能多的携带解释变量矩阵E0的变异信息。按照同样方法,依据公式(4)从访问量矩阵F0中提取第一个主成分u1,
t1=E0w1 (3)
u1=F0c1 (4)
其中,w1为E0的第一个轴,它是一个单位向量,即‖w1‖=1;c1是F0的第一个轴,并且‖c1‖=1;t1,u1包含着解释变量与用户访问量进行标准化后的数据信息,并且要求解释变量的成分t1可以最大程度的解释用户访问量的成分u1。
参照典型相关分析和主成分分析的思想,即要求t1与u1之间的协方差最大。这个过程实际上是一个最优化的过程。
在公式(5)中,θ1是优化的目标函数,w1是的特征向量,是与其对应的特征值,c1为与的最大特征值对应的单位特征向量。在这里只讨论单变量的最小二乘回归建模,所以c1=1,则u1=F0。w1和t1的计算方式分别如公式(6),(7)所示:
其中,r(xi,y)为解释变量xi和用户访问量y之间的相关系数。在得到w1之后,便可以根据公式(7)计算出解释变量矩阵E0的第一个成分t1,并据此得到解释变量矩阵E0、访问量矩阵F0对t1的回归方程:
F0=t1r1+F1 (9)
其中,P1和r1均为回归系数,前者为向量,后者是标量;E1,F1分别是方程(8)和(9)中E0和F0的残差矩阵;
4.2)利用步骤4.1)中的偏最小二乘的成分提取方法,根据交叉有效性原则,共从解释变量矩阵E0中提取h个主成分:t1,…,th;则所求用户访问量矩阵F0在t1,…,th上的偏最小二乘回归方程为:
本发明产生的有益效果是:
(1)在数据处理的效率上:采用Hadoop云技术框架,对海量公共地图访问日志进行并行化清理、解析、结构化存储和统计分析,基于IP地址快速解析地图用户所在城市信息,并统计出各城市公共地图用户访问量,极大的提升了海量公共地图用户访问日志数据的处理效率。
(2)在研究城市的选择上:根据城市公共地图用户访问量的排序结果,选取排名靠前的城市作为研究对象。这些城市通常是在我国经济社会中占有一席地位的重要城市,公共地图的普及程度较高,具有较大的研究价值。
(3)在影响因素的选择上:充分考虑了城市规模以及社会发展两个方面的影响,从与城市空间差异综合特征息息相关的城市规模、人口素质、GDP、公共交通发展水平、公共服务业发展水平五大方面选取解释变量,考虑全面而详细。
(4)在模型构建上:PLSR模型充分利用了城市发展特征的有效信息,克服了城市社会经济各变量之间较强的多重共线性,并通过求取各公共地图用户访问量解释变量VIP值量化各因素对公共地图用户访问量的影响力大小,重复性强。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的各解释变量的VIP值分布图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种基于偏最小二乘回归的城市公共地图用户访问量差异因素分析方法,包括了以下步骤:
步骤1:研究对象的选取。
采用Hadoop云技术框架,处理和分析海量公共地图用户访问日志。因服务器响应异常和错误,用户日志常出现乱码、信息缺失等问题。在进行日志统计和分析前,需要对原始日志数据进行预处理,剔除乱码数据和不合格式的数据。之后对其访问字段进行划分并删除冗余字段,以确保处理后的日志数据具有固定的格式。
为了真实准确的探究人类用户的群体行为特征,在进行数据预处理的过程中,我们需要识别并剔除机器用户。为此,我们统计日志中每一个IPj(j=1,2,3,…)访问的次数AccessNumj,当其日请求次数超过指定阈值L时,将IPj产生的所有访问数据剔除,以避免机器用户等大规模访问用户的影响。
通过当下流行的IP地址库,对访问记录的IP地址进行快速解析以获得地图用户所在城市信息,并统计获得各城市公共地图用户访问量。
按照公共地图用户访问量对城市进行排序,依据排名选择具有大访问量的28个城市作为研究对象,分别为:北京、上海、广州、深圳、天津、苏州、武汉、无锡、杭州、成都、合肥、兰州、南京、重庆、厦门、郑州、贵阳、温州、宁波、青岛、福州、济南、嘉兴、西安、南昌、昆明、贵阳、太原。
步骤2:影响因素与解释变量的选取。依据城市规模及其社会发展状况的空间差异综合特征,提取并简化公共地图用户访问量的影响因素及解释变量。
城市的面积与人口数量在很大程度上决定了一个区域的地图用户数量,用户数量深刻影响着这个城市公共地图的用户访问量。因此,城市规模是研究城市公共地图用户访问量差异的重要因素。
根据CNIT-Research(中国IT研究中心)发布的研究报告,公共地图用户具有受教育程度高、年轻化的特点,六成左右的用户受过高等教育,年龄在18-40岁的用户占总用户的73%,因此人口质量也是访问量差异研究的重要因素。
作为重要的社会指标,城市的人均GDP衡量着一个城市的经济发展水平,也被选为影响因素。此外,公共地图的主要功能包含交通设施和路线的查找、餐饮等附近服务业的搜索,因此,城市的公共交通发展水平和公共服务业发展水平也是影响区域地图用户访问量的重要指标。
与上述五个影响因素相对应,我们选取14个解释变量来解释城市间地图用户访问量差异,如下表所示。
表1影响因素与解释变量
步骤3:采用z-score标准化方法,对数据进行标准化处理,使所有数据处于同一量纲之下,去除数据的单位限制,将所有数据转化为无量纲的纯数值,以便于不同单位或量级的指标能够进行比较和表示。
将28个样本城市,随机平分为建模数据和验证数据。其中建模数据包含的14个城市为:北京,上海,广州,杭州,成都,温州,宁波,武汉,济南,西安,南京,重庆,郑州,无锡。验证数据包含的14个城市为:深圳,天津,兰州,合肥,福州,嘉兴,青岛,太原,苏州,南昌,昆明,长沙,厦门,贵阳。因变量只有一个,即城市公共地图用户访问量。则因变量用户访问量的数据矩阵是一个14*1矩阵,解释变量的数据矩阵是一个14*14矩阵。利用z-score标准化方法,我们将进行标准化处理后的用户访问量数据矩阵记为F0,标准化处理后的解释变量数据矩阵记为E0。在上述公式(1)(2)中,E(y)表示各城市公共地图用户访问量Y的平均值,SY为Y的标准差,E(xi)为第i(i=1,2,3,…,14)个解释变量xi的均值,为解释变量xi的标准差。
步骤4:利用主成分分析法对解释变量矩阵E0进行成分提取,并根据交叉有效性原则确定提取的解释变量成分个数h,使得主成分既能代表解释变量矩阵E0的变异信息,又能使解释变量矩阵E0与用户访问量矩阵F0的相关程度达到最大,并确定用户访问量矩阵F0与h个解释变量成分之间的偏最小二乘回归方程。
步骤4.1:按照如下公式,从自变量矩阵E0中提取第一个主成分t1,使t1尽可能多的携带解释变量矩阵E0的变异信息。按照同样方法,依据公式(4)从访问量矩阵F0中提取第一个成分u1。
t1=E0w1 (3)
u1=F0c1 (4)
其中,w1为E0的第一个轴,它是一个单位向量,即‖w1‖=1;c1是F0的第一个轴,并且‖c1‖=1。t1,u1包含着解释变量与用户访问量进行标准化后的数据信息,并且要求解释变量的成分t1可以最大程度的解释用户访问量的成分u1。参照典型相关分析和主成分分析的思想,即要求t1与u1之间的协方差最大。这个过程实际上是一个最优化的过程。
在公式(5)中,θ1是优化的目标函数,w1是的特征向量,是与其对应的特征值。c1为与的最大特征值对应的单位特征向量。在这里只讨论单变量的最小二乘回归建模,所以c1=1,则u1=F0。w1和t1的计算方式分别如公式(6),(7)所示:
其中,r(xi,y)为原始解释变量xi和因变量y之间的相关系数。在得到w1之后,便可以根据公式计算出第一个成分t1,并据此得到E0、F0对t1的回归方程:
F0=t1r1+F1(9)
其中,P1和r1均为回归系数,前者为向量,后者是标量;E1,F1分别是方程(8)和(9)中E0和F0的残差矩阵。
步骤4.2:利用步骤4.1叙述的偏最小二乘的成分提取方法,根据交叉有效性原则,共从自变量矩阵E0中提取h个主成分:t1,…,th;其大致内容为:
当预测变量平方和PRESS取最小值时,模型的拟合效果最好,而这个时候提取的成分个数h就是最佳成分数。
当h=2时PRESS取得最小值,模型的拟合效果最好。在此基础上,获得各成分解释率表格如下表2所示,该表给出了提取的两个成分t1和t2对14个原始解释变量xi的解释率,以及对解释变量集合整体X的整体解释率和对因变量Y的解释率。解释率越高说明成分提取的效果越好,研究中,两个成分对解释变量集合X和因变量Y的解释率均超过0.9,说明提取的效果很好。其中,累积解释率Rd的计算公式如公式(11)所示。
表2各成分解释率
所求访问量矩阵F0在解释变量矩阵E0的主成分t1,…,th上的最小二乘回归方程为:
实验获得如下标准化回归方程:
Y=0.7751*x1+0.6263*x2+0.1809*x3+0.1098*x4+0.0627*x5+0.5561*x6+0.4960*x7+0.3335*x8+0.4120*x9+0.3390*x10+0.3320*x11+0.2281*x12+0.2098*x13+0.2252*x14
步骤5:根据偏最小二乘回归分析,求取各个影响因素的变量重要性指标(VIP),用以定量化比较各个影响因素的贡献值大小。
统计得到影响城市公共地图用户访问量的解释变量VIP值如图2所示。
当变量的VIP值大于0.8,这个变量对因变量的影响十分显著不可忽略。由结果显示,VIP超过0.8的解释变量有8个,VIP值最高的城市面积为2.1,其次城市人口数量为2.0。将属于同一类影响因素的解释变量VIP值的平均值,作为该类影响因素的VIP值。则城市规模的VIP值为2.05,公共交通发展水平的VIP值为1.12,公共服务业发展水平的VIP值为0.71,人口质量指标的VIP值为0.55,经济指标GDP的VIP值为0.3,反映了各影响因素对城市公共地图用户访问量影响大小。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种城市公共地图用户访问量差异因素分析方法,其特征在于,包括以下步骤:
1)研究对象的选取与数据采集:采用Hadoop云技术框架,对海量公共地图访问日志数据进行处理,基于IP地址快速解析地图用户所在城市信息,获得各城市公共地图用户访问量数据;
2)确定影响因素与解释变量;所述影响因素包括城市规模、该城市的人口质量、经济水平、公共交通发展水平和公共服务业发展水平;所述解释变量包括对应城市规模的城市的面积x1与人口数量x2;对应人口质量的人均受教育年限x3和18至40岁人口占比x4;对应经济水平的人均GDP x5;对应公共交通发展水平的日均客运量x6、地铁站数量x7、公交站数量x8、停车场数量x9和加油站数量x10;对应公共服务业发展水平的餐饮店数量x11、旅游景点数量x12、酒店数量x13和金融设施数量x14;
3)采用z-score标准化方法,对数据进行标准化处理,使所有数据处于同一量纲之下,然后去除数据的单位限制,将所有数据转化为无量纲的纯数值,并得到用户访问量的数据矩阵和解释变量数据矩阵;
所述数据包括步骤1)中的选取n个城市的用户访问量数据和步骤2)中的解释变量数据;
所述数据矩阵的形成方法如下:假设有m个城市公共地图用户访问量的解释变量,作为函数自变量;选取n个城市的用户访问量,作为样本点;因变量为城市公共地图用户访问量,则用户访问量的数据矩阵是一个n*1矩阵,解释变量的数据矩阵是一个n*m矩阵;利用z-score标准化方法,将进行标准化处理后的用户访问量数据矩阵记为F0,标准化处理后的解释变量数据矩阵记为E0;
4)利用主成分分析法对解释变量矩阵E0进行成分提取,并根据交叉有效性原则确定提取的解释变量成分个数h,使得主成分既能代表解释变量矩阵E0的变异信息,又能使解释变量矩阵E0与用户访问量矩阵F0的相关程度达到最大,并确定用户访问量矩阵F0与h个解释变量成分之间的偏最小二乘回归方程;
5)根据偏最小二乘回归分析,求取各个解释变量的变量重要性指标,用以定量化比较各个解释变量对城市公共地图用户访问量的贡献程度。
2.根据权利要求1所述的城市公共地图用户访问量差异因素分析方法,其特征在于,所述步骤1)中选取的城市公共地图用户访问量数据为对城市进行访问量排序,依据排序结果选择访问量排名前28的城市作为公共地图用户访问量的研究对象。
4.根据权利要求1所述的城市公共地图用户访问量差异因素分析方法,其特征在于,所述步骤4)具体如下:
4.1)按照如下公式(3),从解释变量矩阵E0中提取第一个解释变量主成分t1,即t1是解释变量xi,的线性组合,i=1,2,…,m;依据公式(4)从访问量矩阵F0中提取第一个主成分u1,
t1=E0w1 (3)
u1=F0c1 (4)
其中,w1为E0的第一个轴,‖w1‖=1;c1是F0的第一个轴,并且‖c1‖=1;t1,u1包含着解释变量与用户访问量进行标准化后的数据信息,并且要求解释变量的成分t1最大程度的解释用户访问量的成分u1;
要求t1与u1之间的协方差最大;
w1和t1的计算方式分别如公式(6),(7)所示:
其中,r(xi,y)为解释变量xi和用户访问量y之间的相关系数;在得到w1之后,根据公式(7)可计算出解释变量矩阵E0的第一个成分t1,并据此得到解释变量矩阵E0、访问量矩阵F0对t1的回归方程:
F0=t1r1+F1 (9)
其中,P1和r1均为回归系数,前者为向量,后者是标量;E1,F1分别是方程(8)和(9)中E0和F0的残差矩阵;
4.2)利用步骤4.1)中的偏最小二乘的成分提取方法,根据交叉有效性原则,共从解释变量矩阵E0中提取h个主成分:t1,…,th;则所求用户访问量矩阵F0在t1,…,th上的偏最小二乘回归方程为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810115237.2A CN108428205B (zh) | 2018-02-06 | 2018-02-06 | 一种城市公共地图用户访问量差异因素分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810115237.2A CN108428205B (zh) | 2018-02-06 | 2018-02-06 | 一种城市公共地图用户访问量差异因素分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108428205A CN108428205A (zh) | 2018-08-21 |
CN108428205B true CN108428205B (zh) | 2022-02-01 |
Family
ID=63156609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810115237.2A Active CN108428205B (zh) | 2018-02-06 | 2018-02-06 | 一种城市公共地图用户访问量差异因素分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108428205B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986552B (zh) * | 2019-05-24 | 2022-04-15 | 北京四维图新科技股份有限公司 | 地图数据质量鲜度获取方法、装置及存储介质 |
CN111667095A (zh) * | 2020-04-30 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 预测经济状态、建立经济状态预测模型的方法及对应装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US20140279053A1 (en) * | 2013-03-14 | 2014-09-18 | Did-It | System and method for applying spatially indexed data to digital advertising bids |
CN104077322A (zh) * | 2013-03-30 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 基于问题的地理信息挖掘方法及系统 |
-
2018
- 2018-02-06 CN CN201810115237.2A patent/CN108428205B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108428205A (zh) | 2018-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022089031A1 (zh) | 一种基于大数据和人工智能的网络优化方法 | |
CN105183870B (zh) | 一种利用微博位置信息的城市功能区探测方法及系统 | |
CN109299380B (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
CN104679942B (zh) | 一种基于数据挖掘的建设用地承载效率测度方法 | |
CN104424231B (zh) | 多维数据的处理方法及装置 | |
WO2022198963A1 (zh) | 基于大数据的商业空间品质评价方法、系统、设备及介质 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
CN108428205B (zh) | 一种城市公共地图用户访问量差异因素分析方法 | |
CN111651502B (zh) | 一种基于多子空间模型的城市功能区识别方法 | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN108921734A (zh) | 一个基于多源异构数据的房地产信息可视化系统 | |
CN108038734B (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
CN115422441A (zh) | 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法 | |
CN107480222B (zh) | 基于微博数据的城市群空间联系强度测度系统 | |
CN115935076A (zh) | 基于人工智能的旅游服务信息推送方法及系统 | |
CN111027771A (zh) | 景区客流量预估方法、系统、装置及可存储介质 | |
CN108376260A (zh) | 一种基于最优子集优化的svr旅游需求预测方法 | |
CN111710157B (zh) | 一种出租车热点区域的提取方法 | |
Keskin et al. | Cohort fertility heterogeneity during the fertility decline period in Turkey | |
CN110400160B (zh) | 识别竞品用户的方法、装置、电子设备和存储介质 | |
Xu et al. | Improved Statistical Analysis Method Based on Big Data Technology | |
CN114613139B (zh) | 一种适用于大型体育活动交通预测的出行生成预测方法 | |
CN110110583A (zh) | 一种实时在线一体化桥梁模态自动识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |