CN112650949B

CN112650949B - 基于多源特征融合协同过滤的区域poi需求识别方法

Info

Publication number: CN112650949B
Application number: CN202011642110.XA
Authority: CN
Inventors: 李婕; 刘宪杰; 于瑞云; 叶徳志; 王兴伟
Original assignee: 东北大学
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-12-29
Anticipated expiration: 2040-12-31
Also published as: CN112650949A

Abstract

本发明公开一种基于多源特征融合协同过滤的区域POI需求识别方法，包括：步骤1：获取区域相关数据和POI相关数据；步骤2：设计基于K近邻的MR访问推断算法，得到用户访问POI的区域轨迹数据；步骤3：分析处理区域相关数据和POI相关数据，以及用户访问POI的区域轨迹数据，变成神经网络可以输入的形式；步骤4：构建带有注意力机制的神经协同过滤模型；步骤5：优化带有注意力机制的神经协同过滤模型；步骤6：建模区域和POI之间的关系，得到每个区域的POI需求。本发明采用了多特征融合的协同过滤的手段，不仅考虑了人群轨迹，还结合了区域的地理特征以及POI的评价特征，通过神经协同过滤模型去建模区域和POI之间的关系，算法复杂度低，需求分析精度高。

Description

基于多源特征融合协同过滤的区域POI需求识别方法

技术领域

本发明涉及数据业务技术领域，尤其涉及一种基于多源特征融合协同过滤的区域POI需求识别方法。

背景技术

伴随着城市的发展，识别城市地区的兴趣点POI(Point-Of-Interest)的需求对建设智慧城市至关重要，比如城镇规划和商业位置的选择。关于这个问题，传统的基于用户的调查报告的需求识别算法，鲁棒性较差，而且滞后性强。目前主流的区域POI需求识别主要是针对某一类特征的POI去设计的，这种类型的预测虽然实用性比较强但是通用性很差，只能对某些特定的POI进行建模，模型不能拓展到其它领域。

发明内容

针对上述现有技术的不足，本发明提供一种基于多源特征融合协同过滤的区域POI需求识别方法(RPDRA,A Regional POI Demand Recognition Algorithm based onMulti-Source Feature Fusion andCollaborative Filtering)。

为解决上述技术问题，本发明所采取的技术方案是：基于多源特征融合协同过滤的区域POI需求识别方法，包括如下步骤：

步骤1：获取区域相关数据和POI相关数据；

所述区域相关数据包括移动基站数据和区域数据；

所述基站数据包括基站的MR数据、基站的信令数据、基站的APP上网日志和基站用户轨迹；所述区域数据从网站上爬取，收集的数据包括区域遥感图像这类图像特征，区域大小、平均年龄、居民收入、区域图像、人口密度、性别占比、住房占比这类数值型特征以及区域类型这种类别型特征；

所述POI相关数据包括POI评分数据、POI签到数据、商户评价信息、商户评分数据、POI位置信息、周围POI信息和POI类别。

步骤2：基于获取的区域相关数据和POI相关数据，设计基于K近邻的MR访问推断算法，得到用户访问POI的区域轨迹数据，过程如下：

步骤2.1：通过MR数据，信令数据，基站的APP上网日志构建位置指纹库；

所述构建位置指纹库采用了分布式的计算方式，通过Hadoop进行位置指纹库的构建，具体过程如下：

步骤2.1.1：将MR数据和基站APP上网日志以及信令数据存储到Hadoop的HDFS中；

步骤2.1.2：采用MapReduce的方式进行数据的运算，得到最终的位置指纹库。

步骤2.2：为指纹中的每个MR训练稀疏自动编码器以重构MR，实现对MR信号进行低维的向量表示，过程如下：

步骤2.2.1：提取MR信号的高阶特征：

给定了一个MR信号P＝{P₁，P₂，...，P_n}其中n为向量的维度大小，将其输入到单层的神经网络中得到：

Z＝f(W^TP+b) (1)

其中，W为权重矩阵，而b为长度为n的偏置向量，f函数为Relu函数；

f(x)＝max(0，x) (2)

由于单层的神经网络对数据的拟合程度不高，所以采用了堆叠的自编码器去提取更高阶的特征：

Z₁＝f(W₁ ^TZ+b₁) (3)

类似于此，可以堆叠多层的自编码器进行高阶特征提取：

由于稀疏网络在一定程度有具有判别性，所以采用了稀疏自编码器，即保留的最大的K个数在隐层层向量Z_n中，并让其它的值置为0：

Z_Γ＝0，Γ＝supp_k(Z) (5)

最后隐藏层通过解码器进行输出：

其中，为编码器输出的MR信号，W′表示经稀疏自编码器得到的权重矩阵，b′为偏置向量；

步骤2.2.2：计算损失函数，计算解码器的输出与之前编码器的输入的误差来计算损失，最终的损失函数如下：

其中，为之前编码器输出的MR信号；

步骤2.2.3：训练稀疏自编码器，得到MR信号的低维稀疏向量表达方式；

采用随机梯度下降的方式对稀疏自编码器进行训练，在不断训练和迭代之后，提取模型中得到的具有稀疏性质的隐向量作为MR信号的表达，在获取到MR信号的低维稀疏向量表示之后，就形成了以稀疏向量为基准的位置指纹库。

步骤2.3：进行K近邻的搜索位置指纹库，进行MR访问推断，得到用户访问POI的区域轨迹数据，过程如下：

有N个MR信号在位置指纹库中，先随机的选取个向量将其称为聚类中心点，然后对剩下的不是中心点的MR向量为其采取余弦相似计算最近的中心点；当给定一个新的查询MR向量mr₁先从/>个中心向量中利用余弦相似度查询到最相似的K个MR向量，然后再从这K个MR向量所在的集合中查询所有的MR向量，查询到最近的MR信号之后，就得到了用户的位置访问数据。

步骤3：分析处理区域相关数据和POI相关数据，以及用户访问POI的区域轨迹数据，变成神经网络可以输入的形式，方法如下：

步骤3.1：处理用户访问POI的区域轨迹数据；

在获取到用户级别的轨迹之后，将用户级别的轨迹汇集到区域层次上，并对轨迹进行相关性分析；对于每个区域而言，将从该区域流动的人群进行统计，得到区域级别的轨迹特征数据；用户级别的轨迹特征数据包括用户ID、出发POI、到达POI、出发区域、到达区域、时间、停留时长这些特征；汇总到区域级别的轨迹特征数据包括：区域名称、POI、流出量、时间这些特征；

步骤3.2：处理区域相关数据；

区域相关数据中区域大小、平均年龄、居民收入、人口密度、性别占比、住房占比属于数值型特征，区域图像属于图像特征，区域类型属于类别特征；

步骤3.2.1：通过U-NET网络处理遥感图像获取区域图像特征，将每个区域分为房屋，水体，植被和马路几类，提取基础特征图作为区域的图像特征，基于此，训练了用于遥感图像分割的U-NET网络，以充分描述遥感图像中的每个区域的信息；

步骤3.2.2：对于区域的类别型特征，采取独热编码的形式对特征进行处理，这样每个字符型的特征都能转换成神经网络的可输入形式；但是这种编码方式存在维度过高，且优化性较差等缺点，所以采用嵌入的方式对类别特征进行了处理；给定一个区域用u表示，对其进行one-hot编码后再进行嵌入表示：

e_u＝P^Tv_u (8)

其中，P是区域特征的嵌入矩阵，v_u是区域的特征向量，e_u为得到的区域的嵌入向量；通过上述公式，就得到了各类区域的嵌入向量表示；

步骤3.3：处理POI相关数据；

POI特征中POI类别、POI标签属于类别特征；POI评分属于数值特征，POI评价和POI名称属于文字特征；

步骤3.3.1：对于POI的文字特征数据利用知识集成ERNIE方法从POI评分和POI名称中提取POI特征；

步骤3.3.2:对于POI的类别特征采用了独热编码的模式，给定一个POI用i表示，对其进行one-hot编码后再进行嵌入表示：

e_i＝Q^Tv_i (9)

其中，Q是POI特征的嵌入矩阵，v_i是区域和POI的特征向量，e_i为POI的嵌入向量；通过上述公式，就得到了POI的嵌入向量表示；

步骤3.4：通过用户的轨迹序列构建POI图和区域图，每个POI和每个区域的向量表示形式，作为模型的输入层数据；

利用用户的轨迹行为，为所有用户行为中两个关联POI分配边缘权重e_ij；具体来说，边缘的权重等于在整个用户的访问行为历史中，项目i转换为项目j；在得到加权有向图后，记为G＝(V，E)，其中，V为节点，E为边；采用DeepWalk算法学习每个节点的嵌入；令M表示G的邻接矩阵，权重M_ij节点i指向节点j的次数；首先生成节点基于随机游走的序列，然后运行Skip-Gram序列算法；随机的转移概率被定义

其中，N₊(V_i)代表出站邻居的集合，即v_i的边指向N₊(V_i)中的所有节点，通过运行随机游走，生成许多序列；然后应用Skip-Gram算法来学习嵌入，这导致以下优化问题：

其中，C(v_i)代表的是v_i节点的上下文节点集合，f代表了转换函数，将节点转换成

向量表示；

通过上述方法，得到了每个POI和每个区域的向量表示形式。

步骤4：构建带有注意力机制的神经协同过滤模型；

带有注意力机制的神经协同过滤模型包括五个网络层，分别为：输入层，嵌入层，特征融合层，注意力机制层和预测层；模型输入层是用来接受输入数据的，需指定好输入的类型和输入的数量；嵌入层是对一些类别型特征的处理，对其进行特征映射，把高维向量变成低维向量；在嵌入层之后的是特征融合层，特征融合层的目的是将不同类型的特征进行融合，由于不同特征是在不同特征空间建模的，需要进行特征融合保证特征空间的一致性；注意力机制层会自动选择特征，为不同的特征赋予不同的权重，并且通过这些权重提供一定的模型解释性；注意力机制层后生成的是多通道的特征矩阵，然后预测层去学习这个多特征通道矩阵，最后得到预测值；

步骤4.1：本模型的输入层包括区域的ID，区域相关特征，区域的向量；POI的ID，POI相关特征，POI的文字特征；

步骤4.2：本模型的嵌入层采用了先进行独热编码再嵌入的方式对类别特征进行处理；

给定一个POI i和一个区域u，先对其one-hot编码然后进行嵌入表示

e_u＝P^Tv_u，e_i＝Q^Tv_i (12)

其中，P和Q是区域特征和POI特征的嵌入矩阵，v_u和v_i分别是区域和POI的特征向量，通过上述公式，得到各类区域和POI的嵌入向量表示；

步骤4.3：本模型的特征融合层通过感知机对特征进行非线性变化，使得各个特征的维度一致；

P＝Relu((W*P_i)+b) (13)

Q＝Relu((W*q_i)+b) (14)

其中，W，b分别是特征融合层的权重矩阵和偏置向量；

步骤4.4：引入注意力机制，得到归一化交互矩阵，方法如下：

步骤4.4.1：在本模型中引入注意力机制，注意力交互部分输出区域-POI对的表示以进行预测；

步骤4.4.2：对P_f和Q_f进行线性变换；其中，P_f为POI的特征向量，Q_f为区域的特征向量；

步骤4.4.3：对于每个区域-POI对，令D＝[d1，d2，...，dk]表示区域-POI对的输出表示，D通过如下方式获取：

D_r＝a_r，i⊙(p_i⊙q_r) (15)

其中，⊙表示元素乘积，而a_ri∈R^K是区域r对POI i的关注矩阵；从等式中，可以得出：

d_k＝a_r，i，k*p_i，k*q_r，k (16)

其中，d_k表示D中的第k个因子，它表明对于图的交互作用，p_i和q_r之间的每个因子，都有一个关注权重a_r，i来捕捉该POI因子对区域代理的重要性，即对POI方面的关注，因此，a_r，i，k对于每个区域-POI对都是唯一的，而a_r，i则定义为：

步骤4.4.4：在完成单个的注意力特征之后，然后通过拼接的方式得到整个的注意力矩阵；

M_f＝Concat[D₁，D₂，...，D_k] (18)

步骤4.4.5：由于特征的表达是在不同维度上的，所以需要对其进行层归一化操作，层归一化综合考虑一层所有维度的输入，计算该层的均值和方差，然后用同一个规范化操作来转换各个维度的输入，最终得到归一化特征交互矩阵；

其中，i代表了该层所有的输入神经元，μ为该层的标准差，σ为该层的方差，u为该层的均值，∈为偏置；

步骤4.5：本模型的预测层采用了卷积神经网络对其进行交互矩阵特征提取；对于注意力层输出的矩阵为：

T_L＝Conv_n(...Conv₁(M_f)) (20)

其中，L是卷积层的个数；

同时采用了Relu作为激活函数：

Relu(x)＝max(0，x) (21)

最终模型的输出结果为：

其中，W和b分别是最后的隐层层的权重和偏置。

步骤5：优化带有注意力机制的神经协同过滤模型，方法如下：

步骤5.1：在得到预测层的输出之后，计算输出与真实值的误差，采了均方差作为损失函数，如下：

其中，λ是l2正则化的权重，θ是模型的参数；

步骤5.2：在计算误差之后，模型采用自动求导的方式传递误差，然后利用模型优化器AdamW更新模型参数，完成模型的优化。

步骤6：通过带有注意力机制的神经协同过滤模型建模区域和POI之间的关系，得到每个区域的POI需求，方法如下：

步骤6.1：根据正态分布随机初始化权重，偏移量初始化为零，用小批量样本训练步骤5优化后的带有注意力机制的神经协同过滤模型；

步骤6.2：重复步骤6.1，循环将每个区域的样本输入到带有注意力机制的神经协同过滤模型中进行训练，来确定每个区域的POI需求。

采用上述技术方案所产生的有益效果在于：

1、本发明的方法利用基站的数据挖掘出来的用户轨迹能够涵括更多人的需求，更能发挥大数据的潜力；

2、本发明的方法采用了多特征融合的协同过滤的手段，不仅考虑了人群轨迹，还结合了区域的地理特征以及POI的评价特征；

3、本发明的方法提出了通过神经协同过滤模型去建模区域和POI之间的关系的算法，该算法对比现有的模型有了20％的相对提升，并能够达到不错的精度，同时算法的复杂的也不是很高，对解决实际生活中的区域POI需求识别问题，有一定的实际意义；

4、本发明的方法根据居民的访问情况进行区域的POI需求识别，从而得到每个区域对POI的需求情况，辅助商户选择系统或者城镇规划信息进行选址或者规划，最终提升企业的利润，减少企业开销，提升城市的服务水平，提升居民幸福指数。

附图说明

图1为本发明实施例中基于多源特征融合协同过滤的区域POI需求识别方法的流程示意图；

图2为本发明实施例中基于Hadoop的位置指纹匹配图；

图3为本发明实施例中基于稀疏自编码器的低维向量表示示意图；

图4为本发明实施例中稀疏k近邻算法的示意图；

图5为本发明实施例中区域分割方法示意图；

图6为本发明实施例中U-NET遥感影像分割示意图；

图7为本发明实施例中ERNIE模型结构图；

图8为本发明实施例中神经协同过滤模型架构图；

图9为本发明实施例中区域的POI需求排名结果图；

图10为本发明实施例中POI需求的区域排名结果图；

图11为本发明实施例中注意力权重矩阵图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤1：获取区域相关数据和POI相关数据；

所述区域相关数据包括移动基站数据和区域数据；

所述构建位置指纹库采用了分布式的计算方式，通过Hadoop进行位置指纹库的构建，基于Hadoop的位置指纹匹配图构建方式如图2所示，具体过程如下：

步骤2.2：为指纹中的每个MR训练稀疏自动编码器以重构MR，实现对MR信号进行低维的向量表示，过程示意如图3所示，具体如下：

步骤2.2.1：提取MR信号的高阶特征：

Z＝f(W^TP+b) (1)

f(x)＝max(0，x) (2)

Z₁＝f(W₁ ^TZ+b₁) (3)

类似于此，可以堆叠多层的自编码器进行高阶特征提取：

Z_Γ＝0，Γ＝supp_k(Z) (5)

最后隐藏层通过解码器进行输出：

其中，为之前编码器输出的MR信号；

稀疏k近邻算法示意图如图4所示，有N个MR信号在位置指纹库中，先随机的选取个向量将其称为聚类中心点，然后对剩下的不是中心点的MR向量为其采取余弦相似计算最近的中心点；当给定一个新的查询MR向量mr₁先从/>个中心向量中利用余弦相似度查询到最相似的K个MR向量，然后再从这K个MR向量所在的集合中查询所有的MR向量，查询到最近的MR信号之后，就得到了用户的位置访问数据。

步骤3.1：处理用户访问POI的区域轨迹数据；

由于步骤2得到的是基于人层次上的流动信息，要得到区域层次上的流动信息就必须根据某种方式进行区域分割。本实施例采用了一种基于行政区的区域划分方式，基于行政区的区域划分方式是指将区域按照政府规划区的方式进行分割，分割方式如图5所示。在获取到用户级别的轨迹之后，将用户级别的轨迹汇集到区域层次上，并对轨迹进行相关性分析；对于每个区域而言，将从该区域流动的人群进行统计，得到区域级别的轨迹特征数据；用户级别的轨迹特征数据包括用户ID、出发POI、到达POI、出发区域、到达区域、时间、停留时长这些特征；汇总到区域级别的轨迹特征数据包括：区域名称、POI、流出量、时间这些特征；

步骤3.2：处理区域相关数据；

步骤3.2.1：通过U-NET网络处理遥感图像获取区域图像特征，将每个区域分为房屋，水体，植被和马路几类，提取基础特征图作为区域的图像特征，基于此，训练了用于遥感图像分割的U-NET网络，以充分描述遥感图像中的每个区域的信息，U-NET遥感影像分割如图6所示；

e_u＝P^Tv_u (8)

步骤3.3：处理POI相关数据；

步骤3.3.1：对于POI的文字特征数据利用知识集成ERNIE方法从POI评分和POI名称中提取POI特征，ERNIE模型结构如图7所示；

e_i＝Q^Tv_i (9)

其中，C(v_i)代表的是v_i节点的上下文节点集合，f代表了转换函数，将节点转换成向量表示；

通过上述方法，得到了每个POI和每个区域的向量表示形式。

步骤4：构建带有注意力机制的神经协同过滤模型，模型架构如图8所示；

e_u＝P^Tv_u，e_i＝Q^Tv_i (12)

P＝Relu((W*P_i)+b) (13)

Q＝Relu((W*q_i)+b) (14)

其中，W，b分别是特征融合层的权重矩阵和偏置向量；

D_r＝a_r，i⊙(p_i⊙q_r) (15)

d_k＝a_r，i，k*p_i，k*q_r，k (16)

M_f＝Concat[D₁，D₂，...，D_k] (18)

T_L＝Conv_n(...Conv₁(M_f)) (20)

其中，L是卷积层的个数；

同时采用了Relu作为激活函数：

Relu(x)＝max(0，x) (21)

最终模型的输出结果为：

其中，W和b分别是最后的隐层层的权重和偏置。

其中，λ是l2正则化的权重，θ是模型的参数；

本实施例中，收集了从2018年03月至2018年6月的基站数据和145，695个POI的相关特征。包括POI的相关评分，位置等。并对其开店的时间进行了统计。对于区域数据本发明收集了139个区域的相关特征，以及对应的遥感影像地图，以及各个区域间的流动情况。

本实施例将所采集的数据按时间顺序划分成训练集和测试集，训练集的时间段是从2018年03月到2018年5月，测试集为2018年5月到6月。其中提取了训练集的轨迹数据，测试集中只包含新增的POI，在本实施例中认为测试集中新增的POI为该区域的需求。由于没有真实的POI需求，只能将下一个月新增的POI作为当前月的区域POI需求，因为现实生活中要没有POI的需求的话，不会存在POI的新增。

本实施例还选取了如下方法进行需求分析，包括：

(1)基于矩阵分解的方法(MF)。该算法主要是通过矩阵分解的手段将区域和POI进行关联，这种方式无法考虑区域特征和POI特征之间的关联，只是考虑了它们之间的交互情况。

(2)基于人流的方法(FBM)：该方式主要是利用区域人流的数据，只使用观测的数据，不对未观测到的人流忽略，不采用任何模型，输出从区域出发去其它区域的POI的前几类。

(3)基于隐向量的方法(RPDI)。该方法时基于隐向量的方法，学习区域和POI的潜在向量关系，这种方式能够融合区域的特征和POI的特征，帮助模型更好的学习区域和POI之间的关系。

(4)基于神经协同过滤的方法(NCF)。该方法时融合了矩阵分解的手段和神经网络去模拟POI和区域之间的关系，然后用统一的表达式学习区域和POI之间的交互情况。

采用上述方法进行需求分析的目的是，比较本发明的方法与上述方法需求分析的效果。

设置本实施例方法中的各个模型的参数，本实施例的模型参数主要包含两部分，第一部分是参数的预训练，第二部分是神经协同过滤算法的求解。在第一部分参数训练的过程中，比如对区域的向量表示工程中，需要用的图嵌入相关模型，在这一部分本发明采用的是带有权重的Deepwalk模型，其中的参数选择如下表1所示：

表1 Deepwalk模型相关参数

而对区域图片进行遥感影像分割的模型，采用的是U-NET。网络结构参数如下表2所示：

表2 U-NET模型相关参数

实验的神经协同过滤模型具体网络参数结构，如下表3所示:

表3神经协同过滤模型相关参数

本实施例主要采用了F1值和NDCG两种评价方式，F1和NDCG指标作为两种常见的方式在排序的模型中大量使用。

F1值在区域POI需求识别的任务中，能够更能衡量模型的准确性。而准确率或者召回率往往只能考虑其中某一方面的问题。

其中，Precision为精确率，Recall为召回率；

从公式中可以看出，F1是衡量识别的POI需求是否在是正确的，由于有多个POI需求，需要衡量在这识别的需求中，有哪些是正确的，有哪些是错误的需求。

NDCG是衡量排序的指标。由于目标是确定前K个POI需求给区域，越高的需求排名越高，所以本实施例采取了一种衡量排序的指标，公式如下所示：

其中IDCG(理想折扣累积收益)是给定排名组的最大可能POI列表，而r(i)为1如果排名的POI在新建的POI上，如果不在则等于0。

本实施例在区域POI需求识别就两类任务上的进行了实验对比，一是给定了一个区域输出前K个POI需求。二是给定一个POI，输出前K个对该POI有需求的区域。

(1)区域POI需求排名的结果

本实施例研究了对区域POI需求进行排名，对每个区域的POI需求进行排名的方法的性能。给定一个区域，对POI类别的需求进行排名，并将所有区域的结果汇总为最终结果。图9显示了关于top-k类别的F1得分和NDCG的性能。从图中可以看到RPDRA的总体性能要优于其他的。在所有地区的排名列表中，最需要的10个兴趣点如下：餐厅，酒吧，电影院，医院，购物中心，牙医，培训机构，服装店，美容院和咖啡馆。从中可以看到，大多数这些POI与本地企业都息息相关。为了满足需求，可以给当地居民带来很大的方便。此外，为了更好地解释各地区的排名结果，在表4中显示了几个排名前10位的地区需求的示例。

表4区域POI需求

(2)POI需求的区域排名结果图

当给定一个POI类别时，对有该POI需求的区域进行排名。图10显示了相对于前k个区域的F1度量和NDCG的性能。从图中可以看到RPDRA仍然能够获得比其他更好的整体性能。同时，RPDI具有可比的性能。同时为了更好地进行POI类别的排名结果，本实施例展示了四种典型的POI估计需求，即购物中心，咖啡厅，家政服务和医院，可以看到低收入地区的购物中心巨大，因为没有太多的购物中心。对于医院而言，既需要中心区也需要郊区。

(3)研究注意力机制对多源注意力神经协同过滤的影响

为了研究注意力机制对多源注意力神经协同过滤的影响，本实施例提取了注意力层中的注意力矩阵。注意机制能够可视化每个区域要素对POI要素的权重，以便提供可预测的建议。本实施例在图11展示了来自多源注意力神经协作过滤的权重热图。可以清楚地看到每个功能都有不同的注意权重，这意味着注意机制可以突出显示最重要的功能。并且，不同的头部具有其自己的注意矩阵，该注意矩阵可以从不同的角度捕获特征的重要性。另外，自我注意可以捕获全局相关性，避免人工进行交叉特征。

Claims

1.一种基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，包括如下步骤：

步骤1：获取区域相关数据和POI相关数据；

步骤2：基于获取的区域相关数据和POI相关数据，设计基于K近邻的MeasurementReport，MR访问推断算法，得到用户访问POI的区域轨迹数据；

步骤3：分析处理区域相关数据和POI相关数据，以及用户访问POI的区域轨迹数据，变成神经网络可以输入的形式；

步骤4：构建带有注意力机制的神经协同过滤模型；

步骤5：优化带有注意力机制的神经协同过滤模型；

步骤6：通过带有注意力机制的神经协同过滤模型建模区域和POI之间的关系，得到每个区域的POI需求；

所述步骤2的过程如下：

步骤2.2：为指纹中的每个MR训练稀疏自动编码器以重构MR，实现对MR信号进行低维的向量表示；

步骤2.3：进行K近邻的搜索位置指纹库，进行MR访问推断，得到用户访问POI的区域轨迹数据；

所述步骤4的方法如下：

e_u＝P^Tv_u,e_i＝Q^Tv_i (12)

其中，P和Q是区域特征和POI特征的嵌入矩阵，v_u和v_i分别是区域和POI的特征向量，通过上述公式(12)，得到各类区域和POI的嵌入向量表示；

P＝Relu((W*P_i)+b) (13)

Q＝Relu((W*q_i)+b) (14)

其中，W，b分别是特征融合层的权重矩阵和偏置向量；

D_r＝a_r，i⊙(p_i⊙q_r) (15)

其中，⊙表示元素乘积，而a_ri∈R^K是区域r对POIi的关注矩阵；从等式中，可以得出：

d_k＝a_r,i,k*p_i,k*q_r,k (16)

M_f＝Concat[D₁,D₂,...,D_k] (18)

其中，i代表了该层所有的输入神经元，μ为该层的标准差，σ为该层的方差，u为该层的均值，ò为偏置；

T_L＝Conv_L(…Conv₁(M_f)) (20)

其中，L是卷积层的个数；

同时采用了Relu作为激活函数：

Relu(x)＝max(0,x) (21)

最终模型的输出结果为：

其中，W和b分别是最后的隐层层的权重和偏置；

所述步骤5的方法如下：

其中，λ是l2正则化的权重，θ是模型的参数；

2.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于：所述区域相关数据包括移动基站数据和区域数据；

3.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，所述步骤2.1中构建位置指纹库采用了分布式的计算方式，通过Hadoop进行位置指纹库的构建，具体过程如下：

4.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，所述步骤2.2的过程如下：

步骤2.2.1：提取MR信号的高阶特征：

给定了一个MR信号P＝{P₁，P₂，…，P_n}其中n为向量的维度大小，将其输入到单层的神经网络中得到：

Z＝f(W^TP+b) (1)

f(x)＝max(0,x) (2)

Z₁＝f(W₁ ^TZ+b₁) (3)

类似于此，堆叠多层的自编码器进行高阶特征提取：

Z_Γ＝0,Γ＝supp_k(Z) (5)

最后隐藏层通过解码器进行输出：

其中，为之前编码器输出的MR信号；

5.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，所述步骤2.3的过程如下：

6.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，所述步骤3的方法如下：

步骤3.1：处理用户访问POI的区域轨迹数据；

步骤3.2：处理区域相关数据；

步骤3.2.2：对于区域的类别型特征，采取独热编码的形式对特征进行处理，这样每个字符型的特征都能转换成神经网络的可输入形式；采用嵌入的方式对类别特征进行了处理；给定一个区域用u表示，对其进行one-hot编码后再进行嵌入表示：

e_u＝P^Tv_u (8)

其中，P是区域特征的嵌入矩阵，v_u是区域的特征向量，e_u为得到的区域的嵌入向量；通过上述公式(8)，就得到了各类区域的嵌入向量表示；

步骤3.3：处理POI相关数据；

e_i＝Q^Tv_i (9)

其中，Q是POI特征的嵌入矩阵，v_i是区域和POI的特征向量，e_i为POI的嵌入向量；通过上述公式(9)，就得到了POI的嵌入向量表示；

通过上述方法，得到了每个POI和每个区域的向量表示形式。

7.根据权利要求1所述的基于多源特征融合协同过滤的区域POI需求识别方法，其特征在于，所述步骤6的方法如下：