CN108898244B

CN108898244B - 一种耦合多源要素的数字标牌位置推荐方法

Info

Publication number: CN108898244B
Application number: CN201810593593.5A
Authority: CN
Inventors: 张珣; 谢小兰; 于重重; 马广驰; 靳敏; 王雨雪
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2021-07-20
Anticipated expiration: 2038-06-11
Also published as: CN108898244A

Abstract

本发明公布了一种高效科学的耦合多源要素的数字标牌位置推荐方法，通过要素处理、区域划分、位置推荐、模型验证，自动地完成对数字标牌的位置推荐，实现数字标牌的准确选址。本发明方法综合考虑多源要素，推荐位置的参考依据强、时效性高、精准性高、数字标牌影响效果佳，能够满足众多广告主和媒体商的利益需求，可推广到具有数字标牌位置选址需求的多种应用领域。

Description

一种耦合多源要素的数字标牌位置推荐方法

技术领域

本发明属于数字标牌选址技术领域，涉及数字标牌位置推荐方法，具体涉及一种耦合多源要素的数字标牌位置推荐方法。

背景技术

数字标牌是指在人流会聚的公共场所，通过数字标牌终端显示设备，发布商业、财经和娱乐等信息的多媒体专业视听系统，作为一种新兴的媒体，已成为现代城市实体广告的重要媒介。与传统的电视广告、报纸广告相比，数字标牌更具有灵活性，可以根据不同受众群体，进行个性化、定制化广告投放。数字标牌发展至今仅有20多年的历史，其应用却遍及工作和生活的各个领域，数字标牌的广泛应用给社会带来了不可估量的产业价值。

数字标牌的产业链可以包含如下过程：(1)数字标牌供应商负责生产制造数字标牌；(2)数字标牌媒体商购买数字标牌并选择位置与布设；(3)广告代理商按照广告商需求向媒体商购买数字标牌的广告位。近年来国内数字标牌产业发展迅速。数字标牌兴起阶段，这一阶段主要集中在数字标牌生产、研发与制造工作；数字标牌的应用阶段，这一阶段主要是数字标牌的大范围应用，通过不断的推广宣传在机场、酒店、商场等地点开始布设并应用数字标牌，数字标牌的布设数量迅速增加；数字标牌科学化管理阶段，随着数字标牌广泛使用，由于所布设的数字标牌数量急剧增加，数字标牌相关者开始考虑对数字标牌进行科学化、规范化管理工作。

目前，企业对数字标牌的选址主要由人工完成，存在着时效性低、缺乏参考依据、数字标牌影响效果不明显等问题，难以满足众多广告主和媒体商的利益需求。因此亟需对数字标牌引入精确位置推荐方法进行规范化管理。

现有的位置推荐方法，依据不同的选址策略，一般包括基于内容的推荐算法(Content-Based Filtering,CBF)、协同过滤算法(Collaborative Filtering,CF)和混合推荐算法(Hybrid Recommendation,HR)三类。Hofmann等将机器学习的方法运用到了位置推荐中，提高了推荐的效率，但该算法主要针对单一要素，无法对多源要素进行综合分析。Cheng C等将时间维度特性引入位置推荐中，并利用时间特性来提高位置推荐的性能，但该方法尚未探讨地理位置的空间分布特征，难以有效的提高推荐的准确性。

发明内容

为了克服上述现有技术的不足，本发明提供一种高效科学的耦合多源要素的数字标牌位置推荐方法，通过要素处理、区域划分、位置推荐、模型验证，自动地完成对数字标牌的位置推荐，实现数字标牌的准确选址。本发明方法综合考虑多源要素，推荐位置的参考依据强、时效性高、精准性高、数字标牌影响效果佳。

本发明提供的技术方案是：

一种耦合多源要素的数字标牌位置推荐方法，包括：要素处理、区域划分、位置推荐、模型验证四个步骤；具体过程包括：

1)要素选取及处理：构造空间化的数字标牌区位因子，得到数字标牌区位因子的标准格网栅格图层，包括其像素值及对应的坐标值；执行如下操作：

11)筛选对城市数字标牌布设产生直接影响、且相互之间独立性和可操作性均较强的要素，作为数字标牌区位因子；

12)对数字标牌区位因子进行空间化处理，得到数字标牌区位因子规则格网栅格数据；

13)对数字标牌区位因子进行归一化处理；

2)区域划分：利用多种空间聚类算法对研究区的经过归一化处理的数字标牌区位因子进行区域划分，通过聚类评价标准来比较不同聚类方法，利用最大信息系数测算得到每个分区各数字标牌区位因子的最优比例关系；

21)利用多种空间聚类算法对数字标牌区位因子数据进行区域划分；

具体实施时，选取的多种空间聚类算法包括：K-means聚类算法、BIRCH聚类算法、DBSCAN聚类算法和SOM聚类算法。

22)利用聚类评价标准来比较不同的聚类方法，得到对研究数据聚类最佳的空间聚类算法；

本发明具体实施区域划分时，选取的聚类评价标准为Calinski-Harabaz指数；计算得到的指数值越高，说明聚类效果越好，由此得到最适合本发明实施区域划分的聚类算法。

23)用最大信息系数来定义数字标牌区位因子对数字标牌分布的影响程度，进而通过最大信息系数计算，得到每个分区各数字标牌区位因子的最优比例关系；

其中，最大信息系数定义为：

其中,MIC(D)值代表数字标牌区位因子在区域D中的权重；B(n)为网格划分x×y的上限，M(D)x,y为定义的特征矩阵。得到的MIC(D)值代表数字标牌区位因子在区域D中的权重，表示为B，Bi＝{B_i1,B_i2,…,B_in},i＝1,2,3,…n；Bi表示第i个地块中的数字标牌区位因子权重，B_in表示第i个地块中第n个数字标牌区位因子权重；

本发明使用最大信息系数来定义数字标牌区位因子对数字标牌分布的影响程度，即对于已经划分好的区域中数字标牌区位因子作为样本A，得到的MIC值即代表数字标牌区位因子在该区域中的权重B，即得到每个分区各数字标牌区位因子的最优比例关系。再将数字标牌区位因子向量(Ai＝{A_i1,A_i2,…A_in}，i＝1,2,3,…n；Ai表示第i个地块的数字标牌区位因子样本，A_in表示第i个地块中第n个数字标牌区位因子)和其数字标牌区位因子权重(Bi＝{B_i1,B_i2,…,B_in},i＝1,2,3,…n；Bi表示第i个地块中的数字标牌区位因子权重，B_in表示第i个地块中第n个数字标牌区位因子权重)求乘积作为推荐算法的数据源(A×B)。

3)位置推荐：利用核密度分析法计算数字标牌样本点在其周围邻域中的密度，利用欧氏距离计算数字标牌样本点之间的相似性，最后将两者结合进行数字标牌位置推荐；

具体地，核密度值的高低代表数字标牌分布的聚集离散程度，即样本点的核密度值越高表明该样本点中的数字标牌分布越密集，进一步表明该样本点的特征越适合数字标牌的布设。

31)通过核密度分析法计算得到数字标牌样本点的核密度值；

32)利用欧氏距离计算已布设数字标牌样本点与未布设数字标牌样本点之间的相似性；

33)从已布设数字标牌中选出与未布设数字标牌相似性最高的前三个样本点；将这三个样本点的相似性与其核密度值加权求平均，为每个未布设数字标牌的地块计算得到一个在0-1之间的分数，该分数即表示该地块适合布设数字标牌的程度。

4)模型有效性验证；

本发明具体实施时，利用精确率、召回率以及F值对数字标牌位置推荐模型进行有效性验证。

针对上述耦合多源要素的数字标牌位置推荐方法，具体地：

步骤1)要素选取及处理中，构造空间化的数字标牌区位因子(包括但不限于人口普查要素、交通要素、房价、社交网络签到、经济普查要素)，得到数字标牌区位因子的标准格网栅格图层，包括其像素值及对应的坐标值；

在构造数字标牌区位因子过程中，考虑到资料获取的难易程度以及影响因素难以量化等原因，本发明主要按照基础性、前瞻性、易获取、可定量、区域全覆盖等原则，筛选对城市数字标牌布设产生直接影响、而相互之间独立性和可操作性均较强的要素。故而选取了城市常住人口数目、城市期末从业人口数目、城市交通网络中心性指数、城市建筑物平均房价以及社交网络公众签到(check-in)数量，作为本发明方法中的数字标牌区位因子。

A1.对数字标牌区位因子进行空间化处理：

将选取的数字标牌区位因子经过预处理，删除部分异常数据。然后，经过地理编码匹配、投影转换和数据纠偏，即得到数字标牌区位因子空间数据。通过空间连接操作，将数字标牌区位因子空间数据按照面积权重赋值到500米规则格网中，并且将矢量数据转换成栅格数据，由此得到500m数字标牌区位因子规则格网栅格数据。

A2.对数字标牌区位因子进行归一化处理：

由于各数字标牌区位因子有着不同的量纲和数量级，若直接对原始数据进行处理，可能会忽略数量级较小的指标，使得推荐结果不够准确。为了使不同的量纲之间也能进行比较，必须先对原始的样本点资料数据矩阵利用无量纲化处理的方法做适当的变换，对筛选得到的要素进行标准化预处理，使得这些要素属性统一在[0,1]区间上。此技术方法中采用最小-最大值标准化方法进行归一化处理。通过最小-最大规范化对原始数据进行线性变换，构建模型如下：

式2中，max为样本最大值，min为样本最小值；×为原始样本点数据；×^*为经过归一化后的样本点数据。

步骤2)利用空间聚类算法对研究区的数字标牌区位因子数据进行区域划分，通过聚类评价标准来比较四种聚类方法，通过最大信息系数计算，得到每个分区各数字标牌区位因子的最优比例关系。

对研究区的空间区域划分是将研究区在空间上依据影响因素进行区域划分，在机器学习算法中，此划分方法属于无监督学习；而空间聚类算法是典型的无监督机器学习算法，能在描述数据是如何组织或聚类的同时，根据其数据特征生成以簇为单位的数据对象集合。同一个簇中的对象彼此相似，不同簇中的对象彼此相异。本发明选取四种经典的聚类算法，通过实验对比，得到最适合本发明区域划分的算法。

步骤3)所述位置推荐中，利用核密度分析法计算数字标牌点要素在其周围邻域中的密度。具体地:

在分布密度函数为f的总体中抽取出的样本为x₁,x₂...,x_i，f在点x处的分布密度估计值为f(x)，则空间位x处的核密度通过式3计算得到：

公式中，f_n(x)为空间位x处的核密度计算函数；核函数k(·)；带宽h＞0；(x-x_i)是估计点x到样本x_i处的距离。

本发明利用核密度函数对已布设数字标牌的样本点数据进行核密度分析。核密度值的高低代表数字标牌分布的聚集离散程度，即样本点的核密度值越高表明该样本点中的数字标牌分布越密集，进一步表明该样本点的特征越适合数字标牌的布设。

步骤3)所述位置推荐中，利用欧氏距离计算未布设数字标牌样本点与已布设数字标牌样本点之间的相似性。具体地:

本发明中用到的相似性计算方法为欧氏距离，欧氏距离是最常用的距离计算公式，用于衡量多维空间中各个点之间的绝对距离；两个样本之间的相似度dist(X,Y)通过式4计算得到：

其中，X和Y表示两个样本，x_i表示样本X中的第i个属性特征，y_i表示样本Y中的第i个特征属性.本发明中X表示已布设数字标牌地块样本，Y表示未布设数字标牌样本。x_i表示已布设数字标牌地块的第i个区位因子，y_i表示未布设数字标牌样本的第i个区位因子。

步骤3)所述位置推荐中，数字标牌位置推荐计算具体地：

将利用最大信息系数赋予权重后的数据作为数据源；然后利用核密度分析法计算数字标牌点要素在其周围邻域中的密度，同时利用欧氏距离计算数字标牌样本点之间的相似性，并选出与未布设数字标牌相似性最高的前三个样本点；最后将这三个样本点的相似性与其核密度值加权求平均，从而为每个未布设数字标牌的地块都算出一个在0-1之间的推荐分数，该分数即表示该地块适合布设数字标牌的程度。

步骤4)模型有效性验证中，具体地，精确率表示模型推荐布设数字标牌的地块中实际布设数字标牌的地块的比例；召回率表示实际布设数字标牌的地块中模型推荐布设数字标牌的地块的比例；利用F值来综合模型的精确率与召回率。

精确率是针对预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么，预测为正就有两种可能，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，精确率P表示如式5：

召回率是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。召回率R表示如式6：

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑，F值则是综合这二者指标的评估指标，用于综合反映整体的指标，表示如式7：

与现有技术相比，本发明的有益效果是：

本发明提供了一种高效科学的耦合多源要素的数字标牌位置推荐方法，通过要素处理、区域划分、位置推荐、模型验证，自动地完成对数字标牌的位置推荐，实现数字标牌的准确选址。本发明方法综合考虑多源要素，推荐位置的参考依据强、时效性高、精准性高、数字标牌影响效果佳，能够满足众多广告主和媒体商的利益需求，可推广到具有数字标牌位置选址需求的多种应用领域。

附图说明

图1是本发明提供的数字标牌位置推荐方法的流程框图。

图2是数字标牌区位因子空间化处理流程框图。

图3是本发明实施例中采用BIRCH算法在不同聚类参数下的Calinski-Harabaz指数值。

图4是本发明实施例中采用DBSCAN算法在不同聚类参数下的Calinski-Harabaz指数值。

图5是本发明实施例中采用K-MEANS算法在不同聚类数目‘K‘下的Calinski-Harabaz指数值。

图6是本发明实施例中采用SOM算法在不同聚类参数下的Calinski-Harabaz指数值。

图7是本发明实施例中采用不同算法的Calinski-Harabaz指数值比较。

图8是本发明实施例中的核密度分析结果图。

图9是本发明实施例中不同推荐分数阈值下分区与未分区的精确率对比图。

图10是本发明实施例中不同推荐分数阈值下分区与未分区的召回率对比。

图11是本发明实施例中不同推荐分数阈值下分区与未分区的F值对比。

图12是本发明实施例中经过K-MEANS分区后的推荐可视化结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明方法流程见附图1。以某市城区环路内为研究区为例，本发明方法具体实施包括如下具体步骤：

A.数字标牌区位因子选取并空间化处理

考虑到资料获取的难易程度以及影响因素难以量化等原因，本发明主要按照基础性、前瞻性、易获取、可定量、区域全覆盖等原则，筛选对数字标牌产生直接影响、而相互之间独立性和可操作性均较强的影响要素作为本发明的区位因子，然后对因子进行格网化和归一化处理。

收集了某市城区环路以内5823块户外数字标牌基础数据以及数字标牌影响要素数据。其中，数字标牌基础数据包括数字标牌地理位置以及数字标牌每15s的平均播放价格；数字标牌影响要素数据主要包括从统计口径获得的该市城区六环路内第三次经济普查中的期末从业人口数目和人口普查中的常住人口数量、房天下平均房价数据和新浪微博的社交网络签到数据，以及根据基础道路网络测算的交通网络中心性数据。

A1.数字标牌区位因子空间格网化

数字标牌区位因子空间化处理如附图2，通过地理信息系统软件空间连接操作，将房天下平均房价数据、社交网络签到数据、经济普查中的期末商业从业人口数据、人口普查中的常住人口数量数据、交通网络中心性数据5种数字标牌影响要素数据和数字标牌数据进行500m标准格网的面插值空间化处理，使所有数据都能在统一的尺度上进行可视化以及建模。

A3.对空间格网化数字标牌区位因子数据进行归一化处理

将经过空间化处理后的数字标牌区位因子作为样本点的属性数据，剔除无效因子，组成样本点资料矩阵X＝{x₁,x₂,…,x_n}，n为研究区地块的个数，每个地块又有m个指标来表征数字标牌区位因子属性，即表示为式8：

x_i＝{x_i1,x_i2,…,x_im}(i＝1,2,…,m) (式8)

得到样本点资料矩阵表示为式9：

其中，x_nm表示第n个地块的第m个区位因子的原始数据值。

通过最小-最大规范化对原始数据进行线性变换，构建模型表示如式10：

式10中，h_ij为归一化处理后的第j个数字标牌区位因子数据，x_ij为原始第j个数字标牌区位因子数据，x_j(max)为全部地块样本点中第j个区位因子的最大值，x_j(min)为全部地块样点中第j个区位因子的最小值。

B.利用聚类方法对城区六环内数字标牌进行区域划分；

具体聚类方法如下：

B1利用K-MEANS聚类算法对研究区的数字标牌区位因子数据进行区域划分：

K-MEANS算法是基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。对聚类结果具有较大的影响的是k个初始类聚类中心点的选取，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，误差平方和V的值没有发生变化，说明算法已经收敛。

式中，x_j是给定的数据对象，u_i是簇Si的平均值。

B2利用BIRCH聚类算法对研究区的特征数据进行区域划分：

BIRCH算法是用层次方法来聚类和规约数据，它用到了聚类特征(ClusteringFeature,CF)和聚类特征树(CF Tree)两个概念，用于概括聚类描述。聚类特征树概括了聚类的有用信息，并且占用空间较元数据集合小得多，可以存放在内存中，从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。BIRCH算法的主要思想是：通过扫描数据库，建立一个初始存放于内存中的聚类特征树，然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。

B3利用DBSCAN聚类算法对研究区的特征数据进行区域划分：

DBSCAN算法将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN需要二个参数：扫描半径(eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点；如果附近点的数量≥minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展；如果附近点的数量<minPts，则该点暂时被标记作为噪声点；如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

B4利用SOM聚类算法对研究区的特征数据进行区域划分：

自组织映射(Self-Organizing Maps,SOM)算法作为一种聚类和高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络，是一种非监督的聚类方法。SOM聚类由m个神经元组成的输入层和由a*b个神经元组成的二维平面阵列竞争层(或映射层)组成，两层之间神经元全部连接。为每个输入在竞争层中寻找最佳匹配点，即胜出点，并用梯度下降法更新节点参数。SOM聚类过程为：首先，对网络初始化，即对输入层和竞争层间的权值进行随机初始化，对m个输入神经元到输出神经元连接权值赋予较小权值，每个节点的参数个数与输入维度相同；其次，把输入向量X输入给输入层，找到与其最相配的节点，计算映射层的权值向量和输入向量的欧氏距离。

上述各个聚类算法的重要参数设置：

聚类算法的参数设置对其聚类效果产生重要影响。K-MEANS算法中调节参数为K值(聚类类别数目)；BIRCH算法中调节参数为阈值(threshold，最大样本半径)、分支因数(branching_factor，叶子节点数)；DBSCAN算法中调节参数为扫描半径(eps)、最小包含点数(minPts)；SOM算法中调节参数为neurons(聚类类别数目)，rate(学习率)。

B5.通过Calinski-Harabaz指数选取最适合的聚类方法

通过四种聚类算法分别划分区域，利用聚类评价标准来比较四种聚类方法，得到最优算法,进而确定每个分区各数字标牌区位因子的最优比例关系。

本发明选取的聚类评价标准为Calinski-Harabaz指数：CH(Calinski-Harabaz)指数是检测分配效果的统计测量指标，具体的公式如式12所示，其中Tr(B_k)和Tr(W_k)分别为类别间和类别内距离，CH指标表示测量类别间的差异大于类别内的差异，即聚类结果最优时CH取得最大值。

其中，B_k是类内散度矩阵，W_k是类间散度矩阵，B_k和W_k的计算如式13、式14：

式中，n是数据中的点数，C_q是聚类q中的点集，c_q是聚类q的中心，c是样本点的中心，

利用CH指数测算四种算法结果，指数值越高其聚类效果越好，故得到最适合本发明区域划分的聚类算法。通过计算获得每个分区各数字标牌区位因子的最优比例关系，为进一步进行位置推荐奠定基础。

通过调整每种聚类算法的参数值大小，得到不同的聚类数目，再分别利用CH指数对每种聚类方法进行计算，得到的CH指数最高值时的参数为每种聚类算法选取的最优参数。在Birch算法中，实验选择将branching_factor的值从2～10以步长1增加，将threshold的值设为{0.198，0.2，0.20005,0.2001，0.20015}，记录CH指数随不同branching_factor值和threshold值的变化情况，从附图3可以看出，对于相同的threshold值，CH指数值随不同branching_factor值的变化情况基本相同，而threshold值过小时CH指数值明显降低，当branching_factor＝4，threshold＝0.20015时CH指数达到最大；在DBSCAN算法中将min_samples的值从2～10以步长1增加，将eps的值设为{0.05，0.1，0.2，0.5}，记录CH指数随不同min_samples值和eps值的变化情况，从附图4可以看出，对于相同的eps值，CH指数值随着min_samples值的增加先增加而后基本不变，对于相同的min_samples值，CH指数随着eps值增大而减小，当min_samples＝8，eps＝0.05时CH指数达到最大；在K-MEANS算法中，将K值从2～10以步长1增加，记录CH指数随不同K值的变化情况，从附图5可以看出CH指数随着K值的增大而减小，当K＝2时CH指数值最大；在SOM算法中，将neurons值从2～10以步长1增加，将rate的值设为{0.01，0.05，0.08，0.1},记录CH指数随不同neurons值和rate值的变化情况，从附图6可以看出，在相同的rate值下，CH指数随着neurons值的增加先增加然后减小，对于不同的rate值，CH指数度随不同neurons值的变化情况基本相同，当rate＝0.1，neurons＝3时CH指数值最大。。

利用CH指数对已选出最优参数的四种聚类方法再次进行比较，CH指数最高值的为最优聚类方法。具体实施结果见附图7，从图中可以看出在参数最优时利用K-MEANS算法对研究区进行划分时的CH值最大，即利用K-MEANS算法对研究区进行划分时得到的聚类效果最好。

C.位置推荐算法选取屏址；

C1.通过K-MEANS聚类算法将归一化处理的数字标牌区位因子数据进行处理计算从而得到区域的划分，并利用最大信息系数计算得到每个分区各数字标牌区位因子的最优权重。

C2.为了从总体上反应研究区数字标牌的聚集程度而又不至太过细节化，利用核密度函数对已布设数字标牌的样本点数据进行核密度分析，分析结果见附图8。

C3.通过欧几里得方法来计算未设置数字标牌样本点与已有数字标牌样本点的相似性。即计算所得两个样本间距离越小，相似性越大。假使距离趋近于0，认为两个样本完全相似。

C4.将分区后得到的各个分区的区位因子权重与区位因子求乘积作为推荐的输入。然后利用核密度分析法计算数字标牌点要素在其周围邻域中的密度，同时利用欧氏距离计算数字标牌样本点之间的相似性，并选出与未布设数字标牌相似性最高的前三个样本点；最后将三个布设数字标牌样本点的相似性与其核密度相结合，为每个未布设数字标牌的地块都算出一个在0-1之间的分数，该分数即表示该地块适合布设数字标牌的程度，分数越高，表明其越适合布设数字标牌。

D.位置推荐结果验证

本发明设计了10组实验，将推荐分数的阈值设为0，0.1，0.2…0.9，利用精准率、召回率和F值三个指标来探索本发明提出的推荐算法的性能，同时对比经过分区和没有经过分区的指标，从而验证分区的有效性。

D1.精确率结果见附图9：模型的精确率随着推荐分数的增加而增加；在不同的推荐分数中，分区后的模型精确率都远高于未分区。召回率结果见附图10：模型的召回率随着推荐分数的增加而逐渐减小；在不同的推荐分数中，分区后的模型召回率都略高于未分区。结合精确率和召回率所得到的综合评价指标F结果见附图11：可以看出：F值随着推荐分数的增大先增加然后减小；在分数阈值为0.6时达到最大值，说明在该点处模型的精确率和召回率综合最好，此时模型的精确率为0.8175，召回率为0.8238；未分区的F值变化情况和分区后一致，但在不同的推荐分数中，分区后的F值都高于未分区，说明对研究区进行划分能够提高推荐的效果。

D2.本发明将推荐分数0.6作为推荐数字标牌的阈值，即当样本点的推荐分数大于0.6时，认为该样本点适合布设数字标牌，对推荐结果进行可视化展示如附图12所示，从图中可以看出适合布设数字标牌的区域总体上呈多中心分布，其集聚区主要分布在王府井、金融街、北京西站以及五环外西北方向的旅游景点等区域。

本发明的方法实现了数字标牌的位置推荐，方法检验结果表明：利用聚类算法进行区域划分比未划分区域得到更好选址结果，同时，利用本发明的方法进行数字标牌位置推荐具有较高的准确率，从而提高数字标牌布设的科学性与高效性，进一步提高数字标牌产品竞争力，使广告投放效益最大化、数字标牌资源配置最优化，具有更高的商业价值和经济效益。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种耦合多源要素的数字标牌位置推荐方法，通过构建数字标牌位置推荐模型实现耦合多源要素的数字标牌位置推荐，包括步骤：要素处理、区域划分、位置推荐、模型验证；具体过程包括：

1)要素选取及处理：构造空间化的数字标牌区位因子，包括但不限于人口普查要素、交通要素、房价要素、社交网络签到要素、经济普查要素，得到数字标牌区位因子的标准格网栅格图层，包括像素值及对应的坐标值；执行如下操作：

11)筛选出数字标牌区位因子；

13)对数字标牌区位因子进行归一化处理；

2)区域划分：利用多种空间聚类算法对步骤13)归一化处理的数字标牌区位因子进行区域划分，通过聚类评价标准比较不同聚类方法，利用最大信息系数测算得到每个分区各数字标牌区位因子的最优比例关系；执行如下操作：

22)利用聚类评价标准来比较不同的聚类方法，得到对分析数据进行聚类达到最佳聚类的空间聚类算法；

23)用最大信息系数定义影响数字标牌区位因子因素对数字标牌分布的影响程度，进而通过最大信息系数计算，得到每个分区各数字标牌区位因子的最优比例关系；

其中，最大信息系数定义为：

式1中，B(n)为网格划分x×y的上限值；M(D)x，y为特征矩阵；

得到的MIC(D)值代表数字标牌区位因子在区域D中的权重，表示为B，B_i＝{B_i1，B_i2，…，B_im}，i＝1，2，…，n；B_i表示第i个地块中的数字标牌区位因子权重，B_im表示第i个地块中第m个数字标牌区位因子权重；

对于已经划分好的区域中数字标牌区位因子作为样本A，A_i＝{A_i1，A_i2，…，A_im}，i＝1，2，…，n；A_i表示第i个地块的数字标牌区位因子样本，A_im表示第i个地块中第m个数字标牌区位因子；

将数字标牌区位因子向量A和其数字标牌区位因子权重B求乘积：A×B，作为推荐算法的数据源；

3)进行数字标牌位置推荐；执行如下操作：

31)利用核密度分析法计算数字标牌样本点在周围邻域中的密度，得到数字标牌样本点的核密度值；

33)从已布设数字标牌中选出与未布设数字标牌相似性最高的前s个样本点；将s个样本点的相似性与其核密度值加权求平均，为每个未布设数字标牌的地块计算得到一个在0-1之间的分数，该分数表示该地块适合布设数字标牌的程度；

4)验证模型的有效性，由此通过构建数字标牌位置推荐模型实现耦合多源要素的数字标牌位置推荐。

2.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，所述数字标牌区位因子包括：城市常住人口数目、城市期末从业人口数目、城市交通网络中心性指数、城市建筑物平均房价、社交网络公众签到数量。

3.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤12)对数字标牌区位因子进行空间化处理，具体地，将选取的数字标牌区位因子经过预处理，删除部分异常数据；经过地理编码匹配、投影转换和数据纠偏，得到数字标牌区位因子空间数据；再通过空间连接操作，将数字标牌区位因子空间数据按照面积权重赋值到500米规则格网中，并将矢量数据转换成栅格数据，由此得到500m数字标牌区位因子规则格网栅格数据；

步骤13)对数字标牌区位因子进行归一化处理，具体采用最小最大值标准化方法进行归一化处理，通过式2的最小-最大规范化对原始数据进行线性变换：

式2中，max为样本最大值，min为样本最小值；x为原始样本点数据；x^*为将经过归一化后的样本点数据。

4.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤2)区域划分选取的多种空间聚类算法包括：K-MEANS聚类算法、BIRCH聚类算法、DBSCAN聚类算法和SOM聚类算法；采用的聚类评价标准为Calinski-Harabaz指数；优选地，K-MEANS聚类算法为最佳聚类的空间聚类算法。

5.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤3)利用核密度分析法计算数字标牌点要素在其周围邻域中的密度；具体地：

设在分布密度函数为f的总体中抽取出的样本为x₁，x₂，…，x_i，f在点x′处的分布密度估计值为f(x′)，空间位x′处的核密度通过式3计算得到：

式中，f_n(x′)为空间位x′处的核密度值；核函数k(·)；带宽h＞0；(x′-x_i)是估计点x′到样本x_i处的距离；核密度值的高低代表数字标牌分布的聚集离散程度，样本点的核密度值越高表明该样本点中的数字标牌分布越密集，表明该样本点的特征越适合数字标牌的布设。

6.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤3)利用欧氏距离计算未布设数字标牌样本点与已布设数字标牌样本点之间的相似性；具体地，两个样本之间的相似度dist(X，Y)通过式4计算欧氏距离得到：

其中，dist(X，Y)为两个样本的欧氏距离，表示两个样本之间的相似度；X和Y表示两个样本，x_j表示样本X中的第j个属性特征，y_j表示样本Y中的第j个特征属性；其中X表示已布设数字标牌地块样本，Y表示未布设数字标牌样本；x_j表示已布设数字标牌地块的第j个区位因子，y_j表示未布设数字标牌样本的第j个区位因子。

7.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤33)中，s取值为3。

8.如权利要求1所述耦合多源要素的数字标牌位置推荐方法，其特征是，步骤4)采用精确率、召回率及F值对数字标牌位置推荐模型进行有效性验证；具体地：

精确率表示模型推荐布设数字标牌的地块中实际布设数字标牌的地块的比例；召回率表示实际布设数字标牌的地块中模型推荐布设数字标牌的地块的比例；利用F值来综合模型的精确率与召回率。

9.如权利要求8所述耦合多源要素的数字标牌位置推荐方法，其特征是，通过式5计算精确率P：

式5中，TP表示将正类预测为正类的样本；FP表示将负类预测为正类的样本；精确率P表示预测为正的样本中真正的正样本有多少比例；

通过式6计算召回率R：

式6中，TP表示将原来的正类预测成正类；FN表示将原来的正类预测为负类；召回率R表示样本中被正确预测的正类的比例；

通过式7计算F值：

式7中，F值综合精确率P和召回率R，为有效性验证的综合指标。