CN113077053A

CN113077053A - 多元群体活动模式表征方法及目标地理活动区域识别方法

Info

Publication number: CN113077053A
Application number: CN202110289306.3A
Authority: CN
Inventors: 杨悦; 宋瑞良; 张海鹏; 李捷; 郑宏云; 曾显珣
Original assignee: Beijing Jiaotong University; CETC 54 Research Institute
Current assignee: Beijing Jiaotong University; CETC 54 Research Institute
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-06
Anticipated expiration: 2041-03-18
Also published as: CN113077053B

Abstract

本发明公开了一种多元群体活动模式表征方法及目标地理活动区域识别方法，属于神经网络技术领域。其根据多元群体活动的时间属性，生成与当前异质数据对应的时间签名信号；然后确定与当前异质数据对应的关联区域；接着生成与当前异质数据对应的三维张量；将当前异质数据的三维张量输入对应的自编码器模型，输出与当前异质数据对应的时空签名信号，并以特征向量的形式表达；最后将各异质数据的特征向量融合处理，生成当前基础活动单元的多元群体活动特征向量，即可表征当前基础活动单元内开展的多元群体活动模式。本发明不需要打标数据，降低了大量的人力物力成本，其综合考虑了时间和空间特性，能够大大提高土地用途识别的准确性。

Description

多元群体活动模式表征方法及目标地理活动区域识别方法

技术领域

本发明属于神经网络技术领域，具体涉及一种多元群体活动模式表征方法及目标地理活动区域识别方法。

背景技术

群体活动模式指的是人群生产生活行为的特点和规律，反映的是人类活动在群体层面上的活动规律。对其进行了解和研究，有助于解释若干复杂的社会经济现象，并在许多领域如通信信息服务、舆情监控、疾病防控、交通规划和城市管理等方面产生应用价值。一种具体的应用是基于人群活动的数据，例如手机数据、上网浏览数据、在线社交数据、交通出行数据等，分析人群活动的特点和规律，进而根据群体活动模式推断所处地理活动区域的类型，即该块土地是住宅区、商业区、车站还是公园绿地等。例如，在通信服务中，运营商需要识别感兴趣或不感兴趣的地理区域，进而管理和调度通信资源，从而改善用户体验；在城市计算领域，需要知道土地的用途，以便做城市规划和管理。

利用群体活动模式推测所处地理活动区域类型的基本步骤是：第一步，选取合适的群体活动数据；第二步，分析数据，抽取群体活动模式的特征，从而表征群体活动模式；第三步，对群体活动模式进行有监督或者无监督的学习，完成所处活动区域的类型识别。

在群体活动及其模式表达方面，现有技术考虑的大都仅是单一的群体活动模式，例如，要么是人群拨打移动电话的行为模式，要么是交通出行模式，或者GPS行动轨迹等行为模式。而环境不是影响群体活动模式的唯一因素，人们的心理、活动本身的特点以及其他经济社会因素都会对群体活动产生影响，人群的活动模式与地理活动区域的类型之间并不一定是理想的一一对应关系，仅依靠单一的活动模式，难以直接用于表征多元群体活动模式。

发明内容

本发明的目的在于解决现有技术中仅依靠单一的活动模式，难以直接用于表征多元群体活动模式的技术问题。为此，本发明提供一种多元群体活动模式表征方法及目标地理活动区域识别方法。

为了实现上述目的，本发明采用的技术方案为：

一种多元群体活动模式表征方法，包括以下步骤：

(1)获取目标地理活动区域的多元群体活动数据，所述多元群体活动数据包括至少两种异构群体活动产生的异质数据，所述异质数据是指在所述目标地理活动区域中所开展的、从不同侧面反映所述目标地理活动区域的使用功能的至少两种群体生产生活行为或活动所产生的数据，所述目标地理活动区域的地理平面被划分为具有多个等面积的网格，每个网格为一个基础活动单元，每个基础活动单元都包括至少两种异质数据；

(2)对每个基础活动单元中的每种异质数据进行如下处理：

(201)根据异构群体活动产生的异质数据的时间属性，生成与当前异质数据对应的时间签名信号；

(202)根据当前异质数据的时间签名信号，确定与当前异质数据对应的关联区域；

(203)根据当前异质数据的关联区域及其时间签名信号，生成与当前异质数据对应的三维张量，所述三维张量用于表征与当前异质数据对应的时空属性；

(204)将当前异质数据的三维张量输入对应的自编码器模型，输出与当前异质数据对应的时空签名信号，所述时空签名信号以特征向量的形式表达；

(205)将基础活动单元输出的每种异质数据的特征向量进行融合处理，生成该基础活动单元的多元群体活动特征向量；

(3)完成各基础活动单元的多元群体活动模式表征。

进一步的，步骤(201)的具体方式为：

选取时间窗口T，时间窗口T至少包括第一工作周、第二工作周和节日周，其中，第一工作周和第二工作周均包括工作日和周末，第二工作周和节日周为连续的两周；

以第一时间间隔，采集当前异质数据，生成与当前异质数据对应的原始时间序列；

以第二时间间隔，对原始时间序列进行下采样；第二时间间隔大于第一时间间隔；

生成与当前异质数据对应的时间签名信号。

进一步的，所述异质数据包括移动通信流量和耗电量。

进一步的，步骤(202)的具体方式为：

计算基础活动单元中当前异质数据的时间签名信号与该基础活动单元邻近的n×n-1个基础活动单元中第一异质数据的时间签名信号的相关系数，其中，第一异质数据与当前异质数据属于同一种数据；

根据计算得到的当前异质数据的各相关系数，确定与当前异质数据对应的具有强相关的邻近基础活动单元；

统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a；

根据相关率计算公式γ＝a/(n×n-1)，计算得到给定n下的相关率γⁿ，改变n的取值，找到与当前异质数据对应的相关率最大值max_nγⁿ，此时n＝k；

将以当前基础活动单元为中心的k×k个基础活动单元作为当前异质数据对应的关联区域。

进一步的，所述三维张量表达为f×k×k，其中，f为当前异质数据的时间签名信号的样点数量。

进一步的，所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层；步骤(204)的具体方式为：

将当前异质数据对应的三维张量输入对应的编码器模型的输入层；

根据输入的三维张量的时间属性，确定第一卷积层的长度l¹和步长s¹；

按照第一卷积层的长度l¹和步长s¹，将三维张量的张量尺寸由f×k×k处理为f₁×k₁×k₁，其中，f₁＜f，k₁＜k；f₁×k₁×k₁表示包括每个第一时间周期内的异质数据的时空属性，以及每个第二时间周期内的异质数据的时空属性，其中，第二时间周期小于第一时间周期；

通过第二卷积层将张量尺寸为f₁×k₁×k₁的三维张量压缩为张量尺寸为f₂×k₂×k₂的三维张量，其中，f₂＜f₁，k₂＜k₁；三维张量f₂×k₂×k₂表示包括每个第三时间周期内的异质数据的时空属性，第三时间周期大于第一时间周期；

通过第三卷积层将张量尺寸为f₂×k₂×k₂的三维张量压缩为张量尺寸为3×1×1的三维张量，压缩后的三维张量表示包括工作日、周末和节日三种不同日子的异质数据的时空签名信号。

进一步的，所述第一时间周期为一天，所述第二时间周期为半天，所述第三时间周期为七天。

进一步的，所述时间窗口T为21天，所述第一卷积层采用的卷积核尺寸为l¹×3×3，步长为s¹，卷积核总数为32个，其中，第一卷积核长度l¹＝24/t_d，步长s¹＝12/t_d，t_d为第二时间间隔；所述第二卷积层采用的卷积核尺寸为l²×3×3，步长为s²，卷积核总数为16个，其中

s²＝2；所述第三卷积层采用的卷积核尺寸为l³×3×3，步长为s³，卷积核总数为8个。

进一步的，步骤(2)之前还包括：对所述目标地理活动区域的多元群体活动数据进行脱敏处理。

一种目标地理活动区域识别方法，其根据上述方法对目标地理活动区域中多元群体的活动模式进行表征，然后将每个基础活动单元生成的多元群体活动特征向量进行聚类处理，根据聚类处理结果，识别出所述目标地理活动区域的类型。

本发明的有益效果在于：

1、本发明方法综合考虑时间和空间特性，采用时空神经网络提取出了最优代表人类活动模式的特征，能够大大提高土地用途识别的准确性。

2、本发明使用的自编码器结构不需要标签数据，降低了数据获取的难度与复杂度，并且使土地用途识别的结果不受标签数量限制。

3、本发明不需要打标数据，降低了大量的人力物力成本。

附图说明

图1为本发明实施例中目标地理活动区域的示意图；

图2为本发明实施例中目标地理活动区域网格化处理的示意图；

图3为本发明实施例中时间窗口为21天内的移动通信流量；

图4为本发明实施例中时间窗口为21天的移动通信流量的时间签名信号；

图5为本发明实施例中时间窗口为21天内的耗电量；

图6为本发明实施例中时间窗口为21天的耗电量的时间签名信号；

图7为本发明实施例中生成的三维张量的示意图；

图8为本发明实施例中自编码器的结构示意图；

图9为本发明实施例中多元群体活动模式表征方法的流程图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据群体活动模式来推测其活动区域的类型，是因为人们开展活动离不开活动地点，其活动模式与社会地理环境(下面统称为环境)密切相关。已有工作表明，环境对人类活动产生影响，在不同的环境下，即使从事相同的活动，人类行为的模式并不相同。以打移动电话为例，城市居民与乡村居民的通信模式大相径庭。居住在城市中的人们打移动电话的平均次数要比乡村里的人们多，而后者的平均通话时长则更长。即便生活在同一个城市里，居住在不同功能区域，例如生活区和商业区，人们打移动电话的平均次数和平均通话时长也不尽相同。就是说，在不同用途的土地上，人们的通讯行为模式并不相同。类似地，人们的其他活动模式也会受到所处地理活动区域的影响，因环境不同而呈现出不同的特性。

利用群体活动模式推测所处地理活动区域类型的基本步骤是：第一步，选取合适的群体活动数据；第二步，分析数据，抽取群体活动模式的特征，从而表征群体活动模式；第三步，对群体活动模式进行有监督或者无监督的学习，完成所处活动区域的类型识别。在上述步骤中，第一和第二步需解决两个重要的基础技术问题，即如何选择群体活动数据和如何有效表征群体活动模式。这两个问题的作用不同，又彼此联系。因为不同的群体活动具有不同的行为特点，故而在基于行为数据刻画活动模式时，须得针对数据特点采取适当的表征方法。

在群体活动及其模式表征方面，现有技术具有以下共同特点。第一，考虑的仅是单一的群体活动模式，例如，要么是人群拨打移动电话的行为模式，要么是交通出行模式，或者GPS行动轨迹等行为模式。第二，在群体活动时间属性的分析上，只考虑平时，却不考虑节日等特殊日子对人群活动的影响。对于节日敏感的群体活动，例如，人们喜欢在“黄金周”出行，去旅游景点游览，景点的移动电话流量和耗电量显著地与平时不同，现有方法无法准确表达出群体活动模式。第三，表达的仅是群体活动模式的浅层特征。在时间上，有些技术分析人群从事多次事件表现出来的统计规律，例如行为间隔时间分布；有些技术分析人群行为的某个特征随时间变化的规律，例如行为发生次数随时间的变化情况。在空间上，有些技术分析人们的空间移动轨迹，例如群体水平上手机用户移动步长的分布；有些技术人类行为的某个特征随着空间位置变化的规律，例如通信流量在不同空间的变化情况；在不同空间停留时间的分布等等。也存在为数不多的技术同时进行时空分析，例如，采用类似“热力图”的形式可视化通信流量的时空分布，但是，表征的依然是群体行为，诸如打移动电话的次数、行为的间隔时间、手机用户的移动步长等浅层特征。

由此看出，现有技术处理的是单一的群体活动，难以直接用于表征多元群体活动模式。此外，现有技术仅表达出群体活动模式的浅层特征，当应用于地理活动区域类型识别时，会存在识别准确率不高的问题，即能够识别出来的区域类型有限，也会混淆不清某些区域而出现识别错误。造成这种结果的主要原因是：环境不是影响群体活动模式的唯一因素，人们的心理、活动本身的特点以及其他经济社会因素都会对群体活动产生影响，人群的活动模式与地理活动区域的类型之间并不一定是理想的一一对应关系，仅依靠单一的活动模式和浅层特征显然不够。

正因为如此，近年来开始将深度学习方法引入特征学习中。根据是否需要标签数据，深度学习方法区分为有监督和无监督深度学习。由于无监督深度学习不需要事先打好的标签，成本低，逐渐在一些领域得到应用，例如，在高光谱成像中利用基于3D卷积神经网络的自编码器(3D-CAE,3D Convolutional AutoEncoder)同时提取高光谱图像的光谱-空间特征。但是，这些基于3D卷积神经网络的自编码器是针对高光谱图像而设计，输入数据是以光谱波段数为“高”、光谱成像结果为“图像”而构造的三维张量，巨大的光谱波段数量和图像区域，导致维度灾难，因而在结构上均采用了标准的卷积神经网络架构，即输入-卷积-池化-反卷积-输出的形式。

然而，在多元群体活动模式的时空特征的提取技术问题中，输入数据是以时间为“高”、人群活动所处的地理区域为“图像”而构造的三维张量，该张量的“高”是时间因素，取决于多元群体活动的时间签名信号，反映的是多元群体活动的周期性、随机性等时间属性。更为重要的是，人群活动是在时间和平面空间同时连续进行，现有的3D-CAE难以捕捉到多元群体活动的时间属性以及时空上的融合关系，故而需要重新设计新的模型来抓取多元群体活动的特征。本申请即是提出一种编码器模型，是基于3D“纯”深度卷积神经网络的自编码器((3D-PCAE，3D Pure Convolutional AutoEncoder)抽取多元群体活动的深层的时空特征。

本发明要解决三个技术问题：1)单一群体活动模式表征能力有限；2)现有时间签名信号方法不能捕获多元群体活动所有时间属性；3)现有3D卷积神经自编码器(3D-CAE)不能够提取多元群体活动时空深度特征。

为了解决第一个技术问题，即单一群体活动模式表征能力有限，提出“多元群体活动”的概念，可以使用移动通信流量和耗电量两种异质数据构成多元群体活动数据。

为了解决第二个技术问题，即现有时间签名信号方法不能捕获多元群体活动所有时间属性，提出一种新的群体活动时间签名信号方法，引入“节日”因素，构造包含“工作日-周末-节日”的“三天”时间签名信号，该时间签名信号结合群体活动的空间特性，通过深度神经网络的挖掘，能够生成表征多元群体活动模式深度特征的时空签名信号。

为了解决第三个技术问题，即现有3D卷积神经自编码器(3D-CAE)不能够提取多元群体活动时空深度特征的技术问题，提出一种新的基于3D“纯”深度卷积神经网络的自编码器(3D-PCAE)，对群体活动进行深度时空特征的学习和表征。在3D-PCAE中，隐藏层均为卷积层或反卷积层，网络的参数设置由输入的多元群体活动时间属性和输出需求共同决定。具体地，输入数据是以网格为中心的关联区域上多元群体活动数据所生成的三维张量，张量的高为时间签名信号的长度，张量的长宽即为关联区域的长宽；输出向量即是期望获得的表征多元群体活动模式深度特征的时空签名信号，并以特征向量的形式表达，可以用于监督或者无监督学习。用于无监督学习时，由于无需打标，经济成本更低。

为了表征多元群体活动模式，如图9所示，提出一种将多元群体活动模式向量化的方法，主要包括以下三个步骤。第一步对多元群体活动数据进行时间属性表达和分析，生成多元群体活动的时间签名信号。第二步分析多元群体活动的空间相关性，确定基础活动单元的关联区域。第三步对关联区域的时间签名信号同时进行时间和空间上的深度学习，获得基础活动单元上多元群体活动模式的深度特征，即时空签名信号，并以向量的形式表达出来。在第三步中，为了学习到多元群体活动的时空深度特征，构造基于3D“纯”深度卷积神经网络的自编码器。自编码器共有八层，包含三层卷积层、三层反卷积层、输入层和输出层。编码器输入为由关联区域的时间签名信号构成的3D“数据流”，即三维张量，输出为表征多元活动模式的时空签名信号或特征向量。

以下为多元群体活动模式表征方法的具体步骤：

步骤1：获取所述目标地理活动区域的多元群体活动数据，所述多元群体活动数据是指包括至少两种异构群体活动产生的异质数据。如图1和图2所示，图1中闭合的轮廓区域即为目标地理活动区域的地理平面，图2是对其网格化的处理结果。获取目标地理活动区域的多元群体活动数据，其中，获取到的多元群体活动数据可能是已经经过网格化处理后的数据，也可能是没有经过网格化处理后的数据。如果获取的多元群体活动数据是没有经过网格化处理后的数据，则进一步对多元群体活动数据网格化处理，即将多元群体活动数据按照目标地理活动区域的地理平面划分为具有多个等面积的网格，划分后的每个网格作为地理平面的基础活动单元，是基本的地理活动区域，也是识别的对象，其中每个所述基础活动单元都包括所述至少两种异质数据。每个网格的面积大小可以自定义。如果获取的多元群体活动数据是经过网格化处理后的数据，则可以直接执行步骤2。

步骤2：根据所述多元群体活动的时间属性，生成与当前异质数据对应的时间签名信号。对于网格a，即基础活动单元a，选取时间窗口T，单位为天，T≥21天，且所述时间窗口T至少包括三周，所述三周在时间上依次为第一工作周、第二工作周和节日周，整个时间窗口T可以看成是由“工作日-周末-节日”组成的“三天”。以当前异质数据为移动通信流量或耗电量为例，记原始数据的采样时间间隔为m，单位为小时。对于网格a，移动通信流量是时间间隔为t的时间序列，记作F(a)＝{F_a(t),t＝1,2,...,24T}，t表示第t个时间间隔。同样地，记网格a内的耗电量为P(a)＝{P_a(t),t＝1,2,...,24T}。记下采样的时间间隔为t_d小时，t_d＞m。以t_d为间隔分别对原始时间序列F_a和P_a进行下采样，形成时间维度减少后的时间序列F_a ^d和P_a ^d。下采样后的时间序列F_a ^d和P_a ^d即为各自的时间签名信号S_F＝{F_a ^d(t),t＝1,2,...,24T/t_d}和S_P＝{P_a ^d(t),t＝1,2,...,24T/t_d}。时间签名信号的长度为24T/t_d个样点。

例如，选取T＝21天，包含三个完整星期，其中一周为“黄金周”。原始采样时间间隔m为10分钟，即1/6小时，如图3和图5所示，观察三周的移动通信流量和耗电量，时间序列F_a和P_a的长度均为3024个样本。观察到数据量在2小时内的变化基本稳定，则确定下采样的时间间隔t_d＝2小时。如图4和图6所示，经过下采样后，时间序列F_a ^d和P_a ^d的长度减为252个样点。

步骤3，根据所述当前异质数据的时间签名信号，确定与所述当前异质数据对应的关联区域。对于位置坐标为(x,y)的网格a，其关联区域是以(x,y)为中心的k×k个网格，k为奇数。关联区域的中心为网格a,周围为其k×k-1个邻居网格。

求解k值的计算过程如下：计算当前基础活动单元中，所述当前异质数据的时间签名信号与所述当前基础活动单元邻近的(n×n-1)个基础活动单元中第一异质数据的时间签名信号的相关系数；，其中，所述第一异质数据与所述当前异质数据属于同一种数据。以网格a为中心，计算其耗电量的时间签名信号与邻近的(n×n-1)个邻居网格的耗电量的时间签名信号的相关系数，n从最小的奇数开始取值，即n＝3。相关性系数可采用皮尔逊系数等常用方法。

根据计算得到的所述当前异质数据的各相关系数，确定与所述当前异质数据对应的具有强相关的邻近基础活动单元；如果相关系数超过门限θ，则为强相关。统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a；根据相关率计算公式γ＝a/(n×n-1)，计算得到给定n下的相关率γⁿ，改变n的取值，找到与当前异质数据对应的相关率最大值max_nγⁿ，根据所述当前异质数据的所述相关率最大值，利用公式k＝arg max_nγⁿ，计算得到k值(即，使γⁿ取最大值的n值)，从而确定与当前异质数据对应关联区域，其中，所述关联区域包括以当前基础活动单元为中心的k×k个基础活动单元。令θ＝0.3，对于给定数据集，计算出k＝7。

步骤4：根据所述当前异质数据的关联区域和所述时间签名信号，生成与所述当前异质数据对应的三维张量，其中，所述三维张量用于表征与所述当前异质数据对应的时空属性。如图7所示，对于网格a，将整个关联区域k×k中的时间签名信号表达为f×k×k的三维张量，其中f＝|S_F|或f＝|S_P|,即时间签名信号的长度。移动通信流量和耗电量各自生成对应的三维张量，作为后续对应自编码器模型的输入数据。

例如，在步骤2的实例中，生成的时间签名信号长度为252，步骤3的实例计算得到k＝7，则输入的三维张量尺寸为252×7×7。

步骤5：将所述当前异质数据的所述三维张量输入对应的自编码器模型。如图8所示，自编码器共有八层，包含输入层、三层卷积层、三层反卷积层和输出层。输入层I的输入即为步骤5所生成的f×k×k三维张量。第一卷积层H1采用的卷积核尺寸为l¹×3×3，步长为s¹，共使用32个卷积核。卷积核的长度l¹和步长s¹根据输入张量的时间属性来确定。群体活动具有以一天，即24小时为“长”周期的特性，为了捕获一天内的特性，感受野应能覆盖到24小时的长度，设置卷积核长度l¹＝24/t_d。同时，群体活动在一天之内又具有白天和黑夜不同的属性，具有以半天为周期的“短”周期特性，故设置步长s¹＝12/t_d。由此可知，第一卷积层H1输出的三维张量f₁×k₁×k₁表示包括每个第一时间周期(“长”周期)内的异质数据特征，以及每个第二时间周期(“短”周期)内的异质数据特征。第二卷积层H2采用l²×3×3的卷积核，步长为s²，一共使用16个卷积核。第二卷积层的目的是将第一卷积层输出的张量尺寸由f₁×k₁×k₁压缩为f₂×k₂×k₂,其中

所述三维张量f₂×k₂×k₂表示包括每个第三时间周期内的异质数据特征，所述第三时间周期可以为七天。也就是说，第二卷积层输出的三维张量是每张快照对应一天(24小时)的特征图。据此，计算l²取值。时间步长s²取值要捕获“短”周期特性，设s²＝2。第三卷积层H3采用l³×3×3的卷积核，步长为s³，一共使用8个卷积核。第三卷积层的目的是将第二卷积层输出的张量尺寸由f₂×k₂×k₂压缩为3×1×1，也就是说，第三卷积层输出的三维张量是“工作日-周末-节日”这“三天”的特征向量，记为v。据此，计算l³和s³取值。为了捕捉更多的特征，在第三卷积层H3使用了8个卷积核，最终输出V由8个v拼接而成，即V为24×1×1的张量。以上四层构成了编码器部分。译码器部分通过三层反卷积层构造，重构时空签名，并通过误差来调节中间的特征层H3。

以移动流量数据为例，步骤4计算出的输入张量尺寸为252×7×7，H1层的卷积核尺寸为12×3×3，步长为6，输出张量尺寸为41×5×5；H2层的卷积核尺寸为3×3×3，步长为2，输出张量尺寸为20×3×3；H3层的卷积核尺寸为7×3×3，步长为6，共使用8个卷积核，输出张量V为24×1×1。

步骤6：输出与所述当前异质数据对应的时空签名信号，所述时空签名信号以特征向量的形式表达。

步骤7：将当前基础活动单元输出的每种异质数据的特征向量融合处理，生成所述当前基础活动单元的多元群体活动特征向量，其中，所述当前基础活动单元是指所述当前异质数据所在的基础活动单元。输出多元群体活动模式的向量化表达。按照步骤六分别构造两个自编码器EC1和EC2，将时间签名信号S_F和S_P分别输入到EC1和EC2，将两个自编码器H3层输出分别输出的特征向量V_F和V_P拼接起来作为多元群体活动模式的特征向量。

例如，两种数据分别输出的张量尺寸均为24×1×1，融合后的特征向量为48×1×1。

每个基础活动单元都按照上述步骤2～7处理，每个基础活动单元按照上述步骤2～7处理后，都生成一个与之对应的多元群体活动模式的特征向量，进一步将将每个所述基础活动单元生成的多元群体活动特征向量进行聚类处理，根据聚类处理结果，可以识别所述目标地理活动区域类型。

上述方法中，步骤7所获得的特征向量既可以用于监督学习，也可以用于无监督学习。将其用于无监督学习进行基本地理活动区域的类型推测，不仅能够识别出更多的区域类型，而且识别出的区域类型错误率更低。此外，因为无需打标签，该方法经济成本更低。

以下为利用上述方法所实现的一种目标地理活动区域识别方法，具体方式如下：

获取目标地理活动区域的多元群体活动数据，将多元群体活动数据按照目标地理活动区域的地理平面划分为具有多个等面积的网格，每个网格为一个基础活动单元，每个基础活动包括至少两种异构群体活动产生的异质数据；

根据所述异构群体活动产生的异质数据的时间属性，生成与当前异质数据对应的时间签名信号，确定与所述当前异质数据对应的关联区域，生成与所述当前异质数据对应的三维张量；

将所述三维张量输入对应的自编码器模型，输出与所述当前异质数据对应的时空签名信号；

将当前基础活动单元输出的每种异质数据的特征向量融合处理，生成所述当前基础活动单元的多元群体活动特征向量；

将每个所述基础活动单元生成的多元群体活动特征向量进行聚类处理；

根据聚类处理结果，识别所述目标地理活动区域类型。

其中，所述多元群体活动数据是指包括至少两种异构群体活动产生的异质数据，其中，所述异质数据是指在所述目标地理活动区域中所开展的、从至少两个侧面反映所述目标地理活动区域的使用功能的至少两种群体生产生活行为或活动所产生的数据，所述多元群体活动数据按照目标地理活动区域的地理平面被划分为具有多个等面积的网格，每个所述网格为一个基础活动单元，每个所述基础活动单元都包括所述至少两种异质数据。

根据多元群体活动的时间属性，生成与当前异质数据对应的时间签名信号，包括：选取时间窗口T，其中，T≥21天，且所述时间窗口T至少包括三周，所述三周在时间上依次为第一工作周、第二工作周和节日周，其中，所述第一工作周和第二工作周均包括工作日和周末，所述第二工作周和节日周为连续的两周；以第一时间间隔，采集所述当前异质数据；生成与所述当前异质数据对应的原始时间序列；以第二时间间隔，对所述原始时间序列下采样，其中，所述第二时间间隔大于所述第一时间间隔；生成与所述当前异质数据对应的时间签名信号。

根据所述当前异质数据的时间签名信号，确定与所述当前异质数据对应的关联区域，包括：计算当前基础活动单元中，所述当前异质数据的时间签名信号与所述当前基础活动单元邻近的n×n-1个基础活动单元中第一异质数据的时间签名信号的相关系数，其中，所述第一异质数据与所述当前异质数据属于同一种数据；根据计算得到的所述当前异质数据的各相关系数，确定与所述当前异质数据对应的具有强相关的邻近基础活动单元；统计与当前异质数据对应的具有强相关的邻近基础活动单元数量；根据相关率计算公式γ＝α/(n×n-1)，计算得到与当前异质数据对应的相关率最大值maxγⁿ；根据所述当前异质数据的所述相关率最大值，计算得到与当前异质数据对应关联区域，其中，所述关联区域包括以当前基础活动单元为中心的k×k个基础活动单元，其中k＝max_nγⁿ。

所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层；

根据输入的三维张量的时间属性，确定第一卷积层的长度l¹和步长s¹；按照确定第一卷积层的长度l¹和步长s¹，将所述三维张量的张量尺寸由f×k×k处理为f₁×k₁×k₁，其中，f₁＜f，k₁＜k，所述三维张量f₁×k₁×k₁表示包括每个第一时间周期内的异质数据的时空属性，以及每个第二时间周期内的异质数据的时空属性，其中，所述第二时间周期小于所述第一时间周期；通过第二卷积层将所述张量尺寸为f₁×k₁×k₁的三维张量压缩为张量尺寸为f₂×k₂×k₂的三维张量，其中，f₂＜f₁，k₂＜k₁，所述三维张量f₂×k₂×k₂表示包括每个第三时间周期内的异质数据的时空属性，所述第三时间周期大于所述第一时间周期；通过第三卷积层将所述张量尺寸为f₂×k₂×k₂的三维张量压缩为张量尺寸为3×1×1的三维张量，所述三维张量表示包括所述工作日、周末和节日三种不同日子的异质数据的时空签名信号。

总之，本发明综合考虑了时间和空间特性，采用时空神经网络提取出了最优代表人类活动模式的特征，能够大大提高土地用途识别的准确性。同时，本发明不需要打标数据，降低了大量的人力物力成本。

Claims

1.一种多元群体活动模式表征方法，其特征在于，包括以下步骤：

(2)对每个基础活动单元中的每种异质数据进行如下处理：

(3)完成各基础活动单元的多元群体活动模式表征。

2.根据权利要求1所述的一种多元群体活动模式表征方法，其特征在于，步骤(201)的具体方式为：

生成与当前异质数据对应的时间签名信号。

3.根据权利要求2所述的一种多元群体活动模式表征方法，其特征在于，所述异质数据包括移动通信流量和耗电量。

4.根据权利要求3所述的一种多元群体活动模式表征方法，其特征在于，步骤(202)的具体方式为：

统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a；根据相关率计算公式γ＝a/(n×n-1)，计算得到给定n下的相关率γⁿ，改变n的取值，找到与当前异质数据对应的相关率最大值max_nγⁿ，此时n＝k；

5.根据权利要求4所述的一种多元群体活动模式表征方法，其特征在于，所述三维张量表达为f×k×k，其中，f为当前异质数据的时间签名信号的样点数量。

6.根据权利要求5所述的一种多元群体活动模式表征方法，其特征在于，所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层；步骤(204)的具体方式为：

按照第一卷积层的长度l¹和步长s¹，将三维张量的张量尺寸由f×k×k处理为f₁×k₁×k₁，其中，f₁＜f，k₁＜k；f₁×k₁×k₁表示包括每个第一时间周期内的异质数据的时空属性，以及每个第二时间周期内的异质数据的时空属性，其中，第二时间周期小于第一时间周期；通过第二卷积层将张量尺寸为f₁×k₁×k₁的三维张量压缩为张量尺寸为f₂×k₂×k₂的三维张量，其中，f₂＜f₁，k₂＜k₁；三维张量f₂×k₂×k₂表示包括每个第三时间周期内的异质数据的时空属性，第三时间周期大于第一时间周期；

7.根据权利要求6所述的一种多元群体活动模式表征方法，其特征在于，所述第一时间周期为一天，所述第二时间周期为半天，所述第三时间周期为七天。

8.根据权利要求7所述的一种多元群体活动模式表征方法，其特征在于，所述时间窗口T为21天，所述第一卷积层采用的卷积核尺寸为l¹×3×3，步长为s¹，卷积核总数为32个，其中，第一卷积核长度l¹＝24/t_d，步长s¹＝12/t_d，t_d为第二时间间隔；所述第二卷积层采用的卷积核尺寸为l²×3×3，步长为s²，卷积核总数为16个，其中

9.根据权利要求1所述的一种多元群体活动模式表征方法，其特征在于，步骤(2)之前还包括：对所述目标地理活动区域的多元群体活动数据进行脱敏处理。

10.一种目标地理活动区域识别方法，其特征在于，根据如权利要求1～9中任一项所述的方法对目标地理活动区域中多元群体的活动模式进行表征，然后将每个基础活动单元生成的多元群体活动特征向量进行聚类处理，根据聚类处理结果，识别出所述目标地理活动区域的类型。