CN113077053A - 多元群体活动模式表征方法及目标地理活动区域识别方法 - Google Patents

多元群体活动模式表征方法及目标地理活动区域识别方法 Download PDF

Info

Publication number
CN113077053A
CN113077053A CN202110289306.3A CN202110289306A CN113077053A CN 113077053 A CN113077053 A CN 113077053A CN 202110289306 A CN202110289306 A CN 202110289306A CN 113077053 A CN113077053 A CN 113077053A
Authority
CN
China
Prior art keywords
heterogeneous data
activity
time
current
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110289306.3A
Other languages
English (en)
Other versions
CN113077053B (zh
Inventor
杨悦
宋瑞良
张海鹏
李捷
郑宏云
曾显珣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
CETC 54 Research Institute
Original Assignee
Beijing Jiaotong University
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University, CETC 54 Research Institute filed Critical Beijing Jiaotong University
Priority to CN202110289306.3A priority Critical patent/CN113077053B/zh
Publication of CN113077053A publication Critical patent/CN113077053A/zh
Application granted granted Critical
Publication of CN113077053B publication Critical patent/CN113077053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多元群体活动模式表征方法及目标地理活动区域识别方法,属于神经网络技术领域。其根据多元群体活动的时间属性,生成与当前异质数据对应的时间签名信号;然后确定与当前异质数据对应的关联区域;接着生成与当前异质数据对应的三维张量;将当前异质数据的三维张量输入对应的自编码器模型,输出与当前异质数据对应的时空签名信号,并以特征向量的形式表达;最后将各异质数据的特征向量融合处理,生成当前基础活动单元的多元群体活动特征向量,即可表征当前基础活动单元内开展的多元群体活动模式。本发明不需要打标数据,降低了大量的人力物力成本,其综合考虑了时间和空间特性,能够大大提高土地用途识别的准确性。

Description

多元群体活动模式表征方法及目标地理活动区域识别方法
技术领域
本发明属于神经网络技术领域,具体涉及一种多元群体活动模式表征方法及目标地理活动区域识别方法。
背景技术
群体活动模式指的是人群生产生活行为的特点和规律,反映的是人类活动在群体层面上的活动规律。对其进行了解和研究,有助于解释若干复杂的社会经济现象,并在许多领域如通信信息服务、舆情监控、疾病防控、交通规划和城市管理等方面产生应用价值。一种具体的应用是基于人群活动的数据,例如手机数据、上网浏览数据、在线社交数据、交通出行数据等,分析人群活动的特点和规律,进而根据群体活动模式推断所处地理活动区域的类型,即该块土地是住宅区、商业区、车站还是公园绿地等。例如,在通信服务中,运营商需要识别感兴趣或不感兴趣的地理区域,进而管理和调度通信资源,从而改善用户体验;在城市计算领域,需要知道土地的用途,以便做城市规划和管理。
利用群体活动模式推测所处地理活动区域类型的基本步骤是:第一步,选取合适的群体活动数据;第二步,分析数据,抽取群体活动模式的特征,从而表征群体活动模式;第三步,对群体活动模式进行有监督或者无监督的学习,完成所处活动区域的类型识别。
在群体活动及其模式表达方面,现有技术考虑的大都仅是单一的群体活动模式,例如,要么是人群拨打移动电话的行为模式,要么是交通出行模式,或者GPS行动轨迹等行为模式。而环境不是影响群体活动模式的唯一因素,人们的心理、活动本身的特点以及其他经济社会因素都会对群体活动产生影响,人群的活动模式与地理活动区域的类型之间并不一定是理想的一一对应关系,仅依靠单一的活动模式,难以直接用于表征多元群体活动模式。
发明内容
本发明的目的在于解决现有技术中仅依靠单一的活动模式,难以直接用于表征多元群体活动模式的技术问题。为此,本发明提供一种多元群体活动模式表征方法及目标地理活动区域识别方法。
为了实现上述目的,本发明采用的技术方案为:
一种多元群体活动模式表征方法,包括以下步骤:
(1)获取目标地理活动区域的多元群体活动数据,所述多元群体活动数据包括至少两种异构群体活动产生的异质数据,所述异质数据是指在所述目标地理活动区域中所开展的、从不同侧面反映所述目标地理活动区域的使用功能的至少两种群体生产生活行为或活动所产生的数据,所述目标地理活动区域的地理平面被划分为具有多个等面积的网格,每个网格为一个基础活动单元,每个基础活动单元都包括至少两种异质数据;
(2)对每个基础活动单元中的每种异质数据进行如下处理:
(201)根据异构群体活动产生的异质数据的时间属性,生成与当前异质数据对应的时间签名信号;
(202)根据当前异质数据的时间签名信号,确定与当前异质数据对应的关联区域;
(203)根据当前异质数据的关联区域及其时间签名信号,生成与当前异质数据对应的三维张量,所述三维张量用于表征与当前异质数据对应的时空属性;
(204)将当前异质数据的三维张量输入对应的自编码器模型,输出与当前异质数据对应的时空签名信号,所述时空签名信号以特征向量的形式表达;
(205)将基础活动单元输出的每种异质数据的特征向量进行融合处理,生成该基础活动单元的多元群体活动特征向量;
(3)完成各基础活动单元的多元群体活动模式表征。
进一步的,步骤(201)的具体方式为:
选取时间窗口T,时间窗口T至少包括第一工作周、第二工作周和节日周,其中,第一工作周和第二工作周均包括工作日和周末,第二工作周和节日周为连续的两周;
以第一时间间隔,采集当前异质数据,生成与当前异质数据对应的原始时间序列;
以第二时间间隔,对原始时间序列进行下采样;第二时间间隔大于第一时间间隔;
生成与当前异质数据对应的时间签名信号。
进一步的,所述异质数据包括移动通信流量和耗电量。
进一步的,步骤(202)的具体方式为:
计算基础活动单元中当前异质数据的时间签名信号与该基础活动单元邻近的n×n-1个基础活动单元中第一异质数据的时间签名信号的相关系数,其中,第一异质数据与当前异质数据属于同一种数据;
根据计算得到的当前异质数据的各相关系数,确定与当前异质数据对应的具有强相关的邻近基础活动单元;
统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a;
根据相关率计算公式γ=a/(n×n-1),计算得到给定n下的相关率γn,改变n的取值,找到与当前异质数据对应的相关率最大值maxnγn,此时n=k;
将以当前基础活动单元为中心的k×k个基础活动单元作为当前异质数据对应的关联区域。
进一步的,所述三维张量表达为f×k×k,其中,f为当前异质数据的时间签名信号的样点数量。
进一步的,所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层;步骤(204)的具体方式为:
将当前异质数据对应的三维张量输入对应的编码器模型的输入层;
根据输入的三维张量的时间属性,确定第一卷积层的长度l1和步长s1
按照第一卷积层的长度l1和步长s1,将三维张量的张量尺寸由f×k×k处理为f1×k1×k1,其中,f1<f,k1<k;f1×k1×k1表示包括每个第一时间周期内的异质数据的时空属性,以及每个第二时间周期内的异质数据的时空属性,其中,第二时间周期小于第一时间周期;
通过第二卷积层将张量尺寸为f1×k1×k1的三维张量压缩为张量尺寸为f2×k2×k2的三维张量,其中,f2<f1,k2<k1;三维张量f2×k2×k2表示包括每个第三时间周期内的异质数据的时空属性,第三时间周期大于第一时间周期;
通过第三卷积层将张量尺寸为f2×k2×k2的三维张量压缩为张量尺寸为3×1×1的三维张量,压缩后的三维张量表示包括工作日、周末和节日三种不同日子的异质数据的时空签名信号。
进一步的,所述第一时间周期为一天,所述第二时间周期为半天,所述第三时间周期为七天。
进一步的,所述时间窗口T为21天,所述第一卷积层采用的卷积核尺寸为l1×3×3,步长为s1,卷积核总数为32个,其中,第一卷积核长度l1=24/td,步长s1=12/td,td为第二时间间隔;所述第二卷积层采用的卷积核尺寸为l2×3×3,步长为s2,卷积核总数为16个,其中
Figure BDA0002981796500000051
s2=2;所述第三卷积层采用的卷积核尺寸为l3×3×3,步长为s3,卷积核总数为8个。
进一步的,步骤(2)之前还包括:对所述目标地理活动区域的多元群体活动数据进行脱敏处理。
一种目标地理活动区域识别方法,其根据上述方法对目标地理活动区域中多元群体的活动模式进行表征,然后将每个基础活动单元生成的多元群体活动特征向量进行聚类处理,根据聚类处理结果,识别出所述目标地理活动区域的类型。
本发明的有益效果在于:
1、本发明方法综合考虑时间和空间特性,采用时空神经网络提取出了最优代表人类活动模式的特征,能够大大提高土地用途识别的准确性。
2、本发明使用的自编码器结构不需要标签数据,降低了数据获取的难度与复杂度,并且使土地用途识别的结果不受标签数量限制。
3、本发明不需要打标数据,降低了大量的人力物力成本。
附图说明
图1为本发明实施例中目标地理活动区域的示意图;
图2为本发明实施例中目标地理活动区域网格化处理的示意图;
图3为本发明实施例中时间窗口为21天内的移动通信流量;
图4为本发明实施例中时间窗口为21天的移动通信流量的时间签名信号;
图5为本发明实施例中时间窗口为21天内的耗电量;
图6为本发明实施例中时间窗口为21天的耗电量的时间签名信号;
图7为本发明实施例中生成的三维张量的示意图;
图8为本发明实施例中自编码器的结构示意图;
图9为本发明实施例中多元群体活动模式表征方法的流程图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据群体活动模式来推测其活动区域的类型,是因为人们开展活动离不开活动地点,其活动模式与社会地理环境(下面统称为环境)密切相关。已有工作表明,环境对人类活动产生影响,在不同的环境下,即使从事相同的活动,人类行为的模式并不相同。以打移动电话为例,城市居民与乡村居民的通信模式大相径庭。居住在城市中的人们打移动电话的平均次数要比乡村里的人们多,而后者的平均通话时长则更长。即便生活在同一个城市里,居住在不同功能区域,例如生活区和商业区,人们打移动电话的平均次数和平均通话时长也不尽相同。就是说,在不同用途的土地上,人们的通讯行为模式并不相同。类似地,人们的其他活动模式也会受到所处地理活动区域的影响,因环境不同而呈现出不同的特性。
利用群体活动模式推测所处地理活动区域类型的基本步骤是:第一步,选取合适的群体活动数据;第二步,分析数据,抽取群体活动模式的特征,从而表征群体活动模式;第三步,对群体活动模式进行有监督或者无监督的学习,完成所处活动区域的类型识别。在上述步骤中,第一和第二步需解决两个重要的基础技术问题,即如何选择群体活动数据和如何有效表征群体活动模式。这两个问题的作用不同,又彼此联系。因为不同的群体活动具有不同的行为特点,故而在基于行为数据刻画活动模式时,须得针对数据特点采取适当的表征方法。
在群体活动及其模式表征方面,现有技术具有以下共同特点。第一,考虑的仅是单一的群体活动模式,例如,要么是人群拨打移动电话的行为模式,要么是交通出行模式,或者GPS行动轨迹等行为模式。第二,在群体活动时间属性的分析上,只考虑平时,却不考虑节日等特殊日子对人群活动的影响。对于节日敏感的群体活动,例如,人们喜欢在“黄金周”出行,去旅游景点游览,景点的移动电话流量和耗电量显著地与平时不同,现有方法无法准确表达出群体活动模式。第三,表达的仅是群体活动模式的浅层特征。在时间上,有些技术分析人群从事多次事件表现出来的统计规律,例如行为间隔时间分布;有些技术分析人群行为的某个特征随时间变化的规律,例如行为发生次数随时间的变化情况。在空间上,有些技术分析人们的空间移动轨迹,例如群体水平上手机用户移动步长的分布;有些技术人类行为的某个特征随着空间位置变化的规律,例如通信流量在不同空间的变化情况;在不同空间停留时间的分布等等。也存在为数不多的技术同时进行时空分析,例如,采用类似“热力图”的形式可视化通信流量的时空分布,但是,表征的依然是群体行为,诸如打移动电话的次数、行为的间隔时间、手机用户的移动步长等浅层特征。
由此看出,现有技术处理的是单一的群体活动,难以直接用于表征多元群体活动模式。此外,现有技术仅表达出群体活动模式的浅层特征,当应用于地理活动区域类型识别时,会存在识别准确率不高的问题,即能够识别出来的区域类型有限,也会混淆不清某些区域而出现识别错误。造成这种结果的主要原因是:环境不是影响群体活动模式的唯一因素,人们的心理、活动本身的特点以及其他经济社会因素都会对群体活动产生影响,人群的活动模式与地理活动区域的类型之间并不一定是理想的一一对应关系,仅依靠单一的活动模式和浅层特征显然不够。
正因为如此,近年来开始将深度学习方法引入特征学习中。根据是否需要标签数据,深度学习方法区分为有监督和无监督深度学习。由于无监督深度学习不需要事先打好的标签,成本低,逐渐在一些领域得到应用,例如,在高光谱成像中利用基于3D卷积神经网络的自编码器(3D-CAE,3D Convolutional AutoEncoder)同时提取高光谱图像的光谱-空间特征。但是,这些基于3D卷积神经网络的自编码器是针对高光谱图像而设计,输入数据是以光谱波段数为“高”、光谱成像结果为“图像”而构造的三维张量,巨大的光谱波段数量和图像区域,导致维度灾难,因而在结构上均采用了标准的卷积神经网络架构,即输入-卷积-池化-反卷积-输出的形式。
然而,在多元群体活动模式的时空特征的提取技术问题中,输入数据是以时间为“高”、人群活动所处的地理区域为“图像”而构造的三维张量,该张量的“高”是时间因素,取决于多元群体活动的时间签名信号,反映的是多元群体活动的周期性、随机性等时间属性。更为重要的是,人群活动是在时间和平面空间同时连续进行,现有的3D-CAE难以捕捉到多元群体活动的时间属性以及时空上的融合关系,故而需要重新设计新的模型来抓取多元群体活动的特征。本申请即是提出一种编码器模型,是基于3D“纯”深度卷积神经网络的自编码器((3D-PCAE,3D Pure Convolutional AutoEncoder)抽取多元群体活动的深层的时空特征。
本发明要解决三个技术问题:1)单一群体活动模式表征能力有限;2)现有时间签名信号方法不能捕获多元群体活动所有时间属性;3)现有3D卷积神经自编码器(3D-CAE)不能够提取多元群体活动时空深度特征。
为了解决第一个技术问题,即单一群体活动模式表征能力有限,提出“多元群体活动”的概念,可以使用移动通信流量和耗电量两种异质数据构成多元群体活动数据。
为了解决第二个技术问题,即现有时间签名信号方法不能捕获多元群体活动所有时间属性,提出一种新的群体活动时间签名信号方法,引入“节日”因素,构造包含“工作日-周末-节日”的“三天”时间签名信号,该时间签名信号结合群体活动的空间特性,通过深度神经网络的挖掘,能够生成表征多元群体活动模式深度特征的时空签名信号。
为了解决第三个技术问题,即现有3D卷积神经自编码器(3D-CAE)不能够提取多元群体活动时空深度特征的技术问题,提出一种新的基于3D“纯”深度卷积神经网络的自编码器(3D-PCAE),对群体活动进行深度时空特征的学习和表征。在3D-PCAE中,隐藏层均为卷积层或反卷积层,网络的参数设置由输入的多元群体活动时间属性和输出需求共同决定。具体地,输入数据是以网格为中心的关联区域上多元群体活动数据所生成的三维张量,张量的高为时间签名信号的长度,张量的长宽即为关联区域的长宽;输出向量即是期望获得的表征多元群体活动模式深度特征的时空签名信号,并以特征向量的形式表达,可以用于监督或者无监督学习。用于无监督学习时,由于无需打标,经济成本更低。
为了表征多元群体活动模式,如图9所示,提出一种将多元群体活动模式向量化的方法,主要包括以下三个步骤。第一步对多元群体活动数据进行时间属性表达和分析,生成多元群体活动的时间签名信号。第二步分析多元群体活动的空间相关性,确定基础活动单元的关联区域。第三步对关联区域的时间签名信号同时进行时间和空间上的深度学习,获得基础活动单元上多元群体活动模式的深度特征,即时空签名信号,并以向量的形式表达出来。在第三步中,为了学习到多元群体活动的时空深度特征,构造基于3D“纯”深度卷积神经网络的自编码器。自编码器共有八层,包含三层卷积层、三层反卷积层、输入层和输出层。编码器输入为由关联区域的时间签名信号构成的3D“数据流”,即三维张量,输出为表征多元活动模式的时空签名信号或特征向量。
以下为多元群体活动模式表征方法的具体步骤:
步骤1:获取所述目标地理活动区域的多元群体活动数据,所述多元群体活动数据是指包括至少两种异构群体活动产生的异质数据。如图1和图2所示,图1中闭合的轮廓区域即为目标地理活动区域的地理平面,图2是对其网格化的处理结果。获取目标地理活动区域的多元群体活动数据,其中,获取到的多元群体活动数据可能是已经经过网格化处理后的数据,也可能是没有经过网格化处理后的数据。如果获取的多元群体活动数据是没有经过网格化处理后的数据,则进一步对多元群体活动数据网格化处理,即将多元群体活动数据按照目标地理活动区域的地理平面划分为具有多个等面积的网格,划分后的每个网格作为地理平面的基础活动单元,是基本的地理活动区域,也是识别的对象,其中每个所述基础活动单元都包括所述至少两种异质数据。每个网格的面积大小可以自定义。如果获取的多元群体活动数据是经过网格化处理后的数据,则可以直接执行步骤2。
步骤2:根据所述多元群体活动的时间属性,生成与当前异质数据对应的时间签名信号。对于网格a,即基础活动单元a,选取时间窗口T,单位为天,T≥21天,且所述时间窗口T至少包括三周,所述三周在时间上依次为第一工作周、第二工作周和节日周,整个时间窗口T可以看成是由“工作日-周末-节日”组成的“三天”。以当前异质数据为移动通信流量或耗电量为例,记原始数据的采样时间间隔为m,单位为小时。对于网格a,移动通信流量是时间间隔为t的时间序列,记作F(a)={Fa(t),t=1,2,...,24T},t表示第t个时间间隔。同样地,记网格a内的耗电量为P(a)={Pa(t),t=1,2,...,24T}。记下采样的时间间隔为td小时,td>m。以td为间隔分别对原始时间序列Fa和Pa进行下采样,形成时间维度减少后的时间序列Fa d和Pa d。下采样后的时间序列Fa d和Pa d即为各自的时间签名信号SF={Fa d(t),t=1,2,...,24T/td}和SP={Pa d(t),t=1,2,...,24T/td}。时间签名信号的长度为24T/td个样点。
例如,选取T=21天,包含三个完整星期,其中一周为“黄金周”。原始采样时间间隔m为10分钟,即1/6小时,如图3和图5所示,观察三周的移动通信流量和耗电量,时间序列Fa和Pa的长度均为3024个样本。观察到数据量在2小时内的变化基本稳定,则确定下采样的时间间隔td=2小时。如图4和图6所示,经过下采样后,时间序列Fa d和Pa d的长度减为252个样点。
步骤3,根据所述当前异质数据的时间签名信号,确定与所述当前异质数据对应的关联区域。对于位置坐标为(x,y)的网格a,其关联区域是以(x,y)为中心的k×k个网格,k为奇数。关联区域的中心为网格a,周围为其k×k-1个邻居网格。
求解k值的计算过程如下:计算当前基础活动单元中,所述当前异质数据的时间签名信号与所述当前基础活动单元邻近的(n×n-1)个基础活动单元中第一异质数据的时间签名信号的相关系数;,其中,所述第一异质数据与所述当前异质数据属于同一种数据。以网格a为中心,计算其耗电量的时间签名信号与邻近的(n×n-1)个邻居网格的耗电量的时间签名信号的相关系数,n从最小的奇数开始取值,即n=3。相关性系数可采用皮尔逊系数等常用方法。
根据计算得到的所述当前异质数据的各相关系数,确定与所述当前异质数据对应的具有强相关的邻近基础活动单元;如果相关系数超过门限θ,则为强相关。统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a;根据相关率计算公式γ=a/(n×n-1),计算得到给定n下的相关率γn,改变n的取值,找到与当前异质数据对应的相关率最大值maxnγn,根据所述当前异质数据的所述相关率最大值,利用公式k=arg maxnγn,计算得到k值(即,使γn取最大值的n值),从而确定与当前异质数据对应关联区域,其中,所述关联区域包括以当前基础活动单元为中心的k×k个基础活动单元。令θ=0.3,对于给定数据集,计算出k=7。
步骤4:根据所述当前异质数据的关联区域和所述时间签名信号,生成与所述当前异质数据对应的三维张量,其中,所述三维张量用于表征与所述当前异质数据对应的时空属性。如图7所示,对于网格a,将整个关联区域k×k中的时间签名信号表达为f×k×k的三维张量,其中f=|SF|或f=|SP|,即时间签名信号的长度。移动通信流量和耗电量各自生成对应的三维张量,作为后续对应自编码器模型的输入数据。
例如,在步骤2的实例中,生成的时间签名信号长度为252,步骤3的实例计算得到k=7,则输入的三维张量尺寸为252×7×7。
步骤5:将所述当前异质数据的所述三维张量输入对应的自编码器模型。如图8所示,自编码器共有八层,包含输入层、三层卷积层、三层反卷积层和输出层。输入层I的输入即为步骤5所生成的f×k×k三维张量。第一卷积层H1采用的卷积核尺寸为l1×3×3,步长为s1,共使用32个卷积核。卷积核的长度l1和步长s1根据输入张量的时间属性来确定。群体活动具有以一天,即24小时为“长”周期的特性,为了捕获一天内的特性,感受野应能覆盖到24小时的长度,设置卷积核长度l1=24/td。同时,群体活动在一天之内又具有白天和黑夜不同的属性,具有以半天为周期的“短”周期特性,故设置步长s1=12/td。由此可知,第一卷积层H1输出的三维张量f1×k1×k1表示包括每个第一时间周期(“长”周期)内的异质数据特征,以及每个第二时间周期(“短”周期)内的异质数据特征。第二卷积层H2采用l2×3×3的卷积核,步长为s2,一共使用16个卷积核。第二卷积层的目的是将第一卷积层输出的张量尺寸由f1×k1×k1压缩为f2×k2×k2,其中
Figure BDA0002981796500000151
所述三维张量f2×k2×k2表示包括每个第三时间周期内的异质数据特征,所述第三时间周期可以为七天。也就是说,第二卷积层输出的三维张量是每张快照对应一天(24小时)的特征图。据此,计算l2取值。时间步长s2取值要捕获“短”周期特性,设s2=2。第三卷积层H3采用l3×3×3的卷积核,步长为s3,一共使用8个卷积核。第三卷积层的目的是将第二卷积层输出的张量尺寸由f2×k2×k2压缩为3×1×1,也就是说,第三卷积层输出的三维张量是“工作日-周末-节日”这“三天”的特征向量,记为v。据此,计算l3和s3取值。为了捕捉更多的特征,在第三卷积层H3使用了8个卷积核,最终输出V由8个v拼接而成,即V为24×1×1的张量。以上四层构成了编码器部分。译码器部分通过三层反卷积层构造,重构时空签名,并通过误差来调节中间的特征层H3。
以移动流量数据为例,步骤4计算出的输入张量尺寸为252×7×7,H1层的卷积核尺寸为12×3×3,步长为6,输出张量尺寸为41×5×5;H2层的卷积核尺寸为3×3×3,步长为2,输出张量尺寸为20×3×3;H3层的卷积核尺寸为7×3×3,步长为6,共使用8个卷积核,输出张量V为24×1×1。
步骤6:输出与所述当前异质数据对应的时空签名信号,所述时空签名信号以特征向量的形式表达。
步骤7:将当前基础活动单元输出的每种异质数据的特征向量融合处理,生成所述当前基础活动单元的多元群体活动特征向量,其中,所述当前基础活动单元是指所述当前异质数据所在的基础活动单元。输出多元群体活动模式的向量化表达。按照步骤六分别构造两个自编码器EC1和EC2,将时间签名信号SF和SP分别输入到EC1和EC2,将两个自编码器H3层输出分别输出的特征向量VF和VP拼接起来作为多元群体活动模式的特征向量。
例如,两种数据分别输出的张量尺寸均为24×1×1,融合后的特征向量为48×1×1。
每个基础活动单元都按照上述步骤2~7处理,每个基础活动单元按照上述步骤2~7处理后,都生成一个与之对应的多元群体活动模式的特征向量,进一步将将每个所述基础活动单元生成的多元群体活动特征向量进行聚类处理,根据聚类处理结果,可以识别所述目标地理活动区域类型。
上述方法中,步骤7所获得的特征向量既可以用于监督学习,也可以用于无监督学习。将其用于无监督学习进行基本地理活动区域的类型推测,不仅能够识别出更多的区域类型,而且识别出的区域类型错误率更低。此外,因为无需打标签,该方法经济成本更低。
以下为利用上述方法所实现的一种目标地理活动区域识别方法,具体方式如下:
获取目标地理活动区域的多元群体活动数据,将多元群体活动数据按照目标地理活动区域的地理平面划分为具有多个等面积的网格,每个网格为一个基础活动单元,每个基础活动包括至少两种异构群体活动产生的异质数据;
根据所述异构群体活动产生的异质数据的时间属性,生成与当前异质数据对应的时间签名信号,确定与所述当前异质数据对应的关联区域,生成与所述当前异质数据对应的三维张量;
将所述三维张量输入对应的自编码器模型,输出与所述当前异质数据对应的时空签名信号;
将当前基础活动单元输出的每种异质数据的特征向量融合处理,生成所述当前基础活动单元的多元群体活动特征向量;
将每个所述基础活动单元生成的多元群体活动特征向量进行聚类处理;
根据聚类处理结果,识别所述目标地理活动区域类型。
其中,所述多元群体活动数据是指包括至少两种异构群体活动产生的异质数据,其中,所述异质数据是指在所述目标地理活动区域中所开展的、从至少两个侧面反映所述目标地理活动区域的使用功能的至少两种群体生产生活行为或活动所产生的数据,所述多元群体活动数据按照目标地理活动区域的地理平面被划分为具有多个等面积的网格,每个所述网格为一个基础活动单元,每个所述基础活动单元都包括所述至少两种异质数据。
根据多元群体活动的时间属性,生成与当前异质数据对应的时间签名信号,包括:选取时间窗口T,其中,T≥21天,且所述时间窗口T至少包括三周,所述三周在时间上依次为第一工作周、第二工作周和节日周,其中,所述第一工作周和第二工作周均包括工作日和周末,所述第二工作周和节日周为连续的两周;以第一时间间隔,采集所述当前异质数据;生成与所述当前异质数据对应的原始时间序列;以第二时间间隔,对所述原始时间序列下采样,其中,所述第二时间间隔大于所述第一时间间隔;生成与所述当前异质数据对应的时间签名信号。
根据所述当前异质数据的时间签名信号,确定与所述当前异质数据对应的关联区域,包括:计算当前基础活动单元中,所述当前异质数据的时间签名信号与所述当前基础活动单元邻近的n×n-1个基础活动单元中第一异质数据的时间签名信号的相关系数,其中,所述第一异质数据与所述当前异质数据属于同一种数据;根据计算得到的所述当前异质数据的各相关系数,确定与所述当前异质数据对应的具有强相关的邻近基础活动单元;统计与当前异质数据对应的具有强相关的邻近基础活动单元数量;根据相关率计算公式γ=α/(n×n-1),计算得到与当前异质数据对应的相关率最大值maxγn;根据所述当前异质数据的所述相关率最大值,计算得到与当前异质数据对应关联区域,其中,所述关联区域包括以当前基础活动单元为中心的k×k个基础活动单元,其中k=maxnγn
所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层;
根据输入的三维张量的时间属性,确定第一卷积层的长度l1和步长s1;按照确定第一卷积层的长度l1和步长s1,将所述三维张量的张量尺寸由f×k×k处理为f1×k1×k1,其中,f1<f,k1<k,所述三维张量f1×k1×k1表示包括每个第一时间周期内的异质数据的时空属性,以及每个第二时间周期内的异质数据的时空属性,其中,所述第二时间周期小于所述第一时间周期;通过第二卷积层将所述张量尺寸为f1×k1×k1的三维张量压缩为张量尺寸为f2×k2×k2的三维张量,其中,f2<f1,k2<k1,所述三维张量f2×k2×k2表示包括每个第三时间周期内的异质数据的时空属性,所述第三时间周期大于所述第一时间周期;通过第三卷积层将所述张量尺寸为f2×k2×k2的三维张量压缩为张量尺寸为3×1×1的三维张量,所述三维张量表示包括所述工作日、周末和节日三种不同日子的异质数据的时空签名信号。
总之,本发明综合考虑了时间和空间特性,采用时空神经网络提取出了最优代表人类活动模式的特征,能够大大提高土地用途识别的准确性。同时,本发明不需要打标数据,降低了大量的人力物力成本。

Claims (10)

1.一种多元群体活动模式表征方法,其特征在于,包括以下步骤:
(1)获取目标地理活动区域的多元群体活动数据,所述多元群体活动数据包括至少两种异构群体活动产生的异质数据,所述异质数据是指在所述目标地理活动区域中所开展的、从不同侧面反映所述目标地理活动区域的使用功能的至少两种群体生产生活行为或活动所产生的数据,所述目标地理活动区域的地理平面被划分为具有多个等面积的网格,每个网格为一个基础活动单元,每个基础活动单元都包括至少两种异质数据;
(2)对每个基础活动单元中的每种异质数据进行如下处理:
(201)根据异构群体活动产生的异质数据的时间属性,生成与当前异质数据对应的时间签名信号;
(202)根据当前异质数据的时间签名信号,确定与当前异质数据对应的关联区域;
(203)根据当前异质数据的关联区域及其时间签名信号,生成与当前异质数据对应的三维张量,所述三维张量用于表征与当前异质数据对应的时空属性;
(204)将当前异质数据的三维张量输入对应的自编码器模型,输出与当前异质数据对应的时空签名信号,所述时空签名信号以特征向量的形式表达;
(205)将基础活动单元输出的每种异质数据的特征向量进行融合处理,生成该基础活动单元的多元群体活动特征向量;
(3)完成各基础活动单元的多元群体活动模式表征。
2.根据权利要求1所述的一种多元群体活动模式表征方法,其特征在于,步骤(201)的具体方式为:
选取时间窗口T,时间窗口T至少包括第一工作周、第二工作周和节日周,其中,第一工作周和第二工作周均包括工作日和周末,第二工作周和节日周为连续的两周;
以第一时间间隔,采集当前异质数据,生成与当前异质数据对应的原始时间序列;
以第二时间间隔,对原始时间序列进行下采样;第二时间间隔大于第一时间间隔;
生成与当前异质数据对应的时间签名信号。
3.根据权利要求2所述的一种多元群体活动模式表征方法,其特征在于,所述异质数据包括移动通信流量和耗电量。
4.根据权利要求3所述的一种多元群体活动模式表征方法,其特征在于,步骤(202)的具体方式为:
计算基础活动单元中当前异质数据的时间签名信号与该基础活动单元邻近的n×n-1个基础活动单元中第一异质数据的时间签名信号的相关系数,其中,第一异质数据与当前异质数据属于同一种数据;
根据计算得到的当前异质数据的各相关系数,确定与当前异质数据对应的具有强相关的邻近基础活动单元;
统计与当前异质数据对应的具有强相关的邻近基础活动单元数量a;根据相关率计算公式γ=a/(n×n-1),计算得到给定n下的相关率γn,改变n的取值,找到与当前异质数据对应的相关率最大值maxnγn,此时n=k;
将以当前基础活动单元为中心的k×k个基础活动单元作为当前异质数据对应的关联区域。
5.根据权利要求4所述的一种多元群体活动模式表征方法,其特征在于,所述三维张量表达为f×k×k,其中,f为当前异质数据的时间签名信号的样点数量。
6.根据权利要求5所述的一种多元群体活动模式表征方法,其特征在于,所述自编码器模型包括输入层、第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层、第三反卷积层和输出层;步骤(204)的具体方式为:
将当前异质数据对应的三维张量输入对应的编码器模型的输入层;
根据输入的三维张量的时间属性,确定第一卷积层的长度l1和步长s1
按照第一卷积层的长度l1和步长s1,将三维张量的张量尺寸由f×k×k处理为f1×k1×k1,其中,f1<f,k1<k;f1×k1×k1表示包括每个第一时间周期内的异质数据的时空属性,以及每个第二时间周期内的异质数据的时空属性,其中,第二时间周期小于第一时间周期;通过第二卷积层将张量尺寸为f1×k1×k1的三维张量压缩为张量尺寸为f2×k2×k2的三维张量,其中,f2<f1,k2<k1;三维张量f2×k2×k2表示包括每个第三时间周期内的异质数据的时空属性,第三时间周期大于第一时间周期;
通过第三卷积层将张量尺寸为f2×k2×k2的三维张量压缩为张量尺寸为3×1×1的三维张量,压缩后的三维张量表示包括工作日、周末和节日三种不同日子的异质数据的时空签名信号。
7.根据权利要求6所述的一种多元群体活动模式表征方法,其特征在于,所述第一时间周期为一天,所述第二时间周期为半天,所述第三时间周期为七天。
8.根据权利要求7所述的一种多元群体活动模式表征方法,其特征在于,所述时间窗口T为21天,所述第一卷积层采用的卷积核尺寸为l1×3×3,步长为s1,卷积核总数为32个,其中,第一卷积核长度l1=24/td,步长s1=12/td,td为第二时间间隔;所述第二卷积层采用的卷积核尺寸为l2×3×3,步长为s2,卷积核总数为16个,其中
Figure FDA0002981796490000041
s2=2;所述第三卷积层采用的卷积核尺寸为l3×3×3,步长为s3,卷积核总数为8个。
9.根据权利要求1所述的一种多元群体活动模式表征方法,其特征在于,步骤(2)之前还包括:对所述目标地理活动区域的多元群体活动数据进行脱敏处理。
10.一种目标地理活动区域识别方法,其特征在于,根据如权利要求1~9中任一项所述的方法对目标地理活动区域中多元群体的活动模式进行表征,然后将每个基础活动单元生成的多元群体活动特征向量进行聚类处理,根据聚类处理结果,识别出所述目标地理活动区域的类型。
CN202110289306.3A 2021-03-18 2021-03-18 多元群体活动模式表征方法及目标地理活动区域识别方法 Active CN113077053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110289306.3A CN113077053B (zh) 2021-03-18 2021-03-18 多元群体活动模式表征方法及目标地理活动区域识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110289306.3A CN113077053B (zh) 2021-03-18 2021-03-18 多元群体活动模式表征方法及目标地理活动区域识别方法

Publications (2)

Publication Number Publication Date
CN113077053A true CN113077053A (zh) 2021-07-06
CN113077053B CN113077053B (zh) 2022-09-02

Family

ID=76612751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110289306.3A Active CN113077053B (zh) 2021-03-18 2021-03-18 多元群体活动模式表征方法及目标地理活动区域识别方法

Country Status (1)

Country Link
CN (1) CN113077053B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967532A (zh) * 2017-10-30 2018-04-27 厦门大学 融合区域活力的城市交通流量预测方法
CN108805345A (zh) * 2018-06-01 2018-11-13 广西师范学院 一种基于深度卷积神经网络模型的犯罪时空风险预测方法
CN109862585A (zh) * 2019-01-31 2019-06-07 湖北工业大学 一种基于深度时空神经网络的动态异构网络流量预测方法
CN110046787A (zh) * 2019-01-15 2019-07-23 重庆邮电大学 一种城市区域电动汽车充电需求时空预测方法
WO2019216449A1 (ko) * 2018-05-09 2019-11-14 주식회사 알고리고 전력수요 데이터와 이종데이터의 시공간적 융합을 통한 시계열 인공신경망 전기차 전력수요예측 방법 및 장치
CN110570035A (zh) * 2019-09-02 2019-12-13 上海交通大学 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN111160521A (zh) * 2019-12-09 2020-05-15 南京航空航天大学 基于深度神经网络图编码器的城市人类流动模式检测方法
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享系统
CN111613054A (zh) * 2020-05-07 2020-09-01 浙江大学 一种协同考虑时空相关性及贡献差异的多步交通速度预测方法
CN111639243A (zh) * 2020-06-04 2020-09-08 东北师范大学 时空数据渐进式多维模式提取与异常检测可视分析方法
CN112115769A (zh) * 2020-08-05 2020-12-22 西安交通大学 一种基于视频的无监督稀疏人群异常行为检测算法
CN112396218A (zh) * 2020-11-06 2021-02-23 南京航空航天大学 基于城市区域多模态融合的人群流量预测方法
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967532A (zh) * 2017-10-30 2018-04-27 厦门大学 融合区域活力的城市交通流量预测方法
WO2019216449A1 (ko) * 2018-05-09 2019-11-14 주식회사 알고리고 전력수요 데이터와 이종데이터의 시공간적 융합을 통한 시계열 인공신경망 전기차 전력수요예측 방법 및 장치
CN108805345A (zh) * 2018-06-01 2018-11-13 广西师范学院 一种基于深度卷积神经网络模型的犯罪时空风险预测方法
CN110046787A (zh) * 2019-01-15 2019-07-23 重庆邮电大学 一种城市区域电动汽车充电需求时空预测方法
CN109862585A (zh) * 2019-01-31 2019-06-07 湖北工业大学 一种基于深度时空神经网络的动态异构网络流量预测方法
CN110570035A (zh) * 2019-09-02 2019-12-13 上海交通大学 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN111160521A (zh) * 2019-12-09 2020-05-15 南京航空航天大学 基于深度神经网络图编码器的城市人类流动模式检测方法
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享系统
CN111613054A (zh) * 2020-05-07 2020-09-01 浙江大学 一种协同考虑时空相关性及贡献差异的多步交通速度预测方法
CN111639243A (zh) * 2020-06-04 2020-09-08 东北师范大学 时空数据渐进式多维模式提取与异常检测可视分析方法
CN112115769A (zh) * 2020-08-05 2020-12-22 西安交通大学 一种基于视频的无监督稀疏人群异常行为检测算法
CN112396218A (zh) * 2020-11-06 2021-02-23 南京航空航天大学 基于城市区域多模态融合的人群流量预测方法
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI WANG: "《Tensor Deep Learning Model for Heterogeneous Data Fusion in Internet of Things》", 《EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE》 *
曾显珣: "《数据融合下的移动通信流量模式应用研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN113077053B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN112532439B (zh) 一种基于注意力多组件时空跨域神经网络模型的网络流量预测方法
CN109508360B (zh) 一种基于元胞自动机的地理多元流数据时空自相关分析方法
CN109743683B (zh) 一种采用深度学习融合网络模型确定手机用户位置的方法
Al-Sharif et al. A novel approach for predicting the spatial patterns of urban expansion by combining the chi-squared automatic integration detection decision tree, Markov chain and cellular automata models in GIS
CN113077090B (zh) 客流预测方法、系统及计算机可读存储介质
Li et al. Supreme: Fine-grained radio map reconstruction via spatial-temporal fusion network
CN111080501B (zh) 基于手机信令数据的真实人群密度时空分布估算方法
CN115204478A (zh) 一种结合城市兴趣点和时空因果关系的公共交通流量预测方法
CN112801411B (zh) 一种基于生成对抗网络的网络流量预测方法
CN112911626A (zh) 基于多图卷积的无线网络流量预测方法
Cheng et al. Analysis and forecasting of the day-to-day travel demand variations for large-scale transportation networks: a deep learning approach
Zheng et al. TelcoFlow: Visual exploration of collective behaviors based on telco data
CN115082250B (zh) 个体移动与生态空间的网络关系分析方法、装置及终端
CN114757389A (zh) 一种基于联邦学习的城市交通流量时空预测方法
Xu et al. Hybrid holiday traffic predictions in cellular networks
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
Sun et al. GAN-based LUCC prediction via the combination of prior city planning information and land-use probability
Naveed et al. Assessing deep generative models on time series network data
Alashban et al. Single convolutional neural network with three layers model for crowd density estimation
CN112949784B (zh) 一种居民出行链模型构建方法及居民出行链获取方法
Huang et al. Comprehensive urban space representation with varying numbers of street-level images
CN113077053B (zh) 多元群体活动模式表征方法及目标地理活动区域识别方法
Putra et al. Forecasting air quality using massive-scale wsn based on convolutional LSTM network
CN117456730A (zh) 一种基于自适应部分注意力扩散图卷积神经网络的交通流量预测方法
CN116629460A (zh) 一种基于ST-RANet模型的地铁客流预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant