CN110991751A - 用户生活模式预测方法、装置、电子设备及存储介质 - Google Patents
用户生活模式预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110991751A CN110991751A CN201911243647.6A CN201911243647A CN110991751A CN 110991751 A CN110991751 A CN 110991751A CN 201911243647 A CN201911243647 A CN 201911243647A CN 110991751 A CN110991751 A CN 110991751A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- data
- neural network
- switching mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000000694 effects Effects 0.000 claims abstract description 120
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 92
- 230000008569 process Effects 0.000 description 18
- 238000000605 extraction Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种用户生活模式预测方法、装置、电子设备及存储介质,方法包括:获取用户的活动轨迹切换模式数据;将活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到用户的生活模式;所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。本发明实施例可以得到较为准确的生活模式预测结果。此外,本发明实施例采用活动轨迹切换模式数据进行预测,相对于单纯依靠活动轨迹数据进行预测的方法,具有能够摆脱空间位置局限性的优势。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种用户生活模式预测方法、装置、电子设备及存储介质。
背景技术
在城市的快速发展过程中,对于城市的规划和建设显得越来越重要。对于一座城市的规划与建设往往需要依托该城市的人口分布、功能区划分、人群生活模式等这些特点。其中,城市的人口分布情况可以通过户口调查或居民身份居住信息等方式获得。功能区划分可以通过城市功能划分计划表等途径获得。目前,对于人群生活模式这一特点没有很好的途径获得,但是人群生活模式对于城市的规划和建设往往起着至关重要的作用。例如,假设某一类人群的生活模式是工作地和居住地的两点一线,则分析该类人群的数量以及对应的工作地分布或居住地分布情况,则有助于城市的建设和发展。
随着大数据时代的到来,数据的获取以及处理能力正在发生日新月异的突破,如何借助用户数据进行城市大规模人群生活模式的挖掘,成为目前面临的新挑战。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种用户生活模式预测方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供了一种用户生活模式预测方法,包括:
获取用户的活动轨迹切换模式数据;
将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;
其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
进一步地,在将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型之前,所述用户生活模式预测方法,还包括:
获取目标区域内预设数量用户的活动轨迹切换模式数据;
基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,得到目标区域内预设数量用户的生活模式聚类分类结果;
根据目标区域内预设数量用户的活动轨迹切换模式数据和目标区域内预设数量用户的生活模式聚类分类结果,对差分卷积神经网络模型进行训练,得到训练好的差分卷积神经网络模型。
进一步地,所述获取目标区域内预设数量用户的活动轨迹切换模式数据,具体包括:
确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据;
确定目标区域预设数量用户与节假日对应的第二活动轨迹切换模式数据;
根据第一活动轨迹切换模式数据和第二活动轨迹切换模式数据确定目标区域内预设数量用户的活动轨迹切换模式数据。
进一步地,所述确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据,具体包括:
根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据;
将目标区域预设数量用户在工作日不同时间分片的候选位置数据作为目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据。
进一步地,所述根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据,具体包括:
根据相应用户在多个工作日中位于任一时间分片访问的基站的位置信息生成与相应时间分片对应的多边形;
根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率和两个相邻基站的距离确定所述任一条边的权重;
将多边形中权重小于预设阈值的边去除,将该边对应的两个相邻基站中访问频率较低的基站去除,并将与去除基站被相应用户访问的频率均分至与所述去除基站相邻的基站上,当多边形中不存在权重小于预设阈值的边时,确定相应的多边形为最小多边形;
根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据。
进一步地,所述根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据,具体包括:
确定最小多边形的外接圆,并根据外接圆确定初始搜索范围;
根据所述初始搜索范围内每个基站被相应用户访问的频率以及与外接圆圆心的距离确定每个基站的点击率;
选择点击率最大的基站对应的位置数据作为相应用户位于所述任一时间分片的候选位置数据。
进一步地,所述基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,具体包括:
根据目标区域内预设数量用户的活动轨迹切换模式数据,确定不同用户之间的活动轨迹切换模式数据的编码距离;
根据不同用户之间的活动轨迹切换模式数据的编码距离,基于预设聚类算法,将不同用户进行分类,并根据不同分类用户对应的活动轨迹切换模式数据确定不同分类用户对应的生活模式。
第二方面,本发明实施例提供了一种用户生活模式预测装置,包括:
获取模块,获取用户的活动轨迹切换模式数据;
预测模块,将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;
其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的用户生活模式预测方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的用户生活模式预测方法。
由上述技术方案可知,本发明实施例提供的用户生活模式预测方法、装置、电子设备及存储介质,采用了活动轨迹切换模式数据进行预测,相对于单纯依靠活动轨迹数据进行预测的方法,具有能够摆脱空间位置局限性的优势。此外,由于本发明实施例采用活动轨迹切换模式数据作为预测基础数据,为此,本发明实施例适应性地提供了一种差分卷积神经网络模型,在该差分卷积神经网络模型中,差分因子和差分计算单元内置于卷积神经网络内部,且差分因子和卷积核同时作为神经网络训练参数,该差分卷积神经网络模型能够实现对序列化的活动轨迹切换模式数据的特征提取,而传统的卷积操作,无法实现对本发明实施例中提及的活动轨迹切换模式数据的特征提取,此外,本实施例提供的差分卷积神经网络模型在训练过程中,能够从各类活动轨迹切换模式训练数据中抽取各类活动轨迹切换模式的特征空间,最大化特征空间的差异性,从而可以提高分类的准确率。因此,本发明实施例在采用差分卷积神经网络模型对用户的活动轨迹切换模式数据进行预测时,可以得到较为准确的生活模式预测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的用户生活模式预测方法的流程图;
图2是本发明一实施例提供的差分卷积内部结构示意图;
图3是本发明一实施例提供的基站访问位置信息示意图;
图4是本发明一实施例提供的生活模式预测结果示意图;
图5是本发明一实施例提供的用户生活模式预测装置的结构示意图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的用户生活模式预测方法的流程图,如图1所示,本发明实施例提供的用户生活模式预测方法,具体包括如下内容:
步骤101:获取用户的活动轨迹切换模式数据;
在本步骤中,用户的活动轨迹切换模式数据是指用于表示用户活动轨迹切换模式的序列数据,该序列数据用于描述用户在指定时间周期内的轨迹切换模式。例如,该序列数据用于描述用户在指定时间周期内的位置切换次数、每次位置切换对应的时间信息以及每次位置切换是否引入新位置以及每次位置切换时涉及的位置变换关系等。这里的指定时间周期可以为任意的一天或多天或某个指定时间段,也可以为工作日的一天或多天或某个指定时间段,还可以为非工作日的一天或多天或某个指定时间段,还可以为工作日一天或多天或某个指定时间段加上非工作日的一天或多天或某个指定时间段等等,本实施例对此不作限定。
举例来说,假设将一天分为12个时间段,该用户一天的活动轨迹为[位置A(00:00-02:00)、位置A(02:00-04:00)、位置A(04:00-06:00)、位置A(06:00-08:00)、位置B(08:00-10:00)、位置B(10:00-12:00)、位置B(12:00-14:00)、位置B(14:00-16:00)、位置B(16:00-18:00)、位置A(18:00-20:00)、位置A(20:00-22:00)、位置A(22:00-24:00)],由该用户一天的活动轨迹可知,该用户在指定时间周期一天内进行了2次位置切换,第一次位置切换的时间点是上午08:00,涉及的位置切换为由位置A到位置B,第二次位置切换的时间点是下午18:00,涉及的位置切换为由位置B到位置A。因此,根据该用户一天的活动轨迹可以得到该用户一天的活动轨迹切换模式数据为[1、1、1、1、2、2、2、2、2、1、1、1]这样的一组序列数据,下面对该组序列数据的生成过程进行说明,在生成该组序列数据时,为方便描述,采用了数字编号的方式,也即在第一次出现某位置时,采用数字1进行表示,后续在进行位置切换时,若涉及新的位置变换,则在原来编号的继续上进行顺序递增,如果在后续进行位置切换时,又切换至该时间周期内出现过的位置,在采用相应位置对应的编号即可。例如,对于上述例子,用户前4个时间段位于位置A,中间5个时间段位于位置B,最后3个时间段又切换至位置A。因此,对应的活动轨迹切换模式数据为[1、1、1、1、2、2、2、2、2、1、1、1]这样的一组序列数据。需要说明的是,从该组序列中可以看出该用户的活动轨迹切换模式:在两个地点进行了切换,切换次数是两次,两次切换时间分别为上午08:00和下午18:00。后续根据该用户的活动轨迹切换模式数据,并使用训练好的差分卷积神经网络模型,可以得到该用户的生活模式预测结果。例如,将该活动轨迹切换模式数据输入至差分卷积神经网络模型,得到的生活模式预测结果为:在城市中两点一线上下班的生活模式。
需要说明的是,从该用户的活动轨迹切换模式数据[1、1、1、1、2、2、2、2、2、1、1、1]中可以看出,该用户的活动轨迹切换模式实际上属于公司和家两点一线的切换模式,根据上面的模型预测结果可知,该模型的预测结果也进一步印证了这一点。由此可知,采用用户活动轨迹切换模式数据便于更准确地预测用户生活模式,这是因为用户活动轨迹切换模式与用户的出行模式、生活习惯具有较强的关联性,因此,根据用户活动轨迹切换模式数据便于更准确地预测用户生活模式。
需要说明的是,本实施例中,采用用户活动轨迹切换模式数据进行生活模式的预测,相对于单纯依靠用户活动轨迹数据进行预测的方法,具有能够摆脱空间位置局限性的优势,具体分析如下:现有技术中的生活模式挖掘主要是基于物理距离上的远近或者共现频率等特征来划分聚类属性,现有技术中的生活模式挖掘方法都具有空间位置局限性等特点,从而无法对空间位置距离较远的两条轨迹进行相似度比对,无法实现大规模人群时空轨迹生活模式的挖掘与研究。而本实施例从用户轨迹位置切换特点角度出发,摆脱空间位置局限性,寻求用户位置访问时空相似性,而这种用户位置访问时空相关性与不同用户的出行模式、生活习惯极具关联性,从而实现大规模人群生活模式挖掘。
步骤102:将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
在本步骤中,由于差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到,因此,将获取的用户的活动轨迹切换模式数据输入至差分卷积神经网络模型中可以得到用户的生活模式。
在本步骤中,需要说明的是,采用差分卷积神经网络模型进入差分卷积操作进行预测具有如下优势:一方面,通过差分因子与差分计算单元与卷积操作的结合,实现了对序列化的活动轨迹切换模式数据的特征提取,而传统的卷积操作,无法实现本实施例中提及的活动轨迹切换模式数据的特征提取,这是因为:在本实施例中,活动轨迹切换模式数据表示的是用户活动轨迹切换模式的序列数据,而不是用户活动轨迹的绝对位置序列数据,这就意味着相同位置相同时刻的位置序列化数字不具备任何物理意义,单纯卷积操作特征提取失败(也即针对不同用户,活动轨迹切换模式数据序列中的值不具备比较意义,即相同值不表示相同的位置,因此不能使用传统的卷积神经网络(Convolutional Neural Network,CNN)进行特征提取,而引入差分单元便可消除序列化数据干扰,抽取活动轨迹切换模式数据在高维空间的特征表示。另一方面,由于活动轨迹切换模式数据属于对原始数据进行下采样生成的无监督数据,其自身携带有一定误差,若单纯采用K最近邻分类算法(K-NearestNeighbor,KNN)对大批量数据进行分类,则预测结果的准确性有待考量;而基于无监督数据,通过差分卷积模型进行特征提取与预测,能够得到准确的预测结果,这是因为:在模型训练过程中,而基于无监督训练样本数据,通过差分卷积模型进行特征提取与训练,能在样本数据中抽取各类位置访问数据切换的特征空间,最大化特征空间的差异性,从而提高分类算法准确率。
下面结合附图对本实施例提供的差分卷积神经网络模型进行说明,如图2所示,在本实施例提供的差分卷积神经网络模型中,差分卷积核内不仅保留传统卷积所使用的卷积核初始化参数,同时引入差分因子和差分计算单元(图2中虚线框所示)。也即在本实施例中,差分因子和差分计算单元均内置于卷积神经网络内部,且卷积核和所述差分因子均作为积神经网络模型的训练参数,其中,所述差分计算单元用于计算差分因子与卷积结果的内积。此外,需要说明的是,本实施例提供的利用差分卷积神经网络模型进行差分卷积操作与现有技术中通常意义提及的进行差分卷积操作不同,现有技术中提及的差分卷积操作,是将差分操作和卷积操作分开进行的,差分因子通常采用经验值法确定。而在本实施例中,将差分操作内置于卷积神经网络内部,将差分因子也作为卷积神经网络模型的训练参数,从而可以对差分因子进行训练,得到较为合适的差分因子训练值,进而有助于利用该模型进行准确的差分卷积操作,进而有利于提高预测结果的准确度。
由上述技术方案可知,本发明实施例提供的用户生活模式预测方法,采用了活动轨迹切换模式数据进行预测,相对于单纯依靠活动轨迹数据进行预测的方法,具有能够摆脱空间位置局限性的优势。此外,由于本发明实施例采用活动轨迹切换模式数据作为预测基础数据,为此,本发明实施例适应性地提供了一种差分卷积神经网络模型,在该差分卷积神经网络模型中,差分因子和差分计算单元内置于卷积神经网络内部,且差分因子和卷积核同时作为神经网络训练参数,该差分卷积神经网络模型能够实现对序列化的活动轨迹切换模式数据的特征提取,而传统的卷积操作,无法实现对本发明实施例中提及的活动轨迹切换模式数据的特征提取,此外,本实施例提供的差分卷积神经网络模型在训练过程中,能够从各类活动轨迹切换模式训练数据中抽取各类活动轨迹切换模式的特征空间,最大化特征空间的差异性,从而可以提高分类的准确率。因此,本发明实施例在采用差分卷积神经网络模型对用户的活动轨迹切换模式数据进行预测时,可以得到较为准确的生活模式预测结果。
基于上述实施例的内容,在本实施例中,给出了差分卷积神经网络模型的具体训练过程。现具体介绍如下:
在步骤102将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型之前,所述用户生活模式预测方法,还包括:
获取目标区域内预设数量用户的活动轨迹切换模式数据;
基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,得到目标区域内预设数量用户的生活模式聚类分类结果;
根据目标区域内预设数量用户的活动轨迹切换模式数据和目标区域内预设数量用户的生活模式聚类分类结果,对差分卷积神经网络模型进行训练,得到训练好的差分卷积神经网络模型。
根据上面的描述可知,在本实施例中,在对模型进行训练时,首先需要准备训练数据,这里的训练数据包括不同类型的活动轨迹切换模式数据,以及与不同类型的活动轨迹切换模式数据对应的生活模式标签数据,进而根据这两类数据可以对模型进行训练,进而可以得到训练好的差分卷积神经网络模型。由于采用有监督的训练方式时需要对训练数据进行标注,也就是说需要标注不同类型的活动轨迹切换模式样本数据以及与不同类型的活动轨迹切换模式样本数据对应的生活模式标签数据,这导致工作量较大,实现起来不太现实,因此,在本实施例中,可以采用无监督的训练方式进行模型训练,为此,在本实施例中,首先获取目标区域内预设数量用户的活动轨迹切换模式数据,这里的预设数量可以根据需要进行设定,如1-10万样本,这里的目标区域一般指待进行生活模式预测的城市,比如,待进行生活模式预测的城市为合肥,则获取合肥市内预设数量用户的活动轨迹切换模式数据作为训练样本数据,然后,根据聚类分类算法对这些活动轨迹切换模式样本数据进行聚类,获取相应的生活模式标签数据(聚类分类结果),最后,根据目标区域内预设数量用户的活动轨迹切换模式数据和相应的生活模式标签数据,对差分卷积神经网络模型进行训练,得到训练好的差分卷积神经网络模型。
在本实施例中,需要说明的是,如图2所示,在本实施例提供的差分卷积神经网络模型中,差分卷积核内不仅保留传统卷积所使用的卷积核初始化参数,同时引入差分因子和差分计算单元(图2中虚线框所示)。也即在本实施例中,差分因子和差分计算单元均内置于卷积神经网络内部,且卷积核参数和所述差分因子均作为卷积神经网络模型的训练参数,其中,所述差分计算单元用于计算差分因子与卷积结果的内积。在训练的初始化过程中,采用正态分布随机初始化卷积核参数与差分因子,具体过程如下:输入层接收训练用的活动轨迹切换模式数据,初始化卷积核参数以及差分因子矩阵,卷积核分别对输入数据计算卷积结果;差分单元引入差分因子矩阵,计算差分因子与卷积结果内积,并计算差分结果得到卷积差分输出;网络层输出通过softmax激活函数,并与相应的生活模式标签数据实现损失函数计算,通过随机梯度下降法,更新卷积核参数以及差分因子矩阵参数;通过不断训练与迭代,实现差分卷积单元参数固定,完成模型训练。
在本实施例中,需要说明的是,传统分类算法一般需要标注训练数据,而本实施例所使用数据均为无标签数据,对样本数据进行采样并使用无监督聚类算法实现样本标注。
在本实施例中,需要说明的是,由于传统的CNN只适用于数据特征在同一空间维度的数据集合,但是本实施例中的活动轨迹切换模式数据序列属于随机离散化矩阵,也即针对不同用户,活动轨迹切换模式数据序列中的值不具备比较意义,即相同值不表示相同的位置,因此不能使用传统的CNN进行特征提取。为此,本实施例提出一种针对该特定数据进行差分卷积的方法来消除该特定数据在卷积特征提取中的混乱性,同时最大化保证活动轨迹切换模式数据的特征表示,从而保证了预测结果的准确性。
基于上述实施例的内容,在本实施例中,所述获取目标区域内预设数量用户的活动轨迹切换模式数据,具体包括:
确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据;
确定目标区域预设数量用户与节假日对应的第二活动轨迹切换模式数据;
根据第一活动轨迹切换模式数据和第二活动轨迹切换模式数据确定目标区域内预设数量用户的活动轨迹切换模式数据。
在本实施例中,为准确预测用户的生活模式,本实施例同时考虑了用户工作日的活动轨迹切换模式数据和节假日的活动轨迹切换模式数据,从而在根据用户活动轨迹切换模式数据进行生活模式预测时能够得到更为准确完备的预测结果。例如,某用户的活动轨迹切换模式数据为:工作日位于某位置基本不活动,节假日在多个位置频繁切换,根据该用户的活动轨迹切换模式数据可以推知该用户的生活模式应该类似为工作日休息,节假日活动的健身教练或导游人员的生活模式。
基于上述实施例的内容,在本实施例中,所述确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据,具体包括:
根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据;
将目标区域预设数量用户在工作日不同时间分片的候选位置数据作为目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据。
在本实施例中,在确定与工作日对应的第一活动轨迹切换模式数据时,为体现出活动轨迹切换的特点,将工作日进行了时间分片的划分,此外,为了保证每个时间分片内的位置数据具有代表性,本实施例根据用户在多个工作日(如连续20个工作日)中位于每个工作日不同时间分片的位置数据确定该用户在工作日不同时间分片的候选位置数据,然后将该用户在工作日不同时间分片的候选位置数据作为相应时间分片内的位置数据,进而根据工作日每个时间分片内的位置数据得到与工作日对应的第一活动轨迹切换模式数据。
在本实施例中,需要说明的是,在对工作日进行时间分片时,可以分成24个时间片,也即以一个小时为一个时间片。此外,为细化位置切换特点,还可以分成48个时间片,此时是以半个小时为一个时间片。
在本实施例中,需要说明的是,确定与节假日对应的第二活动轨迹切换模式数据时,采用的是与上述类似的处理方式,为避免赘述,本实施例对此不作详述。
基于上述实施例的内容,在本实施例中,在根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据时,具体可通过如下方式实现:
步骤a:根据相应用户在多个工作日中位于任一时间分片访问的基站的位置信息生成与相应时间分片对应的多边形;
步骤b:根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率和两个相邻基站的距离确定所述任一条边的权重;
步骤c:根据多边形每条边的权重对所述多边形进行优化处理,得到最小多边形;
步骤d:根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据。
在本实施例中,可以将用户终端访问的基站的位置作为用户的位置数据。需要说明的是,对于运营商信令数据,基本能够覆盖城市的每一角落,涵盖城市绝大部分市民。因此,采用用户终端访问的基站的位置作为用户的位置数据能够覆盖绝大多数的用户样本。需要说明的是,本实施例中的用户轨迹数据并不限定为采用基站位置数据实现,根据需要还可以采用其他实现方式,例如可以采用安装在手机上的定位器获取位置信息等等,本实施例对此不作限定。
在本实施例中,由于用户随机出行导致位置变化影响,用户在多个工作日位于同一时间分片的位置信息会比较分散复杂,因此,根据对于同一时间分片来说,对应的多个位置信息生成的多边形比较大,此时就需要想办法找到最小多边形,然后利用最小多边形确定初始搜索范围,并在初始搜索范围内确定相应用户位于时间分片的候选位置数据的处理方式。需要说明的是,对于本实施例中提到多边形可以采用泰森多边形来实现,当然也可以采用其他多边形实现,本实施例对此不作限定。
在本实施例中,采用通过确定每条多边形的权重的方式来对多边形进行优化处理,进而得到最小多边形。具体方式为:根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率和两个相邻基站的距离确定所述任一条边的权重,然后根据多边形每条边的权重对所述多边形进行优化处理,得到最小多边形。
在本实施例中,上述步骤b在根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率和两个相邻基站的距离确定所述任一条边的权重时,具体可采用如下的处理方式:
根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率的比值以及两个相邻基站的距离确定所述任一条边的权重。
进一步地,在本实施例中,所述根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率的比值以及两个相邻基站的距离确定所述任一条边的权重,具体可采用如下的处理方式:
根据下面公式确定所述任一条边的权重:
其中,Wij表示基站i与基站j之间边的权重,counti表示基站i被相应用户访问的频率,countj表示基站j被相应用户访问的频率,disij表示基站i与基站j之间的距离。
在本实施例中,根据权重的计算原理,可以保证得到的最小多边形中能够包含最优候选点。
在本实施例中,上述步骤c在根据多边形每条边的权重对所述多边形进行优化处理,得到最小多边形时,具体可采用如下的处理方式:
将多边形中权重小于预设阈值的边去除,将该边对应的两个相邻基站中访问频率较低的基站去除,并将与去除基站被相应用户访问的频率均分至与所述去除基站相邻的基站上,当多边形中不存在权重小于预设阈值的边时,确定相应的多边形为最小多边形。
在本实施例中,在将多边形中权重小于预设阈值的边去除的同时,还将该边对应的两个相邻基站中访问频率较低的基站去除,并将与去除基站被相应用户访问的频率均分至与所述去除基站相邻的基站上,从而在消除相邻边和基站的同时,又保证了被消除基站被访问概率的转移,从而使得最终确定的最小多边形能够避免遗漏有可能重要位置信息。也即被访问的基站即使不合理、即使外围较远,信号漂移,也要捕捉到并将其规划到最可能基站。在本实施例中,所述预设阈值可以采用所有边权值排序后的中位数确定,也可以根据自行决定,具体的也可以根据所需要的最小多边形的大小而定,本实施例对此不作限定。
在本实施例中,上述步骤d根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据时,具体可采用如下的处理方式:
步骤d1:确定最小多边形的外接圆,并根据外接圆确定初始搜索范围;
步骤d2:根据所述初始搜索范围内每个基站被相应用户访问的频率以及与外接圆圆心的距离确定每个基站的点击率;
步骤d3:选择点击率最大的基站对应的位置数据作为相应用户位于所述任一时间分片的候选位置数据。
在本实施例中,需要说明的是,候选位置数据用于确定用户处于什么位置,从而有利于确定下文中的活动轨迹切换模式数据。
在本实施例中,上述d2根据所述初始搜索范围内每个基站被相应用户访问的频率以及与外接圆圆心的距离确定每个基站的点击率,具体可采用如下的处理方式:
根据每个基站与外接圆圆心的距离与所述初始搜索范围内所有基站与外接圆圆心的距离之和的比值,以及,每个基站被相应用户访问的频率与所述初始搜索范围内所有基站被相应用户访问的频率之和的比值,确定每个基站的点击率。
在本实施例中,在同心圆内的点,基于候选基站至圆心距离与访问频率的点击率计算,能够筛选出最优候选点,进而可以得到用户最大可能坐落点。此外,关于该部分的有益效果可以参考后续一个实施例中的详细介绍。
进一步地,在本实施例中,所述根据每个基站与外接圆圆心的距离与所述初始搜索范围内所有基站与外接圆圆心的距离之和的比值,以及,每个基站被相应用户访问的频率与所述初始搜索范围内所有基站被相应用户访问的频率之和的比值,确定每个基站的点击率,具体可采用如下的处理方式:
根据下面公式确定所述初步候选基站的点击率:
其中,CTR(k)表示初步候选基站k的点击率,disk表示初步候选基站k与圆心的距离,表示初始搜索范围内所有初步候选基站与圆心的距离之和,U表示初始搜索范围内所有初步候选基站的数量,disi表示初步候选基站i与圆心的距离;countk表示初步候选基站k被相应用户访问的频率,表示初始搜索范围内所有初步候选基站被相应用户访问的频率之和,U表示初始搜索范围内所有初步候选基站的数量,counti表示初步候选基站i被相应用户访问的频率。
基于上述实施例的内容,在本实施例中,所述基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,具体包括:
根据目标区域内预设数量用户的活动轨迹切换模式数据,确定不同用户之间的活动轨迹切换模式数据的编码距离;
根据不同用户之间的活动轨迹切换模式数据的编码距离,基于预设聚类算法,将不同用户进行分类,并根据不同分类用户对应的活动轨迹切换模式数据确定不同分类用户对应的生活模式。
在本实施例中,需要说明的是,正如前面所述,在生成用户活动轨迹切换模式数据序列时,利用的不是用户的绝对位置数据,而是利用的一种简化的且能够代表位置切换关系的编号数据,如上面实施例给出的例子,某用户一天的活动轨迹切换模式数据为[1、1、1、1、2、2、2、2、2、1、1、1]。这里的1和2就是一种简化的且能够代表位置切换关系的编号数据。需要说明的是,单用户不同时间片内访问的位置相同,则相应时间片内的编号数据相同,假设单用户最多有N(如N=96)个时间分片,则单用户最多可访问N个不同的位置点,则对应的编号数据<=N,N是时间片,假设每个时间片包含用户M(如M=30)天访问的位置,此时需要利用优化处理算法选择最优候选位置,因此,经过处理后每个时间片内只有一个编号数据,进而根据每个时间片内只包含的一个编号数据可以得到用户的活动轨迹切换模式数据。例如,当N=10时,用户的活动轨迹切换模式数据为[1、1、1、1、2、2、2、2、2、1、1、1]。此外,需要说明的是,不同用户之间的编号数据并无比较意义,比如,用户A为[1、1、1、1、2、2、2、2、2、1、1、1],用户B为[1、1、1、2、2、2、2、2、3、3、1、1](这里的编号数据3的含义表示位置切换过程产生了第三个新的位置,以此类推,当在切换过程中,再次出现新的位置时,用4进行表示)。由此可见,这里用户A和用户B,即使部分编号数据相同也不一定表示位置相同,但用户A和用户B之间的活动轨迹切换模式数据存在距离远近含义,因此能通过该距离对活动轨迹切换模式数据进行聚类分类。
在本实施例中,在基于活动轨迹切换模式数据进行不同生活模式的聚类分类以确定不同生活模式的标签时,采用了编码距离这一思路,根据前面实施例对活动轨迹切换模式数据[1、1、1、1、2、2、2、2、2、1、1、1]的分析和举例可知,本实施例采用的用户活动轨迹切换模式数据不是用户活动轨迹的绝对位置序列数据,而是活动轨迹切换模式,这就意味着可以采用距离编码的方式进行聚类分类。
需要说明的是,在本实施例中,定义一种编码模式距离,该编码模式距离可准确刻画不同用户活动轨迹切换模式数据之间的距离,以用户活动轨迹切换模式数据为原始输入,通过计算用户之间最小活动轨迹切换模式数据的改变个数,计算用户间编码模式距离,具体解释如下:用户A活动轨迹切换模式数据为111244433333,用户B活动轨迹切换模式数据为222233311111,如下表1所示:
表1
T1 | T2 | T3 | T4 | T5 | T6 | T7 | T8 | T9 | T10 | T11 | T12 | |
A | 1 | 1 | 1 | 2 | 4 | 4 | 4 | 3 | 3 | 3 | 3 | 3 |
B | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 1 | 1 | 1 | 1 | 1 |
A与B之间的编码模式距离含义为:改变最小编码位数后,保证A,B之间编码模式相同,例如,只要改变A中T4时刻的2->1,使得原编码变为111144433333即可保证A与B编码模式相同:4*a+3*b+5*c。该编码模式距离仅仅从用户访问位置切换模式、时序中挖掘不同用户之间的轨迹距离,并不涉及用户位置距离信息,从而既保证用户轨迹访问位置时空物理意义,又避免空间距离对距离函数定义的局限性。根据上述轨迹距离定义(也即轨迹距离指上面讲述的编码模式距离),可以计算所有样本用户之间的轨迹距离矩阵,具体方式如下:
Dis_mat=[[]](初始化轨迹距离矩阵)
For(Pi,Pj)in P:(对于P中的每一个样本用户的活动轨迹切换模式数据序列,执行如下过程:)
Dis=dis(Pi,Pj)(计算用户i和用户j的之间的轨迹距离)
Dis_mat[i][j]=Dis(将用户i和用户j的之间的轨迹距离赋值到初始化的轨迹距离矩阵中)
Return Dis_mat(当P中任意两个用户之间的轨迹距离均得到计算结果后返回最终的轨迹距离矩阵)
其中,P表示所有样本用户活动轨迹切换模式数据序列,Pi,Pj分别表示用户i和用户j的活动轨迹切换模式数据序列,Dis_mat表示轨迹距离矩阵,dis()表示轨迹距离计算函数,Dis表示轨迹距离计算结果。
在本实施例中,需要说明的是,传统聚类算法有多种,例如K-means、聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBScan)、高斯混合模型(Gaussian Mixture Model,GMM)等,但是工程上常用K-means聚类算法进行聚类,该方法具体包括:1、随机选择k个点作为初始聚类中心点;2、将每个object聚类到最近的聚类中心点;3、更新每个类的聚类中心点,计算objective function;4、返回2,直到各类聚类中心点不再变化的时候结束聚类。从上述内容可知,K-means受异常值或极端值的影响比较大,为避免该问题,本实施例再介绍另外一种聚类算法K-medodis。看起来和K-means比较相似,但是K-medoids和K-means存在实质区别,不一样的地方在于中心点的选取,在K-means中,一般将中心点取为当前聚类中所有数据点的平均值,而在K-medoids算法中,是将从当前聚类中选取这样一个点-它到其他所有(当前聚类中的)点的距离之和最小-作为中心点。根据上述计算所得距离矩阵Dis_mat,采用K_medoids聚类并将聚类结果降维可视化。需要说明的是,采用本实施例提供的聚类方法,能够实现对样本活动轨迹切换模式数据生成相应的生活模式标签,进而为后续分类算法提供训练数据。
在本实施例中,需要说明的是,虽然利用聚类算法得到的聚类分类效果不错,但是由于聚类算法开销巨大,因此不适应整个城市大规模人群,而聚类算法通常是通过随机采样收集大量数据集合,然后根据该数据集合生成聚类中心并划分类别数据,但如果单纯使用聚类中心点为标准,使用的聚类算法对大规模人群进行分类,势必会有损准确率,因此正如前面实施例所述,本发明实施例采用了利用训练好的差分卷积神经网络模型进行生活模式预测的方法,也即本实施例提供了一种结合无监督学习算法生成标签数据的有监督分类算法。
下面结合一个较为完整的例子对本发明实施例提供的用户生活模式预测方法进行解释说明。
在本实施例中,需要说明的是,首先需要收集用户活动轨迹,然后基于收集的用户活动轨迹生成对应的活动轨迹切换模式数据,最后再将生成的活动轨迹切换模式数据输入至训练好的模型中进行生活模式的预测。由于本实施例涉及的模型使用过程和模型训练过程思路一致,因此下面以模型的训练过程为例进行详细解释说明。
移动终端在静止或运动模式下,都会定期与附近基站进行数据交互,保持心跳。基站会记录所有与之交互的移动终端信息,其中主要关注的信息为移动终端设备ID、移动终端设备和基站交互的时间戳以及互基站ID,其中,设备ID为唯一标示设备编号字段,可用其绑定单个用户,基站ID为唯一标示基站编号字段,结合基站地理位置信息公参表,确定当前基站的地理位置信息,时间戳为设备与基站交互的时间信息。表2给出了基站记录的基站与移动终端设备的交互信息示例:
表2
设备ID | 时间戳 | 基站ID |
Adrrev0034864jj | 201807121467 | Auxing3450 |
本实施例分别按照工作日和节假日来采集用户一个月(30天)的信令数据作为用户轨迹数据,并以30分钟为最小时间粒度,即时间粒度为30分钟,对单个用户而言,工作日和节假日分别包含48个时间片,则需采用96个时间片记录其访问的所有基站位置信息,其中单个时间片包含该用户一个月(30天)内所访问的基站位置信息,具体可以形式化表示为图3所示,每个时间片存在30个基站访问位置,这些位置可能存在重复访问现象。
在获得用户轨迹数据后,可以基于泰森多边形融合消除处理以进行轨迹特征提取与候选点确定。具体地,获得用户轨迹数据后,按照前面实施例介绍的数字编号方式(也即在第一次出现某位置时,采用数字1进行表示,后续在进行位置切换时,若涉及新的位置变换,则在原来编号的继续上进行顺序递增,如果在后续进行位置切换时,又切换至该时间周期内出现过的位置,在采用相应位置对应的编号即可),单用户轨迹访问位置数据被统一规范为96维向量,每个维度表示30分钟时间片内,该用户一个月来所访问的基站位置信息,同时选择一个月内该30分钟时间片的最优访问候选点位置作为该时间片内访问的基站标记,并对96维访问基站位置采取数字编号,相同基站给予相同的数字编号。另外,由于基站信号的不稳定性以及基站漂移因素的影响,加上用户随机出行导致位置变化影响,用户一个月在该时间片访问位置信息十分分散复杂,根据所有基站位置生成的泰森多边形比较大,如果直接获取该泰森多边形的外接圆以及圆心,会受到外围远处基站影响程度大;因此需要采用本实施例的消融技术缩小多边形范围,同时又将外维基站访问频率分配给多边形相邻基站,在空间上和访问率上十分恰当,再次引入最小泰森多边形外接圆处理。因此,为了准确挖掘基站位置访问最优候选点,本实施例提出一种基于泰森多边形融合消除次优侯选点的方法,增强外围基站漂移的抗干扰能力,保证最优候选点的选择在空间位置与访问评率上具有绝对优势,具体过程如下:
C1、根据用户基站访问位置数据,生成泰森多边形,以相邻基站被用户访问评率和基站距离计算泰森多边形各边权重,其中,所述基站访问位置数据是通过移动终端的信令数据得到交互基站ID,然后根据基站公参表位置查询得到的,另外,泰森多边形各边权重大小可以通过形成该边的两个基站的被用户访问频率和地理位置距离得到的,具体可以通过如下数学公式得到:
其中,Wij表示基站i与基站j之间边的权重,counti表示基站i被相应用户访问的频率,countj表示基站j被相应用户访问的频率,disij表示基站i与基站j之间的距离。
C2、根据Wij排序中位数设置阈值将的边从泰森多边形中去除,同时将访问频率较小基站去除,并将访问频率均分至与其相邻基站,即通过上述步骤根据阈值去除相邻边后,同时形成该边的两个基站需要根据用户访问频率去除一个基站,并将该基站的用户访问频率分配给其相邻基站,所以泰森多边形消融法是一个递归迭代的过程,在消除相邻边和基站的同时,又保证了被消除基站被访问概率的转移,被访问即使合理、即使外围较远,信号漂移,也要捕捉到并将其规划到最可能基站,所述阈值可以采用所有边权值排序后的中位数确定,也可以根据自行决定,具体的也可以根据所需要的最小泰森多边形的大小而定。
C4、根据基站经纬度,矩形收缩方式确定最外围四个点(即经纬度数值的最大最小点),该四点一定是最小泰森多边形最外围四点,以该四点确定泰森多边形外接圆,同时确定其圆心(center)。
C5、以center为圆心,矩形对角半径R为半径框选出初步候选基站位置点集合U,使得同心圆半径缩小,搜索最优候选点范围也缩小。
C6、计算初步候选基站位置点集合U中每个点到圆心center的距离列表dis_list。
C7、计算距离列表dis_list与初步候选基站位置点集合U中点被用户访问频率之间的加权评分作为基站点击率,即内侧同心圆缩小基站U集合,U中所有基站到圆心距离与用户访问基站频率加权值表示基站被访问点击率,点击率大的表示该基站在空间、次数上最可能是用户做落点;内侧同心圆是根据最小泰森多边形一步步得到的,包括圆心、半径等都与泰森多边形息息相关;具体的基站点击率可以通过如下的数学公式进行计算:
其中,CTR(k)表示初步候选基站k的点击率,disk表示初步候选基站k与圆心的距离,表示初始搜索范围内所有初步候选基站与圆心的距离之和,U表示初始搜索范围内所有初步候选基站的数量,disi表示初步候选基站i与圆心的距离;countk表示初步候选基站k被相应用户访问的频率,表示初始搜索范围内所有初步候选基站被相应用户访问的频率之和,U表示初始搜索范围内所有初步候选基站的数量,counti表示初步候选基站i被相应用户访问的频率。
在本实施例中,需要说明的是,基于泰森多边形融合消除法较传统的基于地理位置、访问频率的加权投票选举具有如下优势:
①泰森多边形综合考虑所有候选点,自定义的Wij边权重计算方式,能够抵消外围低频率访问对同心圆造成的干扰能力,采用阈值消除手段减小泰森多边形范围,同时融合外围低频访问基站至最小泰森多边形,该方案不仅有效解决外围点的干扰,同时根据信号漂移的原理将外围点的访问频率按距离分配与相邻基站,保留了外围基站被访问的内在因素,并由相邻基站承接访问率;
②基于最小泰森多边形的外接同心圆与理想半径选择,缩小候选点搜索范围,同时又能保证R半径内点绝对包含最优候选点:由泰森多边形融合消除法Wij计算原理保证;
③同心圆R内的点,基于候选基站至圆心距离与访问频率的点击率计算,排序得到的最优候选点,便是用户最大可能坐落点。
在本实施例中,如图4所示,采用本实施例提供的用户生活模式预测方法对合肥市进行用户生活模式预测后,得到了7种不同的生活模式,分别为图4中的#1-#7。其中#1表示在商业中心上班的人群进行的是早10-晚10两点一线没有休息日的生活模式;#2表示高校和住宅区用户活动基本不发生变化的宅居生活模式;#3表示在城市中进行的是早8-晚6两点一线上下班且没有休息日的生活模式;#4表示宅居于城市的某一角落,偶尔有行动的生活模式;#5表示穿梭在城市的各个地方类似出租车司机的生活模式;#6表示在核心办公区的白领进行的是早8-晚6两点一线上下班且有休息日的生活模式;#7表示在城际班车来回穿梭的生活模式。
图5示出了本发明一实施例提供的用户生活模式预测装置的结构示意图,如图5所示,本发明实施例提供的用户生活模式预测装置,包括:获取模块21和预测模块22,其中:
获取模块21,获取用户的活动轨迹切换模式数据;
预测模块22,将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;
其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
由于本实施例提供的用户生活模式预测装置可以用于执行上述实施例提供的用户生活模式预测方法,其工作原理和有益效果类似,此处不再详述。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图6,所述电子设备具体包括如下内容:处理器601、存储器602、通信接口603和通信总线604;
其中,所述处理器601、存储器602、通信接口603通过所述通信总线604完成相互间的通信;所述通信接口603用于实现各设备之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述用户生活模式预测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取用户的活动轨迹切换模式数据;将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述用户生活模式预测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取用户的活动轨迹切换模式数据;将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,用户生活模式预测装置,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,用户生活模式预测装置,或者网络设备等)执行各个实施例或者实施例的某些部分所述的用户生活模式预测方法。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户生活模式预测方法,其特征在于,包括:
获取用户的活动轨迹切换模式数据;
将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;
其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
2.根据权利要求1所述的用户生活模式预测方法,其特征在于,在将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型之前,所述用户生活模式预测方法,还包括:
获取目标区域内预设数量用户的活动轨迹切换模式数据;
基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,得到目标区域内预设数量用户的生活模式聚类分类结果;
根据目标区域内预设数量用户的活动轨迹切换模式数据和目标区域内预设数量用户的生活模式聚类分类结果,对差分卷积神经网络模型进行训练,得到训练好的差分卷积神经网络模型。
3.根据权利要求2所述的用户生活模式预测方法,其特征在于,所述获取目标区域内预设数量用户的活动轨迹切换模式数据,具体包括:
确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据;
确定目标区域预设数量用户与节假日对应的第二活动轨迹切换模式数据;
根据第一活动轨迹切换模式数据和第二活动轨迹切换模式数据确定目标区域内预设数量用户的活动轨迹切换模式数据。
4.根据权利要求3所述的用户生活模式预测方法,其特征在于,所述确定目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据,具体包括:
根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据;
将目标区域预设数量用户在工作日不同时间分片的候选位置数据作为目标区域预设数量用户与工作日对应的第一活动轨迹切换模式数据。
5.根据权利要求4所述的用户生活模式预测方法,其特征在于,所述根据目标区域预设数量用户在多个工作日中位于每个工作日不同时间分片的位置数据确定目标区域预设数量用户在工作日不同时间分片的候选位置数据,具体包括:
根据相应用户在多个工作日中位于任一时间分片访问的基站的位置信息生成与相应时间分片对应的多边形;
根据多边形中任一条边对应的两个相邻基站分别被相应用户访问的频率和两个相邻基站的距离确定所述任一条边的权重;
将多边形中权重小于预设阈值的边去除,将该边对应的两个相邻基站中访问频率较低的基站去除,并将与去除基站被相应用户访问的频率均分至与所述去除基站相邻的基站上,当多边形中不存在权重小于预设阈值的边时,确定相应的多边形为最小多边形;
根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据。
6.根据权利要求5所述的用户生活模式预测方法,其特征在于,所述根据最小多边形确定初始搜索范围,并在所述初始搜索范围内确定相应用户位于所述任一时间分片的候选位置数据,具体包括:
确定最小多边形的外接圆,并根据外接圆确定初始搜索范围;
根据所述初始搜索范围内每个基站被相应用户访问的频率以及与外接圆圆心的距离确定每个基站的点击率;
选择点击率最大的基站对应的位置数据作为相应用户位于所述任一时间分片的候选位置数据。
7.根据权利要求2~6任一项所述的用户生活模式预测方法,其特征在于,所述基于目标区域内预设数量用户的活动轨迹切换模式数据对目标区域内预设数量用户进行不同生活模式的聚类分类,具体包括:
根据目标区域内预设数量用户的活动轨迹切换模式数据,确定不同用户之间的活动轨迹切换模式数据的编码距离;
根据不同用户之间的活动轨迹切换模式数据的编码距离,基于预设聚类算法,将不同用户进行分类,并根据不同分类用户对应的活动轨迹切换模式数据确定不同分类用户对应的生活模式。
8.一种用户生活模式预测装置,其特征在于,包括:
获取模块,获取用户的活动轨迹切换模式数据;
预测模块,将所述活动轨迹切换模式数据输入至训练好的差分卷积神经网络模型,得到所述用户的生活模式;
其中,所述训练好的差分卷积神经网络模型为利用与不同类型生活模式对应的活动轨迹切换模式数据进行训练后得到;其中,所述差分卷积神经网络模型为在卷积神经网络模型基础上,将差分因子和差分计算单元内置于卷积神经网络内部,并将差分因子和卷积核同时作为神经网络训练参数得到的模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一所述的用户生活模式预测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一所述的用户生活模式预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243647.6A CN110991751A (zh) | 2019-12-06 | 2019-12-06 | 用户生活模式预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243647.6A CN110991751A (zh) | 2019-12-06 | 2019-12-06 | 用户生活模式预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991751A true CN110991751A (zh) | 2020-04-10 |
Family
ID=70090972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911243647.6A Pending CN110991751A (zh) | 2019-12-06 | 2019-12-06 | 用户生活模式预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991751A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487610A (zh) * | 2021-09-07 | 2021-10-08 | 湖南超能机器人技术有限公司 | 疱疹图像识别方法、装置、计算机设备和存储介质 |
CN113554356A (zh) * | 2021-09-18 | 2021-10-26 | 中国地质大学(武汉) | 基于多模型融合的人口分布估计方法、装置及存储介质 |
CN117202106A (zh) * | 2023-10-19 | 2023-12-08 | 北京融信数联科技有限公司 | 基于信令数据的区域空间场所属性标注方法、系统和介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022527A (zh) * | 2016-05-27 | 2016-10-12 | 河南明晰信息科技有限公司 | 基于地图瓦片和lstm循环神经网络的轨迹预测方法和装置 |
CN106447119A (zh) * | 2016-10-11 | 2017-02-22 | 济南观澜数据技术有限公司 | 一种基于卷积神经网络的短期交通流量预测方法及系统 |
CN109061705A (zh) * | 2018-06-27 | 2018-12-21 | 千寻位置网络有限公司 | 基于tensorflow的数据处理方法及终端、差分定位平台 |
CN109064748A (zh) * | 2018-09-18 | 2018-12-21 | 浙江工业大学 | 基于时间聚类分析和可变卷积神经网络的交通平均速度预测方法 |
US20190065343A1 (en) * | 2017-08-29 | 2019-02-28 | Fmr Llc | Automated Log Analysis and Problem Solving Using Intelligent Operation and Deep Learning |
CN109740335A (zh) * | 2018-11-27 | 2019-05-10 | 武汉极意网络科技有限公司 | 验证码操作轨迹的分类方法及装置 |
CN110059144A (zh) * | 2019-04-03 | 2019-07-26 | 电子科技大学 | 一种基于卷积神经网络的轨迹属主预测方法 |
CN110210604A (zh) * | 2019-05-21 | 2019-09-06 | 北京邮电大学 | 一种终端设备移动轨迹预测方法及装置 |
CN110276345A (zh) * | 2019-06-05 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
CN110378466A (zh) * | 2019-06-03 | 2019-10-25 | 北京大学 | 基于神经网络差分的量化方法及系统 |
CN110378224A (zh) * | 2019-06-14 | 2019-10-25 | 香港理工大学深圳研究院 | 一种地物变化的检测方法、检测系统及终端 |
-
2019
- 2019-12-06 CN CN201911243647.6A patent/CN110991751A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022527A (zh) * | 2016-05-27 | 2016-10-12 | 河南明晰信息科技有限公司 | 基于地图瓦片和lstm循环神经网络的轨迹预测方法和装置 |
CN106447119A (zh) * | 2016-10-11 | 2017-02-22 | 济南观澜数据技术有限公司 | 一种基于卷积神经网络的短期交通流量预测方法及系统 |
US20190065343A1 (en) * | 2017-08-29 | 2019-02-28 | Fmr Llc | Automated Log Analysis and Problem Solving Using Intelligent Operation and Deep Learning |
CN109061705A (zh) * | 2018-06-27 | 2018-12-21 | 千寻位置网络有限公司 | 基于tensorflow的数据处理方法及终端、差分定位平台 |
CN109064748A (zh) * | 2018-09-18 | 2018-12-21 | 浙江工业大学 | 基于时间聚类分析和可变卷积神经网络的交通平均速度预测方法 |
CN109740335A (zh) * | 2018-11-27 | 2019-05-10 | 武汉极意网络科技有限公司 | 验证码操作轨迹的分类方法及装置 |
CN110059144A (zh) * | 2019-04-03 | 2019-07-26 | 电子科技大学 | 一种基于卷积神经网络的轨迹属主预测方法 |
CN110210604A (zh) * | 2019-05-21 | 2019-09-06 | 北京邮电大学 | 一种终端设备移动轨迹预测方法及装置 |
CN110378466A (zh) * | 2019-06-03 | 2019-10-25 | 北京大学 | 基于神经网络差分的量化方法及系统 |
CN110276345A (zh) * | 2019-06-05 | 2019-09-24 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
CN110378224A (zh) * | 2019-06-14 | 2019-10-25 | 香港理工大学深圳研究院 | 一种地物变化的检测方法、检测系统及终端 |
Non-Patent Citations (3)
Title |
---|
吴仁彪;李佳怡;屈景怡;: "基于双通道卷积神经网络的航班延误预测模型", 计算机应用, no. 07, 3 April 2018 (2018-04-03) * |
李明晓,等: "《一种基于模糊长短期神经网络的移动对象轨迹预测算法》", 《测绘学报》, vol. 47, no. 12, pages 1660 - 1669 * |
陈深进;薛洋;: "基于改进卷积神经网络的短时公交客流预测", 计算机科学, no. 05, 30 April 2019 (2019-04-30) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487610A (zh) * | 2021-09-07 | 2021-10-08 | 湖南超能机器人技术有限公司 | 疱疹图像识别方法、装置、计算机设备和存储介质 |
CN113554356A (zh) * | 2021-09-18 | 2021-10-26 | 中国地质大学(武汉) | 基于多模型融合的人口分布估计方法、装置及存储介质 |
CN117202106A (zh) * | 2023-10-19 | 2023-12-08 | 北京融信数联科技有限公司 | 基于信令数据的区域空间场所属性标注方法、系统和介质 |
CN117202106B (zh) * | 2023-10-19 | 2024-05-14 | 北京融信数联科技有限公司 | 基于信令数据的区域空间场所属性标注方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rawassizadeh et al. | Scalable daily human behavioral pattern mining from multivariate temporal data | |
Soh et al. | Adaptive deep learning-based air quality prediction model using the most relevant spatial-temporal relations | |
Zhao et al. | Predictive task assignment in spatial crowdsourcing: a data-driven approach | |
Zhong et al. | Detecting the dynamics of urban structure through spatial network analysis | |
Etienne et al. | Model-based count series clustering for bike sharing system usage mining: a case study with the Vélib’system of Paris | |
CN105045858B (zh) | 基于投票的出租车载客点推荐方法 | |
CN107977734B (zh) | 一种时空大数据下基于移动马尔可夫模型的预测方法 | |
CN110991751A (zh) | 用户生活模式预测方法、装置、电子设备及存储介质 | |
Yu et al. | Trajectory similarity clustering based on multi-feature distance measurement | |
Wang et al. | Predictability and prediction of human mobility based on application-collected location data | |
CN113157800B (zh) | 实时发现空中动态目标识别方法 | |
Cai et al. | A new clustering mining algorithm for multi-source imbalanced location data | |
CN113011471A (zh) | 一种社交群体的划分方法、划分系统及相关装置 | |
Duong et al. | A fusion of data mining techniques for predicting movement of mobile users | |
Manley et al. | New forms of data for understanding urban activity in developing countries | |
Zhang et al. | Hunting image: Taxi search strategy recognition using sparse subspace clustering | |
Amirat et al. | Nextroute: a lossless model for accurate mobility prediction | |
Elías et al. | On projection methods for functional time series forecasting | |
Xiong et al. | Revealing correlation patterns of individual location activity motifs between workdays and day-offs using massive mobile phone data | |
CN113159371B (zh) | 基于跨模态数据融合的未知目标特征建模与需求预测方法 | |
Sabarish et al. | A survey of location prediction using trajectory mining | |
CN110619090B (zh) | 一种区域吸引力评估方法及设备 | |
Liu et al. | A new point process transition density model for space-time event prediction | |
Chai et al. | A node-priority based large-scale overlapping community detection using evolutionary multi-objective optimization | |
CN110909765B (zh) | 一种面向轨迹大数据的行人行为模式分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |