CN116975463A - 出行目的预测方法、预测模型训练方法、设备及存储介质 - Google Patents
出行目的预测方法、预测模型训练方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116975463A CN116975463A CN202310700693.4A CN202310700693A CN116975463A CN 116975463 A CN116975463 A CN 116975463A CN 202310700693 A CN202310700693 A CN 202310700693A CN 116975463 A CN116975463 A CN 116975463A
- Authority
- CN
- China
- Prior art keywords
- sample
- user
- track data
- city
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000011664 signaling Effects 0.000 claims abstract description 37
- 238000007637 random forest analysis Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- NSHPHXHGRHSMIK-JRIKCGFMSA-N latrunculin B Chemical compound C([C@H]1[C@@]2(O)C[C@H]3C[C@H](O2)CC[C@@H](\C=C/CC\C(C)=C/C(=O)O3)C)SC(=O)N1 NSHPHXHGRHSMIK-JRIKCGFMSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种出行目的预测方法、预测模型训练方法、设备及存储介质。涉及信息处理技术领域。该方法包括:通过从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,对于第一样本通过特征筛选获取多个显著特征,获取第一样本的多个显著特征的特征值和标记作为训练样本,将训练样本按照所在城市分类分别采用随机森林模型进行训练,获取多个预测模型,所述预测模型用于预测用户在所述城市的出行目的。本申请的方法,能够解决现有的出行目的预测方法中对于出差还是出游的预测不准确的问题。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种出行目的预测方法、预测模型训练方法、设备及存储介质。
背景技术
近几年,随着技术的发展与更多基站的建设,运营商的手机信令的准确度大幅提升以及大数据技术的进一步发展,信令数据越来越广泛地应用到人口观测领域,例如基于信令数据,结合机器学习等方法对人口出行的目的进行区分。
许多现有的技术综合利用信令数据、包含有名称、类别和经纬度信息的百度高德兴趣点(Point of Interest,简写为POI)数据和基于欧氏距离的聚类算法K-means等区分到的出行目的主要有通勤、旅游、购物等,而人群到访非职住地城市的目的大多被概括为旅行。
但实际上,出差和旅游较为相似,均属于外地出行,通常在现有分类方法中,对于是出差还是旅游的划分,其准确率不高。
发明内容
本申请提供一种出行目的预测方法、预测模型训练方法、设备及存储介质,用以解决现有的出行目的预测方法中对于出差还是出游的预测不准确的问题。
第一方面,本申请提供一种出行目的预测模型的训练方法,包括:
根据手机信令数据获取第一样本,根据所述第一样本获取多个显著特征;根据多个所述显著特征获取训练样本;其中,所述第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,所述日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,所述显著特征为时间特征或距离特征,所述训练样本包括多个所述显著特征的特征值和标记,所述标记用于指示出行目的为出游或出差;
将所述训练样本根据所述所在城市分类,获取针对不同城市的子样本;根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,所述预测模型用于预测用户在所述城市的出行目的。
在一种可能的设计中,所述根据手机信令数据获取第一样本,包括:
以日为单位,获取多个用户的手机信令数据,对所述手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取第多个日度轨迹数据作为第二样本,其中,所述第二样本包括多个日度轨迹数据;
根据所述第二样本确定所述用户的职住地,提取所述多个所在城市不属于职住地的日度轨迹数据作为第一样本,对所述第一样本中的所述日度轨迹数据进行标记。
在一种可能的设计中,所述根据所述第一样本获取多个显著特征,根据多个所述显著特征获取训练样本,包括:
获取所述第一样本中所述日度轨迹数据的多个时间特征和距离特征的特征值,根据多个所述时间特征和距离特征的特征值进行特征筛选,获取显著特征;
针对所述第一样本中所述日度轨迹数据,获取多个所述显著特征的特征值,将多个所述显著特征的特征值和对应的标记作为训练样本。
在一种可能的设计中,所述根据所述第二样本中的所述日度轨迹数据获取用户的职住地,包括:
对所述第二样本中相同用户的日度轨迹数据以月为单位进行合并,获取月度轨迹数据;
获取所述月度轨迹数据中多个在预设工作时间段的第一日度驻留城市和多个预设居住时间段的第二日度驻留城市;
在多个所述第一日度驻留城市中,确定出现次数最多的所述第一日度城市为第一城市;在多个所述第二日度驻留城市中,确定出现次数最多的所述第二日度城市为第二城市;
则确定所述第一城市或所述第二城市为所述用户的职住地。
在一种可能的设计中,所述对所述第一样本中的所述日度轨迹数据进行标记,包括:
获取所述第一样本中的所述日度轨迹数据对应用户的地图AOI数据,判断所述地图AOI数据中的驻足点是否包括景区,若是,确定标记为出游;若否,确定标记为出差。
在一种可能的设计中,所述获取所述第一样本中所述日度轨迹数据的多个时间特征和距离特征的特征值,包括:
针对所述第一样本中所述日度轨迹数据,获取总出行距离、总出行时常、移动段个数、最大出行距离、最小出行距离、最大出行时长、最晚出行时间、距离市中心最大距离、距离市中心平距离、出行半径、最大驻留半径和平均驻留半径。
在一种可能的设计中,所述根据多个所述时间特征和距离特征的特征值进行特征筛选,获取显著特征,包括:
将多个所述时间特征或距离特征的特征值及对应标记作为第三样本,根据随机森林算法所述第三样本进行重要性评估,获取所述时间特征或距离特征的重要性分值;
将所述重要性分值大于预设分值的时间特征/距离特征作为所述显著特征。
第二方面,本申请提供一种出行目的预测方法,包括:
获取待识别用户的日度轨迹数据,根据所述待识别用户的日度轨迹数据获取第一显著特征;其中,所述待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
根据所述所在城市从多个预测模型中确定目标模型;
将所述第一显著特征输入所述目标模型中,获取预测结果;
其中,所述第一显著特征为上述出行目的的预测模型训练方法中获取的多个所述显著特征的特征值,所述多个预测模型为通过上述出行目的的预测模型训练方法训练得到的多个预测模型。
在一种可能的设计中,所述获取待识别用户的日度轨迹数据,包括:
获取所述识别用户的日度手机信令数据,对所述手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取所述待识别用户的日度轨迹数据。
第三方面,本申请提供一种出行目的预测模型的训练设备,包括:
获取模块,用于根据手机信令数据获取第一样本,根据所述第一样本获取多个显著特征;根据多个所述显著特征获取训练样本;其中,所述第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,所述日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,所述显著特征为时间特征或距离特征,所述训练样本包括多个所述显著特征的特征值和标记,所述标记用于指示出行目的为出游或出差;
训练模块,用于将所述训练样本根据所述所在城市分类,获取针对不同城市的子样本;根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,所述预测模型用于预测用户在所述城市的出行目的。
第四方面,本申请提供一种出行目的预测设备,包括:
特征提取模块,用于获取待识别用户的日度轨迹数据,根据所述待识别用户的日度轨迹数据获取第一显著特征;其中,所述待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
模型确认模块,用于根据所述所在城市从多个预测模型中确定目标模型;
预测模块,用于将所述第一显著特征输入所述目标模型中,获取预测结果;
其中,所述第一显著特征为上述多个所述显著特征的特征值,所述多个预测模型为通过上述一种出行目的预测模型的训练设备训练得到的多个预测模型。
第五方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述一种出行目的预测模型的训练方法或一种出行目的预测方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述一种出行目的预测模型的训练方法或一种出行目的预测方法。
本申请提供的出行目的预测方法、预测模型训练方法、设备及存储介质,通过从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,对于第一样本通过特征筛选获取多个显著特征,获取第一样本的多个显著特征的特征值和标记作为训练样本,将训练样本按照所在城市分类分别采用随机森林模型进行训练,获取多个预测模型,从多个模型中选出目标模型对对应城市的待识别用户的日度轨迹数据进行预测获取预测结果。实现了如下技术效果:
本申请从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,通过特征筛选选择重要度高的多个特征作为显著特征,采用显著特征的特征值作为训练集进行训练,以提高对于出行目的进行预测的准确度;根据所在城市将训练样本分为不同的子样本,对多个子样本分别采用随机森林模型进行训练,获取多个预测模型,且每个预测模型是针对特定城市进行训练的,其城市的规模、子样本轨迹的相似度高度一直,能够提高预测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的出行目的预测模型的训练方法的流程图一;
图2为本申请实施例提供的出行目的预测模型的训练方法的流程图二;
图3为本申请实施例提供的出行目的预测方法的流程图一;
图4为本申请实施例提供的出行目的预测模型的训练设备的结构图一;
图5为本申请实施例提供的出行目的预测设备的结构图一;
图6为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
需要说明的是,本申请实施例中的“在……时”,可以为在某种情况发生的瞬时,也可以为在某种情况发生后的一段时间内,本申请实施例对此不作具体限定。
本发明提供一种出行目的预测方法、预测模型训练方法、设备及存储介质,其从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,对于第一样本通过特征筛选获取多个显著特征,获取第一样本的多个显著特征的特征值和标记作为训练样本,将训练样本按照所在城市分类分别采用随机森林模型进行训练,获取多个预测模型;
本发明方法同个特征筛选获取重要性高的特征作为显著特征,利用显著特征进行模型训练,以提高模型的预测准确度;并且考虑到各城市城市规模、景点密度等存在差异,将将训练样本按照所在城市分为多个子样本,以提高模型训练的准确性和训练效率。
下面结合附图对本申请实施例提供的出行目的预测方法、预测模型训练方法、设备及存储介质进行详细地介绍。
图1本申请实施例提供的出行目的预测模型的训练方法流程示意图一。
如图1所示,该方法包括:
S101、根据手机信令数据获取第一样本,根据第一样本获取多个显著特征;根据多个显著特征获取训练样本;其中,第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,显著特征为时间特征或距离特征,训练样本包括多个显著特征的特征值和标记,标记用于指示出行目的为出游或出差;
具体来说,多个用户的手机信令数据,以日为单位进行拆分,采用聚类算法进行处理,获取多个日度轨迹数据作为第二样本,从第一样本中选取所在城市不属于职住地的日度轨迹数据作为第一样本,对于第一样本进行特征筛选确定多个显著特征,获取第一样本的多个显著特征的特征值和标记作为训练样本。
S102、将训练样本根据所在城市分类,获取针对不同城市的子样本,根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,预测模型用于预测用户在城市的出行目的。
具体来说,训练样本中的每个样本,其对应的日度轨迹数据包括所在城市,根据所在城市进行分类,获取子样本,同一子样本中对应的所在城市相同。
具体来说,针对不同的城市的子样本,均采用随机森林模型进行训练,获取多个针对于不同城市的预测模型。
本实施例提供的方法,从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,对于第一样本通过特征筛选获取多个显著特征,获取第一样本的多个显著特征的特征值和标记作为训练样本,将训练样本按照所在城市分类分别采用随机森林模型进行训练,获取多个预测模型,实现了如下技术效果:
本实施例中,从手机信令数据中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,通过特征筛选选择重要度高的多个特征作为显著特征,采用显著特征的特征值作为训练集进行训练,以提高对于出行目的进行预测的准确度;根据所在城市将训练样本分为不同的子样本,对多个子样本分别采用随机森林模型进行训练,获取多个预测模型,且每个预测模型是针对特定城市进行训练的,其城市的规模、子样本轨迹的相似度高度一直,能够提高预测准确性。
图2为本申请实施例提供的出行目的预测模型的训练方法流程示意图二。如图2所示,方法包括:
S201、根据手机信令数据获取第二样本,第二样本包括多个日度轨迹数据,日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
具体来说,获取多个用户的手机信令数据,以日为单位进行拆分后,以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法(DBSCAN算法)对合并数据进行处理,获取第多个日度轨迹数据,每个日度轨迹数据包括用户一天内所在城市、活动轨迹、驻留点和驻留时长。
作为另一优选的实施例,预设时间段设置为3分钟。
具体的,将上述多个日度轨迹数据作为第二样本,第二样本包括但不限于以出差和出游为目的的日度轨迹数据。
S202、根据第二样本中的日度轨迹数据获取用户的职住地,提取多个所在城市不属于职住地的日度轨迹数据作为第一样本;
具体的,由于第二样本中包括但不限于以出差或出游为目的的日度轨迹数据,需要将以出差和出游为目的的日度轨迹数据筛选出来作为第一样本,其筛选方法即为:先根据第二样本确定数据用户的职住地(工作或者居住的城市),则第二样本中,所在城市与职住地不相同的日度轨迹数据即为以出差或出游为目的的数据。
具体来说,根据第二样本确定第二样本中数据对应职住地的方法为:
a.对第二样本中相同用户的日度轨迹数据以月为单位进行合并,获取月度轨迹数据;
b.获取月度轨迹数据中多个在预设工作时间段的第一日度驻留城市和多个预设居住时间段的第二日度驻留城市;
c.在多个第一日度驻留城市中,确定出现次数最多的第一日度城市为第一城市;在多个第二日度驻留城市中,确定出现次数最多的第二日度城市为第二城市;
d.则确定第一城市或第二城市为用户的职住地。
具体的,第一日度驻留城市为预设工作时间段内驻留点的所在城市,若其中包括多个所在城市,选择停留时间最长的所在城市为第一日度城市。
具体的,第二日度驻留城市为预设居住时间段内驻留点的所在城市,若其中包括多个所在城市,选择停留时间最长的所在城市为第二日度城市。
具体的,在一般情况下,第一城市与第二城市为同一个城市相同(大部分人的工作地点和居住地点属于同一城市,或存在居家或居家办公的用于,其第一城市与第一城市相同);特殊的,也存在第一城市与第二城市为不同城市的情况(工作地点与居住地点不在同一城市);考虑到上述两种情况,故将第一城市与第二城市均确定为职住地(工作或者居住城市)。
S203、对第一样本中的日度轨迹数据进行标记。
具体来说,获取第一样本中的日度轨迹数据对应用户的地图AOI数据,判断地图AOI数据中的驻足点是否包括景区,若是,确定标记为出游;若否,确定标记为出差。
具体的,在现存的手机地图软件中存在的AOI数据(AOI,area of interest也叫POI边界,指的是地图数据中的区域状的地理实体),使用AOI数据可以准确的计算出公交线路及站点的服务范围,将线路轨迹、站点分布与AOI矢量数据相叠加,可以精确计算兴趣点的覆盖程度,根据覆盖范围确定驻足点是否处于景区。
S204、获取第一样本中日度轨迹数据的多个时间特征和距离特征的特征值,根据多个时间特征和距离特征的特征值进行特征筛选,获取显著特征。
具体的,针对第一样本中日度轨迹数据,获取总出行距离、总出行时常、移动段个数、最大出行距离、最小出行距离、最大出行时长、最晚出行时间、距离市中心最大距离、距离市中心平均距离、出行半径、最大驻留半径和平均驻留半径,其中上述与距离相关的为距离特征,与时间相关的为时间具体
具体的,将上述特征的特征值及对应标记作为第三样本,根据随机森林算法对第三样本进行重要性评估,获取时间特征或距离特征的重要性分值;将重要性分值大于预设分值的特征作为显著特征。
示例性的,假设某用户在某日的驻留点按时间顺序排列依次为A,B,C,D,E五个点,它们对应的坐标分别为(lonA,latA),(lonB,latB),(lonC,latC),(lonD,latD),(lonE,latE),市中心坐标为(lonctr,latctr),dist为时间相邻的两个驻留点的直线距离,diff为时间相邻的两个驻留点之间的时间差;distctr-i(i in A,B,C,D,E)为单个驻留点与市中心点的直线距离,将A,B,C,D,E五个点聚合生成的驻留中心点Locctr,每个驻留点与驻留中心点的直线具体为该点的驻留半径rad;
上述特征的计算方式为:
总出行距离:total_dist=∑i in(AB,BC,CD,DE)disti;
总出行时长:total_diff=∑lin(AB,BC,CD,DE)diffi;
移动段个数:5个;
最大出行距离:max_dist=maxi in(AB,BC,CD,DE)(disti);
最小出行距离:min_dist=minlin(AB,BC,CD,DE)disti;
最大出行时长:max_diff=maxi in(AB,BC,CD,DE)(diffi);
最小出行时长:min_dist=minlin(AB,BC,CD,DE)disti;
最晚出行时间:在E点停留的最后时间;
距离市中心最大距离:max_toctr_dist=maxi in A,B,C,D,E(distctr-i);
距离市中心平均距离:avg_toctr_dist=averagei in A,B,C,D,E(distctr-i);
出行距离cross_rds;
crossrds=distance(max(lon),max(lat),min(lon),min(lat));
最大驻留半径:max_rad=maxlin(AB,BC,CD,DE)radi
平均驻留半径avg_rad=avglin(AB,BC,CD,DE)radi;
对于第一样本中的每条日度轨迹数据,根据上述公式计算上述特征的特征值,将特征值及对应标记作为第三样本根据随机森林算法对第三样本进行重要性评估,得到每个特征的重要性分值,筛选分值大于0.01的特征作为显著特征;
在这里,筛选出的显著特征为:总出行距离、出行半径、平均驻留半径、移动段个数、最大驻留半径、最大出行距离、总出行时长、最小出行距离、最大出行时长。
S205、针对第一样本中日度轨迹数据,获取多个显著特征的特征值,将多个显著特征的特征值和对应的标记作为训练样本;将训练样本根据所在城市分类,获取针对不同城市的子样本。
具体的,根据上述特征计算公式,通过第一样本中的度轨迹数据获取显著特征的特征值,将多个显著特征的特征值和对应的标记作为训练样本;训练样本中的每个样本,其对应的日度轨迹数据包括所在城市,根据所在城市进行分类,获取子样本,即同一子样本中对应的所在城市相同。
进一步的,为了均衡各个子样本数据,获取的子样本中,设置标记为出差的样本和标记为出游的样本比例为1:1。
S206、根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,预测模型用于预测用户在城市的出行目的。
进一步的,因为各城市城市规模、景点密度等存在差异,所以游客的活动范围和活动时间也有一些区别。如果使用统一的模型对全国差旅人群分类,分类效果欠佳且速度较慢,故采用利用多个模型分城市进行训练,提高分类准确率;进一步的,在训练时采用多线程并行的方式,以提高训练效率。
作为一种优选的实施例,对全国367个城市建立独立模型,为提高速度,同时创建19个进程,大幅度得缩短建模时间,最后可以得到324个城市的分类模型,用时30-40分钟,对所有城市分类共需15分钟,模型分类的准确率≥75%。
采用本实施例提供的方法,采用基于密度的聚类算法从手机信令数据中获取第二样本,从第二样本中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,根据所在城市将训练样本分为不同的子样本,对多个子样本分别采用随机森林模型进行训练,获取多个预测模型,可以实现如下技术效果:
本实施例采用基于密度的聚类算法从手机信令数据中获取第二样本,第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,日度轨迹数据包括了出行基本信息,便于进行特征的提取和筛选;
从第二样本中获取以出游或者出差为目的用户的日度轨迹数据作为第一样本,通过特征筛选选择重要度高的多个特征作为显著特征,采用显著特征的特征值作为训练集进行训练,以提高对于出行目的进行预测的准确度;
相比于多城市单一模型的训练,本实施例采用多模型分别对不同城市的子样本进行训练,根据所在城市将训练样本分为不同的子样本,对多个子样本分别采用随机森林模型进行训练,获取多个预测模型,且每个预测模型是针对特定城市进行训练的,其城市的规模、子样本轨迹的相似度高度一直,能够提高预测准确性。
对于多模型分别对不同城市的子样本进行训练的训练方式,是训练的过程中可以采用多线程多模型并行的方式训练,提高了训练速度。
图3为本申请实施例提供的一种出行目的预测方法流程示意图一。如图3所示,方法包括:
S301、获取待识别用户的日度轨迹数据,根据待识别用户的日度轨迹数据获取第一显著特征;其中,待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长。
具体的,这里的待识别用户的日度轨迹数据为确定需要进一步判断出行目的为出差或出游的数据;
具体的,获取识别用户的日度手机信令数据,对手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取待识别用户的日度轨迹数据;
具体的、根据待识别用户的日度轨迹数据获取第一显著特征,第一显著特征为S204中得到的多个显著特征的特征值。
S302、根据所在城市从多个预测模型中确定目标模型;
具体的,其中多个预测模型为采用上述一种预测模型的训练方法得到的多个预测模型;
具体的,所确定的目标模型,其对应的城市与待识别用户的日度轨迹数据中的所在城市相同。
S303、将第一显著特征输入目标模型中,获取预测结果;
具体的,预测结果为待识别用户该日的出行目的为出游或者出差。
本实施例提供的模型预测方法,对采用上述模型训练方法获取的多个预测模型进行筛选,获取相应的目标模型,采用目标模型进行出行目的的预测获取预测结果。其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例可以根据上述方法示例对电子设备或主控设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4为本申请实施例提供的一种出行目的预测模型的训练设备的结构示意图一。如图4所示,该设备40包括:
获取模块401,用于根据手机信令数据获取第一样本,根据第一样本获取多个显著特征;根据多个显著特征获取训练样本;其中,第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,显著特征为时间特征或距离特征,训练样本包括多个显著特征的特征值和标记,标记用于指示出行目的为出游或出差;
训练模块402,将训练样本根据所在城市分类,获取针对不同城市的子样本;根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,预测模型用于预测用户在城市的出行目的。
进一步的,获取模块401,具体用于:
以日为单位,获取多个用户的手机信令数据,对手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取第多个日度轨迹数据作为第二样本,其中,第二样本包括多个日度轨迹数据;
根据第二样本确定用户的职住地,提取多个所在城市不属于职住地的日度轨迹数据作为第一样本,对第一样本中的日度轨迹数据进行标记。
进一步的,获取模块401,具体用于:
获取第一样本中日度轨迹数据的多个时间特征和距离特征的特征值,根据多个时间特征和距离特征的特征值进行特征筛选,获取显著特征;
针对第一样本中日度轨迹数据,获取多个显著特征的特征值,将多个显著特征的特征值和对应的标记作为训练样本。
进一步的,获取模块401,具体用于:
在多个第一日度驻留城市中,确定出现次数最多的第一日度城市为第一城市;在多个第二日度驻留城市中,确定出现次数最多的第二日度城市为第二城市;
进一步的,获取模块401,具体用于:
获取第一样本中的日度轨迹数据对应用户的地图AOI数据,判断地图AOI数据中的驻足点是否包括景区,若是,确定标记为出游;若否,确定标记为出差。
进一步的,获取模块401,具体用于:
针对第一样本中日度轨迹数据,获取总出行距离、总出行时常、移动段个数、最大出行距离、最小出行距离、最大出行时长、最晚出行时间、距离市中心最大距离、距离市中心平距离、出行半径、最大驻留半径和平均驻留半径。
进一步的,获取模块401,具体用于:
将多个时间特征或距离特征的特征值及对应标记作为第三样本,根据随机森林算法第三样本进行重要性评估,获取时间特征或距离特征的重要性分值;
将重要性分值大于预设分值的时间特征/距离特征作为显著特征。
本实施例提供的一种出行目的预测模型的训练设备,可执行上述实施例的一种出行目的预测模型的训练方法,其实现原理和技术效果类似,本实施例此处不再赘述。
在前述的一种出行目的预测模型的训练设备的具体实现中,各模块可以被实现为处理器,处理器可以执行存储器中存储的计算机执行指令,使得处理器执行上述一种出行目的预测模型的训练方法。
图5为本申请实施例提供的一种出行目的预测设备的结构示意图一。如图5所示,该设备50包括:
特征提取模块501,用于获取待识别用户的日度轨迹数据,根据待识别用户的日度轨迹数据获取第一显著特征;其中,待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
模型确认模块502,用于根据所在城市从多个预测模型中确定目标模型;
预测模块503,用于将第一显著特征输入目标模型中,获取预测结果;
其中,第一显著特征采用预测模型的训练设备获取的多个显著特征的特征值,多个预测模型为通过上述出行目的预测模型的训练设备训练得到的。
进一步的,特征提取模块501,具体用于:
获取识别用户的日度手机信令数据,对手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取待识别用户的日度轨迹数据。
本实施例提供的一种出行目的预测设备,可执行上述实施例的一种出行目的预测方法,其实现原理和技术效果类似,本实施例此处不再赘述。
在前述的一种出行目的预测设备的具体实现中,各模块可以被实现为处理器,处理器可以执行存储器中存储的计算机执行指令,使得处理器执行上述一种出行目的预测方法。
图6为本申请实施例提供的电子设备的结构示意图。如图6所示,该电子设备60包括:至少一个处理器601和存储器602。该电子设备60还包括通信部件603。其中,处理器601、存储器602以及通信部件603通过总线604连接。
在具体实现过程中,至少一个处理器601执行存储器602存储的计算机执行指令,使得至少一个处理器601执行如上电子设备侧所执行的出行目的预测模型的训练或者出行目的预测方法。
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述针对电子设备以及主控设备所实现的功能,对本发明实施例提供的方案进行了介绍。可以理解的是,电子设备或主控设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的技术方案的范围。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上出行目的预测模型的训练或者出行目的预测方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种出行目的预测模型的训练方法,其特征在于,所述方法包括:
根据手机信令数据获取第一样本,根据所述第一样本获取多个显著特征;根据多个所述显著特征获取训练样本;其中,所述第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,所述日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,所述显著特征为时间特征或距离特征,所述训练样本包括多个所述显著特征的特征值和标记,所述标记用于指示出行目的为出游或出差;
将所述训练样本根据所述所在城市分类,获取针对不同城市的子样本;根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,所述预测模型用于预测用户在所述城市的出行目的。
2.根据权利要求1所述的方法,其特征在于,所述根据手机信令数据获取第一样本,包括:
以日为单位,获取多个用户的手机信令数据,对所述手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取第多个日度轨迹数据作为第二样本,其中,所述第二样本包括多个日度轨迹数据;
根据所述第二样本确定所述用户的职住地,提取所述多个所在城市不属于职住地的日度轨迹数据作为第一样本,对所述第一样本中的所述日度轨迹数据进行标记。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本获取多个显著特征,根据多个所述显著特征获取训练样本,包括:
获取所述第一样本中所述日度轨迹数据的多个时间特征和距离特征的特征值,根据多个所述时间特征和距离特征的特征值进行特征筛选,获取显著特征;
针对所述第一样本中所述日度轨迹数据,获取多个所述显著特征的特征值,将多个所述显著特征的特征值和对应的标记作为训练样本。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二样本中的所述日度轨迹数据获取用户的职住地,包括:
对所述第二样本中相同用户的日度轨迹数据以月为单位进行合并,获取月度轨迹数据;
获取所述月度轨迹数据中多个在预设工作时间段的第一日度驻留城市和多个预设居住时间段的第二日度驻留城市;
在多个所述第一日度驻留城市中,确定出现次数最多的所述第一日度城市为第一城市;在多个所述第二日度驻留城市中,确定出现次数最多的所述第二日度城市为第二城市;
则确定所述第一城市或所述第二城市为所述用户的职住地。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一样本中的所述日度轨迹数据进行标记,包括:
获取所述第一样本中的所述日度轨迹数据对应用户的地图AOI数据,判断所述地图AOI数据中的驻足点是否包括景区,若是,确定标记为出游;若否,确定标记为出差。
6.根据权利要求3所述的方法,其特征在于,所述获取所述第一样本中所述日度轨迹数据的多个时间特征和距离特征的特征值,包括:
针对所述第一样本中所述日度轨迹数据,获取总出行距离、总出行时常、移动段个数、最大出行距离、最小出行距离、最大出行时长、最晚出行时间、距离市中心最大距离、距离市中心平距离、出行半径、最大驻留半径和平均驻留半径。
7.根据权利要求3所述的方法,其特征在于,所述根据多个所述时间特征和距离特征的特征值进行特征筛选,获取显著特征,包括:
将多个所述时间特征或距离特征的特征值及对应标记作为第三样本,根据随机森林算法所述第三样本进行重要性评估,获取所述时间特征或距离特征的重要性分值;
将所述重要性分值大于预设分值的时间特征/距离特征作为所述显著特征。
8.一种出行目的预测方法,其特征在于,包括:
获取待识别用户的日度轨迹数据,根据所述待识别用户的日度轨迹数据获取第一显著特征;其中,所述待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
根据所述所在城市从多个预测模型中确定目标模型;
将所述第一显著特征输入所述目标模型中,获取预测结果;
其中,所述第一显著特征为根据权权利要求1-7中任一项所述的方法获取的多个所述显著特征的特征值,所述多个预测模型为根据权利要求1-7中任一项所述的方法训练得到的多个预测模型。
9.根据权利要求8所述的方法,其特征在于,所述获取待识别用户的日度轨迹数据,包括:
获取所述识别用户的日度手机信令数据,对所述手机信令数据以预设时间段为时间窗口进行同经纬度数据合并,根据基于密度的聚类算法对合并数据进行处理,获取所述待识别用户的日度轨迹数据。
10.一种出行目的预测模型的训练设备,其特征在于,包括:
获取模块,用于根据手机信令数据获取第一样本,根据所述第一样本获取多个显著特征;根据多个所述显著特征获取训练样本;其中,所述第一样本包括以出游或者出差为目的用户的多个日度轨迹数据,所述日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长,所述显著特征为时间特征或距离特征,所述训练样本包括多个所述显著特征的特征值和标记,所述标记用于指示出行目的为出游或出差;
训练模块,用于将所述训练样本根据所述所在城市分类,获取针对不同城市的子样本;根据多个随机森林模型分别对针对不同城市的子样本进行训练,获取针对不同城市的多个预测模型,所述预测模型用于预测用户在所述城市的出行目的。
11.一种出行目的预测设备,其特征在于,包括:
特征提取模块,用于获取待识别用户的日度轨迹数据,根据所述待识别用户的日度轨迹数据获取第一显著特征;其中,所述待识别用户的日度轨迹数据包括一天内用户的所在城市、活动轨迹、驻留点和驻留时长;
模型确认模块,用于根据所述所在城市从多个预测模型中确定目标模型;
预测模块,用于将所述第一显著特征输入所述目标模型中,获取预测结果;
其中,所述第一显著特征为根据权利要求10所述的设备获取的多个所述显著特征的特征值,所述多个预测模型为通过权利要求10所述的设备训练得到的多个预测模型。
12.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7或8至9中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7或8至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310700693.4A CN116975463A (zh) | 2023-06-13 | 2023-06-13 | 出行目的预测方法、预测模型训练方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310700693.4A CN116975463A (zh) | 2023-06-13 | 2023-06-13 | 出行目的预测方法、预测模型训练方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975463A true CN116975463A (zh) | 2023-10-31 |
Family
ID=88475720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310700693.4A Pending CN116975463A (zh) | 2023-06-13 | 2023-06-13 | 出行目的预测方法、预测模型训练方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975463A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117479120A (zh) * | 2023-11-11 | 2024-01-30 | 河北省科学院应用数学研究所 | 手机信令数据处理方法及装置、终端设备、存储介质 |
-
2023
- 2023-06-13 CN CN202310700693.4A patent/CN116975463A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117479120A (zh) * | 2023-11-11 | 2024-01-30 | 河北省科学院应用数学研究所 | 手机信令数据处理方法及装置、终端设备、存储介质 |
CN117479120B (zh) * | 2023-11-11 | 2024-04-05 | 河北省科学院应用数学研究所 | 手机信令数据处理方法及装置、终端设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohamed et al. | Accurate real-time map matching for challenging environments | |
CN109766777A (zh) | 异常轨迹的检测方法、装置、存储介质及电子设备 | |
CN107194525A (zh) | 一种基于手机信令的城市中心评估方法 | |
WO2018057331A1 (en) | Discovering points of entry to a location | |
CN111457925B (zh) | 社区路径导航方法、装置、计算机设备及存储介质 | |
WO2021082464A1 (zh) | 预测车辆的目的地的方法和装置 | |
CN108182240B (zh) | 兴趣点新增率预测模型训练及预测方法、装置及存储介质 | |
CN116975463A (zh) | 出行目的预测方法、预测模型训练方法、设备及存储介质 | |
CN110471999B (zh) | 轨迹处理方法、装置、设备和介质 | |
Moosavi et al. | Characterizing driving context from driver behavior | |
Ghorpade et al. | An integrated stop-mode detection algorithm for real world smartphone-based travel survey | |
CN107133689B (zh) | 一种位置标记方法 | |
CN113888867B (zh) | 一种基于lstm位置预测的车位推荐方法及系统 | |
CN108538054A (zh) | 一种基于手机信令数据获取交通路况信息的方法及系统 | |
CN108055639B (zh) | 一种基于信令数据分析的人流密度预测方法及系统 | |
US20180073881A1 (en) | Computer-Implemented Method, System, and Computer Program Product for Detecting Modes of Transportation of a User | |
CN112257924A (zh) | 位置预测方法、装置、电子设备及存储介质 | |
CN115545566B (zh) | 服务设施可达性的评估方法、装置、电子设备和存储介质 | |
CN114245329B (zh) | 通行方式识别方法、装置、设备及存储介质 | |
Zhang et al. | Travel-mode classification for optimizing vehicular travel route planning | |
CN116030629A (zh) | 基于轨迹大数据的交通拥堵溯源方法、存储介质及服务器 | |
JP6743912B2 (ja) | 経路情報提供装置、経路探索装置、経路情報提供システム、経路情報提供プログラム、及び経路情報提供方法 | |
CN114707567A (zh) | 轨迹分类方法、轨迹分类模型训练方法及计算机程序产品 | |
JP6364432B2 (ja) | 移動経路推定の方法および装置 | |
CN110807912A (zh) | 一种道路行车速度预测方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |