CN110647929B - 用于预测出行目的地的方法、及用于训练分类器的方法 - Google Patents
用于预测出行目的地的方法、及用于训练分类器的方法 Download PDFInfo
- Publication number
- CN110647929B CN110647929B CN201910890827.7A CN201910890827A CN110647929B CN 110647929 B CN110647929 B CN 110647929B CN 201910890827 A CN201910890827 A CN 201910890827A CN 110647929 B CN110647929 B CN 110647929B
- Authority
- CN
- China
- Prior art keywords
- travel
- category
- behaviors
- trip
- passenger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000012549 training Methods 0.000 title claims abstract description 63
- 230000006399 behavior Effects 0.000 claims description 159
- 238000005070 sampling Methods 0.000 claims description 47
- 238000010276 construction Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G06Q50/40—
Abstract
本公开提供了一种用于预测出行目的地的方法、装置、系统及介质。所述方法包括:获取用户本次出行的乘客特征,获取所述本次出行的起始站的站点特征,获取所述本次出行可能出现的多个终点站中每个终点站的站点特征,以及对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据;其中,对于所述多个终点站对应构建得到多个输入数据;将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率;以及基于所述预测概率,确定所述本次出行的目的地。本公开还提供了一种用于训练分类器的方法、装置、系统和介质。
Description
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种用于预测出行目的地的方法、装置、系统及介质,以及一种用于训练分类器的方法、装置、系统及介质。
背景技术
城市里日常上下班高峰、或者节假日等时候,出行人次较多,交通运营压力较大。如果能够提前预测出人流的出行归类,并根据出行规律提前部署交通(例如,在预测出行人次压力较大的地方增加地铁运营频次、公交车运营频次、引导出租车车辆加大投放等),一定程度上能够缓解交通拥堵的问题,提高城市的公共服务能力。现有技术中通常可以通过计算每个用户每次出行轨迹之间的相似度来预测每个用户出行的目的地。例如,寻找与用户出行的起始点和途径路径重复率较高的轨迹的终点,作为预测目的地。
发明人在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:一方面,基于轨迹相似性来预测出行目的时,没有考虑个体的出行轨迹在时间上的关联性等,导致预测效果并不理想;另一方面由于单个用户的轨迹数据可能有限,导致进行模型训练时单个用户数据普遍存在稀疏性问题。
发明内容
有鉴于此,本公开提供了一种用于预测出行目的地的方法、装置、系统及介质,以及一种用于训练分类器的方法、装置、系统及介质。
本公开的一个方面提供了一种用于预测出行目的地的方法。所述方法包括,首先获取用户本次出行的乘客特征,其中,所述本次出行的乘客特征是基于所述本次出行所属的第一出行类别的特征而获得的;其中,所述第一出行类别为至少一个出行类别的其中之一;所述至少一个出行类别为对所述用户在预定历史期间内的多个出行行为按照预定规则分类而得到的类别;同时获取所述本次出行的起始站的站点特征,以及获取所述本次出行可能出现的多个终点站中每个终点站的站点特征;然后对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据,其中,对于所述多个终点站对应构建得到多个输入数据;之后将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率,其中所述预测概率用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率;最后基于所述预测概率,确定所述本次出行的目的地。
根据本公开的实施例,所述方法还包括获取所述用户在所述预定历史期间内的多个出行行为,按照预定规则对所述多个出行行为进行分类,以得到所述至少一个出行类别,以及基于所述至少一个出行类别中每个出行类别的特征,获得与所述每个出行类别对应的乘客特征。
根据本公开的实施例,所述按照预定规则对所述多个出行行为进行分类,以得到所述至少一个出行类别,包括基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同。所述基于所述至少一个出行类别中每个出行类别的特征,获得与所述每个出行类别对应的乘客特征,包括统计所述每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征,以及基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每一个出行类别对应的乘客特征。
根据本公开的实施例,所述基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,包括按照出行时间特征编码规则,对所述多个出行行为中每个出行行为的出行时间特征进行编码,得到每个出行行为的第一编码,以及将具有相同的第一编码的出行行为归类到同一个出行类别。
根据本公开的实施例,所述基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每一个出行类别对应的乘客特征,包括按照行程特征编码规则,对所述每个出行类别的行程特征进行编码,得到所述每个出行类别的第二编码;以及将所述每个出行类别中的出行行为的第一编码、和所述每个出行类别的第二编码组合,得到与所述每个出行类别对应的乘客特征。
根据本公开的实施例,所述出行时间特征包括出行的时间所在的时间区间、出行耗时所在的时长范围、或者出行的日期所属的类型中的至少一个。所述行程特征包括在所述预定历史期间内出现次数最多的预定数量的站点的信息、或者所述每个出行类别中的出行行为的个数。
根据本公开的实施例,所述方法还包括构造包括所述起始站和所述多个终点站在内的多个站点中每个站点的站点特征。具体包括获取所述每个站点的站点信息,所述每个站点的站点信息包括在预定统计期间内所述每个站点每小时的平均客流量、或者所述每个站点的换乘信息中的至少一个,以及基于所述每个站点的站点信息,构造所述每个站点的站点特征。
本公开的第二方面提供了一种用于训练分类器的方法,包括获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为;对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据;处理所述多个正采样数据,得到多个负采样数据;以及以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。其中,基于所述每个出行记录构造一个正采样数据包括:获取所述每个出行记录所记录的出行行为的乘客特征,其中,所述每个出行记录所记录的出行行为的乘客特征为基于所述每个出行记录所记录的出行行为所属的第一出行类别的特征而获得的,其中,所述第一出行类别为至少一个出行类别的其中之一,所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别;获取所述每个出行记录所记录的出行行为的起始站的站点特征;获取所述每个出行记录所记录的出行行为的终点站的站点特征;以及基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据。
本公开的第三方面提供了一种用于预测出行目的地的装置。所述装置包括乘客特征获取模块、站点特征获取模块、输入数据构造模块、分类模块、以及预测确定模块。所述乘客特征获取模块用于获取用户本次出行的乘客特征;其中,所述本次出行的乘客特征是基于所述本次出行所属的第一出行类别的特征而获得的;其中,所述第一出行类别为至少一个出行类别的其中之一;所述至少一个出行类别为对所述用户在预定历史期间内的多个出行行为按照预定规则分类而得到的类别。所述站点特征获取模块用于获取所述本次出行的起始站的站点特征,以及获取所述本次出行可能出现的多个终点站中每个终点站的站点特征。所述输入数据构造模块用于对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据;其中,对于所述多个终点站对应构建得到多个输入数据。所述分类模块用于将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率,其中所述预测概率用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率。所述预测确定模块用于基于所述预测概率,确定所述本次出行的目的地。
根据本公开的实施例,所述装置还包括乘客特征构造模块。所述乘客特征构造模块用于获取所述用户在所述预定历史期间内的多个出行行为,按照预定规则对所述多个出行行为进行分类,以得到所述至少一个出行类别,以及基于所述至少一个出行类别中每个出行类别的特征,获得与所述每个出行类别对应的乘客特征。
根据本公开的实施例,所述装置还包括站点特征构造模块。所述站点特征构造模块用于构造包括所述起始站和所述多个终点站在内的多个站点中每个站点的站点特征。具体包括获取所述每个站点的站点信息,所述每个站点的站点信息包括在预定统计期间内所述每个站点每小时的平均客流量、或者所述每个站点的换乘信息中的至少一个,以及基于所述每个站点的站点信息,构造所述每个站点的站点特征。
本公开的第四方面,提供了一种用于训练分类器的装置。所述装置包括出行记录获取模块、正采样数据获取模块、负采样数据获取模块、以及训练模块。所述出行记录获取模块用于获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为。所述正采样数据获取模块用于对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据。所述负采样数据获取模块用于处理所述多个正采样数据,得到多个负采样数据。所述训练模块用于以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。其中,所述正采样数据获取模块包括乘客特征获取子模块、站点特征获取子模块、以及正采样数据构造子模块。所述乘客特征获取子模块用于获取所述每个出行记录所记录的出行行为的乘客特征;其中,所述每个出行记录所记录的出行行为的乘客特征为基于所述每个出行记录所记录的出行行为所属的第一出行类别的特征而获得的;其中,所述第一出行类别为至少一个出行类别的其中之一;所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别。所述站点特征获取子模块用于获取所述每个出行记录所记录的出行行为的起始站的站点特征,以及获取所述每个出行记录所记录的出行行为的终点站的站点特征。所述正采样数据构造子模块,用于基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据。
本公开的第五方面,提供了一种用于处理图数据的系统。所述系统包括一个或多个存储器以及一个或多个处理器。所述一个或多个存储器存储有可执行指令。所述一个或多个处理器,执行所述可执行指令,以实现如上所述的用于预测出行目的地的方法、或者用于训练分类器的方法。
本公开的第六方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的用于预测出行目的地的方法、或者用于训练分类器的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的的用于预测出行目的地的方法、或者用于训练分类器的方法。
根据本公开的实施例,在预测用户出行目的地时,对构造的每个输入数据,通过分类器输出相应的预测概率,从而将一个多分类问题转换为多个二分类问题。
根据本公开的实施例,在构造用户特征时将用户的大量历史出行行为进行分类以得到至少一个出行类别,并对每个出行类别构建一个乘客特征。从而,可以将一个个单独的出行行为划分到对应的出行类别中,进而提取出每一个出行行为的乘客特征。以此方式,获取的乘客特征反映了用户的一类出行行为的特征,具有统计规律性,并且还可以有效解决分类器训练和预测时单个用户的出行数据存在的稀疏性问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的预测方法和装置、以及训练方法和装置的应用场景;
图2A示意性示出了根据本公开实施例的用于预测出行目的地的方法的流程图;
图2B示意性示出了根据本公开实施例的用于预测出行目的地的方法的技术构思;
图3示意性示出了根据本公开一实施例的用于预测出行目的地的方法中获取站点特征的方法流程;
图4示意性示出了根据本公开一实施例的用于预测出行目的地的方法中获取乘客特征的方法流程;
图5示意性示出了根据本公开另一实施例的用于预测出行目的地的方法中获取乘客特征的方法流程;
图6示意性示出了根据本公开一实施例的对用户的多个出行行为进行分类的方法流程;
图7示意性示出了根据本公开一实施例的获取每个类别对应的乘客特征的方法流程;
图8示意性示出了根据本公开实施例的用于训练分类器的方法的流程图;
图9示意性示出了根据本公开实施例的用于训练分类器的方法中获得正采样数据的方法流程;
图10示意性示出了根据本公开实施例的方法的一个应用实例的实现流程;
图11示意性示出了根据本公开实施例的用于预测出行目的地的装置的框图;
图12示意性示出了根据本公开实施例的用于训练分类器的装置的框图;以及
图13示意性示出了适于实现根据本公开实施例的用于预测出行目的地的方法或用于训练分类器的方法的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开实施例提供了一种用于预测出行目的地的方法、装置、系统及介质。所述方法包括首先获取用户本次出行的乘客特征,获取所述本次出行的起始站的站点特征,以及获取所述本次出行可能出现的多个终点站中每个终点站的站点特征;然后对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据,其中,对于所述多个终点站对应构建得到多个输入数据;接着将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率;最后基于所述预测概率,确定所述本次出行的目的地。
根据本公开实施例的用于预测出行目的地的方法、装置、系统及介质,在预测用户本次出行目的地时,对构造的每个输入数据,通过分类器输出相应的预测概率,从而将一个多分类问题转换为多个二分类问题。
本公开实施例还提供了一种用于训练分类器的方法、装置、系统和介质。所述方法包括首先获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为;然后对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据;接着处理所述多个正采样数据,得到多个负采样数据;最后以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。其中,基于所述每个出行记录构造一个正采样数据,包括获取所述每个出行记录所记录的出行行为的乘客特征,其中,所述每个出行记录所记录的出行行为的乘客特征为基于所述每个出行记录所记录的出行行为所属的第一出行类别的特征而获得的,其中,所述第一出行类别为至少一个出行类别的其中之一,所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别;获取所述每个出行记录所记录的出行行为的起始站的站点特征;获取所述每个出行记录所记录的出行行为的终点站的站点特征;以及基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据。
根据本公开实施例的用于训练分类器的方法、装置、系统和介质,在构造用户特征时将用户的大量历史出行行为进行分类以得到至少一个出行类别,并针对每个出行类别构造一个乘客特征。从而,可以将一个个单独的出行行为划分到对应的出行类别中,进而提取出每一个出行行为的乘客特征。以此方式,获取的乘客特征反映了用户的一类出行行为的特征,具有统计规律性,并且还可以有效解决分类器训练和预测时单个用户的出行数据存在的稀疏性问题。
图1示意性示出了根据本公开实施例的预测方法和装置、以及训练方法和装置的应用场景100。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各类定位装置,例如GPS天线等。终端设备101、102、103可以收集用户的定位信息,并将该定位信息上传给服务器105。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的定位信息进行分析和处理,例如,可以根据定位信息形成用户的出行轨迹,例如可以将时间上和空间上具有连续性的多个定位信息处理为一次出行,并将该多个定位信息按照时间先后关系组合得到出行轨迹。从而,收集得到用户的大量出行轨迹数据。
需要说明的是,本公开实施例所提供的用于预测出行目的地的方法、和/或用于训练分类器的方法一般可以由服务器105执行。相应地,本公开实施例所提供的用于预测出行目的地的装置、和/或用于训练分类器的装置一般可以设置于服务器105中。本公开实施例所提供的用于预测出行目的地的方法、和/或用于训练分类器的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于预测出行目的地的装置、和/或用于训练分类器的装置也可以设置于不同于服务器105且能够与终端没备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2A示意性示出了根据本公开实施例的用于预测出行目的地的方法的流程图。图2B示意性示出了根据本公开实施例的用于预测出行目的地的方法的技术构思。
参阅图2A,结合图2B所示,该用于预测出行目的地的方法可以包括操作S201~操作S206。
在操作S201,获取用户本次出行的乘客特征。其中,所述本次出行的乘客特征是基于所述本次出行所属的第一出行类别的特征而获得的。其中,所述第一出行类别为至少一个出行类别的其中之一。所述至少一个出行类别为对所述用户在预定历史期间内的多个出行行为按照预定规则分类而得到的类别。例如,通过用户使用的终端设备101、102、103采集并上传用户的定位信息。并处理该定位信息以得到用户本次出行的信息,例如出行轨迹、以及出行时间等信息。例如,若终端设备101、102、103上传的定位信息包括一系列时间上和空间上持续变化的定位信息,则可以确定用户正在出行,进而将这些定位信息组合可以确定出用户本次出行的起始时间信息以及起始站信息等。
根据本公开的实施例,可以根据用户本次出行的时间信息,将用户本次出行划分到一个出行类别中。例如,根据用户的历史出行记录,得到用户通常在工作日早上7:00-9:00间从家附近的站点(例如,站点x)出发,路上行程30-40min前往公司附近的站点(站点y)。在一个实施例中,可以将用户的此类出行归类为出行类别1。那么,如果本次出行的出发日期为工作日,且出发时间落在7:00-9:00时区范围内起始站为站点x,如果预计本次出行时间为30-40min,就可以确定本次出行属于该出行类别1。当然,如果预计本次出行时间为50min,则本次出行所属的类别可以是其他出行类别。可见,本次出行所属的出行类别为预估的出行类别,可以不唯一,具体可以根据对用户在预定历史期间内的多个出行行为的划分规则,和/或对本次出行的出行时长等待定参数的估计来确定。
假设预计本次出行时间为30-40min,本次出行属于该出行类别1,那么就可以基于在历史出行数据中该出行类别1的特征,得到该出行类别1的乘客特征,进而可以以该出行类别1的乘客特征作为用户本次出行的用户特征。
在操作S202,获取所述本次出行的起始站的站点特征。在一个实施例中,可以将用户使用的终端设备101、102、103采集并上传用户的定位信息中的位置信息的经纬度、与各个站点的经纬度进行比对,来确定用户本次出行的起始站。
在操作S203,获取所述本次出行可能出现的多个终点站中每个终点站的站点特征。起始站和该多个终点站可以是公交站、地铁站、汽车站、出租车站点等。该多个终点站可以是除起始站以外的多个站点;或者,也可以是根据起始站以及交通线路、和/或本次出行所属的出行类别中的出行时长(如果有)而确定的多个站点。
根据本公开的实施例,可以对包括起始站和多个终点站的多个站点中每个站点按照统一的规则进行站点特征提取(例如,可以参考图3的示意性描述),然后在操作S202和操作S203中选择对应站点的站点特征。
在操作S204,对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据。这样,对于所述多个终点站可以对应构建得到多个输入数据。如图2B所示,对于每一个终点站,可以将该终点站的站点特征,与在操作S201中得到的乘客特征、在操作S202中得到的起始站的站点特征等结合,得到一个输入数据。如对应于终点站1得到输入数据1,终点站2得到输入数据2,...,以及终点站n得到输入数据n。由此可见,在操作S204中可以得到多个输入数据。在一个实施例中,该多个输入数据可以是按照统一的规则构造得到的。
在操作S205,将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率。所述预测概率可以用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率。
在操作S206,基于所述预测概率,确定所述本次出行的目的地。继续参考图2B,将该多个输入数据输入到分类器中,并得到该分类器针对每个输入数据输出的预测概率。例如,对于输入数据1,分类器输出预测概率1;对于输入数据2,分类器输出预测概率2;...;以及对于输入数据n,分类器输出预测概率n。根据本公开的实施例,可以根据预测概率1、预测概率2、......、预测概率n的大小来确定用户本次出行的目的地。例如,可以选择预测概率1、预测概率2、......、预测概率n中数值最大的三个预测概率对应的终点站作为本次出行最为可能的目的地。
根据本公开的实施例,在预测用户本次出行目的地时,对构造的每个输入数据,通过分类器输出相应的预测概率,从而将一个多分类问题转换为多个二分类问题。
根据本公开的实施例,可以根据用户本次出行的起始时间信息以及起始站信息等,结合用户历史出行规律,来预测本次出行的目的地。对于城市交通规划而言,对于大量用户中的每个用户均可以通过根据本公开实施例的方法来预测出行目的地,从而可以有效地预测城市中人群整体在某一时间范围内的出行目的地,从而可以有效地帮助城市交通系统提前筹划交通运营策略,更为准确地预估交通压力,并更为准确地进行交通设施投放和人流疏导。
图3示意性示出了根据本公开一实施例的用于预测出行目的地的方法中获取站点特征的方法流程。
结合图2A和图3,根据本公开的实施例,该用于预测出行目的地的方法,除了操作S201~操作S206以外,还可以包括操作S301和操作S302。
在操作S301,获取包括所述起始站和所述多个终点站在内的多个站点中每个站点的站点信息,所述每个站点的站点信息包括在预定统计期间内所述每个站点每小时的平均客流量、或者所述每个站点的换乘信息中的至少一个。
在操作S302,基于所述每个站点的站点信息,构造所述每个站点的站点特征。
根据本公开的一些实施例,可以利用城市交通系统统计的历史出行数据,统计交通系统运行期间(例如,6:00~23:00)每个站点每个小时的平均客流量。例如,对于每个站点可以将6:00~23:00期间的18个小时中每个小时的平均客流量组合得到该站点的18维特征,例如{v6,v7,...,v22,v23}。或者,根据本公开的另一些实施例,还可以根据每个站点是否为可以更换其他交通线路得到特征T,然后将特征T与上述18维特征进行拼接得到每个站点的19维特征,例如{v6,v7,...,v22,v23,T}。其中T的取值例如可以是代表“是”或“否”的数值,或者例如也可以是每个站点可以换乘的其他站点的个数。
根据本公开的实施例,操作S301和操作S302可以在操作S202和操作S203之前执行。
图4示意性示出了根据本公开一实施例的用于预测出行目的地的方法中获取乘客特征的方法流程。
结合图2A和图4,根据本公开的实施例,该用于预测出行目的地的方法除了操作S201~操作S206以外,还可以包括操作操作S401~操作S403。
在操作S401,获取所述用户在所述预定历史期间内的多个出行行为。其中该多个出行行为中的每个出行行为可以用每次出行的出行起始时间、出行日期、出行耗时、出行的起始站、途径站、终点站等信息来表征。根据本公开的实施例,可以获取通过终端设备101、102、103采集并上传用户的定位信息,并对定位信息进行分析处理,得到用户在所述预定历史期间内的多个出行行为。该预定历史期间可以是过去的一个月,或者过去的半年时间等。
在操作S402,按照预定规则对所述多个出行行为进行分类,以得到所述至少一个出行类别。在一个实施例中,可以对多个出行行为按照出行轨迹、和/或出行时间、和/或起始站和终点站等特征进行聚类。在另一个实施例中,可以将出行行为的各个信息根据预定规则进行编码,然后将具有相同编码的出行行为归为一个出行类别,对此可以参考下文图5和图6的示意。
在操作S403,基于所述至少一个出行类别中每个出行类别的特征,获得与所述每个出行类别对应的乘客特征。根据本公开的各个实施例,获得乘客特征的具体实现可以参考下文图5~图7的相关描述。
根据本公开的实施例,操作S401~操作S403为对用户的历史出行行为进行的处理,一般在操作S201之前执行。
图5示意性示出了根据本公开另一实施例的获取乘客特征的方法流程。图5是图4所示的方法流程的一个具体实施例。
参阅图5,结合图2A和图4,根据本公开的实施例,该用于预测出行目的地的方法,除了操作S201~操作S206以外,还可以包括操作操作S401、操作S412、以及操作S413和操作S423。其中,操作S403与图4所示一致,操作S412是操作S402的一个具体实施例,以及操作S413和操作S423是操作S403的一个具体实现实例。
在操作S412,基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同。根据本公开的实施例,所述出行时间特征包括出行的时间所在的时间区间、出行耗时所在的时长范围、或者出行的日期所属的类型中的至少一个。出行的日期所属的类型可以包括工作日、节假日、或者周末等类型。
表1示意性示出了上文提及的出行类别1的时间特征。在一个实施例中,如果用户某一次出行的时间特征落在表1所列的范围内,就可以将用户的该次出行分类到出行类别1。
表1:出行类别1的时间特征
时间特征 | 取值 |
出行时间区间(T) | 7:00am~9:00am |
出行时长范围(D) | 30~40min |
出行的日期所属类别(type) | 工作日 |
可以理解,表1所列示的时间特征的具体内容仅是示例性的,在实际应用中出行类别的时间特征的内容可以更多或更少。例如,在一些实施例中,还可以根据出行日期以及出行时间区间的结合,来确定出行类型。例如,如果是工作日6:00~20:00之间的出行,可以确定为工作出行,如果是工作日晚上20:00以后的出行,可以确定为日常出行等。
在操作S413,统计所述每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征。根据本公开的实施例,所述行程特征包括在所述预定历史期间内出现次数最多的预定数量的站点的信息、或者所述每个出行类别中的出行行为的个数。
例如,统计得到过去一个月中被分类至出行类别1的出行中出现次数排前三的站点,例如是站点x、站点y、站点z。对应的实际情形例如可以是,用户通常早上7:00以后从站点x出发,历时30~40min前往位于站点y附近的公司上班;在一些情况下,用户可能会提前从站点y之前的站点z下车,然后骑自行车前往公司。
再例如,统计得到在过去一个月中被分类至出行类别1的出行行为的个数(例如,20个),这代表了在过去一个月中用户早上7:00以后从站点x出发,历时30~40min左右前往位于站点y附近的公司上班的行为,有过20次。这样,就可以得到出行类别1的行程特征,例如可以如表2所示。
表2:出行类别1的行程特征
行程特征 | 取值 |
历史乘车偏好(H) | 站点x、站点y、站点z |
历史出行次数(C) | 20 |
在操作S423,基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每一个出行类别对应的乘客特征。例如,可以将表1中出行类别1的时间特征和表2中出行类别1的行程特征组合,得到出行类别1的乘客特征。
在一个实施例中,可以构造得到出行类别1的乘客特征为向量{T,D,type,H,C},其中,T、D、type分别为将表1中时间特征的三个字段的取值对应转换得到的数值信息,H、C分别为将表2中的行程特征中的两个字段的取值对应转换得到的数值信息。
图6示意性示出了根据本公开一实施例的操作S412中对用户的多个出行行为进行分类的方法流程。
如图6所示,根据本公开实施例,操作S412可以包括操作S412A和操作S412B。
其中,在操作S412A,按照出行时间特征编码规则,对所述多个出行行为中每个出行行为的出行时间特征进行编码,得到每个出行行为的第一编码。在操作S412B,将具有相同的第一编码的出行行为归类到同一个出行类别。表3示意性输出了一个出行时间特征编码规则。
表3:出行时间特征编码规则
结合表3,例如,用户工作日早上7:00出行,历时30~40min,则用户该次出行的时间特征的各个项目转换得到T=2,D=4,Type=1,进而,在一个实施例中可以得到该次出行的第一编码是向量{2,4,1}。这样,可以将用户的所有编码为{2,4,1}的出行归类为一个类别(即,前述出行类别1)。以此方式,可以实现对用户大量出行行为的快速分类。当然,此处第一编码为向量{2,4,1}仅为示例性的。在一些实施例中,第一编码可以是数字组合241。
图7示意性示出了根据本公开一实施例的操作S423中获取每个类别对应的乘客特征的方法流程。
结合图5、图6和图7,根据本公开的实施例操作S423可以包括操作S423A~操作S423B。
在操作S423A,按照行程特征编码规则,对所述每个出行类别的行程特征进行编码,得到所述每个出行类别的第二编码。表4示意性示出了一个行程特征编码规则的示例。
表4:行程特征编码规则
根据表2示意的出行类别1的行程特征(假设,站点x为青年路,站点y为西四,站点z为平安里)中乘车偏好H的编码可以为{1,4,2},历史出行次数的编码为4,进而可以得到出行类别1的第二编码可以是{1,4,2,4}。在本例中用户的历史乘车偏好选择了出现次数最高的三个站点仅是一种示例。在实际使用中可以根据需要设置编码中历史乘车偏好所占的位数。另外,在一个实施例中,出行类别1的第二编码也可以是数字组合1424。
在操作S423B,将所述每个出行类别中的出行行为的第一编码、和所述每个出行类别的第二编码组合,得到与所述每个出行类别对应的乘客特征。例如,当乘客特征通过向量{T,D,type,H,C}来表征时,基于表3和表4得的该出行类别1的乘客特征具体可以是{2,4,1,1,4,2,4}。
这样参考图2A和2B的示意,若用户本次出行行为属于出行类别1,则可以得到本次出行行为对应的乘客特征Usertype={2,4,1,1,4,2,4},起始站的站点特征Fstart={v6,v7,...,V22,v23,T}start,每个可能的终点站的站点特征Sdes-i={v6,v7,...,v22,v23,T}des-i,从而可以构造得到一个输入数据,然后利用分类器来预测本次出行的目的地。
以此方式,在构造用户特征时将用户的大量历史出行行为进行分类,得到至少一个出行类别,并针对每个出行类别构造得到一个乘客特征。从而,可以将一个个单独的出行行为划分到对应的出行类别中,进而提取出每一个出行行为的乘客特征。以此方式,可以有效解决分类器训练和预测时单个用户的出行数据存在的稀疏性问题。
图8示意性示出了根据本公开实施例的用于训练分类器的方法的流程图。
如图8所示,该用于训练分类器的方法可以包括操作S801~操作S804。
首先在操作S801,获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为。每个出行记录记录的用户的出行行为例如可以包括出行时间、出行日期、出行用时、出行路径等信息。
然后在操作S802,对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据。具体可以参考图9的示例。
在操作S803,处理所述多个正采样数据,得到多个负采样数据。例如,可以对每个正采样数据中的某一数据位或多个数据位的值进行随机变换,从而得到一个负采样数据。这样,正采样数据和负采样数据的个数相等。
在操作S804,以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。根据本公开的一个实施例,分类器可以通过XGBoost模型来构建。
图9示意性示出了根据本公开实施例的用于训练分类器的方法中操作S802中获得正采样数据的方法流程。其中操作S802可以包括操作S812~操作S842。
其中,在操作S812,获取所述每个出行记录所记录的出行行为的乘客特征,其中,所述每个出行记录所记录的出行行为的乘客特征为基于所述每个出行记录所记录的出行行为所属的第一出行类别的特征而获得的。
在操作S822,获取所述每个出行记录所记录的出行行为的起始站的站点特征。
在操作S832,获取所述每个出行记录所记录的出行行为的终点站的站点特征。
在操作S842,基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据。其中,乘客特征、站点特征的构造同前文所述,此处不再赘述。
图10示意性示出了根据本公开实施例的方法的一个应用实例的实现流程。
首先在操作S1001,获取用户的多个出行记录,其中,每个出行记录为对一个出行行为的记录。在一个实际应用实例中,直接获取到的数据是定位系统运营商对终端设备101、102、103上传的定位信息处理后的定位数据,其中每条定位数据代表一个定位信息。其中,每条定位数据格式是“用户id标识+出行编号+时间戳+网格编号+出行日期”。其中相同的“出行编号”代表了用户同一次出行记录,“网格编号”为每条定位数据中的位置信息在定位系统运营商所使用的格栅化地图中的坐标标识,可以通过与该格栅化地图对应的GeoHash编码将该“网格编号”转换为具体的位置信息。
对该定位数据进行处理,得到用户的出行记录。例如,可以根据用户id标识从大量的定位数据中筛选出同一个用户的定位数据,然后再按照出行编号确定出同一个用户同一次出行所记录得到的一系列定位数据,然后再利用时间戳大小对该一系列定位数据进行排序组合,这样就可以获得记录一个用户的一次出行行为的数据,并且通过该出行行为的数据中终点的定位数据和起点的定位数据之间的时间差,可以得到历史乘车时间等信息。以此方式,可以得到用户的多个出行记录。
然后在操作S1002获取每个出行记录所记录的出行行为的乘客特征Usertype={T,D,type,H,C},以及在操作S1003获取每个出行记录所记录的出行行为的起始站的站点特征Fstart={v6,v7,...,v22,v23,T}start,终点站的站点特征Sdes={v6,v7,...,v22,v23,T}des。
接着操作S1004中,构造输入数据集,其中,每一个出行行为对应一个输入数据。在一些实施例中,一个输入数据除了包括乘客特征、起始站的站点特征以及终点站的站点特征外,还可以包括例如每一个出行行为的出行起始时间Tstart。从而,每一个出行行为构造得到的输入数据可以是x=UsertypeTstartFstartSdes。
接下来在操作S1005,以操作S1004中构造的输入数据作为正采样数据,其中每个正采样数据对应的训练标签为1。同时,对于每一个正采样数据,例如可以从中随机选择一个该正采样数据中的终点站以外的其他站的站点特征来替代正采样数据中的Sdes,从而得到一个负样本数据。从而得到与正采样数据等量的负采样数据。
然后在操作S1006和操作S1007中,采用XGBoost模型作为分类器,利用正采样数据和负采样数据训练分类器。其中,在对分类器进行训练时,可以将每个正采样数据训练标签设置为1,将每个负采样数据训练标签设置为0。从而,XGBoost模型学习了每类出行行为在现实中发生的概率。
当经过大量训练后操作S1007中XGBoost模型的输出满足残差要求时,可以执行操作S1008,将XGBoost模型用于预测出行目的地,以实现根据本公开实施例的用于预测出行目的地的方法,从而可以使用XGBoost模型时将多分类问题拆解成多个二分类问题。
最后在操作S1009,可以根据XGBoost模型输出的预测概率,选出例如预测概率最高的三个预测结果作为对出行目的地的预测结果。
图11示意性示出了根据本公开实施例的用于预测出行目的地的装置1100的框图。
如图11所示,该装置1100包括乘客特征获取模块1110、站点特征获取模块1120、输入数据构造模块1130、分类模块1140、以及预测确定模块1150。该装置1100可以用于执行参考图2A~图7所示的用于预测出行目的地的方法。
所述乘客特征获取模块1110例如可以执行操作S201,用于获取用户本次出行的乘客特征;其中,所述本次出行的乘客特征是基于所述本次出行所属的第一出行类别的特征而获得的;其中,所述第一出行类别为至少一个出行类别的其中之一;所述至少一个出行类别为对所述用户在预定历史期间内的多个出行行为按照预定规则分类而得到的类别。
所述站点特征获取模块1120例如可以执行操作S202和操作S203,用于获取所述本次出行的起始站的站点特征,以及获取所述本次出行可能出现的多个终点站中每个终点站的站点特征。
所述输入数据构造模块1130例如可以执行操作S204,用于对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据;其中,对于所述多个终点站对应构建得到多个输入数据。
所述分类模块1140例如可以执行操作S205,用于将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率,其中所述预测概率用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率。
所述预测确定模块1150例如可以执行操作S206,用于基于所述预测概率,确定所述本次出行的目的地。
根据本公开的实施例,所述装置1100还包括乘客特征构造模块。所述乘客特征构造模块例如可以执行操作S401~操作S403,用于获取所述用户在所述预定历史期间内的多个出行行为,按照预定规则对所述多个出行行为进行分类,以得到所述至少一个出行类别,以及基于所述至少一个出行类别中每个出行类别的特征,获得与所述每个出行类别对应的乘客特征。
根据本公开的实施例,所述装置1100还包括站点特征构造模块。所述站点特征构造模块例如可以执行操作S301~操作S302,用于构造包括所述起始站和所述多个终点站在内的多个站点中每个站点的站点特征。具体包括获取所述每个站点的站点信息,所述每个站点的站点信息包括在预定统计期间内所述每个站点每小时的平均客流量、或者所述每个站点的换乘信息中的至少一个,以及基于所述每个站点的站点信息,构造所述每个站点的站点特征。
图12示意性示出了根据本公开实施例的用于训练分类器的装置1200的框图。
如图12所示,该用于训练分类器的装置1200可以包括出行记录获取模块1210、正采样数据获取模块1220、负采样数据获取模块1230、以及训练模块1240。该装置1200可以用于执行参考图8~图9所示的用于训练分类器的方法。
所述出行记录获取模块1210例如可以执行操作S801,用于获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为。
所述正采样数据获取模块1220例如可以执行操作S802,用于对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据。
所述负采样数据获取模块1230例如可以执行操作S803,用于处理所述多个正采样数据,得到多个负采样数据。
所述训练模块1240例如可以执行操作S804,用于以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。
其中,所述正采样数据获取模块1220可以包括乘客特征获取子模块1221、站点特征获取子模块1222、以及正采样数据构造子模块1223。
所述乘客特征获取子模块1221例如可以执行操作S812,用于获取所述每个出行记录所记录的出行行为的乘客特征;其中,所述每个出行记录所记录的出行行为的乘客特征为基于所述每个出行记录所记录的出行行为所属的第一出行类别的特征而获得的;其中,所述第一出行类别为至少一个出行类别的其中之一;所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别。
所述站点特征获取子模块1222例如可以执行操作S822和操作S832,用于获取所述每个出行记录所记录的出行行为的起始站的站点特征,以及获取所述每个出行记录所记录的出行行为的终点站的站点特征。
所述正采样数据构造子模块1223例如可以执行操作S842,用于基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,乘客特征获取模块1110、站点特征获取模块1120、输入数据构造模块1130、分类模块1140、预测确定模块1150、乘客特征构造模块、以及站点特征构造模块,和/或出行记录获取模块1210、正采样数据获取模块1220、负采样数据获取模块1230、、训练模块1240、乘客特征获取子模块1221、站点特征获取子模块1222、以及正采样数据构造子模块1223中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,乘客特征获取模块1110、站点特征获取模块1120、输入数据构造模块1130、分类模块1140、预测确定模块1150、乘客特征构造模块、以及站点特征构造模块,和/或出行记录获取模块1210、正采样数据获取模块1220、负采样数据获取模块1230、、训练模块1240、乘客特征获取子模块1221、站点特征获取子模块1222、以及正采样数据构造子模块1223中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,乘客特征获取模块1110、站点特征获取模块1120、输入数据构造模块1130、分类模块1140、预测确定模块1150、乘客特征构造模块、以及站点特征构造模块,和/或出行记录获取模块1210、正采样数据获取模块1220、负采样数据获取模块1230、、训练模块1240、乘客特征获取子模块1221、站点特征获取子模块1222、以及正采样数据构造子模块1223中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图13示意性示出了适于实现根据本公开实施例的用于预测出行目的地的方法或用于训练分类器的方法的计算机系统1300的方框图。图13示出的计算机系统1300仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,根据本公开实施例的计算机系统1300包括处理器1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1303中,存储有系统1300操作所需的各种程序和数据。处理器1301、ROM1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM 1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统1300还可以包括输入/输出(I/O)接口1305,输入/输出(I/O)接口1305也连接至总线1304。系统1300还可以包括连接至I/O接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种用于预测出行目的地的方法,包括:
获取用户在预定历史期间内的多个出行行为;
按照预定规则对所述多个出行行为进行分类,以得到至少一个出行类别,包括基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同;
统计每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征;
基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每个出行类别对应的乘客特征;
获取所述用户本次出行的乘客特征;其中,所述本次出行的乘客特征是所述本次出行所属的第一出行类别对应的乘客特征;其中,所述第一出行类别为所述至少一个出行类别的其中之一;所述至少一个出行类别为对所述用户在所述预定历史期间内的所述多个出行行为按照预定规则分类而得到的类别;
获取所述本次出行的起始站的站点特征;
获取所述本次出行可能出现的多个终点站中每个终点站的站点特征;
对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据;其中,对于所述多个终点站对应构建得到多个输入数据;
将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率,其中,所述分类器为通过训练得到的模型,所述预测概率用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率;以及
基于所述预测概率,确定所述本次出行的目的地。
2.根据权利要求1所述的方法,其中,所述基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,包括:
按照出行时间特征编码规则,对所述多个出行行为中每个出行行为的出行时间特征进行编码,得到每个出行行为的第一编码;以及
将具有相同的第一编码的出行行为归类到同一个出行类别。
3.根据权利要求2所述的方法,其中,所述基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每个出行类别对应的乘客特征,包括:
按照行程特征编码规则,对所述每个出行类别的行程特征进行编码,得到所述每个出行类别的第二编码;以及
将所述每个出行类别中的出行行为的第一编码、和所述每个出行类别的第二编码组合,得到与所述每个出行类别对应的乘客特征。
4.根据权利要求1~3任意一项所述的方法,其中,
所述出行时间特征包括出行的时间所在的时间区间、出行耗时所在的时长范围、或者出行的日期所属的类型中的至少一个;
所述行程特征包括在所述预定历史期间内出现次数最多的预定数量的站点的信息、或者所述每个出行类别中的出行行为的个数。
5.根据权利要求1所述的方法,其中,所述方法还包括构造包括所述起始站和所述多个终点站在内的多个站点中每个站点的站点特征,包括:
获取所述每个站点的站点信息,所述每个站点的站点信息包括在预定统计期间内所述每个站点每小时的平均客流量、或者所述每个站点的换乘信息中的至少一个;以及
基于所述每个站点的站点信息,构造所述每个站点的站点特征。
6.一种用于训练分类器的方法,包括:
获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为;
按照预定规则对所述多个出行记录中记录的多个出行行为进行分类,以得到至少一个出行类别,包括基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同;
统计每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征;
基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每个出行类别对应的乘客特征;
对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据,包括:
获取所述每个出行记录所记录的出行行为的乘客特征;其中,所述每个出行记录所记录的出行行为的乘客特征为所述每个出行记录所记录的出行行为所属的第一出行类别对应的乘客特征;其中,所述第一出行类别为所述至少一个出行类别的其中之一;所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别;
获取所述每个出行记录所记录的出行行为的起始站的站点特征;
获取所述每个出行记录所记录的出行行为的终点站的站点特征;以及
基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据;
处理所述多个正采样数据,得到多个负采样数据;以及
以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。
7.一种用于预测出行目的地的装置,包括:
乘客特征构造模块,用于获取用户在预定历史期间内的多个出行行为;按照预定规则对所述多个出行行为进行分类,以得到至少一个出行类别,包括基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同;统计每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征;以及基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每个出行类别对应的乘客特征;
乘客特征获取模块,用于获取所述用户本次出行的乘客特征;其中,所述本次出行的乘客特征是所述本次出行所属的第一出行类别对应的乘客特征;其中,所述第一出行类别为所述至少一个出行类别的其中之一;所述至少一个出行类别为对所述用户在所述预定历史期间内的所述多个出行行为按照预定规则分类而得到的类别;
站点特征获取模块,用于获取所述本次出行的起始站的站点特征,以及获取所述本次出行可能出现的多个终点站中每个终点站的站点特征;
输入数据构造模块,用于对于所述每个终点站,至少基于所述每个终点站的站点特征、所述本次出行的乘客特征以及所述起始站的站点特征构建一个输入数据;其中,对于所述多个终点站对应构建得到多个输入数据;
分类模块,用于将所述多个输入数据输入至分类器,并获得所述分类器输出的针对所述多个输入数据中的每个输入数据的预测概率,其中,所述分类器为通过训练得到的模型,所述预测概率用于表征所述每个输入数据中的终点站为所述本次行程的目的地的概率;以及
预测确定模块,用于基于所述预测概率,确定所述本次出行的目的地。
8.一种用于训练分类器的装置,包括:
出行记录获取模块,用于:
获取预定历史期间内形成的多个出行记录,所述多个出行记录中每个出行记录记录了一个用户的一次出行行为;
按照预定规则对所述多个出行记录中记录的多个出行行为进行分类,以得到至少一个出行类别,包括基于所述多个出行行为中每个出行行为的出行时间特征,对所述多个出行行为进行分类,其中,同一个出行类别中的出行行为的出行时间特征相同;
统计每个出行类别中的出行行为的行程数据,得到所述每个出行类别的行程特征;
基于所述每个出行类别中的出行行为的出行时间特征、以及所述每个出行类别的行程特征,得到与所述每个出行类别对应的乘客特征;
正采样数据获取模块,用于对于所述多个出行记录,基于所述每个出行记录构造一个正采样数据,以得到多个正采样数据,包括:
乘客特征获取子模块,用于获取所述每个出行记录所记录的出行行为的乘客特征;其中,所述每个出行记录所记录的出行行为的乘客特征为所述每个出行记录所记录的出行行为所属的第一出行类别对应的乘客特征;其中,所述第一出行类别为所述至少一个出行类别的其中之一;所述至少一个出行类别为对所述每个出行记录对应的用户在所述预定历史期间内的多个出行行为按照预定规则分类而得到的类别;其中,针对所述至少一个出行类别中的每个出行类别构造有一个乘客特征;
站点特征获取子模块,用于获取所述每个出行记录所记录的出行行为的起始站的站点特征;以及获取所述每个出行记录所记录的出行行为的终点站的站点特征;以及
正采样数据构造子模块,用于基于所述每个出行记录所记录的出行行为的乘客特征、起始站的站点特征和终点站的站点特征,构造得到一个正采样数据;
负采样数据获取模块,用于处理所述多个正采样数据,得到多个负采样数据;以及
训练模块,用于以所述多个正采样数据和所述多个负采样数据作为训练输入数据,来训练所述分类器。
9.一种用于预测出行目的地的系统,包括:
一个或多个存储器,存储有可执行指令;以及
一个或多个处理器,执行所述可执行指令,以实现:
根据权利要求1~5中任一项所述的方法,或者
根据权利要求6所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行:
根据权利要求1~5中任一项所述的方法,或者
根据权利要求6所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890827.7A CN110647929B (zh) | 2019-09-19 | 2019-09-19 | 用于预测出行目的地的方法、及用于训练分类器的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890827.7A CN110647929B (zh) | 2019-09-19 | 2019-09-19 | 用于预测出行目的地的方法、及用于训练分类器的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647929A CN110647929A (zh) | 2020-01-03 |
CN110647929B true CN110647929B (zh) | 2021-05-04 |
Family
ID=69010881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910890827.7A Active CN110647929B (zh) | 2019-09-19 | 2019-09-19 | 用于预测出行目的地的方法、及用于训练分类器的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647929B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968018A (zh) * | 2020-07-16 | 2020-11-20 | 北京大学 | 一种地铁出行目的识别方法及装置 |
CN112529294B (zh) * | 2020-12-09 | 2023-04-14 | 中国科学院深圳先进技术研究院 | 个体随机出行目的地预测模型的训练方法、介质和设备 |
CN112990284B (zh) * | 2021-03-04 | 2022-11-22 | 安徽大学 | 一种基于XGBoost算法的个体出行行为预测方法、系统及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
CN105512773A (zh) * | 2015-12-25 | 2016-04-20 | 中国民航信息网络股份有限公司 | 旅客出行目的预测方法及装置 |
CN107358319A (zh) * | 2017-06-29 | 2017-11-17 | 深圳北斗应用技术研究院有限公司 | 城市轨道交通客流预测方法、装置、存储介质和计算机设备 |
CN109308546A (zh) * | 2018-08-31 | 2019-02-05 | 江苏智通交通科技有限公司 | 乘客公交出行下车站点预测方法及系统 |
CN109543886A (zh) * | 2018-11-06 | 2019-03-29 | 斑马网络技术有限公司 | 目的地的预测方法、装置、终端和存储介质 |
CN110222892A (zh) * | 2019-06-06 | 2019-09-10 | 武汉元光科技有限公司 | 乘客的下车站点预测方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961164B (zh) * | 2017-12-25 | 2022-01-07 | 比亚迪股份有限公司 | 客流量预测方法及装置 |
CN108108455B (zh) * | 2017-12-28 | 2020-06-16 | Oppo广东移动通信有限公司 | 目的地的推送方法、装置、存储介质及电子设备 |
CN110046535B (zh) * | 2018-01-16 | 2023-06-23 | 国民技术股份有限公司 | 基于机器学习的智能出行时间预测系统、方法及存储介质 |
CN108596664B (zh) * | 2018-04-24 | 2021-01-05 | 盘缠科技股份有限公司 | 一种电子车票的单边交易费用确定方法、系统及装置 |
CN109035770B (zh) * | 2018-07-31 | 2022-01-04 | 上海世脉信息科技有限公司 | 一种大数据环境下公交载客量实时分析预测方法 |
CN110175713B (zh) * | 2019-05-22 | 2021-03-30 | 北京交通大学 | 分时租赁汽车用户出行目的预测方法 |
-
2019
- 2019-09-19 CN CN201910890827.7A patent/CN110647929B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
CN105512773A (zh) * | 2015-12-25 | 2016-04-20 | 中国民航信息网络股份有限公司 | 旅客出行目的预测方法及装置 |
CN107358319A (zh) * | 2017-06-29 | 2017-11-17 | 深圳北斗应用技术研究院有限公司 | 城市轨道交通客流预测方法、装置、存储介质和计算机设备 |
CN109308546A (zh) * | 2018-08-31 | 2019-02-05 | 江苏智通交通科技有限公司 | 乘客公交出行下车站点预测方法及系统 |
CN109543886A (zh) * | 2018-11-06 | 2019-03-29 | 斑马网络技术有限公司 | 目的地的预测方法、装置、终端和存储介质 |
CN110222892A (zh) * | 2019-06-06 | 2019-09-10 | 武汉元光科技有限公司 | 乘客的下车站点预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110647929A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647929B (zh) | 用于预测出行目的地的方法、及用于训练分类器的方法 | |
Lee et al. | Discovering traffic bottlenecks in an urban network by spatiotemporal data mining on location-based services | |
CN106529711B (zh) | 用户行为预测方法及装置 | |
CN111582605B (zh) | 目的站点的预测方法、装置、电子设备及存储介质 | |
Kim et al. | Applications of transit smart cards beyond a fare collection tool: a literature review | |
CN114363842B (zh) | 基于手机信令数据的公交乘客下车站点预测方法及装置 | |
Shao et al. | Estimating taxi demand-supply level using taxi trajectory data stream | |
CN111192451A (zh) | 车辆到达时间的预测方法、装置、计算机设备及存储介质 | |
CN112380448A (zh) | 车辆数据处理方法、装置、计算机设备和存储介质 | |
CN112598192B (zh) | 一种车辆进入物流园区的预测方法、装置、存储介质及终端 | |
CN110969861B (zh) | 一种车辆识别方法、装置、设备及计算机存储介质 | |
Kathuria et al. | Travel-time variability analysis of bus rapid transit system using GPS data | |
CN110555473A (zh) | 行车线路规划方法、服务器及系统 | |
Raghothama et al. | Analytics on public transport delays with spatial big data | |
Hoppe et al. | Improving the prediction of passenger numbers in public transit networks by combining short-term forecasts with real-time occupancy data | |
Pinelli et al. | A methodology for denoising and generating bus infrastructure data | |
CN110657817A (zh) | 行程路线的推荐方法及装置 | |
CN113284337B (zh) | 基于车辆轨迹多维数据的od矩阵计算方法及装置 | |
Antoniades et al. | Fare and duration prediction: A study of New York city taxi rides | |
CN106921687B (zh) | 一种信息推送方法、服务器和终端 | |
Herberth et al. | Identifying atypical travel patterns for improved medium-term mobility prediction | |
Zamir et al. | Comparative analysis of user behavior of dock-based vs. dockless bikeshare and scootershare in Washington, DC | |
TWI635447B (zh) | 乘車需求量預測方法及系統 | |
Zhang et al. | Examining spatial heterogeneity of ridesourcing demand determinants with explainable machine learning | |
CN113052397A (zh) | 上车信息的确定方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200727 Address after: Room 806, 8 / F, Zhongguancun International Innovation Building, Haidian District, Beijing 100080 Applicant after: Beijing Jingdong intelligent city big data research institute Address before: 100086 No.76 Zhichun Road, Haidian District, Beijing, Building No.1, Building No.9, Floor 1-7-5 Applicant before: Jingdong City (Beijing) Digital Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |