CN108717427A - 基于用户查询日志的客运交通需求指数计算方法 - Google Patents

基于用户查询日志的客运交通需求指数计算方法 Download PDF

Info

Publication number
CN108717427A
CN108717427A CN201810422848.1A CN201810422848A CN108717427A CN 108717427 A CN108717427 A CN 108717427A CN 201810422848 A CN201810422848 A CN 201810422848A CN 108717427 A CN108717427 A CN 108717427A
Authority
CN
China
Prior art keywords
user
data
date
weight
query pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810422848.1A
Other languages
English (en)
Inventor
林友芳
万怀宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201810422848.1A priority Critical patent/CN108717427A/zh
Publication of CN108717427A publication Critical patent/CN108717427A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于用户查询日志的客运交通需求指数建模与计算方法。该方法包括:从数据库中提取、解析用户查询日志数据和真实订票数据;从数据库中提取基于用户查询数据的渠道查询模式分类结果;为不同类别渠道分配权重拟合真实订票数据,利用模式搜索算法,得到每个类别渠道的权重的最优解;根据不同类别渠道对不同线路的查询量数据及类别权重计算每一条出行线路的交通需求指数。本发明实施例提出的交通需求指数计算方法能较直观的反映旅客出行需求,为交通领域管理者和市场从业者提供数据支持。

Description

基于用户查询日志的客运交通需求指数计算方法
技术领域
本发明涉及交通领域用户查询日志数据处理及分析技术,尤其是能基于用户查询日志、真实订票量数据及渠道查询模式分类结果对客运交通需求指数进行计算。
背景技术
近年来,随着航空、铁路、公路等交通领域的快速发展,旅客出行需求越来越受到交通领域管理者和市场从业者的关注。对旅客出行需求的及时了解,将有助于交通领域相关企业及时采取相应的对策,从而提升其收益管理水平、提高服务质量、改善旅客出行体验。
由于交通领域全市场旅客数量十分庞大,单纯通过调查统计的方法很难准确直接的获取旅客的出行需求。在大多数情况下,当人们有出行需求时,通常会提前一定时间进行客票查询,交通领域查询数据记录了旅客搜索出发地、目的地、查询时间、出发时间等有价值信息。因此,客票的查询量能够在很大程度上反应出真实的交通市场需求。
交通客票查询量又往往来源于不同的渠道,不同的渠道查询模式对需求的反应会产生不同的影响。因此,一种基于用户查询日志的交通需求指数计算方法的提出是十分必要的。
发明内容
本发明的实施提供了一种基于用户查询日志的客运交通需求指数计算方法,以实现利用用户在线查询数据来反应交通需求的目的。
本发明提供了如下方案,一种基于用户查询日志的客运交通需求指数计算方法,该方法包括以下步骤:
S1从数据库中解析、提取用户查询日志数据和真实订票日志数据:解析历史数据库中的用户查询日志数据和真实订票日志数据,从原始日志数据中提取出对需求指数计算有意义的字段,该用户查询日志数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期等,真实订票日志数据中包括用户订票时对应的日期、出发地城市、目的地城市、出发日期等。
S2从数据库中提取基于用户查询数据的渠道查询模式分类结果(具体参见发明专利申请:基于用户查询日志的客运交通渠道查询模式分类方法,公开日:2018.04.13),包括:
从渠道查询模式分类结果中提取对需求指数计算有意义的字段,该数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、出发地城市、目的地城市、出发日期、用户查询渠道、所属类别等。
S3根据S2的渠道查询模式类别、真实订票量数据为不同类别渠道查询模式分配相应的权重,包括:
S3.1、随机初始化每一类别渠道查询模式的权值,第i类权值记为wi(0<wi<1)。在第n天内,第i类的查询分类记为xn,i。利用权值wi及类别渠道查询模式n天内的查询量xn,i的线性组合得到未来每个出行日期的需求指数MDIi=wi*xn,i,将得到的需求指数与该段时间对未来每个出行日期的真实订票数据Bi进行曲线形态的拟合,得到每个类别渠道查询模式的权重的最优解,拟合算法见S3.2;
S3.2、利用模式搜索算法,得到每个类别渠道查询模式的权重的最优解:
初始化权值调整步长及迭代停止阈值,随机初始化每类查询模式的权值,进行归一化处理;迭代首先判断步长是否达到迭代停止阈值,若是,则结束迭代得到最优解,否则对权重反归一化(还原);然后分别沿各个方向搜索,再进行权重归一化,计算误差,保留误差最小权重;判断误差是否缩小,若否,则减小步长,反之,重复上述迭代过程。
S4根据不同类别渠道查询模式对不同线路的查询量数据及类别权重计算每一条出行线路的交通需求指数:通过过去一段时间内每一类别渠道查询模式对未来每一条线路每个出行日期的查询量和该类别的权值系数的线性加权求和,得到每一条出行线路每一个出行日期的过去一段时间内的交通需求指数曲线;每隔一段时间计算一次针对这条线路这个出行日期的需求指数,得到针对这个出行日期,这条线路的历史需求指数曲线,根据该曲线就可以求得客运交通需求指数。
本发明具有以下技术效果:本发明实施例提出的基于用户查询日志的客运交通需求指数计算方法,有效克服了某些查询渠道使用爬虫对查询数据需求分析带来的影响。可以准确有效地反映出用户对每一条出行线路当前状态下的交通出行需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为初始权重计算所得的需求指数与订票量的拟合结果,横轴为出发日期,红色曲线为计算所得的需求指数,蓝色曲线为实际订票量;
图2为利用模式搜索算法进行权值训练的过程;
图3为最优权重计算所得的需求指数与订票量的拟合结果,横轴为出发日期,红色曲线为计算所得的需求指数,蓝色曲线为实际订票量。
具体实施方式
本发明实施例提出的一种基于用户查询日志的客运交通需求指数建模与计算方法的处理流程包括以下几个步骤:
步骤S1、解析一定时间段内的数据库中的原始用户查询日志数据和真实订票日志数据,上述时间段以十分钟为单位,在实际应用中也可以选择以小时、天等时间间隔为单位,将非结构化的原始用户查询日志数据和真实订票日志数据进行去噪、序列化、转换、解压等处理;
从原始用户查询日志数据和真实订票日志数据中提取出对需求指数计算有意义的字段,该用户查询日志数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期等;真实订票数据中包括用户订票时对应的日期、出发地城市、目的地城市、出发日期等。
该用户查询日志数据包括如下的表1所示的字段;
表1
该真实订票数据包括如下的表2所示的字段;
表2
编号 名称 解释
1 booking_date 用户订票时对应的日期
2 Origin 出发地城市
3 Dest 目的地城市
4 departure_date 出发日期
步骤S2、从数据库中提取基于用户查询数据的渠道查询模式分类结果(具体参见发明专利申请:基于用户查询日志的客运交通渠道查询模式分类方法,公开日:)从渠道查询模式分类结果中提取对需求指数计算有意义的字段,该数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、出发地城市、目的地城市、出发日期、用户查询渠道、所属类别等。
该渠道查询模式分类结果数据包括如下的表3所示的字段;
表3
编号 名称 解释
1 record_date 用户查询时刻对应日期
2 record_hour 用户查询时刻对应的小时数值
3 record_minute 用户查询时刻对应的分钟数值
4 Origin 出发地城市
5 Dest 目的地城市
6 departure_date 出发日期
7 Channel 用户查询渠道
8 Category 查询模式所属类别
步骤S3、根据渠道查询模式类别、真实订票量数据为不同类别渠道查询模式分配相应的权重,具体做法如下:
S3.1随机初始化每一类别渠道的权值wi(i=1,2,…,8),该权值范围在0到1之间,初始化的权值向量为W=(0.3672,0.4426,0.3819,0.8206,0.5317,0.8190,0.2389,0.1429),利用权值及该类别渠道的一段时间查询量xi(i=1,2,…,8)的线性组合(MDI=W*X)得到未来每个出行日期的初始需求指数。出发日期为2016-03-21,出发地为成都,目的地为哈尔滨的查询量向量为X=(589.2348,103.231,378.0943,489.3364,323.2573,736.2142,843.6519,1014.2384),则该线路在该出发日期的初始需求指数MDI=1929.3190。
依次计算该航线出发日期为2016-03-21至2016-03-30的初始需求指数,并与该段时间对未来每个出行日期的真实订票数据进行曲线形态的拟合(如图1所示),得到每个类别渠道的权重最优解,拟合算法见S3.2;
S3.2利用模式搜索算法,得到每个类别渠道的权重的最优解,方法如下:
初始化权值调整步长及迭代停止阈值,随机初始化每类查询模式的权值,进行归一化处理;迭代首先判断步长是否达到迭代停止阈值,若是,则结束迭代得到最优解,否则对权重反归一化(还原);然后分别沿各个方向搜索,再进行权重归一化,计算误差,保留误差最小权重;判断误差是否缩小,若否,则减小步长,反之,重复上述迭代过程,具体如图2所示。
利用上述算法计算得到的最优权重为W=(0.9312,0.6540,0.5222,0.4281,0.3680,0.2592,0.1813,0.0952),利用每个类别的最优权重与查询量的线性组合得到的需求指数与真实订票数据的拟合如图3所示。
步骤S4、根据不同类别渠道对不同线路的查询量数据及类别权重计算每一条出行线路的交通需求指数,包括:
通过过去一段时间内每一类别渠道对未来每一条线路每个出行日期的查询量和该类别的权值系数的线性加权求和,得到每一条出行线路每一个出行日期的过去一段时间内的交通需求指数曲线;每隔一段时间计算一次针对这条线路这个出行日期的需求指数,得到针对这个出行日期,这条线路的历史需求指数曲线,根据该曲线就可以求得客运交通需求指数。
综上所述,本发明提出的基于用户查询日志的客运交通需求指数计算方法,有效克服了某些查询渠道使用爬虫对查询数据需求分析带来的影响。可以准确有效的反映出用户对每一条出行线路当前状态下的交通出行需求。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种基于用户查询日志的客运交通需求指数计算方法,其特征在于,该方法包括以下步骤:
S1从数据库中解析、提取用户查询日志数据和真实订票日志数据:解析历史数据库中的用户查询日志数据和真实订票日志数据,从原始日志数据中提取出对需求指数计算有意义的字段,该用户查询日志数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期等,真实订票日志数据中包括用户订票时对应的日期、出发地城市、目的地城市、出发日期;
S2从数据库中提取基于用户查询数据的渠道查询模式分类结果;
S3根据S2的渠道查询模式类别、真实订票量数据为不同类别渠道查询模式分配相应的权重,包括:
S3.1随机初始化每一类别渠道查询模式的权值,第i类权值记为wi(0<wi<1),在第n天内,第i类的查询分类记为xn,i,利用权值wi及类别渠道查询模式n天内的查询量xn,i的线性组合得到未来每个出行日期的需求指数MDIi=wi*xn,i,将得到的需求指数与该段时间对未来每个出行日期的真实订票数据Bi进行曲线形态的拟合,得到每个类别渠道查询模式的权重的最优解,拟合算法见S3.2;
S3.2利用模式搜索算法,得到每个类别渠道查询模式的权重的最优解:
初始化权值调整步长及迭代停止阈值,随机初始化每类查询模式的权值,进行归一化处理;迭代首先判断步长是否达到迭代停止阈值,若是,则结束迭代得到最优解,否则对权重反归一化(还原);然后分别沿各个方向搜索,再进行权重归一化,计算误差,保留误差最小权重;判断误差是否缩小,若否,则减小步长,反之,重复上述迭代过程;
S4根据不同类别渠道查询模式对不同线路的查询量数据及类别权重计算每一条出行线路的交通需求指数:通过过去一段时间内每一类别渠道查询模式对未来每一条线路每个出行日期的查询量和该类别的权值系数的线性加权求和,得到每一条出行线路每一个出行日期的过去一段时间内的交通需求指数曲线;每隔一段时间计算一次针对这条线路这个出行日期的需求指数,得到针对这个出行日期,这条线路的历史需求指数曲线,根据该曲线就可以求得客运交通需求指数。
CN201810422848.1A 2018-05-05 2018-05-05 基于用户查询日志的客运交通需求指数计算方法 Pending CN108717427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810422848.1A CN108717427A (zh) 2018-05-05 2018-05-05 基于用户查询日志的客运交通需求指数计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810422848.1A CN108717427A (zh) 2018-05-05 2018-05-05 基于用户查询日志的客运交通需求指数计算方法

Publications (1)

Publication Number Publication Date
CN108717427A true CN108717427A (zh) 2018-10-30

Family

ID=63899778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810422848.1A Pending CN108717427A (zh) 2018-05-05 2018-05-05 基于用户查询日志的客运交通需求指数计算方法

Country Status (1)

Country Link
CN (1) CN108717427A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832923A (zh) * 2020-07-02 2020-10-27 大唐信通(浙江)科技有限公司 一种基于出行需求预测的公共交通运力动态优化调度方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133382A1 (en) * 1999-02-04 2002-09-19 Ita Software, Inc. Method and apparatus for providing availability of airline seats
CN106023588A (zh) * 2016-06-15 2016-10-12 重庆云途交通科技有限公司 一种基于交通大数据的行程时间提取、预测及查询方法
CN106780273A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 旅客航班需求分析方法和系统
CN107527103A (zh) * 2016-06-21 2017-12-29 艾玛迪斯简易股份公司 用于挖掘搜索查询日志的数据仓库
CN107908800A (zh) * 2017-12-22 2018-04-13 北京交通大学 基于用户查询日志的客运交通渠道查询模式分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133382A1 (en) * 1999-02-04 2002-09-19 Ita Software, Inc. Method and apparatus for providing availability of airline seats
CN106023588A (zh) * 2016-06-15 2016-10-12 重庆云途交通科技有限公司 一种基于交通大数据的行程时间提取、预测及查询方法
CN107527103A (zh) * 2016-06-21 2017-12-29 艾玛迪斯简易股份公司 用于挖掘搜索查询日志的数据仓库
CN106780273A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 旅客航班需求分析方法和系统
CN107908800A (zh) * 2017-12-22 2018-04-13 北京交通大学 基于用户查询日志的客运交通渠道查询模式分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832923A (zh) * 2020-07-02 2020-10-27 大唐信通(浙江)科技有限公司 一种基于出行需求预测的公共交通运力动态优化调度方法

Similar Documents

Publication Publication Date Title
CN111985710B (zh) 一种公交乘客出行站点预测方法、存储介质及服务器
Lall Multinationals, technology and exports: selected papers
CN105045858B (zh) 基于投票的出租车载客点推荐方法
Guo et al. Rod-revenue: Seeking strategies analysis and revenue prediction in ride-on-demand service using multi-source urban data
Waring Industry differences in the persistence of firm-specific returns
Nathan et al. Estimating low flow characteristics in ungauged catchments
CN101650746B (zh) 一种对排序结果进行验证的方法和系统
CN104462611B (zh) 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN105894089A (zh) 一种征信模型的建立方法、征信确定方法及对应装置
CN101636757A (zh) 交易标识系统
CN104077308A (zh) 一种物流服务范围确定方法及装置
CN111886619B (zh) 基于历史案例的车辆碰撞定损方法及系统
CN107292775A (zh) 一种知识产权服务系统及其实现方法
CN108427772B (zh) 在线报表生成方法、系统、设备及存储介质
CN103942312B (zh) 公交换乘线路规划方法和装置
Zhuang et al. Effects of land and building usage on population, land price and passengers in station areas: A case study in Fukuoka, Japan
CN110889092A (zh) 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法
CN108090759A (zh) 一种支付渠道智能路由算法
CN111340536A (zh) 模型训练方法、客座率进度预测方法、系统、设备及介质
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
CN109711484A (zh) 一种顾客的分类方法及系统
CN108717427A (zh) 基于用户查询日志的客运交通需求指数计算方法
CN109919667B (zh) 一种用于识别企业ip的方法和装置
Lai et al. Information entropy evaluation model of bus-line reliability considering the combination of bus stops and bus travel time
CN117272995B (zh) 一种重复工单推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181030