CN113806450A - 一种基于综合交通大数据的融合型旅客关系网络构建方法 - Google Patents

一种基于综合交通大数据的融合型旅客关系网络构建方法 Download PDF

Info

Publication number
CN113806450A
CN113806450A CN202111082775.4A CN202111082775A CN113806450A CN 113806450 A CN113806450 A CN 113806450A CN 202111082775 A CN202111082775 A CN 202111082775A CN 113806450 A CN113806450 A CN 113806450A
Authority
CN
China
Prior art keywords
passenger
relationship network
data
relation
travel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111082775.4A
Other languages
English (en)
Other versions
CN113806450B (zh
Inventor
徐进
杨添靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Publication of CN113806450A publication Critical patent/CN113806450A/zh
Application granted granted Critical
Publication of CN113806450B publication Critical patent/CN113806450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于综合交通大数据的融合型旅客关系网络构建方法,本发明基于综合交通大数据构建跨交通方式的融合旅客关系网络,使政府部门以及交通旅游企业能更好地从微观和宏观层面了解旅客间关系的特征内涵与变化规律,增进对旅客出行行为的认知,为其管理与服务决策提供大数据驱动的理论与方法支持。

Description

一种基于综合交通大数据的融合型旅客关系网络构建方法
技术领域
本发明涉及大数据领域,具体涉及一种基于综合交通大数据的融合型旅客 关系网络构建方法。
背景技术
不同的交通工具,如火车、飞机、汽车等,每年都会承载大量旅客出行, 随着信息技术的发展,各类交通方式的管理部门以及相关企业均通过其业务信 息系统收集了大量旅客出行记录。经统计,约三分之一的铁路旅客选择与其他 旅客共同出行,而该数据是通过识别旅客是否在同一订单订票得到,实际中可 能存在分开买票等情况,故实际上存在超过三分之一的铁路旅客选择与他人结 伴出行。
了解旅客以及其出行特征对相关管理部门制定城市规划、管理政策、防控 疫情以及对相关企业优化旅客分类方法、识别重要旅客、开展精准营销、提升 服务水平十分重要。目前对于旅客的分析方法,关注旅客个体而忽略了旅客之 间的关系,然而,旅客出行团体的大小、团体成员间的社会关系对于旅客出行 的目的、出行方式的选择、以及对旅游产品和服务的偏好等都有很大的影响。 因此,需要一种可以描述旅客之间关系的方法来帮助相关管理部门以及企业提 升其决策能力与服务质量。
社会网络是指社会个体成员之间因为互动而形成的稳定的关系体系。社会 网络关注的是人们之间的互动与联系,社会互动会影响人们之间的社会行为。 通过社会网络分析方法可以进一步了解旅客之间的关系,进而了解旅客及其出 行特征。
本专利定义用来描述旅客之间的出行关系的社会网络为“旅客关系网络”。 旅客关系网络基于旅客之间的关系,而旅客关系可以从旅客出行数据中抽取得 到。本专利旨在基于综合交通大数据,构建跨交通方式的融合型旅客关系网络。
利用不同交通方式的业务信息系统收集的旅客订票数据可用于构建旅客关 系网络,但基于单一交通方式的旅客订票数据得到的旅客关系网络是片面的, 跨交通方式的融合型旅客关系网络是通过将不同单一交通方式下的旅客关系网 络融合起来得到的。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于综合交通大数据的融 合型旅客关系网络构建方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于综合交通大数据的融合型旅客关系网络构建方法,包括如下步骤:
S1、获取旅客出行历史记录并进行预处理;
S2、根据步骤S1与处理后的旅客出行历史记录获取其中多人同行的订票记 录,并根据该订票记录抽取旅客关系;
S3、基于步骤S2获取的旅客关系构建各类单一交通方式的旅客关系网络;
S4、将步骤S3构建的单一交通方式的旅客关系网络进行集成,获取跨交通 方式的旅客关系并构建融合型旅客关系网络;
S5、利用新收集的数据作为融合型旅客关系网络的增量数据,得到融合性 旅客关系网的动态增长模型。
进一步的,所述步骤S1预处理方法具体包括:
S11、对获取的旅客出行历史记录进行重构,将其中与旅客出行无关的数据 缺失以空值填充,对旅客出行相关的数据异常和缺失进行剔除;
S12、将进行了重构后的旅客出行历史记录中不同交通方式的数据进行统一 编码,包括订单号、地区、站点、距离、票价等,其中的统一标准为旅客历史 出行记录中数据最多的交通方式的数据为标准;
S13、将经过步骤S12统一编码之后的旅客出行历史记录存储为旅客出行历 史数据表,并以旅客个人身份信息为旅客的识别标识。
进一步的,所述步骤S2具体为:
S21、从数据库中读取步骤S13得到的旅客出行历史数据表,并以订单号为 键值Key,订单本身为真值Value通过哈希表进行存储,其中,哈希表中的每一 个键值对应一组通行关系,真值中包含n条出行订单,产生n*(n-1)/2两两之 间旅客关系;
S22、以哈希表中每一条旅客出行关系出行信息为一行记录,转存为旅客关 系记录表。
进一步的,所述步骤S3具体为:
S31、获取单一交通方式中任意旅客关系网络的节点集合;
S32、计算步骤S31获取的旅客关系网络的超边集合与节点集合形成完整的 旅客关系网络。
进一步的,所述步骤S31具体为:
S311、从数据库中读取旅客个人信息记录并存储到哈希表,其中以旅客的 编号为键值,个人信息及其出行信息作为真值;
S312、遍历哈希表,获取旅客编号中节点出现最早日期t1及最晚日期tn,通 过日期函数创建日期集合T={t1,t2,…,tn),再以该日期集合为键值创建新的集 合Vi,t,其中t∈T,i为第i个旅客关系网络;
S313、根据旅客个人信息记录中的出现最早日期,将其对应的旅客编号加 入到集合Vi,t对应的位置中,得到的Vi,t,表示t时刻新加入到第i个旅客关系网络 中的节点集合,
Figure BDA0003264586980000041
表示第i个旅客关系网络的节点集合,n表示节点个 数。
进一步的,所述步骤S32具体为:
S321、提取旅客关系记录中的旅客编号,构成超边ei,j,t,其中,ei,j,t表示第 i个旅客关系网络在t时刻新加入的第j条超边,并将关系记录中的对应的出行距 离、购票费用作为超边权重值,关系产生的日期为对应时刻t;
S323、构建旅客关系网络Gi=(Vi,Ei),其中Gi,t表示在t时刻新加入到网络 中的节点及超边的集合,Gi(tm,tn)表示从tm时刻到tn时刻的旅客关系网络,即
Figure BDA0003264586980000042
进一步的,所述步骤S4具体为:
S41、遍历多个旅客关系记录,为旅客个人信息记录添加布尔型字段,记录 该旅客是否在某交通方式中出现,每种交通方式添加一个字段,通过布尔运算, 提取出有2个及以上字段布尔值为真的数据,将其作为异质型旅客,并以其证 件号组成有限集合V0
S42、将不同交通方式数据中的旅客有效证件进行匹配,获得存在同行关系 的异质型旅客以及与异质型旅客存在同行关系的同质型旅客的编号集合Vn,并 与i个旅客关系网络的节点集合,令
Figure BDA0003264586980000043
表示在t时刻新加入融合 型旅客关系网络的节点的集合;
S43、在不同时刻下对各种交通方式下的节点集合分别与编号集合Vh取交集, 并将相同时刻的不通交通方式下的旅客关系网络节点集合取并集得到融合性关 系网络的所有超边的集合Eh
S44、根据步骤S43构建的融合型旅客关系网络的所有超边的集合Eh以及步 骤S42构建的融合型旅客关系网络的节点集合Vh构建融合性旅客关系网络,表 示为H=(Vh,Eh)。
进一步的,所述步骤S5具体包括:
S51、在数据库中创建增量数据表;
S52、抽取任意数据来源下的旅客个人信息存储至增量旅客个人信息表中, 通过对比已有的旅客个人信息中的旅客编号,识别未出现在旅客出行记录中的 旅客编号集合ΔVi
S53、对所有数据来源下的新增旅客识别完成后,通过对比编号得到新增的 异质型旅客编号集合ΔV0
S55、通过增量旅客订票数据中的订票序列号抽取旅客关系记录,储存到增 量旅客关系记录表中,将增量旅客关系记录中的旅客编号作为超边包含的节点 抽取构成超边ei,j,并将关系记录中的对应的出行距离、购票费用作为超边权重 值;
S55、为不同的单一交通方式的旅客关系网络Gi添加新时刻Δt,则 Gi,Δt=(ΔVi,ΔEi);
S56、为融合性旅客关系网络H=(Vh,Eh)添加新时刻Δt,则Gi,Δt=(ΔVi,ΔEi)。
本发明具有以下有益效果:
1.更完整、准确地表示旅客关系:本发明基于超图构建旅客关系网络,从而 使其可以更好地描述多个旅客之间存在的关系,而非局限于两两旅客之间。同 时,本发明提供了将不同交通方式下的旅客关系网络的融合方法,可以将旅客 的关系更完整地表达出来;同时,本方法中旅客关系网络中的关系不局限于旅 客同行关系,各类其他关系也可通过本发明的旅客关系网络进行表示。
2.消除冗余:本发明将旅客之间的关系以无向超边的方式抽象表示,由于超 边可以同时连接多个节点,相对于有向边的表示方式消除了大量冗余。如A、B、 C三名旅客购票同行,传统方法会产生{A->B,A->C,B->C,A<-B,A<-C,B<-C}共 计6条关系,而本发明仅会产生{A,B,C}这一条关系。故本发明可消除至少50% 的数据冗余(旅客同行的团体大小均为2的情况下)。
附图说明
图1为本发明一种基于综合交通大数据的融合型旅客关系网络构建方法流 程示意图。
图2为本发明实施例基于综合交通大数据的融合型旅客关系网络生成流程 示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理 解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的 普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精 神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保 护之列。
一种基于综合交通大数据的融合型旅客关系网络构建方法,如图1所示, 包括如下步骤:
S1、获取旅客出行历史记录并进行预处理;
各类交通运输行业的相关部门与企业的业务信息系统收集了海量的旅客订 票记录,其中包含旅客的个人信息(编号、年龄、性别、地址等)、出行信息(出 行日期、出发地、目的地、出行距离、购票花费等),对这些数据的挖掘可以帮 助其提升其管理决策水平、服务与产品的质量。
但是通过业务信息系统收集的旅客订票记录原始数据需要经过数据预处理 才能更好地利用。具体的预处理过程与存储过程为:
S11、对获取的旅客出行历史记录进行重构,将其中与旅客出行无关的数据 缺失以空值填充,对旅客出行相关的数据异常和缺失进行剔除;
S12、将进行了重构后的旅客出行历史记录中不同交通方式的数据进行统一 编码,包括订单号、地区、站点、距离、票价等,其中的统一标准为旅客历史 出行记录中数据量最多的交通方式的数据为标准。
不同的业务信息系统的编码方式可能存在差异,如日期的表示格式、出发 地的编码等,但不同交通方式的旅客订票记录在规模上存在差异,以相对规模 最大的数据集的编码方式为标准降低计算消耗;
S13、将经过步骤S12统一编码之后的旅客出行历史记录存储为旅客出行历 史数据表,并以旅客个人身份信息为旅客的识别标识。
以旅客个人信息中的旅客有效证件号作为标识旅客的唯一标识,在数据库 中存储旅客个人信息记录,并根据旅客出行日期数据,保留其首次出行日期及 最后一次出行日期。
本实施例里,旅客个人信息记录应该包括其个人信息如编号、年龄、性别、 地址等以及其出行信息,如首次出行时间、最后出行时间、累积出行次数、累 积出行里程、累积购票花费等。
S2、根据步骤S1与处理后的旅客出行历史记录获取其中多人同行的订票记 录,并根据该订票记录抽取旅客关系;
在不同数据源中都存在购票订单号或类似字段,通过该类字段可以将一次 订单中涉及的旅客找出。具体步骤是:
S21、从数据库中读取步骤S13得到的旅客出行历史数据表,并以订单号为 键值Key,订单本身为真值Value通过哈希表进行存储,其中,哈希表中的每一 个键值对应一组通行关系,真值中包含n条出行订单,产生n*(n-1)/2两两之 间旅客关系;
哈希表中每一个Key对应一组同行关系的产生,其Value中包含n条订单, 则会产生n*(n-1)/2两两之间旅客关系。如{key_1,{Order_1,Order_2, Order_3}},其中Key_1表示订单号,Order_1-3为旅客订票记录,对应的旅客为 A、B、C,那么则会产生A-B、A-C以及B-C三条旅客关系,但在数据库中进 行存储时,将其视为一条多节点关系进行存储;
S22、以哈希表中每一条旅客出行关系出行信息为一行记录,转存为旅客关 系记录表。
每一条旅客关系记录包含该关系涉及的旅客编号、本次出行关系的相应出 行信息如日期、出行距离、购票花费等。这里的旅客关系为旅客同行关系,可 通过其他方法获取不同的旅客关系类型形成更复杂的旅客关系记录。
S3、基于步骤S2获取的旅客关系构建各类单一交通方式的旅客关系网络,
在对不同数据源的旅客关系进行抽取后即可进行旅客关系网络的构建。该 步骤中的旅客关系网络基于单一数据源即单一交通方式,故构建旅客关系网络 为单一方式下的旅客关系网络,具体步骤为:
S31、获取单一交通方式中任意旅客关系网络的节点集合,具体步骤为:
S311、从数据库中读取旅客个人信息记录并存储到哈希表,其中以旅客的 编号为键值,个人信息及其出行信息作为真值;
S312、遍历哈希表,获取旅客编号中节点出现最早日期t1及最晚日期tn,通 过日期函数创建日期集合T={t1,t2,…,tn),再以该日期集合为键值创建新的集 合Vi,t,其中t∈T,i为第i个旅客关系网络;
S313、根据旅客个人信息记录中的出现最早日期,将其对应的旅客编号加 入到集合Vi,t对应的位置中,得到的Vi,t,表示t时刻新加入到第i个旅客关系网络 中的节点集合,
Figure BDA0003264586980000091
表示第i个旅客关系网络的节点集合,n表示节点个 数。
在本步骤里,为降低处理过程的空间复杂度,可以以数字序列代替旅客的 编号,并将存储旅客个人信息中的Key替换为相应的数字序列号,之后的旅客 关系中的相应旅客编号也需要进行替换;
S32、计算步骤S31获取的旅客关系网络的超边集合与节点集合形成完整的 旅客关系网络,具体方式为:
S321、提取一条旅客关系记录中的多个旅客编号,构成一条超边ei,j,t,其中,ei,j,t表示第i个旅客关系网络在t时刻新加入的第j条超边,并将关系记录中的对应 的出行距离、购票费用作为超边权重值,关系产生的日期为对应时刻t。
如一条超边可以表示为ei,j,t={id1,id2,…,w1,w2,…},其中id为旅客编号, w为对应的权重值,ei,j,t可表示第i个旅客关系网络在t时刻新加入的第j条超边, Ei,t={ei,1,t,ei,2,t,…,ei,j,t,…}表示第i个旅客关系网络在t时刻新加入的所有超边 的集合,
Figure BDA0003264586980000092
则代表第i个旅客关系网络中的所有超边的集合;
S322、构建旅客关系网络Gi=(Vi,Ei),其中Gi,t表示在t时刻新加入到网络 中的节点及超边的集合,Gi(tm,tn)表示从tm时刻到tn时刻的旅客关系网络,即
Figure BDA0003264586980000101
S4、将步骤S3构建的单一交通方式的旅客关系网络进行集成,获取跨交通 方式的旅客关系并构建融合型旅客关系网络;
在进行旅客关系抽取之前,不同数据源的旅客购票记录已经统一了编码方 式,故可以将不同数据源的旅客关系记录集成,构建融合型旅客关系网络。上 述构建的单一交通方式旅客关系网络Gi只能描述片面的旅客关系,对于异质型旅 客的旅客关系描述的并不完整,基于单一交通方式下的旅客关系网络构建融合 型的旅客关系网络可以将旅客关系描述的更完整且合理。
其中,异质型旅客是指出行方式存在差异的旅客,即该旅客曾通过不同的 交通方式出行。融合的具体过程为:
S41、遍历多个旅客关系记录,为旅客个人信息记录添加布尔型字段,记录 该旅客是否在某交通方式中出现,每种交通方式添加一个字段,通过布尔运算, 提取出有2个及以上字段布尔值为真的数据,将其作为异质型旅客,并以其证 件号组成有限集合V0
S42、将不同交通方式数据中的旅客有效证件进行匹配,获得存在同行关系 的异质型旅客以及与异质型旅客存在同行关系的同质型旅客的编号集合Vh,并 与i个旅客关系网络的节点集合,本实施例里令
Figure BDA0003264586980000102
表示在t时刻 新加入融合型旅客关系网络的节点的集合;
S43、在不同时刻下对各种交通方式下的节点集合分别与编号集合Vh取交集, 并将相同时刻的不通交通方式下的旅客关系网络节点集合取并集得到融合性关 系网络的所有超边的集合Eh
本实施例里,令
Figure BDA0003264586980000111
Figure BDA0003264586980000112
即EHt表示在t时刻新加入到旅客关系网络中、含有V0中旅客编号所有超 边的集合;
Figure BDA0003264586980000113
表示融合型旅客关系网络的所有超边的集合;
在本步骤里,步骤S43中具体实现过程为,先在不同时刻下对各交通方式 下的节点集合分别与Vh取交集,再将相同时刻的不同交通方式下的旅客关系网 络节点集合取并集得到VHt。其中,card(Ei,t)表示Ei,t集合中的元素数量
S44、构建融合性旅客关系网络H=(Vh,Eh);
在本实施例里,令Ht表示在t时刻新加入到网络中的节点及超边的集合, H(tm,tn)表示从tm时刻到tn时刻的融合型旅客关系网络,即
Figure BDA0003264586980000114
S5、将新收集的数据作为增量数据,使旅客关系网络动态增长,通过上述 步骤建立的不同交通方式下的旅客关系网络与融合型旅客关系网络仅基于历史 综合交通大数据,而随着时间的推移,各交通方式的业务信息系统将持续收集 旅客的订票数据,相应地旅客关系网络也应随之增长。后续的旅客关系网络增 长步骤为:
S51、在数据库中创建增量数据表,包括增量旅客个人信息、增量旅客订票 数据以及增量旅客关系记录。
增量数据表的结构与相应的旅客订票数据表、旅客个人信息表以及旅客关 系记录表相同,在业务信息系统收集到新数据时经过数据预处理过程后存入增 量旅客订票数据表中;动态增长可设定周期,如每日一次进行增量运算;
S52、抽取第i个数据来源下的旅客出行记录中旅客个人信息存储至增量旅客 个人信息表中,通过对比先前旅客个人信息中的旅客编号,识别未曾出现在先 前记录中的旅客编号集合ΔVi
S53、对所有数据来源下的新增旅客识别完成后,通过对比编号,得到新增 的异质型旅客编号集合ΔV0
S54、通过增量旅客订票数据中的订票序列号抽取旅客关系记录,储存到增 量旅客关系记录表中,将增量旅客关系记录中的旅客编号(或相应数字序列号) 作为超边包含的节点抽取,构成超边ei,j,并将关系记录中的对应的出行距离、 购票费用等作为超边权重值,一条超边可以表示为ei,j={id1,id2,…,w1,w2,…}, 其中id为旅客编号,w为对应的权重值,ei,j可表示新的周期中第i个旅客关系网络 的第j条超边,ΔEi={ei,1,ei,2,…,ei,j,…}表示新的周期中第i个旅客关系网络的所 有超边的集合。令
Figure BDA0003264586980000121
S55、为不同的单一交通方式的旅客关系网络Gi添加新时刻Δt,则 Gi,Δt=(ΔVi,ΔEi)。
S56、为融合性旅客关系网络H=(Vh,Eh)添加新时刻Δt,则Gi,Δt=(ΔVi,ΔEi)。
本发明中融合型旅客关系网络构建的流程如图2所示,其中以民航、铁路 为例表示旅客关系网络的融合,实际过程中可引入多个不同交通方式下的数据 源。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。 可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他 可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程 数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程 和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上 实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领 域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有 改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理 解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和 实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种 不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明 的保护范围内。

Claims (8)

1.一种基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,包括如下步骤:
S1、获取旅客出行历史记录并进行预处理;
S2、根据步骤S1与处理后的旅客出行历史记录获取其中多人同行的订票记录,并根据该订票记录抽取旅客关系;
S3、基于步骤S2获取的旅客关系构建各类单一交通方式的旅客关系网络;
S4、将步骤S3构建的单一交通方式的旅客关系网络进行集成,获取跨交通方式的旅客关系并构建融合型旅客关系网络;
S5、利用新收集的数据作为融合型旅客关系网络的增量数据,得到融合性旅客关系网的动态增长模型。
2.根据权利要求1所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S1预处理方法具体包括:
S11、对获取的旅客出行历史记录进行重构,将其中与旅客出行无关的数据缺失以空值填充,对旅客出行相关的数据异常和缺失进行剔除;
S12、将进行了重构后的旅客出行历史记录中不同交通方式的数据进行统一编码,其中的统一标准为旅客历史出行记录中数据量最多的交通方式的数据为标准;
S13、将经过步骤S12统一编码之后的旅客出行历史记录存储为旅客出行历史数据表,并以旅客个人身份信息为旅客的识别标识。
3.根据权利要求2所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S2具体为:
S21、从数据库中读取步骤S13得到的旅客出行历史数据表,并以订单号为键值Key,订单本身为真值Value通过哈希表进行存储,其中,哈希表中的每一个键值对应一组通行关系,真值中包含n条出行订单,产生n*(n-1)/2两两之间旅客关系;
S22、以哈希表中每一条旅客出行关系出行信息为一行记录,转存为旅客关系记录表。
4.根据权利要求3所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S3具体为:
S31、获取单一交通方式中任意旅客关系网络的节点集合;
S32、计算步骤S31获取的旅客关系网络的超边集合与节点集合形成完整的旅客关系网络。
5.根据权利要求4所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S31具体为:
S311、从数据库中读取旅客个人信息记录并存储到哈希表,其中以旅客的编号为键值,个人信息及其出行信息作为真值;
S312、遍历哈希表,获取旅客编号中节点出现最早日期t1及最晚日期tn,通过日期函数创建日期集合T={t1,t2,...,tn),再以该日期集合为键值创建新的集合Vi,t,其中t∈T,i为第i个旅客关系网络;
S313、根据旅客个人信息记录中的出现最早日期,将其对应的旅客编号加入到集合Vi,t对应的位置中,得到的Vi,t,表示t时刻新加入到第i个旅客关系网络中的节点集合,
Figure FDA0003264586970000021
表示第i个旅客关系网络的节点集合,n表示节点个数。
6.根据权利要求5所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S32具体为:
S321、提取旅客关系记录中的旅客编号,构成超边ei,j,t,其中,ei,j,t表示第i个旅客关系网络在t时刻新加入的第j条超边,并将关系记录中的对应的出行距离、购票费用作为超边权重值,关系产生的日期为对应时刻t;
S322、构建旅客关系网络Gi=(Vi,Ei),其中Gi,t表示在t时刻新加入到网络中的节点及超边的集合,Gi(tm,tn)表示从tm时刻到tn时刻的旅客关系网络,即
Figure FDA0003264586970000031
7.根据权利要求6所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S4具体为:
S41、遍历多个旅客关系记录,为旅客个人信息记录添加布尔型字段,记录该旅客是否在某交通方式中出现,每种交通方式添加一个字段,通过布尔运算提取出有2个及以上字段布尔值为真的数据,将其作为异质型旅客,并以其证件号组成有限集合V0
S42、将不同交通方式数据中的旅客有效证件进行匹配,获得存在同行关系的异质型旅客以及与异质型旅客存在同行关系的同质型旅客的编号集合Vh,并与i个旅客关系网络的节点集合,令
Figure FDA0003264586970000032
表示在t时刻新加入融合型旅客关系网络的节点的集合;
S43、在不同时刻下对各种交通方式下的节点集合分别与编号集合Vh取交集,并将相同时刻的不通交通方式下的旅客关系网络节点集合取并集得到融合性关系网络的所有超边的集合Eh
S44、根据步骤S43构建的融合型旅客关系网络的所有超边的集合Eh以及步骤S42构建的融合型旅客关系网络的节点集合Vh构建融合性旅客关系网络,表示为H=(Vh,Eh)。
8.根据权利要求7所述的基于综合交通大数据的融合型旅客关系网络构建方法,其特征在于,所述步骤S5具体包括:
S51、在数据库中创建增量数据表,包括增量旅客个人信息、增量旅客订票数据以及增量旅客关系记录;
S52、抽取任意数据来源下的旅客个人信息存储至增量旅客个人信息表中,通过对比已有的旅客个人信息中的旅客编号,识别未出现在旅客出行记录中的旅客编号集合ΔVi
S53、对所有数据来源下的新增旅客识别完成后,通过对比编号得到新增的异质型旅客编号集合ΔV0
S54、通过增量旅客订票数据中的订票序列号抽取旅客关系记录,储存到增量旅客关系记录表中,将增量旅客关系记录中的旅客编号作为超边包含的节点抽取构成超边ei,j,并将关系记录中的对应的出行距离、购票费用作为超边权重值;
S55、为不同的单一交通方式的旅客关系网络Gi添加新时刻Δt,则Gi,Δt=(ΔVi,ΔEi);
S56、为融合性旅客关系网络H=(Vh,Eh)添加新时刻Δt,则Gi,Δt=(ΔVi,ΔEi)。
CN202111082775.4A 2021-05-21 2021-09-15 一种基于综合交通大数据的融合型旅客关系网络构建方法 Active CN113806450B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021105566472 2021-05-21
CN202110556647 2021-05-21

Publications (2)

Publication Number Publication Date
CN113806450A true CN113806450A (zh) 2021-12-17
CN113806450B CN113806450B (zh) 2022-10-14

Family

ID=78895432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111082775.4A Active CN113806450B (zh) 2021-05-21 2021-09-15 一种基于综合交通大数据的融合型旅客关系网络构建方法

Country Status (1)

Country Link
CN (1) CN113806450B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002242135A1 (en) * 2001-02-06 2002-08-19 Metaedge Corporation Method and system for routing network traffic based upon application information
US20110160987A1 (en) * 2009-12-28 2011-06-30 Nec (China) Co., Ltd. Method and apparatus for processing traffic information based on intersections and sections
CN104317789A (zh) * 2014-04-24 2015-01-28 科技谷(厦门)信息技术有限公司 构建乘客社交网络的方法
CN105631630A (zh) * 2015-12-25 2016-06-01 中国民航信息网络股份有限公司 旅客订单数据处理方法及装置
CN110109908A (zh) * 2017-12-29 2019-08-09 成都蜀信信用服务有限公司 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112785020A (zh) * 2021-01-07 2021-05-11 五邑大学 基于城际高速铁路的旅客购票时间预测方法和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002242135A1 (en) * 2001-02-06 2002-08-19 Metaedge Corporation Method and system for routing network traffic based upon application information
US20020136204A1 (en) * 2001-02-06 2002-09-26 Metaedge Corporation Method and system for routing network traffic based upon application information
US20110160987A1 (en) * 2009-12-28 2011-06-30 Nec (China) Co., Ltd. Method and apparatus for processing traffic information based on intersections and sections
CN104317789A (zh) * 2014-04-24 2015-01-28 科技谷(厦门)信息技术有限公司 构建乘客社交网络的方法
CN105631630A (zh) * 2015-12-25 2016-06-01 中国民航信息网络股份有限公司 旅客订单数据处理方法及装置
CN110109908A (zh) * 2017-12-29 2019-08-09 成都蜀信信用服务有限公司 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112785020A (zh) * 2021-01-07 2021-05-11 五邑大学 基于城际高速铁路的旅客购票时间预测方法和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐进等: ""基于Louvain算法的铁路旅客社会网络社区划分研究"", 《山东农业大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113806450B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
Simić et al. Picture fuzzy WASPAS method for selecting last-mile delivery mode: a case study of Belgrade
Yu et al. Prediction of bus travel time using random forests based on near neighbors
Ghofrani et al. Recent applications of big data analytics in railway transportation systems: A survey
Rahman et al. Perceived service quality of paratransit in developing countries: A structural equation approach
CN111967910A (zh) 一种用户客群分类方法和装置
CN111768030B (zh) 银行运输配送线路规划方法和装置、设备以及介质
CN111160867A (zh) 大范围地域停车场大数据分析系统
CN107527223A (zh) 一种购票信息分析的方法及装置
Henke et al. A sustainable evaluation processes for investments in the transport sector: A combined multi-criteria and cost–benefit analysis for a new highway in Italy
Comi et al. Private car OD flow estimation based on automated vehicle monitoring data: Theoretical issues and empirical evidence
Diallo et al. Agent-based simulation from anonymized data: An application to Lille metropolis
Yang et al. Dynamic Origin‐Destination Matrix Estimation Based on Urban Rail Transit AFC Data: Deep Optimization Framework with Forward Passing and Backpropagation Techniques
Sajanraj et al. PASSENGER FLOW PREDICTION FROM AFC DATA USING STATION MEMORIZING LSTM FOR METRO RAIL SYSTEMS.
Liu et al. Domain-specific data mining for residents' transit pattern retrieval from incomplete information
CN113806450B (zh) 一种基于综合交通大数据的融合型旅客关系网络构建方法
Gao et al. Big data analysis of beijing urban rail transit fares based on passenger flow
Dubey et al. Contextual relationship among antecedents of truck freight using interpretive structural modelling and its validation using MICMAC analysis
Antunes et al. Analysing public transport data through the use of big data tecnhologies for urban mobility
Zhou et al. Refined taxi demand prediction with ST-Vec
Sathyan Traffic Flow Prediction using Machine Learning Techniques-A Systematic Literature Review
Wang et al. Modeling passenger flow distribution based on disaggregate model for urban rail transit
Valsalan et al. Travelers’ Response to Network Disruptions in Ernakulam City
KR101979242B1 (ko) 건설 지식 허브 센터의 지식 제공 방법
AU2021102301A4 (en) Decision support system based on machine learning and deep learning for secure data management
Kunjir et al. Managing Smart Urban Transportation with the integration of Big Data Analytic Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant