CN110517177A - 模型的生成方法、轨道交通车站的画像方法及系统 - Google Patents
模型的生成方法、轨道交通车站的画像方法及系统 Download PDFInfo
- Publication number
- CN110517177A CN110517177A CN201810491287.0A CN201810491287A CN110517177A CN 110517177 A CN110517177 A CN 110517177A CN 201810491287 A CN201810491287 A CN 201810491287A CN 110517177 A CN110517177 A CN 110517177A
- Authority
- CN
- China
- Prior art keywords
- rail traffic
- traffic station
- portrait
- dimensional vector
- vector space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 155
- 230000002093 peripheral effect Effects 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013139 quantization Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 229910017435 S2 In Inorganic materials 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000019082 Osmanthus Nutrition 0.000 description 1
- 241000333181 Osmanthus Species 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种模型的生成方法、轨道交通车站的画像方法及系统,模型的生成方法包括以下步骤:S1、采集轨道交通车站的信息数据,信息数据包括轨道交通车站的周边设施信息、地理位置信息和/或客流数据;S2、对信息数据进行特征提取及矢量化,以得到每个轨道交通车站对应的第一三维向量空间;S3、对每个轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,四维向量空间包括对应的第一三维向量空间和类别的标签;S4、将四维向量空间作为样本整合到BP神经网络中进行训练,以得到用于轨道车站画像的模型。本发明实现对轨道交通车站画像的自动标签化,从功能性和服务性方面出发,建立更精确、更具针对性的车站分级。
Description
技术领域
本发明属于轨道交通领域,特别涉及一种用于轨道交通车站画像的模型的生成方法、轨道交通车站的画像方法及系统。
背景技术
目前,公知的轨道交通车站通常按大小、地理位置、客流来进行分级,分级的颗粒度较粗。在提倡“互联网+”的今天,无法有效的根据轨道交通车站自身的特点给出有针对性的、具有特色的运营服务。
发明内容
本发明要解决的技术问题是为了克服现有技术中轨道交通车站的分级的颗粒度较粗,无法有效的根据车站自身的特点给出针对性的、具有特色的运营服务的缺陷,提供一种通过建立车站的画像的方法对目前的轨道交通车站进行分级进而为今后运营服务精细化管理提供依据的基于POI(Point of Interest,是网络地图的信息点)和票务数据的用于轨道交通车站画像的模型的生成方法、轨道交通车站的画像方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种用于轨道交通车站画像的模型的生成方法,包括以下步骤:
S1、采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和/或所述轨道交通车站的票务数据中的客流数据;
S2、对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;
S3、对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签;
S4、将所述四维向量空间作为样本整合到BP(back propagation,逆向传播)神经网络中进行训练,以得到所述用于轨道车站画像的模型。
较佳地,还包括以下步骤:
生成若干先验三维向量空间,每个所述先验三维向量空间包括对应的所述类别的标签;
步骤S3包括以下步骤:
将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为对应的所述轨道交通车站所对应的所述四维向量空间中的所述类别的标签。
较佳地,步骤S3中采用向量空间模型进行相似度计算。
较佳地,所述先验三维向量空间存储于数据仓库中。
较佳地,步骤S2中对所述信息数据进行特征提取包括:
对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和对应的频数特征。
较佳地,步骤S1中从电子地图和/或POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
本发明还提供了一种轨道交通车站的画像方法,包括以下步骤:
执行前述的用于轨道交通车站画像的模型的生成方法;
获取待画像的轨道交通车站的所述信息数据;
对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间;
使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
本发明还提供了一种用于轨道交通车站画像的模型的生成系统,包括:
数据采集模块,用于采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和/或所述轨道交通车站的票务数据中的客流数据;
特征提取模块,用于对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;
标注模块,用于对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签;
模型训练模块,用于将所述四维向量空间作为样本整合到BP神经网络中进行训练,以得到所述用于轨道车站画像的模型。
较佳地,还包括:
先验数据生成模块,用于生成若干先验三维向量空间,每个所述先验三维向量空间包括对应的所述类别的标签;
所述标注模块用于将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为对应的所述轨道交通车站所对应的所述四维向量空间中的所述类别的标签。
较佳地,所述标注模块中采用向量空间模型进行相似度计算。
较佳地,所述先验三维向量空间存储于数据仓库中。
较佳地,所述特征提取模块中对所述信息数据进行特征提取包括对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和对应的频数特征。
较佳地,所述数据采集模块中从电子地图和/或POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
本发明还提供了一种轨道交通车站的画像系统,包括:
模型生成模块,用于调用前述的用于轨道交通车站画像的模型的生成系统;
数据获取模块,用于获取待画像的轨道交通车站的所述信息数据;
矢量化处理模块,用于对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间;
预测模块,用于使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
本发明的积极进步效果在于:本发明提供的基于POI和票务数据的用于轨道交通车站画像的模型的生成方法、轨道交通车站的画像方法及系统通过对包括车站周边设施信息的信息数据的采集,再从乘客所需服务为需求导向进行信息的分类与聚类以得到样本数据,再采用BP神经网络对样本数据进行训练以得到用于轨道车站画像的模型,利用该模型实现对新的轨道交通车站画像的自动标签化。本发明从功能性和服务性方面出发,建立更精确、更具针对性的车站分级。画像建立后的轨道交通车站从功能性上有更精确性的定位,摆脱以往仅以车站大小或客流多少这种粗粒度进行等级划分的方式,对轨道交通车站的分级的粒度更细,准确性也更高。
附图说明
图1为本发明实施例1的用于轨道交通车站画像的模型的生成方法的流程图。
图2为本发明实施例2的轨道交通车站的画像方法的流程图。
图3为本发明实施例3的用于轨道交通车站画像的模型的生成系统的模块示意图。
图4为本发明实施例4的轨道交通车站的画像系统的模块示意图。
图5为基于本发明的构思实施的轨道交通车站画像系统架构图。
图6为图5中数据采集层的架构图。
图7为图5中数据处理层的处理流程示意图。
图8为图5中数据输出层输出的数据的示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供了一种用于轨道交通车站画像的模型的生成方法,包括以下步骤:
步骤101、生成若干先验三维向量空间,所述先验三维向量空间存储于数据仓库中,每个所述先验三维向量空间包括周边设施信息、地理位置信息、客流数据以及对应的所述类别的标签。
本实施例中,先验三维向量空间可以是根据经验值提前生成的数据,每个先验三维向量空间中除了包括周边设施信息、地理位置信息、客流数据所对应的矢量外,还包括具有这些矢量特征的车站应该对应的类别的标签,该类别的标签是根据经验值或者其他现有的分类算法预先得到的。
步骤102、采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和所述轨道交通车站的票务数据中的客流数据;本实施例中,从电子地图和POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
步骤103、对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;其中对所述信息数据进行特征提取包括:对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和与设施特征相对应的频数特征。
步骤104、对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签。
本实施例中,对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注具体步骤为:将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间采用向量空间模型进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为该轨道交通车站对应的所述四维向量空间中的所述类别的标签。也即为每一个所述轨道交通车站通过类别的标签进行分类。
本实施例中,向量空间模型为现有的计算相似度的模型,在此不再赘述。
步骤105、将所述四维向量空间作为样本整合到BP神经网络中进行训练,以得到所述用于轨道车站画像的模型。
本实施例中,步骤102中采集轨道交通车站的信息数据之后还需要对数据进行清洗和存储。从数据结构类型上分类,信息数据可以分为半结构化数据和结构化数据,其中半结构化数据包括车站周边设施信息和地理位置信息,结构化数据为所述轨道交通车站的票务数据中的客流数据,如此划分是由数据来源决定的。考虑到客流数据的数据规模较大,本实施例中采用Hadoop(一种分布式系统基础架构)平台作为分布式存储和计算架构,将经过清洗的数据存储至HBase(一个分布式的、面向列的开源数据库)和Hive(一个基于Hadoop的一个数据仓库工具)中供后续步骤进行处理。
本实施例中,向量空间模型用于计算标签之间的相似性。在这个模型中,特征用矢量来表示,特征中的部分名称可以用分量来表示,而分量值就是该特征的权重,可以理解为该特征出现的频率。特征的相似度就是两个矢量的内积。先验三维向量空间也包括周边设施信息、地理位置信息和客流数据。根据向量空间模型,分别计算第一三维向量空间和先验三维向量空间中分量的相似度,形成包括第一三维向量空间和类别的标签的四维向量空间,具体实施时类别的标签采用标签类别代码实现。
本实施例中,每个轨道交通车站的信息数据都要进行特征提取、矢量化处理及标注以得到该轨道交通车站对应的四维向量空间。然后再整合到BP神经网络学习算法当中,该算法能根据给定的样本进行学习,通过网络的实际输出与期望输出的误差进行调整连接权值,来达到学习的目的,最终生成用于轨道车站画像的模型,该模型能够以较高的准确性对新的轨道交通车站自动实现标签化。
本实施例提供的用于轨道交通车站画像的模型的生成方法通过对轨道交通车站周边设施信息的采集,从乘客所需服务为需求导向进行信息的聚类,并结合车站的位置信息、客流变化规律等数据生成车站画像的模型,根据该模型能够通过分类、聚类算法形成同类“画像”的车站集合。“画像”建立后的车站将从功能性上有更精确性的定位,摆脱以往仅以大小或客流多少来进行等级划分的这种粗粒度的划分方式,对轨道交通车站的分级的粒度更细,准确性也更高。
实施例2
如图2所示,本实施例提供的轨道交通车站的画像方法,包括以下步骤:
步骤201、执行实施例1所述的模型的生成的方法;
步骤202、获取待画像的轨道交通车站的所述信息数据;
步骤203、对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间;
步骤204、使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
本实施例中,待画像的轨道交通车站的信息数据经过特征提取及矢量化处理后得到与第一三维向量空间类似的第二三维向量空间,此时经过训练的BP神经网络即能对类似样本的输入信息也即第二三维向量空间自行处理,输出误差最小的经过非线形转换的信息,也即得到所述待画像的轨道交通车站的所述类别的标签,从而完成对待画像的轨道交通车站类别的预测,自动实现对轨道交通车站的精确分级。
本实施例提供的轨道交通车站的画像方法通过使用用于轨道车站画像的模型能够以较高的准确性进行待画像的轨道交通车站的自动标签化,即完成“画像”。“画像”建立后的轨道交通车站将从功能性上有更精确性的定位,摆脱以往仅以大小或客流多少来进行等级划分的这种粗粒度的划分方式,对轨道交通车站的分级的粒度更细,准确性也更高。进一步地,由标签化的轨道交通车站进行相似度计算,能够找到标签相似的车站集合,即找到同类的标签。
实施例3
如图3所示,本实施例提供了一种用于轨道交通车站画像的模型的生成系统,包括:先验数据生成模块1、数据采集模块2、特征提取模块3、标注模块4和模型训练模块5。
先验数据生成模块1,用于生成若干先验三维向量空间,所述先验三维向量空间存储于数据仓库中,每个所述先验三维向量空间包括周边设施信息、地理位置信息、客流数据以及对应的所述类别的标签。
数据采集模块2,用于采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和所述轨道交通车站的票务数据中的客流数据;所述数据采集模块2中从电子地图和POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
特征提取模块3,用于对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;所述特征提取模块3中对所述信息数据进行特征提取包括对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和与设施特征相对应的频数特征。
标注模块4,用于对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签;所述标注模块4用于标注具体是通过将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间采用向量空间模型进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为该轨道交通车站所对应的所述四维向量空间中的所述类别的标签。也即为每一个所述轨道交通车站通过类别的标签进行分类。
模型训练模块5,用于将所述四维向量空间作为样本整合到BP神经网络中进行训练,以得到所述用于轨道车站画像的模型。
本实施例中,数据采集模块2采集轨道交通车站的信息数据之后还需要对数据进行清洗和存储。从数据结构类型上分类,信息数据可以分为半结构化数据和结构化数据,其中半结构化数据包括车站周边设施信息和地理位置信息,结构化数据为所述轨道交通车站的票务数据中的客流数据,如此划分是由数据来源决定的。考虑到客流数据的数据规模较大,因此采用Hadoop平台作为分布式存储和计算架构,将经过清洗的数据存储至HBase和Hive中供后续步骤进行处理。
本实施例中,向量空间模型用于计算标签之间的相似性。在这个模型中,特征用矢量来表示,特征中的部分名称可以用分量来表示,而分量值就是该特征的权重,可以理解为该特征出现的频率。特征的相似度就是两个矢量的内积。先验三维向量空间也包括周边设施信息、地理位置信息和客流数据。根据向量空间模型,分别计算第一三维向量空间和先验三维向量空间中分量的相似度,形成包括第一三维向量空间和类别的标签的四维向量空间,具体实施时类别的标签采用标签类别代码实现。
本实施例中,每个轨道交通车站的信息数据都要进行特征提取、矢量化处理及标注以得到该轨道交通车站对应的四维向量空间。由模型训练模块5整合到BP神经网络学习算法当中,该算法能根据给定的样本进行学习,通过网络的实际输出与期望输出的误差进行调整连接权值,来达到学习的目的,最终生成用于轨道车站画像的模型,该模型能够以较高的准确性对新的轨道交通车站自动实现标签化。
本实施例提供的用于轨道交通车站画像的模型的生成系统通过对轨道交通车站周边设施信息的采集,从乘客所需服务为需求导向进行信息的聚类,并结合车站的位置信息、客流变化规律等数据生成车站画像的模型,根据该模型能够通过分类、聚类算法形成同类“画像”的车站集合。“画像”建立后的车站将从功能性上有更精确性的定位,摆脱以往仅以大小或客流多少来进行等级划分的这种粗粒度的划分方式,对轨道交通车站的分级的粒度更细,准确性也更高。
实施例4
如图4所示,本实施例提供的轨道交通车站的画像系统,包括模型生成模块6、数据获取模块7、矢量化处理模块8和预测模块9。
模型生成模块6,用于调用实施例3所述的用于轨道交通车站画像的模型的生成系统。
数据获取模块7,用于获取待画像的轨道交通车站的所述信息数据。
矢量化处理模块8,用于对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间。
预测模块9,用于使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
本实施例提供的轨道交通车站的画像系统通过使用用于轨道车站画像的模型能够以较高的准确性进行待画像的轨道交通车站的自动标签化,即完成“画像”。“画像”建立后的轨道交通车站将从功能性上有更精确性的定位,摆脱以往仅以大小或客流多少来进行等级划分的这种粗粒度的划分方式,对轨道交通车站的分级的粒度更细,准确性也更高。进一步地,由标签化的轨道交通车站进行相似度计算,能够找到标签相似的车站集合,即找到同类的标签。
下面继续通过具体的例子,进一步说明本发明的技术方案和技术效果。
如图5所示,基于本发明的技术构思实施的一种轨道交通车站画像系统,包括信息采集层11、信息处理层21和数据输出层31。
信息采集层主要负责信息采集、清洗和存储。轨道交通车站画像所需的信息数据包括车站周边设施信息、地理位置信息、车站票务数据中的客流数据等。从数据结构类型上分类,信息数据可以分为半结构化数据(车站周边设施信息、地理位置信息)和结构化数据(车站客流数据),并且车站客流数据的数据规模较大,因此本系统采用Hadoop平台作为分布式存储和计算架构,将经过清洗的数据存储至HBase和Hive中供信息处理层进行处理。
信息处理层采用了BP神经网络对轨道交通车站进行标签化。采用车站周边设施信息、地理位置信息和车站票务数据中的客流数据进行特征提取并进行矢量化,对BP神经网络进行训练后对交通轨道车站进行自动标签化。向量空间模型可以用来计算特征之间的相似性。在这个模型中,特征用矢量来表示,特征中的部分名称可以用分量来表示,而分量值就是该特征的权重,可以理解为该特征出现的频率。特征的相似度就是两个矢量的内积。车站的矢量化是BP算法实现的基础,车站的标签化是一种有导师的机器学习方式。可以将车站的标签类别用组合表示,组合中的内容就是关于标签类别的相似的词。这种组合的方式称为标签组合,接着将这个分类组合转成n维的空间M。M中的第i个具体元素代表在该分类组合中出现的频数。
不失一般性,车站组合为:周边设施信息、地理位置信息和客流数据。根据向量空间模型,分别计算标签组合和车站组合中分量的相似度,形成三维的向量空间,最终是一个四维的向量空间,因为另加上一个标签类别代码。所有的训练集和测试集都要进行车站的矢量化处理。接着,整合到BP学习算法当中,该算法能根据给定的样本进行学习,通过网络的实际输出与期望输出的误差进行调整连接权值,来达到学习的目的,能以较高的准确性对轨道交通车站标签化。最后,由标签化的车站进行相似度计算,来找到标签相似的车站集合。
信息输出层主要负责将信息处理层处理后的“画像”数据进行接口输出或者可视化输出两种方式。接口方式主要指系统提供restful api(满足架构约束条件和原则的应用程序)接口,供其他系统调用获取数据;可视化方式主要指通过和弦图、饼图等手段进行展示。
本例子中的系统通过对车站周边设施信息的采集,从乘客所需服务为需求导向进行信息的聚类,并结合车站的位置信息、客流变化规律等数据建立车站画像,通过分类、聚类算法形成同类“画像”的车站集合。“画像”建立后的车站将从功能性上有更精确性的定位,摆脱以往仅以大小或客流多少来等级这种粗粒度的划分方式,对轨道交通车站的分级的粒度更细,准确性也更高。同时,本系统的层次分明,结构简单。
本例子中包括数据准备阶段,具体为建立包括先验三维向量空间的数据仓库,具体包括两种特征,即车站周边所有的设施特征和频数特征。设施特征可理解为标签,对数据仓库的设施特征用组合表示,组合的类别就是标签中的近义词或者同义词。将这个标签组合转成多维的空间Q。Q中的第i个具体元素代表在该标签组合中出现的频数。
参考图6,数据采集层实现车站画像所要用到数据的采集,具体包括车站周边的设施,地理位置信息和车站票务数据的客流量。具体采取的方式是从电子地图,POI相关网址和地铁票务系统中获取。如遇反爬信息,按照数据采集层所述进行反爬处理,最终将数据清洗后存储到Hbase和Hive中。
参考图7,数据处理层处理流程如下:
步骤一:通过数据接口模块从Hbase和Hive中读取相应数据,并根据地铁站的地理位置按顺序进行编码(例如桂林站为[0,0,1],与桂林站离中心点距离较接近的赤峰路站为[0,0,2]),目的是为了某一站出现故障,若该故障在该站为首次出现,则可按与其它车站的相似度高低优先考虑,具体将距离作为参数,以此将乘客推荐到较接近的地铁站供其参考。例如乘客A想要去桂林站附近看电影,但是途中发现桂林站发生故障,此时经过本系统对桂林站及赤峰路车站的画像,再由标签化的车站进行相似度计算发现离桂林站较近的赤峰路地铁站和桂林站的类别的标签一致,它们所包括的周边的设施中的电影院这一特征相似,再结合距离参数,可以推荐乘客A就近去赤峰路车站附近看电影,以此实现了有效的根据车站自身的特点给出针对性的、具有特色的运营服务。
步骤二:考虑到客流量即客流数据对轨道交通车站画像的影响力较小,所以本系统中只需将对应站的客流量作为常量传给BP算法即可。
步骤三:对轨道交通车站进行矢量化处理,特征提取和贴上相应的特征标签。例如桂林站为父标签,该父标签有两个子特征标签(倾向于影视和医疗),影院的个数是100(在算法中即频数),即影院子特征标签d1的分量值(权重)是100,医院3家,即医院子特征标签d2的分量值(权重)是3。为了避免特征标签之间存在同义词和近义词的重复分量,首先在该站进行特征标签相似度的计算,观察相似度较高的特征标签是不是冗余,若是,则融合为一个特征标签;若不是,则忽略。例如影院子特征标签和影视子特征标签相似度较高,则融合两个特征子标签和分量。
步骤四:用各个具体的轨道交通车站(周边设施信息,地理位置信息,客流数据)的三维向量空间和数据仓库的标签组合进行相似度的计算,形成三维向量空间加上类别的标签,结果是四维的向量空间。
步骤五:整合到BP神经网络学习算法中,根据上述的样本进行学习。通过实际输出和期望输出的误差不断调整权值,直到误差符合预期。通过这种不断的学习,从理论和具体实施上能以较高的准确性进行轨道交通车站的自动标签化。
步骤六:在步骤五的基础上,对标签化的轨道交通车站进行相似度(余弦相似)的计算,找到相似度较高的轨道交通车站集合,以便推荐。例如赤峰路站出现故障,而桂林站和赤峰路站的相似度较高,则推荐参考桂林站故障影响及客流变化。这里已经将地理位置考虑进去了,这是因为在构造三维空间向量时位置是按顺序进行编码的。
参考图8所示,本系统的可视化界面主要包括三部分内容:1)基础信息,包括车站所属线路、车站级别、容积量;2)客流信息,主要是指累计的客流交易量;3)车站画像,主要指车站周边的基础设施。本系统根据故障的输入查询车站历史故障信息,若无该类故障的历史信息,则本系统将推荐相似车站作为参考。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种用于轨道交通车站画像的模型的生成方法,其特征在于,包括以下步骤:
S1、采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和/或所述轨道交通车站的票务数据中的客流数据;
S2、对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;
S3、对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签;
S4、将所述四维向量空间作为样本整合到BP神经网络中进行训练,以得到所述用于轨道车站画像的模型。
2.如权利要求1所述的用于轨道交通车站画像的模型的生成方法,其特征在于,还包括以下步骤:
生成若干先验三维向量空间,每个所述先验三维向量空间包括对应的所述类别的标签;
步骤S3包括以下步骤:
将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为对应的所述轨道交通车站所对应的所述四维向量空间中的所述类别的标签。
3.如权利要求2所述的用于轨道交通车站画像的模型的生成方法,其特征在于,步骤S3中采用向量空间模型进行相似度计算。
4.如权利要求2所述的用于轨道交通车站画像的模型的生成方法,其特征在于,所述先验三维向量空间存储于数据仓库中。
5.如权利要求1所述的用于轨道交通车站画像的模型的生成方法,其特征在于,步骤S2中对所述信息数据进行特征提取包括:
对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和对应的频数特征。
6.如权利要求1所述的用于轨道交通车站画像的模型的生成方法,其特征在于,步骤S1中从电子地图和/或POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
7.一种轨道交通车站的画像方法,其特征在于,包括以下步骤:
执行如权利要求1至6任一项所述的用于轨道交通车站画像的模型的生成方法;
获取待画像的轨道交通车站的所述信息数据;
对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间;
使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
8.一种用于轨道交通车站画像的模型的生成系统,其特征在于,包括:
数据采集模块,用于采集所述轨道交通车站的信息数据,所述信息数据包括所述轨道交通车站的周边设施信息、所述轨道交通车站的地理位置信息和/或所述轨道交通车站的票务数据中的客流数据;
特征提取模块,用于对所述信息数据进行特征提取及矢量化,以得到每个所述轨道交通车站对应的第一三维向量空间;
标注模块,用于对每个所述轨道交通车站对应的第一三维向量空间进行类别标签的标注,以得到对应的四维向量空间,所述四维向量空间包括对应的第一三维向量空间和类别的标签;
模型训练模块,用于将所述四维向量空间作为样本整合到BP神经网络中进行训练,以得到所述用于轨道车站画像的模型。
9.如权利要求8所述的用于轨道交通车站画像的模型的生成系统,其特征在于,还包括:
先验数据生成模块,用于生成若干先验三维向量空间,每个所述先验三维向量空间包括对应的所述类别的标签;
所述标注模块用于将所述轨道交通车站对应的第一三维向量空间与每个所述先验三维向量空间进行相似度计算,将计算结果中相似度最高的所述先验三维向量空间对应的类别的标签作为对应的所述轨道交通车站所对应的所述四维向量空间中的所述类别的标签。
10.如权利要求9所述的用于轨道交通车站画像的模型的生成系统,其特征在于,所述标注模块中采用向量空间模型进行相似度计算。
11.如权利要求9所述的用于轨道交通车站画像的模型的生成系统,其特征在于,所述先验三维向量空间存储于数据仓库中。
12.如权利要求8所述的用于轨道交通车站画像的模型的生成系统,其特征在于,所述特征提取模块中对所述信息数据进行特征提取包括对所述轨道交通车站的周边设施信息按照对应的所述地理位置信息提取设施特征和对应的频数特征。
13.如权利要求8所述的用于轨道交通车站画像的模型的生成系统,其特征在于,所述数据采集模块中从电子地图和/或POI网站采集所述轨道交通车站的周边设施信息和所述轨道交通车站的地理位置信息。
14.一种轨道交通车站的画像系统,其特征在于,包括:
模型生成模块,用于调用如权利要求8至13任一项所述的用于轨道交通车站画像的模型的生成系统;
数据获取模块,用于获取待画像的轨道交通车站的所述信息数据;
矢量化处理模块,用于对待画像的轨道交通车站的所述信息数据进行特征提取及矢量化,以得到待画像的轨道交通车站对应的第二三维向量空间;
预测模块,用于使用所述用于轨道车站画像的模型对所述第二三维向量空间进行预测,以得到所述待画像的轨道交通车站的所述类别的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810491287.0A CN110517177A (zh) | 2018-05-21 | 2018-05-21 | 模型的生成方法、轨道交通车站的画像方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810491287.0A CN110517177A (zh) | 2018-05-21 | 2018-05-21 | 模型的生成方法、轨道交通车站的画像方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110517177A true CN110517177A (zh) | 2019-11-29 |
Family
ID=68622228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810491287.0A Pending CN110517177A (zh) | 2018-05-21 | 2018-05-21 | 模型的生成方法、轨道交通车站的画像方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517177A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477028A (zh) * | 2020-04-28 | 2020-07-31 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN112613770A (zh) * | 2020-12-28 | 2021-04-06 | 北京市市政工程设计研究总院有限公司 | 颗粒化空间尺度公共交通便利指数计算方法和装置 |
CN113191283A (zh) * | 2021-05-08 | 2021-07-30 | 河北工业大学 | 一种基于在途出行者情绪变化的行驶路径决策方法 |
CN115423510A (zh) * | 2022-08-30 | 2022-12-02 | 成都智元汇信息技术股份有限公司 | 基于地铁关联数据的媒体业务处理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091782A (ja) * | 1996-09-10 | 1998-04-10 | Olympus Optical Co Ltd | 濃淡画像用特定部位抽出方法 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN104199836A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于子兴趣划分的标注用户模型建构方法 |
CN104753617A (zh) * | 2015-03-17 | 2015-07-01 | 中国科学技术大学苏州研究院 | 基于神经网络的时序型隐信道检测方法 |
CN105893544A (zh) * | 2016-03-31 | 2016-08-24 | 东南大学 | 一种基于poi业态数据生成城市空间大数据地图的方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN107103392A (zh) * | 2017-05-24 | 2017-08-29 | 北京航空航天大学 | 一种基于时空地理加权回归的公交客流影响因素识别与预测方法 |
CN107656987A (zh) * | 2017-09-13 | 2018-02-02 | 大连理工大学 | 一种基于lda模型的地铁站点功能挖掘方法 |
CN107704524A (zh) * | 2017-09-13 | 2018-02-16 | 大连理工大学 | 一种基于doc2vec的地铁站点功能挖掘方法 |
CN108009973A (zh) * | 2017-11-15 | 2018-05-08 | 上海电科智能系统股份有限公司 | 一种全息城市轨道交通对象时空化建模方法 |
-
2018
- 2018-05-21 CN CN201810491287.0A patent/CN110517177A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091782A (ja) * | 1996-09-10 | 1998-04-10 | Olympus Optical Co Ltd | 濃淡画像用特定部位抽出方法 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN104199836A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于子兴趣划分的标注用户模型建构方法 |
CN104753617A (zh) * | 2015-03-17 | 2015-07-01 | 中国科学技术大学苏州研究院 | 基于神经网络的时序型隐信道检测方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN105893544A (zh) * | 2016-03-31 | 2016-08-24 | 东南大学 | 一种基于poi业态数据生成城市空间大数据地图的方法 |
CN107103392A (zh) * | 2017-05-24 | 2017-08-29 | 北京航空航天大学 | 一种基于时空地理加权回归的公交客流影响因素识别与预测方法 |
CN107656987A (zh) * | 2017-09-13 | 2018-02-02 | 大连理工大学 | 一种基于lda模型的地铁站点功能挖掘方法 |
CN107704524A (zh) * | 2017-09-13 | 2018-02-16 | 大连理工大学 | 一种基于doc2vec的地铁站点功能挖掘方法 |
CN108009973A (zh) * | 2017-11-15 | 2018-05-08 | 上海电科智能系统股份有限公司 | 一种全息城市轨道交通对象时空化建模方法 |
Non-Patent Citations (3)
Title |
---|
TAO TANG 等: "FISS: function identification of subway stations based on semantics mining and functional clustering", 《THE INSTITUTION OF ENGINEERING AND TECHNOLOGY 》 * |
岳真宏 等: "基于刷卡数据和高斯混合聚类的 地铁车站分类", 《都市快轨交通》, vol. 30, no. 2, pages 48 - 51 * |
王宏亮: "基于BP人工神经网络的城市 轨道交通线网规划的综合评价", 《城市公共交通》, pages 50 - 56 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477028A (zh) * | 2020-04-28 | 2020-07-31 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111477028B (zh) * | 2020-04-28 | 2022-05-24 | 北京百度网讯科技有限公司 | 自动驾驶中用于生成信息的方法和装置 |
CN112613770A (zh) * | 2020-12-28 | 2021-04-06 | 北京市市政工程设计研究总院有限公司 | 颗粒化空间尺度公共交通便利指数计算方法和装置 |
CN112613770B (zh) * | 2020-12-28 | 2024-01-19 | 北京市市政工程设计研究总院有限公司 | 颗粒化空间尺度公共交通便利指数计算方法和装置 |
CN113191283A (zh) * | 2021-05-08 | 2021-07-30 | 河北工业大学 | 一种基于在途出行者情绪变化的行驶路径决策方法 |
CN115423510A (zh) * | 2022-08-30 | 2022-12-02 | 成都智元汇信息技术股份有限公司 | 基于地铁关联数据的媒体业务处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | An automated machine-learning approach for road pothole detection using smartphone sensor data | |
CN110264709A (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
Byon et al. | Real-time transportation mode identification using artificial neural networks enhanced with mode availability layers: A case study in Dubai | |
CN110517177A (zh) | 模型的生成方法、轨道交通车站的画像方法及系统 | |
CN105493109B (zh) | 使用多个数据源的空气质量推断 | |
Li et al. | Coupled application of generative adversarial networks and conventional neural networks for travel mode detection using GPS data | |
Ebrahimpour et al. | Comparison of main approaches for extracting behavior features from crowd flow analysis | |
CN109697499A (zh) | 行人流量漏斗生成方法及装置、存储介质、电子设备 | |
CN116227834A (zh) | 一种基于三维点云模型的智能景区数字化平台 | |
CN106776928A (zh) | 基于内存计算框架、融合社交环境及时空数据的位置推荐方法 | |
Yang et al. | Estimating urban shared-bike trips with location-based social networking data | |
Lu et al. | A random forest model for travel mode identification based on mobile phone signaling data | |
Xia et al. | Identify and delimitate urban hotspot areas using a network-based spatiotemporal field clustering method | |
CN107368947A (zh) | 一种游乐场管理方法及装置 | |
CN112861972A (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN108062366A (zh) | 公共文化信息推荐系统 | |
Li et al. | Multi-view crowd congestion monitoring system based on an ensemble of convolutional neural network classifiers | |
CN112395502A (zh) | 一种页面显示方法、装置、电子设备及计算机存储介质 | |
CN106127515A (zh) | 一种旅客画像及数据分析的方法及装置 | |
Liu et al. | A lightweight object detection algorithm for remote sensing images based on attention mechanism and YOLOv5s | |
Chen et al. | Research on human travel correlation for urban transport planning based on multisource data | |
de Freitas et al. | Using deep learning for trajectory classification | |
Ouyang et al. | Site selection improvement of retailers based on spatial competition strategy and a double-channel convolutional neural network | |
Wang et al. | AI and deep learning for urban computing | |
Zheng et al. | A deep learning–based approach for moving vehicle counting and short-term traffic prediction from video images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |