CN104598543B - 一种社交匹配数据挖掘系统 - Google Patents
一种社交匹配数据挖掘系统 Download PDFInfo
- Publication number
- CN104598543B CN104598543B CN201410851735.5A CN201410851735A CN104598543B CN 104598543 B CN104598543 B CN 104598543B CN 201410851735 A CN201410851735 A CN 201410851735A CN 104598543 B CN104598543 B CN 104598543B
- Authority
- CN
- China
- Prior art keywords
- module
- bus
- getting
- passenger
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 12
- 238000007418 data mining Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 239000013078 crystal Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 230000003542 behavioural effect Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种社交匹配数据挖掘系统,该系统用于采集和处理公交乘客上下车信息的数据,其特征在于,包括乘客上下车信息采集模块、数据处理模块和社交匹配度计算模块;所述乘客上下车信息采集模块安装于公车内,数据处理模块和社交匹配度计算模块安装于公车运行线路的终点站或始发站内,公车到达终点站后,乘客上下车信息采集模块采集的数据经数据处理模块处理后传送至社交匹配度计算模块来计算乘客之间的社交关系匹配程度。本发明能充分利用乘客日常生活的行为特征,映射到线上的社交关系匹配中,深度挖掘出数据的价值,对公共交通服务的信息化及人性化起到促进作用。
Description
技术领域
本发明涉及社交数据挖掘领域,更具体地,涉及一种社交匹配数据挖掘系统。
背景技术
随着社交网络的兴起,社交活动成为人们生活中不可或缺的一个部分。传统的社交匹配方法是基于用户线上信息,如关注兴趣,主题及共同好友等的相似程度。随着Online-to-Offline(O2O)的发展,人们关于线上社交的目光逐步从线上的虚拟关系转移到线下基于地理位置与行为特性的线下社交。而公交上下车信息正是记录着用户线下生活的主要行为习惯。如何将生活中的线下信息进行收集与数据挖掘,并将结果应用于线上的成为大数据时代下的热门议题。
随着大数据与数据挖掘的发展,各种数据来源背后隐含着个人的行为特性。而公车作为现代社会人们出行必不可少的交通工具,其乘客上下车信息蕴含着乘客日常生活的行为特性。
现有Origin-Destination(OD)客流采集方法有:1)人工采集方法;2)自动计数设备:包括基于视频采集的图像处理人流分析技术、踏板式、红外及超声波式的下车检测技术。上述方法只能实现整体客流检测,特别是在人流拥挤的情况下存在检测不准确的情况,且无法实现到单独乘客的上下车信息。
发明内容
本发明一种将乘客公交车上下车数据应用到社交平台的社交匹配数据挖掘系统,实现基于用户线下行为的社交推荐及匹配,将乘客上下车信息进行深度数据挖掘,使得这些数据能有效地应用于社交平台的社交推荐与匹配。
为达到上述技术效果,本发明的技术方案如下:
一种社交匹配数据挖掘系统,该系统用于采集和处理公交乘客上下车信息的数据,包括乘客上下车信息采集模块、数据处理模块和社交匹配度计算模块;所述乘客上下车信息采集模块安装于公车内,数据处理模块和社交匹配度计算模块安装于公车运行线路的终点站或始发站内,公车到达终点站后,乘客上下车信息采集模块采集的数据经数据处理模块处理后传送至社交匹配度计算模块来计算乘客之间的社交关系匹配程度。
进一步地,所述乘客上下车信息采集模块包括乘客持有的含有其身份信息的双射频识别公交卡,近距阅读器模块、远距阅读器模块、无线通信模块、地理位置信息模块和后台数据库服务器;所述近距阅读器模块和地理位置信息模块与后台数据库服务器连接,远距阅读器模块通过无线通信模块与后台数据库服务器连接;所述双射频识别公交卡包括无源近距RFID模块和有源远距RFID模块,近距阅读器模块读取无源近距RFID模块中的数据,远距阅读器模块读取有源远距RFID模块中的数据。
进一步地,所述无源近距RFID模块记录公车卡的ID信息及费用信息,用于搭乘公交时余额信息的读取与扣费;有源远距RFID模块包含远距射频芯片、晶振与天线,记录与无源RFID模块相同的公车卡ID号,用于与远距阅读器模块交互。
进一步地,所述近距阅读器模块安装于公车前门入口作为刷卡机,乘客上车时,近距阅读器模块对无源近距RFID模块进行信息读取与扣费,读取无源近距RFID模块中包括公交卡号、公交卡余额信息,并将读取到的数据打包发送到后台数据库服务器,数据库服务器在接收到的数据包中加入当前站点编号、线路编号及上车时间后,记录于数据库服务器的数据库中。
进一步地,所述远距阅读器模块安装于公车前后门边框上,该阅读器模块包括偶极子天线,布置于公车门边框左右两侧,乘客下车时,远距阅读器模块中的天线架向门口区域发射射频能量,公交卡内有源远距RFID模块接收到天线架发出的能量后被驱动激活,产生具有超高频能量的载波信号,将公交卡ID信息数据调制并载入该载波信号,并反射调制方式完成电子标签载波信号向远距阅读器模块的传送;远距阅读器模块获取公交卡远距RFID模块的载波信号,通过解调,获取公交卡信息,并将该信息打包后通过无线通信模块发送至后台数据库服务器;数据库服务器在接收到的数据包中加入当前站点编号、线路编号及下车时间后,记录于数据库服务器的数据库中;数据库服务器比对本趟车发车至当前站点的下车记录中是否有此公车卡,若有,则将记录更新;若无,则新增加该公交卡的下车条目,记录于数据库服务器的数据库中。
进一步地,所述数据处理模块对数据库服务器数据库中的任一乘客公交卡对应数据的处理过程如下:
S1:统计时间段t内乘客的上下车站点及其对应的频数,提取出上下车频数最大的前h个站点作为该用户的特征站点,得特征站点F1,F2,…,Fh,其中若乘客在时间间隔Δt内在同一站点先上车后下车,则视该站点为该乘客的中转站,中转站不作为上下车站,予以忽略;
S2:利用地理位置信息模块提取特征站点对应的地理位置经纬度信息;
S3:获取特征站点对应的上下车时间序列,通过截尾均值计算获取对应特征站点的上下车特征时间;
S4:将下车特征时间较晚的特征站点作为第一特征站点,其次为第二特征站点,以此类推,得到该乘客乘车特征数据向量:
其中,为乘客乘车特征数据向量;Lok,Lak,Tuk,Tdk分别为第k个特征站点的上车经度、纬度、上车特征时间与下车特征时间。
进一步地,在数据库服务器数据库中抽取S个乘客公交卡对应数据进行如S1-S4的处理得到矩阵对P进一步进行处理,过程如下:
S5:对P进行尺度归一化处理,确保各个分量保持在相同的变化尺度内,得到特征矩阵P':
S7:将训练特征矩阵P'进行聚类分析,设定类别数为k,聚类后得到k个类别中心序列其对应的类别标签为
S8:对于一个新的乘客乘车特征数据向量计算与k个类别中心序列的欧氏距离,将的类别标签lt标记为与其欧式距离最小的类别中心点对应的类别标签,并取前z个距离最小的类别最为的最近邻类别;
S9:对应的z个最近邻类别的所有样本集合S={p1,p2,…,pN},计算与S中的所有样本的欧式距离,并将计算的结果按降序排列得到新的样本集合S’;
S10:S’中的一样本的序号为x,则该样本与社交关系度量值为v:其中N为z个最近邻类别的所有样本的个数。
与现有技术相比,本发明技术方案的有益效果是:
本发明采集线下乘客日常的搭乘公交车的行为特征数据,深度挖掘出数据特征,根据训练聚类进行样本间的社交关系度量值计算,实现基于公交卡数据的社交匹配与推荐,实现了将线下的数据映射到线上的社交关系匹配中,对公共交通服务的信息化及人性化起到促进作用。
附图说明
图1为本发明的整体模块框图;
图2为本发明的数据处理模块流程框图;
图3为本发明的社交匹配算法流程框图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种社交匹配数据挖掘系统,该系统用于采集和处理公交乘客上下车信息的数据,包括乘客上下车信息采集模块、数据处理模块和社交匹配度计算模块;所述乘客上下车信息采集模块安装于公车内,数据处理模块和社交匹配度计算模块安装于公车运行线路的终点站或始发站内,公车到达终点站后,乘客上下车信息采集模块采集的数据经数据处理模块处理后传送至社交匹配度计算模块来计算乘客之间的社交关系匹配程度。
乘客上下车信息采集模块包括乘客持有的含有其身份信息的双射频识别公交卡,近距阅读器模块、远距阅读器模块、无线通信模块、地理位置信息模块和后台数据库服务器;近距阅读器模块和地理位置信息模块与后台数据库服务器连接,远距阅读器模块通过无线通信模块与后台数据库服务器连接;双射频识别公交卡包括无源近距RFID模块和有源远距RFID模块,近距阅读器模块读取无源近距RFID模块中的数据,远距阅读器模块读取有源远距RFID模块中的数据。
无源近距RFID模块记录公车卡的ID信息及费用信息,用于搭乘公交时余额信息的读取与扣费;有源远距RFID模块包含远距射频芯片、晶振与天线,记录与无源RFID模块相同的公车卡ID号,用于与远距阅读器模块交互。
近距阅读器模块安装于公车前门入口作为刷卡机,乘客上车时,近距阅读器模块对无源近距RFID模块进行信息读取与扣费,读取无源近距RFID模块中包括公交卡号、公交卡余额信息,并将读取到的数据打包发送到后台数据库服务器,数据库服务器在接收到的数据包中加入当前站点编号、线路编号及上车时间后,记录于数据库服务器的数据库中。
远距阅读器模块安装与公车前后门边框上。阅读器天线架设计采用偶极子天线,并布置于公车门边框左右两侧,其工作流程具体如下:
1)公车到站时,车门开启,同时开启远距阅读器模块。模块中的天线架向门口区域发射射频能量。经过车门感应区内的公交卡远距RFID模块接收到天线架发出的能量后被驱动激活,产生具有超高频能量的载波信号,将公交卡ID信息数据调制并载入该载波信号。并反射调制方式完成电子标签载波信号向远距阅读器模块的传送;
2)远距阅读器模块获取公交卡远距RFID模块的载波信号,通过解调,获取公交卡号信息。将信息打包后通过无线通信模块将该信息包返回至后台数据库服务器;
3)数据库服务器在接收到的数据包中加入当前站点编号及线路编号后,比对本趟车发车至今的下车记录中是否有此公车卡号。若有,则将记录更新;若无,则新增加该公交卡号下车条目,记录于本地数据库。车门关闭,关闭远距阅读器模块。
公车到终点站后,将本地数据库中对应公交卡的上下车站点、时间信息发送至站内数据处理模块。
通过上述方法,公交车数据中心获取并记录不同公交卡上下车站点、时间历史数据,数据格式实例如下:
如图2所示,终点站内的数据处理模块获取乘客乘车信息并进行统一形式的数据预处理。其中,单个乘客数据预处理具体步骤如下:
S1:统计时间段t内乘客的上下车站点及其对应的频数,提取出上下车频数最大的前h个站点作为该用户的特征站点,得特征站点F1,F2,…,Fh,其中若乘客在时间间隔Δt内在同一站点先上车后下车,则视该站点为该乘客的中转站,中转站不作为上下车站,予以忽略。
S2:利用地理位置信息模块提取特征站点对应的地理位置经纬度信息;
表1
表T1
本实施例中,某一乘客在时间间隔Δt=1h内在站点B先下车后下车(如表1所示),则视B站点为该乘客的中转站,将中转站前后两站点拼凑为一条信息并刷新纪录获得用户乘车表格T1,统计最近时间段t=6mon内乘客的上下车站点及其对应的频数。如站点A对应频数FA初始值为0,在站点A发生发生一次上车(或下车)事件,该用户的FA值累计加1;
将上述获取到频数(CA、CB、CC…)及其站点进行降序排序,选取F值大的前k个站点作为该用户的特征站点,此处选k=2,得特征站点F1、F2;
通过数据库查询获取特征站点地理位置信息经纬度F1(Lo,La),及F2(L′o,L′a);从表T1中获取F1、F2站点对应的上下车的24小时制时、分数据,单位为时(h)。得F1上下车时间,并按升序排序得上车时间序列(tu1、tu2、tu3…tun)及下车时间序列(td1、td2、td3…tdm),其中n为该乘客于站点F1的上车频数,m为该乘客于站点F1的下车频数;同理,得F2上下车时间,并按升序排序得上车时间序列(t′u1、t′u2、t′u3…t′ul)及下车时间序列(t′d1、t′d2、t′d3…t′dk),其中l为该乘客于站点F2的下车频数,k为该乘客于站点F2的下车频数。
S3:获取特征站点对应的上下车时间序列,通过截尾均值计算获取对应特征站点的上下车特征时间。本实施例中,去各时间掉序列两端各10%部分的数据,计算中间80%数据均值作为特征站点的上下车特征时间,以F1上下车时间序列为例计算如下:
同理可求得Td,T′u及T′d。
S4:将下车特征时间较晚的特征站点作为第一特征站点,其次为第二特征站点,以此类推,得到该乘客乘车特征数据向量:
其中,为乘客乘车特征数据向量;Lok,Lak,Tuk,Tdk分别为第k个特征站点的上车经度、纬度、上车特征时间与下车特征时间。本实施例中,下车特征时间较晚的特征站点作为第一特征站点,其次为第二特征站点。将第一、二特征站点数据排序,得到乘客乘车特征数据向量,定义如下:
对于该乘客,可得其预处理后特征数据向量为
如图3所示,在数据库服务器数据库中抽取S个乘客公交卡对应数据进行如S1-S4的处理得到矩阵对P进一步进行处理,过程如下:
S5:对P进行尺度归一化处理,确保各个分量保持在相同的变化尺度内,得到特征矩阵P'。本实施例中设抽样样本数s>=100000,为将各参数尺度归一,进行行归一化处理如下:
其中,为矩阵第i行最小值,为第i行最大值,得特征矩阵P′。
S6:将训练特征矩阵P′进行聚类分析,设定类别数为k,聚类后得到k个类别中心序列其对应的类别标签为本实施例中,将训练特征矩阵P′进行k-聚类分析,其步骤如下:
根据社交圈匹配精度需求设定K值。此处选取K=1%×s;由于各参数尺度已归一化,可初始化第k个聚类中心为符合高斯分布的随机数为:其值域范围为[0,1];对于分别计算其与各个聚类中心点的距离,将标记为与其距离最小的一类。其中,距离的衡量尺度采用欧氏距离(即误差平方和准则函数)如下:
对于第k类,新的聚类中心将由下式重新计算得到:
其中nk为原有属于第k类的样本个数;计算代价函数:
重复该聚类算法直至代价函数e收敛。e收敛收敛后,得到k个聚类中心设其对应的类别标签序列为
S7:对于一个新的乘客乘车特征数据向量计算与k个类别中心序列的欧氏距离,将的类别标签lt标记为与其欧式距离最小的类别中心点对应的类别标签,并取前z个距离最小的类别最为的最近邻类别;
S8:对应的z个最近邻类别的所有样本集合S={p1,p2,…,pN},计算与S中的所有样本的欧式距离,并将计算的结果按降序排列得到新的样本集合S’;
S9:S’中的一样本的序号为x,则该样本与社交关系度量值为v:其中N为z个最近邻类别的所有样本的个数。本实施例中,新样本分别与k个类别中心序列进行欧式距离的计算,将该新样本类别标签lnew标记为与其欧式距离最小的类别中心点对应的类别标签,并取前z个距离最小的类别最为新样本的最近邻类别。
对于一个新乘客的样本得到对应z个最近邻类别及最近邻类别所有中N个样本集合S={p1,p2,…,pN},其中N为z个最近邻类别的所有样本的个数,而p1,p2,…,pN分别代表这N个样本。计算新样本与S中的所有样本的欧式距离,并将距离按降序排列得到S’。S’中某一样本的序号为x,则该样本与的社交关系度量值为而在S’之外的样本与该新样本社交关系度量值视为0。
实施例2
为说明计算社交关系度量值的方法,给出实例如下:
若新样本对应z=3个最近邻类别,设此3个类别对应样本个数为n1=290,n2=150及n3=359,则总样本数有N=n1+n2+n3=290+150+359=799。计算与对应样本集S={s1,s2,…,sN}的欧式距离,并按照s距离大小重新进行降序排序。假设得到新集合顺序为{s19,s230,…,s3},s230于序列中序列号x=2,则可得
本s230与的社交关系度量值可由计算为:
其中,社交关系度量值越高表示两者关系越密切。
在对应社交账号平台上,系统依据社交账号用户之间的社交关系度量值高低进行相互的社交推荐。其中,社交关系度量值越高的优先匹配推荐。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (3)
1.一种社交匹配数据挖掘系统,该系统用于采集和处理公交乘客上下车信息的数据,其特征在于,包括乘客上下车信息采集模块、数据处理模块和社交匹配度计算模块;所述乘客上下车信息采集模块安装于公车内,数据处理模块和社交匹配度计算模块安装于公车运行线路的终点站或始发站内,公车到达终点站后,乘客上下车信息采集模块采集的数据经数据处理模块处理后传送至社交匹配度计算模块来计算乘客之间的社交关系匹配程度;
所述乘客上下车信息采集模块包括乘客持有的含有其身份信息的双射频识别公交卡,近距阅读器模块、远距阅读器模块、无线通信模块、地理位置信息模块和后台数据库服务器;所述近距阅读器模块和地理位置信息模块与后台数据库服务器连接,远距阅读器模块通过无线通信模块与后台数据库服务器连接;所述双射频识别公交卡包括无源近距RFID模块和有源远距RFID模块,近距阅读器模块读取无源近距RFID模块中的数据,远距阅读器模块读取有源远距RFID模块中的数据;
所述无源近距RFID模块记录公车卡的ID信息及费用信息,用于搭乘公交时余额信息的读取与扣费;有源远距RFID模块包含远距射频芯片、晶振与天线,记录与无源RFID模块相同的公车卡ID号,用于与远距阅读器模块交互;
所述近距阅读器模块安装于公车前门入口作为刷卡机,乘客上车时,近距阅读器模块对无源近距RFID模块进行信息读取与扣费,读取无源近距RFID模块中包括公交卡号、公交卡余额信息,并将读取到的数据打包发送到后台数据库服务器,数据库服务器在接收到的数据包中加入当前站点编号、线路编号及上车时间后,记录于数据库服务器的数据库中;
所述远距阅读器模块安装于公车前门和后门的边框上,该阅读器模块包括偶极子天线,布置于公车门边框左右两侧,乘客下车时,远距阅读器模块中的天线架向门口区域发射射频能量,公交卡内有源远距RFID模块接收到天线架发出的能量后被驱动激活,产生具有超高频能量的载波信号,将公交卡ID信息数据调制并载入该载波信号,并反射调制方式完成电子标签载波信号向远距阅读器模块的传送;远距阅读器模块获取公交卡远距RFID模块的载波信号,通过解调,获取公交卡信息,并将该信息打包后通过无线通信模块发送至后台数据库服务器;数据库服务器在接收到的数据包中加入当前站点编号、线路编号及下车时间后,记录于数据库服务器的数据库中;数据库服务器比对本趟车发车至当前站点的下车记录中是否有此公车卡,若有,则将记录更新;若无,则新增加该公交卡的下车条目,记录于数据库服务器的数据库中。
2.根据权利要求1所述的社交匹配数据挖掘系统,其特征在于,所述数据处理模块对数据库服务器数据库中的任一乘客公交卡对应数据的处理过程如下:
S1:统计时间段t内乘客的上下车站点及其对应的频数,提取出上下车频数最大的前h个站点作为该乘客的特征站点,得特征站点F1,F2,…,Fh,其中若乘客在时间间隔Δt内在同一站点先上车后下车,则视该站点为该乘客的中转站,中转站不作为上下车站,予以忽略;
S2:利用地理位置信息模块提取特征站点对应的地理位置经纬度信息;
S3:获取特征站点对应的上下车时间序列,通过截尾均值计算获取对应特征站点的上下车特征时间;
S4:将下车特征时间较晚的特征站点作为第一特征站点,其次为第二特征站点,以此类推,得到该乘客乘车特征数据向量:
其中,为乘客乘车特征数据向量;Loh,Lah,Tuh,Tdh分别为第h个特征站点的上车经度、纬度、上车特征时间与下车特征时间。
3.根据权利要求2所述的社交匹配数据挖掘系统,其特征在于,在数据库服务器数据库中抽取S个乘客公交卡对应数据进行如S1-S4的处理得到矩阵对P进一步进行处理,过程如下:
S5:对P进行尺度归一化处理,确保各个分量保持在相同的变化尺度内,得到特征矩阵P':
S7:将特征矩阵P'进行聚类分析,设定类别数为k,聚类后得到k个类别中心序列其对应的类别标签为[l1,l2,…,lk];
S8:对于一个新的乘客乘车特征数据向量计算与k个类别中心序列的欧氏距离,将的类别标签lt标记为与其欧式距离最小的类别中心点对应的类别标签,并取前z个距离最小的类别为最近邻类别;
S9:对应的z个最近邻类别的所有样本集合S0={p1,p2,…,pN},计算与S0中的所有样本的欧式距离,并将计算的结果按降序排列得到新的样本集合S’;
S10:S’中的一样本的序号为x,则该样本与社交关系度量值为v:其中N为z个最近邻类别的所有样本的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410851735.5A CN104598543B (zh) | 2014-11-28 | 2014-12-29 | 一种社交匹配数据挖掘系统 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2014107100176 | 2014-11-28 | ||
CN201410710017 | 2014-11-28 | ||
CN201410851735.5A CN104598543B (zh) | 2014-11-28 | 2014-12-29 | 一种社交匹配数据挖掘系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598543A CN104598543A (zh) | 2015-05-06 |
CN104598543B true CN104598543B (zh) | 2018-12-14 |
Family
ID=53124328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410851735.5A Active CN104598543B (zh) | 2014-11-28 | 2014-12-29 | 一种社交匹配数据挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598543B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918917A (zh) * | 2017-10-13 | 2018-04-17 | 东软集团股份有限公司 | 社交分析方法及装置、存储介质、电子设备 |
CN107862089B (zh) * | 2017-12-02 | 2020-03-13 | 北京工业大学 | 一种基于感知数据的标签提取方法 |
JP6662934B2 (ja) * | 2018-03-07 | 2020-03-11 | 本田技研工業株式会社 | 判定装置、判定システム及び判定方法 |
CN108763466B (zh) * | 2018-05-29 | 2021-08-31 | 武汉大学 | 基于位置实体的跨媒体用户身份匹配方法 |
CN109872242B (zh) * | 2019-01-30 | 2020-10-13 | 北京字节跳动网络技术有限公司 | 信息推送方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334288A (zh) * | 2008-08-07 | 2008-12-31 | 北京工业大学 | 基于标准线路匹配的公交准确定位方法 |
CN101615207A (zh) * | 2009-07-10 | 2009-12-30 | 重庆大学 | 一种获取公交ic卡持卡乘客上车站点的方法 |
CN101763721A (zh) * | 2009-12-25 | 2010-06-30 | 北京工业大学 | 公交动态信息采集处理及无线传输方法 |
CN102902689A (zh) * | 2011-07-26 | 2013-01-30 | 肖昆 | 基于出行线路几何特征的匹配方法及系统在社交网络中的应用 |
-
2014
- 2014-12-29 CN CN201410851735.5A patent/CN104598543B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334288A (zh) * | 2008-08-07 | 2008-12-31 | 北京工业大学 | 基于标准线路匹配的公交准确定位方法 |
CN101615207A (zh) * | 2009-07-10 | 2009-12-30 | 重庆大学 | 一种获取公交ic卡持卡乘客上车站点的方法 |
CN101763721A (zh) * | 2009-12-25 | 2010-06-30 | 北京工业大学 | 公交动态信息采集处理及无线传输方法 |
CN102902689A (zh) * | 2011-07-26 | 2013-01-30 | 肖昆 | 基于出行线路几何特征的匹配方法及系统在社交网络中的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN104598543A (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598543B (zh) | 一种社交匹配数据挖掘系统 | |
CN111310994B (zh) | 一种基于数据校准的公交路线预测方法及系统 | |
CN103700174B (zh) | 一种基于wifi身份识别的公交客流数据采集及od分析方法 | |
CN105185105B (zh) | 基于车辆gps和公交ic卡数据的公交换乘识别方法 | |
US20210004731A1 (en) | Ticketing method and system | |
CN106919953B (zh) | 一种基于轨道交通数据分析的异常出行群体识别方法 | |
Huang et al. | A method for bus OD matrix estimation using multisource data | |
CN111311467A (zh) | 一种基于人脸识别的公交路线预测方法及系统 | |
JP6464737B2 (ja) | 見込み客位置情報検出システム、方法およびプログラム | |
CN107845260B (zh) | 一种用户公交出行方式的识别方法 | |
CN106448173B (zh) | 一种基于手机数据的长距离出行交通方式划分方法 | |
CN109829072A (zh) | 构建图谱方法及相关装置 | |
CN109584555A (zh) | 基于afc数据的公交乘客下车站点推测方法 | |
Burkhard et al. | On the requirements on spatial accuracy and sampling rate for transport mode detection in view of a shift to passive signalling data | |
CN112511982B (zh) | 一种出行语义自动标注的地铁乘客轨迹实时追溯还原方法 | |
CN109903553A (zh) | 多源数据挖掘的公交车上下车站点识别和检验方法 | |
CN111046937A (zh) | 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 | |
CN103971432B (zh) | 一种基于rfid的公交站点客流量计数方法 | |
Lu et al. | Smartphone sensing meets transport data: A collaborative framework for transportation service analytics | |
CN111027929A (zh) | 地铁票务清分方法及装置 | |
CN205608812U (zh) | 基于人脸识别和位置定位的公交客流量检测系统 | |
CN116386305A (zh) | 基于信息反馈的乘车方法 | |
US20120022717A1 (en) | Taxi user extraction device, taxi user extraction method, transportation user extraction device, and transportation user extraction method | |
Stenneth et al. | Automated transportation transfer detection using GPS enabled smartphones | |
CN106570182A (zh) | 公交车辆下车站点识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |