CN112270460B - 一种基于多源数据的超重货车货源站点识别方法 - Google Patents

一种基于多源数据的超重货车货源站点识别方法 Download PDF

Info

Publication number
CN112270460B
CN112270460B CN202011060984.4A CN202011060984A CN112270460B CN 112270460 B CN112270460 B CN 112270460B CN 202011060984 A CN202011060984 A CN 202011060984A CN 112270460 B CN112270460 B CN 112270460B
Authority
CN
China
Prior art keywords
truck
overweight
data
risk
mileage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011060984.4A
Other languages
English (en)
Other versions
CN112270460A (zh
Inventor
章稷修
张新虎
陈琨
李轶舜
林荣杰
刘哲
徐志远
耿守军
王英平
李柏丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transport Planning And Research Institute Ministry Of Transport
Original Assignee
Transport Planning And Research Institute Ministry Of Transport
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Transport Planning And Research Institute Ministry Of Transport filed Critical Transport Planning And Research Institute Ministry Of Transport
Priority to CN202011060984.4A priority Critical patent/CN112270460B/zh
Publication of CN112270460A publication Critical patent/CN112270460A/zh
Application granted granted Critical
Publication of CN112270460B publication Critical patent/CN112270460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/38Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
    • G01S19/39Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/42Determining position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Traffic Control Systems (AREA)
  • Time Recorders, Dirve Recorders, Access Control (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多源数据的超重货车货源站点识别方法,用于超重货车非法货源站点识别。主要的步骤包括数据获取及预处理、货车超重风险画像、货车超重风险判别以及非法货源站点识别4个部分。主要的工作包括:首先,采集货车超重检测历史数据和车辆GPS数据并进行数据清洗。其次,选取单位行驶里程的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次为关键指标,对货车超重风险进行刻画。然后,采用Fisher法判别货车超重风险,将高超重风险车辆划入黑名单,重点监管其车辆运行轨迹。最后,基于GPS数据完整再现车辆全链条的运行轨迹,通过识别停留点进行非法货源站点识别。本发明提高了数据的利用效率,实现非法货源地的数字化识别,推动传统治超向科技治超的转变。

Description

一种基于多源数据的超重货车货源站点识别方法
技术领域
本发明涉及一种基于多源数据的超重货车货源站点识别方法,用于超重货车货源站点识别,属于交通运输数据挖掘应用领域。
背景技术
超限运输指货运车辆超过公路基础设施限定标准和车辆核定载质量的运输行为,运输过程安全风险极大。随着我国货运车辆保有量的持续攀升,超限运输已成为困扰我国公路交通健康发展的突出问题。
随着我国公路基础设施不断完善、现代信息化处理技术不断提升,为改善治超工作的发展提供了契机。公路卡口数据、货车GPS数据以及卫星监测数据作为格式统一、准确度高、时效性强的交通数据源,能够完整再现货车全链条的行车轨迹,发现超限货车的货源地,实现非法货源地的识别,推动传统治超向科技治超的转变。
专利201910809182.X公开了一种多源数据地图网格化及数据状态实时推送系统,系统主要包括服务发现与注册模块、网关模块、多源数据模块。多源数据模块和网关模块注册到服务发现与注册模块,所有外部请求先通过网关模块,由网关模块进行各个微服务实例的转发调用。多源数据模块主要功能包括汇聚多源数据到数据库;对多源数据进行不同地图层级下的聚合计算实现网格化,维护聚合点位的聚合信息;推送变化的数据到消息中间件供外部程序实时订阅,同步增量更新数据库中的数据信息;封装业务应用HTTP协议接口供外部程序调用等。主要用于解决万级及以上规模的多元化大数据量图层在地图上的实时展示及数据状态实时同步更新。
发明内容
为了缓解我过日益严峻的非法超限运输形势,本发明基于海量多源货车运营数据,提取累计超重量、单位行驶里程违法超重次数、单位行驶里程单程空载次数,采用AGENS算法对货车超重风险进行刻画,在此基础上,将超重风险高的车辆记入黑名单重点监测其运行轨迹,识别停留点,最终实现非法货源站点的识别。与传统货车治超技术相比,本发明基于海量多源数据,实现了对货车超重风险的精准刻画,使货车超重监管具有靶向性、精准性;同时,采用Fisher判别函数对新样本车辆的超重风险等级进行判定;最后,基于GPS数据实现了非法货源站点的识别,实现非法货源地的数字化识别,推进了源头治超的技术发展水平。
本发明采用的技术方案为一种基于多源数据的超重货车货源站点识别方法,该方法具体包括如下步骤:
步骤1,获取源数据
步骤1.1,货车超重历史数据获取
公路科技治超总目标是实现“全过程记录、全业务上线、全路网监控、全链条管理、全方位服务”。各省市均相应国家号召,建立了治超协同监管信息化平台,实现了治超全过程记录,对超重违法事件进行了全过程的留痕和可回溯管理,基于各省市治超协同监管平台超重行为历史数据库,提取货车车辆超重超限违法事件数,为货车超重风险指标计算奠定数据支撑。
步骤1.2,货车车辆GPS数据
通过车辆搭载的GPS定位设备获取货车原始GPS数据,原始数据包括车辆编号、经纬度、时间、速度、方位角、高度、里程、GPS状态数据字段。具体数据字段如表1所示。
表1货车车辆GPS数据字段说明
字段名 数据类型 示例 备注
车辆编号 varchar 1B901D**** 车辆唯一编号
经度 numeric 114157896 以度为单位的维度值乘以10的6次方,精确到百万分之一度
维度 numeric 22655884 以度为单位的维度值乘以10的6次方,精确到百万分之一度
GPS时间 timestamp 18-1-413:34:18 2018/1/413:34:18
速度 int 45 单位:km/h
方向角 int 170 0~359,正北为零,顺时针方向
高度 int 0 海拔高度,单位:米
GPS状态 int 1 0:未定位,1:3D定位
里程数 int 341643 单位:0.1km
步骤2,源数据清洗
运用python+文本形式,设计源数据清洗规则,提高数据质量。数据清洗的内容包括:填补数据中的缺失值;识别数据中的异常值和冗余数据;结合数据关联匹配要求,将GPS数据各个字段转换成相应格式。
步骤2.1,数据缺失值的操作。引入python中的数据处理模块对GPS数据进行清洗,删除缺少属性值的文本文件,保证属性的完整性。
步骤2.2,数据异常值的操作。数据异常值包括GPS坐标点经纬度异常数据,里程数据异常数据以及上传时间异常数据。
1)经纬度数据异常数据主要包括两个方面,首先是删除货车车辆GPS坐标点为0的异常数据;其次剔除货车车辆GPS坐标点异常偏移数据。
2)里程异常数据处理,首先遍历所有货车车辆当日的GPS数据,统计车辆日行驶里程累计分布图,确定车辆当日行驶里程的过大值点和过小值点。最后,剔除当日行驶里程过大或者过小的出行记录。
3)上传时间异常数据是指上传时间先后顺序错乱,通过计算相邻上传点之间的时间差,剔除相邻上传时间差值为零或者小于零的数据。
步骤2.3,冗余数据的操作。冗余数据主要是指重复上传的数据,以车辆为单位,遍历车辆的GPS数据,对于重复上传的数据进行剔除。
步骤2.4,数据的关联匹配。车辆车牌号是GPS数据与历史治超数据关联匹配的唯一识别码,遍历车辆GPS数据和治超数据库中历史数据,将VEH_NO数据字段和治超数据库中历史数据中的车牌照字段统一设置为Varchar格式,便于两者之间的关联匹配。在此基础上,基于Python中pandas模块的merge函数实现多源数据之间的关联匹配,技术手段已经非常成熟,在此不再赘述详细过程。
步骤3,货车超限风险画像
步骤3.1,货车超重信息的关键变量提取
根据货车车辆历史货运出行信息,提取货车超重风险关键变量信息:统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次3个特定变量。首先,以违法超限检测历史数据为基础,以货车车牌号为唯一识别码,统计时段T内该货车的累计超重量、违法超重次数以及单程空载频次(单次空载可能会存在货车超限绕路行为)。其次,以车辆GPS数据为基础,计算统计期内该货车的累计行驶总里程。最后,以车辆为对象,以车牌号为唯一识别码,计算上述货车超重信息的关键变量指标。具体步骤如下:
步骤3.1.1,统计时段T内货车车辆的累计超重量、违法超重次数和单程空载次数。
以违法超限历史检测数据为基础,以货车车牌号为唯一识别码,对统计在册的各辆货车统计时段T内的累计超重量、违法超重频次、单程空载频次进行累加。得到统计时段T内货车车辆的累计超限量、单位行驶里程的违法超重次数和单位行驶里程单程空载次数。
步骤3.1.2,统计时段T内每辆货车的总行驶里程
货车GPS数据中可以提取货车的里程信息,通过步骤2.4中的关联匹配结果,以货车车辆车牌号为唯一识别码,累加每辆车统计时段T内的行驶里程。
步骤3.1.3,基于步骤3.1.1中得到的统计时段T内每辆车累计超重量、违法超重次数和单程空载次数和步骤3.1.2中得到每辆车统计时段T内的总行驶里程,以车辆车牌号为唯一识别码,两者相除,得到车辆统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次。
步骤3.2,货车超重风险画像
本步骤中货车超重风险的聚类,目标是对每一辆货车超重风险等级进行刻画,采用层次聚类算法AGNES算法,把货车统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次三维数据作为聚类对象进行聚类。具体步骤如下:
(1)首先,确定样本集。以省或市为单位,统计该辖区内所有货车车辆,确定输入样本集U={(NTM1,LOM1,SLM1),(NTM2,LOM2,SLM2),……(NTMn,LOMn,SLMn)}。其中NTMi,LOMi,SLMi分别表征货车车辆i统计时段内的累计超限量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次。
(2)其次,确定聚类距离函数。
AGENS是一种自底向上聚合策略的层次聚类算法。它先将数据集中的每一个样本看作一个初始聚类,然后在算法运行的每一步找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇的个数,算法的关键是确定聚类簇之间的距离,给定聚类簇Ci,Cj,可以通过下面函数计算。
m=(NTMm,LOMm,SLMm) (2)
n=(NTMn,LOMn,SLMn) (3)
其中,Ci,Cj分别表示某样本簇,|Ci|,|Cj|分别代表样本簇Ci,Cj的个数,m,n分别代表簇Ci,Cj中的某个样本,NTMm,LOMm,SLMm分别表征货车车辆m统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次,dist(m,n)表示两个样本之间的距离。
(3)然后,确定聚类数量NUM。
比较AGENS算法计算的各个样本簇之间的平均距离,基于簇合并原则不断合并簇,更新形成新的簇。当聚类数量达到预设的聚类数时,无需据需进行聚类,聚类终止。在对货车超重风险进行等级划分时,采用五级李克特量表形式表征货车风险等级,分为低超重风险、较低超重风险、一般超重风险、较高超重风险和高超重风险。
步骤3.3,货车超重风险等级划分
基于上述聚类结果,划分货车超重风险等级。分析货车的信用信息,输入低信用(高风险)的货车,记入货车违法超载、超限黑名单。货车超重风险等级划分如表2所示。
表2货车超重风险等级
簇(1) 簇(2) 簇(3) 簇(4) 簇(5)
风险等级 低超重风险 较低风险超重 一般风险 较高超重风险 高超重风险
步骤4,货车超重风险判别
步骤3中基于历史数据对货车超重风险进行了刻画,这一步骤引入Fisher判别函数,直接基于指标值对新样本车辆的超重风险进行判别,该步骤的目的是将多维度问题降维,实现新样本车辆基于关键风险指标直接判别超重风险等级的目的。具体步骤如下:
S401:确定样本参数。以步骤3中确定完成风险等级的车辆和需要判别货车风险等级的车辆共同构成样本集。
S402:确定典型判别函数,判定新样本车辆超重风险等级。利用SPSS软件对样本集合进行判别分析。判别函数如下:
y=b1x1+b2x2+b3x3 (5)
式中,b1,b2,b3表示判别系数,xi表示自变量指标,y是样本在低维空间中的某个维度。
S403:判别函数有效性和精准度分析。
步骤5,将高超重风险的货车纳入监管黑名单,基于其GPS数据重点监管其运行轨迹,追溯其货源站点并进行重点整治。主要分为以下步骤,确定货车监管黑名单、货车停留点识别、停留点类型识别、货车货源站点识别。具体操作如下:
步骤5.1,货车监管黑名单;
基于货车风险等级划分结果,将一般风险、较高超重风险和高超重风险的车辆纳入货车监管黑名单,重点监控这些车辆的运行轨迹。
步骤5.2,停留点识别;
一般来说,货车的大部分时间是处于停驻状态的,如何识别货车停留点是判断货源站点的基础,根据货车GPS数据的特点,将货车停留点定义为在一定时间范围内停留的区域。货车停留点识别的具体步骤如下:
S501地图匹配。以货车超重等级划分结果为依据,以超重风险等级高的货车为对象,将该车清洗完成的GPS数据匹配到路网上。具体匹配技术流程研究已较为成熟,在此不再赘述。
S502疑似停留点识别。基于该车辆的GPS轨迹数据,速度等于0或者低于预设速度阈值(Vmax)且位置偏离正常行驶道路的GPS点集记为疑似停留点,则该时段车辆处于疑似停留状态,疑似停留点集所在区域为货车疑似停留位置。
S503设定距离阈值和时间阈值,判定货车停留点。设定距离阈值dmax和时间阈值tmax,通过dmax和tmax判断所述疑似停留点数据集合中的各疑似停留点,从中识别出停留点和行驶点,其中停留点标记为0,行驶点标记为1。利用简单密度聚类方法计算各个停留区域点集的平均经纬度坐标为中心点,并将中心点的坐标作为货车的停留点位置,具体计算技术已经较为成熟,在此不再赘述。
步骤5.3货车货源站点识别;
分析所有货车的停留点,将所有停留点位置坐标在ARCGIS地图中可视化,货运车辆停留点位置分布密度越高,越能表明该节点或区域承担了较强的货运物流职能,或是作为专门的货车停车场地,或是作为货物转载运输主要的发生区域。
本发明所述的一种基于多源数据的超重货车货源站点识别方法中,海量多源数据包括历史治超数据,车载GPS数据,结合需求对上述数据进行了预处理;货车超重风险刻画过程中,引入货车车辆统计时段内的累计超重量、单位行驶里程超重频次和单位行驶里程单程空载频次为关键变量信息,创新性的采用AGENS算法实现了对货车超重风险的分级,将高超重风险的车辆纳入监管黑名单,首次使得货车超重治理具有靶向性,避免了全样本货车轨迹监测造成人力、物力的浪费。针对新样本货车车辆超重风险判别过程,本发明引入Fisher建立判别函数,实现了新样本车辆超重风险等级基于关键变量的直接判定。停留点识别技术中,首次采用距离阈值dmax和时间阈值tmax对停留点类型进行区分,排除服务区、抛锚等干扰停留点,准确识别出货车货源站点。
由于本发明实现了对货车超重风险的刻画,可以重点监测高超重风险车辆的运行轨迹,使得基于海量数据的非法货源站点识别精度大大提高,快速推进了传统治超向科技治超的转变。
附图说明
图1一种基于多源数据的超重货车货源站点识别方法具体实施方案流程图;
具体实施方案
本实施例具体应用于货车超重监管领域,以北京市周边省市历史治超数据为基础,对本发明做进一步说明。该方法举例包括如下步骤,技术流程图如图1所示。
步骤1,获取源数据;
步骤1.1,货车超重历史数据获取;
基于全国治超平台,以货车车牌号为唯一识别码,整理提取2019年北京市周边治超检测站历史数据,货车车辆累计超限量、违法超重频次和单程空载频次、车牌号等基本信息。数据样例如下表3所示。
表3货车超重历史统计样例
步骤1.2,货车车载GPS数据;
通过车辆搭载的GPS定位设备获取货车的原始GPS数据,提取北京市周边登记在册货车原始GPS数据,如表4所示。
表4货车GPS数据样例
车辆编码 经度 维度 GPS时间 速度 方向角 高度 状态 里程数
1B90****** 1167356660 3911923900 19-1-413:04:10 46 210 0 1 341643
1B90****** 1163689884 4000154134 19-1-413:09:10 53 213 0 1 110232
1B90****** 1163525586 4000102892 19-1-413:14:02 59 201 0 1 72212
1B90****** 1163390400 4000068007 19-1-413:14:32 62 211 0 1 212323
1B90****** 1163390329 4000067410 19-1-413:14:56 69 221 0 1 271212
1B90****** 1163525692 4000103136 19-1-413:15:26 79 242 0 1 420012
1B90****** 1163689895 4000154080 19-1-413:16:56 81 231 0 1 92022
1B90****** 1163917212 4000221002 19-1-413:17:26 46 261 0 1 73721
1B90****** 1164078879 4000266466 19-1-413:17:56 53 215 0 1 192211
…… …… …… …… …… …… …… …… ……
1B90****** 1164693959 3999842584 19-1-413:18:26 81 212 0 1 22131
1B90****** 1141578960 2265588400 18-1-413:18:56 45 201 0 1 121213
步骤2,源数据清洗;
运用python+文本形式,设计源数据清洗及预处理规则,提高数据质量,方便后续货车超重风险等级刻画。依据数据清洗规则,将纳入的所有车载GPS数据按照车辆的唯一标识(车辆编号)进行分组,将同一车牌所有数据整合,将每辆车的GPS数据按照时间顺序先后排列,按照上述数据清洗规则对各组数据依次处理。主要内容包括;数据缺失值处理、数据异常值清洗、数据冗余值清洗。
其次,要进行多源数据之间的关联匹配,重点在于货车超重历史数据和车载GPS数据的关联匹配。目的是在识别货车风险等级之后,对归入超重风险黑名单的车辆重点监控运行轨迹,实现非法超重货源站点的识别。处理完成的数据如表5所示。
表5数据清洗结果样例
步骤3,货车超限风险聚类
步骤3.1,货车超重信息的关键变量提取
根据货车车辆历史货运出行信息,提取货车行驶过程中的关键变量信息,统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次3个特定变量。数据处理结果如表6所示。NTM,LOM,SLM分别代表统计时段内的累计超重量、单位行驶里程违法超重频次和单位行驶里程违法空载频次。
表6货车车辆超重风险变量提取结果
车辆编号 车牌号 NTM单位:(t) LOM单位:(n) SLM单位:(n)
1B90****** 冀HR5*** 38.8 25 27
1B90****** 冀AMS*** 28.35 22 18
1B90****** 冀HU8*** 138.792 18 21
1B90****** 鲁HR3*** 20.45 17 19
…… …… …… …… ……
1B90****** 冀RD6*** 19.4 16 21
步骤3.2,货车超重风险画像
本步骤中货车超重风险的聚类,目标是对每一辆货车超重风险等级进行刻画,采用层次聚类算法AGNES算法,把货车车辆统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次三维数据作为聚类对象进行聚类。按照低超重风险、较低超重风险、一般超重风险、较高超重风险和高超重风险将风险等级分为5类,因此将NUM设置为5。基于北京市周边省市超重检测站,抽取2137货车车辆,整合其2019年超重历史数据,处理为上述表6样式,输入模型中,计算模型输入值,如表7所示,UNTM、ULOM、USLM分别表示货车累计超载量、货车万里程违法超重频次和货车万公里单程空载频次。最后代入模型计算聚类结果,如表7所示,最后一列ORL(Overweight Risk Level)为聚类结果,标志着车辆的超重风险等级。
表7货车车辆超重风险聚类结果数据样例
车辆编号 车牌号 UNTM单位:(t) ULOM单位:(n) USLM单位:(n) ORL
1B90****** 冀HR5*** 1.136 0.732 0.790 3
1B90****** 冀AMS*** 1.325 1.029 0.842 4
1B90****** 冀HU8*** 3.731 0.484 0.564 3
1B90****** 鲁HR3*** 0.498 0.414 0.462 2
…… …… …… …… …… ……
1B90****** 冀RD6*** 1.595 1.315 1.726 5
步骤3.3,货车超重风险等级划分
基于上述聚类结果,划分货车超重风险等级。由于货车的NTM、LOM和SLM越大,货车超重风险越高,因此划分货车风险结果如表8所示。
表8货车超重风险等级划分
ORL=1 ORL=2 ORL=3 ORL=4 ORL=5
风险等级 低超重风险 较低风险超重 一般风险 较高超重风险 高超重风险
步骤4,货车超重风险判别
步骤3中基于历史数据对货车超重风险进行了刻画,进一步引入Fisher判别函数,实现针对新样本基于关键指标直接刻画超重风险等级的目的。选取三个风险识别关键指标为判别变量,选取风险等级为类别变量,建立判别函数,分析每辆车的风险强度,实现对新样本车辆的风险评估。具体判别函数如下:
y=b1UNTM+b2ULOM+b3USLM (6)
式中,b1,b2,b3表示判别系数,y是样本在低维空间中的某个维度。
本实例中随机选取50辆未确定风险等级的车辆,与步骤3中聚类样本共同确定为样本集,引入Fisher判别函数,采用SPSS软件判定新样本车辆风险等级。
结果显示,新样本分类精度达到90%以上。表明Fisher判别函数精度较高。
步骤5,基于超重风险等级划分结果,将一般风险、较高超重风险和高超重风险的车辆纳入重点监管黑名单,对其GPS轨迹数据进行重点监控,追溯其货源站点并进行重点整治。主要分为以下步骤:确定货车监管黑名单、货车停留点识别、货车货源站点识别。具体操作如下:
步骤5.1,货车监管黑名单
基于货车风险等级划分结果,将一般风险、较高超重风险和高超重风险的货车纳入监管黑名单,基于GPS数据重点监控这些车辆的运行轨迹,追溯其货源站点。
步骤5.2,停留点识别
一般来说,货车的大部分时间是处于停驻状态的,如何识别货车停留点是判断货源站点的基础,根据货车GPS数据的特点,将货车停留点定义为在一定时间范围内停留的区域。货车停留点识别的具体步骤如下:
S501地图匹配。以货车超重等级划分结果为依据,以超重风险等级高的货车为对象,将该车清洗完成的GPS数据匹配到路网上。具体匹配技术流程研究已较为成熟,在此不再赘述。
S502疑似停留点识别。将速度Vmax设置为15km/h,若CPS轨迹数据显示车辆速度处于0~10km/h范围内时标记为疑似停留点,该坐标点标记为0。距离阈值dmax设置为500m,若GPS轨迹数据显示车辆位置距离道路网大于500m时,标记为货源站点疑似停留点。停留点标记为1。
S503确定停留点坐标。利用简单密度聚类方法计算各个停留区域点集的平均经纬度坐标为中心点,并将中心点的坐标作为货车的停留点位置,具体计算技术已经较为成熟,在此不再赘述。
步骤5.3货车货源站点识别
分析所有货车的停留点,将所有停留点位置坐标在ARCGIS地图中可视化,货运车辆停留点位置分布密度越高,越能表明该节点或区域承担了较强的货运物流职能,或是作为专门的货车停车场地,或是作为货物转载运输主要的发生区域。
本说明书中未作详细证明和描述的内容属于本领域专业技术人员公知的现有技术。
以上对本发明的实施方式进行了详细描述,但是本发明并不局限于上述实施方式中的具体细节,上述实例只是用于帮助理解本发明的方法及思想。在本发明的技术构思范围中,可以对本发明的技术方案进行多种简单变形,这些简单变形均属于本发明的保护范围。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于多源数据的超重货车货源站点识别方法,其特征在于:该方法包括以下步骤,
步骤1,获取源数据;
步骤2,源数据清洗;
运用python+文本形式,设计源数据清洗规则,数据清洗的内容包括:填补数据中的缺失值;识别数据中的异常值和冗余数据;结合数据关联匹配要求,将GPS数据各个字段转换成相应格式;
步骤3,货车车辆超限风险画像;
步骤3.1,货车车辆超重信息的关键变量提取;
根据货车车辆历史货运出行信息,提取货车车辆行驶过程中的关键变量信息,单位行驶里程的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次3个特定变量;首先,以违法超限检测历史数据为基础,以货车车牌号为唯一识别码,统计时段T内货车车辆的累计超重量、违法超重次数以及单程空载频次;其次,以货车车辆GPS数据为基础,计算统计期内该货车车辆的累计行驶总里程;最后,以货车车辆为对象,以车牌号为唯一识别码,计算货车车辆超重信息的关键变量指标;
步骤3.2,货车超重风险画像
货车车辆超重风险的聚类,目标是对每一辆货车车辆超重风险等级进行刻画,采用层次聚类算法AGNES算法,把货车车辆统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次三维数据作为聚类对象进行聚类;
步骤3.3,货车车辆超重风险等级划分;
基于聚类数量NUM的聚类结果,划分货车车辆的超重风险等级;分析货车车辆的超重风险等级,输入高超重风险的货车车辆,记入货车车辆违法超载、超限黑名单;
步骤4,货车超重风险判别;
步骤3中基于历史数据对货车车辆超重风险进行刻画,引入Fisher判别函数,直接基于指标值对新样本货车车辆的超重风险进行判别,将多维度问题降维,实现新样本车辆基于关键超重风险指标直接判别超重风险等级的目的;具体步骤如下:
S401:确定样本参数;以步骤3中确定完成风险等级的车辆和需要判别货车风险等级的车辆共同构成样本集;
S402:确定典型判别函数,判定新样本货车车辆超重风险等级;利用SPSS软件对样本集合进行判别分析;判别函数如下:
y=b1x1+b2x2+b3x3
式中,b1,b2,b3表示判别系数,x1、x2、x3表示自变量指标,y是样本在低维空间中的某个维度;
S403:判别函数有效性和精准度分析;
步骤5,将高超重风险的货车车辆纳入监管黑名单,基于其GPS数据重点监管其运行轨迹,追溯其货源站点并进行重点整治;分为以下步骤,确定货车车辆监管黑名单、货车车辆停留点识别、停留点类型划分、货车车辆货源站点识别;具体操作如下:
步骤5.1,货车监管黑名单;
基于货车车辆风险等级划分结果,将一般风险、较高超重风险和高超重风险的车辆纳入货车监管黑名单,重点监控这些货车车辆的运行轨迹;
步骤5.2,停留点识别
根据货车车辆的GPS数据特点,将货车车辆停留点定义为在一定时间范围内停留的区域;货车车辆停留点识别的具体步骤如下:
S501地图匹配;以货车车辆超重等级划分结果为依据,以超重风险等级高的货车车辆为对象,将货车车辆清洗完成的GPS数据匹配到路网上;
S502疑似停留点识别;基于货车车辆的GPS轨迹数据,速度等于0或者低于预设速度阈值Vmax且位置偏离正常行驶道路的GPS点集记为疑似停留点,则该时段货车车辆处于疑似停留状态,疑似停留点集所在区域为货车车辆疑似停留位置;
S503设定距离阈值和时间阈值,判定货车车辆的停留点;设定距离阈值dmax和时间阈值tmax,通过dmax和tmax判断所述疑似停留点数据集合中的各疑似停留点,从中识别出停留点和行驶点,其中停留点标记为0,行驶点标记为1;利用密度聚类方法计算各个停留区域点集的平均经纬度坐标为中心点,并将中心点的坐标作为货车车辆的停留点位置;
步骤5.3货车货源站点识别;
分析所有货车车辆的停留点,将所有停留点位置坐标在ARCGIS地图中可视化。
2.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,选取单位行驶里程的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次为关键指标,引入AGNES算法对货车车辆的超重风险进行刻画。
3.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,基于货车车辆超重风险刻画结果,引入Fisher判别函数,完成对新样本货车车辆的超重风险进行判别。
4.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,根据货车超重风险等级,将货车一般超重风险、较高超重风险、高超重风险车辆划入超重监管黑名单,基于GPS数据完整再现监管车辆全链条的运行轨迹,依据距离阈值和时间阈值,识别停留点;分析所有货车车辆的停留点,将所有停留点位置坐标在ARCGIS地图中可视化,货运车辆停留点位置分布密度越高,越能表明该停留点或区域承担货运物流职能了越强,或是作为专门的货车停车场地,或是作为货物转载运输发生区域。
5.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,步骤1.1,货车超重历史数据获取;
步骤1.2,货车车辆GPS数据;通过货车车辆搭载的GPS定位设备获取货车原始GPS数据,原始数据包括车辆编号、经纬度、时间、速度、方位角、高度、里程、GPS状态数据字段。
6.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,步骤2包括如下技术步骤,步骤2.1,数据缺失值的操作;引入python中的数据处理模块对GPS数据进行清洗,删除缺少属性值的文本文件,保证文本文件属性值的完整性;
步骤2.2,数据异常值的操作;数据异常值包括GPS坐标点经纬度异常数据、里程数据异常数据以及上传时间异常数据;
1)经纬度数据异常数据包括两个方面,首先是删除货车车辆GPS坐标点为0的异常数据;其次剔除货车车辆GPS坐标点异常偏移数据;
2)里程异常数据处理,首先遍历所有货车车辆当日的GPS数据,统计货车车辆日行驶里程累计分布图,确定货车车辆当日行驶里程的过大值点和过小值点;最后,剔除当日行驶里程过大或者过小的出行记录;
3)上传时间异常数据是指上传时间先后顺序错乱,通过计算相邻上传点之间的时间差,剔除相邻上传时间差值为零或者小于零的数据;
步骤2.3,冗余数据的操作;冗余数据指重复上传的数据,以货车车辆为单位,遍历车辆的GPS数据,对于重复上传的数据进行剔除;
步骤2.4,数据的关联匹配;货车车辆车牌号是GPS数据与历史治超数据关联匹配的唯一识别码,遍历货车车辆GPS数据和治超数据库中历史数据,将VEH_NO数据字段和治超数据库中历史数据中的车牌照字段统一设置为Varchar格式,便于关联匹配,基于Python中pandas模块的merge函数实现多源数据之间的关联匹配。
7.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,步骤3.1的具体步骤如下:
步骤3.1.1,统计时段T内货车车辆的累计超重量、违法超重次数和单程空载次数;
以违法超限历史检测数据为基础,以货车车辆车牌号为唯一识别码,对统计在册的各货车车辆统计时段T内的超重量、违法超重频次、单程空载频次进行累加;得到统计时段T内货车车辆的累计超重量、违法超重次数和单程空载次数;
步骤3.1.2,统计时段T内各货车车辆的总行驶里程
货车GPS数据中提取货车的里程信息,通过关联匹配结果,以货车车辆车牌号为唯一识别码,累加每辆车统计时段T内的行驶里程;
步骤3.1.3,基于步骤3.1.1中得到的统计时段T内每辆车累计超重量、违法超重次数和单程空载次数和步骤3.1.2中得到每辆车统计时段T内的总行驶里程,以货车车辆的车牌号为唯一识别码,两者相除,得到货车车辆统计时段内累计超重量、单位行驶里程的违法超重频次和单位行驶公里的单程空载频次。
8.根据权利要求1所述的一种基于多源数据的超重货车货源站点识别方法,其特征在于,步骤3.2的具体步骤如下:
(1)确定样本集;
以省或市为单位,统计该辖区内所有货车车辆,确定输入样本集U={(NTM1,LOM1,SLM1),(NTM2,LOM2,SLM2),……(NTMn,LOMn,SLMn)},NTMi,LOMi,SLMi分别表征货车车辆i单位行驶里程的统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次;
(2)确定聚类距离函数;
AGENS先将数据集中的每一个样本看作一个初始聚类,然后在算法运行的每一步找出距离最近的两个聚类簇进行合并,不断重复合并,直至达到预设的聚类簇的个数,关键是确定聚类簇之间的距离,给定聚类簇Ci,Cj,计算公式如下:
m=(NTMm,LOMm,SLMm)
n=(NTMn,LOMn,SLMn)
其中,Ci,Cj分别表示某样本簇,|Ci|,|Cj|分别代表样本簇Ci,Cj的个数,m,n分别代表簇Ci,Cj中的某个样本,NTMm,LOMm,SLMm分别表征货车车辆m统计时段内的累计超重量、单位行驶里程的违法超重频次和单位行驶里程的单程空载频次;dist(m,n)表示两个样本之间的距离;
(3)确定聚类数量NUM;
比较AGENS计算的各个样本簇之间的平均距离,基于簇合并原则不断合并簇,更新形成新的簇;当聚类数量达到预设的聚类数时,无需据需进行聚类,聚类终止;在对货车车辆超重风险进行等级划分时,采用五级李克特量表形式表征货车风险等级,分为低超重风险、较低超重风险、一般超重风险、较高超重风险和高超重风险。
CN202011060984.4A 2020-09-30 2020-09-30 一种基于多源数据的超重货车货源站点识别方法 Active CN112270460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060984.4A CN112270460B (zh) 2020-09-30 2020-09-30 一种基于多源数据的超重货车货源站点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060984.4A CN112270460B (zh) 2020-09-30 2020-09-30 一种基于多源数据的超重货车货源站点识别方法

Publications (2)

Publication Number Publication Date
CN112270460A CN112270460A (zh) 2021-01-26
CN112270460B true CN112270460B (zh) 2023-10-27

Family

ID=74338774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060984.4A Active CN112270460B (zh) 2020-09-30 2020-09-30 一种基于多源数据的超重货车货源站点识别方法

Country Status (1)

Country Link
CN (1) CN112270460B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805578A (zh) * 2021-02-25 2021-12-17 京东鲲鹏(江苏)科技有限公司 无人车路径优化方法及相关设备
CN113077627B (zh) * 2021-03-30 2022-08-05 杭州海康威视系统技术有限公司 检测车辆的超限源头的方法、装置及计算机存储介质
CN113256997B (zh) * 2021-04-30 2022-09-06 贵州数据宝网络科技有限公司 一种交通车辆违规行为检测装置及方法
CN113176599B (zh) * 2021-05-20 2024-03-15 中国第一汽车股份有限公司 地理位置确定方法、装置、设备及存储介质
CN113470079A (zh) * 2021-07-15 2021-10-01 浙江大华技术股份有限公司 一种落脚区域的输出方法、装置及电子设备
CN113611130B (zh) * 2021-08-03 2023-08-25 中国环境科学研究院 一种本地与过境货车车流量获取方法、系统及存储介质
CN113538072A (zh) * 2021-09-16 2021-10-22 深圳市城市交通规划设计研究中心股份有限公司 一种货运车辆的出行链智能识别方法、装置及电子设备
CN113793066B (zh) * 2021-09-30 2022-04-01 成都安讯智服科技有限公司 基于风险分析的项目位置聚合方法、系统、终端及介质
CN114510826A (zh) * 2022-01-17 2022-05-17 中国科学院地理科学与资源研究所 车辆排放结构分解方法、装置、电子设备及存储介质
CN114419888A (zh) * 2022-01-21 2022-04-29 北京汇通天下物联科技有限公司 一种货运车辆的安全预警方法、装置、设备及存储介质
CN115222571B (zh) * 2022-07-18 2023-11-03 安徽鑫汇杰建设工程有限公司 一种基于人脸识别的源头治超数据分析方法
CN116029624B (zh) * 2022-07-21 2024-02-06 大连海事大学 一种融合货车轨迹和poi数据的货源地识别方法
CN116486639B (zh) * 2023-06-14 2023-09-29 眉山环天智慧科技有限公司 一种基于遥感和北斗卫星数据分析的车辆监管方法
CN117392855B (zh) * 2023-12-13 2024-02-20 南昌工程学院 基于卫星定位数据的车辆超限超载概率识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197588A (zh) * 2019-06-03 2019-09-03 长安大学 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置
CN110544373A (zh) * 2019-08-21 2019-12-06 北京交通大学 一种基于北斗车联网的货车预警信息提取与风险识别方法
WO2020042164A1 (en) * 2018-08-31 2020-03-05 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligence systems and methods based on hierarchical clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020042164A1 (en) * 2018-08-31 2020-03-05 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligence systems and methods based on hierarchical clustering
CN110197588A (zh) * 2019-06-03 2019-09-03 长安大学 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置
CN110544373A (zh) * 2019-08-21 2019-12-06 北京交通大学 一种基于北斗车联网的货车预警信息提取与风险识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于k-shell的社区发现算法研究;郝丹丹;郭景峰;王燕君;;河北省科学院学报(02);全文 *
高速公路通行卡逃费行为预测模型研究;赵彦;吴淑玲;林志恒;常天海;;中国科技论文(19);全文 *

Also Published As

Publication number Publication date
CN112270460A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112270460B (zh) 一种基于多源数据的超重货车货源站点识别方法
CN102521965B (zh) 基于车牌识别数据的交通需求管理措施效果评价方法
CN111210612B (zh) 基于公交gps数据与站点信息提取公交线路轨迹的方法
CN110667428B (zh) 一种基于实时定位数据的电动汽车充电站推荐方法
CN111653096A (zh) 一种基于手机信令数据的城市出行方式识别方法
CN110599765A (zh) 一种基于多源数据融合的公路客货运输量指标统计方法
CN111340674B (zh) 一种交通运力承运意图辨识方法
CN109147323A (zh) 一种用于公路客货运输指标统计的车辆gps数据处理方法
CN113538072A (zh) 一种货运车辆的出行链智能识别方法、装置及电子设备
CN108090722A (zh) 一种基于gps的物流网络站点识别设备与识别方法
CN114021883A (zh) 一种高峰时期地铁接驳共享单车的调度方法
CN111178577A (zh) 一种基于geohash算法的服务站选址方法
CN111914940B (zh) 一种共享车辆站点分群聚类方法、系统、装置及存储介质
CN112767686B (zh) 一种基于多源数据融合的公路网汽车排放估算方法
CN106570182B (zh) 公交车辆下车站点识别方法与系统
CN105261218B (zh) 基于大数据分析的浮动车伴随行为模式挖掘方法
CN114912689A (zh) 基于地图网格索引和xgboost的超限车辆目的地预测方法及系统
CN114390459A (zh) 农用车辆违法超员载人识别方法及存储介质
CN112533140B (zh) 一种基于指数的共享单车分布情况评估方法
CN116307931B (zh) 一种面向城市货运物流链的多源数据融合分析方法
CN113870559B (zh) 一种基于大数据车联网的交通流量计算方法
CN108629522B (zh) 一种基于聚类分析的公共自行车调度方法
Huo et al. Mining massive truck GPS data for freight OD estimation: Case study of liaoning province in China
Hu et al. Evaluating Bicycling Environments with Trajectory Data on Shared Bikes: A Case Study of Beijing
Zhao et al. Identifying Origin-Destination Trips from GPS Data–Application in Travel Time Reliability of Dedicated Trucks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Jixiu

Inventor after: Li Baidan

Inventor after: Zhang Xinhu

Inventor after: Chen Kun

Inventor after: Li Dieshun

Inventor after: Lin Rongjie

Inventor after: Liu Zhe

Inventor after: Xu Zhiyuan

Inventor after: Geng Shoujun

Inventor after: Wang Yingping

Inventor before: Zhang Jixiu

Inventor before: Li Baidan

Inventor before: Zhang Xinhu

Inventor before: Xu Zhiyuan

Inventor before: Li Dieshun

Inventor before: Geng Shoujun

Inventor before: Liu Zhe

Inventor before: Jian Feng

Inventor before: Chen Kun

Inventor before: Wang Yingping

GR01 Patent grant
GR01 Patent grant