CN109242170A - 一种基于数据挖掘技术的城市道路管理系统及方法 - Google Patents

一种基于数据挖掘技术的城市道路管理系统及方法 Download PDF

Info

Publication number
CN109242170A
CN109242170A CN201810987439.6A CN201810987439A CN109242170A CN 109242170 A CN109242170 A CN 109242170A CN 201810987439 A CN201810987439 A CN 201810987439A CN 109242170 A CN109242170 A CN 109242170A
Authority
CN
China
Prior art keywords
data
case
day
module
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810987439.6A
Other languages
English (en)
Other versions
CN109242170B (zh
Inventor
陈观林
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou City University
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN201810987439.6A priority Critical patent/CN109242170B/zh
Publication of CN109242170A publication Critical patent/CN109242170A/zh
Application granted granted Critical
Publication of CN109242170B publication Critical patent/CN109242170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于数据挖掘技术的城市道路管理系统,包括案件管理模块、案件查询模块、用户管理模块、数据统计分析模块和案件预测模块;案件管理模块是用来完成案件的添加、删除和状态修改工作的;案件查询模块供用户查询当日已发生案件的状况;数据统计分析模块提供基于历史案件数据的统计分析;案件预测模块通过对历史案件记录的数据挖掘分析,为城市道路管理工作提供指导意见。本发明的有益效果是:本发明提出的基于数据挖掘技术的城市道路管理系统重点关注区域日案件数预测模型,其基于系统中的历史数据,针对每个区域建立未来几天的短期案件数预测模型,使得城管工作人员得以获知事件分布趋势以及未来短期事件高发区域。

Description

一种基于数据挖掘技术的城市道路管理系统及方法
技术领域
本发明涉及城市道路管理系统及方法,具体涉及一种基于数据挖掘技术的城市道路管理系统及方法。
背景技术
从宽泛角度上看,对城市公用事业的管理应是针对复杂的城市网络,放眼市政、经济、社会等诸多方面,在政府的组织决策下采取法律、经济和技术等手段对市场和社会进行的规范引导、决策协调等行为。但从务实角度来讲,城市公用事业管理往往集中于市政管理,即关注对城市基础设施、公共服务设施和公共事务的管理,人们对城市公用事业管理的关注也往往集中在这些方面。
随着我国城市化进程的不断加快,施工扰民、乱搭乱建、绿地脏乱、油烟污染、无照经营等形形色色城市道路问题可谓层出不穷,给各个城市的市容环境、街面秩序、道路安全等方面也带来了诸多隐患。政府部门也成立有相关部门处理这些问题,但由于在城市管理过程中涌现的问题过于繁杂,执法机构众多且各机构间职责重复交叉等各种原因,导致政府在处理这些问题时执行效率低下,执法效果不佳并最终损害了政府公信力。
事实上,城镇人口在2014年便已经达到了2.6亿,城市人口的剧增也给城市管理带来了更大的挑战,相关案件数量不断增多。传统的管理方式通过发现、上报、处理等流程来对其进行被动处理,显然缺乏远见性,无法起到预防作用。此外,长年累月的案件积攒使得政府人员从中获取实用信息更加费力,海量的数据反而弱化了系统在工作中带来的决策指导作用,很多问题亟待结局。很多问题在数字城管系统的运用中暴露了出来,各个职能部门之间没有进行充分的数据共享,没能对大量的数据进行深入的挖掘分析,更没能在此基础上提供快捷有效的业务决策支持。
新的信息时代下出现的云计算、物联网技术导致数字城市必将面临更加高级的形态,即智慧城市。其本质上是运用各种现代技术将城市中各类设备连接,形成一个符合当代需求的城市系统。而快速理解业务需求并深入挖掘相关数据的能力正是智慧城市的“智慧”体现,高效的决策往往依赖于高质的数据。在这样建设智慧城市和大数据时代的大背景下,如何利用云计算技术建设城市道路管理系统并对历史城市道路管理数据进行挖掘是一个值得研究的课题。
专利201710320169.9“一种道路管理决策系统”提出了一种道路管理决策系统,其包括数据管理子系统、GIS平台以及道路决策系统,可用于存储道路相关的空间数据和属性数据,并利用GIS平台将空间数据和属性数据相融合从而与地图数据相匹配,同时还会对经GIS平台处理后的数据进行统计分析从而生成相关报告以供参考。专利201410843078.X“道路信息获取方法及系统,道路管理方法及平台”提出了一种道路管理方法用以接收道路位置的地理位置信息和道路质量状况信息从而进一步判断道路是否需要维修。同时,其提出了一种道路管理平台及道路信息获取方法及系统用以获取存储道路相关信息、进行道路状况判断工作以及将所需维修道路信息发给相关终端。
这两种方法在设计道路管理系统时,实现的只是道路相关信息的存储整合以及传递工作,在对这些历史数据的分析上,第一种只是对其进行了简单的统计分析,并未能利用道路相关数据对道路管理工作提供更加具体的指导,第二种方法利用历史数据对道路管理工作进行了维修决策指导,但是决策结果只是通过简单的计数得出,即当同一道路位置的案件上报次数超过预设次数时则得出需要维修的决策判定。两种方法都没能在对道路相关历史数据进行深入挖掘的基础上给政府管理人员提供指导。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于数据挖掘技术的城市道路管理系统及方法。
这种基于数据挖掘技术的城市道路管理系统,包括案件管理模块、案件查询模块、用户管理模块、数据统计分析模块和案件预测模块;
案件管理模块是用来完成案件的添加、删除和状态修改工作的;在发现街面相关案件的同时通过此模块进行录入工作,具有相应权限的用户在发现某录入案件无效或不实时通过此模块进行删除工作;此外,政府巡查人员通过此模块查询某区域未解决案件并进行相应的处理工作,并在工作完成后通过此模块修改案件状态为已解决;部门管理人员通过此模块查询某区域负责巡查的人员,从而进行点对点的督促工作;
案件查询模块供用户查询当日已发生案件的状况,其以地图的形式实时呈现各个区当日已经录入案件数,并提供以小时为单位的各区域上报案件分布趋势图,查看案件高发时间段,同时用户能通过条件查询查看各个区域的案件类型分布图;
该城市道路管理系统是多角色、多用户使用的系统,根据用户的角色、部门对其进行管理工作;用户管理模块完成了系统用户、系统用户角色和相关部门的增加、删除、查询和修改操作;同时,对于巡查用户而言,其往往有分配好的巡查区域,部门管理人员通过此模块对用户所负责的区域进行修改以便进行人员调度相关工作;
数据统计分析模块提供基于历史案件数据的统计分析,以可视化呈现历史案件相关特性,其包括区域历史日上报案件趋势图、区域案件类型分布图、各区域月结案率对比图和各部门月人均结案数对比图;
云端积累了大量的历史案件记录,案件预测模块通过对历史案件记录的数据挖掘分析,为城市道路管理工作提供指导意见;系统每天结束都会统计更新各个区的总案件数,并结合实时的下一天天气、节假日、周末情况和历史日上报案件数等相关数据进行训练得到预测模型,对各个区未来一段时间会发生的日案件数进行预测,并记录到统计数据表中;政府人员可在此模块的综合分析子模块中看到各个区的当天预测日上报案件数以及各区域未来一小段时间案件变化预测趋势,也能通过条件查询子模块查询更加细分区域的未来某天案件预测数。
作为优选:对于日案件数预测模型,确定预测模型中的输入变量,对于其中的法定节假日、周末以及天气状况,引入虚拟变量来表征这些影响因素;
天气类别:将天气类别分为三类,引入三个虚拟变量其中W1代表晴天、阴天以及小雨天,W2代表中、大、暴雨天,W3代表下雪天;
法定节日:引入虚拟变量1表示春节七天节假日之一,0表示非春节节假日;引入三个虚拟变量分别表示节日第一、二、三天;对于元旦这样的一天假期,则将其看作节日第一天,令其H1=1;对于七天国庆假期,将第1、2日作为节日第一天,将第3日至第5日作为节日第二天,将第6、7日作为节日第三天;
周末:引入两个虚拟变量:
1表示周六且除开上述两种状况,0表示其他时间
1表示周日且除开上述两种状况,0表示其他时间
每日最高温、最低温,用变量Tmax,Tmin表示,Bi(i=1,2,3)则表示此区预测日前i日的案件日上报数,Num为当日实际案件数,即训练数据集的格式如下:
<W1,W2,W3,H1,H2,H3,Hyear,B1,B2,B3,Tmax,Tmin,Sat,Sun,Num>
对训练样本的Tmax,Tmin,Bi属性以及Num利用公式进行归一化处理,使每个变量的值均在0-1范围内,其中Xmin,Xmax分别表示序列中的最小值和最大值。
这种基于数据挖掘技术的城市道路管理系统的方法,包括以下步骤:
1)数据挖掘
1.1)数据准备:包括数据收集和数据预处理两个部分;
1.1.1)数据收集:数据挖掘的首要工作就是搜集数据;数据包括内部和外部两类,前者指公司或者系统数据库等私有的数据;后者指从其他数据库、数据仓库或者通过互联网等各种途径获取的公有数据;数据收集就是从各种不同的数据库中搜集与挖掘目的一致的数据,并将其存储至自己的数据库中以进行进一步挖掘工作;
1.1.2)数据预处理:包括填充缺失值、删除重复记录、数据集成和数据转换;填充缺失值是指通过回归、贝叶斯分类等方法对同类属性中其他数据进行计算以得到估计缺失值进行填补;删除重复记录适用于数据集中存在大量重复记录的情况;数据集成适用于数据来自多个数据源的情况,通过集成方法处理数据冗余或不一致问题;数据转换是用来应对不同数据源造成的格式不同、单位不匹配等问题,通过设定统一的标准对不同数据进行数据转换;
1.2)数据挖掘:此阶段的核心工作就是建立知识库,先明确挖掘的目的,接着根据挖掘目的采用相应的挖掘算法;在挖掘的过程中,先选取几种合适的算法,再在之后的模型评价过程中进行分析和对比;数据挖掘阶段产生的模型放在知识库中,方便后续操作;
1.3)模型评价:模型评价的工作重点是确定模型的合理性,判断模型是否可用,如果可用,则将得到的知识可视化之后显示给用户;若数据挖掘后产生的模型不能满足用户需要或者与理想效果差距较大,则分析这种情况产生的原因,找到有效的改善方法并返回相应步骤;如果是数据的原因,就要返回数据处理步骤,再次选择数据或者对已选取的数据重新处理;如果是数据挖掘算法不合理,就要重新对挖掘算法进行研究,重新进行后续的挖掘步骤,直到模型满足用户需要;
2)采用组合模型组合的方法对区域日上报案件数进行预测;
2.1)利用SVR模型和BP模型对日案件数受客观因素影响所形成的短期波动特征进行拟合,同时采用非线性组合预测方法产生初步预测值,利用支持向量机回归模型对上述预测结果进行非线性组合;
2.2)采用时间序列模型ARIMA对此残差序列进行建模预测,拟合数据的长期变化趋势;
2.3)将步骤2.1)得到的预测值以及步骤2.2)的预测残差相加得到最终预测结果。
本发明的有益效果是:本发明提出的基于数据挖掘技术的城市道路管理系统重点关注区域日案件数预测模型,其基于系统中的历史数据,针对每个区域建立未来几天的短期案件数预测模型,使得城管工作人员得以获知事件分布趋势以及未来短期事件高发区域,并在此基础上找出当前暴露的问题和症结,预测管理态势走向,提供管理方式优化的建议,更加合理的进行人员力量部署。
附图说明
图1是本发明提出的城市道路管理系统的总体功能架构图;
图2是本发明描述的日案件数预测模型涉及的天气分类情况表;
图3是本发明描述的日案件数预测模型涉及的客观因素预测模型图;
图4是本发明描述的日案件数预测模型的设计图;
图5是本发明提出的城市道路管理系统的网络拓扑结构图;
图6是本发明提出的城市道路管理系统在云计算平台上的总体架构图;
图7是本发明提出的城市道路管理系统中的案件预测模块的UML模型;
图8是本发明提出的城市道路管理系统中的案件查询模块的UML模型;
图9是本发明提出的城市道路管理系统的数据挖掘流程图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
所述的基于数据挖掘技术的城市道路管理系统,重点关注区域日案件数预测模型,其基于系统中的历史数据,针对每个区域建立未来几天的短期案件数预测模型,使得城管工作人员得以获知事件分布趋势以及未来短期事件高发区域,并在此基础上找出当前暴露的问题和症结,预测管理态势走向,提供管理方式优化的建议,更加合理的进行人员力量部署。
系统主要分为以下几个功能模块:
1)案件管理模块
案件管理模块是用来完成案件的添加、删除和状态修改工作的。巡查人员和普通民众在发现街面相关案件的同时便可以及时通过此模块进行录入工作,具有相应权限的用户在发现某录入案件无效或不实时也可以通过此模块进行删除工作。此外,政府巡查人员可以通过此模块查询某区域未解决案件并及时进行相应的处理工作,并在工作完成后及时通过此模块修改案件状态为已解决,此外,部门管理人员还可以通过此模块查询某区域负责巡查的人员,从而能更好的进行点对点的督促工作,如此既有效的指导了办案人员的工作也督促了案件的及时解决。
2)案件查询模块
案件查询模块主要是供用户查询当日已发生案件的状况,其以地图的形式实时呈现各个区当日已经录入案件数,并提供以小时为单位的各区域上报案件分布趋势图,以方便查看案件高发时间段,同时用户还可以通过条件查询查看各个区域的案件类型分布图。
3)用户管理模块
该城市道路管理系统是多角色、多用户使用的系统,因此根据用户的角色、部门对其进行管理工作很有必要。如可以根据部门新增用户、用户角色修改、用户部门修改等。此模块还完成了系统用户、系统用户角色和相关部门的增加、删除、查询和修改操作。同时,对于巡查用户而言,其往往有分配好的巡查区域,部门管理人员可以通过此模块对用户所负责的区域进行修改以更加方便的进行人员调度相关工作。
4)数据统计分析模块
此模块提供基于历史案件数据的统计分析,以可视化呈现历史案件相关特性,其主要包括区域历史日上报案件趋势图、区域案件类型分布图、各区域月结案率对比图和各部门月人均结案数对比图。
5)案件预测模块
云端积累了大量的历史案件记录,案件预测模块通过对历史案件记录的数据挖掘分析,可以为城市道路管理工作提供指导意见。系统每天结束都会统计更新各个区的总案件数,并结合实时的下一天天气、节假日、周末情况和历史日上报案件数等相关数据进行训练得到预测模型,对各个区未来一段时间会发生的日案件数进行预测,并记录到统计数据表中。政府人员可在此模块的综合分析子模块中看到各个区的当天预测日上报案件数以及各区域未来一小段时间案件变化预测趋势,也能通过条件查询子模块查询更加细分区域的未来某天案件预测数,值得注意的是,系统每天只会自动进行各个区的案件预测,更加细分区域的日上报案件数预测只有在得到相关请求时才会进行相关预测工作并记录。
图1是通过上述分析得到的总体功能架构图。
一个区域的每日案件发生量受形形色色的因素影响,总的来说,可以将其分为两个部分。一种是无太大波动性的因素。此类因素往往与区域本身有关,对于一个区域而言,其往往有着特定的功能建筑分布以及城市居民人口等等。而街面序化中的大多数事件都与居民生活起居息息相关,故不同的城市功能区域的划分,也会对此地区每日案件数量和变化幅度产生影响。第二种是存在较大波动性的因素。此类因素大多与区域本身无关,是在短期内可能有较大变动的外在自然因素。
第二种客观因素总的来说主要包括天气因素,如天气类别、最低温和最高温等。一般来说根据不同天气可以细分为如图2所示的10个类别。另外周末和节假日属性也对每日的案件发生数量有着较大的影响。事实上由于法定节日、周末属性以及天气情况等等各种自然情况的影响,使得区域每日上报案件数呈现很明显非线性的特点,其主要的短期大幅度的波动都来自于这些因素的影响,但从长远的阶段来看,不同的区域由于人员流动等各种因素仍然具有不同程度上微弱的线性特征。
对于日案件数形成的时间序列,通过arima模型可以发掘其整体变化趋势,但是如前所述,由于天气、节假日、周末等等属性的影响,日案件数在短期内也存在较大波动,arima模型对于这样的短期波动较难捕捉。基于这种想法,本模型采用组合模型组合的方法对区域日上报案件数进行预测,其流程如下:
1.利用svr模型和bp模型对日案件数受客观因素影响所形成的短期波动特征进行拟合,同时考虑到单一预测方法可能存在的不足,采用非线性组合预测方法产生初步预测值,本文利用支持向量机回归模型对上述预测结果进行非线性组合。经过此操作,可较好捕捉数据短期内的波动特征,此部分拟合模型结构如图3所示。
2.客观影响预测模型拟合了数据集的短期波动特征,但是时间序列的长期变化趋势却没能体现,但这部分特征会包含在客观因素组合预测模型所产生的残差序列中,故此时便采用时间序列模型ARIMA对此残差序列进行建模预测,拟合数据的长期变化趋势。
3.将第一步得到的预测值以及第二步的预测残差相加得到最终预测结果。整个预测原理及过程如图4所示。
本系统采用的是B/S架构以减轻客户端的压力,方便用户可随时随地通过不同终端进行访问,其网络拓扑结构如图5所示。相较于传统的B/S架构,基于云计算的架构具有海量数据存储和计算能力、高可扩展性、高可靠性的优点,故本发明中的系统也基于云计算技术构建城市道路管理系统,通过过去的历史数据分析街面案件分布以及解决情况并预测未来各区域案件变化趋势,给政府人员街面管理工作提出指导意见。系统的总体架构图如图6所示。
案件预测模块的功能是通过统计每日发生的案件数总数,用某区过去一段时间的每日案件数、天气状况、节假日、周末属性为输入,利用区域日案件数预测模型,利用组合svr模型预测日案件数,将先得到的预测值作为后得到预测值的属性,从而得到未来七天的日案件数的初步预测值,再根据已有时间序列数据预测未来七天的残差,从而得到未来七天日案件数的预测值。该模块设计了NonLinearModel类来表示拟合数据局部波动特征的组合SVR模型,用LinearModel类表示拟合数据整体变化趋势的Arima模型,ForecastModel类调用这两个类进行组合预测。ForecastService类调用InputCasesData类数据作为ForecastModel的输入并得到最终的组合预测结果。图7是案件预测模块的UML模型。
案件查询模块包括当日各区录入案件展示以及区域录入案件条件查询。通过预测模型,用户在某天还未结束或者没来临前便可以大致知道这天会发生的案件总数以及未来一段时间每天案件总数的变化趋势。但是具体到当天的工作时,如果仅仅只是知道这天的案件总数,而无法知道各个时间段发生的案件数,无法为工作人员当天巡查提供足够的决策信息。故通过此模块,用户可以知道当天已经发生的案件总数以及各个时间段发生的案件数的分布图。本模块将在服务器端为每个区维持一个大小为24的currentDay数组和一个变量以保存当天每个小时发生的案件数和已发生案件总数,在每个整点计算过去一个小时发生的案件总数,并更新已发生案件数。同时,服务端为每个区同时也维持一个大小为24的lastDay数组保存前一日的24小时案件数,每天凌晨时,便会将currentDay数组的值赋予lastDay数组,同时将currentDay数组清零。
本系统采用富客户端的思路,将大量的交互逻辑放置在浏览器的客户端上,用户无需主动刷新页面便可获取各个区当天录入案件的时间分布图。在客户端本模块的当日各区录入案件部分,会结合百度地图展示各个区的当日已经录入案件数以及前一天和当天的录入案件时间分布图。区域录入案件条件查询部分,在输入相应查询条件后,可以查看详细区域(如街道、社区等)的当日已录入案件数及其在各个时间短的分布,这部分逻辑业务除非收到查询请求,否则不会在服务端自动运算更新。
系统的案件查询模块的UML模型如图8所示。
在服务端,系统用TodayCasesData这个类保存着当日已录入案件数、当日录入案件数时间分布以及前一天录入案件数时间分布信息。用户在登录系统后点击当日案件查询模块便可查看相应信息,系统会将各个区的已录入案件信息展示到地图上。
数据统计分析模块依然是富客户端模式,在客户端利用数据可视化给用户提供数据相关的交互操作,用户得以在不刷新页面的情况下即可完成各种对数据的处理操作。而在服务端,将所需要呈现给用户的处理操作细分成各项基础的功能,并将这些功能以API的形式呈现给客户端,客户端即可通过ajax对这些API进行调用进而获取已经过基础处理的数据,然后直接用这些数据进行进一步的分析并呈现。且一旦这些API设计完成,则客户端和服务端均可在不改动API的情况下各自根据需求进行逻辑更改。在已开发的系统中,服务端可以提供基本的数据相关的统计服务,如获取指定范围的数据以及其分布和统计量,数据的最大值、最小值,案件数按案件小类分布的情况等等。客户端以这些基础服务为基础,可以进一步组合得到更丰富的功能。道路管理系统在云端运行,为了提高数据统计分析的效率,采用了大数据分析引擎Impala进行数据处理。
对于日案件数预测模型,基于之前总结的各个影响因素,可以大致确定预测模型中的输入变量,对于其中的法定节假日、周末以及天气状况,本模型会引入虚拟变量来表征这些影响因素。
1.天气类别:根据不同的天气总共有10种天气类别,但在实际对数据的观察中发现个别天气之间对日上报案件数的影响差别并不大,故根据对日案件数的影响,本文将天气类别分为三类,引入三个虚拟变量其中W1代表晴天、阴天以及小雨天,W2代表中、大、暴雨天,W3代表下雪天。
2.法定节日:对比各个区域数据发现,春节作为中国人一年中最重要的节日,相较各个其他节日,明显具有更大影响力,故引入虚拟变量1表示春节七天节假日之一,0表示非春节节假日。此外,清明节、劳动节、端午节、中秋节这些法定节假日都是3天,且节后第一天、第二天、第三天的日上报案件数都不尽相同,故引入三个虚拟变量分别表示节日第一、二、三天。对于元旦这样的一天假期,则将其看作节日第一天,令其H1=1。而2014年中的七天假期国庆,对各个区域数据分析后发现,节日中第3日至第5日的日上报案件数最为接近,故可以将这几天作为节日第二天看待,而第1、2日作为节日第一天,第6、7日作为节日第三天看待。
3.周末:同样观测数据发现,周末属性对日上报案件数存在显著影响,但同时周六和周日的影响却不尽相同,故此处类似节假日,引入两个虚拟变量。但有两种情况需要特别注意:1)某些节日中可能包含周末,如清明节的4.5、4.6日与周六周日撞上,劳动节的5.3号位周六等等,对于这种情况,应当不再考虑其周末属性,而仅作为法定节假日看待;2)处于节假日附近的周末,这些时间段如国庆节前的9.28号为周日,节后的10.11日为周六,但这些周末由于调休的原因依然要正常上班,故不再考虑去周末属性,仅作为工作日看待,即:
1表示周六且除开上述两种状况,0表示其他时间
1表示周日且除开上述两种状况,0表示其他时间
每日最高温、最低温,用变量Tmax,Tmin表示,Bi(i=1,2,3)则表示此区预测日前i日的案件日上报数,Num为当日实际案件数,即训练数据集的格式如下:
<W1,W2,W3,H1,H2,H3,Hyear,B1,B2,B3,Tmax,Tmin,Sat,Sun,Num>
其中,Bi属性远大于其他属性的值,可能最终会影响预测性能,故在进行模型训练预测前,为了降低误差,提高预测精度,还需要对训练样本的Tmax,Tmin,Bi属性以及Num利用公式进行归一化处理,使每个变量的值均在0-1范围内,其中Xmin,Xmax分别表示序列中的最小值和最大值。
对于SVR模型,python语言中有SVR模型的实现,因此本模型用sklearn.svm中的SVR()拟合SVR模型,同时核函数选择高斯径向基核函数,采用网格搜素的方法进行参数寻优,而关于BP模型,则直接调用neuralnet函数实现。
ARIMA模型主要是对非线性特征组合预测模型产生的残差序列进行分析,发掘其中的线性规律,从而进行预测,进一步反应时间序列中长期的线性变化。具体实现中,预先设定最大参数值,根据BIC准则,寻找令BIC值最小的参数即作为最优参数。同时,由于ARIMA模型更适合短期预测,本模型采用滚动预测的方法对客观因素预测模型产生的残差值进行预测,即每天结束前将当天产生的残差值添加到时间序列数据集中。一个稳定的预测模型无需每天进行拟合,可以设定一个阈值,本模型中此值为15。本模型利用python语言实现了一个arima类和滚动预测功能进行训练工作。滚动预测功能代码如下:
arima类中的get_proper_model方法的关键代码如下:
用宁波市江北区2014年1月1日到2015年12月31日的数据训练集,2016年1月1日至2016年12月31日的数据为测试集验证此模型,第一个SVR模型中的参数情况:c=0.25,gamma=2,epsilon=0.0390625,得到SVR模型和BP模型的预测值后将两个结果反归一并采用SVR模型组合预测,此时实验数据集的参数情况如下:C=128,gamma=0.009765625,epsilon=8。其中BP模型的输入层为14,隐含层为一层,隐含层节点数为输入节点的,因此选9,隐含层的激活函数为正切双曲函数tanh,输出层节点的激活函数为线性函数。
模型的评估采用如下两个公式:
其中,Si是预测结果,是实际日案件数,是测试数据中所有数据的平均值,RMSE是标准误差,R2是R-square,即确定系数。得到的评估值:RMSE为118.962,R-square为0.677。
所述的基于数据挖掘技术的城市道路管理系统的数据挖掘方法,包括以下步骤:
(1)数据准备:是数据挖掘第一步,包括数据收集和数据预处理两个部分。
①数据收集:数据挖掘的首要工作就是搜集数据。数据包括内部和外部两类,前者指公司或者系统数据库等私有的数据;后者指从其他数据库、数据仓库或者通过互联网等各种途径获取的公有数据。数据收集的目的就是从各种不同的数据库中搜集与挖掘目的一致的数据,并将其存储至自己的数据库中以进行进一步挖掘工作。
②数据预处理:目标数据符合研究者的挖掘意向,但还是会有各种问题存在,如数据不完整、记录冗余、存在噪声数据等,同时,来自不同数据源的数据可能类型和标准都不太一致,这些都会对后续的数据挖掘工作带来一定程度上的障碍。所以,在开始进行正式的数据挖掘工作前,还要对数据集预先进行处理以提升数据质量,进而提升数据挖掘准确性。
数据预处理主要包括填充缺失值、删除重复记录、数据集成、数据转换等方法。填充缺失值是指通过回归、贝叶斯分类等方法对同类属性中其他数据进行计算以得到估计缺失值进行填补;删除重复记录适用于数据集中存在大量重复记录的情况,重复的记录不会带来任何精度上的提升,反而会降低挖掘效率;数据集成适用于数据来自多个数据源的情况,这些数据可能存在交集也可能名字不同但属性相同,因而需要通过集成方法处理数据冗余或不一致问题;数据转换是用来应对不同数据源造成的格式不同、单位不匹配等问题,通过设定统一的标准对不同数据进行数据转换。实际操作中,一般会使用多种方法实现预处理工作,且数据预处理后,有时因为数据挖掘算法的需要,还应根据需求对数据进行离散化、归一化等操作。
(2)数据挖掘:此阶段的核心工作就是建立知识库,第一步必须明确挖掘的目的,接着根据挖掘目的采用相应的挖掘算法。确定有效的算法十分关键,必须根据两个准则进行选择:一是数据的差异决定着其特征上存在差异,采用的算法要能准确地分析目标数据;二是结合用户或实际运行系统的情况进行相应的分析工作,比如有的用户希望得到描述型的、方便理解的知识,有的用户想要得到诊断效果尽可能好的的预测型知识,并不关心所得知识的复杂程度。需要注意的是,数据挖掘是知识发现的核心,想要得到理想的挖掘效果,需要全面理解不同挖掘算法的特征和要求。因此,在挖掘的过程中,应该不拘泥于某一种算法,而是应该先选取几种合适的算法,再在之后的模型评价过程中进行分析和对比。数据挖掘阶段产生的模型放在知识库中,方便后续操作。
(3)模型评价:模型评价是数据挖掘的最后一个步骤,工作重点是确定模型的合理性,判断模型是否可用,如果可用,则应该将得到的知识可视化之后显示给用户。有时,数据挖掘后产生的模型不一定满足用户需要或者与理想效果差距较大,需要分析这种情况产生的原因,找到有效的改善方法并返回相应步骤。如果是数据的原因,就要返回数据处理步骤,再次选择数据或者对已选取的数据重新处理;如果是数据挖掘算法不合理,就要重新对挖掘算法进行研究,重新进行后续的挖掘步骤,直到模型满足用户需要。另外,在数据挖掘的过程中可能不止使用了一种方法来分析数据,因此要对这几种方法的分析结果进行对比,根据需求选取一种更适合的方法。
一般情况下,初步得到的模型并不是用户希望看到的方式,因此还需要利用进一步的可视化技术或其他知识表示技术进行处理,以用户需要和感兴趣的方式反馈给用户。

Claims (3)

1.一种基于数据挖掘技术的城市道路管理系统,其特征在于,包括案件管理模块、案件查询模块、用户管理模块、数据统计分析模块和案件预测模块;
案件管理模块是用来完成案件的添加、删除和状态修改工作的;在发现街面相关案件的同时通过此模块进行录入工作,具有相应权限的用户在发现某录入案件无效或不实时通过此模块进行删除工作;此外,政府巡查人员通过此模块查询某区域未解决案件并进行相应的处理工作,并在工作完成后通过此模块修改案件状态为已解决;部门管理人员通过此模块查询某区域负责巡查的人员,从而进行点对点的督促工作;
案件查询模块供用户查询当日已发生案件的状况,其以地图的形式实时呈现各个区当日已经录入案件数,并提供以小时为单位的各区域上报案件分布趋势图,查看案件高发时间段,同时用户能通过条件查询查看各个区域的案件类型分布图;
该城市道路管理系统是多角色、多用户使用的系统,根据用户的角色、部门对其进行管理工作;用户管理模块完成了系统用户、系统用户角色和相关部门的增加、删除、查询和修改操作;同时,对于巡查用户而言,其往往有分配好的巡查区域,部门管理人员通过此模块对用户所负责的区域进行修改以便进行人员调度相关工作;
数据统计分析模块提供基于历史案件数据的统计分析,以可视化呈现历史案件相关特性,其包括区域历史日上报案件趋势图、区域案件类型分布图、各区域月结案率对比图和各部门月人均结案数对比图;
云端积累了大量的历史案件记录,案件预测模块通过对历史案件记录的数据挖掘分析,为城市道路管理工作提供指导意见;系统每天结束都会统计更新各个区的总案件数,并结合实时的下一天天气、节假日、周末情况和历史日上报案件数等相关数据进行训练得到预测模型,对各个区未来一段时间会发生的日案件数进行预测,并记录到统计数据表中;政府人员可在此模块的综合分析子模块中看到各个区的当天预测日上报案件数以及各区域未来一小段时间案件变化预测趋势,也能通过条件查询子模块查询更加细分区域的未来某天案件预测数。
2.根据权利要求1所述的基于数据挖掘技术的城市道路管理系统,其特征在于,对于日案件数预测模型,确定预测模型中的输入变量,对于其中的法定节假日、周末以及天气状况,引入虚拟变量来表征这些影响因素;
天气类别:将天气类别分为三类,引入三个虚拟变量i=1,2,3,其中W1代表晴天、阴天以及小雨天,W2代表中、大、暴雨天,W3代表下雪天;
法定节日:引入虚拟变量1表示春节七天节假日之一,0表示非春节节假日;引入三个虚拟变量i=1,2,3分别表示节日第一、二、三天;对于元旦这样的一天假期,则将其看作节日第一天,令其H1=1;对于七天国庆假期,将第1、2日作为节日第一天,将第3日至第5日作为节日第二天,将第6、7日作为节日第三天;
周末:引入两个虚拟变量:
1表示周六且除开上述两种状况,0表示其他时间
1表示周日且除开上述两种状况,0表示其他时间
每日最高温、最低温,用变量Tmax,Tmin表示,Bi(i=1,2,3)则表示此区预测日前i日的案件日上报数,Num为当日实际案件数,即训练数据集的格式如下:
<W1,W2,W3,H1,H2,H3,Hyear,B1,B2,B3,Tmax,Tmin,Sat,Sun,Num>
对训练样本的Tmax,Tmin,Bi属性以及Num利用公式进行归一化处理,使每个变量的值均在0-1范围内,其中Xmin,Xmax分别表示序列中的最小值和最大值。
3.一种基于数据挖掘技术的城市道路管理系统的方法,其特征在于,包括以下步骤:
1)数据挖掘
1.1)数据准备:包括数据收集和数据预处理两个部分;
1.1.1)数据收集:数据挖掘的首要工作就是搜集数据;数据包括内部和外部两类,前者指公司或者系统数据库等私有的数据;后者指从其他数据库、数据仓库或者通过互联网等各种途径获取的公有数据;数据收集就是从各种不同的数据库中搜集与挖掘目的一致的数据,并将其存储至自己的数据库中以进行进一步挖掘工作;
1.1.2)数据预处理:包括填充缺失值、删除重复记录、数据集成和数据转换;填充缺失值是指通过回归、贝叶斯分类等方法对同类属性中其他数据进行计算以得到估计缺失值进行填补;删除重复记录适用于数据集中存在大量重复记录的情况;数据集成适用于数据来自多个数据源的情况,通过集成方法处理数据冗余或不一致问题;数据转换是用来应对不同数据源造成的格式不同、单位不匹配等问题,通过设定统一的标准对不同数据进行数据转换;
1.2)数据挖掘:此阶段的核心工作就是建立知识库,先明确挖掘的目的,接着根据挖掘目的采用相应的挖掘算法;在挖掘的过程中,先选取几种合适的算法,再在之后的模型评价过程中进行分析和对比;数据挖掘阶段产生的模型放在知识库中,方便后续操作;
1.3)模型评价:模型评价的工作重点是确定模型的合理性,判断模型是否可用,如果可用,则将得到的知识可视化之后显示给用户;若数据挖掘后产生的模型不能满足用户需要或者与理想效果差距较大,则分析这种情况产生的原因,找到有效的改善方法并返回相应步骤;如果是数据的原因,就要返回数据处理步骤,再次选择数据或者对已选取的数据重新处理;如果是数据挖掘算法不合理,就要重新对挖掘算法进行研究,重新进行后续的挖掘步骤,直到模型满足用户需要;
2)采用组合模型组合的方法对区域日上报案件数进行预测;
2.1)利用SVR模型和BP模型对日案件数受客观因素影响所形成的短期波动特征进行拟合,同时采用非线性组合预测方法产生初步预测值,利用支持向量机回归模型对上述预测结果进行非线性组合;
2.2)采用时间序列模型ARIMA对此残差序列进行建模预测,拟合数据的长期变化趋势;
2.3)将步骤2.1)得到的预测值以及步骤2.2)的预测残差相加得到最终预测结果。
CN201810987439.6A 2018-08-28 2018-08-28 一种基于数据挖掘技术的城市道路管理系统及方法 Active CN109242170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810987439.6A CN109242170B (zh) 2018-08-28 2018-08-28 一种基于数据挖掘技术的城市道路管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810987439.6A CN109242170B (zh) 2018-08-28 2018-08-28 一种基于数据挖掘技术的城市道路管理系统及方法

Publications (2)

Publication Number Publication Date
CN109242170A true CN109242170A (zh) 2019-01-18
CN109242170B CN109242170B (zh) 2021-08-27

Family

ID=65068567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810987439.6A Active CN109242170B (zh) 2018-08-28 2018-08-28 一种基于数据挖掘技术的城市道路管理系统及方法

Country Status (1)

Country Link
CN (1) CN109242170B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704569A (zh) * 2019-10-15 2020-01-17 山东省国土测绘院 一种地理省情监测数据库管理系统、方法及数据库
CN110826820A (zh) * 2019-11-29 2020-02-21 北京世纪高通科技有限公司 车辆保险案件量的预测方法及装置
CN111553816A (zh) * 2020-04-20 2020-08-18 北京北大软件工程股份有限公司 行政复议影响因素分析方法及装置
CN112529273A (zh) * 2020-12-01 2021-03-19 合肥泽众城市智能科技有限公司 一种城市埋地燃气管线隐患数量趋势预测的方法与系统
CN113157775A (zh) * 2021-05-06 2021-07-23 湖北经济学院 流域案件特征信息挖掘系统及设备
CN113291055A (zh) * 2021-04-14 2021-08-24 西安理工大学 一种人工智能的柔版印刷压力预测方法
CN114267003A (zh) * 2022-03-02 2022-04-01 城云科技(中国)有限公司 道路破损检测方法、装置及应用
CN116737803A (zh) * 2023-08-10 2023-09-12 天津神舟通用数据技术有限公司 一种基于有向无环图的可视化数据挖掘编排方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763605A (zh) * 2010-01-28 2010-06-30 成都东哈科技有限公司 三维数字城市消防预控管理系统
CN105023188A (zh) * 2015-01-07 2015-11-04 泰华智慧产业集团股份有限公司 一种基于云数据的数字化城市管理数据共享系统
CN105976110A (zh) * 2016-05-05 2016-09-28 云神科技投资股份有限公司 一种智慧城市管理的方法及系统
CN107798466A (zh) * 2017-10-09 2018-03-13 中国电子科技集团公司第二十八研究所 一种城市运营管理中心系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763605A (zh) * 2010-01-28 2010-06-30 成都东哈科技有限公司 三维数字城市消防预控管理系统
CN105023188A (zh) * 2015-01-07 2015-11-04 泰华智慧产业集团股份有限公司 一种基于云数据的数字化城市管理数据共享系统
CN105976110A (zh) * 2016-05-05 2016-09-28 云神科技投资股份有限公司 一种智慧城市管理的方法及系统
CN107798466A (zh) * 2017-10-09 2018-03-13 中国电子科技集团公司第二十八研究所 一种城市运营管理中心系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙轶轩等: "基于ARIMA与信息粒化SVR组合模型的交通事故时序预测", 《清华大学学报(自然科学版)》 *
贺铿: "《现代统计信息技术》", 31 December 2008 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704569A (zh) * 2019-10-15 2020-01-17 山东省国土测绘院 一种地理省情监测数据库管理系统、方法及数据库
CN110826820A (zh) * 2019-11-29 2020-02-21 北京世纪高通科技有限公司 车辆保险案件量的预测方法及装置
CN111553816A (zh) * 2020-04-20 2020-08-18 北京北大软件工程股份有限公司 行政复议影响因素分析方法及装置
CN111553816B (zh) * 2020-04-20 2023-11-03 北京北大软件工程股份有限公司 行政复议影响因素分析方法及装置
CN112529273A (zh) * 2020-12-01 2021-03-19 合肥泽众城市智能科技有限公司 一种城市埋地燃气管线隐患数量趋势预测的方法与系统
CN113291055A (zh) * 2021-04-14 2021-08-24 西安理工大学 一种人工智能的柔版印刷压力预测方法
CN113157775A (zh) * 2021-05-06 2021-07-23 湖北经济学院 流域案件特征信息挖掘系统及设备
CN113157775B (zh) * 2021-05-06 2022-10-11 湖北经济学院 流域案件特征信息挖掘系统及设备
CN114267003A (zh) * 2022-03-02 2022-04-01 城云科技(中国)有限公司 道路破损检测方法、装置及应用
CN116737803A (zh) * 2023-08-10 2023-09-12 天津神舟通用数据技术有限公司 一种基于有向无环图的可视化数据挖掘编排方法
CN116737803B (zh) * 2023-08-10 2023-11-17 天津神舟通用数据技术有限公司 一种基于有向无环图的可视化数据挖掘编排方法

Also Published As

Publication number Publication date
CN109242170B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN109242170A (zh) 一种基于数据挖掘技术的城市道路管理系统及方法
CN113077097B (zh) 一种基于深度时空相似性的空气质量预测方法
CN109409561B (zh) 多时间尺度时间序列协同预测模型的构建方法
CN106447584A (zh) 一种面向高速公路网络运营的决策支持系统及其使用方法
CN114417802B (zh) 一种智能化报表生成系统
CN116681176B (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN111798355A (zh) 一种城市公共安全事件链形式化组织方法及事件链数据库
CN108416524A (zh) 基于一张图通用框架的产业规划精细化解读方法
CN112148820B (zh) 一种基于深度学习的水下地形数据识别和服务方法及系统
CN114757389A (zh) 一种基于联邦学习的城市交通流量时空预测方法
CN115099450A (zh) 基于融合模型的家庭碳排放监测核算平台
Viverit et al. Application of machine learning to cluster hotel booking curves for hotel demand forecasting
CN116011322A (zh) 基于数字孪生的城市信息展示方法、装置、设备及介质
Wang et al. Semi-empirical service composition: A clustering based approach
Dong Exploration on web usage mining and its application
Kim et al. A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea
Zhang et al. Daily tourism forecasting through a novel method based on principal component analysis, grey wolf optimizer, and extreme learning machine
CN107273515A (zh) 基于多形态数据索引技术的电网数据资产资源检索及展示
CN105956703A (zh) 一种基于马尔科夫的股价走势预测方法和系统
Liang et al. New technology brings new opportunity for telecommunication carriers: Artificial intelligent applications and practices in telecom operators
CN116975054B (zh) 一种基于lstm进行访问路径学习的数据索引方法
CN114662974B (zh) 一种面向生产企业的新能源节能效益分析系统
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
CN114757451B (zh) 一种面向大型活动的动态交通出行需求预测方法
Shu et al. Link prediction based on 3D convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: 310015 No. 51, Huzhou street, Hangzhou, Zhejiang

Patentee after: HANGZHOU City University

Address before: 310015 No. 50 Huzhou Street, Hangzhou City, Zhejiang Province

Patentee before: Zhejiang University City College