CN104299182A - 基于聚类的城市基础设施突发事件的检测方法 - Google Patents
基于聚类的城市基础设施突发事件的检测方法 Download PDFInfo
- Publication number
- CN104299182A CN104299182A CN201410525969.0A CN201410525969A CN104299182A CN 104299182 A CN104299182 A CN 104299182A CN 201410525969 A CN201410525969 A CN 201410525969A CN 104299182 A CN104299182 A CN 104299182A
- Authority
- CN
- China
- Prior art keywords
- work order
- urban infrastructure
- accident
- cluster
- date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于聚类的城市基础设施突发事件的检测方法,首先,接收市民反映城市基础设施问题的电话,并记录到工单数据库中;对数据库筛选后,用中文分词技术对所筛选出的工单提取语义关键词,整理语义关键词间的因果关系,然后提取该工单的地址关键词;对工单做语义聚类;对语义层面上的每个聚类做空间聚类;对空间层面上的每个聚类做时间聚类,从而得到时间层面上的聚类,认定时间层面上的聚类是城市基础设施突发事件,用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分布,从而检测出城市基础设施突发事件,让用户做出更快更明智的决策来解决城市基础设施的问题。
Description
技术领域
本发明涉及一种考虑时间、空间和语义三个维度的聚类算法从城市基础设施诉求问题中检测出突发事件,支持决策。
背景技术
现在,城市基础设施发展,不管对于一个国家或者是人们都是非常重要的。越来越多的管理者开始关注城市基础设施发展。对此,人们关注最多的莫过于生活中的供水、电、燃气、排水、出行交通等方面,北方的人们还会关注供热的问题。这些行业的发展和管理,和人们的生活状态和城市的发展运营都息息相关。在不同的国家,不同的城市,开始产生了各种城市的管理服务的系统或者机构,比如美国的311系统,英国的101系统,中国的12319系统。像供水、燃气等等这样和市民生活相关的数据也开始变得越来越可用。在这样的背景下,对城市基础设施发展和管理的研究也变得有意义和价值。像供水、燃气这样的行业,如果有一些设施的故障或整修,这样的突发事件会对市民的生活有很大的影响。
本发明在技术上是和聚类相关的,在应用上是和城市基础设施相关的。一般的单个的科研工作已经有很多国内外科研专家研究,也已经有了大量的研究成果,但是用考虑时间、空间和语义三个维度的聚类方法来研究城市基础设施相关的数据的情况并不多。
如今有很多人研究城市基础设施数据,在这些基础设施数据逐渐变得可用的时候,对城市基础设施的研究有很多。有研究人员针对公共服务对未来100年的风险和不确定性做了估计;有的人建立了一种关于基础设施间相互依赖的模型,希望能够发现不同类型基础设施之间的关系,验证可能一类基础设施的问题会导致另一类设施的问题。但大多数的研究者只是从管网数据中研究问题,而本发明依据12319电话数据,它是市民针对基础设施问题真实反映的诉求;而管网数据并不能完全地包含市民反映的问题,它只是突发事件发生后的一个整体的情况,它所涉及到的粒度没有一个个的电话诉求那么细,所以当管网数据没有显示基础设施有问题时,并不代表真的就没有问题。
聚类算法在各个领域上运用的很广泛,有专家发展了一种迭代的聚类算法,有人则基于语义聚类发展了一种路径查询算法。聚类作为一种数据挖掘手段已经被广泛使用,但是大部分聚类算法只是在时间或空间上处理,也有一些专门的文本聚类算法,少有同时时间、空间和语义的聚类。而本发明由于数据和研究的需要,定义两个工单是否相近,就应该考虑齐全它们的属性,即综合时间、空间、语义做聚类。
关于城市基础设施的聚类也很多,有人在空间扫描统计方法上扩展成一种可以检测水分布网络爆管点的聚类事件的方法。但真正和本发明研究的方向和模型相似的方法并不多,更何况,在很多国家和城市,不存在供热的问题。
地理资讯系统(Geographic Information System,简称GIS)相关的研究就更多了,GIS在很多需要地图的项目(例如实时交通网络)和研究中都有被用到。城市是一个有面积的实体,也就是说它是适合地图应用的。另外,在GIS的基础上加入其他技术和应用的例子也不少,有人基于GIS提出了一个整合的基础设施管理系统。也有人结合GIS和城市基础设施做了研究,而本发明则在GIS基础上加入要研究的应用。
发明内容
城市管理服务热线系统的数据是以市民诉求工单的形式存在,然而突发事件的信息对城市管理者来说更有价值。本发明旨在对电话诉求数据进行清洗和处理后,在时间、空间和语义内容三个尺度上对工单做综合的聚类,进而找出相似的反映同一个突发事件的工单。当城市管理者知道有这样一些工单实际上是一个突发事件的反映,他们就能更快的根据总结出来的在某个地区某个时间段发生的突发事件做出处理的决策,而不是根据一条条表面上看不出联系的工单。本发明是从处理对象——工单出发,从图1也可以看出来这个基于聚类的城市基础设施突发事件检测方法的最终目的是,检测出城市基础设施突发事件,从而可以做出更快更明智的决策来解决城市基础设施的问题。在经过语义和地址关键词的处理和语义、空间、时间聚类后,对得到的突发事件做可视分析设计,通过根节点的方案可以更深入地看到突发事件在地图上的分布情况、更直观地在突发事件中发现严重的突发事件,如图5;所以突发事件的可视分析设计让用户在突发事件发生后很快地得知突发事件的具体原因、相应后果和发生的位置,帮助其决策。
为了解决上述技术问题,本发明一种基于聚类的城市基础设施突发事件的检测方法包括以下步骤:
步骤一、利用城市管理服务热线系统接收市民反映城市基础设施问题的电话,然后,将该电话内容记录到一工单数据库中,所述工单数据库至少包括以下内容:
工单编号、接收工单的时间、工单反映的问题所涉及到的城市基础设施的类别、描述该电话所反映的城市基础设施问题的文本和该电话所反映的城市基础设施问题的地址;其中,所述工单反映的问题所涉及到的城市基础设施的类别包括供热、自来水、燃气、排水和供热,城市基础设施问题的地址是层级的;
步骤二、根据接收工单的时间和工单反映的问题所涉及到的城市基础设施的类别对工单数据库进行筛选;
使用中文分词技术对所筛选出的工单提取工单描述的电话所反映的城市基础设施问题的文本中的语义关键词,所述语义关键词是城市基础设施问题的原因或结果的词语;整理对应的语义关键词间的因果关系,用于定义城市基础设施突发事件在语义内容这一维度上的种类;
使用中文分词技术对所筛选出的工单提取工单所反映的城市基础设施问题的地址中的地址关键词,从而提取出工单所反映的城市基础设施问题的地址的每个层级的地址单元;
步骤三、对步骤二处理后的工单进行语义聚类:
根据工单的语义关键词的提取统计信息和整理的语义关键词间的因果关系把工单归到匹配的城市基础设施突发事件语义种类中,从而得到在语义层面上的聚类,包括:
如果工单反映的城市基础设施问题的文本中包括步骤二确定的某种反映城市基础设施突发事件的原因的语义关键词,则将该工单归到这种城市基础设施突发事件中;
如果工单反映的城市基础设施问题的文本中同时出现了多个反映不同类别的城市基础设施突发事件的原因的语义关键词,则将该工单归到这些城市基础设施突发事件中含有反映城市基础设施突发事件的结果的语义关键词最多的城市基础设施突发事件中;
如果工单反映的城市基础设施问题的文本中只出现了反映城市基础设施突发事件的结果的语义关键词X,则在该工单的接收时间的前后2天内找在语义上出现了和上述结果的语义关键词有因果关系的原因的语义关键词的工单,
如果找到的符合条件的工单已经归到相应的城市基础设施突发事件中,则把该工单也归到这种城市基础设施突发事件中;
如果没有找到符合条件的工单,则把该工单归到包含结果的语义关键词X的城市基础设施突发事件,且该城市基础设施突发事件是所有包含结果的语义关键词X的城市基础设施突发事件中优先级最高的城市基础设施突发事件;城市基础设施突发事件的优先级是规定城市基础设施突发事件发生后需要做出反应并解决的紧急程度;
如果工单反映的城市基础设施问题的文本中没有任何反映城市基础设施突发事件的原因或结果的语义关键词,则该条工单在语义上不属于任何城市基础设施突发事件;
步骤四、对步骤三中得到的语义层面上的每个聚类进行空间聚类,从而得到在空间层面上的聚类:
遍历每个聚类中的工单,判断聚类中有相同的地址关键词的工单的个数是否大于等于3,
当聚类中有相同的地址关键词的工单的个数大于等于3时,则初步认定这些工单的集合成为一个城市基础设施突发事件;
当聚类中有相同的地址关键词的工单的个数小于3时,定义一个最大经纬度距离D,遍历该聚类中的所有工单,如果两条工单的经纬度距离d大于0而小于等于D,则把它们归为一个空间层面上的聚类;
遍历后,要求空间层面上的聚类包含的工单的个数大于等于3;否则,舍弃这样的空间层面上的聚类;
步骤五、对步骤四中得到的空间层面上的每个聚类进行时间聚类,从而得到在时间层面上的聚类:
设定时间聚类中最大的时间尺度为5天,空间层面上的每个聚类中的工单可能在同一天或者相邻的天数内被接收,统计空间层面上的每个聚类中的所有工单的被接收的时间,得到所有的日期、每个日期对应的出现的次数和接收时间是该日期的所有工单的集合;按照日期出现的次数从大到小对日期排序后得到日期的集合F,遍历日期的集合F的每个日期Y,
如果日期的集合F中,存在与日期Y相差前后2天内的日期Z,则将空间层面上的聚类中接收时间在日期Y和Z的工单聚在一起,并从日期的集合F将日期Y和日期Z删除;
如果日期的集合F中,不存在与日期Y相差前后2天内的日期,则遍历日期的集合F中的下一个日期;
遍历后,得到在时间层面上的聚类,要求它们包含的工单的个数大于等于3;否则,舍弃这样的时间层面上的聚类;
步骤六、认定步骤五中得到的时间层面上的聚类是城市基础设施突发事件,用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分布,从而检测出城市基础设施突发事件;所述的城市基础设施突发事件的根节点,是指城市基础设施突发事件中的第一个所反映的城市基础设施问题的文本包含反映城市基础设施突发事件原因或结果的语义关键词的工单。
相比现有的技术,本发明不仅仅考虑时间和空间维度,还加入了语义维度来全面权衡工单的相似性。根据城市基础设施的诉求数据的自身特性,语义内容作为描述工单的重要属性,理应被考虑到检测突发事件的聚类算法中。相比一般的聚类算法,本发明的创新之处是结合文本处理做了语义、空间和时间三个维度上的聚类。在事件发生之后用本发明能迅速地找到问题的根本并快速地解决它,而且本发明充分地利用了市民反映的真实的信息,既来源于12319城市管理服务热线系统,也可以被应用到12319城市管理服务热线系统中,给人们带来更多的便利。
附图说明
图1是基于聚类的城市基础设施突发事件的检测方法的流程图;
图2(a)是对选定的工单做语义聚类的结果图;
图2(b)是图2(a)的单独一种语义聚类的效果图;
图2(c)是对图2(b)包含的工单做空间聚类的效果图;
图2(d)是对图2(c)包含的工单做时间聚类的效果图;
图3是城市基础设施——燃气的突发事件和灰度映射的示意图;
图4是城市基础设施——自来水的突发事件和灰度映射的示意图;
图5是使用突发事件的根节点显示突发事情分布情况的效果图;
图6是用本发明检测到2010年自来水基础设施的工单数据中的特大型突发事件;
图7是图6中严重突发事件的3个工单的详细内容的示意图。
具体实施方式
本发明提供一种基于聚类的城市基础设施突发事件的检测方法,主要考虑聚类对象的语义内容、空间和时间3个维度的聚类算法来检测城市基础设施的突发事件。下面结合附图和具体实施例(以天津12319城市管理服务热线系统为例)对本发明技术方案作进一步详细描述。本发明方法包括以下步骤:
步骤一、利用天津12319城市管理服务热线系统接收市民反映城市基础设施问题的电话,然后,将该电话内容记录到一工单数据库中,所述工单数据库至少包括以下内容:
工单编号、接收工单的时间、工单反映的问题所涉及到的城市基础设施的类别、描述该电话所反映的城市基础设施问题的文本和该电话所反映的城市基础设施问题的地址;其中,所述工单反映的问题所涉及到的城市基础设施的类别包括供热、自来水、燃气、排水和供热,城市基础设施问题的地址是层级的。
根据12319系统数据的特征,尽管现有聚类方法大多只考虑时间和空间2个维度,但本发明提供一种考虑聚类对象的语义内容、空间和时间3个维度的聚类算法来检测城市基础设施的突发事件。
步骤二、如图1,根据接收工单的时间和工单反映的问题所涉及到的城市基础设施的类别对工单数据库进行筛选;
使用中文分词技术对所筛选出的工单提取工单描述的电话所反映的城市基础设施问题的文本中的语义关键词,所述语义关键词是城市基础设施问题的原因或结果的词语;对语义关键词的要求是它们必须反映工单文本内容的本质问题,如“漏气”;所以工单的语义关键词是工单的主题的主要贡献者,判断2个工单在语义内容上是否相近,等价于判断工单的语义关键词是否相近。使用中文分词技术提取出工单语义内容的语义关键词,该分词技术的技术是检查一个句子中是否有词库中的词并记录这些词。所述词库是在充分了解和熟悉了工单数据库之后定义的,它包含反映城市基础设施问题的语义关键词,如“燃气设施”、“燃气事故”和“漏气”。整理对应的语义关键词间的因果关系,用于定义城市基础设施突发事件在语义内容这一维度上的种类;如图1所示,提取了语义关键词之后,还需要整理关键词间的因果关系。上述总结的语义关键词分为表示突发事件语义原因的关键词和表示突发事件结果的关键词,例如“燃气事故”导致“无气”;这两类语义关键词存在一定的因果关系,这样的因果关系就构成了突发事件的语义内容,所以本发明规定用原因、结果关键词的因果关系来定义突发事件在语义内容这一维度上的种类。
使用中文分词技术对所筛选出的工单提取工单所反映的城市基础设施问题的地址中的地址关键词,从而提取出工单所反映的城市基础设施问题的地址的每个层级的地址单元;工单的地址信息大多是层级的,如“河西区黑牛城道纯雅公寓1号楼4门202”;本步骤就是为了提取出每个层级的地址单元,如“河西区”、“黑牛城道”、“纯雅公寓”。
步骤三、如图1,对步骤二处理后的工单进行语义聚类:
根据工单的语义关键词的提取统计信息和整理的语义关键词间的因果关系把工单归到匹配的城市基础设施突发事件语义种类中,从而得到在语义层面上的聚类。给步骤二处理后的每条工单设一个数组PREPAREMASK,其数据结构通过一个例子展示。假设现在总结的共有3种因果关系,所以PREPAREMASK数组中有3个元素,表示特定的城市基础设施的突发事件的语义种类的个数;因为每个突发事件在语义维度上用原因、结果关键词的因果关系来定义,所以PREPAREMASK数组的每个元素是包含2个数值的数组,第一个数值记录特定突发事件的原因关键词在工单语义内容中出现的次数,相应的第二个数值记录特定突发事件的结果关键词在工单语义内容中出现的次数。所以PREPAREMASK的结构是如[[1,0],[1,1],[0,2]]这样的形式,广义的说是n*2格式的,n是特定基础设施的突发事件的语义种类的个数。当一条工单中出现了某种突发事件语义上的原因的关键词,就给PREPAREMASK中表征这个原因的数值量加1;当出现了某种突发事件语义上的结果的关键词,就给PREPAREMASK中表征这个结果的数值量加1。所以[[1,0],[1,1],[0,2]]就表示这个工单的语义内容中出现了0号突发事件的一种语义的原因,1号突发事件的一种语义的原因和一种语义的结果,2号突发事件的两种语义的结果。本发明在熟悉数据库之后规定每个突发事件语义种类的原因关键词只有一种,但结果关键词有多种;即一种原因可以导致多种结果。
对筛选的工单做语义聚类时,依据工单的PREPAREMASK数组做判断,把工单归到适合的突发事件语义种类中(以燃气基础设施为例,定义筛选出的工单集合为B):
如果工单反映的城市基础设施问题的文本中包括步骤二确定的某种反映城市基础设施突发事件的原因的语义关键词,则将该工单归到这种城市基础设施突发事件中;
如果工单反映的城市基础设施问题的文本中同时出现了多个反映不同类别的城市基础设施突发事件的原因的语义关键词,则将该工单归到这些城市基础设施突发事件中含有反映城市基础设施突发事件的结果的语义关键词最多的城市基础设施突发事件中;具体的说,如果集合B中的工单C的PREPAREMASK[j][0]=1且PREPAREMASK[j][1]是语义原因值为1的突发事件中的最大结果值,那么C的聚类编号则为j。其中j是PREPAREMASK的index,PREPAREMASK中的元素是按突发事件优先级排序的,所以j代表的是燃气基础设施下的突发事件的编号,可能是0,1,2,3(因为本发明规定燃气基础设施有4种语义突发事件种类,这是整理语义关键词时整理得到的)。
如果工单反映的城市基础设施问题的文本中只出现了反映城市基础设施突发事件的结果的语义关键词X,则在该工单的接收时间的前后2天内找在语义上出现了和上述结果的语义关键词有因果关系的原因的语义关键词的工单,如果找到的符合条件的工单已经归到相应的城市基础设施突发事件中,则把该工单也归到这种城市基础设施突发事件中;如果没有找到符合条件的工单,则把该工单归到包含结果的语义关键词X的城市基础设施突发事件,且该城市基础设施突发事件是所有包含结果的语义关键词X的城市基础设施突发事件中优先级最高的城市基础设施突发事件;城市基础设施突发事件的优先级是规定城市基础设施突发事件发生后需要做出反应并解决的紧急程度;如“燃气事故”这样的突发事件的优先级就高于“燃气设施”这样的突发事件。
如果工单反映的城市基础设施问题的文本中没有任何反映城市基础设施突发事件的原因或结果的语义关键词,则该条工单在语义上不属于任何城市基础设施突发事件。
图2(a)、图2(b)、图2(c)和图2(d)是选取了燃气基础设施下的同一个工单集合来说明聚类的过程,图中的点是工单在地图上的映射(依据工单的地址信息);这些图中不直的线构成了天津市区的边界图,市内六区包括和平区、南开区、红桥区、河北区、河东区和河西区。燃气的突发事件和灰度映射关系如图3,可以看出燃气基础设施下共有4种语义类型的突发事件“燃气事故”、“燃气设施”、“截门”和“燃气表”,由于各个类型的突发事件有不同的原因关键词,所以使用原因关键词做突发事件的标志。对筛选出来的燃气基础设施下的工单做语义聚类之后得到了4种突发事件,如图2(a)所示,有4种不同灰度的点。因为很多工单有可能发生在相同的或者相邻的地理位置,所以图中有点覆盖的现象。
步骤四、如图1,对步骤三中得到的语义层面上的每个聚类进行空间聚类,从而得到在空间层面上的聚类:
遍历每个聚类中的工单,判断聚类中有相同的地址关键词(如道、路、街、大街、里、小区、花园、公寓、庄)的工单的个数是否大于等于3,当聚类中有相同的地址关键词的工单的个数大于等于3时,则初步认定这些工单的集合成为一个城市基础设施突发事件;当聚类中有相同的地址关键词的工单的个数小于3时,定义一个最大经纬度距离D,遍历该聚类中的所有工单,如果两条工单的经纬度距离d大于0而小于等于D,则把它们归为一个空间层面上的聚类。遍历后,要求空间层面上的聚类包含的工单的个数大于等于3;否则,舍弃这样的空间层面上的聚类;
为了能更好地用图说明空间聚类的过程,从图2(a)中抽取一种语义集合(效果如图2(b))做空间聚类之后能够发现局部有一些空间聚类,如图2(c)。
步骤五、根据图1的流程图,时间聚类是检测城市基础设施突发事件的聚类算法的最后一步聚类。对步骤四中得到的空间层面上的每个聚类进行时间聚类,从而得到在时间层面上的聚类:
设定时间聚类中最大的时间尺度为5天(一个日期的前后2天),空间层面上的每个聚类中的工单可能在同一天或者相邻的天数内被接收,统计空间层面上的每个聚类中的所有工单的被接收的时间,得到所有的日期、每个日期对应的出现的次数和接收时间是该日期的所有工单的集合;按照日期出现的次数从大到小对日期排序后得到日期的集合F,遍历日期的集合F的每个日期Y,如果日期的集合F中,存在与日期Y相差前后2天内的日期Z,则将空间层面上的聚类中接收时间在日期Y和Z的工单聚在一起,并从日期的集合F将日期Y和日期Z删除;如果日期的集合F中,不存在与日期Y相差前后2天内的日期,则遍历日期的集合F中的下一个日期。遍历后,得到在时间层面上的聚类,要求它们包含的工单的个数大于等于3;否则,舍弃这样的时间层面上的聚类。
举例来说,次数和日期的分布是(4,G),(2,H),(1,I),(1,J),是按次数从大到小排序,G日期出现了4次。找相邻的聚类就是找一个日期的前后2天的日期,假定H=G–1,且I=H–2,J=G+1,加法表示是一个日期的后一天,减法表示是一个日期的前一天。所以G和H相邻,H和I相邻,G和J相邻但是G和I不相邻。所以,遍历G,H,I,J之后,H是和G聚在一起,还是和I聚在一起就看谁的出现次数更大了。G的次数最大,所以优先考虑G,最后得到的分类结果是(7,G,H,J),(0,H),(1,I),(0,J),H,J的次数被加到G的数组上;接着看H,由于它的次数是0说明它已经被加到别的聚类了,所以跳过;再看I,它虽然和H相邻,但H已经和G聚在一起;J的情况和H相似。所以时间的聚类结果是G,H,J为一类,I为一类;最后要验证聚类的工单个数大于等于3的条件,一类的日期总出现次数其实就是这个时间聚类中的工单个数,所以只有G,H,J的聚类满足条件,将空间层面上的聚类中接收时间在日期G,H,和J的工单聚在一起。
对图2(c)中的所有聚类的工单接着做时间聚类,可以发现由于时间上相近的要求和一个聚类的工单个数大于等于3的硬性指标去除了图2(c)中的大部分工单,如图2(d),经过语义、空间和时间上的聚类得到了在语义、空间和时间维度上都相近的工单的集合。
步骤六、突发事件可视设计。可视设计是指用可视分析的方案来获取信息,而可视分析是一种用交互式界面进行推理分析的科学,相比于文字信息,可视化的方法更为直接,让人更深入地理解信息。认定步骤五中得到的时间层面上的聚类是城市基础设施突发事件,用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分布,从而检测出城市基础设施突发事件;所述的城市基础设施突发事件的根节点,是指城市基础设施突发事件中的第一个所反映的城市基础设施问题的文本包含反映城市基础设施突发事件原因或结果的语义关键词的工单。
在整个聚类过程完成后,得到了在语义内容、空间和时间3个维度上都相近的工单的聚类。如果仅仅使用将工单映射成地图上的点的方案来展示一个突发事件,那么在地图上工单点的覆盖很严重影响到突发事件的识别。为了很好的展示选定的时间段和选定的城市基础设施下的突发事件的分布情况,本发明用突发事件根节点的方案展示多突发事件的分布。对一个突发事件,城市基础设施发生故障之后,总会有第一个打电话反映这个事件相关问题的市民。随着时间的推移,会有越来越多的人反映这个事件。第一个真正反映突发事件原因或结果的工单对这个突发事件是非常重要的,它就像是一个突发事件的源头,本发明定义为突发事件的根节点。这个根节点也属于突发事件中的一个工单,所以它不会导致整个突发事件的地理位置信息有特别大的损失,效果图如图5所示,图5的聚类结果的工单来源于城市基础设施——自来水。突发事件的严重程度是突发事件的优先级和突发事件包含的工单的个数共同决定的,即突发事件的优先级别越高、包含的工单个数越多,突发事件的严重程度越高;反之。以突发事件根节点为圆心画一个圆,突发事件根节点的圆圈的不透明度和突发事件中的工单的个数成正比,具体映射关系如下:
opacity=casesNumber/maxCasesNumber*0.7+0.2
其中opacity是当前突发事件根节点圆圈的不透明度值,opacity取值范围是0~1;casesNumber是当前突发事件包含的工单的个数;和当前突发事件在同一时间段和相同基础设施条件下聚类得出的所有突发事件中,包含工单的个数的最大值是maxCasesNumber。各个突发事件的工单个数各有不同,为了减小这种差异和满足opacity的取值范围,用casesNumber/maxCasesNumber这种比值的方法使得opacity大于0.2(当casesNumber达到最小值3),小于等于0.9(当casesNumber达到最大值maxCasesNumber)。
这样的方式使得突发事件根节点的圆圈不会完全透明而在地图上显现不出,也不会完全不透明而覆盖相同的或者相邻的地理位置上的突发事件根节点的圆圈。也就是说,突发事件根节点的圆圈越不透明,突发事件的工单数越多;反之。而且这种方法也适当缓解了突发事件根节点的圆圈间的覆盖现象。
突发事件根节点的圆圈的灰度反映了突发事件的语义种类,燃气和自来水基础设施的映射关系分别如图3和图4。更加明显地区别突发事件的语义种类,在图5中用引线做标识,除了有引出的箭头的三个突发事件根节点的圆圈是“管道”类型的突发事件;图中的其他事件都是“施工”类型的突发事件。在图5中之所以只出现了两种语义类型的突发事件是因为系统只选择显示这2种突发事件。
突发事件根节点的圆圈的半径和突发事件的影响范围成正比,具体映射关系如下:
eventsRadius=casesDistance/maxCasesDistance*dMax+dBegin
其中eventsRadius是当前突发事件根节点圆圈的半径;casesDistance是当前突发事件中最远的两点(对应于两个工单)间经纬度距离;和当前突发事件在同一时间段和相同基础设施条件下聚类得出的所有突发事件中,最远的两点间经纬度距离最大的是maxCasesDistance;dMax限制的是突发事件根节点的圆圈的最大半径;dBegin限制的是突发事件根节点的圆圈的最小半径;dMax和dBegin都是经验值。eventsRadius的计算原理和突发事件根节点的圆圈的不透明度的设定原理相似。虽然根节点的方案用突发事件根节点的圆圈的不透明度和半径缓解了突发事件根节点的圆圈间的覆盖现象,但是图5还是有一些圆圈覆盖的情况,这是不可完全避免的。
本发明规定,对于各种优先级的突发事件,当其根节点的圆圈的不透明度大于等于0.7(经验值)时,这样的突发事件就是严重的。为了能够在地图上更加突显严重的突发事件,给这样的突发事件根节点的圆圈在外部加一个有灰度的圆环,如图5中的A事件,A外部被一个有灰度的圆环包围,使得它很容易被决策者观察到。
附图中的图5、图6和图7都是选取了自来水基础设施;自来水的突发事件和灰度的映射关系如图4,可以看出自来水基础设施下共有6种语义类型的突发事件“管道”、“施工”、“二次供水”、“口径”、“截门”和“水表”。
本发明是从处理对象——工单出发,从图1也可以看出来这个基于聚类的城市基础设施突发事件的最终目的是,检测出城市基础设施突发事件,从而可以做出更快更明智的决策来解决城市基础设施的问题。在经过语义和地址关键词的处理和语义、空间、时间聚类后,对得到的突发事件做可视分析设计,通过根节点的方案可以更深入地看到突发事件在地图上的分布情况、更直观地在突发事件中发现严重的突发事件,如图5;所以突发事件的可视分析设计让用户在突发事件发生后很快地得知突发事件的具体原因、相应后果和发生的位置,帮助其决策。
研究材料.2010年1月大雪
在熟悉工单数据库后,发现自来水基础设施在2010年1月份左右的工单数要比前后2个月的工单数多很多,通过历史材料发现这个月发生了特大型的自来水管道冻裂事件。用本发明提供的基于聚类的城市基础设施突发事件的检测方法,可以很好地验证2010年1月的暴雪导致了天津市和平区和河西区的自来水管道冻裂事件。首先,筛选时间段为2010年1月、基础设施为自来水的工单,定义为集合T。具体聚类步骤如下:
1.提取T中工单的语义关键词;
2.整理上述步骤2得到的语义关键词的因果关系;
3.提取T中工单的地址关键词;
4.针对T中所有工单进行语义聚类;
5.针对上述步骤4得到的所有语义维度上的集合进行空间聚类;
6.针对上述步骤5得到的所有空间维度上的集合进行时间聚类;
7.对上述步骤6得到的所有集合——突发事件做可视设计,如图6所示。从图6中可以直观地发现相比其他突发事件根节点的圆圈而言,半径更大、不透明度更大的2个严重的突发事件。它们的语义突发事件类型是“管道”,验证了2010年1月的大雪的确导致了自来水管道冻裂;而且它们的确发生在天津市和平区和河西区。查看图6中的2个严重突发事件的工单的文本内容,如图7,展示了3个工单的信息。这3个工单的工单内容的确反映的是自来水管道冻裂问题。所以如果在2010年1月的大雪发生之后使用本发明提供的聚类方法,就可以检测出是天津市和平区和河西区的自来水管道冻裂事件。
本发明提供的基于聚类的城市基础设施突发事件的检测方法可以检测出特定时间段和基础设施的工单内的突发事件;并提供好的可视设计让用户可以深入地看到突发事件在地图上的分布情况、更直观地在突发事件中发现严重的突发事件;就2010年1月的暴雪这个研究材料,本发明的检测方法让用户在暴雪发生后很快地得知是暴雪导致了自来水管道冻裂事件、这些管道冻裂事件又导致了市区无水、管道跑水等问题、以及管道冻裂事件主要发生在天津市和平区和河西区等有利的信息,帮助其决策。同时,2010年1月的暴雪也是一个有力证明本发明的检测方法的有效性的研究材料。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。
Claims (1)
1.一种基于聚类的城市基础设施突发事件的检测方法,其特征在于:
步骤一、利用城市管理服务热线系统接收市民反映城市基础设施问题的电话,然后,将该电话内容记录到一工单数据库中,所述工单数据库至少包括以下内容:
工单编号、接收工单的时间、工单反映的问题所涉及到的城市基础设施的类别、描述该电话所反映的城市基础设施问题的文本和该电话所反映的城市基础设施问题的地址;其中,所述工单反映的问题所涉及到的城市基础设施的类别包括供热、自来水、燃气、排水和供热,城市基础设施问题的地址是层级的;
步骤二、根据接收工单的时间和工单反映的问题所涉及到的城市基础设施的类别对工单数据库进行筛选;
使用中文分词技术对所筛选出的工单提取工单描述的电话所反映的城市基础设施问题的文本中的语义关键词,所述语义关键词是城市基础设施问题的原因或结果的词语;整理对应的语义关键词间的因果关系,用于定义城市基础设施突发事件在语义内容这一维度上的种类;
使用中文分词技术对所筛选出的工单提取工单所反映的城市基础设施问题的地址中的地址关键词,从而提取出工单所反映的城市基础设施问题的地址的每个层级的地址单元;
步骤三、对步骤二处理后的工单进行语义聚类:
根据工单的语义关键词的提取统计信息和整理的语义关键词间的因果关系把工单归到匹配的城市基础设施突发事件语义种类中,从而得到在语义层面上的聚类,包括:
如果工单反映的城市基础设施问题的文本中包括步骤二确定的某种反映城市基础设施突发事件的原因的语义关键词,则将该工单归到这种城市基础设施突发事件中;
如果工单反映的城市基础设施问题的文本中同时出现了多个反映不同类别的城市基础设施突发事件的原因的语义关键词,则将该工单归到这些城市基础设施突发事件中含有反映城市基础设施突发事件的结果的语义关键词最多的城市基础设施突发事件中;
如果工单反映的城市基础设施问题的文本中只出现了反映城市基础设施突发事件的结果的语义关键词X,则在该工单的接收时间的前后2天内找在语义上出现了和上述结果的语义关键词有因果关系的原因的语义关键词的工单,
如果找到的符合条件的工单已经归到相应的城市基础设施突发事件中,则把该工单也归到这种城市基础设施突发事件中;
如果没有找到符合条件的工单,则把该工单归到包含结果的语义关键词X的城市基础设施突发事件,且该城市基础设施突发事件是所有包含结果的语义关键词X的城市基础设施突发事件中优先级最高的城市基础设施突发事件;城市基础设施突发事件的优先级是规定城市基础设施突发事件发生后需要做出反应并解决的紧急程度;
如果工单反映的城市基础设施问题的文本中没有任何反映城市基础设施突发事件的原因或结果的语义关键词,则该条工单在语义上不属于任何城市基础设施突发事件;
步骤四、对步骤三中得到的语义层面上的每个聚类进行空间聚类,从而得到在空间层面上的聚类:
遍历每个聚类中的工单,判断聚类中有相同的地址关键词的工单的个数是否大于等于3,
当聚类中有相同的地址关键词的工单的个数大于等于3时,则初步认定这些工单的集合成为一个城市基础设施突发事件;
当聚类中有相同的地址关键词的工单的个数小于3时,定义一个最大经纬度距离D,遍历该聚类中的所有工单,如果两条工单的经纬度距离d大于0而小于等于D,则把它们归为一个空间层面上的聚类;
遍历后,要求空间层面上的聚类包含的工单的个数大于等于3;否则,舍弃这样的空间层面上的聚类;
步骤五、对步骤四中得到的空间层面上的每个聚类进行时间聚类,从而得到在时间层面上的聚类:
设定时间聚类中最大的时间尺度为5天,空间层面上的每个聚类中的工单可能在同一天或者相邻的天数内被接收,统计空间层面上的每个聚类中的所有工单的被接收的时间,得到所有的日期、每个日期对应的出现的次数和接收时间是该日期的所有工单的集合;按照日期出现的次数从大到小对日期排序后得到日期的集合F,遍历日期的集合F的每个日期Y,
如果日期的集合F中,存在与日期Y相差前后2天内的日期Z,则将空间层面上的聚类中接收时间在日期Y和Z的工单聚在一起,并从日期的集合F将日期Y和日期Z删除;
如果日期的集合F中,不存在与日期Y相差前后2天内的日期,则遍历日期的集合F中的下一个日期;
遍历后,得到在时间层面上的聚类,要求它们包含的工单的个数大于等于3;否则,舍弃这样的时间层面上的聚类;
步骤六、认定步骤五中得到的时间层面上的聚类是城市基础设施突发事件,用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分布,从而检测出城市基础设施突发事件;所述的城市基础设施突发事件的根节点,是指城市基础设施突发事件中的第一个所反映的城市基础设施问题的文本包含反映城市基础设施突发事件原因或结果的语义关键词的工单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410525969.0A CN104299182B (zh) | 2014-10-08 | 2014-10-08 | 基于聚类的城市基础设施突发事件的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410525969.0A CN104299182B (zh) | 2014-10-08 | 2014-10-08 | 基于聚类的城市基础设施突发事件的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104299182A true CN104299182A (zh) | 2015-01-21 |
CN104299182B CN104299182B (zh) | 2017-12-19 |
Family
ID=52318903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410525969.0A Active CN104299182B (zh) | 2014-10-08 | 2014-10-08 | 基于聚类的城市基础设施突发事件的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104299182B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894250A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105894247A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105894199A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105913169A (zh) * | 2016-03-31 | 2016-08-31 | 国网北京市电力公司 | 工单处理方法及装置 |
CN106056515A (zh) * | 2016-05-27 | 2016-10-26 | 广东亿迅科技有限公司 | 一种社区网格事件聚类特征的提取方法 |
CN109657240A (zh) * | 2018-12-12 | 2019-04-19 | 中国移动通信集团江苏有限公司 | 确定故障类型的方法、装置、设备和介质 |
CN110442873A (zh) * | 2019-08-07 | 2019-11-12 | 云南电网有限责任公司信息中心 | 一种基于cbow模型的热点工单获取方法及装置 |
CN112131382A (zh) * | 2020-08-20 | 2020-12-25 | 彭涛 | 民生问题高发地的识别方法、装置及电子设备 |
CN112947278A (zh) * | 2021-02-26 | 2021-06-11 | 南京伯罗奔尼能源管理有限公司 | 二次供水自控系统 |
CN112131382B (zh) * | 2020-08-20 | 2024-05-10 | 彭涛 | 民生问题高发地的识别方法、装置及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101971B (zh) * | 2020-11-19 | 2021-05-11 | 佰聆数据股份有限公司 | 敏感客户识别方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890792A (zh) * | 2011-07-20 | 2013-01-23 | 北京源汇远科技有限公司 | 市政排水管网决策评估方法 |
CN103390039A (zh) * | 2013-07-17 | 2013-11-13 | 北京建筑工程学院 | 基于网络信息的城市灾害专题图实时生成的方法 |
CN103443819A (zh) * | 2012-03-30 | 2013-12-11 | 株式会社东芝 | 社会基础设施控制系统、服务器、控制装置、控制方法以及程序 |
-
2014
- 2014-10-08 CN CN201410525969.0A patent/CN104299182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890792A (zh) * | 2011-07-20 | 2013-01-23 | 北京源汇远科技有限公司 | 市政排水管网决策评估方法 |
CN103443819A (zh) * | 2012-03-30 | 2013-12-11 | 株式会社东芝 | 社会基础设施控制系统、服务器、控制装置、控制方法以及程序 |
CN103390039A (zh) * | 2013-07-17 | 2013-11-13 | 北京建筑工程学院 | 基于网络信息的城市灾害专题图实时生成的方法 |
Non-Patent Citations (3)
Title |
---|
于利霞: "天津市城建服务热线的数据分析系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
孙芳: "数据挖掘在宽带客户报修数据分析中的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
袁长生: "天津市市政设施GIS构建与应用", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894250A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105894247A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105894199A (zh) * | 2016-03-31 | 2016-08-24 | 国网北京市电力公司 | 工单处理方法及装置 |
CN105913169A (zh) * | 2016-03-31 | 2016-08-31 | 国网北京市电力公司 | 工单处理方法及装置 |
CN106056515A (zh) * | 2016-05-27 | 2016-10-26 | 广东亿迅科技有限公司 | 一种社区网格事件聚类特征的提取方法 |
CN109657240A (zh) * | 2018-12-12 | 2019-04-19 | 中国移动通信集团江苏有限公司 | 确定故障类型的方法、装置、设备和介质 |
CN110442873A (zh) * | 2019-08-07 | 2019-11-12 | 云南电网有限责任公司信息中心 | 一种基于cbow模型的热点工单获取方法及装置 |
CN112131382A (zh) * | 2020-08-20 | 2020-12-25 | 彭涛 | 民生问题高发地的识别方法、装置及电子设备 |
CN112131382B (zh) * | 2020-08-20 | 2024-05-10 | 彭涛 | 民生问题高发地的识别方法、装置及电子设备 |
CN112947278A (zh) * | 2021-02-26 | 2021-06-11 | 南京伯罗奔尼能源管理有限公司 | 二次供水自控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104299182B (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104299182A (zh) | 基于聚类的城市基础设施突发事件的检测方法 | |
Casali et al. | Machine learning for spatial analyses in urban areas: a scoping review | |
Yu et al. | Analysis of factors influencing safety management for metro construction in China | |
CN106096623A (zh) | 一种犯罪识别与预测方法 | |
CN105678481A (zh) | 一种基于随机森林模型的管线健康状态评估方法 | |
Liu et al. | Using a new approach for revealing the spatiotemporal patterns of functional urban polycentricity: A case study in the Tokyo metropolitan area | |
CN104484993A (zh) | 用于交通小区划分的手机信令信息的处理方法 | |
CN102222169A (zh) | 一种城市供水管网爆管预测分析方法 | |
CN110111539B (zh) | 一种融合多元信息的物联网云预警方法、装置及系统 | |
CN103838825A (zh) | 一种全球地名数据整合与代码编制方法 | |
CN112182234B (zh) | 流域防洪规划数据知识图谱构建方法 | |
KR102249524B1 (ko) | 데이터 기반 공간분석을 이용한 민원 발생 예측관리 장치 및 방법 | |
CN111966746B (zh) | 一种气象防灾减灾流程监控系统及其监控方法 | |
KR20170025454A (ko) | 소셜 미디어 데이터의 시공간 분석 시스템 및 방법 | |
Zhang et al. | Detecting colocation flow patterns in the geographical interaction data | |
Yuan et al. | Recognition of functional areas based on call detail records and point of interest data | |
Shi et al. | Exploring the evolutionary patterns of urban activity areas based on origin-destination data | |
Farris et al. | On the role of serial correlation and field significance in detecting changes in extreme precipitation frequency | |
Dong et al. | Spatiotemporal characteristics of Chinese metro-led underground space development: A multiscale analysis driven by big data | |
Kirstein et al. | Simplification of water distribution network simulation by topological clustering–investigation of its potential use in Copenhagen's water supply monitoring and contamination contingency plans | |
Chen et al. | A new urban change detection method based on the local G and local spatial heteroscedasticity statistics | |
CN113408867A (zh) | 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法 | |
CN106056515A (zh) | 一种社区网格事件聚类特征的提取方法 | |
Meller et al. | Use of noise prediction models for road noise mapping in locations that do not have a standardized model: A systematic review | |
Kaoje | Application of Geographical Information System Techniques in Urban Flood Risk Assessment and Vulnerability Mapping. A Case Study of Cardiff, Wales |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |