CN111627209A - 交通流量数据聚类、补偿方法及设备 - Google Patents

交通流量数据聚类、补偿方法及设备 Download PDF

Info

Publication number
CN111627209A
CN111627209A CN202010471172.2A CN202010471172A CN111627209A CN 111627209 A CN111627209 A CN 111627209A CN 202010471172 A CN202010471172 A CN 202010471172A CN 111627209 A CN111627209 A CN 111627209A
Authority
CN
China
Prior art keywords
traffic flow
type information
data
vectors
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010471172.2A
Other languages
English (en)
Inventor
杨海强
赵东杰
刘银华
李宪
葛树志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202010471172.2A priority Critical patent/CN111627209A/zh
Publication of CN111627209A publication Critical patent/CN111627209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供交通流量数据聚类、补偿方法及设备,其中所述交通流量数据聚类方法包括:获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,所述交通流向量表示其对应时段内的交通流量及其变化趋势;根据各个所述交通流向量的相似性将其划分为多个类;生成交通流模式数据表,其中包括各个所述交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。

Description

交通流量数据聚类、补偿方法及设备
技术领域
本发明涉及智能交通领域,具体涉及一种交通流量数据聚类、补偿方法及设备。
背景技术
随着城市智能交通系统的成熟与发展,大量的交通检测器也同时配套建设,如电子警察、感应线圈、微波、雷达等设备。这些设备能够实时检测交通流量信息,为交通信号控制方案制定、交通流状态监测、交通诱导路径规划等智能交通应用提供支撑。
然而,由于设备可靠性差、网络状态不稳定,导致这些交通检测器设备会短暂或者长期失效,维护检修需要几天甚至更长时间,而在这阶段内没有任何有效的交通流量数据被采集上传,导致信号控制、交通诱导等应用缺少数据支撑无法正常开展,极大影响交通正常运行。在这种情况下,交管部门通常采用两种对应方案:一种是采用固定的信号配时或交通诱导方案,无法保证良好效果;另一种是派出警力进行疏导管控,耗费大量人力。
发明内容
有鉴于此,本发明提供一种交通流量数据聚类方法,包括:
获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,所述交通流向量表示其对应时段内的交通流量及其变化趋势;
根据各个所述交通流向量的相似性将其划分为多个类;
生成交通流模式数据表,其中包括各个所述交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。
可选地,所述时段为自然日,所述交通流向量包括以设定时间间隔统计一个自然日的多个交通流量值
Figure BDA0002514343420000011
其中t表示时间间隔的取值,x是基于t确定的交通流量值的数量。
可选地,根据各个所述交通流向量的相似性将其划分为多个类,包括:
通过调整给定聚类数量,计算各个所述交通流向量的相似性及其变化程度;
根据所述相似性的变化程度确定聚类数量;
利用k均值聚类算法根据确定的聚类数量将所述多个交通流向量划分为多个类。
可选地,按照如下步骤确定聚类数量:
步骤1,获取当前聚类数量k,则其第i类(1≤i≤k)中包含的全部交通流向量为
Figure BDA0002514343420000021
表示第i类中有n个交通流向量;
步骤2,计算各类中的交通流向量的相似性di
步骤3,计算全部k个聚类的相似性dk
Figure BDA0002514343420000022
步骤4,根据步骤1至步骤3,计算当划分为k+1类时的相似性dk+1
步骤5,计算从划分为k类到k+1时,相似性的变化程度
Figure BDA0002514343420000023
步骤6,按照步骤1至步骤4依次轮流赋值k,分别计算R值,当R值小于设定阈值时,确定当前的k值为聚类数量。
可选地,在步骤2中按照如下方式计算相似性di
Figure BDA0002514343420000024
其中,
Figure BDA0002514343420000025
代表第i类里的第j个交通流向量,
Figure BDA0002514343420000026
表示第i类里所有交通流向量的均值,
Figure BDA0002514343420000027
可选地,所述交通流向量为多维向量,
Figure BDA0002514343420000028
表示计算两个多维向量的欧氏距离。
本发明还提供一种缺失交通流量数据补偿方法,包括:
获取根据上述交通流量数据聚类方法生成的交通流模式数据表;
获取缺失数据对应的时间类型信息和/或天气类型信息;
通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型;
基于构建所述交通流模式数据表的交通流向量,计算所述缺失数据所属类型的交通流向量作为数据补偿结果。
可选地,所述缺失数据所属类型的交通流向量为
Figure BDA0002514343420000029
其中i表示缺失数据所属类型,t表示时间间隔的取值,x是基于t确定的交通流量值的数量,
Figure BDA00025143434200000210
表示第i类中全部交通流向量中第一个统计时间间隔的交通流量值的均值,
Figure BDA0002514343420000031
依次类推。
可选地,通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型,包括:
按照如下方式分别计算所述缺失数据属于各种类型的概率:
Figure BDA0002514343420000032
其中i分别取所述数据表中的全部类型,s表示所述时间类型信息和/或天气类型信息;
确定所述概率中的最大值对应的类型为所述缺失数据所属的类型。
相应地,本发明提供一种交通流量数据聚类方法设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述交通流量数据聚类方法。
相应地,本发明提供一种缺失交通流量数据补偿方法,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述缺失交通流量数据补偿方法。
本发明提供的交通流量数据聚类、补偿方法及设备通过对历史交通流数据的分析,挖掘其流量值和变化趋势张红存在共性模式,能够全面客观反映交通检测器采集数据中隐含的规律特征,能够作为对数据长期缺失的补偿依据;
本发明针对城市交通检测器大量存在的数据缺失问题,设计了可以量化计算的数据补偿方法,不仅能够补偿偶然性的少量缺失数据,也能够补偿检测器损坏后的长期性缺失数据,能够有效支撑交通信号控制、交通诱导等交管应用的开展。同时,本发明在避免交通秩序混乱、提高交通运行效率以及缓解交通拥堵等方面具有十分重要的参考应用价值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的交通流量数据聚类方法的流程图;
图2为根据本发明实施例的缺失交通流量数据补偿方法的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供一种交通流量数据聚类方法,可以由计算机或服务器等电子设备执行,如图1所示该方法包括:
S1A,获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,交通流向量表示其对应时段内的交通流量及其变化趋势。交通流向量是基于电子警察、感应线圈、微波、雷达等交通监测设备采集的数据进行融合得到的数据。
交通流向量是一个多维向量,其中包括多个交通流量值
Figure BDA0002514343420000041
其中t表示时间间隔的取值,x是基于t确定的交通流量值的数量。作为示例性的说明,本实施例的交通流向量表示一个自然日(24小时)的交通流量及其变化趋势,为了衡量这种趋势,本发明以自然日为最小单位,检测交通流量的波动趋势。将交通流及其变化趋势表征为24小时内的多维向量,比如
Figure BDA0002514343420000042
或者
Figure BDA0002514343420000043
Figure BDA0002514343420000044
其中,Qi是指第i个时间间隔内的交通流量值,当时间间隔取值为5分钟时,0≤i≤288,当时间间隔取值为10分钟时,0≤i≤144。
由此,一个交通流向量Q5min或者Q10min即表示一个自然日的交通流量及其变化趋势。据此,将检测器的历史交通流数据转换为上述多维向量,每个向量可代表每日的交通流量及其变化趋势,比如积累3个月的历史数据,即得到90个288维或144维向量。
通过日历和历史天气数据可以获得时间类型信息和/或天气类型信息,这些信息可以被视为对交通流向量的属性赋值。作为示例性的说明,本实施例的属性值包括两类即时间类和天气类。其中,天气类型包括三类天气,即晴(赋值1)、雨(赋值2)、雪(赋值3);时间类型包括所属星期和日类型,所属星期包括星期一至星期日,分别赋值1-7,而日类型包括三种,即工作日(赋值1)、周末(赋值2)、节假日(赋值3)。可通过如下表格展示交通流向量与上述类型信息的对应关系:
Figure BDA0002514343420000051
其中序号表示交通流向量的序号,所属星期和日类型均为时间类型信息,比如第一个自然日的Q5min或者Q10min,对应星期一(赋值1)、工作日(赋值1)、晴(赋值1)等等。
S2A,根据各个交通流向量的相似性将其划分为多个类。本方案需要挖掘这些向量的共性模式,主要包括相似性度量、聚类数确定、模式聚类等三个方面。可选的聚类算法有多种,聚类时通常需要用到交通流向量的相似性度量。针对任意两个交通流向量,例如
Figure BDA0002514343420000052
Figure BDA0002514343420000053
可利用欧式距离衡量这两个向量之间的相似性,比如:
Figure BDA0002514343420000054
其中,d(p,q)是两个向量间的相似性度量指标,取值越大代表二者的相似性越低,取值越小代表二者的相似性越高。通过分别计算各个交通流向量的相似性,根据其相似度的高低即可对所有的向量进行聚类,聚类数量与所使用的算法和相关阈值的设置有关。
对于划分完的交通流向量种类,每一种即代表一种交通流模式,反映的是历史中相似时间、环境条件下,交通流的大小及变化趋势也区域一致。
S3A,生成交通流模式数据表,其中包括各个交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。作为示例性的说明,交通流模式数据表如下表所示:
Figure BDA0002514343420000061
其中第1、2个交通流向量属于第1类(类型信息为1),第2-7个交通流向量属于第2类(类型信息为2),由此可以得到全部90个向量与其所属类型信息的对应关系。
需要说明的是,步骤S2A中的聚类计算并不需要用到时间类型信息和天气类型信息,因此获取这些信息的操作,也即赋值操作也可以在步骤S3A中执行,本方法不限制这些步骤的执行顺序。
本方案通过对历史交通流数据的分析,挖掘其流量值和变化趋势中存在的共性模式,生成的数据能够全面客观反映交通检测器采集数据中隐含的规律特征,能够作为对数据缺失的补偿依据。
在一个优选的实施例中,步骤S2A中使用k-means(k-means clusteringalgorithm),也称k均值算法对所有交通流向量进行聚类,因此首先需要确定k值,也即聚类的数量(类型的个数)。针对本发明的应用场景而言,聚类的实际个数是未知的,而这又是k-means算法的必须参数,所以本实施例先通过依次轮流赋值的方式确定k值,然后进行聚类,具体地:
通过调整给定聚类数量,计算各个交通流向量的相似性及其变化程度。比如从K=1开始进行调整,当k=1时所有向量属于同一个类型,此时可计算类内的所有向量的相似度记为d1;然后将k调整为2,此时所有向量被分为两类,针对每一类可计算其类内的相似度,然后将两类的相似度求和得到全部聚类的相似度记为d2,然后可以衡量d1与d2的变化程度。
按照上述方式轮流赋值,并根据相似性的变化程度确定聚类数量。相似性的变化程度越小,代表再增加聚类数目,已经无法明显增加聚类划分效果,即减小聚类划分误差。通过设置相似度变化阈值,即可得到符合预期的聚类数量。
利用k均值聚类算法根据确定的聚类数量将多个交通流向量划分为多个类。
关于上述算计相似度的方式,本实施例提供一种优选的方案,按照如下步骤计算相似度并实现确定聚类数量:
步骤1,获取当前聚类数量k,则其第i类(1≤i≤k)中包含的全部交通流向量为
Figure BDA0002514343420000071
表示第i类中有n个交通流向量;
步骤2,计算各类中的交通流向量的相似性di
步骤3,计算全部k个聚类的相似性dk
Figure BDA0002514343420000072
步骤4,根据步骤1至步骤3,计算当划分为k+1类时的相似性dk+1
步骤5,计算从划分为k类到k+1时,相似性的变化程度
Figure BDA0002514343420000073
步骤6,按照步骤1至步骤4依次轮流赋值k,分别计算R值,当R值小于设定阈值时,确定当前的k值为聚类数量。
上述在步骤2中按照如下方式计算相似性di
Figure BDA0002514343420000074
其中,
Figure BDA0002514343420000075
代表第i类里的第j个交通流向量,
Figure BDA0002514343420000076
表示第i类里所有交通流向量的均值,
Figure BDA0002514343420000077
表示计算两个多维向量的欧氏距离,
Figure BDA0002514343420000078
本发明实施例还提供一种交通流量数据聚类设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行上述交通流量数据聚类方法。
本发明还提供了一种缺失交通流量数据补偿方法,基于上述实施例聚类结果的数据表对缺失的交通流向量进行补偿,本方法可以由计算机或服务器等电子设备执行,包括如下步骤:
S1B,获取根据上述实施例的方法生成的交通流模式数据表。为了提高数据补偿的准确性,本方案基于至少三个月的历史数据生成的数据表,即至少90个交通流向量及其天气类型信息和/或时间类型信息、所属聚类的关系表进行数据补偿。
S2B,获取缺失数据对应的时间类型信息和/或天气类型信息。比如缺失的是某个自然日的数据,也即待补偿的数据,通过查询日历和历史天气数据,可以确定该自然日的时间类型信息和/或天气类型信息。作为示例性的说明,与上述实施例一致,即晴(赋值1)、雨(赋值2)、雪(赋值3)中的一个;时间类型包括所属星期和日类型,星期一至星期日(赋值1-7)中的一个,以及工作日(赋值1)、周末(赋值2)、节假日(赋值3)中的一个。
S3B,通过比对缺失数据对应的时间类型信息和/或天气类型信息与交通流模式数据表来确定缺失数据所属的类型。举例来说,比如数据表内容如下:
Figure BDA0002514343420000081
缺失数据的天气和时间类型信息为星期一、工作日、晴(简称为属性),通过查询表格可以发现缺失数据的属性与表中第1个交通流向量的属性完全相同,因此可以判定二者属于同一类。
但是实际情况中由于数据表中有超过90个的大量数据,因此可能存在多个与缺失数据属性相同的项,并且这些项可能不属于同一个类(所属聚类不同),面对此情况可以根据表中这些项的数量确定缺失数据所属的类型。举例来说,比如缺失数据的属性与表格中x个所属聚类为i的交通流向量的属性相同,同时该缺失数据的属性与表格中y个所属聚类为j的交通流向量的属性相同,假设x>y,则表明缺失数据的类型更接近于聚类i,由此可判定其所属类型为聚类i。
S4B,基于构建交通流模式数据表的交通流向量,计算缺失数据所属类型的交通流向量作为数据补偿结果。具体来说,上述数据表中的交通流向量是实际存在的数据,而根据上述步骤确定了缺失数据的类型,也即找到数据表中与缺失数据最接近的一个或多个交通流向量,由此可以将这些交通流向量作为数据补偿结果,视为缺失日的交通流向量。举例来说,比如确定某日的缺失数据所属的类型为聚类1,则可以将数据标注第1、2个交通流向量作为数据补偿结果,视为该缺失自然日的交通流向量。
本方案针对城市交通检测器大量存在的数据缺失问题,提供了可以量化计算的数据补偿方法,不仅能够补偿偶然性的少量缺失数据,也能够补偿检测器损坏后的长期性缺失数据,能够有效支撑交通信号控制、交通诱导等交管应用的开展。同时,本方案在避免交通秩序混乱、提高交通运行效率以及缓解交通拥堵等方面具有十分重要的参考应用价值。
在一个优选的实施例中,缺失数据所属类型的交通流向量,也即数据补偿结果为
Figure BDA0002514343420000091
其中i表示缺失数据所属类型,t表示时间间隔的取值,x是基于t确定的交通流量值的数量,
Figure BDA0002514343420000092
表示第i类中全部交通流向量中第1个统计时间间隔的交通流量值的均值,
Figure BDA0002514343420000093
依次类推。
具体地,在根据上述聚类方法完成聚类过程后,每一类交通流模式可表征为此类交通流模式中所有交通流向量的均值,作为举例,第i类交通流模式可表征为:
Figure BDA0002514343420000094
Figure BDA0002514343420000095
其中,
Figure BDA0002514343420000096
代表第i类中全部交通流向量中的第1个交通流量统计值(比如早00:00至00:05)的均值,
Figure BDA0002514343420000097
依次类推。在聚类完成后即可计算所有类型的均值,以备进行数据补偿,或者也可以在需要进行补偿时再进行上述均值计算也是可行的。
在一个优选的实施例中,步骤S3B包括如下步骤:
首先,按照如下方式分别计算缺失数据属于各种类型的概率:
Figure BDA0002514343420000098
其中i分别取数据表中的全部类型,s表示时间类型信息和/或天气类型信息。举例来说,如在聚类1前提下,所属星期为星期一的概率值P(星期一|聚类1):
Figure BDA0002514343420000101
由此类推,可计算其他聚类前提下,各种属性值的条件概率,如P(星期二|聚类2)、P(工作日|聚类3)、P(晴|聚类5)等。
根据条件概率公式,可对各种属性条件下,交通流向量所属聚类编号的概率进行计算。假设缺失数据的属性为星期一、工作日、晴,对其所属聚类概率进行计算,即分别计算P(聚类1|星期一、工作日、晴)、P(聚类2|星期一、工作日、晴)、…、P(聚类n|星期一、工作日、晴),得到n个概率值。
确定概率中的最大值对应的类型为缺失数据所属的类型。具体地,取这n个概率中的最大值对应的聚类j的交通流模式,作为缺失数据所属日的交通流向量,即
Figure BDA0002514343420000102
Figure BDA0002514343420000103
本发明实施例还提供一种缺失交通流量数据补偿设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行上述缺失交通流量数据补偿方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种交通流量数据聚类方法,其特征在于,包括:
获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,所述交通流向量表示其对应时段内的交通流量及其变化趋势;
根据各个所述交通流向量的相似性将其划分为多个类;
生成交通流模式数据表,其中包括各个所述交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。
2.根据权利要求1所述的方法,其特征在于,所述时段为自然日,所述交通流向量包括以设定时间间隔统计一个自然日的多个交通流量值
Figure FDA0002514343410000011
其中t表示时间间隔的取值,x是基于t确定的交通流量值的数量。
3.根据权利要求1所述的方法,其特征在于,根据各个所述交通流向量的相似性将其划分为多个类,包括:
通过调整给定聚类数量,计算各个所述交通流向量的相似性及其变化程度;
根据所述相似性的变化程度确定聚类数量;
利用k均值聚类算法根据确定的聚类数量将所述多个交通流向量划分为多个类。
4.根据权利要求3所述的方法,其特征在于,按照如下步骤确定聚类数量:
步骤1,获取当前聚类数量k,则其第i类(1≤i≤k)中包含的全部交通流向量为
Figure FDA0002514343410000012
表示第i类中有n个交通流向量;
步骤2,计算各类中的交通流向量的相似性di
步骤3,计算全部k个聚类的相似性dk
Figure FDA0002514343410000013
步骤4,根据步骤1至步骤3,计算当划分为k+1类时的相似性dk+1
步骤5,计算从划分为k类到k+1时,相似性的变化程度
Figure FDA0002514343410000014
步骤6,按照步骤1至步骤4依次轮流赋值k,分别计算R值,当R值小于设定阈值时,确定当前的k值为聚类数量。
5.根据权利要求4所述的方法,其特征在于,在步骤2中按照如下方式计算相似性di
Figure FDA0002514343410000021
其中,
Figure FDA0002514343410000022
代表第i类里的第j个交通流向量,
Figure FDA0002514343410000023
表示第i类里所有交通流向量的均值,
Figure FDA0002514343410000024
6.根据权利要求5所述的方法,其特征在于,所述交通流向量为多维向量,
Figure FDA0002514343410000025
表示计算两个多维向量的欧氏距离。
7.一种缺失交通流量数据补偿方法,其特征在于,包括:
获取根据权利要求1-6在任一项所述方法生成的交通流模式数据表;
获取缺失数据对应的时间类型信息和/或天气类型信息;
通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型;
基于构建所述交通流模式数据表的交通流向量,计算所述缺失数据所属类型的交通流向量作为数据补偿结果。
8.根据权利要求7所述的方法,其特征在于,所述缺失数据所属类型的交通流向量为
Figure FDA0002514343410000026
其中i表示缺失数据所属类型,t表示时间间隔的取值,x是基于t确定的交通流量值的数量,
Figure FDA0002514343410000027
表示第i类中全部交通流向量中第一个统计时间间隔的交通流量值的均值,
Figure FDA0002514343410000028
依次类推。
9.根据权利要求7或8所述的方法,其特征在于,通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型,包括:
按照如下方式分别计算所述缺失数据属于各种类型的概率:
Figure FDA0002514343410000031
其中i分别取所述数据表中的全部类型,s表示所述时间类型信息和/或天气类型信息;
确定所述概率中的最大值对应的类型为所述缺失数据所属的类型。
10.一种交通流量数据处理设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-9中任意一项所述的方法。
CN202010471172.2A 2020-05-29 2020-05-29 交通流量数据聚类、补偿方法及设备 Pending CN111627209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010471172.2A CN111627209A (zh) 2020-05-29 2020-05-29 交通流量数据聚类、补偿方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010471172.2A CN111627209A (zh) 2020-05-29 2020-05-29 交通流量数据聚类、补偿方法及设备

Publications (1)

Publication Number Publication Date
CN111627209A true CN111627209A (zh) 2020-09-04

Family

ID=72259181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010471172.2A Pending CN111627209A (zh) 2020-05-29 2020-05-29 交通流量数据聚类、补偿方法及设备

Country Status (1)

Country Link
CN (1) CN111627209A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146825A (zh) * 2005-02-14 2008-03-19 阿波罗生命科学有限公司 分子及其嵌合分子
CN101763730A (zh) * 2009-12-30 2010-06-30 北京世纪高通科技有限公司 交通路况信息填补方法和系统
CN103971520A (zh) * 2014-04-17 2014-08-06 浙江大学 一种基于时空相关性的交通流量数据恢复方法
CN106408960A (zh) * 2016-10-29 2017-02-15 浙江大学 基于有序聚类的信号控制时段分割方法
CN108346287A (zh) * 2018-01-30 2018-07-31 浙江大学 基于影响因素分析的交通流量序列模式匹配方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法
CN109658695A (zh) * 2019-01-02 2019-04-19 华南理工大学 一种多因素的短时交通流预测方法
CN110197588A (zh) * 2019-06-03 2019-09-03 长安大学 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置
CN110598775A (zh) * 2019-09-03 2019-12-20 合肥工业大学 基于模糊聚类和bp神经网络的预测方法、系统及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146825A (zh) * 2005-02-14 2008-03-19 阿波罗生命科学有限公司 分子及其嵌合分子
CN101763730A (zh) * 2009-12-30 2010-06-30 北京世纪高通科技有限公司 交通路况信息填补方法和系统
CN103971520A (zh) * 2014-04-17 2014-08-06 浙江大学 一种基于时空相关性的交通流量数据恢复方法
CN106408960A (zh) * 2016-10-29 2017-02-15 浙江大学 基于有序聚类的信号控制时段分割方法
CN108346287A (zh) * 2018-01-30 2018-07-31 浙江大学 基于影响因素分析的交通流量序列模式匹配方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法
CN109658695A (zh) * 2019-01-02 2019-04-19 华南理工大学 一种多因素的短时交通流预测方法
CN110197588A (zh) * 2019-06-03 2019-09-03 长安大学 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置
CN110598775A (zh) * 2019-09-03 2019-12-20 合肥工业大学 基于模糊聚类和bp神经网络的预测方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网友上传: "K-means算法最优k值的选取方法", 《知乎》 *

Similar Documents

Publication Publication Date Title
CN111459778B (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
US8065098B2 (en) Progressive humidity filter for load data forecasting
CN109740648B (zh) 电力负荷异常数据识别方法、装置和计算机设备
US10482204B2 (en) System for processing data and modelling for analysis of the energy consumption of a site
CN110705598B (zh) 智能模型管理方法、装置、计算机设备及存储介质
CN110008254B (zh) 一种变电设备台账核查处理方法
US20160364807A1 (en) Electric power business profit and loss calculation system and electric power business profit and loss calculation method
CN101187943A (zh) 自动更新系统、自动更新方法及其程序
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN111815348B (zh) 一种基于各门店商品相似度聚类的区域商品生产计划方法
CN116303480B (zh) 基于云计算的电能表误差校验方法
CN110110339B (zh) 一种日前水文预报误差校正方法及系统
CN118152836B (zh) 一种用于电能表运行过程的稳定性评估方法
CN116882804A (zh) 一种智能电力监控方法及系统
CN109583086A (zh) 配电变压器重过载预测方法及终端设备
CN117851908B (zh) 一种改进的在线低压台区电能表失准监测方法及装置
CN114757270A (zh) 基于NB-IoT燃气智能设备的异常分析方法系统及存储介质
CN110781206A (zh) 一种学习拆回表故障特征规则预测在运电能表是否故障的方法
CN117522345A (zh) 能源损耗分析方法、数据中台、设备及存储介质
CN111627209A (zh) 交通流量数据聚类、补偿方法及设备
JPH09233700A (ja) 日最大需要電力予測の信頼性評価方法
CN116049765A (zh) 数据分析处理方法、装置及设备
US20040074826A1 (en) Water distribution amount predicting system
US11954744B2 (en) Electric power management station
CN114331688A (zh) 一种银行柜面系统业务批量运行状态检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication