一种大数据的筛选方法和系统
技术领域
本发明涉及数据筛选技术领域,具体为一种大数据的筛选方法和系统。
背景技术
运用大数据技术不仅可以在有限的时间内提高对海量数据的分析效率,而且可以更快地获取、更新信息,捕获和筛选更有价值的信息,随着大数据应用的愈加普遍,公众在享受到大数据应用技术带来便利的同时,也发现了大数据应用过程中存在的问题;
在现有技术中,区域内进行交通大数据采集时,无法根据数据采集主体进行划分,以至于不能够根据数据采集主体关系类型进行针对性采集,造成大数据采集准确性低,同时不能够根据采集主体内外界影响进行分析,造成采集主体内交通数据无法进行筛选采集,造成交通数据采集效率低,此外也不能够根据不同阶段进行交通数据类型确定;
针对上述的技术缺陷,现提出一种解决方案。
发明内容
本发明的目的就在于为了解决上述提出的问题,而提出一种大数据的筛选方法和系统。
本发明的目的可以通过以下技术方案实现:一种大数据的筛选系统,包括数据筛选平台,数据筛选平台通讯连接有数据采集主体划分单元、影响分析单元、分阶段分析单元以及数据汇总单元;
数据筛选平台对待分析区域交通数据采集,其中交通数据包括通行量、拥堵率,并对采集的交通数据进行数据筛选;数据采集主体划分单元对待分析区域内交通数据进行数据采集主体划分,将待分析区域内通行道路设置为采集主体,设置标号i,i为大于1的自然数,将采集主体对应交通数据的采集时刻进行统计,以交通数据内车辆拥堵量作为分析参数,通过数据分析将采集主体对应关系类型划分为风险主影响主体、风险受影响主体、确定主影响主体、确定受影响主体、无主影响主体以及无受影响主体,并将其发送至数据筛选平台;
影响分析单元对采集主体进行交通数据采集时刻进行影响分析,通过采集主体实时采集过程是否存在外界影响,对采集数据进行筛选,外界影响为恶劣天气或者大型活动举办;
分阶段分析单元对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定,并在交通状态判定后对不同阶段的数据类型进行筛分;
数据筛选平台在完成数据筛选后将实时待分析区域内采集主体的交通数据同步至数据汇总单元,通过数据汇总单元进行交通数据存储并设定时间戳。
作为本发明的一种优选实施方式,数据采集主体划分单元的运行过程如下:
选取任一数据采集时刻,并将其标记为中间时刻,根据中间时刻对应车辆拥堵量将对应采集主体划分为拥堵主体和非拥堵主体;根据数据采集时刻间隔阈值周期获取到中间时刻的前相邻时刻和后相邻时刻;
选取相邻采集主体并建立主体分析组,获取到待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量,同时获取到主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率;若待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量超过差值扩大量阈值,则将中间时刻对应主体分析组内对应拥堵主体标记为非拥堵主体的风险主影响主体,反之非拥堵主体标记为拥堵主体的风险受影响主体;若待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量未超过差值扩大量阈值,则将进行后相邻时刻分析。
作为本发明的一种优选实施方式,后相邻时刻分析的过程如下:
若主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率超过转变概率阈值,则将中间时刻对应主体分析组内拥堵主体标记为已转变非拥堵主体的确定主影响主体,且已转变非拥堵主体标记为对应拥堵主体的确定受影响主体;
反之,主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率未超过转变概率阈值,则将中间时刻对应主体分析组内拥堵主体标记为已转变非拥堵主体的无主影响主体,且已转变非拥堵主体标记为拥堵主体的无受影响主体;其中,若拥堵主体标记为确定主影响主体时,已设定为风险影响主体则将其设定为确定主影响主体,若拥堵主体标记为无主影响主体时,已设定为风险影响主体则仍将其原设定不变;
并将采集主体对应关系类型:风险主影响主体、风险受影响主体、确定主影响主体、确定受影响主体、无主影响主体以及无受影响主体发送至数据筛选平台。
作为本发明的一种优选实施方式,数据筛选平台接收后,将采集主体的交通数据进行筛分,任一采集主体车辆拥堵量呈增长趋势时,对当前采集主体的确定主影响主体进行及时疏导并将对应确定受影响主体进行车辆提前分流,并对采集主体对应的风险主影响主体和风险受影响主体进行持续监测,则当前采集主体的无主影响主体以及无受影响主体可作为分流对象。
作为本发明的一种优选实施方式,影响分析单元的运行过程如下:
获取到采集主体的交通数据采集时间段,并将采集时间段每天同一采集时刻进行分析,若采集时间段内每天同一采集时刻采集主体设定为拥堵主体与非拥堵主体的数量差值未超过差值阈值,则将对应采集主体交通状态设定为非单一状态;若采集时间段内每天同一采集时刻采集主体设定为拥堵主体与非拥堵主体的数量差值超过差值阈值,则将对应采集主体交通状态设定为单一状态。
作为本发明的一种优选实施方式,对非单一状态的采集主体进行分析,获取到非单一状态的采集主体对应外界影响产生频率以及外界影响产生后采集主体状态转变的概率,并将其分别与影响产生频率阈值和状态转变概率阈值进行比较:
若非单一状态的采集主体对应外界影响产生频率超过影响产生频率阈值,或者外界影响产生后采集主体状态转变的概率超过状态转变概率阈值,则判定当前非单一状态采集主体的外界影响异常,生成影响智能管控信号并将影响智能管控信号发送至数据筛选平台;
若非单一状态的采集主体对应外界影响产生频率未超过影响产生频率阈值,且外界影响产生后采集主体状态转变的概率未超过状态转变概率阈值,则判定当前非单一状态采集主体的外界影响正常,生成记录筛选信号并将记录筛选信号发送至数据筛选平台。
作为本发明的一种优选实施方式,对单一状态的采集主体进行分析,获取到单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率以及采集主体内通行拥堵路段的间距,并将其分别与通行拥堵频率阈值和道路间距阈值进行比较:
若单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率超过通行拥堵频率阈值,或者采集主体内通行拥堵路段的间距未超过道路间距阈值,则判定单一状态的采集主体交通数据存在影响,生成持续监测信号并将持续监测信号发送至数据筛选平台,数据筛选平台接收后,对持续采集的交通数据进行依次监测;若单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率未超过通行拥堵频率阈值,且采集主体内通行拥堵路段的间距超过道路间距阈值,则判定单一状态的采集主体交通数据不存在影响,生成间隔监测信号并将间隔监测信号发送至数据筛选平台,数据筛选平台接收后,对间隔采集的交通数据进行随机抽取监测。
作为本发明的一种优选实施方式,分阶段分析单元的运行过程如下:
将采集时间段内采集主体的设定拥堵主体和非拥堵主体对应阶段分别标记为高需求阶段和低需求阶段,并对高需求阶段和低需求阶段进行数据筛选;通过数据筛选获取到高需求阶段内采集主体中峰值拥堵量的最快通行耗时以及低需求阶段内采集主体中时间阈值内通行车辆的最大通行量,并将其分别与最快通行耗时阈值和最大通行量阈值进行比较。
作为本发明的一种优选实施方式,若高需求阶段内采集主体中峰值拥堵量的最快通行耗时超过最快通行耗时阈值,或者低需求阶段内采集主体中时间阈值内通行车辆的最大通行量未超过最大通行量阈值,则生成多类型采集信号并将多类型采集信号发送至数据筛选平台,数据筛选平台接收到多类型采集信号后,对采集主体的高需求阶段和低需求阶段进行交通数据采集划分;若高需求阶段内采集主体中峰值拥堵量的最快通行耗时未超过最快通行耗时阈值,且低需求阶段内采集主体中时间阈值内通行车辆的最大通行量超过最大通行量阈值,则判定对应采集主体分阶段分析正常,生成单一类型采集信号并将单一类型采集信号发送至数据筛选平台,数据筛选平台接收到单一类型采集信号后,将采集主体内不同阶段的交通数据类型进行同步。
一种大数据的筛选方法,具体筛选方法如下:
步骤一、采集主体划分,对待分析区域交通数据采集,其中交通数据包括通行量、拥堵率,并对采集的交通数据进行数据筛选;对待分析区域内交通数据进行数据采集主体划分,提高数据采集主体的针对性,便于对待分析区域内交通数据进行筛选,通过针对性采集通过大数据能够更加准确的判断区域内交通状态;
步骤二、影响分析,对采集主体进行交通数据采集时刻进行影响分析,判断采集主体的交通数据采集时刻是否存在时段影响或者外界影响,从而影响采集主体的交通数据采集效率;
步骤三、分阶段分析,对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定;
步骤四、筛选存储,将实时待分析区域内采集主体的交通数据同步至数据汇总单元,通过数据汇总单元进行交通数据存储并设定时间戳。
与现有技术相比,本发明的有益效果是:
1、本发明中,对待分析区域内交通数据进行数据采集主体划分,提高数据采集主体的针对性,便于对待分析区域内交通数据进行筛选,通过针对性采集通过大数据能够更加准确的判断区域内交通状态,增强了大数据支撑的高效性;对采集主体进行交通数据采集时刻进行影响分析,判断采集主体的交通数据采集时刻是否存在时段影响或者外界影响,比如恶劣天气或者大型活动举办,从而影响采集主体的交通数据采集效率,也便于对交通数据进行筛选,更加准确地判断当前区域的交通状态。
2、本发明中,对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定,通过数据采集更加精准的判断交通状态是否合格,提高了大数据筛选的合理性和准确性。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的原理框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1所示,一种大数据的筛选系统,包括数据筛选平台,数据筛选平台通讯连接有数据采集主体划分单元、影响分析单元、分阶段分析单元以及数据汇总单元,其中,数据筛选平台与数据采集主体划分单元、影响分析单元、分阶段分析单元以及数据汇总单元均为双向通讯连接;
本系统用于对交通大数据进行筛分,并在完成数据筛分后进行汇总分析,对区域内交通状况进行判定;数据筛选平台对待分析区域交通数据采集,其中交通数据包括通行量、拥堵率等相关数据,并对采集的交通数据进行数据筛选;数据筛选平台生成数据采集主体划分信号并将数据采集主体划分信号发送至数据采集主体划分单元,数据采集主体划分单元接收到数据采集主体划分信号后,对待分析区域内交通数据进行数据采集主体划分,提高数据采集主体的针对性,便于对待分析区域内交通数据进行筛选,通过针对性采集通过大数据能够更加准确的判断区域内交通状态,增强了大数据支撑的高效性;
将待分析区域内通行道路设置为采集主体,设置标号i,i为大于1的自然数,将采集主体对应交通数据的采集时刻进行统计,以交通数据内车辆拥堵量作为分析参数,本系统中选取任一数据作为分析参数,列分穷举且选取其他数据本系统仍适宜,选取任一数据采集时刻,并将其标记为中间时刻,根据中间时刻对应车辆拥堵量将对应采集主体划分为拥堵主体和非拥堵主体;根据数据采集时刻间隔阈值周期获取到中间时刻的前相邻时刻和后相邻时刻;
选取相邻采集主体并建立主体分析组,获取到待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量,同时获取到主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率;若待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量超过差值扩大量阈值,则将中间时刻对应主体分析组内对应拥堵主体标记为非拥堵主体的风险主影响主体,反之非拥堵主体标记为拥堵主体的风险受影响主体;若待分析区域内前相邻时刻主体分析组内采集主体对应车辆通行量差值扩大量未超过差值扩大量阈值,则将进行后相邻时刻分析;
若主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率超过转变概率阈值,则将中间时刻对应主体分析组内拥堵主体标记为已转变非拥堵主体的确定主影响主体,且已转变非拥堵主体标记为对应拥堵主体的确定受影响主体;
反之,主体分析组内采集主体存在拥堵主体后对应非拥堵主体在中间时刻与后相邻时刻间隔时间内转变为拥堵主体的概率未超过转变概率阈值,则将中间时刻对应主体分析组内拥堵主体标记为已转变非拥堵主体的无主影响主体,且已转变非拥堵主体标记为拥堵主体的无受影响主体;其中,若拥堵主体标记为确定主影响主体时,已设定为风险影响主体则将其设定为确定主影响主体,若拥堵主体标记为无主影响主体时,已设定为风险影响主体则仍将其原设定不变;
并将采集主体对应关系类型:风险主影响主体、风险受影响主体、确定主影响主体、确定受影响主体、无主影响主体以及无受影响主体发送至数据筛选平台,数据筛选平台接收后,将采集主体的交通数据进行筛分,任一采集主体车辆拥堵量呈增长趋势时,对当前采集主体的确定主影响主体进行及时疏导并将对应确定受影响主体进行车辆提前分流,并对采集主体对应的风险主影响主体和风险受影响主体进行持续监测,则当前采集主体的无主影响主体以及无受影响主体可作为分流对象;
数据筛选平台生成影响分析信号并将影响分析信号发送至影响分析单元,影响分析单元接收到影响分析信号后,对采集主体进行交通数据采集时刻进行影响分析,判断采集主体的交通数据采集时刻是否存在时段影响或者外界影响,比如恶劣天气或者大型活动举办,从而影响采集主体的交通数据采集效率,也便于对交通数据进行筛选,更加准确地判断当前区域的交通状态;
获取到采集主体的交通数据采集时间段,并将采集时间段每天同一采集时刻进行分析,若采集时间段内每天同一采集时刻采集主体设定为拥堵主体与非拥堵主体的数量差值未超过差值阈值,则将对应采集主体交通状态设定为非单一状态;若采集时间段内每天同一采集时刻采集主体设定为拥堵主体与非拥堵主体的数量差值超过差值阈值,则将对应采集主体交通状态设定为单一状态;
对非单一状态的采集主体进行分析,获取到非单一状态的采集主体对应外界影响产生频率以及外界影响产生后采集主体状态转变的概率,并将非单一状态的采集主体对应外界影响产生频率以及外界影响产生后采集主体状态转变的概率分别与影响产生频率阈值和状态转变概率阈值进行比较:
若非单一状态的采集主体对应外界影响产生频率超过影响产生频率阈值,或者外界影响产生后采集主体状态转变的概率超过状态转变概率阈值,则判定当前非单一状态采集主体的外界影响异常,生成影响智能管控信号并将影响智能管控信号发送至数据筛选平台,数据筛选平台接收到影响智能管控信号后,若当前外界影响对采集主体影响大,则对应采集时刻的交通数据进行记录,表明当前采集主体设定无法满足当前环境;若当前外界影响对采集主体影响小,则对应采集时刻的交通数据不进行记录,表明当前采集主体设定可以满足当前环境,则当前异常数据对交通状态判定无实际意义;
若非单一状态的采集主体对应外界影响产生频率未超过影响产生频率阈值,且外界影响产生后采集主体状态转变的概率未超过状态转变概率阈值,则判定当前非单一状态采集主体的外界影响正常,生成记录筛选信号并将记录筛选信号发送至数据筛选平台,数据筛选平台接收到记录筛选信号后,对当前采集主体的交通数据进行筛分,如外界影响导致交通数据数值浮动,则不进行记录;
对单一状态的采集主体进行分析,获取到单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率以及采集主体内通行拥堵路段的间距,并将单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率以及采集主体内通行拥堵路段的间距分别与通行拥堵频率阈值和道路间距阈值进行比较:
若单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率超过通行拥堵频率阈值,或者采集主体内通行拥堵路段的间距未超过道路间距阈值,则判定单一状态的采集主体交通数据存在影响,生成持续监测信号并将持续监测信号发送至数据筛选平台,数据筛选平台接收后,对持续采集的交通数据进行依次监测;若单一状态的采集主体对应通行车辆峰值未增长时产生通行拥堵的频率未超过通行拥堵频率阈值,且采集主体内通行拥堵路段的间距超过道路间距阈值,则判定单一状态的采集主体交通数据不存在影响,生成间隔监测信号并将间隔监测信号发送至数据筛选平台,数据筛选平台接收后,对间隔采集的交通数据进行随机抽取监测;
数据筛分平台生成分阶段分析信号并将分阶段分析信号发送至分阶段分析单元,分阶段分析单元接收到分阶段分析信号后,对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定,通过数据采集更加精准的判断交通状态是否合格,提高了大数据筛选的合理性和准确性;
将采集时间段内采集主体的设定拥堵主体和非拥堵主体对应阶段分别标记为高需求阶段和低需求阶段,并对高需求阶段和低需求阶段进行数据筛选;通过数据筛选获取到高需求阶段内采集主体中峰值拥堵量的最快通行耗时以及低需求阶段内采集主体中时间阈值内通行车辆的最大通行量,并将高需求阶段内采集主体中峰值拥堵量的最快通行耗时以及低需求阶段内采集主体中时间阈值内通行车辆的最大通行量分别与最快通行耗时阈值和最大通行量阈值进行比较:
若高需求阶段内采集主体中峰值拥堵量的最快通行耗时超过最快通行耗时阈值,或者低需求阶段内采集主体中时间阈值内通行车辆的最大通行量未超过最大通行量阈值,则判定对应采集主体分阶段分析异常,生成多类型采集信号并将多类型采集信号发送至数据筛选平台,数据筛选平台接收到多类型采集信号后,对采集主体的高需求阶段和低需求阶段进行交通数据采集划分,即高需求阶段内以解决拥堵类型的数据为主,如疏导量、疏导时间等,低需求阶段内以预防拥堵类型的数据为主,如分流量、通行速度可控量等;
若高需求阶段内采集主体中峰值拥堵量的最快通行耗时未超过最快通行耗时阈值,且低需求阶段内采集主体中时间阈值内通行车辆的最大通行量超过最大通行量阈值,则判定对应采集主体分阶段分析正常,生成单一类型采集信号并将单一类型采集信号发送至数据筛选平台,数据筛选平台接收到单一类型采集信号后,将采集主体内不同阶段的交通数据类型进行同步;
数据筛选平台在完成数据筛选后将实时待分析区域内采集主体的交通数据同步至数据汇总单元,通过数据汇总单元进行交通数据存储并设定时间戳。
一种大数据的筛选方法,具体筛选方法如下:
步骤一、采集主体划分,对待分析区域交通数据采集,其中交通数据包括通行量、拥堵率,并对采集的交通数据进行数据筛选;对待分析区域内交通数据进行数据采集主体划分,提高数据采集主体的针对性,便于对待分析区域内交通数据进行筛选,通过针对性采集通过大数据能够更加准确的判断区域内交通状态;
步骤二、影响分析,对采集主体进行交通数据采集时刻进行影响分析,判断采集主体的交通数据采集时刻是否存在时段影响或者外界影响,从而影响采集主体的交通数据采集效率;
步骤三、分阶段分析,对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定;
步骤四、筛选存储,将实时待分析区域内采集主体的交通数据同步至数据汇总单元,通过数据汇总单元进行交通数据存储并设定时间戳。
本发明在使用时,数据筛选平台对待分析区域交通数据采集,数据采集主体划分单元对待分析区域内交通数据进行数据采集主体划分,将待分析区域内通行道路设置为采集主体,将采集主体对应交通数据的采集时刻进行统计,以交通数据内车辆拥堵量作为分析参数,通过数据分析将采集主体对应关系类型划分为风险主影响主体、风险受影响主体、确定主影响主体、确定受影响主体、无主影响主体以及无受影响主体,并将其发送至数据筛选平台;影响分析单元对采集主体进行交通数据采集时刻进行影响分析,通过采集主体实时采集过程是否存在外界影响,对采集数据进行筛选,外界影响为恶劣天气或者大型活动举办;分阶段分析单元对采集主体的交通数据进行筛选分析,根据不同阶段的采集主体进行交通状态判定,并在交通状态判定后对不同阶段的数据类型进行筛分;数据筛选平台在完成数据筛选后将实时待分析区域内采集主体的交通数据同步至数据汇总单元,通过数据汇总单元进行交通数据存储并设定时间戳。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。