CN112100165A - 基于质量评估的交通数据处理方法、系统、设备和介质 - Google Patents
基于质量评估的交通数据处理方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN112100165A CN112100165A CN202010960996.6A CN202010960996A CN112100165A CN 112100165 A CN112100165 A CN 112100165A CN 202010960996 A CN202010960996 A CN 202010960996A CN 112100165 A CN112100165 A CN 112100165A
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- characteristic information
- traffic
- traffic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000013441 quality evaluation Methods 0.000 title abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012423 maintenance Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000001303 quality assessment method Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 14
- 238000000034 method Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 12
- 230000006872 improvement Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012806 monitoring device Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0133—Traffic data processing for classifying traffic situation
Abstract
本发明涉及交通管理技术领域,提供一种基于质量评估的交通数据处理方法、系统、设备和介质。其中方法包括:根据应用场景信息,获得关联设备采集的交通数据集和交通数据集的标识字段;以交通数据集为根节点,分解获得包括多层子节点的树形结构;自树形结构的每个底层节点的数据集中,提取匹配标识字段的数据项,生成特征信息;根据各底层节点的数据集的特征信息,按树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及,获得各数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。本发明结合应用场景信息对交通数据进行多层级的分析处理,获得高质量的目标数据,并根据低质量的交通数据自动指示设备检修。
Description
技术领域
本发明涉及交通管理技术领域,具体地说,涉及一种基于质量评估的交通数据处理方法、系统、设备和介质。
背景技术
交通行业的信息化建设,需要高质量的交通数据。数据无效、不完整、不精准、延迟、传输不稳定等问题,均会直接影响数据的可用性,并导致后续应用失败。因此,在利用交通数据前,需要对数据进行质量评估,以指导后续工作。
目前,交通数据的质量评估没有考虑应用场景,质量评估仅采用数据的固有属性,无法兼顾到不同应用场景对数据质量的不同要求。对数据评估的方式也通常采用整体评估,或挑选部分数据单元进行评估,无法获得数据之间相互关联的质量层级体系,导致数据后续应用严重受限。且在获得整体评估结果后,具体质量情况无法自上而下地在各个层级上精准化分析和自动化流转,仍需要二次处理并下派工单,增加了后续数据质量改善工作的难度。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种基于质量评估的交通数据处理方法、系统、设备和介质,结合应用场景信息对交通数据进行多层级的分析处理,提高交通数据的处理效率。
本发明的一个方面提供一种基于质量评估的交通数据处理方法,包括步骤:接收应用场景信息,根据所述应用场景信息获得关联设备采集的交通数据集和所述交通数据集的标识字段;以所述交通数据集为根节点,分解获得包括多层子节点的树形结构;自所述树形结构的每个底层节点的数据集中,提取匹配所述标识字段的数据项,生成每个所述底层节点的数据集的特征信息;根据各所述底层节点的数据集的特征信息,按所述树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及,确定各所述数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
在一些实施例中,所述的交通数据处理方法还包括步骤:筛选出质量低于阈值的数据集,与存储所述关联设备的序列号的序列集匹配,获得匹配的关联设备;根据所述匹配的关联设备的序列号,确定采集故障点;以及,生成基于所述采集故障点的设备检修指令,推送至发出所述应用场景信息的客户端。
在一些实施例中,所述分解获得包括多层子节点的树形结构的步骤中,基于所述应用场景信息的时间分布或所述关联设备的空间分布,逐层分解所述交通数据集,获得所述树形结构。
在一些实施例中,生成一底层节点对应的底层数据集的特征信息的步骤包括:判断所述底层数据集的数据项是否为空;若是则获得第一赋值,若否则获得第二赋值;以及,生成对应所述底层数据集的数据覆盖特征、且特征值等于所述第一赋值或所述第二赋值的第一特征信息。
在一些实施例中,生成一底层节点对应的底层数据集的特征信息的步骤包括:自所述底层数据集的数据项中,获得数据类型符合预设数据类型的有效数据量;计算所述有效数据量占所述数据项的总数据量的比值;以及,生成对应所述底层数据集的数据有效特征、且特征值等于所述比值的第二特征信息。
在一些实施例中,生成一底层节点对应的底层数据集的特征信息的步骤包括:判断所述底层数据集的数据项是否离散;当所述数据项为离散型字段,计算所述数据项中记录值与实际值相同的准确数据量占所述数据项的总数据量的比值;当所述数据项为连续型字段,计算所述数据项的记录值与所述实际值之差的绝对值的平均值;以及,生成对应所述底层数据集的数据真实特征、且特征值等于所述比值或所述平均值的第三特征信息。
在一些实施例中,生成一底层节点对应的底层数据集的特征信息的步骤包括:获得所述底层数据集的数据项的产生时间和传输时间;计算所述传输时间与所述产生时间之差的平均值;以及,生成对应所述底层数据集的数据时延特征、且特征值等于所述平均值的第四特征信息。
在一些实施例中,生成一底层节点对应的底层数据集的特征信息的步骤包括:根据所述底层数据集的数据项的产生时间,将每条所述数据项归类至一单位时间片;统计每个所述单位时间片内的数据量;根据所述应用场景信息,对各所述单位时间片进行分类;计算各类单位时间片的数据量的变异系数,并获得各类单位时间片的变异系数的平均值;以及,生成对应所述底层数据集的数据波动特征、且特征值等于所述平均值的第五特征信息。
在一些实施例中,计算所述底层节点的一相邻上层节点对应的中间数据集的特征信息的步骤包括:获得所述中间数据集的关联底层数据集;根据所述关联底层数据集的节点个数或数据量,确定各所述关联底层数据集的权重系数;以及,计算各所述关联底层数据集的特征信息的加权平均值,作为所述中间数据集的特征信息。
在一些实施例中,所述确定各所述数据集的特征信息的质量的步骤包括:根据一所述数据集的各维度的特征信息,计算所述数据集的各维度的特征信息的质量分数。
本发明的另一个方面提供一种基于质量评估的交通数据处理系统,包括:数据获取模块,用于接收应用场景信息,根据所述应用场景信息获得关联设备采集的交通数据集和所述交通数据集的标识字段;数据分解模块,用于以所述交通数据集为根节点,分解获得包括多层子节点的树形结构;特征提取模块,用于自所述树形结构的每个底层节点的数据集中,提取匹配所述标识字段的数据项,生成每个所述底层节点的数据集的特征信息;特征计算模块,用于根据各所述底层节点的数据集的特征信息,按所述树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及目标生成模块,用于确定各所述数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
本发明的再一个方面提供一种电子设备,包括:一处理器;一存储器,所述存储器中存储有所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行上述任意实施例所述的基于质量评估的交通数据处理方法的步骤。
本发明的又一个方面提供一种计算机可读的存储介质,用于存储程序,所述程序被执行时实现上述任意实施例所述的基于质量评估的交通数据处理方法的步骤。
本发明与现有技术相比的有益效果至少包括:
基于应用场景信息获得交通数据集和用于提取特征信息的标识字段,使交通数据集的处理更契合所需分析的应用场景;
通过逐层分解交通数据集获得多层级的树形结构,基于底层的数据集的特征信息递推计算上层的数据集的特征信息,建立交通数据集的多层级关联质量体系,实现基于应用场景的全面精确的交通数据质量评估;
结合应用场景信息对交通数据进行多层级的分析处理后,将高质量的数据集生成目标数据集,使交通数据的后续应用更准确;根据低质量的数据集自动确定采集故障点,生成设备检修指令,无需人工定位问题,实现交通数据的高效处理,并促进后续采集数据的质量提高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明实施例中基于质量评估的交通数据处理方法的步骤示意图;
图2示出本发明实施例中交通数据集逐层分解成树形结构的示意图;
图3示出本发明实施例中生成第一特征信息的步骤示意图;
图4示出本发明实施例中生成第二特征信息的步骤示意图;
图5示出本发明实施例中生成第三特征信息的步骤示意图;
图6示出本发明实施例中生成第四特征信息的步骤示意图;
图7示出本发明实施例中生成第五特征信息的步骤示意图;
图8示出本发明实施例中基于质量评估的交通数据处理系统的模块示意图;
图9示出本发明实施例中电子设备的结构示意图;以及
图10示出本发明实施例中计算机可读的存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本发明全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
下面实施例中的步骤序号仅用于表示不同的执行内容,并不限定步骤之间的逻辑关系和执行顺序。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。需要说明的是,在不冲突的情况下,本发明的实施例及不同实施例中的特征可以相互组合。
图1示出一实施例中基于质量评估的交通数据处理方法的主要步骤,包括:在步骤S110中,接收应用场景信息,根据应用场景信息获得关联设备采集的交通数据集和交通数据集的标识字段;在步骤S120中,以交通数据集为根节点,分解获得包括多层子节点的树形结构;在步骤S130中,自树形结构的每个底层节点的数据集中,提取匹配标识字段的数据项,生成每个底层节点的数据集的特征信息;在步骤S140中,根据各底层节点的数据集的特征信息,按树形结构的节点分布,递推计算各上层节点的数据集的特征信息;在步骤S150中,确定各数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
具体来说,步骤S110中,应用场景信息由客户端输入,交通数据集由服务器根据应用场景信息,自数据库中筛选与应用场景信息相关联的设备采集传输的交通数据。例如,在一个具体示例中,用户需要对某市的环市域高速流量进行分析,则可通过客户端输入应用场景信息“A市环市域高速流量分析”。在其他示例中,应用场景信息也可以是某片区域的拥堵情况分析、某个路口的行人通行量分析等等。
交通数据的质量只有对应于具体的应用场景才有意义。不同应用场景下,所需分析处理的交通数据集、特征信息的提取维度、评估数据质量高低的质量阈值均不相同。因此,对交通数据进行分析处理的第一步即根据客户端输入的应用场景信息,确定具体的应用场景,进而根据具体的应用场景确定待分析处理的交通数据集、用于提取特征信息的标识字段、以及用于评估数据质量的不同维度的质量阈值。
根据“A市环市域高速流量分析”的应用场景信息,获得安装在A市环市域高速路上的所有用于采集交通数据的监控设备和用于传输交通数据至数据库的网络设备作为关联设备。当应用场景信息为某个路口的行人通行量分析,则关联设备采集的交通数据集为该路口的行人数据。
进一步地,根据应用场景信息,获得能够标识交通数据集中各待分析的数据项的标识字段。例如,在“A市环市域高速流量分析”的应用场景信息中,交通数据集中各待分析的数据项是A市环市域高速路上的过车数据,则确定的标识字段可以是车牌号码、车牌颜色和过车时间。
步骤S120中,逐层分解交通数据集获得树形结构时,基于应用场景信息的时间分布或关联设备的空间分布对交通数据集进行分解。举例来说,在“A市环市域高速流量分析”的应用场景信息中,根据安装在A市环市域高速路上的所有监控设备的空间分布,确定分解规则包括:A市环市域→城市边界→路口→方位。例如,A市环市域具体为苏州环市域,则确定的分解规则为:苏州环市域的高速路→不同城市边界(包括上海、南通、浙江、无锡等)的高速路段→不同高速路段的每个路口(包括花桥、太仓、淀山湖等)→不同路口的每个方位(包括上行、下行)。
再如,在某一路口的不同月份的人流量统计的应用场景信息中,则按照应用场景信息的时间分布(即月份),分解对应的交通数据集。
具体实现时,处理服务器根据空间范围/时间范围/组织架构等分解规则,以交通数据集为根节点,自上而下地逐层分解交通数据集,直至第n层数据集不能继续分解。
图2示出实施例中交通数据集逐层分解成树形结构的示意,其中第一层10为交通数据集M1,1,对交通数据集M1,1进行分解获得隶属于交通数据集M1,1的子集M2,1和M2,2;对第二层20的子集M2,1和M2,2进行分解分别获得隶属于子集M2,1的子集M3,1和M3,2,和隶属于子集M2,2的子集M3,3和M3,4;再分别对第三层30的子集M3,1、M3,2、M3,3和M3,4进行分解......以此类推,最后获得第n层40的各个子集,形成以交通数据集M1,1为根节点的多层级树形结构。
步骤S130中,生成底层节点的数据集的特征信息时,根据待评估的质量维度,生成多个质量维度的特征信息。本实施例中,待评估的质量维度包括完整性、有效性、准确性、及时性和稳定性五个维度。其中,完整性反映实体对象覆盖程度,有效性反映符合数据项规则的程度,准确性指数据反映实际交通状态的能力,及时性指数据被需要时能够及时获取的能力,稳定性指单位时间内新增数据量的波动情况。
图3示出实施例中生成底层数据集的完整性特征,即第一特征信息的主要步骤,包括:S140-11、判断底层数据集的数据项是否为空;S140-12、若是则获得第一赋值“0”;S140-13、若否则获得第二赋值“1”;S140-14、生成对应底层数据集的数据覆盖特征、且特征值等于第一赋值或第二赋值的第一特征信息。本实施例中,当底层数据集为空时,其第一特征信息的特征值为0,否则特征值为1。
图4示出实施例中生成底层数据集的有效性特征,即第二特征信息的主要步骤,包括:S140-21、自底层数据集的数据项中,获得数据类型符合预设数据类型的有效数据量;S140-22、计算有效数据量占数据项的总数据量的比值;S140-23、生成对应底层数据集的数据有效特征、且特征值等于比值的第二特征信息。其中,预设数据类型根据标识字段确定,例如标识字段为车牌号码,则预设数据类型为车牌编码规则。服务器根据标识字段,可以自动判断底层数据集的数据项是否符合车牌编码规则。
图5示出实施例中生成底层数据集的准确性特征,即第三特征信息的主要步骤,包括:S140-31、判断底层数据集的数据项是否离散;S140-32、当数据项为离散型字段,计算数据项中记录值与实际值相同的准确数据量占数据项的总数据量的比值;S140-33、当数据项为连续型字段,计算数据项的记录值与实际值之差的绝对值的平均值;S140-34、生成对应底层数据集的数据真实特征、且特征值等于比值或平均值的第三特征信息。其中,记录值由交通数据所反映,实际值已提前确定好并预存于数据库中。
图6示出实施例中生成底层数据集的及时性特征,即第四特征信息的主要步骤,包括:S140-41、获得底层数据集的数据项的产生时间和传输时间;S140-42、计算传输时间与产生时间之差的平均值;以及S140-43、生成对应底层数据集的数据时延特征、且特征值等于平均值的第四特征信息。其中,传输时间也即时延时间,具体可指交通数据传输向服务器、使其可被分析使用的时间,可以体现关联设备的采集/传输及时性能;产生时间具体指交通数据的实际产生时间。
图7示出实施例中生成底层数据集的稳定性特征,即第五特征信息的主要步骤,包括:S140-51、根据底层数据集的数据项的产生时间,将每条数据项归类至一单位时间片,例如以1小时作为一单位时间片;S140-52、统计每个单位时间片内的数据量;S140-53、根据应用场景信息,对各单位时间片进行分类,例如将各单位时间片划分为归类至工作日的单位时间片和归类至节假日的单位时间片;S140-54、计算各类单位时间片的数据量的变异系数,并获得各类单位时间片的变异系数的平均值;以及S140-55、生成对应底层数据集的数据波动特征、且特征值等于平均值的第五特征信息。其中,单位时间片的时长可根据需要划分,变异系数(Coefficient of Variation)根据已知的方法进行计算。
通过上述实施例,获得了底层数据集的五个维度的特征信息。进一步地,步骤S140自下而上地递推计算各上层的数据集,包括中间数据集和顶层数据集(即交通数据集)的特征信息。其中,计算底层节点的一相邻上层节点对应的中间数据集的特征信息的步骤包括:获得中间数据集的关联底层数据集;根据关联底层数据集的节点个数或数据量,确定各关联底层数据集的权重系数;以及,计算各关联底层数据集的特征信息的加权平均值,作为中间数据集的特征信息。
结合图2所示,第n层40例如为第4层,则中间数据集包括第三层30中的和第二层20中的各个节点对应的子集。其中计算子集M3,2的特征信息过程为:获得关联底层数据集,即子集Mn,2和Mn,3,根据子集Mn,2和Mn,3的节点个数(2个)平分权重,获得子集Mn,2和Mn,3的权值和均为1/2;或者,分别根据子集Mn,2和Mn,3的数据量(例如Mn,2包含100条数据项,Mn,3包含200条数据项)平分权重,获得子集Mn,2的权值为1/3,子集Mn,3的权值为2/3。接着,计算子集Mn,2和Mn,3的特征信息的加权平均值,即为子集M3,2的特征信息的特征值。
图2所示的每个子集均具有对应的权值每个子集对应的类别C为每个子集的分解项,例如在“A市环市域高速流量分析”的应用场景信息中,第一层10的交通数据集M1,1是A市环市域的高速路上某段时间内的所有车流量数据,第二层20的子集的类别是城市边界,第三层30的子集的类别是路口,第n层40的子集的类别是方位。
进一步地,获得各个数据集的特征信息后,步骤S150分别确定各个数据集的特征信息的质量,以筛选出质量高于阈值的数据集,生成目标数据集。与上述列举的五个维度的特征信息相对应,数据库中预存有每个维度的质量评估标准,处理服务器依据各个维度的质量评估标准,计算各个数据集的五个维度的质量分数。
其中,第一特征信息/第二特征信息/第三特征信息的质量分数的计算方式相同,具体为:S=P*100,P为对应维度的特征信息,S为对应维度的质量分数。
第四特征信息/第五特征信息的质量分数的计算方式相同,具体为:
其中P为对应维度的特征信息,THR为对应维度的设定值,每个维度的设定值可根据需要设定,S为对应维度的质量分数。
计算出每个数据集的各个维度的质量分数后,根据质量分数与阈值的关系,对数据集进行筛选。其中,每个维度均可设置不同的阈值,筛选数据集时,可以根据需要,筛选出各个维度的质量分数均高于对应阈值的数据集,也可以筛选出某些维度的质量分数高于对应阈值的数据集。
进一步地,确定各个数据集的质量之后,还包括步骤:筛选出质量低于阈值的数据集(此处所指的质量低于阈值的数据集,可以是各个维度的质量分数均低于对应阈值的数据集,也可以是某些维度的质量分数低于对应阈值的数据集),与存储关联设备的序列号的序列集匹配,获得匹配的关联设备;根据匹配的关联设备的序列号,确定采集故障点;以及,生成基于采集故障点的设备检修指令,推送至发出应用场景信息的客户端,以基于对交通数据的质量评估指导关联设备的检修工作。
质量低于阈值的数据集,反映出该数据集的至少一个质量维度不达标,出现数据空缺/数据不准确/数据传输慢等问题。通过将低质量的数据集与关联设备的序列集匹配,自动筛选出存在问题的关联设备,进而确定存在问题的采集故障点。其中,存在问题的关联设备可能是用于采集数据的监控设备,也可能是用于传输数据的网络设备,具体根据不同维度的特征信息的质量分数确定。确定存在问题的关联设备后,自动生成设备检修指令推送至客户端,使相关人员能够及时获知故障设备,针对性地进行检修工作。
结合上述对交通数据集进行分解,形成树形结构的实施例,生成设备检修指令时,当某个城市边界对应的数据集的第一特征信息的质量分数不达标,则生成该城市边界的监控设备的检修指令,当某个路口对应的数据集的第四特征信息不达标,则生成该路口的网络设备的检修指令,等等。生成设备检修指令后,推送至客户端,更进一步地,还可以推送至待检修设备的关联客户端(数据库中每个采集设备均会预存关联客户端,例如负责人的手机、负责部门的邮箱,等等),直接向待检修设备的关联客户端下派工单,以便于数据流转,无需二次处理,提高处理效率。
综上,本发明的基于质量评估的交通数据处理方法,基于应用场景信息获得交通数据集和用于提取特征信息的标识字段,使交通数据集的处理更契合所需分析的应用场景;通过逐层分解交通数据集获得多层级的树形结构,基于底层的数据集的特征信息递推计算上层的数据集的特征信息,建立交通数据集的多层级关联质量体系,实现基于应用场景的全面精确的交通数据质量评估;结合应用场景信息对交通数据进行多层级的分析处理后,根据高质量的数据集生成目标数据集,使交通数据的后续应用更准确;根据低质量的数据集自动确定采集故障点,生成设备检修指令,无需人工定位问题,实现交通数据的高效处理,并促进后续采集数据的质量提高。
本发明实施例还提供一种基于质量评估的交通数据处理系统,用于实现上述任意实施例描述的基于质量评估的交通数据处理方法。图8示出实施例中基于质量评估的交通数据处理系统500的主要模块,包括:数据获取模块510,用于接收应用场景信息,根据应用场景信息获得关联设备采集的交通数据集和交通数据集的标识字段;数据分解模块520,用于以交通数据集为根节点,分解获得包括多层子节点的树形结构;特征提取模块530,用于自树形结构的每个底层节点的数据集中,提取匹配标识字段的数据项,生成每个底层节点的数据集的特征信息;特征计算模块540,用于根据各底层节点的数据集的特征信息,按树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及目标生成模块550,用于确定各数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
在一些实施例中,目标生成模块550还生成设备检修指令,以基于对交通数据的质量评估指导监控设备/网络设备的检修工作。
本发明的基于质量评估的交通数据处理系统能够结合应用场景信息对交通数据进行多层级的分析处理,获得高质量的数据集生成目标数据集,使交通数据的后续应用更准确;根据低质量的数据集自动确定采集故障点,生成设备检修指令,无需人工定位问题,实现交通数据的高效处理,并促进后续采集数据的质量提高。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,处理器被配置为经由执行可执行指令来执行上述实施例中的基于质量评估的交通数据处理方法的步骤。
如上所述,本发明的电子设备能够结合应用场景信息对交通数据进行多层级的分析处理,根据高质量的数据集生成目标数据集,使交通数据的后续应用更准确;根据低质量的数据集自动确定采集故障点,生成设备检修指令,无需人工定位问题,实现交通数据的高效处理,并促进后续采集数据的质量提高。
图9是本发明实施例中电子设备的结构示意图,应当理解的是,图9仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
下面参照图9来描述本发明的电子设备600。图9显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行上述实施例中描述的基于质量评估的交通数据处理方法的步骤。例如,处理单元610可以执行如图1和图3至图7所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一个或多个程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700通信,外部设备700可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备700使得用户能与该电子设备600进行交互通信。电子设备600也能与一个或多个其它计算设备进行通信,所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读的存储介质,用于存储程序,程序被执行时实现上述任意实施例描述的基于质量评估的交通数据处理方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述任意实施例描述的基于质量评估的交通数据处理方法的步骤。
如上所述,本发明的计算机可读的存储介质能够结合应用场景信息对交通数据进行多层级的分析处理,根据高质量的数据集生成目标数据集,使交通数据的后续应用更准确;根据低质量的数据集自动确定采集故障点,生成设备检修指令,无需人工定位问题,实现交通数据的高效处理,并促进后续采集数据的质量提高。
图10是本发明的计算机可读的存储介质的结构示意图。参考图10所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读的存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (13)
1.一种基于质量评估的交通数据处理方法,其特征在于,包括步骤:
接收应用场景信息,根据所述应用场景信息获得关联设备采集的交通数据集和所述交通数据集的标识字段;
以所述交通数据集为根节点,分解获得包括多层子节点的树形结构;
自所述树形结构的每个底层节点的数据集中,提取匹配所述标识字段的数据项,生成每个所述底层节点的数据集的特征信息;
根据各所述底层节点的数据集的特征信息,按所述树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及
确定各所述数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
2.如权利要求1所述的交通数据处理方法,其特征在于,还包括步骤:
筛选出质量低于阈值的数据集,与存储所述关联设备的序列号的序列集匹配,获得匹配的关联设备;
根据所述匹配的关联设备的序列号,确定采集故障点;以及
生成基于所述采集故障点的设备检修指令,推送至发出所述应用场景信息的客户端。
3.如权利要求1所述的交通数据处理方法,其特征在于,所述分解获得包括多层子节点的树形结构的步骤中,基于所述应用场景信息的时间分布或所述关联设备的空间分布,逐层分解所述交通数据集,获得所述树形结构。
4.如权利要求1所述的交通数据处理方法,其特征在于,生成一底层节点对应的底层数据集的特征信息的步骤包括:
判断所述底层数据集的数据项是否为空;
若是则获得第一赋值,若否则获得第二赋值;以及
生成对应所述底层数据集的数据覆盖特征、且特征值等于所述第一赋值或所述第二赋值的第一特征信息。
5.如权利要求1所述的交通数据处理方法,其特征在于,生成一底层节点对应的底层数据集的特征信息的步骤包括:
自所述底层数据集的数据项中,获得数据类型符合预设数据类型的有效数据量;
计算所述有效数据量占所述数据项的总数据量的比值;以及
生成对应所述底层数据集的数据有效特征、且特征值等于所述比值的第二特征信息。
6.如权利要求1所述的交通数据处理方法,其特征在于,生成一底层节点对应的底层数据集的特征信息的步骤包括:
判断所述底层数据集的数据项是否离散;
当所述数据项为离散型字段,计算所述数据项中记录值与实际值相同的准确数据量占所述数据项的总数据量的比值;
当所述数据项为连续型字段,计算所述数据项的记录值与所述实际值之差的绝对值的平均值;以及
生成对应所述底层数据集的数据真实特征、且特征值等于所述比值或所述平均值的第三特征信息。
7.如权利要求1所述的交通数据处理方法,其特征在于,生成一底层节点对应的底层数据集的特征信息的步骤包括:
获得所述底层数据集的数据项的产生时间和传输时间;
计算所述传输时间与所述产生时间之差的平均值;以及
生成对应所述底层数据集的数据时延特征、且特征值等于所述平均值的第四特征信息。
8.如权利要求1所述的交通数据处理方法,其特征在于,生成一底层节点对应的底层数据集的特征信息的步骤包括:
根据所述底层数据集的数据项的产生时间,将每条所述数据项归类至一单位时间片;
统计每个单位时间片内的数据量;
根据所述应用场景信息,对各所述单位时间片进行分类;
计算各类单位时间片的数据量的变异系数,并获得各类单位时间片的变异系数的平均值;以及
生成对应所述底层数据集的数据波动特征、且特征值等于所述平均值的第五特征信息。
9.如权利要求4-8任一项所述的交通数据处理方法,其特征在于,计算所述底层节点的一相邻上层节点对应的中间数据集的特征信息的步骤包括:
获得所述中间数据集的关联底层数据集;
根据所述关联底层数据集的节点个数或数据量,确定各所述关联底层数据集的权重系数;以及
计算各所述关联底层数据集的特征信息的加权平均值,作为所述中间数据集的特征信息。
10.如权利要求9所述的交通数据处理方法,其特征在于,所述确定各所述数据集的特征信息的质量的步骤包括:
根据一所述数据集的各维度的特征信息,计算所述数据集的各维度的特征信息的质量分数。
11.一种基于质量评估的交通数据处理系统,其特征在于,包括:
数据获取模块,用于接收应用场景信息,根据所述应用场景信息获得关联设备采集的交通数据集和所述交通数据集的标识字段;
数据分解模块,用于以所述交通数据集为根节点,分解获得包括多层子节点的树形结构;
特征提取模块,用于自所述树形结构的每个底层节点的数据集中,提取匹配所述标识字段的数据项,生成每个所述底层节点的数据集的特征信息;
特征计算模块,用于根据各所述底层节点的数据集的特征信息,按所述树形结构的节点分布,递推计算各上层节点的数据集的特征信息;以及
目标生成模块,用于确定各所述数据集的特征信息的质量,筛选出质量高于阈值的数据集,生成目标数据集。
12.一种电子设备,其特征在于,包括:
一处理器;
一存储器,所述存储器中存储有所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行如权利要求1至10任一项所述的基于质量评估的交通数据处理方法的步骤。
13.一种计算机可读的存储介质,用于存储程序,其特征在于,所述程序被执行时实现如权利要求1至10任一项所述的基于质量评估的交通数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960996.6A CN112100165B (zh) | 2020-09-14 | 2020-09-14 | 基于质量评估的交通数据处理方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960996.6A CN112100165B (zh) | 2020-09-14 | 2020-09-14 | 基于质量评估的交通数据处理方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100165A true CN112100165A (zh) | 2020-12-18 |
CN112100165B CN112100165B (zh) | 2024-02-02 |
Family
ID=73751484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010960996.6A Active CN112100165B (zh) | 2020-09-14 | 2020-09-14 | 基于质量评估的交通数据处理方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100165B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686527A (zh) * | 2020-12-28 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978426A (zh) * | 2015-07-08 | 2015-10-14 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的元数据仓库启发式智能搜索方法 |
US20160142341A1 (en) * | 2014-11-14 | 2016-05-19 | Xplaint | Packet scheduling using hierarchical scheduling process |
CN106777970A (zh) * | 2016-12-15 | 2017-05-31 | 北京锐软科技股份有限公司 | 一种医疗信息系统数据模板化的集成系统及方法 |
CN108764193A (zh) * | 2018-06-04 | 2018-11-06 | 北京师范大学 | 融合poi和遥感影像的城市功能区划分方法 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110598989A (zh) * | 2019-08-14 | 2019-12-20 | 江苏满运软件科技有限公司 | 一种货源质量评估方法、装置、设备和存储介质 |
CN110689257A (zh) * | 2019-09-24 | 2020-01-14 | 北京市天元网络技术股份有限公司 | 基于运营商大数据的快消品行业督查方法以及装置 |
-
2020
- 2020-09-14 CN CN202010960996.6A patent/CN112100165B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160142341A1 (en) * | 2014-11-14 | 2016-05-19 | Xplaint | Packet scheduling using hierarchical scheduling process |
CN104978426A (zh) * | 2015-07-08 | 2015-10-14 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的元数据仓库启发式智能搜索方法 |
CN106777970A (zh) * | 2016-12-15 | 2017-05-31 | 北京锐软科技股份有限公司 | 一种医疗信息系统数据模板化的集成系统及方法 |
CN108764193A (zh) * | 2018-06-04 | 2018-11-06 | 北京师范大学 | 融合poi和遥感影像的城市功能区划分方法 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110598989A (zh) * | 2019-08-14 | 2019-12-20 | 江苏满运软件科技有限公司 | 一种货源质量评估方法、装置、设备和存储介质 |
CN110689257A (zh) * | 2019-09-24 | 2020-01-14 | 北京市天元网络技术股份有限公司 | 基于运营商大数据的快消品行业督查方法以及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686527A (zh) * | 2020-12-28 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
CN112686527B (zh) * | 2020-12-28 | 2024-03-26 | 众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112100165B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784636A (zh) | 欺诈用户识别方法、装置、计算机设备及存储介质 | |
Bartok et al. | Data mining and integration for predicting significant meteorological phenomena | |
CN111178380A (zh) | 数据分类方法、装置及电子设备 | |
CN110196834A (zh) | 一种用于数据项、文件、数据库的对标方法和系统 | |
CN112118551A (zh) | 设备风险识别方法及相关设备 | |
US9858526B2 (en) | Method and system using association rules to form custom lists of cookies | |
CN112329874A (zh) | 数据业务的决策方法、装置、电子设备和存储介质 | |
CN110517154A (zh) | 数据模型训练方法、系统及计算机设备 | |
CN112836020A (zh) | 房源信息的查询方法、装置、设备以及计算机存储介质 | |
US9324041B2 (en) | Function stream based analysis | |
CN115544519A (zh) | 对计量自动化系统威胁情报进行安全性关联分析的方法 | |
CN112100165B (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
CN117291428B (zh) | 一种基于企业管理app的数据后台管理系统 | |
CN112416800A (zh) | 智能合约的测试方法、装置、设备及存储介质 | |
CN115767601A (zh) | 一种基于多维数据的5gc网元自动化纳管方法及装置 | |
CN114692871A (zh) | 决策树训练方法、运单类型识别方法及装置、设备、介质 | |
CN114312930A (zh) | 基于日志数据的列车运行异常诊断方法和装置 | |
CN113918534A (zh) | 一种策略处理系统及方法 | |
CN111523034A (zh) | 一种应用程序的处理方法、装置、设备及介质 | |
CN116719665B (zh) | 一种气象数值模式异常状态的智能判识方法 | |
Zarei et al. | Visualization of Local Municipal Satisfaction by Twitter Data Analysis | |
CN117035557B (zh) | 针对业务场景的公路基础设施数字化程度测评方法 | |
CN114579619B (zh) | 数据查询方法、装置、电子设备及存储介质 | |
JPH0934721A (ja) | データ分析装置 | |
CN117633249A (zh) | 面向SDGs空间型监测指标的基本变量构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |