CN107730115A - 一种基于ahp的多源位置轨迹数据的质量评估方法 - Google Patents
一种基于ahp的多源位置轨迹数据的质量评估方法 Download PDFInfo
- Publication number
- CN107730115A CN107730115A CN201710964706.3A CN201710964706A CN107730115A CN 107730115 A CN107730115 A CN 107730115A CN 201710964706 A CN201710964706 A CN 201710964706A CN 107730115 A CN107730115 A CN 107730115A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- accuracy
- assessment
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000011156 evaluation Methods 0.000 claims abstract description 66
- 238000001303 quality assessment method Methods 0.000 claims abstract description 42
- 238000013441 quality evaluation Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000011157 data evaluation Methods 0.000 claims abstract description 4
- 230000008713 feedback mechanism Effects 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000013210 evaluation model Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013506 data mapping Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011002 quantification Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000006855 networking Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101100100125 Mus musculus Traip gene Proteins 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000004335 scaling law Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G06Q50/40—
Abstract
本发明公开了一种基于AHP的多源位置轨迹数据的质量评估方法,主要涉及数据质量评估技术领域。包括步骤:S1、制定一个动态、带反馈机制的数据质量评估流程;S2、根据数据质量评估流程,确定数据质量的评估指标体系;S3、根据评估指标体系,建立对应的数据质量评估模型;S4、根据数据质量评估模型,确定单源位置轨迹数据质量评估指标权重;S5、根据数据质量评估模型,确定多源位置轨迹数据质量评估指标权重;S6、应用数据质量评估模型测度数据质量。本发明的有益效果在于:能适应大数据时代下各种应用对多源、异构数据来源的质量评估需求,所提出的评估指标均为可量化分析指标,方便后续的质量评估软件的开发。
Description
技术领域
本发明涉及数据质量评估技术领域,具体是一种基于AHP的多源位置轨迹数据的质量评估方法。
背景技术
随着我国城市化进程的不断深入,各大中城市普遍面临着交通拥堵、环境污染、社会老龄化、土地资源紧缺等问题。近年来,民用GPS等定位设备在车载以及移动终端上得到广泛使用,使得基于位置的服务(Location Based Service,LBS)和移动社交网络(MobileSocial Network)得到飞速发展。作为移动社交网络的主体,人的移动性带来的位置轨迹不仅记录人的行为历史,也记录了人与社会的交互活动信息。移动社交网络中位置轨迹数据的分析与利用,为解决城市问题提供了一种新的思路。
轨迹数据是指含有经纬度坐标和时间的数据,其数据来源主要包括四种方式:第一、浮动车的轨迹数据;第二、手机定位数据;第三、用户上传的签到(Check-in)记录,如新浪微博的签到数据;第四、公共交通卡数据(Smart Card Data,SCD),位置轨迹数据来源众多,应用广泛。但长期以来,现有轨迹数据质量的评估方存在以下问题:
1、侧重于单源轨迹数据的评估,针对手机定位数据和用户签到数据的评估方法较少;
2、已有的质量评估指标和评估模型简单,不能全面反映业务需求;
3、在多源位置轨迹融合的研究和应用中,如居民出行活动的时空分析,缺乏一个统一的评估标准和测度方法,造成数据质量不能进行有效质量测度,影响后续的分析和应用。
发明内容
本发明的目的在于提供一种能够解决现有位置轨迹的质量评估流程静态化,评估指标和评估模型简单,而且在多源位置轨迹融合中没有一个通用的评估标准和测度方法等问题的一种基于AHP的多源位置轨迹数据的质量评估方法。
本发明为实现上述目的,通过以下技术方案实现:
一种基于AHP的多源位置轨迹数据的质量评估方法,包括步骤:
S1、制定一个动态、带反馈机制的数据质量评估流程;
S2、根据数据质量评估流程,确定数据质量的评估指标体系,所述评估指标体系包括评估维度、质量特征和评估指标,
所述评估维度包括准确性、完整性和一致性,
所述准确性包括基础数据准确性和关联数据准确性,所述基础数据准确性包括经纬度准确性、时间准确性、速度准确性、方向准确性和位置准确性,所述关联数据准确性包括路段平均行程车速准确性、路段平均行程时间准确性,
所述完整性由内容完整性、结构完整性和关联数据完整性组成,所述内容完整性的评估指标为属性取值完整性,即属性值非空,所述结构完整性的评估指标为数据规范程度,所述关联完整性的评估指标包括时间完整性、空间完整性、路段完整性,所述路段完整性包括路段数据点密度完整性、路段车辆密度完整性,
所述一致性包括数据一致性和语义一致性,所述数据一致性的评估指标为属性取值一致性,所述语义一致性的评估指标为异形同义;
S3、根据评估指标体系,建立对应的数据质量评估模型;
S4、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定单源位置轨迹数据质量评估指标权重;
S5、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定多源位置轨迹数据质量评估指标权重;
S6、应用数据质量评估模型测度数据质量。
所述步骤S1具体包括:
S11、确定数据收集目标;
S12、根据业务环境抽取数据质量维度和质量特征;
S13、确定每一特征的评估指标,建立评估模型;
S14、制定数据质量评估基线;
S15、获取数据;
S16、应用评估模型测度数据质量;
S17、判断数据质量评估结果是否符合基线标准,如果符合,输出评估后的数据,并生成数据质量报告;如果不符合,返回步骤S15,重新获取数据;
S18、经过评估并符合基线标准的数据可以执行后续的数据分析和数据挖掘工作;
S19、判断数据分析或者数据挖掘的结果是否满足设定的目标,如果满足设定的目标,那么输出分析结果,同时,将其反馈给质量评估系统,为下一轮的评估提供更好的支持;如果不满足,有可能评估基线的制定不够合理,需要及时对评估基线进行调整,以便最终能得到符合目标的结果。
根据步骤S2中的评估指标体系,建立的数据质量评估模型如下:
所述基础数据准确性指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的轨迹数据总量,P表示若干个位置属性中的某个属性,即P∈{经度,纬度,时间,速度,位置,……},表示在该P个属性中,评估样本中满足准确性需求的样本数量,
所述经纬度准确性的评估公式如下:
其中,距离阈值为θm,落在标准POI点集θm范围内的待评估点集数量设置为所述标准POI点集的数量为N;
所述路段平均行程车速准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均车速的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均车速,表示同一路段在时间区间t上的历史平均车速,
所述路段平均行程时间准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均行驶时间的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均行驶时间,表示同一路段在时间区间t上的历史平均行驶时间,
所述属性取值完整性评估指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的位置数据总量,P表示若干个位置属性中的某个属性,表示在该P个属性中,取值非空的样本数量,
所述路段完整性评估公式如下:
其中,表示路段k在时间区间t内的完整性,表示第k个路段在时间区间t上的数据点密度,表示第k个路段在时间区间t上的车辆数密度,代表在时间区间t上车辆所产生的GPS数据量与总数据量的比例,代表在时间区间t上出现的车辆数与总车辆数的比例;
所述空间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示第i个区域在时间区间t上的手机用户数量,而且
所述时间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示在时间区间s出现的手机用户数量,γ表示在一个时间段内手机用户数阈值,而且
所述数据规范完整性的数据质量评估模型如下:
其中,N表示总的数据量,NL表示名称不规范的数据量;
所述属性取值一致性的数据质量评估模型如下:
其中,表示路段k在时间区间t内的一致性,n代表出现在k路段上的车辆数,代表车辆c在时间区间t内在路段k的速度平均值,代表除去第c辆车所产生的GPS数据速度值集合后的全部速度值集合的平均值;
所述语义一致性的数据质量评估模型如下:
其中,N表示总的评估数据量,NS表示名称是异形同义的数据量。
所述基础数据准确性评估公式如下:
MNA=MN-MND-MNS
其中,MNA表示去掉噪声数据后的手机定位数据数量,MN表示经过修改乒乓数据后的手机定位数据总量,MND表示漂移数据的数量,MNS表示长时间静止数据的数量。
所述步骤S4具体包括:
S41、采用AHP方法确定单源多维度准确性评估指标权重,设p个评估指标的权重分别为Waccuracy={w1,w2,…,wp},p≤m,m为评估对象的属性数量,单一数据源Si的准确性分别为Accuracyi1,Accuracyi2,…,Accuracyip,则单源多维度准确性评估模型为:
S42、采用AHP方法确定单源多维度完整性评估指标权重,单源多维度完整性的评估模型为:
S43、采用AHP方法确定单源多维度一致性评估指标权重,单源多维度一致性的评估模型为:
所述步骤S5具体包括:
S51、采用AHP方法确定多源多维度准确性评估指标权重,设n个数据源的权值分别为W={w1,w2,…,wn},
数据源Si的准确性为:Accuracyi,
数据源Si的完整性为:Completenessi,
数据源Si的一致性为:Conisitencyi,
其中1<i<n,则多源位置轨迹数据的准确性评估模型为:
S52、采用AHP方法确定多源多维度完整性评估指标权重,多源位置轨迹数据的完整性评估模型为:
S53、采用AHP方法确定多源多维度一致性评估指标权重,多源位置轨迹数据的一致性评估模型为:
所述步骤S6具体包括:
S61、根据每一个评估指标开发数据质量测度组件;
S62、根据指标权重配置数据质量测度组件参数;
S63、设定数据质量测度范围;
S64、执行数据质量测度过程。
对比现有技术,本发明的有益效果在于:
本发明可应用于科研院校、政府机关、企事业单位等各类社会组织的数据质量分析、数据治理、数据挖掘、数据交易评估等工作。通过建立通用的多源轨迹数据质量评估维度和模型、标准化的质量测度过程,以统一的方法定义数据质量、建立数据质量评价指标,结合具体场景借助AHP方法优化各质量评估指标权重,支撑数据问题的根因分析,并可结合信息化技术形成通用数据质量测度组件和自动化工具,解决了原有数据质量评估指标较少、模型简单、缺乏多源轨迹数据融合的评估标准等问题,与以往传统的数据质量评估工作方式相比,采用本方法能适应大数据时代下各种应用对多源、异构数据来源的质量评估需求,所提出的评估指标均为可量化分析指标,方便后续的质量评估软件的开发。
附图说明
附图1是本发明步骤S1中的数据质量评估流程;
附图2是本发明步骤S2中的评估指标体系框图;
附图3是本发明步骤S4、步骤S5中基于AHP的质量指标权重计算流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
层次分析法简介:层次分析法(Analytic Hierarchy Process,AHP)是由美国运筹学家托马斯·塞蒂(T.L.Saaty)在20世纪70年代中期正式提出,是一种定性和定量相结合的、系统化、层次化的分析方法,由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得到重视,它的应用已遍及经济计划和管理、能源政策和分配、行为科学、军事指挥、运输、农业、教育、人才、医疗和环境等领域,该方法的核心是对评价对象进行优劣排序、评价和选择,从而为评价主体提供定量形式的评价依据,AHP法首先将复杂的问题分解成若干层次,建立阶梯层次结构,然后构成判断矩阵,进行层次单排序一致性检验,最后进行层次总排序和一致性检验,得出结论,在具体的数据质量评估场景中完成单数据源中各评估指标的权重设置以及多数据源中各种来源质量维度的权重设置。
本发明所述是一种基于AHP的多源位置轨迹数据的质量评估方法,包括步骤:
S1、制定一个动态、带反馈机制的数据质量评估流程;
所述步骤S1具体包括:
S11、确定数据收集目标;
S12、根据业务环境抽取数据质量维度和质量特征;
S13、确定每一特征的评估指标,建立评估模型;
S14、制定数据质量评估基线;
S15、获取数据;
S16、应用评估模型测度数据质量;
S17、判断数据质量评估结果是否符合基线标准,如果符合,输出评估后的数据,并生成数据质量报告;如果不符合,返回步骤S15,重新获取数据;
S18、经过评估并符合基线标准的数据可以执行后续的数据分析和数据挖掘工作;
S19、判断数据分析或者数据挖掘的结果是否满足设定的目标,如果满足设定的目标,那么输出分析结果,同时,将其反馈给质量评估系统,为下一轮的评估提供更好的支持;如果不满足,有可能评估基线的制定不够合理,需要及时对评估基线进行调整,以便最终能得到符合目标的结果。
S2、根据数据质量评估流程,确定数据质量的评估指标体系,所述评估指标体系包括评估维度、质量特征和评估指标,
所述评估维度包括准确性、完整性和一致性,
所述准确性包括基础数据准确性和关联数据准确性,所谓基础数据是指每一类轨迹数据的基本属性,如GPS轨迹数据中的时间、速度、方向等,其质量指标即为对应属性的准确性,关联数据准确性是指轨迹数据与其他数据(如地理数据)相关联后产生的数据,如路段平均车速、路段平均时间等,在实际应用中,轨迹数据必须与地理数据(电子地图)相结合才能表示具体位置,因此,需要对关联数据的质量进行分析,所述基础数据准确性包括经纬度准确性、时间准确性、速度准确性、方向准确性和位置准确性,所述关联数据准确性包括路段平均行程车速准确性、路段平均行程时间准确性。
所述完整性由内容完整性、结构完整性和关联数据完整性组成,所述内容完整性的评估指标为属性取值完整性,即属性值非空,所述结构完整性的评估指标为数据规范程度,所述关联完整性的评估指标包括时间完整性、空间完整性、路段完整性,所述路段完整性包括路段数据点密度完整性、路段车辆密度完整性。
所述一致性包括数据一致性和语义一致性,所述数据一致性的评估指标为属性取值一致性,所述语义一致性的评估指标为异形同义。
S3、根据评估指标体系,建立对应的数据质量评估模型,
所述基础数据准确性指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的轨迹数据总量,P表示若干个位置属性中的某个属性,即P∈{经度,纬度,时间,速度,位置,……},表示在该P个属性中,评估样本中满足准确性需求的样本数量,以速度为例,如果一条GPS样本的速度V≥0且V≤120,则这个样本的速度取值正确,反之,则为取值出错。
对于轨迹数据来说,位置描述主要是通过经纬度坐标来确定,但是,经纬度坐标的取值与参考数据集会存在一定偏移,如果两者差值落在一个给定的阈值范围内,仍然认为这两个位置基本相同,以签到数据为例,假设距离阈值为θm,落在标准POI点集(数量为N)θm范围内的待评估点集数量设置为则POI点的位置(经纬度)准确性的评估公式如下:
对于手机定位数据来说,由于没有可对比的标准数据集,准确性主要用来评估修改和删除噪声数据后剩余的准确数据,所谓噪声数据是指乒乓数据、漂移数据和长时间静止的数据。
要判断乒乓数据,需要连续的三条定位数据,本发明用向量(Loni,Lati,ti,GELLID)表示第i条数据产生的经度、纬度、时间和所属小区编号,其中1≤i≤n,Δti为第i条数据和第i+1条数据的时间间隔,即
Δti=ti+1-ti
设时间阈值为a,若Δti+1<a且Δti<a,则分别比较第i条,第i+1条和第i+2条数据的CELLID字段值,如果i与i+2的CELLID相同,且与i+1的CELLID不同,则判定为乒乓数据,必须修改i+1条记录的数据。
与乒乓数据类似,要判断漂移数据,也需要连续的三条定位数据,并计算它们之间的距离和速度值,设距离阈值为β,速度阈值为γ,Δdi为第i条记录和第i+1条记录之间的距离,Δdi+2<β为第i条记录和第i+2条记录之间的距离,vi表示第i条记录和第i+1条记录之间的速度,若vi>γ,则可以判定i+1点为漂移数据,直接刪除;否则,m=Δdi/Δdi+2>β,则判定i+1也为漂移数据,也可以直接刪除。
最后,对于静止数据,则直接剔除它们。
故手机定位基础数据准确性评估公式如下:
MNA=MN-MND-MNS
其中,MNA表示去掉噪声数据后的手机定位数据数量,MN表示经过修改乒乓数据后的手机定位数据总量,MND表示漂移数据的数量,MNS表示长时间静止数据的数量。
所述路段平均行程车速准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均车速的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均车速,表示同一路段在时间区间t上的历史平均车速。
所述路段平均行程时间准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均行驶时间的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均行驶时间,表示同一路段在时间区间t上的历史平均行驶时间。
所述属性取值完整性评估指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的位置数据总量,P表示若干个位置属性中的某个属性,表示在该P个属性中,取值非空的样本数量。
在GPS轨迹数据中,完整性评估可以用来反映一条路段的重要程度,路段越重要,其上出现的GPS轨迹点的质量就越高,如果某条路段出现的数据点数较多或者车辆数较多,则表明该路段是热门路段,因此,所述路段完整性的数据质量评估模型可以通过路段的数据点密度和车辆数密度共同评估,所述路段完整性评估公式如下:
其中,表示路段k在时间区间t内的完整性,表示第k个路段在时间区间t上的数据点密度,表示第k个路段在时间区间t上的车辆数密度,代表在时间区间t上车辆所产生的GPS数据量与总数据量的比例,代表在时间区间t上出现的车辆数与总车辆数的比例。
对于手机定位数据,空间完整性表示评估区域内,数据覆盖所有空间区域的程度,手机定位数据与GPS轨迹数据不同,其关联的地理信息并不是路段,而是基站小区所覆盖的范围。因此,可以将整个城市路网按照基站小区位置划分为多个Voronoi多边形。假设整个路网划分为O个多边形区域,δ表示在一个多边形区域内手机用户数阈值,则所述空间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示第i个区域在时间区间t上的手机用户数量,而且
所述时间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示在时间区间s出现的手机用户数量,γ表示在一个时间段内手机用户数阈值,而且
所述数据规范完整性的数据质量评估模型如下:
其中,N表示总的数据量,NL表示名称不规范的数据量;
所述属性取值一致性的数据质量评估模型如下:
其中,表示路段k在时间区间t内的一致性,n代表出现在k路段上的车辆数,代表车辆c在时间区间t内在路段k的速度平均值,代表除去第c辆车所产生的GPS数据速度值集合后的全部速度值集合的平均值,可见,当越小时,表明数据的异常程度可能性越小,的值越高,数据一致性越好。
语义一致性主要针对签到数据,用来评估位置名称中出现异形同义名称的比例,异形同义名称的比例越低,则一致性越好,反之,则一致性越差,则所述语义一致性的数据质量评估模型如下
其中,N表示总的评估数据量,NS表示名称是异形同义的数据量。
S4、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定单源位置轨迹数据质量评估指标权重,
所述步骤S4具体包括:
S41、采用AHP方法确定单源多维度准确性评估指标权重,对于单个来源的轨迹数据,其准确性是由多个评估指标构成,因此,质量为单源多维度数据质量的加权平均值,即在数据准确性的质量判定过程中,为每个评估指标赋予一个权重值,权重值可以用层次分析法(Analytic Hierarchy Process,AHP)来确定,定义单源数据源中第一层次质量维度的权重集为A=(a1,a2,a3);第二层次质量特征的权重集为A1=(a11,a12),A2=(a21,a22),A3=(a31,a32);第三层次评估指标的权重集为A11=(a111,a112,a113,a114),A12=(a121,a122),A21=(a211),A22=(a221,a222,a223,a114),A23=(a311),A31=(a311),A32=(a321)。
设p个评估指标的权重分别为Waccuracy={w1,w2,…,wp},p≤m,m为评估对象的属性数量,单一数据源Si的准确性分别为Accuracyi1,Accuracyi2,…,Accuracyip,则单源多维度准确性评估模型为:
S42、采用AHP方法确定单源多维度完整性评估指标权重,
构造判断矩阵,通过组织3位专家并咨询,采用(0~9)标度法分别构造第一层次的判断矩阵A~,构造第二层次的判断矩阵和以及构造第三层次的判断矩阵和
单源多维度完整性的评估模型为:
S43、采用AHP方法确定单源多维度一致性评估指标权重,计算所有判断矩阵的权向量并做一致性检验,单源多维度一致性的评估模型为:
经过计算,所有层次的因素权重都已经计算完成,获得最终的权重分布表。
S5、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定多源位置轨迹数据质量评估指标权重,
所述步骤S5具体包括:
S51、采用AHP方法确定多源多维度准确性评估指标权重,
多源位置轨迹数据质量为多个单源多维度数据质量的加权平均值,由于不同数据源对数据的获取精度和处理方式不同,因此在相同条件下,不同数据源产生的单源多维度数据质量存在差异,鉴于此,在多源多维度数据质量判定过程中,为每个数据源赋予一个权重值,权重值也采用AHP方法来确定。
设n个数据源的权值分别为W={w1,w2,…,wn},
数据源Si的准确性为:Accuracyi,
数据源Si的完整性为:Completenessi,
数据源Si的一致性为:Conisitencyi,
其中1<i<n,则多源位置轨迹数据的准确性评估模型为:
S52、采用AHP方法确定多源多维度完整性评估指标权重,多源位置轨迹数据的完整性评估模型为:
S53、采用AHP方法确定多源多维度一致性评估指标权重,多源位置轨迹数据的一致性评估模型为:
在实际应用中,用户需要同时使用两个以上的位置轨迹数据,这时就需要进行数据融合操作,数据融合完成后,同样使用AHP方法来计算不同来源的数据权重值。
S6、应用数据质量评估模型测度数据质量,所述步骤S6具体包括:
S61、根据每一个评估指标开发数据质量测度组件;
S62、根据指标权重配置数据质量测度组件参数;
S63、设定数据质量测度范围;
S64、执行数据质量测度过程。
应用评估模型核查数据质量是指基于软件开发,将通用数据质量评估模型的各评估维度、评估指标对应的模型和算法固化为程序组件,提供可灵活调用的测度数据接入接口、测度参数控制接口和数据输出接口,在具体的数据质量评估场景中完成数据质量评估模型的实例化,运行以产生数据质量评估结果和数据质量报告。
本发明所述的基于AHP的多源位置轨迹数据的质量评估框架,可为企业数据质量评估工作开展提供全过程指引,尤其适合于多源异构的位置大数据的融合、分析和挖掘工作;将数据质量模型简化为组件管理,提高了测度工作的规范程度,可为科学研究、数据治理、数据分析和挖掘、数据交易评估等工作提供有力支撑。
Claims (7)
1.一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:包括步骤:
S1、制定一个动态、带反馈机制的数据质量评估流程;
S2、根据数据质量评估流程,确定数据质量的评估指标体系,所述评估指标体系包括评估维度、质量特征和评估指标,
所述评估维度包括准确性、完整性和一致性,
所述准确性包括基础数据准确性和关联数据准确性,所述基础数据准确性包括经纬度准确性、时间准确性、速度准确性、方向准确性和位置准确性,所述关联数据准确性包括路段平均行程车速准确性、路段平均行程时间准确性,
所述完整性由内容完整性、结构完整性和关联数据完整性组成,所述内容完整性的评估指标为属性取值完整性,即属性值非空,所述结构完整性的评估指标为数据规范程度,所述关联完整性的评估指标包括时间完整性、空间完整性、路段完整性,所述路段完整性包括路段数据点密度完整性、路段车辆密度完整性,
所述一致性包括数据一致性和语义一致性,所述数据一致性的评估指标为属性取值一致性,所述语义一致性的评估指标为异形同义;
S3、根据评估指标体系,建立对应的数据质量评估模型;
S4、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定单源位置轨迹数据质量评估指标权重;
S5、根据数据质量评估模型,结合数据质量评估场景,采用AHP方法确定多源位置轨迹数据质量评估指标权重;
S6、应用数据质量评估模型测度数据质量。
2.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:所述步骤S1具体包括:
S11、确定数据收集目标;
S12、根据业务环境抽取数据质量维度和质量特征;
S13、确定每一特征的评估指标,建立评估模型;
S14、制定数据质量评估基线;
S15、获取数据;
S16、应用评估模型测度数据质量;
S17、判断数据质量评估结果是否符合基线标准,如果符合,输出评估后的数据,并生成数据质量报告;如果不符合,返回步骤S15,重新获取数据;
S18、经过评估并符合基线标准的数据可以执行后续的数据分析和数据挖掘工作;
S19、判断数据分析或者数据挖掘的结果是否满足设定的目标,如果满足设定的目标,那么输出分析结果,同时,将其反馈给质量评估系统,为下一轮的评估提供更好的支持;如果不满足,有可能评估基线的制定不够合理,需要及时对评估基线进行调整,以便最终能得到符合目标的结果。
3.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:根据步骤S2中的评估指标,建立的数据质量评估模型如下:
所述基础数据准确性指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的轨迹数据总量,P表示若干个位置属性中的某个属性,即P∈{经度,纬度,时间,速度,位置,……},表示在该P个属性中,评估样本中满足准确性需求的样本数量,
所述经纬度准确性的评估公式如下:
其中,距离阈值为θm,落在标准POI点集θm范围内的待评估点集数量设置为所述标准POI点集的数量为N;
所述路段平均行程车速准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均车速的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均车速,表示同一路段在时间区间t上的历史平均车速,
所述路段平均行程时间准确性指标的数据质量评估模型,采用以下公式:
其中,表示时间区间t内平均行驶时间的平均绝对百分比误差,N为评估区域内的路段总数,表示第k个路段在时间区间t上的当前平均行驶时间,表示同一路段在时间区间t上的历史平均行驶时间,
所述属性取值完整性评估指标的数据质量评估模型,采用以下公式:
其中,N表示待评估的位置数据总量,P表示若干个位置属性中的某个属性,表示在该P个属性中,取值非空的样本数量,
所述路段完整性评估公式如下:
其中,表示路段k在时间区间t内的完整性,表示第k个路段在时间区间t上的数据点密度,表示第k个路段在时间区间t上的车辆数密度,代表在时间区间t上车辆所产生的GPS数据量与总数据量的比例,代表在时间区间t上出现的车辆数与总车辆数的比例;
所述空间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示第i个区域在时间区间t上的手机用户数量,而且
所述时间完整性的数据质量评估模型如下:
其中,N表示手机定位数据总数,表示在时间区间s出现的手机用户数量,γ表示在一个时间段内手机用户数阈值,而且
所述数据规范完整性的数据质量评估模型如下:
其中,N表示总的数据量,NL表示名称不规范的数据量;
所述属性取值一致性的数据质量评估模型如下:
其中,表示路段k在时间区间t内的一致性,n代表出现在k路段上的车辆数,代表车辆c在时间区间t内在路段k的速度平均值,代表除去第c辆车所产生的GPS数据速度值集合后的全部速度值集合的平均值;
所述语义一致性的数据质量评估模型如下:
其中,N表示总的评估数据量,NS表示名称是异形同义的数据量。
4.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:所述基础数据准确性评估公式如下:
MNA=MN-MND-MNS
其中,MNA表示去掉噪声数据后的手机定位数据数量,MN表示经过修改乒乓数据后的手机定位数据总量,MND表示漂移数据的数量,MNS表示长时间静止数据的数量。
5.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:所述步骤S4具体包括:
S41、采用AHP方法确定单源多维度准确性评估指标权重,设p个评估指标的权重分别为Waccuracy={w1,w2,…,wp},p≤m,m为评估对象的属性数量,单一数据源Si的准确性分别为Accuracyi1,Accuracyi2,…,Accuracyip,则单源多维度准确性评估模型为:
S42、采用AHP方法确定单源多维度完整性评估指标权重,单源多维度完整性的评估模型为:
S43、采用AHP方法确定单源多维度一致性评估指标权重,单源多维度一致性的评估模型为:
。
6.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:所述步骤S5具体包括:
S51、采用AHP方法确定多源多维度准确性评估指标权重,设n个数据源的权值分别为W={w1,w2,…,wn},
数据源Si的准确性为:Accuracyi,
数据源Si的完整性为:Completenessi,
数据源Si的一致性为:Conisitencyi,
其中1<i<n,则多源位置轨迹数据的准确性评估模型为:
S52、采用AHP方法确定多源多维度完整性评估指标权重,多源位置轨迹数据的完整性评估模型为:
S53、采用AHP方法确定多源多维度一致性评估指标权重,多源位置轨迹数据的一致性评估模型为:
7.根据权利要求1所述的一种基于AHP的多源位置轨迹数据的质量评估方法,其特征在于:所述步骤S6具体包括:
S61、根据每一个评估指标开发数据质量测度组件;
S62、根据指标权重配置数据质量测度组件参数;
S63、设定数据质量测度范围;
S64、执行数据质量测度过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710964706.3A CN107730115A (zh) | 2017-10-17 | 2017-10-17 | 一种基于ahp的多源位置轨迹数据的质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710964706.3A CN107730115A (zh) | 2017-10-17 | 2017-10-17 | 一种基于ahp的多源位置轨迹数据的质量评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107730115A true CN107730115A (zh) | 2018-02-23 |
Family
ID=61210549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710964706.3A Pending CN107730115A (zh) | 2017-10-17 | 2017-10-17 | 一种基于ahp的多源位置轨迹数据的质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107730115A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN110221976A (zh) * | 2019-05-28 | 2019-09-10 | 广西电网有限责任公司电力科学研究院 | 一种基于度量技术的计量终端软件质量量化评价方法 |
CN110689222A (zh) * | 2019-08-20 | 2020-01-14 | 天津理工大学 | 一种毕业要求达成度的动态评价方法及装置 |
CN110866000A (zh) * | 2019-11-20 | 2020-03-06 | 珠海格力电器股份有限公司 | 数据质量评价方法、装置、电子设备及存储介质 |
CN112101447A (zh) * | 2020-09-10 | 2020-12-18 | 北京百度网讯科技有限公司 | 数据集的质量评估方法、装置、设备以及存储介质 |
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN112380311A (zh) * | 2020-11-27 | 2021-02-19 | 上海评驾科技有限公司 | 一种基于行程轨迹的poi识别方法 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN112465364A (zh) * | 2020-12-03 | 2021-03-09 | 合肥天源迪科信息技术有限公司 | 一种用于指标库的管理系统 |
CN113379219A (zh) * | 2021-06-04 | 2021-09-10 | 广东省电信规划设计院有限公司 | 应急管理数据的质量评估方法及装置 |
CN114372382A (zh) * | 2022-03-22 | 2022-04-19 | 交通运输部公路科学研究所 | 车辆轨迹可靠度评测方法、设备和存储介质 |
CN114463977A (zh) * | 2022-02-10 | 2022-05-10 | 北京工业大学 | 一种基于车路协同多源数据融合交通流预测的路径规划方法 |
CN115204314A (zh) * | 2022-08-12 | 2022-10-18 | 西南交通大学 | 基于车载obu的多源数据融合方法和车载obu |
CN115658675A (zh) * | 2022-12-06 | 2023-01-31 | 遵义钟钟网络科技有限公司 | 应用于数据处理的噪声优化方法及ai系统 |
CN116450632A (zh) * | 2023-04-18 | 2023-07-18 | 北京卫星信息工程研究所 | 地理样本数据质量评估方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120278015A1 (en) * | 2003-08-08 | 2012-11-01 | Budhraja Vikram S | Wide-area, real-time monitoring and visualization system |
CN104134349A (zh) * | 2014-08-07 | 2014-11-05 | 北京航空航天大学 | 一种基于交通多源数据融合的公交路况处理系统及方法 |
CN105741196A (zh) * | 2016-03-01 | 2016-07-06 | 万达信息股份有限公司 | 一种基于四个维度进行数据质量监测及评价方法 |
CN106503206A (zh) * | 2016-10-26 | 2017-03-15 | 国家电网公司 | 一种基于熵权法的通用数据质量评估方法 |
-
2017
- 2017-10-17 CN CN201710964706.3A patent/CN107730115A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120278015A1 (en) * | 2003-08-08 | 2012-11-01 | Budhraja Vikram S | Wide-area, real-time monitoring and visualization system |
CN104134349A (zh) * | 2014-08-07 | 2014-11-05 | 北京航空航天大学 | 一种基于交通多源数据融合的公交路况处理系统及方法 |
CN105741196A (zh) * | 2016-03-01 | 2016-07-06 | 万达信息股份有限公司 | 一种基于四个维度进行数据质量监测及评价方法 |
CN106503206A (zh) * | 2016-10-26 | 2017-03-15 | 国家电网公司 | 一种基于熵权法的通用数据质量评估方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN110221976A (zh) * | 2019-05-28 | 2019-09-10 | 广西电网有限责任公司电力科学研究院 | 一种基于度量技术的计量终端软件质量量化评价方法 |
CN110221976B (zh) * | 2019-05-28 | 2023-08-22 | 广西电网有限责任公司电力科学研究院 | 一种基于度量技术的计量终端软件质量量化评价方法 |
CN110689222A (zh) * | 2019-08-20 | 2020-01-14 | 天津理工大学 | 一种毕业要求达成度的动态评价方法及装置 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN110866000B (zh) * | 2019-11-20 | 2022-04-08 | 珠海格力电器股份有限公司 | 数据质量评价方法、装置、电子设备及存储介质 |
CN110866000A (zh) * | 2019-11-20 | 2020-03-06 | 珠海格力电器股份有限公司 | 数据质量评价方法、装置、电子设备及存储介质 |
CN112101447A (zh) * | 2020-09-10 | 2020-12-18 | 北京百度网讯科技有限公司 | 数据集的质量评估方法、装置、设备以及存储介质 |
CN112101447B (zh) * | 2020-09-10 | 2024-04-16 | 北京百度网讯科技有限公司 | 数据集的质量评估方法、装置、设备以及存储介质 |
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN112380311A (zh) * | 2020-11-27 | 2021-02-19 | 上海评驾科技有限公司 | 一种基于行程轨迹的poi识别方法 |
CN112380311B (zh) * | 2020-11-27 | 2024-04-02 | 上海评驾科技有限公司 | 一种基于行程轨迹的poi识别方法 |
CN112465364A (zh) * | 2020-12-03 | 2021-03-09 | 合肥天源迪科信息技术有限公司 | 一种用于指标库的管理系统 |
CN112465364B (zh) * | 2020-12-03 | 2024-03-19 | 合肥天源迪科信息技术有限公司 | 一种用于指标库的管理系统 |
CN113379219A (zh) * | 2021-06-04 | 2021-09-10 | 广东省电信规划设计院有限公司 | 应急管理数据的质量评估方法及装置 |
CN114463977A (zh) * | 2022-02-10 | 2022-05-10 | 北京工业大学 | 一种基于车路协同多源数据融合交通流预测的路径规划方法 |
CN114463977B (zh) * | 2022-02-10 | 2023-06-23 | 北京工业大学 | 一种基于车路协同多源数据融合交通流预测的路径规划方法 |
CN114372382B (zh) * | 2022-03-22 | 2022-06-10 | 交通运输部公路科学研究所 | 车辆轨迹可靠度评测方法、设备和存储介质 |
CN114372382A (zh) * | 2022-03-22 | 2022-04-19 | 交通运输部公路科学研究所 | 车辆轨迹可靠度评测方法、设备和存储介质 |
CN115204314B (zh) * | 2022-08-12 | 2023-05-30 | 西南交通大学 | 基于车载obu的多源数据融合方法和车载obu |
CN115204314A (zh) * | 2022-08-12 | 2022-10-18 | 西南交通大学 | 基于车载obu的多源数据融合方法和车载obu |
CN115658675A (zh) * | 2022-12-06 | 2023-01-31 | 遵义钟钟网络科技有限公司 | 应用于数据处理的噪声优化方法及ai系统 |
CN115658675B (zh) * | 2022-12-06 | 2023-11-14 | 湖南风云通达信息科技有限公司 | 应用于数据处理的噪声优化方法及ai系统 |
CN116450632A (zh) * | 2023-04-18 | 2023-07-18 | 北京卫星信息工程研究所 | 地理样本数据质量评估方法、设备及存储介质 |
CN116450632B (zh) * | 2023-04-18 | 2023-12-19 | 北京卫星信息工程研究所 | 地理样本数据质量评估方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107730115A (zh) | 一种基于ahp的多源位置轨迹数据的质量评估方法 | |
Yue et al. | Measurements of POI-based mixed use and their relationships with neighbourhood vibrancy | |
Groff et al. | Forecasting the future of predictive crime mapping | |
CN102607553B (zh) | 一种基于出行轨迹数据的行程识别方法 | |
CN109636150A (zh) | 一种智慧城市“多规合一”评价体系的建立方法及其系统 | |
CN103336894B (zh) | 一种城市容积率自动分区方法 | |
Leyk et al. | Maximum entropy dasymetric modeling for demographic small area estimation | |
Yuan et al. | Cause analysis of hindering on-site lean construction for prefabricated buildings and corresponding organizational capability evaluation | |
CN111612294A (zh) | 一种基于时空大数据的城市体检系统 | |
CN106970986A (zh) | 基于深度学习的城市内涝影响程度挖掘方法及系统 | |
CN106448165A (zh) | 一种基于网络约租车数据的路网行程时间可靠性评价方法 | |
CN101599142A (zh) | 基于空间数据场的土地评价指标分类量化方法 | |
CN107368915A (zh) | 一种地铁乘客出行时间选择行为分析方法 | |
CN103971300A (zh) | 基于gis空间信息的变电站站址定位方法 | |
Rosés et al. | Simulating offender mobility: Modeling activity nodes from large-scale human activity data | |
Teliura et al. | Selection methodology of ecological safety priorities of sustainable development goals of urban agglomerations | |
Gimblett | Modelling Human-Landscape Interactions in Spatially Complex Settings: Where are we and where are we going | |
CN108921425A (zh) | 一种资产项目投资分类的方法、系统及服务器 | |
CN108564810A (zh) | 一种车位共享系统及其方法 | |
CN115186870B (zh) | 一种基于大数据的居民点出行碳排放的核算方法 | |
CN104299037B (zh) | 一种自动化空间环境模式评估系统及方法 | |
Wenjing | BP neural network-based evaluation method for enterprise comprehensive performance | |
CN112148821B (zh) | 一种城市混合职住空间计算方法和系统 | |
CN114638431A (zh) | 一种基于infoworks模型的典型地块年径流总量控制率速查方法 | |
Cai et al. | A schema of ecological environment sensitivity evaluation based on GIS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |
|
RJ01 | Rejection of invention patent application after publication |