CN106446194A - 一种地理区域的采集参数确定方法及装置 - Google Patents

一种地理区域的采集参数确定方法及装置 Download PDF

Info

Publication number
CN106446194A
CN106446194A CN201610865980.0A CN201610865980A CN106446194A CN 106446194 A CN106446194 A CN 106446194A CN 201610865980 A CN201610865980 A CN 201610865980A CN 106446194 A CN106446194 A CN 106446194A
Authority
CN
China
Prior art keywords
collecting efficiency
areas
region
value
built
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610865980.0A
Other languages
English (en)
Other versions
CN106446194B (zh
Inventor
石强
刘玉亭
种道晨
史开贵
张山
张炎鹏
张剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610865980.0A priority Critical patent/CN106446194B/zh
Publication of CN106446194A publication Critical patent/CN106446194A/zh
Application granted granted Critical
Publication of CN106446194B publication Critical patent/CN106446194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明实施例公开了一种地理区域的采集参数确定方法及装置。该方法包括:对历史采集点数据进行预处理,以获取预设等级区域的采集效率;根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;根据区域分级,确定级别区域的采集参数范围值。确定不同区域的采集参数,作为采集难度量化的基础,为采集工作的公平公正的绩效评估提供参考依据。

Description

一种地理区域的采集参数确定方法及装置
技术领域
本发明实施例涉及大数据处理和统计技术,尤其涉及一种地理区域的采集参数确定方法及装置。
背景技术
电子地图的制作需要采集室外基础地理数据,诸如道路/全景等信息,其采集的方式是驾驶装有专业采集设备的车辆在室外行驶,对道路、地物标识等信息进行拍照采集。采集作业工作会受到由地域因素(考虑为不同城市)的影响,不同的城市由于存在天然的客观条件综合差异,导致采集效率本身会有所不同。
目前,对于不同城市的采集难度并没有区分,例如,采集车A:在路宽路多等级高,红绿灯少,人稀车少不堵的类似地域/城市采集作业8小时,共采集400公里;采集车B:在路窄路少等级低,红绿灯多,人密车多堵不停的类似地域/城市采集作业10小时,共采集300公里。若是仅按照车采里程进行工作绩效统计,会严重丧失公平性。
那么对于不同车在不同城市进行采集作业,如何为采集效率的确定提供参考依据是当前面临的实际问题。如何确定地理区域的采集参数,以便实现采集难度的量化,是地理信息采集领域待解决的问题。
发明内容
本发明实施例提供一种地理区域的采集参数确定方法及装置,以实现不同地理区域采集参数的确定,便于对不同地理区域信息采集难度的量化。
第一方面,本发明实施例提供了一种地理区域的采集参数确定方法,该方法包括:
对历史采集点数据进行预处理,以获取预设等级区域的采集效率;
根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;
按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;
按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;
根据区域分级,确定级别区域的采集参数范围值。
第二方面,本发明实施例还提供了一种地理区域的采集参数确定装置,该装置包括:
数据预处理模块,用于对历史采集点数据进行预处理,以获取预设等级区域的采集效率;
因素筛选模块,用于根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;
样本区域选择模块,用于按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;
区域分级确定模块,用于按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;
采集参数确定模块,用于根据区域分级,确定级别区域的采集参数范围值。
本发明实施例通过按照不同采集效率对地理区域进行分级的方法,确定不同区域的采集参数,作为采集难度量化的基础,解决了采集难度无法量化这一技术问题,为采集工作的公平公正的绩效评估提供了参考依据。
附图说明
图1为本发明实施例一提供的一种地理区域的采集参数确定方法的流程图;
图2为本发明实施例提供的一种地理区域的采集参数确定方法中的某城市的一个区域示例图;
图3为本发明实施例三提供的一种地理区域的采集参数确定方法中的建成区所有城市的采集效率区间叠加结果示意图;
图4为本发明实施例二提供的一种地理区域的采集参数确定方法的流程图;
图5为本发明实施例提供的一种地理区域的采集参数确定方法中的区域划分示意图;
图6为本发明实施例二提供的一种地理区域的采集参数确定方法中的采集效率累积分布函数示意图;
图7为本发明实施例三提供的一种地理区域的采集参数确定方法的流程图;
图8为本发明实施例四提供的一种地理区域的采集参数确定方法的流程图;
图9为本发明实施例五提供的一种地理区域的采集参数确定方法的流程图;
图10为本发明实施例六提供的一种地理区域的采集参数确定方法的流程图;
图11为本发明实施例七提供的一种地理区域的采集参数确定装置的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种地理区域的采集参数确定方法的流程图,本实施例可适用于对地理区域的信息采集工作涉及的采集参数进行确定的情况,该方法可以由一种地理区域的采集参数确定装置来执行,该装置可以由软件和/或硬件的方式来实现,一般可集成于计算机等设备中。具体包括如下步骤:
S110、对历史采集点数据进行预处理,以获取预设等级区域的采集效率。
其中,历史采集点数据是指基础数据源,即各采集作业车每天(以下简称“车天”)历史作业的采集轨迹数据,该数据可遍布全国330多个城市。预处理包括对历史采集点的处理获得采集过程中涉及到的一些参数,主要是确定采集速度作为采集效率。由于各城市面积太大,且城市内各区域的特点不同,以一个城市作为独立个体场景考虑存在欠缺,因此可以结合采集业务需求将各城市(地级市)进行细化,归纳成多个不同的场景,每个场景就等同于一个预设等级区域。
可选的,所述预设等级区域包括高速区、建成区和非建成区。
其中,图2为本发明实施例提供的一种地理区域的采集参数确定方法中的某城市的一个区域示例图,含建成区、非建成区和高速区。建成区为“城市建成区”的简称,是指城市行政区内实际已成片开发建设、市政公用设施和公共设施基本具备的地区。非建成区即郊区。可以按照各城市的行政区域规划来设定。高速区是指各条高速公路组合而成的特殊区域。
S120、根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值。
其中,由于城市间客观因素的差别,需要对于建成区和非建成区两种场景各自进行城市分级。以建成区场景的城市分级为例,将建成区所有城市的采集效率区间叠加时,叠加结果如图3所示,不存在明显阶跃现象以及区间存在较大的范围叠加,故若采用直接设置几个等级阈值方法效果很差,而聚类算法也由于需要指定类别数目无法适用。故可以提供一种基于待定关联性数据的辅助划分方法来解决这个技术问题,需要首先进行关联性挖掘,找出关联性较强的有效关联性因素辅助后续操作。待定关联性因素指的是与采集效率可能有关联性的因素,对于从属于不同城市的采集效率,与各城市的特征数据相关,因此待定关联性因素可以是与采集效率相关的城市的特征数据,例如可以是人口数量等。预设等级区域的采集效率对待定关联性因素进行筛选,以确定关联性强的关联性因素,并确定每个有效关联性因素对应的权重值,权重值是关联性程度的表征。
S130、按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级。
其中,样本区域是指代表城市。将每一个预设等级区域,设定采集效率的档位,从所有的城市中选取代表城市,结合采集效率、有效关联性因素的数值以及权重值,将接近某一个档位条件的代表城市的预设等级区域划归成一个级别,若不存在接近某一个档位条件的城市,则该级别自动消失,最终确定代表城市分级。示例性地,以建成区为例,代表城市的建成区分级情况如下表1所示:
表1建成区的城市分级表
级别 城市
1 阿拉善盟、鄂尔多斯等
2 宁波、厦门、天津等
S140、按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级。
其中,非样本区域指除了代表城市外的其他城市,由于城市代表已经完成分级,所以可以通过将非城市代表与城市代表的采集效率特征进行比对的方式,将非城市代表划分到与其相似性高的城市代表对应的分级中,示例性地,以建成区为例,假如已获知天津属于级别2,通过分析得知沈阳与天津的采集效率特征最相似,则可以将沈阳划分到级别2中,按照这种方法获得所有城市的所有预设特征区域的分级。由于城市的区域众多,且采集效率参数差异较大,如果将所有城市都直接与采集效率档位进行比较,存在计算量大,且无法与采集效率档位有效准确匹配的问题。本实施例采用的方式是先确定代表性的样本城市,再将非样本城市与样本城市进行比较和分级,能够提高分级的计算速度和准确性。
S150、根据区域分级,确定级别区域的采集参数范围值。
其中,将所有的城市完成分级后,便可确定每个级别对应的采集参数范围值。
本发明实施例的技术方案通过按照不同采集效率对地理区域进行分级的方法,确定不同区域的采集参数,作为采集难度量化的基础,解决了采集难度无法量化这一技术问题,为采集工作的公平公正的绩效评估提供了参考依据。
在上述技术方案的基础上,可选地,根据区域分级,确定级别区域的采集参数范围值之后,还包括:
将最高级别的采集效率设为基准值,除以其他级别的采集效率,以计算其他级别的采集难度系数。
其中,将采集难度系数定义为将效率最高级别的采集效率设为基准值,那么其他级别的采集难度系数=基准值/其他级别的采集效率,系数值越大,表明采集相对越难。通常,高速路是最容易采集的区域,采集效率属于最高级别,可直接将高速区的采集效率作为基准值。并且,全国各城市的高速区可以统一为一个高速区,不再区分城市来对待。采集难度系数示例表如表2所示。
表2采集难度系数示例表
城市建成区类别 1 2 3
采集难度系数 Value_1 Value_2 Value_3
可选地,根据区域分级,确定级别区域的采集参数范围值之后,还包括:
将实际城市每车天的采集轨迹,划分至预设等级区域中。
其中,随着后续的采集,不同城市的每车天的采集轨迹数据的增加,将增加的数据划分到数据对应的预设等级区域中,实现原先较少样本的城市的采集轨迹数据继续积累,使轨迹数据更加准确。
根据实际城市的等级,获取预设等级区域的采集效率范围值,与实际采集轨迹进行比对,以确定采集轨迹的效率。
其中,根据实际城市的等级,获取预设等级区域的采集效率范围值,将实际采集轨迹与该范围进行对比,当某个城市采集特征的表现与初始确定的级别存在差异时,可将其级别更新到更为准确的其他级别,同时调整其对应的参数。实现持续迭代更新,提高适应性。
实施例二
图4为本发明实施例二提供的一种地理区域的采集参数确定方法的流程图,本实施例在上述实施例的基础上进行了优化,对“对历史采集点数据进行预处理,以获取预设等级区域的采集效率”进行了优化,具体包括以下步骤:
S410、将各城市所有采集点所涉及的区域按照预设等级区域的特征,划分为高速区、建成区和非建成区。
其中,所有城市的高速区归纳为一个高速区。
其中,所有城市的高速区归纳为一个场景,不再进行分级,将城市的建成区归纳成一个场景,城市的非建成区归纳成一个场景,由于天然客观因素的存在,需要进行城市的建成区和非建成区场景下的城市分级。图5是本发明实施例提供的场景划分示例图,如图5所示,分别用带有“△”“□”和“○”的标记线划分建成区、非建成区以及高速区,需要注明的是图中除划分区域相关的标记的其他部分与本申请无关。
S420、按照基础路网数据将各采集点与道路进行匹配,按照采集点的道路属性,将采集点划归至各预设等级区域。
其中,按照基础路网数据匹配出每车天采集轨迹数据中每个采集点所附属的道路属性,道路属性可以是名称、道路等级以及长度等。按照采集点的道路属性,将各采集点划归至高速或非高速,具体可以采用设置标识的方法,将高速标识设定为hs=1,非高速标识设定为hs=0。同时依据各城市的建成区(一般存在多个闭环区域)和行政区经纬度边界范围数据对各轨迹点进行区分,标识采集点属于建成区或非建成区,建成区的标识设定为in_area=1,非建成区的标识设定为in_area=0。因此,对于已知城市的每车天采集数据,可得到三种预设等级区域的具体定义为:高速区:hs=1的采集点的集合;建成区:hs=0并且in_area=1的采集点的集合;非建成区:hs=0并且in_area=0的采集点的集合。
S430、在预设等级区域内,从采集点所对应的每车天采集轨迹数据中确定采集里程和采集时长,计算采集速度,作为采集效率。
其中,每车天采集轨迹数据可被至多划分至三个预设等级区域的三段轨迹,并可按照每段轨迹的采集里程和采集时长计算采集速度,作为采集效率,若不不包括某些等级区域,则采集效率为0。为了验证这种划分方法的可用性,不区分城市,将采集效率依据三个预设等级区域进行统计,每个区域下的采集效率对应一个区间,进行数据清洗,去掉异常的最大值和最小值,进行累积分布函数区间分析,分析结果如图6所示,结果显示拟合程度良好,同时三个预设等级区域分布存在明显的差异,表明定义的三个预设等级区域符合可用性。
S440、根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值。
S450、按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级。
S460、按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级。
S470、根据区域分级,确定级别区域的采集参数范围值。
本发明实施例的技术方案提供了预设等级区域采集效率的具体确定方法,按照采集效率对区域进行分级,并确定每级别的采集参数,实现了采集难度的量化,为采集工作的公平公正的绩效评估提供了参考依据。
实施例三
图7为本发明实施例三提供的一种地理区域的采集参数确定方法的流程图,本实施例在上述实施例的基础上进行了优化,对“根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值”进行了优化,具体包括以下步骤:
S710、对历史采集点数据进行预处理,以获取预设等级区域的采集效率。
S720、预先选择多个待定关联性因素。
其中,可预先根据经验选择多个待定关联性因素。
优选的,所述待定关联性因素包括下述至少一个:人口、GDP总量、人均GDP、人口密度、拥堵指数、建成区路网密度和非建成区路网密度。
其中,各城市的人口和GDP数据依据国家官方统计网站最新发布的数据为基准,根据人口数量和GDP可以计算出人均GDP,依据各城市的建成区(一般存在多个闭环区域)和行政区经纬度边界范围数据可以计算获得各城市的建成区面积和非建成区面积,同时将基础路网数据用建成区和非建成区的边界数据进行分隔,可以获得建成区/非建成区内的路网长度,建成区/非建成区的路网密度等于建成区/非建成区的路网长度与面积的比值。人口密度是该城市总人口处于城市总面积的比值。建成区路网密度仅用于建成区采集参数的确定,非建成区路网密度仅用于非建成区采集参数的确定。拥堵系数是日均各整点时刻拥堵情况的反映,存在最近一年的日均整时(00:00-23:00)的拥堵指数。需经过处理获得一个宏观的拥堵指标参数值,即使每个城市对应一个拥堵指数。其中可以提供的处理方法包括:对于各城市的全量车采数据记录,存在各采集作业车每天的开工时间和收工时间,将二者之间所对应的工作时间段的拥堵指数进行平均,最终获得各城市的拥堵指数。
S730、根据所述采集点的采集效率,针对每种待定关联性因素,进行独立回归建模,以取得回归建模结果。
其中,所述回归建模结果包括标识、P值和调整后的R方。
其中,分别将每种待定关联性因素作为自变量,采集效率作为因变量,进行独立回归建模,获取回归建模结果。回归建模结果中,标识指判断检验是否通过标识,P值为回归建模结果可信程度的一个递减指标,调整后的R方用来衡量模型的拟合优度。
S740、将所述标识为通过、P值小于第一设定门限值、调整后的R方大于第二设定门限值且关联值(Corr_value)大于第三设定门限值的待定关联性因素确定为有效关联性因素,并根据回归建模结果确定有效关联性因素的权重值。
其中,所述标识为通过是指“是否检验通过标识”为通过,代表回归建模结果通过检验。第一设定门限值和第二设定门限值分别用于限定P值和调整后的R方的范围。Corr_value是每个待定关联性因素与采集效率的相关系数,例如可以是Pearson相关系数。Corr_value与以上回归建模结果进行并列,相当于判断有效关联性因素需要同时满足两种条件,使条件更为严格。示例性地,可选取第一设定门限值为0.05,第二设定门限值为0.1,第三设定门限值为0.3,此时,当“是否检验通过标识”为通过,P值<0.05且调整后的R方>0.1且Corr_value>0.3时,认为待定关联性因素与采集效率的关联性强,即确定为有效关联性因素。同时根据回归建模结果确定有效关联性因素的权重值。可以在有效关联性因素中选取1-3个,当选取的有效关联性因素的个数大于1个时,将多个有效关联性因素作为自变量,将采集效率作为因变量,进行组合逻辑回归建模,即可获得采集效率与有效关联性因素的量化关系;当选取的有效关联性因素的个数仅有1个时,不再进行组合逻辑回归,之前的独立回归建模已经获得了其对应的量化关系。
S750、按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级。
S760、按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级。
S770、根据区域分级,确定级别区域的采集参数范围值。
本发明实施例的技术方案,提供了从待定关联性因素中确定有效关联性因素的方法,将有效关联性因素和权重值作为样本区域分级的基础,确定每级别的采集参数,实现了采集难度的量化,为采集工作的公平公正的绩效评估提供了参考依据。
实施例四
图8为本发明实施例四提供的一种地理区域的采集参数确定方法的流程图,本实施例在上述实施例的基础上进行了优化,对“按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级”进行了优化,具体包括以下步骤:
S810、对历史采集点数据进行预处理,以获取预设等级区域的采集效率。
其中,所述预设等级区域包括高速区、建成区和非建成区。
S820、根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值。
S830、对于所有城市的建成区和非建成区场景的采集效率,分别计算采集效率概率密度函数,计算设定百分数处的采集效率,作为所述采集效率档位。
其中,对于所有城市的建成区和非建成区场景的采集效率,分别计算采集效率概率密度函数,按照概率密度函数绘制采集效率的概率密度直方图,确定采集效率的最大值、最小值和中值,计算最大值与最小值的差值,将其定义为全距。计算最小值与中值的差值,最大值与中值的差值以及这两个差值的均值,将此均值定义为间隔,因此预定义组数=[全距/间隔]。[.]代表取整。将采集效率分布值的百分数按照预定义的组数进行等分分隔,并取得每个百分数临界点对应的采集效率界限值,作为采集效率档位。示例性地,以建成区为例,预定义组数为4,则建成区采集效率界限值对应表如表3所示。
表3建成区采集效率界限值对应表
百分数临界点 0% 25% 50% 75% 100%
采集效率界限值 16.30 23.11 26.15 29.05 40.30
S840、选择待定样本城市,将所述待定样本城市的采集效率,乘以有效关联性因素的数值及其权重值,作为修正后的采集效率。
其中,定义采集效率最高的类别为第1级,依据采集效率界限值,按照预定义组数,从第1级到可到的最大级别依次选取待定样本城市,即城市代表,若中间存在级别没有城市代表,则该级别自动消失。城市代表的数量一般远远少于城市总数目。将城市代表的采集效率与之前确定的有效关联性因素的数值和其对应的权重值相乘,作为修正后的采集效率。
S850、按照修正后的采集效率,与预设的采集效率档位进行比对,确定待定样本城市的区域分级。
其中,将修正后的采集效率与预设的采集效率档位进行比对,将城市代表依次划归到对应的区域分级中。
S860、按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级。
S870、根据区域分级,确定级别区域的采集参数范围值。
本发明实施例的技术方案,提供了样本区域分级的具体方法,为非样本区域的分级提供基础,按照不同的分级,确定每级别的采集参数,实现了采集难度的量化,为采集工作的公平公正的绩效评估提供了参考依据。
实施例五
图9为本发明实施例五提供的一种地理区域的采集参数确定方法的流程图,本实施例在上述实施例的基础上进行了优化,对“按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级”进行了优化,具体包括以下步骤:
S910、对历史采集点数据进行预处理,以获取预设等级区域的采集效率。
其中,所述预设等级区域包括高速区、建成区和非建成区。
S920、根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值。
S930、按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级。
S940、将各分级的样本区域的建成区和非建成区的采集效率均设定级别标签,形成训练集。
其中,将各城市代表建成区和非建成区对应的采集效率均设定级别标签,共同构成一个训练集,作为对其他城市分级的基础。
S950、将非样本区域的采集效率,计算采集效率概率密度函数,选择设定点位处的值作为采集效率的特征向量。
其中,可以利用已形成的训练集,采用有监督的分类算法对非城市代表的城市分级进行确定,对于非城市代表的采集效率,计算采集效率概率密度函数,根据概率密度函数得到累积分布函数,选取至少一个设定累积分布概率值对应的采集效率值作为分类算法的特征向量,优选地,可选取累积分布概率值为10%、中位数以及90%三个点位处的采集效率值作为特征向量。
S960、将所述特征向量使用K邻近算法处理,与训练集中具备区域分级的样本城市的采集效率进行比对,以确定非样本城市的区域分级。
其中,结合已选取的特征向量,利用K邻近算法确定城市的区域分级。对于某个非样本城市,在已确定的训练集中找到其对应的K个最邻近的城市,则这个非样本城市的分级由K个邻近的城市中占最多比例的城市级别来决定。示例性地,假设K=5,利用K邻近算法确定沈阳市的区域分级,首先计算出沈阳市对应的特征向量,按照特征向量,在训练集中找到5个与沈阳市最邻近的城市,获取这5个城市的区域级别,假设这5个城市中,3个城市属于级别2,其余2个城市分别属于级别1和级别3,由于级别2的城市占最多比例,则确定沈阳市的区域分级为级别2。
S970、根据区域分级,确定级别区域的采集参数范围值。
本发明实施例的技术方案,根据样本区域形成的训练集,采用K邻近算法对非样本区域进行分级,实现所有区域的分级,按照不同的分级,确定每级别的采集参数,实现了采集难度的量化,为采集工作的公平公正的绩效评估提供了参考依据。
实施例六
图10为本发明实施例七提供的一种地理区域的采集参数确定方法的流程图,本实施例在上述实施例的基础上进行了优化,对“根据区域分级,确定级别区域的采集参数范围值”进行了优化,具体包括以下步骤:
S1010、对历史采集点数据进行预处理,以获取预设等级区域的采集效率。
S1020、根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值。
S1030、按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级。
S1040、按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级。
S1050、将每个级别的所有城市建成区和非建成区的采集效率分别计算概率密度函数,分别取三个概率区间的采集效率,作为最小可接受值、中心建议值和最大正常值。
其中,宏观的值应用到每个车天的采集记录管理时,由于各种客观的原因,肯定存在不一样的采集效率值,需要定义一些范围来进行约束,一般认为低于每个级别的最小可接受值应该是不被允许的,同时最大正常值仅用于检验采集效率是否正常,可以分别取三个概率区间的采集效率,作为最小可接受值、中心建议值和最大正常值。示例性地,结合高斯分布的1sigma、2sigma和3sigma三个概率密度置信区间内的面积分别是68.3%、95.5%和99.7%,设定三个概率区间,最小可接受值、中心建议值和最大正常值分别对应累积分布概率值为16%、50%和98%,参数定义表如表4所示。
表4参数定义表
对于建成区和非建成区场景,每个级别均存在上述表中的3个参数结果,
对于高速场景,仅存在一组数值。
S1060、根据高速区的采集效率计算统一的高速采集效率。
其中,除高速场景外,建成区和非建成区各自场景下,由于存在多个级别,所以有多个采集难度系数,即可实现相同场景下的采集难度公平比较。但由于不同场景下不同级别的城市也需要进行公平性比较,故需要进行归一化采集难度系数调整,将高速场景、建成区场景下所有级别、非建成区场景下所有级别考虑为同一个维度,即以高速场景的采集效率为统一基准,再次进行统一的采集难度系数定义。
最终,获得的各场景下的城市分级结果中,包含级别的总数目、各级别的最小可接受值、中心建议值、最大正常值、相同场景下的采集难度系数以及所有场景的归一化采集难度系数。各车天采集工作量依据采集轨迹的场景区分,考虑归一化的采集难度系数,即可反映在不同场景不同城市车采作业量的公平考量。
本发明实施例的技术方案,提供了各级别最小可接受值、中心建议值、最大正常值、相同场景下的采集难度系数以及所有场景的归一化采集难度系数的确定方法,以便实现对不同场景不同城市车采作业量的公平考量。
实施例七
图11是本发明实施例七提供的一种地理区域的采集参数确定装置示意图,该装置包括:
数据预处理模块1110,用于对历史采集点数据进行预处理,以获取预设等级区域的采集效率;
因素筛选模块1120,用于根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;
样本区域选择模块1130,用于按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;
区域分级确定模块1140,用于按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;
采集参数确定模块1150,用于根据区域分级,确定级别区域的采集参数范围值。
可选的,所述预设等级区域包括高速区、建成区和非建成区。
可选的,数据预处理模块710包括:
区域划分单元,用于将各城市所有采集点所涉及的区域按照预设等级区域的特征,划分为高速区、建成区和非建成区;其中,所有城市的高速区归纳为一个高速区;
采集点匹配单元,用于按照基础路网数据将各采集点与道路进行匹配,按照采集点的道路属性,将采集点划归至各预设等级区域;
采集效率获取单元,在预设等级区域内,从采集点所对应的每车天采集轨迹数据中确定采集里程和采集时长,计算采集速度,作为采集效率。
可选的,因素筛选模块1120包括:
因素选择单元,用于预先选择多个待定关联性因素;
因素回归建模单元,用于根据所述采集点的采集效率,针对每种待定关联性因素,进行独立回归建模,以取得回归建模结果,其中,所述回归建模结果包括标识、P值和调整后的R方;
权重值确定单元,用于将所述标识为通过、P值小于第一设定门限值、调整后的R方大于第二设定门限值且关联值大于第三设定门限值的待定关联性因素确定为有效关联性因素,并根据回归建模结果确定有效关联性因素的权重值。
进一步的,所述待定关联性因素包括下述至少一个:人口、GDP总量、人均GDP、人口密度、拥堵指数、建成区路网密度和非建成区路网密度。
可选的,样本区域选择模块1130包括:
档位确定单元,用于对于所有城市的建成区和非建成区场景的采集效率,分别计算采集效率概率密度函数,计算设定百分数处的采集效率,作为所述采集效率档位;
采集效率修正单元,用于选择待定样本城市,将所述待定样本城市的采集效率,乘以有效关联性因素的数值及其权重值,作为修正后的采集效率;
样本城市分级单元,用于按照修正后的采集效率,与预设的采集效率档位进行比对,确定待定样本城市的区域分级。
进一步的,区域分级确定模块1140包括:
训练集形成单元,用于将各分级的样本区域的建成区和非建成区的采集效率均设定级别标签,形成训练集;
特征向量选择单元,用于将非样本区域的采集效率,计算采集效率概率密度函数,选择设定点位处的值作为采集效率的特征向量;
区域分级确定单元,用于将所述特征向量使用K邻近算法处理,与训练集中具备区域分级的样本城市的采集效率进行比对,以确定非样本城市的区域分级。
可选的,采集参数确定模块1150包括:
概率区间选取单元,用于将每个级别的所有城市建成区和非建成区的采集效率分别计算概率密度函数,分别取三个概率区间的采集效率,作为最小可接受值、中心建议值和最大正常值;
采集效率计算单元,用于根据高速区的采集效率计算统一的高速采集效率。
可选的,还包括:系数归一化模块,用于根据区域分级,确定级别区域的采集参数范围值之后,将最高级别的采集效率设为基准值,除以其他级别的采集效率,以计算其他级别的采集难度系数。
可选的,还包括:实际城市等级确定模块,用于根据区域分级,确定级别区域的采集参数范围值之后,将实际城市每车天的采集轨迹,划分至预设等级区域中;
效率确定模块,用于根据实际城市的等级,获取预设等级区域的采集效率范围值,与实际采集轨迹进行比对,以确定采集轨迹的效率。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种地理区域的采集参数确定方法,其特征在于,包括:
对历史采集点数据进行预处理,以获取预设等级区域的采集效率;
根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;
按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;
按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;
根据区域分级,确定级别区域的采集参数范围值。
2.根据权利要求1所述的方法,其特征在于,所述预设等级区域包括高速区、建成区和非建成区。
3.根据权利要求1或2所述的方法,其特征在于,对历史采集点数据进行预处理,以获取预设等级区域的采集效率包括:
将各城市所有采集点所涉及的区域按照预设等级区域的特征,划分为高速区、建成区和非建成区;其中,所有城市的高速区归纳为一个高速区;
按照基础路网数据将各采集点与道路进行匹配,按照采集点的道路属性,将采集点划归至各预设等级区域;
在预设等级区域内,从采集点所对应的每车天采集轨迹数据中确定采集里程和采集时长,计算采集速度,作为采集效率。
4.根据权利要求1所述的方法,其特征在于,根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值包括:
预先选择多个待定关联性因素;
根据所述采集点的采集效率,针对每种待定关联性因素,进行独立回归建模,以取得回归建模结果,其中,所述回归建模结果包括标识、P值和调整后的R方;
将所述标识为通过、P值小于第一设定门限值、调整后的R方大于第二设定门限值且关联值大于第三设定门限值的待定关联性因素确定为有效关联性因素,并根据回归建模结果确定有效关联性因素的权重值。
5.根据权利要求2所述的方法,其特征在于,按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级包括:
对于所有城市的建成区和非建成区场景的采集效率,分别计算采集效率概率密度函数,计算设定百分数处的采集效率,作为所述采集效率档位;
选择待定样本城市,将所述待定样本城市的采集效率,乘以有效关联性因素的数值及其权重值,作为修正后的采集效率;
按照修正后的采集效率,与预设的采集效率档位进行比对,确定待定样本城市的区域分级。
6.根据权利要求2或5所述的方法,其特征在于,按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级包括:
将各分级的样本区域的建成区和非建成区的采集效率均设定级别标签,形成训练集;
将非样本区域的采集效率,计算采集效率概率密度函数,选择设定点位处的值作为采集效率的特征向量;
将所述特征向量使用K邻近算法处理,与训练集中具备区域分级的样本城市的采集效率进行比对,以确定非样本城市的区域分级。
7.根据权利要求1所述的方法,其特征在于,根据区域分级,确定级别区域的采集参数范围值包括:
将每个级别的所有城市建成区和非建成区的采集效率分别计算概率密度函数,分别取三个概率区间的采集效率,作为最小可接受值、中心建议值和最大正常值;
根据高速区的采集效率计算统一的高速采集效率。
8.根据权利要求1所述的方法,其特征在于,根据区域分级,确定级别区域的采集参数范围值之后,还包括:
将最高级别的采集效率设为基准值,除以其他级别的采集效率,以计算其他级别的采集难度系数。
9.根据权利要求1所述的方法,其特征在于,根据区域分级,确定级别区域的采集参数范围值之后,还包括:
将实际城市每车天的采集轨迹,划分至预设等级区域中;
根据实际城市的等级,获取预设等级区域的采集效率范围值,与实际采集轨迹进行比对,以确定采集轨迹的效率。
10.一种地理区域的采集参数确定装置,其特征在于,包括:
数据预处理模块,用于对历史采集点数据进行预处理,以获取预设等级区域的采集效率;
因素筛选模块,用于根据预设等级区域的采集效率对待定关联性因素进行筛选,以确定有效关联性因素及权重值;
样本区域选择模块,用于按照设定的采集效率档位,根据采集效率和有效关联性因素及权重值,从地理区域中选择样本区域并确定区域分级;
区域分级确定模块,用于按照地理区域中的非样本区域与样本区域的相似性来确定非样本区域的区域分级;
采集参数确定模块,用于根据区域分级,确定级别区域的采集参数范围值。
11.根据权利要求10所述的装置,其特征在于,所述预设等级区域包括高速区、建成区和非建成区。
12.根据权利要求10或11所述的装置,其特征在于,数据预处理模块包括:
区域划分单元,用于将各城市所有采集点所涉及的区域按照预设等级区域的特征,划分为高速区、建成区和非建成区;其中,所有城市的高速区归纳为一个高速区;
采集点匹配单元,用于按照基础路网数据将各采集点与道路进行匹配,按照采集点的道路属性,将采集点划归至各预设等级区域;
采集效率获取单元,在预设等级区域内,从采集点所对应的每车天采集轨迹数据中确定采集里程和采集时长,计算采集速度,作为采集效率。
13.根据权利要求10所述的装置,其特征在于,因素筛选模块包括:
因素选择单元,用于预先选择多个待定关联性因素;
因素回归建模单元,用于根据所述采集点的采集效率,针对每种待定关联性因素,进行独立回归建模,以取得回归建模结果,其中,所述回归建模结果包括标识、P值和调整后的R方;
权重值确定单元,用于将所述标识为通过、P值小于第一设定门限值、调整后的R方大于第二设定门限值且关联值大于第三设定门限值的待定关联性因素确定为有效关联性因素,并根据回归建模结果确定有效关联性因素的权重值。
14.根据权利要求11所述的装置,其特征在于,样本区域选择模块包括:
档位确定单元,用于对于所有城市的建成区和非建成区场景的采集效率,分别计算采集效率概率密度函数,计算设定百分数处的采集效率,作为所述采集效率档位;
采集效率修正单元,用于选择待定样本城市,将所述待定样本城市的采集效率,乘以有效关联性因素的数值及其权重值,作为修正后的采集效率;
样本城市分级单元,用于按照修正后的采集效率,与预设的采集效率档位进行比对,确定待定样本城市的区域分级。
15.根据权利要求11或14所述的装置,其特征在于,区域分级确定模块包括:
训练集形成单元,用于将各分级的样本区域的建成区和非建成区的采集效率均设定级别标签,形成训练集;
特征向量选择单元,用于将非样本区域的采集效率,计算采集效率概率密度函数,选择设定点位处的值作为采集效率的特征向量;
区域分级确定单元,用于将所述特征向量使用K邻近算法处理,与训练集中具备区域分级的样本城市的采集效率进行比对,以确定非样本城市的区域分级。
16.根据权利要求10所述的装置,其特征在于,采集参数确定模块包括:概率区间选取单元,用于将每个级别的所有城市建成区和非建成区的采集效率分别计算概率密度函数,分别取三个概率区间的采集效率,作为最小可接受值、中心建议值和最大正常值;
采集效率计算单元,用于根据高速区的采集效率计算统一的高速采集效率。
17.根据权利要求10所述的装置,其特征在于,还包括:
系数归一化模块,用于根据区域分级,确定级别区域的采集参数范围值之后,将最高级别的采集效率设为基准值,除以其他级别的采集效率,以计算其他级别的采集难度系数。
18.根据权利要求10所述的装置,其特征在于,还包括:
实际城市等级确定模块,用于根据区域分级,确定级别区域的采集参数范围值之后,将实际城市每车天的采集轨迹,划分至预设等级区域中;
效率确定模块,用于根据实际城市的等级,获取预设等级区域的采集效率范围值,与实际采集轨迹进行比对,以确定采集轨迹的效率。
CN201610865980.0A 2016-09-29 2016-09-29 一种地理区域的采集参数确定方法及装置 Active CN106446194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610865980.0A CN106446194B (zh) 2016-09-29 2016-09-29 一种地理区域的采集参数确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610865980.0A CN106446194B (zh) 2016-09-29 2016-09-29 一种地理区域的采集参数确定方法及装置

Publications (2)

Publication Number Publication Date
CN106446194A true CN106446194A (zh) 2017-02-22
CN106446194B CN106446194B (zh) 2022-06-14

Family

ID=58171188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610865980.0A Active CN106446194B (zh) 2016-09-29 2016-09-29 一种地理区域的采集参数确定方法及装置

Country Status (1)

Country Link
CN (1) CN106446194B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153891A (zh) * 2017-05-10 2017-09-12 百度在线网络技术(北京)有限公司 区域转移调度方法、装置、设备及存储介质
CN112214537A (zh) * 2020-09-16 2021-01-12 拓尔思信息技术股份有限公司 用于航迹检索的航迹特征建模方法及系统、电子装置
CN113312442A (zh) * 2021-07-30 2021-08-27 景网技术有限公司 一种智慧城市电子地图生成方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190468B1 (en) * 2003-10-31 2012-05-29 Verizon Laboratories Inc. Personnel productivity indices
US20130148895A1 (en) * 2011-12-08 2013-06-13 David Miller Methods, apparatus, and articles of manufacture to measure geographical features using an image of a geographical location
CN104732760A (zh) * 2013-12-20 2015-06-24 高德软件有限公司 一种道路等级的更新方法和装置
CN105005847A (zh) * 2015-06-26 2015-10-28 王昌益 计量施工绩效与劳动报酬标准的方法
CN105574313A (zh) * 2014-10-13 2016-05-11 高德软件有限公司 一种道路等级的确定方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190468B1 (en) * 2003-10-31 2012-05-29 Verizon Laboratories Inc. Personnel productivity indices
US20130148895A1 (en) * 2011-12-08 2013-06-13 David Miller Methods, apparatus, and articles of manufacture to measure geographical features using an image of a geographical location
CN104732760A (zh) * 2013-12-20 2015-06-24 高德软件有限公司 一种道路等级的更新方法和装置
CN105574313A (zh) * 2014-10-13 2016-05-11 高德软件有限公司 一种道路等级的确定方法和装置
CN105005847A (zh) * 2015-06-26 2015-10-28 王昌益 计量施工绩效与劳动报酬标准的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李欢欢: "基于GPS轨迹的巡逻绩效考核模型与方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 *
谢世堂: "基于DRGs的出院人次相对价值评价方法研究", 《中国卫生经济》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153891A (zh) * 2017-05-10 2017-09-12 百度在线网络技术(北京)有限公司 区域转移调度方法、装置、设备及存储介质
CN107153891B (zh) * 2017-05-10 2022-02-18 百度在线网络技术(北京)有限公司 区域转移调度方法、装置、设备及存储介质
CN112214537A (zh) * 2020-09-16 2021-01-12 拓尔思信息技术股份有限公司 用于航迹检索的航迹特征建模方法及系统、电子装置
CN113312442A (zh) * 2021-07-30 2021-08-27 景网技术有限公司 一种智慧城市电子地图生成方法和系统
CN113312442B (zh) * 2021-07-30 2021-11-09 景网技术有限公司 一种智慧城市电子地图生成方法和系统

Also Published As

Publication number Publication date
CN106446194B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
CN109191896B (zh) 个性化停车位推荐方法和系统
CN107610469B (zh) 一种考虑多因素影响的日维度区域交通指数预测方法
US10023200B2 (en) Driver profiling system and method
CN104021671B (zh) 一种svm与模糊判断相结合的道路实时路况的判断方法
CN101710448B (zh) 基于全方位计算机视觉的道路交通状态检测装置
CN104021672B (zh) 一种获取交通拥堵指数的方法和装置
CN105513370B (zh) 基于稀疏车牌识别数据挖掘的交通小区划分方法
CN108492557A (zh) 基于多模型融合的高速公路拥堵等级判断方法
WO2020083399A1 (zh) 基于交通流数据的协调干线线路规划方法及配置系统
CN106651027B (zh) 一种基于社交网络的互联网班车线路优化方法
CN109686090B (zh) 一种基于多源数据融合的虚拟交通流量计算方法
CN103810849A (zh) 一种基于浮动车数据的交通流变化趋势提取方法
CN110288202A (zh) 一种城市公园绿地设施状态评估优化方法
CN108961758A (zh) 一种基于梯度提升决策树的路口展宽车道探测方法
CN106446194A (zh) 一种地理区域的采集参数确定方法及装置
CN105608528A (zh) 基于大数据分析的出租车驾驶员收入-压力评估方法和系统
CN112669596A (zh) 一种基于大数据的交通安全态势判别系统及方法
CN113112076B (zh) 一种客流集散模式发现及预测方法
Liu et al. An improved fuzzy trajectory clustering method for exploring urban travel patterns
CN111723871B (zh) 一种公交车实时车厢满载率的估算方法
CN116168538B (zh) 一种平面道路车辆通行空间识别方法
CN113516850B (zh) 基于空间句法分析的管道沿线交通流量数据采集方法
CN116311892A (zh) 一种基于拥堵传播的城市路段通行关键瓶颈识别方法
CN112037512B (zh) 一种城市拥堵条件下的机动车管理和优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant