CN104050173B - 一种用于地点语义识别的数据库的构建方法及系统 - Google Patents

一种用于地点语义识别的数据库的构建方法及系统 Download PDF

Info

Publication number
CN104050173B
CN104050173B CN201310078531.8A CN201310078531A CN104050173B CN 104050173 B CN104050173 B CN 104050173B CN 201310078531 A CN201310078531 A CN 201310078531A CN 104050173 B CN104050173 B CN 104050173B
Authority
CN
China
Prior art keywords
characteristic
positioning request
sample
curve
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310078531.8A
Other languages
English (en)
Other versions
CN104050173A (zh
Inventor
梅怀博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310078531.8A priority Critical patent/CN104050173B/zh
Publication of CN104050173A publication Critical patent/CN104050173A/zh
Application granted granted Critical
Publication of CN104050173B publication Critical patent/CN104050173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种用于地点语义识别的数据库的构建方法,包括:依据预设样本区域的定位历史日志统计样本区域内的定位请求量;利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库;本发明还提供一种用于地点语义识别的数据库的构建系统。根据本发明提供的技术方案,简单方便获取地点语义识别的数据源,提高地点语义识别的准确性。

Description

一种用于地点语义识别的数据库的构建方法及系统
【技术领域】
本发明涉及互联网应用领域,尤其涉及一种用于地点语义识别的数据库的构建方法及系统。
【背景技术】
目前,城市用地分析、城市规划建设、兴趣点(POI,Point of Interest)信息更新、个性化信息推送服务以及定位服务等,都需要利用地点语义,地点语义指的是某地点或区域从社会角度出发所对应的语义类型,例如,陶然亭公园从地理角度出发所对应的描述为北纬xxx度至xxx度,东经xxx度至xxx度之间,从社会角度出发所对应的描述为公园,公园就是陶然亭公园的地点语义。
现有技术中,主要包括以下两种地点语义识别方法:
第一种方法为以遥感影像为数据源,采用地学相关分析技术、分层分析技术、叠合光谱图或定量遥感分析技术等,对图像进行解析,实现城市中区域的地点语义识别。其中,中低分辨率的遥感影像难以达到城市建筑物级别的地点语义识别,而高分辨率遥感影像是从城市建筑物的形状、位置、阴影等特点进行识别,能够进行城市用地的识别。但是,这种地点语义识别方法受到遥感成像原理所限,遥感影像中像元数据所包含的是建筑物在不同电磁波谱的辐射信息和反射率信息,地点语义识别结果由建筑物的物理特性和化学特性所决定,因此得到的地点语义识别结果缺乏与人类活动相关的信息,因此,利用遥感影像识别地点语义不能实现物理特性相似但用途不同的建筑物的区分;而且,由于遥感影像是利用卫星获得,因此数据源的获取难度较大,使得地点语义识别的成本较高,时效性较差。
第二种方法为以POI信息为数据源,通过对POI进行字面上的语义识别和分类,得到城市中区域的地点语义。这里,需要经过复杂的语义分析来识别区域的地点语义,无法体现人类活动规律,当某个区域的社会用途发生变化时,地点语义也相应发生变化,人类活动规律也随之变化,但是POI信息不能够及时反映人类活动规律,会导致地点语义的错误识别结果,而且POI信息需要人工进行数据维护和更新,时效性较差,POI信息的采集和更新的人力成本都比较高。
【发明内容】
本发明提供了一种用于地点语义识别的数据库的构建方法及系统,简单方便获取地点语义识别的数据源,提高地点语义识别的准确性。
本发明的具体技术方案如下:
根据本发明一优选实施例,一种用于地点语义识别的数据库的构建方法,包括:
依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
上述方法中,所述定位请求量为定位请求总量或定位请求用户量。
上述方法中,所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一年,时间粒度为月。
上述方法中,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
上述方法中,所述依据特征时段获得样本区域的特征指数具体包括:
计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,
计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
上述方法中,利用如下公式获得样本区域的特征指数:
Figure BDA00002910124800031
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
上述方法中,该方法还包括:
依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;
将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
上述方法中,获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数的方法为:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai
上述方法中,获得目标区域与地点语义样本库中样本区域的特征指数匹配系数的方法为:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi。
一种用于地点语义识别的数据库的构建系统,包括:统计模块、曲线生成模块、指数生成模块、构建模块;其中,
统计模块,用于依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
曲线生成模块,用于利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
指数生成模块,用于从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
构建模块,用于利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
上述系统中,所述定位请求量为定位请求总量或定位请求用户量。
上述系统中,所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一年,时间粒度为月。
上述系统中,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
上述系统中,所述指数生成模块在依据特征时段获得样本区域的特征指数时,具体包括:
计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,
计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
上述系统中,指数生成模块利用如下公式获得样本区域的特征指数:
Figure BDA00002910124800051
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
上述系统中,该系统还包括:
定位服务模块,用于依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
上述系统中,定位服务模块在获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数时,具体包括:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai
上述系统中,定位服务模块在获得目标区域与地点语义样本库中样本区域的特征指数匹配系数时,具体包括:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi。
由以上技术方案可以看出,本发明提供的具有以下有益效果:
本发明的上述技术方案,对用户的定位历史日志进行分析,得到区域的定位请求曲线特征和特征指数,从而生成地点语义数据库,因此数据源的获取非常简单,从而降低地点语义识别的成本,并可以进行实时更新,提高数据源的时效性。地点语义数据库中数据源可以通过自动分析定位历史日志获得,不需要人工维护和更新,降低数据源维护和更新的人工成本。
【附图说明】
图1是典型地点语义的定位请求量示例图;
图2是本发明实现用于地点语义识别的数据库的构建方法的优选实施例的流程示意图;
图3是本发明中地点语义与定位历史日志的关联示意图;
图4(a)是旅游景点一天内的定位请求总量曲线特征示意图;
图4(b)是校园一天内的定位请求总量曲线特征示意图;
图5是本发明实现用于地点语义识别的数据库的构建系统的优选实施例的结构示意图。
【具体实施方式】
人类活动规律与地点语义存在一定的内在联系,如不同语义的地点随着时间的变化,定位请求量也在发生变化,图1是典型地点语义的定位请求量示例图,如图1所示,在一天中办公区与住宅区,定位请求量随时间变化的趋势是相反的;不同语义的地点,人类活动规律差异较大,例如,对于旅游景点而言,休息日的定位请求量大于工作日,对于办公区而言,休息日的定位请求量小于工作日,旅游景点白天的定位请求量大于晚上的定位请求量,定位请求量在傍晚急剧下降,晚上趋于零,而住宅区的定位请求量相对均衡,这些都与人类活动规律相关,不同时段不同时间维度下定位请求量体现出的差异性正是识别地点语义的关键点,本发明以用户的定位历史日志为依据,以用户活动规律和定位请求为纽带,将定位历史日志与地点语义相关联,通过对随时间变化的定位请求量进行多时间维度分析,实现地点语义的识别。
本发明的基本思想是:依据预设样本区域的定位历史日志统计样本区域内的定位请求量;利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图2是本发明实现用于地点语义识别的数据库的构建方法的优选实施例的流程示意图,如图2所示,该优选实施例包括以下步骤:
步骤201,依据地点语义类型选择样本区域。
具体的,依据预设的典型地点语义类型,选出人类活动的代表性区域作为本优选实施中的样本区域,典型地点语义类型可以包括:商区、住宅区、办公区、校园、旅游景点、公共设施(如机场、医院、体育场等)、娱乐场所等。
步骤202,获取样本区域的定位历史日志,依据定位历史日志统计样本区域内的定位请求量,利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征。
具体的,图3是本发明中地点语义与定位历史日志的关联示意图,如图3所示,智能移动终端的应用程序中集成有定位功能,当用户在不同语义的地点发起定位请求时,应用程序可以为用户的出行、旅游或购物等活动提供辅助决策,这种定位服务的提供者还可以对用户的定位请求进行记录,将记录的定位具体信息保存在定位历史日志中,因此地点语义和定位历史日志之间以智能移动终端的用户为媒介,建立联系。依据选出的样本区域和定位历史日志,从定位历史日志中提取出对应的样本数据;其中,定位历史日志为对应每个定位请求记录的一些定位具体信息,如用户标识、定位请求时间、定位经度和纬度,而样本区域是经度和纬度的范围,因此依据样本区域和定位历史日志中的定位经度和纬度,找到定位结果在该样本区域内的定位历史日志,找到的定位历史日志就作为样本区域的样本数据;其中,定位历史日志可以是该样本区域在一定时间内的定位历史日志,如一天内的定位历史日志、一个月内的定位历史日志或一年内的定位历史日志等。
由于定位历史日志中包括用户标识、定位请求时间、定位经度和纬度等,因此依据获得的样本区域的样本数据,可以统计样本区域内在不同时间粒度下的定位请求量;其中,定位请求量指的是定位请求总量或定位请求用户量;由于同一用户在某区域可能会发起多次定位请求,因此,定位请求总量指的是在不考虑同一用户多次发起定位请求的情况,是某区域在一定时间内的定位请求的总数;定位请求用户量指的是在考虑同一用户多次发起定位请求的情况,是某区域一定时间内发起定位请求的用户总数,体现用户在该区域的出现次数;例如,用户a发起Na次定位请求,用户b发起Nb次定位请求,定位请求总量为Na+Nb,定位请求用户量为2,定位请求用户量小于等于定位请求总量。
依据统计的不同时间周期和不同时间粒度下样本区域的定位请求量,生成对应的定位请求曲线特征;如果定位请求量为定位请求总量,则定位请求曲线特征中横轴为时间,竖轴为定位请求总量,如果定位请求量为定位请求用户量,则定位请求曲线特征中,横轴为时间,竖轴为定位请求用户量,因此,生成的定位请求曲线特征就是定位请求总量或定位请求用户量随时间的变化规律;本优选实施例中,所述时间周期可以为一天、一周、一个月或一年,所述时间粒度可以为一小时、一天、一个月,因此,对应定位请求总量和定位请求用户量分别可以对应一个以上定位请求曲线特征,例如,以一天为时间周期,以一小时为时间粒度的全天定位请求曲线特征中,竖轴为定位请求总量或定位请求用户量,横轴以小时为时间粒度;以一周为时间周期,以一天为时间粒度的一周定位请求曲线特征中,竖轴为定位请求总量或定位请求用户量,横轴以天为时间粒度;以一个月为时间周期,以一天为时间粒度的全月定位请求曲线特征中,竖轴为定位请求总量或定位请求用户量,横轴以一天为时间粒度;以一年为时间周期,以一个月为时间粒度的全年定位请求曲线特征中,竖轴为定位请求总量或定位请求用户量,横轴以一个月为时间粒度。需要说明的是,对于样本区域,得到的定位请求曲线特征表示定位请求随时间变化的分布特点,反映了样本区域内人类社会出行活动的变化规律,不同地点语义的区域之间,人类社会出行活动随时间的变化规律存在差异,即不同语义的地点在相同时段内定位请求总量或定位请求用户量的变化趋势不同。
步骤203,从样本区域的定位请求曲线特征中选出样本区域的特征时段。
具体的,不同语义类型的区域的定位请求随时间的变化规律差异较大,通过将样本区域的定位请求曲线特征与其他样本区域的定位请求曲线特征进行比较,选择差异较大的时段作为特征时段,该特征时段内,样本区域与其他样本区域的曲线特征相关性最小,能够最大限度地反映样本区域与其他样本区域的地点语义的差异性。其中,将样本区域的定位请求曲线特征与其他样本区域的定位请求曲线特征进行比较时,样本区域与其他样本区域的定位请求曲线特征同为定位请求总量对应的定位请求曲线特征或同为定位请求用户量对应的定位请求曲线特征,且两个样本区域的定位请求曲线特征的时间周期和时间粒度相同。本优选实施例中,可以将定位请求曲线特征提供给用户,由用户将样本区域的定位请求曲线特征分为多个时段,然后预先设置曲线斜率阈值,依据用户划分的时段,从划分得到的时段中找到样本区域的特征时段,如果样本区域与其他样本区域在同一时段的定位请求曲线特征的斜率差值超过曲线斜率阈值,则认为该时段为样本区域的特征时段。
或者,预先设置曲线斜率最大值、曲线斜率最小值和定位请求量阈值,如果样本区域的定位请求曲线特征中,某一时段的曲线斜率超过曲线斜率最大值或小于曲线斜率最小值,则认为该时段为样本区域的特征时段;或,样本区域的定位请求曲线特征中某一时段的定位请求量超过定位请求量阈值,则认为该时段为样本区域的特征时段。
本优选实施例中,依据上述不同的选择规则可以为每个样本区域选出一个以上特征时段,这些特征时段既可以通过与其他样本区域的定位请求曲线特征比较获得,也可以将样本区域自身的定位请求曲线特征与曲线斜率最大值、曲线斜率最小值和定位请求量阈值进行比较获得。
步骤204,依据特征时段或定位请求量获得样本区域的特征指数。
具体的,依据得到的样本区域的一个以上特征时段,获得样本区域的特征指数,如计算每个特征时段在定位请求曲线特征中的曲线斜率,将得到的曲线斜率作为样本区域的特征指数,对应每个特征时段都将得到对应的特征指数。
或,依据样本区域的两个特征时段,获得样本区域的特征指数,如以两个特征时段的定位请求量的比值作为样本区域的特征指数,例如,特征指数=11时至12时的定位请求量/4时至5时的定位请求量;这里,两个特征时段的定位请求量同为定位请求总量或同为定位请求用户量。
或,利用如下公式计算特征指数:
Figure BDA00002910124800111
该公式中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示该特征区间T在不同时间的定位请求量,Q(D1|T)和Q(D2|T)在不同时间周期和不同时间粒度下含义不同;例如:T表示以一小时为时间粒度的特征时段时,D1表示工作日,D2表示休息日,Q(D1|T)表示工作日D1在特征时段T的定位请求量,Q(D2|T)表示休息日D2在特征时段T的定位请求量;或,T表示以一天为时间粒度的特征时段时,D1表示一个月中某个工作日,D2表示一个月中某个休息日,Q(D1|T)表示工作日D1在特征时段T的定位请求量,Q(D2|T)表示休息日D2在特征时段T的定位请求量;或,T表示以一个月为时间粒度的特征时段时,D1表示一年中夏季的某个月,D2表示一年中冬季的某个月,Q(D1|T)表示夏季中该月D1在特征时段T的定位请求量,Q(D2|T)表示冬季中该月D2在特征时段T的定位请求量,以此类推。
步骤205,利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
具体的,依据步骤202得到的定位请求随时间的变化规律和步骤204得到的特征指数,构建地点语义样本库,该地点语义样本库中包括样本区域对应不同时间周期和不同时间粒度的定位请求曲线特征,以及每个定位请求曲线特征对应一个以上特征指数;其中,定位请求曲线特征包括定位请求总量的定位请求曲线特征和定位请求用户量的定位请求曲线特征;地点语义样本库是用于进行地点语义识别的数据库,当用户发起定位请求时,依据该地点语义样本库向用户提供定位结果。
例如,地点语义样本库中存在以下地点语义1、地点语义2、……、地点语义N的定位请求曲线特征,其中时间粒度是小时,时间周期是一天:
Y1=F1(t),t=0,1,……,23
Y2=F2(t),t=0,1,……,23
……
YN=FN(t),t=0,1,……,23
基于上述构建的地点语义样本库,本发明优选实施例还可以包括以下步骤:
步骤206、依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数,将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为该目标区域的地点语义。
具体的,以选出的目标区域的定位历史日志为基础,利用构建的地点语义样本库,通过匹配计算得到目标区域与样本区域的匹配度,将匹配度最高的样本区域的地点语义作为该目标区域的地点语义,具体包括以下匹配计算过程:
首先,可以利用网格法、指定圆心和半径的圆形区域法、以道路路网为基础对区域进行分割等方法选出目标区域,或接收用户输入的目标区域;依据得到的目标区域从定位历史日志中提取出该目标区域在一定时间内的定位历史日志;如一周内的定位历史日志或一个月内的定位历史日志。
然后,利用步骤202相同的方法,依据目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);利用公式y'=f(t)/Max(f(t))对该定位请求曲线特征进行归一化处理,其中,y'表示归一化曲线特征,Max(f(t))表示f(t)的最大值,0<t<24且t∈N,y'的值域为[0,1];对地点语义样本库中的定位请求曲线特征同样进行归一化处理的,得到归一化曲线特征Y'i,然后计算y'与Y'i的归一化差分,即Δyi=y'-Y'i(i=1,2,……,N),归一化差分Δyi的值域为[-1,1];计算Δyi的期望值Ei和方差Di,期望值Ei和方差Di能够表示目标区域的定位请求曲线特征与地点语义样本库中每个样本区域对应的定位请求曲线特征之间的偏离程度,期望值Ei和方差Di越小,表示目标区域的定位请求曲线特征与地点语义样本库中定位请求曲线特征之间的相似度越高;利用公式ai=(1-|Ei|)(1-|Di|)计算得到曲线特征匹配系数ai,曲线特征匹配系数ai的值域为[0,1]。
接着,利用步骤203中的方法选出目标区域的定位请求曲线特征的特征时段,并计算目标区域对应每个特征时段的特征指数;依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;对于目标区域,获得目标区域在该相同特征时段的特征指数,分别计算目标区域与对应的每组样本区域中每个样本区域的特征指数的集合的相似度,如果目标区域与样本区域存在两个以上相似度,则将这些相似度相乘,确保对应一个样本区域只有一个相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi,特征指数匹配系数bi的值域为[0,1]。
最后,将样本区域的曲线特征匹配系数ai与特征指数匹配系数bi相乘,得到该样本区域的综合匹配系数ci,即ci=ai×bi;依据综合匹配系数ci由大到小的顺序对样本区域进行排序,将综合匹配系数ci最大的样本区域的地点语义作为目标区域的地点语义。
本优选实施例中,识别出的目标区域的地点语义可以用于定位服务提供者向智能移动终端用户提供定位服务,还可以用于社会功能区域的划分,动态反映社会功能区域的变化,如新建、拆迁或变更等,对于城市用地分析、城市规划建设、POI数据更新以及个性化推送服务提供数据支持。
实施例一
以旅游景点和校园为样本区域,提取对应一天的定位历史日志,并以小时为时间粒度,一天的定位请求曲线特征表示为:
Q=F(t) t∈N,0≤t≤23
其中,Q表示定位请求量,F(t)表示定位请求量随时间t的变化规律。
统计样本区域的定位请求总量和定位请求用户量,分别建立两类定位请求曲线特征,其中,定位请求总量曲线特征的X轴为时间,Y轴为定位请求总量;定位请求用户量曲线特征的X轴为时间,Y轴为定位请求用户量;以定位请求总量曲线特征为例,如图4(a)和图4(b)所示的,图4(a)表示旅游景点一天的定位请求总量曲线特征示意图,图4(b)表示校园一天的定位请求总量曲线特征示意图。
如图4(a)所示,0~5时定位请求总量趋于0,曲线近似为直线,曲线斜率为0,0~5时为第一个特征时段;8~10时定位请求总量急剧上升,曲线斜率较大,8~10时为第二个特征时段,10~16时定位请求总量持续较高,超过预设的定位请求量阈值,10~16时为第三个特征时段;16~18时定位请求总量快速下降,曲线斜率较大,16~18时为第四特征时段;如图4(b)所示,0~12中0~5时定位请求总量稳步下降,曲线斜率较大,5时定位请求总量为最小值,5~12时定位请求总量逐步上升,曲线斜率较大,12时达到最大值,因此0~12时是由一条平滑的二次曲线构成的特征时段。
或,将图4(a)与图4(b)进行比较,图4(a)中0~4时定位请求总量较低,接近于0,图4(b)中0~4时定位请求总量逐步降低,呈现下降曲线,因此0~4时是特征时段,能够明显体现出旅游景点与校园的定位请求的差异。
实施例二
区分样本区域A与样本区域B的特征时段为T1,区分样本区域A与样本区域C的特征时段为T2,区分样本区域B与样本区域C的特征时段为T3;选出目标区域X,依据目标区域的定位请求曲线特征中特征时段T1、T2、T3的曲线特征,得到如下目标区域与样本区域的特征指数的相似度:
T1:与样本区域A的特征指数的相似度为80%,与样本区域B的特征指数的相似度为20%;
T2:与样本区域A的特征指数的相似度为90%,与样本区域C的特征指数的相似度为10%;
T3:与样本区域B的特征指数的相似度为30%,与样本区域C的特征指数的相似度为70%;
则与样本区域A的特征指数的相似度等于80%*90%=72%,与样本区域B的特征指数的相似度等于20%*30%=6%,与样本区域C的特征指数的相似度等于10%*70%=7%。
为实现上述方法,本发明还提供一种用于地点语义识别的数据库的构建系统,图5是本发明实现用于地点语义识别的数据库的构建系统的优选实施例的结构示意图,如图5所示,该系统包括:统计模块50、曲线生成模块51、指数生成模块52、构建模块53;其中,
统计模块50,用于依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
曲线生成模块51,用于利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
指数生成模块52,用于从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
构建模块53,用于利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
其中,所述定位请求量为定位请求总量或定位请求用户量。
其中,所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,所述定位请求曲线特征的时间周期为一年,时间粒度为月。
其中,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
其中,所述指数生成模块52在依据特征时段获得样本区域的特征指数时,具体包括:计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
其中,指数生成模块52利用如下公式获得样本区域的特征指数:
Figure BDA00002910124800161
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
上述系统中,该系统还包括:
定位服务模块54,用于依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
其中,定位服务模块54在获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数时,具体包括:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai
其中,定位服务模块54在获得目标区域与地点语义样本库中样本区域的特征指数匹配系数时,具体包括:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi。
本发明的上述技术方案,对用户的定位历史日志进行分析,得到区域的定位请求曲线特征和特征指数,从而生成地点语义数据库,因此数据源的获取非常简单,从而降低地点语义识别的成本,并可以进行实时更新,提高数据源的时效性。地点语义数据库中数据源可以通过自动分析定位历史日志获得,不需要人工维护和更新,降低数据源维护和更新的人工成本。此外,由于用户的定位历史日志是人类活动相关的信息,因此能够实现物理特性相似但用途不同的建筑物的地点语义识别,向用户提供准确的定位结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种用于地点语义识别的数据库的构建方法,其特征在于,该方法包括:
依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库;
依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;
将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
2.根据权利要求1所述的方法,其特征在于,所述定位请求量为定位请求总量或定位请求用户量。
3.根据权利要求1所述的方法,其特征在于,
所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一年,时间粒度为月。
4.根据权利要求1所述的方法,其特征在于,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
5.根据权利要求1所述的方法,其特征在于,所述依据特征时段获得样本区域的特征指数具体包括:
计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,
计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
6.根据权利要求1所述的方法,其特征在于,利用如下公式获得样本区域的特征指数:
Figure FDF0000006088570000021
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
7.根据权利要求1所述的方法,其特征在于,获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数的方法为:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai
8.根据权利要求1所述的方法,其特征在于,获得目标区域与地点语义样本库中样本区域的特征指数匹配系数的方法为:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi
9.一种用于地点语义识别的数据库的构建系统,其特征在于,该系统包括:统计模块、曲线生成模块、指数生成模块、构建模块;其中,
统计模块,用于依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
曲线生成模块,用于利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
指数生成模块,用于从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
构建模块,用于利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库;
定位服务模块,用于依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
10.根据权利要求9所述的系统,其特征在于,所述定位请求量为定位请求总量或定位请求用户量。
11.根据权利要求9所述的系统,其特征在于,
所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一年,时间粒度为月。
12.根据权利要求9所述的系统,其特征在于,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
13.根据权利要求9所述的系统,其特征在于,所述指数生成模块在依据特征时段获得样本区域的特征指数时,具体包括:
计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,
计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
14.根据权利要求9所述的系统,其特征在于,指数生成模块利用如下公式获得样本区域的特征指数:
Figure FDF0000006088570000041
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
15.根据权利要求9所述的系统,其特征在于,定位服务模块在获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数时,具体包括:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai
16.根据权利要求9所述的系统,其特征在于,定位服务模块在获得目标区域与地点语义样本库中样本区域的特征指数匹配系数时,具体包括:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi
CN201310078531.8A 2013-03-12 2013-03-12 一种用于地点语义识别的数据库的构建方法及系统 Active CN104050173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310078531.8A CN104050173B (zh) 2013-03-12 2013-03-12 一种用于地点语义识别的数据库的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310078531.8A CN104050173B (zh) 2013-03-12 2013-03-12 一种用于地点语义识别的数据库的构建方法及系统

Publications (2)

Publication Number Publication Date
CN104050173A CN104050173A (zh) 2014-09-17
CN104050173B true CN104050173B (zh) 2020-11-03

Family

ID=51503024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310078531.8A Active CN104050173B (zh) 2013-03-12 2013-03-12 一种用于地点语义识别的数据库的构建方法及系统

Country Status (1)

Country Link
CN (1) CN104050173B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100276B (zh) * 2015-09-01 2018-09-18 厦门大学 一种面向次等内容分发系统的区域内容缓存装置及其方法
CN105246101B (zh) * 2015-09-01 2019-01-18 厦门大学 一种面向次等移动内容分发系统的内容推荐装置及其方法
CN107481244B (zh) * 2017-07-04 2020-09-25 昆明理工大学 一种工业机器人视觉语义分割数据库制作方法
CN109325017B (zh) * 2018-10-25 2022-03-04 中国辐射防护研究院 一种放射性核素迁移扩散数值模拟系统的数据库设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102607553A (zh) * 2012-03-06 2012-07-25 北京建筑工程学院 一种基于出行轨迹数据的行程识别方法
CN102890860A (zh) * 2012-09-28 2013-01-23 北京世纪高通科技有限公司 一种交通小区划分方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102607553A (zh) * 2012-03-06 2012-07-25 北京建筑工程学院 一种基于出行轨迹数据的行程识别方法
CN102890860A (zh) * 2012-09-28 2013-01-23 北京世纪高通科技有限公司 一种交通小区划分方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Discovering Personally Semantic Places from GPS Trajectories;Mingqi Lv等;《CIKM "12 Proceedings of the 21st ACM international conference on Information and knowledge management》;20121029;第1552-1556页 *

Also Published As

Publication number Publication date
CN104050173A (zh) 2014-09-17

Similar Documents

Publication Publication Date Title
Wardrop et al. Spatially disaggregated population estimates in the absence of national population and housing census data
Zhao et al. A trajectory clustering approach based on decision graph and data field for detecting hotspots
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
Aydinoglu et al. Implementing a mass valuation application on interoperable land valuation data model designed as an extension of the national GDI
Pflügler et al. Predicting the availability of parking spaces with publicly available data
CN108495254B (zh) 一种基于信令数据的交通小区人口特征估计方法
CN104050173B (zh) 一种用于地点语义识别的数据库的构建方法及系统
Scepanovic et al. Jane Jacobs in the sky: predicting urban vitality with open satellite data
Farooq et al. Strategic slum upgrading and redevelopment action plan for Jammu City
Fan et al. Understanding spatial-temporal urban expansion pattern (1990–2009) using impervious surface data and landscape indexes: a case study in Guangzhou (China)
CN112579718A (zh) 一种城市用地功能的识别方法、装置及终端设备
CN107291784B (zh) 地理围栏类别的获取方法、装置及业务设备
Boller et al. Automated localization of urban drainage infrastructure from public-access street-level images
Wang et al. Fine-resolution population mapping from international space station nighttime photography and multisource social sensing data based on similarity matching
EP3711013A1 (fr) Dispositif et procédé de traitement de données hétérogènes pour déterminer des affluences spatio-temporelles
Xu et al. Accurate suitability evaluation of large-scale roof greening based on RS and GIS methods
Cajka et al. Geo-sampling in developing nations
Liang et al. Assessing the validity of SafeGraph data for visitor monitoring in Yellowstone National Park
CN114662774A (zh) 一种城市街区活力预测方法、存储介质和终端
WO2022228320A1 (zh) 确定人口分布热力数据的方法、装置和存储介质
Dumedah Address points of landmarks and paratransit services as a credible reference database for geocoding
CN104794164B (zh) 基于开源数据识别住区车位匹配社会停车需求的方法
Shafiei Shiva et al. Mapping Heat Wave Hazard in Urban Areas: A Novel Multi-Criteria Decision Making Approach
CN111105124A (zh) 一种基于距离约束的多地标影响力的计算方法
CN110633890A (zh) 一种土地利用效率判断方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant