一种用于区域标签管理的方法及装置
技术领域
本申请涉及地理位置信息领域,具体涉及一种用于区域标签管理的方法。本申请同时涉及一种用于区域标签管理的装置。
背景技术
随着通信技术和信息技术的快速发展,电子地图的认知度和使用率也在不断递增,以多种形式广泛应用于公众及各个行业领域,尤其表现在通讯行业和地理信息(包括地图提供商)相关行业。对于公众而言,电子地图可以在生活、购物、工作、旅游、出行导航等各个方面提供便捷的解决方案,成为一种不可或缺的工具;对于企业而言,电子地图已经成为一种新兴的营销方式和手段;其中,一种重要的应用是,将将地理位置信息、区域标签(一般指颗粒度为小区层面的区域所具有的共同属性,比如住宅、商场、写字楼等)等标注在电子地图上,快速的推荐到公众面前,使企业能够快速有效的接触到潜在客户,帮助企业建立在精准营销方面的优势。
目前,在通讯行业和地理信息(包括地图提供商)相关行业,均采用了一种静态的区域标签管理的方法,比如通讯运营商(如移动、联通等)的地理区域的功能判别标准,对某地理区域按照功能属性进行划分,划分之后的各个区域范围,按照各个区域范围各自的功能属性确定区域标签,该区域标签均为静态标签,无法随着各个区域范围的功能属性的变化而变化。
上述现有技术提供的区域标签管理的方法存在明显的缺陷。
上述现有技术提供了一种静态的区域标签管理的方法,对各个区域范围按照功能属性的不同打上各自的静态标签。但是,在实际当中,各个区域范围的功能属性往往可能发生变化,在不同的时间段呈现出不同的功能属性,比如香港的中环地区,在白天的时候,该地区汇聚了大量的商务人士和政府工作人员,出入各种办公楼和政府部门,此时,该地区的区域标签为办公楼或者商务;在入夜之后,该地区的楼底酒吧和夜总会占据吸引人群的统治地位,此时,该地区的区域标签很可能为休闲娱乐;类似的情况还出现在北京的三里屯soho楼群这一区域,该区域白天的区域标签为办公楼,而晚上的区域标签则为酒吧。因此,现有技术提供的区域标签管理的方法存在一定的片面性,无法全面考虑某地理区域的功能属性,并且区域标签无法随着时间的变化而做出适应性的变化调整,存在一定的缺陷。
发明内容
本申请提供一种用于区域标签管理的方法,以解决现有的用于区域标签管理的方法存在的片面性和无法动态更新的问题。本申请同时涉及一种用于区域标签管理的装置。
本申请提供一种用于区域标签管理的方法,包括:
获取特定地理区域范围的区域标识信息;
获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识;
将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签;
将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签。
可选的,所述获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识的步骤,采用下述方式:
获取地理位置信息位于该地理区域范围的用户的社交媒体数据信息;
从所述社交媒体数据信息中读取出读取所述用户对该地理区域范围的功能属性的评价信息,将该评价信息作为该地理区域范围的属性评价标签,并从中读取该属性评价标签的时间,将该时间作为时间标识。
可选的,所述获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识的步骤之后,包括:
根据所述属性评价标签所描述的该地理区域范围的功能属性,对该地理区域范围的属性评价标签进行分类,分为至少一个标签分类;
对各个标签分类下的属性评价标签进行规范化,将同一属性评价标签分类下的各个属性评价标签规范化为同一属性评价标签。
可选的,所述获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识的步骤之后,包括:
对所述属性评价标签进行打分,并统计出各个属性评价标签的得分。
可选的,所述对所述属性评价标签进行打分,并统计出各个属性评价标签的得分的步骤,采用下述方式:
统计出该地理区域范围的各个属性评价标签的数目;
根据所述各个属性评价标签的数目,计算出各个属性评价标签在该地理区域范围的属性评价标签中的占有率,将该占有率作为各个属性评价标签的得分。
可选的,所述获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识的步骤之后,还包括:
选取得分最高的至少一个属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识的步骤之后,还包括:
分别判断该地理区域范围的各个属性评价标签的得分是否低于预设的阈值;
若是,则将该属性评价标签从该地理区域范围的属性评价标签中剔除;
若否,则将该属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签的步骤,包括:
分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识;
若是,则将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中,生成该地理区域范围的区域标签;
若否,则将该属性评价标签从该地理区域范围的属性评价标签中剔除。
可选的,若所述分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识的判断结果为是,相应的,所述将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中的子步骤,采用下述方式:
将该属性评价标签及其时间标识,以及所述区域标识信息的数据组合作为一条数据记录,写入所述数据库中的数据表中,作为该地理区域范围的一个区域标签
其中,所述数据表中,主键为所述区域标识信息。
可选的,所述将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签的步骤之后,包括:
统计出该地理区域范围的区域标签中各个区域标签的数目;
根据各个区域标签的数目,计算出各个区域标签在该地理区域范围的区域标签中的占有率。
可选的,所述将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签的步骤之后,还包括:
分别判断该地理区域范围的各个区域标签的占有率是否高于预设阈值;
若是,保持该区域标签作为该地理区域范围的区域标签不变;
若否,则将该区域标签从该地理区域范围的区域标签中剔除。
可选的,所述将该地理区域范围的区域标签在时间域上进行聚类的步骤,包括:
对该地理区域范围的各个区域标签中记录的日期信息进行模糊化的处理;
根据各个区域标签中记录的时间标识的前后顺序将各个区域标签顺序排列;
将排序之后的各个区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签;
其中,所述区域时段标签为该地理区域范围在各个时间段的功能属性描述;一个区域时段标签对应至少两个区域标签,并且,一个区域时段标签对应至少一个时间段。
可选的,所述将该地理区域范围的区域标签在时间域上进行聚类的步骤,还包括:
以该地理区域范围的区域时段标签对应的时间段的聚类质心为原点,以各个区域标签的正态分布σ为半径,将根据该原点和半径形成的时间区域所覆盖的时间段作为该区域标签的时间段;
其中,所述聚类质心包括:该区域时段标签的时间段的中间值,或者该区域时段标签的各个区域标签的时间标识的算术平均值或者加权平均值。
可选的,所述将该地理区域范围的区域标签在时间域上进行聚类的步骤之后,包括:
判断该地理区域范围在特定时间段内是否存在区域时段标签;
若是,则保持该地理区域范围在该特定时间段的区域时段标签不变;
若否,则将默认区域标签作为该地理区域范围在该特定时间段的区域标签,并根据该区域标签确定在该特定时间段的区域时段标签;
其中,所述默认区域标签包括:该地理区域范围的总数目最多的一个区域标签。
可选的,所述将该地理区域范围的区域标签在时间域上进行聚类的步骤之后,包括:
判断该地理区域范围在特定时间段是否存在两个或两个以上的区域时段标签;
若是,则获取该地理区域范围的各个区域时段标签在该时间段对应的区域标签的数目,选取对应的区域标签的数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签;或者
获取该地理区域范围的各个区域时段标签对应的区域标签的总数目,选取对应的区域标签的总数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签。
可选的,所述将该地理区域范围的区域标签在时间域上进行聚类的步骤之后,包括:
分别判断该地理区域范围的区域时段标签对应的各个时间段的时间长度是否小于特定阈值;
若是,则执行贪婪合并算法,将该时间段合并到与该时间段相邻并且时间长度较长的时间段中,并获取该时间长度较长的时间段中对应的区域时段标签作为该时间段的区域时段标签。
本申请还提供一种用于区域标签管理的装置,包括:
区域标识信息获取单元,用于获取特定地理区域范围的区域标识信息;
属性评价标签获取单元,用于获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识;
区域标签生成单元,用于将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签;
区域标签聚类单元,用于将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签。
可选的,所述用于区域标签管理的装置,包括:
属性评价标签分类单元,用于根据所述属性评价标签所描述的该地理区域范围的功能属性,对该地理区域范围的属性评价标签进行分类,分为至少一个标签分类;
属性评价标签规范化单元,用于对各个标签分类下的属性评价标签进行规范化,将同一属性评价标签分类下的各个属性评价标签规范化为同一属性评价标签。
可选的,所述用于区域标签管理的装置,包括:
属性评价标签得分获取单元,用于对所述属性评价标签进行打分,并统计出各个属性评价标签的得分。
可选的,所述用于区域标签管理的装置,包括:
第一属性评价标签确定单元,用于选取得分最高的至少一个属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述用于区域标签管理的装置,包括:
第二属性评价标签确定单元,用于分别判断该地理区域范围的各个属性评价标签的得分是否低于预设的阈值;
若是,则将该属性评价标签从该地理区域范围的属性评价标签中剔除;
若否,则将该属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述区域标签生成单元,包括:
属性评价标签判断子单元,用于分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识;
若是,则进入区域标签生成子单元;
所述区域标签整合子单元,用于将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中,生成该地理区域范围的区域标签;
若否,则进入属性评价标签过滤子单元;
所述属性评价标签过滤子单元,用于将该属性评价标签从该地理区域范围的属性评价标签中剔除。
可选的,所述用于区域标签管理的装置,包括:
区域标签数目统计单元,用于统计出该地理区域范围的区域标签中各个区域标签的数目;
占有率计算单元,用于根据各个区域标签的数目,计算出各个区域标签在该地理区域范围的区域标签中的占有率。
可选的,所述用于区域标签管理的装置,包括:
区域标签判断单元,用于分别判断该地理区域范围的各个区域标签的占有率是否高于预设阈值;
若是,保持该区域标签作为该地理区域范围的区域标签不变;
若否,则将该区域标签从该地理区域范围的区域标签中剔除。
可选的,所述区域标签聚类单元,包括:
日期信息处理子单元,用于对该地理区域范围的各个区域标签中记录的日期信息进行模糊化的处理;
区域标签顺序排列子单元,用于根据各个区域标签中记录的时间标识的前后顺序将各个区域标签顺序排列;
区域标签聚类子单元,用于将排序之后的各个区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签;
其中,所述区域时段标签为该地理区域范围在各个时间段的功能属性描述;一个区域时段标签对应至少两个区域标签,并且,一个区域时段标签对应至少一个时间段。
可选的,所述区域标签聚类单元,还包括:
区域标签时间段确定子单元,用于以该地理区域范围的区域时段标签对应的时间段的聚类质心为原点,以各个区域标签的正态分布σ为半径,将根据该原点和半径形成的时间区域所覆盖的时间段作为该区域标签的时间段;
其中,所述聚类质心包括:该区域时段标签的时间段的中间值,或者该区域时段标签的各个区域标签的时间标识的算术平均值或者加权平均值。
可选的,所述用于区域标签管理的装置,包括:
第一区域时段标签判断单元,用于判断该地理区域范围在特定时间段内是否存在区域时段标签;
若是,则保持该地理区域范围在该特定时间段的区域时段标签不变;
若否,则将默认区域标签作为该地理区域范围在该特定时间段的区域标签,并根据该区域标签确定在该特定时间段的区域时段标签;
其中,所述默认区域标签包括:该地理区域范围的总数目最多的一个区域标签。
可选的,所述用于区域标签管理的装置,包括:
第二区域时段标签判断单元,用于判断该地理区域范围在特定时间段是否存在两个或两个以上的区域时段标签;
若是,则获取该地理区域范围的各个区域时段标签在该时间段对应的区域标签的数目,选取对应的区域标签的数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签;或者
获取该地理区域范围的各个区域时段标签对应的区域标签的总数目,选取对应的区域标签的总数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签。
可选的,所述用于区域标签管理的装置,包括:
第三区域时段标签判断单元,用于分别判断该地理区域范围的区域时段标签对应的各个时间段的时间长度是否小于特定阈值;
若是,则执行贪婪合并算法,将该时间段合并到与该时间段相邻并且时间长度较长的时间段中,并获取该时间长度较长的时间段中对应的区域时段标签作为该时间段的区域时段标签。
与现有技术相比,本申请具有以下优点:
本申请提供的一种用于区域标签管理的方法,包括:获取特定地理区域范围的区域标识信息;获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识;将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签;将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签。
本申请提供的所述用于区域标签管理的方法中,针对地理区域范围的区域标签加入了时间域维度,并将各个区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在不同时间段对应的区域时段标签,在时间域维度实现区域时段标签的动态设置,更具全面性;此外,该方法能够根据数据源的更新实时更新该地理区域范围在不同时间段对应的区域时段标签,实现了该地理区域范围区域的区域时段标签的动态更新,更具有时效性,准确度更高。
附图说明
图1是本申请实施例提供的一种用于区域标签管理的方法处理流程图;
图2是本申请实施例提供的一种用于区域标签管理的装置示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请提供一种用于区域标签管理的方法,本申请另外提供一种用于区域标签管理的装置。
所述用于区域标签管理的方法实施例如下:
参照图1,其示出了本实施例提供的一种用于区域标签管理的方法处理流程图。
以下结合图1对本实施例提供的一种用于区域标签管理的方法进行说明,并且对该方法的各个步骤进行说明;此外,本实施例提供的一种用于区域标签管理的方法的具体步骤之间的顺序关系请根据图1确定。
本发明提供了一种用于区域标签管理的方法,该方法针对地理区域范围的区域标签加入了时间域维度,并且能够实现对所述地理区域范围的区域标签的动态更新,具体步骤如下:
步骤S101,获取特定地理区域范围的区域标识信息。
所述地理区域范围包括某一行政区域的范围、某一建筑物的覆盖范围、某一地理区域的范围,比如三里屯、万达广场、xx小区,或者地图上的某一区域对应的地理区域范围。
所述区域标识信息是指从地理信息数据库中获取的该地理区域范围的基础地理信息。
其中,所述地理基础信息包括行政区域信息、建筑物名称,以及某一地理区域的区域名称或者区域描述,比如三里屯这一区域的区域标识信息为三里屯、万达广场这一区域的区域标识信息为万达广场。
步骤S102,获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识。
根据上述步骤S101,获取到所述地理区域范围的区域标识信息之后,本步骤中,获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签,以及该属性评价标签的时间标识。
所述属性评价标签,是指用户的社交媒体数据信息中用于对所述地理区域范围的功能属性进行评价的评价信息,比如:用户身处三里屯soho楼群这一地理区域范围时,在微博中发表一条微博信息,该微博信息中包含用户该地理区域范围的功能属性的评价信息,该评价信息可能为办公楼,或者酒吧。具体的,如果用户是在工作日的上班时间发表的微博信息,则属性评价标签很可能是办公楼,如果用户是在晚上或者是节假日发表的微博信息,则该地理区域范围的属性评价标签很可能是酒吧。
所述时间标识包括该属性评价标签对应的日期信息和时间信息(时间戳),本实施例中,所述时间标识仅仅是指时间标识中的时间信息(时间戳),比如用户发表的微博信息中的时间戳。
需要说明的是,本实施例中,在获取用户对该地理区域范围的功能属性的评价信息之前,首先通过GPS信号或者基站信号用户的地理位置信息;并基于该地理位置信息判断所述用户是否位于该地理区域范围之内;若是,则获取用户对该地理区域范围的功能属性的评价信息,即:获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签。
上述判断基于的事实是当下许多用户在发表微博信息时,屏蔽了地理位置信息,或者无法获取用户的地理位置信息,上述判断的目的在于将这些不存在地理位置信息的用户的属性评价标签过滤掉。
如果根据地理位置信息确定用户位于该地理区域范围,则获取地理位置信息位于该地理区域范围的用户的属性评价标签及其时间标识。比如从所述社交媒体数据信息中读取出读取所述用户对该地理区域范围的功能属性的评价信息,将该评价信息作为该地理区域范围的属性评价标签,并从中读取该属性评价标签的时间,将该时间作为时间标识。
需要说明的是,本实施例中,在获取该地理区域范围的属性评价标签及其时间标识之后,还包括对所述属性评价标签进行规范化,以及对所述属性评价标签进行有效性过滤的步骤,具体实现如下:
1)对所述属性评价标签进行规范化;
本实施例中,对所述属性评价标签进行规范化,具体实现如下:
根据所述属性评价标签所描述的该地理区域范围的功能属性,对该地理区域范围的属性评价标签进行分类,分为至少一个标签分类;
对各个标签分类下的属性评价标签进行规范化,将同一属性评价标签分类下的各个属性评价标签规范化为同一属性评价标签。
本步骤的目的在于将相同功能属性(即:归属于同一标签分类)的各个属性评价标签规范化为同一属性评价标签,使规范化后的各个属性评价标签更能够代表该地理区域范围的各个功能属性。
例如:将“酒吧A”、“酒吧B”、“酒馆”、“饮吧”等归属于同一标签分类的属性评价标签,规范化为同一属性评价标签“酒吧”。
2)对所述属性评价标签进行打分,并统计出各个属性评价标签的得分;
本实施例中,采用下述方法对所述属性评价标签进行打分并进行得分计算:
a、统计出该地理区域范围的各个属性评价标签的数目;
b、根据所述各个属性评价标签的数目,计算出各个属性评价标签在该地理区域范围的属性评价标签中的占有率,将该占有率作为各个属性评价标签的得分。
其中,占有率为各个属性评价标签的数目在所有的属性评价标签的总数目中所占的比例值。
例如:某地理区域范围A的属性评价标签为“早餐”的数目为500,属性评价标签为“写字楼”的数目为5500,属性评价标签为“餐馆”的数目为1000,属性评价标签为“酒吧”的数目为3000;
则该地理区域范围A的属性评价标签为“早餐”的占有率为500/(500+5500+3000+1000)=0.05,即:“早餐”属性评价标签的得分为0.05;
属性评价标签为“写字楼”的占有率为5500/(500+5500+3000+1000)=0.55,即:“写字楼”属性评价标签的得分为0.55;
属性评价标签为“餐馆”的占有率为1000/(500+5500+3000+1000)=0.1,即:“餐馆”属性评价标签的得分为0.1。
属性评价标签为“酒吧”的占有率为3000/(6000+3000+1000)=0.3,即:“酒吧”属性评价标签的得分为0.3。
除此之外,还可以采用其他方法计算所述属性评价标签的得分,比如根据各个属性评价标签的权重计算该地理区域范围的各个属性评价标签的得分,在此不作限定。
3)选取得分最高的至少一个属性评价标签作为该地理区域范围的属性评价标签;
本步骤的目的在于,当该地理区域范围的属性评价标签过多时,比如包括“早餐”、“办公楼”、“餐馆”、“酒吧”、“小区”、“电影院”、“超市”等多个属性评价标签时,只选取得分最高的至少一个属性评价标签,作为该地理区域范围的属性评价标签;一般而言,每个地理区域范围限定有2~4个属性评价标签。
4)分别判断该地理区域范围的各个属性评价标签的得分是否低于预设的阈值;
若是,则将该属性评价标签从该地理区域范围的属性评价标签中剔除;
若否,则将该属性评价标签作为该地理区域范围的属性评价标签。
本步骤的目的是过滤掉异常数据,即:得分较低的属性评价标签;
例如:某地理区域范围B的属性评价标签为“写字楼”的数目为6000,标签为“酒吧”的数目为3000,标签为“网吧”的数目为10,一般而言,认为标签为“网吧”的属性评价标签为异常数据,将这些异常数据过滤掉,从而保证该地理区域范围的属性评价标签的有效性。
步骤S103,将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签。
上述步骤S101中,获取到该地理区域范围的区域标识信息,上述步骤S102中,获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识,本步骤中,根据上述步骤S101、S102中获取的所述区域标识信息、属性评价标签及其时间标识,将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签,具体实现如下:
1)分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识;
若是,则进入下述步骤2),将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中,生成该地理区域范围的区域标签
若否,则将该属性评价标签从该地理区域范围的属性评价标签中剔除。
该判断的目的在于,过滤掉无效的属性评价标签,即:将不存在时间标识的属性评价标签过滤掉。
2)将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中,生成该地理区域范围的区域标签;
本步骤得以实施的前提是,上述步骤1)中,所述分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识的判断结果为是,即:所述属性评价标签存在时间标识。
具体的,本步骤中,将该属性评价标签及其时间标识,以及所述区域标识信息的数据组合,整合成“区域标识信息-时间标识-属性评价标签”的形式,并作为一条数据记录写入所述数据库中的数据表中,作为该地理区域范围的一个区域标签;
其中,所述数据表中,主键为所述区域标识信息。
需要说明的是,所述时间标识包括所述属性评价标签的日期信息和时间信息(时间戳,比如06:03);但在本实施例中,仅仅是指将所述时间标识中的时间戳与所述属性评价标签以及所述区域标识信息进行整合。
例如:上述举例的地理区域范围A,该地理区域范围A的各个区域标签各举一例如下:
对应于“早餐”属性评价标签的区域标签:“地理区域范围A-06:03-早餐”;
对应于“写字楼”属性评价标签的区域标签:“地理区域范围A-8:30-写字楼”;
对应于“餐馆”属性评价标签的区域标签:“地理区域范围A-11:05-餐馆”;
对应于“酒吧”属性评价标签的区域标签:“地理区域范围A-18:15-酒吧”。
除此之外,上述整合过程还可以采用本实施例之外的其他方法实现,在此不作限定。
3)统计出该地理区域范围的区域标签中各个区域标签的数目,根据该数目计算出各个区域标签在该地理区域范围的区域标签中的占有率;
并分别判断该地理区域范围的各个区域标签的占有率是否高于预设阈值;
若是,保持该区域标签作为该地理区域范围的区域标签不变;
若否,则将该区域标签从该地理区域范围的区域标签中剔除。
其中,上述阈值为可配置百分比,一般取25%~40%之间的一个百分比数值作为上述判断占有率的预设阈值。
例如:上述举例的地理区域范围A,该地理区域范围A的区域标签为:
“地理区域范围A-06:03-早餐”、
“地理区域范围A-06:04-早餐”、
······
“地理区域范围A-8:30-写字楼”、
“地理区域范围A-8:32-写字楼”、
······
“地理区域范围A-09:32-早餐”、
······
“地理区域范围A-11:05-餐馆”、
······
“地理区域范围A-13:23-餐馆”、
······
“地理区域范围A-17:45-餐馆”、
······
“地理区域范围A-18:15-酒吧”、
“地理区域范围A-18:16-酒吧”、
······
“地理区域范围A-19:37-写字楼”、
······
“地理区域范围A-20:14-餐馆”、
······
“地理区域范围A-22:14-酒吧”;
其中,对应于“早餐”属性评价标签的区域标签的总数目为500个;
对应于“写字楼”属性评价标签的区域标签的总数目为5500个;
对应于“餐馆”属性评价标签的区域标签的总数目为1000个;
对应于“酒吧”属性评价标签的区域标签的总数目为3000个;
则上述各个区域标签的占有率依次为:
500/(500+5500+3000+1000)*100%=5%;
5500/(500+5500+3000+1000)*100%=55%;
3000/(500+5500+3000+1000)*100%=30%;
1000/(500+5500+3000+1000)*100%=10%;
取上述判断占有率的阈值为28%,则过滤掉该地理区域范围A的区域标签中,对应于“早餐”属性评价标签的所有区域标签,和对应于“餐馆”属性评价标签的所有区域标签。
步骤S104,将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签。
上述步骤S103中,将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签,本步骤中,将上述获得的该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签,具体实现如下:
1)对该地理区域范围的各个区域标签中记录的日期信息进行模糊化的处理;
所述时间标识包括所述区域标签中记录的日期信息和时间戳,在此,对所述区域标签中记录的日期信息进行模糊化的处理,将时间标识中的时间戳作为下述步骤对所述区域标签进行排序的依据。
2)根据各个区域标签中记录的时间标识的前后顺序将各个区域标签顺序排列;
根据上述步骤1)处理之后获得的各个区域标签,对各个区域标签分别按照时间戳的前后顺序依次排列。
例如:上述举例的地理区域范围A,该地理区域范围A的区域标签中,对应于“早餐”属性评价标签的区域标签依次排列为:
“地理区域范围A-06:03-早餐”、
“地理区域范围A-06:04-早餐”、
······
“地理区域范围A-09:32-早餐”;
对应于“写字楼”属性评价标签的区域标签依次排列为:
“地理区域范围A-8:30-写字楼”、
“地理区域范围A-8:32-写字楼”、
······
“地理区域范围A-19:37-写字楼”;
对应于“餐馆”属性评价标签的区域标签依次排列为:
“地理区域范围A-11:05-餐馆”、
······
“地理区域范围A-13:23-餐馆”、
“地理区域范围A-17:45-餐馆”、
······
“地理区域范围A-20:14-餐馆”;
对应于“酒吧”属性评价标签的区域标签依次排列为:
“地理区域范围A-18:15-酒吧”、
“地理区域范围A-18:16-酒吧”、
······
“地理区域范围A-22:14-酒吧”。
3)将排序之后的各个区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签;
其中,所述区域时段标签为该地理区域范围在各个时间段的功能属性描述;一个区域时段标签对应至少两个区域标签,并且,一个区域时段标签对应至少一个时间段。
例如:上述举例的地理区域范围A,该地理区域范围A的区域标签为:
对应于“早餐”属性评价标签的区域标签:
“地理区域范围A-06:03-早餐”、
“地理区域范围A-06:04-早餐”、
······
“地理区域范围A-09:32-早餐”;
对应于“写字楼”属性评价标签的区域标签:
“地理区域范围A-8:30-写字楼”、
“地理区域范围A-8:32-写字楼”、
······
“地理区域范围A-19:37-写字楼”;
对应于“餐馆”属性评价标签的区域标签:
“地理区域范围A-11:05-餐馆”、
······
“地理区域范围A-13:23-餐馆”、
“地理区域范围A-17:45-餐馆”、
······
“地理区域范围A-20:14-餐馆”;
对应于“酒吧”属性评价标签的区域标签:
“地理区域范围A-18:15-酒吧”、
“地理区域范围A-18:16-酒吧”、
······
“地理区域范围A-22:14-酒吧”;
见上述的各个区域标签时间域上进行聚类,生成该地理区域范围A在各个时间段的区域时段标签为:
“地理区域范围A-06:03~09:32-早餐”;
“地理区域范围A-8:30~19:37-写字楼”;
“地理区域范围A-11:05~13:23-餐馆”;
“地理区域范围A-17:45~20:14-餐馆”;
“地理区域范围A-18:15~22:14-酒吧”。
4)以该地理区域范围的区域时段标签对应的时间段的聚类质心为原点,以该区域时段标签对应的各个区域标签的正态分布σ为半径,形成该区域时段标签的时间区域,并将该时间区域所覆盖的时间段作为该区域标签的时间段。
本实施例中,以该区域时段标签的时间段的中间值为原点,以该区域时段标签对应的各个区域标签的正态分布σ为半径,形成一个圆形的时间区域,并将该圆形的时间区域所覆盖的时间段,作为该区域标签的时间段。
本步骤的目的在于,对于每一个区域时段标签,根据上述以该时间段的各个区域时段标签对应的各个区域标签的正态分布σ为半径确定的时间段,从而确定在某一时间段下各个区域时段标签的影响程度,或者权重程度。
除此之外,所述聚类质心还可以通过其他方法确定,比如该区域时段标签的各个区域标签的时间标识的算术平均值或者加权平均值,在此不做限定。
需要说明的是,本实施例中,在上述将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签步骤之后,还包括时域修正的步骤,时域修正是针对一些特殊情形,比如对于某一时间段,该时间段不存在对应的区域时段标签,再比如对于某一时间段,该时间段存在两个或者两个以上的区域时段标签,或者比如对于某一时间段,该时间段的时间长度特别小。
具体的,所述时域修正的步骤,包括:
a、对不存在对应的区域时段标签的时间段的时域修正;
本实施例中,以特定时间段为切片单位,将该地理区域范围的时间段在时域上依次不重复的进行切片,判断该地理区域范围在各个时间切片(特定时间段)内是否存在区域时段标签;
若是,则保持该地理区域范围在该特定时间段的区域时段标签不变;
若否,则将默认区域标签作为该地理区域范围在该特定时间段的区域标签,并根据该区域标签确定该地理区域范围在该特定时间段的区域时段标签;
需要说明的是,本实施例中,所述默认区域标签是指该地理区域范围的总数目最多的一个区域标签。除此之外,所述默认区域标签还可以是其他区域时段标签,比如将持续时间长度最长的时间段对应的区域时段标签对应的区域标签作为默认区域标签,在此不做限定。
此外,默认区域标签可以作为兜底数据,在数据出现异常时,将该默认区域标签作为该地理区域范围在所有时段的区域时段标签。
例如:上述举例的地理区域范围A,该地理区域范围A在各个时间段的区域时段标签为:
“地理区域范围A-06:03~09:32-早餐”;
“地理区域范围A-8:30~19:37-写字楼”;
“地理区域范围A-11:05~13:23-餐馆”;
“地理区域范围A-17:45~20:14-餐馆”;
“地理区域范围A-18:15~22:14-酒吧”。
该地理区域范围在“22:14~00:00”这一时间段不存在对应的区域时段标签,将该时间段以5分钟为切片单位,在时域上依次切分为时间长度为5分钟的时间切片,并对该地理区域范围在各个5分钟的时间切片的区域时段标签进行判断;
根据判断的结果,则将该地理区域范围的总数目最多的一个区域标签“地理区域范围A-xx:xx-写字楼”作为在该特定时间段“22:14~00:00”的区域标签,并确定在该特定时间段“22:14~00:00”的区域时段标签为:“地理区域范围A-22:14~00:00-写字楼”。
除此之外,上述对不存在对应的区域时段标签的时间段的时域修正的子步骤还可以通过其他方法实现,在此不做限定。
b、对存在两个或两个以上的区域时段标签的时间段的时域修正;
根据上述步骤a中特定时间段为切片单位本实施例中,以特定时间段为切片单位,生成的各个时间切片,即:特定时间段,本步骤中,判断该地理区域范围在特定时间段是否存在两个或两个以上的区域时段标签;
若是,则获取该地理区域范围的各个区域时段标签在该时间段对应的区域标签的数目,选取对应的区域标签的数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签。
除此之外,还可以采用其他方法实现上述过程,比如获取该地理区域范围的各个区域时段标签对应的区域标签的总数目,选取对应的区域标签的总数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签,在此不做限定。
c、对时间长度小于特定阈值的时间段的时域修正。
分别判断该地理区域范围的区域时段标签对应的各个时间段的时间长度是否小于特定阈值;
若是,则执行贪婪合并算法,将该时间段合并到与该时间段相邻并且时间长度较长的时间段中,并获取该时间长度较长的时间段对应的区域时段标签作为该时间段的区域时段标签。
一般而言,取时间切片的长度为15~30之间的一个数值作为上述判断的特定阈值,将时间长度小于该阈值的所有时间段都合并到与之相邻,并且时间长度较长的时间段中,从而实现了对时间长度小于特定阈值的时间段的时域修正。
所述用于区域标签管理的装置实施例如下:
在上述的实施例中,提供了一种用于区域标签管理的方法,与之相对应的,本申请还提供了一种用于区域标签管理的装置。
参照图2,其示出了根据本实施例提供的一种用于区域标签管理的装置示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本申请提供一种用于区域标签管理的装置,包括:
区域标识信息获取单元201,用于获取特定地理区域范围的区域标识信息;
属性评价标签获取单元202,用于获取地理位置信息位于所述地理区域范围的用户对该地理区域范围的属性评价标签及其时间标识;
区域标签生成单元203,用于将所述区域标识信息、属性评价标签及其时间标识整合为该地理区域范围的区域标签;
区域标签聚类单元204,用于将该地理区域范围的区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签。
可选的,所述用于区域标签管理的装置,包括:
属性评价标签分类单元,用于根据所述属性评价标签所描述的该地理区域范围的功能属性,对该地理区域范围的属性评价标签进行分类,分为至少一个标签分类;
属性评价标签规范化单元,用于对各个标签分类下的属性评价标签进行规范化,将同一属性评价标签分类下的各个属性评价标签规范化为同一属性评价标签。
可选的,所述用于区域标签管理的装置,包括:
属性评价标签得分获取单元,用于对所述属性评价标签进行打分,并统计出各个属性评价标签的得分。
可选的,所述用于区域标签管理的装置,包括:
第一属性评价标签确定单元,用于选取得分最高的至少一个属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述用于区域标签管理的装置,包括:
第二属性评价标签确定单元,用于分别判断该地理区域范围的各个属性评价标签的得分是否低于预设的阈值;
若是,则将该属性评价标签从该地理区域范围的属性评价标签中剔除;
若否,则将该属性评价标签作为该地理区域范围的属性评价标签。
可选的,所述区域标签生成单元203,包括:
属性评价标签判断子单元,用于分别判断该地理区域范围的各个属性评价标签是否存在各自的时间标识;
若是,则进入区域标签生成子单元;
所述区域标签整合子单元,用于将该属性评价标签及其时间标识,以及所述区域标识信息整合到数据库中,生成该地理区域范围的区域标签;
若否,则进入属性评价标签过滤子单元;
所述属性评价标签过滤子单元,用于将该属性评价标签从该地理区域范围的属性评价标签中剔除。
可选的,所述用于区域标签管理的装置,包括:
区域标签数目统计单元,用于统计出该地理区域范围的区域标签中各个区域标签的数目;
占有率计算单元,用于根据各个区域标签的数目,计算出各个区域标签在该地理区域范围的区域标签中的占有率。
可选的,所述用于区域标签管理的装置,包括:
区域标签判断单元,用于分别判断该地理区域范围的各个区域标签的占有率是否高于预设阈值;
若是,保持该区域标签作为该地理区域范围的区域标签不变;
若否,则将该区域标签从该地理区域范围的区域标签中剔除。
可选的,所述区域标签聚类单元204,包括:
日期信息处理子单元,用于对该地理区域范围的各个区域标签中记录的日期信息进行模糊化的处理;
区域标签顺序排列子单元,用于根据各个区域标签中记录的时间标识的前后顺序将各个区域标签顺序排列;
区域标签聚类子单元,用于将排序之后的各个区域标签在时间域上进行聚类,生成该地理区域范围在各个时间段的区域时段标签;
其中,所述区域时段标签为该地理区域范围在各个时间段的功能属性描述;一个区域时段标签对应至少两个区域标签,并且,一个区域时段标签对应至少一个时间段。
可选的,所述区域标签聚类单元204,还包括:
区域标签时间段确定子单元,用于以该地理区域范围的区域时段标签对应的时间段的聚类质心为原点,以各个区域标签的正态分布σ为半径,将根据该原点和半径形成的时间区域所覆盖的时间段作为该区域标签的时间段;
其中,所述聚类质心包括:该区域时段标签的时间段的中间值,或者该区域时段标签的各个区域标签的时间标识的算术平均值或者加权平均值。
可选的,所述用于区域标签管理的装置,包括:
第一区域时段标签判断单元,用于判断该地理区域范围在特定时间段内是否存在区域时段标签;
若是,则保持该地理区域范围在该特定时间段的区域时段标签不变;
若否,则将默认区域标签作为该地理区域范围在该特定时间段的区域标签,并根据该区域标签确定在该特定时间段的区域时段标签;
其中,所述默认区域标签包括:该地理区域范围的总数目最多的一个区域标签。
可选的,所述用于区域标签管理的装置,包括:
第二区域时段标签判断单元,用于判断该地理区域范围在特定时间段是否存在两个或两个以上的区域时段标签;
若是,则获取该地理区域范围的各个区域时段标签在该时间段对应的区域标签的数目,选取对应的区域标签的数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签;或者
获取该地理区域范围的各个区域时段标签对应的区域标签的总数目,选取对应的区域标签的总数目最多的一个区域时段标签,作为该地理区域范围在该特定时间段的区域时段标签。
可选的,所述用于区域标签管理的装置,包括:
第三区域时段标签判断单元,用于分别判断该地理区域范围的区域时段标签对应的各个时间段的时间长度是否小于特定阈值;
若是,则执行贪婪合并算法,将该时间段合并到与该时间段相邻并且时间长度较长的时间段中,并获取该时间长度较长的时间段中对应的区域时段标签作为该时间段的区域时段标签。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。