CN114329240A - 选址特征筛选方法、装置、电子设备及存储介质 - Google Patents

选址特征筛选方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114329240A
CN114329240A CN202111412403.3A CN202111412403A CN114329240A CN 114329240 A CN114329240 A CN 114329240A CN 202111412403 A CN202111412403 A CN 202111412403A CN 114329240 A CN114329240 A CN 114329240A
Authority
CN
China
Prior art keywords
initial
addressing
matched
screening
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111412403.3A
Other languages
English (en)
Inventor
吴非权
孙福宁
王文来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111412403.3A priority Critical patent/CN114329240A/zh
Publication of CN114329240A publication Critical patent/CN114329240A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种选址特征筛选方法、装置、电子设备、存储介质,方法包括:获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,由此,降低了选址过程的使用成本,有利于普通用户大规模的使用,同时,自动化地对选址特征进行筛选,得到更加准确的目标选址特征,达到选址信息更加准确的技术效果。本方案可应用的场景包括但不限于地图、导航、自动驾驶、车联网、车路协同等使用环境。

Description

选址特征筛选方法、装置、电子设备及存储介质
技术领域
本发明涉及位置数据处理技术,尤其涉及一种选址特征筛选方法、装置、电子设备、计算机程序产品及存储介质。
背景技术
相关技术中,地理位置已成为影响许多行业网点运行(如餐饮行业、物流行业、服务器部署以及兴趣点广告投放)的重要因素之一。目前采用的选址方法通常为人工选址方法,即由选址人员通过实地的调研,并结合选址人员的选址经验来进行选址。但是,采用相关技术中的人工选址方式,不仅选址效率低下,选址周期长、成本高昂;而且由于人工经验的局限性,使得选址准确率较低,同时,选址特征类型复杂,主要有客户特征、可接近特征、竞争特征和经营特征等四大类,在实际的互联网数据支持下,特征数目往往数以千计,如何有效地进行特征选取和降维是利用AI技术进行选址的一个关键环节。
发明内容
有鉴于此,本申请提供了一种选址特征筛选方法,能够自动化地对选址特征进行筛选,得到目标选址特征,使用目标选址特征可以确定与目标对象相匹配的选址位置,降低了选址过程的使用成本,有利于普通用户大规模的使用,同时能够达到选址信息更加准确的技术效果。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种选址特征筛选方法,包括:
获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;
对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;
对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置。
本发明实施例还提供了一种选址特征筛选装置,包括:
信息传输模块,用于获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;
信息处理模块,用于对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;
所述信息处理模块,用于对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置。
上述方案中,
所述信息处理模块,用于通过开源集群计算框架对所述选址地块数据按照时间维度进行数据拆解,得到时间维度的选址地块数据;
所述信息处理模块,用于通过所述通过开源集群计算框架对所述时间维度的选址地块数据,进行特征提取以及特征归一化处理,得到归一化的初始选址特征;
所述信息处理模块,用于基于所述归一化的初始选址特征的熵值,对所述归一化的初始选址特征进行特征删除处理,得到所述初始选址特征。
上述方案中,
所述信息处理模块,用于对所述初始选址特征进行数据转换处理,确定所述初始选址特征对应的因变量和自变量;
所述信息处理模块,用于根据所述初始选址特征对应的因变量和自变量,确定所述因变量和自变量的关联关系值;
所述信息处理模块,用于计算所述关联关系值的时间序列均值,并基于所述时序均值阈值对所述关联关系值的时间序列均值进行筛选,得到与所述时序均值阈值相匹配的关联关系值的时间序列均值;
所述信息处理模块,用于根据与所述时序均值阈值相匹配的关联关系值的时间序列均值,确定与因变量空间分异关系相匹配的初始选址特征。
上述方案中,
所述信息处理模块,用于确定与因变量空间分异关系相匹配的初始选址特征对应的关联关系值;
所述信息处理模块,用于确定与所述选址地块数据相匹配的聚类数目;
所述信息处理模块,用于根据所述聚类数目,对所述关联关系值进行聚类处理,得到所述关联关系值的聚类结果;
所述信息处理模块,用于根据所述关联关系值的聚类结果,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。
上述方案中,
所述信息处理模块,用于获取待处理的兴趣点数据集合;
所述信息处理模块,用于对所述兴趣点数据集合中的兴趣点进行组合,形成相应的兴趣点样本对;
所述信息处理模块,用于利用所述目标选址特征,通过兴趣点选择模型的特征组合网络,提取与所述兴趣点样本对相对应的特征向量;
所述信息处理模块,用于通过所述兴趣点选择模型的排序网络,对所述兴趣点样本对相对应的特征向量进行排序处理,确定与所述目标选址特征相匹配的兴趣点。
上述方案中,
所述信息处理模块,用于获取不同数据源中的兴趣点数据;
所述信息处理模块,用于对所述兴趣点数据的数据源进行分类;
所述信息处理模块,用于基于目标选址特征,对所述兴趣点的数据源的分类结果,确定所述不同数据源中的同一兴趣点;
所述信息处理模块,用于将归属于同一兴趣点的兴趣点数据进行聚合,以获得所述兴趣点的完整的详细信息。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的选址特征筛选方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的选址特征筛选方法。
本发明实施例具有以下有益效果:
本发明通过获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置,由此,降低了选址过程的使用成本,有利于普通用户大规模的使用,同时,自动化地对选址特征进行筛选,得到更加准确的目标选址特征,达到选址信息更加准确的技术效果。
附图说明
图1是本发明实施例提供的选址特征筛选方法的使用环境示意图;
图2为本发明实施例提供的选址特征筛选装置的组成结构示意图;
图3为本发明实施例提供的选址特征筛选方法一个可选的流程示意图;
图4为本发明实施例中因变量和自变量的关联关系值计算过程示意图;
图5为本发明实施例中k-Shape聚类处理过程示意图;
图6为本发明实施例提供的选址特征筛选方法一个可选的二维地图显示示意图;
图7为本发明实施例提供的选址特征筛选方法一个可选的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)位置服务:位置服务(LBS,Location Based Services)又称定位服务,位置服务是无线运营公司为用户提供的一种与位置有关的服务;基于位置的服务(Location BasedServices,LBS),是利用各类型的定位技术来获取定位设备当前的所在位置,通过移动互联网向定位设备提供信息资源和基础服务。LBS首先读者可利用定位技术确定自身的空间位置,随后读者便可通过移动互联网来获取与位置相关资源和信息。LBS服务中融合了移动通讯、互联网络、空间定位、位置信息、大数据等多种信息技术,利用移动互联网络服务平台进行数据更新和交互,使用户可以通过空间定位来获取相应的服务。
3)移动终端:移动终端或者叫移动通信终端是指可以在移动中使用的计算机设备,包括手机、笔记本、平板电脑、机车载设备等。随着网络和技术朝着越来越宽带化的方向的发展,移动通信产业将走向真正的移动信息时代。随着集成电路技术的飞速发展,移动终端的处理能力已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台。移动终端也拥有非常丰富的通信方式,即可通过GSM、CDMA、WCDMA、EDGE、4G等无线运营网通讯,也可以通过无线局域网,蓝牙和红外进行通信,另外移动终端集成有全球卫星导航系统定位芯片,用于处理卫星信号以及进行用户的精准定位,目前已广泛用于位置服务;移动终端包含有卫星定位功能的设备。
4)兴趣点,一种位置属性,可以是具有辨识性的建筑、区域(如城市)、景观(如景点)和第三方服务实体(如商店、餐饮、住宿)等可表征场景的信息。
5)Spark,为大规模数据处理而设计的快速通用的计算引擎。
下面对本申请所提供的选址特征筛选方法进行介绍,其中,图1为本发明实施例提供的选址特征筛选方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有带有地图信息显示软件的客户端,用户通过所设置的地图客户端可以根据目标选址特征确定与目标对象相匹配的选址位置,并将与目标对象相匹配的选址位置向用户进行展示;终端通过网络300连接地图服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,实现不同终端之间的地图信息的共享。终端(包括终端10-1和终端10-2)能够接收选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。
下面对本发明实施例的选址特征筛选装置的结构做详细说明,选址特征筛选装置可以各种形式来实施,如带有终端的定位功能的专用终端,也可以为设置有终端的定位功能的服务器,例如前序图1中的地图服务器200。图2为本发明实施例提供的选址特征筛选装置的组成结构示意图,可以理解,图2仅仅示出了选址特征筛选装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的选址特征筛选装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。选址特征筛选装置20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的选址特征筛选装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的问答模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的选址特征筛选方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的选址特征筛选装置采用软硬件结合实施的示例,本发明实施例所提供的选址特征筛选装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的选址特征筛选方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的选址特征筛选装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的选址特征筛选方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持选址特征筛选装置20的操作。这些数据的示例包括:用于在选址特征筛选装置20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从选址特征筛选方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的选址特征筛选装置可以采用软件方式实现,图2示出了存储在存储器202中的选址特征筛选装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括选址特征筛选装置,选址特征筛选装置中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当选址特征筛选装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的选址特征筛选方法,下面继续说明选址特征筛选装置中各个软件模块的功能,其中,
信息传输模块2081,用于获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征。
信息处理模块2082,用于对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征。
所述信息处理模块2082,用于对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述选址特征筛选方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
在介绍本申请所提供的选址特征筛选方法之前,首先对相关技术中的选址特征处理方法进行介绍,相关技术中在获取选址特征时主要有三种方式:
1)Wrapper方法:是将特征选址看作一个搜索寻优方法,将特征分成不同的组合,并对组合进行评价,再与其他组合进行比较。这样就将特征选择看成一个优化方法,可以使用很多的优化算法来解决,如遗传算法、人工蜂群算法等。
2)Embedded方法:在确定模型的过程中,挑选出对模型训练有重要意义的属性。利用如决策树算法、线性回归、RankNet排序模型、SVR等、灰色关联法等方式进行特征处理。
3)Filter方法:即对特征进行打分,再根据阈值选择特征。
但是无论使用哪一种方式,都仅仅是将寻址特征看成一个数值和文本属性的向量,而不考虑选址特征的时空属性。进行选址时,如地块的画像属性既有画像人群类型等描述信息,也有收入等级、最高收入等数值信息,同时这些属性在区域范围内是始终处于时空变化之中。在进行特征选择时,不考虑特征时空属性会导致特征重要性计算误差,对特征选择准确性带来负面影响,进而影响最终选址分析的结果。
为了解决上述缺陷,结合图2示出的选址特征筛选装置说明本发明实施例提供的选址特征筛选方法,参见图3,图3为本发明实施例提供的选址特征筛选方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行选址特征筛选装置的各种电子设备执行,例如可以是如带有选址特征筛选装置的专用终端、智能手机、智能手表等能够接收选址地块数据的电子设备,或者,带有卫星定位功能的设备,其中,带有选址特征筛选装置的专用终端可以为前序图2所示的实施例中带有选址特征筛选装置的电子设备,也可以带有终端定位功能的功能模块。下面针对图3示出的步骤进行说明。
步骤301:选址特征筛选装置获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征。
在本发明的一些实施例中,获取选址地块数据,可以使用网格索引,只需要将用户输入的兴趣面区域映射到多个网格上,再获取每个网格的地块数据,最后将所有网格的地块数据进行合并即可。但是相关技术中的网格索引方法是采用等分经纬度网格索引的方法对所有维度的地块数据进行索引,在平衡查询速度与数据精确度的基础上,一般选择100米作为索引网格的边长(即尺度),选址地块数据指的是存在于地图上某一个面轮廓内的人口、经济、交通以及环境等信息。其中人口信息包括但不限于人数统计、人群画像、客流统计等;经济信息包括但不限于宏观经济(GDP等)、产业经济(第一二三产业GDP与POI数量等)、行业经济(美食等行业POI数量与详情等)等;交通信息包括但不限于交通设施个数、道路条件、交通路况等;环境信息包括但不限于自然环境(绿地水系)、人文环境(公共设施)等不同的信息。
在获取到选址地块数据之后,还需要对选址地块数据进行特征化处理,得到初始选址特征,具体来说,获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征,可以通过以下方式实现:
通过开源集群计算框架对所述选址地块数据按照时间维度进行数据拆解,得到时间维度的选址地块数据;通过所述通过开源集群计算框架对所述时间维度的选址地块数据,进行特征提取以及特征归一化处理,得到归一化的初始选址特征;基于所述归一化的初始选址特征的熵值,对所述归一化的初始选址特征进行特征删除处理,得到所述初始选址特征。其中,可以利用Web UI组件,接收用户填写的开源集群计算框架(Spark)相关参数,并根据该Spark相关参数生成选址地块数据,开源集群计算框架(Spark)作为一个快速实用的开源集群计算框架,在海量的用户数据处理领域有着广泛的应用,能够高效地在一个计算节点到数千个计算节点之间伸缩计算,这一过程中,源集群计算框架(Spark)为了尽可能的获取较大的灵活性,可以支持各种集群管理器(Cluster Manager)上运行,比如通用资源管理系统(YARN Yet Another Resource Negotiator)和开源分布式资源管理框架(Mesos)等等,可以构建大型的、低延迟的数据分析应用程序,以实现对选址地块数据中各个维度的不同数据进行广泛的收集,利用归一化的初始选址特征的熵值,对一化的初始选址特征进行特征删除处理,得到初始选址特征,利用初始选址特征可以在选址过程中进行城市市场分析、核心区域分析以及成本收入分析。
步骤302:选址特征筛选装置对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征。
在本发明的一些实施例中,对于初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征,可以通过以下方式实现:
对所述初始选址特征进行数据转换处理,确定所述初始选址特征对应的因变量和自变量;根据所述初始选址特征对应的因变量和自变量,确定所述因变量和自变量的关联关系值;计算所述关联关系值的时间序列均值,并基于所述时序均值阈值对所述关联关系值的时间序列均值进行筛选,得到与所述时序均值阈值相匹配的关联关系值的时间序列均值;根据与所述时序均值阈值相匹配的关联关系值的时间序列均值,确定与因变量空间分异关系相匹配的初始选址特征。其中,在进行时空过滤处理时,可以使用地理探测器,地理探测器是探测空间分异性,以及揭示其背后驱动因子的一种新的统计学方法。在使用地理探测器时,假设研究区分为若干子区域,如果子区域的方差之和小于区域总方差,则存在空间分异性;如果两变量的空间分布趋于一致,则两者存在统计关联性。地理探测器GeoDetector能有效的识别多因子与地理现象的作用关系,由因子探测、风险探测、生态探测和交互探测4个部分组成,其中因子探测可用于测定因子X对变量Y的影响力,交互作用探测可用于识别不同因子交互作用下对变量Y的解释程度,风险区探测可用于判断不同区域间是否具有显著性差异,生态探测可用于比较两因子对变量Y影响力的差异性。
其中,参考表格1,在使用地理探测器对初始选址特征进行时空过滤处理时,首先需要把选址地块数据处理成地理探测器分析所需要的格式。将因变量和自变量都转换为栅格数据;其中对于X变量的栅格数据,需要按月转换,并进行重分类,例如采用自然间断点分类方法。对每一个月份的数据,均转换为表1所示的格式,对初始选址特征进行数据转换处理,确定初始选址特征对应的因变量和自变量。
Y X<sub>1</sub> X<sub>2</sub> X<sub>m</sub>
格点1 Y<sub>1</sub> X<sub>1</sub> X<sub>2</sub> X<sub>1m</sub>
格点2 Y<sub>2</sub> X<sub>21</sub> X<sub>22</sub> X<sub>2m</sub>
格点n Y<sub>n</sub> X<sub>n1</sub> X<sub>n2</sub> X<sub>nm</sub>
表1
如表1所示,对初始选址特征进行数据转换处理,确定初始选址特征对应的因变量和自变量之后,还需要根据所述初始选址特征对应的因变量和自变量,确定所述因变(Y)和自变量(X)的关联关系值q,其中,图4为本发明实施例中因变量和自变量的关联关系值计算过程示意图,参考公式1和公式2,计算每一个X变量(如人口、POI、交通等详细特征)与Y变量(如盈利)的q统计值:
Figure BDA0003374678460000121
Figure BDA0003374678460000131
上述公式1和公式2中,h=1,…,L为变量Y或因子X的分层(Strata)即分类或分区;Nh和N分别为层h和全区的单元数σ2h和σ2分别是层h和全区的Y值的方差。SSW和SST分别为层内方差之和(Within Sum of Squares)和全区总方差(Total Sum of Squares),q的值域为[0,1]。值越大说明Y的空间分异性越明显;如果分层是由自变量X生成的则q值越大表示自变量X对属性Y的解释力越强,反之则越弱。极端情况下q值为1,表明因子X完全控制了Y的空间分布,q值为0则表明因子X与Y没有任何关系,q值表示X解释了100*q%的Y。
最后,计算所述关联关系值的时间序列均值,并基于所述时序均值阈值对所述关联关系值的时间序列均值进行筛选,得到与所述时序均值阈值相匹配的关联关系值的时间序列均值,根据与所述时序均值阈值相匹配的关联关系值的时间序列均值,确定与因变量空间分异关系相匹配的初始选址特征,由此,计算所有年度全月份的自变量q值时间序列均值,并进行排序,基于时序均值阈值进行对q值进行筛选,过滤阈值较低的初始选址特征,可以对明显与因变量空间分异关系较低的特征进行过滤,避免因变量空间分异关系不相匹配的初始选址特征对选址过程造成影响。
步骤303:选址特征筛选装置对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。
其中,通过目标选址特征可以确定与目标对象相匹配的选址位置。
在本发明的一些实施例中,对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,可以通过以下方式实现:
确定与因变量空间分异关系相匹配的初始选址特征对应的关联关系值;确定与所述选址地块数据相匹配的聚类数目;根据所述聚类数目,对所述关联关系值进行聚类处理,得到所述关联关系值的聚类结果;根据所述关联关系值的聚类结果,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。其中,由于地理探测器没有对空间分异性的时间变化进行描述,因此,可以对关联关系值q进行时序聚类分析,使关联关系值q能更适用于描述选址特征对因变量的时空因果影响,并应用于去除高时空相关的特征,使得选址特征更加准确。具体来说,对所述关联关系值进行聚类处理时,可以使用K-Shape聚类的方式,k-Shape是基于形状的距离(SBD)的距离进聚类,k-Shape聚类侧重于缩放和移位的不变性。参考图5,图5为本发明实施例中k-Shape聚类处理过程示意图,k-Shape有两个主要特征:基于形状的距离(SBD)和时间序列形状提取,具体包括以下步骤:
步骤501:对不同特征的时序q均值进行排序。
步骤502:识别相邻N个特征是否同时存在于统计聚类和形状聚类的同一类别中。
其中,N为滑动窗口特征个数,最少为2。
步骤503:若存在,则仅仅保留一个特征,若不存在则返回执行步骤502。
由此,通过q值时间序列的统计相似性和形状相似性。如N个特征同时存在于统计聚类某一类和形状聚类的某一类中,则表示这N个特征都可能在时空上对因变量产生类似的空间异质性影响,具有高相关性。此时可以减少冗余特征。
其中,本申请实施例所提供的选址特征筛选方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
为了减少目标选址特征的数量,可以通过以下任一方式控制目标选址特征的数量,减少神经网络模型的训练成本。
1)通过常见特征筛选,减少样本数量,具体表现为:选择最常见的前K个特征,例如可以是在目标对象中出现概率大于0.001的所有特征,这些特征可以表征用户的常见在线行为。
2)通过聚类算法提取特征,具体表现为使用长度为|U|的向量fi表示每个特征,其中|U|是训练数据中的目标对象数量,fi(j)为用户j含特征i的次数,进行向量均经过归一化,然后对所有特征向量执行K-means算法,根据特征具体情况设置集群数量|F|。经过聚类处理后,为每个新特征分配新的长度为|F|的向量
Figure BDA0003374678460000161
新特征表示为:
Figure BDA0003374678460000162
其中,Cls(i)表示原特征i经过聚类后所属类别。
3)通过局部敏感哈希方式提取特征,具体表现:配置一个变换矩阵A∈Rd*k,其中,d是原空间中的特征数,k是低维空间的维度。将原特征乘以变换矩阵,即X·A=Y∈Rk,得到转换后的低维空间上的新特征Y。紧接着,用零替换Y中的负值,即Y(i)=max(Y(i),0)。原空间中的特征X1,X2∈Rd可以用
Figure BDA0003374678460000163
近似,其中H(Y1,Y2)是两个原特征的局部敏感哈希的汉明距离。
通过步骤301-步骤303的处理,得到目标选址特征之后,可以获取待处理的兴趣点数据集合;对所述兴趣点数据集合中的兴趣点进行组合,形成相应的兴趣点样本对;利用所述目标选址特征,通过兴趣点选择模型的特征组合网络,提取与所述兴趣点样本对相对应的特征向量;通过所述兴趣点选择模型的排序网络,对所述兴趣点样本对相对应的特征向量进行排序处理,确定与所述目标选址特征相匹配的兴趣点。其中,本发明中涉及的兴趣点(POI)指的是用于为市民提供公共服务产品的各种公共性、服务性设施。例如包括学校、幼儿园、培训机构等的教育类设施的POI,包括医院、诊所、康复机构等的医疗卫生类设施的POI,包括机场、火车站、公交站等的交通类设施的POI,包括体育场、游泳馆、健身房等体育类设施的POI,包括商场、电影院、银行等商业金融服务类POI,包括通信服务中心、供电局等社会福利与保障类设施的POI。
在本发明的一些实施例中,得到目标选址特征之后,还可以获取不同数据源中的兴趣点数据;对所述兴趣点数据的数据源进行分类;基于目标选址特征,对所述兴趣点的数据源的分类结果,确定所述不同数据源中的同一兴趣点;将归属于同一兴趣点的兴趣点数据进行聚合,以获得所述兴趣点的完整的详细信息。其中,兴趣点数据的表现形式包括但不限于:所述兴趣点的名称、所述兴趣点的地址、所述兴趣点的联系电话、所述兴趣点所在的城市信息、所述兴趣点的经纬度信息。由于所述不同数据源的兴趣点数据的数据类型种类并不完全相同,因此,通过本实施例所示的技术方案,利用目标选址特征可以实现获得归属于同一兴趣点的同一类型的兴趣点详细信息,例如通过将归属于同一兴趣点的同一类型的兴趣点的数据进行聚合,可以获得归属于同一兴趣点的兴趣点详细信息中的所有结构化信息。
参见图6,图6为本发明实施例提供的选址特征筛选方法一个可选的二维地图显示示意图,其中,在所显示的二维地图中,包括有各类型的兴趣点数据,例如:兴趣点A,兴趣点B,兴趣点C和兴趣点D,这些兴趣点分别对应着不同的选址地块数据,在向用户推荐与目标对象相匹配的选址位置(任一兴趣点时),需要对复杂的选址特征进行筛选,减少特征冗余。
图7为本发明实施例提供的选址特征筛选方法一个可选的流程示意图,可以理解地,图7所示的步骤可以由运行选址特征筛选装置的各种电子设备执行,例如可以是如带有选址特征筛选装置的专用终端、智能手机、智能手表等能够接收选址地块数据的电子设备,下面针对图7示出的步骤进行说明。
步骤701:目标终端选址请求,响应于选址请求获取选址地块数据。
步骤702:目标终端对所述选址地块数据进行特征化处理,得到初始选址特征。
步骤703:目标终端对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征。
步骤704:目标终端对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。
步骤705:目标终端利用所述目标选址特征,通过兴趣点选择模型的特征组合网络,提取与所述兴趣点样本对相对应的特征向量。
步骤706:目标终端通过所述兴趣点选择模型的排序网络,对所述兴趣点样本对相对应的特征向量进行排序处理,确定与所述目标选址特征相匹配的兴趣点。
有益技术效果:
本发明通过获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置,由此,降低了选址过程的使用成本,有利于普通用户大规模的使用,同时,自动化地对选址特征进行筛选,得到更加准确的目标选址特征,达到选址信息更加准确的技术效果。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种选址特征筛选方法,其特征在于,所述方法包括:
获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;
对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;
对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置。
2.根据权利要求1所述的方法,其特征在于,所述获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征,包括:
通过开源集群计算框架对所述选址地块数据按照时间维度进行数据拆解,得到时间维度的选址地块数据;
通过所述通过开源集群计算框架对所述时间维度的选址地块数据,进行特征提取以及特征归一化处理,得到归一化的初始选址特征;
基于所述归一化的初始选址特征的熵值,对所述归一化的初始选址特征进行特征删除处理,得到所述初始选址特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征,包括:
对所述初始选址特征进行数据转换处理,确定所述初始选址特征对应的因变量和自变量;
根据所述初始选址特征对应的因变量和自变量,确定所述因变量和自变量的关联关系值;
计算所述关联关系值的时间序列均值,并基于所述时序均值阈值对所述关联关系值的时间序列均值进行筛选,得到与所述时序均值阈值相匹配的关联关系值的时间序列均值;
根据与所述时序均值阈值相匹配的关联关系值的时间序列均值,确定与因变量空间分异关系相匹配的初始选址特征。
4.根据权利要求1所述的方法,其特征在于,对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,包括:
确定与因变量空间分异关系相匹配的初始选址特征对应的关联关系值;
确定与所述选址地块数据相匹配的聚类数目;
根据所述聚类数目,对所述关联关系值进行聚类处理,得到所述关联关系值的聚类结果;
根据所述关联关系值的聚类结果,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待处理的兴趣点数据集合;
对所述兴趣点数据集合中的兴趣点进行组合,形成相应的兴趣点样本对;
利用所述目标选址特征,通过兴趣点选择模型的特征组合网络,提取与所述兴趣点样本对相对应的特征向量;
通过所述兴趣点选择模型的排序网络,对所述兴趣点样本对相对应的特征向量进行排序处理,确定与所述目标选址特征相匹配的兴趣点。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取不同数据源中的兴趣点数据;
对所述兴趣点数据的数据源进行分类;
基于目标选址特征,对所述兴趣点的数据源的分类结果,确定所述不同数据源中的同一兴趣点;
将归属于同一兴趣点的兴趣点数据进行聚合,以获得所述兴趣点的完整的详细信息。
7.一种选址特征筛选装置,其特征在于,所述装置包括:
信息传输模块,用于获取选址地块数据,并对所述选址地块数据进行特征化处理,得到初始选址特征;
信息处理模块,用于对所述初始选址特征进行时空过滤处理,基于时序均值阈值筛选与因变量空间分异关系相匹配的初始选址特征;
所述信息处理模块,用于对所述与因变量空间分异关系相匹配的初始选址特征进行时序聚类分析,筛选与时空相关性相匹配的初始选址特征,得到目标选址特征,以实现通过所述目标选址特征确定与目标对象相匹配的选址位置。
8.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至6任一项所述的选址特征筛选方法。
9.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至6任一项所述的选址特征筛选方法。
10.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至6任一项所述的选址特征筛选方法。
CN202111412403.3A 2021-11-25 2021-11-25 选址特征筛选方法、装置、电子设备及存储介质 Pending CN114329240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412403.3A CN114329240A (zh) 2021-11-25 2021-11-25 选址特征筛选方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412403.3A CN114329240A (zh) 2021-11-25 2021-11-25 选址特征筛选方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114329240A true CN114329240A (zh) 2022-04-12

Family

ID=81046568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412403.3A Pending CN114329240A (zh) 2021-11-25 2021-11-25 选址特征筛选方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114329240A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510518A (zh) * 2022-04-15 2022-05-17 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN117649027A (zh) * 2024-01-25 2024-03-05 深圳宇翊技术股份有限公司 基于智慧车站的数据处理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510518A (zh) * 2022-04-15 2022-05-17 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN114510518B (zh) * 2022-04-15 2022-07-12 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN117649027A (zh) * 2024-01-25 2024-03-05 深圳宇翊技术股份有限公司 基于智慧车站的数据处理方法及系统
CN117649027B (zh) * 2024-01-25 2024-05-07 深圳宇翊技术股份有限公司 基于智慧车站的数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN105045858B (zh) 基于投票的出租车载客点推荐方法
Zhang et al. The Traj2Vec model to quantify residents’ spatial trajectories and estimate the proportions of urban land-use types
CN107247938A (zh) 一种高分辨率遥感影像城市建筑物功能分类的方法
CN110442715B (zh) 一种基于多元大数据的综合城市地理语义挖掘方法
CN109376205B (zh) 挖掘地址兴趣点关系的方法、装置、设备及存储介质
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
Hagenauer et al. Hierarchical self-organizing maps for clustering spatiotemporal data
Xu et al. Application of a graph convolutional network with visual and semantic features to classify urban scenes
CN114329240A (zh) 选址特征筛选方法、装置、电子设备及存储介质
Câmara et al. Geocomputation techniques for spatial analysis: are they relevant to health data?
CN110457706B (zh) 兴趣点名称选择模型训练方法、使用方法、装置及存储介质
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN117079148B (zh) 城市功能区的识别方法、装置、设备和介质
CN110674208B (zh) 用于确定用户的职住地信息的方法和装置
CN113807278A (zh) 一种基于深度学习的土地利用分类及变化预测方法
Liao [Retracted] Hot Spot Analysis of Tourist Attractions Based on Stay Point Spatial Clustering
Du et al. Exceptional spatio-temporal behavior mining through Bayesian non-parametric modeling
Simini et al. Deep Gravity: enhancing mobility flows generation with deep neural networks and geographic information
CN110990639B (zh) 一种教育信息化水平趋势分析的数据处理方法及装置
Li Mapping urban land use by combining multi-source social sensing data and remote sensing images
CN115525841A (zh) 兴趣点信息的获取方法、电子设备及存储介质
CN115310672A (zh) 城市发展预测模型的构建方法、城市发展预测方法及装置
CN110781283B (zh) 连锁品牌词库生成方法、装置以及电子设备
CN112183879A (zh) 一种城市功能区的分类方法及装置、电子设备和存储介质
Yıldırım Unsupervised classification of multispectral Landsat images with multidimensional particle swarm optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination