CN115965410A - 网点选址方法和装置 - Google Patents
网点选址方法和装置 Download PDFInfo
- Publication number
- CN115965410A CN115965410A CN202310024931.4A CN202310024931A CN115965410A CN 115965410 A CN115965410 A CN 115965410A CN 202310024931 A CN202310024931 A CN 202310024931A CN 115965410 A CN115965410 A CN 115965410A
- Authority
- CN
- China
- Prior art keywords
- feature information
- historical
- website
- decision tree
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网点选址方法和装置,特别涉及人工智能领域,所述方法包括:基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。本发明能够提高网点选址的准确性和速度,并降低网点选址的成本,从而提高网点选址的效率。
Description
技术领域
本发明涉及网点选址技术领域,特别涉及人工智能领域,尤其涉及一种网点选址方法和装置。
背景技术
银行网点的地址与银行网点的收益和服务质量密切相关,因此为了提高银行网点的相应收益,并更好地为尽可能多的客户提供服务从而提高广大客户的体验,需要为银行网点进行合理选址。
现有技术中,网点选址的方式主要为依赖相关工作人员进行各种繁琐的咨询和调查工作,并基于咨询和调查工作收集的各种相关信息进行分析,从而确定银行网点的地址。但是,由于上述方式中的咨询和调查工作会耗费大量时间且相关费用不菲,且相关分析的过程依赖工作人员的工作经验且以人工方式耗费大量时间进行,会导致整体网点选址的准确性不高,且由于耗费过多时间而使整体网点选址的速度较慢,并且,由于需要投入较多费用而使网点选址的成本较高。
综上所述,现有技术中存在网点选址的准确性较差、速度较慢且成本较高,从而不利于提高网点选址的效率的问题。
发明内容
本发明的一个目的在于提供一种网点选址方法,以解决现有技术中存在的网点选址的准确性较差、速度较慢且成本较高,从而不利于提高网点选址的效率的问题。本发明的另一个目的在于提供一种网点选址装置。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。
为了达到以上目的,本发明的一方面公开了一种网点选址方法,所述方法包括:
基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;
基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;
基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
可选的,进一步包括:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,其中,多个所述初始特征信息对应的历史网点类型两两不同;
基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,并基于预设的样本比例,确定多个所述待划分样本中的多个训练样本和测试样本;
使用对应的所述训练样本训练所述未训练决策树模型,得到对应的已训练决策树模型,并使用对应的所述测试样本对所述已训练决策树模型进行测试,得到对应的模型准确率。
可选的,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
对多个历史网点的初始历史特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述历史网点对应的历史网点特征信息。
可选的,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
从多个历史网点特征信息中选取多个辅助特征信息,并确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离;
基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息。
可选的,所述基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,包括:
将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息;
确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离,并基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息;
分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类,并将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型;
重复执行聚类迭代的步骤,直到存在小于预设距离阈值的第三欧氏距离,其中所述聚类迭代的步骤,包括:基于所述初始目标聚类,得到对应的中间聚类中心特征信息,并将所述初始目标聚类的聚类类型作为对应的所述中间聚类中心特征信息的中间类型;将所有所述历史网点特征信息作为待分类特征信息;确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离,并基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息;分别基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类,并将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型;将所述中间目标聚类作为初始目标聚类;
将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型。
可选的,所述基于所述初始目标聚类,得到对应的中间聚类中心特征信息,包括:
基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息;
将所述均值特征信息作为所述中间聚类中心特征信息。
可选的,所述基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,包括:
基于所述历史网点特征信息中与所述输入特征属性对应的特征参数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本;
基于所述输入样本和对应的所述输出样本,形成对应的所述待划分样本。
可选的,进一步包括:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
对多个待选网点地址对应的初始当前特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述待选网点地址对应的当前特征信息。
可选的,所述基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,包括:
基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息。
可选的,所述基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数,包括:
将所述备选网点类型对应的多个已训练决策树模型的模型准确率进行叠加,得到所述备选网点类型对应的可靠系数。
可选的,所述基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,包括:
将最大的所述可靠系数对应的所述备选网点类型确定为所述目标网点类型。
为了达到以上目的,本发明的另一方面公开了一种网点选址装置,所述装置包括:
类型预测模块,用于基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;
可靠性确定模块,用于基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;
网点选址模块,用于基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
本发明还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
本发明提供的网点选址方法和装置,通过基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,能够以实际待选网点地址的信息为依据,分别针对多个已训练决策树模型中的每一个形成对应其所支持输入格式的当前输入特征信息,大幅度提高了模型输入与已训练决策树模型的兼容程度,并因此提高了后续已训练决策树模型的运算准确性和速度,从而大幅度提高了整体网点选址的准确性和速度,而且,还间接导致在训练决策树模型时无需将对应样本中全部属性的信息都用于训练和测试(因为在后续使用模型时会根据模型所支持的输入属性类型而对应形成与该输入属性类型对应的当前输入特征信息,因此无需在训练过程中过度强调模型输入样本的属性),而是可以根据实际需求,针对不同的决策树模型仅抽取部分属性的信息(不同决策树对应的属性部分可不同,也可相同)用于训练和测试即可,在间接提高了训练灵活性的基础上,还间接提高了训练速度并降低了训练成本,从而又进一步间接提高了整体网点选址的速度并降低了整体网点选址的成本。通过基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型,能够凭借决策树模型适合进行分类的优势,快速地得到多个备选网点类型,且不同决策树模型输出的备选网点类型均具有相对较高的准确性,从而大幅提高了整体网点选址的准确性和速度。
通过基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数,能够实现在随机森林的传统投票机制上进行改进,不仅以输出每种备选网点类型的对应决策树模型的数量为确定输出结果(备选网点类型)可靠性的依据,还紧密地结合考虑了输出每种备选网点类型的对应决策树模型的运算准确率,而由于模型的运算准确率也与其输出的可靠程度密切相关,因此能够大幅度提高确定衡量每种备选网点类型的可靠程度的可靠系数的准确性,从而大幅度提高了后续确定每个待选网点地址的网点类型的准确性,进而大幅度提高整体网点选址的准确性,而且,还间接导致在训练决策树模型时无需对已训练但运算准确率过低的决策树进行样本重新选取和重新训练(因为后续使用时不关心单个决策树的准确率是否达标,而是仅以其测试的运算准确率作为后续预测目标网点类型的参数),从而间接大幅度降低了训练模型的耗时并因此大幅度提高了训练模型的速度,且同样间接大幅度降低了取样、训练和测试等过程的资金投入并因此大幅度降低了训练模型的成本,进而又进一步间接提高了整体网点选址的速度并降低了整体网点选址的成本。
通过基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址,能够充分以准确衡量每种备选结果可靠性的可靠系数为依据,准确地选取较优的备选结果作为对应待选网点地址的预测结果即目标网点类型,提高了确定目标网点类型的准确性,并有利于以每个待选网点地址的目标网点类型为依据准确选取较优的待选网点地址作为最终的网点地址,从而大幅度提高了整体网点选址的准确性。
本发明提供的网点选址方法和装置,能够以便于获取和采集的实际待选网点特征信息为依据进行相关选址预测,而大幅度减少了对各种繁琐的咨询调查工作的依赖,因此自然能减少因咨询调查工作而导致的额外时间及资金投入,为提高网点选址速度和降低网点选址成本做出了贡献。并且本发明网点选址的方式可以自动化的形式实现而大幅度减少了对人工分析过程的依赖,从而大幅度提高了整体网点选址的准确性和速度并减少了与人力相关的成本。
综上所述,本发明提供的网点选址方法和装置,能够提高网点选址的准确性和速度,并降低网点选址的成本,从而提高网点选址的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的一种网点选址方法的流程示意图;
图2示出了本发明实施例的一种可选的模型准备工作的步骤示意图;
图3示出了本发明实施例的一种可选的得到对应输入特征属性的多个当前输入特征信息的步骤示意图;
图4示出了本发明实施例的一种可选的得到可靠系数的步骤示意图;
图5示出了本发明实施例的一种可选的确定目标网点类型的步骤示意图;
图6示出了本发明实施例的一种网点选址装置的模块示意图;
图7示出适于用来实现本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
关于本文中所使用的“第一”、“第二”、……等,并非特别指称次序或顺位的意思,亦非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
需要说明的是,本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
需要说明的是,本申请公开的一种网点选址方法和装置可用于网点选址技术领域,也可用于除网点选址技术领域之外的任意领域,本申请公开的一种网点选址方法和装置的应用领域不做限定。
本发明实施例公开了一种网点选址方法,如图1所示,该方法具体包括如下步骤:
S101:基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型。
S102:基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数。
S103:基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
示例性的,一个待选网点地址对应一份当前特征信息,一个已训练决策树模型对应一组输入特征属性(一组输入特征属性包括多个输入特征属性),一份当前特征信息对应多份当前输入特征信息,一份当前输入特征信息用于输入到对应的某个已训练决策树模型中,一个已训练决策树模型输出某个待选网点地址的一个备选网点类型,一个待选网点地址对应多个备选网点类型,一个已训练决策树模型对应一个模型准确率,一个待选网点地址的某个备选网点类型对应一个可靠系数,一个待选网点类型对应一个目标网点类型。需要说明的是,对于有关对应关系,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,本发明实施例中的特征信息,其具体形式可以为但不限于包括了多种特征属性对应的特征值(数据形式通常为数字,一种属性对应一个特征值)的向量或矩阵等。其中,特征值可通过但不限于将对应特征属性的内容进行相关映射(一般以预设的映射关系信息为依据进行)或数值化处理等方式得到,例如,对于某个特征属性“方圆x公里范围内居住人口数量”,其可在该人口数量处于不同预设人口数量区间时取到不同的对应特征值,再例如,对于某个特征属性“是否为商业区”,其可在对应的内容为“是商业区”和“不是商业区”时分别取到不同的对应特征值。需要说明的是,对于特征信息的具体形式和来源,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,本发明实施例中特征信息的特征属性,包括但不限于方圆x公里范围内的居住人口数量(可通过但不限于考察统计或查询相关人口密度后乘以对应面积得到)、方圆x公里范围内公司/单位数量(可通过但不限于考察统计或查询相关信息等方式得到)、方圆x公里范围内平均房价/房租价格、方圆x公里范围内工作人口数量(可通过但不限于考察统计等方式得到)、方圆x公里范围内停车位数量(可通过但不限于考察统计或信息查询等方式得到)、方圆x公里范围内酒店数量(可通过但不限于考察统计或信息查询等方式得到)、方圆x公里范围内购物中心数量(可通过但不限于考察统计或信息查询等方式得到)、方圆x公里范围内餐饮店数量(可通过但不限于考察统计或信息查询等方式得到)、是否为商业区、方圆x公里范围内写字楼数量(可通过但不限于考察统计或信息查询等方式得到)、方圆x公里范围内同类网点数量(可直接查询得到)、方圆x公里范围内人员的业务参与平均意愿程度(可在相关人员授权的条件下,对其进行调查问询等方式得到)以及地址定位信息(例如经纬度等)等。其中,对应决策树模型的输入特征属性的集合,为特征信息的全部特征属性的一部分。需要说明的是,对于特征属性的具体类型,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,多个已训练决策树模型的集合也可称为但不限于随机森林。
示例性的,本发明实施例中的网点类型,可取但不限于“经营情况好”、“经营情况较好”、“经营情况中等”、“经营情况较差”和“经营情况差”等。其中,网点类型的性质可以为但不限于表示网点经营情况或网点优越性的类型。需要说明的是,对于网点类型的具体可取内容和性质,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型,可以为但不限于将对应的当前输入特征信息输入到对应的已训练决策树模型中进行运算处理,得到对应的已训练决策树模型输出的备选网点类型(由于对于一个待选网点地址,一个已训练决策树模型输出一个备选网点类型,而已训练决策树模型有多个,所以能够有多个备选网点类型)。需要说明的是,对于基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于所述目标网点类型,从多个待选网点地址中确定最终网点地址,可以为但不限于从对应目标网点类型为预期类型的待选网点地址中选取一个作为最终网点地址。例如,从对应目标网点类型为“经营情况好”的多个待选网点地址中选取一个作为最终网点地址。需要说明的是,对于基于所述目标网点类型,从多个待选网点地址中确定最终网点地址的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,一个待选网点地址对应的多个备选网点类型之间,可能有部分存在相同,例如,有部分已训练决策树模型均输出“经营情况较好”的网点类型结果。
其中,在明确特征信息(其形式可以为但不限于特征向量或特征矩阵等,具体包括每个属性对应的特征值)的基础上,确定两个特征信息之间的欧氏距离为本领域常规技术手段,因此,本发明实施例中涉及的各种欧氏距离,其求解计算的过程和原理不再赘述。
本发明提供的网点选址方法和装置,通过基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,能够以实际待选网点地址的信息为依据,分别针对多个已训练决策树模型中的每一个形成对应其所支持输入格式的当前输入特征信息,大幅度提高了模型输入与已训练决策树模型的兼容程度,并因此提高了后续已训练决策树模型的运算准确性和速度,从而大幅度提高了整体网点选址的准确性和速度,而且,还间接导致在训练决策树模型时无需将对应样本中全部属性的信息都用于训练和测试(因为在后续使用模型时会根据模型所支持的输入属性类型而对应形成与该输入属性类型对应的当前输入特征信息,因此无需在训练过程中过度强调模型输入样本的属性),而是可以根据实际需求,针对不同的决策树模型仅抽取部分属性的信息(不同决策树对应的属性部分可不同,也可相同)用于训练和测试即可,在间接提高了训练灵活性的基础上,还间接提高了训练速度并降低了训练成本,从而又进一步间接提高了整体网点选址的速度并降低了整体网点选址的成本。通过基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型,能够凭借决策树模型适合进行分类的优势,快速地得到多个备选网点类型,且不同决策树模型输出的备选网点类型均具有相对较高的准确性,从而大幅提高了整体网点选址的准确性和速度。
通过基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数,能够实现在随机森林的传统投票机制上进行改进,不仅以输出每种备选网点类型的对应决策树模型的数量为确定输出结果(备选网点类型)可靠性的依据,还紧密地结合考虑了输出每种备选网点类型的对应决策树模型的运算准确率,而由于模型的运算准确率也与其输出的可靠程度密切相关,因此能够大幅度提高确定衡量每种备选网点类型的可靠程度的可靠系数的准确性,从而大幅度提高了后续确定每个待选网点地址的网点类型的准确性,进而大幅度提高整体网点选址的准确性,而且,还间接导致在训练决策树模型时无需对已训练但运算准确率过低的决策树进行样本重新选取和重新训练(因为后续使用时不关心单个决策树的准确率是否达标,而是仅以其测试的运算准确率作为后续预测目标网点类型的参数),从而间接大幅度降低了训练模型的耗时并因此大幅度提高了训练模型的速度,且同样间接大幅度降低了取样、训练和测试等过程的资金投入并因此大幅度降低了训练模型的成本,进而又进一步间接提高了整体网点选址的速度并降低了整体网点选址的成本。
通过基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址,能够充分以准确衡量每种备选结果可靠性的可靠系数为依据,准确地选取较优的备选结果作为对应待选网点地址的预测结果即目标网点类型,提高了确定目标网点类型的准确性,并有利于以每个待选网点地址的目标网点类型为依据准确选取较优的待选网点地址作为最终的网点地址,从而大幅度提高了整体网点选址的准确性。
本发明提供的网点选址方法和装置,能够以便于获取和采集的实际待选网点特征信息为依据进行相关选址预测,而大幅度减少了对各种繁琐的咨询调查工作的依赖,因此自然能减少因咨询调查工作而导致的额外时间及资金投入,为提高网点选址速度和降低网点选址成本做出了贡献。并且本发明网点选址的方式可以自动化的形式实现而大幅度减少了对人工分析过程的依赖,从而大幅度提高了整体网点选址的准确性和速度并减少了与人力相关的成本。
综上所述,本发明提供的网点选址方法和装置,能够提高网点选址的准确性和速度,并降低网点选址的成本,从而提高网点选址的效率。
在一个可选的实施方式中,如图2所示,进一步包括如下步骤:
S201:在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,其中,多个所述初始特征信息对应的历史网点类型两两不同。
S202:基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,并基于预设的样本比例,确定多个所述待划分样本中的多个训练样本和测试样本。
S203:使用对应的所述训练样本训练所述未训练决策树模型,得到对应的已训练决策树模型,并使用对应的所述测试样本对所述已训练决策树模型进行测试,得到对应的模型准确率。
示例性的,一个历史网点特征信息对应一个历史网点或历史网点地址,一个初始特征信息对应一个历史网点类型(其中,一个初始特征信息即为多个历史网点特征信息中的某一个,多个历史网点特征信息中的部分历史网点特征信息即对应初始特征信息),一个除所述初始特征信息外的其他历史网点特征信息也对应一个历史网点类型,这样,每个历史网点特征信息到后面均能够对应一个历史网点类型(某些历史网点特征信息对应的历史网点类型可能存在相同的情况,但初始特征信息对应的历史网点类型需要各不相同),一个未训练决策树模型对应多个待划分样本(优选的,每个未训练决策树模型对应的待划分样本,均涵盖已确定用于训练和测试的全部历史网点特征信息(一个待划分样本对应一个历史网点特征信息),只是所取的输入特征属性的集合各不相同)。需要说明的是,对于相关的对应关系,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述初始特征信息的数量,可与网点类型预设可取值的数量一致,例如,网点类型的取值范围包括“经营情况好”、“经营情况较好”、“经营情况中等”、“经营情况较差”和“经营情况差”时,初始特征信息的数量则为5,五个初始特征信息对应的历史网点类型则分别为“经营情况好”、“经营情况较好”、“经营情况中等”、“经营情况较差”和“经营情况差”。其中,初始特征信息的历史网点类型的确定,可由有关工作人员进行研究分析后确定。需要说明的是,对于初始特征信息的数量和性质等,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述样本比例,可以为但不限于7:3(训练样本占比70%,测试样本占比30%)等,例如,若选取用于训练测试模型的历史网点特征信息有300份,则对于每个未训练决策树模型,其对应的待划分样本均有300个,则对于每个未训练决策树模型,均采用210份样本作为训练样本进行训练,并将剩下的90份样本作为测试样本进行测试(不同未训练决策树模型对应的样本的特征属性集合一般不相同,例如,一个未训练决策树模型对应的输入特征属性为A、B、C、D…,则另一个未训练决策树模型对应的输入特征属性可能为B、F、G、H…)。需要说明的是,对于样本比例的具体值,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,使用训练样本训练模型,并使用测试样本测试训练后的模型得到准确率,为本领域常规技术手段,这里不再赘述。
通过上述步骤,能够实现在准备决策树模型时,针对不同的决策树模型仅抽取部分属性的信息(不同决策树对应的属性部分可不同,也可相同)用于训练和测试,在提高了训练灵活性的基础上,还提高了训练速度并降低了训练成本,从而间接提高了整体网点选址的速度并降低了整体网点选址的成本。并且实现了在训练决策树模型时无需对已训练但运算准确率过低的决策树进行样本重新选取和重新训练,从而间接大幅度降低了训练模型的耗时并因此大幅度提高了训练模型的速度,且同样间接大幅度降低了取样、训练和测试等过程的资金投入并因此大幅度降低了训练模型的成本,进而又进一步间接提高了整体网点选址的速度并降低了整体网点选址的成本。上述步骤通过准确快速地提供网点选址过程所需的已训练决策树模型和模型准确率,为网点选址的主要流程做好了充分且优良的准备,有利于促进网点选址过程的顺利进行,并从而有助于提高网点选址的效率。
在一个可选的实施方式中,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
对多个历史网点的初始历史特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述历史网点对应的历史网点特征信息。
示例性的,所述数据清洗,可以为但不限于通过样条插值法和线性回归法等清洗方法对特征信息中的异常数据进行替换或对一些异常数据进行删除。所述数据抽取,可以为但不限于对相关性强的属性变量进行降维操作,例如,若特征信息中存在经纬度和所属小区这两个属性的变量,由于本发明实施例中并不关注所属小区这个属性,且经纬度和所属小区这两个属性的本质是相同的(均表示地理位置特征),相关性强,因此将所属小区这个属性的变量删除(使后续有关属性和元素类型不包括所属小区),以完成降维操作。所述数据标准化处理,可以为但不限于将有关数据转换为各种适当的格式,例如,某个属性的特征值为876,而特征信息中特征值的格式要求为需要归一化处理,则将特征值876进行归一化处理得到0.876。需要说明的是,对于数据清洗、数据抽取和数据标准化处理的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,一个历史网点对应一个初始历史特征信息,一个初始历史特征信息对应一个历史网点特征信息。需要说明的是,对于相关对应关系,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,对于初始历史特征信息的获取和处理,可以通过但不限于对应的大数据平台实现,例如可以通过但不限于Hadoop大数据平台实现。
通过上述步骤,能够对历史网点的初始特征信息进行错误修正和简化,从而使后续步骤进行相关运算和处理的操作更加简洁准确,有效地提高了整体网点选址的效率。
在一个可选的实施方式中,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
从多个历史网点特征信息中选取多个辅助特征信息,并确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离;
基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息。
示例性的,所述从多个历史网点特征信息中选取多个辅助特征信息,可以为但不限于从多个历史网点特征信息中随机选取多个辅助特征信息,其中,辅助特征信息的数量,可与网点类型预设可取值的数量一致,例如,网点类型的取值范围包括“经营情况好”、“经营情况较好”、“经营情况中等”、“经营情况较差”和“经营情况差”时,辅助特征信息的数量则为5。需要说明的是,对于从多个历史网点特征信息中选取多个辅助特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,本发明实施例的欧氏距离(Euclidean Distance),也可称为但不限于欧式距离。
示例性的,所述确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离,可以为但不限于确定每个辅助特征信息与除该辅助特征信息外的其他辅助特征信息和非辅助特征信息的其他历史网点特征信息之间的第一欧氏距离,例如,当前的辅助特征信息为A,其他的辅助特征信息有B和C,非辅助特征信息的其他历史网点特征信息有D、E和F,则第一欧氏距离包括辅助特征信息A与辅助特征信息B之间的欧氏距离、辅助特征信息A与辅助特征信息C之间的欧氏距离、辅助特征信息A与历史网点特征信息D之间的欧氏距离、辅助特征信息A与历史网点特征信息E之间的欧氏距离以及辅助特征信息A与历史网点特征信息F之间的欧氏距离,而对于辅助特征信息B和辅助特征信息C同理;或者,确定每个辅助特征信息与除所有辅助特征信息外的非辅助特征信息的其他历史网点特征信息之间的第一欧氏距离,例如,当前的辅助特征信息为A,其他的辅助特征信息有B和C,非辅助特征信息的其他历史网点特征信息有D、E和F,则第一欧氏距离包括辅助特征信息A与历史网点特征信息D之间的欧氏距离、辅助特征信息A与历史网点特征信息E之间的欧氏距离以及辅助特征信息A与历史网点特征信息F之间的欧氏距离,而对于辅助特征信息B和辅助特征信息C同理。需要说明的是,对于确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息,可以为但不限于将对应第一欧氏距离最小的除所述辅助特征信息外的其他历史网点特征信息(可以包括但不限于除当前辅助特征信息外的其他辅助特征信息以及非辅助特征信息的其他历史网点特征信息,或者仅包括非辅助特征信息的其他历史网点特征信息)作为对应所述辅助特征信息的初始特征信息,例如,当前的辅助特征信息为A,其他的辅助特征信息有B和C,非辅助特征信息的其他历史网点特征信息有D、E和F,而辅助特征信息A和其他历史网点特征信息D之间的第一欧氏距离最小,则确定历史网点特征信息D为对应辅助特征信息A的初始特征信息。其中,一个辅助特征信息对应一个初始特征信息。需要说明的是,对于基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够使确定的初始特征信息不易出现取值较为极端的情况(因为已使用辅助特征信息参与了一次距离运算并基于此选取了特征信息作为初始特征信息,能够使确定的初始特征信息的相关特征值尽量不处于整体特征信息的特征边界值附近,且使选取的初始特征信息也的确为历史网点特征信息而有利于提高后续运算的数据真实性),从而能够减少后续基于初始特征信息确定其他历史网点特征信息对应的历史类型的极端性并因此减少误差,使确定历史类型所依据的作为初始聚类中心的初始特征信息的质量相对较高,提高了后续确定其他历史网点特征信息对应的历史类型的收敛速度、准确性和适应性,进而有利于提高整体网点选址的速度和准确性。
在一个可选的实施方式中,所述基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,包括:
将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息;
确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离,并基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息;
分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类,并将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型;
重复执行聚类迭代的步骤,直到存在小于预设距离阈值的第三欧氏距离,其中所述聚类迭代的步骤,包括:基于所述初始目标聚类,得到对应的中间聚类中心特征信息,并将所述初始目标聚类的聚类类型作为对应的所述中间聚类中心特征信息的中间类型;将所有所述历史网点特征信息作为待分类特征信息;确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离,并基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息;分别基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类,并将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型;将所述中间目标聚类作为初始目标聚类;
将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型。
示例性的,所述将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息,有如下例子:
初始特征信息包括特征信息A、特征信息B和特征信息C,除所述初始特征信息外的其他历史网点特征信息包括特征信息D、特征信息E、特征信息F、特征信息G、特征信息H和特征信息I,则待分类特征信息包括特征信息D、特征信息E、特征信息F、特征信息G、特征信息H和特征信息I,聚类中心特征信息包括特征信息A、特征信息B和特征信息C。
需要说明的是,对于将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离,有如下例子:
存在聚类中心特征信息A、聚类中心特征信息B和聚类中心特征信息C、待分类特征信息D、待分类特征信息E、待分类特征信息F、待分类特征信息G、待分类特征信息H和待分类特征信息I,则第二欧氏距离包括但不限于待分类特征信息D和聚类中心特征信息A之间的欧氏距离、待分类特征信息D和聚类中心特征信息B之间的欧氏距离、待分类特征信息D和聚类中心特征信息C之间的欧氏距离、待分类特征信息E和聚类中心特征信息A之间的欧氏距离、待分类特征信息E和聚类中心特征信息B之间的欧氏距离、待分类特征信息E和聚类中心特征信息C之间的欧氏距离、待分类特征信息F和聚类中心特征信息A之间的欧氏距离、待分类特征信息F和聚类中心特征信息B之间的欧氏距离、待分类特征信息F和聚类中心特征信息C之间的欧氏距离、待分类特征信息G和聚类中心特征信息A之间的欧氏距离、待分类特征信息G和聚类中心特征信息B之间的欧氏距离、待分类特征信息G和聚类中心特征信息C之间的欧氏距离、待分类特征信息H和聚类中心特征信息A之间的欧氏距离、待分类特征信息H和聚类中心特征信息B之间的欧氏距离、待分类特征信息H和聚类中心特征信息C之间的欧氏距离、待分类特征信息I和聚类中心特征信息A之间的欧氏距离、待分类特征信息I和聚类中心特征信息B之间的欧氏距离、待分类特征信息I和聚类中心特征信息C之间的欧氏距离。
需要说明的是,对于确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息,可以为但不限于将对应第二欧氏距离最小的聚类中心特征信息作为对应的待分类特征信息的最近聚类中心特征信息,例如,对于待分类特征信息I,在聚类中心特征信息A、聚类中心特征信息B和聚类中心特征信息C中,聚类中心特征信息A与待分类特征信息I之间的第二欧氏距离最小,则将聚类中心特征信息A作为所述待分类特征信息I对应的最近聚类中心特征信息。需要说明的是,对于基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类,可以为但不限于将每个最近聚类中心特征信息以及所述最近聚类中心特征信息对应的多个待分类特征信息分别进行聚类处理,得到对应所述最近聚类中心特征信息的初始目标聚类,其中,一个最近聚类中心特征信息对应一个初始目标聚类。例如,待分类特征信息D和待分类特征信息E对应的最近聚类中心特征信息为聚类中心特征信息A,待分类特征信息F和待分类特征信息G对应的最近聚类中心特征信息为聚类中心特征信息B,待分类特征信息H和待分类特征信息I对应的最近聚类中心特征信息为聚类中心特征信息C,则将待分类特征信息D、待分类特征信息E和聚类中心特征信息A进行聚类得到一个初始目标聚类甲,将待分类特征信息F、待分类特征信息G和聚类中心特征信息B进行聚类得到又一个初始目标聚类乙,并将待分类特征信息H、待分类特征信息I和聚类中心特征信息C进行聚类得到再一个初始目标聚类丙。需要说明的是,对于分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型,有如下例子:
聚类中心特征信息A对应一个初始目标聚类甲,而聚类中心特征信息A作为一个历史网点特征信息中的初始特征信息,其历史网点类型是已知的且其历史网点类型为“经营情况好”,则将初始目标聚类甲的聚类类型设为“经营情况好”。
需要说明的是,对于将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述距离阈值可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制。
示例性的,所述中间聚类中心特征信息的数量,与初始目标聚类的数量、网点类型可取值的数量、初始特征信息的数量和聚类中心特征信息的数量相同,且不同聚类中心特征信息对应的中间类型也不相同。
示例性的,所述确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离,可以为但不限于确定每个所述待分类特征信息和每个所述中间聚类中心特征信息的第三欧氏距离,例如若存在5个不同的待分类特征信息,且存在3个不同的中间聚类中心特征信息,则第三欧氏距离的数量可有3×5=15个。需要说明的是,对于确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息,可以为但不限于将对应第三欧氏距离最小的所述中间聚类中心特征信息作为对应所述待分类特征信息的最近中间聚类中心特征信息,例如,对于某个待分类特征信息A,在中间聚类中心特征信息甲、中间聚类中心特征信息乙和中间聚类中心特征信息丙中,中间聚类中心特征信息甲与待分类特征信息A的第三欧氏距离最小,则将中间聚类中心特征信息甲作为待分类特征信息A对应的最近中间聚类中心特征信息。需要说明的是,对于基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类,可以为但不限于将每个最近中间聚类中心特征信息对应的多个待分类特征信息分别进行聚类处理,得到中间目标聚类,其中,一个最近中间聚类中心特征信息对应一个中间目标聚类。例如,若存在待分类特征信息D和待分类特征信息E对应一个最近中间聚类中心特征信息A,待分类特征信息F和待分类特征信息G对应一个最近中间聚类中心特征信息B,待分类特征信息H和待分类特征信息I对应一个最近中间聚类中心特征信息C,则将待分类特征信息D和待分类特征信息E进行聚类得到一个中间目标聚类甲,将待分类特征信息F和待分类特征信息G进行聚类得到又一个中间目标聚类乙,并将待分类特征信息H和待分类特征信息I进行聚类得到再一个中间目标聚类丙。需要说明的是,对于基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型,有如下例子:
最近中间聚类中心特征信息A对应一个中间目标聚类甲,而最近中间聚类中心特征信息A的历史网点类型为“经营情况好”,则将中间目标聚类甲的聚类类型设为“经营情况好”。
需要说明的是,对于将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,所述将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,可以为但不限于将重复执行聚类迭代的步骤,直到存在小于预设距离阈值的第三欧氏距离后的多个所述中间目标聚类的聚类类型(一个中间目标聚类对应一个聚类类型)作为所述中间目标聚类包括的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型。例如,当不再执行聚类迭代的步骤后,得到的中间目标聚类有中间目标聚类甲(聚类类型为“经营情况好”)、中间目标聚类乙(聚类类型为“经营情况较好”)、中间目标聚类丙(聚类类型为“经营情况中等”)、中间目标聚类丁(聚类类型为“经营情况较差”)和中间目标聚类戊(聚类类型为“经营情况差”),且中间目标聚类甲对应的除所述初始特征信息外的历史网点特征信息有特征信息A,中间目标聚类乙对应的除所述初始特征信息外的历史网点特征信息有特征信息B和特征信息C,中间目标聚类丙对应的除所述初始特征信息外的历史网点特征信息有特征信息D和特征信息E,中间目标聚类丁对应的除所述初始特征信息外的历史网点特征信息有特征信息F和特征信息G,中间目标聚类戊对应的除所述初始特征信息外的历史网点特征信息有特征信息H,则特征信息A对应的历史网点类型为“经营情况好”,特征信息B和特征信息C对应的历史网点类型为“经营情况较好”,特征信息D和特征信息E对应的历史网点类型为“经营情况中等”,特征信息F和特征信息G对应的历史网点类型为“经营情况较差”,且特征信息H对应的历史网点类型为“经营情况差”。需要说明的是,对于将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够以K-means聚类算法的相关原理为依据,进行聚类迭代最终得到准确稳定、能显著分化表征不同网点类型的多个历史网点特征信息聚类,从而能够实现自动化地确定除初始特征信息外其他历史网点特征信息(及其对应的历史网点)对应的网点类型,这样,能够实现无需以人工方式对很多历史网点特征信息均进行类型标记,而是可以自动确定,从而大幅度提高了整体形成样本的速度和准确性并显著减少了相关人力成本,进而大幅度提高了整体网点选址的速度和准确性并显著减少了相关成本。而且,上述步骤中,并不是在聚类中心完全不发生改变时才停止迭代,而是在存在对应小于阈值的中心距离(也能够表征出聚类较为稳定的特性)时即停止迭代,此时确定的聚类仍然能够满足相关准确性需求,且在此基础上还能够减少迭代的次数从而进一步减少对应时间,实现了在K-means聚类算法的基础上进行改进,进而进一步间接提高了形成样本的速度并因此间接进一步提高了整体网点选址的速度。
在一个可选的实施方式中,所述基于所述初始目标聚类,得到对应的中间聚类中心特征信息,包括:
基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息;
将所述均值特征信息作为所述中间聚类中心特征信息。
示例性的,所述基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息,可以为但不限于将所述初始目标聚类包括的所有待分类特征信息进行叠加得到总和特征信息,然后再将所述总和特征信息除以所述初始目标聚类包括的所有待分类特征信息的数量,得到所述均值特征信息。其中,由于特征信息一般为包括了多个属性的特征数值的向量或矩阵等形式,所以能够参与相关加减乘除的运算。需要说明的是,对于基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够使中间聚类中心特征信息符合初始目标聚类的整体平均情况,从而使中间聚类中心特征信息的确为对应初始目标聚类的中心或重心,提高了得到中
间聚类中心特征信息的准确性,从而提高了有关迭代的准确性,进而提高了基于相关5迭代的步骤确定历史网点特征信息对应的历史网点类型的准确性并因此提高了整体网点选址的准确性。
在一个可选的实施方式中,所述基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,包括:0基于所述历史网点特征信息中与所述输入特征属性对应的特征参数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本;
基于所述输入样本和对应的所述输出样本,形成对应的所述待划分样本。
示例性的,所述基于所述历史网点特征信息中与所述输入特征属性对应的特征参5数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本,可以为但不限于基于所述历史网点特征信息中与所述输入特征属性相同的多个特征属性的特征参数进行相应整合,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将所述历史网点特征信息对
应的历史网点类型作为对应所述输入样本的输出样本,其中,一个历史网点特征信息0和一个未训练决策树模型共同对应一个输入样本。例如,某个历史网点特征信息有30个特征属性,每个特征属性对应有一个特征参数(例如,平均房价属性对应一个具体的平均房价特征值等),而某个未训练决策树模型支持以上述30个特征属性中的某15个特征属性的参数为输入进行运算处理,则将历史网点特征信息中该15个特征属
性对应的特征参数进行整合得到一个对应该未训练决策树模型的输入样本,并将该历5史网点特征信息的历史网点类型作为对应的输出样本。需要说明的是,对于基于所述历史网点特征信息中与所述输入特征属性对应的特征参数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,每个未训练决策树模型对应的多个输入特征属性,可以为但不限于从历史网点特征信息对应的所有特征属性中随机选取部分或根据未训练决策树模型的性质而得到,且不同未训练决策树模型对应的输入特征属性集合之间一般不同。例如,若历史网点特征信息具有30个特征属性,则对于某个未训练决策树模型A,则可以从历史网点特征信息具有的30个特征属性随机选取15个作为未训练决策树模型A的多个输入特征属性。需要说明的是,对于输入特征属性的具体来源方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,一个待划分样本对应一个输入样本和一个与该输入样本对应的输出样本。具体的,例如,有300个用于训练和测试的历史网点特征信息,则对于每个未训练决策树模型,均有300个待划分样本(对应300个输入样本和300个输出样本)。再例如,未训练决策树模型A对应有300个待划分样本,未训练决策树模型B对应有300个待划分样本,但是,未训练决策树模型A对应有300个待划分样本的特征属性集合,和未训练决策树模型B对应有300个待划分样本的特征属性集合很可能不同。需要说明的是,对于有关对应关系,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够使对应的待划分样本在较全面地覆盖了多个表征实际网点有关特性的历史网点特征信息的基础上,还使待划分样本在属性格式上准确兼容对应的未训练决策树模型,从而提高了后续模型训练和测试的速度及准确性,进而提高了整体网点选址的速度和准确性。
在一个可选的实施方式中,进一步包括:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
对多个待选网点地址对应的初始当前特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述待选网点地址对应的当前特征信息。
示例性的,所述数据清洗,可以为但不限于通过样条插值法和线性回归法等清洗方法对特征信息中的异常数据进行替换或对一些异常数据进行删除。所述数据抽取,可以为但不限于对相关性强的属性变量进行降维操作,例如,若特征信息中存在经纬度和所属小区这两个属性的变量,由于本发明实施例中并不关注所属小区这个属性,且经纬度和所属小区这两个属性的本质是相同的(均表示地理位置特征),相关性强,因此将所属小区这个属性的变量删除(使后续有关属性和元素类型不包括所属小区),以完成降维操作。所述数据标准化处理,可以为但不限于将有关数据转换为各种适当的格式,例如,某个属性的特征值为876,而特征信息中特征值的格式要求为需要归一化处理,则将特征值876进行归一化处理得到0.876。需要说明的是,对于数据清洗、数据抽取和数据标准化处理的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,一个待选网点地址对应一个初始当前特征信息,一个初始当前特征信息对应一个当前特征信息。需要说明的是,对于相关对应关系,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,对于初始当前特征信息的获取和处理,可以通过但不限于对应的大数据平台实现,例如可以通过但不限于Hadoop大数据平台实现。
通过上述步骤,能够对待选网点地址的初始当前特征信息进行错误修正和简化,从而使后续步骤进行相关运算和处理的操作更加简洁准确,有效地提高了整体网点选址的效率。
在一个可选的实施方式中,如图3所示,所述基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,包括如下步骤:
S301:基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息。
示例性的,所述基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息,可以为但不限于基于所述当前特征信息中与所述输入特征属性相同的多个特征属性的特征参数进行整合,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息,其中,一个当前特征信息和一个已训练决策树模型共同对应一个当前输入特征信息。例如,某个当前特征信息有30个特征属性,每个特征属性对应有一个特征参数,而某个已训练决策树模型支持以上述30个特征属性中的某15个特征属性的参数为输入进行运算处理,则将该当前特征信息中该15个特征属性对应的特征参数进行整合得到一个对应该已训练决策树模型的当前输入特征信息,其中,一个当前特征信息的对应不同已训练决策树模型的当前输入特征信息之间的属性集合可能不同,例如,某个当前特征信息对应某个已训练决策树模型的当前输入特征信息为(A,B,C,D,…,O),则该当前特征信息对应另一个已训练决策树模型的当前输入特征信息则为(B,C,H,G,…,P)。需要说明的是,对于基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够使输入到对应模型的当前输入特征信息更与该模型支持的输入格式兼容,提高已训练模型的运算速度和运算准确性,从而使输出待选网点地址的速度和准确性更高,并进而提高了整体网点选址的速度和准确性。
在一个可选的实施方式中,如图4所示,所述基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数,包括如下步骤:
S401:将所述备选网点类型对应的多个已训练决策树模型的模型准确率进行叠加,得到所述备选网点类型对应的可靠系数。
示例性的,由于对于一个待选网点地址,部分不同的已训练决策树模型可能输出相同的备选网点类型,所以某个备选网点是可以对应多个已训练决策树模型的,例如,对于一个待选网点地址,已训练决策树模型甲和已训练决策树模型乙输出的备选网点类型均为“经营情况好”,而已训练决策树模型丙和已训练决策树模型丁输出的备选网点类型均为“经营情况较好”,而已训练决策树模型戊输出的备选网点类型为“经营情况中等”,则备选网点类型“经营情况好”对应的已训练决策树模型有已训练决策树模型甲和已训练决策树模型乙,备选网点类型“经营情况较好”对应的已训练决策树模型有已训练决策树模型丙和已训练决策树模型丁,备选网点类型“经营情况中等”对应的已训练决策树模型则有已训练决策树模型戊。需要说明的是,对于备选网点类型与已训练决策树模型的具体对应关系和对应由来,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
示例性的,一种备选网点类型对应一个可靠系数,所述步骤S401有如下例子:
备选网点类型“经营情况好”对应的已训练决策树模型有已训练决策树模型甲和已训练决策树模型乙,且已训练决策树模型甲的模型准确率为0.7,而已训练决策树模型乙的模型准确率为0.65,则备选网点类型“经营情况好”对应的可靠系数则为0.7+0.65=1.35。
需要说明的是,对于步骤S401的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够使可靠系数综合表征了输出对应分类的决策树的投票数量以及该决策树的准确程度,因此使该可靠系数能够与待选网点地址的确符合对应备选网点的可能性程度密切对应,提高了得到可靠系数的准确性,从而提高了确定待选网点地址的目标网点类型的准确性,进而提高了整体网点选址的准确性。
在一个可选的实施方式中,如图5所示,所述基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,包括如下步骤:
S501:将最大的所述可靠系数对应的所述备选网点类型确定为所述目标网点类型。
示例性的,所述步骤S501,有如下例子:
对于某个待选网点地址,其对应备选网点类型“经营情况好”的可靠系数为81.25,对应备选网点类型“经营情况较好”的可靠系数为50.15,对应备选网点类型“经营情况中等”的可靠系数为60.75,对应备选网点类型“经营情况较差”的可靠系数为30.85,对应备选网点类型“经营情况差”的可靠系数为15.50,则将最大的可靠系数81.25对应的所述备选网点类型“经营情况好”确定为所述待选网点地址的目标网点类型。
需要说明的是,对于步骤S501的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
通过上述步骤,能够将多个备选网点类型中最有可能与待选网点地址实际情况相符的类型确定为目标网点类型,从而提高了确定目标网点类型的准确性,进而提高了整体网点选址的准确性。
基于相同原理,本发明实施例公开了一种网点选址装置600,如图6所示,该网点选址装置600包括:
类型预测模块601,用于基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;
可靠性确定模块602,用于基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;
网点选址模块603,用于基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
在一个可选的实施方式中,进一步包括准备模块,用于:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,其中,多个所述初始特征信息对应的历史网点类型两两不同;
基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,并基于预设的样本比例,确定多个所述待划分样本中的多个训练样本和测试样本;
使用对应的所述训练样本训练所述未训练决策树模型,得到对应的已训练决策树模型,并使用对应的所述测试样本对所述已训练决策树模型进行测试,得到对应的模型准确率。
在一个可选的实施方式中,进一步包括历史数据预处理模块,用于:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
对多个历史网点的初始历史特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述历史网点对应的历史网点特征信息。
在一个可选的实施方式中,进一步包括初始特征信息确定模块,用于:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
从多个历史网点特征信息中选取多个辅助特征信息,并确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离;
基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息。
在一个可选的实施方式中,所述准备模块,用于:
将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息;
确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离,并基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息;
分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类,并将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型;
重复执行聚类迭代的步骤,直到存在小于预设距离阈值的第三欧氏距离,其中所述聚类迭代的步骤,包括:基于所述初始目标聚类,得到对应的中间聚类中心特征信息,并将所述初始目标聚类的聚类类型作为对应的所述中间聚类中心特征信息的中间类型;将所有所述历史网点特征信息作为待分类特征信息;确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离,并基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息;分别基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类,并将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型;将所述中间目标聚类作为初始目标聚类;
将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型。
在一个可选的实施方式中,所述准备模块,用于:
基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息;
将所述均值特征信息作为所述中间聚类中心特征信息。
在一个可选的实施方式中,所述准备模块,用于:
基于所述历史网点特征信息中与所述输入特征属性对应的特征参数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本;
基于所述输入样本和对应的所述输出样本,形成对应的所述待划分样本。
在一个可选的实施方式中,进一步包括当前数据预处理模块,用于:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
对多个待选网点地址对应的初始当前特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述待选网点地址对应的当前特征信息。
在一个可选的实施方式中,所述类型预测模块601,用于:
基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息。
在一个可选的实施方式中,所述可靠性确定模块602,用于:
将所述备选网点类型对应的多个已训练决策树模型的模型准确率进行叠加,得到所述备选网点类型对应的可靠系数。
在一个可选的实施方式中,所述网点选址模块603,用于:
将最大的所述可靠系数对应的所述备选网点类型确定为所述目标网点类型。
由于该网点选址装置600解决问题的原理与以上方法类似,因此本网点选址装置600的实施可以参见以上的方法的实施,在此不再赘述。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
下面参考图7,其示出了适于用来实现本申请实施例的计算机设备700的结构示意图。
如图7所示,计算机设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的工作和处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。CPU701、ROM702、以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装如存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一5个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/
或方框图一个方框或多个方框中指定的功能的步骤。
0还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由记录“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
5本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。
因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
0本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
5本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种网点选址方法,其特征在于,包括:
基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;
基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;
基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,其中,多个所述初始特征信息对应的历史网点类型两两不同;
基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,并基于预设的样本比例,确定多个所述待划分样本中的多个训练样本和测试样本;
使用对应的所述训练样本训练所述未训练决策树模型,得到对应的已训练决策树模型,并使用对应的所述测试样本对所述已训练决策树模型进行测试,得到对应的模型准确率。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
对多个历史网点的初始历史特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述历史网点对应的历史网点特征信息。
4.根据权利要求2所述的方法,其特征在于,进一步包括:
在基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型之前,
从多个历史网点特征信息中选取多个辅助特征信息,并确定每个所述辅助特征信息和多个除所述辅助特征信息外的其他历史网点特征信息之间的第一欧氏距离;
基于所述第一欧氏距离,确定与对应辅助特征信息最接近的除所述辅助特征信息外的其他历史网点特征信息作为对应所述辅助特征信息的初始特征信息。
5.根据权利要求2所述的方法,其特征在于,所述基于多个历史网点特征信息中预设的多个初始特征信息以及所述初始特征信息对应的历史网点类型,确定除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型,包括:
将所述初始特征信息作为聚类中心特征信息,并将除所述初始特征信息外的其他历史网点特征信息作为待分类特征信息;
确定每个所述待分类特征信息和每个所述聚类中心特征信息的第二欧氏距离,并基于所述第二欧氏距离,确定与对应待分类特征信息最接近的聚类中心特征信息为对应的最近聚类中心特征信息;
分别基于对应最近聚类中心特征信息相同的多个所述待分类特征信息,得到对应的多个初始目标聚类,并将对应的最近聚类中心特征信息的历史网点类型作为所述初始目标聚类对应的聚类类型;
重复执行聚类迭代的步骤,直到存在小于预设距离阈值的第三欧氏距离,其中所述聚类迭代的步骤,包括:基于所述初始目标聚类,得到对应的中间聚类中心特征信息,并将所述初始目标聚类的聚类类型作为对应的所述中间聚类中心特征信息的中间类型;将所有所述历史网点特征信息作为待分类特征信息;确定每个所述待分类特征信息和所述中间聚类中心特征信息的第三欧氏距离,并基于所述第三欧氏距离,确定与对应待分类特征信息最接近的中间聚类中心特征信息为对应的最近中间聚类中心特征信息;分别基于对应最近中间聚类中心特征信息相同的多个所述待分类特征信息,得到中间目标聚类,并将对应的最近中间聚类中心特征信息的中间类型作为所述中间目标聚类的聚类类型;将所述中间目标聚类作为初始目标聚类;
将多个所述中间目标聚类的聚类类型作为所述中间目标聚类对应的除所述初始特征信息外的其他历史网点特征信息对应的历史网点类型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述初始目标聚类,得到对应的中间聚类中心特征信息,包括:
基于所述初始目标聚类包括的所有待分类特征信息,得到所述初始目标聚类对应的均值特征信息;
将所述均值特征信息作为所述中间聚类中心特征信息。
7.根据权利要求2所述的方法,其特征在于,所述基于所述历史网点特征信息、对应的历史网点类型和与预设的多个未训练决策树模型对应预设的多个输入特征属性,得到对应所述未训练决策树模型的多个待划分样本,包括:
基于所述历史网点特征信息中与所述输入特征属性对应的特征参数,形成所述历史网点特征信息对应所述未训练决策树模型的输入样本,并将对应的所述历史网点类型作为对应的输出样本;
基于所述输入样本和对应的所述输出样本,形成对应的所述待划分样本。
8.根据权利要求1所述的方法,其特征在于,进一步包括:
在基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息之前,
对多个待选网点地址对应的初始当前特征信息进行数据清洗、数据抽取和数据标准化处理,得到所述待选网点地址对应的当前特征信息。
9.根据权利要求1所述的方法,其特征在于,所述基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,包括:
基于所述当前特征信息中与所述输入特征属性对应的特征参数,形成所述当前特征信息对应所述已训练决策树模型的当前输入特征信息。
10.根据权利要求1所述的方法,其特征在于,所述基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数,包括:
将所述备选网点类型对应的多个已训练决策树模型的模型准确率进行叠加,得到所述备选网点类型对应的可靠系数。
11.根据权利要求1所述的方法,其特征在于,所述基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,包括:
将最大的所述可靠系数对应的所述备选网点类型确定为所述目标网点类型。
12.一种网点选址装置,其特征在于,包括:
类型预测模块,用于基于多个待选网点地址对应的当前特征信息和多个已训练决策树模型对应的输入特征属性,得到对应所述输入特征属性的多个当前输入特征信息,并基于所述当前输入特征信息和对应的已训练决策树模型,得到多个备选网点类型;
可靠性确定模块,用于基于所述备选网点类型对应的已训练决策树模型的模型准确率,得到所述备选网点类型对应的可靠系数;
网点选址模块,用于基于所述可靠系数,从所述备选网点类型中确定所述待选网点地址对应的目标网点类型,并基于所述目标网点类型,从多个待选网点地址中确定最终网点地址。
13.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-11中任一项所述方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024931.4A CN115965410A (zh) | 2023-01-09 | 2023-01-09 | 网点选址方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024931.4A CN115965410A (zh) | 2023-01-09 | 2023-01-09 | 网点选址方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965410A true CN115965410A (zh) | 2023-04-14 |
Family
ID=87361428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310024931.4A Pending CN115965410A (zh) | 2023-01-09 | 2023-01-09 | 网点选址方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965410A (zh) |
-
2023
- 2023-01-09 CN CN202310024931.4A patent/CN115965410A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10606862B2 (en) | Method and apparatus for data processing in data modeling | |
CN111951097A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN112287018A (zh) | 一种台风灾害下10kV杆塔受损风险评估方法及系统 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN111784084A (zh) | 基于梯度提升决策树的出行生成预测方法、系统及装置 | |
CN116611546B (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
CN103957116A (zh) | 一种云故障数据的决策方法及系统 | |
CN111178633A (zh) | 基于随机森林算法预测景区客流量的方法和装置 | |
CN107908807B (zh) | 一种基于贝叶斯理论的小子样可靠性评定方法 | |
AU2020101462A4 (en) | Method and device for predicting and evaluating regional eco-quality annual harvest | |
CN113095680A (zh) | 电力大数据模型的评价指标体系与构建方法 | |
CN115391746B (zh) | 针对气象要素数据的插值方法、装置、电子设备及介质 | |
CN109886288B (zh) | 一种用于电力变压器的状态评价方法及装置 | |
CN116561569A (zh) | 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法 | |
CN115796665A (zh) | 一种绿色能源发电项目多指标碳效分级评估方法及装置 | |
CN113890833B (zh) | 网络覆盖预测方法、装置、设备及存储介质 | |
CN115965410A (zh) | 网点选址方法和装置 | |
CN110751335B (zh) | 一种区域生态质量年景预测评价方法及装置 | |
CN114579647A (zh) | 一种面向多源异构湿地生态监测数据的融合模型 | |
CN113988670A (zh) | 综合性企业信用风险预警方法及系统 | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 | |
CN114004491A (zh) | 一种零售风险暴露的分池方法、装置、计算机设备及介质 | |
CN117081947A (zh) | 识别不满意用户的方法、装置、处理设备及存储介质 | |
CN116702955A (zh) | 一种基于电力大数据挖掘算法的电路负荷预测方法 | |
CN118016180A (zh) | 基于arima-lstm混合模型对大气甲烷的时间序列预测分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |