CN116541474B - 对象获取方法、装置、电子设备及存储介质 - Google Patents
对象获取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116541474B CN116541474B CN202310814825.6A CN202310814825A CN116541474B CN 116541474 B CN116541474 B CN 116541474B CN 202310814825 A CN202310814825 A CN 202310814825A CN 116541474 B CN116541474 B CN 116541474B
- Authority
- CN
- China
- Prior art keywords
- address
- lbs
- text
- clustering
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例提供了一种对象获取方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:获取预设区域内的基础对象及各基础对象的位置信息,其中预设区域包括产业园区,位置信息包括LBS地址和文本地址;判断LBS地址是否存在缺失;若否,则基于LBS地址对各基础对象进行初步聚类,得到多个初始样本簇;对各初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;若是,则基于文本地址对各基础对象进行文本聚类,得到多个文本样本簇;将优化样本簇和文本样本簇整合为结果样本簇,获取结果样本簇中的目标对象。本申请提升了地址聚类整体效果,对于工业园区与高新技术园区的目标对象识别更加准确。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种对象获取方法、装置、电子设备及存储介质。
背景技术
在金融科技领域,企业常以产业园区、高新技术园区的形式发展。这造成了企业在地理位置上具有一定的密集性。若是能按照园区的规模每次批量地获取需要金融服务的对象,对于银行等金融类型的企业,可以较好地提升工作效率和服务质量。
现有的一种服务对象获取方法是,通过LBS(Location Based Services,基于位置的服务),利用各类型的定位技术来获取定位设备当前的所在位置以获取目标对象,再通过移动互联网向目标对象提供信息资源和基础服务。在LBS的基础上,因为产业园区、高新技术园区的密集性,还可以加入DBSCAN算法进行聚类,就可以实现批量获取服务对象的目的。然而,LBS获取到的地址因为定位难以获取或定位漂移等原因,会存在一定误差,而DBSCAN算法识别误差的能力有限,因此最终获取的目标对象准确性较低。
发明内容
为了解决上述技术问题,本申请实施例提供了一种对象获取方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种对象获取方法,所述方法包括:
获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断所述LBS地址是否存在缺失;
若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象。
在一实施方式中,所述判断所述LBS地址是否存在缺失,包括:
判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;
若是,则确定所述LBS地址不存在缺失;
若否,则确定所述LBS地址存在缺失。
在一实施方式中,所述通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇,包括:
根据预设密度函数,计算各所述基础对象的邻域密度;
将邻域密度小于预设密度阈值的基础对象确定为核心点;
获取所述核心点的预设统计范围内的基础对象的个数;
若所述基础对象的个数大于或等于核心阈值,则将所述核心点和所述核心点的预设统计范围内的基础对象确定为一个优化样本簇;
遍历所述初始样本簇中的全部基础对象,得到多个优化样本簇。
在一实施方式中,所述通过DBSCAN算法基于所述文本地址对各所述基础对象进行文本聚类,包括:
对所述文本地址进行标准化,得到标准文本地址;
基于所述标准文本地址对各所述基础对象进行文本聚类。
在一实施方式中,所述获取所述结果样本簇中的目标对象,包括:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
在一实施方式中,所述方法还包括:
构造分层模型,基于所述分层模型对所述目标对象进行分层,得到多个不同层级的差异服务对象,各所述差异服务对象对应不同的差异服务策略。
第二方面,本申请实施例提供了一种对象获取装置,所述装置包括:
第一获取模块,用于获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断模块,用于判断所述LBS地址是否存在缺失;
第一聚类模块,用于若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
第二聚类模块,用于通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
第三聚类模块,用于若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
整合模块,用于将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象。
在一实施方式中,所述整合模块还用于:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的对象获取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的对象获取方法。
上述本申请提供的对象获取方法,根据LBS地址和文本地址进行地址聚类,通过KMEANS算法和DBSCAN算法结合,提高了离群点识别同时也适用于LBS地址缺失,偏移等情况;提升地址聚类整体效果,对于后续工业园区与高新技术园区的目标对象识别更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的对象获取方法的流程示意图之一;
图2示出了本申请实施例提供的对象获取方法的流程示意图之二;
图3示出了本申请实施例提供的对象获取装置的结构示意图之一;
图4示出了本申请实施例提供的对象获取装置的结构示意图之二;
图5示出了本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的各实施例中的特征可以相互结合。
实施例1
现有的银行人工确定潜在用户的方式,获客成本高,获客难,且不够精准,而且针对不同类型的企业及不同企业发展的生命周期,缺乏个性化、差异化的金融服务方案及营销策略。
为拓宽获客渠道,挖掘更多潜在的目标对象,具体地,请参考图1,本实施例提供了一种对象获取方法。
步骤S110,获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
基于位置的服务(Location Based Services,LBS),是利用各类型的定位技术来获取定位设备当前的所在位置,通过移动互联网向定位设备提供信息资源和基础服务。然而在实际应用中,LBS地址易存在地址缺失或偏移的情况,为了避免LBS地址不准确造成的后续难以处理等问题,本实施例还引入了文本地址,用于当LBS地址无法使用时,也能够进行后续的聚类等操作。
基础对象可以为潜在的目标对象,但是需要对其进行进一步的筛选,以实现更精准地进行推荐、营销等策略。
步骤S120,判断所述LBS地址是否存在缺失;
在一实施方式中,所述判断所述LBS地址是否存在缺失,包括:判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;若是,则确定所述LBS地址不存在缺失;若否,则确定所述LBS地址存在缺失。
LBS(Location Based Service)地址通常由省份、城市、区县、街道和门牌号等几个层级组成。实际上,也可以基于更多维度判断LBS地址是否完整,示例性地,可以从以下几个维度判断一个LBS地址是否完整:
第一,地址包含省份、城市、区县、街道和门牌号等所有层级;第二,每个层级的信息都是准确并且能够唯一确定这个地址,例如,省份和城市信息对应唯一的行政区划编码;第三,地址信息是否符合常规规范,例如,各层级信息是否按照固定的顺序排列,不同层级信息之间是否使用规定的分隔符等;第四,地址的信息是否完备。例如,门牌号是否准确、存在,是否缺失了楼层、单元等重要信息。
如果以上条件都满足,那么这个LBS地址就可以判定为完整。反之,如果有一项或多项信息缺失或者不准确,那么此LBS地址就不完整。
步骤S130,若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
具体地,通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类的步骤可以包括:
选取K个初始中心点,可以根据实际数据进行选择。通常可以随机选取或根据一些预先设定的规则选取。然后遍历数据集,计算每个数据点到K个中心点的距离,将每个数据点划分到距离最近的中心点所在的簇。此处的数据集就是全部LBS地址完整的基础对象的集合。计算每个簇中数据点的均值,将均值作为新的中心点。
多次重复上述寻找中心点的步骤,直到中心点不再变化或达到最大迭代次数为止,可以视为本次KMEANS聚类完成。
因为是基于LBS地址进行聚类,可以将LBS地址转化为向量形式,比如可以将每个地址转化为经度、纬度、海拔等特征的向量表示,再利用KMEANS算法进行聚类。
由于LBS地址数据通常是由多个数据源汇聚而来,因此在进行聚类之前还需要对数据进行清洗和去重。此外,在聚类时,需要对向量进行标准化或正则化,以避免各个特征对聚类结果的影响不均衡。
步骤S140,通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
具体的,请参见图2,在一实施方式中,所述通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇,包括:
步骤S141,根据预设密度函数,计算各所述基础对象的邻域密度;
步骤S142,将邻域密度小于预设密度阈值的基础对象确定为核心点;
步骤S143,获取所述核心点的预设统计范围内的基础对象的个数;
步骤S144,若所述基础对象的个数大于或等于核心阈值,则将所述核心点和所述核心点的预设统计范围内的基础对象确定为一个优化样本簇;
步骤S145,遍历所述初始样本簇中的全部基础对象,得到多个优化样本簇。
步骤S141-S145是对DBSCAN算法的描述,DBSCAN算法通过距离定义出一个密度函数,计算出每个样本附近的密度,从而根据每个样本附近的密度值来找出那些样本相对比较集中的区域,这些区域就是我们要找的簇。
DBSCAN算法首先需要确定两个参数,min_samples和 eps ,这两个参数表示数据的稠密性。当min_samples增加 或者 eps 减小的时候,意味着一个簇分类有更大的密度要求。若样本在数据集中存在eps距离内有至少min_samples,则该样本可以成为核样本。也用来定义边缘样本。核样本是向量空间的高密度区域。通过找到一个核样本,找到其附近的核样本,再找到附近核样本的附近的核样本递归地建立由核样本组成的簇。
若是只使用DBSCAN算法进行聚类。那么对于某些LBS地址定位偏移缺失的情况,无法进行较好地聚类。因此本实施例采用了先使用KMEANS聚类再使用DBSCAN算法进行聚类的方式。
KMEANS算法起到了将LBS地址进行初步的简单聚类的作用,按照样本之间的距离大小,将样本集划分为K个簇。同时为每个LBS地址打上类别标签。此处类别标签指簇的标签,例如分成K个簇,那么对样本来说就有K种标签,K0,K1…Kk,再后续使用DBSCAN进行划分时可以进行对比,从而方便找出哪些为异常点。
其次,对KMEANS算法得到的初始样本簇使用DBSCAN算法进行划分,因为DBSCAN算法对于异常点并不敏感,如果仅使用DBSCAN算法,会导致离群点都被划分为一个簇,对LBS有误差的点不友好,因此需要先使用Kmeans算法将其进行范围划分,再对范围内点进行聚类。对于不在DBSCAN簇内但是在KEMANS簇内的点,即,不属于优化样本簇但属于初始样本簇的点,判断为异常点。
步骤S150,若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
当一个LBS地址缺失某些信息,只有详细文本地址时,可以将这些文本地址进行聚类。可以使用DBSCAN算法对文本地址进行聚类。聚类时,将LBS地址对应的文本地址按照街道统计,将同一街道的文本地址聚合在一起。
在聚类完成后,需要计算文本地址之间的相似度。如果相似度大于阈值,则将这些文本地址划分为同一簇,表示这些地址是同一位置的可能性较大;如果相似度小于阈值,则将这些地址划分为异常点,表示这些地址与其他地址的相似度较小,可能不属于同一位置。例如:某一基础对象LBS地址缺失,仅存在XX街道XX路XX大厦格式的文本地址,那么就可以对地址进行标准化后,进行文本聚类,将DBSCAN簇内的LBS地址对应的文本地址按照街道进行统计,同时计算与文本地址聚类后的结果相似度,若相似度大于阈值,则将文本地址划分为同簇,反之,划分为异常点。
本实施方式可以帮助判断一些LBS地址缺失信息的情况,提高地址的精确度和准确性。
此外,在进行聚类之前还需要对所述文本地址进行标准化。在一实施方式中,所述通过DBSCAN算法基于所述文本地址对各所述基础对象进行文本聚类,包括:对所述文本地址进行标准化,得到标准文本地址;基于所述标准文本地址对各所述基础对象进行文本聚类。
步骤S160,将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象。
经过对LBS地址和对文本地址的聚类,最终得到的结果样本簇是一个较完整的聚集结果。可以对该聚集结果进行实体抽取,具体地,在一实施方式中,所述获取所述结果样本簇中的目标对象,包括:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;将所述目标实体确定为所述目标对象。
具体地,可以采用自然语音识别技术中的实体抽取算法:首先对聚合结果进行分词和词性标注,以便进行实体抽取;然后可以使用基于规则的实体抽取方法,定义一些规则来识别目标实体。比如可以定义规则来识别产业园、高新技术园等实体。
另外,还可以使用基于词典和模型的实体抽取方法。比如可以使用已有的人名、地名、组织机构名称等实体词典进行实体抽取,也可以使用机器学习模型来训练和预测目标实体。
这样,就可以提取基础对象对应的多维地址中产业园区或高新技术园区,从点到线、从线到面、从面到体挖掘更多目标对象,再通过移动互联网向目标对象提供信息资源和基础服务。
在一实施方式中,所述方法还包括:
构造分层模型,基于所述分层模型对所述目标对象进行分层,得到多个不同层级的差异服务对象,各所述差异服务对象对应不同的差异服务策略。
分层是依据目标对象是否在聚集区域内,聚集区域是否在工业园区和高新园区内、是否园区内专精特新企业等指标进行分层。针对不同层级制定不同营销服务策略。据此,可以建立差异化的营销覆盖模式,从而保证业务的高效性和经济性,提升用户体验的同时,增强用户粘性。
本实施例的一实际应用意义在于:制定个性化、差异化金融服务策略,提升用户体验及企业效益,本实施方式能够找到相关联产业园区,对产业园区进行客群定位进行地址扩散,从点到线、从线到面、从面到体挖掘更多有融资需求的用户,且通过用户分层实现精准、差异化营销策略,降低获客成本,同时提升用户体验。
综上,本实施例提供的对象获取方法,根据LBS地址和文本地址进行地址聚类,通过KMEANS算法和DBSCAN算法结合,提高了离群点识别同时也适用于LBS地址缺失,偏移等情况;提升地址聚类整体效果,对于后续工业园区与高新技术园区的目标对象识别更加准确。
实施例2
本实施例还提供了一种对象获取装置300,请参见图3,所述装置包括:
第一获取模块310,用于获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断模块320,用于判断所述LBS地址是否存在缺失;
第一聚类模块330,用于若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
第二聚类模块340,用于通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
第三聚类模块350,用于若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
整合模块360,用于将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象。
在一实施方式中,所述判断模块320,还用于:
判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;
若是,则确定所述LBS地址不存在缺失;
若否,则确定所述LBS地址存在缺失。
在一实施方式中,所述第二聚类模块340,还用于:
根据预设密度函数,计算各所述基础对象的邻域密度;
将邻域密度小于预设密度阈值的基础对象确定为核心点;
获取所述核心点的预设统计范围内的基础对象的个数;
若所述基础对象的个数大于或等于核心阈值,则将所述核心点和所述核心点的预设统计范围内的基础对象确定为一个优化样本簇;
遍历所述初始样本簇中的全部基础对象,得到多个优化样本簇。
在一实施方式中,所述第三聚类模块350,还用于:
对所述文本地址进行标准化,得到标准文本地址;
基于所述标准文本地址对各所述基础对象进行文本聚类。
在一实施方式中,所述整合模块360,还用于:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
请参见图4,在一实施方式中,所述对象获取装置300还包括分层模块470,用于:
构造分层模型,基于所述分层模型对所述目标对象进行分层,得到多个不同层级的差异服务对象,各所述差异服务对象对应不同的差异服务策略。
本实施例提供的对象获取装置400可以实现实施例1所提供的对象获取方法,为避免重复,在此不再赘述。
本实施例提供的对象获取装置,根据LBS地址和文本地址进行地址聚类,通过KMEANS算法和DBSCAN算法结合,提高了离群点识别同时也适用于LBS地址缺失,偏移等情况;提升地址聚类整体效果,对于后续工业园区与高新技术园区的目标对象识别更加准确。
实施例3
本实施例也提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的对象获取方法。
具体的,参见图5,所述电子设备500包括:收发机501、总线接口及处理器502,所述处理器502,用于:获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断所述LBS地址是否存在缺失;
若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象。
在一实施方式中,所述处理器502还用于:判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;
若是,则确定所述LBS地址不存在缺失;
若否,则确定所述LBS地址存在缺失。
在一实施方式中,所述处理器502还用于:根据预设密度函数,计算各所述基础对象的邻域密度;
将邻域密度小于预设密度阈值的基础对象确定为核心点;
获取所述核心点的预设统计范围内的基础对象的个数;
若所述基础对象的个数大于或等于核心阈值,则将所述核心点和所述核心点的预设统计范围内的基础对象确定为一个优化样本簇;
遍历所述初始样本簇中的全部基础对象,得到多个优化样本簇。
在一实施方式中,所述处理器502还用于:对所述文本地址进行标准化,得到标准文本地址;
基于所述标准文本地址对各所述基础对象进行文本聚类。
在一实施方式中,所述处理器502还用于:通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
在一实施方式中,所述处理器502还用于:构造分层模型,基于所述分层模型对所述目标对象进行分层,得到多个不同层级的差异服务对象,各所述差异服务对象对应不同的差异服务策略。
在本发明实施例中,电子设备500还包括:存储器503。在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器502代表的一个或多个处理器和存储器503代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机501可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线架构和通常的处理,存储器503可以存储处理器502在执行操作时所使用的数据。
本实施例提供的电子设备可以实现实施例1所提供的对象获取方法,为避免重复,在此不再赘述。
本实施例提供的电子设备,根据LBS地址和文本地址进行地址聚类,通过KMEANS算法和DBSCAN算法结合,提高了离群点识别同时也适用于LBS地址缺失,偏移等情况;提升地址聚类整体效果,对于后续工业园区与高新技术园区的目标对象识别更加准确。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的对象获取方法。
在本实施例中,计算机可读存储介质可以为易失性存储介质,也可以为非易失性存储介质,可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实现实施例1所提供的对象获取方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和保护范围的情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (8)
1.一种对象获取方法,其特征在于,所述方法包括:
获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断所述LBS地址是否存在缺失;
若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象;
所述判断所述LBS地址是否存在缺失,包括:
判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;
若是,则确定所述LBS地址不存在缺失;
若否,则确定所述LBS地址存在缺失;
所述获取所述结果样本簇中的目标对象,包括:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
2.根据权利要求1所述的对象获取方法,其特征在于,所述通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇,包括:
根据预设密度函数,计算各所述基础对象的邻域密度;
将邻域密度小于预设密度阈值的基础对象确定为核心点;
获取所述核心点的预设统计范围内的基础对象的个数;
若所述基础对象的个数大于或等于核心阈值,则将所述核心点和所述核心点的预设统计范围内的基础对象确定为一个优化样本簇;
遍历所述初始样本簇中的全部基础对象,得到多个优化样本簇。
3.根据权利要求1所述的对象获取方法,其特征在于,所述通过DBSCAN算法基于所述文本地址对各所述基础对象进行文本聚类,包括:
对所述文本地址进行标准化,得到标准文本地址;
基于所述标准文本地址对各所述基础对象进行文本聚类。
4.根据权利要求1所述的对象获取方法,其特征在于,所述方法还包括:
构造分层模型,基于所述分层模型对所述目标对象进行分层,得到多个不同层级的差异服务对象,各所述差异服务对象对应不同的差异服务策略。
5.一种对象获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设区域内的基础对象及各所述基础对象的位置信息,其中所述预设区域包括产业园区,所述位置信息包括LBS地址和文本地址;
判断模块,用于判断所述LBS地址是否存在缺失;
第一聚类模块,用于若所述LBS地址不存在缺失,则通过KMEANS算法基于所述LBS地址对各所述基础对象进行初步聚类,得到多个初始样本簇;
第二聚类模块,用于通过DBSCAN算法对各所述初始样本簇中的基础对象进行二次聚类,得到多个优化样本簇;
第三聚类模块,用于若所述LBS地址存在缺失,则基于所述文本地址对各所述基础对象进行文本聚类,得到多个文本样本簇;
整合模块,用于将所述优化样本簇和所述文本样本簇整合为结果样本簇,获取所述结果样本簇中的目标对象;
所述判断模块,还用于:
判断所述LBS地址是否包括全部层级地址,及各所述层级地址是否准确且仅与一个实际地址一一对应;
若是,则确定所述LBS地址不存在缺失;
若否,则确定所述LBS地址存在缺失;
所述整合模块,还用于:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
6.根据权利要求5所述的对象获取装置,其特征在于,所述整合模块还用于:
通过实体抽取算法,抽取各所述结果样本簇中的多个目标实体,其中,所述实体抽取算法基于自然语言模型进行抽取;
将所述目标实体确定为所述目标对象。
7.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至4中任一项所述的对象获取方法。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至4中任一项所述的对象获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310814825.6A CN116541474B (zh) | 2023-07-05 | 2023-07-05 | 对象获取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310814825.6A CN116541474B (zh) | 2023-07-05 | 2023-07-05 | 对象获取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541474A CN116541474A (zh) | 2023-08-04 |
CN116541474B true CN116541474B (zh) | 2024-02-02 |
Family
ID=87458195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310814825.6A Active CN116541474B (zh) | 2023-07-05 | 2023-07-05 | 对象获取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541474B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106102164A (zh) * | 2016-06-12 | 2016-11-09 | 北京三快在线科技有限公司 | 一种确定接入点位置的方法与装置 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及系统 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN110728526A (zh) * | 2019-08-19 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 地址识别方法、设备以及计算机可读介质 |
CN111896016A (zh) * | 2020-07-28 | 2020-11-06 | 拉扎斯网络科技(上海)有限公司 | 位置信息的处理方法及装置、存储介质、终端 |
CN112287247A (zh) * | 2019-07-12 | 2021-01-29 | 南京邮电大学 | 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置 |
CN112380906A (zh) * | 2020-10-19 | 2021-02-19 | 上汽通用五菱汽车股份有限公司 | 一种基于行车数据确定用户住址的方法 |
CN113868351A (zh) * | 2021-09-09 | 2021-12-31 | 同盾科技有限公司 | 一种地址聚类方法、装置、电子设备及存储介质 |
CN114066606A (zh) * | 2021-11-17 | 2022-02-18 | 四川新网银行股份有限公司 | 一种基于文本转义为gps距离的资料虚假识别系统及方法 |
CN115481241A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 深度学习模型的训练方法、装置和设备 |
CN115481242A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 地址文本聚类方法、装置和设备 |
CN115905581A (zh) * | 2021-08-09 | 2023-04-04 | 中国电信股份有限公司 | 资源文本地址匹配方法及装置、电子设备、存储介质 |
CN115979215A (zh) * | 2022-11-28 | 2023-04-18 | 应急管理部大数据中心 | 一种楼层识别方法、装置及计算机可读存储介质 |
-
2023
- 2023-07-05 CN CN202310814825.6A patent/CN116541474B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106102164A (zh) * | 2016-06-12 | 2016-11-09 | 北京三快在线科技有限公司 | 一种确定接入点位置的方法与装置 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及系统 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN112287247A (zh) * | 2019-07-12 | 2021-01-29 | 南京邮电大学 | 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置 |
CN110728526A (zh) * | 2019-08-19 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 地址识别方法、设备以及计算机可读介质 |
CN111896016A (zh) * | 2020-07-28 | 2020-11-06 | 拉扎斯网络科技(上海)有限公司 | 位置信息的处理方法及装置、存储介质、终端 |
CN112380906A (zh) * | 2020-10-19 | 2021-02-19 | 上汽通用五菱汽车股份有限公司 | 一种基于行车数据确定用户住址的方法 |
CN115481241A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 深度学习模型的训练方法、装置和设备 |
CN115481242A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 地址文本聚类方法、装置和设备 |
CN115905581A (zh) * | 2021-08-09 | 2023-04-04 | 中国电信股份有限公司 | 资源文本地址匹配方法及装置、电子设备、存储介质 |
CN113868351A (zh) * | 2021-09-09 | 2021-12-31 | 同盾科技有限公司 | 一种地址聚类方法、装置、电子设备及存储介质 |
CN114066606A (zh) * | 2021-11-17 | 2022-02-18 | 四川新网银行股份有限公司 | 一种基于文本转义为gps距离的资料虚假识别系统及方法 |
CN115979215A (zh) * | 2022-11-28 | 2023-04-18 | 应急管理部大数据中心 | 一种楼层识别方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于位置语义和概率的人群分类方法;邱运芬;张晖;李波;杨春明;赵旭剑;;数据采集与处理(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541474A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3971731B1 (en) | Fence address-based coordinate data processing method and apparatus, and computer device | |
CN110968654B (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
CN107590123B (zh) | 车载中地点上下文指代消解方法及装置 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110674208B (zh) | 用于确定用户的职住地信息的方法和装置 | |
US9542471B2 (en) | Method of building a geo-tree | |
CN112214677B (zh) | 一种兴趣点推荐方法、装置、电子设备及存储介质 | |
CN112860993A (zh) | 兴趣点的分类方法、装置、设备、存储介质及程序产品 | |
CN113868351A (zh) | 一种地址聚类方法、装置、电子设备及存储介质 | |
CN111414357A (zh) | 地址数据处理方法、装置、系统和存储介质 | |
CN111460044B (zh) | 地理位置数据处理方法及装置 | |
CN114707506A (zh) | 快递进入派件站点的分拣方法、系统及可读存储介质 | |
CN111209487A (zh) | 用户数据分析方法、服务器及计算机可读存储介质 | |
CN111079428A (zh) | 一种分词和行业词典构建方法、装置以及可读存储介质 | |
CN110598122B (zh) | 社交群体挖掘方法、装置、设备及存储介质 | |
CN116541474B (zh) | 对象获取方法、装置、电子设备及存储介质 | |
CN113722580A (zh) | 地址信息处理方法、装置、电子设备和计算机可读介质 | |
US11821748B2 (en) | Processing apparatus and method for determining road names | |
CN114036414A (zh) | 兴趣点的处理方法、装置、电子设备、介质及程序产品 | |
CN114297235A (zh) | 风险地址识别方法、系统及电子设备 | |
CN111737374A (zh) | 位置坐标确定方法、装置、电子设备及存储介质 | |
CN116306638B (zh) | Poi数据匹配方法、电子设备及存储介质 | |
CN111263421A (zh) | 无线网络的匹配方法、装置、电子设备及存储介质 | |
US20220138235A1 (en) | Confidence scoring of geocoder results in computer-based navigation | |
CN118797187A (zh) | 兴趣点数据的处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |