CN112925774B - 地址数据的清洗方法及装置、存储介质、计算机设备 - Google Patents
地址数据的清洗方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN112925774B CN112925774B CN202110137634.1A CN202110137634A CN112925774B CN 112925774 B CN112925774 B CN 112925774B CN 202110137634 A CN202110137634 A CN 202110137634A CN 112925774 B CN112925774 B CN 112925774B
- Authority
- CN
- China
- Prior art keywords
- address
- target
- scene
- data
- address data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址数据的清洗方法及装置、存储介质、计算机设备,该方法包括:获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。本申请提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及到一种地址数据的清洗方法及装置、存储介质、计算机设备。
背景技术
当今社会是一个信息化的社会,人们每天使用各种电子设备的同时会产生大量的数据,从这些数据中可以挖掘出人们曾经去过的地点(如省、市、区)。
现有技术中,针对与用户相关的大量数据中,提取出包含地点的信息(如省、市、区),以此作为用户对应的地址信息。但是并非只要数据中出现了地点关键词就能证明用户曾去过这个地点,由于数据格式的多样性,数据本身的冗余性,以及一些与省、市、区重名的数据内容会一定程度上影响计算机通过这些数据挖掘出用户在过去一段时间真正去过的省、市、区。因此这种方法存在一定缺陷,用该方法分析出的用户地址信息不够准确。
发明内容
有鉴于此,本申请提供了一种地址数据的清洗方法及装置、存储介质、计算机设备,提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
根据本申请的一个方面,提供了一种地址数据的清洗方法,包括:
获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
可选地,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配,并依据匹配结果确定所述地址数据对应的场景置信度,具体包括:
获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
可选地,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,所述方法还包括:
统计样本数据源中样本地址数据的数据来源;
获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
可选地,所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,所述方法还包括:
获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
可选地,所述提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度,具体包括:
提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
可选地,所述依据所述目标置信度确定所述目标用户对应的地址信息,具体包括:
在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;
统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
可选地,所述获取待清洗的数据源之后,所述方法还包括:
对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
根据本申请的另一方面,提供了一种地址数据的清洗装置,包括:
数据源获取模块,用于获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
场景置信度确定模块,用于根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
地址置信度确定模块,用于提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
地址信息确定模块,用于根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
可选地,所述场景置信度确定模块,具体包括:
场景匹配单元,用于获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
第一置信度确定单元,用于若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
第二置信度确定单元,用于若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
可选地,所述装置还包括:
样本统计模块,用于所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,统计样本数据源中样本地址数据的数据来源;
字典建立模块,用于获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
可选地,所述装置还包括:
数据抽取模块,用于所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
准确率确定模块,用于对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
可选地,所述地址置信度确定模块,具体包括:
历史数据获取单元,用于提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
第三置信度确定单元,用于统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
可选地,所述地址信息确定模块,具体包括:
地址筛选单元,用于在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;
输出单元,用于统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
可选地,所述装置还包括:
数据清洗模块,用于所述获取待清洗的数据源之后,对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述地址数据的清洗方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述地址数据的清洗方法。
借由上述技术方案,本申请提供的一种地址数据的清洗方法及装置、存储介质、计算机设备,通过对数据源中每条地址数据的场景进行匹配并确定对应的场景置信度,以及确定每条地址数据对应的地址置信度,从而对场景置信度以及地址置信度进行融合计算出能够反应出地址数据可靠性的目标置信度,从而基于目标置信度确定每个目标用户的地址信息。本申请实施例与现有技术中直接将数据源中提取出的地址作为用户去过的地址的方式相比,利用预设场景字典对地址数据进行场景匹配并分配地址数据的场景置信度,以及结合用户历史数据确定不同地址数据包含的目标用户和目标地址对应的地址置信度,并将场景置信度与地址置信度进行融合得到目标置信度,从而对数据进行快速高效的清洗,可以减少地址数据中因包含与地址相关内容字符相同的数据对统计用户真实去过的地点的影响,提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种地址数据的清洗方法的流程示意图;
图2示出了本申请实施例提供的另一种地址数据清洗方法的执行流程示意图;
图3示出了本申请实施例提供的一种地址数据的清洗装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种地址数据的清洗方法,如图1所示,该方法包括:
步骤101,获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
在本申请实施例中,数据源可以是从各种数据来源处收集到的与一个或多个用户有关的数据,本实施例将该数据称为地址数据,其中,每条地址数据都对应有特定的目标用户。
另外,在本申请实施例中,获取数据源后可以先对数据源进行简单的清洗、格式化等处理,方便后续的数据清洗流程执行,提高数据处理效率。可选地,步骤101之后可以包括:对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
在该实施例中,例如可以从数据源中清洗出对应的省、市、区字段(即多级行政区划信息)以及数据来源字段。若省、市、区字段全为空,则删掉这条数据;若部分为空,则将空字段置为Null,非空字段填入对应省、市、区信息。若可以判断数据来源,则填入对应字段;若无法判断数据来源,则该字段置为Null。
步骤102,根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
在该实施例中,基于获取数据源中包含的地址数据,分别对每一条地址数据进行场景匹配,具体可以利用预设场景字典进行场景匹配,判断地址数据对应的数据来源是否与预设场景字典中记录的场景匹配,并按匹配结果确定每条地址数据对应的场景置信度。
在具体应用场景中可选地,步骤102可以包括:
步骤102-1,获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
步骤102-2,若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
步骤102-3,若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
在上述实施例中,获取任意一条地址数据对应的目标场景,可以直接将地址数据对应的数据来源作为目标场景,也可以基于数据来源与场景的映射关系确定与地址数据的数据来源对应的目标场景,对于任意一条地址数据来说。确定目标场景后,在预设场景字典中查询该目标场景,如果地址数据对应的目标场景存在于预设场景字典中,那么可以按照与目标场景对应的预先设置好的预设场景权重以及预先计算好的场景匹配准确率,来计算该条地址数据对应的场景置信度,具体地,任意一条地址数据的场景置信度=对应目标场景的预设场景权重×对应目标场景的场景匹配准确率。如果地址数据对应的目标场景不存在于预设场景字典中,那么按照预先设置的预设场景置信度确定该条地址数据对应的场景置信度,具体预设场景置信度可以设置为一个较低值。
本申请实施例中,在执行步骤102所需的预设场景字典,应预先建立,其中,预设场景字典的建立步骤可以包括:统计样本数据源中样本地址数据的数据来源;获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
在该实施例中,利用样本数据源中的样本地址数据建立预设场景字典,具体来说,对样本数据源中的每条样本地址数据对应的数据来源进行统计,例如样本数据源中包含10000条样本地址数据,每条样本地址数据对应有各自的数据来源,统计样本中每种数据来源的占比,并获取其中占比较高的数据来源作为目标数据来源,例如获取其中占比较高的前10个数据来源,或者获取占比大于5%的目标数据来源,并基于每个目标数据来源对应的场景建立预设场景字典,例如数据来源为微信,对应场景可以记录为聊天软件。
另外,在本申请实施例中,在计算场景置信度之前,还应先计算出场景匹配准确率,可选地,步骤102-2之前还可以包括:获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
在该实施例中,可以对数据源中每条地址数据对应的目标场景进行标注,并从每种目标场景对应的地址数据中各自抽取一部分地址数据,例如数据源对应的地址数据包含8种目标场景,那么分别针对每种目标场景,在每种目标场景下抽取其对应的地址数据中的一部分用于计算场景匹配准确率,具体可以在每种场景下抽取一定数量的地址数据,也可以抽取一定比例的地址数据。针对某个目标场景来说,可以进一步对该场景下抽取的地址数据进行人工标注,并以人工标注的场景为依据判断抽取数据中之前按预设场景字典匹配的目标场景是否准确,从而计算该目标场景对应的场景匹配准确率。每个目标场景均按上述方式计算出对应的场景匹配准确率。
步骤103,提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
在上述实施例中,数据源中的每条地址数据包含有地址信息,地址信息可指示出该条数据对应的目标地址,同时如上文所述每条地址数据对应有特定的目标用户,分别针对每条地址数据对应的目标用户以及目标地址,确定与该目标用户以及该目标地址对应的地址置信度,其中,该地址置信度一般基于该目标用户的历史统计数据、个人信息等数据预先确定,也可以由分析人员指定。
作为一种可选实施方式,本申请实施例中,步骤103具体可以包括:
步骤103-1,提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
步骤103-2,统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
在该实施例中,针对任意一条地址数据,应先从地址数据提取出对应的目标地址并确定该地址数据对应的目标用户,然后利用确定的目标用户,在历史数据库中查询出与该目标用户对应的目标历史数据源,目标历史数据源可以是对用户去过的各个省、市、区的历史记录,目标历史数据源可以包含多条历史地址数据,通过对多条历史地址数据进行分析确定本申请中任意一条地址数据对应的地址置信度,另外,目标历史数据源也可以直接将目标用户对应的每个历史地址映射为地址置信度进行保存,也即目标历史数据源中也可以包含该目标用户对应的每个历史地址以及每个历史地址对应的地址置信度。
本申请实施例中,以目标历史数据源包含多条历史地址数据为例,统计历史地址数据中与目标地址对应的历史地址数据的数量,并将该数量映射为该目标用户对应的目标地址的地址置信度,例如历史地址数据中包含目标地址A的历史地址数据的数量为100条,包含目标地址B的历史地址数据的数量为150条,那么对于该目标用户来说,目标地址B对应的地址置信度应高于目标地址A对应的地址置信度。也即目标历史数据数量与其对应的地址置信度正相关。
步骤104,根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
在该实施例中,确定每条地址数据对应的场景置信度以及地址置信度之后,可以对场景置信度以及地址置信度进行加权求和、或进行其他计算方式,将场景置信度与地址置信度进行融合得到地址数据对应的目标置信度,例如场景置信度权重和地址置信度权重均为0.5,确定地址数据对应的目标置信度。地址数据对应的目标置信度越高表示该条地址数据对应的目标地址越真实,也即目标置信度越高,该条地址数据包含的目标地址越有可能是用户去过的地址。从而可以依据目标置信度来确定目标用户对应的地址信息,其中,地址信息包含与该目标用户相关的一条或多条地址数据对应的目标地址。例如,目标用户对应的某条地址数据的目标置信度高于预设阈值,则可以确定该条地址数据对应的目标地址为目标用户对应的地址信息。
在本申请实施例中,可选地,步骤104具体可以包括:步骤104-1,在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;步骤104-2,统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
在上述实施例中,可以利用预先设置的预设置信度阈值对地址数据进行筛选,从全部的地址数据中选出其中目标置信度大于该预设置信度阈值的目标地址数据,选出的目标地址数据是能够较为可靠、准确的反应出相应目标用户去过的地址的数据,进一步为了实现对每个用户的精确统计,可以对目标地址数据进行分组,每个分组对应于一个目标用户,从而统计出每个分组内包含的目标地址数据对应的目标地址,另外还可以按目标地址出现的次数从多至少对各目标地址进行排序(还可以标注出目标地址出现频次),将排序后的目标地址作为最后的与目标用户对应的地址信息,并进行输出,直观的反应出每个用户有较高可能性去过的地址,并通过该排序清晰的表示每个用户的常去地址有哪些。
通过应用本实施例的技术方案,通过对数据源中每条地址数据的场景进行匹配并确定对应的场景置信度,以及确定每条地址数据对应的地址置信度,从而对场景置信度以及地址置信度进行融合计算出能够反应出地址数据可靠性的目标置信度,从而基于目标置信度确定每个目标用户的地址信息。本申请实施例与现有技术中直接将数据源中提取出的地址作为用户去过的地址的方式相比,利用预设场景字典对地址数据进行场景匹配并分配地址数据的场景置信度,以及结合用户历史数据确定不同地址数据包含的目标用户和目标地址对应的地址置信度,并将场景置信度与地址置信度进行融合得到目标置信度,从而对数据进行快速高效的清洗,可以减少地址数据中因包含与地址相关内容字符相同的数据对统计用户真实去过的地点的影响,提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
图2示出了本申请实施例中提供的一种地址数据清洗方法的执行流程示意图,如图2所示,流程可描述如下:
1.地址数据清洗:从数据源中清洗出对应的省、市、区字段以及数据来源字段。若省、市、区字段全为空,则删掉这条数据;若部分为空,则将空字段置为Null,非空字段填入对应省、市、区信息。若可以判断数据来源,则填入对应字段;若无法判断数据来源,则该字段置为Null。
2.场景字典构建:根据数据来源构建场景字典。a.由于数据来源的多样性,在构建场景字典时截取样本数据源中占比较高的数据来源,舍弃了尾部占比可忽略不计的数据来源。b.由于数据的复杂性,通过规则删去样本数据源中一部分明显存在误导性的数据源。
3.地址场景置信度计算:判断数据场景是否能与场景字典匹配。若不能匹配,则对该条数据赋值一个较低的置信度;若可以匹配,则根据场景权重*场景准确率得到该数据的场景置信度。场景权重为对不同的场景赋予的场景可信度,场景准确率为该场景下抽取的数据中进行人工核实标记,计算准确率。
4.地址频次置信度计算:按照用户进行频次置信度计算。对用户去过的各个省、市、区,统计各省、市、区出现的次数,再通过映射函数把对应的次数映射为地址频次置信度(即地址置信度)。
5.置信度融合:通过函数映射的方法,将场景置信度与地址频次置信度结合。对于已经结合的置信度,可以再通过设置阈值的方式输出可信度较高的地址信息。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种地址数据的清洗装置,如图3所示,该装置包括:
数据源获取模块,用于获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
场景置信度确定模块,用于根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
地址置信度确定模块,用于提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
地址信息确定模块,用于根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
在具体的应用场景中,可选地,所述场景置信度确定模块,具体包括:
场景匹配单元,用于获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
第一置信度确定单元,用于若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
第二置信度确定单元,用于若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
在具体的应用场景中,可选地,所述装置还包括:
样本统计模块,用于所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,统计样本数据源中样本地址数据的数据来源;
字典建立模块,用于获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
在具体的应用场景中,可选地,所述装置还包括:
数据抽取模块,用于所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
准确率确定模块,用于对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
在具体的应用场景中,可选地,所述地址置信度确定模块,具体包括:
历史数据获取单元,用于提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
第三置信度确定单元,用于统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
在具体的应用场景中,可选地,所述地址信息确定模块,具体包括:
地址筛选单元,用于在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;
输出单元,用于统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
在具体的应用场景中,可选地,所述装置还包括:
数据清洗模块,用于所述获取待清洗的数据源之后,对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
需要说明的是,本申请实施例提供的一种地址数据的清洗装置所涉及各功能单元的其他相应描述,可以参考图1至图2方法中的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图2所示的地址数据的清洗方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的地址数据的清洗方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现通过对数据源中每条地址数据的场景进行匹配并确定对应的场景置信度,以及确定每条地址数据对应的地址置信度,从而对场景置信度以及地址置信度进行融合计算出能够反应出地址数据可靠性的目标置信度,从而基于目标置信度确定每个目标用户的地址信息。本申请实施例与现有技术中直接将数据源中提取出的地址作为用户去过的地址的方式相比,利用预设场景字典对地址数据进行场景匹配并分配地址数据的场景置信度,以及结合用户历史数据确定不同地址数据包含的目标用户和目标地址对应的地址置信度,并将场景置信度与地址置信度进行融合得到目标置信度,从而对数据进行快速高效的清洗,可以减少地址数据中因包含与地址相关内容字符相同的数据对统计用户真实去过的地点的影响,提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种地址数据的清洗方法,其特征在于,包括:
获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
2.根据权利要求1所述的方法,其特征在于,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配,并依据匹配结果确定所述地址数据对应的场景置信度,具体包括:
获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
3.根据权利要求2所述的方法,其特征在于,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,所述方法还包括:
统计样本数据源中样本地址数据的数据来源;
获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,所述方法还包括:
获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
5.根据权利要求1所述的方法,其特征在于,所述提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度,具体包括:
提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
6.根据权利要求1所述的方法,其特征在于,所述依据所述目标置信度确定所述目标用户对应的地址信息,具体包括:
在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;
统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
7.根据权利要求1所述的方法,其特征在于,所述获取待清洗的数据源之后,所述方法还包括:
对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
8.一种地址数据的清洗装置,其特征在于,包括:
数据源获取模块,用于获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
场景置信度确定模块,用于根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
地址置信度确定模块,用于提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
地址信息确定模块,用于根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110137634.1A CN112925774B (zh) | 2021-02-01 | 2021-02-01 | 地址数据的清洗方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110137634.1A CN112925774B (zh) | 2021-02-01 | 2021-02-01 | 地址数据的清洗方法及装置、存储介质、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112925774A CN112925774A (zh) | 2021-06-08 |
CN112925774B true CN112925774B (zh) | 2022-12-02 |
Family
ID=76169321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110137634.1A Active CN112925774B (zh) | 2021-02-01 | 2021-02-01 | 地址数据的清洗方法及装置、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925774B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515677B (zh) * | 2021-07-22 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8862589B2 (en) * | 2013-03-15 | 2014-10-14 | Geofeedia, Inc. | System and method for predicting a geographic origin of content and accuracy of geotags related to content obtained from social media and other content providers |
CN104572956B (zh) * | 2014-12-29 | 2016-10-12 | 深圳市奇虎智能科技有限公司 | 确定poi信息有效性的系统及方法 |
CN104572946B (zh) * | 2014-12-30 | 2018-07-06 | 小米科技有限责任公司 | 黄页数据处理方法及装置 |
CN110334162B (zh) * | 2019-05-09 | 2021-11-09 | 德邦物流股份有限公司 | 地址识别方法及装置 |
-
2021
- 2021-02-01 CN CN202110137634.1A patent/CN112925774B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112925774A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321387B (zh) | 数据同步方法、设备及终端设备 | |
CN106980573B (zh) | 一种构建测试用例请求对象的方法、装置及系统 | |
KR101894226B1 (ko) | Ip 어드레스에 대응하는 위치를 결정하기 위한 방법, 장치, 및 시스템 | |
CN111177222B (zh) | 模型测试方法、装置及计算设备、存储介质 | |
CN110851552A (zh) | 物流订单的自动分配方法及装置、电子设备、存储介质 | |
CN112632213A (zh) | 地址信息标准化方法及装置、电子设备、存储介质 | |
CN111383004A (zh) | 数字货币的实体位置提取方法、信息的提取方法及其装置 | |
CN103580939A (zh) | 一种基于账号属性的异常消息检测方法及设备 | |
CN112732893B (zh) | 文本信息的提取方法和装置、存储介质和电子设备 | |
CN113849702B (zh) | 一种确定目标数据的方法、装置、电子设备及存储介质 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN112184304A (zh) | 一种辅助决策的方法、系统、服务器和存储介质 | |
CN109102324B (zh) | 模型训练方法、基于模型的红包物料铺设预测方法及装置 | |
CN112925774B (zh) | 地址数据的清洗方法及装置、存储介质、计算机设备 | |
CN112465565B (zh) | 一种基于机器学习的用户画像预测的方法及装置 | |
CN115525235B (zh) | 一种基于存储结构的数据运算方法及系统 | |
CN110852620A (zh) | 物流订单的处理方法及装置、电子设备、存储介质 | |
CN116307980A (zh) | 一种基于规则引擎的订单匹配方法、装置以及规则引擎 | |
CN114036414A (zh) | 兴趣点的处理方法、装置、电子设备、介质及程序产品 | |
CN114781517A (zh) | 风险识别的方法、装置及终端设备 | |
CN114172856A (zh) | 消息自动回复方法、装置、设备及存储介质 | |
CN112035736A (zh) | 信息推送方法、装置及服务器 | |
WO2014073581A1 (ja) | アセスメント装置、アセスメントシステム、アセスメント方法、及びコンピュータが読み取り可能な記録媒体 | |
CN113381900B (zh) | 路测数据的可视化方法及装置 | |
CN112261484B (zh) | 一种目标用户识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |