CN110990651A

CN110990651A - 地址数据处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN110990651A
Application number: CN201911234212.5A
Authority: CN
Inventors: 斯义谱; 叶露
Original assignee: Tongdun Holdings Co Ltd
Current assignee: TONGDUN TECHNOLOGY Co.,Ltd.
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-10
Anticipated expiration: 2039-12-05
Also published as: CN110990651B

Abstract

本公开的实施例提供了一种地址数据处理方法、装置、电子设备及计算机可读介质。该方法包括：获取目标地址信息；对所述地址文本数据进行处理，获得目标字符串信息；根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；其中，所述第一数据集包括尾部词及其尾部地址类型标注，所述第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。本公开实施例提供的地址数据处理方法、装置、电子设备及计算机可读介质，通过第一数据集和/或第二数据集对目标地址类型信息进行匹配，无需借助额外硬件设施与软件技术服务，能够实现算法高覆盖率条件下的地址准确分类。

Description

地址数据处理方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及地址技术服务领域，具体而言，涉及一种地址数据处理方法、装置、电子设备及计算机可读介质。

背景技术

目前，地址核验产品是在市场上相对需求最高的地址类数据产品。鉴于家庭和工作地址是用户在日常生活中最活跃的两个地点，市面上需求较多的两个地址核验产品为：工作地址核验和家庭地址核验。目前市场上已有的地址核验产品,大多数采用的数据为基于位置服务(Location Based Services，LBS)数据，通过策略或模型分析人群的作息时间特征，进而对地址位置进行标注，判断其为家庭地址、工作或其他地址。例如，通过地址编码(将详细的结构化地址转换为经纬度坐标)，可以将地址转化为经纬度坐标，结合LBS获取到人群的经纬度坐标数据，若某个坐标点上或区域内白天活跃人群数量显著高于晚上的或者周一至周五活跃人群数量显著高于周末的，则该地址很可能是一个工作地址，反之，若其晚上活跃人群数量显著高于白天或周末人群活跃人群数量显著高于周一至周五，则其很可能是一个家庭地址，否则不能判别其具体类型。

然而，上述方法存在下述缺陷：

(1)对数据量依赖过大：该分类方法是建立在大量数据基础之上的，而目前LBS数据精度高低不一，且覆盖率极低，只有10-15％，底层数据的不足导致上层分类模型的覆盖率和准确率不高。(2)模型特征阈值难以确定：该分类方法需构建许多人群行为特征，虽然人群的行为是有规律可循，但规律界限很难确定。例如什么情况下才是“白天活跃人群数量显著高于晚上”，高出多少才是显著高。另外，该方法无法判定或无法正确判定上夜班、或24小时倒班的情况。(3)模型维护成本高，结果可解释性弱。

因此，需要一种新的地址数据处理方法、装置、电子设备及计算机可读介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种地址数据处理方法、装置及电子设备，进而至少在一定程度上克服现有技术中地址分类覆盖率低且正确性低的缺陷。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提出一种地址数据处理方法，包括：获取目标地址信息；对所述地址文本数据进行处理，获得目标字符串信息；根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；其中，所述第一数据集包括尾部词及其尾部地址类型标注，所述第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

在本公开的一种示例性实施例中，根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息，包括：将所述目标字符串信息与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息；和/或根据所述目标字符串信息与所述第二数据集中的各第二地址信息的相似度确定所述目标地址类型信息。

在本公开的一种示例性实施例中，将所述目标字符串信息与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息包括：若所述目标字符串信息与所述第一数据集中的各尾部词匹配失败，则对所述目标字符串信息进行切分，获得目标切分地址；将所述目标切分地址与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息。

在本公开的一种示例性实施例中，根据所述目标字符串信息与所述第二数据集中的各第二地址信息的相似度确定所述目标地址类型信息包括：对所述目标字符串信息进行切分，获得第一目标部分和第二目标部分；将所述第一目标部分与所述第二数据集中的各第一切分地址进行匹配；将匹配成功的各第一切分地址及其第二地址信息、第二切分地址、地址类型标注整合为第一匹配地址集合；计算所述第二目标部分与所述第一匹配地址集合中各第二切分地址的相似度，并将相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注整合为第二匹配地址集合；根据所述第二匹配地址集合中各第二地址信息的地址类型标注和/或所述相似度确定所述目标地址信息的目标地址类型信息。

在本公开的一种示例性实施例中，计算所述第二目标部分与所述第一匹配地址集合中各第二切分地址的相似度包括：计算所述第二目标部分与所述第一匹配地址集合中的所述各第二切分地址之间的编辑距离；将所述第一匹配地址集合中每个第二切分地址的文本长度与所述第二目标部分的文本长度之间的最大值作为所述各第二切分地址的目标文本长度；根据所述编辑距离与所述目标文本长度确定所述第二目标部分与所述第一匹配地址集合中的所述各第二切分地址的相似度。

在本公开的一种示例性实施例中，根据所述第二匹配地址集合中各第二地址信息的地址类型标注和/或所述相似度确定所述目标地址信息的目标地址类型信息包括：统计所述第二匹配地址集合中各地址类型标注的个数，并将具有最大个数的地址类型标注作为所述目标地址信息的目标类型信息；和/或将相似度最大的第二切分地址对应的地址类型标注作为所述目标地址信息的目标类型信息。

在本公开的一种示例性实施例中，所述方法还包括：获取兴趣点数据集，所述兴趣点数据集包括第一地址信息及其一级分类信息；基于一级分类信息与地址类型的映射关系确定各第一地址信息的地址类型标注；对所述各第一地址信息的尾部词及其地址类型标注进行统计，获得各尾部词在各地址类型标注下的概率值；根据所述各尾部词在各地址类型标注下的概率值确定所述各尾部词的尾部地址类型标注，并根据所述各尾部词及其尾部地址类型标注生成所述第一数据集。

在本公开的一种示例性实施例中，所述方法还包括：获取样本数据集，所述样本数据集包括第二地址信息及其地址类型标注；对所述地址文本信息进行切分，获得所述第二地址信息的第一切分地址与第二切分地址；根据所述第二地址信息及其第一切分地址、第二切分地址、地址类型标注生成所述第二数据集。

本公开实施例提出一种地址数据处理装置，包括：目标地址获取模块，配置为获取目标地址信息；目标地址处理模块，配置为对所述地址文本数据进行处理，获得目标字符串信息；地址类型生成模块，配置为根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；其中，所述第一数据集包括尾部词及其尾部地址类型标注，所述第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

本公开实施例提出一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的地址数据处理方法。

在本公开的一些实施例所提供的技术方案中，通过对目标地址信息进行处理获得目标字符串信息，并通过第一数据集中的尾部词及其尾部地址类型标注对目标字符串信息进行处理，和/或通过第二数据集中的第二地址信息及其第一切分地址、第二切分地址、地址类型标注对目标字符串信息进行处理，能够在不借助额外硬件设施或软件技术服务的情况下实现地址数据的准确分类，进而能够提高地址分类算法的覆盖率。此外，本公开基于尾部词和/或第一切分地址、第二切分地址的处理方式是基于文本地址进行处理的方式，基于用户对地址用词偏好的稳定性，本公开获得的目标地址类型信息具有较强的可解释性与高可用性、高稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了可以应用本公开实施例的地址数据处理方法或装置的示例性系统架构100的示意图；

图2示意性示出了根据本公开的一个实施例的地址数据处理方法的流程图；

图3是基于图2的步骤S230在一个示例性实施例中的流程图；

图4是基于图3的步骤S231在一个示例性实施例中的流程图；

图5是基于图3的步骤S232在一个示例性实施例中的流程图；

图6是基于图5的步骤S2324在一个示例性实施例中的流程图；

图7是基于图5的步骤S2325在一个示例性实施例中的流程图；

图8示意性示出了根据本公开的另一个实施例的地址数据处理方法的流程图；

图9示意性示出了根据本公开的又一个实施例的地址数据处理方法的流程图；

图10示意性示出了根据本公开的再一个实施例的地址数据处理方法的流程图；

图11示意性示出了根据本公开的一实施例的地址数据处理装置的框图；

图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的地址数据处理方法或装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105上传目标地址信息。服务器105可以获取目标地址信息；对所述地址文本数据进行处理，获得目标字符串信息；根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；其中，所述第一数据集包括尾部词及其尾部地址类型标注，所述第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。并将目标地址类型信息反馈给终端设备103，进而终端设备103可以根据目标地址类型信息生成推荐信息。进而能够实现算法高覆盖率条件下的地址准确分类。

相关技术中，对地址信息的分类有如下几种：

(1)对地址信息进行地址编码，获得经纬度坐标。利用兴趣面(Area of Interest，AOI)数据确定该经纬度坐标所在的AOI，根据AOI的类型确定是否为家庭地址或工作地址。(2)电商场景中，常常结合用户下单的行为特征对所填写的收货地址进行类型划分。例如，通过地址编码，可以将地址转化为经纬度坐标，结合LBS技术获取到人群的经纬度坐标数据，若某个坐标点上或区域内白天活跃人群数量显著高于晚上的或者周一至周五活跃人群数量显著高于周末的，则确认该地址很可能是一个工作地址，反之，若其晚上活跃人群数量显著高于白天或周末人群活跃人群数量显著高于周一至周五，则其很可能是一个家庭地址，否则不能判别其具体类型。上述相关技术存在三个问题，如下所示：

(1)原始的文本数据经过地址编码后，数据失真，得到的经纬度坐标精确度不高，易发生漂移，使得该方法得到的结论不准确。(2)AOI数据是经过人工标注的，据了解，目前全国才标注出不到20万的AOI(而POI有8000万条)，因此，该数据库的覆盖范围有限，进而导致依赖AOI数据划分地址类型的覆盖率不高。(3)用户行为具有很大的不确定性、随意性，界线不明确，另外下单时间和填写地址类型的相关性不强，例如工作时间下单也可以填写家庭地址，在家下单也可以填写工作单位地址。因此，基于行为特征的模型维护成本高，结果可解释性弱。

图2示意性示出了根据本公开的一个实施例的地址数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

如图2所示，本公开实施例提供的地址数据处理方法可以包括以下步骤。

在步骤S210中，获取目标地址信息。

本公开实施例中，可接收客户端发送的目标地址信息。例如，可通过客户端接收用户填写、提交的地址信息，作为目标地址信息。其中，目标地址信息可包括省、市、区、县、详细地址等文本信息，本公开对此并不做特殊限定。

在步骤S220中，对目标地址信息进行处理，获得目标字符串信息。

本公开实施例中，可将目标地址信息中的半角文本或全角文本进行统一，例如，可将目标地址信息中的全角文本转换为半角文本。还可将目标地址信息中的无意义字符进行剔除。还可对大小写字符进行统一、中文数据与阿拉伯数字的统一。例如，可将大写字符转换为小写字符，可将中文数字统一为阿拉伯数字。

其中，基于上述操作，可对转换后的目标地址信息的编码信息获得目标字符串信息。

在步骤S230中，根据第一数据集和/或第二数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息；其中，第一数据集包括尾部词及其尾部地址类型标注，第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

本公开实施例中，可根据第一数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息。也可根据第二数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息。还可在根据第一数据集对目标字符串信息进行处理失败时，根据第二数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息。还可在根据第二数据集对目标字符串信息进行处理失败时，根据第一数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息。

其中，在根据第一数据集对目标字符串信息进行处理时，可将第一数据集中的尾部词对目标字符串数据进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址信息的目标地址类型信息。第一数据集中的尾部词可例如为“医院”、“大厦”等。

在根据第二数据集对目标字符串信息进行处理时，可计算第二数据集中的第一切分地址、第二切分地址与目标字符串的相似度，并基于投票思想或相似度最大思想确定最为匹配的第一切分地址、第二切分地址，并将该最为匹配的第一切分地址、第二切分地址的地址类型标注作为目标地址信息的目标地址类型信息。

本公开实施方式提供的地址数据处理方法，通过对目标地址信息进行处理获得目标字符串信息，并通过第一数据集中的尾部词及其尾部地址类型标注对目标字符串信息进行处理，和/或通过第二数据集中的第二地址信息及其第一切分地址、第二切分地址、地址类型标注对目标字符串信息进行处理，能够在不借助额外硬件设施或软件技术服务的情况下实现地址数据的准确分类，进而能够提高地址分类算法的覆盖率。此外，本公开基于尾部词和/或第一切分地址、第二切分地址的处理方式是基于文本地址进行处理的方式，基于用户对地址用词偏好的稳定性，本公开获得的目标地址类型信息具有较强的可解释性与高可用性、高稳定性。

图3是基于图2的步骤S230在一个示例性实施例中的流程图。

如图3所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

在步骤S231中，将目标字符串信息与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。

本公开实施例中，可截取目标字符串信息的尾部字符串，将该尾部字符串与第一数据集中的各尾部词进行匹配。

其中，第一数据集中的尾部词存在长度不统一的情况，例如尾部词：研究所。可首先对目标字符串信息进行截取，获得第一长度的尾部字符串，并与第一数据集中的具有第一长度的各尾部词进行匹配。若匹配成功，则将匹配成功的具有第一长度的尾部词的尾部地址类型标注作为目标地址类型信息。若匹配失败，则对目标字符串信息进行截取，获得具有第二长度的尾部字符串，并与第一数据集中具有第二长度的各尾部词进行匹配。若匹配成功，则将匹配成功的具有第二长度的尾部词的尾部地址类型标注作为目标地址类型信息。若匹配失败，则对目标字符串信息进行截取，获得具有第三长度的尾部字符串，循环执行上述步骤，直至匹配成功或第一数据集中的各尾部词均遍历完成。

在步骤S232中，根据目标字符串信息与第二数据集中的各第二地址信息的相似度确定目标地址类型信息。

本公开实施例中，步骤S232可在上述步骤S231的匹配结果失败时执行，也可作为上述步骤S231的替换步骤。

其中，可将目标字符串信息进行切分，获得第一目标部分和第二目标部分。并将第一目标部分与第二数据集中的各第一切分地址进行匹配；将匹配成功的各第一切分地址及其第二地址信息、第二切分地址、地址类型标注整合为第一匹配地址集合；计算第二目标部分与所述匹配地址集合中各第二切分地址的相似度，并将相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注整合为第二匹配地址集合；根据第二匹配地址集合中各第二地址信息的地址类型标注和/或相似度确定目标地址信息的目标地址类型信息。

本公开实施例的地址数据处理方法，通过第一数据集和/或第二数据集对目标字符串信息进行处理，能够在无需借助额外硬件设施或软件技术服务的前提下，实现算法高覆盖率条件下的地址准确分类。

图4是基于图3的步骤S231在一个示例性实施例中的流程图。

如图4所示，上述图3实施例中的步骤S231可以进一步包括以下步骤。

在步骤S2311中，若目标字符串信息与第一数据集中的各尾部词匹配失败，则对目标字符串信息进行切分，获得目标切分地址。

本公开实施例中，对目标字符串信息进行切分获得的切分结果可如表1所示。

表1

其中，目标切分地址可例如为表1中序号14、15所示的建筑物、子建筑物部分的内容。

在步骤S2312中，将目标切分地址与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。

本公开实施例可解决目标地址信息中，能够与第一数据集中的各尾部词相匹配的地址部分并不位于尾部时，进而导致图3中的步骤S231匹配失败的问题。其中，本公开实施例通过将目标切分地址与第一数据集中的各尾部词进行匹配，能够提高匹配成功的可能性，进一步在算法高覆盖率的条件下提高目标地址类型分类的准确性与稳定性。

图5是基于图3的步骤S232在一个示例性实施例中的流程图。

如图5所示，上述图3实施例中的步骤S232可以进一步包括以下步骤。

本公开实施例中，目标指标包括第二指标。

在步骤S2321中，对目标字符串信息进行切分，获得第一目标部分和第二目标部分。

本公开实施例中，对目标字符串信息进行切分可采用与图4中的步骤S2311类似的步骤，此处不再赘述。其中，第一目标部分可为目标字符串信息中从开头至中间某处的截取部分，第二目标部分可例如为目标字符串信息中除去第一目标部分后的剩余部分。例如，第一目标部分可为表1中的序号1-9部分的切分内容，第二目标部分可为表1中的序号10-26部分的切分内容。

在步骤S2322中，将第一目标部分与第二数据集中的各第一切分地址进行匹配。

本公开实施例中，第二数据集中的第一切分地址和第二切分地址的生成方式可与步骤S2321中对目标字符串信息的切分过程类似。通过将第一目标部分与第二数据集中的各第一切分地址进行匹配，能够获得对第二数据集中的第一切分地址进行筛选获得与第一目标部分相匹配的第一切分地址。

在步骤S2323中，将匹配成功的各第一切分地址及其第二地址信息、第二切分地址、地址类型标注整合为第一匹配地址集合。

本公开实施例中，每一匹配成功的第一切分地址及其第二地址信息、第二切分地址、地址类型标注可作为一条第一匹配地址集合中的数据。

在步骤S2324中，计算第二目标部分与第一匹配地址集合中各第二切分地址的相似度，并将相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注整合为第二匹配地址集合。

本公开实施例中，相似度用于描述两个地址之间相近的程度。相似度的取值范围可为[0,1]，预设阈值可例如为0.75，但此处仅为示例，本公开对预设阈值的具体取值范围并不作特殊限定。其中，在第二匹配地址集合中，每一相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注可作为一条数据进行记录。

在步骤S2325中，根据第二匹配地址集合中各第二地址信息的地址类型标注和/或相似度确定目标地址信息的目标地址类型信息。

本公开实施例通过将第一目标部分与第二数据集中的各第一切分地址进行匹配，获得第一匹配地址集合。并计算第二目标部分与第一匹配地址集合中各第二切分地址的相似度，并根据相似度确定第二匹配地址集合，能够以第二匹配地址集合为依据，确定目标地址信息的目标地址类型信息。

图6是基于图5的步骤S2324在一个示例性实施例中的流程图。

如图6所示，上述图5实施例中的步骤S2324可以进一步包括以下步骤。

在步骤S610中，计算第二目标部分与第一匹配地址集合中的各第二切分地址之间的编辑距离。

本公开实施例中，编辑距离是针对两个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个)是比较可能的字。脱氧核糖核酸(DeoxyriboNucleic Acid，DNA)也可以视为用A、C、G和T组成的字符串，因此编辑距离也用在生物信息学中，判断两个DNA的类似程度。

在步骤S620中，将第一匹配地址集合中每个第二切分地址的文本长度与第二目标部分的文本长度之间的最大值作为各第二切分地址的目标文本长度。

本公开实施例中，在第一匹配地址集合中，以每个第二切分地址为对象，可分别将该每个第二切分地址的文本长度与第二目标部分的文本长度之间的最大值作为该每个第二切分地址的目标文本长度。

在步骤S630中，根据编辑距离与目标文本长度确定第二目标部分与第一匹配地址集合中的各第二切分地址的相似度。

本公开实施例中，相似度的计算公式可通过下式进行计算：

其中，s_i为第二目标部分与第一匹配地址集合中第i个第二切分地址之间的相似度，d_i为第二目标部分与第一匹配地址集合中第i个第二切分地址之间的编辑距离，c_i为第一匹配地址集合中第i个第二切分地址的文本长度，c_d为第二目标部分的文本长度。n为第一匹配地址集合中第二切分地址的个数。

图7是基于图5的步骤S2325在一个示例性实施例中的流程图。

本公开实施例中，目标指标包括第四指标。

如图7所示，上述图5实施例中的步骤S2325可以进一步包括以下步骤。

在步骤S710中，统计第二匹配地址集合中各地址类型标注的个数，并将具有最大个数的地址类型标注作为目标地址信息的目标类型信息。

本公开实施例中，地址类型标注可例如包括第一类型标注、第二类型标注。其中，本步骤可统计第二匹配地址集合中，地址类型标注为第一类型标注的个数，以及地址类型标注为第二类型标注的个数。其中，若第一类型标注的个数大于第二类型标注的个数，则确认第一类型标注的个数为最大个数，并将第一类型标注作为目标地址信息的目标类型信息。

在步骤S720中，将相似度最大的第二切分地址对应的地址类型标注作为目标地址信息的目标类型信息。

本公开实施例中，步骤S720可在上述步骤S710中最大个数具有两个或多个时执行，也可作为上述步骤S710的替换步骤。

图8示意性示出了根据本公开的另一个实施例的地址数据处理方法的流程图。

如图8所示，基于上述实施例的地址数据处理方法还包括以下步骤。

在步骤S810中，获取兴趣点数据集，兴趣点数据集包括第一地址信息及其一级分类信息。

本公开实施例中，兴趣点数据集包括多个兴趣点数据(Point of Interest，POI)。在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。每个POI包含四方面信息，名称、类别、坐标、分类，全面的POI讯息是丰富导航地图的必备资讯，及时的POI兴趣点能提醒用户路况的分支及周边建筑的详尽信息，也能方便导航中查到你所需要的各个地方，选择最为便捷和通畅的道路来进行路径规划。POI(兴趣点)是有分类的，有一级分类、二级分类或三级分类，每个分类都有相应的行业的代码和名称对应，方便信息采集的记录和区分。兴趣点数据的一级分类信息包括汽车服务、汽车销售、汽车维修、摩托车服务、餐饮服务、购物服务、生活服务等23个类别。

其中，兴趣点数据集中的每一地址为第一地址信息，每一第一地址信息的POI一级分类为该第一地址信息的一级分类信息。

在步骤S820中，基于一级分类信息与地址类型的映射关系确定各第一地址信息的地址类型标注。

本公开实施例中，地址类型可包括“住宅”、“工作地”。一级分类信息与地址类型的映射关系可如表2所示。

表2

其中，当一第一地址信息的一级分类信息为公司企业时，可根据表2确定该第一地址信息的地址类型标注为“工作地”。

在步骤S830中，对各第一地址信息的尾部词及其地址类型标注进行统计，获得各尾部词在各地址类型标注下的概率值。

本公开实施例中，可根据各第一地址信息的尾部词及其地址类型标注确定各尾部词在各地址类型标注下的个数，并对每一尾部词为统计对象，确定该每一尾部词在各地质类型标注下的概率值。表3示例性示出了部分尾部词在各地址类型标注下的概率值。

表3

在步骤S840中，根据各尾部词在各地址类型标注下的概率值确定各尾部词的尾部地址类型标注，并根据各尾部词及其尾部地址类型标注生成第一数据集。

本公开实施例中，对于每一尾部词，若该尾部词在某一地址类型标注下的概率值大于概率阈值，则可确认该尾部词的尾部地址类型标注为该地址类型标注。其中，概率阈值可为98％，但本公开对概率阈值的具体取值范围并不作特殊限定。例如，如表3所示，尾部词“小区”在地址类型标注“住宅”下的概率值为99.52％，大于98％，则确认尾部词“小区”的尾部地址类型标注为“住宅”。

图9示意性示出了根据本公开的又一个实施例的地址数据处理方法的流程图。

如图9所示，基于上述实施例的地址数据处理方法还包括以下步骤。

在步骤S910中，获取样本数据集，样本数据集包括第二地址信息及其地址类型标注。

本公开实施例中，样本数据集中的每一地址为第二地址信息，每一第二地址信息的地址类型为该第二地址信息的地址类型标注。

在步骤S920中，对地址文本信息进行切分，获得第二地址信息的第一切分地址与第二切分地址。

本公开实施例中，对地址文本信息的切分过程可采用与图4中的步骤S2311类似的步骤，此处不再赘述。其中，第一切分地址可为第二地址信息中从开头至中间某处的截取部分，第二切分地址可例如为第二地址信息中除去第一切分地址后的剩余部分。例如，第一切分地址可为表1中的序号1-9部分的切分内容，第二切分地址可为表1中的序号10-26部分的切分内容。

在步骤S930中，根据第二地址信息及其第一切分地址、第二切分地址、地址类型标注生成第二数据集。

本公开实施例中，第二数据集中可包括多条记录，每一记录包括一第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

本公开实施例的地址数据处理方法通过对样本数据集进行处理，能够获得具有第一切分地址、第二切分地址的第二数据集，进而能够基于第二数据集的实现不依赖硬件设施与软件服务支持的地址准确分类。

图10示意性示出了根据本公开的再一个实施例的地址数据处理方法的流程图。

如图10所示，本实施例提供的地址数据处理方法包括以下步骤。

在步骤S1010中，获取目标地址信息。

本公开实施例中，可通过部署在设备端中模块采集用户填写、提交的目标地址信息。

在步骤S1020中，将目标地址信息进行标准化处理，获得目标字符串信息；标准化处理包括转化为半角文本、剔除无意义字符、转化为小写字符、统一中文数字为阿拉伯数字。

在步骤S1030中，将目标字符串信息与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。

本步骤可采用与图3中步骤S231类似的步骤，此处不再赘述。

在步骤S1040中，若目标字符串信息与第一数据集中的各尾部词匹配失败，则对目标字符串信息进行切分，获得目标切分地址。

本步骤可采用与图4中步骤S2311类似的步骤，此处不再赘述。

在步骤S1050中，将目标切分地址与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。

本步骤可采用与图4中步骤S2312类似的步骤，此处不再赘述。

在步骤S1060中，若目标切分地址与第一数据集中的各尾部词匹配失败，则根据目标字符串信息与第二数据集中的各第二地址信息的相似度确定目标地址类型信息。

本步骤可采用与图3中步骤S232或图5中步骤S2321至步骤S2324类似的步骤，此处不再赘述。

本公开实施例的地址数据处理方法，不需要借助额外的硬件设施或者软件技术服务，因此成本低，易于部署。同时，本公开的分类依据文本地址，因此得出的目标地址类型信息的结果具有非常强的可解释性。此外，基于用户对地点取名用词偏好的稳定性，可以有效保障本公开给出的地址数据处理方法的分类结果具有高可用性、高稳定性。此外，本公开不依赖于地址编码，直接对文本地址本身进行分析，能够提供低成本的可持续性的地址分类处理方法。

以下介绍本公开的装置实施例，可以用于执行本公开上述的地址数据处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的地址数据处理方法的实施例。

图11示意性示出了根据本公开的一实施例的地址数据处理装置的框图。

参照图11所示，根据本公开的一个实施例的地址数据处理装置1100，可以包括：目标地址获取模块1110、目标地址处理模块1120、地址类型生成模块1130。

在地址数据处理装置1100中，目标地址获取模块1110可以配置为获取目标地址信息。

目标地址处理模块1120可以配置为对地址文本数据进行处理，获得目标字符串信息。

地址类型生成模块1120可以配置为根据第一数据集和/或第二数据集对目标字符串信息进行处理，获得目标地址信息的目标地址类型信息；其中，第一数据集包括尾部词及其尾部地址类型标注，第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

在示例性实施例中，地址类型生成模块1120可以包括第一生成单元和/或第二生成单元。其中，第一生成单元可以配置为将目标字符串信息与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。第二生成单元可以配置为根据目标字符串信息与第二数据集中的各第二地址信息的相似度确定目标地址类型信息。

在示例性实施例中，第一生成单元可以包括第一切分子单元和第一生成子单元。其中，第一切分子单元可以配置为若目标字符串信息与第一数据集中的各尾部词匹配失败，则对目标字符串信息进行切分，获得目标切分地址。第一生成子单元可以配置为将目标切分地址与第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为目标地址类型信息。

在示例性实施例中，第二生成单元可以包括第二切分子单元、匹配子单元、第一匹配集合生成子单元、第二匹配集合生成子单元和第二生成子单元。其中，第二切分子单元可以配置为对目标字符串信息进行切分，获得第一目标部分和第二目标部分。匹配子单元可以配置为将第一目标部分与第二数据集中的各第一切分地址进行匹配。第一匹配集合生成子单元可以配置为将匹配成功的各第一切分地址及其第二地址信息、第二切分地址、地址类型标注整合为第一匹配地址集合。第二匹配集合生成子单元可以配置为计算第二目标部分与第一匹配地址集合中各第二切分地址的相似度，并将相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注整合为第二匹配地址集合。第二生成子单元可以配置为根据第二匹配地址集合中各第二地址信息的地址类型标注和/或相似度确定目标地址信息的目标地址类型信息。

在示例性实施例中，第二匹配集合生成子单元可包括编辑距离计算子单元、文本长度计算子单元和相似度计算子单元。其中，编辑距离计算子单元可以配置为计算第二目标部分与第一匹配地址集合中的各第二切分地址之间的编辑距离。文本长度计算子单元可以配置为将第一匹配地址集合中每个第二切分地址的文本长度与第二目标部分的文本长度之间的最大值作为各第二切分地址的目标文本长度。相似度计算子单元可以配置为根据编辑距离与目标文本长度确定第二目标部分与第一匹配地址集合中的各第二切分地址的相似度。

在示例性实施例中，第二生成子单元可以包括投票标注子单元和相似度标注子单元。其中，投票标注子单元可以配置为统计第二匹配地址集合各地址类型标注的个数，并将具有最大个数的地址类型标注作为目标地址信息的目标类型信息。相似度标注子单元可以配置为将相似度最大的第二切分地址对应的地址类型标注作为目标地址信息的目标类型信息。

在示例性实施例中，地址数据处理装置1100还可包括兴趣点数据获取模块、映射标注模块、概率计算模块和第一数据集生成模块。其中，兴趣点数据获取模块可以配置为获取兴趣点数据集，兴趣点数据集包括第一地址信息及其一级分类信息。映射标注模块可以配置为基于一级分类信息与地址类型的映射关系确定各第一地址信息的地址类型标注。概率计算模块可以配置为对各第一地址信息的尾部词及其地址类型标注进行统计，获得各尾部词在各地址类型标注下的概率值。第一数据集生成模块可以配置为根据各尾部词在各地址类型标注下的概率值确定各尾部词的尾部地址类型标注，并根据各尾部词及其尾部地址类型标注生成第一数据集。

在示例性实施例中，地址数据处理装置1100还可包括样本数据集获取模块、样本地址切分模块和第二数据集生成模块。其中，样本数据集获取模块可以配置为获取样本数据集，样本数据集包括第二地址信息及其地址类型标注。样本地址切分模块可以配置为对地址文本信息进行切分，获得第二地址信息的第一切分地址与第二切分地址。第二数据集生成模块可以配置为根据第二地址信息及其第一切分地址、第二切分地址、地址类型标注生成第二数据集。

本公开实施方式提供的地址数据处理装置，通过对目标地址信息进行处理获得目标字符串信息，并通过第一数据集中的尾部词及其尾部地址类型标注对目标字符串信息进行处理，和/或通过第二数据集中的第二地址信息及其第一切分地址、第二切分地址、地址类型标注对目标字符串信息进行处理，能够在不借助额外硬件设施或软件技术服务的情况下实现地址数据的准确分类，进而能够提高地址分类算法的覆盖率。此外，本公开基于尾部词和/或第一切分地址、第二切分地址的处理方式是基于文本地址进行处理的方式，基于用户对地址用词偏好的稳定性，本公开获得的目标地址类型信息具有较强的可解释性与高可用性、高稳定性。

图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图12示出的电子设备的计算机系统1200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的储存部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1212，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入储存部分1208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5或图6或图7或图8或图9或图10所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种地址数据处理方法，其特征在于，包括：

获取目标地址信息；

对所述目标地址信息进行处理，获得目标字符串信息；

根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；

其中，所述第一数据集包括尾部词及其尾部地址类型标注，所述第二数据集包括第二地址信息及其第一切分地址、第二切分地址、地址类型标注。

2.如权利要求1所述的方法，其特征在于，根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息，包括：

将所述目标字符串信息与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息；和/或

根据所述目标字符串信息与所述第二数据集中的各第二地址信息的相似度确定所述目标地址类型信息。

3.如权利要求2所述的方法，其特征在于，将所述目标字符串信息与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息包括：

若所述目标字符串信息与所述第一数据集中的各尾部词匹配失败，则对所述目标字符串信息进行切分，获得目标切分地址；

将所述目标切分地址与所述第一数据集中的各尾部词进行匹配，并将匹配成功的尾部词的尾部地址类型标注作为所述目标地址类型信息。

4.如权利要求2所述的方法，其特征在于，根据所述目标字符串信息与所述第二数据集中的各第二地址信息的相似度确定所述目标地址类型信息包括：

对所述目标字符串信息进行切分，获得第一目标部分和第二目标部分；

将所述第一目标部分与所述第二数据集中的各第一切分地址进行匹配；

将匹配成功的各第一切分地址及其第二地址信息、第二切分地址、地址类型标注整合为第一匹配地址集合；

计算所述第二目标部分与所述第一匹配地址集合中各第二切分地址的相似度，并将相似度大于预设阈值的第二切分地址及其第二地址信息、第一切分地址、地址类型标注整合为第二匹配地址集合；

根据所述第二匹配地址集合中各第二地址信息的地址类型标注和/或所述相似度确定所述目标地址信息的目标地址类型信息。

5.如权利要求4所述的方法，其特征在于，计算所述第二目标部分与所述第一匹配地址集合中各第二切分地址的相似度包括：

计算所述第二目标部分与所述第一匹配地址集合中的所述各第二切分地址之间的编辑距离；

将所述第一匹配地址集合中每个第二切分地址的文本长度与所述第二目标部分的文本长度之间的最大值作为所述各第二切分地址的目标文本长度；

根据所述编辑距离与所述目标文本长度确定所述第二目标部分与所述第一匹配地址集合中的所述各第二切分地址的相似度。

6.如权利要求4所述的方法，其特征在于，根据所述第二匹配地址集合中各第二地址信息的地址类型标注和/或所述相似度确定所述目标地址信息的目标地址类型信息包括：

统计所述第二匹配地址集合中各地址类型标注的个数，并将具有最大个数的地址类型标注作为所述目标地址信息的目标类型信息；和/或

将相似度最大的第二切分地址对应的地址类型标注作为所述目标地址信息的目标类型信息。

7.如权利要求1所述的方法，其特征在于，还包括：

获取兴趣点数据集，所述兴趣点数据集包括第一地址信息及其一级分类信息；

基于一级分类信息与地址类型的映射关系确定各第一地址信息的地址类型标注；

对所述各第一地址信息的尾部词及其地址类型标注进行统计，获得各尾部词在各地址类型标注下的概率值；

根据所述各尾部词在各地址类型标注下的概率值确定所述各尾部词的尾部地址类型标注，并根据所述各尾部词及其尾部地址类型标注生成所述第一数据集。

8.如权利要求1所述的方法，其特征在于，还包括：

获取样本数据集，所述样本数据集包括第二地址信息及其地址类型标注；

对所述地址文本信息进行切分，获得所述第二地址信息的第一切分地址与第二切分地址；

根据所述第二地址信息及其第一切分地址、第二切分地址、地址类型标注生成所述第二数据集。

9.一种地址数据处理装置，其特征在于，包括：

目标地址获取模块，配置为获取目标地址信息；

目标地址处理模块，配置为对所述地址文本数据进行处理，获得目标字符串信息；

地址类型生成模块，配置为根据第一数据集和/或第二数据集对所述目标字符串信息进行处理，获得所述目标地址信息的目标地址类型信息；

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。