CN111639493A

CN111639493A - 一种地址信息标准化方法、装置、设备及可读存储介质

Info

Publication number: CN111639493A
Application number: CN202010443924.4A
Authority: CN
Inventors: 江琳
Original assignee: Shanghai Weimeng Enterprise Development Co ltd
Current assignee: Shanghai Weimeng Enterprise Development Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-08

Abstract

本发明公开了一种地址信息标准化方法，包括：获取地址信息，并对地址信息进行分词处理，得到多个地址分词；确定各个地址分词对应的分词权重，并利用分词权重计算地址信息的多个相似度分值；在各个相似度分值中确定第一相似度分值和第二相似度分值，并计算第一相似度分值与第二相似度分值之间的相似度差值；当第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息；该方法利用区分度阈值进行判断，在区别足够大时即可确定正确的标准地址信息，提高标准地址信息的准确程度；此外，本发明还提供了一种装置、设备及计算机可读存储介质，也具有上述有益效果。

Description

一种地址信息标准化方法、装置、设备及可读存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种地址信息标准化方法、地址信息标准化装置、地址信息标准化设备及计算机可读存储介质。

背景技术

地址信息技术在我们生活中到处可见，如电商中用户输入的收货地址，使用标准规范的地理区域编码能有效地对邮寄地址进行快速识别和分发，在客户关系管理系统中，根据客户地址所属的地理区域可以合理分派跟进人员。同时随着大数据技术的发展，通讯地址信息也已经成为一项重要的数据分析维度，我们可以根据带有地理区域的大量数据信息，有效地分析地域相关的标签、偏好等信息。

通讯地址如果输入错误或者不规范，将会带来很大的不便，如收货地址的不规范输入，其地址编码不能正确地被识别，将会增大人工核对和分发的工作量。为了解决上述问题，相关技术通过自然语言处理技术使地址向量化，或者通过相似度转移矩阵等方法，找到相似度最高的标准地址信息。但是在某些情况下，多个候选地址内容十分相似，对应的相似度相近，在这种情况下容易选择到相似但并不准确的候选地址作为最后的标准地址信息，因此相关技术得到标准地址信息的准确程度较低。

因此，如何解决相关技术生成的标准地址信息准确程度较低的问题，是本领域技术人员需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种地址信息标准化方法、地址信息标准化装置、地址信息标准化设备及计算机可读存储介质，解决了解决相关技术生成的标准地址信息准确程度较低的问题。

为解决上述技术问题，本发明提供了一种地址信息标准化方法，包括：

获取地址信息，并对所述地址信息进行分词处理，得到多个地址分词；

确定各个所述地址分词对应的分词权重，并利用所述分词权重计算所述地址信息的多个相似度分值；

在各个所述相似度分值中确定第一相似度分值和第二相似度分值，并计算所述第一相似度分值与所述第二相似度分值之间的相似度差值；

当所述第一相似度分值处于预设相似度区间，且所述相似度差值大于区分度阈值时，将所述第一相似度分值对应的目标地址确定为所述地址信息对应的标准地址信息。

可选地，所述获取地址信息，并对所述地址信息进行分词处理，得到多个地址分词，包括：

获取所述地址信息，并利用关键词字典对所述地址信息进行关键词匹配处理；其中，所述关键词字典包括标准词、地址同音词、地址形似词和地址别名词；

将通过匹配的关键词确定为所述地址分词。

获取所述地址信息，并将所述地址信息进行拼音转换处理，得到地址拼音信息；

利用拼音关键词字典对所述地址拼音信息进行切分处理，得到拼音关键词；

利用拼音映射字典对各个所述拼音关键词进行映射处理，得到所述地址分词。

可选地，所述确定各个地址分词对应的分词权重，包括：

利用所述地址信息与所述地址分词进行匹配字数统计，得到各个所述地址分词对应的匹配字数；

分别利用所述匹配字数计算各个所述地址分词对应的匹配权重；

按照权重系数字典，确定各个所述地址分词对应的权重系数；

利用所述匹配权重与所述权重系数相乘，得到各个所述地址分词对应的所述分词权重。

可选地，所述利用所述分词权重计算所述地址信息的多个相似度分值，包括：

在各个所述地址分词中确定目标地址分词；

确定所述目标地址分词对应的各个父级地址，并利用所述分词权重计算所述父级地址对应的父级相似度分值；

利用所述目标地址分词的目标分词权重与对应的所述父级相似度分值相加，得到所述地址信息对应的各个所述相似度分值。

可选地，所述在各个所述相似度分值中确定第一相似度分值和第二相似度分值，包括：

将各个所述相似度分值中的最大相似度分值确定为所述第一相似度分值；

将各个所述相似度分值中的第二大相似度分值确定为所述第二相似度分值。

可选地，所述将所述第一相似度分值对应的目标地址确定为所述地址信息对应的标准地址信息，包括：

确定所述第一相似度分值对应的第一目标地址分词和第一父级地址；

获取所述第一目标地址分词和所述第一父级地址对应的标准地址分词；

利用所述标准地址分词组成所述标准地址信息。

本发明还提供了一种地址信息标准化装置，包括：

获取模块，用于获取地址信息，并对所述地址信息进行分词处理，得到多个地址分词；

相似度分值计算模块，用于确定各个所述地址分词对应的分词权重，并利用所述分词权重计算所述地址信息的多个相似度分值；

差值计算模块，用于在各个所述相似度分值中确定第一相似度分值和第二相似度分值，并计算所述第一相似度分值与所述第二相似度分值之间的相似度差值；

标准化模块，用于当所述第一相似度分值处于预设相似度区间，且所述相似度差值大于区分度阈值时，将所述第一相似度分值对应的目标地址确定为所述地址信息对应的标准地址信息。

本发明还提供了一种地址信息标准化设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的地址信息标准化方法。

本发明还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的地址信息标准化方法。

本发明提供的地址信息标准化方法，获取地址信息，并对地址信息进行分词处理，得到多个地址分词；确定各个地址分词对应的分词权重，并利用分词权重计算地址信息的多个相似度分值；在各个相似度分值中确定第一相似度分值和第二相似度分值，并计算第一相似度分值与第二相似度分值之间的相似度差值；当第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息。

可见，该方法在对地址信息分词处理过后，根据各个地址分词的分词权重计算地址信息的多个相似度分值，各个相似度分值分别对应于不同的地址组合。通过计算第一相似度分值和第二相似度分值的相似度差值，在第一相似度分值大于相似度阈值时，说明第一相似度分值对应的候选地址与地址信息的匹配程度较高，该候选地址可能为正确的标准地址信息；在相似度差值大于区分度阈值时，说明第一相似度分值与第二相似度分值之间的区别足够大，不会因相似度分值相近而选择了错误地地址作为标准地址信息，因此可以将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息。同时设立相似度阈值和区分度阈值，而相似度分值与对应的候选地址相对应，因此可以在存在多个相近的候选地址时，利用区分度阈值判断候选地址之间的区别是否足够大，在区别足够大时即可确定第一相似度分值对应的目标地址为正确的标准地址信息，因此可以提高标准地址信息的准确程度，解决了相关技术生成的标准地址信息准确程度较低的问题。

此外，本发明还提供了一种地址信息标准化装置、地址信息标准化设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种地址信息标准化方法流程图；

图2为本发明实施例提供的一种相似度分值计算方法流程图；

图3为本发明实施例提供的一种标准地址信息生成方法流程图；

图4为本发明实施例提供的一种地址信息标准化装置的结构示意图；

图5为本发明实施例提供的一种地址信息标准化设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

地址信息技术在我们生活中到处可见，如电商中用户输入的收货地址。通讯地址如果输入错误或者不规范，将会带来很大的不便，如收货地址的不规范输入，其地址编码不能正确地被识别，将会增大人工核对和分发的工作量。

为了解决上述问题，相关技术通过自然语言处理技术使地址向量化，或者通过相似度转移矩阵等方法，找到相似度最高的标准地址信息。但是在某些情况下，根据原始的地址信息可以得到多个相近或相似的候选地址，而相似度最高的候选地址并不一定是正确的标准地址信息。在这种情况下，相关技术很容易选择了相似但并不准确的候选地址作为最后的标准地址信息，标准地址信息的准确程度较低。故需要人工对识别后的标准地址信息进行二次核验，没有很好地起到减少人工工作量的效果。

为了解决上述问题，本申请提供了一种地址信息标准化方法，以及对应的装置、设备和可读存储介质。在地址信息具有多个相似度分值时，利用区分度阈值对相似度分值之间的差值进行比对，只有在确定两个候选地址区别足够大时再确定标准地址信息，因此提高了标准地址信息的准确程度。

具体的，在一种可能的实施方式中，请参考图1，图1为本发明实施例提供的一种地址信息标准化方法流程图。该方法包括：

S101：获取地址信息，并对地址信息进行分词处理，得到多个地址分词。

地址信息即为需要进行标准化处理的信息，其具体内容本实施例不做限定，例如可以为包括不规范简写、错别字的地址。地址信息可以由用户输入，或者可以由其它设备或终端发送，或者可以通过对文字、音频、图像等进行识别得到。

在得到地址信息后，对地址信息进行分词处理，以便得到多个地址分词。本实施例并不限定分词处理时的具体处理方法和过程，可以根据实际需要进行选择和设置。需要说明的是，分词处理应当按照从长到短的原则进行，即对地址信息进行从长到短的匹配，将匹配通过的词确定为地址分词。例如，将检测到地址信息的第一个字符表示“新”时，按照从长到短的原则，先后将地址信息与“新疆维吾尔自治区”、“新疆自治区”、“新疆省”、“新疆”以及其他有关的同音词、形似词等进行匹配，并将通过匹配的分词确定为地址分词。由于地址信息一般至少包括省—市—区三级，或者至少包括其中的任意两级，每一级还可能存在多个可能对应的分词，因此在对地址信息进行处理后，可以得到多个地址分词。

S102：确定各个地址分词对应的分词权重，并利用分词权重计算地址信息的多个相似度分值。

分词权重即为各个地址分词在地址信息中所占的相似度分值，不同的地址分词权重进行组合，可以得到地址信息的多个相似度分值，各个相似度分值分别对应于一个可能的候选标准地址信息(即候选地址)。需要说明的是，本实施例仅对存在多个相似度分值的情况进行讨论。在一些可能的情况中，各级地址仅存在一个毫无疑问的地址分词，因此各个地址分词的分词权重仅能计算得到一个相似度分值，在这种情况下，地址信息所对应的标准地址信息只可能有一个，是毫无争议的。

本实施例并不限定各个地址分词对应的分词权重如何计算，例如可以通过自然语言处理将其向量化，在向量化后计算其对应的分词权重；或者为了提高确定分词权重的速度，减少所需的时间，可以存储有字典，利用字典对地址分词进行匹配，进而得到其对应的分词权重。在得到分词权重后，按照相似度分值计算的规则对分词权重进行计算，得到对应的相似度分值。相似度分值计算规则可以为相加的规则，或者可以为相减的规则，或者还可以根据需要对其进行设置。

S103：在各个相似度分值中确定第一相似度分值和第二相似度分值，并计算第一相似度分值与第二相似度分值之间的相似度差值。

第一相似度分值即为最可能为标准地址信息的候选地址对应的相似度分值，第二相似度分值为第二可能为标准地址信息的候选地址对应的相似度分值。根据相似度分值计算规则的不同，第一相似度分值和第二相似度分值的具体内容可能不同，例如当相似度分值规则为相加时，第一相似度分值可以为最大的相似度分值；当相似度分值规则为相减时，第一相似度分值可以为最小的相似度分值。在各个相似度分值中确定第一相似度分值和第二相似度分值后，利用其计算相似度差值。

相似度差值用于表现第一相似度分值和第二相似度分值之间的区别，由于相似度分值与对应的候选地址相对应，因此相似度差值同样反映了第一相似度分值对应的候选地址，以及第二相似度分值对应的候选地址之间的区别。当相似度差值较小时，说明两个候选地址之间的区别较小，当相似度差值较大时，说明两个候选地址之间的区别较大。

S104：当第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息。

相似度阈值和区分度阈值的具体大小本实施例不做限定。当第一相似度分值处于预设相似度区间时，说明第一相似度分值与地址信息之间的匹配程度较高，可能为地址信息对应的标准地址信息。在相似度差值小于区分度阈值时，说明第一相似度分值对应的候选地址和第二相似度分值对应的候选地址区别较小，由于地址信息输入得不规范，因此两个候选地址都可能是地址信息对应的标准地址信息，虽然第一相似度分值对应的候选地址与地址信息的匹配程度更高，但是可能由于地址信息本身的内容不规范程度较高，导致第一相似度分值对应的候选地址反而并不是标准地址信息。

因此，在第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，说明第一相似度分值对应的候选地址与第二相似度分值对应的候选地址区别较大，且第一相似度分值与地址信息的匹配程度最高，因此将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息，完成对地址信息的标准化。

应用本发明实施例提供的地址信息标准化方法，在对地址信息分词处理过后，根据各个地址分词的分词权重计算地址信息的多个相似度分值，各个相似度分值分别对应于不同的地址组合。通过计算第一相似度分值和第二相似度分值的相似度差值，在第一相似度分值大于相似度阈值时，说明第一相似度分值对应的候选地址与地址信息的匹配程度较高，该候选地址可能为正确的标准地址信息；在相似度差值大于区分度阈值时，说明第一相似度分值与第二相似度分值之间的区别足够大，不会因相似度分值相近而选择了错误地地址作为标准地址信息，因此可以将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息。同时设立相似度阈值和区分度阈值，而相似度分值与对应的候选地址相对应，因此可以在存在多个相近的候选地址时，利用区分度阈值判断候选地址之间的区别是否足够大，在区别足够大时即可确定第一相似度分值对应的目标地址为正确的标准地址信息，因此可以提高标准地址信息的准确程度，解决了相关技术生成的标准地址信息准确程度较低的问题。

基于上述实施例，在一种可能的实施方式中，可以利用关键词字典对地址信息进行分词，具体的：

步骤11：获取地址信息，并利用关键词字典对地址信息进行关键词匹配处理；其中，关键词字典包括标准词、地址同音词、地址形似词和地址别名词。

在本实施例中，关键词字典包括有标准词，即地址标准词，还包括地址同音词、地址形似词和地址别名词等。在获取地址信息后，利用关键词字典按照从长到短的原则对地址信息进行关键词匹配处理。

步骤12：将通过匹配的关键词确定为地址分词。

在匹配处理结束后，将通过匹配的关键词确定为地址分词。地址信息一般由至少两级的多级地址构成，例如为省—市—区，或者为直辖市—区，每一级地址可能对应于多个地址分词，需要说明的是，地址分词均为正确的地址表达，即为地址标准词。例如，当地址信息为“广东广洲黄浦区”时，利用关键词字典对其进行关键词匹配处理后，可以得到“广东”、“广州”、“黄浦区”、“黄埔区”四个地址分词，其中，地址信息中的“黄埔区”，在进行关键词匹配后，可以得到“黄浦区”和“黄埔区”两个地址分词，分别对应于“广东省，广州市，黄埔区”中的“黄埔区”，以及“上海市，黄浦区”中的“黄浦区”。

在另一种可能的实施方式中，还可以采用拼音关键词字典进行分词处理，以便在出现地址谐音词时进行更好地分词，具体的：

步骤21：获取地址信息，并将地址信息进行拼音转换处理，得到地址拼音信息。

在本实施例中，为了提高对地址谐音词的分词效果，可以在获取地址信息后，对其进行拼音转换处理，得到地址拼音信息。例如当地址信息为“广东广洲黄浦区”时，对其进行拼音转换处理后得到的地址拼音信息为“guǎng-dōng-guǎng-zhōu-huáng-pǔ-qū”。

步骤22：利用拼音关键词字典对地址拼音信息进行切分处理，得到拼音关键词。

在得到地址拼音信息后，利用拼音关键词字典，按照从长到短的原则对地址拼音信息进行切分处理，得到拼音关键词。例如，当得到的地址拼音信息为“guǎng-dōng-guǎng-zhōu-huáng-pǔ-qū”时，拆分得到的拼音关键词为“guǎng-dōng”、“guǎng-zhōu”和“huáng-pǔ-qū”。

步骤23：利用拼音映射字典对各个拼音关键词进行映射处理，得到地址分词。

在得到拼音关键词后，利用拼音映射字典对各个拼音关键词进行映射处理，即可得到对应的地址分词。例如，对“guǎng-dōng”进行映射处理后，可以得到“广东”，对“guǎng-zhōu”进行映射处理后，可以得到“广州”，对“huáng-pǔ-qū”进行映射处理后，可以得到“黄浦区”和“黄埔区”。

基于上述实施例，在一种可能的实施方式中，为了提高分词权重的计算速度，进而提高整个地址信息标准化的效率，可以利用字典确定各个地址分词对应的分词权重。具体请参考图2，图2为本发明实施例提供的一种相似度分值计算方法流程图，包括：

S201：利用地址信息与地址分词进行匹配字数统计，得到各个地址分词对应的匹配字数。

为了更准确地计算各个地址分词对应的分词权重，本实施例采用了加权的计算方法对分词权重进行计算，在计算分词权重前，需要确定各个地址分词对应的匹配权重。本实施例中，利用匹配字数计算对应的匹配权重，具体的，基于地址信息，对各个地址分词进行匹配字数统计，即判断各个地址分词与地址信息中对应内容的匹配程度，即可得到地址分词对应的匹配字数。例如，当地址信息为“广东广洲黄浦区”，地址分词包括“广东”、“广州”、“黄浦区”、“黄埔区”四个时，利用“广东”与地址信息中对应的内容，即“广东”进行匹配字数统计，匹配字数为2；利用“广州”与地址信息中对应的内容，即“广洲”进行匹配字数统计，匹配字数为1；利用“黄浦区”与地址信息中对应的内容，即“黄浦区”进行匹配字数统计，匹配字数为3；利用“黄埔区”与地址信息中对应的内容，即“黄浦区”进行匹配字数统计，匹配字数为2。

S202：分别利用匹配字数计算各个地址分词对应的匹配权重。

由于匹配字数越多，匹配的程度就越高，因此可以利用各个地址分词的匹配字数与地址分词的字数相除，即可得到对应的匹配权重。基于S201步骤中的例子，可以计算出“广东”的匹配权重为1，“广州”的匹配权重为1/2，“黄浦区”的匹配权重为1，“黄埔区”的匹配权重为2/3。

S203：按照权重系数字典，确定各个地址分词对应的权重系数。

权重系数字典用于规定各个地址分词在各种情况下对应的权重系数，本实施例并不限定权重系数字典对各种情况的分类和细分情况，可以根据实际需要进行设置。例如，可以根据地址信息与地址分词之间的匹配程度，以及地址分词是否唯一这两个方面构建权重系数字典，权重系数字典可以如下：

其中，匹配程度即为地址信息中的内容与地址分词的匹配程度，例如当地址信息为“广东广洲黄浦区”，地址分词包括“广东”、“广州”、“黄浦区”、“黄埔区”四个时，“广东广洲黄浦区”与“广东”为简称匹配，且“广东”唯一，因此其对应的权重系数可以为2；“广东广洲黄浦区”与“广州”为简称匹配，且“广州”唯一，因此其对应的权重系数可以为2；“广东广洲黄浦区”与“黄浦区”为全称匹配，且“黄浦区”唯一，因此其对应的权重系数可以为4；“广东广洲黄浦区”与“黄埔区”为全称匹配，且“黄埔区”唯一，因此其对应的权重系数可以为4。

在一种可能的实施方式中，地址分词为“宝山区”，由于“宝山区”可能为“上海市宝山区”或“黑龙江省双鸭山市宝山区”，因此“宝山区”并不唯一。

S204：利用匹配权重与权重系数相乘，得到各个地址分词对应的分词权重。

在得到权重系数后，利用匹配权重与权重系数相乘，即可得到各个地址分词对应的分词权重。例如，“广东”的分词权重为2*1＝2，“广州”的分词权重为2*1/2＝1，“黄浦区”的分词权重为1*4＝4，“黄埔区”的分词权重为4*2/3＝2.6667。

S205：在各个地址分词中确定目标地址分词。

目标地址分词即为级别最低的地址分词，即在地址信息中最低级别的内容对应的地址分词，例如当地址信息为省—市—区结构时，目标地址分词即为区一级地址分词；当地址信息为省—市结构时，目标地址分词即为市一级地址分词。

S206：确定目标地址分词对应的各个父级地址，并利用分词权重计算父级地址对应的父级相似度分值。

需要说明的是，目标地址分词对应的父级地址不仅仅包括其直接对应的父级地址，还包括其直接对应的父级地址的父级地址。例如当目标地址分词为区一级地址分词时，其直接对应的父级地址为市一级地址，该目标地址分词对应的父级地址不仅包括市一级地址，当地址信息中包括省一级地址分词时，目标地址分词还包括省一级地址。例如当目标地址分词为“黄浦区”，地址信息为“广东广洲黄浦区”时，则对应的父级地址为“上海市”；或者当目标地址分词为“黄埔区”，地址信息为“广东广洲黄浦区”时，则对应的父级地址为“广东省，广州市”。

在确定父级地址后，利用分词权重计算父级地址对应的父级相似度分值。在本实施例中，利用父级地址对应的分词权重逐级相加后再进行累加，得到对应的父级相似度分值，当父级地址中的内容不具有对应的分词权重时，将其分词权重设置为0，在其他可能的实施方式中，还可以将其设置为其他值，例如-0.5。例如，当目标地址分词为“黄浦区”，地址信息为“广东广洲黄浦区”时，则对应的父级地址为“上海市”，由于“上海市”并不具有对应的分词权重，因此其对应的分词权重为0，父级相似度分值也为0；当目标地址分词为“黄埔区”，地址信息为“广东广洲黄浦区”时，则对应的父级地址为“广东省，广州市”，“广东省”与地址分词“广东”相对应，分词权重为2，“广州市”与地址分词“广州”相对应，分词权重为1，因此“广东省”对应的相似度分值为2，“广州市”对应的相似度分值为2+1＝3，至此，逐级相加的过程结束，开始进行累加，因此对应的父级相似度分值为2+3＝5。

S207：利用目标地址分词的目标分词权重与对应的父级相似度分值相加，得到地址信息对应的各个相似度分值。

在得到父级相似度分值后，将目标地址分词的目标分词权重与对应的父级相似度分值相加，即可得到地址信息对应的相似度分值。例如将“黄埔区”对应的目标分词权重与父级相似度分值相加，2.6667+5＝7.6667，则相似度分值为7.6667；将“黄浦区”对应的目标分词权重与父级相似度分值相加，4+0＝4，则相似度分值为4。

基于上述实施例，在一种可能的实施方式中，由于采用了相加的方式计算相似度分值，因此可以按照由大到小的顺序选择第一相似度分值和第二相似度分值。具体请参考图3，图3为本发明实施例提供的一种标准地址信息生成方法流程图，包括：

S301：将各个相似度分值中的最大相似度分值确定为第一相似度分值。

在本实施例中，相似度分值越大，说明对应的候选地址和地址信息的匹配程度越高，因此在本实施例中，将权重之中的最大相似度分值确定为第一相似度分值。

S302：将各个相似度分值中的第二大相似度分值确定为第二相似度分值。

同理，两个相似度分值越接近，说明其对应的候选地址的匹配程度越高，因此将相似度分值中第二大的相似度分值，即第二大相似度分值确定为第二相似度分值。

S303：确定第一相似度分值对应的第一目标地址分词和第一父级地址。

在本实施例中，由于通过相加的方式计算相似度分值，因此可以将预设相似度区间设置为[a，+∞]，a的具体大小本实施例不做限定。，当第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，说明第一相似度分值对应的候选地址为正确的标准地址信息。因此确定对应其对应的第一目标地址分词和对应的第一父级地址。

例如，当地址信息为“广东广洲黄浦区”时，对应的第一相似度分值为7.6667，第二相似度分值为4。本实施例中，可以将a设置为4，将区分度阈值设置为1，由于7.6667大于4，且7.6667-4＝3.6667大于1，因此确定第一相似度分值对应的候选地址为标准地址信息，因此确定其对应的第一目标地址分词为“黄埔区”，对应的第一父级地址为“广东省，广州市”。

S304：获取第一目标地址分词和第一父级地址对应的标准地址分词。

本实施例并不限定第一目标地址分词和第一父级地址分别对应的标准地址分词的具体内容，例如可以为其本身，即“黄埔区”对应的标准地址分词即为“黄埔区”，“广州市”对应的标准地址分词即为“广州市”；或者还可以包括其他信息，例如包括地址编码信息，即“黄埔区”对应的标准地址分词为“4400112，黄埔区”，“广州市”对应的标准地址分词为“440100，广州市”。

S305：利用标准地址分词组成标准地址信息。

在得到标准地址分词后，利用其组成对应的标准地址信息，完成地址信息的标准化。

下面对本发明实施例提供的地址信息标准化装置进行介绍，下文描述的地址信息标准化装置与上文描述的地址信息标准化方法可相互对应参照。

请参考图4，图4为本发明实施例提供的一种地址信息标准化装置的结构示意图，包括：

获取模块410，用于获取地址信息，并对地址信息进行分词处理，得到多个地址分词；

相似度分值计算模块420，用于确定各个地址分词对应的分词权重，并利用分词权重计算地址信息的多个相似度分值；

差值计算模块430，用于在各个相似度分值中确定第一相似度分值和第二相似度分值，并计算第一相似度分值与第二相似度分值之间的相似度差值；

标准化模块440，用于当第一相似度分值处于预设相似度区间，且相似度差值大于区分度阈值时，将第一相似度分值对应的目标地址确定为地址信息对应的标准地址信息。

可选地，获取模块410，包括：

关键词匹配单元，用于获取地址信息，并利用关键词字典对地址信息进行关键词匹配处理；其中，关键词字典包括标准词、地址同音词、地址形似词和地址别名词；

地址分词确定单元，用于将通过匹配的关键词确定为地址分词。

可选地，获取模块410，包括：

拼音转换单元，用于获取地址信息，并将地址信息进行拼音转换处理，得到地址拼音信息；

切分单元，用于利用拼音关键词字典对地址拼音信息进行切分处理，得到拼音关键词；

映射单元，用于利用拼音映射字典对各个拼音关键词进行映射处理，得到地址分词。

可选地，相似度分值计算模块420，包括：

匹配字数统计单元，用于利用地址信息与地址分词进行匹配字数统计，得到各个地址分词对应的匹配字数；

匹配权重计算单元，用于分别利用匹配字数计算各个地址分词对应的匹配权重；

权重系数确定单元，用于按照权重系数字典，确定各个地址分词对应的权重系数；

分词权重计算单元，用于利用匹配权重与权重系数相乘，得到各个地址分词对应的分词权重。

可选地，相似度分值计算模块420，包括：

目标地址分词确定单元，用于在各个地址分词中确定目标地址分词；

父级相似度分值计算单元，用于确定目标地址分词对应的各个父级地址，并利用分词权重计算父级地址对应的父级相似度分值；

相似度分值计算单元，用于利用目标地址分词的目标分词权重与对应的父级相似度分值相加，得到地址信息对应的各个相似度分值。

可选地，差值计算模块430，包括：

第一相似度分值确定单元，用于将各个相似度分值中的最大相似度分值确定为第一相似度分值；

第二相似度分值确定单元，用于将各个相似度分值中的第二大相似度分值确定为第二相似度分值。

可选地，标准化模块440，包括：

确定单元，用于确定第一相似度分值对应的第一目标地址分词和第一父级地址；

标准地址分词获取单元，用于获取第一目标地址分词和第一父级地址对应的标准地址分词；

标准地址信息生成单元，用于利用标准地址分词组成标准地址信息。

下面对本发明实施例提供的地址信息标准化设备进行介绍，下文描述的地址信息标准化设备与上文描述的地址信息标准化方法可相互对应参照。

请参考图5，图5为本发明实施例提供的一种地址信息标准化设备的结构示意图。其中地址信息标准化设备500可以包括处理器501和存储器502，还可以进一步包括多媒体组件503、信息输入/信息输出(I/O)接口504以及通信组件505中的一种或多种。

其中，处理器501用于控制地址信息标准化设备500的整体操作，以完成上述的地址信息标准化方法中的全部或部分步骤；存储器502用于存储各种类型的数据以支持在地址信息标准化设备500的操作，这些数据例如可以包括用于在该地址信息标准化设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(StaticRandom Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于地址信息标准化设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

地址信息标准化设备500可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器(Digital SignalProcessor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的地址信息标准化方法。

下面对本发明实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的地址信息标准化方法可相互对应参照。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的地址信息标准化方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明所提供的地址信息标准化方法、地址信息标准化装置、地址信息标准化设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种地址信息标准化方法，其特征在于，包括：

2.根据权利要求1所述的地址信息标准化方法，其特征在于，所述获取地址信息，并对所述地址信息进行分词处理，得到多个地址分词，包括：

将通过匹配的关键词确定为所述地址分词。

3.根据权利要求1所述的地址信息标准化方法，其特征在于，所述获取地址信息，并对所述地址信息进行分词处理，得到多个地址分词，包括：

4.根据权利要求1所述的地址信息标准化方法，其特征在于，所述确定各个地址分词对应的分词权重，包括：

5.根据权利要求4所述的地址信息标准化方法，其特征在于，所述利用所述分词权重计算所述地址信息的多个相似度分值，包括：

在各个所述地址分词中确定目标地址分词；

6.根据权利要求5所述的地址信息标准化方法，其特征在于，所述在各个所述相似度分值中确定第一相似度分值和第二相似度分值，包括：

7.根据权利要求5所述的地址信息标准化方法，其特征在于，所述将所述第一相似度分值对应的目标地址确定为所述地址信息对应的标准地址信息，包括：

利用所述标准地址分词组成所述标准地址信息。

8.一种地址信息标准化装置，其特征在于，包括：

9.一种地址信息标准化设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的地址信息标准化方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的地址信息标准化方法。