CN101996247A

CN101996247A - 地址数据库的建构方法及装置

Info

Publication number: CN101996247A
Application number: CN 201010540090
Authority: CN
Inventors: 万鑫; 时金
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2010-11-10
Filing date: 2010-11-10
Publication date: 2011-03-30
Anticipated expiration: 2030-11-10
Also published as: CN101996247B

Abstract

本发明揭示了一种范式地址数据库的建构方法，其特征在于，该方法包括：获取原始地址数据；对所述原始地址数据进行统计分析，并基于统计分析结果产生范式地址；将所述范式地址归类入范式地址数据库。本发明还揭示了一种地址数据库的建构装置。本发明的有益效果是：运用统计方法通过地址属性对待分类地址进行切词分类，并存储至范式地址数据库，使得本发明的地址数据库建构识别率和效率较高，且准确率也较高。

Description

地址数据库的建构方法及装置

【技术领域】

本发明涉及一种地址数据库的建构方法以及装置，尤其是指一种基于统计方法的智能地址数据库建构方法及装置。

【背景技术】

过去十几年以来，随着互联网技术的发展，人们越来越依赖于互联网提供的丰富、快捷、及时的信息。但是如何在浩如烟海的信息中找到待搜寻的信息，成为一项迫切需要解决的问题，相应地，众多的互联网搜索引擎及对应的网站应运而生，这中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google.cn)。

在众多需要搜寻的信息中，一类重要的信息是搜寻地址信息，这类的需求在搜寻在线电子地图信息时特别得到重视。所谓的在线电子地图相对于传统的纸质地图或单机的电子地图，其具有更新及时、便于查询、使用直观简洁、以及提供的信息丰富等诸多优点，目前在中国的在线电子地图提供者中比较被广泛推荐的包括百度公司的百度地图(map.baidu.com)和谷歌公司的google地图(ditu.google.cn)，其中尤其以百度公司的百度地图更加满足中国使用者的使用习惯而得到了广泛应用。

其中，当在线电子地图的使用者将某个待查询地址输入在线电子地图的地址搜索框进行查询时，该待查询地址会在已建构的地址数据库中进行查询。

然而，现有的构建地址数据库技术存在若干缺陷。现有的地址数据库在建构时只是利用词典、词表、后缀关键字列表和人工总结的方式将接收到的地址数据分词后分类入地址数据库。而接收到的地址并不一定都能在词典、词表、后缀关键字列表中有相应匹配的地址信息。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)接收到的地址信息并不完整，其通过词典、词表、后缀关键字并不能识别其地址类型，从而无法进行对该地址信息分类入地址数据库。

另外，现有的构建地址数据库技术往往是通过人工来适应接收到的地址数据，举例说明：若接收到的地址为“中关村大街南100号”时，其首先通过词典、词表、后缀关键字列表，进行分词，如，后缀关键字列表可能是：“街”、“道”、“路”、“号”等，那么在遇到如“街”、“道”、“路”、“号”等关键字时，即在关键字后进行分词，举例说明：若接收到的地址为“中关村大街南100号”，则通过后缀关键字列表，将该地址分词为“中关村大街”、“南”、“100号”；在分词结束后，再通过人工适应的方式，为分词后的地址信息进行属性标注，其属性标注顺序为：道路名-方位名-门牌名，如在“中关村大街”中加入属性为道路名、“南”加入方位名、“100号”中加入属性为门牌名。然而，若接收到的地址为“中关村大街100号南”，除通过上述分词将其分为“中关村大街”、“100号”、“南”后，还要为该分词后的地址信息添加新的属性标注顺序为：道路名-门牌名-方位名，并对该分词后的地址进行属性标注，如在“中关村大街”中加入属性为道路名、“100号”中加入属性为门牌名、“南”加入方位名。

上述的地址数据建构方法，因要不断的加入新的属性标注顺序，从而导致处理过程较为复杂，效率较低，另外，只是通过词典、词表、后缀关键词的方式进行分词和属性标注，会导致识别率及准确率较低。

因此，需要提供一种改进的地址数据库建构方法及装置。

【发明内容】

本发明的目的在于提供一种经过改进的地址数据库的建构方法，所述的方法基于输入的大量原始地址数据建立范式地址数据库。

本发明的另一目的在于提供一种经过改进的地址数据库的建构装置，所述的装置基于输入的大量原始地址数据建立范式地址数据库。

相应地，本发明的一种实施方式的地址数据库的建构方法包括：

S1、获取原始地址数据；

S2、对所述原始地址数据进行统计分析，并基于统计分析结果产生范式地址；

S3、将所述范式地址归类入范式地址数据库。

作为本发明的进一步改进，所述S2包括以下步骤：

通过统计分析对所述原始地址数据进行分词；

通过分词结果产生所述范式地址。

作为本发明的进一步改进，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若匹配，则直接输出所述原始地址数据作为范式地址。

作为本发明的进一步改进，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若不匹配，则进入S2。

作为本发明的进一步改进，所述S2步骤包括：

识别未知地址信息前的第一地址信息；

识别未知地址信息后的第二地址信息；

在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；

将概率最高的地址类型信息结合所述第一地址信息和所述第二地址信息产生范式地址。

作为本发明的进一步改进，所述S2步骤还包括：

将所述概率最高的地址类型信息与预设的阈值比较，若高于所述阈值，则将所述地址类型信息结合所述第一地址信息和所述第二地址信息产生范式地址。

作为本发明的进一步改进，若低于所述阈值，则进入分词模型步骤：分词模型对所述原始地址数据分类并产生范式地址。

作为本发明的进一步改进，在所述分词模型步骤前，还包括以下步骤：

地址数据获取：获取原始地址数据；

生成语料：将若干条所述原始地址数据依据制定的范式标准分词成语料；

学习语料：基于所述语料，通过机器学习方式构建所述分词模型。

作为本发明的进一步改进，所述机器学习方式为条件随机场方式。

作为本发明的进一步改进，所述机器学习方式为支持向量机方式。

作为本发明的进一步改进，所述机器学习方式为隐马尔可夫模型。

作为本发明的进一步改进，所述S3具体包括以下步骤：

地址库设立步骤：建立一个树状结构的范式地址库；

地址输入步骤：接收所述范式地址；

地址分类步骤：分析所述范式地址，并将所述范式地址按照所述树状结构归类至所述范式地址库中。

作为本发明的进一步改进，所述范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。

作为本发明的进一步改进，所述地址分类步骤还包括将所述范式地址分类到所述标准范式地址库中至少一个叶节点上。

作为本发明的进一步改进，所述范式地址库的树状结构包括基于地址逻辑层次的行政区域层和子地址层。

作为本发明的进一步改进，所述的行政区域层包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。

作为本发明的进一步改进，所述的子地址层至少包括道路类地址、区域类地址与地标类地址的其中之一。

作为本发明的进一步改进，所述的道路类地址用于定义以道路为首的具体地址。

作为本发明的进一步改进，所述的区域类地址用于定义以小区为首的具体地址。

作为本发明的进一步改进，所述的地标类地址用于定义一个具体的位置点。

相应地，本发明的另一种实施方式的地址数据库的建构方法包括：

S1、获取原始地址数据；

S2、对所述原始地址数据进行统计分析，并基于统计分析结果产生候选范式地址；

S3、将所述候选范式地址归类入范式地址数据库。

作为本发明的进一步改进，所述S2包括以下步骤：

通过统计分析对所述原始地址数据进行分词；

通过分词结果产生所述范式地址。

作为本发明的进一步改进，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若匹配，则直接输出所述原始地址数据作为范式地址。

作为本发明的进一步改进，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若不匹配，则进入S2。

作为本发明的进一步改进，所述S2步骤包括：

识别未知地址信息前的第一地址信息；

识别未知地址信息后的第二地址信息；

作为本发明的进一步改进，所述S2步骤还包括：

地址数据获取：获取原始地址数据；

作为本发明的进一步改进，所述S3具体包括以下步骤：

地址库设立步骤：建立一个树状结构的范式地址库；

地址输入步骤：接收所述范式地址；

相应地，本发明的一种实施方式的地址数据库建构装置包括：

原始数据获取模块，用于获取原始地址数据；

地址统计分析模块，用于对所述原始地址数据进行统计分析，并基于统计分析结果产生范式地址；

范式地址生成模块，用于将所述范式地址归类入范式地址数据库。

作为本发明的进一步改进，所述的原始数据获取模块中的原始地址信息包括文本信息和坐标信息。

作为本发明的进一步改进，所述地址数据库建构装置还包括分词模型：对所述原始地址数据分类并产生范式地址。

作为本发明的进一步改进，所述分词模型包括：

生成语料模块：用于将若干条所述原始地址数据依据制定的范式标准分词成语料；

学习语料模块：用于基于所述语料，通过机器学习方式构建所述分词模型。

作为本发明的进一步改进，所述范式地址生成模块还包括：

地址库设立单元，用于建立一个树状结构的范式地址库；

地址输入单元，用于接收所述范式地址；

地址分类单元，用于分析所述范式地址，并将所述范式地址按照所述树状结构归类至所述范式地址库中。

相应地，本发明的另一种实施方式的地址数据库建构装置包括：

原始数据获取模块，用于获取原始地址数据；

地址统计分析模块，用于对所述原始地址数据进行统计分析，并基于统计分析结果产生候选范式地址；

范式地址生成模块，用于将所述候选范式地址归类入范式地址数据库。

作为本发明的进一步改进，所述地址数据库建构装置还包括分词模型：对所述原始地址数据分类并产生候选范式地址。

作为本发明的进一步改进，所述分词模型包括：

作为本发明的进一步改进，所述范式地址生成模块还包括：

地址库设立单元，用于建立一个树状结构的范式地址库；

地址输入单元，用于接收所述范式地址；

本发明的有益效果是：运用统计方法通过地址属性对待分类地址进行切词分类，并存储至范式地址数据库，使得本发明的地址数据库建构识别率和效率较高，且准确率也较高。

【附图说明】

图1是本发明一种实施方式的地址数据库建构方法的流程图。

图2是本发明另一种实施方式的地址数据库建构方法的流程图。

图3是本发明一种实施方式的地址数据库建构装置的结构示意图。

图4是本发明一种实施方式的地址数据库建构方法的流程图。

图5是本发明另一种实施方式的地址数据库建构方法的流程图。

图6是本发明另一种实施方式的地址数据库建构装置的结构示意图。

图7是本发明的范式地址生成模块的结构示意图。

图8是本发明的范式地址生成方法的流程图。

图9是本发明的地址库设定单元的范式地址库架构示意图。

图10是本发明建构分词模型的流程图。

图11是本发明建构分词模型的模块结构示意图。

【具体实施方式】

为了对发明的技术特征、发明目的和技术效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示步骤相同的部分。在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。

首先参考图1，本发明的一种实施方式的地址数据库建构方法包括以下步骤：

S1、获取原始地址数据。其中，该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

S2、统计分析所述原始地址数据，基于统计分析结果进行分词并产生范式地址。该步骤将大量原始地址数据基于已有的地址数据资源库进行统计分析，并基于某个地址信息在已有的地址是数据资源库中出现的频率，产生范式地址。需要此步骤的原因在于，所述的原始地址数据并不一定都是可直接将其分类到范式地址数据库的范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址数据可能不符合范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，所述的统计分析方法是：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，若高于所述阈值，则直接使用该概率最高的地址类型信息。

S3、将所述范式地址归类入范式地址数据库。值得一提的是：同一个原始地址数据，在存入范式地址数据库时，可能为多个存储地址，例如，原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其经过分词后得到“北京海淀区”、“上地十街10号”、“百度大厦”，则在存入该数据库时，该存储地址则可能为两个：一是“北京市海淀区上地十街10号”；二是“北京市海淀区百度大厦”，其是根据行政区域+道路类地址、行政区域+地标类地址的规则进行分类存储。如上述例子中，行政区域为北京市海淀区、道路类地址为上地十街10号、地标类地址为百度大厦。所述存储方式将在后续说明书中进行详细揭示。

首先参考图2，本发明的另一种实施方式的地址数据库建构方法包括以下步骤：

S1’、获取原始地址数据。其中，该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

S2’、统计分析所述原始地址数据，基于统计分析结果进行分词并产生候选范式地址。该步骤将大量原始地址数据基于已有的地址数据资源库进行统计分析，并基于某个地址信息在已有的地址是数据资源库中出现的频率，产生候选范式地址。该候选范式地址在其后的S3’步骤，将对其进行处理，并分类存入至范式地址数据库中。需要此步骤的原因在于，所述的原始地址数据并不一定都是可直接将其分类到范式地址数据库的候选范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址数据可能不符合候选范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，所述的统计分析方法是：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为候选范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为候选范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，若高于所述阈值，则直接使用该概率最高的地址类型信息。

S3’、将所述候选范式地址处理并归类入范式地址数据库。所述的处理，指的是将该候选范式地址对应范式地址数据库的树形图，将其格式调整为完全符合该范式地址树形图中的分支或叶节点。值得一提的是：同一个原始地址数据，在存入范式地址数据库时，可能为多个存储地址，例如，原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其经过分词后得到“北京海淀区”、“上地十街10号”、“百度大厦”，则在存入该数据库时，该存储地址则可能为两个：一是“北京市海淀区上地十街10号”；二是“北京市海淀区百度大厦”，其是根据行政区域+道路类地址、行政区域+地标类地址的规则进行分类存储。如上述例子中，行政区域为北京市海淀区、道路类地址为上地十街10号、地标类地址为百度大厦。所述存储方式将在后续说明书中进行详细揭示。

相应地，请参考图3，为本发明一种实施方式的地址数据库建构装置，其包括原始数据获取模块1，地址统计分析模块2，以及范式地址生成模块4。

其中，原始数据获取模块1用于获取包含大量地址信息的原始地址数据。其中，该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

地址统计分析模块2用于统计分析所述原始地址数据，基于统计分析结果进行分词并产生范式地址或候选范式地址。该模块将大量原始地址数据基于已有的地址数据资源库进行统计分析，并基于某个地址信息在已有的地址是数据资源库中出现的频率，产生范式地址或候选范式地址。需要此模块的原因在于，所述的原始地址数据并不一定都是可直接将其分类到范式地址数据库的候选范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址数据可能不符合候选范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，所述的统计分析方法是：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址或候选范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址或候选范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，若高于所述阈值，则直接使用该概率最高的地址类型信息。

范式地址生成模块4用于将所述范式地址归类入范式地址数据库。需要指出的是，在本发明另一实施方式中，该步骤接收到的是候选范式地址，该步骤需要将该候选范式地址进行处理，再存入至范式地址数据库。所述的处理，指的是将该候选范式地址对应范式地址数据库的树形图，将其格式调整为完全符合该范式地址树形图中的分支或叶节点。所述的“范式地址”所指的是通过原始数据获取模块1、地址统计分析模块2、范式地址生成模块4获得的符合范式数据库格式的地址信息。这些地址信息将按照本发明的图9所描述的格式要求分类至对应的子地址层下面的地址类型中去，此部分将在后段文字描述图9时有详细介绍。值得一提的是：同一个原始地址数据，在存入地址数据库时，可能为多个存储地址，例如，原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其经过分词后得到“北京海淀区”、“上地十街10号”、“百度大厦”，则在存入该数据库时，该存储地址则可能为两个：一是“北京市海淀区上地十街10号”；二是“北京市海淀区百度大厦”，其是根据行政区域+道路类地址、行政区域+地标类地址的规则进行分类存储。如上述例子中，行政区域为北京市海淀区、道路类地址为上地十街10号、地标类地址为百度大厦。

再参考图4，作为本发明的一种实施方式，该地址数据库的建构方法还可由上述步骤进行扩展，变形为下述详细工作流程：

步骤S10：获取原始地址数据。该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

步骤S11：针对某个具体的地址信息，判断所述的地址信息是否符合范式地址的要求，若符合要求，则直接进入步骤S16，若不符合要求则进入步骤S12。

步骤S12：即地址统计分析步骤，用于所述的大量地址信息基于已有的地址数据资源库进行统计分析，并基于某个地址信息在所有地址信息中出现的频率，产生范式地址。需要此步骤的原因在于，所述的原始地址信息并不一定都是完整的可以直接适用于步骤S16的范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址信息并不符合步骤S16范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，所述的统计分析方法是：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，进入S13步骤。

步骤S13：若所述概率高于设定的阈值，则所述地址信息作为范式地址使用，并直接进入步骤S16；若所述概率低于设定的阈值，则该地址信息不可作为范式地址使用，并进入步骤S14。

步骤S14：分词模型分词步骤，用于对所述的经过步骤S13仍然无法处理的地址信息进行分析，并基于预先设定的分词模型，产生范式地址。在本发明的一个实施方式中，是基于条件随机场(conditional random field，CRF)学习预料的方法产生所述的“分词模型”，通过该分词模型进行分词并并产生范式地址，可同时输出所述范式地址的分词和属性标注信息。

步骤S16：范式地址生成步骤，用于对所述范式地址进行分类处理，并归类到对应的范式地址数据库中。所述的“范式地址”所指的是通过步骤S11、步骤S13、步骤S14获得的符合范式数据库格式的地址信息。这些地址信息将按照本发明的图9所描述的格式要求分类至对应的子地址层下面的地址类型中去，此部分将在后段文字描述图9时有详细介绍。

值得一提的是：在本发明的又一种实施方式中，也可不经过S11步骤，即直接将获取到的原始地址数据进入S12步骤进行统计分析。其具体判断或处理过程于上述步骤一致，在此不再赘述。

再参考图5，作为本发明的另一种实施方式，该地址数据库的建构方法还可由上述步骤进行扩展，变形为下述详细工作流程：

步骤S10’：获取原始地址数据。该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

步骤S11’：针对某个具体的地址信息，判断所述的地址信息是否符合候选范式地址的要求，若符合要求，则直接进入步骤S15’，若不符合要求则进入步骤S12’。

步骤S12’：即地址统计分析步骤，用于所述的大量地址信息基于已有的地址数据资源库进行统计分析，并基于某个地址信息在所有地址信息中出现的频率，产生候选范式地址。需要此步骤的原因在于，所述的原始地址信息并不一定都是完整的可以直接适用于步骤S15’的候选范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址信息并不完整，所述的不完整地址信息并不符合步骤S15’的候选范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，所述的统计分析方法是：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为候选范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为候选范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，进入S13’步骤。

步骤S13’：若所述概率高于设定的阈值，则所述地址信息作为候选范式地址使用，并直接进入步骤S15’；若所述概率低于设定的阈值，则该地址信息不可作为候选范式地址使用，并进入步骤S14’。

步骤S14’：分词模型分词步骤，用于对所述的经过步骤S 13’仍然无法处理的地址信息进行分析，并基于预先设定的分词模型，产生候选范式地址。在本发明的一个实施方式中，是基于条件随机场(conditional random field，CRF)学习预料的方法产生所述的“分词模型”，通过该分词模型进行分词并并产生候选范式地址，可同时输出所述候选范式地址的分词和属性标注信息。

步骤S15’：收集通过步骤S11’、步骤S13’、步骤S14’产生的候选范式地址信息。值得一提的是：同一个原始地址数据，产生的候选范式地址可能是多个，所述的候选范式地址的格式包括文本信息和坐标信息，例如：一个完整的原始地址数据“北京市海淀区中关村大街3号海龙大厦B座213-406(x，y)”经过处理后输出的候选范式地址可能包括两个：其一，道路类候选范式地址，包括文本信息“北京市海淀区中关村大街3号”和坐标信息(x，y)；其二，地标类候选范式地址，包括文本信息“北京市海淀区海龙大厦”和坐标信息(x，y)，其中(x，y)是不变的，代表着上述的道路类候选范式地址和地标类候选范式地址实质上是同一具体地址。

步骤S16’：范式地址生成步骤，用于对所述的候选范式地址进行分类处理，并归类到对应的范式地址数据库中。所述的“候选范式地址”所指的是通过步骤S11’、步骤S13’、步骤S14’获得的符合范式数据库格式的地址信息。这些地址信息将按照本发明的图9所描述的格式要求分类至对应的子地址层下面的地址类型中去，此部分将在后段文字描述图9时有详细介绍。

值得一提的是：在本发明的又一种实施方式中，也可不经过S11’步骤，即直接将获取到的原始地址数据进入S12’步骤进行统计分析。其具体判断或处理过程于上述步骤一致，在此不再赘述。

相应地，参考图6，本发明的地址数据库的建构装置可地扩展包括：原始数据获取模块10，地址统计分析模块11，分词模型模块12，以及范式地址生成模块13。

原始数据获取模块10用于获取包含大量地址信息的原始地址数据。其中，该原始地址数据包括地址的文本信息和坐标信息，所述的文本信息所指的是任何可以表示道路类地址、区域类地址、地标类地址的至少其中之一的具体地址，所述坐标信息所指的是该原始地址数据的具体坐标点。例如：原始地址数据为“北京市海淀区上地十街10号百度大厦+(x，y)”，其中，“北京市海淀区上地十街10号百度大厦”为该原始地址数据的文本信息，(x，y)为该原始地址数据的坐标信息。

地址统计分析模块11其包括统计分析单元和地址数据资料库单元(图中未示出)。并用于对所述的大量地址信息基于已有的地址数据资源库进行统计分析，并基于某个地址信息在所有地址信息中出现的频率，产生范式地址或候选范式地址。需要此模块的原因在于，所述的原始地址数据并不一定都是可直接将其分类到范式地址数据库的范式地址或候选范式地址。非常常见的可能是，通过诸多途径(例如互联网数据收集途径)获取到的原始地址数据可能不符合候选范式地址或候选范式地址的格式要求，需要基于统计分析的方法进行进一步处理，以对该原始地址数据进行分词和/或标注该原始地址数据的属性，该统计方法的处理步骤为：识别未知地址信息前的第一地址信息；识别未知地址信息后的第二地址信息；在地址数据资源库中统计所述第一地址信息和第二地址信息中间的地址类型信息，并计算所述地址类型信息出现的概率；将概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址或候选范式地址，值得一提的是：在本发明的最佳实施方式中，首先需要将该概率最高的地址类型信息与预先设定的阈值比较，若高于所述阈值，则使用该概率最高的地址类型信息与第一地址信息和第二地址信息结合为范式地址或候选范式地址。举例说明：若原始地址信息为“北京市海淀区中关村大街西施胡同13号”，则对该地址从前向后进行识别，当“北京市海淀区”、“中关村大街”均可通过地址数据资源库识别出其是行政区域地址和道路类地址，而“西施胡同”不能识别时，则进行反向识别，即从后向前识别，当“13号”被识别出为“门牌地址时”，则在所述地址数据资源库中进行统计，统计道路类地址到门牌类地址中间插入的地址应该为何种地址类型信息，若经过统计后，发现胡同类地址的概率最高，并比较该概率与预先设定的阈值，判断是否将该地址信息作为候选范式地址或范式地址。

分词模型模块12用于对所述的经过地址统计分析模块11仍然无法处理的地址信息进行分析，并基于预先设定的分词模型，产生范式地址或候选范式地址。此处所称的“无法处理的地址信息”指的是经过所述的地址统计分析模块11处理过的地址信息基于统计分析的方法进行进一步处理后该概率低于设定阈值的地址信息。在本发明的一个实施方式中，是基于条件随机场(conditional random field，CRF)学习预料的方法产生所述的“预先设定的分词模型”，通过该分词模型进行分词，可同时输出所述范式地址或候选范式地址的分词和属性标注信息。关于CRF的工作原理请参考百度百科(http://baike.baidu.com/view/2510459.htm)中的介绍，在此不再赘述。需要注意的是，在本发明的其他实施方式中，所述的地址学习模型也可以通过支持向量机(Support Vector Machine，SVM)或者隐马尔可夫模型(HiddenMarkov Model，HMM)的方法建立，这些方法的原理都已经在业界得到应用，在此不再赘述。

范式地址生成模块13用于将所述分词结果组成候选范式地址或范式地址并存入地址数据库。所述的“候选范式地址”或“范式地址”所指的是通过原始数据获取模块10、地址统计分析模块11、分词模型模块12、范式地址生成模块13获得的符合范式数据库格式的地址信息。这些地址信息将按照本发明的图9所描述的格式要求本分类至对应的子地址层下面的地址类型中去，此部分将在后段文字描述图9时有详细介绍。

参考图7，本发明的范式地址生成模块包括地址库设立单元100，地址接收单元101，以及地址分类单元102。

地址库设立单元100用于建立一个树状结构的标准范式地址库，该树状的标准范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。关于所述的标准范式地址库的具体结构在后续段落中会结合图9再做详细的描述。

地址接收单元101用于接收范式地址或候选范式地址。在地址库设立单元100中已经建立标准范式地址的分类标准之后，理论上任何一个经过地址接收单元101接收并输入到所述的标准范式地址库中的范式地址或候选范式地址都可以找到对应的位置存放，判断所述的存放位置通过所述地址分类单元102来完成。

地址分类单元102用于分析所述范式地址或候选范式地址，并将其分类到所述标准范式地址库的某个分支。

相应地，参考图8，范式地址生成模块对应的范式地址生成方法可分解为：地址库设立步骤S100，地址输入步骤S101，以及地址分类步骤S102。

地址库设立步骤S100建立一个树状结构的标准范式地址库，该树状的标准范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。关于所述的标准范式地址库的具体结构在后续段落中会结合图9再做详细的描述。在此不再赘述。

地址输入步骤S101接收范式地址或候选范式地址。在地址库设立单元100中已经建立标准范式地址的分类标准之后，理论上任何一个经过地址接收单元101接收并输入到所述的标准范式地址库中的范式地址或候选范式地址都可以找到对应的位置存放，判断所述的存放位置通过所述地址分类单元102来完成。

地址分类步骤S102分析所述范式地址或候选范式地址，并将其分类到所述标准范式地址库的某个分支。

参考图9，为更清晰地说明地址库设立单元100中的范式标准地址库的具体结构，以下以建立中华任命共和国行政区域内的电子地图的范式标准地址库为例做详细描述。一般说来，中国的行政区域划分包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。这四个层级是相对固定的，而且其数量和名称是可以对应于各地的地域名称而容易统计得到。因此，在标准范式地址库中，将这个四个层级合并起来总称为标准范式地址库的树状结构的第一层，即行政区域层90，在图9中相应地标识为第一层级为省/自治区/直辖市91；第二层级为市/自治州92；第三层级为区/县93；第四个层级为乡/镇/街道94。而在第四层级以下的具体地址名称则纷繁复杂、浩如烟海，然而，这诸多的具体地址名称可以归结为三种地址类型：即道路类地址81、区域类地址82、以及地标类地址83，这三类地址总称为标准范式地址库的树状结构的第二层，即子地址层80。当然，该子地址层80也可只包括上述三种地址的其中之一或其中之二。所述的道路类地址81用于定义以道路为首的具体地址，例如：a路b号、a路b弄等。所述的区域类地址82用于定义以小区为首的具体地址，例如：a小区b栋、a小区b期。所述的地标类地址83用于定义一个具体的位置点，例如：a大厦、b公园等。值得一提的是：上述的层级划分只是基于本发明的一个实施方式，即对中华人民共和国行政区域内地址的层次划分，当然，对于其他国家或地区的层次划分，可与上述划分不同，其只要是基于地址逻辑层次的划分即可，所述的地址逻辑层次可理解为，从一个较大的地址范围逐级缩小至较小的地址范围。

参照图10所示，为本发明的分词模型是通过以下方法得到的：

S1000、获取原始地址数据；

S1001、将若干条原始地址数据依据制定的范式标准分词成语料，其中，所谓的“范式标准”为上述图9中所述。

S1002、基于所述语料，通过机器学习的方式构建分词模型。其中，机器学习的方式可为条件随机场(conditional random field，CRF)学习语料的方法产生所述的“预先设定的分词模型”，通过该分词模型进行分词，可同时输出所述范式地址或候选范式地址的分词和属性标注信息。关于CRF的工作原理请参考百度百科(http://baike.baidu.com/view/2510459.htm)中的介绍，在此不再赘述。需要注意的是，在本发明的其他实施方式中，所述的地址学习模型也可以通过支持向量机(Support Vector Machine，SVM)或者隐马尔可夫模型(Hidden Markov Model，HMM)的方法建立，这些方法的原理都已经在业界得到应用，在此不再赘述。

相应地，参照图11所示，为本发明的建构分词模型包括以下模块：

地址数据获取模块1000：用于获取原始地址数据；

生成语料模块1001：用于将若干条原始地址数据依据制定的范式标准分词成语料，其中，所谓的“范式标准”为上述图9中所述。

学习语料模块1002：基于所述语料，通过机器学习的方式构建该分词模型。其中，机器学习的方式可为条件随机场(conditional random field，CRF)学习语料的方法产生所述的“预先设定的分词模型”，通过该分词模型进行分词，可同时输出所述范式地址或候选范式地址的分词和属性标注信息。关于CRF的工作原理请参考百度百科(http://baike.baidu.com/view/2510459.htm)中的介绍，在此不再赘述。需要注意的是，在本发明的其他实施方式中，所述的地址学习模型也可以通过支持向量机(Support Vector Machine，SVM)或者隐马尔可夫模型(Hidden Markov Model，HMM)的方法建立，这些方法的原理都已经在业界得到应用，在此不再赘述。

通过以上描述，可以得出，运用分词模型通过地址属性对待分类地址进行切词，并存储至标准范式地址数据库，使得本发明的地址数据库建构效率较高，且准确率也较高。

应当理解，虽然本说明书按照实施例加以描述，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。

Claims

1.一种范式地址数据库的建构方法，其特征在于，该方法包括：

S1、获取原始地址数据；

S3、将所述范式地址归类入范式地址数据库。

2.如权利要求1所述的方法，其特征在于，所述S2包括以下步骤：

通过统计分析对所述原始地址数据进行分词；

通过分词结果产生所述范式地址。

3.如权利要求1所述的方法，其特征在于，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若匹配，则直接输出所述原始地址数据作为范式地址。

4.如权利要求1所述的方法，其特征在于，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若不匹配，则进入S2。

5.如权利要求1所述的方法，其特征在于，所述S2步骤包括：

识别未知地址信息前的第一地址信息；

识别未知地址信息后的第二地址信息；

6.如权利要求5所述的方法，其特征在于，所述S2步骤还包括：

7.如权利要求6所述的方法，其特征在于，若低于所述阈值，则进入分词模型步骤：分词模型对所述原始地址数据分类并产生范式地址。

8.如权利要求7所述的方法，其特征在于，在所述分词模型步骤前，还包括以下步骤：

地址数据获取：获取原始地址数据；

9.如权利要求8所述的方法，其特征在于，所述机器学习方式为条件随机场方式。

10.如权利要求8所述的方法，其特征在于，所述机器学习方式为支持向量机方式。

11.如权利要求8所述的方法，其特征在于，所述机器学习方式为隐马尔可夫模型。

12.如权利要求1所述的方法，其特征在于，所述S3具体包括以下步骤：

地址库设立步骤：建立一个树状结构的范式地址库；

地址输入步骤：接收所述范式地址；

13.如权利要求12所述的方法，其特征在于，所述范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。

14.如权利要求13所述的方法，其特征在于，所述地址分类步骤还包括将所述范式地址分类到所述标准范式地址库中至少一个叶节点上。

15.如权利要求12所述的方法，其特征在于，所述范式地址库的树状结构包括基于地址逻辑层次的行政区域层和子地址层。

16.如权利要求15所述的方法，其特征在于，所述的行政区域层包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。

17.如权利要求15所述的方法，其特征在于，所述的子地址层至少包括道路类地址、区域类地址与地标类地址的其中之一。

18.如权利要求17所述的方法，其特征在于，所述的道路类地址用于定义以道路为首的具体地址。

19.如权利要求17所述的方法，其特征在于，所述的区域类地址用于定义以小区为首的具体地址。

20.如权利要求17所述的方法，其特征在于，所述的地标类地址用于定义一个具体的位置点。

21.一种范式地址数据库的建构方法，其特征在于，该方法包括：

S1、获取原始地址数据；

S3、将所述候选范式地址归类入范式地址数据库。

22.如权利要求21所述的方法，其特征在于，所述S2包括以下步骤：

通过统计分析对所述原始地址数据进行分词；

通过分词结果产生所述范式地址。

23.如权利要求21所述的方法，其特征在于，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若匹配，则直接输出所述原始地址数据作为范式地址。

24.如权利要求21所述的方法，其特征在于，所述的S1包括：

判断所述的原始地址数据是否与范式地址的格式匹配；

若不匹配，则进入S2。

25.如权利要求21所述的方法，其特征在于，所述S2步骤包括：

识别未知地址信息前的第一地址信息；

识别未知地址信息后的第二地址信息；

26.如权利要求25所述的方法，其特征在于，所述S2步骤还包括：

27.如权利要求26所述的方法，其特征在于，若低于所述阈值，则进入分词模型步骤：分词模型对所述原始地址数据分类并产生范式地址。

28.如权利要求27所述的方法，其特征在于，在所述分词模型步骤前，还包括以下步骤：

地址数据获取：获取原始地址数据；

29.如权利要求28所述的方法，其特征在于，所述机器学习方式为条件随机场方式。

30.如权利要求28所述的方法，其特征在于，所述机器学习方式为支持向量机方式。

31.如权利要求28所述的方法，其特征在于，所述机器学习方式为隐马尔可夫模型。

32.如权利要求21所述的方法，其特征在于，所述S3具体包括以下步骤：

地址库设立步骤：建立一个树状结构的范式地址库；

地址输入步骤：接收所述范式地址；

33.如权利要求32所述的方法，其特征在于，所述范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。

34.如权利要求33所述的方法，其特征在于，所述地址分类步骤还包括将所述范式地址分类到所述标准范式地址库中至少一个叶节点上。

35.如权利要求32所述的方法，其特征在于，所述范式地址库的树状结构包括基于地址逻辑层次的行政区域层和子地址层。

36.如权利要求35所述的方法，其特征在于，所述的行政区域层包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。

37.如权利要求35所述的方法，其特征在于，所述的子地址层至少包括道路类地址、区域类地址与地标类地址的其中之一。

38.如权利要求37所述的方法，其特征在于，所述的道路类地址用于定义以道路为首的具体地址。

39.如权利要求37所述的方法，其特征在于，所述的区域类地址用于定义以小区为首的具体地址。

40.如权利要求37所述的方法，其特征在于，所述的地标类地址用于定义一个具体的位置点。

41.一种地址数据库建构装置，其特征在于，该装置包括：

原始数据获取模块，用于获取原始地址数据；

42.如权利要求41所述的装置，其特征在于，所述的原始数据获取模块中的原始地址信息包括文本信息和坐标信息。

43.如权利要求41所述的装置，其特征在于，所述地址数据库建构装置还包括分词模型：对所述原始地址数据分类并产生范式地址。

44.如权利要求43所述的装置，其特征在于，所述分词模型包括：

45.如权利要求44所述的装置，其特征在于，所述机器学习方式为条件随机场方式。

46.如权利要求44所述的装置，其特征在于，所述机器学习方式为支持向量机方式。

47.如权利要求44所述的装置，其特征在于，所述机器学习方式为隐马尔可夫模型。

48.如权利要求41所述的装置，其特征在于，所述范式地址生成模块还包括：

地址库设立单元，用于建立一个树状结构的范式地址库；

地址输入单元，用于接收所述范式地址；

49.如权利要求48所述的装置，其特征在于，所述范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。

50.如权利要求48所述的装置，其特征在于，所述范式地址库的树状结构包括基于地址逻辑层次的行政区域层和子地址层。

51.如权利要求50所述的装置，其特征在于，所述的行政区域层包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。

52.如权利要求50所述的装置，其特征在于，所述的子地址层至少包括道路类地址、区域类地址与地标类地址的其中之一。

53.一种地址数据库建构装置，其特征在于，该装置包括：

原始数据获取模块，用于获取原始地址数据；

54.如权利要求53所述的装置，其特征在于，所述的原始数据获取模块中的原始地址信息包括文本信息和坐标信息。

55.如权利要求53所述的装置，其特征在于，所述地址数据库建构装置还包括分词模型：对所述原始地址数据分类并产生候选范式地址。

56.如权利要求55所述的装置，其特征在于，所述分词模型包括：

57.如权利要求56所述的装置，其特征在于，所述机器学习方式为条件随机场方式。

58.如权利要求56所述的装置，其特征在于，所述机器学习方式为支持向量机方式。

59.如权利要求56所述的装置，其特征在于，所述机器学习方式为隐马尔可夫模型。

60.如权利要求53所述的装置，其特征在于，所述范式地址生成模块还包括：

地址库设立单元，用于建立一个树状结构的范式地址库；

地址输入单元，用于接收所述范式地址；

61.如权利要求60所述的装置，其特征在于，所述范式地址库具有若干分支，每个分支的末端具有至少一个叶节点。

62.如权利要求60所述的装置，其特征在于，所述范式地址库的树状结构包括基于地址逻辑层次的行政区域层和子地址层。

63.如权利要求62所述的装置，其特征在于，所述的行政区域层包括四个层级：第一层级为省/自治区/直辖市；第二层级为市/自治州；第三层级为区/县；第四个层级为乡/镇/街道。

64.如权利要求62所述的装置，其特征在于，所述的子地址层至少包括道路类地址、区域类地址与地标类地址的其中之一。