CN113656531A

CN113656531A - 一种电网地址结构化的处理方法及装置

Info

Publication number: CN113656531A
Application number: CN202110922914.3A
Authority: CN
Inventors: 蔡文婷
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-16
Anticipated expiration: 2041-08-12
Also published as: CN113656531B

Abstract

本发明公开了一种电网地址结构化的处理方法及装置，该方法包括：将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果，其中，条件随机场模型是基于标准地址数据库预先训练得到的；根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果；将目标地址分级结果确定为目标电网地址的结构化地址。可见，本发明能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。

Description

一种电网地址结构化的处理方法及装置

技术领域

本发明涉及电网技术领域，尤其涉及一种电网地址结构化的处理方法及装置。

背景技术

地址信息在社会活动中无处不在，尤其在电力系统领域，随着电网系统的不断扩张，电网地址信息同样以指数形式增长，对电网地址进行规范的结构化越来越受到大家的重视。

实际应用过程中，电力管理系统中对电网地址进行结构化处理，通常是基于地址词典来实现，基于地址词典即预先建立地址数据的词库，在地址词库中遍历搜索匹配，进而找出相同的地址数据，建立不同来源数据之间的关联关系。然而，这种方法在面对复杂电网地址场景时，存在地址数据匹配效率低且匹配准确率低的问题，这导致了电网地址结构化效率低且准确低的问题，无法满足业务对标准地址的需求。

可见，提供一种高效的电网地址结构化的处理方法以提高结构化效率及准确率显得尤为重要。

发明内容

本发明提供了一种电网地址结构化的处理方法及装置，能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。

为了解决上述技术问题，本发明第一方面公开了一种电网地址结构化的处理方法，所述方法包括：

将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果，其中，所述条件随机场模型是基于所述标准地址数据库预先训练得到的；

根据预设的地址分级模型，对所述目标地址分词结果进行分级匹配，得到所述目标电网地址对应的目标地址分级结果；

将所述目标地址分级结果确定为所述目标电网地址的结构化地址。

作为一种可选的实施方式，在本发明第一方面中，所述将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果，包括：

根据预设的词位标签以及条件随机场的特征模板，对所述目标电网地址进行分词处理，得到所述目标电网地址对应的多个地址分词结果，其中，每个所述地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签；

根据每个所述分词字段中每个字对应的词位标签的统计数据，构建概率图模型；

根据所述概率图模型，计算每个所述地址分词结果对应的概率值；

从所有所述地址分词结果中筛选出概率值最大的地址分词结果，确定为所述目标电网地址对应的目标地址分词结果。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述概率图模型，计算每个所述地址分词结果对应的概率值，包括：

根据所述概率图模型，采用动态规划算法求解所述概率图模型，得到每个所述地址分词结果对应的概率值；

其中，所述动态规划算法包括前向算法、后向算法、维特比算法中的至少一种动态规划算法。

作为一种可选的实施方式，在本发明第一方面中，所述根据预设的地址分级模型，对所述目标地址分词结果进行分级匹配，得到所述目标电网地址对应的目标地址分级结果，包括：

根据预设的地址分级模型，确定每个地址分级对应的分级标签；

将所述目标地址分词结果中的每个分词字段与所述标准地址数据库中的分级内容进行匹配，得到每个所述分词字段对应的多个分级匹配结果以及每个所述分级匹配结果对应的概率值；

针对每个所述分词字段，从所述分词字段对应的所有所述分级匹配结果中筛选出概率值最大的分级匹配结果，确定为所述分词字段的最优地址分级结果；

根据每个所述分词字段的最优地址分级结果，确定每个所述分词字段的目标分级标签；

在每个所述分词字段之后添加每个所述分词字段的目标分级标签，得到每个所述分词字段对应的地址分级结果；

将所有所述分词字段对应的地址分级结果确定为所述目标电网地址对应的目标地址分级结果。

作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：

在所述将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果之前，获取待处理电网地址，并对所述待处理电网地址进行预处理操作，得到所述待处理电网地址对应的目标电网地址，所述预处理操作用于将所述待处理电网地址转化成条件随机场模型所要求的数据格式；

其中，所述预处理操作包括特殊字符清理、无效字段清理、添加词位标签中的至少一种。

获取来自外部系统的历史地址，根据统一化标准模型，对所有所述历史地址进行地址统一化操作，得到多个统一化地址，其中，每个所述统一化地址对应多个所述历史地址，所述统一化标准模型包括同义词模型、同音字模型、错别字模型、历史描述模型、简易描述模型中的至少一种；

将所有所述统一化地址确定为标准地址，并将所有所述标准地址添加到标准地址数据库。

从所述标准地址数据库中筛选出与所述目标电网地址的结构化地址相匹配的目标标准地址；

生成所述目标标准地址与所述目标电网地址的结构化地址之间的关联关系表，其中，所述关联关系表包括所述目标标准地址的地址信息、所述目标标准地址的地理空间坐标以及所述目标标准地址对应的多个历史地址。

本发明第二方面公开了一种电网地址结构化的处理装置，所述装置包括：

分词模块，用于将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果，其中，所述条件随机场模型是基于所述标准地址数据库预先训练得到的；

分级模块，用于根据预设的地址分级模型，对所述目标地址分词结果进行分级匹配，得到所述目标电网地址对应的目标地址分级结果；

确定模块，用于将所述目标地址分级结果确定为所述目标电网地址的结构化地址。

作为一种可选的实施方式，在本发明第二方面中，所述分词模块模块，包括：

分词子模块，用于根据预设的词位标签以及条件随机场的特征模板，对所述目标电网地址进行分词处理，得到所述目标电网地址对应的多个地址分词结果，其中，每个所述地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签；

统计子模块，用于根据每个所述分词字段中每个字对应的词位标签的统计数据，构建概率图模型；

计算子模块，用于根据所述概率图模型，计算每个所述地址分词结果对应的概率值；

筛选子模块，用于从所有所述地址分词结果中筛选出概率值最大的地址分词结果，确定为所述目标电网地址对应的目标地址分词结果。

作为一种可选的实施方式，在本发明第二方面中，所述计算子模块，具体用于：

作为一种可选的实施方式，在本发明第二方面中，所述分级模块包括：

第一确定子模块，用于根据预设的地址分级模型，确定每个地址分级对应的分级标签；

匹配子模块，用于将所述目标地址分词结果中的每个分词字段与所述标准地址数据库中的分级内容进行匹配，得到每个所述分词字段对应的多个分级匹配结果以及每个所述分级匹配结果对应的概率值；

第二确定子模块，用于根据每个所述分词字段的最优地址分级结果，确定每个所述分词字段的目标分级标签；

第三确定子模块，用于在每个所述分词字段之后添加每个所述分词字段的目标分级标签，得到每个所述分词字段对应的地址分级结果；将所有所述分词字段对应的地址分级结果确定为所述目标电网地址对应的目标地址分级结果。

作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

预处理模块，用于获取待处理电网地址，并对所述待处理电网地址进行预处理操作，得到所述待处理电网地址对应的目标电网地址，所述预处理操作用于将所述待处理电网地址转化成条件随机场模型所要求的数据格式，并触发所述分词模块执行所述的将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果的操作；

获取模块，用于获取来自外部系统的历史地址，根据统一化标准模型，对所有所述历史地址进行地址统一化操作，得到多个统一化地址，其中，每个所述统一化地址对应多个所述历史地址，所述统一化标准模型包括同义词模型、同音字模型、错别字模型、历史描述模型、简易描述模型中的至少一种；

匹配模块，用于从所述标准地址数据库中筛选出与所述目标电网地址的结构化地址相匹配的目标标准地址；以及生成所述目标标准地址与所述目标电网地址的结构化地址之间的关联关系表，其中，所述关联关系表包括所述目标标准地址的地址信息、所述目标标准地址的地理空间坐标以及所述目标标准地址对应的多个历史地址。

本发明第三方面公开了另一种电网地址结构化的处理装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的任意一种电网地址结构化的处理方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的任意一种电网地址结构化的处理方法中的部分或全部步骤。

与现有技术相比，本发明具有以下有益效果：

本发明中，将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果，其中，条件随机场模型是基于标准地址数据库预先训练得到的；根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果；将目标地址分级结果确定为目标电网地址的结构化地址。可见，本发明能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种电网地址结构化的处理方法的流程示意图；

图2是本发明实施例公开的另一种电网地址结构化的处理方法的流程示意图；

图3是本发明实施例公开的一种电网地址结构化的处理装置的结构示意图；

图4是本发明实施例公开的另一种电网地址结构化的处理装置的结构示意图；

图5是本发明实施例公开的又一种电网地址结构化的处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种方法及装置，该电网地址结构化的处理方法及装置能够对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。此外，本发明一个或多个实施例可以应用于任意需要对电网地址进行结构化处理的方案中，比如电网用电地址统计系统、电网营销管理系统、电网网格运营系统等，本发明实施例亦不做限定。

实施例一

请参阅图1，图1是本发明实施例公开的一种电网地址结构化的处理方法的流程示意图。其中，图1所描述的方法可以应用于电网地址结构化的处理装置中，该电网地址结构化的处理装置可以是一个独立的装置，也可以集成在电网信息处理设备中，本发明实施例不做限定。如图1所示，该电网地址结构化的处理方法可以包括以下操作：

101、将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果。

本发明实施例中所涉及的条件随机场，是一种鉴别式机率模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。本发明采用的条件随机场模型是基于标准地址数据库预先训练得到的。其中，标准地址数据库中的地址数据都是标准化的地址，以标准地址数据库作为训练样本，可以对条件随机场模型进行迭代训练，得到训练好的条件随机场模型。本发明采用预先训练好的条件随机场模型进行电网地址的结构化处理，也即对目标电网地址进行分词。其中，目标电网地址包括供电系统或是GIS电网系统中存量的用电地址，这些地址通常都是基层业务人员录入的非结构化地址，缺乏统一的标准，名称具有随意性。通过本步骤的处理，可以得到非结构化的目标电网地址对应的分词结果，例如，针对“南山学府路”这一电网地址，在经过条件随机场模型进行分词处理之后，可以得到“南山|学府路”的分词结果。

102、根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果。

本发明实施例中，预设的地址分级模型包括：省-市-区/县-乡镇-供电所-网格-台变-道路-门牌号-POI-建筑物-单元-楼层-房间-X/Y坐标。需要说明的是，本发明所指出的预设的地址分级模型仅仅是示例的，实际可以根据应用场景需求进行调整或是设置伸缩等级，本发明实施例不做限定。例如，其中的“X坐标和Y坐标”级别可以作为“房间”级别的子级别，也即上述伸缩等级。根据预设的分级地址模型，将条件随机场确定出的目标地址分词结果中的每个字段进行分级匹配，即确定每个字段具体属于哪一个级别。比如，南山|学府路对应的两个字段分别是“南山”和“学府路”，通过分级匹配，可以得到“南山(区)”和“学府路(道路)”这种目标地址分级结果。其中，分级匹配的方法可以是与标准地址数据库中的地址分级内容进行分级匹配，匹配的具体算法还是可以采用与分级匹配相关条件随机场模型进行，也可以采用其他的匹配方式，例如地址词典查找等，本发明实施例不做限定。。

103、将目标地址分级结果确定为目标电网地址的结构化地址。

本发明实施例中，在确定出目标地址分级结果之后可以直接将目标地址分级结果确定为结构化地址，此外还可以对目标地址分级结果按照预设要求，进行格式化处理，生成满足预设要求的结构化形式。例如，在步骤102中得到“南山(区)”和“学府路(道路)”这种目标地址分级结果之后，可以继续按照预设的地址分级模型对该目标地址分级结果进行级别补齐，生成“广东省|深圳市|南山区|学府路”的结构化地址。

可见，本发明实施例所描述的方法能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。

在一个可选的实施例中，该方法将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果，可以包括以下操作：

根据预设的词位标签以及条件随机场的特征模板，对目标电网地址进行分词处理，得到目标电网地址对应的多个地址分词结果，其中，每个地址分词结果多个分词字段以及每个分词字段中每个字对应的词位标签；

根据每个分词字段中每个字对应的词位标签的统计数据，构建概率图模型；

根据概率图模型，计算每个地址分词结果对应的概率值；

从所有地址分词结果中筛选出概率值最大的地址分词结果，确定为目标电网地址对应的目标地址分词结果。

本发明实施例中，预设的词位标签采用B、M、E、S四种标签，其中，B表示词首、M表示词中、E表示词尾、S表示单字词，还可以选用B、M、E三种标签，或者采用更多的其他标签，本发明实施例对此不做限定。此外，本发明实施例中采用的条件随机场的特征模板是Unigram形式，详细的特征模板如下，每一行代表个特征模板，专门的宏％x[row,col]用于确定当前分析的某个字在目标电网地址中的位置，row用于确定与当前字的相对行数，col用于确定绝对行数：

U00:％x[-2,0]；

U01:％x[-1,0]；

U02:％x[0,0]；

U03:％x[1,0]；

U04:％x[2,0]；

U05:％x[-2,0]/％x[-1,0]/％x[0,0]；

U06:％x[-1,0]/％x[0,0]/％x[1,0]；

U07:％x[0,0]/％x[1,0]/％x[2,0]；

U08:％x[-1,0]/％x[0,0]；

U09:％x[0,0]/％x[1,0]；

举例说明，需要进行结构化的目标电网地址是：南山学府路(下标：-2,-1,0,1,2)，当前分析的位置为：“学”时，U00可以用于计算“南”和“学”之间的概率联系的特征模板，U05可以用于计算“南”、“山”、“学”和“学”之间的概率联系的特征模板，U08可以用于计算“山”、“学”和“学”之间的概率联系的特征模板。针对条件随机场的特征模型，形成特征函数集合，每一个特征函数都可以用来为一个字的词位标签结果评分，把特征函数集合中所有特征特征函数对同一个地址分词结果的评分综合起来，得到该地址分词结果的最终评分值。将评分值转化为概率值，同时，根据所有特征函数以及每个分词字段中每个字对应的词位标签的统计数据，构建概率图模型。进而，通过概率图模型，计算出每个地址分词结果对应的概率值，选择概率值最大的地址分词结果作为目标电网地址对应的目标地址分词结果。

可见，本发明实施例所描述的方法能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，结合条件随机场的特征模板，提高电网地址结构化效率及准确率。

在另一个可选的实施例中，该方法根据概率图模型，计算每个地址分词结果对应的概率值，可以包括以下操作；

根据概率图模型，采用动态规划算法求解概率图模型，得到每个地址分词结果对应的概率值；

其中，动态规划算法包括前向算法、后向算法、维特比算法中的至少一种动态规划算法。

本发明实施例中，采用动态规划算法来求解概率图模型，来得到最优的地址分词结果，也即根据概率图模型中的节点(本发明中的每个字即为一个节点)，逐点动态计算最优规划的过程。本发明可以单独采用前向算法或者、后向算法或者维特比算法来得到最优的地址分词结果，还可以采用不同算法相结合的方式来，本发明实施例不做限定。例如，当判断节点之间的关联关系(相当于概率值)超过预设阈值时，也即判断节点直接可以大概率的组成分词字段，此时采用前向或者后向算法计算节点之间对应的概率值，而对于分词字段与字段之间可以采用维特比算法来求解概率。

可见，本发明实施例所描述的方法能够采用动态规划算法求取最优的地址分词结果，极大提高分词的效率，同时可以提供多种求解概率图模型的算法和组合算法方式，进一步优化求解过程，提高获得地址结构化结果的准确度和精度。

在又一个可选的实施例中，该方法根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果，可以包括以下操作：

将目标地址分词结果中的每个分词字段与标准地址数据库中的分级内容进行匹配，得到每个分词字段对应的多个分级匹配结果以及每个分级匹配结果对应的概率值；

针对每个分词字段，从分词字段对应的所有分级匹配结果中筛选出概率值最大的分级匹配结果，确定为分词字段的最优地址分级结果；

根据每个分词字段的最优地址分级结果，确定每个分词字段的目标分级标签；

在每个分词字段之后添加每个分词字段的目标分级标签，得到每个分词字段对应的地址分级结果；

将所有分词字段对应的地址分级结果确定为目标电网地址对应的目标地址分级结果。

本发明实施例中，预设的地址分级模型包括：省-市-区/县-乡镇-供电所-网格-台变-道路-门牌号-POI-建筑物-单元-楼层-房间-X/Y坐标，通过分级模型可以确定每个地址分级对应的分级标签。将目标地址分词结果中的每个分词字段与标准地址数据库中的分级内容进行匹配，例如，目标地址分词结果有包含“南山”字段，标准地址数据库中关于“南山”的标准地址分级有“南山区”、“南山县”、“南山路”等，由此可以分别得到“南山”字段对应到标注地址分级的概率“南山区”80％、“南山县”15％、“南山路”5％，进而可以筛选出概率值最大的“南山区”为最优的地址分级结果。

由此，可以确定整个目标电网地址中每个分词字段对应的目标分级标签，接上述举例，“南山”对应“区”，“学府”对应“路”，在每个分词字段之后添加每个分词字段的目标分级标签，可以得到“南山区学府路”，也即将其确定为目标电网地址对应的目标地址分级结果。

可见，本发明实施例所描述的方法能够采用地址分级模型，得到更精细化的电网地址结构化结果，提高电网地址的规范化程度，有利于提高后续地址查询或管理的效率，方便精细化运营。

实施例二

请参阅图2，图2是本发明实施例公开的另一种电网地址结构化的处理的流程示意图。其中，图2所描述的方法可以应用于电网地址结构化的处理装置中，该电网地址结构化的处理装置可以是一个独立的装置，也可以集成在电网信息处理设备中，本发明实施例不做限定。如图2所示，该电网地址结构化的处理方法可以包括以下操作：

201、获取待处理电网地址，并对待处理电网地址进行预处理操作，得到待处理电网地址对应的目标电网地址。

本发明实施例中，预处理操作用于将待处理电网地址转化成条件随机场模型所要求的数据格式，其中，预处理操作包括特殊字符清理、无效字段清理、添加词位标签中的至少一种。

本发明实施例中，对待处理电网地址进行预处理操作，以将待处理电网地址转化成条件随机场模型所要求的数据格式，以适用实际条件随机场模型在计算机系统上的实际应用。其中预处理操作可以包括：

(1)特殊字符清理：电网地址中只保留中文文字(也可以是其他自然语言的文字)，清楚一些特殊字符，比如：回车符、*号、#号、分割字符等；

(2)无效字段清理：电网地址中可以将一些无效，不影响地址理解的字段清除掉，比如：行政分级字段(可能影响后续本发明的地址分级操作，需要清除)、重复字段(比如，南山学府学府路)等；

(3)格式化：即将电网地址转化成可以适用于计算机中的条件随机场模型直接处理的格式化数据，比如，对电网地址转化成维度为M*N的二维数组，其中N为数据的待处理电网地址中单个词的数目，比如“南山学府路”，则N即为5；M可以是添加的词位标签种类数目，比如1种词位标签，即仅采用1种标签对前面N个字分别进行词位标注；还可以是2种词位标签，例如，对于不同的自然语言对应的词位标签可能不同，中文可以对应上述的B、M、E、S四种标签，英文可以对应B、M、E三种标签，此外还可以根据标签属性以及其包含的子属性，来设置M，比如第一类词位标签中包含动词D，第二类标签中可以设置该动词D的子属性标签主动词和助动词。其中，对于M的具体数量，本发明实施例不做限定。

202、将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果。

203、根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果。

204、将目标地址分级结果确定为目标电网地址的结构化地址。

本发明实施例中，针对步骤202-步骤204的其它描述，请分别对应参照实施例一中针对步骤101-步骤103的详细描述，本发明实施例不再赘述。

可见，本发明实施例所描述的方法能够通过特殊字符清理和无效字段清理自动剔除不必要的字符和字段，对待处理电网地址进行深度清洗，得到更易于识别的目标电网地址，提高后续条件随机场模型对目标电网地址进行处理的效率和速度，极大提高电网地址结构化处理的准确率。

此外，本发明实施例所描述的方法还可以通过设置不同的标签，可以提高处理方法的适用性和通用性，在需要变更词位标签的场景中，无需再对测试样本进行重新预处理操作，提高处理效率，同时词位标签种类数目越大，越能增加分词匹配维度的丰富度，可以提供更多的维度进行分词参考，提高分词结果的准确性和精细度，进而提高电网地址结构化的准确性和精细度。

在一个可选的实施例中，该方法还可以包括以下操作：

205、从标准地址数据库中筛选出与目标电网地址的结构化地址相匹配的目标标准地址，生成目标标准地址与目标电网地址的结构化地址之间的关联关系表。

本发明实施例中，在得到目标电网地址的结构化地址之后，这些结构化地址通常都仅仅包含语义特征的非地理空间信息，且无法确定该结构化的地址是否是正确的地址。通过本步骤的操作，将结构化的地址与标准地址库中的标准地址进行匹配比对，可以生成二者之间的关联关系，其中，具体的关联关系包括目标标准地址的地址信息、目标标准地址的地理空间坐标以及目标标准地址对应的多个历史地址，由此实现结构化地址与地理空间位置(比如地理坐标，定位信息等)的匹配。

可见，本发明实施例所描述的方法还可以通过与标准地址库中标准地址的匹配对比，实现目标电网地址的结构化地址的更进一步规范化，同时关联到标准地址对应的历史地址和空间位置，提高结构化地址关联程度和可信度。

在另一个可选的实施例中，该方法还可以包括以下操作：

206、获取来自外部系统的历史地址，根据统一化标准模型，对所有历史地址进行地址统一化操作，得到多个统一化地址；将所有统一化地址确定为标准地址，并将所有标准地址添加到标准地址数据库。

本发明实施例中，每个统一化地址对应多个历史地址，统一化标准模型包括同义词模型、同音字模型、错别字模型、历史描述模型、简易描述模型中的至少一种。

本发明实施例中，在使用条件随机场模型进行分词之前，需要确定条件随机场模型的训练样本，也即上述的标准地址数据库中的标准地址。本发明可以接入外部系统的数据库来获取历史地址数据，其中外部系统可以是电力业务以及互联网、合作企业等，比如物流企业使用的大量与地址相关联的历史运单。进而可以根据统一化标准模型对大量的历史地址进行统一化操作，以得到大量的统一化地址，也即标准地址。进而通过标准地址极大丰富上述条件随机场模型的训练样本，不断迭代出更优的条件随机场模型。

举例说明，获取到的历史地址信息包括：“广东省深圳市南山区滨海大道3012号三诺智慧大厦”、“三诺大厦”、“三诺大智慧大厦”、“三诺智慧大厦”、“南山三诺智慧大厦”、“智慧大厦”、“海天二天三诺智慧大厦”、“诺智慧大厦”。按照统一化标准模型，对历史地址信息进行不同维度的统一化操作，包括同义词、同音词、错别字、历史描述、简易描述等维度，将“广东省深圳市南山区滨海大道3012号三诺智慧大厦”确定为标准地址，将上述剩余的地址信息作为该标准地址的历史地址。

可见，本发明实施例所描述的方法能够提供智能化的将大量历史地址信息进行清洗比对，提取统一地址对应的多种历史地址，也即统一地址对应的多种不同的自然语言描述，为单条地址信息关联更多的语义信息，极大的扩充了标准地址库，同时扩充了条件随机场模型的训练样本，提高条件随机场模型分词匹配的准确度，进一步提高电网地址结构化的准确度。

实施例三

请参阅图3，图3是本发明实施例公开的一种电网地址结构化的处理装置的结构示意图。其中，图3所描述的装置可以应用于电网地址结构化的处理装置中，该电网地址结构化的处理装置可以是一个独立的装置，也可以集成在电网信息处理设备中，本发明实施例不做限定。需要说明的是，该电网地址结构化的处理装置参照的是实施例一和实施例二所描述的一种电网地址结构化的处理方法中的步骤，详细的描述在本实施例中就不做赘述，如图3所示，该电网地址结构化的处理装置可以包括：

分词模块301，用于将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果，其中，条件随机场模型是基于标准地址数据库预先训练得到的；

分级模块302，用于根据预设的地址分级模型，对目标地址分词结果进行分级匹配，得到目标电网地址对应的目标地址分级结果；

确定模块303，用于将目标地址分级结果确定为目标电网地址的结构化地址。

可见，本发明实施例所描述的装置能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，实现对非结构化的电网地址进行结构化的处理，提高电网地址结构化效率及准确率。

在一个可选的实施例中，如图4所示，分词模块301，可以包括：

分词子模块3011，用于根据预设的词位标签以及条件随机场的特征模板，对目标电网地址进行分词处理，得到目标电网地址对应的多个地址分词结果，其中，每个地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签；

统计子模块3012，用于根据每个分词字段中每个字对应的词位标签的统计数据，构建概率图模型；

计算子模块3013，用于根据概率图模型，计算每个地址分词结果对应的概率值；

筛选子模块3014，用于从所有地址分词结果中筛选出概率值最大的地址分词结果，确定为目标电网地址对应的目标地址分词结果。

可见，本发明实施例所描述的装置能够提供一种高效的地址结构化方案，对非结构化的电网地址进行快速分词、准确分级匹配，结合条件随机场的特征模板，提高电网地址结构化效率及准确率。

在另一个可选的实施例中，如图4所示，计算子模块3013，具体用于：

可见，本发明实施例所描述的装置能够采用动态规划算法求取最优的地址分词结果，极大提高分词的效率，同时可以提供多种求解概率图模型的算法和组合算法方式，进一步优化求解过程，提高获得地址结构化结果的准确度和精度。

在又一个可选的实施例中，如图4所示，分级模块302可以包括：

第一确定子模块3021，用于根据预设的地址分级模型，确定每个地址分级对应的分级标签；

匹配子模块3022，用于将目标地址分词结果中的每个分词字段与标准地址数据库中的分级内容进行匹配，得到每个分词字段对应的多个分级匹配结果以及每个分级匹配结果对应的概率值；

第二确定子模块3023，用于根据每个分词字段的最优地址分级结果，确定每个分词字段的目标分级标签；

第三确定子模块3024，用于在每个分词字段之后添加每个分词字段的目标分级标签，得到每个分词字段对应的地址分级结果；将所有分词字段对应的地址分级结果确定为目标电网地址对应的目标地址分级结果。

可见，本发明实施例所描述的装置能够采用地址分级模型，得到更精细化的电网地址结构化结果，提高电网地址的规范化程度，有利于提高后续地址查询或管理的效率，方便精细化运营。

在又一个可选的实施例中，如图4所示，该装置还可以包括：

预处理模块304，用于获取待处理电网地址，并对待处理电网地址进行预处理操作，得到待处理电网地址对应的目标电网地址，预处理操作用于将待处理电网地址转化成条件随机场模型所要求的数据格式，并触发分词模块301执行将目标电网地址输入至条件随机场模型，得到目标电网地址对应的目标地址分词结果的操作；其中，预处理操作包括特殊字符清理、无效字段清理、添加词位标签中的至少一种。

可见，本发明实施例所描述的装置能够通过特殊字符清理和无效字段清理自动剔除不必要的字符和字段，对待处理电网地址进行深度清洗，得到更易于识别的目标电网地址，提高后续条件随机场模型对目标电网地址进行处理的效率和速度，极大提高电网地址结构化处理的准确率。

此外，本发明实施例所描述的装置还能够可以通过设置不同的标签，可以提高处理方法的适用性和通用性，在需要变更词位标签的场景中，无需再对测试样本进行重新预处理操作，提高处理效率，同时词位标签种类数目越大，越能增加分词匹配维度的丰富度，可以提供更多的维度进行分词参考，提高分词结果的准确性和精细度，进而提高电网地址结构化的准确性和精细度。

在又一个可选的实施例中，如图4所示，该装置还可以包括：

匹配模块305，用于从标准地址数据库中筛选出与目标电网地址的结构化地址相匹配的目标标准地址；以及生成目标标准地址与目标电网地址的结构化地址之间的关联关系表，其中，关联关系表包括目标标准地址的地址信息、目标标准地址的地理空间坐标以及目标标准地址对应的多个历史地址。

可见，本发明实施例所描述的装置还可以通过与标准地址库中标准地址的匹配对比，实现目标电网地址的结构化地址的更进一步规范化，同时关联到标准地址对应的历史地址和空间位置，提高结构化地址关联程度和可信度。

在又一个可选的实施例中，如图4所示，该装置还可以包括：

获取模块306，用于获取来自外部系统的历史地址，根据统一化标准模型，对所有历史地址进行地址统一化操作，得到多个统一化地址，其中，每个统一化地址对应多个历史地址，统一化标准模型包括同义词模型、同音字模型、错别字模型、历史描述模型、简易描述模型中的至少一种；将所有统一化地址确定为标准地址，并将所有标准地址添加到标准地址数据库。

可见，本发明实施例所描述的装置能够提供智能化的将大量历史地址信息进行清洗比对，提取统一地址对应的多种历史地址，也即统一地址对应的多种不同的自然语言描述，为单条地址信息关联更多的语义信息，极大的扩充了标准地址库，同时扩充了条件随机场模型的训练样本，提高条件随机场模型分词匹配的准确度，进一步提高电网地址结构化的准确度。

实施例四

请参阅图5，图5是本发明实施例公开的又一种电网地址结构化的处理装置的结构示意图。其中，图5所描述的装置可以应用于电网地址结构化的处理装置中，该电网地址结构化的处理装置可以是一个独立的装置，也可以集成在电网信息处理设备中，本发明实施例不做限定。如图5所示，该电网地址结构化的处理装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器402中存储的可执行程序代码，执行本发明实施例一或实施例二公开的电网地址结构化的处理方法中的部分或全部步骤。

实施例五

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或实施例二公开的电网地址结构化的处理方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

需要说明的是本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在计算机(PC、嵌入式智能设备等)上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

最后应说明的是：本发明实施例公开的一种电网地址结构化的处理方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种电网地址结构化的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的电网地址结构化的处理方法，其特征在于，所述将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果，包括：

3.根据权利要求2所述的电网地址结构化的处理方法，其特征在于，所述根据所述概率图模型，计算每个所述地址分词结果对应的概率值，包括：

4.根据权利要求1所述的电网地址结构化的处理方法，其特征在于，所述根据预设的地址分级模型，对所述目标地址分词结果进行分级匹配，得到所述目标电网地址对应的目标地址分级结果，包括：

5.根据权利要求1所述的电网地址结构化的处理方法，其特征在于，在所述将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果之前，所述方法还包括：

获取待处理电网地址，并对所述待处理电网地址进行预处理操作，得到所述待处理电网地址对应的目标电网地址，所述预处理操作用于将所述待处理电网地址转化成条件随机场模型所要求的数据格式；

6.根据权利要求1-5任一所述的电网地址结构化的处理方法，其特征在于，在所述将目标电网地址输入至条件随机场模型，得到所述目标电网地址对应的目标地址分词结果之前，所述方法还包括：

7.根据权利要求6所述的电网地址结构化的处理方法，其特征在于，在所述将所述目标地址分级结果确定为所述目标电网地址的结构化地址之后，所述方法还包括：

8.一种电网地址结构化的处理装置，其特征在于，所述装置包括：

9.一种电网地址结构化的处理装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的电网地址结构化的处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时用于执行如权利要求1-7任一项所述的电网地址结构化的处理方法。