CN112084773A

CN112084773A - 一种基于词库双向最大匹配法的电网停电地址匹配方法

Info

Publication number: CN112084773A
Application number: CN202010852180.1A
Authority: CN
Inventors: 蔡德福; 周鲲鹏; 严道波; 万磊; 余飞; 曹侃; 王文娜; 周楚; 刘海光; 饶渝泽; 王莹; 陈汝斯; 叶畅
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-15

Abstract

本发明提供一种基于词库双向最大匹配法的电网停电地址匹配方法，包括以下步骤：步骤一：构建停电地址元素库，包括地址要素词库、停用词库以及同义词库；步骤二：利用停用词库和同义词库对待匹配地址文本进行预处理；步骤三：利用双向最大匹配分词法，对待匹配地址文本进行分词，切分出待匹配系统的地址要素序列；步骤四：针对待匹配系统的地址要素序列，按照地址要素匹配规则进行比对，判断是否匹配，若不匹配，则列出差异项。本发明通过动态维护电网停电地址元素库且对地址要素进行缩略词填充处理，可提高地址文本分词识别率，不仅可以处理单一地址项的地址要素匹配，亦可处理多地址项的地址要素匹配问题，能有效提高地址要素匹配准确率。

Description

一种基于词库双向最大匹配法的电网停电地址匹配方法

技术领域

本发明涉及电网营配数据管理领域，具体是一种基于词库双向最大匹配法的电网停电地址匹配方法。

背景技术

近年来，随着优质服务的不断提升，人民电业为人民的宗旨不断深入人心，停电计划精益化管理势在必行。同时，随着智能电网信息化的快速发展，一大批服务于各个专业的信息管理系统逐步建成和应用，并产生了大量蕴含丰富价值的数据。但由于这些信息管理系统受不同部门“竖井式”管理模式影响，易形成信息孤岛，从而造成数据多源、内容和格式不一致等数据质量问题。在实际电网运营中，营销管理系统与生产管理系统对同一停电事件的停电地址存在不一致会导致计划停电发布停电公告或给客户发送停电通知等信息时出现告知的停电事件与实际发生停电事件不一致，例如实际停电但没有被告知、实际未停电但误告知等，使用户产生抱怨情绪甚至来电投诉。目前电网企业主要依靠人工检查辨识不同系统的停电地址是否一致，存在人力资源投入多、工作效率低下的不足。引入停电地址匹配技术能够高效识别多个信息管理系统中关于停电地址是否匹配问题，有助于提升停电计划精益化管理水平，降低客户投诉倾向，提升客户用电满意度。

目前，学者们在地址匹配识别技术上已经取得了一些成果。文献[1]提出了一种基于规则与词典的地址匹配算法，但是标准地址数据库建立难度大，且规则的制定存在一定的局限性。文献[2]提出了一种基于规则的中文地址要素解析方法，但对不具备特征字的地址要素，只能根据上下文解析部分地址。文献[3]主要研究了一种基于城市地址树的地址文本匹配方法，该方法要求地址的分级符合特定的规则，使这种方法只能处理具有特定形式的地址。文献[4]提出了一种基于哈希和双数组trie树的多层次地址匹配算法，当出现未登录词和干扰词时，会造成歧义切分。文献[5]提出一种基于复合字典的地名地址匹配技术，虽然在一定程度上解决了未登录词识别的问题，但是建立字典的难度较大。文献[6]提出一种中文地址知识库支撑的中文地址分词算法，但对于地址要素的切分不够明确。

参考文献：

[1]赵英,占斌斌,贾沛哲.基于规则与词典的地址匹配算法[J].北京测绘,2017(5):50-54.

[2]张雪英,闾国年,李伯秋,等.基于规则的中文地址要素解析方法[J].地球信息科学学报,2010,12(1):9-16.

[3]应申,李威阳,贺彪.基于城市地址树的地址文本匹配方法[J].地理信息世界,2017,24(6):81-86.

[4]徐聪,张丰,杜震洪,等.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报,2014,41(2):217-222.

[5]程琦,梁武卫,汪培.基于复合字典的地名地址匹配技术[J].城市勘测,2018(2):76-79.

[6]赵成,李滨.一种中文地址知识库支撑的中文地址分词算法[J].测绘科学技术学报,2017,34(6):639-644.

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于词库双向最大匹配法的电网停电地址匹配方法。该方法首先通过各级别地址要素特征字应用正则表达式构建地址要素词库作为分词词库，然后应用双向最大匹配法提高分词准确率，切分出待匹配系统的地址要素序列，最后按照地址要素匹配规则进行匹配，大大提升单一匹配分词法的识别率与分词精度，以解决上述背景技术中提出的问题。

为了实现上述目的，本发明采用了以下技术方案：

一种基于词库双向最大匹配法的电网停电地址匹配方法，包括如下步骤：

步骤一：收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据，根据地址命名特征定义各级别地址要素特征字，通过正则表达式提取各级地址要素构建地址要素词库，收集不规范、冗余信息形成停用词库，收集同一要素的不同表达构成同义词库，最终形成停电地址元素库；

步骤二：利用停用词库剔除待匹配地址文本中的冗余信息、非法字符，利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧；

步骤三：基于地址要素词库作为分词词库，利用双向最大匹配分词法，对待匹配地址文本进行分词，切分出待匹配系统的地址要素序列；

步骤四：针对待匹配系统的地址要素序列，按照地址要素匹配规则进行比对，判断是否匹配，如果不匹配，则列出差异项。

进一步的，在步骤一中，停电地址元素库根据后续增量地址匹配结果做持续添加更新。

进一步的，在步骤三中，双向最大匹配分词法是分别用正向最大匹配法和逆向最大匹配法进行初步切分，然后将两者的分词结果进行比较，若分词结果相同，则判定分词结果正确；若分词结果存在差异，则判定分词结果有歧义，则按照特定规则的歧义消除方法对有差异的结果进行歧义消除。

进一步的，步骤三中双向最大匹配算法对集合A进行分词，得到两组分词结果，分别用集合表示为：

F＝{a₁…a_d,a_d+1…a_e,…,a_f…a_n}＝{f₁,f₂,…,f_z} (1)

R＝{a₁…a_g,a_g+1…a_h,…,a_l…a_n}＝{r₁,r₂,…,r_m} (2)

式中，a_n为地址的第n个字，F为正向最大匹配法切分集合A得到的分词结果集合，集合F中每一个元素由集合A中一个或多个元素构成，令f₁＝a₁…a_d，f₂＝a_d+1…a_e，…，f_z＝a_f…a_n，1≤d<e<f≤n；

R为逆向最大匹配法算法切分集合A得到的分词结果集合，集合R中每一个元素由集合A中一个或多个元素构成，令r₁＝a₁…a_g,r₂＝a_g+1…a_h,…,r_m＝a_l…a_n，1≤g<h<l≤n；

通过双向最大匹配算法分词法得到有差异的分词结果，分别用集合F1和R1表示为:

F₁＝{f_p,…,f_q} (3)

R₁＝{r_s,…,r_t} (4)

式中：F₁∈F，1≤p≤q≤z；R₁∈R，1≤s≤t≤m。

进一步的，所述正向最大匹配法是首先定义最大字符长度的大小，再将待分词字串从前往后扫描切分出最大字符长度的子串，然后在词典中进行匹配，当词典中找不到匹配词时将子串最右边一个字去掉，再进行下一次匹配；重复“匹配－切分”的步骤，直至将待切分字串完全切分。

进一步的，所述逆向最大匹配法是首先定义最大字符长度的大小，再将待分词字串从后往前扫描切分出最大字符长度的子串，然后在词典中进行匹配，当词典中找不到匹配词时将子串最左边一个字去掉，再进行下一次匹配；重复“匹配－切分”的步骤，直至将待切分字串完全切分。

进一步的，所述最大字符长度的大小为词典中最长的单词的长度。

进一步的，在词典中进行匹配时选择与词典中最长单词匹配的词作为目标分词。

进一步的，步骤三中，双向最大匹配分词法对分词结果进行歧义消除：当正反向分词结果词数不同，则取分词数量较少的那个；当分词结果词数相同，若分词结果相同，则说明没有歧义，可返回任意一个；若分词结果不同，返回其中单字较少的那个。

进一步的，在步骤四中，地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较，计算任意两个系统待匹配地址要素序列相似度r：

r＝2m/t (5)

式中，m为两个地址要素序列中均出现的字数，t为两个地址要素序列字数总和，r介于0到1之间，当r＝1表示地址要素序列完全匹配；当r<1，说明地址要素序列不完全匹配。

本发明的技术效果与优点：

本发明所提方法通过动态维护电网停电地址元素库且对地址要素进行缩略词填充处理，能有效提高地址文本分词识别率，利用正向最大匹配法和逆向最大匹配法先后对地址进行分词，再按特定的规则对不同分词结果进行选择，能够在一定程度上提升单一匹配分词法的分词精度。本方法不仅可以处理单一地址项的地址要素匹配，亦可处理多地址项的地址要素匹配问题，能有效提高地址要素匹配准确率，可应用于电网营销管理系统与生产管理系统停电地址匹配识别。

附图说明

图1是本发明一种基于词库双向最大匹配法的电网停电地址匹配方法其中一个实施例的流程示意图；

图2是本发明正向最大匹配法的工作流程图；

图3是本发明地址要素匹配规则的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种基于词库双向最大匹配法的电网停电地址匹配方法，包括以下步骤：

步骤一：建立停电地址元素库。地址元素库包括地址要素词库、停用词库和同义词库等，是地址匹配的依据和基础，将直接影响地址匹配的准确性。地址要素词库就是组成地址的各最小地址要素与地名地址库建立索引关系的各级地址要素表。地址要素词典是基于标准地名地址库建立的，它是在对地名地址库中的数据进行分词、要素识别基础上，按照所属行政区划而提取出地名地址库中存在的所有地址要素，并根据各类地址要素的所属类型分别编制为不同的词典，以方便随时调用某一行政区划下的所有地址要素。具体的，收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据，根据地址命名特征定义各级别地址要素特征字，通过正则表达式提取各级地址要素构建地址要素词库。

地址要素词库在数据输入、采集、整理等过程中难免发生错误及疏漏，采集的地址数据中存在格式混乱、数据质量较低、冗余信息和地址残缺等问题。因此需要总结数据集中的常见错误形式，形成停用词库和同义词库，并根据后续要求完成对文本的清洗工作。停用词库和同义词库需要根据后续多系统地址匹配结果做实时更新。

步骤二：利用停用词库剔除待匹配地址文本中的冗余信息、非法字符等，利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧。

步骤三：基于地址要素词库作为分词词库，利用双向最大匹配分词法，对待匹配地址文本进行分词，切分出待匹配系统的地址要素序列。

其中，双向最大匹配算法在分词过程中可以进行歧义检测和歧义消除，其基本原理是对待切分的地址字符串分别用正向最大匹配法和逆向最大匹配法进行初步切分，然后将两者的分词结果进行比较，若分词结果相同，则判定分词结果正确；若分词结果存在差异，则判定分词结果有歧义，此时需要按照特定的规则对有差异的结果进行歧义消除。

正向最大匹配法首先定义最大字符的大小，一般为词典中最长的单词的长度，再将待分词字串从前往后扫描切分出最大字符长度的子串，然后在词典中进行匹配，尽可能地选择与词典中最长单词匹配的词作为目标分词，当词典中找不到匹配词时将子串最右边一个字去掉，再进行下一次匹配；重复“匹配－切分”的步骤，直至将待切分字串完全切分。其工作流程如图2所示，其中A为待切分字串，L为其字数，M表示分词词典中最长词字数，F为分词结果集合。

逆向最大匹配法工作流程同正向最大匹配法，区别在于字串扫描方向相反，是从后往前扫描切分子串，且当词典中找不到匹配词时将子串最左边一个字去掉。

双向最大匹配算法对集合A进行分词，得到两组分词结果，分别用集合表示为：

F＝{a₁…a_d,a_d+1…a_e,…,a_f…a_n}＝{f₁,f₂,…,f_z} (1)

R＝{a₁…a_g,a_g+1…a_h,…,a_l…a_n}＝{r₁,r₂,…,r_m} (2)

式中，a_n为地址的第n个字，F为正向最大匹配法切分集合A得到的分词结果集合，集合F中每一个元素由集合A中一个或多个元素构成，令f₁＝a₁…a_d，f₂＝a_d+1…a_e，…，f_z＝a_f…a_n，1≤d<e<f≤n；R为逆向最大匹配法算法切分集合A得到的分词结果集合，集合R中每一个元素由集合A中一个或多个元素构成，令r₁＝a₁…a_g,r₂＝a_g+1…a_h,…,r_m＝a_l…a_n，1≤g<h<l≤n。

F₁＝{f_p,…,f_q} (3)

R₁＝{r_s,…,r_t} (4)

式中：F₁∈F，1≤p≤q≤z；R₁∈R，1≤s≤t≤m。

双向最大匹配分词法可通过特定的规则来对分词结果进行歧义消除，具体包括：当正反向分词结果词数不同，则取分词数量较少的那个；当分词结果词数相同，若分词结果相同，就说明没有歧义，可返回任意一个；若分词结果不同，返回其中单字较少的那个。

如图3所示，地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较，计算任意两个系统待匹配地址要素序列相似度r：

r＝2m/t (5)

式中，m为两个地址要素序列中均出现的字数，t为两个地址要素序列字数总和。r介于0到1之间，当r＝1表示地址要素序列完全匹配；当r<1，说明地址要素序列不完全匹配。针对不完全匹配的地址要素序列，依次按照地址要素级别从高到低逐级对地址要素进行搜索比对。停电地址要素序列中，除最低级别外其他较高级别要素的地址项多为单一项，可直接开展地址要素匹配判断；而最低级别要素的地址项通常为多项，需对地址项逐一进行要素匹配判断。

下面为说明本发明提出的基于词库双向最大匹配法的电网停电地址匹配方法的有效性，分别从营销管理系统停电管理模块与生产管理系统配网停电模块中，抽取某省电力公司2019年1月至7月停电信息数据，通过停电事件编号将两个系统的停电信息进行关联对应，作为样本数据集。

2019年1月至7月期间，某省电力公司营销管理系统停电记录共47272条，剔除停电事件编号重复记录后共46861条，其中与生产管理系统能关联上的共36586条，关联缺失记录共10275条；生产管理系统停电记录共39604条，剔除停电事件编号重复记录后共39511条，其中与营销管理系统能关联上的共36586条，关联缺失记录共2925条。选取营销管理系统与生产管理系统一对一关联上的36586条停电信息数据作为算例分析的样本数据集。

针对两个系统出现停电事件编号重复、停电事件关联缺失以及关联停电事件停电地址不匹配等问题，分析其主要原因为系统中停电事件的维护目前均为人工维护，容易出现重复填写、漏掉未填写或填写不准确等问题，需制定相应数据清洗方案开展数据治理工作。

首先通过正则表达式基于定义好的地址要素特征字解析地址文本构建地址元素库，包括地址要素词库、停用词库、同义词库。然后对待匹配地址文本进行预处理，包括清洗错别字、剔除停用词、同义词消歧等，接着导入地址要素词库作为分词词库、运用双向最大匹配法切分出待匹配系统的地址要素序列，最后通过地址要素匹配规则对地址要素序列进行匹配，识别地址要素不匹配项，输出各系统地址差异项。算例所用部分地址数据分词结果示例如下表1所示：

表1地址分词结果示例

针对有效地址集，利用定义的地址要素匹配规则，识别两个系统地址是否匹配，如果不匹配，则分别列出差异项。

为了验证本发明所提算法的有效性，采用分词正确率和匹配准确率两个评价指标，具体定义如下。

R_e＝S/N×100％ (6)

式中：R_e为分词正确率，S为正确分词的记录数，N为待分词的地址记录数。

A_c＝A/N×100％ (7)

式中：A_c为匹配准确率，A为准确匹配的记录数，N为待匹配的地址记录数。

从营销系统停电管理模块和生产管理系统配网停电模块关联抽取样本停电信息数据36586条记录。

停电地址元素库完成初始化构建后，对营销系统与生产系统停电地址文本进行初步分词处理，计算分词正确率分别为87.58％、85.66％，因发明所提方法可基于增量停电地址信息持续维护完善停电地址元素库，所有地址文本经解析、清洗后均能正确提取地址要素，因此分词正确率可提升至100％。

停电地址文本分词处理后其地址要素序列经匹配后完全一致共36519条，经人工精确匹配、模糊匹配核对后确为一致的记录数为36519，实际不一致却误判一致的记录数为0，匹配准确率100％；地址要素序列经匹配后不一致共67条，经人工匹配核对后确为不一致的记录数为67，实际一致却误判不一致的记录数为0，匹配准确率100％。可见，本发明所提方法在对营销系统停电地址和生产管理系统停电地址识别与匹配方面具有很高的精度。

算例样本数据中，营销系统和生产系统2019年1月至7月共36586条关联停电地址信息中，完全匹配一致的占比99.82％，不一致占比0.18％。

停电地址匹配不完全一致部分差异项示例如下表2所示：

表2停电地址差异项示例

针对现有地址匹配算法地址要素切分存在歧义、匹配率和准确率不高，缺乏适用于电网停电地址匹配技术等问题，本发明提出了一种基于词库的双向最大匹配分词方法。该方法利用正向最大匹配法和逆向最大匹配法先后对地址进行分词，再按特定的规则对不同分词结果进行选择，能够在一定程度上提升单一匹配分词法的分词精度。同时，通过构建电网停电地址元素库，该方法可进一步提升分词准确性和效率，结合行政区划规则库和地址别名表提取出所有待匹配系统的有效地址集，最后按照地址要素匹配规则联合匹配，识别不同系统中停电地址不一致问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：包括如下步骤：

2.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：在步骤一中，停电地址元素库根据后续增量地址匹配结果做持续添加更新。

3.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：在步骤三中，双向最大匹配分词法是分别用正向最大匹配法和逆向最大匹配法进行初步切分，然后将两者的分词结果进行比较，若分词结果相同，则判定分词结果正确；若分词结果存在差异，则判定分词结果有歧义，则按照特定规则的歧义消除方法对有差异的结果进行歧义消除。

4.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：步骤三中双向最大匹配算法对集合A进行分词，得到两组分词结果，分别用集合表示为：

F＝{a₁…a_d,a_d+1…a_e,…,a_f…a_n}＝{f₁,f₂,…,f_z} (1)

R＝{a₁…a_g,a_g+1…a_h,…,a_l…a_n}＝{r₁,r₂,…,r_m} (2)

F₁＝{f_p,…,f_q} (3)

R₁＝{r_s,…,r_t} (4)

式中：F₁∈F，1≤p≤q≤z；R₁∈R，1≤s≤t≤m。

5.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：所述正向最大匹配法是首先定义最大字符长度的大小，再将待分词字串从前往后扫描切分出最大字符长度的子串，然后在词典中进行匹配，当词典中找不到匹配词时将子串最右边一个字去掉，再进行下一次匹配；重复“匹配－切分”的步骤，直至将待切分字串完全切分。

6.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：所述逆向最大匹配法是首先定义最大字符长度的大小，再将待分词字串从后往前扫描切分出最大字符长度的子串，然后在词典中进行匹配，当词典中找不到匹配词时将子串最左边一个字去掉，再进行下一次匹配；重复“匹配－切分”的步骤，直至将待切分字串完全切分。

7.如权利要求5或6所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：所述最大字符长度的大小为词典中最长的单词的长度。

8.如权利要求5或6所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：在词典中进行匹配时选择与词典中最长单词匹配的词作为目标分词。

9.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：步骤三中，双向最大匹配分词法对分词结果进行歧义消除：当正反向分词结果词数不同，则取分词数量较少的那个；当分词结果词数相同，若分词结果相同，则说明没有歧义，可返回任意一个；若分词结果不同，返回其中单字较少的那个。

10.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法，其特征在于：在步骤四中，地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较，计算任意两个系统待匹配地址要素序列相似度r：

r＝2m/t (5)