CN112084773A - 一种基于词库双向最大匹配法的电网停电地址匹配方法 - Google Patents
一种基于词库双向最大匹配法的电网停电地址匹配方法 Download PDFInfo
- Publication number
- CN112084773A CN112084773A CN202010852180.1A CN202010852180A CN112084773A CN 112084773 A CN112084773 A CN 112084773A CN 202010852180 A CN202010852180 A CN 202010852180A CN 112084773 A CN112084773 A CN 112084773A
- Authority
- CN
- China
- Prior art keywords
- address
- word
- matching
- matching method
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 104
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 230000008030 elimination Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 5
- 244000000188 Vaccinium ovalifolium Species 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种基于词库双向最大匹配法的电网停电地址匹配方法,包括以下步骤:步骤一:构建停电地址元素库,包括地址要素词库、停用词库以及同义词库;步骤二:利用停用词库和同义词库对待匹配地址文本进行预处理;步骤三:利用双向最大匹配分词法,对待匹配地址文本进行分词,切分出待匹配系统的地址要素序列;步骤四:针对待匹配系统的地址要素序列,按照地址要素匹配规则进行比对,判断是否匹配,若不匹配,则列出差异项。本发明通过动态维护电网停电地址元素库且对地址要素进行缩略词填充处理,可提高地址文本分词识别率,不仅可以处理单一地址项的地址要素匹配,亦可处理多地址项的地址要素匹配问题,能有效提高地址要素匹配准确率。
Description
技术领域
本发明涉及电网营配数据管理领域,具体是一种基于词库双向最大匹配法的电网停电地址匹配方法。
背景技术
近年来,随着优质服务的不断提升,人民电业为人民的宗旨不断深入人心,停电计划精益化管理势在必行。同时,随着智能电网信息化的快速发展,一大批服务于各个专业的信息管理系统逐步建成和应用,并产生了大量蕴含丰富价值的数据。但由于这些信息管理系统受不同部门“竖井式”管理模式影响,易形成信息孤岛,从而造成数据多源、内容和格式不一致等数据质量问题。在实际电网运营中,营销管理系统与生产管理系统对同一停电事件的停电地址存在不一致会导致计划停电发布停电公告或给客户发送停电通知等信息时出现告知的停电事件与实际发生停电事件不一致,例如实际停电但没有被告知、实际未停电但误告知等,使用户产生抱怨情绪甚至来电投诉。目前电网企业主要依靠人工检查辨识不同系统的停电地址是否一致,存在人力资源投入多、工作效率低下的不足。引入停电地址匹配技术能够高效识别多个信息管理系统中关于停电地址是否匹配问题,有助于提升停电计划精益化管理水平,降低客户投诉倾向,提升客户用电满意度。
目前,学者们在地址匹配识别技术上已经取得了一些成果。文献[1]提出了一种基于规则与词典的地址匹配算法,但是标准地址数据库建立难度大,且规则的制定存在一定的局限性。文献[2]提出了一种基于规则的中文地址要素解析方法,但对不具备特征字的地址要素,只能根据上下文解析部分地址。文献[3]主要研究了一种基于城市地址树的地址文本匹配方法,该方法要求地址的分级符合特定的规则,使这种方法只能处理具有特定形式的地址。文献[4]提出了一种基于哈希和双数组trie树的多层次地址匹配算法,当出现未登录词和干扰词时,会造成歧义切分。文献[5]提出一种基于复合字典的地名地址匹配技术,虽然在一定程度上解决了未登录词识别的问题,但是建立字典的难度较大。文献[6]提出一种中文地址知识库支撑的中文地址分词算法,但对于地址要素的切分不够明确。
参考文献:
[1]赵英,占斌斌,贾沛哲.基于规则与词典的地址匹配算法[J].北京测绘,2017(5):50-54.
[2]张雪英,闾国年,李伯秋,等.基于规则的中文地址要素解析方法[J].地球信息科学学报,2010,12(1):9-16.
[3]应申,李威阳,贺彪.基于城市地址树的地址文本匹配方法[J].地理信息世界,2017,24(6):81-86.
[4]徐聪,张丰,杜震洪,等.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报,2014,41(2):217-222.
[5]程琦,梁武卫,汪培.基于复合字典的地名地址匹配技术[J].城市勘测,2018(2):76-79.
[6]赵成,李滨.一种中文地址知识库支撑的中文地址分词算法[J].测绘科学技术学报,2017,34(6):639-644.
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于词库双向最大匹配法的电网停电地址匹配方法。该方法首先通过各级别地址要素特征字应用正则表达式构建地址要素词库作为分词词库,然后应用双向最大匹配法提高分词准确率,切分出待匹配系统的地址要素序列,最后按照地址要素匹配规则进行匹配,大大提升单一匹配分词法的识别率与分词精度,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明采用了以下技术方案:
一种基于词库双向最大匹配法的电网停电地址匹配方法,包括如下步骤:
步骤一:收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据,根据地址命名特征定义各级别地址要素特征字,通过正则表达式提取各级地址要素构建地址要素词库,收集不规范、冗余信息形成停用词库,收集同一要素的不同表达构成同义词库,最终形成停电地址元素库;
步骤二:利用停用词库剔除待匹配地址文本中的冗余信息、非法字符,利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧;
步骤三:基于地址要素词库作为分词词库,利用双向最大匹配分词法,对待匹配地址文本进行分词,切分出待匹配系统的地址要素序列;
步骤四:针对待匹配系统的地址要素序列,按照地址要素匹配规则进行比对,判断是否匹配,如果不匹配,则列出差异项。
进一步的,在步骤一中,停电地址元素库根据后续增量地址匹配结果做持续添加更新。
进一步的,在步骤三中,双向最大匹配分词法是分别用正向最大匹配法和逆向最大匹配法进行初步切分,然后将两者的分词结果进行比较,若分词结果相同,则判定分词结果正确;若分词结果存在差异,则判定分词结果有歧义,则按照特定规则的歧义消除方法对有差异的结果进行歧义消除。
进一步的,步骤三中双向最大匹配算法对集合A进行分词,得到两组分词结果,分别用集合表示为:
F={a1…ad,ad+1…ae,…,af…an}={f1,f2,…,fz} (1)
R={a1…ag,ag+1…ah,…,al…an}={r1,r2,…,rm} (2)
式中,an为地址的第n个字,F为正向最大匹配法切分集合A得到的分词结果集合,集合F中每一个元素由集合A中一个或多个元素构成,令f1=a1…ad,f2=ad+1…ae,…,fz=af…an,1≤d<e<f≤n;
R为逆向最大匹配法算法切分集合A得到的分词结果集合,集合R中每一个元素由集合A中一个或多个元素构成,令r1=a1…ag,r2=ag+1…ah,…,rm=al…an,1≤g<h<l≤n;
通过双向最大匹配算法分词法得到有差异的分词结果,分别用集合F1和R1表示为:
F1={fp,…,fq} (3)
R1={rs,…,rt} (4)
式中:F1∈F,1≤p≤q≤z;R1∈R,1≤s≤t≤m。
进一步的,所述正向最大匹配法是首先定义最大字符长度的大小,再将待分词字串从前往后扫描切分出最大字符长度的子串,然后在词典中进行匹配,当词典中找不到匹配词时将子串最右边一个字去掉,再进行下一次匹配;重复“匹配-切分”的步骤,直至将待切分字串完全切分。
进一步的,所述逆向最大匹配法是首先定义最大字符长度的大小,再将待分词字串从后往前扫描切分出最大字符长度的子串,然后在词典中进行匹配,当词典中找不到匹配词时将子串最左边一个字去掉,再进行下一次匹配;重复“匹配-切分”的步骤,直至将待切分字串完全切分。
进一步的,所述最大字符长度的大小为词典中最长的单词的长度。
进一步的,在词典中进行匹配时选择与词典中最长单词匹配的词作为目标分词。
进一步的,步骤三中,双向最大匹配分词法对分词结果进行歧义消除:当正反向分词结果词数不同,则取分词数量较少的那个;当分词结果词数相同,若分词结果相同,则说明没有歧义,可返回任意一个;若分词结果不同,返回其中单字较少的那个。
进一步的,在步骤四中,地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较,计算任意两个系统待匹配地址要素序列相似度r:
r=2m/t (5)
式中,m为两个地址要素序列中均出现的字数,t为两个地址要素序列字数总和,r介于0到1之间,当r=1表示地址要素序列完全匹配;当r<1,说明地址要素序列不完全匹配。
本发明的技术效果与优点:
本发明所提方法通过动态维护电网停电地址元素库且对地址要素进行缩略词填充处理,能有效提高地址文本分词识别率,利用正向最大匹配法和逆向最大匹配法先后对地址进行分词,再按特定的规则对不同分词结果进行选择,能够在一定程度上提升单一匹配分词法的分词精度。本方法不仅可以处理单一地址项的地址要素匹配,亦可处理多地址项的地址要素匹配问题,能有效提高地址要素匹配准确率,可应用于电网营销管理系统与生产管理系统停电地址匹配识别。
附图说明
图1是本发明一种基于词库双向最大匹配法的电网停电地址匹配方法其中一个实施例的流程示意图;
图2是本发明正向最大匹配法的工作流程图;
图3是本发明地址要素匹配规则的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于词库双向最大匹配法的电网停电地址匹配方法,包括以下步骤:
步骤一:建立停电地址元素库。地址元素库包括地址要素词库、停用词库和同义词库等,是地址匹配的依据和基础,将直接影响地址匹配的准确性。地址要素词库就是组成地址的各最小地址要素与地名地址库建立索引关系的各级地址要素表。地址要素词典是基于标准地名地址库建立的,它是在对地名地址库中的数据进行分词、要素识别基础上,按照所属行政区划而提取出地名地址库中存在的所有地址要素,并根据各类地址要素的所属类型分别编制为不同的词典,以方便随时调用某一行政区划下的所有地址要素。具体的,收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据,根据地址命名特征定义各级别地址要素特征字,通过正则表达式提取各级地址要素构建地址要素词库。
地址要素词库在数据输入、采集、整理等过程中难免发生错误及疏漏,采集的地址数据中存在格式混乱、数据质量较低、冗余信息和地址残缺等问题。因此需要总结数据集中的常见错误形式,形成停用词库和同义词库,并根据后续要求完成对文本的清洗工作。停用词库和同义词库需要根据后续多系统地址匹配结果做实时更新。
步骤二:利用停用词库剔除待匹配地址文本中的冗余信息、非法字符等,利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧。
步骤三:基于地址要素词库作为分词词库,利用双向最大匹配分词法,对待匹配地址文本进行分词,切分出待匹配系统的地址要素序列。
其中,双向最大匹配算法在分词过程中可以进行歧义检测和歧义消除,其基本原理是对待切分的地址字符串分别用正向最大匹配法和逆向最大匹配法进行初步切分,然后将两者的分词结果进行比较,若分词结果相同,则判定分词结果正确;若分词结果存在差异,则判定分词结果有歧义,此时需要按照特定的规则对有差异的结果进行歧义消除。
正向最大匹配法首先定义最大字符的大小,一般为词典中最长的单词的长度,再将待分词字串从前往后扫描切分出最大字符长度的子串,然后在词典中进行匹配,尽可能地选择与词典中最长单词匹配的词作为目标分词,当词典中找不到匹配词时将子串最右边一个字去掉,再进行下一次匹配;重复“匹配-切分”的步骤,直至将待切分字串完全切分。其工作流程如图2所示,其中A为待切分字串,L为其字数,M表示分词词典中最长词字数,F为分词结果集合。
逆向最大匹配法工作流程同正向最大匹配法,区别在于字串扫描方向相反,是从后往前扫描切分子串,且当词典中找不到匹配词时将子串最左边一个字去掉。
双向最大匹配算法对集合A进行分词,得到两组分词结果,分别用集合表示为:
F={a1…ad,ad+1…ae,…,af…an}={f1,f2,…,fz} (1)
R={a1…ag,ag+1…ah,…,al…an}={r1,r2,…,rm} (2)
式中,an为地址的第n个字,F为正向最大匹配法切分集合A得到的分词结果集合,集合F中每一个元素由集合A中一个或多个元素构成,令f1=a1…ad,f2=ad+1…ae,…,fz=af…an,1≤d<e<f≤n;R为逆向最大匹配法算法切分集合A得到的分词结果集合,集合R中每一个元素由集合A中一个或多个元素构成,令r1=a1…ag,r2=ag+1…ah,…,rm=al…an,1≤g<h<l≤n。
通过双向最大匹配算法分词法得到有差异的分词结果,分别用集合F1和R1表示为:
F1={fp,…,fq} (3)
R1={rs,…,rt} (4)
式中:F1∈F,1≤p≤q≤z;R1∈R,1≤s≤t≤m。
双向最大匹配分词法可通过特定的规则来对分词结果进行歧义消除,具体包括:当正反向分词结果词数不同,则取分词数量较少的那个;当分词结果词数相同,若分词结果相同,就说明没有歧义,可返回任意一个;若分词结果不同,返回其中单字较少的那个。
步骤四:针对待匹配系统的地址要素序列,按照地址要素匹配规则进行比对,判断是否匹配,如果不匹配,则列出差异项。
如图3所示,地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较,计算任意两个系统待匹配地址要素序列相似度r:
r=2m/t (5)
式中,m为两个地址要素序列中均出现的字数,t为两个地址要素序列字数总和。r介于0到1之间,当r=1表示地址要素序列完全匹配;当r<1,说明地址要素序列不完全匹配。针对不完全匹配的地址要素序列,依次按照地址要素级别从高到低逐级对地址要素进行搜索比对。停电地址要素序列中,除最低级别外其他较高级别要素的地址项多为单一项,可直接开展地址要素匹配判断;而最低级别要素的地址项通常为多项,需对地址项逐一进行要素匹配判断。
下面为说明本发明提出的基于词库双向最大匹配法的电网停电地址匹配方法的有效性,分别从营销管理系统停电管理模块与生产管理系统配网停电模块中,抽取某省电力公司2019年1月至7月停电信息数据,通过停电事件编号将两个系统的停电信息进行关联对应,作为样本数据集。
2019年1月至7月期间,某省电力公司营销管理系统停电记录共47272条,剔除停电事件编号重复记录后共46861条,其中与生产管理系统能关联上的共36586条,关联缺失记录共10275条;生产管理系统停电记录共39604条,剔除停电事件编号重复记录后共39511条,其中与营销管理系统能关联上的共36586条,关联缺失记录共2925条。选取营销管理系统与生产管理系统一对一关联上的36586条停电信息数据作为算例分析的样本数据集。
针对两个系统出现停电事件编号重复、停电事件关联缺失以及关联停电事件停电地址不匹配等问题,分析其主要原因为系统中停电事件的维护目前均为人工维护,容易出现重复填写、漏掉未填写或填写不准确等问题,需制定相应数据清洗方案开展数据治理工作。
首先通过正则表达式基于定义好的地址要素特征字解析地址文本构建地址元素库,包括地址要素词库、停用词库、同义词库。然后对待匹配地址文本进行预处理,包括清洗错别字、剔除停用词、同义词消歧等,接着导入地址要素词库作为分词词库、运用双向最大匹配法切分出待匹配系统的地址要素序列,最后通过地址要素匹配规则对地址要素序列进行匹配,识别地址要素不匹配项,输出各系统地址差异项。算例所用部分地址数据分词结果示例如下表1所示:
表1地址分词结果示例
针对有效地址集,利用定义的地址要素匹配规则,识别两个系统地址是否匹配,如果不匹配,则分别列出差异项。
为了验证本发明所提算法的有效性,采用分词正确率和匹配准确率两个评价指标,具体定义如下。
Re=S/N×100% (6)
式中:Re为分词正确率,S为正确分词的记录数,N为待分词的地址记录数。
Ac=A/N×100% (7)
式中:Ac为匹配准确率,A为准确匹配的记录数,N为待匹配的地址记录数。
从营销系统停电管理模块和生产管理系统配网停电模块关联抽取样本停电信息数据36586条记录。
停电地址元素库完成初始化构建后,对营销系统与生产系统停电地址文本进行初步分词处理,计算分词正确率分别为87.58%、85.66%,因发明所提方法可基于增量停电地址信息持续维护完善停电地址元素库,所有地址文本经解析、清洗后均能正确提取地址要素,因此分词正确率可提升至100%。
停电地址文本分词处理后其地址要素序列经匹配后完全一致共36519条,经人工精确匹配、模糊匹配核对后确为一致的记录数为36519,实际不一致却误判一致的记录数为0,匹配准确率100%;地址要素序列经匹配后不一致共67条,经人工匹配核对后确为不一致的记录数为67,实际一致却误判不一致的记录数为0,匹配准确率100%。可见,本发明所提方法在对营销系统停电地址和生产管理系统停电地址识别与匹配方面具有很高的精度。
算例样本数据中,营销系统和生产系统2019年1月至7月共36586条关联停电地址信息中,完全匹配一致的占比99.82%,不一致占比0.18%。
停电地址匹配不完全一致部分差异项示例如下表2所示:
表2停电地址差异项示例
针对现有地址匹配算法地址要素切分存在歧义、匹配率和准确率不高,缺乏适用于电网停电地址匹配技术等问题,本发明提出了一种基于词库的双向最大匹配分词方法。该方法利用正向最大匹配法和逆向最大匹配法先后对地址进行分词,再按特定的规则对不同分词结果进行选择,能够在一定程度上提升单一匹配分词法的分词精度。同时,通过构建电网停电地址元素库,该方法可进一步提升分词准确性和效率,结合行政区划规则库和地址别名表提取出所有待匹配系统的有效地址集,最后按照地址要素匹配规则联合匹配,识别不同系统中停电地址不一致问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:包括如下步骤:
步骤一:收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据,根据地址命名特征定义各级别地址要素特征字,通过正则表达式提取各级地址要素构建地址要素词库,收集不规范、冗余信息形成停用词库,收集同一要素的不同表达构成同义词库,最终形成停电地址元素库;
步骤二:利用停用词库剔除待匹配地址文本中的冗余信息、非法字符,利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧;
步骤三:基于地址要素词库作为分词词库,利用双向最大匹配分词法,对待匹配地址文本进行分词,切分出待匹配系统的地址要素序列;
步骤四:针对待匹配系统的地址要素序列,按照地址要素匹配规则进行比对,判断是否匹配,如果不匹配,则列出差异项。
2.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在步骤一中,停电地址元素库根据后续增量地址匹配结果做持续添加更新。
3.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在步骤三中,双向最大匹配分词法是分别用正向最大匹配法和逆向最大匹配法进行初步切分,然后将两者的分词结果进行比较,若分词结果相同,则判定分词结果正确;若分词结果存在差异,则判定分词结果有歧义,则按照特定规则的歧义消除方法对有差异的结果进行歧义消除。
4.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:步骤三中双向最大匹配算法对集合A进行分词,得到两组分词结果,分别用集合表示为:
F={a1…ad,ad+1…ae,…,af…an}={f1,f2,…,fz} (1)
R={a1…ag,ag+1…ah,…,al…an}={r1,r2,…,rm} (2)
式中,an为地址的第n个字,F为正向最大匹配法切分集合A得到的分词结果集合,集合F中每一个元素由集合A中一个或多个元素构成,令f1=a1…ad,f2=ad+1…ae,…,fz=af…an,1≤d<e<f≤n;
R为逆向最大匹配法算法切分集合A得到的分词结果集合,集合R中每一个元素由集合A中一个或多个元素构成,令r1=a1…ag,r2=ag+1…ah,…,rm=al…an,1≤g<h<l≤n;
通过双向最大匹配算法分词法得到有差异的分词结果,分别用集合F1和R1表示为:
F1={fp,…,fq} (3)
R1={rs,…,rt} (4)
式中:F1∈F,1≤p≤q≤z;R1∈R,1≤s≤t≤m。
5.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:所述正向最大匹配法是首先定义最大字符长度的大小,再将待分词字串从前往后扫描切分出最大字符长度的子串,然后在词典中进行匹配,当词典中找不到匹配词时将子串最右边一个字去掉,再进行下一次匹配;重复“匹配-切分”的步骤,直至将待切分字串完全切分。
6.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:所述逆向最大匹配法是首先定义最大字符长度的大小,再将待分词字串从后往前扫描切分出最大字符长度的子串,然后在词典中进行匹配,当词典中找不到匹配词时将子串最左边一个字去掉,再进行下一次匹配;重复“匹配-切分”的步骤,直至将待切分字串完全切分。
7.如权利要求5或6所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:所述最大字符长度的大小为词典中最长的单词的长度。
8.如权利要求5或6所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在词典中进行匹配时选择与词典中最长单词匹配的词作为目标分词。
9.如权利要求3所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:步骤三中,双向最大匹配分词法对分词结果进行歧义消除:当正反向分词结果词数不同,则取分词数量较少的那个;当分词结果词数相同,若分词结果相同,则说明没有歧义,可返回任意一个;若分词结果不同,返回其中单字较少的那个。
10.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在步骤四中,地址要素匹配规则是通过python文本比对模块difflib的SequenceMatcher方法进行序列差异比较,计算任意两个系统待匹配地址要素序列相似度r:
r=2m/t (5)
式中,m为两个地址要素序列中均出现的字数,t为两个地址要素序列字数总和,r介于0到1之间,当r=1表示地址要素序列完全匹配;当r<1,说明地址要素序列不完全匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010852180.1A CN112084773A (zh) | 2020-08-21 | 2020-08-21 | 一种基于词库双向最大匹配法的电网停电地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010852180.1A CN112084773A (zh) | 2020-08-21 | 2020-08-21 | 一种基于词库双向最大匹配法的电网停电地址匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084773A true CN112084773A (zh) | 2020-12-15 |
Family
ID=73728499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010852180.1A Pending CN112084773A (zh) | 2020-08-21 | 2020-08-21 | 一种基于词库双向最大匹配法的电网停电地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084773A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268567A (zh) * | 2021-05-31 | 2021-08-17 | 平安国际智慧城市科技股份有限公司 | 多属性文本匹配方法、装置、设备和存储介质 |
CN117251554A (zh) * | 2023-11-16 | 2023-12-19 | 中科星图智慧科技安徽有限公司 | 一种非标准地址转标准地址的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN107145545A (zh) * | 2017-04-18 | 2017-09-08 | 东北大学 | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 |
CN107153687A (zh) * | 2017-04-18 | 2017-09-12 | 东北大学 | 一种社交网络文本数据的索引方法 |
US20190096402A1 (en) * | 2017-09-25 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for extracting information |
CN109543007A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 提问数据生成方法、装置、计算机设备和存储介质 |
CN111428981A (zh) * | 2020-03-18 | 2020-07-17 | 国电南瑞科技股份有限公司 | 基于深度学习的电网故障预案信息提取方法和系统 |
-
2020
- 2020-08-21 CN CN202010852180.1A patent/CN112084773A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN107145545A (zh) * | 2017-04-18 | 2017-09-08 | 东北大学 | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 |
CN107153687A (zh) * | 2017-04-18 | 2017-09-12 | 东北大学 | 一种社交网络文本数据的索引方法 |
US20190096402A1 (en) * | 2017-09-25 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for extracting information |
CN109543007A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 提问数据生成方法、装置、计算机设备和存储介质 |
CN111428981A (zh) * | 2020-03-18 | 2020-07-17 | 国电南瑞科技股份有限公司 | 基于深度学习的电网故障预案信息提取方法和系统 |
Non-Patent Citations (12)
Title |
---|
仲云云,侯汉清,薛鹏军: "网页自动标引方案的优选及标引性能的测评", 情报科学, no. 10 * |
倪静,赵新力,李惠安: "电子政务主题词表应用系统中主题标引算法研究", 高技术通讯, no. 10 * |
刘婷婷,朱文东,陆海兵,赵婷,刘贺,刘广一,朱文娟: "电力大数据中文地址解析和规范化方法研究", 电力信息与通信技术, pages 3 * |
刘文华;康海燕;: "领域问答系统生成器的研究", 北京信息科技大学学报(自然科学版), no. 03 * |
周永梅,陶红,陈姣姣,张再跃: "自动问答系统中的句子相似度算法的研究", 计算机技术与发展, pages 1 * |
周鲲鹏;方仍存;颜炯;康重庆;林海英;刘秀坤;: "电网规划智能辅助决策系统的设计与实现", 电力系统自动化, no. 03 * |
李一;刘纪平;罗安;: "深度学习的中文地址切分算法", 测绘科学, no. 10 * |
李晓林;张懿;周华兵;李霖;: "基于C-F模型的中文地址行政区划辨识方法", 计算机工程与设计, no. 07 * |
王娜;: "网络信息挖掘探析", 高校图书馆工作, no. 03 * |
王红雨: "一种实用智能答疑系统在现代远程教育中的应用", 电脑开发与应用, no. 09 * |
赵成;李滨;: "一种中文地址知识库支撑的中文地址分词算法", 测绘科学技术学报, no. 06 * |
马强;管荑;白英伟;王昭鑫;刘勇;: "基于大数据的电网业务系统设备关联技术研究", 自动化与仪器仪表, no. 04 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268567A (zh) * | 2021-05-31 | 2021-08-17 | 平安国际智慧城市科技股份有限公司 | 多属性文本匹配方法、装置、设备和存储介质 |
CN117251554A (zh) * | 2023-11-16 | 2023-12-19 | 中科星图智慧科技安徽有限公司 | 一种非标准地址转标准地址的方法 |
CN117251554B (zh) * | 2023-11-16 | 2024-02-20 | 中科星图智慧科技安徽有限公司 | 一种非标准地址转标准地址的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN101542475B (zh) | 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法 | |
Magerman et al. | Data production methods for harmonized patent statistics: Patentee name harmonization | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
WO2008137086A2 (en) | Method and system for disambiguating informational objects | |
JP2019502979A (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
CN106919663A (zh) | 电力调控系统多源异构数据融合中的字符串匹配方法 | |
CN112270188B (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
WO2020082673A1 (zh) | 发票检验方法、装置、计算设备和存储介质 | |
CN112084773A (zh) | 一种基于词库双向最大匹配法的电网停电地址匹配方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN109101483A (zh) | 一种针对电力巡检文本的错误识别方法 | |
Ortona et al. | Wadar: Joint wrapper and data repair | |
CN111460091A (zh) | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
CN116821395A (zh) | 基于全文检索的贸易数据疑似命中检索方法及系统 | |
CN114611515B (zh) | 一种基于企业舆情信息识别企业实际控制人的方法和系统 | |
Ziv et al. | CompanyName2Vec: Company Entity Matching Based on Job Ads | |
CN112883004B (zh) | 一种基于日志聚合的日志知识库与健康度获取方法及系统 | |
CN111666378A (zh) | 一种基于词向量的中文年报标题分类方法 | |
Chengke et al. | New word identification algorithm in natural language processing | |
CN111783452A (zh) | 模型训练方法、信息处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201215 |