CN117112850A - 地址标准化方法、装置、设备及存储介质 - Google Patents
地址标准化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117112850A CN117112850A CN202311151778.8A CN202311151778A CN117112850A CN 117112850 A CN117112850 A CN 117112850A CN 202311151778 A CN202311151778 A CN 202311151778A CN 117112850 A CN117112850 A CN 117112850A
- Authority
- CN
- China
- Prior art keywords
- address
- data
- model
- dictionary
- understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 79
- 238000010606 normalization Methods 0.000 claims description 42
- 238000012795 verification Methods 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000000295 complement effect Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及地址标准化方法、装置、设备及存储介质,所述方法包括:获取行政区划数据、道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,以进行地址理解模型的训练;获取实时反馈的快递寄件地址并进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址;本申请公开的方法,可将实时反馈的快递寄件地址进行标准化,便于存储、查询和利用地址数据,提高了采集和处理效率以及分单和分拣的正确率,降低了人工成本,避免由于地址错误导致出现误配问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种地址标准化方法、装置、设备及存储介质。
背景技术
快递物流业务在开展的过程中往往涉及大量地址数据,而这些数据往往没有形成标准结构规范;由于用户提交的快递寄件地址格式参差不齐,具体的,地址信息云翳表达、格式不统一,且可能包含语法错误、口语化表达和省略信息等特点,若需要准确解析用户所提交的快递寄件地址的各个语义组成部分,则需要大量人工校对和处理,存在人工成本高、分单效率低和分拣效率低的问题。
可见,现有技术还有待改进和提高。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种地址标准化方法、装置、设备及存储介质,可实现快递寄件地址的标准化,提高采集和处理效率。
本发明第一方面提供了一种地址标准化方法,包括:获取行政区划数据、道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
可选的,在本发明第一方面的第一种实施方式中,所述获取行政区划数据、道路数据和门派数据,构建地址字典库,具体包括:创建crond定时任务文件,所述crond定时任务文件包括执行时间,所述执行时间包括月、星期、天、小时、分钟;根据crond定时任务文件,基于cron服务获取行政区划数据、道路数据和门牌数据;根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;整合行政区划字典、道路名称字典和门牌号范围字典,得到地址字典库。
可选的,在本发明第一方面的第二种实施方式中,所述获取历史寄件地址数据,具体包括:获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集、验证集和测试集。
可选的,在本发明第一方面的第三种实施方式中,所述根据历史寄件地址数据训练地址理解模型,具体包括:构建初始模型,采用BERT预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将BERT预训练语言模型的输出的token级别表示作为CRF模型的输入;将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型。
可选的,在本发明第一方面的第四种实施方式中,所述获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据,具体包括:获取实时反馈的快递寄件地址;采用正则表达式匹配快递寄件地址中的空格,并将所匹配的空格替换为空字符串,得到处理文本;采用预训练的分词模型对处理文本进行分词处理,得到预处理数据。
可选的,在本发明第一方面的第五种实施方式中,所述根据地址字典库对地址理解结果进行校验,具体包括:采用KMP算法匹配地址理解结果和地址字典库,判断地址理解结果所包括的行政区划、道路和门牌号是否存在于地址字典库内;当行政区划、道路和门牌号任一不存在于地址字典库内时,根据行政区划、道路和门牌号之间的从属关系确认替换信息,并根据替换信息生成第一校验结果;当行政区划、道路和门牌号均存在于地址字典库内时,根据地址字典库对地址理解结果进行从属校验,生成第二校验结果。
可选的,在本发明第一方面的第六种实施方式中,所述根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址,具体包括:判断地址理解结果是否符合预设的标准规则,所述预设的标准规则包括预设的标准地址格式;若符合,根据预设的标准地址格式生成标准地址,并输出;若不符合,采用KMP算法从地址字典库中匹配缺失信息,根据地址理解结果、缺失信息和预设的标准地址格式生成补全地址,并输出。
本发明第二方面提供了一种地址标准化装置,包括:获取模块,用于获取行政区划数据、道路数据和门牌数据,构建地址字典库;训练模块,用于获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;处理模块,用于获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;输入模块,用于将预处理数据输入至地址理解模型,得到地址理解结果;校验补全模块,用于根据地址字典库对地址理解结果进行校验,并根据标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:创建单元,用于创建crond定时任务文件,所述crond定时任务文件包括执行时间,所述执行时间包括月、星期、天、小时、分钟;第一获取单元,用于根据crond定时任务文件,基于cron服务获取行政区划数据、道路数据和门牌数据;第一构建单元,用于根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;整合单元,用于整合行政区划字典、道路名称字典和门牌号范围字典,得到地址字典库。
可选的,在本发明第二方面的第二种实现方式中,所述训练模块包括:第二获取单元,用于获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;增强单元,用于对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;划分单元,用于根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集、验证集和测试集。
可选的,在本发明第二方面的第三种实现方式中,所述训练模块还包括:第二构建单元,用于构建初始模型,采用BERT预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将BERT预训练语言模型的输出的token级别表示作为CRF模型的输入;第一训练单元,用于将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;第二训练单元,用于将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;第三训练单元,用于将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型。
可选的,在本发明第二方面的第四种实现方式中,所述处理模块包括:第三获取单元,用于获取实时反馈的快递寄件地址;第一匹配单元,用于采用正则表达式匹配快递寄件地址中的空格,并将所匹配的空格替换为空字符串,得到处理文本;分词单元,用于采用预训练的分词模型对处理文本进行分词处理,得到预处理数据。
可选的,在本发明第二方面的第五种实现方式中,所述校验补全模块包括:第二匹配单元,用于采用KMP算法匹配地址理解结果和地址字典库,判断地址理解结果所包括的行政区划、道路和门牌号是否存在于地址字典库内;第一检验单元,用于当行政区划、道路和门牌号任一不存在于地址字典库内时,根据行政区划、道路和门牌号之间的从属关系确认替换信息,并根据替换信息生成第一校验结果;第二校验单元,用于当行政区划、道路和门牌号均存在于地址字典库内时,根据地址字典库对地址理解结果进行从属校验,生成第二校验结果。
可选的,在本发明第二方面的第六种实现方式中,所述校验补全模块还包括:判断单元,用于判断地址理解结果是否符合预设的标准规则,所述预设的标准规则包括预设的标准地址格式;生成单元,用于若符合,根据预设的标准地址格式生成标准地址,并输出;补全单元,用于若不符合,采用KMP算法从地址字典库中匹配缺失信息,根据地址理解结果、缺失信息和预设的标准地址格式生成补全地址,并输出。
本发明第三方面提供了一种地址标准化设备,所述地址标准化设备包括:存储器和至少一个处理器,所述存储器中存储有指令;至少一个所述处理器调用所述存储器中的所述指令,以使得所述地址标准化设备执行上述任一项所述的地址标准化方法的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述任一项所述地址标准化方法的各个步骤。
本发明的技术方案中,通过获取行政区划数据、道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,以进行地址理解模型的训练;获取实时反馈的快递寄件地址并进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址;本申请公开的方法,可将实时反馈的快递寄件地址进行标准化,便于存储、查询和利用地址数据,提高了采集和处理效率以及分单和分拣的正确率,降低了人工成本,避免由于地址错误导致出现误配问题。
附图说明
图1为本发明实施例提供的地址标准化方法的第一种流程图;
图2为本发明实施例提供的地址标准化方法的第二种流程图;
图3为本发明实施例提供的地址标准化方法的第三种流程图;
图4为本发明实施例提供的地址标准化方法的第四种流程图;
图5为本发明实施例提供的地址标准化方法的第五种流程图;
图6为本发明实施例提供的地址标准化装置的一种结构示意图;
图7为本发明实施例提供的地址标准化设备的结构示意图。
具体实施方式
本发明提供了一种地址标准化方法、装置、设备及存储介质,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中地址标准化方法的一个实施例包括:
101、获取行政区划数据、道路数据和门牌数据,构建地址字典库;
在本实施例中,可从国家统计局及民政部获取行政区划数据,所述行政区划数据包含省/市/区/县/乡/村名称、邮编、编码等信息;进一步地,可从城市租房管理局记忆地图服务获取道路数据和门牌数据;所构建的地址字典库包括中文名称以及与中文名称对应的拼音名称和英文名称,比如杭州市西湖区黄龙时尚街的在地址字典库内的字典信息包括:省:浙江省(Zhejiang)、市:杭州市(Hangzhou)、区:西湖区(Xihu District)、街道:黄龙时尚街(Huanglong Fashion Street)。
102、获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;
在本实施例中,所述历史寄件地址数据包括多个历史寄件地址信息,所述历史寄件地址信息可以为完整地址信息或非完整地址信息,以提高样本丰富度。
103、获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;
在本实施例中,先对所获取的实时反馈的快递寄件地址进行预处理,以降低输入至地址理解模型的预处理数据的复杂度,提高地址理解模型的处理效率,并提高地址理解模型所输出的地址理解结果的准确度和可靠度。
104、将预处理数据输入至地址理解模型,得到地址理解结果;
在本实施例中,完成训练的地址理解模型可对实时反馈的快递寄件地址进行切词、词性标注、命名实体识别、语义解析等处理。
105、根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
在本实施例中,通过预设的标准规则和地址字典库对地址理解模型输出的地址理解结果进行校验和补全,可实现快递寄件地址的标准化。
在本实施例中,建立反馈机制,当反馈补全地址存在错误时,收集该补全地址作为错误样本,错误样本用于实现标准规则以及地址理解模型的优化和补充,提高转换准确度。
本申请公开了一种地址标准化方法,通过获取行政区划数据、道路数据和门牌数据,构建地址字典库;获取历史寄件地址数据,以进行地址理解模型的训练;获取实时反馈的快递寄件地址并进行预处理,得到预处理数据;将预处理数据输入至地址理解模型,得到地址理解结果;根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址;本申请公开的方法,可将实时反馈的快递寄件地址进行标准化,便于存储、查询和利用地址数据,提高了采集和处理效率以及分单和分拣的正确率,降低了人工成本,避免由于地址错误导致出现误配问题,可提高快递企业的核心竞争力。
请参阅图2,本发明实施例中地址标准化方法的第二个实施例包括:
201、创建crond定时任务文件,所述crond定时任务文件包括执行时间,所述执行时间包括月、星期、天、小时、分钟;
202、根据crond定时任务文件,基于cron服务获取行政区划数据、道路数据和门牌数据;
203、根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;
204、整合行政区划字典、道路名称字典和门牌号范围字典,得到地址字典库。
cron服务是一种在操作系统中定时执行任务的服务,它基于cron表达式来设置和管理任务的执行时间和频率;通过使用cron服务,可以定期执行特定的命令、脚本或程序,以便自动化完成重复性的任务;在本实施例中,采用cron服务实现行政区划数据、道路数据和门牌数据的定期获取,具体的,通过创建CROND定时任务文件,以确认要执行的任务和执行的时间间隔,实现行政区划数据、道路数据和门牌数据的及时更新,确保所生成的补全地址真实且有效。
请参阅图3,本发明实施例中地址标准化方法的第三个实施例包括:
301、获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;
302、对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;
在本实施例中,分别对历史寄件地址数据进行随机采样处理和随机变换处理;随机采样处理是从原始数据集中随机选择一些样本,然后将这些样本进行一些变换或操作,以生成新的数据,例如,可以从原始数据集中随机选择一些样本,然后将这些样本进行一些变换或操作,以生成新的数据;随机变换处理是通过对输入数据进行随机变换来增加数据;通过对历史寄件地址数据进行数据增强处理,可提高样本丰富度,从而优化地址理解模型的训练效果。
303、根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集、验证集和测试集;
在本实施例中,将增强后数据按照70%、15%、15%的比例划分为训练集、验证集和测试集,训练集用于模型的学习,验证集用于超参数的调优,而测试集则用于评估最终模型的性能。
在本实施例中,对划分后的训练集、验证集和测试集分别进行特征提取处理,即从数据中提取关键特征,有助于地址理解模型的学习和预测;在本实施例中,可采用预训练的隐Markov模型(HMM)进行特征提取处理。
请参阅图3,本发明实施例中地址标准化方法的第四个实施例包括:
304、构建初始模型,采用BERT预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将BERT预训练语言模型的输出的token级别表示作为CRF模型的输入;
在本实施例中,采用BERT预训练语言模型作为初始模型的底层网络结构,BERT是一种预训练的语言模型,可以用于自然语言处理(NLP)任务;它采用了Transformer架构,通过学习上下文信息来预测被遮盖的词语,使得模型能够更好地理解句子中的语义;且BERT能够在各种NLP任务中进行微调,如文本分类、语义相似度、命名实体识别等;在预训练阶段,BERT使用了一个被称为Masked LM的方法,随机掩盖掉每个句子中15%的词语,然后通过上下文来预测被遮盖的词语是什么,这样可以使模型学习到语义信息并将其体现到模型参数中。
在本实施例中,CRF(条件随机场)是一种统计模型,常用于处理序列化数据,比如自然语言处理中的命名实体识别任务;通过将BERT模型输出的token级别表示作为CRF模型的输入,可以使用CRF层来进行序列标注,从而获得更好的标注结果;具体地,在BERT模型之后添加一个全连接层,然后再连接到CRF层;全连接层的作用是将BERT模型输出的每个token进行线性变换;CRF层则利用前向-后向算法来计算输入序列的最优标注序列;通过联合训练BERT和CRF层,可以使得模型能够更好地学习序列标注任务的上下文信息和标签相关性。
305、将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;
在本实施例中,在使用训练集训练初始模型的过程中,将输入特征与目标变量相关联,并调整模型的参数,使其能够在给定的数据上进行准确的预测。
306、将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;
在本实施例中,使用验证集来评估经过训练的模型的性能,可以使用各种指标(如准确率、精确度、召回率、F1分数等)来评估模型的质量,并根据预训练模型在验证集上的性能表现,对模型的超参数进行调整,进一步优化模型的性能,得到待测试模型。
307、将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型;
在本实施例中,使用测试集来对最终待测试模型进行评估,测试集是用来模拟模型在实际应用中的性能,因此必须保持与实际应用场景的一致性;在训练的整个过程中,避免在验证集或测试集上进行任何形式的过度拟合。
请参阅图4,本发明实施例中地址标准化方法的第五个实施例包括:
401、获取实时反馈的快递寄件地址;
402、采用正则表达式匹配快递寄件地址中的空格,并将所匹配的空格替换为空字符串,得到处理文本;
在本实施例中,采用正则表达式匹配快递寄件地址中的空格,正则表达式可以用于匹配和替换字符串中的特定模式;具体的,采用\s+可去除快递寄件地址中的所有空格。
403、采用预训练的分词模型对处理文本进行分词处理,得到预处理数据;
在本实施例中,所述分词模型基于中文分词算法实现训练,具体的,采用正向最大匹配法对名称进行分词处理;正向最大匹配法(FMM)为基于词表的分词算法,对于输入的下发信息文本序列从左至右,以贪心的算法切分出当前位置上长度最大的词,首先设置词库word_dict和一个待分词的字符串s,计算得到词库中最长词语的长度假设为m,从字符串第一个位置开始,选择一个最大长度的词长片段,如果该字符串的长度不足最大词长,则选择该全部字符串;判断选择出来的字符串片段是否在词库中,若在,则将此词分离出来,若不在,则从右边开始,逐一减少一个字符,直到这个片段存在在词典中结束,或者以只剩下最后一个字结束;通过正向最大匹配法,可完成处理文本的分词处理,以得到预处理数据。
请参阅图5,本发明实施例中地址标准化方法的第六个实施例包括:
501、采用KMP算法匹配地址理解结果和地址字典库,判断地址理解结果所包括的行政区划、道路和门牌号是否存在于地址字典库内;
在本实施例中,在本实施例中,采用KMP算法实现地址理解结果与地址字典库的匹配,具体的,地址理解结果所包括的行政区划、道路和门派号分别与行政区划字典、道路名称字典和门牌号范围字典进行一一匹配;KMP算法的基本思想为:从主串test和模式串pattern的第一个字符开始,将两字符串的字符一一比对,如果出现某个字符不匹配,主串回溯到第二个字符,子串回溯到第一个字符再进行一一比对,如果出现某个字符不匹配,主串回溯到第三个字符,子串回溯到第一个字符再进行一一比对,循环一直到子串字符全部匹配成功,即完成任务ID和预设的用户ID表的匹配。
502、当行政区划、道路和门牌号任一不存在于地址字典库内时,根据行政区划、道路和门牌号之间的从属关系确认替换信息,并根据替换信息生成第一校验结果;
在本实施例中,举例说明,当道路和门牌号存在于地址字典库,而行政区划区划仅有市和区的信息存在于地址字典库中,根据市、区和道路之间的从属关系,确认所在省份,所确认的省份为替换信息;将替换信息填写至地址理解结果中,以生成第一校验结果。
503、当行政区划、道路和门牌号均存在于地址字典库内时,根据地址字典库对地址理解结果进行从属校验,生成第二校验结果;
在本实施例中,当行政区划、道路和门牌号均存在于地址字典库内时,判断地址理解结果所包括的行政区划,具体的,判断行政区划所包括的省/市/区/县/乡/村名称是否与地址字典库中一致,再判断行政区划与道路之间的从属关系是否与地址字典库中一致,再判断道路与门牌号之间的的从属关系是否与地址字典库中一致,以完成从属校验,但均一致时,输出地址理解结果作为第二校验结果。
请参阅图5,本发明实施例中地址标准化方法的第七个实施例包括:
504、判断地址理解结果是否符合预设的标准规则,所述预设的标准规则包括预设的标准地址格式;
在本实施例中,所述预设的标准地址格式包括:省、市、区、街道、门牌号码。
505、若符合,根据预设的标准地址格式生成标准地址,并输出;
在本实施例中,当地址理解结果包括省、市、区、街道和门牌号码时,表明地址理解结果符合预设的标准规则,并将地址理解结果所包括的词语逐一匹配填入标准地址格式中,以生成标准地址。
506、若不符合,采用KMP算法从地址字典库中匹配缺失信息,根据地址理解结果、缺失信息和预设的标准地址格式生成补全地址,并输出;
在本实施例中,当地址理解结果缺少省、市、区、街道和门牌号码任一信息时,表明地址理解结果不符合预设的标准规则,采用KMP算法从地址字典库中匹配缺失信息,将地址理解结果所包括的词语以及缺失信息逐一匹配填入标准地址格式中,以生成补全地址。
上面对本发明实施例中地址标准化方法进行了描述,下面对本发明实施例中地址标准化装置进行描述,请参阅图6,本发明实施例中地址标准化装置的一个实施例包括:
获取模块601,用于获取行政区划数据、道路数据和门牌数据,构建地址字典库;训练模块602,用于获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;处理模块603,用于获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;输入模块604,用于将预处理数据输入至地址理解模型,得到地址理解结果;校验补全模块605,用于根据地址字典库对地址理解结果进行校验,并根据标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
在本实施例中,所述获取模块601包括:创建单元6011,用于创建crond定时任务文件,所述crond定时任务文件包括执行时间,所述执行时间包括月、星期、天、小时、分钟;第一获取单元6012,用于根据crond定时任务文件,基于cron服务获取行政区划数据、道路数据和门牌数据;第一构建单元6013,用于根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;整合单元6014,用于整合
行政区划字典、道路名称字典和门牌号范围字典,得到地址字典库。
在本实施例中,所述训练模块602包括:第二获取单元6021,用于获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;增强单元6022,用于对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;划分单元6023,用于根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集、验证集和测试集。
在本实施例中,所述训练模块602还包括:第二构建单元6024,用于构建初始模型,采用BERT预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将BERT预训练语言模型的输出的token级别表示作为CRF模型的输入;第一训练单元6025,用于将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;第二训练单元6026,用于将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;第三训练单元6027,用于将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型。
在本实施例中,所述处理模块603包括:第三获取单元6031,用于获取实时反馈的快递寄件地址;第一匹配单元6032,用于采用正则表达式匹配快递寄件地址中的空格,并将所匹配的空格替换为空字符串,得到处理文本;分词单元6033,用于采用预训练的分词模型对处理文本进行分词处理,得到预处理数据。
在本实施例中,所述校验补全模块605包括:第二匹配单元6051,用于采用KMP算法匹配地址理解结果和地址字典库,判断地址理解结果所包括的行政区划、道路和门牌号是否存在于地址字典库内;第一校验单元6052,用于当行政区划、道路和门牌号任一不存在于地址字典库内时,根据行政区划、道路和门牌号之间的从属关系确认替换信息,并根据替换信息生成第一校验结果;第二校验单元6053,用于当行政区划、道路和门牌号均存在于地址字典库内时,根据地址字典库对地址理解结果进行从属校验,生成第二校验结果。
在本实施例中,所述校验补全模块605还包括:判断单元6054,用于判断地址理解结果是否符合预设的标准规则,所述预设的标准规则包括预设的标准地址格式;生成单元6055,用于若符合,根据预设的标准地址格式生成标准地址,并输出;补全单元6056,用于若不符合,采用KMP算法从地址字典库中匹配缺失信息,根据地址理解结果、缺失信息和预设的标准地址格式生成补全地址,并输出。
上面图6从模块化功能实体的角度对本发明实施例中的地址标准化装置进行详细描述,下面从硬件处理的角度对本发明实施例中地址标准化设备进行详细描述。
图7是本发明实施例提供的一种地址标准化设备的结构示意图,该地址标准化设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对地址标准化设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在地址标准化设备700上执行存储介质730中的一系列指令操作,以实现上述各方法实施例提供的地址标准化方法的步骤。
地址标准化设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,本申请示出的地址标准化设备结构并不构成对基于地址标准化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行地址标准化方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种地址标准化方法,其特征在于,包括:
获取行政区划数据、道路数据和门牌数据,构建地址字典库;
获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;
获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;
将预处理数据输入至地址理解模型,得到地址理解结果;
根据地址字典库对地址理解结果进行校验,并根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
2.根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取行政区划数据、道路数据和门派数据,构建地址字典库,具体包括:
创建crond定时任务文件,所述crond定时任务文件包括执行时间,所述执行时间包括月、星期、天、小时、分钟;
根据crond定时任务文件,基于cron服务获取行政区划数据、道路数据和门牌数据;
根据行政区划数据构建行政区划字典,根据道路数据构建道路名称字典,并根据门牌数据构建门牌号范围字典;
整合行政区划字典、道路名称字典和门牌号范围字典,得到地址字典库。
3.根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取历史寄件地址数据,具体包括:
获取历史寄件地址数据,所述历史寄件地址数据包括多个历史寄件地址;
对历史寄件地址数据进行数据增强处理,得到增强后数据,所述数据增强处理包括随机采样和随机变换;
根据预设的拆分比例对增强后数据进行划分处理和特征提取处理,得到训练集、验证集和测试集。
4.根据权利要求3所述的一种地址标准化方法,其特征在于,所述根据历史寄件地址数据训练地址理解模型,具体包括:
构建初始模型,采用BERT预训练语言模型作为初始模型的底层网络结构,并增加一个全连接层,将BERT预训练语言模型的输出的token级别表示作为CRF模型的输入;
将训练集输入至初始模型中以进行初始模型的训练,在初始模型的训练过程中调整初始模型的参数,得到预训练模型;
将验证集输入至预训练模型中,根据预训练模型的性能表现调整预训练模型的超参数,得到待测试模型;
将测试集输入至待测试模型中,进一步优化待测试模型,得到地址理解模型。
5.根据权利要求1所述的一种地址标准化方法,其特征在于,所述获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据,具体包括:
获取实时反馈的快递寄件地址;
采用正则表达式匹配快递寄件地址中的空格,并将所匹配的空格替换为空字符串,得到处理文本;
采用预训练的分词模型对处理文本进行分词处理,得到预处理数据。
6.根据权利要1所述的一种地址标准化方法,其特征在于,所述根据地址字典库对地址理解结果进行校验,具体包括:
采用KMP算法匹配地址理解结果和地址字典库,判断地址理解结果所包括的行政区划、道路和门牌号是否存在于地址字典库内;
当行政区划、道路和门牌号任一不存在于地址字典库内时,根据行政区划、道路和门牌号之间的从属关系确认替换信息,并根据替换信息生成第一校验结果;
当行政区划、道路和门牌号均存在于地址字典库内时,根据地址字典库对地址理解结果进行从属校验,生成第二校验结果。
7.根据权利要求1所述的一种地址标准化方法,其特征在于,所述根据预设的标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址,具体包括:
判断地址理解结果是否符合预设的标准规则,所述预设的标准规则包括预设的标准地址格式;
若符合,根据预设的标准地址格式生成标准地址,并输出;
若不符合,采用KMP算法从地址字典库中匹配缺失信息,根据地址理解结果、缺失信息和预设的标准地址格式生成补全地址,并输出。
8.一种地址标准化装置,其特征在于,包括:
获取模块,用于获取行政区划数据、道路数据和门牌数据,构建地址字典库;
训练模块,用于获取历史寄件地址数据,根据历史寄件地址数据训练地址理解模型;
处理模块,用于获取实时反馈的快递寄件地址,并对快递寄件地址进行预处理,得到预处理数据;
输入模块,用于将预处理数据输入至地址理解模型,得到地址理解结果;
校验补全模块,用于根据地址字典库对地址理解结果进行校验,并根据标准规则和地址字典库对地址理解结果进行补全处理,生成并输出补全地址。
9.一种地址标准化设备,其特征在于,所述地址标准化设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
至少一个所述处理器调用所述存储器中的所述指令,以使得所述地址标准化设备执行如权利要求1-7中任一项所述的地址标准化方法的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述地址标准化方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311151778.8A CN117112850A (zh) | 2023-09-06 | 2023-09-06 | 地址标准化方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311151778.8A CN117112850A (zh) | 2023-09-06 | 2023-09-06 | 地址标准化方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112850A true CN117112850A (zh) | 2023-11-24 |
Family
ID=88807451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311151778.8A Pending CN117112850A (zh) | 2023-09-06 | 2023-09-06 | 地址标准化方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112850A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117319355A (zh) * | 2023-11-30 | 2023-12-29 | 韦普泰克(常州)测控系统设备有限公司 | 一种检测数字称重仪CANopen编寻址的方法及系统 |
CN117457135A (zh) * | 2023-12-22 | 2024-01-26 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
-
2023
- 2023-09-06 CN CN202311151778.8A patent/CN117112850A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117319355A (zh) * | 2023-11-30 | 2023-12-29 | 韦普泰克(常州)测控系统设备有限公司 | 一种检测数字称重仪CANopen编寻址的方法及系统 |
CN117319355B (zh) * | 2023-11-30 | 2024-02-09 | 韦普泰克(常州)测控系统设备有限公司 | 一种检测数字称重仪CANopen编寻址的方法及系统 |
CN117457135A (zh) * | 2023-12-22 | 2024-01-26 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
CN117457135B (zh) * | 2023-12-22 | 2024-04-09 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
US11521075B2 (en) | Transfer learning system for automated software engineering tasks | |
CN117112850A (zh) | 地址标准化方法、装置、设备及存储介质 | |
CN112215013B (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
US20030046078A1 (en) | Supervised automatic text generation based on word classes for language modeling | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN111079430A (zh) | 一种组合深度学习和概念图谱的电力故障事件抽取方法 | |
CN113901797A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110705312B (zh) | 一种基于语义分析快速开发工业机理模型的开发系统 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
JP2021039501A (ja) | 翻訳装置、翻訳方法及びプログラム | |
Kim | Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
Chandra et al. | Aviation-BERT: A preliminary aviation-specific natural language model | |
CN113705222A (zh) | 槽识别模型训练方法及装置和槽填充方法及装置 | |
CN116383414A (zh) | 一种基于碳核查知识图谱的智能文件评审系统及方法 | |
CN114064269A (zh) | 一种地址匹配方法、装置及终端设备 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 | |
CN114416925B (zh) | 敏感词识别方法、装置、设备、存储介质及程序产品 | |
CN116524926B (zh) | 一种用于在移动端通过语音控制生成业务表单的方法 | |
CN113449510B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN112084769B (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
Morărașu et al. | AI-driven Optimization of Operational NOTAM Management | |
CN116303844A (zh) | 一种基于nlp和统计学的属地行政区划代码识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |