CN114841153A - 一种地址切分的更新方法及设备 - Google Patents
一种地址切分的更新方法及设备 Download PDFInfo
- Publication number
- CN114841153A CN114841153A CN202210284238.6A CN202210284238A CN114841153A CN 114841153 A CN114841153 A CN 114841153A CN 202210284238 A CN202210284238 A CN 202210284238A CN 114841153 A CN114841153 A CN 114841153A
- Authority
- CN
- China
- Prior art keywords
- address
- segmentation
- result
- key value
- value pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012937 correction Methods 0.000 claims abstract description 18
- 238000012550 audit Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 6
- 210000004027 cell Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000003771 C cell Anatomy 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址切分的更新方法及设备,方法包括:通过切分模型获取地址切分后的切分结果,根据切分结果确定键值对;根据键值对,对切分结果进行审核,以得到审核结果;根据审核结果确定切分结果的修正点,并根据修正点对切分结果进行修正;确定地址库,将切分结果与地址库中的数据进行比对,得到比对结果,根据比对结果对地址库进行数据更新,根据比对结果对切分模型进行模型更新。本申请通过对切分结果进行识别,增加了对模型结果切分错误的处理,提高了地址切分功能的准确率。通过对未知地址、地址关系进行识别,避免了人工错误,提高了地址切分功能的鲁棒性,将真实业务数据添加进数据库。增加模型的准确率且更好的适用于业务环境。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种地址切分的更新方法及设备。
背景技术
地址切分任务是自然语言处理(Natural Language Processing,NLP)领域下命名实体识别(Named Entity Recognition,NER)任务的一个分支,是地址编码和空间定位中的一个重要环节,其任务主要是输入一个中文地址字符串,使用深度学习模型进行有监督学习,对字符串中的每个字符进行标注,将地址字符串分成多个地址要素词组。地址切分广泛应用于信息检索、中文地理编码和地址信息识别等多个方面,对于如何对地址切分的模型进行更新,提高地址切分的鲁棒性成为当下亟待解决的问题。
发明内容
为了解决上述问题,本申请提出了一种地址切分的更新方法,包括:通过切分模型获取地址切分后的切分结果,根据所述切分结果确定键值对;根据所述键值对,对所述切分结果进行审核,以得到审核结果;根据所述审核结果确定所述切分结果的修正点,并根据所述修正点对所述切分结果进行修正;确定地址库,将所述切分结果与所述地址库中的数据进行比对,得到比对结果,根据所述比对结果对所述地址库进行数据更新,根据所述比对结果对所述切分模型进行模型更新。
在一个示例中,所述方法还包括:获取地址切分后的多个切分结果;根据所述切分结果确定切分词和所述切分词对应的类别;根据所述切分词和所述类别建立所述键值对;根据所述键值对,对所述切分结果进行审核,具体包括:根据所述多个切分结果确定结果列表,并根据所述结果列表确定多个所述切分词和多个所述类别;对所述多个类别进行筛查,以得到重复的所述类别,并将重复的所述类别对应的所述切分结果标记为错误结果。
在一个示例中,根据所述审核结果确定所述切分结果的修正点,并根据所述修正点对所述切分结果进行修正,具体包括:确定重复的所述类别对应的多个修正切分词,对所述多个修正切分词进行拼接,以得到拼接键值对;将所述拼接键值对发送至地址库中,以对所述地址库中的所述数据进行修正更新。
在一个示例中,将所述审核结果与所述地址库中的数据进行比对,具体包括:根据所述切分结果在所述地址库中进行查找;若在所述地址库中未找到所述切分结果对应的所述数据,则确定所述切分结果对应的所述键值对,根据所述键值对,对所述切分结果进行键值分析,以判断所述切分结果是否为新地址;若所述切分结果为新地址,则根据所述键值对获取所述新地址的地址信息,根据所述地址信息对所述地址库进行数据更新;若所述切分结果为旧地址,则将所述切分结果标记为错误结果,并根据所述键值对,对所述切分模型进行模型更新。
在一个示例中,根据所述键值对,对所述切分结果进行键值分析,具体包括:根据所述键值对获取所述切分结果的上下文键值对,根据所述上下文键值对在所述地址库中进行查找;若根据所述上下文键值对在所述地址库中未找到对应的所述数据,则将所述切分结果标记为新地址。
在一个示例中,所述方法还包括:确定所述键值对的上下级关系,根据所述键值对在所述地址库中进行查找;若根据所述键值对在所述地址库中找到对应的关系数据,则根据所述关系数据对所述键值对进行所述上下级关系的审核;若根据所述键值对在所述地址库中未找到对应的所述关系数据,则根据所述键值对获取地址信息,根据所述地址信息对所述地址库进行数据更新。
在一个示例中,根据所述关系数据对所述键值对进行所述上下级关系的审核,具体包括:若所述上下级关系与所述关系数据不一致,则将所述键值对的对应所述切分结果标记为错误结果。
在一个示例中,所述方法还包括:根据所述上下级关系对所述键值对进行完整性分析;若所述键值对的所述上下级关系不完整,则根据所述键值对在所述地址库中进行查找,以得到补充数据,并根据所述补充数据将所述键值对的所述上下级关系进行补充。
在一个示例中,所述方法还包括:根据所述地址库获取新地址,并确定所述新地址的结构化地址和地址关系,将所述结构化地址和所述地址关系进行拼接,以得到非结构化地址;根据所述非结构化地址对所述切分模型进行更新训练。
另一方面,本申请还提出了一种地址切分的更新设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述一种地址切分的更新设备能够执行:如上述任意一个示例所述的方法。
本申请通过对切分结果进行识别,增加了对模型结果切分错误的处理,提高了地址切分功能的准确率。通过对未知地址、地址关系进行识别,可以在一定程度上识别人工录入的错误,提高了地址切分功能的鲁棒性,且在切分地址的同时识别新地址、地址关系,将真实业务数据添加进数据库。利用切分后识别的新地址、地址关系更新的数据库可以作为新模型数据集的来源训练新模型,能够增加模型的准确率且更好的适用于业务环境。本申请得到的动态更新数据库可用于地址补全,增加切分后结构化地址的质量,也可以作为其他业务的基础库,用于查询等服务。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种地址切分的更新方法的流程示意图;
图2为本申请实施例中切分结果审核的流程示意图;
图3为本申请实施例中未知地址审核的流程示意图;
图4为本申请实施例中未知地址关系审核的流程示意图;
图5为本申请实施例中切分模型更新的流程示意图;
图6为本申请实施例中一种地址切分的更新设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
地址切分的任务主要是输入一个中文地址字符串,使用深度学习模型进行有监督学习,对字符串中的每个字符进行标注。标注前缀分为BME三种,分别代表此字符为一个地理标识的开头、中间和结尾。标注后缀分为PRO,CIT,DIS,STE,COM,ROA,RNUM,BUI,UNI,HOU分别表示此字符是属于省(Province)、市(City)、区(District)、街道(Street)、社区(Community)、路(Road)、路号(Road Number)、楼(Building)、单元(Unit)、户(Households)类别中的字符,通过对每个字符的标注结果对非结构化地址字符串进行切分识别从而得到结构化的地址信息。
如图1所示,为了解决上述问题,本申请实施例提供的一种地址切分的更新方法,方法包括:
S101、通过切分模型获取地址切分后的切分结果,根据所述切分结果确定键值对。
如图5所示,本申请实施例中使用的地址切分的模型是基于bert-bilstm-crf算法。其中bert是一种词嵌入模型,用于将地址中的字词转化为模型可以识别的词向量,同时尽可能的通过词向量将字词之间的对应关系进行保留。bilstm是双向长短期记忆神经网络,可以对地址字符串中的每个字符提取其本身特征及其上下文信息,以此作为标注的依据。crf是条件随机场,用于最终标签的生成,它可以根据bilstm生成的特征以及前序字符串生成的标签生成当前字符的标签。通过bert-bilstm-crf模型对非结构化地址进行切分,得到结构化的地址切分结果,从而根据该切分结果得到该地址的键值对。
在一个实施例中,切分后的切分结果是一个包含多个Map的List,其中,List是存储单列数据的集合,存储的数据是有序并且是可以重复的。Map是存储双列数据的集合,通过键值对存储数据,存储的数据是无序的。每个Map都是一个键值对,键值对包括Key和Value,Key表示分类类别,Value表示切分出的切分词,Key值不能重复,Value值可以重复,Key和Value是一一对应的。例如:山东省济南市的切分结果为[{"province":"山东省"},{"city":"济南市"}]。
S102、根据所述键值对,对所述切分结果进行审核,以得到审核结果。
对于每一个地址的切分结果,其Map的Key应当唯一。因此若一个切分结果中有多个Map有相同的Key,则认为切分结果出现错误,此时将多个相同的Key对应的Value使用逗号分割的方法拼接,作为此分类的值,然后将处理后的切分结果存入待审核库等待人工审核,并标注其错误类型为分类错误。
S103、根据所述审核结果确定所述切分结果的修正点,并根据所述修正点对所述切分结果进行修正。
在一个实施例中,如图2所示,根据多个切分结果Map确定结果列表List,并根据List确定多个Key和多个Value。对多个Key进行筛查,判断是否存在重复的类别,若存在重复的类别,确定重复的类别对应的多个修正切分词,将多个修正切分词进行拼接,以得到拼接键值对。并将重复的类别对应的切分结果标记为错误结果,将错误结果的拼接键值对发送至非结构化地址库中,以对该地址库中的数据进行修正更新。
S104、确定地址库,将所述切分结果与所述地址库中的数据进行比对,得到比对结果,根据所述比对结果对所述地址库进行数据更新,根据所述比对结果对所述切分模型进行模型更新。
地址库为本申请实施例提供环境准备,该地址库包括行政区划数据(包括省市区街道社区名称及上下级对应关系)、小区名称及其所属社区街道名称对应关系数据库、小区名称及其所在道路路号数据库、待审核地址数据库、待审核未知地址数据库、待审核未知地址关系数据库。将切分结果与地址库中的数据进行比对,得到比对结果,根据比对结果对地址库进行数据更新,根据比对结果对切分模型进行模型更新。
在一个实施例中,如图3所示,对于省市区街道社区小区类别的切分结果,需要将该类别对应的地址在数据库中进行搜索,若未能在数据库中找到,可能有以下原因:第一,该切分结果为新地址,如新建小区、新增社区等情况,需要更新地址库。第二,该切分结果为错地址,如地址切分错误,需要更新模型,或为人工填写错误,需人工纠正等。因此如碰到位置地址,首先将切分结果放入待审核库,其次将未知地址及其分类存入远程字典服务(Remote Dictionary Server,Redis)中进行缓存,统计整批地址出现此未知地址的次数,待整批地址处理完成后将位置地址及出现次数存入数据库等待人工审核,并标注其错误类型为出现未知地址。对于人工错误,一般出现次数较少,而新地址或切分错误往往会在一批地址中频繁出现,因此可以通过出现次数辅助审核员进行错误类型判断。若切分结果为新地址,则根据键值对获取新地址的地址信息,根据地址信息对地址库进行数据更新;若切分结果为旧地址,则将切分结果标记为错误结果,并根据键值对,对切分模型进行模型更新。
在一个实施例中,根据键值对获取切分结果的上下文键值对,例如:街道的键值对,其上下键值对分别为区和社区。根据上下文键值对在地址库中进行查找;若根据上下文键值对在地址库中未找到对应的数据,则将切分结果标记为新地址。例如:对A区B街道C小区进行审核,发现该切分结果错误,则在地址库中对该切分结果进行查找,查出A区中没有B街道,或C小区不属于B街道,则将包含B街道的切分结果标记为新地址。
在一个实施例中,如图4所示,切分结果中存在小区字段,则根据上下级关系查询小区——街道社区、小区——路路号数据库,是否有该小区信息。若根据键值对在地址库中找到对应的关系数据,即数据库中该小区信息,则根据关系数据对键值对进行上下级关系的审核,判断当前地址的切分结果与数据库中已有信息是否一致,若不一致则将地址存入待审核库,并标记错误类型为未知地址关系。若数据库中不存在该小区信息,则将当前地址切分中的小区——街道社区、小区——路路号的信息存入Redis,待整批地址切分完成后存入数据库等待人工审核地址关系并更新入地址数据库。
在一个实施例中,根据上下级关系对键值对进行完整性分析,若键值对的上下级关系不完整,则根据键值对在地址库中进行查找,以得到补充数据,并根据补充数据将键值对的上下级关系进行补充。例如,抑制切分结果为A市B小区,根据该切分结果在地址库的数据库中进行上下级关系查找,以补充该切分结果的区、街道信息。
在一个实施例中,如图5所示,定期通过更新的新地址对切分模型进行更新。从地址库中获取新地址的结构化地址和地址关系,并对构化地址和地址关系进行拼接,生成有标注的非结构化地址数据。在旧的bert-bilstm-crf模型的基础上使用这些新地址生成的数据进行训练,使bert-bilstm-crf模型能够适应更新后的数据。同时,除了使用旧模型和新数据进行训练的增量更新之外,定期使用地址库中所有数据生成标注数据集并重新训练一个新模型,以此保证模型的准确率以及对现有地址库的适应。
如图6所示,本申请实施例还提供了一种地址切分的更新设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述一种地址切分的更新设备能够执行如上述任意一个实施例所述的方法。
本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:如上述任意一个实施例所述的方法。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种地址切分的更新方法,其特征在于,包括:
通过切分模型获取地址切分后的切分结果,根据所述切分结果确定键值对;
根据所述键值对,对所述切分结果进行审核,以得到审核结果;
根据所述审核结果确定所述切分结果的修正点,并根据所述修正点对所述切分结果进行修正;
确定地址库,将所述切分结果与所述地址库中的数据进行比对,得到比对结果,根据所述比对结果对所述地址库进行数据更新,根据所述比对结果对所述切分模型进行模型更新。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取地址切分后的多个切分结果;
根据所述切分结果确定切分词和所述切分词对应的类别;
根据所述切分词和所述类别建立所述键值对;
根据所述键值对,对所述切分结果进行审核,具体包括:
根据所述多个切分结果确定结果列表,并根据所述结果列表确定多个所述切分词和多个所述类别;
对所述多个类别进行筛查,以得到重复的所述类别,并将重复的所述类别对应的所述切分结果标记为错误结果。
3.根据权利要求2所述的方法,其特征在于,根据所述审核结果确定所述切分结果的修正点,并根据所述修正点对所述切分结果进行修正,具体包括:
确定重复的所述类别对应的多个修正切分词,对所述多个修正切分词进行拼接,以得到拼接键值对;
将所述拼接键值对发送至地址库中,以对所述地址库中的所述数据进行修正更新。
4.根据权利要求1所述的方法,其特征在于,将所述审核结果与所述地址库中的数据进行比对,具体包括:
根据所述切分结果在所述地址库中进行查找;
若在所述地址库中未找到所述切分结果对应的所述数据,则确定所述切分结果对应的所述键值对,根据所述键值对,对所述切分结果进行键值分析,以判断所述切分结果是否为新地址;
若所述切分结果为新地址,则根据所述键值对获取所述新地址的地址信息,根据所述地址信息对所述地址库进行数据更新;
若所述切分结果为旧地址,则将所述切分结果标记为错误结果,并根据所述键值对,对所述切分模型进行模型更新。
5.根据权利要求4所述的方法,其特征在于,根据所述键值对,对所述切分结果进行键值分析,具体包括:
根据所述键值对获取所述切分结果的上下文键值对,根据所述上下文键值对在所述地址库中进行查找;
若根据所述上下文键值对在所述地址库中未找到对应的所述数据,则将所述切分结果标记为新地址。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述键值对的上下级关系,根据所述键值对在所述地址库中进行查找;
若根据所述键值对在所述地址库中找到对应的关系数据,则根据所述关系数据对所述键值对进行所述上下级关系的审核;
若根据所述键值对在所述地址库中未找到对应的所述关系数据,则根据所述键值对获取地址信息,根据所述地址信息对所述地址库进行数据更新。
7.根据权利要求6所述的方法,其特征在于,根据所述关系数据对所述键值对进行所述上下级关系的审核,具体包括:
若所述上下级关系与所述关系数据不一致,则将所述键值对的对应所述切分结果标记为错误结果。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述上下级关系对所述键值对进行完整性分析;
若所述键值对的所述上下级关系不完整,则根据所述键值对在所述地址库中进行查找,以得到补充数据,并根据所述补充数据将所述键值对的所述上下级关系进行补充。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述地址库获取新地址,并确定所述新地址的结构化地址和地址关系,将所述结构化地址和所述地址关系进行拼接,以得到非结构化地址;
根据所述非结构化地址对所述切分模型进行更新训练。
10.一种地址切分的更新设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述一种地址切分的更新设备能够执行:如权利要求1-9中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284238.6A CN114841153B (zh) | 2022-03-22 | 2022-03-22 | 一种地址切分的更新方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284238.6A CN114841153B (zh) | 2022-03-22 | 2022-03-22 | 一种地址切分的更新方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841153A true CN114841153A (zh) | 2022-08-02 |
CN114841153B CN114841153B (zh) | 2024-05-31 |
Family
ID=82562121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210284238.6A Active CN114841153B (zh) | 2022-03-22 | 2022-03-22 | 一种地址切分的更新方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841153B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016165538A1 (zh) * | 2015-04-13 | 2016-10-20 | 阿里巴巴集团控股有限公司 | 一种地址数据的管理方法和装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
CN109255565A (zh) * | 2017-07-14 | 2019-01-22 | 菜鸟智能物流控股有限公司 | 地址的归属识别和物流任务的分发方法及其装置 |
CN112861532A (zh) * | 2019-11-12 | 2021-05-28 | 北京四维图新科技股份有限公司 | 地址标准化处理方法、装置、设备及在线搜索系统 |
CN113449528A (zh) * | 2021-08-30 | 2021-09-28 | 企查查科技有限公司 | 一种地址要素提取方法、装置、计算机设备和存储介质 |
CN114004224A (zh) * | 2020-07-17 | 2022-02-01 | 中国电信股份有限公司 | 复杂地址分词方法和装置、计算机可读存储介质 |
-
2022
- 2022-03-22 CN CN202210284238.6A patent/CN114841153B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016165538A1 (zh) * | 2015-04-13 | 2016-10-20 | 阿里巴巴集团控股有限公司 | 一种地址数据的管理方法和装置 |
CN109255565A (zh) * | 2017-07-14 | 2019-01-22 | 菜鸟智能物流控股有限公司 | 地址的归属识别和物流任务的分发方法及其装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
CN112861532A (zh) * | 2019-11-12 | 2021-05-28 | 北京四维图新科技股份有限公司 | 地址标准化处理方法、装置、设备及在线搜索系统 |
CN114004224A (zh) * | 2020-07-17 | 2022-02-01 | 中国电信股份有限公司 | 复杂地址分词方法和装置、计算机可读存储介质 |
CN113449528A (zh) * | 2021-08-30 | 2021-09-28 | 企查查科技有限公司 | 一种地址要素提取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114841153B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414357A (zh) | 地址数据处理方法、装置、系统和存储介质 | |
CN111914557A (zh) | 地址解析方法、装置、设备及计算机可读存储介质 | |
CN117112850A (zh) | 地址标准化方法、装置、设备及存储介质 | |
CN115730602A (zh) | 文本关键要素抽取方法、系统、存储介质和电子设备 | |
CN115688779A (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN111222345A (zh) | 基于语义分词技术的地名地址可视化分析方法 | |
CN114676961A (zh) | 企业外迁风险预测方法、装置及计算机可读存储介质 | |
CN116955541B (zh) | 融合地理要素语义分割与相似度的地址匹配方法和系统 | |
CN113536070A (zh) | 一种地址解析方法、系统、计算机设备和存储介质 | |
CN113743080A (zh) | 一种分层级地址文本相似度比对方法、装置及介质 | |
CN113761137A (zh) | 一种提取地址信息的方法及装置 | |
CN114841153A (zh) | 一种地址切分的更新方法及设备 | |
CN115759027B (zh) | 文本数据处理系统及方法 | |
CN115292962B (zh) | 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN116775830A (zh) | 一种在线技术文档搜索方法、设备及介质 | |
CN116757498A (zh) | 一种惠企政策推送方法、设备及介质 | |
CN114564942B (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN112287005A (zh) | 一种数据处理方法、装置、服务器及介质 | |
CN116910386B (zh) | 地址补全方法、终端设备及计算机可读存储介质 | |
CN116976339B (zh) | 一种针对高速公路的特情分析方法、设备及介质 | |
CN114780682B (zh) | 一种解析数据评估方法、设备及介质 | |
CN115577065B (zh) | 一种地址解析的方法及装置 | |
CN115438061A (zh) | 一种客户标准地址数据库的更新方法及系统 | |
DK202070594A1 (en) | A method for address matching and related electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |