CN116910386A - 地址补全方法、终端设备及计算机可读存储介质 - Google Patents
地址补全方法、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116910386A CN116910386A CN202311183340.8A CN202311183340A CN116910386A CN 116910386 A CN116910386 A CN 116910386A CN 202311183340 A CN202311183340 A CN 202311183340A CN 116910386 A CN116910386 A CN 116910386A
- Authority
- CN
- China
- Prior art keywords
- address
- determining
- target
- data
- address element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了地址补全方法、终端设备及计算机可读存储介质,该方法包括:对接收到的地址数据进行地址要素切分,确定初始地址要素;确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素;基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;根据所述目标地址信息更新所述地址数据。解决了在地址补全技术中,因标准地址库不完整,导致最终匹配生成的地址不准确的问题。达到了提高地址补全的准确性的效果。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及地址补全方法、终端设备及计算机可读存储介质。
背景技术
随着数字城市和智慧城市的开展,大量行业和个人信息需要通过地址匹配服务实现空间表达,因此需要将人们输入的不完整地址或者错误地址补全为完整的地址。
相关地址补全方法为基于语义识别和高级语言搜索的地址标准化方法,在标准地址库中检索最为准确的标准地址,即单个地址匹配标准地址库中的全量地址,按相似度进行排序,输出相似度得分最高的地址作为输入地址的标准化地址。对于本就不全的标准地址库,如果输入地址对应的标准化地址本就不在标准化地址库中,那么只能匹配到较为相近的地址作为标准化地址。
使用标准化地址库匹配得到标准化地址的方法,对标准化地址库的地址数据要求很高,若标准化地址库不完整,则匹配到的地址可能不准确。
发明内容
本申请实施例通过提供一种地址补全方法、终端设备及计算机可读存储介质,解决了在地址补全技术中,因标准地址库不完整,导致最终匹配生成的地址不准确的问题。达到了提高地址补全的准确性的效果。
本申请实施例提供了一种地址补全方法、终端设备及计算机可读存储介质,所述地址补全方法包括:
对接收到的地址数据进行地址要素切分,确定初始地址要素;
确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素;
基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;
根据所述目标地址信息更新所述地址数据。
可选地,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤包括:
计算所述目标地址要素的起点到终点的节点数量;
在所述地址图谱中查询从所述起点到所述终点的所有路径;
将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径,所述地址要素最优路径对应的地址信息即为所述目标地址信息。
可选地,所述将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径的步骤包括:
获取所述地址要素最优路径中,最后一级地址要素节点的接续连接点;
若所述接续连接点唯一,则将所述接续连接点对应的地址要素添加到所述最优路径中。
可选地,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤包括:
当第一目标地址要素节点的后置相邻节点不唯一时,获取第二目标地址要素节点的前置相邻节点;
将所述后置相邻节点和所述前置相邻节点进行匹配,确定所述第一目标地址要素节点和所述第二目标地址要素节点间的连接路径。
可选地,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤还包括:
当所述地址数据中存在行政区划级别缺失,且属于同名地点的地点数据时,根据第一目标地址要素节点所归属的上一级节点,补全所述目标地址信息的行政区划级别。
可选地,所述确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素的步骤包括:
若无法在所述地址图谱中匹配到所述目标地址要素,判定所述地址数据输入错误,向用户发送数据错误通知;
待重新接收到所述地址数据时,执行对所述地址数据进行地址要素切分的步骤。
可选地,所述确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素的步骤之前,包括:
获取企业的标准地址库,并根据所述标准地址库,确定所需的地址要素;
根据所述地址要素间的等级归属关系,构建所述地址图谱。
可选地,所述对接收到的地址数据进行地址要素切分,确定初始地址要素的步骤包括:
在接收到所述地址数据后,调用地址要素识别服务;
根据所述地址要素识别服务中预设的实体标签,对所述地址数据进行拆分,确定实际地址数据对应的字符;
遍历所述字符,进行地址要素切分,生成所述初始地址要素。
此外,为实现上述目的,本发明实施例还提供一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的地址补全程序,所述处理器执行所述地址补全程序时,实现如上所述的方法。
此外,为实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址补全程序,所述地址补全程序被处理器执行时,实现如上所述的方法。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在接收到地址数据后,对地址数据进行地址要素切分,确定初始地址要素。将初始地址要素与地址图谱进行匹配,根据匹配结果,确定目标地址要素。再基于深度优先算法确定目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息,根据目标地址信息更新地址数据,也即将补全后的目标地址信息作为最终的地址数据。由于本方案是将地址数据细分为地址要素,再根据地址要素的前后连接关系,对地址数据进行补全。而地址要素是由地址图谱匹配得来的,而地址图谱是基于标准地址库构建的,可以提供一致性和准确性较高的地址数据。通过地址图谱的结构和关联关系,可以更好地保证补全的地址要素的准确性和一致性,从而保证补全后的地址的准确性。
附图说明
图1为本申请地址补全方法实施例一的流程示意图;
图2为本申请地址补全方法一地址图谱示例图;
图3为本申请地址补全方法实施例二的流程示意图;
图4为本申请一实施例方案涉及的硬件运行环境的终端结构示意图。
具体实施方式
在相关地址补全技术中,使用标准地址库对地址进行补全,标准地址库中需要涵盖所有的地址数据。在进行地址补全时,需要全量匹配出相似度最高的地址,若标准地址库不全,则无法匹配到准确的地址。为了解决这一问题,本方案提供一种地址补全方法,接收到地址数据后,对地址数据进行地址要素切分,确定初始地址要素。再将初始地址要素与地址图谱进行匹配,根据匹配结果确定目标地址要素。基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;根据所述目标地址信息更新所述地址数据,完成地址的补全。由于是通过地址图谱的遍历和查询,再基于具有上下文关联的地址要素进行智能地址补全,可以有效提高地址补全的准确性。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以通过各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
在本实施例中,提供一种地址补全方法。
参照图1,本实施例的地址补全方法包括以下步骤:
步骤S100:对接收到的地址数据进行地址要素切分,确定初始地址要素;
在本实施例中,接收到的地址数据可以是一个单独的地址数据,也可以是一个存储待补正的地址数据列表。初始地址要素指的是根据接收到的地址数据直接切分得到的未经过修正的地址要素。
作为一种可选实施方式,当接收到的地址数据为地址数据列表时,遍历地址数据列表,逐行获取地址数据列表,并依次对地址数据进行地址要素切分,得到初始地址要素,将初始地址要素填充到地址数据列表中原始地址数据后一列对应的位置。当接收到的地址数据为单独输入的数据,或者由语音识别转换得到的地址数据时,需要通过地址词库匹配、上下文分析、语义分析等方式识别出源数据中的地址数据。
示例性地,在接收到地址数据后,可以先对接收到的地址数据进行分词标注,通过适用于中文地址分词标记的深度学习模型实现,深度学习模型可以是基于BiLSTM-CRF的神经网络算法,也可以是BERT+GRU+CRF模型。深度学习模型是基于上百万条地址数据训练得到的,深度学习模型包括五级行政区划、自然村、全国道路、住宅区、商务楼宇、银行、医院、公园等字典库,以及结合中文地址以及单位名称的特殊命名规范的分词标注规则。并结合多种分段和标注的纠正规则。在对地址数据进行分词标注后,根据分词标注结果先进行降噪和去重等规范化处理,得到初始地址要素。如当接收到的地址数据为“第一省第一市第一街道街道第一小区A栋b11号联系户主”时,需要对地址数据进行降噪和去重,其中“街道街道”为重复内容,“联系户主”为非地址内容,“A栋b11号”的英文大小写不统一,对其进行降噪和去重后,得到“第一省第一市第一街道第一小区A栋B11号”。降噪包括对地址数据中出现的特殊符号进行统一处理,如符号英文化、删除重复、大小写转换等,还包括去除非地址字段。去重指的是对地址数据中重复字段删除。
作为另一种可选实施方式,在确定接收到的地址数据中的地址字段后,进行地址要素切分。调用地址要素识别服务,根据地址要素识别服务中预设的实体标签,对地址数据进行拆分,确定实际地址数据对应的字符,遍历所述字符,进行地址要素切分,生成初始地址要素。
示例性地,地址要素识别服务是从文本中识别和提取出地址相关的要素,如省、市、区县、街道、门牌号等。根据“第一省第一市第一街道第一小区A栋B11号”,根据预设的实体标签,如省、市、区、街道、小区、号等,对地址数据进行地址要素切分,得到的初始地址要素为“第一省”、“第一市”、“第一街道”、“第一小区”和“A栋B11号”。
基于标准地址库,调用地址要素识别服务拆分地址要素后,用neo4j构建地址知识图谱,以便直观的看出各个地址要素以及地址要素间的关联关系。以“第一省第一市第一区第一路A栋B11号”为例,拆分地址要素的语句为:CREATE (sf:Prov{name:"第一省"}),(cs:City{name:"第一市"}), (qx:District{name:"第一区"}), (dl:Road{name:"第一路"}),(no:Roadno{name:"A栋B11号"}), (no)-[:IN]->(dl), (dl)-[:IN]->(qx), (qx)-[:IN]->(cs), (cs)-[:IN]->(sf)。构建的地址图谱的节点和边参照图2。IN表示归属关系。
步骤S200:确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素;
在本实施例中,地址图谱是一种以地址要素为节点,以地址要素之间的关系为边的图结构,用于表示地址要素之间的关联和层级关系。将初始地址要素与地址图谱进行匹配,可以确定目标地址要素。由于地址数据中的地址信息可能存在错误,导致切分出来的初始地址要素不准确,因此需要将初始地址要素与地址图谱进行匹配,确定目标地址要素。
作为一种可选实施方式,将初始地址要素与地址图谱进行匹配,将成功匹配出来的地址要素作为目标地址要素。若无法在地址图谱中匹配到目标地址要素,则判定地址数据输入错误,向用户发送数据错误通知。在重新接收到地址数据后,重新对地址数据进行地址要素切分,将切分后的初始地址要素与地址图谱进行匹配。
示例性地,当地址描述不规范时,如缺失必要的关键词或信息,存在错误的拼写、错别字等情况,会导致无法从地址图谱中匹配出目标地址要素。此时可以向用户发送数据异常通知,继续执行其它地址补全任务,待重新接收到该地址描述不规范对应的新的地址数据时,再重新对新的地址数据执行地址要素切分的步骤。
可选地,地址图谱的数据源自互联网开源数据以及企业内部上百万标准地址库。地址图谱包括21种地址要素,以及各类地址要素之间的关联关系。在实际应用中,可能存在某些地址没有被互联网开源数据或者企业收录,因此构建出来的地址图谱不全。若是由于地址图谱不全导致无法匹配出目标地址要素,则可以在由管理员核对相关的数据后,对地址图谱内容进行补全,更新地址图谱。
作为另一种可选实施方式,在构建地址图谱时,先获取数据源,本实施方式将企业的标准地址库作为数据源。再根据实际应用需求,标注出所需的地址要素,根据各个地址要素间的等级归属关系,构建地址图谱。由于地址图谱的地址要素分类可以根据实际应用需求选定的,可以减少不必要的数据计算,同时可以更准确的获得响应需求。
示例性地,在获取数据源后,进行数据清洗和数据标准化。再根据所需的地址要素类型进行建模,如实际需要的地址要素类型为国家、省份、城市,则只需获取数据源中的国家、省份和城市数据进行建模,同时建立地址要素的层级关系模型,国家是最高层级,省份是国家的下一级,城市是省份的下一级。对于每个地址要素,可以收集其可能的别名或同义词,例如某个城市可能有多个常用的名称或者缩写,可以建立别名和同义词的映射关系,以便更好地匹配和解析地址。
步骤S300:基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;
在本实施例中,深度优先算法指的是一种用于遍历或搜索的算法,从起始节点开始,沿着一条路径尽可能深地探索,直到达到最深的节点,然后回溯到前一个节点,继续探索其他路径,直到遍历完所有节点或者找到目标节点。地址要素最优路径指的是通过深度优先算法计算出来的尽可能多的经过全部目标地址要素节点的路径。通过计算出来的节点最多的路径,对地址数据进行补全。
作为一种可选实施方式,除了深度优先算法,还可通过目标地址要素节点的前置相邻节点和后置相邻节点匹配的方式,确定最优路径。例如当第一目标地址要素节点的后置相邻节点不唯一时,获取第二目标地址要素节点的前置相邻节点,将所述后置相邻节点和所述前置相邻节点进行匹配,确定第一目标地址要素节点和所述第二目标地址要素节点间的连接路径。
示例性地,假设一段地址数据的第一目标地址要素为A,第二目标地址要素为D。第一目标地址要素节点的后置相邻节点包括{A:(B1,B2,B3,B4)}。第二目标地址要素的前置相邻节点包括{D:C}。探索节点C的前置相邻节点中是否有B1,B2,B3,B4中的一个,若节点C的前置相邻节点中包含B3,则第一节点B3和节点C为第一目标地址要素和第二目标地址要素中的待补全节点。第一目标地址要素节点和第二目标地址要素节点间的连接路径为A-B3-C-D。这种方式适用于后置位的前置相邻节点少的情况,可以提高确定路径的效率。
作为另一种可选实施方式,通常情况下,地址数据的第一级地址要素为行政区划级别的地址,当地址数据中存在行政区划级别缺失,并且是属于同名地点的地点数据时,根据第一目标地址要素节点所归属的上一级节点,补全目标地址信息的行政区划级别。防止地点划归错误,导致物品无法配送。
示例性地,当行政区划级别的节点缺失时,判断当前地址数据的第一节点对应的城市名在地址图谱中是否是唯一的,若不唯一,则根据完整的地址数据补全行政区划级别。
步骤S400:根据所述目标地址信息更新所述地址数据。
在本实施例中,在确定目标地址信息后,对地址数据进行更改或者直接将目标地址信息对应的路径更新到地址信息表中,完成地址的补全。
作为一种可选实施方式,在将目标地址信息更新到地址数据中后,需要进行数据验证和清洗,确保更新的地址信息符合规范和准确性要求。
示例性地,更新地址数据后,检查更新后的地址信息是否符合特定的格式要求,并进行合法性验证和逻辑验证。如验证更新后的地址数据中,省份、城市和区县是否存在于地址图谱的取值范围内。以及验证邮政编码与省份、城市和区县的对应关系是否正确等。
在本实施例中,对地址数据进行地址要素切分,确定初始地址要素后,将初始地址要素与地址图谱仅匹配,根据匹配结果确定目标地址要素。再基于深度优先算法确定目标地址要素对应的地址要素最优路径。根据地址要素最优路径确定目标地址信息,并更新地址数据,完成地址的补全工作。通过地址要素和深度优先算法的路径追踪,可以探索两个地址要素之间的所有可能路径,提高地址补全的准确性。深度优先算法计算得到的两个地址要素之间的其他地址要素即为缺失的地址信息。
实施例二
基于实施例一,提出本申请的另一实施例,参照图3,基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤包括:
步骤S310:计算所述目标地址要素的起点到终点的节点数量;
步骤S320:在所述地址图谱中查询从所述起点到所述终点的所有路径;
步骤S330:将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径,所述地址要素最优路径对应的地址信息即为所述目标地址信息。
在本实施例中,深度优先算法本身并不直接用于生成最优路径,而是用于遍历地址图谱的所有节点。再结合遍历到的节点与目标地址要素的匹配结果,确定最优路径。
作为一种可选实施方式,为了对地址数据进行补全和纠错,使用深度优先算法对目标地址要素进行计算,可以得到地址数据对应的完整的地址信息。如地址数据中缺少省份、城市等关键要素时,或者某些关键地址要素错误时,可以通过深度优先算法进行补全和纠正。通过深度优先算法计算出包含最多目标地址要素的路径,且该路径的节点数最多,则该路径记为最优路径。
示例性地,以“第一省第一市第一区第一路111号”为例,通过深度优先算法计算出多个包含“第一省”、“第一市”、“第一区”、“第一路”、“111号”节点的路径,其中路径一包含6个节点,路径二包含5个节点,路径三包含7个节点,则应以路径三作为最优路径。路径三多出的两个节点即为需要补全至“第一省第一市第一区第一路111号”的地址要素节点。计算过程可参照以下过程,若节点数为M,假设有M=n个地址要素节点,n个地址要素记为A1,A2,……,An。记经过最多的地址要素节点数为BestK,最优路径为BestW。以A1为起点,An为终点,图谱查询A1到An的全部路径,以“第一省第一市第一区第一路111号”为例,地址切分后A1到A5分别为“第一省”、“第一市”、“第一区”、“第一路”、“111号”,图谱查询全景A1到A5路径:MATCH p = (:Prov{name:"第一省"})-[:IN*1..5]-(:Roadno{name:"111号"})RETURN p),记经过起点A1到终点An中最多的节点数量K和路径Way。如果K大于或者等于M-1,则BestK=K,BestW=Way,结束查询。输出BestK和BestW路径。
作为另一种可选实施方式,当地址数据对应的最后一级地址要素在地址图谱中还有后置节点时,要根据实际情况决定是否补全后置的地址要素。以此确保补全后的地址的可行性和准确性。
示例性地,获取地址要素最优路径中,最后一级地址要素节点的接续连接点,若接续连接点是唯一的,则将接续连接点对应的地址要素添加到最优路径中。若不是唯一的,则不进行补全。例如地址要素最优路径的最后一级地址要素节点是“村”,显然“村”这一地址要素的接续连接点不是唯一的,则无需补全后续地址信息。
在本实施例中,为了提高补全后的地址的准确性和可行性,结合深度优先算法进行地址补全,并且在地址补全后检验最后一级地址要素节点是否存在接续连接点。若存在唯一接续连接点,则进行地址补全,若不存在唯一接续连接点,则不补全。
实施例三
在本申请实施例中,提出一种地址补全装置。
参照图4,图4为本申请一实施例方案涉及的硬件运行环境的终端结构示意图。
如图4所示,该控制终端可以包括:处理器1001,例如CPU,网络接口1003,存储器1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、以及地址补全程序。
在图4所示的地址补全设备硬件结构中,处理器1001可以调用存储器1004中存储的地址补全程序,并执行以下操作:
对接收到的地址数据进行地址要素切分,确定初始地址要素;
确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素;
基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;
根据所述目标地址信息更新所述地址数据。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
计算所述目标地址要素的起点到终点的节点数量;
在所述地址图谱中查询从所述起点到所述终点的所有路径;
将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径,所述地址要素最优路径对应的地址信息即为所述目标地址信息。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
获取所述地址要素最优路径中,最后一级地址要素节点的接续连接点;
若所述接续连接点唯一,则将所述接续连接点对应的地址要素添加到所述最优路径中。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
当第一目标地址要素节点的后置相邻节点不唯一时,获取第二目标地址要素节点的前置相邻节点;
将所述后置相邻节点和所述前置相邻节点进行匹配,确定所述第一目标地址要素节点和所述第二目标地址要素节点间的连接路径。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
当所述地址数据中存在行政区划级别缺失,且属于同名地点的地点数据时,根据第一目标地址要素节点所归属的上一级节点,补全所述目标地址信息的行政区划级别。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
若无法在所述地址图谱中匹配到所述目标地址要素,判定所述地址数据输入错误,向用户发送数据错误通知;
待重新接收到所述地址数据时,执行对所述地址数据进行地址要素切分的步骤。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
获取企业的标准地址库,并根据所述标准地址库,确定所需的地址要素;
根据所述地址要素间的等级归属关系,构建所述地址图谱。
可选地,处理器1001可以调用存储器1004中存储的地址补全程序,还执行以下操作:
在接收到所述地址数据后,调用地址要素识别服务;
根据所述地址要素识别服务中预设的实体标签,对所述地址数据进行拆分,确定实际地址数据对应的字符;
遍历所述字符,进行地址要素切分,生成所述初始地址要素。
此外,为实现上述目的,本发明实施例还提供一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的地址补全程序,所述处理器执行所述地址补全程序时,实现如上所述的地址补全方法。
此外,为实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址补全程序,所述地址补全程序被处理器执行时,实现如上所述的地址补全方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种地址补全方法,其特征在于,所述地址补全方法包括以下步骤:
对接收到的地址数据进行地址要素切分,确定初始地址要素;
确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素;
基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息;
根据所述目标地址信息更新所述地址数据。
2.如权利要求1所述的地址补全方法,其特征在于,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤包括:
计算所述目标地址要素的起点到终点的节点数量;
在所述地址图谱中查询从所述起点到所述终点的所有路径;
将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径,所述地址要素最优路径对应的地址信息即为所述目标地址信息。
3.如权利要求2所述的地址补全方法,其特征在于,所述将所述路径中,节点数量最多的一组路径作为所述地址要素最优路径的步骤包括:
获取所述地址要素最优路径中,最后一级地址要素节点的接续连接点;
若所述接续连接点唯一,则将所述接续连接点对应的地址要素添加到所述最优路径中。
4.如权利要求1所述的地址补全方法,其特征在于,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤包括:
当第一目标地址要素节点的后置相邻节点不唯一时,获取第二目标地址要素节点的前置相邻节点;
将所述后置相邻节点和所述前置相邻节点进行匹配,确定所述第一目标地址要素节点和所述第二目标地址要素节点间的连接路径。
5.如权利要求1所述的地址补全方法,其特征在于,所述基于深度优先算法确定所述目标地址要素对应的地址要素最优路径,并根据所述地址要素最优路径确定目标地址信息的步骤还包括:
当所述地址数据中存在行政区划级别缺失,且属于同名地点的地点数据时,根据第一目标地址要素节点所归属的上一级节点,补全所述目标地址信息的行政区划级别。
6.如权利要求1所述的地址补全方法,其特征在于,所述确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素的步骤包括:
若无法在所述地址图谱中匹配到所述目标地址要素,判定所述地址数据输入错误,向用户发送数据错误通知;
待重新接收到所述地址数据时,执行对所述地址数据进行地址要素切分的步骤。
7.如权利要求1所述的地址补全方法,其特征在于,所述确定各个所述初始地址要素与地址图谱的匹配结果,并根据所述匹配结果确定目标地址要素的步骤之前,包括:
获取企业的标准地址库,并根据所述标准地址库,确定所需的地址要素;
根据所述地址要素间的等级归属关系,构建所述地址图谱。
8.如权利要求1所述的地址补全方法,其特征在于,所述对接收到的地址数据进行地址要素切分,确定初始地址要素的步骤包括:
在接收到所述地址数据后,调用地址要素识别服务;
根据所述地址要素识别服务中预设的实体标签,对所述地址数据进行拆分,确定实际地址数据对应的字符;
遍历所述字符,进行地址要素切分,生成所述初始地址要素。
9.一种终端设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的地址补全程序,所述处理器执行所述地址补全程序时,实现权利要求1-8任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有地址补全程序,所述地址补全程序被处理器执行时,实现权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183340.8A CN116910386B (zh) | 2023-09-14 | 2023-09-14 | 地址补全方法、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183340.8A CN116910386B (zh) | 2023-09-14 | 2023-09-14 | 地址补全方法、终端设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910386A true CN116910386A (zh) | 2023-10-20 |
CN116910386B CN116910386B (zh) | 2024-02-02 |
Family
ID=88353572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311183340.8A Active CN116910386B (zh) | 2023-09-14 | 2023-09-14 | 地址补全方法、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910386B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719128A (zh) * | 2009-12-31 | 2010-06-02 | 浙江工业大学 | 一种基于模糊匹配的中文地理编码确定方法 |
CN102053912A (zh) * | 2011-01-06 | 2011-05-11 | 中国工商银行股份有限公司 | 一种基于uml图形对软件进行自动化测试的装置及方法 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN111414357A (zh) * | 2019-01-07 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 地址数据处理方法、装置、系统和存储介质 |
CN111460234A (zh) * | 2020-03-26 | 2020-07-28 | 平安科技(深圳)有限公司 | 图查询方法、装置、电子设备及计算机可读存储介质 |
CN111949306A (zh) * | 2020-07-06 | 2020-11-17 | 北京大学 | 一种支持开源项目碎片化学习的推送方法和系统 |
CN113111185A (zh) * | 2021-03-04 | 2021-07-13 | 浙江工业大学 | 一种用于知识图谱补全任务的关键路径构建方法和系统 |
CN113923016A (zh) * | 2021-10-08 | 2022-01-11 | 北京天融信网络安全技术有限公司 | 攻击路径分析方法、装置及设备 |
WO2022095256A1 (zh) * | 2020-11-05 | 2022-05-12 | 中国科学院深圳先进技术研究院 | 一种地理编码方法、系统、终端以及存储介质 |
CN114780680A (zh) * | 2022-04-21 | 2022-07-22 | 河南数慧信息技术有限公司 | 基于地名地址数据库的检索与补全方法及系统 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN115859016A (zh) * | 2023-03-02 | 2023-03-28 | 深圳思谋信息科技有限公司 | 基于处理器的运算方法、装置、计算机设备及存储介质 |
CN116306646A (zh) * | 2023-02-09 | 2023-06-23 | 中国工商银行股份有限公司 | 信息的填写方法、装置、计算机设备和存储介质 |
CN116303854A (zh) * | 2023-03-01 | 2023-06-23 | 上海维智卓新信息科技有限公司 | 一种基于地址知识图谱的定位方法及装置 |
CN116680448A (zh) * | 2023-06-01 | 2023-09-01 | 广州中康数字科技有限公司 | 基于深度神经网络的医疗卫生机构信息数据标准化方法 |
-
2023
- 2023-09-14 CN CN202311183340.8A patent/CN116910386B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719128A (zh) * | 2009-12-31 | 2010-06-02 | 浙江工业大学 | 一种基于模糊匹配的中文地理编码确定方法 |
CN102053912A (zh) * | 2011-01-06 | 2011-05-11 | 中国工商银行股份有限公司 | 一种基于uml图形对软件进行自动化测试的装置及方法 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN111414357A (zh) * | 2019-01-07 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 地址数据处理方法、装置、系统和存储介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN111460234A (zh) * | 2020-03-26 | 2020-07-28 | 平安科技(深圳)有限公司 | 图查询方法、装置、电子设备及计算机可读存储介质 |
CN111949306A (zh) * | 2020-07-06 | 2020-11-17 | 北京大学 | 一种支持开源项目碎片化学习的推送方法和系统 |
WO2022095256A1 (zh) * | 2020-11-05 | 2022-05-12 | 中国科学院深圳先进技术研究院 | 一种地理编码方法、系统、终端以及存储介质 |
CN113111185A (zh) * | 2021-03-04 | 2021-07-13 | 浙江工业大学 | 一种用于知识图谱补全任务的关键路径构建方法和系统 |
CN113923016A (zh) * | 2021-10-08 | 2022-01-11 | 北京天融信网络安全技术有限公司 | 攻击路径分析方法、装置及设备 |
CN114780680A (zh) * | 2022-04-21 | 2022-07-22 | 河南数慧信息技术有限公司 | 基于地名地址数据库的检索与补全方法及系统 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN116306646A (zh) * | 2023-02-09 | 2023-06-23 | 中国工商银行股份有限公司 | 信息的填写方法、装置、计算机设备和存储介质 |
CN116303854A (zh) * | 2023-03-01 | 2023-06-23 | 上海维智卓新信息科技有限公司 | 一种基于地址知识图谱的定位方法及装置 |
CN115859016A (zh) * | 2023-03-02 | 2023-03-28 | 深圳思谋信息科技有限公司 | 基于处理器的运算方法、装置、计算机设备及存储介质 |
CN116680448A (zh) * | 2023-06-01 | 2023-09-01 | 广州中康数字科技有限公司 | 基于深度神经网络的医疗卫生机构信息数据标准化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116910386B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9390084B2 (en) | Natural language parsers to normalize addresses for geocoding | |
WO2021189977A1 (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN107463711B (zh) | 一种数据的标签匹配方法及装置 | |
CN111291099B (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN112559709A (zh) | 基于知识图谱的问答方法、装置、终端以及存储介质 | |
CN110059177A (zh) | 一种基于用户画像的活动推荐方法及装置 | |
CN117874214B (zh) | 一种地址信息的标准化治理及动态匹配的方法及设备 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN112256821B (zh) | 中文地址补全的方法、装置、设备及存储介质 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN115185986A (zh) | 省市区地址信息匹配方法、装置、计算机设备及存储介质 | |
CN115688779A (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN115438274A (zh) | 基于异质图卷积网络的虚假新闻识别方法 | |
CN116303854A (zh) | 一种基于地址知识图谱的定位方法及装置 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN116910386B (zh) | 地址补全方法、终端设备及计算机可读存储介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN113221558B (zh) | 一种快递地址纠错方法、装置、存储介质及电子设备 | |
CN114792091A (zh) | 基于词汇增强的中文地址要素解析方法、设备及存储介质 | |
CN115330497A (zh) | 数据处理方法、系统及计算机可读存储介质 | |
CN116414808A (zh) | 详细地址规范化的方法、装置、计算机设备和存储介质 | |
CN114003812A (zh) | 地址匹配方法、系统、设备及存储介质 | |
CN114722824A (zh) | 地址处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |