CN111159974A - 地址信息的标准化方法、装置、存储介质及电子设备 - Google Patents
地址信息的标准化方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111159974A CN111159974A CN201911401443.0A CN201911401443A CN111159974A CN 111159974 A CN111159974 A CN 111159974A CN 201911401443 A CN201911401443 A CN 201911401443A CN 111159974 A CN111159974 A CN 111159974A
- Authority
- CN
- China
- Prior art keywords
- address
- address information
- original
- information
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供一种地址信息的标准化方法、装置、存储介质及电子设备,方法包括:获得原始地址信息;对原始地址信息对应的中文地址进行分词,确定出地址描述词;将地址描述词与标准地址信息的地址元素进行匹配,确定出地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素;将目标地址确定为原始地址信息的标准地址。通过这样的方式能够快速准确地确定出与原始地址信息的定位实质相同的标准地址,智能化地将不标准的地址标准化,从而能够高效且省时省力地解决地址不标准的问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种地址信息的标准化方法、装置、存储介质及电子设备。
背景技术
随着警用地理信息的快速发展,各省公安厅,地方公安部门都支持84坐标系。但目前存在的问题是:各个厂商(即提供地址信息的厂商)给的地址不符合公安部关于警用地理信息的建设标准,给公安系统的运行(例如对地址信息的整合,基于地址信息而建立新的模块、模型等)造成巨大的困难,民警及各个软件开发商不得不投入大量的精力解决该问题(各个厂商给的地址不标准,不符合公安部关于警用地理信息的建设标准,需要人工查证和对应),但人工处理已经难以满足日益增多的地址元素,这样的方式费时费力且效率低。
发明内容
本申请实施例的目的在于提供一种地址信息的标准化方法、装置、存储介质及电子设备,以高效解决各个厂商给的地址不符合公安部关于警用地理信息的建设标准的问题。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请提供一种地址信息的标准化方法,所述方法包括:获得原始地址信息;对所述原始地址信息对应的中文地址进行分词,确定出地址描述词;将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素;将所述目标地址确定为所述原始地址信息的标准地址。
本申请提供的地址信息的标准化方法,将原始地址信息对应的中文地址进行分词,并将确定出的地址描述词与标准地址信息的地址元素进行匹配,确定出目标地址后将目标地址作为原始地址信息的标准地址。通过这样的方式能够快速准确地确定出与原始地址信息的定位实质相同的标准地址,智能化地将不标准的地址标准化,从而能够高效且省时省力地解决地址不标准的问题。
结合第一方面,在第一方面的第一种可能的实现方式中,在所述获得原始地址信息后,所述方法还包括:判断所述原始地址信息是否为中文地址;若否,确定出所述原始地址信息对应的中文地址。
通过在原始地址信息不为中文地址时,确定出其对应的中文地址,从而能够使得该原始地址信息能够应用本方法,以增大本方法的适用范围。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述确定出所述原始地址信息对应的中文地址,包括:确定出所述原始地址信息采用的原始坐标系,并确定出与所述原始地址信息在所述原始坐标系下的坐标对应的在预设坐标系下的目标坐标,其中,预设坐标系为标准地址信息对应的坐标系;确定出所述目标坐标对应的中文地址。
通过在原始地址信息为坐标时,根据其坐标地址确定出在预设坐标系下的目标坐标,从而确定出对应的中文地址,可以在原始地址信息为坐标时,也能够准确地确定出原始地址信息对应的中文地址,因此可以进一步增大本方法的适用范围。
结合第一方面,在第一方面的第三种可能的实现方式中,所述地址元素包括省级元素、市级元素、县级元素、镇级元素和村级元素,所述将所述地址描述词与所述标准地址信息的地址元素进行匹配,确定出地址元素与所述地址描述词匹配的所述目标地址,包括:从所述地址描述词中确定出与所述镇级元素对应的镇级描述词;将所述地址描述词中的镇级描述词与所述标准地址信息中的镇级元素匹配;将镇级元素与所述镇级描述词匹配的多个标准地址信息的村级元素与所述村级描述词匹配,确定出匹配的所述目标地址。
由于我国采用的地址命名中,没有相同名称的省,以及,没有相同名称的市,而同名的县,数量也不多,因此,通过将原始地址信息对应的镇级描述词与标准地址信息对应的镇级元素进行匹配,再从匹配的镇级元素(同名的或名称近似的)关联的村级元素中确定出与村级描述词匹配的地址,即可快速准确地确定出目标地址,这样可以尽可能减少匹配过程的次数,从而提升效率。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,将镇级元素与所述镇级描述词匹配的多个标准地址信息的村级元素与所述村级描述词匹配,确定出匹配的所述目标地址,包括:在镇级元素与所述镇级描述词匹配且村级元素与所述村级描述词匹配的待选标准地址信息为两个或两个以上时,将所述市级描述词与所述待选标准地址信息的市级元素匹配,确定出市级元素与所述市级描述词匹配的所述目标地址。
通过这样的方式,能够尽可能将匹配的待选标准地址信息筛选为一个,从而可以高效准确地确定出目标地址。
结合第一方面,或者结合第一方面的第一种至第四种中任一可能的实现方式,在第一方面的第五种可能的实现方式中,在所述将所述目标地址确定为所述原始地址信息的标准地址后,所述方法还包括:将所述原始地址信息与所述目标地址关联。
通过将原始地址信息与目标地址关联,有利于方案的优化,例如后续将其他的原始地址信息与关联的地址信息匹配即可确定目标地址,从而进一步提升将原始地址信息标准化的效率。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,在所述将所述地址描述词与标准地址信息的地址元素进行匹配,无法确定出目标地址时,所述方法还包括:向对端设备发送用于获取在预设坐标系下定位的定位信息的请求,或者,向所述对端设备发送标准地址模板,以获取所述对端设备发送的基于所述标准地址模板确定的调整地址信息,其中,所述对端设备为提供所述原始地址信息的电子设备,所述定位信息或所述调整地址信息表示新的所述原始地址信息。
通过在无法确定出对应的标准地址信息时,提供解决方式(向对端设备发送请求,获取原始地址信息对应的坐标信息;或者,发送标准信息模板,以使对方基于模板填写标准化的地址信息,从而确定出原始地址信息对应的标准地址),能够尽可能提升地址标准化的效率。
第二方面,本申请实施例提供一种地址信息的标准化装置,所述装置包括:原始地址获取模块,用于获得原始地址信息;原始地址分词模块,用于对所述原始地址信息对应的中文地址进行分词,确定出地址描述词;目标地址确定模块,用于将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素;标准地址转换模块,用于将所述目标地址确定为所述原始地址信息的标准地址。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如第一方面或第一方面的可能的实现方式中任一项所述的地址信息的标准化方法的步骤。
第四方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现第一方面或第一方面的可能的实现方式中任一项所述的地址信息的标准化方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种地址信息的标准化方法的流程图。
图2为本申请实施例提供的一种地址信息的标准化装置的结构框图。
图3为本申请实施例提供的一种电子设备的结构框图。
图标:10-地址信息的标准化装置;11-原始地址获取模块;12-原始地址分词模块;13-目标地址确定模块;14-标准地址转换模块;20-电子设备;21-存储器;22-通信模块;23-总线;24-处理器。
具体实施方式
随着警用地理信息的快速发展,各省公安厅,地方公安部门都支持84坐标系。但目前存在的问题是:各个厂商给的地址不符合公安部关于警用地理信息的建设标准,给公安系统造成巨大的困难,民警及各个软件开发商不得不投入大量的精力解决该问题(各个厂商给的地址不标准,不符合公安部关于警用地理信息的建设标准,需要人工查证和对应),但人工处理已经难以满足日益增多的地址元素,这样的方式费时费力且效率低。
基于此,本申请的发明人提供一种地址信息的标准化方法,以高效解决各个厂商给的地址不符合公安部关于警用地理信息的建设标准的问题。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,图1为本申请实施例提供的一种地址信息的标准化方法的流程图。在本实施例中,地址信息的标准化方法可以包括:步骤S10、步骤S20、步骤S30和步骤S40。地址信息的标准化方法可以由电子设备运行。
示例性的,在对地址信息进行标准化的场景中,例如,A厂商提供了一个地址信息(即原始地址信息),这个地址信息可以是电子表格、定位信息(坐标)、纸质表格等。由此,电子设备可以运行本申请实施例提供的地址信息的标准化方法。
示例性的,在提供原始地址信息后,电子设备可以运行步骤S10。
步骤S10:获得原始地址信息。
在本实施例中,电子设备可以获得原始地址信息,获得的方式可以为:通过接收对端设备发送的原始地址信息,或者,通过识别电子表格中的原始地址信息,以及,还可以通过获取工作人员基于纸质表格录入的原始地址信息或通过扫描纸质表格确定出的原始地址信息。此处获取原始地址信息的方式不应视为对本申请的限定。
由于地址信息的表现形式多种多样,示例性的,可以为坐标信息、外文地址信息(例如英文、日文、法文等)、中文地址信息等,其中坐标信息又可以为多种坐标系中任一种确定出的,例如WGS84坐标系(World Geodetic System——1984Coordinate System,一种国际上采用的地心坐标系)、WGS84Web墨卡托(一种投影坐标系,例如百度地图和谷歌地图使用的投影方法都是墨卡托投影)、GCJ-02(国家测量局02号标准)经纬度投影、GCJ02Web墨卡托投影(基于GCJ-02的墨卡托投影)、北京54坐标系(一种参心大地坐标系)等。因此,坐标信息也是多种多样,并不一定符合标准(例如,警用地理信息的标准,警用地理信息采用WGS84坐标系)。
在获得原始地址信息后,电子设备可以运行步骤S20。
步骤S20:对所述原始地址信息对应的中文地址进行分词,确定出地址描述词。
在本实施例中,在对原始地址信息对应的中文地址进行分词前,电子设备可以判断原始地址信息是否为中文地址。示例性的,电子设备可以通过原始地址信息的字符串编码,判断该原始地址信息是否为中文,但不作为限定。
在判断原始地址信息不为中文地址,电子设备可以确定出原始地址信息对应的中文地址。
具体的,电子设备同样可以通过字符串的编码判断原始地址信息属于何种外文地址信息(若原始地址信息是外文地址信息),从而可以将外文信息智能化地(例如通过在线翻译、离线翻译等方式)转换为中文地址。当然,识别外文的方式和将外文信息转换为中文地址的方式不应视为对本申请的限定。
通过在原始地址信息不为中文地址时,例如,原始地址信息为外文地址,确定出原始地址信息对应的中文地址,从而能够使得该原始地址信息能够应用本方法,以增大本方法的适用范围。
而在不为中文地址的原始地址信息属于坐标信息时,电子设备可以确定出原始地址信息采用的原始坐标系(上述多种坐标系中的一种),并可以根据原始坐标系与预设坐标系(预设坐标系即确定为标准的坐标系,例如,警用地理信息的标准,采用WGS84坐标系)之间的转换关系,将原始坐标系中的坐标转换为预设坐标系下的目标坐标,再确定出目标坐标在预设坐标系中对应的中文地址即可。若原始坐标系与预设坐标系相同,则无需进行坐标的转换,原始地址信息在原始坐标系中的坐标即可确定为目标坐标。
通过在原始地址信息为坐标时,根据其坐标地址确定出在预设坐标系下的目标坐标,从而确定出对应的中文地址,可以在原始地址信息为坐标时,也能够准确地确定出原始地址信息对应的中文地址,因此可以进一步增大本方法的适用范围。
确定出原始地址信息对应的中文地址后,电子设备可以对该中文地址进行分词。
示例性的,电子设备可以采用基于词典的方法(例如最大匹配法、最大概率法、最短路径法等)、基于统计的分词法(例如隐马尔科夫模型、最大熵模型、最大熵隐马尔科夫模型、条件随机场等)等对中文地址进行分词。为了尽可能保证分词的准确性,电子设备还可以在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注。由此,电子设备即可对原始地址信息对应的中文地址进行分词,以确定出对应的地址描述词。
确定出地址描述词后,电子设备可以运行步骤S30。
步骤S30:将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址描述词与所述地址元素匹配的目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素。
在本实施例中,电子设备中可以预设有多个标准信息。示例性的,标准信息可以通过预设的地址元素组合确定出(例如,四川省可以与成都市组合,也可与南充市组合)。示例性的,警用地理信息可以包括多个级别的地址元素,例如省级元素(例如省、自治区、直辖市、特别行政区等)、市级元素(例如地级市、地区、自治州、盟等)、县级元素(例如市辖区、县级市、县、自治县、旗、自治旗、林区、特区等)、镇级元素(例如街道、镇、乡、民族乡、苏木、民族苏木、县辖区等)、村级元素(例如村、小区)、门牌元素(可以具体到户、楼栋、门牌号)等。而标准地址信息,包括多个不同级别的地址元素,且每一级别分别对应一个地址元素,以及不同级别所对应的地址元素之间存在地理上的关联关系(即省级元素地理上包含市级元素,市级元素地理上包含县级元素等)。
确定出地址描述词后,电子设备可以将地址描述词与标准地址信息的地址元素进行匹配。
由于我国采用的地址命名中,没有相同名称的省,以及,没有相同名称的市,而同名的县,数量也不多。为了尽可能提高匹配的效率,示例性的,电子设备可以从地址描述词中确定出与镇级元素对应的镇级描述词。
具体的,电子设备可以从原始地址信息的中文地址对应的地址描述词中确定出用于表示镇的镇级描述词(即与镇级元素对应的描述词,此处的对应,为级别上的对应,而非具体的某一个镇的对应)。具体的确定方式,可以是通过确定字符“镇”、“街道”的方式,确定出镇级描述词。当然,实际情况中(不满足标准的原始地址信息、中文地址等)也存在一些未使用“镇”、“街道”的地址描述方式,为了提高确定镇级描述词的准确性,电子设备也可以通过确定对原始地址信息对应的中文地址进行分词时的分词顺序,确定出镇级描述词。或者,将几种方式结合起来运用(例如,同时采用通过字符和通过分词顺序的方式,在两者指向的描述词为同一描述词时,确定该词为镇级描述词),以提高确定镇级描述词的准确性。此处确定镇级描述词的具体方式,不应视为对本申请的限定。
确定出镇级描述词后,电子设备可以将确定出的镇级描述词与预设的镇级元素匹配,确定出与镇级描述词对应的目标镇元素。
确定出对应的目标镇元素后,电子设备还可以从目标镇元素关联的多个村级元素(即与镇级描述词匹配的多个标准地址信息的村级元素)中,确定出与村级描述词匹配的目标村元素。至于确定村级描述词的方式可以参考确定镇级描述词的方式,此处不再赘述。
需要说明的是,由于不同的机构采用的标准可能不同,其标准地址信息所需要的地址元素的级别也可以不同,例如,警用地理信息可以包括省级元素、市级元素、县级元素、镇级元素、村级元素、门牌元素;而有的机构采用的标准,其标准地址信息可以不包括门牌元素,或者不包括镇级元素、村级元素、门牌元素,或者不包括省级元素等,此处不作限定。
因此,对应不同的标准,可以采用这样的方式进行匹配,确定出标准地址信息需要的地址元素后,即可确定出标准地址信息。
通过将原始地址信息对应的镇级描述词与标准地址信息对应的镇级元素进行匹配,再从匹配的镇级元素(同名的或名称近似的)关联的村级元素中确定出与村级描述词匹配的地址,即可快速准确地确定出目标地址,这样可以尽可能减少匹配过程的次数,从而提升效率。
需要说明的是,对于通过坐标信息转换后确定的中文地址,其门牌元素可能并不准确(例如楼层无法定位或难以精准定位),因此,为了保证地址信息的准确性,可以不采用上述匹配的方法对门牌元素进行确定。而门牌元素的确定方式,电子设备可以通过互联网查找、通过工作人员录入、通过关联地址的查找等方式确定,此处不作限定。其中,关联地址,为标准地址所关联的地址(例如基于历史的原始地址信息、外文地址、中文地址、坐标信息等确定出对应的标准地址,将原始地址信息与标准地址关联)。
另外,确定目标省元素、目标市元素、目标县元素的方式则可以为:电子设备根据确定出的目标镇元素、目标村元素(也可以结合从门牌元素中确定出的目标户元素),可以从县级元素中确定出对应的目标县元素(例如,目标县元素需要同时包含目标镇元素、目标村元素、甚至目标户元素,这样可以准确确定出对应的目标县元素);而确定目标市元素时,通常可以结合目标县元素和目标镇元素,即可准确地从市级元素中确定出目标市元素;而确定目标省元素时,可以结合确定出的目标市元素,从市级元素中准确确定出目标省元素。
通过这样方式,可以快速高效且准确地得出确定目标地址(与标准地址的形式相同)所需要的元素,从而确定出目标地址。
确定出符合标准地址所需要的地址元素后(例如,警用地理信息需要省级元素、市级元素、县级元素、镇级元素、村级元素、门牌元素,则符合标准地址所需要的地址元素,即目标省元素、目标市元素、目标县元素、目标镇元素、目标村元素、目标户元素),可以确定出符合标准地址要求的目标地址(例如,XX省XX市XX县XX镇XX村XX号)。
需要说明的是,由于原始地址信息对应的中文地址,还可能存在描述不规范、缺少描述词(例如缺少县级描述词,缺少字符“市”、“县”等)、错别字等情况,为了尽可能使确定出的目标地址更符合原始地址信息对应的中文地址所要表示的地址,本申请实施例还可以采用多种描述词(例如市级描述词、县级描述词、镇级描述词)一同与地址元素匹配,匹配的方式可以为模糊匹配,尽可能在存在错别字、描述不规范、缺少描述词等不规范情况时,也能够确定出准确的目标地址。
另外,由于市级元素不存在同名的情况,采用市级描述词、县级描述词、镇级描述词一同与地址元素进行模糊匹配的方式,不仅可以减少匹配的计算量(无需将省级描述词与地址元素匹配),也能够尽可能保证准确性。示例性的,由于市级元素不存在同名的情况,可以根据市级描述词确定出目标市元素,减小匹配范围的同时,还可以保证所确定的目标市元素的结果是唯一的,从而保证准确性。而模糊匹配可使可能的目标市元素不唯一,例如西宁、南宁等,但可以通过县级描述词、镇级描述词的匹配情况进一步确定出唯一的目标市元素、目标县元素、目标镇元素,因为可以将所有可能匹配的目标市元素、目标县元素和目标镇元素进行分析,以其中是否存在关联关系来确定出唯一的目标市元素、目标县元素、目标镇元素,此处的关联关系,是指元素之间对应在地理上的包含与被包含关系。
当然,电子设备将地址描述词进行上述匹配过程后,也可能存在无法确定出目标地址的情况(例如,确定出的地址不唯一,或者没有对应的地址),那么为了尽可能确保准确性,电子设备也可以将该地址描述词,按照省级元素、市级元素、县级元素、镇级元素、村级元素、门牌元素的顺序进行匹配,以尽可能准确地确定出对应的目标地址。
对于经顺序匹配过程后依然无法确定出目标地址的,说明原始地址信息对应的中文地址无法使用,需要重新获取,以确定出准确的标准地址。
示例性的,在电子设备获取的原始地址信息是由其他电子设备提供时,电子设备可以向对端设备(即提供原始地址信息的电子设备)发送用于获取在预设坐标系下定位的定位信息的请求,以获取包含在预设坐标系下的坐标的原始地址信息,从而基于该坐标确定出目标地址。或者,电子设备也可以向对端设备发送标准地址模板(例如,XX省XX市XX县XX镇XX村XX号),以获取对端设备发送的基于标准地址模板确定的调整地址信息(调整地址信息可以是对端的工作人员参照标准地址模板录入的)。此处,定位信息或调整地址信息表示新的原始地址信息。
通过这样的方式,在获取的原始地址信息无法确定出对应的目标地址信息时,获取新的原始地址信息(可以再次运行本方法的步骤),可以尽可能地确定出(不标准地)原始地址信息对应的标准地址,有利于原始地址信息的标准化。
确定出目标地址后,电子设备可以运行步骤S40。
步骤S40:将所述目标地址确定为所述原始地址信息的标准地址。
在本实施例中,电子设备可以将确定出的目标地址(目标地址是唯一的),确定为原始地址信息的标准地址,从而实现将不满足标准的原始地址信息转换为标准地址。
示例性的,为了进一步提升本方法的适用性,电子设备可以将目标地址与原始地址信息关联,从而在下一次有相同的原始地址信息时,可以快速准确地确定出其对应的标准地址。另外,电子设备还可以将原始地址信息对应的标准地址,输出为标准地址的模板,从而有利于规范原始地址信息提供方提供的原始地址信息,使原始地址信息提供方所提供的原始地址信息符合标准。
请参阅图2,基于同一发明构思,本申请实施例中还提供一种地址信息的标准化装置10,包括:
原始地址获取模块11,用于获得原始地址信息。
原始地址分词模块12,用于对所述原始地址信息对应的中文地址进行分词,确定出地址描述词。
目标地址确定模块13,用于将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素。
标准地址转换模块14,用于将所述目标地址确定为所述原始地址信息的标准地址。
在本实施例中,地址信息的标准化装置10还包括中文地址确定模块,用于在所述原始地址获取模块11获得原始地址信息后,判断所述原始地址信息是否为中文地址;若所述原始地址信息不为中文地址,确定出所述原始地址信息对应的中文地址。
在本实施例中,所述中文地址确定模块,还用于确定出所述原始地址信息采用的原始坐标系,并确定出与所述原始地址信息在所述原始坐标系下的坐标对应在预设坐标系下的目标坐标,其中,预设坐标系为标准地址信息对应的坐标系;确定出所述目标坐标对应的中文地址。
在本实施例中,所述地址元素包括省级元素、市级元素、县级元素、镇级元素和村级元素,所述目标地址确定模块13,还用于从所述地址描述词中确定出与所述镇级元素对应的镇级描述词;将所述地址描述词中的镇级描述词与所述标准地址信息中的镇级元素匹配;将镇级元素与所述镇级描述词匹配的多个标准地址信息的村级元素与所述村级描述词匹配,确定出匹配的所述目标地址。
在本实施例中,所述目标地址确定模块13,还用于在镇级元素与所述镇级描述词匹配且村级元素与所述村级描述词匹配的待选标准地址信息为两个或两个以上时,将所述市级描述词与所述待选标准地址信息的市级元素匹配,确定出市级元素与所述市级描述词匹配的所述目标地址。
在本实施例中,地址信息的标准化装置10还包括目标地址关联模块,用于在所述标准地址转换模块14将所述目标地址确定为所述原始地址信息的标准地址后,将所述原始地址信息与所述目标地址关联。
在本实施例中,地址信息的标准化装置10还包括新原始地址获取模块,用于在所述目标地址确定模块13将所述地址描述词与标准地址信息的地址元素进行匹配,无法确定出目标地址时,向对端设备发送用于获取在预设坐标系下定位的定位信息的请求,或者,向所述对端设备发送标准地址模板,以获取所述对端设备发送的基于所述标准地址模板确定的调整地址信息,其中,所述对端设备为提供所述原始地址信息的电子设备,所述定位信息或所述调整地址信息表示新的所述原始地址信息。
请参阅图3,图3为本申请实施例提供的一种电子设备20的结构框图。在本实施例中,电子设备20可以为服务器,在电子设备20为服务器时,可以为网络服务器、云服务器、多个服务器构成的服务器集群等;电子设备20也可以为终端,在电子设备20为终端时,可以为智能手机、平板电脑、个人电脑等,此处不作限定。
示例性的,电子设备20可以包括:通过网络与外界连接的通信模块22、用于执行程序指令的一个或多个处理器24、总线23、不同形式的存储器21,例如,磁盘、ROM(Read-OnlyMemory,只读存储器)、或RAM(Random Access Memory,随机存取存储器),或其任意组合。其中,存储器21、通信模块22和处理器24之间通过总线23连接。
示例性的,存储器21中存储有程序。处理器24可以从存储器21调用并运行这些程序,从而便可以通过运行程序而执行地址信息的标准化方法。
本申请实施例还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本申请实施例中提供的地址信息的标准化方法的步骤。
综上所述,本申请提供一种地址信息的标准化方法、装置、存储介质及电子设备,通过将原始地址信息对应的中文地址进行分词,并将确定出的地址描述词与标准地址信息的地址元素进行匹配,确定出目标地址后将目标地址作为原始地址信息的标准地址。通过这样的方式能够快速准确地确定出与原始地址信息的定位实质相同的标准地址,智能化地将不标准的地址标准化,从而能够高效且省时省力地解决地址不标准的问题。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种地址信息的标准化方法,其特征在于,所述方法包括:
获得原始地址信息;
对所述原始地址信息对应的中文地址进行分词,确定出地址描述词;
将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素;
将所述目标地址确定为所述原始地址信息的标准地址。
2.根据权利要求1所述的地址信息的标准化方法,其特征在于,在所述获得原始地址信息后,所述方法还包括:
判断所述原始地址信息是否为中文地址;
若否,确定出所述原始地址信息对应的中文地址。
3.根据权利要求2所述的地址信息的标准化方法,其特征在于,所述确定出所述原始地址信息对应的中文地址,包括:
确定出所述原始地址信息采用的原始坐标系,并确定出与所述原始地址信息在所述原始坐标系下的坐标对应的在预设坐标系下的目标坐标,其中,预设坐标系为标准地址信息对应的坐标系;
确定出所述目标坐标对应的中文地址。
4.根据权利要求1所述的地址信息的标准化方法,其特征在于,所述地址元素包括省级元素、市级元素、县级元素、镇级元素和村级元素,所述将所述地址描述词与所述标准地址信息的地址元素进行匹配,确定出地址元素与所述地址描述词匹配的所述目标地址,包括:
从所述地址描述词中确定出与所述镇级元素对应的镇级描述词;
将所述地址描述词中的镇级描述词与所述标准地址信息中的镇级元素匹配;
将镇级元素与所述镇级描述词匹配的多个标准地址信息的村级元素与所述村级描述词匹配,确定出匹配的所述目标地址。
5.根据权利要求4所述的地址信息的标准化方法,其特征在于,将镇级元素与所述镇级描述词匹配的多个标准地址信息的村级元素与所述村级描述词匹配,确定出匹配的所述目标地址,包括:
在镇级元素与所述镇级描述词匹配且村级元素与所述村级描述词匹配的待选标准地址信息为两个或两个以上时,将所述市级描述词与所述待选标准地址信息的市级元素匹配,确定出市级元素与所述市级描述词匹配的所述目标地址。
6.根据权利要求1至5中任一项所述的地址信息的标准化方法,其特征在于,在所述将所述目标地址确定为所述原始地址信息的标准地址后,所述方法还包括:
将所述原始地址信息与所述目标地址关联。
7.根据权利要求6所述的地址信息的标准化方法,其特征在于,在所述将所述地址描述词与标准地址信息的地址元素进行匹配,无法确定出目标地址时,所述方法还包括:
向对端设备发送用于获取在预设坐标系下定位的定位信息的请求,或者,向所述对端设备发送标准地址模板,以获取所述对端设备发送的基于所述标准地址模板确定的调整地址信息,其中,所述对端设备为提供所述原始地址信息的电子设备,所述定位信息或所述调整地址信息表示新的所述原始地址信息。
8.一种地址信息的标准化装置,其特征在于,所述装置包括:
原始地址获取模块,用于获得原始地址信息;
原始地址分词模块,用于对所述原始地址信息对应的中文地址进行分词,确定出地址描述词;
目标地址确定模块,用于将所述地址描述词与标准地址信息的地址元素进行匹配,确定出所述地址元素与所述地址描述词匹配的所述目标地址,其中,每个标准地址信息包括对应不同级别的多个地址元素;
标准地址转换模块,用于将所述目标地址确定为所述原始地址信息的标准地址。
9.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的地址信息的标准化方法的步骤。
10.一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至7中任一项所述的地址信息的标准化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401443.0A CN111159974A (zh) | 2019-12-30 | 2019-12-30 | 地址信息的标准化方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401443.0A CN111159974A (zh) | 2019-12-30 | 2019-12-30 | 地址信息的标准化方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159974A true CN111159974A (zh) | 2020-05-15 |
Family
ID=70559337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911401443.0A Pending CN111159974A (zh) | 2019-12-30 | 2019-12-30 | 地址信息的标准化方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159974A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861733A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN111930829A (zh) * | 2020-06-18 | 2020-11-13 | 中国移动通信集团内蒙古有限公司 | 标准地址的生成方法、装置、设备和介质 |
CN112559661A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 检索地址类型的方法、装置和电子设备 |
CN112818684A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址元素排序方法、装置、电子设备及存储介质 |
CN113220670A (zh) * | 2021-03-16 | 2021-08-06 | 航天精一(广东)信息科技有限公司 | 一种地址数据的校正方法及装置 |
CN113468881A (zh) * | 2021-07-23 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113743080A (zh) * | 2021-08-16 | 2021-12-03 | 南京星云数字技术有限公司 | 一种分层级地址文本相似度比对方法、装置及介质 |
CN113822049A (zh) * | 2021-09-29 | 2021-12-21 | 平安银行股份有限公司 | 基于人工智能的地址审核方法、装置、设备及存储介质 |
CN115713080A (zh) * | 2022-10-18 | 2023-02-24 | 中科星图数字地球合肥有限公司 | 地址匹配方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182496A (zh) * | 2018-01-02 | 2018-06-19 | 华南理工大学 | 一种城市互联网开放数据获取处理分析方法 |
US20180225282A1 (en) * | 2015-10-10 | 2018-08-09 | Alibaba Group Holding Limited | Address analysis using morphemes |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN110569239A (zh) * | 2019-09-19 | 2019-12-13 | 圆通速递有限公司 | 一种快递包裹地址标准化的方法和系统 |
-
2019
- 2019-12-30 CN CN201911401443.0A patent/CN111159974A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225282A1 (en) * | 2015-10-10 | 2018-08-09 | Alibaba Group Holding Limited | Address analysis using morphemes |
CN108182496A (zh) * | 2018-01-02 | 2018-06-19 | 华南理工大学 | 一种城市互联网开放数据获取处理分析方法 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN110569239A (zh) * | 2019-09-19 | 2019-12-13 | 圆通速递有限公司 | 一种快递包裹地址标准化的方法和系统 |
Non-Patent Citations (1)
Title |
---|
周波等: "基于数字城市系统平台的GIS Server服务器研究与设计", 《计算机科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930829A (zh) * | 2020-06-18 | 2020-11-13 | 中国移动通信集团内蒙古有限公司 | 标准地址的生成方法、装置、设备和介质 |
CN111861733B (zh) * | 2020-07-31 | 2023-09-15 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN111861733A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN112559661A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 检索地址类型的方法、装置和电子设备 |
CN112559661B (zh) * | 2020-12-09 | 2024-03-01 | 北京百度网讯科技有限公司 | 检索地址类型的方法、装置和电子设备 |
CN112818684A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址元素排序方法、装置、电子设备及存储介质 |
CN112818684B (zh) * | 2021-01-29 | 2024-04-19 | 上海寻梦信息技术有限公司 | 地址元素排序方法、装置、电子设备及存储介质 |
CN113220670A (zh) * | 2021-03-16 | 2021-08-06 | 航天精一(广东)信息科技有限公司 | 一种地址数据的校正方法及装置 |
CN113468881A (zh) * | 2021-07-23 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113468881B (zh) * | 2021-07-23 | 2024-02-27 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113743080A (zh) * | 2021-08-16 | 2021-12-03 | 南京星云数字技术有限公司 | 一种分层级地址文本相似度比对方法、装置及介质 |
CN113822049B (zh) * | 2021-09-29 | 2023-08-25 | 平安银行股份有限公司 | 基于人工智能的地址审核方法、装置、设备及存储介质 |
CN113822049A (zh) * | 2021-09-29 | 2021-12-21 | 平安银行股份有限公司 | 基于人工智能的地址审核方法、装置、设备及存储介质 |
CN115713080A (zh) * | 2022-10-18 | 2023-02-24 | 中科星图数字地球合肥有限公司 | 地址匹配方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159974A (zh) | 地址信息的标准化方法、装置、存储介质及电子设备 | |
CN107656913B (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN112882699B (zh) | 基于流程配置引擎的业务处理方法、装置、设备及介质 | |
CN108256718B (zh) | 保单服务任务分配方法、装置、计算机设备和存储设备 | |
CN104412256A (zh) | 生成本地化用户界面 | |
CN106648569B (zh) | 目标序列化实现方法和装置 | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN109783589B (zh) | 电子地图解析地址的方法、装置及存储介质 | |
US8396877B2 (en) | Method and apparatus for generating a fused view of one or more people | |
US20150106701A1 (en) | Input support method and information processing system | |
CN116955720A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
CN114780615A (zh) | 错误码管理方法及其装置 | |
CN114386853A (zh) | 基于通用审核模型的数据审核处理方法、装置及设备 | |
CN104573083A (zh) | 一种地图缓存服务自动更新方法 | |
CN112818666B (zh) | 地址识别方法、装置、电子设备和存储介质 | |
CN103092855B (zh) | 探测地址更新的方法及装置 | |
CN106502707B (zh) | 代码生成方法及装置 | |
JP2013113882A (ja) | 注記表記変換装置、注記表記変換方法および注記表記変換プログラム | |
CN111784239B (zh) | 派送网点的确定方法、装置、电子设备及存储介质 | |
US20210279825A1 (en) | System and method for revenue and asset management based on micro-service architecture | |
CN114048797A (zh) | 确定地址相似度的方法、装置、介质及电子设备 | |
CN111125272B (zh) | 一种区域特征获取方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200515 |