CN109254964A - 地址标准化方法、装置、计算机设备和存储介质 - Google Patents

地址标准化方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109254964A
CN109254964A CN201810950318.4A CN201810950318A CN109254964A CN 109254964 A CN109254964 A CN 109254964A CN 201810950318 A CN201810950318 A CN 201810950318A CN 109254964 A CN109254964 A CN 109254964A
Authority
CN
China
Prior art keywords
address
string
matched
standardized
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810950318.4A
Other languages
English (en)
Inventor
王先锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810950318.4A priority Critical patent/CN109254964A/zh
Publication of CN109254964A publication Critical patent/CN109254964A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及大数据技术领域,特别涉及一种地址标准化方法、装置、计算机设备和存储介质。所述方法包括:接收用户输入的地址信息;根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;若所述匹配的地址串为多个,则按预设筛选规则从多个所述地址串中筛选一个所述地址串作为标准化地址串;输出所述标准化地址串。在用户输入地址信息之后,获取多个地址串,从多个地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址查找指令之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。

Description

地址标准化方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别涉及一种地址标准化方法、装置、计算机设备和存储介质。
背景技术
保险公司在核对某个小区的房价信息时,需要获取准确的小区地址,便于能准确核对小区的房价信息。保险公司的工作人员一般通过其内部对应的地址数据库来查找小区地址,但是输入小区地址查找指令之后一般会返回多个相似的小区地址,需要保险公司的工作人员来筛选出最优的小区地址,这样需要浪费大量的时间去进行筛选,工作效率不高,因此,如何提供一种小区地址标准化的方法成为亟待解决的问题。
申请内容
针对现有技术不足,本申请提出一种地址标准化方法、装置、计算机设备和存储介质,旨在解决现有的地址数据库,在用户输入小区地址查找指令之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
本申请提出的技术方案是:
一种地址标准化方法,所述方法包括:
接收用户输入的地址信息;
根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;
若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;
输出所述标准化地址串。
进一步地,所述地址元素包括地址级别元素;
在所述根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
将所述地址级别元素与所述地址数据库中对应的地址级别进行匹配;
根据匹配结果,获取匹配的地址串。
进一步地,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述匹配的地址串作为标准化地址串。
进一步地,所述地址元素包括地址级别元素,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
从所述地址级别元素中,按预设优先级获取所述地址级别元素中优先级最高的所述地址级别元素;
将优先级最高的所述地址级别元素与多个所述匹配的地址串进行匹配;
根据匹配结果,获取第一地址串;
若所述第一地址串为多个,则将所述地址信息中各地址元素与多个所述第一地址串进行匹配;
统计各所述第一地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述第一地址串作为标准化地址串。
进一步地,在所述筛选匹配个数最多的所述匹配的地址串作为标准化地址串的步骤之后,所述方法包括:
若匹配个数最多的所述匹配的地址串的数量存在并列多个,则随机选择一个所述匹配的地址串作为标准化地址串。
进一步地,在所述输出所述标准化地址串的步骤之后,所述方法包括:
将所述标准化地址串写入NoSQL库;
通过所述NoSQL库配置查询所述标准化地址串的http接口。
进一步地,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配词组数量;
计算各所述匹配词组数量占对应匹配的地址串的总词组数量的比值;
筛选比值最大的所述匹配的地址串作为标准化地址串。
本申请还提供一种地址标准化装置,所述装置包括:
接收模块,用于接收用户输入的地址信息;
获取模块,用于根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;
筛选模块,用于若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;
输出模块,用于输出所述标准化地址串。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
根据上述的技术方案,本申请有益效果:在用户输入地址信息之后,获取多个匹配的地址串,从多个匹配的地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址查找指令之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
附图说明
图1是应用本申请实施例提供的地址标准化方法的流程图;
图2是应用本申请实施例提供的地址标准化装置的功能模块图;
图3是应用本申请实施例提供的计算机设备的结构示意框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请实施例提出一种地址标准化方法,主要是针对小区地址,该方法包括以下步骤:
步骤S101、接收用户输入的地址信息。
提供地址查找窗口供用户进行输入,在地址查找窗口中,用户输入地址信息,根据用户输入地址信息,生成地址信息,从而接收用户输入的地址信息。具体地,地址信息包括城市名和小区名。
在本实施例中,用户通过终端在地址查找窗口中输入地址信息。
步骤S102、根据地址信息,从地址数据库中获取与地址信息中的任一地址元素匹配的地址串。
在接收到地址信息之后,根据地址信息,从地址数据库中进行查找,查找与地址信息中的任一地址元素匹配的地址串,从而获取匹配的地址串。
为了获取小区地址的相关数据,保险公司需要获取多个房价网站或其它数据平台的大量房价数据,在本实施例中,小区地址系统具体通过Flume实时同步关系型数据库插件获取多个不同房价网站或其它数据平台的房价数据,其中上述房价数据一般包括小区名称、小区地址以及对应的房产价格。对于获取的大量房价数据,Flume实时同步关系型数据库插件将上述大量房价数据同步到hdfs(分布式文件系统),由hdfs(分布式文件系统)对上述大量的房价数据进行分布式的存储,其中上述Flume实时同步关系型数据库插件能识别不同类别、具有差异的房价数据,上述hdfs(分布式文件系统)用于处理大量的数据存储问题。上述hdfs(分布式文件系统)将多个不同城市下的小区地址进行储存形成地址数据库即为名址库,其中名址库是按照国家标准的地址格式所存储的详细地址数据库,上述名址库中涵盖绝大部分城市中绝大部分小区名和小区地址信息;该详细地址库将相应的地址将以地址数组的方式进行存储,对于省、市、区、街道、路、小区名称将作为地址数组中的元素进行存储,每个地址数组代表一个地址串。在小区地址系统中对应的名址库http接口输入地址信息进行小区地址查找,其中输入的地址信息可以为城市名加小区地址或城市名加上小区名,保险公司的工作人员将根据已知的一些地址信息输入对应的地址信息,例如城市名、小区名和小区的部分地址等信息。
上述的Flume中文名称为日志收集系统,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
地址元素包括地址级别元素,在步骤S102中,包括:
从地址信息中提取地址级别元素;
将地址级别元素与地址数据库中对应的地址级别进行匹配;
根据匹配结果,获取匹配的地址串。
从地址信息中提取地址级别元素,具体地,从地址信息中地址元素提取地址级别元素,获得地址级别元素,例如,用户在地址查找窗口输入“深圳市龙悦居小区”,“深圳市龙悦居小区”将会生成地址信息,在地址信息中识别出地址的信息,也就是识别出“深圳市龙悦居小区”,该地址信息中包括地址级别“市”和“小区”,“市”地址级别的元素为“深圳”,“小区”地址级别的元素为“龙悦居”,从而可以提取出地址级别元素。获得地址级别元素之后,将地址级别元素与地址数据库中对应的地址级别进行匹配,这样能减少匹配的时间,例如,“市”地址级别的元素为“深圳”,在地址数据库的“市”地址级别进行匹配“深圳”,“小区”地址级别的元素为“龙悦居”,在地址数据库的“小区”地址级别进行匹配“龙悦居”。根据匹配结果,获得具体的地址,该具体的地址也就是地址串,从而获取地址串,地址串一般为XX省XX市XX区XX街道XX路XX小区等具体信息。
具体地,对于输入的地址信息,需要将输入的城市名加小区地址或城市名加上小区名转换成相应的元素,并将对应的元素以遍历查找的方式从存储的每个地址串对应的地址数组中的所有元素进行匹配,当某个地址串对应的地址数组中的某个元素匹配成功时,则根据地址数组生成相应的地址串,并将该地址串作为在地址数据库中查找的地址串结果,需要说明的是,地址串结果会包含多个相似的地址串。
步骤S103、若地址串为多个,则按预设筛选规则从多个匹配的地址串中筛选一个地址串作为标准化地址串。
从地址数据库中获取匹配的地址串之后,匹配的地址串的数量可以是一个,也可能是多个,还有可能是零个,这时需要对匹配的地址串的数量进行判断,判断匹配的地址串的数量,若匹配的地址串的数量为多个,则按预设筛选规则从多个匹配的地址串中筛选一个地址串作为标准化地址串,其筛选方式可以是预设筛选方式,也可以是在需要进行筛选时,再提示进行输入筛选方式。若地址串的数量为一个,由于只有一个地址串,此时不需要进行筛选,则选取该一个地址串作为标准化地址串。若地址串的数量为零个,也就是未能获取地址串,此时,有可能是用户输入地址信息存在错误,则提示用户重新输入,具体地,在接收输入的地址信息后,若地址信息中的城市名、小区名和小区的部分地址输入错误,例如输入的城市名、小区名和小区的部分地址中均包含错别字,则此时将匹配不到对应的地址串,此时将输出“未查找到对应地址,请重新输入地址信息”等提示信息。
在本实施例中,在步骤S103中,包括:
将地址信息中各地址元素与多个匹配的地址串进行匹配;
统计各匹配的地址串与地址信息中各地址元素的匹配个数;
筛选匹配个数最多的匹配的地址串作为标准化地址串。
在获得地址信息之后,由于地址串的数量为多个,将地址信息中各地址元素与多个地址串进行匹配,在完成匹配之后,统计各地址串与地址信息中各地址元素的匹配个数,也就是要统计每一地址串与地址信息中各地址元素的匹配个数,在完成统计所有地址串的匹配个数之后,对地址串进行筛选,筛选出匹配个数最多的地址串,则选取该地址串作为标准化地址串。若匹配个数最多的地址串的数量存在并列多个,则随机选择一个地址串作为标准化地址串。
具体地,从输入的地址信息(例如城市名加小区地址或城市名加上小区名)中获取得到对应的城市名、小区名和小区的部分地址信息,将对应的城市名、小区名和小区的部分地址信息与每个地址串中的地址进行匹配。需要指出的是,在匹配过程中,对于城市名、小区名一般作为一个名词进行匹配,对于小区的部分地址信息中的区、街道、路也作为一个名词来进行匹配。对于每个地址串,将输入的地址信息的名词与地址串中的名词进行匹配,判断名词匹配的个数,对于名词匹配个数越多的地址串,将该地址串筛选出来作为标准化之后的小区地址。根据名词匹配的个数对所有地址串进行排序,其中名词匹配的个数越多的地址串排列在前,需要说明的是,对于名词匹配个数越多的地址串,将该地址串筛选出来作为标准化之后的小区地址,其它的地址串也进行展示作为参考。
在一些实施例中,地址元素包括地址级别元素,在步骤S103中,包括:
从地址信息中提取地址级别元素;
从地址级别元素中,按预设优先级获取地址级别元素中优先级最高的地址级别元素;
将优先级最高的地址级别元素与多个地址串进行匹配;
根据匹配结果,获取第一地址串;
若第一地址串为多个,则将地址信息中各地址元素与多个第一地址串进行匹配;
统计各第一地址串与地址信息中各地址元素的匹配个数;
筛选匹配个数最多的第一地址串作为标准化地址串。
从地址信息中提取地址级别元素,具体地,从地址信息中各地址元素提取地址级别元素,获得地址级别元素,例如,用户在地址查找窗口输入“深圳市龙悦居小区”,“深圳市龙悦居小区”将会生成地址信息,在地址信息中识别出地址的信息,也就是识别出“深圳市龙悦居小区”,该地址信息中包括地址级别“市”和“小区”,“市”地址级别的元素为“深圳”,“小区”地址级别的元素为“龙悦居”,从而可以提取出地址级别元素。获得地址级别元素之后,从地址级别元素中,按预设优先级对地址级别元素进行优先级排序,选取优先级最高的地址级别元素,进而获取优先级最高的地址级别元素。在本实施例中,预设优先级是按地址级别设置优先级,地址级别由高到低对应的优先级为由低到高,具体地,优先级由低到高依次为“省”、“市”、“区”、“街道”、“路”、“小区”。在获取优先级最高的地址级别元素之后,将优先级最高的地址级别元素与多个地址串进行匹配,在完成匹配之后,获取已匹配的地址串即是第一地址串。若第一地址串为一个,则选取该第一地址串作为标准化地址串。若第一地址串为多个,则将地址信息中各地址元素与多个第一地址串进行匹配,在完成匹配之后,统计各第一地址串与地址信息中各地址元素的匹配个数,也就是要统计每一第一地址串与地址信息中各地址元素的匹配个数,在完成统计所有第一地址串的匹配个数之后,对第一地址串进行筛选,筛选出匹配个数最多的第一地址串,则选取该第一地址串作为标准化地址串。若匹配个数最多的第一地址串的数量存在并列多个,则随机选择一个第一地址串作为标准化地址串。
在步骤S103中,包括:
将地址信息中各地址元素与多个匹配的地址串进行匹配;
统计各匹配的地址串与地址信息中各地址元素的匹配词组数量;
计算各匹配词组数量占对应匹配的地址串的总词组数量的比值;
筛选比值最大的匹配的地址串作为标准化地址串。
在获得地址信息之后,由于地址串的数量为多个,将地址信息中各地址元素与多个地址串进行匹配,在完成匹配之后,统计各地址串与地址信息中各地址元素的匹配词组数量,也就是要统计每一地址串与地址信息中各地址元素的匹配词组数量,在完成统计所有地址串的匹配词组数量之后,计算各匹配词组数量占对应匹配的地址串的总词组数量的比值,通过比值大小对匹配的地址串进行筛选,筛选出比值最大的匹配的地址串,则选取该匹配的地址串作为标准化地址串。若比值最大的匹配的地址串的数量存在并列多个,则随机选择一个地址串作为标准化地址串。
步骤S104、输出标准化地址串。
在筛选出一个地址串作为标准化地址串之后,获得标准化地址串,输出该标准化地址串。在输出该标准化地址串之后,便于保险公司的工作人员直接获取得到标准化的小区地址,从而能根据标准化的小区地址去准确核对小区的房价信息。
在步骤S104之后,所述方法包括:
将标准化地址串写入NoSQL库;
通过NoSQL库配置查询标准化地址串的http接口。
在输出标准化地址串之后,将标准化地址串写入NoSQL库,使用NoSQL库存储标准化地址串,然后再通过NoSQL库配置http接口,提供可以查询标准化地址串的http接口。
NoSQL库中文名为非关系型数据库。
具体地,将上述标准化后的小区地址写入到NoSQL库,便于设置其它的查询数据的http接口,使得公司的其它部门人员可以通过多种方式来查询获取得到上述标准化后的小区地址信息。
综上所述,在用户输入地址信息之后,获取多个地址串,从多个地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址信息之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
如图2所示,本申请实施例提出一种地址标准化装置1,主要是针对小区地址,装置1包括接收模块11、获取模块12、筛选模块13和输出模块14。
接收模块11,用于接收用户输入的地址信息。
提供地址查找窗口供用户进行输入,在地址查找窗口中,用户输入地址信息,根据用户输入地址信息,生成地址信息,从而接收用户输入的地址信息。具体地,地址信息包括城市名和小区名。
在本实施例中,用户通过终端在地址查找窗口中输入地址信息。
获取模块12,用于根据地址信息,从地址数据库中获取与地址信息中的任一地址元素匹配的地址串。
在接收到地址信息之后,根据地址信息,从地址数据库中进行查找,查找与地址信息中的任一地址元素匹配的地址串,从而获取匹配的地址串。
为了获取小区地址的相关数据,保险公司需要获取多个房价网站或其它数据平台的大量房价数据,在本实施例中,小区地址系统具体通过Flume实时同步关系型数据库插件获取多个不同房价网站或其它数据平台的房价数据,其中上述房价数据一般包括小区名称、小区地址以及对应的房产价格。对于获取的大量房价数据,Flume实时同步关系型数据库插件将上述大量房价数据同步到hdfs(分布式文件系统),由hdfs(分布式文件系统)对上述大量的房价数据进行分布式的存储,其中上述Flume实时同步关系型数据库插件能识别不同类别、具有差异的房价数据,上述hdfs(分布式文件系统)用于处理大量的数据存储问题。上述hdfs(分布式文件系统)将多个不同城市下的小区地址进行储存形成地址数据库即为名址库,其中名址库是按照国家标准的地址格式所存储的详细地址数据库,上述名址库中涵盖绝大部分城市中绝大部分小区名和小区地址信息;该详细地址库将相应的地址将以地址数组的方式进行存储,对于省、市、区、街道、路、小区名称将作为地址数组中的元素进行存储,每个地址数组代表一个地址串。在小区地址系统中对应的名址库http接口输入地址信息进行小区地址查找,其中输入的地址信息可以为城市名加小区地址或城市名加上小区名,保险公司的工作人员将根据已知的一些地址信息输入对应的地址信息,例如城市名、小区名和小区的部分地址等信息。
上述的Flume中文名称为日志收集系统,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
地址元素包括地址级别元素,获取模块12包括:
第一提取模块,用于从地址信息中提取地址级别元素;
第一匹配模块,用于将地址级别元素与地址数据库中对应的地址级别进行匹配;
第一获取模块,用于根据匹配结果,获取匹配的地址串。
从地址信息中提取地址级别元素,具体地,从地址信息中提取地址级别元素,获得地址级别元素,例如,用户在地址查找窗口输入“深圳市龙悦居小区”,“深圳市龙悦居小区”将会生成地址信息,在地址信息中识别出地址的信息,也就是识别出“深圳市龙悦居小区”,该地址信息中包括地址级别“市”和“小区”,“市”地址级别的元素为“深圳”,“小区”地址级别的元素为“龙悦居”,从而可以提取出地址级别元素。获得地址级别元素之后,将地址级别元素与地址数据库中对应的地址级别进行匹配,这样能减少匹配的时间,例如,“市”地址级别的元素为“深圳”,在地址数据库的“市”地址级别进行匹配“深圳”,“小区”地址级别的元素为“龙悦居”,在地址数据库的“小区”地址级别进行匹配“龙悦居”。根据匹配结果,获得具体的地址,该具体的地址也就是地址串,从而获取地址串,地址串一般为XX省XX市XX区XX街道XX路XX小区等具体信息。
具体地,对于输入的地址信息,需要将输入的城市名加小区地址或城市名加上小区名转换成相应的元素,并将对应的元素以遍历查找的方式从存储的每个地址串对应的地址数组中的所有元素进行匹配,当某个地址串对应的地址数组中的某个元素匹配成功时,则根据地址数组生成相应的地址串,并将该地址串作为在地址数据库中查找的地址串结果,需要说明的是,地址串结果会包含多个相似的地址串。
筛选模块13,用于若地址串为多个,则按预设筛选规则从多个匹配的地址串中筛选一个地址串作为标准化地址串。
从地址数据库中获取匹配的地址串之后,匹配的地址串的数量可以是一个,也可能是多个,还有可能是零个,这时需要对匹配的地址串的数量进行判断,判断匹配的地址串的数量,若匹配的地址串的数量为多个,则按预设筛选规则从多个匹配的地址串中筛选一个地址串作为标准化地址串,其筛选方式可以是预设筛选方式,也可以是在需要进行筛选时,再提示进行输入筛选方式。若地址串的数量为一个,由于只有一个地址串,此时不需要进行筛选,则选取该一个地址串作为标准化地址串。若地址串的数量为零个,也就是未能获取地址串,此时,有可能是用户输入地址信息存在错误,则提示用户重新输入,具体地,在接收输入的地址信息后,若地址信息中的城市名、小区名和小区的部分地址输入错误,例如输入的城市名、小区名和小区的部分地址中均包含错别字,则此时将匹配不到对应的地址串,此时将输出“未查找到对应地址,请重新输入地址信息”等提示信息。
在本实施例中,筛选模块13包括:
第二匹配模块,用于将地址信息中各地址元素与多个匹配的地址串进行匹配;
第一统计模块,用于统计各匹配的地址串与地址信息中各地址元素的匹配个数;
第一筛选模块,用于筛选匹配个数最多的匹配的地址串作为标准化地址串。
在获得地址信息之后,由于地址串的数量为多个,将地址信息中各地址元素与多个地址串进行匹配,在完成匹配之后,统计各地址串与地址信息中各地址元素的匹配个数,也就是要统计每一地址串与地址信息中各地址元素的匹配个数,在完成统计所有地址串的匹配个数之后,对地址串进行筛选,筛选出匹配个数最多的地址串,则选取该地址串作为标准化地址串。若匹配个数最多的地址串的数量存在并列多个,则随机选择一个地址串作为标准化地址串。
具体地,从输入的地址信息(例如城市名加小区地址或城市名加上小区名)中获取得到对应的城市名、小区名和小区的部分地址信息,将对应的城市名、小区名和小区的部分地址信息与每个地址串中的地址进行匹配。需要指出的是,在匹配过程中,对于城市名、小区名一般作为一个名词进行匹配,对于小区的部分地址信息中的区、街道、路也作为一个名词来进行匹配。对于每个地址串,将输入的地址信息的名词与地址串中的名词进行匹配,判断名词匹配的个数,对于名词匹配个数越多的地址串,将该地址串筛选出来作为标准化之后的小区地址。根据名词匹配的个数对所有地址串进行排序,其中名词匹配的个数越多的地址串排列在前,需要说明的是,对于名词匹配个数越多的地址串,将该地址串筛选出来作为标准化之后的小区地址,其它的地址串也进行展示作为参考。
在一些实施例中,地址元素包括地址级别元素,筛选模块13包括:
第三提取模块,用于从地址信息中提取地址级别元素;
第二获取模块,用于从地址级别元素中,按预设优先级获取地址级别元素中优先级最高的地址级别元素;
第三匹配模块,用于将优先级最高的地址级别元素与多个地址串进行匹配;
第三获取模块,用于根据匹配结果,获取第一地址串;
第四匹配模块,用于若第一地址串为多个,则将地址信息中各地址元素与多个第一地址串进行匹配;
第二统计模块,用于统计各第一地址串与地址信息中各地址元素的匹配个数;
第二筛选模块,用于筛选匹配个数最多的第一地址串作为标准化地址串。
从地址信息中提取地址级别元素,具体地,从地址信息中各地址元素提取地址级别元素,获得地址级别元素,例如,用户在地址查找窗口输入“深圳市龙悦居小区”,“深圳市龙悦居小区”将会生成地址信息,在地址信息中识别出地址的信息,也就是识别出“深圳市龙悦居小区”,该地址信息中包括地址级别“市”和“小区”,“市”地址级别的元素为“深圳”,“小区”地址级别的元素为“龙悦居”,从而可以提取出地址级别元素。获得地址级别元素之后,从地址级别元素中,按预设优先级对地址级别元素进行优先级排序,选取优先级最高的地址级别元素,进而获取优先级最高的地址级别元素。在本实施例中,预设优先级是按地址级别设置优先级,地址级别由高到低对应的优先级为由低到高,具体地,优先级由低到高依次为“省”、“市”、“区”、“街道”、“路”、“小区”。在获取优先级最高的地址级别元素之后,将优先级最高的地址级别元素与多个地址串进行匹配,在完成匹配之后,获取已匹配的地址串即是第一地址串。若第一地址串为一个,则选取该第一地址串作为标准化地址串。若第一地址串为多个,则将地址信息中各地址元素与多个第一地址串进行匹配,在完成匹配之后,统计各第一地址串与地址信息中各地址元素的匹配个数,也就是要统计每一第一地址串与地址信息中各地址元素的匹配个数,在完成统计所有第一地址串的匹配个数之后,对第一地址串进行筛选,筛选出匹配个数最多的第一地址串,则选取该第一地址串作为标准化地址串。若匹配个数最多的第一地址串的数量存在并列多个,则随机选择一个第一地址串作为标准化地址串。
筛选模块13包括:
第五匹配模块,用于将地址信息中各地址元素与多个匹配的地址串进行匹配;
第三统计模块,用于统计各匹配的地址串与地址信息中各地址元素的匹配词组数量;
第三计算模块,用于计算各匹配词组数量占对应匹配的地址串的总词组数量的比值;
第三筛选模块,用于筛选比值最大的匹配的地址串作为标准化地址串。
在获得地址信息之后,由于地址串的数量为多个,将地址信息中各地址元素与多个地址串进行匹配,在完成匹配之后,统计各地址串与地址信息中各地址元素的匹配词组数量,也就是要统计每一地址串与地址信息中各地址元素的匹配词组数量,在完成统计所有地址串的匹配词组数量之后,计算各匹配词组数量占对应匹配的地址串的总词组数量的比值,通过比值大小对匹配的地址串进行筛选,筛选出比值最大的匹配的地址串,则选取该匹配的地址串作为标准化地址串。若比值最大的匹配的地址串的数量存在并列多个,则随机选择一个地址串作为标准化地址串。
输出模块14,用于输出标准化地址串。
在筛选出一个地址串作为标准化地址串之后,获得标准化地址串,输出该标准化地址串。在输出该标准化地址串之后,便于保险公司的工作人员直接获取得到标准化的小区地址,从而能根据标准化的小区地址去准确核对小区的房价信息。
装置1包括:
写入模块,用于将标准化地址串写入NoSQL库;
http接口模块,用于通过NoSQL库配置查询标准化地址串的http接口。
在输出标准化地址串之后,将标准化地址串写入NoSQL库,使用NoSQL库存储标准化地址串,然后再通过NoSQL库配置http接口,提供可以查询标准化地址串的http接口。
NoSQL库中文名为非关系型数据库。
具体地,将上述标准化后的小区地址写入到NoSQL库,便于设置其它的查询数据的http接口,使得公司的其它部门人员可以通过多种方式来查询获取得到上述标准化后的小区地址信息。
综上所述,在用户输入地址信息之后,获取多个地址串,从多个地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址信息之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
如图3所示,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址标准化方法的模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址标准化方法。
上述处理器执行上述地址标准化方法的步骤:接收用户输入的地址信息;根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;输出所述标准化地址串。
在一个实施例中,上述地址元素包括地址级别元素;在所述根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
将所述地址级别元素与所述地址数据库中对应的地址级别进行匹配;
根据匹配结果,获取匹配的地址串。
在一个实施例中,上述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述匹配的地址串作为标准化地址串。
在一个实施例中,上述地址元素包括地址级别元素,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
从所述地址级别元素中,按预设优先级获取所述地址级别元素中优先级最高的所述地址级别元素;
将优先级最高的所述地址级别元素与多个所述匹配的地址串进行匹配;
根据匹配结果,获取第一地址串;
若所述第一地址串为多个,则将所述地址信息中各地址元素与多个所述第一地址串进行匹配;
统计各所述第一地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述第一地址串作为标准化地址串。
在一个实施例中,上述筛选匹配个数最多的所述匹配的地址串作为标准化地址串的步骤之后,所述方法包括:
若匹配个数最多的所述匹配的地址串的数量存在并列多个,则随机选择一个所述匹配的地址串作为标准化地址串。
在一个实施例中,上述输出所述标准化地址串的步骤之后,所述方法包括:
将所述标准化地址串写入NoSQL库;
通过所述NoSQL库配置查询所述标准化地址串的http接口。
在一个实施例中,上述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配词组数量;
计算各所述匹配词组数量占对应匹配的地址串的总词组数量的比值;
筛选比值最大的所述匹配的地址串作为标准化地址串。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例的计算机设备,在用户输入地址信息之后,获取多个地址串,从多个地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址信息之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种地址标准化方法,具体为:接收用户输入的地址信息;根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;输出所述标准化地址串。
在一个实施例中,上述地址元素包括地址级别元素;在所述根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
将所述地址级别元素与所述地址数据库中对应的地址级别进行匹配;
根据匹配结果,获取匹配的地址串。
在一个实施例中,上述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述匹配的地址串作为标准化地址串。
在一个实施例中,上述地址元素包括地址级别元素,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
从所述地址级别元素中,按预设优先级获取所述地址级别元素中优先级最高的所述地址级别元素;
将优先级最高的所述地址级别元素与多个所述匹配的地址串进行匹配;
根据匹配结果,获取第一地址串;
若所述第一地址串为多个,则将所述地址信息中各地址元素与多个所述第一地址串进行匹配;
统计各所述第一地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述第一地址串作为标准化地址串。
在一个实施例中,上述筛选匹配个数最多的所述匹配的地址串作为标准化地址串的步骤之后,所述方法包括:
若匹配个数最多的所述匹配的地址串的数量存在并列多个,则随机选择一个所述匹配的地址串作为标准化地址串。
在一个实施例中,上述输出所述标准化地址串的步骤之后,所述方法包括:
将所述标准化地址串写入NoSQL库;
通过所述NoSQL库配置查询所述标准化地址串的http接口。
在一个实施例中,上述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配词组数量;
计算各所述匹配词组数量占对应匹配的地址串的总词组数量的比值;
筛选比值最大的所述匹配的地址串作为标准化地址串。
本申请实施例的存储介质,在用户输入地址信息之后,获取多个地址串,从多个地址串中筛选一个地址串作为标准化地址串进行输出,旨在解决现有的地址数据库,在用户输入小区地址信息之后一般会返回多个相似的小区地址,需要用户进行筛选的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本申请的保护范围之内。

Claims (10)

1.一种地址标准化方法,其特征在于,所述方法包括:
接收用户输入的地址信息;
根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;
若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;
输出所述标准化地址串。
2.根据权利要求1所述的地址标准化方法,其特征在于,所述地址元素包括地址级别元素;
在所述根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
将所述地址级别元素与所述地址数据库中对应的地址级别进行匹配;
根据匹配结果,获取匹配的地址串。
3.根据权利要求1所述的地址标准化方法,其特征在于,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述匹配的地址串作为标准化地址串。
4.根据权利要求1所述的地址标准化方法,其特征在于,所述地址元素包括地址级别元素,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
从所述地址信息中提取地址级别元素;
从所述地址级别元素中,按预设优先级获取所述地址级别元素中优先级最高的所述地址级别元素;
将优先级最高的所述地址级别元素与多个所述匹配的地址串进行匹配;
根据匹配结果,获取第一地址串;
若所述第一地址串为多个,则将所述地址信息中各地址元素与多个所述第一地址串进行匹配;
统计各所述第一地址串与所述地址信息中各地址元素的匹配个数;
筛选匹配个数最多的所述第一地址串作为标准化地址串。
5.根据权利要求3所述的地址标准化方法,其特征在于,在所述筛选匹配个数最多的所述匹配的地址串作为标准化地址串的步骤之后,所述方法包括:
若匹配个数最多的所述匹配的地址串的数量存在并列多个,则随机选择一个所述匹配的地址串作为标准化地址串。
6.根据权利要求1所述的地址标准化方法,其特征在于,在所述输出所述标准化地址串的步骤之后,所述方法包括:
将所述标准化地址串写入NoSQL库;
通过所述NoSQL库配置查询所述标准化地址串的http接口。
7.根据权利要求1所述的地址标准化方法,其特征在于,在所述若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串的步骤中,包括:
将所述地址信息中各地址元素与多个所述匹配的地址串进行匹配;
统计各所述匹配的地址串与所述地址信息中各地址元素的匹配词组数量;
计算各所述匹配词组数量占对应匹配的地址串的总词组数量的比值;
筛选比值最大的所述匹配的地址串作为标准化地址串。
8.一种地址标准化装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的地址信息;
获取模块,用于根据所述地址信息,从地址数据库中获取与所述地址信息中的任一地址元素匹配的地址串;
筛选模块,用于若所述匹配的地址串为多个,则按预设筛选规则从多个所述匹配的地址串中筛选一个地址串作为标准化地址串;
输出模块,用于输出所述标准化地址串。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810950318.4A 2018-08-20 2018-08-20 地址标准化方法、装置、计算机设备和存储介质 Pending CN109254964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810950318.4A CN109254964A (zh) 2018-08-20 2018-08-20 地址标准化方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810950318.4A CN109254964A (zh) 2018-08-20 2018-08-20 地址标准化方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109254964A true CN109254964A (zh) 2019-01-22

Family

ID=65048843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810950318.4A Pending CN109254964A (zh) 2018-08-20 2018-08-20 地址标准化方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109254964A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078639A (zh) * 2019-12-03 2020-04-28 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112395377A (zh) * 2019-08-19 2021-02-23 中国电信股份有限公司 地址识别方法、装置和存储介质
CN113569564A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
US20110270808A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Systems and Methods for Discovering Synonymous Elements Using Context Over Multiple Similar Addresses
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN108228825A (zh) * 2018-01-02 2018-06-29 北京市燃气集团有限责任公司 一种基于分词的用户地址数据清洗方法
CN108369582A (zh) * 2018-03-02 2018-08-03 福建联迪商用设备有限公司 一种地址纠错方法及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
US20110270808A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Systems and Methods for Discovering Synonymous Elements Using Context Over Multiple Similar Addresses
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN108228825A (zh) * 2018-01-02 2018-06-29 北京市燃气集团有限责任公司 一种基于分词的用户地址数据清洗方法
CN108369582A (zh) * 2018-03-02 2018-08-03 福建联迪商用设备有限公司 一种地址纠错方法及终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112115214B (zh) * 2019-06-20 2024-04-02 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112395377A (zh) * 2019-08-19 2021-02-23 中国电信股份有限公司 地址识别方法、装置和存储介质
CN111078639A (zh) * 2019-12-03 2020-04-28 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质
CN113569564A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置
CN113569564B (zh) * 2021-07-30 2024-03-19 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置

Similar Documents

Publication Publication Date Title
CN109254964A (zh) 地址标准化方法、装置、计算机设备和存储介质
CN105069056B (zh) 基于字符串匹配的身份证住址信息解析方法及系统
CN101882163A (zh) 一种基于匹配规则的模糊中文地址地理赋值方法
CN110321408A (zh) 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN102682118A (zh) 一种多维数据模型访问方法及装置
CA2646362A1 (en) Report generation with integrated quality management
CN105335246B (zh) 一种基于问答网站分析的程序崩溃缺陷自动修复方法
CN106598919A (zh) 文档生成的方法和装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN104133839A (zh) 一种具有智能检测功能的数据处理方法及系统
CN106294128B (zh) 一种导出报表数据的自动化测试方法及装置
CN111125220A (zh) 信息自定义导出方法及装置
CN104133838A (zh) 一种具有系统检测功能的数据处理方法及系统
CN108804708A (zh) 业务数据表归档修正方法、装置、计算机设备和存储介质
CN104133842A (zh) 一种具有智能专家检测功能的数据处理方法及系统
CN109740159A (zh) 用于命名实体识别的处理方法及装置
CN102402563A (zh) 网络信息筛选方法和装置
CN107203525B (zh) 数据库的处理方法和装置
CN103235757B (zh) 基于自动化造数对输入域测试对象进行测试的装置和方法
CN201654779U (zh) 学术文献自动分类系统
US20140149341A1 (en) System and method for refining address database for improving performance of automated mail sorting machine
CN104142952A (zh) 报表展示方法和装置
CN107169294A (zh) 一种环境试验自动测试系统中Excel报表二次判断处理方法
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN105095826A (zh) 一种文字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122