CN112861532B - 地址标准化处理方法、装置、设备及在线搜索系统 - Google Patents
地址标准化处理方法、装置、设备及在线搜索系统 Download PDFInfo
- Publication number
- CN112861532B CN112861532B CN201911101686.2A CN201911101686A CN112861532B CN 112861532 B CN112861532 B CN 112861532B CN 201911101686 A CN201911101686 A CN 201911101686A CN 112861532 B CN112861532 B CN 112861532B
- Authority
- CN
- China
- Prior art keywords
- address
- word
- preset
- character
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000010606 normalization Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 240000000233 Melia azedarach Species 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- ZEKANFGSDXODPD-UHFFFAOYSA-N glyphosate-isopropylammonium Chemical compound CC(C)N.OC(=O)CNCP(O)(O)=O ZEKANFGSDXODPD-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本公开披露一种地址标准化处理方法及装置,该方法包括:对待处理的地址数据进行数据处理,得到待处理的地址数据对应的第一字符串。从第一字符串中提取与预设的地址类型词所对应的地址实体词。根据预设的地址类型词和地址实体词,采用游标式边界策略获取标准化的地址数据,标准化的地址数据中包括预设的地址类型词和地址实体词。通过从数据处理后的第一字符串中提取预设的地址类型词所对应的地址实体词,以根据地址类型词和地址实体词得到标准化的地址数据,从而能够针对不同的地址数据分别得到各自对应的标准化地址,避免了根据兴趣点的地址进行匹配所导致的地址标准化存在较大局限性的问题。
Description
技术领域
本申请实施例涉及地理信息技术,尤其涉及一种地址标准化处理方法、装置、设备及在线搜索系统。
背景技术
在很多业务场景中,由用户填写的地址数据中不可避免的会出现缺失和错误,因此对用户输入的地址数据进行标准化显得尤为重要。
目前,现有技术在进行地址标准化时,通常是通过用户填写的地址和数据库中存储的兴趣点(Point of Interest,POI)的地址进行匹配,其中,数据库中兴趣点的地址是已经标准化的地址,从而可以将匹配度最高的兴趣点的地址作为用户输入地址所对应的标准化的地址。
然而,现有数据库中所记录的兴趣点的地址通常只代表该地址的一种写法,则根据兴趣点的地址进行匹配会导致地址标准化存在较大的局限性。
发明内容
本申请实施例提供一种地址标准化处理方法及装置,以克服根据兴趣点的地址进行匹配,会导致地址标准化存在较大的局限性的问题。
第一方面,本申请实施例提供一种地址标准化处理方法,该方法包括:
对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据。
第二方面,本申请实施例提供一种地址标准化装置,该装置包括:预处理模块,用于对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;提取模块,用于从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;标准化模块,用于根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据。
第三方面,本申请实施例提供一种在线搜索系统,该系统包括:搜索接口,用于接收用户的搜索需求以及输出搜索结果;标准地址数据库,用于存储根据权前述任一实施例获取的标准化的地址数据;搜索服务模块,用于解析所述搜索需求,并根据所述搜索需求利用所述标准地址数据库,生成对应的至少一个搜索结果并有序输出;日志分析模块,用于根据搜索记录生成日志并对日志进行分析供下次搜索使用以优化搜索结果排序。
第四方面,本申请实施例提供一种地址标准化处理设备,该设备包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
与现有技术相比,本申请的技术方案具有以下技术效果:
实施本申请实施例披露的技术方案时,通过从数据处理后的第一字符串中提取预设的地址类型词所对应的地址实体词,以根据地址类型词和地址实体词得到标准化的地址数据,其中的地址类型词是根据实际需求预先设置的,地址实体词是根据地址实体词从第一字符串中提取得到的,从而能够针对不同的地址数据分别得到各自对应的标准化地址,避免了根据兴趣点的地址进行匹配所导致的地址标准化存在较大局限性的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。
图1为本申请实施例提供的地址标准化处理方法的工作场景示意图;
图2为本申请实施例提供的地址标准化处理方法的流程示意图一;
图3为本申请实施例提供的地址标准化处理方法的流程示意图二;
图4为本申请实施例提供的提取地址实体词的过程示意图一;
图5为本申请实施例提供的提取地址实体词的过程示意图二;
图6为本申请实施例提供的快递表单数据的标准化的应用示意图;
图7为本申请实施例提供的地址标准化装置的结构示意图;
图8为本申请实施例提供的POI在线搜索系统的系统示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的地址标准化处理方法的工作场景示意图,如图1所示,其示出了一种工作场景下的系统环境,可包括:终端设备101和服务器102。其中,终端设备101用于接收用户输入的地址数据,值得说明的是,本申请中的地址数据为英文的地址数据,因此本申请实际上是针对一串英文地址进行标准化,在本实施例中,终端设备101例如可以是计算机设备、平板电脑或移动电话(或称为“蜂窝”电话)等,终端设备101还可以是便携式、袖珍式、手持式、计算机内置的移动装置或设备等,只要终端设备能够接收用户输入的地址数据即可,此处不做特别限制。
作为一种可选的实现方式,终端设备101将接收到的地址数据发送给服务器102,服务器102对接收到的地址数据进行处理,以得到标准化的地址数据。
在本实施例中,终端设备101与服务器101进行交互的方式例如可以通过有线网络,该有线网络例如可以包括同轴电缆、双绞线和光纤等,其中交互的方式还例如可以是无线网络,该无线网络可以是2G网络、3G网络、4G网络或者5G网络、无线保真(WirelessFidelity,简称WIFI)网络等。本申请实施例对交互的具体类型或者具体形式并不做限定,只要其能够实现服务器和终端设备交互的功能即可。
在介绍现有技术是如何实现地址标准化之前,此处首先对地址的标准化进行简单介绍:地址的标准化是指按照预设的地址类型字段输出地址类型字段所对应的地址内容。举例来说,当前存在一个英文的地址数据为:GUANGLIAN INDUSTRIAL PARK NO.2KE CHUANG5TH STREET,其含义是科创五街2号广联工业园,对应的标准化后的地址数据可以为:GUANGLIAN<工业园区>、KE CHUANG 5TH<道路>、2<道路门牌号>。
以上仅为标准化的示例性说明,实际上上面示例中的英文的地址数据不存在错误输入,但是用户填写的地址数据中不可避免的会出现缺失和错误,例如用户可能会把STREET拼写成Stret,或者用户可能会输入一些干扰符号,如$、/、#、&等,其均会对地址数据的分析造成干扰,因此地址标准化就显得尤为重要。
在实际应用中,地址标准化在邮政、快递、银行、保险行业有着广泛的应用,例如地址库、数据仓库等存储标准化后的地址数据,能够有效提升地址库、数据仓库的规范和质量,使得一切基于地址信息方面的业务操作都可以顺利展开,同时标准化后的地址数据还可以更好的应用于位置搜索、地址字段统计、数据分析等领域。例如还可以应用于提取行政区化名、街道、小区楼宇门牌等一系列有价值的信息等等。
目前,现有技术在进行地址标准化的处理时,通常是将接收到的地址数据和数据库中存储的POI的地址进行匹配。然而,在现有的地图POI标准英文数据库中,针对一个POI只会存在一种固定的描述方式,但实际上一个具体地点的英文地址可以存在多种书写方式,例如道路的地址类型词可以为“street”,同时还可以为“road”,但是仅在地图POI标准英文数据库采用一种方式进行描述,并根据兴趣点的地址进行匹配以确定标准化的地址,会导致地址标准化存在较大的局限性;同时,现有技术的方式仅仅是选择了匹配度最高的POI的地址,但是匹配度最高并不能保证当前POI的地址就是用户输入的地址数据所对应的地址,因此匹配方式还存在准确率较低的问题。
方法实施例:
针对上述现有技术中的问题,下面结合图2对本申请提供的地址标准化处理方法进行详细介绍,如图2所示,该方法包括:
S201、对待处理的地址数据进行数据处理,得到待处理的地址数据对应的第一字符串。
作为一种可选的实现方式,待处理的地址数据即为上述实施例中介绍的用户输入的地址数据,因为用户在输入地址数据时并没有固定的格式和相关限制,因此待处理的地址数据中会存在较多的噪声,本实施例中对待处理的地址数据首先进行数据处理,以实现对待处理的地址数据的去噪,例如,数据处理之后会得到待处理的地址数据对应的第一字符串。
在一种可能的实现方式中,数据处理可以包括去除预设干扰符号,如-、$、/、(、)、#、+、&、*、.、等,或者,数据处理还可以包括将地址数据末尾的用于表示行政区的字符串删除等。本实施例中的数据处理可理解为:为了实现对待处理的地址数据的去噪,以得到能够正确进行标准化分析的第一字符串,在此基础上,数据处理可以根据实际需求进行选择,例如预设干扰符号的设置可以根据需求进行扩展,或者数据处理还可以包括将连续的拼音字符串拆分为多个拼音单词等,这里对数据处理的具体实现方式不做限制。
S202、从第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词。
在本实施例中,设置有预设的地址类型词,通过提取预设的地址类型词所对应的地址实体词,从而能够有效实现从地址数据中提取出需要的标准化的字段,继而实现地址标准化。下面对地址类型词和地址实体词进行介绍:
1、地址类型词
在本实施例中,地址类型词为用于表示地址要素的词,其中,地址要素可包括指示地址类型的要素,例如省级别的地址要素可以为省、特别行政区、自治区,地级市级别的地址要素可以为市,区县级别的地址要素可以为区、县、州、林区、新区等等,其中地址要素的具体实现可以参照现有技术中的相关说明,此处不再赘述。与之对应的,预设的地址类型词,例如可以为:道路、巷子、建筑物(大厦、商场、广场等)、村级社区、园区(工业、科技等)、企业(公司、酒店等)、门牌号等。
需要说明的是,本实施例中的地址类型词可以不包括省、市、县、区,因为省、市、区、县可以使用经纬度通过逆地理编码获取到,从而有效节省了待处理的数据量。
其中,预设的地址类型词中所包括的地址类型词的具体内容和数量均可以根据实际需求进行选择,以及其中各地址类型词的顺序同样可以随意设定,本实施例预设的地址类型词不做限定,可以理解的是,预设的地址类型词是为了最终在第一字符串中提取预设的地址实体词所对应的各个地址实体词,其具体实现方式可以根据需求进行扩展。
2、地址实体词
地址实体词为用于表示地址名称的词,以“LianHua Road”为例,Road对应的含义“道路”即为地址类型词,而用于指示实际地理位置的名称的“LianHua”即为地址实体词。比较可见,地址类型词指道路、巷子、建筑物等,用于指示地理位置的划分单位的词;而对应的地址实体词是用于指示地理位置的名称的词,如指示道路的名称、巷子的名称、建筑物的名称等。
在一种可能的实现方式中,本实施例可以采用遍历第一字符串的方式,在第一字符串中获取预设的地址类型词,将获取到的地址类型词和前一个地址类型词之间的字符串,作为当前获取到的地址类型词所对应的地址实体词。
在另一种可能的实现方式中,还可以将第一字符串中所有的不是预设的地址类型词的字符单元先提取出来,根据这些字符单元在第一字符串中的位置和各个预设的地址类型词进行匹配,以确定各个预设的地址类型词所对应的地址实体词。
上述实施例中,从第一字符串中提取地址实体词实际上可以理解为将第一字符串中的各个地址实体词和预设的地址类型词对应起来,以确定预设的地址类型词所对应的地址实体词,其实现方式并不限于上述所介绍的内容,其可以根据实际需求进行扩展。
S203、根据预设的地址类型词和地址实体词,采用游标式边界策略获取标准化的地址数据。
例如,根据上述提取到的地址实体词,和地址实体词所对应的地址类型词,以确定标准化的地址数据,其中,标准化的地址数据中包括预设的地址类型词和地址实体词,地址实体词可对应各自预设的地址类型词。
在一种可能的实现方式中,可以将提取到的地址实体词作为预设的地址类型词下的字段进行存储,从而得到标准化的地址数据;或者,还可以将预设的地址实体词和对应的地址类型词作为键值对进行关联存储,以得到标准化的地址数据。本实施例中,对标准化的地址数据的具体存储方式不做限定,但要包括预设的地址类型词和各自对应的地址实体词。
上述实施例中,游标式边界策略可指在通过对地址数据设置左边界和右边界的方式,以确定预设的地址类型词所对应的地址实体词,其中,左边界和右边界可以通过游标的方式进行移动,从而得到标准化的地址数据。
在可选的实施例中,若在第一字符串中,某个预设的地址类型词不存在对应的地址实体词,则将该地址类型词对应的地址实体词设置为空即可,同时,还可以向终端设备发送提示信息,以指示当前地址数据中缺少该地址类型词所对应的地址实体词。
上述实施例提供的地址标准化处理方法通过从数据处理后的第一字符串中提取预设的地址类型词所对应的地址实体词,以根据地址类型词和地址实体词得到标准化的地址数据,其中的地址类型词是根据实际需求预先设置的,地址实体词是根据地址实体词从第一字符串中提取得到的,从而能够针对不同的地址数据分别得到各自对应的标准化地址,避免了根据兴趣点的地址进行匹配所导致的地址标准化存在较大局限性的问题。
基于上述任一实施例,本公开披露的地址标准化处理方法实施例还可以进一步包括:根据标准化的地址数据建立索引,构建标准地址数据库。
本实施例中,建立索引的操作可理解为:将一个标准化的地址数据的关键词作为索引项,以使得可以根据用户输入的关键词对应索引到该地址数据。例如:当前存在一个标准化的地址数据为:1 3<建筑物门牌号>、GUANG LIAN<工业园区>、KE CHUANG 5TH<道路>、2<道路门牌号>,例如可以根据其中的“GUANG LIAN”建立索引,则可以根据用户输入的“GUANG LIAN”,对应搜索到该标准化的地址数据,上述建立索引的索引项可以根据实际需求在标准化的地址数据中进行选择,将其中的每一个地址实体词均作为索引项也是可以的,本实施例对建立索引的具体实现方式不做限制。本实施例通过构建标准地址数据库,能有效提升地址数据的搜索效率和速度。
基于上述任一实施例,上述地址标准化处理方法还可进一步包括:基于用户在线使用信息,提取热度信息,并利用热度信息更新所述标准地址数据库。其中,用户的在线使用信息是指系统的日志数据中所包括的信息,例如可以包括用户输入的搜索内容、点击的搜索结果、搜索次数、搜索时间、手机型号、用户所在位置等,本实施例对用户的在线使用信息的具体实现方式不做限制,其可以根据实际需求进行选择。
在本实施例中,热度信息用于指示搜索结果的热度,根据上述介绍的在线使用信息,例如可以确定多个搜索结果各自对应的被点击次数,从而得到各个搜索结果的热度信息,在一种可能的实现方式中,热度信息例如可以为搜索次数,或者,还可以“多”、“少”、“一般”等程度词,本实施例对热度信息的实现方式不做限制。
在本实施例中,可以利用热度信息更新标准地址数据库,在一种可能的实现方式中,标准地址数据库所包括的各个子数据库对应有各自的数据库id,以及每个关键词对应有各自的hit-id,可以通过热度信息更新hit-id,进而通过数据库id和hit-id相关联,以实现对标准地址数据库的更新。
对应的,可以更新各个标准化的地址数据的排序,例如可以将热度信息所指示的热度最高的搜索结果排在第一位,之后依次是热度次高的搜索结果。
本实施例通过提取热度信息,并根据热度信息更新标准地址数据库,可以有效提升根据标准地址数据库所得到的搜索结果的显示结果的合理性,从而提升了用户体验。
同时,还可以根据标准化地址数据中所包括的地址实体词,对缺失的POI及道路信息进行预测分析,并将预测分析得到的缺失地址信息补充至标准地址库和/或用于指导外业采集,从而能够有效扩展标准化地址数据的应用场景。
在上述各实施例的基础上,下面结合图3至图5对本申请提供的地址标准化处理方法做进一步的说明:
如图3所示,该方法可进一步包括:
S301、对待处理的地址数据进行数据处理,得到待处理的地址数据对应的第一字符串。
其中,S301的实现方式与S201类似,此处不再赘述。下面对本实施例中数据处理所包括的几种可能的实现方式,进行简单介绍:
1、数据处理可以删除地址数据中的第一预设符号:第一预设符号例如可以包括:-、$、/、#、+、&、*、.、·、'、:、;、@、>、<、!、~、~、?等,其中第一预设符号的具体形式可以根据实际需求进行扩展,可以理解的是,像是用于分割字符单元的逗号、用于指示额外信息的括号可以不用删除,也就是说包含指示信息的符号之外的符号都可以认为是第一预设符号,本实施例对第一预设符号的具体实现方式不作限定。
2、数据处理可以将地址数据中的括弧替换为第二预设符号:在本实施例中,第二预设符号为用于进行语义分割的符号,例如广东省和深圳市之间就可以采用第二预设符号进行语义分割,其中第二预设符号可以是逗号,通常括号中的内容是用于指示额外信息,而进行附加说明的,因此可以将括弧替换为第二预设符号以进行语义分割。
3、数据处理可以删除地址数据中的预设停用词:预设停用词例如可以包括of、and、no、n0、the等,预设停用词不是地址类型词,同时也不是地址实体词,其对于地址标准化没有任何作用,因此删除预设停用词能够有效提升对地址数据的处理效率,其中,预设停用词的所包括的具体内容可以根据实际需求进行设定,此处对此不做限制。
4、数据处理可以将连写的拼音字符串拆分为多个拼音单词,例如:当前存在连写的拼音字符串“dongfanghuayuan”,则将其拆分为多个拼音单词,分别是“dong”、“fang”、“hua”、“yuan”,将连写的拼音拆分为多个拼音单词,能够有效提升后续进行地址实体词识别的识别效率。
5、数据处理还可以包括:停用词数字与字符切分,比如将“5street”切分为“5street”;或者,还可以包括预设词和数字的合并,比如”5rm”合并为“5rm”,”5floor”合并为“5floor”,可选的,合并的预设词还可以包括:st、nd、rd等,本实施例对此不做限制。
6、上述数据处理还可以包括:将地址数据末尾的行政区字符串删除,以防止行政区字符造成干扰。
作为一种可选的实现方式,可以预设有行政区停用词表,行政区停用词表中存储有多个从POI库里的行政区信息转换而来行政区打停用词,在示例性的说明中,行政区停用词表中的数据例如可以包括:china、guang dong sheng、guang dong province、guangdongprovince、guang dong、dong guan shi、dong guan city、dongguancity、dongguangcity、dongguanshi、dongguangshi、dong guan等,此处,行政区停用词表可以理解为根据实际需求进行选择,本实施例对此不做限制。
通过将待处理的地址数据和行政区停用词表中的行政区停用词进行比较,在出现行政区停用词时,将该行政区停用词删除,从而有效避免了行政区停用词在后续数据处理的过程中造成不必要的干扰,
基于上述介绍的数据处理,得到地址数据对应的第一字符串,则其中第一字符串包括多个字符单元、第二预设符号和空格符号,其中,字符单元为英文单词或者拼音单词,各字符单元之间间隔有空格符号和/或第二预设符号。
在一种可能的实现方式中,上述介绍的各项数据处理可以采用正则表达式的方法进行处理,从而能够有效降低数据处理的实现难度。
本领域技术人员可以理解的是,上述所介绍的数据处理并非对数据处理的限定,只要处理后第一字符单元满足上述所介绍的内容即可,作为一种可选的实现方式数据处理的实现方式可以根据实际需求进行扩展。
下面以一个作为一种可选的实现方式地址数据为例,对数据处理进行介绍,例如当前存在一地址数据为“1-3BLDG,GUANGLIAN INDUSTRIAL PARK NO.2KE CHUANG 5THSTREET,TONGZHOU DIST.”,其中的“TONGZHOU DIST.”即为行政区字符串,将该字符串删除,同时其中的“-”和“NO.”也是需要删除的字符,以及其中的拼音字符串需要进行拆分,则经过数据处理之后可以得到第一字符串“1 3BLDG,GUANG LIAN INDUSTRIAL PARK 2KECHUANG 5TH STREET,”,可以从这个示例中看出,第一字符串中包括字符单元、空格符号和第二字符串,并且各字符单元之间间隔有空格符号和/或第二预设符号。
S302、建立用于查找边界的类型词库和/或同义词词库,其中,类型词库中包括预设的地址类型词所对应的至少一个预设的字符单元。
在本实施例中,预先建立有类型词库,其中类型词库用于在第一字符串中确定预设的地址类型词所对应的字符单元,例如,类型词库中存储有预设的地址类型词所对应的至少一个预设的字符单元。
假设预设的地址类型词中包括有“道路”,因为用户的英文水平不一致,则用户在输入英文地址时,道路所对应的字符单元可能包括英文单词、拼音单词、缩写等,则本实施例可中道路对应的预设的字符单元可以包括“street”、“road”、“da dao”、“lane”、“bridge”、“rd”。
同时,本实施例还可以建立有同义词词库,其中,同义词词库包括与预设的地址类型词的含义相同的至少一个预设的字符单元,例如用户在输入英文地址时,可能会经常出现一些输入错误的单词,例如“building”经常被错输为“buildin”,则还可以将“buildin”作为道路同义的预设的字符单元,通过将经常出现的非法字符单元也作为地址类型词同义的预设的字符单元,可以有效提升后续的地址类型词识别的准确率。
或者,上述所介绍的同义词词库中所包括的各个预设的字符单元还可对应存储至类型词库中,从而可以仅仅构建一个类型词库。
可以理解的是,本实施例中各个预设的地址类型词所对应的预设的字符单元,可以是根据预先统计历史地址数据中预设的地址类型词的分布情况得到的经验数据,也可以是调查之后得到的调查数据等,各预设的地址类型词所对应的预设的字符单元的具体实现方式,可以根据实际需求进行选择,本实施例对此不做限定。
S303、从第一字符串的第一位置开始,查找与预设的地址类型词对应的第一字符单元。
在提取地址实体词之前,要确定第一字符串中的各个地址类型词,例如,本实施例中的第一字符串的第一位置为当前的起始查找位置,若是从前向后查找,则第一位置可以为第一字符串的左侧边界位置,若是从后向前查找,则第一位置可以为第一字符串的右侧边界位置。在一种可能的实现方式中,第一位置可以通过游标进行指示,或者,第一位置还可以通过指针、数组下标等进行指示。
以第一位置为通过指针进行指示为例,在当前查找地址实体词之前,要进行初始化,例如将上一次实体词的结束下标(last_entity_end_offset)初始化为-1,则上一次实体词的结束下标之后紧邻的位置为第一位置,即下标为0的位置,此时下标为0的位置也就是第一字符串的第一位置。一般情况下,第一字符串的第一位置为空格符号和/或第二预设符号,其可以作为分词符号或语义分割符号。
在可选的实施例中,在遍历到第二预设字符时,因为第二预设字符为语义分割符号,则可以将上述的last_entity_end_offset置为当前遍历到的第二预设字符所在的位置,在下一次查询地址类型词对应的字符单元时,直接根据当前的last_entity_end_offset的位置就能够确定第一位置,从而有效提升地址类型词的查询效率。
作为一种可选的实现方式,例如第一位置为左侧边界位置,查找顺序为从前向后查找,则从第一字符串的第一位置开始,依次判断当前的字符单元是否为类型词库中所包括的预设的字符单元。若是预设的字符单元,则将当前的字符单元确定为与预设的地址类型词对应的第一字符单元。
在本实施例中,因为地址类型词的字符单元的数量可能为多个,例如“jie dao”、“industrial park”等,因此在判断之后,若是当前的字符单元不是预设的字符单元,则还需要结合当前的字符单元之前的字符单元进行判断,作为一种可选的实现方式,判断当前的字符单元和当前的字符单元之前的预设数量个字符单元所组成的多个字符单元是否为预设的字符单元,若是,则将组成的多个字符单元确定为与预设的地址类型词对应的第一字符单元。
其中,向前结合进行判断的预设数量可以根据实际需求进行设置,在一种可能的实现方式中,可以先结合前面的1个字符单元,在判断结果为不是预设的字符单元时,再结合前面的2个字符单元,依次类推,直到到达第一字符串的边界位置,或者到达预设判断次数等。
下面以预设的字符单元“nan jing jie dao”为例,以及预设数量为1进行说明,首先对“jie”进行判断,发现“jie”不是预设的字符单元,则结合前一个字符单元以判断“jingjie”是否为预设的字符单元,发现“jing jie”同样不是预设的字符单元,接着判断下一个字符单元“dao”是否为预设的字符单元,发现“dao”也不是预设的字符单元,则结合前一个字符单元一判断“jie dao”是否为预设的字符单元,此时确定“jie dao”是预设的字符单元,则将“jie dao”确定为预设的地址类型词对应的第一字符单元。
需要说明的是,本实施例中是通过依次判断各字符单元以实现对地址类型词的查找的,其并没有查找特定的地址类型词,因此通过将字符单元与类型词库中的预设的字符单元进行比较,在找到相同的字符单元时即可以确定查找到了地址类型词,从而有效降低了查找地址类型词的难度。
S304、将第一字符单元在第一字符串中的位置,确定为第一地址实体词的右边界。
在确定第一字符单元之后,则要确定第一字符单元代表的地址类型词对应的第一地址实体词,作为一种可选的实现方式,通常情况下地址实体词总是位于地址类型词的前面,因此将第一字符单元在字符串中的位置确定为第一地址实体词的右边界current_entity_end_offset。
在一种可能的实现方式中,可以将第一字符单元中的第一个字符在字符串中的位置确定为右边界。例如:针对地址类型词“jie dao”,可以将“j”所在的位置确定为第一地址实体词的右边界;或者,还可以将第一字符单元中的最后一个字符在字符串中的位置确定为右边界,即将“o”所在的位置确定为第一地址实体词的右边界,其中,第一字符单元在字符串中的位置可以根据实际需求进行选择,例如还可以整个第一字符单元为单位,确定第一字符单元在字符串中的位置,例如当前存在地址数据“nan jing jie dao”,则“jie dao”在第一字符串中的位置可以为3,第一字符单元在第一字符串中的位置的具体实现方式可以根据实际需求进行选择。
S305、将位置指针由当前位置移动至前一个字符单元在第一字符串中的位置,并判断位置指针是否到达第一位置,若否,则执行S306,若是,则执行S310。
在查找到第一实体词的右边界之后,从第一实体词的右边界开始从后向前查找,以寻找第一实体词的左边界current_entity_start_offset,根据右边界和左边界就可以确定第一实体词了。
值得说明的是,根据国内用户的输入习惯以及国内英文地址的命名规则,地址数据中所包括的地址实体词极大一部分都是通过拼音单词进行表示的,因此本实施例中在查找地址实体词的左边界时,可以通过寻找前一个非拼音单词在第一字符串中的位置,以确定第一地址实体词的左边界;或者,在出现地址类型词时,也可以确定当前的地址实体词的寻找结束了,则可以通过寻找前一个地址类型词以确定地址实体词的左边界;或者,在达到第一位置是,可以确定到达右侧搜索边界,则可以通过第一位置确定第一实体词的左边界。
总的来说,第一实体词的左边界存在以下三种情况:(1)出现地址类型词之外的英文单词;(2)到达右侧搜索边界;(3)出现地址类型词,下面分别进行说明。
作为可选的实现方式,本实施例中可设置有位置指针current_pointer,其中,位置指针在初始时位于右边界在第一字符串中的位置,通过持续将位置指针向前移动一个字符单元,以判断当前位置指针所指示的位置是否为第一实体词的左边界,在判断左边界之前,首先需要判断位置指针是否到达了第一位置,也就是说位置指针是否到达的右侧查找位置,在确定没有到达第一位置是,才进行左边界的判断。
S306、判断位置指针所指示的字符单元是否为英文单词,若是,则执行S307,若否,则执行S305。
例如,从第一字符串的右边界开始依次向前判断各字符单元,因为位置指针已经移动至前一个字符单元的位置了,因此位置指针current_pointer所指示的位置的字符单元即为需要判断的字符单元,因此此时直接判断位置指针所指示的字符单元是否为英文单词即可,通过设置字符指针的方式进行右边界的判断,以有效降低了右边界的查找难度。
在可选的实施例中,若是第一字符单元的前一个字符单元不是英文单词,也就表示其是一个拼音单词,因为还没有遇到非拼音单词,也没有到达第一位置,此时需要持续向前移动一个字符单元以进行判断,则执行S305。
S307、判断当前的英文单词是否为预设的地址类型词,若是,则执行S308,若否,则执行S309。
作为一种可选的实现方式,在出现英文单词时,首先要判断当前的英文单词是否为预设的地址类型词,因为在出现预设的地址类型词的时候,表明针对第一字符单元的地址类型词所对应的地址实体词已经寻找结束了,这个时候遇到了一个新的地址类型词,则可以确定当前是否寻找到左边界,其中,对英文单词是否为预设的地址类型词的判断与上述步骤S302介绍的过程类似,此处不再赘述。
S308、将当前的英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置设置为所述第一地址实体词的左边界。
例如,本实施例中的步骤S308对应两个不同的判断分支,只是其最终要执行的步骤是相同的,下面结合图4和图5对两种分支分别进行介绍:
第一种:当前的英文单词是一个新的地址类型词,则直接将其之后邻近的空格符号和/或第二预设符号在第一字符串中的位置设置为第一地址实体词的左边界。
此种情况针对上述介绍的情况(3),即出现地址类型词,情况(3)可以针对采用英文单词输入的地址实体词,下面进一步结合图4进行说明:
假设当前用户输入的地址数据对应的第一字符串为“North Road,East 3rd RingStreet,Guang Lian Industrial”,其含义为:广联工业园区东三环街北路,可以看出其中的北路“North Road”和东三环街“East 3rd Ring Street”都是用英文表示的,假设当前在针对第一字符单元“Street”的地址类型词提取对应的地址实体词,则此时地址实体词的右边界位于第一字符单元“Street”所在的位置。
则向前移动位置指针,以对各字符单元进行判断,首先判断的是字符单元“Ring”,经判断可以确定字符单元“Ring”是英文单词,但是其不是一个地址类型词,并且该英文单词和左边界之间不存在拼音单词;则继续将位置指针向前移动一个字符单元,判断字符单元“3rd”,其判断结果与上述相同,则继续向前移动判断字符单元“East”,其判断结果也相同。
直至判断到字符单元“Road”,此时经判断可以确定Road是英文单词,并且是预设的地址类型词,则将Road之后的逗号所在的位置设置为第一实体词的左边界,对应的得到Road的第一地址实体词为“East 3rd Ring”。
第二种:当前的英文单词虽然不是预设的地址类型词,但是确定当前的英文单词和左边界之间存在拼音单词,则可以确定当前查找到的英文单词之前是存在拼音单词的,则同样可以将当前的英文单词之前的位置确定为第一地址实体词的左边界,例如,将当前英文单词之后的空格符号和/或第二预设符号在第一字符串中的位置确定为第一地址实体词的左边界。
此种情况针对的就是上述介绍的情况(2),也就是出现不是地址类型词的英文单词,参照图5进行举例说明:
如图5所示,假设当前用户输入的地址数据为““North Road,Post to Lian HuaStreet,Guang Lian Industrial”,用户在地址数据中输入了不是地址含义的英文短语“post to”,在数据处理将预设停用词删掉之后,就得到了对应的第一字符串为“NorthRoad,Post Lian Hua Street,Beijing Municipality”,其含义为:广联工业园区莲花街北路,。
假设当前在针对第一字符单元“Street”的地址类型词提取对应的地址实体词,则此时地址实体词的右边界位于第一字符单元“Street”所在的位置。
则向前移动位置指针,以对各字符单元进行判断,首先判断的是字符单元“Hua”,经判断可以确定字符单元“Hua”不是英文单词,,则继续将位置指针向前移动一个字符单元,判断字符单元“Lian”,其判断结果与上述相同,则继续向前移动。
直至判断到字符单元“Post”,此时经判断可以确定Post是英文单词,但是其不是预设的地址类型词,并且当前英文单词和左边界之间存在拼音单词,则将Post之后的空格所在的位置设置为第一实体词的左边界,对应的得到Street的第一地址实体词为“Lian”。
S309、判断当前的英文单词和左边界之间是否存在拼音单词,若是,则执行S308,若否,则执行S305。
作为一种可选的实现方式,若是确定第一字符单元的前一个字符单元为英文单词,并且当前的英文单词还不是预设的地址类型词时,则表明当前已经出现了非拼音单词,并且这个拼音单词还不是地址类型词,此时判断当前的英文单词和右边界之间是否存在拼音单词。
在一种可能的实现方式中,在步骤S304判断是否为英文单词的同时,还可以判断前一个字符单元是否为拼音单词,若是,在将拼音单词指示参数has_pinyin设置为“True”,表示当前存在拼音单词,若否,则不进行任何操作,其中,拼音单词指示参数has_pinyin的初始值为“False”,表示当前不存在拼音单词,则可以通过判断has_pinyin是否为“True”以判断当前的英文单词和右边界之间是否存在拼音单词。
在可选的实施例中,若是当前的英文单词和右边界之间不存在拼音单词,则表明当前还没有查找到拼音单词,此时与需要持续向前移动一个字符单元,以接着执行上述的判断流程,即执行S305。
S310、将第一位置确定为第一实体词的左边界。
作为一种可选的实现方式,若是判断之后确定位置指针到达第一位置,因为已经到达了右侧搜索边界,则将第一位置确定为第一实体词的左边界,此种情况针对的就是上述介绍的情况(2),也就是到达右侧搜索边界。
需要说明的是,将第一位置确定为左边界可能存在两种情况:
第一种情况:第一位置和第一地址实体词的右边界之间存在拼音单词,这种情况下就是说在向前查找的过程中的字符单元全部都是拼音单词,因此在持续向前查找,直至查找到了第一位置,则将第一位置确定为第一实体词的左边界。
第二种情况:第一位置和第一地址实体词的右边界之前不存在拼音单词,这种情况就是说在向前查找的过程中的字符单元没有出现拼音单词并且没有出现地址类型词,因此在持续向前查找,直至查找到了第一位置,则将第一位置确定为第一实体词的左边界。
其判断过程可以参照图4和图5,因判断过程较为相似,此处不再赘述。
S311、将第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词。
在确定第一地址实体词的右边界和左边界之后,则将右边界和左边界中间所包括的字符单元确定为第一地址实体词,并且是第一字符单元的地址类型词所对应的第一地址实体词。
值得说明的是,假设第一字符串中针对同一类型的地址类型词存在多条子数据,例如同时存在“XX street and YY road”,则本实施例会针对这两个子数据分别确定第一字符单元和对应的类型词,也就是说针对道路类型的地址类型词会同时提取“XX”和“YY”两个地址实体词。
S312、将第一字符单元之后邻近的空格符号和/或第二预设符号在字符串中的位置确定为第一字符串的第一位置。
在提取第一地址实体词之后,则表示当前的地址类型词的处理已经完成了,则需要继续进行下一个地址类型词的识别,为了避免对已经处理完成的地址类型词和地址实体词的重复处理,将将第一字符单元之后邻近的空格符号和/或第二预设符号在字符串中的位置确定为第一字符串的第一位置,其中,第一字符串的第一位置用于指示右侧查找边界,则通过设置第一位置能够有效提升处理效率。
S313、根据预设的地址类型词和地址实体词,采用游标式边界策略获取标准化的地址数据,标准化的地址数据中包括预设的地址类型词和地址实体词。
其中,S313的实现方式与S203介绍的类似,此处不再赘述。
本申请实施例提供的地址标准化处理方法,通过确定左边界和右边界的方式提取地址实体词,能够有效提升地址实体词的提取效率,降低实现难度,并且是首先根据地址类型词确定了右边界,同时根据上一次地址类型词的结束位置确定第一位置,在确定地址实体词的左边界的实现过程中,具体是通过位置指针的移动在第一位置和右边界之间寻找左边界,通过设置明确的查询边界,能够有效提升循环判断的效率,以提高地址实体词的提取效率,同时通过上述的三个判断流程,能够有效保证地址类型词的提取准确率。
在可选的实施例中,在位置指针向前移动以对各字符单元进行判断的过程中,还可以针对门牌号类型的地址实体词进行提取。
例如,判断当前位置指针所指示的字符单元是否为门牌号类型的字符单元,其中,门牌号类型的字符单元可以为数字,还可以为数字和门牌号类型的地址类型词的组合,例如“5”、“5hao”、“5floor”等,其中,门牌号类型的地址类型词包括在上述介绍的类型词库中,此处不再赘述。
若判断之后确定是门牌号类型的字符单元,则在当前的位置指针所指示的字符单元为数字时,将该数字作为门牌号实体词;或者,在当前的位置指针所指示的字符单元为数字和门牌号类型的地址类型词的组合时,将其中的数字作为门牌号实体词,以及根据其中的门牌号类型的地址类型词确定对应的地址类型词,例如“楼”“号”等。
可以理解的是,门牌号要结合具体的建筑、街道等才具备实际意义,因此本实施例中具体是:将当前的门牌号类型的地址实体词确定为第一字符单元表示的地址类型词所对应的门牌号类型词的门牌号实体词,例如当前的第一字符单元表示的地址类型词是“大厦”,则当前这个数字就是“大厦门牌号”的门牌号实体词,或者“大厦楼层号”的门牌号实体词。
在上述实施例的基础上,若是在提取第一地址实体词的过程中没有获取到门牌号类型的地址实体词,则本申请实施例提供的地址标准化处理方法,还可以确定第一地址实体词之后,根据左边界和右边界提取门牌号类型的地址实体词,下面对提取门牌号类型的地址实体词进行说明:
若左边界之前邻近的字符单元为门牌号类型的字符单元,或者,若右边界之后邻近的字符单元为门牌号类型的字符单元,则根据门牌号类型的字符单元确定门牌号类型的地址实体词。
本领域技术人员可以理解,因为门牌号和具体的建筑、街道等结合在一起才有意义,因此用户在输入地址数据时,门牌号一定是和建筑、街道等相邻的,则可以判断第一地址实体词之间邻近的字符单元是否为门牌号类型的字符单元,或者,判断第一地址实体词之后邻近的字符单元是否为门牌号类型的字符单元。
若其中任一个判断结果为是,则将当前的门牌号类型的地址实体词确定为第一字符单元表示的地址类型词所对应的门牌号类型词的门牌号实体词,其实现方式与上述介绍的类似,此处不再赘述。
可选的,若是仍然没有提取到门牌号类型的地址实体词,则可以确定当前的地址类型词是没有门牌号的,例如“北京市”就没有门牌号,则结束对门牌号类型的地址实体词的判断。
本申请实施例提供的地址标准化处理方法,通过在提取第一地址实体词的过程中提取门牌号类型的地址实体词,或者在提取到第一地址实体词之后,在第一地址实体词的左边界之前和右边界之后提取门牌号类型的地址,从而能够有效的提取门牌号类型的地址实体词,并且因为是在邻近位置提取门牌号类型的地址实体词,从而能够有效保证门牌号的地址实体词的提取的有效性。
以上述实施例中介绍的第一字符串为例,结合门牌号类型的地址实体词的提取,最终标准化的地址数据可以为:1 3<建筑物门牌号>、GUANG LIAN<工业园区>、KE CHUANG5TH<道路>、2<道路门牌号>。
在上述实施例的基础上,在得到标准化的地址数据之后,可以根据标准化的地址数据进行如下应用:
1、建立标准地址库
其中标准地址库例如可以包括:编号,名称,地址,经纬度,省,市,区,街道,门牌,大厦,电话等等
2、将标准化的地址数据作为搜索数据供给搜索引擎
利用标准地址库建立搜索服务,联想词服务,地理编码服务,逆地理服务等一系列POI搜索相关在线服务。
3、在处理大量地址后可以预估预测小区楼盘楼层信息,预估人流量等大数据分析。
4、预测POI缺失点,预测缺失道路,指导外业采集。
5、基于地址库运单分析。
6、基于地址库用户分析。
7、精准选址和投送。
8、建立好的POI搜索引擎供发件人快速补充地址,供快递员定位位置等。大量的地址分析为协调物流资源,人力资源,提供有力的帮助。
图6为本申请实施例提供的快递表单数据的标准化的应用示意图,下面结合图6,对地主数据的标准化的一个示例性应用进行说明,如图6所示:
用户当前在快递表单输入栏输入地址数据,本申请对输入的地址数据进行标准化处理后,得到右边所示的位于下方的标准化数据,从而根据用户输入的地址数据就可以直接得到标准化的地址数据,而无需用户进行多次地址实体词的选择,有效提升了快递表单数据的填写效率。
产品实施例:
图7为本申请实施例提供的地址标准化装置的结构示意图。如图7所示,该装置70包括:预处理模块701、提取模块702以及标准化模块703。
预处理模块701,用于对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;
提取模块702,用于从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;
标准化模块703,用于根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据,所述标准化的地址数据中包括所述预设的地址类型词和所述地址实体词。
在一种可能的设计中,所述提取模块702进一步用于:
从所述第一字符串的第一位置开始,查找与所述预设的地址类型词对应的第一字符单元;
将所述第一字符单元在所述第一字符串中的位置确定为所述第一地址实体词的右边界;
在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界;
将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词。
在一种可能的设计中,所述提取模块702进一步用于:
将位置指针由当前位置向前移动至前一个字符单元在所述第一字符串中的位置,并判断所述位置指针是否到达第一位置;
若否,则判断所述位置指针所指示的字符单元是否为英文单词;
若是英文单词,则判断当前的英文单词是否为预设的地址类型词,若是,则将当前的英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置设置为所述第一地址实体词的左边界,若否,则判断当前的英文单词和所述右边界之间是否存在拼音单词,若存在,则将当前英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置确定为所述第一地址实体词的左边界。
在一种可能的设计中,所述标准化模块703还用于:
在所述将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词之后,将所述第一字符单元之后邻近的空格符号和/或第二预设符号在所述字符串中的位置确定为所述第一字符串的第一位置。
在一种可能的设计中,所述标准化模块703还用于:
在所述将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词之后,若所述左边界之前邻近的字符单元为门牌号类型的字符单元,或者,若所述右边界之后邻近的字符单元为门牌号类型的字符单元,则根据所述门牌号类型的字符单元确定门牌号类型的地址实体词。
在一种可能的设计中,所述数据处理可进一步包括:
删除所述地址数据中的第一预设符号、将所述地址数据中的括弧替换为第二预设符号、删除所述地址数据中的预设停用词、将连写的拼音字符串拆分为多个拼音单词;
则所述第一字符串包括多个字符单元、第二预设符号和空格符号,其中,所述字符单元为英文单词或者拼音单词,各所述字符单元之间间隔有空格符号和/或所述第二预设符号。
在一种可能的设计中,所述预处理模块701还可用于:
在所述从所述字符串中提取预设的地址类型词以及与各所述预设的地址类型词对应的地址实体词之前,建立类型词库,其中,所述类型词库中包括预设的地址类型词所对应的至少一个预设的字符单元。
在一种可能的设计中,所述提取模块702进一步用于:
从所述第一字符串的第一位置开始,依次判断当前的字符单元是否为所述预设的字符单元;
若是,则将当前的字符单元确定为与预设的地址类型词对应的第一字符单元;
若否,则判断当前的字符单元和当前的字符单元之前的预设数量个字符单元所组成的多个字符单元是否为所述预设的字符单元,若是,则将所述组成的多个字符单元确定为与预设的地址类型词对应的第一字符单元。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
系统实施例:
上述任一实施例中的标准化地址数据库,可应用于在线搜索系统,下面结合图8对该在线搜索系统进行说明,如图8所示,该在线搜索系统包括:
搜索接口,用于接收用户的搜索需求以及输出搜索结果;
标准地址数据库,用于存储根据上述任一实施例披露的方法获取的标准化的地址数据;
搜索服务模块,用于解析所述搜索需求,并根据所述搜索需求利用所述标准地址数据库,生成对应的至少一个搜索结果并有序输出;
日志分析模块,用于根据搜索记录生成日志并对日志进行分析供下次搜索使用以优化搜索结果排序。
基于上述实施例,上述系统还可包括:训练模块,该训练模块用于根据所述日志分析模块的数据,对预先建立的排序模型和地址分析模型进行模型训练,以优化搜索引擎的检索结果。
作为一种可选的实现方式,上述实施例中的搜索接口可以包括但不限于:一键搜索接口、建议搜索接口、专题搜索接口,本实施例中搜索接口具体用于接收用户的搜索数据,其中在图形用户界面中所显示的搜索接口可以是一个搜索框或者输入框,例如用户通过在搜索框中输入搜索数据“Tiananmen”,并执行搜索操作,其中搜索操作可以是点击搜索按钮,或者还可以是语音输入、点击按键等,本实施例对此不做限制。对应的,本实施例中的搜索接口接收到用户的搜索数据。
本实施例的标准地址数据库可用于存储本申请中的标准化的地址数据,该标准地址数据库的实现方式与上述实施例中介绍的类似,此处不再赘述。
本实施例所介绍的系统还包括搜索服务模块,可用于根据搜索数据,从标准地址数据库中获取对应的搜索结果,例如针对接收到的搜索数据“Tiananmen”,搜索服务模块可以从标准地址数据库中获取到“Tiananmen”、“Tiananmen guangchang”、“Tiananmen-subway”…等搜索结果,并将该搜索结果显示在终端设备的图形用户界面上。
同时,本实施例中搜索服务模块所获取到的各个搜索结果之间存在一个排序,在本实施例中,各搜索结果的排序是依照其热度信息进行确定的,其中热度信息的具体实现方式在上述实施例中已经进行了介绍,也就是说热度较大的搜索结果会优先排列在前面。
在一种可能的实现方式中,搜索服务模块中具体可以包括建议模块,其中建议模块可以用于向用户推荐地址,同时还可以包括查询解析模块、查询分析模块、搜索模块、纠正模块、主题识别模块、地址分析模块、配置模块等,本实施例对搜索服务模块的具体实现方式不做限制,只要其能够根据搜索数据从标准地址数据库中获取对应的搜索结果即可。
在可选的实施例中,可以针对个别搜索结果或者全部搜索结果设置有预设标识,其中预设标识用于指示搜索结果的热度信息,例如可以在热度最高的搜索结果旁边显示热度等级标识,如“Most Popular”或者“Hot Search”,以向用户进行热度信息的展示,便于用户进行快速选择。
进一步地,本实施例中的系统还包括训练模块,其中,训练模块用于根据日志分析模块进行模型训练,以得到上述介绍的搜索服务模块,其中日志分析模块中可以存储有上述实施例介绍的用户在线使用信息,训练模块根据日志数据中存储的用户在线使用信息进行机器学习或者神经网络学习等,从而得到训练后的模型,也就是本实施例中的搜索服务模块。
作为一种可选的实现方式,本实施例中的训练模块可以包括地址分析训练模型和排序训练模型,其中,地址分析训练模型用于根据日志分析模块中的用户在线使用信息进行地址分析的模型训练处理,以及排序训练模型用于根据地址分析后的数据进行排序的模型训练处理,以得到搜索服务模块,具体的模型训练处理可以参照现有技术中的任一种模型训练方法,本实施例对此不做限制。
通过训练模块根据日志分析模块进行模型训练,以得到搜索服务模块,能够有效保证搜索服务模块输入的搜索结果及其排序结果的准确性和适用性。
本实施例提供的POI在线搜索系统,能够针对用户输入的搜索数据,对应的输出多个搜索结果,其中,每一个搜索结果都可以包括标准化的地址数据,从而能够使得用户根据实际需求直接选择需要的标准化地址数据,极大地提升了用户的用户感受。
本实施例的地址标准化处理设备包括:处理器以及存储器;其中,存储器,用于存储计算机执行指令;处理器,用于执行存储器存储的计算机执行指令,以实现上述实施例中地址标准化处理方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器既可以是独立的,也可以跟处理器集成在一起。
当存储器独立设置时,该地址标准化处理设备还包括总线,用于连接所述存储器和处理器。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上地址标准化处理设备所执行的地址标准化处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (11)
1.一种地址标准化处理方法,其特征在于,包括:
对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;
从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;
根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据;
所述从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,进一步包括:
从所述第一字符串的第一位置开始,查找与所述预设的地址类型词对应的第一字符单元;
将所述第一字符单元在所述第一字符串中的位置确定为第一地址实体词的右边界;
在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界;
将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词;
将所述第一字符单元之后邻近的空格符号和/或第二预设符号在所述字符串中的位置确定为所述第一字符串的第一位置。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
根据所述标准化的地址数据建立索引,构建标准地址数据库。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
基于用户在线使用信息,提取热度信息,并利用所述热度信息更新所述标准地址数据库;和/或
根据所述标准化地址数据中所包括的地址实体词,对缺失的兴趣点POI及道路信息进行预测分析,并将预测分析得到的缺失地址信息补充至所述标准地址库和/或用于指导外业采集。
4.根据权利要求1所述的方法,其特征在于,所述在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界,进一步包括:
将位置指针由当前位置向前移动至前一个字符单元在所述第一字符串中的位置,并判断所述位置指针是否到达第一位置;
若否,则判断所述位置指针所指示的字符单元是否为英文单词;
若是英文单词,则判断当前的英文单词是否为预设的地址类型词,若是,则将当前的英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置设置为所述第一地址实体词的左边界,若否,则判断当前的英文单词和所述右边界之间是否存在拼音单词,若存在,则将当前英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置确定为所述第一地址实体词的左边界。
5.根据权利要求1至4任一项所述的方法,其特征在于:
所述将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词之后,所述方法还包括:若所述左边界之前邻近的字符单元为门牌号类型的字符单元,或者,若所述右边界之后邻近的字符单元为门牌号类型的字符单元,则根据所述门牌号类型的字符单元确定门牌号类型的地址实体词;和/或,
所述从所述字符串中提取预设的地址类型词以及与各所述预设的地址类型词对应的地址实体词之前,所述方法还包括:建立用于查找边界的类型词库和/或同义词词库;其中,所述类型词库中包括预设的地址类型词所对应的至少一个预设的字符单元。
6.根据权利要求5所述的方法,其特征在于,所述从所述第一字符串的第一位置开始,查找与预设的地址类型词对应的第一字符单元,进一步包括:
从所述第一字符串的第一位置开始,依次判断当前的字符单元是否为所述预设的字符单元;
若是,则将当前的字符单元确定为与预设的地址类型词对应的第一字符单元;
若否,则判断当前的字符单元和当前的字符单元之前的预设数量个字符单元所组成的多个字符单元是否为所述预设的字符单元,若是,则将所述组成的多个字符单元确定为与预设的地址类型词对应的第一字符单元。
7.一种地址标准化处理装置,其特征在于,包括:
预处理模块,用于对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;
提取模块,用于从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;
标准化模块,用于根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据;
所述提取模块,具体用于从所述第一字符串的第一位置开始,查找与所述预设的地址类型词对应的第一字符单元;
将所述第一字符单元在所述第一字符串中的位置确定为第一地址实体词的右边界;
在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界;
将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词;
将所述第一字符单元之后邻近的空格符号和/或第二预设符号在所述字符串中的位置确定为所述第一字符串的第一位置。
8.根据权利要求7所述的装置,其特征在于,还包括:
用于查找边界的类型词库和/或同义词词库;其中,所述类型词库中包括预设的地址类型词所对应的至少一个预设的字符单元;和/或,
标准地址库,利用标准化的地址数据,建立索引,形成标准地址数据库。
9.一种在线搜索系统,其特征在于,包括:
搜索接口,用于接收用户的搜索需求以及输出搜索结果;
标准地址数据库,用于存储根据权利要求1至6中任一所述的方法获取的标准化的地址数据;
搜索服务模块,用于解析所述搜索需求,并根据所述搜索需求利用所述标准地址数据库,生成对应的至少一个搜索结果并有序输出;
日志分析模块,用于根据搜索记录生成日志并对日志进行分析供下次搜索使用以优化搜索结果排序。
10.根据权利要求9所述的系统,其特征在于,该系统还包括:
训练模块,用于根据所述日志分析模块的数据,对预先建立的排序模型和地址分析模型进行模型训练,以优化搜索引擎的检索结果。
11.一种地址标准化设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911101686.2A CN112861532B (zh) | 2019-11-12 | 2019-11-12 | 地址标准化处理方法、装置、设备及在线搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911101686.2A CN112861532B (zh) | 2019-11-12 | 2019-11-12 | 地址标准化处理方法、装置、设备及在线搜索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861532A CN112861532A (zh) | 2021-05-28 |
CN112861532B true CN112861532B (zh) | 2024-04-02 |
Family
ID=75984366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911101686.2A Active CN112861532B (zh) | 2019-11-12 | 2019-11-12 | 地址标准化处理方法、装置、设备及在线搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861532B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841153B (zh) * | 2022-03-22 | 2024-05-31 | 浪潮卓数大数据产业发展有限公司 | 一种地址切分的更新方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186880A (ja) * | 2001-12-14 | 2003-07-04 | Zenrin Datacom Co Ltd | 住所検索システム及び住所検索方法 |
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
KR101132150B1 (ko) * | 2010-10-12 | 2012-07-11 | (주)수지원넷소프트 | 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체 |
CN106326233A (zh) * | 2015-06-18 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 地址提示方法及装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929799B2 (en) * | 2017-06-29 | 2021-02-23 | Amazon Technologies, Inc. | Identification of inaccurate addresses for package deliveries |
-
2019
- 2019-11-12 CN CN201911101686.2A patent/CN112861532B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186880A (ja) * | 2001-12-14 | 2003-07-04 | Zenrin Datacom Co Ltd | 住所検索システム及び住所検索方法 |
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
KR101132150B1 (ko) * | 2010-10-12 | 2012-07-11 | (주)수지원넷소프트 | 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체 |
CN106326233A (zh) * | 2015-06-18 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 地址提示方法及装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于规则的中文地址要素解析方法;张雪英;闾国年;李伯秋;陈文君;;地球信息科学学报;第12卷(第01期);13-20 * |
电力大数据中文地址解析和规范化方法研究;刘婷婷;朱文东;陆海兵;赵婷;刘贺;刘广一;朱文娟;;电力信息与通信技术(第05期);5-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861532A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008300B (zh) | Poi别名的确定方法、装置、计算机设备和存储介质 | |
CN107656913B (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
CN108153824B (zh) | 目标用户群体的确定方法及装置 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
CN108304423A (zh) | 一种信息识别方法及装置 | |
CN107657048A (zh) | 用户识别方法及装置 | |
KR102468309B1 (ko) | 영상 기반 건물 검색 방법 및 장치 | |
CN110688434B (zh) | 一种兴趣点处理方法、装置、设备和介质 | |
CN112241489A (zh) | 信息推送方法、装置、可读存储介质和计算机设备 | |
CN110309432A (zh) | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 | |
CN111931077A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
CN107943906A (zh) | 一种信息的收藏、展示方法和装置 | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
KR101867421B1 (ko) | 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치 | |
CN103853437A (zh) | 一种获取候选项的方法及装置 | |
CN110647595B (zh) | 一种新增兴趣点的确定方法、装置、设备和介质 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 | |
CN110688995A (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN104156364B (zh) | 地图搜索结果的展现方法和装置 | |
CN112579713B (zh) | 地址识别方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |