CN111324679A - 地址信息的处理方法、装置和系统 - Google Patents
地址信息的处理方法、装置和系统 Download PDFInfo
- Publication number
- CN111324679A CN111324679A CN201811535903.4A CN201811535903A CN111324679A CN 111324679 A CN111324679 A CN 111324679A CN 201811535903 A CN201811535903 A CN 201811535903A CN 111324679 A CN111324679 A CN 111324679A
- Authority
- CN
- China
- Prior art keywords
- entities
- information
- attribute information
- address
- address text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址信息的处理方法、装置和系统。其中,该方法包括:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。本申请解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种地址信息的处理方法、装置和系统。
背景技术
在日常生活中,人们对于地址的描述通常是模糊且非标准化的,例如,在公安系统的案情描述或者是一个陌生城市旅游时,对于非熟悉的地址很难做到说出“XX市XX区XX路999号XXXX”这样的标准地址,更加自然的一种描述是类似:“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”这样的模糊说明。现有的多数地址检索功能多数仅支持有明确poi名字的检索,但当输入的文本是带有POI特征的模糊说法时候,效果非常不理想,此时需要较多的人工经验去做判定该模糊说法代表的是哪个具体的地点。
基于文本的地址标准化过程通常包含如下几个步骤:清洗海量文本地址,通过模型对地址文本进行标注;将标注的地址文本按地址元素建立索引服务;对查询query做模型标注,例如:“杭州市文一西路西溪园区--》city=杭州市road=文一西路roadno=969号poi=西溪园区”;标注后的query按一定检索策略去补齐非标准地址:“city=杭州市road=文一西路roadno=969号poi=西溪园区--》prov=浙江省city=杭州市district=余杭区town=五常街道road=文一西路roadno=969号poi=西溪园区”。该方法对于明确说明的地点可以有效的召回,但是由于库中不包含除去地址文本之外的poi特征,因此对于模糊说法的query就无法起到补齐的作用了:例如对于“文一西路和常二路交口的那个园区”无法补齐为“浙江省杭州市余杭区五常街道文一西路969号西溪园区”。
针对相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种地址信息的处理方法、装置和系统,以至少解决相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
根据本申请实施例的一个方面,提供了一种地址信息的处理方法,包括:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
根据本申请实施例的另一方面,还提供了一种地址信息的处理装置,包括:获取模块,用于获取地址文本;第一处理模块,用于对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;第二处理模块,用于基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
根据本申请实施例的另一方面,还提供了一种处理设备,包括:处理器,处理器用于运行程序,其中,在程序运行时执行以下步骤:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
根据本申请实施例的另一方面,还提供了一种地址信息的处理系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
在本申请实施例中,在获取到地址文本之后,可以对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,进一步基于第一地名信息和第一属性信息,得到地址文本包括的目标实体对应的地理位置,实现非标准地址文本转换为标准地址文本的目的。与现有技术相比,对地址文本进行解析,得到第一地名信息和第一属性信息,使得在用户输入模糊的POI描述进行检索服务时可以借助POI特征进行检索,实现对更加自然和非标准化的地址文本进行地址检索,达到了提高处理准确率,扩大适用范围的技术效果,进而解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种地址信息的处理方法的流程图;
图3是根据本申请实施例的一种可选的POI方位关系图谱的示意图;
图4是根据本申请实施例的一种可选的地址检测阶段的流程图;
图5是根据本申请实施例的一种可选的数据库构建阶段的流程图;
图6是根据本申请实施例的一种地址信息的处理装置的示意图;以及
图7是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
POI:Point of Interest,在地理信息系统中,POI可以是一个建筑、道路、园区等地理位置实体。
POI特征:可以是POI具有的各种属性,例如:建筑物的外观、颜色,道路的位置或朝向,园区的建筑数,门口位置,POI的经纬度等等。
标准地址文本:可以是构成地址文本的标准说法,通常会包含省市区行政区划和路名路号POI信息等等,比如“杭州文一西路969号西溪园区”。
非标准地址文本:可以是日常生活中用来描述某个POI的模糊说法,例如“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”。
地址元素:可以是构成通讯地址的各个粒度的要素,比如“杭州文一西路969号西溪园区”;“杭州”表示城市、“文一西路”表示道路、“969号”表示路号、“西溪园区”表示POI。
POI方位知识图谱:可以是用于记录和推理POI之间的的方位关系的知识图谱,例如:“富力天茂广场<-对面->亲橙里”,其中“富力天茂广场”和”亲橙里“为POI,方位关系为“对面”;在类似Neo4j的图数据库中建立此条数据之后,可以通过查询语句:“MATCH(poi:亲橙里)-[rel:对面]->(poi)RETURN poi”返回得到“富力天茂广场”。
实施例1
根据本申请实施例,还提供了一种地址信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的地址信息的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址信息的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Control ler,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的地址信息的处理方法。图2是根据本申请实施例的一种地址信息的处理方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S202,获取地址文本。
具体地,由于用户在日常生活中对于地址的描述较为模糊,本申请实施例中,上述的地址文本可以是用户在日常生活用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本。例如,获取到的地址文本可以是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”。
在一种可选的实施例中,获取地址文本的方式可以包括如下之一,但不仅限于此:用户直接输入地址文本;用户语音描述某个POI,通过语音识别将用户的语音转换为相应的地址文本。
步骤S204,对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性。
具体地,上述的目标实体可以是用户在地址描述中的POI。上述的第一地名信息可以是用户在地址描述中关于该POI的标准地名,例如,可以是省份、城市、区县等,本申请对此不作具体限定。上述的第一属性信息可以是用户在地址描述中关于该POI的POI特征,本申请实施例中,以建筑物的外观特征为例进行详细说明。
例如,仍以地址文本是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”为例进行说明,通过对地址文本进行解析,可以得到第一地名信息包括“文一西路”和“常二路”,第一属性信息包括“交叉口东北角”,“大门旁边”以及“蓝色招牌”。
需要说明的是,地址文本中可以包含多个实体,每个实体都可以由相应的地名信息和属性信息,例如,地址文本是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”,该地址文本中包括两个实体“小区”和“超市”,第一地名信息包括“文一西路”和“常二路”,第一属性信息包括“交叉口东北角”,“大门旁边”以及“蓝色招牌”。
步骤S206,基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
具体地,上述的地理位置可以是用户在地址描述中的POI的标准地址文本。
在一种可选的实施例中,在解析出第一地名信息和第一属性信息之后,可以结合第一地名信息和第一属性信息,确定用户描述的具体是哪个POI,进一步查询到该POI的标准地址文本,从而可以实现基于标准地址文本的案件记录、导航等。
例如,仍以地址文本是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”为例进行说明,在得到第一地名信息包括“文一西路”和“常二路”,第一属性信息包括“交叉口东北角”,“大门旁边”以及“蓝色招牌”之后,可以基于第一地名信息和第一属性信息进行搜索,得到相应的标准地址文本为:浙江省杭州市余杭区五常街道文一西路西溪北苑31幢乐美超市。
基于本申请上述实施例提供的方案,在获取到地址文本之后,可以对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,进一步基于第一地名信息和第一属性信息,得到地址文本包括的目标实体对应的地理位置,实现非标准地址文本转换为标准地址文本的目的。与现有技术相比,对地址文本进行解析,得到第一地名信息和第一属性信息,使得在用户输入模糊的POI描述进行检索服务时可以借助POI特征进行检索,实现对更加自然和非标准化的地址文本进行地址检索,达到了提高处理准确率,扩大适用范围的技术效果,进而解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
可选地,本申请上述实施例中,步骤S206,基于第一地名信息和第一属性信息,得到目标实体对应的地理位置,包括:基于第一地名信息,从第一数据库中获取实体信息集合,其中,实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;基于多个第一实体的索引信息,得到多个第一实体的第二属性信息;将第一属性信息与多个第一实体的第二属性信息进行匹配,确定目标实体;基于目标实体的索引信息,从第一数据库中获取地理位置。
具体地,对于同一个地名,会对应多个POI,例如,同一条道路上,会有多个小区、公司、饭店等;用户的模糊描述中通常只会包含有标准地名,通过标准地名进行模糊检索,可以确定多个POI。为了能够基于POI特征,准确地确定用户描述的目标POI,可以将不同POI的标准地址文本与相应的POI特征建立关系,上述的索引信息可以是POI的名称name、编号ID等,但不仅限于此。上述的第一数据库可以是地址标准库,该数据库中存储有POI的标准地址文本。
在一种可选的实施例中,在获取到第一地名信息和第一属性信息之后,可以将第一地名信息作为索引,从地址标准库中查询到多个POI,以及每个POI的name和ID,然后基于每个POI的name和ID,查询出每个POI特征,从而确定用户描述的POI特征对应的POI特征,也即,得到用户描述的目标POI,进一步根据该POI的name和ID,从地址标准库中查询到相应的标准地址文本。
需要说明的是,第一属性信息中可能包含多个属性信息,可以依次基于每个属性信息确定相匹配的实体,从而得到最终的目标实体。
例如,仍以地址文本是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”为例进行说明,基于“交叉口东北角”属性可以筛选出POI包括:福鼎小区和西溪北苑,进一步地,基于“大门旁边”以及“蓝色招牌”等属性可以筛选出POI为乐美超市。进一步地,可以查询到乐美超市的标准地址文本,即“浙江省杭州市余杭区五常街道文一西路西溪北苑31幢乐美超市”。
可选地,本申请上述实施例中,第一属性信息包括:目标实体的第一特征和第一位置关系,第二属性信息包括:第二特征和第二位置关系,其中,将第一属性信息与多个第一实体的第二属性信息进行匹配,确定目标实体,包括:将第一特征与多个第一实体的第二特征进行匹配,得到实体集合,其中,实体集合包括:多个第二实体;从第二数据库中获取多个第二实体的方位关系图谱,其中,方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;将第一位置关系与多个第二实体的方位关系图谱进行匹配,确定目标实体。
具体地,上述的第一特征和第二特征可以是POI的外观、颜色等特征,但不仅限于此。上述的第一位置关系和第二位置信息可以是POI之间的方位关系,例如,可以是旁边、斜对面、交叉口东北角等,但不仅限于此。上述的方位关系图谱可以是依据POI之间的位置关系建立的,可以通过将位置关系导入第二数据库形成图谱结构。例如,亲橙里位于文一西路和常二路的交叉口,星巴克咖啡(杭州西溪亲橙里店)还位于亲橙里和常二路,富力天茂广场位于亲橙里对面,则富力天茂广场、亲橙里、星巴克咖啡(杭州西溪亲橙里店)、文一西路以及常二路之间的图谱结构如图3所示。
上述的第二数据库可以是如Neo4j的开源图数据库,还可以是传统关系型数据库,并通过SQL语句进行检索查询,但是图数据库具备更为方便的查询和关系存储功能,本申请实施例中以第二数据库为图数据库为例进行详细说明。
在一种可选的实施例中,在将第一地名信息作为索引,从地址标准库中查询到多个POI,以及每个POI的name和ID之后,可以基于每个POI的name和ID,从图数据库中查询出每个POI的外观、颜色特征,以及每个POI的方位关系图谱,进一步基于解析出的目标POI的外观、颜色特征,以及POI之间的方位关系,通过匹配可以确定用户描述的目标POI。
例如,仍以地址文本是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”为例进行说明,“交叉口东北角”和“大门旁边”属于方位关系,“蓝色招牌”属于外观、颜色特征,基于文一西路和常二路的方位关系图谱,可以确定符合“交叉口东北角”的POI为福鼎小区和西溪北苑,进一步可以确定符合“大门旁边”和“蓝色招牌”的POI为乐美超市。
图4是根据本申请实施例的一种可选的地址检测阶段的流程图。如图4所示,该方法包括如下步骤:
步骤S41,查询请求的关键词提取。
可选地,上述的查询请求可以是用户输入的非标准地址文本,在获取到查询query之后,可以对query中的关键词进行提取,得到标准地名、POI特征和位置关系。
步骤S42,对查询请求中的标准地名做检索。
可选地,可以基于查询query中的标准地名,在地址标准库中进行检索,得到多个POI以及每个POI特征。
步骤S43,对查询请求中的模糊说法做特征过滤。
可选地,可以将查询query中的POI特征和位置关系等模糊说法,与检索到的多个POI以及每个POI特征进行匹配,从而筛选出POI。
步骤S44,根据查询请求的方位关系图谱中推理得到候选POI。
可选地,可以根据查询query的方位关系图谱,从筛选出的POI中得到候选POI,即目标POI。
步骤S45,对最终得到的POI在标准库中检测得到完整地址。
可选地,可以基于最终得到的POI的索引信息,在地址标准库中进行检索,得到POI的标准地址文本,即得到POI的完整地址。
通过上述步骤S41至步骤S45,通过采集POI的外观、朝向、外置等特征扩展POI的特征维度,使得地址检索服务能够接受更加自然和非标准化的地址文本,并得到有效的查询和标准化的返回结果;利用图数据库建立POI之间的非标准空间位置关系,从而让检索引擎能够通过类似“旁边,斜对面,交叉口西北角”的这种更加自然的表述来找到对应的目标POI,使得整个检索服务更加易于使用。
可选地,本申请上述实施例中,该方法还可以包括如下步骤:获取多个实体的地址文本;基于多个实体的地址文本,建立第一数据库,其中,第一数据库包括:多个实体,以及每个实体的地理位置;获取多个实体的第二属性信息;基于多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,其中,索引信息用于对第一数据库中存储的地理位置进行索引。
在一种可选的实施例中,为了提高地址检索的准确度,需要建立地址标准库,可以获取大量POI的标准地址文本,基于大量POI的标准地址文本,建立地址标准库,例如,地址标准库可以采用如表1所示的形式:
表1
省 | 市 | 区 | 道路 | 路号 | POI |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 西溪园区 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 1008号 | 浙江省社会主义学院 |
浙江省 | 杭州市 | 余杭区 | 高教路 | 赛银国际广场 | |
浙江省 | 杭州市 | 上城区 | 南山路 | 218号 | 中国美术学院南山校区 |
浙江省 | 杭州市 | 上城区 | 南山路 | 212号| | 潘天寿纪念馆 |
浙江省 | 杭州市 | 上城区 | 南山路 | 206号 | 茅以升旧居 |
浙江省 | 宁波市 | 鄞州区 | 宜园路 | 525号 | 宜家家居 |
浙江省 | 宁波市 | 鄞州区 | 宜园路 | 245号 | 国骅宜家花园1期 |
上海 | 上海市 | 长宁区 | 虹桥路 | 2550号 | 上海虹桥国际机场 |
进一步可以根据地址标准库中的POI,采集POI的外观特征以及位置关系,外观特征表如下所示:[{"POI_name":"亲橙里",#POI名字"ID":12345678,#对应标准库中的ID"POI_type":“商场”,#POI类型“外墙颜色”:"灰色","楼层总数":"5层建筑","建筑附件":"楼顶液晶大屏"“外观特点”:"方波浪形楼顶"...}],另外,位置关系表如下所示:[{"main_poi":"亲橙里","main_poi_ID":12345678,"pos_relation_list":[{“relation”:"对面","poi_name":"富力天茂广场","poi_ID":23456789},{“relation”:"包含","poi_name":"星巴克咖啡(杭州西溪亲橙里店)","poi_ID":23456799},{“relation”:"交叉口","road_name":"文一西路","poi_ID":12345}{“relation”:"交叉口","road_name":"常二路","poi_ID":12354}...]}]。
最后可以基于采集到的POI外观特征建立特征倒排索引,并基于POI的位置关系建立POI的方位关系图谱。
可选地,本申请上述实施例中,基于多个实体的地址文本,建立第一数据库,包括:对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;对多个地址元素进行聚合,建立第一数据库。
可选地,编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理。
在一种可选的实施例中,在获取到大量POI的标准地址文本之后,可以首先对标准地址文本进行预处理,将标准地址文本做统一编码处理,主要包括:繁体转简体,全角字符转半角字符大写转小写等。然后对标准地址文本进行解析,将地址文本的字符串切割并格式化为地址元素,例如,“浙江省杭州市余杭区文一西路969号西溪园区1号楼7层910号”->“prov=浙江省city=杭州市district=余杭区road=文一西路roadno=969号poi=西溪园区houseno=1号楼floorno=7层roomno=910号”。最后将格式化为地址元素的地址按不同级别的地址元素做聚合,之后对各个字段建立索引形成地址标准库。
可选地,本申请上述实施例中,第二属性信息包括:第二特征和第二位置关系,其中,基于多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,包括:基于多个实体的第二特征,建立多个实体的索引信息;将多个实体的第二位置关系导入第二数据库中,建立多个实体的方位关系图谱。
在一种可选的实施例中,可以根据采集到的大量POI的外观特征建立特征倒排索引,并将获取到的大量POI的位置关系导入图数据库中形成方位关系图谱。
可选地,本申请上述实施例中,基于多个实体的第二特征,建立多个实体的索引信息,包括:对多个实体的第二特征进行分桶处理,得到处理后的第二特征;基于处理后的第二特征,建立索引信息。
在一种可选的实施例中,考虑到POI的外观特征的通用性,可以对外观特征做分桶处理以免索引的内部poi数量过多,形成如下的索引形式:{"bucket_name":"浙江省杭州市余杭区",inverse_index:[{"灰色":[{"name":"亲橙里","ID":12345678},{"name":"亲橙外","ID":22345678},{"name":"亲橙内","ID":22333678},...]},{"5层建筑":[{"name":"亲橙里","ID":12345678},{"name":"亲橘子里","ID":22225678},{"name":"亲苹果里","ID":11111111},...]},...]}。
图5是根据本申请实施例的一种可选的数据库构建阶段的流程图。如图5所示,该方法包括如下步骤:
步骤S51,预处理地址文本数据。
可选地,可以将原始的地址文本做统一编码处理,主要包括:繁体转简体,全角字符转半角字符大写转小写。
步骤S52,标准化地址文本数据。
可选地,可以将地址文本的字符串切割并格式化为地址元素。
步骤S53,建立地址标准库。
可选地,可以将格式化为地址元素的地址按不同级别的地址元素做聚合,之后对各个字段建立索引形成地址标准库。
步骤S54,采集POI外观特征和位置关系。
可选地,可以根据上一步得到的地址标准库表采集POI的外观特征以及位置关系信息。
步骤S55,POI外观特征分桶建立索引。
可选地,可以根据采集到的POI外观特征做分桶处理,并建立特征倒排索引。
步骤S56,依据位置关系建立POI方位关系图谱。
可选地,将获取的位置关系信息导入如Neo4j的开源图数据库中形成方位关系图谱。
通过上述步骤S51至步骤S56,在数据库构建阶段中引入建筑物的外观特征,因此具备了对POI特征的检索功能,在用户输入模糊的POI描述进行检索服务时不仅仅是依据准确的文本检索,还可以借助POI特征进行检索从而得到目标位置的POI候选;通过建立POI之间的方位关系图谱,可以能够对用户输入的POI方位信息进行推理,从而对得到POI候选做更加精确的筛查,最终得到准确的目标位置。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种用于实施上述地址信息的处理方法的地址信息的处理装置,如图6所示,该装置600包括:获取模块602、第一处理模块604和第二处理模块606。
其中,获取模块602用于获取地址文本;第一处理模块604用于对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;第二处理模块606用于基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
具体地,由于用户在日常生活中对于地址的描述较为模糊,本申请实施例中,上述的地址文本可以是用户在日常生活用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本。例如,获取到的地址文本可以是“文一西路和常二路交口东北角的小区大门旁边的一个蓝色招牌的超市门口”。上述的目标实体可以是用户在地址描述中的POI。上述的第一地名信息可以是用户在地址描述中关于该POI的标准地名,例如,可以是省份、城市、区县等,本申请对此不作具体限定。上述的第一属性信息可以是用户在地址描述中关于该POI的POI特征,本申请实施例中,以建筑物的外观特征为例进行详细说明。上述的地理位置可以是用户在地址描述中的POI的标准地址文本。
此处需要说明的是,上述获取模块602、第一处理模块604和第二处理模块606对应于实施例1中的步骤S202至步骤S206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
基于本申请上述实施例提供的方案,在获取到地址文本之后,可以对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,进一步基于第一地名信息和第一属性信息,得到地址文本包括的目标实体对应的地理位置,实现非标准地址文本转换为标准地址文本的目的。与现有技术相比,对地址文本进行解析,得到第一地名信息和第一属性信息,使得在用户输入模糊的POI描述进行检索服务时可以借助POI特征进行检索,实现对更加自然和非标准化的地址文本进行地址检索,达到了提高处理准确率,扩大适用范围的技术效果,进而解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
可选地,本申请上述实施例中,如图6所示,第二处理模块606包括:查询子模块608、处理子模块610、匹配子模块612和获取子模块614。
其中,查询子模块608用于基于第一地名信息,从第一数据库中获取实体信息集合,其中,实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;处理子模块610用于基于多个第一实体的索引信息,得到多个第一实体的第二属性信息;匹配子模块612用于将第一属性信息与多个第一实体的第二属性信息进行匹配,确定目标实体;获取子模块614用于基于目标实体的索引信息,从第一数据库中获取地理位置。
具体地,对于同一个地名,会对应多个POI,例如,同一条道路上,会有多个小区、公司、饭店等;用户的模糊描述中通常只会包含有标准地名,通过标准地名进行模糊检索,可以确定多个POI。为了能够基于POI特征,准确地确定用户描述的目标POI,可以将不同POI的标准地址文本与相应的POI特征建立关系,上述的索引信息可以是POI的名称name、编号ID等,但不仅限于此。上述的第一数据库可以是地址标准库,该数据库中存储有POI的标准地址文本。
可选地,本申请上述实施例中,第一属性信息包括:目标实体的第一特征和第一位置关系,第二属性信息包括:第二特征和第二位置关系,其中,如图6所示,匹配子模块612包括:第一匹配单元616、获取单元618和第二匹配单元620。
其中,第一匹配单元616用于将第一特征与多个第一实体的第二特征进行匹配,得到实体集合,其中,实体集合包括:多个第二实体;获取单元618用于从第二数据库中获取多个第二实体的方位关系图谱,其中,方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;第二匹配单元620用于将第一位置关系与多个第二实体的方位关系图谱进行匹配,确定目标实体。
具体地,上述的第一特征和第二特征可以是POI的外观、颜色等特征,但不仅限于此。上述的第一位置关系和第二位置信息可以是POI之间的方位关系,例如,可以是旁边、斜对面、交叉口东北角等,但不仅限于此。上述的方位关系图谱可以是依据POI之间的位置关系建立的,可以通过将位置关系导入第二数据库形成图谱结构。上述的第二数据库可以是如Neo4j的开源图数据库,还可以是传统关系型数据库,并通过SQL语句进行检索查询,但是图数据库具备更为方便的查询和关系存储功能,本申请实施例中以第二数据库为图数据库为例进行详细说明。
可选地,本申请上述实施例中,该装置还包括:第一建立模块和第二建立模块。
其中,获取模块还用于获取多个实体的地址文本;第一建立模块用于基于多个实体的地址文本,建立第一数据库,其中,第一数据库包括:多个实体,以及每个实体的地理位置;获取模块还用于获取多个实体的第二属性信息;第二建立模块用于基于多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,其中,索引信息用于对第一数据库中存储的地理位置进行索引。
可选地,本申请上述实施例中,第一建立模块包括:编码子模块和第一建立子模块。
其中,编码子模块用于对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;第一建立子模块用于对多个地址元素进行聚合,建立第一数据库。
可选地,编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理。
可选地,本申请上述实施例中,第二属性信息包括:第二特征和第二位置关系,第二建立模块包括:第二建立子模块和第三建立子模块。
其中,第二建立子模块用于基于多个实体的第二特征,建立多个实体的索引信息;第三建立子模块用于将多个实体的第二位置关系导入第二数据库中,建立多个实体的方位关系图谱。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例3
根据本申请实施例,还提供了一种地址信息的处理系统,包括:
处理器。以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
基于本申请上述实施例提供的方案,在获取到地址文本之后,可以对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,进一步基于第一地名信息和第一属性信息,得到地址文本包括的目标实体对应的地理位置,实现非标准地址文本转换为标准地址文本的目的。与现有技术相比,对地址文本进行解析,得到第一地名信息和第一属性信息,使得在用户输入模糊的POI描述进行检索服务时可以借助POI特征进行检索,实现对更加自然和非标准化的地址文本进行地址检索,达到了提高处理准确率,扩大适用范围的技术效果,进而解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例4
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行地址信息的处理方法中以下步骤的程序代码:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
可选地,图7是根据本申请实施例的一种计算机终端的结构框图。如图7所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器702以及存储器704。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的地址信息的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址信息的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
可选的,上述处理器还可以执行如下步骤的程序代码:基于第一地名信息,从第一数据库中获取实体信息集合,其中,实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;基于多个第一实体的索引信息,得到多个第一实体的第二属性信息;将第一属性信息与多个第一实体的第二属性信息进行匹配,确定目标实体;基于目标实体的索引信息,从第一数据库中获取地理位置。
可选的,第一属性信息包括:目标实体的第一特征和第一位置关系,第二属性信息包括:第二特征和第二位置关系,上述处理器还可以执行如下步骤的程序代码:将第一特征与多个第一实体的第二特征进行匹配,得到实体集合,其中,实体集合包括:多个第二实体;从第二数据库中获取多个第二实体的方位关系图谱,其中,方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;将第一位置关系与多个第二实体的方位关系图谱进行匹配,确定目标实体。
可选的,上述处理器还可以执行如下步骤的程序代码:获取多个实体的地址文本;基于多个实体的地址文本,建立第一数据库,其中,第一数据库包括:多个实体,以及每个实体的地理位置;获取多个实体的第二属性信息;基于多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,其中,索引信息用于对第一数据库中存储的地理位置进行索引。
可选的,上述处理器还可以执行如下步骤的程序代码:对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;对多个地址元素进行聚合,建立第一数据库。
可选的,编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理。
可选的,第二属性信息包括:第二特征和第二位置关系,上述处理器还可以执行如下步骤的程序代码:基于多个实体的第二特征,建立多个实体的索引信息;将多个实体的第二位置关系导入第二数据库中,建立多个实体的方位关系图谱。
可选的,上述处理器还可以执行如下步骤的程序代码:对多个实体的第二特征进行分桶处理,得到处理后的第二特征;基于处理后的第二特征,建立索引信息。
采用本申请实施例,在获取到地址文本之后,可以对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,进一步基于第一地名信息和第一属性信息,得到地址文本包括的目标实体对应的地理位置,实现非标准地址文本转换为标准地址文本的目的。与现有技术相比,对地址文本进行解析,得到第一地名信息和第一属性信息,使得在用户输入模糊的POI描述进行检索服务时可以借助POI特征进行检索,实现对更加自然和非标准化的地址文本进行地址检索,达到了提高处理准确率,扩大适用范围的技术效果,进而解决了相关技术中地址信息的处理方法无法对非标准地址文本进行处理,适用范围较小的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的地址信息的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取地址文本;对地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,第一属性信息用于表征地址文本包括的目标实体的属性;基于第一地名信息和第一属性信息,得到目标实体对应的地理位置。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于第一地名信息,从第一数据库中获取实体信息集合,其中,实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;基于多个第一实体的索引信息,得到多个第一实体的第二属性信息;将第一属性信息与多个第一实体的第二属性信息进行匹配,确定目标实体;基于目标实体的索引信息,从第一数据库中获取地理位置。
可选的,第一属性信息包括:目标实体的第一特征和第一位置关系,第二属性信息包括:第二特征和第二位置关系,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将第一特征与多个第一实体的第二特征进行匹配,得到实体集合,其中,实体集合包括:多个第二实体;从第二数据库中获取多个第二实体的方位关系图谱,其中,方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;将第一位置关系与多个第二实体的方位关系图谱进行匹配,确定目标实体。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取多个实体的地址文本;基于多个实体的地址文本,建立第一数据库,其中,第一数据库包括:多个实体,以及每个实体的地理位置;获取多个实体的第二属性信息;基于多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,其中,索引信息用于对第一数据库中存储的地理位置进行索引。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;对多个地址元素进行聚合,建立第一数据库。
可选的,编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理。
可选的,第二属性信息包括:第二特征和第二位置关系,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于多个实体的第二特征,建立多个实体的索引信息;将多个实体的第二位置关系导入第二数据库中,建立多个实体的方位关系图谱。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对多个实体的第二特征进行分桶处理,得到处理后的第二特征;基于处理后的第二特征,建立索引信息。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种地址信息的处理方法,包括:
获取地址文本;
对所述地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,所述第一属性信息用于表征所述地址文本包括的目标实体的属性;
基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置。
2.根据权利要求1所述的方法,其中,基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置,包括:
基于所述第一地名信息,从第一数据库中获取实体信息集合,其中,所述实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;
基于所述多个第一实体的索引信息,得到多个第一实体的第二属性信息;
将所述第一属性信息与所述多个第一实体的第二属性信息进行匹配,确定所述目标实体;
基于目标实体的索引信息,从所述第一数据库中获取所述地理位置。
3.根据权利要求2所述的方法,其中,所述第一属性信息包括:所述目标实体的第一特征和第一位置关系,所述第二属性信息包括:第二特征和第二位置关系,其中,将所述第一属性信息与所述多个第一实体的第二属性信息进行匹配,确定所述目标实体,包括:
将所述第一特征与所述多个第一实体的第二特征进行匹配,得到实体集合,其中,所述实体集合包括:多个第二实体;
从第二数据库中获取所述多个第二实体的方位关系图谱,其中,所述方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;
将所述第一位置关系与所述多个第二实体的方位关系图谱进行匹配,确定所述目标实体。
4.根据权利要求1所述的方法,其中,所述方法还包括:
获取多个实体的地址文本;
基于多个实体的地址文本,建立第一数据库,其中,所述第一数据库包括:所述多个实体,以及每个实体的地理位置;
获取多个实体的第二属性信息;
基于所述多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,其中,所述索引信息用于对所述第一数据库中存储的地理位置进行索引。
5.根据权利要求4所述的方法,其中,基于多个实体的地址文本,建立第一数据库,包括:
对所述地址文本进行编码处理,得到处理后的地址文本;
对所述处理后的地址文本进行划分,得到多个地址元素;
对所述多个地址元素进行聚合,建立所述第一数据库。
6.根据权利要求5所述的方法,其中,所述编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理。
7.根据权利要求4所述的方法,其中,所述第二属性信息包括:第二特征和第二位置关系,其中,基于所述多个实体的第二属性信息,建立多个实体的索引信息和方位关系图谱,包括:
基于多个实体的第二特征,建立所述多个实体的索引信息;
将多个实体的第二位置关系导入第二数据库中,建立所述多个实体的方位关系图谱。
8.根据权利要求7所述的方法,其中,基于多个实体的第二特征,建立所述多个实体的索引信息,包括:
对所述多个实体的第二特征进行分桶处理,得到处理后的第二特征;
基于所述处理后的第二特征,建立所述索引信息。
9.一种地址信息的处理装置,包括:
获取模块,用于获取地址文本;
第一处理模块,用于对所述地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,所述第一属性信息用于表征所述地址文本包括的目标实体的属性;
第二处理模块,用于基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置。
10.根据权利要求9所述的装置,其中,所述第二处理模块包括:
查询子模块,用于基于所述第一地名信息,从第一数据库中获取实体信息集合,其中,所述实体信息集合包括:多个第一实体,以及每个第一实体的索引信息;
处理子模块,用于基于所述多个第一实体的索引信息,得到多个第一实体的第二属性信息;
匹配子模块,用于将所述第一属性信息与所述多个第一实体的第二属性信息进行匹配,确定所述目标实体;
获取子模块,用于基于目标实体的索引信息,从所述第一数据库中获取所述地理位置。
11.根据权利要求10所述的装置,其中,所述第一属性信息包括:所述目标实体的第一特征和第一位置关系,所述第二属性信息包括:第二特征和第二位置关系,其中,所述匹配子模块包括:
第一匹配单元,用于将所述第一特征与所述多个第一实体的第二特征进行匹配,得到实体集合,其中,所述实体集合包括:多个第二实体;
获取单元,用于从第二数据库中获取所述多个第二实体的方位关系图谱,其中,所述方位关系图谱用于表征每个第二实体与其他实体之间的第二位置关系;
第二匹配单元,用于将所述第一位置关系与所述多个第二实体的方位关系图谱进行匹配,确定所述目标实体。
12.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:获取地址文本;对所述地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,所述第一属性信息用于表征所述地址文本包括的目标实体的属性;基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置。
13.一种处理设备,包括:处理器,所述处理器用于运行程序,其中,在所述程序运行时执行以下步骤:获取地址文本;对所述地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,所述第一属性信息用于表征所述地址文本包括的目标实体的属性;基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置。
14.一种地址信息的处理系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取地址文本;对所述地址文本进行解析,得到至少一个第一地名信息和至少一个第一属性信息,其中,所述第一属性信息用于表征所述地址文本包括的目标实体的属性;基于所述第一地名信息和所述第一属性信息,得到所述目标实体对应的地理位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535903.4A CN111324679B (zh) | 2018-12-14 | 2018-12-14 | 地址信息的处理方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535903.4A CN111324679B (zh) | 2018-12-14 | 2018-12-14 | 地址信息的处理方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324679A true CN111324679A (zh) | 2020-06-23 |
CN111324679B CN111324679B (zh) | 2023-04-11 |
Family
ID=71168764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811535903.4A Active CN111324679B (zh) | 2018-12-14 | 2018-12-14 | 地址信息的处理方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324679B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445976A (zh) * | 2020-12-01 | 2021-03-05 | 苏州金螳螂怡和科技有限公司 | 一种基于拥堵指数图谱的城市地址定位方法 |
CN112699195A (zh) * | 2020-12-29 | 2021-04-23 | 广州城市信息研究所有限公司 | 地理空间数据处理方法、装置、计算机设备及存储介质 |
CN113204613A (zh) * | 2021-04-26 | 2021-08-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN113505190A (zh) * | 2021-09-10 | 2021-10-15 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN113568951A (zh) * | 2021-07-30 | 2021-10-29 | 拉扎斯网络科技(上海)有限公司 | 一种数据挖掘、处理方法和装置,存储介质和电子设备 |
CN113642313A (zh) * | 2021-09-02 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
CN113656450A (zh) * | 2021-07-12 | 2021-11-16 | 大箴(杭州)科技有限公司 | 地址处理方法及装置、电子设备、存储介质 |
CN114513550A (zh) * | 2021-12-30 | 2022-05-17 | 天翼云科技有限公司 | 一种地理位置信息的处理方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840406A (zh) * | 2009-03-20 | 2010-09-22 | 富士通株式会社 | 地名搜索装置和系统 |
CN102841921A (zh) * | 2012-06-30 | 2012-12-26 | 北京百度网讯科技有限公司 | 一种公交站点定位方法及装置 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104866546A (zh) * | 2015-05-08 | 2015-08-26 | 裴克铭管理咨询(上海)有限公司 | 地址匹配模糊索引以及相应的匹配方法和链式补充机制 |
US9239865B1 (en) * | 2013-01-18 | 2016-01-19 | Google Inc. | Systems, methods, and computer-readable media for providing recommended entities based on a query-specific subset of a user's social graph |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN107025232A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 物流系统中地址信息的处理方法及装置 |
WO2018177316A1 (zh) * | 2017-03-29 | 2018-10-04 | 腾讯科技(深圳)有限公司 | 信息识别方法、计算设备及存储介质 |
CN108628943A (zh) * | 2018-03-28 | 2018-10-09 | 北京三快在线科技有限公司 | 一种数据处理方法、装置和电子设备 |
-
2018
- 2018-12-14 CN CN201811535903.4A patent/CN111324679B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840406A (zh) * | 2009-03-20 | 2010-09-22 | 富士通株式会社 | 地名搜索装置和系统 |
CN102841921A (zh) * | 2012-06-30 | 2012-12-26 | 北京百度网讯科技有限公司 | 一种公交站点定位方法及装置 |
US9239865B1 (en) * | 2013-01-18 | 2016-01-19 | Google Inc. | Systems, methods, and computer-readable media for providing recommended entities based on a query-specific subset of a user's social graph |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104866546A (zh) * | 2015-05-08 | 2015-08-26 | 裴克铭管理咨询(上海)有限公司 | 地址匹配模糊索引以及相应的匹配方法和链式补充机制 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN107025232A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 物流系统中地址信息的处理方法及装置 |
WO2018177316A1 (zh) * | 2017-03-29 | 2018-10-04 | 腾讯科技(深圳)有限公司 | 信息识别方法、计算设备及存储介质 |
CN108628943A (zh) * | 2018-03-28 | 2018-10-09 | 北京三快在线科技有限公司 | 一种数据处理方法、装置和电子设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445976A (zh) * | 2020-12-01 | 2021-03-05 | 苏州金螳螂怡和科技有限公司 | 一种基于拥堵指数图谱的城市地址定位方法 |
CN112699195A (zh) * | 2020-12-29 | 2021-04-23 | 广州城市信息研究所有限公司 | 地理空间数据处理方法、装置、计算机设备及存储介质 |
CN112699195B (zh) * | 2020-12-29 | 2023-12-19 | 广州城市信息研究所有限公司 | 地理空间数据处理方法、装置、计算机设备及存储介质 |
CN113204613A (zh) * | 2021-04-26 | 2021-08-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN113656450A (zh) * | 2021-07-12 | 2021-11-16 | 大箴(杭州)科技有限公司 | 地址处理方法及装置、电子设备、存储介质 |
CN113568951A (zh) * | 2021-07-30 | 2021-10-29 | 拉扎斯网络科技(上海)有限公司 | 一种数据挖掘、处理方法和装置,存储介质和电子设备 |
CN113642313A (zh) * | 2021-09-02 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
CN113642313B (zh) * | 2021-09-02 | 2024-03-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
CN113505190A (zh) * | 2021-09-10 | 2021-10-15 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN114513550A (zh) * | 2021-12-30 | 2022-05-17 | 天翼云科技有限公司 | 一种地理位置信息的处理方法、装置及电子设备 |
CN114513550B (zh) * | 2021-12-30 | 2024-03-08 | 天翼云科技有限公司 | 一种地理位置信息的处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111324679B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111324679B (zh) | 地址信息的处理方法、装置和系统 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN107092680B (zh) | 一种基于地理网格的政务信息资源整合方法 | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
US20200326197A1 (en) | Method, apparatus, computer device and storage medium for determining poi alias | |
JP5856618B2 (ja) | 地理空間データベース統合方法、およびデバイス | |
CN101350012B (zh) | 一种地址匹配的方法和系统 | |
WO2016150407A1 (zh) | 一种基于地址解析数据的建设用地类型快速识别方法 | |
CN111382212B (zh) | 关联地址获取方法、装置、电子设备及存储介质 | |
CN109492066B (zh) | 一种兴趣点分支名称的确定方法、装置、设备及存储介质 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
US20210239486A1 (en) | Method and apparatus for predicting destination, electronic device and storage medium | |
US20230049839A1 (en) | Question Answering Method for Query Information, and Related Apparatus | |
CN107016084A (zh) | 一种地名地址快速定位与查询的方法 | |
CN103279344A (zh) | 一种支持异构传感器语义注册的方法及系统 | |
CN111782980A (zh) | 地图兴趣点的挖掘方法、装置、设备及存储介质 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Chatterjee et al. | SAGEL: smart address geocoding engine for supply-chain logistics | |
CN115712667B (zh) | 一种图数据融合分析方法、装置及存储介质 | |
CN114820960B (zh) | 构建图谱的方法、装置、设备和介质 | |
Zhang et al. | Enrichment of topographic road database for the purpose of routing and navigation | |
CN112307137A (zh) | 数据处理方法、装置、存储介质及处理器 | |
CN116303854A (zh) | 一种基于地址知识图谱的定位方法及装置 | |
Droj | GIS and remote sensing in environmental management | |
CN116431625A (zh) | 一种地理实体的定位分析方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |