CN111723164B - 地址信息的处理方法和装置 - Google Patents
地址信息的处理方法和装置 Download PDFInfo
- Publication number
- CN111723164B CN111723164B CN201910204539.1A CN201910204539A CN111723164B CN 111723164 B CN111723164 B CN 111723164B CN 201910204539 A CN201910204539 A CN 201910204539A CN 111723164 B CN111723164 B CN 111723164B
- Authority
- CN
- China
- Prior art keywords
- address
- text
- texts
- geographic
- address text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 18
- 238000003672 processing method Methods 0.000 title description 19
- 238000012545 processing Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010606 normalization Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 238000002372 labelling Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 241000224489 Amoeba Species 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址信息的处理方法和装置。其中,该方法包括:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。本申请解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种地址信息的处理方法和装置。
背景技术
在日常生活中,人们对于地址的描述通常是模糊且非标准化的,例如,很少会使用类似“杭州市余杭区第一中学”这种标准地址,取而代之的是使用类似“余杭一中”,“第一中学”这种简称或别名。在基于地址文本的服务,例如,快递地址查询的服务中心,需要具备POI(Point of Interest,地理实体)归一化的功能,可以在特定区域内输入“第一中学”这种别名简称的时候能够召回“杭州市余杭区第一中学”。
为了实现上述功能,相关技术中可以采用如下方式:第一种方式为定制模板的方式,可以通过人工收集常用POI简写和别名,提取通用的简写和别名生成模板,当有新POI加入数据集之后,通过模板匹配的方式来确认是否为简写和别名,例如:“杭州市余杭区第一中学”提取模式为:“{district}第{idx}中学”。第二种方式为直接利用一个神经网络去针对已经标注的部分POI对拟合一个判定器,判定器的结构为底层通常基于已经预训练好的词表,中间的隐层将文本转化为定长的向量,上层使用softmax的二分类器去判定底层输入的POI对是否为同一POI。
但是,对于第一种方式,模板的数量有限,未采用语义理解的方式,无法应对海量文本,导致识别准确率较低。对于第二种方式,判定器容易受到文本的字面表示影响,容易将字面相似但是实际类别不一样的POI对归为同一的POI,或将字面表示差异较大但事实是同一POI的POI对判定为不同POI,导致识别准确率较低。
针对相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种地址信息的处理方法和装置,以至少解决相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
根据本申请实施例的一个方面,提供了一种地址信息的处理方法,包括:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种地址信息的处理方法,包括:显示至少两个地址文本;显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种地址信息的处理装置,包括:获取模块,用于获取至少两个地址文本;识别模块,用于利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种地址信息的处理装置,包括:第一显示模块,用于显示至少两个地址文本;第二显示模块,用于显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行如下步骤:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
根据本申请实施例的另一方面,还提供了一种地址信息的处理系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
在本申请实施例中,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例1的一种地址信息的处理方法的流程图;
图3是根据本申请实施例的一种可选的文本识别模型的示意图;
图4是根据本申请实施例的一种可选的处理后的文本识别模型的示意图;
图5是根据本申请实施例的一种可选的地址信息的处理方法的流程图;
图6是根据本申请实施例2的一种地址信息的处理方法的流程图;
图7是根据本申请实施例1的一种地址信息的处理装置的示意图;
图8是根据本申请实施例2的一种地址信息的处理装置的示意图;以及
图9是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
POI归一化:可以将同一个语义的不同表达映射到一个标准说法的方法,例如:将“阿里总部”,“阿里西溪园区”,“西溪园区”,“阿里淘宝城”映射到“阿里巴巴西溪园区”。
POI类别:可以是一个POI地点的分类信息,该分类信息通常体现了POI的功能,例如:“阿里巴巴西溪园区”类别为“产业园区”,“阿里巴巴新疆大串”类别为“特色/地方风味餐厅”等等。
联合学习:即joint learning,可以对多个单一任务进行同时训练,由于每个单一任务之间有一定的相关性,能够互相补充额外的特征信息,因此联合学习的模式通常能够达到比单独训练单一任务更加好的效果。
NN文本分类器:又名神经网络文本分类器,可以利用深度神经网络对文本向量化并对文本的类型进行分辩的一种网络模型。常见的应用有:文本情感分类、文本垃圾分类和地址类型分类等等。
实施例1
根据本申请实施例,提供了一种地址信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的处理器,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的地址信息的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址信息的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
此处需要说明的是,在一些实施例中,上述图1所示的计算机设备(或移动设备)具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在一些实施例中,上述图1所示的计算机设备(或移动设备)具有图像用户界面(GUI),用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
在上述运行环境下,本申请提供了如图2所示的地址信息的处理方法。图2是根据本申请实施例1的一种地址信息的处理方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S202,获取至少两个地址文本。
具体地,由于用户在日常生活中对于POI的描述较为模糊,上述的地址文本可以是用户在日常生活中用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本,但不仅限于此,上述的地址文本也可以是用户在日常生活中用来描述某个POI的标准说法,也即,地址文本也可以是标准地址文本。进一步地,在本申请实施例中,以POI对的POI归一化为例进行详细说明,也即,仅获取两个地址文本,例如,获取到两个地址文本分别为“阿里巴巴西溪园区”和“阿里淘宝城”。
步骤S204,利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,上述的属性可以包括如下至少之一:类别、经纬度、占地面积、是否为建筑群、建筑内机构。
具体地,上述的文本识别模型可以是神经网络文本分类器,为了使得POI归一化的效果更具有泛化性和准确性,引入POI的属性作为辅助信息来增加地址文本的额外信息,使得文本识别模型可以同时完成POI的类别判定和POI对是否同一(即POI对的地理实体是否相一致)。由于文本识别模型中涉及两个任务,因此可以通过联合学习的方式训练得到文本识别模型。
在本申请实施例中,以引入POI的类别信息为例进行说明,但不仅限于此,还可以增加其他地理信息作为辅助,例如:POI经纬度、剖占地面积、是否为建筑群或单体建筑、或者建筑内机构等等。具体地,可以根据每个POI的实际社会功能进行类别的标签制定,例如,类别可以是政府及社会团体相关、科教文化服务、医疗保健服务、购物服务、体育场馆、工业园区、住宅小区、教育机构等等。
需要说明的是,地址文本中可以包含多个地理实体,则可以对多个地理实体进行组合,得到多个POI对,并利用文本识别模型分别对每个POI对进行识别,得到最终的识别结果。
另外,在确定输入至文本识别模型的POI对同一的情况下,当POI对包含标准说法的情况下,可以将说法映射到该标准说法,从而实现将同一个语义的不同表达映射到标准说法。
例如,仍以获取到两个地址文本分别为“阿里巴巴西溪园区”和“阿里淘宝城”为例进行说明。可以将两个地址文本输入至训练好的文本识别模型中,从而可以得到两个POI是否为同一个地理实体的识别结果,由于“阿里淘宝城”是“阿里巴巴西溪园区”的别名,因此,得到的识别结果为两个POI是同一个地理实体,即“阿里巴巴西溪园区”和“阿里淘宝城”这个两个POI同一。进一步地,由于“阿里巴巴西溪园区”是标准说法,则可以将“阿里淘宝城”映射到“阿里巴巴西溪园区”,从而实现POI归一化。
基于本申请上述实施例提供的方案,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
可选地,本申请上述实施例中,该方法还可以包括如下步骤:获取多个训练集合,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签;利用多个训练集合对文本识别模型进行训练,得到文本识别模型。
具体地,上述的文本识别模型可以是采用Pytorch或Tensorflow(开源人工智能学习系统)搭建的神经网络模型,但不仅限于此,还可以采用其他方式建立的深度神经网络模型。
可选地,文本识别模型包括:依次连接的嵌入层、双向长短时记忆网络层、全连接层和输出层,其中,嵌入层用于获取输入的地址文本中每个词语对应的词向量;双向长短时记忆网络层用于基于每个词语对应的词向量,得到每个词语对应的语义特征;全连接层用于基于地址文本中每个词语对应的语义特征,得到输入的地址文本的特征向量;输出层用于基于输入的地址文本的特征向量,得到识别结果。
在一种可选的方案中,可以预先获取海量地址文本,并从海量地址文本中获取多个POI对,并对两个POI是否为同一个POI,以及两个POI的类别进行人工标注,从而得到多个训练集合。进一步利用多个训练集合对文本识别模型进行联合训练,直到模型收敛,从而得到用于进行POI归一化预测的文本识别模型。
例如,文本识别模型的结构如图3所示,文本识别模型可以包括:嵌入层(Embedding层)、双向长短时记忆网络层(Bilstm层)、全接连层(Dense层)和输出层(如图3中特征向量A、特征向量B、特征向量AB)。
Embedding层可以由一个n*emb_size的矩阵构成,n表示词表大小,emb_size表示向量长度。该层的作用是将输入的每一个字符或者词语映射到一个emb_size长度的浮点数向量,这个向量用来表达浅层的词语或字的语义,例如:“长城”->[0.45234,0.63546,0.36534,...0.98253],通过将词语或者字符映射到高维向量空间以便于后续的计算。
Bilstm层可以是一种RNN结构的神经网络,每个计算单元是一个lstm,同时采用前向和后向两个方向计算每个输出单元的中间层语义。该层的作用是将一个句子中的单词和单字的向量综合起来计算句子整体的语义特征,从而每个输出单元代表每个字词以及该字词上下文的语义信息。
Dense层可以将Bilstm层输出的语义信息做进一步的融合,最后通过非线性激活函数输出一个代表最初输入地址文本整个句子的特征向量,即输出图3中的特征向量A和特征向量AB。
输出层可以根据特征向量A和特征向量B进行两个分类任务,即进行POI分类和POI归一,具体地,POI分类可以是使用特征向量进行分类,例如,使用softmax函数求得每一类的概率,也即,如图3所示,通过特征向量A可以得到一个POI分类,通过特征向量B可以得到另一个POI分类;POI归一是一个二分类任务,如图3所示,首先将特征向量A和特征向量B合成一个大向量(即特征向量AB),通过全连接层对这个大向量进行融合,然后使用softmax函数求得融合后的向量的二分类概率分布,得到得到POI归一,也即,得到两个POI是否同一。
另外,在文本识别模型训练过程中,可以计算POI分类的概率和训练数据标准答案之间的差异得到loss_cate,并且计算POI归一的概率和标准答案的差异得到loss_unify,loss_all=loss_unify+loss_cate,最后利用SGD(随机梯度下降,Stochastic GradientDescent)或者minibatch_SGD反向传播loss_all来更新网络权重,以得到训练好的文本识别模型。
需要说明的是,由于文本识别模型是利用POI分类任务和POI归一化任务进行联合训练得到的,因此,文本识别模型的输出结果不仅仅包含POI是否同一的结果,还包括每个POI的分类判定结果。
例如,仍以获取到两个地址文本分别为“阿里巴巴西溪园区”和“阿里淘宝城”为例进行说明。在将两个地址文本输入至文本识别模型之后,可以得到两个POI是否为相同POI的结果、“阿里巴巴西溪园区”的类别以及“阿里淘宝城”的类别。
可选地,本申请上述实施例中,获取多个训练集合包括:从地址库中获取地址文本集合,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定;获取至少一个地理实体的属性;基于地址文本集合和至少一个地理实体的属性,生成多个训练集合。
具体地,上述的预设地址元素可以是地址文本中非POI的前置地址元素,例如,可以是省、市、区、道路和路号等地址元素。上述的地址库中存储有海量的地址文本,而且地址文本采用地址元素的方式进行存储。
需要说明的是,由于同一个POI有多种描述方式,因此,同一个索引信息的下包含有多个POI,其中包含标准POI和非标准POI。在本申请实施例中,可以通过大数据工具进行海量地址文本的清洗。
在一种可选的方案中,针对多个索引信息和每个索引信息对应的POI,可以从中采样出多个POI对,将POI对列表组合成pair,并对POI对是否为同一POI和两个POI的类别进行人工标注,从而得到多个训练集合。
需要说明的是,在本申请实施例中,地址库表的存储可以使用任何关系型数据库和非关系型数据库,本申请对此不作具体限定。
可选地,本申请上述实施例中,基于地址文本集合和至少一个地理实体的属性,生成多个训练集合包括:获取每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;基于每个索引信息对应的两个地理实体,每个地理实体的属性,以及两个地理实体是否相一致的标签,生成每个训练集合。
在一种可选的实施例中,针对每个索引信息,可以选取任意两个POI作为一个POI对,其中,可以选择一个标准的POI作为POI A,其余POI作为POI B。进一步通过对POI对是否为同一POI和两个POI的类别进行标注,得到一个训练集合。训练集合的具体数据形式如下表1所示:
表1
可选地,本申请上述实施例中,从地址库中获取地址文本集合包括:从地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;获取每个地址文本中的预设地址元素,得到每个地址文本对应的索引信息;将相同索引信息对应的地址文本进行汇总,得到地址文本集合。
在一种可选的实施例中,可以从地址库中获取大量的地址文本,并将非POI的前置地址元素做为索引信息,将同一个索引信息下的POI归纳为一个归一化候选列表,从而得到上述的地址文本集合。归一化候选列表的具体数据形式如下:“浙江省杭州市余杭区文一西路969号”:[“阿里巴巴西溪园区”,“阿里淘宝城”,“西溪园区”,“阿里巴巴总部”,“亲橙里”,“盒马鲜生”]。
需要说明的是,如果列表仅包含一个元素,也即,POI仅包含标准描述,则可以将该条信息删除。在本申请实施例中,可以通过大数据工具进行POI归纳。
可选地,本申请上述实施例中,在从地址库中获取多个地址文本之前,该方法还可以包括如下步骤:获取多个地理实体的地址文本;对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;对多个地址元素进行聚合,建立地址库。
可选地,上述的编码处理可以包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
在一种可选的实施例中,在获取到海量地址文本之后,可以对地址文本进行预处理,将原始的地址文本进行统一编码处理,主要包括:繁体转简体,全角字符转半角字符,大写转小写以及地址元素的标注,在编码处理之后,可以将地址文本的字符串切割并格式化为地址元素,例如,例如,“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区1号楼7层910号”->“prov=浙江省city=杭州市district=余杭区road=文一西路roadno=969号POI=阿里巴巴西溪园区houseno=1号楼floorno=7层roomno=910号”。最后将格式化为地址元素的地址按不同级别的地址元素做聚合,之后对各个字段建立索引形成地址库。例如,地址库可以采用如表2所示的形式:
表2
省 | 市 | 区 | 道路 | 路号 | POI |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 阿里巴巴西溪园区 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 阿里淘宝城 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 西溪园区 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 阿里巴巴总部 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 盒马鲜生 |
浙江省 | 杭州市 | 余杭区 | 文一西路 | 969号 | 亲橙里 |
可选地,本申请上述实施例中,文本识别模型的输出结果包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果,以及用于表征输入的地址文本包含的地理实体的属性的识别结果,其中,在利用多个训练集合对文本识别模型进行训练,得到文本识别模型之后,该方法还可以包括如下步骤:对文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,处理后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果;利用处理后的文本识别模型对每个地址文本进行识别,得到识别结果。
在一种可选的实施例中,如图3所示,通过联合训练得到的文本识别模型的输出结果包括:POI归一和两个POI分类,由于最终的模型使用只需要判定POI对是否为同一POI,而对POI类别判定的部分并不是必需的,因此,可以在模型收敛后对POI分类部分进行剪枝,将POI类别判定部分进行略去以减小模型的使用空间,同时也可以加快模型的运算速度,剪枝后的模型结构如图4所示。在实际使用过程中,采用如图4所示的处理后的文本识别模型判定输入的POI对是否为同一POI。
具体地,可以通过多种方式对模型进行剪枝,例如,可以通过对收敛后的模型进行封装,使得封装后的模型仅输出POI归一结果;还可以通过对模型的输出层进行代码修改,使得输出层仅输出POI归一结果。在本申请实施例中,以对模型的输出层进行代码修改为例进行说明。
可选地,本申请上述实施例中,在获取至少两个地址文本之后,该方法还可以包括如下步骤:对每个地址文本进行过滤,得到过滤后的地址文本;对过滤后的地址文本进行编码处理,得到处理后的地址文本;利用文本识别模型对处理后的地址文本进行识别,得到识别结果。
在一种可选的实施例中,在通过文本识别模型对任意两个POI对是否同一进行判定之间,需要对地址文本进行格式化处理,具体可以分为两个步骤:首先,对获取到的地址文本进行字符有效性过滤,过滤掉无法处理的特殊字符;其次,利用文本识别模型训练过程中使用到的词表对过滤后的地址文本进行编码处理,编码后的文本可以输入至剪枝后的文本识别模型中进行POI归一化预测。
图5是根据本申请实施例的一种可选的地址信息的处理方法的流程图,下面结合图5对本申请一种优选的实施例进行说明,如图5所示,该方法包括如下步骤:
步骤S51,获取海量地址文本建立地址库。
可选地,在获取到的海量地址文本之后,可以将原始的地址文本进行统一编码处理,然后将地址文本的字符串切割并格式化为地址元素,最后将格式化为地址元素的地址按不同级别的地址元素做聚合,得到地址库。
步骤S52,确定POI分类标准。
可选地,为了使得POI归一化的效果更具泛化性和准确性,依据每一个具体POI的实际社会功能进行POI类别的标签制定。
步骤S53,对非POI地址元素做归纳。
可选地,可以将地址库中非POI的前置地址元素做索引,并将同一个索引下的POI归纳为一个归一化候选列表。
步骤S54,对样本数据进行POI归一化和POI类别的人工标注。
可选地,可以对归纳后的数据进行采样,首先选择出标准的POI作为POI A,其余POI作为POI B,将POI列表组合成pair,并对是否为同一POI和两个POI的类别进行人工标注。
步骤S55,利用POI分类信息和POI归一化信息做模型训练。
可选地,构建POI分类任务和POI归一化任务的联合训练的深度神经网络,并将步骤S54中得到的数据导入神经网络模型训练该模型直到模型收敛。
步骤S56,模型收敛后对POI分类部分进行剪枝。
可选地,可以将模型中对POI类别判定的部分进行删除。
步骤S57,利用剪枝后的深度神经网络模型对POI进行归一化预测。
可选地,可以利用经过步骤S56剪枝后的模型预测任意两个POI对是否同一的判定,但是,在正式将网络部署为POI归一化预测服务前还需要一个文本的格式化步骤。可以分为两个小步骤:首先,对输入的任意文本对做字符做有效性过滤,过滤掉无法处理的特殊字符;其次,将之前深度神经网络模型训练时候使用到的词表对过滤后的文本编码,编码后的文本便可以输入至模型中进行最终的POI归一化预测。
通过上述方案,本申请基于多任务联合训练的角度作为切入点,通过联合学习的方式引入POI的类别信息,利用深度神经网络去同时完成POI类别判定和POI对是否同一等两项任务,利用POI分类的任务产生的信息去补充POI对是否同一这个任务的信息不足,从而使得POI归一化的整体效果得到提高。另外,该模型能够应用于海量地址文本的POI归一化词表的自动化建立,节省人力建表的成本的同时可以提高地址检索服务中的召回率,提高用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种地址信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例2的一种地址信息的处理方法的流程图。如图6所示,该方法可以包括如下步骤:
步骤S602,显示至少两个地址文本。
具体地,由于用户在日常生活中对于POI的描述较为模糊,在本申请实施例中,上述的地址文本可以是用户在日常生活中用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本。进一步地,在本申请实施例中,以POI对的POI归一化为例进行说明,也即,仅获取到两个地址文本,例如,可以获取到两个地址文本,分别为“阿里巴巴总部”和“阿里淘宝城”。
步骤S604,显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,上述的属性可以包括如下至少之一:类别、经纬度、占地面积、是否为建筑群、建筑内机构。
具体地,上述的文本识别模型可以是神经网络文本分类器,为了使得POI归一化的效果更具有泛化性和准确性,引入POI的属性作为辅助信息来增加地址文本的额外信息,使得文本识别模型可以同时完成POI的类别判定和POI对是否同一(即POI对的地理实体是否相一致)。由于文本识别模型中涉及两个任务,因此可以通过联合学习的方式训练得到文本识别模型。
在本申请实施例中,以引入POI的类别信息为例进行说明,但不仅限于此,还可以增加其他地理信息作为辅助,例如:POI经纬度、剖占地面积、是否为建筑群或单体建筑、或者建筑内机构等等。具体地,可以根据每个POI的实际社会功能进行类别的标签制定,例如,类别可以是政府及社会团体相关、科教文化服务、医疗保健服务、购物服务、体育场馆、工业园区、住宅小区、教育机构等等。
需要说明的是,地址文本中可以包含多个地理实体,则可以对多个地理实体进行组合,得到多个POI对,并利用文本识别模型分别对每个POI对进行识别,得到最终的识别结果。
另外,在确定输入至文本识别模型的POI对同一的情况下,当POI对包含标准说法的情况下,可以将说法映射到该标准说法,从而实现将同一个语义的不同表达映射到标准说法。
基于本申请上述实施例提供的方案,在获取到至少两个地址文本并进行显示之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果并进行显示,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
可选地,本申请上述实施例中,文本识别模型利用多个训练集合对文本识别模型进行训练得到,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签。
可选地,文本识别模型包括:依次连接的嵌入层、双向长短时记忆网络层、全连接层和输出层,其中,嵌入层用于获取输入的地址文本中每个词语对应的词向量;双向长短时记忆网络层用于基于每个词语对应的词向量,得到每个词语对应的语义特征;全连接层用于基于地址文本中每个词语对应的语义特征,得到输入的地址文本的特征向量;输出层用于基于输入的地址文本的特征向量,得到识别结果。
可选地,本申请上述实施例中,多个训练集合基于从地址库中获取到的地址文本集合和至少一个地理实体的属性生成,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定。
可选地,本申请上述实施例中,每个训练集合基于每个索引信息对应的两个地理实体,每个地理实体的属性,以及两个地理实体是否相一致的标签生成,其中,至少一个地理实体为标准地址文本中包含的地理实体。
可选地,本申请上述实施例中,地址文本集合通过将从地址库中获取到的多个地址文本中,相同索引信息对应的地址文本进行汇总得到,其中,每个地址文本由多个地址元素构成,每个地址文本对应的索引信息基于每个地址文本中的预设地址元素得到。
可选地,本申请上述实施例中,地址库通过对多个地理实体的地址文本对应的多个地址元素进行聚合建立得到,多个地址元素通过对地址文本进行编码处理,并对处理后的地址文本进行划分得到。
可选地,上述的编码处理可以包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
可选地,本申请上述实施例中,文本识别模型的输出结果包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果,以及用于表征输入的地址文本包含的地理实体的属性的识别结果,其中,识别结果是利用修改输出层后的文本识别模型对每个地址文本进行识别得到的,其中,修改输出层后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果。
可选地,本申请上述实施例中,识别结果是利用文本识别模型对处理后的地址文本进行识别得到的,处理后的地址文本是对每个地址文本进行过滤和编码处理得到的。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例3
根据本申请实施例,还提供了一种用于实施上述地址信息的处理方法的地址信息的处理装置,如图7所示,该装置700包括:获取模块702和识别模块704。
其中,获取模块702用于获取至少两个地址文本;识别模块704用于利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,上述的属性可以包括如下至少之一:类别、经纬度、占地面积、是否为建筑群、建筑内机构。
具体地,由于用户在日常生活中对于POI的描述较为模糊,在本申请实施例中,上述的地址文本可以是用户在日常生活中用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本。进一步地,在本申请实施例中,以POI对的POI归一化为例进行说明,也即,仅获取到两个地址文本,例如,可以获取到两个地址文本,分别为“阿里巴巴总部”和“阿里淘宝城”。
上述的文本识别模型可以是神经网络文本分类器,为了使得POI归一化的效果更具有泛化性和准确性,引入POI的属性作为辅助信息来增加地址文本的额外信息,使得文本识别模型可以同时完成POI的类别判定和POI对是否同一(即POI对的地理实体是否相一致)。由于文本识别模型中涉及两个任务,因此可以通过联合学习的方式训练得到文本识别模型。
在本申请实施例中,以引入POI的类别信息为例进行说明,但不仅限于此,还可以增加其他地理信息作为辅助,例如:POI经纬度、剖占地面积、是否为建筑群或单体建筑、或者建筑内机构等等。具体地,可以根据每个POI的实际社会功能进行类别的标签制定,例如,类别可以是政府及社会团体相关、科教文化服务、医疗保健服务、购物服务、体育场馆、工业园区、住宅小区、教育机构等等。
此处需要说明的是,上述获取模块702和识别模块704对应于实施例1中的步骤S202至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
基于本申请上述实施例提供的方案,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
可选地,本申请上述实施例中,该装置还包括:训练模块。
其中,获取模块还用于获取多个训练集合,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签;训练模块用于利用多个训练集合对文本识别模型进行训练,得到文本识别模型。
可选地,文本识别模型包括:依次连接的嵌入层、双向长短时记忆网络层、全连接层和输出层,其中,嵌入层用于获取输入的地址文本中每个词语对应的词向量;双向长短时记忆网络层用于基于每个词语对应的词向量,得到每个词语对应的语义特征;全连接层用于基于地址文本中每个词语对应的语义特征,得到输入的地址文本的特征向量;输出层用于基于输入的地址文本的特征向量,得到识别结果。
可选地,本申请上述实施例中,获取模块包括:获取子模块和生成子模块。
其中,获取子模块用于从地址库中获取地址文本集合,以及获取至少一个地理实体的属性,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定;生成子模块用于基于地址文本集合和至少一个地理实体的属性,生成多个训练集合。
可选地,本申请上述实施例中,生成子模块包括:第一获取单元和生成单元。
其中,获取单元用于获取每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;生成单元用于基于每个索引信息对应的两个地理实体,每个地理实体的属性,以及两个地理实体是否相一致的标签,生成每个训练集合。
可选地,本申请上述实施例中,获取子模块包括:第二获取单元、第三获取单元和汇总单元。
其中,第二获取单元用于从地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;第三获取单元,用于获取每个地址文本中的预设地址元素,得到每个地址文本对应的索引信息;汇总单元用于将相同索引信息对应的地址文本进行汇总,得到地址文本集合。
可选地,本申请上述实施例中,该装置还包括:第一处理模块、划分模块和建立模块。
其中,获取模块还用于获取多个地理实体的地址文本;第一处理模块用于对地址文本进行编码处理,得到处理后的地址文本;划分模块用于对处理后的地址文本进行划分,得到多个地址元素;建立模块用于对多个地址元素进行聚合,建立地址库。
可选地,上述的编码处理可以包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
可选地,本申请上述实施例中,文本识别模型的输出结果包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果,以及用于表征输入的地址文本包含的地理实体的属性的识别结果,其中,该装置还包括:第二处理模块。
其中,第二处理模块用于对文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,处理后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果;识别模块还用于利用处理后的文本识别模型对每个地址文本进行识别,得到识别结果。
可选地,本申请上述实施例中,该装置还包括:过滤模块和第二处理模块。
其中,过滤模块用于对每个地址文本进行过滤,得到过滤后的地址文本;第二处理模块用于对过滤后的地址文本进行编码处理,得到处理后的地址文本;识别模块还用于利用文本识别模型对处理后的地址文本进行识别,得到识别结果。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述地址信息的处理方法的地址信息的处理装置,如图8所示,该装置800包括:第一显示模块802和第二显示模块804。
其中,第一显示模块802用于显示至少两个地址文本;第二显示模块804用于显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,上述的属性可以包括如下至少之一:类别、经纬度、占地面积、是否为建筑群、建筑内机构。
具体地,由于用户在日常生活中对于POI的描述较为模糊,在本申请实施例中,上述的地址文本可以是用户在日常生活中用来描述某个POI的模糊说法,也即,地址文本可以是非标准地址文本。进一步地,在本申请实施例中,以POI对的POI归一化为例进行说明,也即,仅获取到两个地址文本,例如,可以获取到两个地址文本,分别为“阿里巴巴总部”和“阿里淘宝城”。
上述的文本识别模型可以是神经网络文本分类器,为了使得POI归一化的效果更具有泛化性和准确性,引入POI的属性作为辅助信息来增加地址文本的额外信息,使得文本识别模型可以同时完成POI的类别判定和POI对是否同一(即POI对的地理实体是否相一致)。由于文本识别模型中涉及两个任务,因此可以通过联合学习的方式训练得到文本识别模型。
在本申请实施例中,以引入POI的类别信息为例进行说明,但不仅限于此,还可以增加其他地理信息作为辅助,例如:POI经纬度、剖占地面积、是否为建筑群或单体建筑、或者建筑内机构等等。具体地,可以根据每个POI的实际社会功能进行类别的标签制定,例如,类别可以是政府及社会团体相关、科教文化服务、医疗保健服务、购物服务、体育场馆、工业园区、住宅小区、教育机构等等。
此处需要说明的是,上述第一显示模块802和第二显示模块804对应于实施例2中的步骤S602至步骤S604,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例2提供的计算机终端10中。
基于本申请上述实施例提供的方案,在获取到至少两个地址文本并进行显示之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果并进行显示,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
可选地,本申请上述实施例中,文本识别模型利用多个训练集合对文本识别模型进行训练得到,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签。
可选地,文本识别模型包括:依次连接的嵌入层、双向长短时记忆网络层、全连接层和输出层,其中,嵌入层用于获取输入的地址文本中每个词语对应的词向量;双向长短时记忆网络层用于基于每个词语对应的词向量,得到每个词语对应的语义特征;全连接层用于基于地址文本中每个词语对应的语义特征,得到输入的地址文本的特征向量;输出层用于基于输入的地址文本的特征向量,得到识别结果。
可选地,本申请上述实施例中,多个训练集合基于从地址库中获取到的地址文本集合和至少一个地理实体的属性生成,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定。
可选地,本申请上述实施例中,每个训练集合基于每个索引信息对应的两个地理实体,每个地理实体的属性,以及两个地理实体是否相一致的标签生成,其中,至少一个地理实体为标准地址文本中包含的地理实体。
可选地,本申请上述实施例中,地址文本集合通过将从地址库中获取到的多个地址文本中,相同索引信息对应的地址文本进行汇总得到,其中,每个地址文本由多个地址元素构成,每个地址文本对应的索引信息基于每个地址文本中的预设地址元素得到。
可选地,本申请上述实施例中,地址库通过对多个地理实体的地址文本对应的多个地址元素进行聚合建立得到,多个地址元素通过对地址文本进行编码处理,并对处理后的地址文本进行划分得到。
可选地,上述的编码处理可以包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
可选地,本申请上述实施例中,文本识别模型的输出结果包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果,以及用于表征输入的地址文本包含的地理实体的属性的识别结果,其中,识别结果是利用修改输出层后的文本识别模型对每个地址文本进行识别得到的,其中,修改输出层后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果。
可选地,本申请上述实施例中,识别结果是利用文本识别模型对处理后的地址文本进行识别得到的,处理后的地址文本是对每个地址文本进行过滤和编码处理得到的。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例2中的相关描述,但不仅限于实施例2中的相关描述,在此不在赘述。
实施例5
根据本申请实施例,还提供了一种地址信息的处理系统,包括:
处理器。以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
基于本申请上述实施例提供的方案,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例6
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行地址信息的处理方法中以下步骤的程序代码:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,图9是根据本申请实施例的一种计算机终端的结构框图。如图9所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器902、以及存储器904。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的地址信息的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址信息的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选的,上述处理器还可以执行如下步骤的程序代码:获取多个训练集合,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签;利用多个训练集合对文本识别模型进行训练,得到文本识别模型。
可选的,上述处理器还可以执行如下步骤的程序代码:从地址库中获取地址文本集合,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定;获取至少一个地理实体的属性;基于地址文本集合和至少一个地理实体的属性,生成多个训练集合。
可选的,上述处理器还可以执行如下步骤的程序代码:获取每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;基于每个索引信息对应的两个地理实体,每个地理实体的属性,以及两个地理实体是否相一致的标签,生成每个训练集合。
可选的,上述处理器还可以执行如下步骤的程序代码:从地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;获取每个地址文本中的预设地址元素,得到每个地址文本对应的索引信息;将相同索引信息对应的地址文本进行汇总,得到地址文本集合。
可选的,上述处理器还可以执行如下步骤的程序代码:在从地址库中获取多个地址文本之前,获取多个地理实体的地址文本;对地址文本进行编码处理,得到处理后的地址文本;对处理后的地址文本进行划分,得到多个地址元素;对多个地址元素进行聚合,建立地址库。
可选的,上述的编码处理可以包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
可选的,文本识别模型的输出结果包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果,以及用于表征输入的地址文本包含的地理实体的属性的识别结果,其中,上述处理器还可以执行如下步骤的程序代码:在利用多个训练集合对文本识别模型进行训练,得到文本识别模型之后,对文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,处理后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果;利用处理后的文本识别模型对每个地址文本进行识别,得到识别结果。
可选的,上述处理器还可以执行如下步骤的程序代码:在获取至少两个地址文本之后,对每个地址文本进行过滤,得到过滤后的地址文本;对过滤后的地址文本进行编码处理,得到处理后的地址文本;利用文本识别模型对处理后的地址文本进行识别,得到识别结果。
采用本申请实施例,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:显示至少两个地址文本;显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选的,文本识别模型利用多个训练集合对文本识别模型进行训练得到,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签。
可选的,多个训练集合基于从地址库中获取到的地址文本集合和至少一个地理实体的属性生成,其中,地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,每个索引信息由地址文本中的预设地址元素确定。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例7
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的地址信息的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:显示至少两个地址文本;显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种地址信息的处理方法,包括:
获取至少两个地址文本;
利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,所述文本识别模型是利用多个训练集合训练得到的,所述多个训练集合是基于地址文本集合和至少一个地理实体的属性生成的,所述地址文本集合是从地址库中获取到的,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定。
2.根据权利要求1所述的方法,其中,所述每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签。
3.根据权利要求1所述的方法,其中,基于所述地址文本集合和至少一个地理实体的属性,生成所述多个训练集合包括:
获取所述每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;
基于所述每个索引信息对应的两个地理实体,每个地理实体的属性,以及所述两个地理实体是否相一致的标签,生成所述每个训练集合。
4.根据权利要求1所述的方法,其中,从地址库中获取地址文本集合包括:
从所述地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;
获取所述每个地址文本中的预设地址元素,得到所述每个地址文本对应的索引信息;
将相同索引信息对应的地址文本进行汇总,得到所述地址文本集合。
5.根据权利要求4所述的方法,所述方法还包括:
获取多个地理实体的地址文本;
对所述地址文本进行编码处理,得到处理后的地址文本;
对所述处理后的地址文本进行划分,得到多个地址元素;
对所述多个地址元素进行聚合,建立所述地址库。
6.根据权利要求5所述的方法,其中,所述编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
7.根据权利要求2所述的方法,所述方法还包括:
对所述文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,所述处理后的文本识别模型的输出结果仅包括:用于表征输入的地址文本包含的地理实体是否相一致的识别结果;
利用所述处理后的文本识别模型对所述每个地址文本进行识别,得到所述识别结果。
8.根据权利要求1所述的方法,其中,在获取至少两个地址文本之后,所述方法还包括:
对所述每个地址文本进行过滤,得到过滤后的地址文本;
对所述过滤后的地址文本进行编码处理,得到处理后的地址文本;
利用文本识别模型对所述处理后的地址文本进行识别,得到所述识别结果。
9.根据权利要求1所述的方法,其中,所述文本识别模型包括:依次连接的嵌入层、双向长短时记忆网络层、全连接层和输出层,其中,
所述嵌入层用于获取输入的地址文本中每个词语对应的词向量;
所述双向长短时记忆网络层用于基于所述每个词语对应的词向量,得到所述每个词语对应的语义特征;
所述全连接层用于基于所述地址文本中每个词语对应的语义特征,得到所述输入的地址文本的特征向量;
所述输出层用于基于所述输入的地址文本的特征向量,得到所述识别结果。
10.根据权利要求1所述的方法,其中,所述属性包括如下至少之一:类别、经纬度、占地面积、是否为建筑群、建筑内机构。
11.一种地址信息的处理方法,包括:
显示至少两个地址文本;
显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,所述识别结果是利用文本识别模型对每个地址文本进行识别得到的,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,所述文本识别模型是利用多个训练集合训练得到的,所述多个训练集合是基于地址文本集合和至少一个地理实体的属性生成的,所述地址文本集合是从地址库中获取到的,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定。
12.根据权利要求11所述的方法,其中,所述文本识别模型利用多个训练集合对文本识别模型进行训练得到,其中,所述每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签。
13.根据权利要求12所述的方法,其中,所述多个训练集合基于从地址库中获取到的地址文本集合和至少一个地理实体的属性生成,其中,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的所述至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定。
14.一种地址信息的处理装置,包括:
获取模块,用于获取至少两个地址文本;
识别模块,用于利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到;
生成模块,用于生成多个训练集合,其中,所述多个训练集合是基于所述地址文本集合和至少一个地理实体的属性生成的,所述地址文本集合是从地址库中获取得到,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204539.1A CN111723164B (zh) | 2019-03-18 | 2019-03-18 | 地址信息的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204539.1A CN111723164B (zh) | 2019-03-18 | 2019-03-18 | 地址信息的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723164A CN111723164A (zh) | 2020-09-29 |
CN111723164B true CN111723164B (zh) | 2023-12-12 |
Family
ID=72563107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910204539.1A Active CN111723164B (zh) | 2019-03-18 | 2019-03-18 | 地址信息的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723164B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011157A (zh) * | 2021-03-19 | 2021-06-22 | 中国联合网络通信集团有限公司 | 地址信息分级处理方法、装置及设备 |
CN113569045A (zh) * | 2021-07-13 | 2021-10-29 | 网易传媒科技(北京)有限公司 | 对象文本中地点识别方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840406A (zh) * | 2009-03-20 | 2010-09-22 | 富士通株式会社 | 地名搜索装置和系统 |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN107025232A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 物流系统中地址信息的处理方法及装置 |
CN107256230A (zh) * | 2017-05-03 | 2017-10-17 | 昆明理工大学 | 一种基于多元化地理信息点的融合方法 |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核系统工程有限公司 | 一种判定文本相似性的方法和系统 |
CN108171529A (zh) * | 2017-12-04 | 2018-06-15 | 昆明理工大学 | 一种地址相似度评估方法 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN108829737A (zh) * | 2018-05-21 | 2018-11-16 | 浙江大学 | 基于双向长短期记忆网络的文本交叉组合分类方法 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
-
2019
- 2019-03-18 CN CN201910204539.1A patent/CN111723164B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840406A (zh) * | 2009-03-20 | 2010-09-22 | 富士通株式会社 | 地名搜索装置和系统 |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN107025232A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 物流系统中地址信息的处理方法及装置 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN107256230A (zh) * | 2017-05-03 | 2017-10-17 | 昆明理工大学 | 一种基于多元化地理信息点的融合方法 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核系统工程有限公司 | 一种判定文本相似性的方法和系统 |
CN108171529A (zh) * | 2017-12-04 | 2018-06-15 | 昆明理工大学 | 一种地址相似度评估方法 |
CN108829737A (zh) * | 2018-05-21 | 2018-11-16 | 浙江大学 | 基于双向长短期记忆网络的文本交叉组合分类方法 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111723164A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
JP2023529939A (ja) | マルチモーダルpoi特徴の抽出方法及び装置 | |
CN110688449A (zh) | 基于深度学习的地址文本处理方法、装置、设备及介质 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN108509569A (zh) | 企业画像的生成方法、装置、电子设备以及存储介质 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN111324679A (zh) | 地址信息的处理方法、装置和系统 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN111143534A (zh) | 基于人工智能的品牌名的提取方法、装置及存储介质 | |
CN112417121A (zh) | 客户意图识别方法、装置、计算机设备及存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN111723164B (zh) | 地址信息的处理方法和装置 | |
CN112598039A (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN114911915A (zh) | 一种基于知识图谱的问答搜索方法、系统、设备和介质 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN113360791B (zh) | 电子地图的兴趣点查询方法、装置、路侧设备及车辆 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN111723177B (zh) | 信息提取模型的建模方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |