CN113761867A - 地址识别方法、装置、计算机设备及存储介质 - Google Patents

地址识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113761867A
CN113761867A CN202011592596.0A CN202011592596A CN113761867A CN 113761867 A CN113761867 A CN 113761867A CN 202011592596 A CN202011592596 A CN 202011592596A CN 113761867 A CN113761867 A CN 113761867A
Authority
CN
China
Prior art keywords
address
text
texts
similarity
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011592596.0A
Other languages
English (en)
Inventor
陈国春
郑宇�
张钧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong City Beijing Digital Technology Co Ltd
Original Assignee
Jingdong City Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong City Beijing Digital Technology Co Ltd filed Critical Jingdong City Beijing Digital Technology Co Ltd
Priority to CN202011592596.0A priority Critical patent/CN113761867A/zh
Publication of CN113761867A publication Critical patent/CN113761867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种地址识别方法、装置、计算机设备及存储介质,其中,方法包括:获取多个地址文本;根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组;对每个地址文本识别包含编码的第一文本部分以及除第一文本部分以外的第二文本部分;对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到上述至少两地址文本之间第二文本部分的语义相似度;根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别上述至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性。

Description

地址识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机领域,尤其涉及一种地址识别方法、装置、计算机设备及存储介质。
背景技术
不同数据源、业务源或时间产生地址文本时,同一个地址对象可能会有多种文本表述,比如“北京通州区马驹桥镇星悦国际8号楼888室”和“北京市通州区兴贸三街星悦国际小区8栋888”两个地址文本表示的为同一个地址,将这两个地址文本识别为同一地址并赋予对应地址ID的过程,称为地址对齐或地址匹配。将地址对齐后,可以融合多方数据源,以实现对地址上的人、事、物进行分析。
因此,如何实现将不同的地址文本识别为同一地址是非常重要的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
本发明提出一种地址识别方法、装置、计算机设备及存储介质,以实现通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
本发明第一方面实施例提出了一种地址识别方法,包括:
获取多个地址文本;
根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组;
对每个所述地址文本识别包含编码的第一文本部分,以及除所述第一文本部分以外的第二文本部分;
对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度;
根据所述至少两地址文本的所述语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址。
本发明实施例的地址识别方法,通过获取多个地址文本,并根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组,并对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分,之后,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到至少两地址文本之间第二文本部分的语义相似度,最后,根据至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
本发明第二方面实施例提出了一种地址识别装置,包括:
获取模块,用于获取多个地址文本;
分组模块,用于根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组;
划分模块,用于对每个所述地址文本识别包含编码的第一文本部分,以及除所述第一文本部分以外的第二文本部分;
相似度识别模块,用于对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度;
地址识别模块,用于根据所述至少两地址文本的所述语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址。
本发明实施例的地址识别装置,通过获取多个地址文本,并根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组,并对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分,之后,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到至少两地址文本之间第二文本部分的语义相似度,最后,根据至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
本发明第三方面实施例提出了计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明第一方面实施例提出的地址识别方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明第一方面实施例提出的地址识别方法。
本发明第五方面实施例提出了一种计算机程序产品,如本发明第一方面实施例提出的包括计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面实施例提出的地址识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一所提供的地址识别方法的流程示意图;
图2为本发明实施例二所提供的地址识别方法的流程示意图;
图3为本发明实施例三所提供的地址识别方法的流程示意图;
图4为本发明实施例中的地理网格示意图;
图5为本发明实施例四所提供的地址识别方法的流程示意图;
图6为本发明实施例五所提供的地址识别装置的结构示意图;
图7示出了适于用来实现本发明实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的地址识别方法、装置、计算机设备及存储介质。
图1为本发明实施例一所提供的地址识别方法的流程示意图。
本发明实施例以该地址识别方法被配置于地址识别装置中来举例说明,该地址识别装置可以应用于任一计算机设备中,以使该计算机设备可以执行地址识别功能。
其中,计算机设备可以为任一具有计算能力的设备,例如可以为PC(PersonalComputer,个人电脑)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该地址识别方法可以包括以下步骤:
步骤101,获取多个地址文本。
在本发明实施例中,对地址文本的获取方式并不作限制,例如,可以通过下述几种方式对地址文本的获取方式进行示例性说明。
作为一种示例,可以通过网络爬虫技术,从多个网站获取多个地址文本。
可以理解的是,政府相关部门、电商平台、物流平台、外卖平台、金融平台、交通出行平台等会产生大量的地址数据,因此,作为另一种示例,可以从多个网络平台、多个数据源、多个业务源等,获取多个地址文本。
需要说明的是,还可以由用户输入多个地址文本,其中,输入方式包括但不限于触摸输入(如滑动、点击等)、键盘输入、语音输入等,因此,作为又一种示例,还可以响应于用户操作,获取多个地址文本。其中,用户操作可以为输入操作、选择操作等用户触发的操作。
比如,可以通过用户手动输入、语音输入多个地址文本。或者,还可以对用户选取的图片进行OCR(Optical Character Recognition,光学字符识别)识别,获取图片上的多个地址文本。
进一步地,为了使得所获取的多个地址文本的格式更加规范化,在获取到多个地址文本之后,还可以对多个地址文本进行预处理。其中,预处理可以包括但不限于字符全角转换为半角、繁体字转换为简体字、过滤特殊格式字符、过滤无意义字符(比如空格、制表符、无关标点等)、删除附言词、罗马数字和中文数字转换为阿拉伯数字等处理。
步骤102,根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组。
需要说明的是,互联网产生的地址文本,其来源往往会记录下地址的经纬度,其中,经纬度是刻画地址空间位置最常见的特征,而且通过GPS(Global Position System,全球定位系统)等方式得到的经纬度相对比较准确,位置偏差一般不会超过1公里,因此,本发明实施例中,地址文本对应的地理位置可以包括经纬度信息。此外,除了经纬度,地址文本所属的行政区域或附带区域编码(比如区域ID),也能刻画地址所处的空间范围,因此,本发明实施例中,地址文本对应的地理位置还可以包括行政区域或区域ID。
可以理解的是,不同地址文本可以具有不同的空间位置和/或处于不同的区域,为了提升相同地址识别结果的准确性,在本发明实施例的一种可能的实现方式中,可以将各地址文本按照地理位置进行划分,将属于同一区域范围内的地址文本划分为同一分组。
在本发明实施例中,可以将上述根据地理位置,对地址文本进行分组的方式,称为空间分组。空间分组是以地理位置为依据,对地址文本进行分组,同一空间分组下的地址文本仍然可能包含着复杂的形式、多元的粒度(即地址层级)组合和丰富的特征。因此,为了提升识别结果的准确性,在本发明实施例的另一种可能的实现方式中,还可以根据地址文本的文本类型,将地址文本划分的更细,使得单个分组内部的地址文本具有某种模式的一致性。
其中,地址文本所属的文本类型可以根据地址文本所指示的场所确定。或者,也可以根据地址文本所包含的地址层级确定。
具体地,可以根据各地址文本所属的文本类型,对多个地址文本进行分组。其中,属于同一分组的各地址文本所属的文本类型相同。
作为一种示例,当地址文本所属的文本类型是以根据地址文本所指示的场所确定的时,比如,地址文本可以指示住宅、商业、企业、政府、教育、公共场所等场所,可以将指示相同场所的地址文本,作为相同文本类型,将相同文本类型的地址文本划分为同一分组。举例而言,可以将指示为住宅场所的地址文本划分为分组1、将指示为商业场所的地址文本划分为分组2、将指示为企业场所的地址文本划分为分组3、将指示为政府场所的地址文本划分为分组4、将指示为教育场所的地址文本划分为分组5、将指示为公共场所的地址文本划分为分组6。
作为另一种示例,当地址文本所属的文本类型是以根据地址文本所包含的地址层级确定的时,比如,地址文本可以包含社区、小区、楼栋、楼层、门户等地址层级,可以将包含同一地址层级的地址文本,作为相同文本类型,将相同文本类型的地址文本划分为同一分组。比如,可以将包含社区这一地址层级的地址文本划分为分组A、将包含小区这一地址层级的地址文本划分为分组B、将包含楼栋这一地址层级的地址文本划分为分组C、将包含楼层这一地址层级的地址文本划分为分组D、将包含门户这一地址层级的地址文本划分为分组E。
在本发明实施例的又一种可能的实现方式中,还可以根据地址文本对应的地理位置和各地址文本所属的文本类型,对多个地址文本进行分组。其中,属于同一分组的地址文本属于同一区域范围内,且文本类型相同(比如各地址文本所指示的场所相同,或各地址文本所包含的地址层级相同)。
步骤103,对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分。
需要说明的是,多数地址文本可以包含道路号、村组编号、门牌号、楼栋号、单元楼号、房间号等编号,比如“2栋3单元402室”、“1村2组31号”。本发明实施例中的包含编码的第一文本部分,是指包含上述编号的文本部分,例如,第一文本部分可以为包含数字和/或字母的文本部分。
在本发明实施例的一种可能的实现方式中,针对每个地址文本,可以对该地址文本从首次出现的字母或数字开始截取,截取至地址文本中的最后一个字符,以得到包含编码的第一文本部分。在截取到第一文本部分后,可以将地址文本中除该第一文本部分以外的文本部分作为第二文本部分。
举例而言,以地址文本为“北京市通州区马驹桥镇星悦国际小区8栋888”进行示例,第一文本可以为“8栋888”,第二文本可以为“北京市通州区马驹桥镇星悦国际小区”。
需要说明的是,实际应用时,除了号楼、楼、栋、单元、室、组、号等这些词前具有数字或字母外,其他词前也可能存在字母或数字,举例而言,地址文本为“北京通州区六环外马驹桥镇富力尚悦居1栋413”,将该地址文本中的中文数字转换为阿拉伯数字,得到预处理后的地址文本为“北京通州区6环外马驹桥镇富力尚悦居1栋413”,此时,若直接对该地址文本从首次出现的字母或数字开始截取,截取至地址文本中的最后一个字符,得到的第一文本部分将为“6环外马驹桥镇富力尚悦居1栋413”,显然,截取的结果是不合理的。
因此,作为本发明实施例的另一种可能的实现方式,还可以结合文法匹配等筛选规则,对上述截取的文本片段进行筛选,以得到包含编码的第一文本部分。例如,可以仅保留上述文本部分中包含号楼、楼、栋、单元、室、组、号等之前和之后的字母和数字。
需要说明的是,本发明仅以步骤103在步骤102之后执行进行示例,实际应用时,为了提升识别效率,步骤103还可以与步骤102并列执行,或者,步骤103也可以在步骤102之前执行,本发明实施例对此并不做限制。
步骤104,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到上述至少两地址文本之间第二文本部分的语义相似度。
在本发明实施例中,可以通过语义相似度模型来衡量任意两个地址文本之间的相似度。具体地,在对地址文本进行分组后,针对各个分组,可以对该分组内的任意两个地址文本,采用语义相似度模型识别上述两个地址文本中的第二文本部分,以得到上述两个地址文本之间第二文本部分的语义相似度。
步骤105,根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别上述至少两地址文本是否属于相同地址。
在本发明实施例中,可以根据上述至少两个地址文本的语义相似度,和/或,根据第一文本部分的文本匹配性,识别上述至少两个地址文本是否属于相同地址。
在本发明实施例的一种可能的实现方式中,针对同一分组内的至少两个地址文本,可以根据上述至少两个地址文本的语义相似度识别上述至少两个地址文本是否属于相同地址。例如,可以判断上述至少两个地址文本的语义相似度是否大于设定阈值,在上述至少两个地址文本的语义相似度大于设定阈值的情况下,可以将上述至少两个地址文本识别为相同地址,而在上述至少两个地址文本的语义相似度小于或者等于设定阈值的情况下,可以将上述至少两个地址文本识别为不同地址。
可以理解的是,当两个地址文本的第一文本部分匹配时,并不能识别两个地址文本属于相同地址,比如地址文本1为“北京市通州区A小区8号楼888室”,地址文本2为“北京市通州区B小区8栋888”,地址文本1的第一文本部分为“8号楼888室”,地址文本2的第一文本部分为“8栋888”,可知地址文本1和地址文本2之间的第一文本部分匹配,但是,地址文本1和地址文本2并非为同一地址。
因此,为了提升识别结果的准确性,在本发明实施例的另一种可能的实现方式中,可以判断上述至少两个地址文本是否包含第一文本部分,在上述至少两个地址文本包含第一文本部分的情况下,可以判断上述至少两个地址文本中的第一文本部分是否匹配,在上述至少两个地址文本中的第一文本部分不匹配的情况下,则可以将上述至少两个地址文本识别为不同地址,而在上述至少两个地址文本中的第一文本部分匹配的情况下,则进一步识别上述至少两个地址文本的语义相似度是否大于第一阈值,在上述至少两个地址文本中的第一文本部分匹配,且语义相似度大于第一阈值的情况下,可以将上述至少两个地址文本识别为相同地址,而在上述至少两个地址文本的语义相似度小于或者等于第一阈值的情况下,可以将上述至少两个地址文本识别为不同地址。
而在上述至少两个地址文本未包含第一文本部分的情况下,可以判断上述至少两个地址文本的语义相似度是否大于第二阈值,在上述至少两个地址文本的语义相似度小于或者等于第二阈值的情况下,则可以将上述至少两个地址文本识别为不同地址,而在上述至少两个地址文本的语义相似度大于第二阈值的情况下,则可以将至少两个地址文本识别为相同地址。其中,第二阈值大于第一阈值。
也就是说,本发明实施例中,可以将第一文本部分作为地址匹配的辅助依据,在地址文本中包含第一文本部分的情况下,可以设置一个较小的阈值,本发明实施例中记为第一阈值,以避免因阈值设置过高,而造成地址文本遗漏匹配的情况,而在地址文本中未包含第一文本部分的情况下,则可以设置一个较大的阈值,本发明实施例中记为第二阈值,以提升识别结果的准确性。
需要说明的是,由于第一编码部分的特征复杂度较低,可对其进行高精准地标准化,即可以将第一编码部分转换为“[index][村][index][组][index][号]”、“[index][栋][index][单元][index][室]”等标准索引,比如,“8号楼888室”和“8栋888”对应的标准索引均为[index=8][栋][index=808][室]。因此,在本发明实施例的又一种可能的实现方式中,可以判断上述至少两个地址文本是否包含第一文本部分,在上述至少两个地址文本包含第一文本部分的情况下,可以判断上述至少两个地址文本中的第一文本部分的标准索引是否相同,在上述至少两个地址文本中的第一文本部分的标准索引不同的情况下,则可以将上述至少两个地址文本识别为不同地址,而在上述至少两个地址文本中的第一文本部分的标准索引相同的情况下,则进一步识别上述至少两个地址文本的语义相似度是否大于第一阈值,在上述至少两个地址文本中的第一文本部分的标准索引相同,且语义相似度大于第一阈值的情况下,可以将上述至少两个地址文本识别为相同地址。
通过上述方法,可以实现将各个分组内的各个地址文本进行地址对齐,以完成所有地址文本的对齐。可选地,为了提升地址对齐效率,各个分组可以并行地进行地址对齐。
作为一种应用场景,可以给定一个地址文本集合,通过上述方法,实现地址文本集合内部的各地址文本相互间的地址对齐,或者,可以给定一个或多个新的地址文本,将新的地址文本与地址库里的地址集合进行对齐,然后加入到地址库中。将地址对齐后,可以融合多方数据源,以实现对地址上的人、事、物进行分析。
本发明实施例的地址识别方法,通过获取多个地址文本,并根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组,并对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分,之后,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到至少两地址文本之间第二文本部分的语义相似度,最后,根据至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
在本发明实施例的一种可能的实现方式中,上述实施例中的语义相似度模型可以包括通用识别模型以及分组识别模型,语义相似度可以根据通用识别模型输出的第一相似度以及分组识别模型输出的第二相似度确定。下面结合实施例二,对上述过程进行详细说明。
图2为本发明实施例二所提供的地址识别方法的流程示意图。
如图2所示,该地址识别方法可以包括以下步骤:
步骤201,获取多个地址文本。
步骤202,根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组。
步骤203,对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分。
在本发明实施例中,步骤201至203可以分别采用本发明的各实施例中的任一种方式实现,本发明实施例并不对此作出限定,也不再赘述。
步骤204,将同一分组内的至少两地址文本的第二文本部分输入通用识别模型,以得到输出的第一相似度。
在本发明实施例中,通用识别模型可以采用有监督训练,或者也可以采用无监督训练,本发明实施例对通用识别模型的训练方式不做限定。其中,通用识别模型的训练语料可以来自于多个分组,可以将多个分组中的地址文本中的第二文本部分作为通用识别模型的训练语料。
具体地,通用识别模型的训练语料可以是汇集多各分组的地址文本中的第二文本部分,多个分组的训练语料可以构成大规模的语料集合,基于该语料集合,可训练复杂的、参数量较大的相似性度量模型,即通用识别模型。通过大量训练语料的训练,通用识别模型能够获取较好的地址语义表达能力和泛化性,对各分组的地址文本均有一定的相似性度量能力。
在对通用识别模型进行训练时,可以将训练语料中的任意两个训练样本(即第二文本部分)之间的相似度进行标注,利用标注相似度的任意两个训练样本对通用识别模型进行训练,以使通用识别模型能够学习到任意两个第二文本部分与相似度之间的对应关系。
因此,本发明实施例中,可以将至少两个地址文本的第二文本部分输入通用识别模型,以得到输出的第一相似度。例如,标注第一相似度为S1
步骤205,将上述至少两地址文本的第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度。
在本发明实施例中,每个分组均具有对应的分组识别模型,分组识别模型的训练语料可以来自于对应分组,可以将对应分组中的地址文本中的第二文本部分作为分组识别模型的训练语料。即本发明中,各分组识别模型是针对对应分组中第二文本部分中的地址特征进行拟合,以实现更准确的地址匹配效果。
其中,分组识别模型可以采用有监督训练,或者也可以采用无监督训练,本发明实施例对分组识别模型的训练方式不做限定。
其中,分组识别模型可以采用词袋、TF-IDF(Term Frequency-Inverse DocumentFrequency,词频—逆文档频率)等轻量化模型,以实现降低模型的训练成本和存储成本,并提升模型的训练效率。
需要说明的是,现有的语义相似度模型通过学习词句的深度语义嵌入,将具有相近语义的词句表征为相近的特征向量。然而,不同于日常用语,地址文本包含有大量的专有名词,仅根据语义来进行地址匹配,识别结果的准确性较低。如果将采用从地址以外的语料数据学习到的语言模型,迁移到地址文本识别场景中,仍然无法精细地衡量地址文本里的专门名词相似性。比如,江苏省南通市存在四个紧邻的小区:“***五山新苑**”、“***五山家园**”、“***五山公寓**”、“***五山花苑**”,这四个小区的语义相似度较高,但是字面不同,而实际中这四个小区就是不同的地址对象,同时,由于这四个小区的地理位置较为相近,因此,这四个小区在粗粒度的地址层级(省、市、区、县等)是相同的,在基于地理位置和/或文本类型分组后,这四个小区的在文本上下文方面也极其相近,仅采用通用识别模型计算相似度,并根据相似度来进行相同地址的识别,较易出现识别错误的情况。
因此,在本发明实施例中,为了提升识别结果的准确性,还可以通过该分组识别模型,计算地址文本的字面级特征的相似度,本发明实施例中记为第二相似度。具体地,可以将上述至少两地址文本的第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度。例如,标记第二相似度为S2
步骤206,根据第一相似度和第二相似度,确定上述至少两地址文本之间第二文本部分的语义相似度。
在本发明实施例中,可以根据第一相似度和第二相似度,确定语义相似度。其中,语义相似度与第一相似度之间具有正向关系,并且,语义相似度与第二相识度之间具有正向关系。
在本发明实施例的一种可能的实现方式中,可以根据预设的权重,对第一相似度和第二相似度进行加权,以得到上述至少两个地址文本之间第二文本部分的语义相似度。例如,标记语义相似度为S,预设的权重为σ,则S可以为:
S=σ*S1+(1-σ)*S2;(1)
步骤207,根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。
步骤207的执行过程可以参见上述实施例中步骤105的执行过程,在此不做赘述。
本发明实施例的地址识别方法,通过通用识别模型以及分组识别模型来识别不同地址文本之间的语义相似度,可以提升相似度结算结果的准确性,从而提升后续同一地址的识别结果的准确性。
为了清楚说明本发明是如何根据地理位置对地址文本进行分组的,本实施例提供了另一种地址识别方法,图3为本发明实施例三所提供的地址识别方法的流程示意图。
如图3所示,该地址识别方法可以包括以下步骤:
步骤301,获取多个地址文本。
在本发明实施例中,步骤301可以分别采用本发明的各实施例中的任一种方式实现,本发明实施例并不对此作出限定,也不再赘述。
步骤302,根据各地址文本对应的地理位置,从多个设定区域范围中,确定各地址文本所属的区域范围。
其中,各个设定区域范围为预先设置的,设定区域范围大小和形状可以根据实际应用需求进行设置,比如,设定区域范围的形状可以为矩阵、三角形、正六边形等等,设定区域范围大小可以以村组、乡、镇、街道、区、县等为单位进行划分,本发明实施例对此并不作限制。
在本发明实施例中,可以根据各地址文本对应的地理位置,从多个设定区域范围中,确定各地址文本所属的区域范围。例如,当地址文本对应的地理位置,位于某一设定区域范围内时,可以确定该地址文本所属的区域范围为该设定区域范围。
在本发明实施例的一种可能的实现方式中,当地理位置包括经纬度信息时,针对各地址文本,可以将表征地理位置的经纬度信息进行哈希编码,例如,可以通过地理哈希(GeoHash)算法,将表征地理位置的经纬度信息进行哈希编码,根据哈希编码,确定各地址文本所属的区域范围。其中,具有相同哈希编码的地址文本属于同一区域范围。因此,本发明实施例中,可以将属于同一哈希编码的地址文本划分为同一分组。
需要说明的是,上述基于地理哈希算法进行分组的方式,是将地理空间划分为完全互斥的不同区域,但在现实情况下,GPS等方式采集到的经纬度可能存在一定的偏差,处于哈希编码网格边缘,本发明中记为地理网格边缘的地址文本可能存在划分不准确的情况。因此,需要在地理网格分组的基础上,对位于地理网格边缘的地址文本进行优化。
例如,参加图4,可以将地理网格内部以及跨地理网格边缘地带的地址文本,划分到同一分组,其中,图4中的虚线圈定的范围内的所有地址文本都属于以哈希编码为GeoHash4为中心的分组。如此,优化后的相邻分组可以存在重合的地址文本,而非完全互斥。
具体地,可以将属于同一地理网格的哈希编码,以及处于地址网络边缘的哈希编码,确定处于地理网格对应的区域范围,根据各哈希编码所处的区域范围,确定各地址文本所属的区域范围,从而可以将属于相同区域范围的地址文本,划分为同一分组。
步骤303,将属于相同区域范围的地址文本,划分为同一分组。
在本发明实施例中,在确定各地址文本的区域范围后,可以将属于同一区域范围的地址文本,划分为同一分组。
步骤304,对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分。
步骤305,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到上述至少两地址文本之间第二文本部分的语义相似度。
步骤306,根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别上述至少两地址文本是否属于相同地址。
在本发明实施例中,步骤304至306可以分别采用本发明的各实施例中的任一种方式实现,本发明实施例并不对此作出限定,也不再赘述。
需要说明的是,由于上述哈希编码进行分组的方式中,相邻分组中可能存在重合的地址文本,在通过上述步骤进行地址对齐或地址匹配后,可以将相邻地理网格的对齐结果进行融合,以消除经纬度偏移所造成的遗漏匹配的情况,提升识别结果的准确性。
具体地,可以查询属于至少两个目标分组的重复地址文本,并在上述至少两个目标分组中确定与该重复地址文本属于相同地址的目标地址文本,对重复地址文本进行去重,并将上述至少两个目标分组中的目标地址文本,确定为对应相同地址。
举例而言,地址文本1同时位于地址网格1和地址网格2的边缘,此时,划分得到的分组1和分组2中同时存在地址文本1,假设识别得到分组1中与地址文本1属于相同地址的为地址文本2和地址文本3,分组2中与地址文本1属于相同地址的为地址文本4和地址文本5,则可以确定地址文本1、地址文本2、地址文本3、地址文本4和地址文本5均属于同一地址。即,可以将相邻分组里与地址文本1对齐的两个地址簇进行合并。
需要说明的是,上述以哈希编码描述了地址文本的分组过程,但是,本发明实施例中的地址识别方法可以适用于多种分组策略,当地理位置为行政区域或区域ID时,也可以采用适当的分组策略实现对各地址文本进行分组,将属于同一行政区域或同一区域ID的地址文本划分为同一分组,本发明实施例对此并不做限制。
本发明实施例的地址识别方法,通过将地址分组进行分组,在地址对齐时,仅需对属于同一区域范围内,即同一分组内的地址文本进行相互对齐,而无需对相距甚远的其他分组中的各地址文本进行匹配,可以提升地址对齐效率。并且,不同区域范围内可能存在两个或多个地址文本具有相同的文本片段,比如相同的小区名或道路名,通过在各分组内进行地址对齐,有利于降低地址对齐或地址匹配的错误率,提升识别结果的准确性。
为了清楚说明本发明是如何根据文本类型对地址文本进行分组的,本实施例提供了另一种地址识别方法,图5为本发明实施例四所提供的地址识别方法的流程示意图。
如图5所示,该地址识别方法可以包括以下步骤:
步骤401,获取多个地址文本。
在本发明实施例中,步骤401可以分别采用本发明的各实施例中的任一种方式实现,本发明实施例并不对此作出限定,也不再赘述。
步骤402,根据预设多级地址中各地址文本所包含的地址层级,确定地址文本所属的文本类型。
在本发明实施例中,多级地址为预先设置的。例如,以多级地址包括14个地址层级进行示例,该多级地址可以如表1所示。
Figure BDA0002869074930000121
Figure BDA0002869074930000131
表1多级地址中的各地址层级
其中,POI为兴趣点(Points of Interest)的简称。POI是指与用户生活密切相关的地理实体,例如可以为学校、银行、餐馆、加油站、医院、超市、一栋房子、一个商铺、一个邮筒、一个公交站等等地理实体。表1中,第1级为最大地址层级,第14级为最小地址层级。
在本发明实施例中,可以根据各地址文本所包含的地址层级,确定地址文本所属的文本类型。例如,可以将具有相同地理层级的地址文本,确定为相同文本类型。其中,当地址文本所包含的地址层级不同时,地址文本所属的文本类型不同。比如,地理层级为社区对应的文本类型,不同于地理层级为村组对应的文本类型。
在本发明实施例的一种可能的实现方式中,可以从多级地址中,确定各地址文本包含的最小地址层级,将具有相同最小地址层级的地址文本,作为相同文本类型。
步骤403,根据地址文本所属的文本类型,对多个地址文本进行分组。
在本发明实施例中,在确定各地址文本所属的文本类型后,可以根据各地址文本所属的文本类型,对多个地址文本进行分组。比如,可以将相同文本类型的地址文本,划分为同一分组。
在本发明实施例中,可以将上述根据文本类型,对地址文本进行分组的方式,称为语义分组。可选地,当不同地址文本对应的最小地址层级相同,但是最小地址层级对应的层级类型不同时,也可以划分为不同的分组。比如,地址文本A和地址文本B的最小地址层级均为第6级,但是地址文本A的层级类型为村,而地址文本B的层级类型为小区或社区,此时,可以将地址文本A和地址文本B划分为不同的分组,以提升地址匹配或地址对齐结果的准确性。
由此,通过对地址文本进行语义分组,分组内的地址文本具有相同的最小地址层级或层级类型或其他特征方面模式一致性,可以降低地址匹配时的特征复杂度。
步骤404,对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分。
步骤405,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到上述至少两地址文本之间第二文本部分的语义相似度。
步骤406,根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别上述至少两地址文本是否属于相同地址。
在本发明实施例中,步骤404至406可以分别采用本发明的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
需要说明的是,在大规模地址文本的地址匹配或地址对齐场景下,海量的地址文本中包含着复杂的形式、多元的粒度组合和丰富的特征,而且,受限于地址文本产生过程中人为的错漏或不规范填写等因素,地址文本的特征空间更为复杂。而现有技术中针对不同形式、粒度和特征的地址文本,采用一致的型或规则来处理、计算和判断,这限制了地址匹配或地址对齐的准确性。
而本发明实施例中,对各地址文本进行策略性的分组,使得单个分组内的地址文本具有一定的模式一致性,简约地址文本的特征空间,在此基础上,采用具有针对性的语义相似度识别模型(或规则)进行细致的地址匹配,能够提升地址匹配的准确度。即本发明中,由于通用识别模型已通过大量训练预料学习到较好的语义表达能力,实现语义层面的匹配,分组识别模型采用轻量化模型,针对单个分组内的地址文本进行拟合,实现包括字面相似性在内的针对性的地址匹配能力。综合两类模型的输出得到不同地址文本之间的语义相似度,可以提升相似度计算结果的准确性。并且,将地址文本中包含编码的第一文本部分作为验证地址匹配的一种依据,有了该依据,即在地址文本中包含第一文本部分的情况下,可以将相似度阈值设置得较为宽松,从而可以减少因阈值设置过高,而造成地址文本遗漏匹配的情况。因此,本发明实施例中,根据不同地址之间的语义相似度,第一文本部分的文本匹配性,识别是否属于相同地址,可以实现鲁棒性较高的地址匹配效果。
并且,对地址文本进行空间分组和/或语义分组,一方面,可以实现分组内的地址文本具有一定模式的一致性,利用分组内的各个地址文本对分组识别模型进行训练,并基于分组识别模型进行地址匹配,可以提升地址匹配结果的准确性。另一方面,多个分组可以并行进行地址匹配或地址对齐,可以提升处理效率,而且,仅在各分组内进行地址匹配,可以减小地址匹配的范围,同样可以提升处理效率。
与上述图1至图5实施例提供的地址识别方法相对应,本发明还提供一种地址识别装置,由于本发明实施例提供的地址识别装置与上述图1至图5实施例提供的地址识别方法相对应,因此在地址识别方法的实施方式也适用于本发明实施例提供的地址识别装置,在本发明实施例中不再详细描述。
图6为本发明实施例五所提供的地址识别装置的结构示意图。
如图6所示,该地址识别装置600可以包括:获取模块601、分组模块602、划分模块603、相似度识别模块604以及地址识别模块605。
其中,获取模块601,用于获取多个地址文本。
分组模块602,用于根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组。
划分模块603,用于对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分。
相似度识别模块604,用于对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到至少两地址文本之间第二文本部分的语义相似度。
地址识别模块605,用于根据至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。
进一步地,在本发明实施例的一种可能的实现方式中,地址识别模块605,包括:
第一识别单元,用于在至少两地址文本包含第一文本部分的情况下,若至少两地址文本中的第一文本部分匹配,且语义相似度大于第一阈值,将至少两地址文本识别为相同地址。
第二识别单元,用于在至少两地址文本未包含第一文本部分的情况下,若语义相似度大于第二阈值,将至少两地址文本识别为相同地址;其中,第二阈值大于第一阈值。
进一步地,在本发明实施例的一种可能的实现方式中,语义相似度识别模型包括通用识别模型和分组识别模型;相似度识别模块604,包括:
第一处理单元,用于将至少两地址文本的第二文本部分输入通用识别模型,以得到输出的第一相似度。
第二处理单元,用于将至少两地址文本的第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度。
确定单元,用于根据第一相似度和第二相似度,确定语义相似度。
进一步地,在本发明实施例的一种可能的实现方式中,确定单元,具体用于:根据预设的权重,对第一相似度和第二相似度进行加权,以得到语义相似度。
进一步地,在本发明实施例的一种可能的实现方式中,分组模块602,具体用于:根据各地址文本对应的地理位置,从多个设定区域范围中,确定各地址文本所属的区域范围;将属于相同区域范围的地址文本,划分为同一分组。
进一步地,在本发明实施例的一种可能的实现方式中,分组模块602,具体用于:对各地址文本,将表征地理位置的经纬度信息进行哈希编码;将属于同一地理网格的哈希编码,以及处于地址网络边缘的哈希编码,确定处于地理网格对应的区域范围;根据各哈希编码所处的区域范围,确定各地址文本所属的区域范围。
进一步地,在本发明实施例的一种可能的实现方式中,该地址识别装置600还可以包括:
查询模块,用于查询属于至少两目标分组的重复地址文本,以及在至少两目标分组中确定与重复地址文本属于相同地址的目标地址文本。
去重模块,用于对重复地址文本去重,并将至少两目标分组中的目标地址文本确定为对应相同地址。
进一步地,在本发明实施例的一种可能的实现方式中,分组模块602,具体用于:根据地址文本所指示的场所,确定地址文本所属的文本类型;根据地址文本所属的文本类型,对多个地址文本进行分组。
进一步地,在本发明实施例的一种可能的实现方式中,分组模块602,具体用于:根据预设多级地址中各地址文本所包含的地址层级,确定地址文本所属的文本类型;根据地址文本所属的文本类型,对多个地址文本进行分组。
进一步地,在本发明实施例的一种可能的实现方式中,分组模块602,具体用于:从多级地址中,确定各地址文本包含的最小地址层级;将具有相同最小地址层级的地址文本,确定为相同文本类型。
本发明实施例的地址识别装置,通过获取多个地址文本,并根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组,并对每个地址文本识别包含编码的第一文本部分,以及除第一文本部分以外的第二文本部分,之后,对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到至少两地址文本之间第二文本部分的语义相似度,最后,根据至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
为了实现上述实施例,本发明还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明前述任一实施例提出的地址识别方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明前述任一实施例提出的地址识别方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本发明前述任一实施例提出的地址识别方法。
图7示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种地址识别方法,其特征在于,包括以下步骤:
获取多个地址文本;
根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组;
对每个所述地址文本识别包含编码的第一文本部分,以及除所述第一文本部分以外的第二文本部分;
对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度;
根据所述至少两地址文本的所述语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址。
2.根据权利要求1所述的地址识别方法,其特征在于,所述根据所述至少两地址文本所述第二文本部分的语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址,包括:
在所述至少两地址文本包含所述第一文本部分的情况下,若所述至少两地址文本中的第一文本部分匹配,且所述语义相似度大于第一阈值,将所述至少两地址文本识别为相同地址;
在所述至少两地址文本未包含所述第一文本部分的情况下,若所述语义相似度大于第二阈值,将所述至少两地址文本识别为相同地址;其中,所述第二阈值大于所述第一阈值。
3.根据权利要求1所述的地址识别方法,其特征在于,所述语义相似度识别模型包括通用识别模型和分组识别模型;
所述对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度,包括:
将所述至少两地址文本的第二文本部分输入所述通用识别模型,以得到输出的第一相似度;
将所述至少两地址文本的所述第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述语义相似度。
4.根据权利要求3所述的地址识别方法,其特征在于,所述根据所述第一相似度和所述第二相似度,确定所述语义相似度,包括:
根据预设的权重,对所述第一相似度和所述第二相似度进行加权,以得到所述语义相似度。
5.根据权利要求1-4任一项所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组,包括:
根据各所述地址文本对应的地理位置,从多个设定区域范围中,确定各所述地址文本所属的区域范围;
将属于相同区域范围的所述地址文本,划分为同一分组。
6.根据权利要求5所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,从多个设定区域范围中,确定各所述地址文本所属的区域范围,包括:
对各所述地址文本,将表征地理位置的经纬度信息进行哈希编码;
将属于同一地理网格的哈希编码,以及处于所述地址网络边缘的哈希编码,确定处于所述地理网格对应的区域范围;
根据各所述哈希编码所处的区域范围,确定各所述地址文本所属的区域范围。
7.根据权利要求6所述的地址识别方法,其特征在于,所述根据所述至少两地址文本所述第二文本部分的语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址之后,还包括:
查询属于至少两目标分组的重复地址文本,以及在所述至少两目标分组中确定与所述重复地址文本属于相同地址的目标地址文本;
对所述重复地址文本去重,并将所述至少两目标分组中的所述目标地址文本确定为对应相同地址。
8.根据权利要求1-4任一项所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组,包括:
根据所述地址文本所指示的场所,确定所述地址文本所属的文本类型;
根据所述地址文本所属的文本类型,对所述多个地址文本进行分组。
9.根据权利要求1-4任一项所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组,包括:
根据预设多级地址中各所述地址文本所包含的地址层级,确定所述地址文本所属的文本类型;
根据所述地址文本所属的文本类型,对所述多个地址文本进行分组。
10.根据权利要求9所述的地址识别方法,其特征在于,所述根据预设多级地址中各所述地址文本所包含的地址层级,确定所述地址文本所属的文本类型,包括:
从所述多级地址中,确定各所述地址文本包含的最小地址层级;
将具有相同最小地址层级的地址文本,确定为相同文本类型。
11.一种地址识别装置,其特征在于,包括:
获取模块,用于获取多个地址文本;
分组模块,用于根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组;
划分模块,用于对每个所述地址文本识别包含编码的第一文本部分,以及除所述第一文本部分以外的第二文本部分;
相似度识别模块,用于对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度;
地址识别模块,用于根据所述至少两地址文本的所述语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址。
12.根据权利要求11所述的地址识别装置,其特征在于,所述地址识别模块,包括:
第一识别单元,用于在所述至少两地址文本包含所述第一文本部分的情况下,若所述至少两地址文本中的第一文本部分匹配,且所述语义相似度大于第一阈值,将所述至少两地址文本识别为相同地址;
第二识别单元,用于在所述至少两地址文本未包含所述第一文本部分的情况下,若所述语义相似度大于第二阈值,将所述至少两地址文本识别为相同地址;其中,所述第二阈值大于所述第一阈值。
13.根据权利要求11所述的地址识别装置,其特征在于,所述语义相似度识别模型包括通用识别模型和分组识别模型;
所述相似度识别模块,包括:
第一处理单元,用于将所述至少两地址文本的第二文本部分输入所述通用识别模型,以得到输出的第一相似度;
第二处理单元,用于将所述至少两地址文本的所述第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度;
确定单元,用于根据所述第一相似度和所述第二相似度,确定所述语义相似度。
14.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-10中任一所述的地址识别方法。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的地址识别方法。
16.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现如权利要求1-10中任一项所述的地址识别方法。
CN202011592596.0A 2020-12-29 2020-12-29 地址识别方法、装置、计算机设备及存储介质 Pending CN113761867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011592596.0A CN113761867A (zh) 2020-12-29 2020-12-29 地址识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011592596.0A CN113761867A (zh) 2020-12-29 2020-12-29 地址识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113761867A true CN113761867A (zh) 2021-12-07

Family

ID=78786225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011592596.0A Pending CN113761867A (zh) 2020-12-29 2020-12-29 地址识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113761867A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
WO2024031943A1 (zh) * 2022-08-10 2024-02-15 中国银联股份有限公司 门店去重处理方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
CN114911787B (zh) * 2022-05-31 2023-10-27 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
WO2024031943A1 (zh) * 2022-08-10 2024-02-15 中国银联股份有限公司 门店去重处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
Matci et al. Address standardization using the natural language process for improving geocoding results
Wei et al. On the spatial distribution of buildings for map generalization
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN110347840B (zh) 投诉文本类别的预测方法、系统、设备和存储介质
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
EP4172803A1 (en) Computerized information extraction from tables
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN113761867A (zh) 地址识别方法、装置、计算机设备及存储介质
Lee et al. Improving a street-based geocoding algorithm using machine learning techniques
CN110765280A (zh) 地址识别方法和装置
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN117454884B (zh) 历史人物信息纠错方法、系统、电子设备和存储介质
US10909473B2 (en) Method to determine columns that contain location data in a data set
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
WO2021186287A1 (en) Vector embedding models for relational tables with null or equivalent values
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN109917456B (zh) 地震信息快速提取方法和系统
Yang et al. A mixture record linkage approach for US patent inventor disambiguation
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
Tong et al. A study on identification of urban waterlogging risk factors based on satellite image semantic segmentation and XGBoost
US20230316098A1 (en) Machine learning techniques for extracting interpretability data and entity-value pairs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination