CN110019617A - 地址标识的确定方法和装置、存储介质、电子装置 - Google Patents

地址标识的确定方法和装置、存储介质、电子装置 Download PDF

Info

Publication number
CN110019617A
CN110019617A CN201711269931.1A CN201711269931A CN110019617A CN 110019617 A CN110019617 A CN 110019617A CN 201711269931 A CN201711269931 A CN 201711269931A CN 110019617 A CN110019617 A CN 110019617A
Authority
CN
China
Prior art keywords
word
address
relationship
mark
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711269931.1A
Other languages
English (en)
Other versions
CN110019617B (zh
Inventor
孙福宁
章云龙
杨增奎
孟凡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711269931.1A priority Critical patent/CN110019617B/zh
Publication of CN110019617A publication Critical patent/CN110019617A/zh
Application granted granted Critical
Publication of CN110019617B publication Critical patent/CN110019617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地址标识的确定方法和装置、存储介质、电子装置。其中,该方法包括:接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;响应于第一请求,对第一地址信息中的词语进行识别;根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。本发明解决了相关技术中对地址文本进行地址角色标注的准确率较低的技术问题。

Description

地址标识的确定方法和装置、存储介质、电子装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种地址标识的确定方法和装置、存储介质、电子装置。
背景技术
在对运单数据做处理时,对于运单地址各词语的成分识别,通常是由各处理模块利用各自积累的词表进行匹配识别,而对于地址文本中各词语的切分,主要还是采用基础分词模块,以词的形式出现,不直接代表地址角色的含义。
上述方案存在对地址文本中词语的地址角色进行批注的准确率较低的问题,主要原因在于:1)地址文本数据处理的各环节对语义语用的理解不统一,各环节积累的词表通用性差、重复度高且可维护性差。而出于特定环节需求挖掘的词表,因缺乏系统性,所以覆盖率低。因此,基于已有词表匹配识别语义的召回率和精度都不够理想;2)使用传统的词表匹配方式识别语义角色,会出现多义或多角色词同属不同词表时,难以消歧的情况。
针对相关技术中对地址文本进行地址角色标注的准确率较低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种地址标识的确定方法和装置、存储介质、电子装置,以至少解决相关技术中对地址文本进行地址角色标注的准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种地址标识的确定方法,该方法包括:接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
根据本发明实施例的另一方面,还提供了一种地址标识的确定装置,该装置包括:接收单元,用于接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;响应单元,用于响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;确定单元,用于根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本发明实施例中,接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语,进而解决了相关技术中对地址文本进行地址角色标注的准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的地址标识的确定方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的地址标识的确定方法的硬件环境的示意图;
图3是根据本发明实施例的一种可选的地址标识的确定方法的流程图;
图4是根据本发明实施例的一种可选的规划的地址角色的示意图;
图5是根据本发明实施例的一种可选的规划的地址角色的示意图;
图6是根据本发明实施例的一种可选的规划的地址角色的示意图;
图7是根据本发明实施例的一种可选的规划的地址角色的示意图;
图8是根据本发明实施例的一种可选的地址标识的确定装置的示意图;
图9是根据本发明实施例的一种可选的地址标识的确定装置的示意图;以及
图10是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
消歧:对在多个角色词表中的词,根据其上下文语境选择正确的词语。
NLP:Natural Language Processing,中文为自然语言处理。
LM:language model中文为语言模型。
边界熵:一种计算词前后的词频所表示的信息熵的计算方法。
根据本发明实施例的,提供了一种地址标识的确定方法的方法实施例。
可选地,在本实施例中,上述地址标识的确定方法可以应用于如图1或图2所示的由服务器102和终端104所构成的硬件环境中。如图1或图2所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的地址标识的确定方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的地址标识的确定方法也可以是由安装在其上的客户端来执行。
地理编码是对地名或地址信息进行规范化、标准化处理,以建立地名或地址与空间坐标之间相互对应的过程,即将地名或地址映射成空间坐标的过程,例如,可根据某通讯地址生成地理坐标。互联网中存在着非常多的地图搜索引擎,根据已建立的电子地图,用户可以在地图搜索引擎中输入门址后,即可查询到相对应的目的地。
门址是地图数据中的一种,通常包括街道名称、门牌号码等信息。用户通过输入门址,地图搜索引擎根据用户输入的门址即可查询到对应的经纬度坐标,并在电子地图中标示出。此外,对十互联网上的一些地址数据,可能并没有给出具体的经纬度或具体到门牌地址等,当用户通过这些门牌地址信息在电子地图中查找时,并不能在电子地图中查询到相应的经纬度坐标。
在一种可选的实施场景中,本申请的上述方法可以应用于如图1所示的地图搜索场景,以解决上述提及的问题:
步骤S11,用户可在地图客户端中输入地址文本(如“知春路盈都大厦”),并点击“搜索”按钮,以在地图中实现对“知春路盈都大厦”的搜索定位。
地址文本是描述一个POI的位置信息的文本表示,通常包括省市区,三四级门址,道路门址,POI及单元楼、POI后缀等地址角色。
POI兴趣点(Point of Interest,缩写为POI),可以是地理信息系统中的某个地标、景点,用以标示出该地所代表的政府部门、商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示)等处所。
步骤S12,用户终端将地址文本“知春路盈都大厦”(相当于第一请求)发送给服务器。
步骤S13,服务器对“知春路盈都大厦”中的POI“盈都大厦”进行识别。具体可通过如下子步骤实现:
步骤S131,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;
步骤S132,根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
步骤S14,返回识别结果,即POI“盈都大厦”在地图中的位置。
步骤S15,终端在地图客户端中显示识别结果,“盈都大厦”的位置(如图1中七角星所在位置)。
在另一种可选的实施场景中,本申请的上述方法可以应用于如图2所示的地图搜索场景:
步骤S21,通过摄像装置采集货物的运单图像。
步骤S22,终端将运单图像或从运单中识别出的地址文本发送给服务器(相当于发送第一请求)。
步骤S23,服务器对“北京海淀区知春路盈都大厦”中的词语进行识别。具体可通过如下子步骤实现:
步骤S231,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;
步骤S232,根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
第一词语相当于登录词,即词语在已有的角色词表中,第二词语相当于未登录词,词语不在已有词表中,不知道其角色。
步骤S24,根据识别结果选择该运单对应的货物的转运地点,如选择转运地点为“北京”。运单地址是由O2O(Online To Offline)行业产生的送货地址,配送员基于此送货地址的文本送货。
上述场景仅用于对本申请进行说明性示意,本申请的方法(如上述步骤S13和步骤S23)可应用的场景包括但不局限于上述场景,下面结合具体的实施方式详述本申请的方法,图3是根据本发明实施例的一种可选的地址标识的确定方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤S302,接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识。
上述的第一请求包括但不局限于如下触发方式:终端自己触发的、用户触发的、与该终端具有通讯连接关系的其他终端触发的。
上述的第一地址信息包括但不局限于如下承载方式:通过图片或者视频承载、通过音频承载、通过文本承载。
上述的地址标识是指词语的地址角色(或称为地址类型或地址级别),地址角色是地址文本中词语的语义类别(也可称为所表示的地址类型的语义),可以是预先为不同类别的地址预先设置好的,如省、市、区、子区、道路、门址等。
步骤S304,响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列。
若上述的第一地址信息通过图片或者视频承载,则通过图像识别从中识别出第一地址信息;若上述的第一地址信息通过音频承载,则通过语音识别从音频中识别出第一地址信息。
然后通过分词算法(如基于字符串匹配、基于理解或基于统计的分词算法)将第一地址信息分解为多个词语,存入第一集合中,所有词语按照在第一地址信息中的位置在第一集合中顺序排列,此处之所以需要顺序排列是为了后续通过相邻词语与待标识词语间的关联来确定待标识词语的地址角色。
步骤S306,根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。即实现对第一集合中地址词语的角色标注,角色标注是将地址文本分词结果标注为不同的角色,用以指明此单元所指示的语义类别。
通过上述步骤S302至步骤S306,第一关系用于指示预先确定的词语与地址标识之间的对应关系,可根据第一关系确定与第一地址文本信息对应的第一集合中第一词语的地址标识,并根据(待确定的第二词语)与相邻第一词语的第二关系确定第二词语的地址标识,可以解决了相关技术中对地址文本进行地址角色标注的准确率较低的技术问题,进而达到提高对地址文本进行地址角色标注的准确率的技术效果。
在步骤S302提供的技术方案中,终端或服务器接收用于请求确定第一地址信息中表示地址的词语的地址标识的第一请求。第一请求的来源包括但不局限于如下方式:
(1)用户在终端上的操作触发的第一请求,如用户在地图客户端中的搜索操作(输入的第一地址文本);
(2)终端采集到的运单数据时触发的第一请求,运单数据(如运单图像)中携带有第一地址文本。
在步骤S304提供的技术方案中,响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列。
可选地,可基于字符串匹配、基于理解或基于统计的分词算法来进行分词。
如基于字符串匹配的分词算法,将第一地址信息从头部或尾部的位置开始,从第一个字符开始,在词典中查找是否存在与该字符匹配的词,若没有则顺序增加一个字符,在词典中查找是否存在与这两个字符匹配的词,若存在则将这两个字符作为匹配出的一个词,否则重复上述步骤,直至匹配出一个词为止。然后重复上述步骤,找出下一个词,直至找出该第一地址信息中的所有词,将找出的词语顺序放入第一集合中。
例如,对于第一地址信息“北京海淀区知春路盈都大厦”,分词的结果为:北京、海淀区、知春路、盈都大厦。在第一集合中“北京”作为第一个元素,“海淀区”作为第二个元素,“知春路”作为第三个元素,“盈都大厦”作为第四个元素。
在步骤S306提供的技术方案中,根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
可选地,步骤S306的过程可以通过机器学习模型实现。可在实现本申请的方法之前,预先对机器学习进行训练。
(1)第一模型的训练方式如下:
步骤S31,生成训练数据(第二地址信息)。一种可选的训练数据(如上述的“北京海淀区知春路盈都大厦”)如表1所示,地址信息中的每个词均已经批注有地址角色:
表1
词语 地址角色
北京
海淀区
知春路 道路
盈都大厦 POI
步骤S32,对机器学习模型(第一模型)进行训练。
用户可在命令窗口输入训练命令,训练过程的时间、迭代次数等信息会输出到控制台上,如果想保存这些信息,可以通过,命令将这些标准输出流到文件上。
在训练的过程中可以对如下几方面进行设置:
1)可以选择相应的规范化算法,这些算法可对非零特征的数值进行设置。
2)设置算法的拟合参数,这个参数可以调整过度拟合和不拟合之间的平衡度。这个参数可以通过交叉验证等方法寻找较优的参数。
3)设置特征截止阈值参数NUM1,这个参数设置特征的截止阈值(cut-offthreshold)。第一模型使用训练数据中至少NUM1次出现的特征。默认值为1。当使用第一模型到大规模数据时,只出现一次的特征可能会有几百万,这个选项就会在这样的情况下起到作用。
4)设置线程数量NUM2,如果电脑有多个CPU,那么可以通过多线程提升训练速度。NUM是线程数量。
步骤S33,保存训练好的第一模型(模型中的参数通过训练而被初始化)。
需要说明的是,第二地址信息中表示地址的词语被标注有地址标识,使用多个第二地址信息对第一模型进行训练时,实际是第一模型从多个第二地址信息中学习第一关系和第二关系的过程。第一模型所学习的到第二关系既关乎于其自身的模型结构,也关乎于训练数据的质量和数量,但是对于使用者而言,该模型训练好之后相当于一个黑盒子,仍然无法知晓第二关系的具体内容,为了便于对本申请方法的理解,下面示意性地例举了几个第二关系:
1)第一词语的地址标识(地址角色)与第二词语的地址标识之间的对应关系。
如第一词语为“北京”,第二词语为“海淀区”,位于第二词语后的第五词语是“知春路”,“北京”的地址角色为“市”,无法根据第一关系确定第二词语的地址角色,“知春路”的地址角色为“道路”。在确定了第一词语的地址角色后,可确定第二词语为地址角色小于“市”的地址角色,如“区”,还可通过道路“知春路”进一步认证根据第二关系确定的“海淀区”的地址角色为“区”这一选择是正确的。
2)第一词语的地址标识与第二词语的语义之间的对应关系。
如第一文本信息为“海淀区五道口王庄路15号清华同方科技广场D座江南赋9号”,第一词语为“清华同方科技广场D座”,第二词语是“江南赋9号”,第一词语的地址角色为“POI”,虽然“江南赋9号”中有数字,但是位于“POI”之后,应该属于“POI后缀”,而不是门牌号、楼栋号等。
(2)第一模型的使用方式如下:
步骤S306的“据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识”可以通过第一模型实现:通过第一模型识别出第一集合中第一词语的地址标识和第二词语的地址标识,第一模型用于在从第一关系中查找第一词语的地址标识后,根据与第一词语的第二关系确定第二词语的地址标识。
可选地,通过第一模型识别出第一集合中第二词语的地址标识可包括如下步骤:
步骤S41,将多个地址标识逐个分配给第二词语,得到与第一集合对应的多个第一序列,第一序列中保存有第一集合中每个词语的地址标识,任意两个第一序列中为第二词语分配的地址标识不同。
需要说明的是,上述的这多个地址标识可以是预先定义好的所有地址标识。
步骤S42,根据至少一个第二关系确定每个第一序列的第一参数,第一参数用于指示根据第一序列中为第二词语分配的地址标识确定的第二词语与第一词语的关联强度。
可选地,根据至少一个第二关系确定每个第一序列的第一参数包括按照如下公式计算第一序列的第一参数P:
其中,m为第二关系的个数,n为第一集合s中词语的个数,Li表示第一集合中的第i个词语,Li-1表示第一集合中的第(i-1)个词语,Fj(s,i,Li,Li-1)表示在第j个第二关系下由第一集合中第i个词语和第(i-1)个词语确定的参数,Kj是为第j个第二关系的参数分配的权重,j为大于等于1的整数,j为大于等于2的整数。“Fj(s,i,Li,Li-1)”的取值为0或者1,满足第二关系取值则为1,否则为0。
例如,F1(s,i,Li,Li-1)表示,第一集合中第i个词语的地址角色应该小于第(i-1)个词语的地址角色;F2(s,i,Li,Li-1)表示,若第(i-1)个词语的地址角色为“POI”,若第i个词语的词义中包括数字,则其地址角色为“POI后缀”。下面以第一地址信息为“北京海淀区知春路盈都大厦”进行说明:
如第一词语为“北京”,第二词语为“海淀区”,位于第二词语后的第五词语是“知春路”,根据第一关系确定“北京”的地址角色为“市”,“知春路”的地址角色为“道路”,“盈都大厦”的地址角色为“POI”,无法根据第一关系确定第二词语的地址角色。
将“海淀区”的地址角色分别设置为“省”、“市”、“区”、“街道”等,并计算在每个地址角色下P的分值。
1)若“海淀区”的地址角色为“省”
在j=1时:
i=2,计算“北京”和“海淀区”的分值,由于“市”小于“省”:F1(s,2,L2,L1)=0;
i=3,计算“海淀区”和“知春路”的分值,由于“省”大于“道路”:F1(s,3,L3,L2)=1;
i=4,计算“知春路”和“盈都大厦”的分值,由于“道路”大于“POI”,F1(s,4,L4,L3)=1。
j=2时,同理,按照上述的方式计算第二种第二关系在i等于各个值时的积分,并按照相应权重计算总积分。
2)若“海淀区”的地址角色为“市”或“街道”时的计算方式同上述为“省”时;
3)若“海淀区”的地址角色为“区”
i=2,计算“北京”和“海淀区”的分值,由于“市”大于“区”:F1(s,2,L2,L1)=1;
i=3,计算“海淀区”和“知春路”的分值,由于“区”大于“道路”:F1(s,3,L3,L2)=1;
i=4,计算“知春路”和“盈都大厦”的分值,由于“道路”大于“POI”,F1(s,4,L4,L3)=1。
同理,按照上述的方式计算第二种第二关系在i等于各个值时的积分,并按照相应权重计算总积分。
需要说明的是,在i=2时,若第二关系的个数为2,则m=2,在计算的过程中,显然根据上述的第一种第二关系,“海淀区”的地址角色小于“北京”的地址角色,即“海淀区”的地址角色为“区”时,满足第二关系,对应的函数值F1(s,2,L2,L1)=1,相应地,若“海淀区”的地址角色为“省”时,不满足第二关系,对应的函数值F1(s,2,L2,L1)=0。
在i=4时,“海淀区”的地址角色为“区”时,“知春路”的地址角色为“道路”,由于“道路”的范围小于“区”,所以也满足第二关系,也即F1(s,3,L3,L2)=1。也即通过道路“知春路”进一步认证根据第二关系确定的“海淀区”的地址角色为“区”这一选择是正确的。
可以根据需要或者经验值设置Kj的值,的值为1。
步骤S43,将至少一个第一序列中第一参数最大的第一序列中为第二词语分配的地址标识作为识别出的第二词语的地址标识。或者直接第一参数最大的第一序列作为对第一集合中词语进行角色批注的标注序列。
可选地,在根据至少一个第二关系确定每个第一序列的第一参数之后,可按照如下方式对识别结果进行消岐:
步骤S51,在第一集合中存在位置相邻的第二词语的情况下,若每个第一序列的第一参数均低于阈值,则将第一集合中相邻的第二词语拼接为第三词语,得到第二集合。
上述的阈值为预先设置好的,可以根据经验值或者计算出的数值确定,此处的之所以设置阈值进行消岐,是考虑到有时候挨着的两个词实际可能表示相同的地址角色(此时按照上述的第二关系计算积分时,第一参数的值,也即分值不会太高),此时可进行合并。
可选地,“若每个第一序列的第一参数均低于阈值”这一条件可替换为“第一集合中位置相邻的两个第二词语为词义类型匹配的词语”,此处,匹配的词义类型可以是预先定义好的,如“大学+校区”的组合,即前一词表示“大学”,后一词表示“校区”,可进行合并,还可是“大学+学院”的组合,“科技园+大厦”的模板组合等等。
步骤S52,将多个地址标识逐个分配给第三词语,得到与第二集合对应的多个第二序列,第二序列中保存有第二集合中的每个词语的地址标识,任意两个第二序列中为第三词语分配的地址标识不同。
步骤S53,根据至少一个第二关系确定每个第二序列的第二参数(和第一参数的计算方式相同),其中,第二参数用于指示根据第二序列中为第三词语分配的地址标识确定的第三词语与第一词语的关联强度。
步骤S54,将至少一个第二序列中第二参数最大的第二序列中为第三词语分配的地址标识作为识别出的第三词语的地址标识。或者直接第二参数最大的第二序列作为对第二集合中词语进行角色批注的标注序列。
需要说明的是,上述步骤S52至步骤S54的实现方式与上述步骤S41至步骤S43相同,在此不再赘述。
针对上述步骤S302至步骤S306的识别结果,包括但不局限于如下用途:
(1)在根据与第一词语的第二关系确定第一集合中第二词语的地址标识之后,使用识别结果进行地图搜索:
获取第一地址信息中与第一地址标识对应的第四词语,第一地址标识用于标识表示兴趣点POI地理信息的词语;在客户端中展示与第四词语对应的地图信息,也即直接展示对POI词语的搜索结果。
(2)在根据与第一词语的第二关系确定第一集合中第二词语的地址标识之后,使用识别结果进行货运转运:
获取第一地址信息中与第二地址标识对应的第五词语,第二地址标识用于标识表示目标对象的转运地址的词语,第一地址信息至少用于表示目标对象的接收地址,转运地址为将目标对象发送至接收地址的过程中的中间地址;按照第五词语所表示的转运地址对目标对象进行转运。
作为一种可选的实施例,下面以进行运单数据的处理为例详述本申请的实施例:
申请人经过对相关技术进行分析,认识到运单数据的处理存在如下问题:未基于地址文本特性对地址文本中的词语做系统性、针对性的规划,在识别效果和适用程度上存在局限;由于对地址文本中的语义角色缺乏统一的底层规划,地址文本数据处理的各环节对语义语用的理解不统一,各环节积累的词表通用性差、重复度高且可维护性差,而出于特定环节需求挖掘的词表,因缺乏系统性,所以覆盖率低,因此,基于已有词表匹配识别语义的召回率和精度都不够理想;使用传统的词表匹配方式识别语义角色,会出现多义或多角色词同属不同词表时,难以消歧的情况;直接采用文本分词的结果,分词的粒度过细,没有引入人本身对名称文字的一种直观语义理解。
为了解决上述问题,在本申请的技术方案中,建立一整套用以描述地址文本词语的多粒度角色体系,用以标识地址文本中各个词的语义类别,以便更好、更准确地理解地址文本的各个成分,适用于地址文本数据挖掘的多项处理策略;基于地址文本的特征设计语义角色,系统性地挖掘词表并统一管理,建立词表更新维护的工具系统;地址中存在多POI角色情况下的,组合POI名称的边界熵界定方法。下面结合具体步骤进行详述:
步骤S61,根据地址文本的语义特点建立角色多粒度体系。
地址文本包含很多元素,如省市区的地域名、地名、机构、道路、门牌号、楼栋号、楼层、单元等等,同时还可能包含地标词、商圈词等特殊角色。同一个词在日常对话与POI地址中常呈现不同的语义特征。例如:在日常中对话中,说到“苏州街15号”中的15号是指的门牌号,但是在“江南赋9号”的时候,这里的9号虽然看上去是门牌号的描述方式,但“江南赋9号”是一个餐厅,其实际上是POI名称的一部分而非门牌号。再例如北京市北四环“辽宁大厦”,这里的辽宁不是地域名,而是作为POI“辽宁大厦”整个POI的完整名称描述。
因此对于POI地址中各词语角色的识别与描述,需要一套专门的体系框架,本申请提出了一种基于地址描述特征的词语语义角色的多粒度体系和算法。
表2和图4示出了本申请的一种可选的规划的POI地址角色的不完全展示列表。
表2
表3示出了本申请上述规划的POI地址角色13,16,27的细分扩展的不完全展示列表。
表3
例如,如图5所示,对“北京市海淀区北四环西路66号中关村中国技术交易大厦A座7层XX科技股份有限公司”的分词结果为:北京、市、海淀、区、北、四环、西路、66号、中、关、村、中国、技术、交易、大厦、A、座、7、层、XX、科技、股份、有限、公司。
进行角色合并后的结果为:北京市、海淀区、北四环西路、66号、中关村、中国技术交易大厦、A座、7层、XX科技、股份有限公司。
地域“北京市”的地址角色标注值为“11”;地域“海淀区”的地址角色标注值为“12”;商圈“中关村”的地址角色标注值为“1303”;道路“北四环西路”的地址角色标注值为“14”;POI“中国技术交易大厦”的地址角色标注值为“15”;POI“XX科技股份有限公司”的地址角色标注值为“15”;门牌号“66号”的地址角色标注值为“1601”;楼栋号“A座”的地址角色标注值为“1603”;楼层号“7层”的地址角色标注值为“1605”。
再如,对“安徽省合肥蜀山区三里庵街道西园南村11#2单元,201室(电话联系)”的地址角色标注结果如图6所示。对“北京市海淀区西土城路10号院北京邮电大学游泳馆北门东50米”的地址角色标注结果如图7所示。
步骤S62,地址角色标注的算法。
从自然语言处理的角度看,地址角色标注可看作经典的序列标注问题;本申请的技术方案中采用前述的第一模型去解决这个问题,该模型具备易于实现、易于理解、易于和规则结合的特征。
第一模型的训练需要标注一定量级的标准集;本申请通过训练集学习模型中角色之间的转移概率;而更多从挖掘的词表中学习发射概率。主要包括如下:对输入序列(可以是第一地址信息或第二地址信息)进行分词;利用模型计算最优角色序列;利用词表和序列结果细化角色;规则修正(如消岐);用规则抽取出提取层角色。下面进行详细说明:
步骤S621,根据基于地址特征的多粒度角色体系设计,整理和挖掘词表。
本申请的技术方案整理了各角色常见的词表,并从中总结出角色词语的特点,如后缀字以及各角色用字特点,例如道路数据多以路、街、道等结尾,门牌号多以“数字字母+号或者号院”的模式结尾,通过POI的主子点数据,可以得到例如北京大学,北京大学游泳馆,通过前向最大匹配模式,得到游泳馆是POI后缀。
废词的标注筛选过程,在运单中的地址文本中,存在很多用户可以填写或者补充的信息,例如:“请勿XX快递”,“请直接进来,不要敲门”,“谢谢!”等。这些词都是与地址角色没有直接关系的词,统一称为废词。针对废词,通过已有的POI及POI的标准地址,进行基础分词,计算每个分词的IDF-1值(统计方法用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降),同时统计相邻两个分词的配对(pair对)的IDF-2值。统计所有的POI及标注地址数量N。得到每个分词的概率IDF-1/N,以及pair对的概率IDF-2值。筛选所有运单结果的后5个分词结果S(通过大量测试数据发现,废词通常在地址文本的尾部这个特征),计算其语言模型(二元语言模型)的概率得到分值LM-1,同时基于条件独立假设计算S的每个分词的概率乘积得到分值LM-2,通过LM-2/LM-1得到分值LM-3(>=1)。LM-3的分支越小表示,该地址文本的连续片段,作为POI或者地址描述的可能性越低,LM-3等于1的时候表示,该地址文本的连续片段的所有分词都真的符合条件独立假设,即分词的彼此之间没有共现概率,都是独立出现。按照LM-3进行从低到高排序,筛选前2000个词作为废词词表。
另外,在前述的基于地址语义特征所建立的角色体系基础上,本申请可根据一些常见的模式组合,进一步从POI数据中挖掘角色词。例如:北京邮电大学宏福校区这样的“大学+校区”的模板组合、北京邮电大学软件学院这样的“大学+学院”的模板组合、清华科技园搜狐网络大厦这样的“科技园+大厦”的模板组合等等。这些数据不但可以用于细化地址角色的分化,也可以辅助主子点数据挖掘和POI的角色标注等。
步骤S622,模型的训练和使用。
模型的训练:首先标注了一定数量的地址角色的标准集(第二地址信息的集合);从训练集中统计发射概率和生成概率,其中利用词表和词缀对发射概率进行加权;利用语义相似度寻找相近的角色。
对于上层(如图4、表2中的“提取层”)角色的识别:
1)根据基础层(图3和表2中的“标注层”)角色标注结果中类别词角色的指示作用,从而识别地址中的层次关系。例如:POI名称“北京邮电大学宏福校区图书馆”,从中可以找出“大学”,“校区”,“图书馆”三个类别词,因而此POI存在三层的主子点层次关系,也应当划分成三个角色。
2)因为训练样本无法完全覆盖地址角色标注的长尾问题,因此基于解析的角色结果基础上,需要进行规则消歧。
门牌号细分角色消歧过程:针对角色是“POI+门牌号”的模式,进行规则校验。用户填写“展春园小区5号4单元”,这里的“5号”会按照“数字+门牌后缀”的规则识别为门牌号。但是其上限文的语义分别是:小区名和单元号。这种描述模式“数字+门牌后缀”不表示为门牌号,而是表针的是楼栋号。针对“POI+1601+其他内容”的系列,进行规则识别,在“其他内容”属于集合{1604,1605,1606}时候,改写当前1601的角色为1603。
POI后缀的角色消歧过程:离线挖掘好所有基于解析的地址角色标注结果。统计所有角色为15或26的下一个地址角色类型,并统计出每个角色为15或者26为边界的后续地址角色类型的分布概率,进而得到15或者26角色的边界信息熵。例如:北京师范大学京师大厦,因为根据北京师范大学训练数据,覆盖了大量的教学楼、图书馆、宿舍楼等,因此根据解析出的结果中京师大厦为未登陆词但是基于概率模型生成结果为角色26(POI后缀),显然这个结果是并不正确的,通过统计京师大厦的边界信息熵的统计发现:其与其他以大厦为后缀的POI的信息熵相似度较高,因此京师大厦改写当前角色26为15。
“数字字母+POI”的消歧过程:针对地址角色划分中出现连续的片段角色为数字、“字母+POI或者POI后缀”的情况,则直接将连续的“数字字母+POI或者POI后缀”直接拼接成一个角色为15(POI)。
上述消岐过程仅用于示意性地表示第一模型所学到的消岐方法,在本申请的第一模型中,还会根据其余的属性进行判断,在此不再赘述。
在本申请的技术方案中,提供了一套描述地址角色词语的多粒度角色体系;基于上下文词搭搭配进行角色歧义的消歧算法;基于逻辑与物理主子点关系POI关系,进行地址角色中POI角色和POI后缀角色划分的算法。
通过本申请的技术方案可以实现如下技术效果:地址切分的结果可以很好标识地址中各个词的语义类别,以便更好理解地址中的各词语成分,利于制定各项地址数据处理策略;对运单挖掘、门址库、地理编码、地址相似度计算均提供有益支撑,包含但不限于:解决运单中疑似缺失POI提取的问题、用于提取运单中的道路、子道路、门牌号等信息,作为构建门址库的基础、用于地理编码解析地址角色含义,限定返回坐标结果的范畴、将地址角色作为词向量,参与文本相似度计算,优于直接采用文本逐字的相似性计算;基于POI地址角色体系所规划的角色,挖掘输出贴合POI数据处理需求的词典。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述地址标识的确定方法的地址标识的确定装置。图8是根据本发明实施例的一种可选的地址标识的确定装置的示意图,如图8所示,该装置可以包括:接收单元81、响应单元83以及确定单元85。
接收单元81,用于接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识。
上述的第一请求包括但不局限于如下触发方式:终端自己触发的、用户触发的、与该终端具有通讯连接关系的其他终端触发的。
上述的第一地址信息包括但不局限于如下承载方式:通过图片或者视频承载、通过音频承载、通过文本承载。
上述的地址标识是指词语的地址角色,地址角色是地址文本中词语的语义类别,可以是预先为不同类别的地址预先设置好的,如省、市、区、子区、道路、门址等。
响应单元83,用于响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列。
若上述的第一地址信息通过图片或者视频承载,则通过图像识别从中识别出第一地址信息;若上述的第一地址信息通过音频承载,则通过语音识别从音频中识别出第一地址信息。
然后通过分词算法(如基于字符串匹配、基于理解或基于统计的分词算法)将第一地址信息分解为多个词语,存入第一集合中,所有词语按照在第一地址信息中的位置在第一集合中顺序排列,此处之所以需要顺序排列是为了后续通过相邻词语与待标识词语间的关联来确定待标识词语的地址角色。
确定单元85,用于根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
需要说明的是,该实施例中的接收单元81可以用于执行本申请实施例中的步骤S302,该实施例中的响应单元83可以用于执行本申请实施例中的步骤S304,该实施例中的确定单元85可以用于执行本申请实施例中的步骤S306。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1或图2所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,第一关系用于指示预先确定的词语与地址标识之间的对应关系,可根据第一关系确定与第一地址文本信息对应的第一集合中第一词语的地址标识,并根据(待确定的第二词语)与相邻第一词语的第二关系确定第二词语的地址标识,可以解决了相关技术中对地址文本进行地址角色标注的准确率较低的技术问题,进而达到提高对地址文本进行地址角色标注的准确率的技术效果。
如图9所示,本申请的装置可以设置在服务器上,上述的确定单元(属于服务器的一部分)可包括:识别模块91,用于通过第一模型识别出第一集合中第一词语的地址标识和第二词语的地址标识,其中,第一模型为采用多个第二地址信息进行训练、且从多个第二地址信息中学习到第一关系和第二关系的模型,第二地址信息中表示地址的词语被标注有地址标识,第一模型用于在从第一关系中查找第一词语的地址标识后,根据与第一词语的第二关系确定第二词语的地址标识。可选地,上述的模型可以为机器学习模型,如条件随机场模型CRFM。
可选地,识别模块可包括:第一分配子模块,用于将多个地址标识逐个分配给第二词语,得到与第一集合对应的多个第一序列,其中,第一序列中保存有第一集合中每个词语的地址标识,任意两个第一序列中为第二词语分配的地址标识不同;第一确定子模块,用于根据至少一个第二关系确定每个第一序列的第一参数,其中,第一参数用于指示根据第一序列中为第二词语分配的地址标识确定的第二词语与第一词语的关联强度;第一识别子模块,用于将至少一个第一序列中第一参数最大的第一序列中为第二词语分配的地址标识作为识别出的第二词语的地址标识。
可选地,识别模块还可包括:拼接子模块,用于在根据至少一个第二关系确定每个第一序列的第一参数之后,在第一集合中存在位置相邻的第二词语的情况下,若每个第一序列的第一参数均低于阈值,则将第一集合中相邻的第二词语拼接为第三词语,得到第二集合;第二分配子模块,用于将多个地址标识逐个分配给第三词语,得到与第二集合对应的多个第二序列,其中,第二序列中保存有第二集合中的每个词语的地址标识,任意两个第二序列中为第三词语分配的地址标识不同;第二确定子模块,用于根据至少一个第二关系确定每个第二序列的第二参数,其中,第二参数用于指示根据第二序列中为第三词语分配的地址标识确定的第三词语与第一词语的关联强度;第二识别子模块,用于将至少一个第二序列中第二参数最大的第二序列中为第三词语分配的地址标识作为识别出的第三词语的地址标识。
上述的第一确定子模块按照如下公式计算第一序列的第一参数P:
其中,m为第二关系的个数,n为第一集合s中词语的个数,Li表示第一集合中的第i个词语,Li-8表示第一集合中的第(i-8)个词语,Fj(s,i,Li,Li-8)表示在第j个第二关系下由第一集合中第i个词语和第(i-8)个词语确定的参数,Kj是为第j个第二关系的参数分配的权重,j为大于等于8的整数,j为大于等于9的整数。
可选地,确定单元在根据与第一词语的第二关系确定第一集合中第二词语的地址标识之后,还可用于:获取第一地址信息中与第一地址标识对应的第四词语,其中,第一地址标识用于标识表示兴趣点地理信息的词语;在客户端中展示与第四词语对应的地图信息。
可选地,确定单元在根据与第一词语的第二关系确定第一集合中第二词语的地址标识之后,还可用于:获取第一地址信息中与第二地址标识对应的第五词语,其中,第二地址标识用于标识表示目标对象的转运地址的词语,第一地址信息至少用于表示目标对象的接收地址,转运地址为将目标对象发送至接收地址的过程中的中间地址;按照第五词语所表示的转运地址对目标对象进行转运。
通过本申请的技术方案可以实现如下技术效果:地址切分的结果可以很好标识地址中各个词的语义类别,以便更好理解地址中的各词语成分,利于制定各项地址数据处理策略;对运单挖掘、门址库、地理编码、地址相似度计算均提供有益支撑,包含但不限于:解决运单中疑似缺失POI提取的问题、用于提取运单中的道路、子道路、门牌号等信息,作为构建门址库的基础、用于地理编码解析地址角色含义,限定返回坐标结果的范畴、将地址角色作为词向量,参与文本相似度计算,优于直接采用文本逐字的相似性计算;基于POI地址角色体系所规划的角色,挖掘输出贴合POI数据处理需求的词典。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1或图2所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本发明实施例的另一个方面,还提供了一种用于实施上述地址标识的确定方法的服务器或终端(也即电子装置)。
图10是根据本发明实施例的一种终端的结构框图,如图10所示,该终端可以包括:一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005(如上述实施例中的发送装置),如图10所示,该终端还可以包括输入输出设备1007。
其中,存储器1003可用于存储软件程序以及模块,如本发明实施例中的地址标识的确定方法和装置对应的程序指令/模块,处理器1001通过运行存储在存储器1003内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址标识的确定方法。存储器1003可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1003可进一步包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1005用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1005包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1005为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1003用于存储应用程序。
处理器1001可以通过传输装置1005调用存储器1003存储的应用程序,以执行下述步骤:
接收第一请求,其中,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;
响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,其中,第一集合中的词语按照在第一地址信息中的位置顺序排列;
根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,其中,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
处理器1001还用于执行下述步骤:
在第一集合中存在位置相邻的第二词语的情况下,若每个第一序列的第一参数均低于阈值,则将第一集合中相邻的第二词语拼接为第三词语,得到第二集合;
将多个地址标识逐个分配给第三词语,得到与第二集合对应的多个第二序列,其中,第二序列中保存有第二集合中的每个词语的地址标识,任意两个第二序列中为第三词语分配的地址标识不同;
根据至少一个第二关系确定每个第二序列的第二参数,其中,第二参数用于指示根据第二序列中为第三词语分配的地址标识确定的第三词语与第一词语的关联强度;
将至少一个第二序列中第二参数最大的第二序列中为第三词语分配的地址标识作为识别出的第三词语的地址标识。
采用本发明实施例,接收第一请求,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,第一集合中的词语按照在第一地址信息中的位置顺序排列;根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语,进而解决了相关技术中对地址文本进行地址角色标注的准确率较低的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图10所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行地址标识的确定方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S71,接收第一请求,其中,第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;
S72,响应于第一请求,对第一地址信息中的词语进行识别,得到第一集合,其中,第一集合中的词语按照在第一地址信息中的位置顺序排列;
S73,根据第一关系确定第一集合中第一词语的地址标识,并根据与第一词语的第二关系确定第一集合中第二词语的地址标识,其中,第一关系用于指示预先确定的词语与地址标识之间的对应关系,第一词语为在第一集合中与第二词语相邻的词语,预先确定的词语包括第一词语、但不包括第二词语。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S81,在第一集合中存在位置相邻的第二词语的情况下,若每个第一序列的第一参数均低于阈值,则将第一集合中相邻的第二词语拼接为第三词语,得到第二集合;
S82,将多个地址标识逐个分配给第三词语,得到与第二集合对应的多个第二序列,其中,第二序列中保存有第二集合中的每个词语的地址标识,任意两个第二序列中为第三词语分配的地址标识不同;
S83,根据至少一个第二关系确定每个第二序列的第二参数,其中,第二参数用于指示根据第二序列中为第三词语分配的地址标识确定的第三词语与第一词语的关联强度;
S84,将至少一个第二序列中第二参数最大的第二序列中为第三词语分配的地址标识作为识别出的第三词语的地址标识。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种地址标识的确定方法,其特征在于,包括:
接收第一请求,其中,所述第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;
响应于所述第一请求,对所述第一地址信息中的所述词语进行识别,得到第一集合,其中,所述第一集合中的所述词语按照在所述第一地址信息中的位置顺序排列;
根据第一关系确定所述第一集合中第一词语的地址标识,并根据与所述第一词语的第二关系确定所述第一集合中第二词语的地址标识,其中,所述第一关系用于指示预先确定的词语与地址标识之间的对应关系,所述第一词语为在所述第一集合中与所述第二词语相邻的词语,所述预先确定的词语包括所述第一词语、但不包括所述第二词语。
2.根据权利要求1所述的方法,其特征在于,根据第一关系确定所述第一集合中第一词语的地址标识,并根据与所述第一词语的第二关系确定所述第一集合中第二词语的地址标识包括:
通过第一模型识别出所述第一集合中所述第一词语的地址标识和所述第二词语的地址标识,其中,所述第一模型为采用多个第二地址信息进行训练、且从多个所述第二地址信息中学习到所述第一关系和所述第二关系的模型,所述第二地址信息中表示地址的词语被标注有地址标识,所述第一模型用于在从所述第一关系中查找所述第一词语的地址标识后,根据与所述第一词语的第二关系确定所述第二词语的地址标识。
3.根据权利要求2所述的方法,其特征在于,通过第一模型识别出所述第一集合中第二词语的地址标识包括:
将多个地址标识逐个分配给所述第二词语,得到与所述第一集合对应的多个第一序列,其中,所述第一序列中保存有所述第一集合中每个词语的地址标识,任意两个所述第一序列中为所述第二词语分配的地址标识不同;
根据至少一个所述第二关系确定每个所述第一序列的第一参数,其中,所述第一参数用于指示根据所述第一序列中为所述第二词语分配的地址标识确定的所述第二词语与所述第一词语的关联强度;
将至少一个所述第一序列中第一参数最大的所述第一序列中为所述第二词语分配的地址标识作为识别出的所述第二词语的地址标识。
4.根据权利要求3所述的方法,其特征在于,在根据至少一个所述第二关系确定每个所述第一序列的第一参数之后,所述方法还包括:
在所述第一集合中存在位置相邻的所述第二词语的情况下,若每个所述第一序列的第一参数均低于阈值,则将所述第一集合中相邻的所述第二词语拼接为第三词语,得到第二集合;
将多个地址标识逐个分配给所述第三词语,得到与所述第二集合对应的多个第二序列,其中,所述第二序列中保存有所述第二集合中的每个词语的地址标识,任意两个所述第二序列中为所述第三词语分配的地址标识不同;
根据至少一个所述第二关系确定每个所述第二序列的第二参数,其中,所述第二参数用于指示根据所述第二序列中为所述第三词语分配的地址标识确定的所述第三词语与所述第一词语的关联强度;
将至少一个所述第二序列中第二参数最大的所述第二序列中为所述第三词语分配的地址标识作为识别出的所述第三词语的地址标识。
5.根据权利要求3所述的方法,其特征在于,根据至少一个所述第二关系确定每个所述第一序列的第一参数包括按照如下公式计算所述第一序列的第一参数P:
其中,m为所述第二关系的个数,n为所述第一集合s中词语的个数,Li表示所述第一集合中的第i个词语,Li-1表示所述第一集合中的第(i-1)个词语,Fj(s,i,Li,Li-1)表示在第j个所述第二关系下由所述第一集合中第i个词语和第(i-1)个词语确定的参数,Kj是为所述第j个所述第二关系的参数分配的权重,j为大于等于1的整数,j为大于等于2的整数。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,在根据与所述第一词语的第二关系确定所述第一集合中第二词语的地址标识之后,所述方法还包括:
获取所述第一地址信息中与第一地址标识对应的第四词语,其中,所述第一地址标识用于标识表示兴趣点地理信息的词语;
在客户端中展示与所述第四词语对应的地图信息。
7.根据权利要求1至5中任意一项所述的方法,其特征在于,在根据与所述第一词语的第二关系确定所述第一集合中第二词语的地址标识之后,所述方法还包括:
获取所述第一地址信息中与第二地址标识对应的第五词语,其中,所述第二地址标识用于标识表示目标对象的转运地址的词语,所述第一地址信息至少用于表示所述目标对象的接收地址,所述转运地址为将所述目标对象发送至所述接收地址的过程中的中间地址;
按照所述第五词语所表示的转运地址对所述目标对象进行转运。
8.一种地址标识的确定装置,其特征在于,包括:
接收单元,用于接收第一请求,其中,所述第一请求用于请求确定第一地址信息中表示地址的词语的地址标识;
响应单元,用于响应于所述第一请求,对所述第一地址信息中的所述词语进行识别,得到第一集合,其中,所述第一集合中的所述词语按照在所述第一地址信息中的位置顺序排列;
确定单元,用于根据第一关系确定所述第一集合中第一词语的地址标识,并根据与所述第一词语的第二关系确定所述第一集合中第二词语的地址标识,其中,所述第一关系用于指示预先确定的词语与地址标识之间的对应关系,所述第一词语为在所述第一集合中与所述第二词语相邻的词语,所述预先确定的词语包括所述第一词语、但不包括所述第二词语。
9.根据权利要求8所述的装置,其特征在于,所述确定单元包括:
识别模块,用于通过第一模型识别出所述第一集合中所述第一词语的地址标识和所述第二词语的地址标识,其中,所述第一模型为采用多个第二地址信息进行训练、且从多个所述第二地址信息中学习到所述第一关系和所述第二关系的模型,所述第二地址信息中表示地址的词语被标注有地址标识,所述第一模型用于在从所述第一关系中查找所述第一词语的地址标识后,根据与所述第一词语的第二关系确定所述第二词语的地址标识。
10.根据权利要求9所述的装置,其特征在于,所述识别模块包括:
第一分配子模块,用于将多个地址标识逐个分配给所述第二词语,得到与所述第一集合对应的多个第一序列,其中,所述第一序列中保存有所述第一集合中每个词语的地址标识,任意两个所述第一序列中为所述第二词语分配的地址标识不同;
第一确定子模块,用于根据至少一个所述第二关系确定每个所述第一序列的第一参数,其中,所述第一参数用于指示根据所述第一序列中为所述第二词语分配的地址标识确定的所述第二词语与所述第一词语的关联强度;
第一识别子模块,用于将至少一个所述第一序列中第一参数最大的所述第一序列中为所述第二词语分配的地址标识作为识别出的所述第二词语的地址标识。
11.根据权利要求10所述的装置,其特征在于,所述识别模块包括:
拼接子模块,用于在根据至少一个所述第二关系确定每个所述第一序列的第一参数之后,在所述第一集合中存在位置相邻的所述第二词语的情况下,若每个所述第一序列的第一参数均低于阈值,则将所述第一集合中相邻的所述第二词语拼接为第三词语,得到第二集合;
第二分配子模块,用于将多个地址标识逐个分配给所述第三词语,得到与所述第二集合对应的多个第二序列,其中,所述第二序列中保存有所述第二集合中的每个词语的地址标识,任意两个所述第二序列中为所述第三词语分配的地址标识不同;
第二确定子模块,用于根据至少一个所述第二关系确定每个所述第二序列的第二参数,其中,所述第二参数用于指示根据所述第二序列中为所述第三词语分配的地址标识确定的所述第三词语与所述第一词语的关联强度;
第二识别子模块,用于将至少一个所述第二序列中第二参数最大的所述第二序列中为所述第三词语分配的地址标识作为识别出的所述第三词语的地址标识。
12.根据权利要求10所述的装置,其特征在于,所述第一确定子模块按照如下公式计算所述第一序列的第一参数P:
其中,m为所述第二关系的个数,n为所述第一集合s中词语的个数,Li表示所述第一集合中的第i个词语,Li-8表示所述第一集合中的第(i-8)个词语,Fj(s,i,Li,Li-8)表示在第j个所述第二关系下由所述第一集合中第i个词语和第(i-8)个词语确定的参数,Kj是为所述第j个所述第二关系的参数分配的权重,j为大于等于8的整数,j为大于等于9的整数。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
14.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。
CN201711269931.1A 2017-12-05 2017-12-05 地址标识的确定方法和装置、存储介质、电子装置 Active CN110019617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711269931.1A CN110019617B (zh) 2017-12-05 2017-12-05 地址标识的确定方法和装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711269931.1A CN110019617B (zh) 2017-12-05 2017-12-05 地址标识的确定方法和装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN110019617A true CN110019617A (zh) 2019-07-16
CN110019617B CN110019617B (zh) 2022-05-20

Family

ID=67186837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711269931.1A Active CN110019617B (zh) 2017-12-05 2017-12-05 地址标识的确定方法和装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN110019617B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021017679A1 (zh) * 2019-07-26 2021-02-04 苏宁易购集团股份有限公司 地址信息解析方法、装置、系统及数据获取方法
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112818684A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质
CN112925922A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 获取地址的方法、装置、电子设备及介质
CN113111229A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的接处警文本轨迹地地址提取方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
US20120278339A1 (en) * 2009-07-07 2012-11-01 Yu Wang Query parsing for map search
CN102867004A (zh) * 2011-07-06 2013-01-09 高德软件有限公司 一种地址匹配的方法及设备
CN103714092A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种地理位置的搜索方法和装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
WO2016127677A1 (zh) * 2015-02-13 2016-08-18 深圳市华傲数据技术有限公司 地址结构化方法及装置
CN106155998A (zh) * 2015-04-09 2016-11-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106528526A (zh) * 2016-10-09 2017-03-22 武汉工程大学 一种基于贝叶斯分词算法的中文地址语义标注方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278339A1 (en) * 2009-07-07 2012-11-01 Yu Wang Query parsing for map search
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102867004A (zh) * 2011-07-06 2013-01-09 高德软件有限公司 一种地址匹配的方法及设备
CN103714092A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种地理位置的搜索方法和装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
WO2016127677A1 (zh) * 2015-02-13 2016-08-18 深圳市华傲数据技术有限公司 地址结构化方法及装置
CN106155998A (zh) * 2015-04-09 2016-11-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106528526A (zh) * 2016-10-09 2017-03-22 武汉工程大学 一种基于贝叶斯分词算法的中文地址语义标注方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021017679A1 (zh) * 2019-07-26 2021-02-04 苏宁易购集团股份有限公司 地址信息解析方法、装置、系统及数据获取方法
CN112925922A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 获取地址的方法、装置、电子设备及介质
CN113111229A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的接处警文本轨迹地地址提取方法和装置
CN113111229B (zh) * 2020-02-13 2024-04-12 北京明亿科技有限公司 基于正则表达式的接处警文本轨迹地地址提取方法和装置
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112329467B (zh) * 2020-11-03 2022-09-30 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112818684A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质
CN112818684B (zh) * 2021-01-29 2024-04-19 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110019617B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US11599566B2 (en) Predicting labels using a deep-learning model
CN110019617A (zh) 地址标识的确定方法和装置、存储介质、电子装置
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
CN108463821B (zh) 用于直接从图像识别实体的系统和方法
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
US11835352B2 (en) Identifying, processing and displaying data point clusters
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
TWI619030B (zh) 一種軌跡資訊的推送方法及裝置
CN105069047B (zh) 一种地理信息的检索方法及装置
CN111026937B (zh) 提取poi名称的方法、装置、设备和计算机存储介质
KR102520046B1 (ko) 지도 정보 표시 방법, 장치, 전자 기기 및 기록 매체
CN107112008A (zh) 基于预测的序列识别
WO2019214453A1 (zh) 一种内容分享系统、方法、标注方法、服务器及终端设备
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN110309433B (zh) 一种数据处理方法、装置及服务器
US10203215B2 (en) Systems and methods for identifying socially relevant landmarks
US20230049839A1 (en) Question Answering Method for Query Information, and Related Apparatus
US11893073B2 (en) Method and apparatus for displaying map points of interest, and electronic device
CN111915608A (zh) 建筑物提取方法、装置、设备和存储介质
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN112711645B (zh) 一种位置点信息扩展方法、装置、存储介质和电子设备
US10909473B2 (en) Method to determine columns that contain location data in a data set
CN114820960B (zh) 构建图谱的方法、装置、设备和介质
CN112269925B (zh) 一种获取地理位置点信息的方法和装置
CN114925680A (zh) 物流兴趣点信息生成方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant