CN115238692A - 一种地点名称识别方法、系统、装置及存储介质 - Google Patents
一种地点名称识别方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN115238692A CN115238692A CN202210747953.9A CN202210747953A CN115238692A CN 115238692 A CN115238692 A CN 115238692A CN 202210747953 A CN202210747953 A CN 202210747953A CN 115238692 A CN115238692 A CN 115238692A
- Authority
- CN
- China
- Prior art keywords
- place name
- initial
- place
- name
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种地点名称识别方法、系统、装置及存储介质,其中,方法包括:从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,第一地点组中的各第一地点名称是从语句中提取的,基于各第一地点名称在语句中的起止位置数据,更新节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组,基于初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。本发明提高了对地点名称识别的准确度。
Description
技术领域
本发明涉及实体识别技术领域,特别是涉及一种地点名称识别方法、系统、装置及存储介质。
背景技术
地名识别是命名实体识别(Named Entity Recognition,NER)的一个重要应用领域。现有的地名识别技术是通过深度学习模型,对输入的语料进行地名识别。
由于深度学习模型的泛化性较强,导致识别出的地名由于不符合自然语言规则,无法实现对语句中地名的准确识别和解析。且现有深度学习模型是基于人工标注后的数据进行地名识别的。在人工标注数据的质量不高时,易使训练后的深度学习模型识别出不存在地名,降低了对地名识别的准确度。因此如何提高对地名识别的准确度,已成为亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种地点名称识别方法、系统、装置及存储介质,以提高对地点名称识别的准确度。具体技术方案如下:
一种地点名称识别方法,所述方法包括:
从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,所述预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,所述第一地点组中的各第一地点名称是从语句中提取的。
基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组。
基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
可选的,所述基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组,包括:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据。将所述首字符的所述位置数据,确定为该第一地点名称的起始位置数据。将所述末字符的所述位置数据,确定为该第一地点名称的终止位置数据。利用所述起始位置数据和所述终止位置数据,更新与该第一地点名称匹配的所述节点信息中的初始起止位置。将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息。
获得包括多个所述初始地名信息的所述初始信息组,其中,所述第一地点名称与所述初始地名信息存在对应关系。
可选的,所述基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组,包括:
对各第一地点名称,根据该第一地点名称对应地初始地名信息中的从属关系标识符,判断所述初始信息组中,是否存在该第一地点名称的上级地点名称。若是,则将该第一地点名称确定为待合并地点名称。在所述初始信息组中,不存在该第一地点名称的所述上级地点名称时,则将该第一地点名称确定为初始独立地点名称。
对具有所述从属关系的各待合并地点名称的初始地名信息进行所述第一操作,获得合并地名组,其中,所述合并地名组中包括至少一个合并地点名称及其对应的合并地名信息,所述合并地点名称中包括不少于两个的第一地点名称。
根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组。
可选的,所述根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组,包括:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的初始起止位置的区间,是否位于所述合并地名组中,至少一个合并地名信息的初始起止位置的区间内,若是,则将该初始独立地点名称及其对应地初始地名信息进行删除。若否,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
可选的,还包括:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的地名字符,与用户终端数据中的输入地名字符的匹配度是否大于预设阈值,若否,则将该初始独立地点名称及其初始地名信息进行删除。若是,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
可选的,在获得所述第一地点组的情况下,所述方法还包括:
利用预设地名补全字典,根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全,获得最终地点组。
一种地点名称识别系统,所述系统包括:
第一信息获取单元,用于从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,所述预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,所述第一地点组中的各第一地点名称是从语句中提取的。
第二信息获取单元,基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组。
地名获取单元,基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
可选的,所述第二信息获取单元被设置为:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据。将所述首字符的所述位置数据,确定为该第一地点名称的起始位置数据。将所述末字符的所述位置数据,确定为该第一地点名称的终止位置数据。利用所述起始位置数据和所述终止位置数据,更新与该第一地点名称匹配的所述节点信息中的初始起止位置。将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息。
获得包括多个所述初始地名信息的所述初始信息组,其中,所述第一地点名称与所述初始地名信息存在对应关系。
可选的,所述地名获取单元被设置为:
对各第一地点名称,根据该第一地点名称对应地初始地名信息中的从属关系标识符,判断所述初始信息组中,是否存在该第一地点名称的上级地点名称。若是,则将该第一地点名称确定为待合并地点名称。在所述初始信息组中,不存在该第一地点名称的所述上级地点名称时,则将该第一地点名称确定为初始独立地点名称。
对具有所述从属关系的各待合并地点名称的初始地名信息进行所述第一操作,获得合并地名组,其中,所述合并地名组中包括至少一个合并地点名称及其对应的合并地名信息,所述合并地点名称中包括不少于两个的第一地点名称。
根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组。
可选的,所述地名获取单元在根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组时被设置为:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的初始起止位置的区间,是否位于所述合并地名组中,至少一个合并地名信息的初始起止位置的区间内,若是,则将该初始独立地点名称及其对应地初始地名信息进行删除。若否,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
可选的,所述地名获取单元在根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组时还被设置为:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的地名字符,与用户终端数据中的输入地名字符的匹配度是否大于预设阈值,若否,则将该初始独立地点名称及其初始地名信息进行删除。若是,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
可选的,在获得所述第一地点组的情况下,所述地点名称识别系统还包括:
地名补全单元,利用预设地名补全字典,根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全,获得最终地点组。
一种地点名称识别装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器。
其中,所述处理器被配置为执行所述指令,以实现如上述任一项所述的地点名称识别方法。
一种计算机可读存储介质,当所述计算机可读存储介质中的指令由地点名称识别装置的处理器执行时,使得所述地点名称识别能够执行如上述任一项所述的地点名称识别方法。
本发明实施例提供的一种地点名称识别方法、系统、装置及存储介质,通过设置预设地名查找树,由语句中提取与节点中存储的地点名称字符相匹配的第一地点名称。使得本发明相较于现有技术,不会识别出不存在的地点名称。同时,通过获取各第一地点名称在语句中的起止位置,并基于该起止位置进行地点名称的合并和消歧,使得本发明相较于现有技术,避免了由于字符位置的差异,导致识别出的含义失准的风险。最后,通过基于初始地名信息中的从属关系和初始起止位置,对各地点名称进行合并和消歧操作,使得本发明相较于现有的深度学习方式,避免了由于学习模型的泛化性,导致最终识别出的地点名称不满足自然语言规律与标准从属关系的缺点。可见,本发明提高了对地点名称识别的准确度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地点名称识别方法的流程图;
图2为本发明的一个可选实施例提供的一种从属关系的示意图;
图3为本发明的另一个可选实施例提供的一种地点名称识别系统的框图;
图4为本发明的另一个可选实施例提供的一种地点名称识别装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种地点名称识别方法,如图1所示,该地点名称识别方法包括:
S101、从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,第一地点组中的各第一地点名称是从语句中提取的。
可选的,在本发明的一个可选实施例中,上述语句可以是包含有地点名称点的音频或文本。
其中,上述预设地名查找树可以是基于检索用文字书自编码的信息的使用算法(Practical algorithm to retrieve information coded in alphanumeric,PATRICIA)前缀树构建的。由于在上述预设地名查找树中,存储有地点名称及其信息。因此,在如图1所示的步骤S101中,上述预设地名查找树可以通过字符匹配的方式,由上述语句中,提取与节点中存储的地点名称字符相匹配的第一地点名称。从而使得本发明相较于现有技术,不会识别出不存在的地点名称。进而提高了最终识别出的地点名称的准确度。需要说明的是,在实际应用场景下,由于上述PATRICIA前缀树可以实现存储数据的热更新,即在不中断用户使用过程的情况下,可以实现地点名称的动态插入。因此,对于语句中含有未存储于上述预设地名查找树的节点的地点名称时,可以由后台服务器动态更新预设地名查找树中存储的地点名称及信息。本发明对此不作过多赘述。
可选的,在本发明的另一个可选实施例中,上述节点信息的数据类型包括但不限于:节点存储的第一地点名称的行政区域级别、该第一地点名称的上级地点名称的行政区域级别和该第一地点名称的初始起止位置。
可选的,在本发明的一个可选实施例中,上述从属关系可以是各第一地点名称之间的上下级关系。具体地:
如图2所示,节点1存储的地点名称及信息为省级行政区域的A省。节点2和节点3存储的地点名称及信息,分别为A省所属的B市和C市。节点4和节点5存储的地点名称及信息,分别为节点2存储的B市所属的D区和E区。节点6和节点7存储的地点名称及信息,分别为节点3存储的C市所属的F区和G区。节点8存储的地点名称及信息,为节点5存储的E区所属的H县。
由于在实际应用中,行政区域名称存在重复的问题。因此,通过在预设地名查找树的各节点中,建立各地点名称间的从属关系。并通过后续步骤,基于该从属关系进行地点名称的合并和消岐,可以提高最终识别出的地点名称的准确度。
S102、基于各第一地点名称在语句中的起止位置数据,更新节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组。
可选的,在本发明的一个可选实施例中,由于在自然语言中,字符出现的位置不同,其在自然语言中的含义会发生改变。因此,本发明通过上述如图1所示的步骤S102,可以获取各第一地点名称在语句中的起止位置,并通过后续步骤,基于上述位置信息进行地点名称的合并和消歧,使得本发明相较于现有技术,避免了由于字符位置的差异,导致识别出的含义失准的风险,提高了最终识别出的地点名称的准确度。
S103、基于初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
可选的,在本发明的一个可选实施例中,上述第一操作可以是将不同的第一地点名称进行合并的操作。上述第二操作可以是对易产生歧义的各第一地点名称进行消歧的操作,由于在实际应用场景下,各地点名称的在语句中的位置,并非是按照标准从属关系的顺序。例如,B的繁华,印证了A今年来的改革成果。其中,B是A省的下属城市,因此经过合并操作后获得的正确识别结果应当是A省B市。但是,由于现有的深度学习泛化能力强,在不进行合并消歧的情况下,其识别出的地点名称可以是B省A市,这就导致识别出的结果产生了歧义。因此,本发明通过基于初始地名信息中的从属关系和初始起止位置,对各地点名称进行合并和消歧操作,使得本发明相较于现有的深度学习方式,避免了由于学习模型的泛化性,导致最终识别出的地点名称不满足自然语言规律与标准从属关系的缺点,提高了最终识别出的地点名称的准确度。
本发明通过设置预设地名查找树,通过字符匹配的方式,由语句中提取与节点中存储的地点名称字符相匹配的第一地点名称。从而使得本发明相较于现有技术,不会识别出不存在的地点名称。提高了最终识别出的地点名称的准确度。同时,通过获取各第一地点名称在语句中的起止位置,并基于该起止位置进行地点名称的合并和消歧,使得本发明相较于现有技术,避免了由于字符位置的差异,导致识别出的含义失准的风险,提高了最终识别出的地点名称的准确度。最后,通过基于初始地名信息中的从属关系和初始起止位置,对各地点名称进行合并和消歧操作,使得本发明相较于现有的深度学习方式,避免了由于学习模型的泛化性,导致最终识别出的地点名称不满足自然语言规律与标准从属关系的缺点,提高了最终识别出的地点名称的准确度。可见,本发明提高了对地点名称识别的准确度。
可选的,基于各第一地点名称在语句中的起止位置数据,更新节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组,包括:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据。将首字符的位置数据,确定为该第一地点名称的起始位置数据。将末字符的位置数据,确定为该第一地点名称的终止位置数据。利用起始位置数据和终止位置数据,更新与该第一地点名称匹配的节点信息中的初始起止位置。将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息。
获得包括多个初始地名信息的初始信息组,其中,第一地点名称与初始地名信息存在对应关系。
可选的,在本发明的一个可选实施例中,上述对初始起止位置进行更新的具体实施方式,可以是:
设定现有语句为“朝阳区的天气”。其中,经过预设地名查找树提取后获得的地点名称为“朝阳区”。在预设地名查找树的对应节点的节点信息中,“朝阳区”的初始起止位置为零。
“朝阳区”在上述语句中的起始位置数据为第一字符,终止位置数据为第三字符。则经过更新后的初始起止位置为“第一字符至第三字符”。
可选的,基于初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组,包括:
对各第一地点名称,根据该第一地点名称对应地初始地名信息中的从属关系标识符,判断初始信息组中,是否存在该第一地点名称的上级地点名称。若是,则将该第一地点名称确定为待合并地点名称。在初始信息组中,不存在该第一地点名称的上级地点名称时,则将该第一地点名称确定为初始独立地点名称。
对具有从属关系的各待合并地点名称的初始地名信息进行第一操作,获得合并地名组,其中,合并地名组中包括至少一个合并地点名称及其对应的合并地名信息,合并地点名称中包括不少于两个的第一地点名称。
根据合并地名组和各初始独立地点名称的初始地名信息,执行第二操作,获得第二地点组。
可选的,在本发明的一个可选实施例中,上述获取合并地点名称和初始独立地点名称的具体实施方式,可以是:
设定当前语句为“朝阳区的天气如何,北京今天真热,”。经过预设地名查找树的提取和初始起止位置更新,获得的初始信息组中,包括“北京”和“朝阳区”两个地点名称。其中,“北京”的初始地名信息包括:“北京”、行政区域级别1和初始起止位置“第十字符至第十一字符”。“朝阳区”的初始地名信息包括:“朝阳区”、行政区域级别3、上级地点名称的行政区域级别1、上级地点名称的行政区域级别2和初始起止位置“第一字符至第三字符”。
其中,上述“朝阳区”的上级地点名称的行政区域级别有两个。由于在实际应用场景中,存在不同的上级行政区域存在相同名称的下级行政区域的现象,例如,“北京市”和“长春市”,其下属的行政区域均设有“朝阳区”。
由于“朝阳区”的上级地点名称的行政区域级别,与“北京”的行政区域级别一致。则确定“朝阳区”和“北京”均为待合并地点名称。根据从属关系对“朝阳区”和“北京”进行上述第一操作。又由于“北京”是“朝阳区”的上级地点名称。因此经上述第一操作对“北京”和“朝阳区”进行合并后,获得的合并地点名称是“北京朝阳区”。
若上述语句中不存在“北京”这一初始地名信息。则将上述“朝阳区”确定为初始独立地点名称。
可选的,根据合并地名组和各初始独立地点名称的初始地名信息,执行第二操作,获得第二地点组,包括:
对各初始独立地点名称执行第二操作:判断该初始独立地点名称的初始起止位置的区间,是否位于合并地名组中,至少一个合并地名信息的初始起止位置的区间内,若是,则将该初始独立地点名称及其对应地初始地名信息进行删除。若否,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得第二地点组。
需要说明的是,在实际应用场景下,上述第二操作的具体实施方式可以有多种,在此示例性的提供一种:
设定当前的语句为“北京朝阳区和北京的天气”。经过上述处理后获得当前的合并地名组和初始独立点名称。
设定当前的合并地名组中仅包括一个合并地点名称及其对应地合并地名信息。该合并地点名称为“北京朝阳区”。设定该合并地点名称的初始起止位置为“第一字符至第五字符”。
设定当前场景下包括“北京”和“朝阳区”初始独立地点名称,其中,“北京”的初始起止位置为“第七字符至第八字符”。“朝阳区”的初始起止位置为“第三字符至第五字符”。
可选的,在本发明的一个可选实施例中,对于初始独立地点名称,可以先行判定该初始独立地点名称的字符,是否存在于合并地点名称的字符中。
由于“北京”和“朝阳区”的字符均存在于上述合并地点名称中。则判断各初始独立地点名称对应的初始起止位置的区间,是否位于合并地名信息的初始起止位置的区间内。
显然,“朝阳区”的初始起止位置的区间位于合并地名信息的初始起止位置的区间内。“北京”的初始起止位置的区间不位于合并地名信息的初始起止位置的区间内。则通过上述第二操作,将“朝阳区”及其对应地初始地名信息删除,并将“北京”确定为独立地点名称。
可选的,上述如图1所示的方法还包括:
对各初始独立地点名称执行第二操作:判断该初始独立地点名称的地名字符,与用户终端数据中的输入地名字符的匹配度是否大于预设阈值,若否,则将该初始独立地点名称及其初始地名信息进行删除。若是,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得第二地点组。
可选的,在本发明的一个可选实施例中,上述独立地点名称的确定方式,可以是:
设定当前语句为:“朝阳区的天气如何”。经过预设地名查找树的提取和初始起止位置更新,获得的初始地名信息包括:“朝阳区”、行政区域级别3、上级地点名称的行政区域级别1、上级地点名称的行政区域级别2和初始起止位置“第一字符至第三字符”。
由“朝阳区”的上级地点名称的行政区域级别可知,其上级地点名称包括“北京”和“长春”。其中,“北京”的行政区域级别为1,“长春”的行政区域级别为2。
又由于当前语句中,不存在合并地点名称。因此,根据上传的用户终端数据中的输入地名字符,对“朝阳区”进行执行上述第二操作。其中,上述输入地名字符的类型包括但不限于:移动终端的定位数据、移动终端的地名搜索数据等。
若当前用户移动终端的定位数据显示,用户当前所处位置的输入地名字符是“长春”,则由预设地名查找树中,获取“长春”节点存储的节点信息,并对“长春”和“朝阳区”上述第一操作和第二操作。获得的独立地点名称为“长春朝阳区”。
可选的,在获得第二地点组的情况下,上述如图1所示的方法还包括:
利用预设地名补全字典,根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全,获得最终地点名称组。
可选的,在本发明的一个可选实施例中,上述预设地名补全字典可以用于补全地点名称的行政区域级别。本发明通过上述预设地名补全字典,对地点名称进行行政区域级别进行补全,使得本发明可以提高最终识别出的地点名称准确度。同时,使得识别出的地点名称可以被准确解析。
可选的,在本发明的另一个可选实施例中,上述根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全的具体实施方式可以是:
设定当前第二地点组中的一个第二地点名称为:“吉林长春朝阳”,则利用预设地名补全字典,获取各地点名称的从属关系标识符分别是“省”、“市”和“区”。利用上述从属关系标识符进行上述隶属关系补全后,获得的最终地点名称为:“吉林省长春市朝阳区”。
与上述方法实施例相对应的,本发明还提供了一种地点名称识别系统,如图3所示,该地点名称识别系统包括:
第一信息获取单元301,用于从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,第一地点组中的各第一地点名称是从语句中提取的。
第二信息获取单元302,基于各第一地点名称在语句中的起止位置数据,更新节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组。
地名获取单元303,基于初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
可选的,上述第二信息获取单元302被设置为:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据。将首字符的位置数据,确定为该第一地点名称的起始位置数据。将末字符的位置数据,确定为该第一地点名称的终止位置数据。利用起始位置数据和终止位置数据,更新与该第一地点名称匹配的节点信息中的初始起止位置。将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息。
获得包括多个初始地名信息的初始信息组,其中,第一地点名称与初始地名信息存在对应关系。
可选的,上述地名获取单元303被设置为:
对各第一地点名称,根据该第一地点名称对应地初始地名信息中的从属关系标识符,判断初始信息组中,是否存在该第一地点名称的上级地点名称。若是,则将该第一地点名称确定为待合并地点名称。在初始信息组中,不存在该第一地点名称的上级地点名称时,则将该第一地点名称确定为初始独立地点名称。
对具有从属关系的各待合并地点名称的初始地名信息进行第一操作,获得合并地名组,其中,合并地名组中包括至少一个合并地点名称及其对应的合并地名信息,合并地点名称中包括不少于两个的第一地点名称。
根据合并地名组和各初始独立地点名称的初始地名信息,执行第二操作,获得第二地点组。
可选的,上述地名获取单元303在根据合并地名组和各初始独立地点名称的初始地名信息,执行第二操作,获得第二地点组时被设置为:
对各初始独立地点名称执行第二操作:判断该初始独立地点名称的初始起止位置的区间,是否位于合并地名组中,至少一个合并地名信息的初始起止位置的区间内,若是,则将该初始独立地点名称及其对应地初始地名信息进行删除。若否,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得第二地点组。
可选的,上述地名获取单元303在根据合并地名组和各初始独立地点名称的初始地名信息,执行消歧操作,获得第二地点组时还被设置为:
对各初始独立地点名称执行第二操作:判断该初始独立地点名称的地名字符,与用户终端数据中的输入地名字符的匹配度是否大于预设阈值,若否,则将该初始独立地点名称及其初始地名信息进行删除。若是,则将该初始独立地点名称确定为独立地点名称。
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得第二地点组。
可选的,在获得第一地点组的情况下上述如图3所示的地点名称识别系统还包括:
地名补全单元,利用预设地名补全字典,根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全,获得最终地点组。
本发明实施例还提供了一种地点名称识别装置,如图4所示,该地点名称识别装置包括:
处理器401;
用于存储处理器401可执行指令的存储器402。
其中,处理器401被配置为执行指令,以实现如上述任一项的地点名称识别方法。
本发明实施例还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由地点名称识别装置的处理器执行时,使得地点名称识别能够执行如上述任一项的地点名称识别方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种地点名称识别方法,其特征在于,所述方法包括:
从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,所述预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,所述第一地点组中的各第一地点名称是从语句中提取的;
基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组;
基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
2.根据权利要求1所述的方法,其特征在于,所述基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组,包括:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据;将所述首字符的所述位置数据,确定为该第一地点名称的起始位置数据;将所述末字符的所述位置数据,确定为该第一地点名称的终止位置数据;利用所述起始位置数据和所述终止位置数据,更新与该第一地点名称匹配的所述节点信息中的初始起止位置;将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息;
获得包括多个所述初始地名信息的所述初始信息组,其中,所述第一地点名称与所述初始地名信息存在对应关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组,包括:
对各第一地点名称,根据该第一地点名称对应地初始地名信息中的从属关系标识符,判断所述初始信息组中,是否存在该第一地点名称的上级地点名称;若是,则将该第一地点名称确定为待合并地点名称;在所述初始信息组中,不存在该第一地点名称的所述上级地点名称时,则将该第一地点名称确定为初始独立地点名称;
对具有所述从属关系的各待合并地点名称的初始地名信息进行所述第一操作,获得合并地名组,其中,所述合并地名组中包括至少一个合并地点名称及其对应的合并地名信息,所述合并地点名称中包括不少于两个的第一地点名称;
根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组。
4.根据权利要求3所述的方法,其特征在于,所述根据所述合并地名组和各初始独立地点名称的初始地名信息,执行所述第二操作,获得所述第二地点组,包括:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的初始起止位置的区间,是否位于所述合并地名组中,至少一个合并地名信息的初始起止位置的区间内,若是,则将该初始独立地点名称及其对应地初始地名信息进行删除;若否,则将该初始独立地点名称确定为独立地点名称;
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
5.根据权利要求4所述的方法,其特征在于,还包括:
对各初始独立地点名称执行所述第二操作:判断该初始独立地点名称的地名字符,与用户终端数据中的输入地名字符的匹配度是否大于预设阈值,若否,则将该初始独立地点名称及其初始地名信息进行删除;若是,则将该初始独立地点名称确定为独立地点名称;
将各合并地点名称和各独立地点名称均确定为第二地点名称,获得所述第二地点组。
6.根据权利要求4或5所述的方法,其特征在于,在获得所述第一地点组的情况下,所述方法还包括:
利用预设地名补全字典,根据各第二地点名称的从属关系标识符,对各第二地点名称进行隶属关系补全,获得最终地点组。
7.一种地点名称识别系统,其特征在于,所述系统包括:
第一信息获取单元,用于从预设地名查找树中查询与第一地点组中的各第一地点名称匹配的节点,提取查询到的各节点的节点信息,获得节点信息组,其中,所述预设地名查找树中包括有多个节点,相连接的两个节点对应的地点名称具有从属关系,所述第一地点组中的各第一地点名称是从语句中提取的;
第二信息获取单元,基于各第一地点名称在所述语句中的起止位置数据,更新所述节点信息组中各第一地点名称匹配的各节点信息中的初始起止位置,获得初始信息组;
地名获取单元,基于所述初始信息组,对各第一地点名称进行第一操作和第二操作,获得包括多个第二地点名称的第二地点组。
8.根据权利要求7所述的系统,其特征在于,所述第二信息获取单元被设置为:
对各第一地点名称,获取该第一地点名称的首字符和末字符的位置数据;将所述首字符的所述位置数据,确定为该第一地点名称的起始位置数据;将所述末字符的所述位置数据,确定为该第一地点名称的终止位置数据;利用所述起始位置数据和所述终止位置数据,更新与该第一地点名称匹配的所述节点信息中的初始起止位置;将该第一地点名称更新后的节点信息,确定为该第一地点名称的初始地名信息;
获得包括多个所述初始地名信息的所述初始信息组,其中,所述第一地点名称与所述初始地名信息存在对应关系。
9.一种地点名称识别装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的地点名称识别方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由地点名称识别装置的处理器执行时,使得所述地点名称识别能够执行如权利要求1至6中任一项所述的地点名称识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210747953.9A CN115238692A (zh) | 2022-06-29 | 2022-06-29 | 一种地点名称识别方法、系统、装置及存储介质 |
PCT/CN2022/105378 WO2024000656A1 (zh) | 2022-06-29 | 2022-07-13 | 一种地点名称识别方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210747953.9A CN115238692A (zh) | 2022-06-29 | 2022-06-29 | 一种地点名称识别方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238692A true CN115238692A (zh) | 2022-10-25 |
Family
ID=83672341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210747953.9A Pending CN115238692A (zh) | 2022-06-29 | 2022-06-29 | 一种地点名称识别方法、系统、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115238692A (zh) |
WO (1) | WO2024000656A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074317A1 (en) * | 2012-11-08 | 2014-05-15 | Evernote Corporation | Extraction and clarification of ambiguities for addresses in documents |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN108388559B (zh) * | 2018-02-26 | 2021-11-19 | 中译语通科技股份有限公司 | 地理空间应用下的命名实体识别方法及系统、计算机程序 |
CN109961259B (zh) * | 2019-03-28 | 2021-07-27 | 上海中通吉网络技术有限公司 | 地址标准化处理方法和设备 |
CN112364051B (zh) * | 2020-11-25 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种数据查询方法及装置 |
CN113420557B (zh) * | 2021-06-09 | 2024-03-08 | 山东师范大学 | 中文命名实体识别方法、系统、设备及存储介质 |
CN114492438A (zh) * | 2021-11-26 | 2022-05-13 | 武汉众智数字技术有限公司 | 一种基于知识图谱与自然语言处理技术的地址标准化方法 |
-
2022
- 2022-06-29 CN CN202210747953.9A patent/CN115238692A/zh active Pending
- 2022-07-13 WO PCT/CN2022/105378 patent/WO2024000656A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024000656A1 (zh) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151179B2 (en) | Method, apparatus and electronic device for determining knowledge sample data set | |
CN109145281B (zh) | 语音识别方法、装置及存储介质 | |
CN110321408B (zh) | 基于知识图谱的搜索方法、装置、计算机设备和存储介质 | |
CN109739997B (zh) | 地址对比方法、装置及系统 | |
CN116483973A (zh) | 一种文本处理方法、装置以及相关设备 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN104239286A (zh) | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 | |
CN106126503B (zh) | 业务领域定位方法及终端 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN104679801A (zh) | 一种兴趣点搜索方法和装置 | |
CN110704719B (zh) | 企业搜索文本分词方法和装置 | |
CN106777118B (zh) | 一种基于模糊字典树的地理词汇快速抽取方法 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN112256821A (zh) | 中文地址补全的方法、装置、设备及存储介质 | |
CN103530298A (zh) | 一种信息搜索方法和装置 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111190937B (zh) | 籍贯信息的查询方法、装置、电子设备及存储介质 | |
CN115238692A (zh) | 一种地点名称识别方法、系统、装置及存储介质 | |
CN117033534A (zh) | 地理信息处理方法、装置、计算机设备和存储介质 | |
CN113435217B (zh) | 语言测试处理方法、装置及电子设备 | |
CN116414808A (zh) | 详细地址规范化的方法、装置、计算机设备和存储介质 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |