CN114692023A - 地点检索方法、电子设备以及存储介质 - Google Patents
地点检索方法、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN114692023A CN114692023A CN202210366076.0A CN202210366076A CN114692023A CN 114692023 A CN114692023 A CN 114692023A CN 202210366076 A CN202210366076 A CN 202210366076A CN 114692023 A CN114692023 A CN 114692023A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- retrieved
- target
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本申请实施例公开了一种地点检索方法、电子设备以及存储介质,包括:获取待检索文本;对所述待检索文本进行实体切分,得到所述待检索文本对应的至少一个实体;根据预设关联关系,确定所述待检索文本中各实体对应的实体标识;基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点,该方案不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种地点检索方法、电子设备以及存储介质。
背景技术
随着智能设备和移动互联网技术的发展,结合互联网的新型出行方式也出现了蓬勃的发展。为了更好地满足用户的需求,准确识别用户想要去的目的地对于地点检索至关重要。
目前的地点检索方案,主要是对用户输入的地点词,通常会进行目的地的推荐,以便于用户对目的地进行选择,其选择的依据主要是基于数据库里已有的结果进行打分,返回最高相似度的分的结果,然而,这种方法需要依赖庞大且完备的数据,如果用户搜索的地址不在库中就无法预测;其次,结果受限于排序算法效果,可能出现文本结构相似度大于语义相似度,由此可见,在目前的地点检索方案中,不仅召回率较低,且准确性较差。
发明内容
本申请实施例提供一种地点检索方法、电子设备以及存储介质,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
本申请实施例提供了一种地点检索方法,包括:
获取待检索文本;
对所述待检索文本进行实体切分,得到所述待检索文本对应的至少一个实体;
根据预设关联关系,确定所述待检索文本中各实体对应的实体标识;
基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点。
可选的,在一些实施例中,所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点,包括:
识别所述实体标识对应的标识类型;
基于所述标识类型,确定所述待检索文本对应的地点检索策略;
根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点。
可选的,在一些实施例中,所述根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
获取所述待检索文本对应的行政区域;
基于第一地点检索策略,在各实体中确定第一目标实体;
基于所述行政区域以及所述第一目标实体对应的实体标识,输出所述待检索文本对应的目标地点。
可选的,在一些实施例中,所述基于所述行政区域以及所述第一目标实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
基于所述行政区域以及所述第一目标实体对应的实体标识,在预设文本库中确定与所述待检索文本对应的第一召回文本;
将满足于预设条件的第一召回文本确定为第一目标文本,并将所述第一目标文本对应的地点确定为所述待检索文本对应的目标地点。
可选的,在一些实施例中,所述根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
基于第二地点检索策略,构建所述待检索文本对应的第二召回文本;
计算所述待检索文本与各第二召回文本之间的编辑距离相似度;
将所述编辑距离相似度大于预设值的第二召回文本确定为候选文本;
确定编辑距离相似度最大的候选文本为第二目标文本,并将所述第二目标文本对应的地点确定为所述待检索文本对应的目标地点。
可选的,在一些实施例中,还包括:
当所述第二地点检索策略的预测结果为空集时,则对所述各实体进行临近点位预测;
基于预测结果,输出所述待检索文本对应的目标地点。
可选的,在一些实施例中,还包括:
当临近点位的预测结果为空集时,保留所述待检索文本中的第一目标实体;
根据所述第一目标实体,输出所述待检索文本对应的目标地点。
可选的,在一些实施例中所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点之前,还包括:
获取当前地点检索环境;
基于所述当前地点检索策略,保留所述待检索文本中的第三目标实体;
所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点,包括:基于所述第三目标实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点。
相应的,本申请还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时如上任一所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本申请实施例提供的地点检索方案,在获取待检索文本后,对所述待检索文本进行实体切分,得到所述待检索文本对应的至少一个实体,然后,根据预设关联关系,确定所述待检索文本中各实体对应的实体标识,最后,基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点。在本申请提供的地点检索的方案中,可以对待检索文本进行实体切分,以降低无意义的字词对检索结果造成的影响,并且,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点,由此,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的地点检索方法的流程示意图;
图2是本申请实施例提供的地点检索方法中地址结构化的示意图;
图3是本申请实施例提供的地点检索装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种地点检索方法、装置、电子设备和存储介质。
其中,该地点检索装置具体可以集成在服务器或者终端中,服务器可以包括一个独立运行的服务器或者分布式服务器,也可以包括由多个服务器组成的服务器集群,终端可以包括手机、平板电脑或个人计算机(PC,Personal Computer)。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
一种地点检索方法,包括:获取待检索文本;对待检索文本进行实体切分,得到待检索文本对应的至少一个实体;根据预设关联关系,确定待检索文本中各实体对应的实体标识;基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
请参阅图1,图1为本申请实施例提供的地点检索方法的流程示意图。该地点检索方法的具体流程可以如下:
101、获取待检索文本。
其中,待检索文本可以是由用户输入的文本,待检索文本还可以是保存在本地数据库的文本,也可以是通过访问网络接口拉取得到的文本,具体根据实际情况而定。
比如,用户在打车软件中输入“XX区XX路”,那么该“XX区XX路”则为待检索文本;又比如,用户在货运软件中输入“XX小区”,那么该“XX小区”则为待检索文本。
102、对待检索文本进行实体切分,得到待检索文本对应的至少一个实体。
其中,实体又称为实体词,实体词指的是具有特定语义的词语,具体可以是能够指代某项事物的名词,比如张三、或XX小区,等等。
例如,具体的,可以采用预设的命名实体识别(Named Entity Recognition,NER,NER)算法对待检索文本进行实体切分,得到待检索文本对应的至少一个实体,NER自然语言处理中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类,时间类,数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。NER就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
命名实体识别算法可以包括基于词典和规则的方法、传统机器学习的方法以及采用基于深度学习的方法。
基于规则的NER系统依赖于人工制定的规则。规则的设计一般基于句法、语法、词汇的模式以及特定领域的知识等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。
在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机以及条件随机场。
NER使用深度学习的原因主要是:1.NER适用于非线性转化。2.深度学习避免大量的人工特征的构建,节省了设计NER功能的大量精力。3.深度学习能通过梯度传播来训练,这样可以构建更复杂的网络。5.端到端的训练方式。
在本申请中,可以根据实际需求选择相应的NER算法,在此不再赘述。
103、根据预设关联关系,确定待检索文本中各实体对应的实体标识。
本申请对待检索文本进行地址结构化,即,对待检索文本进行实体切分后,赋予每个实体一个相应的实体标识,请参阅图2,地址结构化方法将地址切分为省、市、区、乡镇、道路、交叉路口、方位、距离等标识。实际处理的数据格式是以(成分名称,起始位置,结束位置,类型,级别标识)为元素构成的列表,例如[(“江苏省”,0,3,“provice”,2),...,(“路西”,x,x,“orientation”,28)],具体如表1所示:
表1
其中,级别、地点名称以及常用的关键词之间的关联关系可以是预先构建的,本申请所提及的关键词仅仅是示例,并不作为对本申请的限制,本申请的关联关系还可以是其他属性之间的关系,具体可以根据实际情况进行选择,在此不再赘述。
104、基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
例如,具体的,对于待检索文本“北京市昌平区创新路11号10楼1015室”,通过表1可知,其对应的标识为“2.4.8.21.23.24.25”,由此,可以得到该待检索文本对应的目标地点。
进一步的,在实际检索过程中,待检索文本中包含的元素并不全面,比如,待检索文本A为“昌平区创新路11号”,待检索文本B为“北京市昌平区创新路”,即,待检索文本中包含的实体不同,因此,需要根据待检索文本包含的实体,确定相应的地点检索策略,也即,可选的,在一些实施例中,步骤“基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点”,包括:
(11)识别实体标识对应的标识类型;
(12)基于标识类型,确定待检索文本对应的地点检索策略;
(13)根据确定的地点检索策略以及各实体对应的实体标识,输出待检索文本对应的目标地点。
例如,具体的,本申请预先设定关键成分(即目标实体的标识类型),以便后续确定相应的地点检索策略,同时,还可以去除待检索文本中的冗余成分,从而提高地点的召回率。
请参阅表2,表2为本申请预先设定的关键成分表
基本地点名称 | 级别 | 主子点类型 |
社区、村 | 6 | - |
道路 | 8 | 主点 |
兴趣地点 | 10 | 主点 |
道路门牌号 | 21 | 子点 |
楼栋号 | 22 | 子点 |
地名编号 | 26 | 子点 |
表2
具体的,遍历地址结构化切分后的待检索文本,判断待检索文本中目标实体的实体标识是否在关键成分表,如果是则将该成分标签(实体标识)则提取该实体标签,反之则跳过,比如,“北京市昌平区创新路11号10楼1015室”命中关键成分列表[8,21],即[“创新路”,“11号”]。
可选的,在一些实施例中,可以将主点确定为第一目标实体,子点确定为第二目标实体,主点召回是在地址结构化(即实体切分后的待检索文本)的基础上,从地址成分列表中识别出主点成分,利用主点成分,在数据库中查询相关点位,当待检索文本中仅包含主点时,首先,需要确定待检索文本对应的行政区域,随后,基于该行政区域以及实体标识,输出待检索文本对应的目标地点,即,可选的,在一些实施例中,步骤“根据确定的地点检索策略以及各实体对应的实体标识,输出待检索文本对应的目标地点”,具体可以包括:
(21)获取待检索文本对应的行政区域;
(22)基于第一地点检索策略,在各实体中确定第一目标实体;
(23)基于行政区域以及第一目标实体对应的实体标识,输出待检索文本对应的目标地点。
行政区划获取的方式有2种,第一种是利用地址结构化信息识别出城市,第二种是利用用户所选城市,可选的,在一些实施例中,当用户输入的待检索文本中包含城市,且用户另行选择了城市,则以用户输入的待检索文本中的城市为准。
进一步的,当识别到待检索文本中仅包含主点(即第一目标实体)时,在预设的文本库中查询与该待检索文本对应的召回文本,并基于查询得到的召回文本,输出相应的目标地点,即,可选的,在一些实施例中,步骤“基于行政区域以及第一目标实体对应的实体标识,输出待检索文本对应的目标地点”,包括:
(31)基于行政区域以及第一目标实体对应的实体标识,在预设文本库中确定与待检索文本对应的第一召回文本;
(32)将满足于预设条件的第一召回文本确定为第一目标文本,并将第一目标文本对应的地点确定为待检索文本对应的目标地点。
例如,具体的,如表2所示,在本申请一些实施例中,将兴趣热点(Point ofinterest,POI)和道路定义为主点(即第一目标实体),随后,基于待检索文本中包含的主点成分,搜索预设文本库,搜索策略如下:
a)当待检索文本中道路和POI同时存在时,数据库中先查找道路和POI同时满足条件的数据;如果未找到数据,则返回预设文本库中道路满足条件的数据;如果仍未找到,则不返回数据;
b)当待检索文本中仅道路存在时,预设文本库中查找道路满足条件的数据;
c)当待检索文本中仅POI存在时,预设文本库中查找POI满足条件的数据。
具体的匹配策略如下:
首先,是对待检索文本进行关键字筛选,关键字筛选是指根据待检索文本中命中的关键成分对召回列表进行过滤,如果召回中缺少与待检索文本对应的成分级别标签,则保留该召回文本,反之则剔除。
例如,待检索文本为“北京市昌平区创新路11号”,实体标识[2,4,8,21],召回文本为“北京市昌平区创新路13号”,“北京市昌平区创新路”,实体标识分别为[2,4,8,21]和[2,4,8],过滤后得到的结果为:“北京市昌平区创新路13号”。随后,则进行关键字匹配,
关键字匹配是指根据预先定义好的地址成分,检验待检索文本中对应的成分内容和召回文本中对应的成分内容是否匹配,若全都匹配则保留,若存在任一不匹配的成分则剔除,具体步骤可以如下:
步骤a)检查待检索文本中出现的预定义的实体标识命中了哪些预先设定的标识;
步骤b)若召回文本中存在对应的预设标识,检查待检索文本和召回文本中相同标识对应的成分是否全都匹配;
匹配策略共有两种,前缀匹配和相似度匹配:
1)前缀匹配:召回文本成分内容以待检索文本成分内容为前缀;
2)相似度匹配:召回文本成分内容和待检索文本成分内容计算编辑距离相似度,相似度满足一定阈值;
编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。
比如:待检索文本:“创新路11号”,召回文本A:“创新路13号”,召回文本B:“联盟路15号”,召回文本C:“创新路科技大厦”过滤后得到结果:召回文本:“创新路13号”。其中召回文本B对应的道路不匹配,召回文本C出现待检索文本中没有的POI。
进一步的,计算待检索文本和召回文本之间的编辑距离相似度,去除编辑距离相似度小于预设值s1的召回文本,从而过滤该召回文本的点位,随后,在保留的召回文本中,选择编辑距离相似度最大的召回文本(以下称为A类文本),当存在两个或两个以上的A类文本时,选择长度最短的A类文本,这样做的目的是保证输出召回文本的地址内容中冗余信息尽量少,最后,计算该召回文本的置信度,该置信度可以通过召回文本和待检索文本之间的文本相似度衡量,比如,将文本相似度大于或等于预设值s2的召回文本确定为第一目标文本,并输出该第一目标文本对应的目标地点。
可选的,在一些实施例中,当待检索文本中包含主点和子点时,则可以计算待检索与召回文本之间的编辑距离相似度,随后,基于该编辑距离相似度确定目标地点,即,可选的,在一些实施例中,步骤“根据确定的地点检索策略以及各实体对应的实体标识,输出待检索文本对应的目标地点”,具体可以包括:
(41)基于第二地点检索策略,构建待检索文本对应的第二召回文本;
(42)计算待检索文本与各第二召回文本之间的编辑距离相似度;
(43)将编辑距离相似度大于预设值的第二召回文本确定为候选文本;
(44)确定编辑距离相似度最大的候选文本为第二目标文本,并将第二目标文本对应的地点确定为待检索文本对应的目标地点。
例如,具体的,确定该第二检索策略对应的主点和子点,随后,根据确定主点和子点构建第二召回文本,接着,计算待检索文本与各第二召回文本之间的编辑距离相似度,再然后,将编辑距离相似度大于预设值的第二召回文本确定为候选文本,当该策略可以确定第二目标文本时,则输出该第二目标文本对应的目标地点,具体流程可以参阅前面主点预测的流程。
需要说明的是,当该第二检索策略的预测结果为空集时,即,在第二检索策略下无法输出目标地点时,则可以执行临近点预测方法,即,可选的,在一些实施例中,本申请的地点检索方法具体还可以包括:
(51)当第二地点检索策略的预测结果为空集时,则对各实体进行临近点位预测;
(52)基于预测结果,输出待检索文本对应的目标地点。
本申请提供如下几种临近点预测方法,具体可以如下:
方式一:
步骤1.第二召回文本成分汇总,汇总第二召回文本列表中的成分内容,按照级别标签构成字典键值对,级别标签为键,成分内容为值。并且满足条件第二召回文本中相同标签下出现相同的成分内容时仅保留1个,即一个键对应的值不重复;
示例:
{“8”:[创新路],“21”:[11号,13号,19号]}
步骤2.判断待预测关键成分,基于步骤1生成的字典,推断待预测的成分标签。
推断逻辑为:
a)子点成分为1.2小节表2中21、22、26对应的成分;
b)待预测的成分标签对应的成分内容最多;
c)不同标签对应的值数量相同的情况下,标签级别越高越好;
示例:推断待搜索标签为“21”
步骤3.数值映射,将步骤1中的待搜索的号码成分转化为整数类型的数值,用于后续进行搜索临近号码。这一步针对待检索文本和第二召回文本同时处理,在第二召回文本标签对应的号码列表中,搜索离待检索文本号码最近的点位。
数值映射逻辑共分为两种:数字类型和字母类型。具体方案如下所示:
a)移除号码成分中的后缀;
b)判断号码类型,是数字还是字母;
c)数值转换;
示例:
[11号,13号,19号]转化为[11,13,19]
步骤4.最近点搜索,先将数值号码进行排序,然后搜索与待检索文本号码差值最小的号码。
具体方案为:
a)将第二召回文本标签对应的数值号码按照从小到大进行排序,便于后续进行号码搜索;
b)采用二分查找方法,查找第二召回文本中号码和待检索文本号码差值最小的号码;
示例:
待检索文本号码为14,第二召回文本列表[11,13,19],故搜索的最近点号码是13。
步骤5.近邻召回,基于第二召回文本排序后的号码列表和查找到的最近点,找到临近候选点位,为后续点位预测策略缩小候选集。
临近候选点位筛选策略为:
a)号码临近:指按照待检索文本号码差值小于y个号码的规则从第二召回文本号码列表中筛选出来的临近号码;
b)索引临近:指按照最近点搜索方法找到的号码,在索引位置上前后相差z个位置的规则从第二召回文本号码列表中筛选出来的临近号码;
示例:
待检索文本号码为14,第二召回文本号码列表为[11,13,19]
号码临近阈值为2,筛选出来13;
索引临近阈值为2,筛选出来11,13,19;
步骤6.点位预测策略,按照预先设定好的策略计算步骤5召回的临近点位,预测返回结果。当前子点预测策略一共有五种,每种策略计算逻辑存在差异,如下所示:
a)子点号码命中策略
子点号码命中策略是指当召回的第二召回文本子点成分列表中正好出现待检索文本子点成分时,判断该第二召回文本子点能否作为返回结果,如果满足相似度阈值则返回,反之则无返回。
1)找到与待检索文本子点成分一致的第二召回文本子点成分,可能统一子点号码对应多个第二召回文本数据;
2)判断相似度是否超过指定阈值,剔除不满足阈值的结果;
3)如果没有满足阈值的第二召回文本数据,该策略返回为空;
4)如果存在满足阈值的第二召回文本数据,该策略返回任意一条第二召回文本数据作为最红结果;
5)计算置信度,置信度等于相似度。
示例:
待检索文本号码为13,第二召回文本号码列表为[11,13,19]
策略命中子点号码为13
方式二:
道路双侧号码生成策略是指当待检索文本中的主点成分为道路(级别8)且带预测的子点号码成分为门牌号(级别21)时,第二召回文本中能够找到待检索文本子点号码两侧临近的号码,这种情况下通过两侧号码生成一个虚拟点位作为返回结果。
1)检验待检索文本主点是否为道路类型,是则继续,否则结束;
2)判断待检索文本子点数值的奇偶性;
3)根据待检索文本子点数值的奇偶性,过滤第二召回文本列表中和待检索文本子点奇偶性不一致的子点;
4)过滤第二召回文本子点和待检索文本子点号码差值较大的点,如果此时只有单侧临近点位则结束,反之继续;
5)选取距离待检索文本子点号码最小的两个第二召回文本子点号码,并查找号码对应的第二召回文本数据;
6)左侧号码(或右侧号码)对应的数据如果大于等于3个,则需要剔除异常点。具体方法为,第二召回文本数据经纬度按照均值计算中心点,过滤和中心距离相差较大的点位;
7)左侧号码(或右侧号码)采用过滤后的点位计算平均值,得到该号码对应的最终经纬度坐标;
基于左右临近号码的最终经纬度坐标,按照线性插值的方法去预测中间号码(待检索文本子点号码)的经纬度。具体公式如下
其中,lonpred为预测的经度坐标,lonright为右侧的经度坐标,lonleft为左侧的经度坐标,numpred为预测的号码,numleft为左侧的号码,latpred为预测的纬度坐标,latright为右侧的纬度坐标,latleft为左侧的纬度坐标。
计算置信度,相似度和距离加权求和得到置信度,具体公式如下
confidence=similarity+(1-2*distance/threshold)*0.05 (4)
其中,geodesic表示球面坐标系距离计算公式,输入两个点位的经纬度即可得到距离;num表示号码,distance是距离除以号码差值,代表单位号码差值的相差的距离,用来对距离差进行归一化;threshold为设定的距离阈值;置信度公式为文本相似度similarity与距离distance权重的和。
示例:
待检索文本号码为13,第二召回文本号码列表为[11,15,19]
第二召回文本中能够找到11、15,故采用生成策略计算13号对应的经纬度,返回这个经纬度以及号码生成的虚拟点位作为返回结果。
方式三:
道路单侧号码生成策略是指当待检索文本中的主点成分为道路(级别8)且带预测的子点号码成分为门牌号(级别21)时,第二召回文本中能够找到待检索文本子点号码单侧临近的号码,这种情况下通过单侧号码返回一个临近点位作为返回结果。
1)检验待检索文本主点是否为道路类型,是则继续,否则结束;
2)判断待检索文本子点数值的奇偶性;
3)根据待检索文本子点数值的奇偶性,过滤第二召回文本列表中和待检索文本子点奇偶性不一致的子点;
4)过滤第二召回文本子点和待检索文本子点号码差值较大的点,如果此时没有临近点位则结束,反之继续;
5)选取距离待检索文本子点号码最小的一个第二召回文本子点号码,并查找号码对应的第二召回文本数据;
6)左侧号码(或右侧号码)对应的数据如果大于等于3个,则需要剔除异常点。具体方法为,第二召回文本数据经纬度按照均值计算中心点,过滤和中心距离相差较大的点位;
7)左侧号码(或右侧号码)采用过滤后的点位计算平均值,得到该号码对应的最终经纬度坐标;
计算置信度,相似度和号码偏移量加权求和得到置信度,具体公式如下
offset=|numnear-numpred|-1 (5)
confidence=similarity+(1-2*offset/threshold)*0.05 (6)
其中,num表示号码,offset表示两个点位号码之间的差值的绝对值与偏置项的差;threshold为号码阈值;置信度公式为文本相似度与号码差值权重的和。
示例:
待检索文本号码为14,第二召回文本号码列表为[11,13,19]
第二召回文本中能够找到13,故采用上述策略计算13号对应的经纬度,返回这个经纬度及数据作为返回结果。
方式四:
小区双侧号码生成策略是指当待检索文本中的主点成分为POI(级别6和级别10)且带预测的子点号码成分标签为(级别26和级别22)时,第二召回文本中能够找到待检索文本子点号码两侧临近的号码,这种情况下通过两侧号码生成一个虚拟点位作为返回结果。
1)过滤第二召回文本子点和待检索文本子点号码差值较大的点,如果此时只有单侧临近点位则结束,反之继续;
2)选取距离待检索文本子点号码最小的两个第二召回文本子点号码,并查找号码对应的第二召回文本数据;
3)左侧号码(或右侧号码)对应的数据如果大于等于3个,则需要剔除异常点。具体方法为,第二召回文本数据经纬度按照均值计算中心点,过滤和中心距离相差较大的点位;
4)左侧号码(或右侧号码)采用过滤后的点位计算平均值,得到该号码对应的最终经纬度坐标;
基于左右临近号码最终经纬度坐标,按照线性插值的方法去预测中间号码(待检索文本子点号码)的经纬度。具体公式如下:
计算置信度,相似度和距离加权求和得到置信度,具体公式如下
offset=|numnear-numpred|-1 (9)
confidence=similarity+(1-2*offset/threshold)*0.05 (10)
方式五:
小区单侧号码生成策略是指当待检索文本中的主点成分为POI(级别6和级别10)且带预测的子点号码成分标签为(级别26和级别22)时,第二召回文本中能够找到待检索文本子点号码单侧临近的号码,这种情况下通过单侧号码返回一个临近点位作为返回结果。
1)过滤第二召回文本子点和待检索文本子点号码差值较大的点,如果此时没有临近点位则结束,反之继续;
2)选取距离待检索文本子点号码最小的一个第二召回文本子点号码,并查找号码对应的第二召回文本数据;
3)左侧号码(或右侧号码)对应的数据如果大于等于3个,则需要剔除异常点。具体方法为,第二召回文本数据经纬度按照均值计算中心点,过滤和中心距离相差较大的点位;
4)左侧号码(或右侧号码)采用过滤后的点位计算平均值,得到该号码对应的最终经纬度坐标;
计算置信度,相似度和号码偏移量加权求和得到置信度,具体公式如下:
offset=|numnear-numpred|-1 (11)
confidence=similarity+(1-2*offset/threshold)*0.05 (12)
需要说明的是,当临近点位输出的结果为空集时,保留待检索文本中的第一目标实体,并根据第一目标实体,输出待检索文本对应的目标地点,具体的,可以拆分待检索文本中的主点,按照主点成分进行成分过滤,剔除后续子点部分,随后过滤第三召回文本,原始数据集为主点的第三召回文本,根据预先处理好的主子点类型对第三召回文本进行过滤,保留类型为主点的第三召回文本,最后,基于第三召回文本进行主点预测,该方案的目的是为了在子点预测没有返回结果时进行兜底,具体方法可以参阅前面主点预测的流程,在此不再赘述。
还需要说明的是,对于不同的检索场景而言,其所需的地点精度不同,比如,对于打车或货运场景而言,其仅需要精确到道路或小区的地点即可;而对于外卖配送的场景而言,则需要精确至具体的门牌号,因此,在一些实施例中,步骤“基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点之前”,具体可以包括:
(61)获取当前地点检索环境;
(62)基于当前地点检索策略,保留待检索文本中的第三目标实体。
可选的,在一些实施例中,步骤“基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点”,具体可以为:基于第三目标实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
具体检索目标地点的流程请参阅前面实施例,在此不再赘述。
本申请实施例在获取待检索文本后,对待检索文本进行实体切分,得到待检索文本对应的至少一个实体,然后,根据预设关联关系,确定待检索文本中各实体对应的实体标识,最后,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。本申请提供的地点检索的方案,可以对待检索文本进行实体切分,以降低无意义的字词对检索结果造成的影响,并且,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点,由此,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
为便于更好的实施本申请实施例的地点检索方法,本申请实施例还提供一种基于上述地点检索装置(简称检索装置)。其中名词的含义与上述地点检索方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本申请实施例提供的地点检索装置的结构示意图,其中该训练装置可以包括获取模块201、切分模块202、确定模块203以及输出模块204,具体可以如下:
获取模块201,用于获取待检索文本。
其中,待检索文本可以是由用户输入的文本,待检索文本还可以是保存在本地数据库的文本,也可以是通过访问网络接口拉取得到的文本,具体根据实际情况而定。
切分模块202,用于对待检索文本进行实体切分,得到待检索文本对应的至少一个实体。
例如,具体的,可以采用预设的命名实体识别(Named Entity Recognition,NER,NER)算法对待检索文本进行实体切分,得到待检索文本对应的至少一个实体,NER自然语言处理中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类,时间类,数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。NER就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
确定模块203,用于根据预设关联关系,确定待检索文本中各实体对应的实体标识。
对待检索文本进行实体切分后,确定模块203可以根据预设关联关系,确定每个实体一个相应的实体标识。
输出模块204,用于基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
例如,具体的,对于待检索文本“北京市昌平区创新路11号10楼1015室”,通过表1可知,其对应的标识为“2.4.8.21.23.24.25”,由此,可以得到该待检索文本对应的目标地点。
可选的,在一些实施例中,输出模块204具体可以包括:
识别单元,用于识别实体标识对应的标识类型;
确定单元,用于基于标识类型,确定待检索文本对应的地点检索策略;
输出单元,用于根据确定的地点检索策略以及各实体对应的实体标识,输出待检索文本对应的目标地点。
可选的,在一些实施例中,输出单元具体可以包括:
获取子单元,用于获取待检索文本对应的行政区域;
第一确定子单元,用于基于第一地点检索策略,在各实体中确定第一目标实体;
第一输出子单元,用于基于行政区域以及第一目标实体对应的实体标识,输出待检索文本对应的目标地点。
可选的,在一些实施例中,输出子单元具体可以用于:基于行政区域以及第一目标实体对应的实体标识,在预设文本库中确定与待检索文本对应的第一召回文本,将满足于预设条件的第一召回文本确定为第一目标文本,并将第一目标文本对应的地点确定为待检索文本对应的目标地点。
可选的,在一些实施例中,输出单元具体可以包括:
构建子单元,用于基于第二地点检索策略,构建待检索文本对应的第二召回文本;
计算子单元,用于计算待检索文本与各第二召回文本之间的编辑距离相似度;
第二确定子单元,用于将编辑距离相似度大于预设值的第二召回文本确定为候选文本;
输出子单元,用于确定编辑距离相似度最大的候选文本为第二目标文本,并将第二目标文本对应的地点确定为待检索文本对应的目标地点。
可选的,在一些实施例中,输出模块具体还可以用于:当第二地点检索策略的预测结果为空集时,则对各实体进行临近点位预测;基于预测结果,输出待检索文本对应的目标地点。
可选的,在一些实施例中,输出模块具体还可以用于:当临近点位输出的结果为空集时,保留待检索文本中的第一目标实体,并根据第一目标实体,输出待检索文本对应的目标地点。
本申请实施例的获取模块201在获取待检索文本后,切分模块202对待检索文本进行实体切分,得到待检索文本对应的至少一个实体,然后,确定模块203根据预设关联关系,确定待检索文本中各实体对应的实体标识,最后,输出某块204基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。本申请提供的地点检索的方案,可以对待检索文本进行实体切分,以降低无意义的字词对检索结果造成的影响,并且,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点,由此,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
此外,本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器301是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器301可包括一个或多个处理核心;优选的,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。
存储器302可用于存储软件程序以及模块,处理器301通过运行存储在存储器302的软件程序以及模块,从而执行各种功能应用以及地点检索。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以包括存储器控制器,以提供处理器301对存储器302的访问。
电子设备还包括给各个部件供电的电源303,优选的,电源303可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元304,该输入单元304可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器301会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能,如下:
获取待检索文本;对待检索文本进行实体切分,得到待检索文本对应的至少一个实体;根据预设关联关系,确定待检索文本中各实体对应的实体标识;基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例在获取待检索文本后,对待检索文本进行实体切分,得到待检索文本对应的至少一个实体,然后,根据预设关联关系,确定待检索文本中各实体对应的实体标识,最后,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。本申请提供的地点检索的方案,可以对待检索文本进行实体切分,以降低无意义的字词对检索结果造成的影响,并且,基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点,由此,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种地点检索方法中的步骤。例如,该指令可以执行如下步骤:
获取待检索文本;对待检索文本进行实体切分,得到待检索文本对应的至少一个实体;根据预设关联关系,确定待检索文本中各实体对应的实体标识;基于各实体对应的实体标识以及实体标识对应的标识类型,输出待检索文本对应的目标地点。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种地点检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种地点检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种地点检索方法、装置、电子设备以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种地点检索方法,其特征在于,包括:
获取待检索文本;
对所述待检索文本进行实体切分,得到所述待检索文本对应的至少一个实体;
根据预设关联关系,确定所述待检索文本中各实体对应的实体标识;
基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点。
2.根据权利要求1所述的方法,其特征在于,所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点,包括:
识别所述实体标识对应的标识类型;
基于所述标识类型,确定所述待检索文本对应的地点检索策略;
根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点。
3.根据权利要求2所述的方法,其特征在于,所述根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
获取所述待检索文本对应的行政区域;
基于第一地点检索策略,在各实体中确定第一目标实体;
基于所述行政区域以及所述第一目标实体对应的实体标识,输出所述待检索文本对应的目标地点。
4.根据权利要求3所述的方法,其特征在于,所述基于所述行政区域以及所述第一目标实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
基于所述行政区域以及所述第一目标实体对应的实体标识,在预设文本库中确定与所述待检索文本对应的第一召回文本;
将满足于预设条件的第一召回文本确定为第一目标文本,并将所述第一目标文本对应的地点确定为所述待检索文本对应的目标地点。
5.根据权利要求2所述的方法,其特征在于,所述根据确定的地点检索策略以及各实体对应的实体标识,输出所述待检索文本对应的目标地点,包括:
基于第二地点检索策略,构建所述待检索文本对应的第二召回文本;
计算所述待检索文本与各第二召回文本之间的编辑距离相似度;
将所述编辑距离相似度大于预设值的第二召回文本确定为候选文本;
确定编辑距离相似度最大的候选文本为第二目标文本,并将所述第二目标文本对应的地点确定为所述待检索文本对应的目标地点。
6.根据权利要求5所述的方法,其特征在于,还包括:
当所述第二地点检索策略的预测结果为空集时,则对所述各实体进行临近点位预测;
基于预测结果,输出所述待检索文本对应的目标地点。
7.根据权利要求6所述的方法,其特征在于,还包括:
当临近点位的预测结果为空集时,保留所述待检索文本中的第一目标实体;
根据所述第一目标实体,输出所述待检索文本对应的目标地点。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点之前,还包括:
获取当前地点检索环境;
基于所述当前地点检索策略,保留所述待检索文本中的第三目标实体;
所述基于各实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点,包括:基于所述第三目标实体对应的实体标识以及所述实体标识对应的标识类型,输出所述待检索文本对应的目标地点。
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-8任一项所述地点检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述地点检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366076.0A CN114692023A (zh) | 2022-04-08 | 2022-04-08 | 地点检索方法、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366076.0A CN114692023A (zh) | 2022-04-08 | 2022-04-08 | 地点检索方法、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114692023A true CN114692023A (zh) | 2022-07-01 |
Family
ID=82143022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210366076.0A Pending CN114692023A (zh) | 2022-04-08 | 2022-04-08 | 地点检索方法、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692023A (zh) |
-
2022
- 2022-04-08 CN CN202210366076.0A patent/CN114692023A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363698B (zh) | 兴趣点关系识别方法及装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
CN111274811A (zh) | 地址文本相似度确定方法以及地址搜索方法 | |
CN111488426A (zh) | 一种查询意图确定方法、装置及处理设备 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN113326363B (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN113407738B (zh) | 一种相似文本检索方法、装置、电子设备和存储介质 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN115309994A (zh) | 地点检索方法、电子设备以及存储介质 | |
CN112925912B (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN114692023A (zh) | 地点检索方法、电子设备以及存储介质 | |
CN110309258A (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
Fernandes et al. | Lightweight context-based web-service composition model for mobile devices | |
CN112579841B (zh) | 一种多模态数据库建立方法、检索方法及系统 | |
CN116992111B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |