CN114297326A - 一种地址的验证方法及装置 - Google Patents
一种地址的验证方法及装置 Download PDFInfo
- Publication number
- CN114297326A CN114297326A CN202111521478.5A CN202111521478A CN114297326A CN 114297326 A CN114297326 A CN 114297326A CN 202111521478 A CN202111521478 A CN 202111521478A CN 114297326 A CN114297326 A CN 114297326A
- Authority
- CN
- China
- Prior art keywords
- address
- target
- segment
- matching
- interest point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书公开了一种地址的验证方法及装置。基于目标兴趣点的坐标确定周围临近兴趣点的地址,并通过拆分模型对目标兴趣点的更新地址及各临近兴趣点的地址进行拆分,得到各地址片段。通过匹配模型计算目标兴趣点的地址片段与各临近兴趣点的地址片段间的相似度,并基于相似度从各临近兴趣点中确定用于验证更新地址是否准确的基准兴趣点,并基于基准兴趣点的地址对更新地址进行验证。能够基于更新地址与临近地址的地址片段间相似度,对更新地址,对更新地址准确且高效地对更新地址进行验证,减少人工录入更新地址的错误,并且无需人为对人工录入的更新地址进行验证,减少了人为疏忽带来的对更新地址的错误验证的概率。
Description
技术领域
本说明书涉及地理信息技术领域,尤其涉及一种地址的验证方法及装置。
背景技术
兴趣点(Point of Interest,POI)数据是电子地图中标记位置的重要数据。通常,对于商店、公交站等地点,在电子地图上相应的位置都能找到其对应的POI。
当一个地点的POI改变后,如某一商店搬到新的地址后,则需要人为重新录入该商店的POI,包括商店的新地址、新地址的坐标等。但人为录入地址容易出错,会导致对商店在电子地图中的POI更新出现错误。因此,需要对重新录入的地址进行核对验证。
现有的验证方法是,通过人工核对重新录入的地点的更新地址(即更新后的地址)是否正确,但人工核对效率低,且容易由于人为疏忽导致验证结果不准确。例如,对于一些形近字导致的错误难以识别,容易误将错误的更新地址当作正确的地址,无法有效实现对更新地址是否错误的验证。
发明内容
本说明书提供一种地址的验证方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种地址的验证方法,包括:
获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址;
通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段;
针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度;
至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
可选地,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度,具体包括:
针对每个地址级别,确定该地址级别对应的目标片段以及各匹配片段;
针对该地址级别对应的每个匹配片段,确定该匹配片段的输入数据以及该地址级别对应的目标片段的输入数据,所述输入数据至少包括:每个文字对应的拼音数据、字符数据以及图像数据;
根据该匹配片段的输入数据以及该目标片段的输入数据,通过所述匹配模型,确定该匹配片段的特征向量,作为匹配向量,以及确定该目标片段的特征向量,作为目标向量;
根据所述匹配向量以及所述目标向量,确定该地址级别对应的目标片段与该匹配片段间的相似度。
可选地,至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,具体包括:
根据各临近兴趣点的坐标以及所述目标兴趣点的坐标,分别确定各临近兴趣点与所述目标兴趣点间的距离;
针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度,确定该临近兴趣点的匹配值;
根据各临近兴趣点的匹配值,以及各临近兴趣点与所述目标兴趣点间的距离,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点。
可选地,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
判断所述基准兴趣点的匹配值是否大于预设的匹配阈值;
若是,则确定所述更新地址准确;
若否,则确定所述更新地址不准确。
可选地,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
针对每个地址级别,判断该地址级别对应的目标片段与该地址级别对应的所述基准兴趣点的匹配片段的相似度,是否大于预设的相似度阈值;
若各地址级别的判断结果均为是,则确定所述更新地址准确;
若任一地址级别的判断结果为否,则确定所述更新地址不准确。
可选地,所述方法还包括:
当所述目标兴趣点对应的任一地址级别的判断结果为否时,从各临近兴趣点中确定所述目标兴趣点的次基准兴趣点;
针对每个目标片段,从所述次基准兴趣点的各匹配片段中,确定与该目标片段属于同一地址级别的匹配片段,作为次验证片段;
当任一目标片段与对应的次验证片段间的相似度不大于所述相似度阈值时,确定所述更新地址不准确。
可选地,至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,具体包括:
针对所述更新地址的每个目标片段,从各临近兴趣点的匹配片段中,确定与该目标片段属于同一地址级别的各匹配片段,作为该目标片段的各候选片段;
根据各候选片段的相似度,以及各候选片段所属临近兴趣点与所述目标兴趣点间的距离,从各候选片段所属的临近兴趣点中,确定该目标片段对应的基准兴趣点。
可选地,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
针对每个目标片段,根据该目标片段对应的基准兴趣点,确定该目标片段对应的候选片段;
判断该目标片段对应的候选片段与该目标片段的相似度是否大于预设的相似度阈值;
若是,则确定所述更新地址的该目标片段准确;
若否,则确定所述更新地址的该目标片段不准确。
可选地,所述方法还包括:
当验证结果为不准确时,根据所述基准兴趣点的地址调整所述更新地址。
本说明书提供了一种地址的验证装置,包括:
获取模块,用于获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址;
拆分模块,用于通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段;
匹配模块,用于针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度;
验证模块,用于至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述地址的验证方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述地址的验证方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的地址的验证方法中,基于目标兴趣点的坐标确定周围临近兴趣点的地址,并通过拆分模型对目标兴趣点的更新地址及各临近兴趣点的地址进行拆分,得到各地址片段。通过匹配模型计算目标兴趣点的地址片段与各临近兴趣点的地址片段间的相似度,并基于相似度从各临近兴趣点中确定用于验证更新地址是否准确的基准兴趣点,并基于基准兴趣点的地址对更新地址进行验证。
从上述方法中可以看出,本方法能够基于更新地址与临近地址的地址片段间相似度,对更新地址准确且高效地对更新地址进行验证,减少人工录入更新地址的错误,并且无需人为对人工录入的更新地址进行验证,减少了人为疏忽带来的对更新地址的错误验证的概率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种地址的验证方法的流程示意图;
图2为本说明书提供的一种拆分模型的示意图;
图3为本说明书提供的一种匹配模型的示意图;
图4为本说明书提供的一种匹配模型的局部示意图;
图5为本说明书提供的一种匹配模型的示意图;
图6为本说明书提供的一种地址的验证装置的示意图;
图7为本说明书提供的一种电子设备的结构示意图。
具体实施方式
目前,当地点的兴趣点(Point of Interest,POI)改变后,在人工重新录入地点改变后的POI时,容易由于疏忽导致地点改变后的POI中所包含的地址(即,更新地址)的信息录入错误,尤其是一些同音字等发音错误以及形近字误识别错误。对于这一类错误,人工在对重新录入的POI进行核对时,也难以察觉,容易误将错误的更新地址当作正确的地址,无法有效实现对更新地址是否错误的验证,且人工对更新地址进行核对的验证方法效率较低。
在另一种方法中,基于行政区划,通过验证更新地址涉及的各行政区划间的对应关系是否准确,实现对该更新地址进行内部核对。例如,对于更新地址:北京市朝阳区三里屯北路。根据行政区划,验证三里屯北路是否属于朝阳区,来验证该更新地址是否准确。但该方法的准确性较低,仅能验证行政区划间对应关系的正误。当将三里屯北路误录入为朝阳区下其他街道时,对其他的录入错误则无法识别。即,当行政区划对应关系正确时,对其他的录入错误则无法识别。
为了至少部分解决上述问题,在本说明书中,根据更新地址附近的POI的地址来对更新地址进行验证,通过计算更新地址的地址片段与其周围POI的地址的地址片段间的相似度,实现对更新地址的核对。并且,本说明书利用拆分模型来对更新地址及其附近POI的地址进行拆分,得到若干地址片段,并利用匹配模型,计算更新地址与附近的POI地址的地址片段间的相似度,无需人工核对,且能够提升核对效率及准确性。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种地址的验证方法的流程示意图,具体包括以下步骤:
S100:获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址。
在本说明书中,该地址的验证方法可由服务器执行。
在本说明书一个或多个实施例中,该服务器可将需要进行更新地址(即更新后的地址)验证的POI作为目标兴趣点。即,对于一个变更了POI的地点,将该地点变更后的POI,作为目标兴趣点。
在本说明书一个或多个实施例中,在对目标兴趣点的更新地址进行验证时,首先,该服务器可获取目标兴趣点对应的更新地址以及坐标。
由于本说明书利用目标兴趣点周围POI的地址对该目标兴趣点的更新地址进行验证,是基于越接近的POI具有越相近的地址的原理。且POI间的距离与其地址的相似程度正相关。
因此,在确定出目标兴趣点的更新地址及坐标后,该服务器可根据该坐标,获取该目标兴趣点周围各临近兴趣点对应的地址。
具体的,该服务器可根据该目标兴趣点的坐标,确定该目标兴趣点周围的兴趣点中,其坐标与该目标兴趣点的坐标间距离小于预设的距离阈值的兴趣点,作为各临近兴趣点,并获取各临近兴趣点的地址。
该距离阈值可根据需要设置,例如,可以是200米、500米等,200米~500米内任意一个数值。或者也可以是其他数值,如600米等,本说明书在此不做限制。
S102:通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段。
由于在POI的更新地址录入错误时,通常是部分错误,如,街道录入错误、其中的个别字词录入错误等。因此,在本说明书中,利用预先训练的拆分模型对更新地址进行拆分,并在拆分后得到的地址片段的基础上进行地址正误的验证。
于是,在本说明书一个或多个实施例中,该服务器在获取到各临近兴趣点的地址后,可通过预先训练的拆分模型,将该更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段。并将各临近兴趣点的地址拆分为若干与各地址级别对应的地址片段,作为各匹配片段。
即,将该更新地址输入该拆分模型,得到该拆分模型输出的将该更新地址拆分为的各地址片段。并针对每个临近兴趣点,将该临近兴趣点的地址输入该拆分模型,得到该拆分模型输出的将该临近兴趣点的地址拆分为的各地址片段。
其中,该预设的地址级别可以是与行政区划对应的地址级别。例如,对于更新地址“上海市长宁区普松北路”则可根据该地址级别将该更新地址拆分为“上海市”、“长宁区”、“普松北路”三个地址片段。
或者,该地址级别也可以是不与行政区划对应的地址级别,可根据需要设置,如,对于更新地址“上海市长宁区普松北路256号”,还可以拆分为“上海市长宁区”、“普松北路”、“256号”等。
并且,本说明书对该地址级别具体到的最低级别不做限制,如,可具体到号等,或者也可仅具体到路,再或者也可具体到大厦、小区等兴趣区(Area of Interest,AOI)成分、POI成分等,本说明书在此不做限制。
图2为本说明书提供的一种拆分模型的示意图。如图,该拆分模型包括拆分模块以及识别模块。该拆分模块用于对输入到该拆分模型的更新地址或临近兴趣点的地址进行拆分,并将拆分后得到的地址片段输入识别模块,识别各地址片段对应的地址级别。
S104:针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度。
由于通常对于正确的更新地址而言,该更新地址会与周围的地址在各地址级别上相对应的地址片段相同。即同一地址级别对应的目标片段与匹配片段相同,因此,该服务器在确定相似度时,可确定同一地址级别对应的目标片段与匹配片段间的相似度。
在本说明书一个或多个实施例中,在拆分得到各目标片段以及各匹配片段后,该服务器可针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度。
即,确定该地址级别的该目标片段与该地址级别的各匹配片段两两间的相似度。
在本说明书一个或多个实施例中,在通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度时,具体的,首先,该服务器可针对每个地址级别,确定该地址级别对应的目标片段以及各匹配片段。之后,针对该地址级别对应的每个匹配片段,确定该匹配片段的输入数据以及该地址级别对应的目标片段的输入数据。
由于更新地址的人工录入错误多为因为输入者的主观认知错误使其难以辨别一些同音字、谐音字等发音问题所导致的,或形近字所导致的一些与输入法有关联的错误。
因此,该输入数据至少包括:地址片段中每个文字对应的拼音数据、字符数据以及图像数据。或者,在本说明书一个或多个实施例中,该输入数据也可包括地址片段中每个文字对应的拼音数据、字符数据以及图像数据中一种或多种的组合。基于此,在确定相似度,并在后续基于相似度验证更新地址是否正确时,可从不同文字的字形异同、发音异同等角度,对目标片段以及匹配片段进行编码,使得能够基于相似度对同音字、谐音字、形近字等原因造成的更新地址错误进行识别。
在本说明书一个或多个实施例中,在针对该地址级别对应的每个匹配片段,确定出该匹配片段的输入数据以及该地址级别对应的目标片段的输入数据之后,为了方便该匹配模型对相似度的计算,该服务器可将该目标片段的输入数据以及该匹配片段的输入数据一同输入该匹配模型。
则该服务器可根据该匹配片段的输入数据以及该目标片段的输入数据,通过该匹配模型,确定该匹配片段的特征向量,作为匹配向量,以及确定该目标片段的特征向量,作为目标向量。最后,根据该匹配向量以及该目标向量,确定该地址级别对应的目标片段与该匹配片段间的相似度。
图3为本说明书提供的一种匹配模型的示意图。如图,该匹配模型包括嵌入层、特征融合层、相似度匹配层以及输出层。该服务器可将该目标片段的输入数据以及该匹配片段的输入数据,输入该匹配模型的嵌入层,对该目标片段进行编码,得到该目标片段对应的各待融合向量,并对该匹配片段的输入数据进行编码,得到该匹配片段对应的各待融合向量。将该目标片段对应的各待融合向量以及该匹配片段对应的各待融合向量输入该特征融合层,则可得到该目标片段对应的目标向量,以及该匹配片段对应的匹配向量。根据该目标向量以及该匹配向量,通过该相似度匹配层,则可确定出该目标片段与该匹配片段间的相似度。该相似度经过该输出层输出。
其中,各待融合向量为与输入数据包括的拼音数据、字符数据以及图像数据对应的向量。
S106:至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
由于不同临近兴趣点的各匹配片段与对应的目标片段间的相似度不同,且相似度越高,则对应的匹配片段越适宜用于对更新地址进行验证。因此,该服务器可至少基于相似度,从各临近兴趣点中确定出最信任的兴趣点,作为对该目标兴趣点的更新地址进行验证的基准兴趣点。
于是,在本说明书一个或多个实施例中,该服务器在确定出各相似度后,可至少根据各匹配片段对应的相似度,从各临近兴趣点中确定该目标兴趣点的基准兴趣点,并根据该基准兴趣点的地址验证该更新地址是否准确。
在本说明书一个或多个实施例中,该服务器在根据各匹配片段对应的相似度,从各临近兴趣点中确定该目标兴趣点的基准兴趣点时,具体的,可针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度(即匹配片段与属于同一地址级别的目标片段间的相似度),确定该临近兴趣点的匹配值。之后,该服务器可根据各临近兴趣点中,确定对应匹配值最高的临近兴趣点,作为高目标兴趣点的基准兴趣点。
其中,该匹配值与该临近兴趣点的地址与该更新地址的相似程度正相关。
在本说明书一个或多个实施例中,在确定临近兴趣点的匹配值时,具体的,该服务器可将该临近兴趣点的各匹配片段对应的相似度求和,并将求和得到的相似度之和作为该临近兴趣点的匹配值。
或者,由于通常对应地址级别越低的目标片段,其越容易出错。即,越高的地址级别可能涉及的地址片段越少,越低的地址级别则越多。例如,一个省可能会划分为十几个市,对于市的下一级别:区,由于一个市会包含多个区,因此,区这一级别所可能涉及的地址片段会远多于省这一级别。另外,高地址级别的地址级别的地址片段的知名度也会高于低地址级别的地址级别。人们通常更熟悉高地址级别的地址片段。则在录入更新地址时,对于高地址级别的地址片段不易出错,低地址级别的地址片段则更容易录入出错,使得更新地址不准确。因此,低地址级别的地址片段对验证更新地址是否有误更具参考性。
于是,在确定临近兴趣点的匹配值时,该服务器还可根据各地址级别对应的权重,对临近兴趣点的各匹配片段对应的相似度进行加权求和,将加权求和得到的值作为匹配值。
其中,地址级别低的地址片段对应的权重与地址级别负相关。即,地址级别越低,其对应的权重越高。
基于图1所示的地址的验证方法,基于目标兴趣点的坐标确定周围临近兴趣点的地址,并通过拆分模型对目标兴趣点的更新地址及各临近兴趣点的地址进行拆分,得到各地址片段。通过匹配模型计算目标兴趣点的地址片段与各临近兴趣点的地址片段间的相似度,并基于相似度从各临近兴趣点中确定用于验证更新地址是否准确的基准兴趣点,并基于基准兴趣点的地址对更新地址进行验证。
从上述方法中可以看出,本方法能够借助更新地址周围的各临近地址对更新地址进行验证,通过将更新地址以及临近地址进行拆分,得到各地址片段,并基于地址片段间相似度的匹配,从各临近地址中确定出最适合作为更新地址的参考基准的地址对应的基准兴趣点,以基于基准兴趣点的地址各地址片段与更新地址对应的各地址片段间的相似度,实现对更新地址的验证。可准确且高效地对更新地址进行验证,无需人为进行更新地址的验证,减少了人为疏忽带来的更新地址的错误验证的概率。
另外,在本说明书步骤S104中,在通过匹配模型生成目标片段对应的目标向量以及匹配片段对应的匹配向量时,以该输入数据包括每个字的拼音数据、字符数据以及图像数据为例进行说明。并且,虽然将该目标片段的输入数据以及该匹配片段的输入数据一同输入该匹配模型,但为了方便描述,分别对基于目标片段的输入数据生成目标片段的目标向量的过程,以及基于匹配片段的输入数据生成匹配片段的匹配向量的过程进行说明。
在生成目标片段的目标向量时,首先,针对目标片段中的每个文字,通过该匹配模型的嵌入层,确定该文字的拼音数据对应的拼音向量、该文字的图像数据对应的图像向量以及该文字的字符数据对应的字符向量。之后,将该文字的拼音向量、图像向量以及字符向量作为该文字的文字向量。然后,将该目标片段中各文字的文字向量,作为该目标片段的待融合向量,输入该匹配模型的特征融合层,得到该目标片段对应的目标向量。
在生成匹配片段的匹配向量时,首先,该服务器可针对匹配片段中的每个文字,确定该文字的拼音数据对应的拼音向量、该文字的图像数据对应的图像向量以及该文字的字符数据对应的字符向量。并将该文字的拼音向量、图像向量以及字符向量作为该文字的文字向量。之后,可将该匹配片段中各文字的文字向量,作为该匹配片段的待融合向量。将该匹配片段的待融合向量输入特征融合层后,可得到该匹配片段对应的匹配向量。
在得到目标片段的目标向量和匹配片段的匹配向量后,则可将该目标向量以及该匹配向量输入该匹配模型的相似度匹配层,并通过该相似度匹配层确定二者的相似度,并通过输出层输出二者的相似度。
在本说明书一个或多个实施例中,输入数据所包括的拼音数据可携带有文字的声调。
图4为本说明书提供的一种匹配模型的局部示意图。图中,正方形表示字符数据,三角形表示图像数据,椭圆形表示拼音数据。目标片段与匹配片段皆为“长宁区”,可见输入数据包括每个文字对应的拼音数据、字符数据以及图像数据。其中,白色填充的正方形、三角形、椭圆形对应目标片段,灰色填充的正方形、三角形、椭圆形对应匹配片段。以“长”字为例,该文字的拼音数据包括“chang”以及“2”,“2”表示该文字的声调为二声。对于“宁”字,该文字的拼音数据包括“ning”以及“2”,“2”表示该文字的声调为二声。对于“区”字,该文字的拼音数据包括“qu”以及“1”,“1”表示该文字的声调为一声。
其中,拼音数据中声调的加入,使得基于拼音对字的识别和区分更准确。
在本说明书一个或多个实施例中,在通过匹配模型确定目标片段与匹配片段的相似度时,该目标片段的输入数据与该匹配片段的输入数据,还可分别输入该匹配模型。
则,在步骤S104中通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度时,该服务器还可确定该地址级别对应的目标片段的输入数据,以及该地址级别对应的各匹配片段的输入数据,该输入数据依然可以为每个文字对应的拼音数据、字符数据以及图像数据中一种或多种的组合。之后,该服务器可针对该地址级别对应的每个匹配片段,通过预先训练的匹配模型,根据该匹配片段的输入数据,确定该匹配片段的特征向量,作为匹配向量,以及根据该目标片段的输入数据,确定该目标片段的特征向量,作为目标向量。最后,确定该匹配向量以及该目标向量的相似度,作为该目标片段与该匹配片段间的相似度。
本说明书提供了另一种匹配模型的示意图。如图5
图5为本说明书提供的一种匹配模型的示意图。如图,该目标片段的输入数据以及该匹配片段的输入数据分别输入该匹配模型的嵌入层进行编码,之后,该嵌入层分别输出该目标片段对应的各待融合向量以及该匹配片段对应的各待融合向量。然后,该服务器可将二者的各待融合向量分别输入特征融合层,分别确定目标片段的目标向量以及匹配片段的匹配向量。之后,则可将该目标向量以及该匹配向量输入该匹配模型的相似度匹配层,并通过该相似度匹配层确定二者的相似度,并通过输出层输出二者的相似度。
另外,由于更新地址的录入错误多为因为难以辨别一些同音字、谐音字、前后鼻音认知错误等发音问题所导致的,或难以辨别的形近字所导致的。而形近字导致的错误可能是不同文字的字形、结构相似所导致的,也可能是由于文字字体差异所导致的形近字。如,对于文字A以及文字B,在二者处于同一字体状态下时,二者字形差异较大,当二者处于不同字体状态下时,恰巧字形较为相似,则在录入时,容易将二者中的一个当作另一个录入,导致出现形近字的录入错误。则,形近字错误至少包括由字体差异导致的视觉形近字错误或相同字体间文字本质的形近所导致的实质形近字错误。
因此,在确定相似度,并基于相似度验证更新地址是否正确时,除了文字发音的异同角度以及不同文字的异同的角度,还可以从同一文字的不同字体形态的异同的角度,对目标片段以及匹配片段进行编码,使得能够基于相似度对同音字、谐音字等等发音问题以及形近字等原因造成的更新地址错误进行识别。
则在本说明书提供的一个或多个实施例中,输入数据所包括的图像数据可包括与预设的各字体样式对应的各图像数据,例如,假设预设的各字体样式包括:宋体、楷体、黑体等。以地址片段“蒲松北路”中的“蒲”字为例进行说明,则该“蒲”字的图像数据可以包括宋体的“蒲”字图像、楷体的“蒲”字图像以及黑体的“蒲”字图像。
在本说明书中,在计算更新地址与临近地址的地址片段间相似度时,通过将地址片段的每个字的拼音数据、字符数据以及图像数据都输入匹配模型,能够使匹配模型分析拼音、字符以及文字字体形式对文字间相似度的影响,以对不同发音、不同形态的文字进行识别和区分。以准确识别地址片段间的相似度,使得能够识别诸如误将正确的更新地址中文字的形近字、同音字等代替原本文字等录入疏忽所造成的更新地址的错误,实现对更新地址的准确验证。
另外,由于该服务器确定出的各临近兴趣点是按照距离及距离阈值,在目标兴趣点周围一定范围内确定出的临近兴趣点。不同临近兴趣点与该目标兴趣点间的距离可能不同。且在与该目标兴趣点距离相同的各临近兴趣点中,由于各临近兴趣点与该目标兴趣点间的相对位置关系不同,使得不同临近兴趣点的各匹配片段与对应的目标片段间的相似度不同。因此,当临近兴趣点在各地址级别对应的各相似度越高,且该临近兴趣点与该目标兴趣点间的距离越近时,若该更新地址正确,则该目标兴趣点的地址与该更新地址越接近。则,当临近兴趣点在各地址级别对应的各相似度越高,且该临近兴趣点与该目标兴趣点间的距离越近时,基于该临近兴趣点的地址对该等新地址进行验证越合理,该临近兴趣点越适宜作为基准兴趣点。
于是,在本说明书步骤S106中,在确定目标兴趣点的基准兴趣点时,还可以根据各临近兴趣点对应的各相似度以及临近兴趣点与目标兴趣点间的距离,确定基准兴趣点。
具体的,该服务器可根据各临近兴趣点的坐标以及该目标兴趣点的坐标,分别确定各临近兴趣点与该目标兴趣点间的距离。之后,针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度(即各匹配片段与同一地址级别的目标片段间的相似度),确定该临近兴趣点的匹配值。最后,根据各临近兴趣点的匹配值,以及各临近兴趣点与该目标兴趣点间的距离,从各临近兴趣点中确定该目标兴趣点的基准兴趣点。
在本说明书一个或多个实施例中,在确定匹配值时,可采用对该临近兴趣点的各匹配片段对应的相似度进行求和或加权求和的方式,得到该匹配值。
在本说明书一个或多个实施例中,根据各临近兴趣点的匹配值,以及各临近兴趣点与该目标兴趣点间的距离,从各临近兴趣点中确定该目标兴趣点的基准兴趣点时,具体的,该服务器可针对每个临近兴趣点,将该临近兴趣点与该目标兴趣点间的距离与该临近兴趣点的匹配值求和,得到该临近兴趣点的可信值。在确定出各临近兴趣点的可信值之后,该服务器可从中确定可信值最高的临近兴趣点作为基准兴趣点。
在本说明书一个或多个实施例中,在根据各临近兴趣点的匹配值,以及各临近兴趣点与该目标兴趣点间的距离,从各临近兴趣点中确定该目标兴趣点的基准兴趣点时,该服务器还可针对每个临近兴趣点,根据预设的临近兴趣点与该目标兴趣点间的距离对应的权重以及匹配值对应的权重,将该临近兴趣点与该目标兴趣点间的距离与该临近兴趣点的匹配值进行加权求和,得到该临近兴趣点的可信值。在确定出各临近兴趣点的可信值之后,该服务器可从中确定可信值最高的临近兴趣点作为基准兴趣点。
在本说明书一个或多个实施例中,在步骤S106根据基准兴趣点的地址验证该更新地址是否准确时,具体的,该服务器可判断该基准兴趣点的匹配值是否大于预设的匹配阈值。若是,则确定该更新地址准确。若否,则确定该更新地址不准确。
在本说明书一个或多个实施例中,在根据基准兴趣点的地址验证更新地址是否准确时,具体的,该服务器可针对每个地址级别,判断该地址级别对应的目标片段与该地址级别对应的基准兴趣点的匹配片段的相似度,是否大于预设的相似度阈值。若各地址级别的判断结果均为是,则确定该更新地址准确。若任一地址级别的判断结果为否,则确定该更新地址不准确。
由于存在基准兴趣点的地址本身也不够准确的情况,因此,在本说明书一个或多个实施例中,当目标兴趣点对应的任一地址级别的判断结果为否时,即目标兴趣点对应的任一地址级别的目标片段与该地址级别对应的基准兴趣点的匹配片段的相似度不大于该相似度阈值时,从各临近兴趣点中确定目标兴趣点的次基准兴趣点。并针对每个目标片段,从次基准兴趣点的各匹配片段中,确定与该目标片段属于同一地址级别的匹配片段,作为次验证片段。当任一目标片段与对应的次验证片段间的相似度不大于该相似度阈值时,确定该更新地址不准确。当所有目标片段与对应的次验证片段间的相似度大于该相似度阈值时,确定该更新地址准确。
另外,由于当临近兴趣点与该目标兴趣点间的距离越近时,即距离越小时,基于该临近兴趣点判断该更新地址是否准确越合理,是负相关的关系。当临近兴趣点当临近兴趣点在各地址级别对应的各相似度越高时,即越大时,基于该临近兴趣点判断该更新地址是否准确越合理,是正相关的关系。距离与相似度和基于该临近兴趣点判断该更新地址是否准确越合理的逻辑关系是相反的。
因此,为了进一步使确定出的基准兴趣点更加准确合理。在本说明书一个或多个实施例中,该服务器在确定目标兴趣点的基准兴趣点时,还可以根据各临近兴趣点的坐标以及目标兴趣点的坐标,分别确定各临近兴趣点与目标兴趣点间的距离,并确定距离的倒数。之后,针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度,确定该临近兴趣点的匹配值。然后,根据各临近兴趣点的匹配值,以及各临近兴趣点与目标兴趣点间的距离的倒数,确定各临近兴趣点的可信值,并从各临近兴趣点中确定可信值最高的临近兴趣点作为目标兴趣点的基准兴趣点。
当然,可以采用将匹配值与距离的倒数求和或加权求和等方式确定可信值。
在本说明书一个或多个实施例中,该无人驾驶设备还可基于更新地址的每个目标片段,对每个目标片段都确定一个相应的基准兴趣点。并针对每个目标片段,根据该目标片段对应的基准兴趣点的地址中,与该目标片段属于同一地址级别的匹配片段,对该目标片段进行验证。以从地址片段的角度,更精准地利用地址片段间的相似度,进行地址片段的验证,以实现对更新地址的验证。
于是,在本说明书一个或多个实施例中,该服务器还可针对更新地址的每个目标片段,从各临近兴趣点的匹配片段中,确定与该目标片段属于同一地址级别的各匹配片段,作为该目标片段的各候选片段。之后,根据各候选片段对应的相似度(即,各候选片段与该目标片段间的相似度),以及各候选片段所属临近兴趣点与目标兴趣点间的距离,从各候选片段所属的临近兴趣点中,确定该目标片段对应的基准兴趣点。
具体的,该服务器可针对每个候选片段,根据该候选片段对应的相似度以及距离,确定该候选片段对应的可信值,并将可信值最大的候选片段对应的临近兴趣点,作为该目标兴趣点的基准兴趣点。
其中,确定可信值的方式可与上述一个或多个实施例中确定可信值的方法类似,如可采用将相似度与距离求和、加权求和,或将相似度与距离的倒数加权求和等方式,确定匹配值,本说明书在此不再赘述。
在本说明书一个或多个实施例中,在根据该基准兴趣点的地址验证该更新地址是否准确时,该服务器还可针对每个目标片段,根据该目标片段对应的基准兴趣点,从该基准兴趣点的各匹配片段中,确定该目标片段对应的候选片段。并判断该目标片段对应的候选片段与该目标片段的相似度是否大于预设的相似度阈值。若是,则确定该更新地址的该目标片段准确。若否,则确定该更新地址的该目标片段不准确。
进一步地,在本说明书一个或多个实施例中,当基于上述一个或多个实施例中的验证方法对更新地址进行验证,且当更新地址的验证结果为不准确时,该服务器可根据该基准兴趣点的地址调整该更新地址。以将该更新地址修改准确。
在本说明书一个或多个实施例中,在调整该更新地址时,具体的,该服务器可将该更新地址修改为与该目标兴趣点对应的基准兴趣点的地址一致。
在本说明书一个或多个实施例中,在调整该更新地址时,该服务器还可以针对更新地址的每个目标片段,根据该目标片段对应的基准兴趣点的地址,对该目标片段进行更新。具体的,该服务器可从该目标片段对应的基准兴趣点的匹配片段中,确定该目标片段对应的候选片段,并将该目标片段调整为与该候选片段一致。
在本说明书一个或多个实施例中,本说明书提供的地址的验证方法可用于解决在录入一定长度的更新地址时,由于将正确的更新地址中文字的形近字、同音字等代替原本文字等疏忽所造成的对更新地址录入错误,且错误的更新地址与正确的更新地址的文字数量相同的问题。
由于当地址精确到号时,其准确性对POI的准确的影响较小,且不易出现形近字、同音字等录入错误。
因此,在本说明书一个或多个实施例中,在步骤S102通过拆分模型得到目标兴趣点的各地址片段以及匹配兴趣点的地址片段后,该服务器还可删除包“号”地址级别的地址片段。
在本说明书一个或多个实施例中,该拆分模型具体可以是命名实体识别(NamedEntity Recognition,NER)模型,该拆分模型包括的拆分模块具体可以是bert模型,该识别模块具体可以是条件随机场(Conditional Random Fields,CRF)。
本说明书还提供了一种对拆分模型的训练方法:从地址库中获取若干地址作为各训练样本,并针对每个训练样本,确定该训练样本包含的各地址片段,并将该训练样本中各地址片段的边界信息以及各地址片段的地址级别作为该训练样本的标签。将该训练样本输入待训练的拆分模型,基于输出的边界信息确定各拆分片段以及各拆分片段的地址级别。针对每个拆分片段,根据该拆分片段对应的标签中地址级别与输出的地址级别间的差异,以及输出的该训练样本的边界信息与标签中的边界信息间的差异,确定拆分损失,并以拆分损失最小为目标,对该拆分模型进行训练。
其中,该边界信息即用于拆分地址片段的信息。例如对于地址“北京市海淀区”则拆分结果可为:北(B)京(I)市(E)海(B)淀(I)区(E)。括号中的信息为分词结果,B与E可视为边界信息。B即begin(开始),E即end(结束),B与后面相邻的一个E所对应的两个文字及两个文字之间的文字属于一个地址片段包含的各文字。如此,能够基于边界信息拆分得到地址片段。
当然边界信息还可以为其他形式,本说明书在此不做限制。
本说明书还提供了一种对匹配模型的训练方法:获取各地址片段,任意确定两个地址片段,作为片段组,针对每个片段组,将该片段组作为训练样本,针对每个训练样本,将该训练样本对应的两个地址片段是否相同作为该训练样本的标签。将该训练样本输入待训练的匹配模型,得到该训练样本对应的两个地址片段相同的概率(即二者的相似度),并根据相似度确定二者的匹配结果,即是否相同。根据输出的匹配结果与标签间的差异,确定匹配损失,并以匹配损失最小为目标,调整该匹配模型的参数。
以上为本说明书的一个或多个实施例提供的地址的验证方法,基于同样的思路,本说明书还提供了相应的地址的验证装置,如图6所示。
图6为本说明书提供的一种地址的验证装置示意图,该装置包括:
获取模块200,用于获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址;
拆分模块201,用于通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段;
匹配模块202,用于针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度;
验证模块203,用于至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
可选地,所述匹配模块202,还用于针对每个地址级别,确定该地址级别对应的目标片段以及各匹配片段,针对该地址级别对应的每个匹配片段,确定该匹配片段的输入数据以及该地址级别对应的目标片段的输入数据,所述输入数据至少包括:每个文字对应的拼音数据、字符数据以及图像数据,根据该匹配片段的输入数据以及该目标片段的输入数据,通过所述匹配模型,确定该匹配片段的特征向量,作为匹配向量,以及确定该目标片段的特征向量,作为目标向量,根据所述匹配向量以及所述目标向量,确定该地址级别对应的目标片段与该匹配片段间的相似度。
可选地,所述验证模块203,还用于根据各临近兴趣点的坐标以及所述目标兴趣点的坐标,分别确定各临近兴趣点与所述目标兴趣点间的距离,针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度,确定该临近兴趣点的匹配值,根据各临近兴趣点的匹配值,以及各临近兴趣点与所述目标兴趣点间的距离,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点。
可选地,所述验证模块203,还用于判断所述基准兴趣点的匹配值是否大于预设的匹配阈值,若是,则确定所述更新地址准确,若否,则确定所述更新地址不准确。
可选地,所述验证模块203,还用于针对每个地址级别,判断该地址级别对应的目标片段与该地址级别对应的所述基准兴趣点的匹配片段的相似度,是否大于预设的相似度阈值,若各地址级别的判断结果均为是,则确定所述更新地址准确,若任一地址级别的判断结果为否,则确定所述更新地址不准确。
可选地,所述验证模块203,还用于当所述目标兴趣点对应的任一地址级别的判断结果为否时,从各临近兴趣点中确定所述目标兴趣点的次基准兴趣点,针对每个目标片段,从所述次基准兴趣点的各匹配片段中,确定与该目标片段属于同一地址级别的匹配片段,作为次验证片段,当任一目标片段与对应的次验证片段间的相似度不大于所述相似度阈值时,确定所述更新地址不准确。
可选地,所述验证模块203,还用于针对所述更新地址的每个目标片段,从各临近兴趣点的匹配片段中,确定与该目标片段属于同一地址级别的各匹配片段,作为该目标片段的各候选片段,根据各候选片段的相似度,以及各候选片段所属临近兴趣点与所述目标兴趣点间的距离,从各候选片段所属的临近兴趣点中,确定该目标片段对应的基准兴趣点。
可选地,所述验证模块203,还用于针对每个目标片段,根据该目标片段对应的基准兴趣点,确定该目标片段对应的候选片段,判断该目标片段对应的候选片段与该目标片段的相似度是否大于预设的相似度阈值,若是,则确定所述更新地址的该目标片段准确,若否,则确定所述更新地址的该目标片段不准确。
所述装置还包括:
调整模块204,用于当验证结果为不准确时,根据所述基准兴趣点的地址调整所述更新地址。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的地址的验证方法。
本说明书还提供了图7所示的电子设备的结构示意图。如图7所示,在硬件层面,该电子设备包括处理器、内部总线、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1提供的地址的验证方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (12)
1.一种地址的验证方法,其特征在于,包括:
获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址;
通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段;
针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度;
至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
2.如权利要求1所述的方法,其特征在于,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度,具体包括:
针对每个地址级别,确定该地址级别对应的目标片段以及各匹配片段;
针对该地址级别对应的每个匹配片段,确定该匹配片段的输入数据以及该地址级别对应的目标片段的输入数据,所述输入数据至少包括:每个文字对应的拼音数据、字符数据以及图像数据;
根据该匹配片段的输入数据以及该目标片段的输入数据,通过所述匹配模型,确定该匹配片段的特征向量,作为匹配向量,以及确定该目标片段的特征向量,作为目标向量;
根据所述匹配向量以及所述目标向量,确定该地址级别对应的目标片段与该匹配片段间的相似度。
3.如权利要求1所述的方法,其特征在于,至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,具体包括:
根据各临近兴趣点的坐标以及所述目标兴趣点的坐标,分别确定各临近兴趣点与所述目标兴趣点间的距离;
针对每个临近兴趣点,根据该临近兴趣点的各匹配片段对应的相似度,确定该临近兴趣点的匹配值;
根据各临近兴趣点的匹配值,以及各临近兴趣点与所述目标兴趣点间的距离,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点。
4.如权利要求3述的方法,其特征在于,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
判断所述基准兴趣点的匹配值是否大于预设的匹配阈值;
若是,则确定所述更新地址准确;
若否,则确定所述更新地址不准确。
5.如权利要求3述的方法,其特征在于,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
针对每个地址级别,判断该地址级别对应的目标片段与该地址级别对应的所述基准兴趣点的匹配片段的相似度,是否大于预设的相似度阈值;
若各地址级别的判断结果均为是,则确定所述更新地址准确;
若任一地址级别的判断结果为否,则确定所述更新地址不准确。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
当所述目标兴趣点对应的任一地址级别的判断结果为否时,从各临近兴趣点中确定所述目标兴趣点的次基准兴趣点;
针对每个目标片段,从所述次基准兴趣点的各匹配片段中,确定与该目标片段属于同一地址级别的匹配片段,作为次验证片段;
当任一目标片段与对应的次验证片段间的相似度不大于所述相似度阈值时,确定所述更新地址不准确。
7.如权利要求1所述的方法,其特征在于,至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,具体包括:
针对所述更新地址的每个目标片段,从各临近兴趣点的匹配片段中,确定与该目标片段属于同一地址级别的各匹配片段,作为该目标片段的各候选片段;
根据各候选片段的相似度,以及各候选片段所属临近兴趣点与所述目标兴趣点间的距离,从各候选片段所属的临近兴趣点中,确定该目标片段对应的基准兴趣点。
8.如权利要求7所述的方法,其特征在于,根据所述基准兴趣点的地址验证所述更新地址是否准确,具体包括:
针对每个目标片段,根据该目标片段对应的基准兴趣点,确定该目标片段对应的候选片段;
判断该目标片段对应的候选片段与该目标片段的相似度是否大于预设的相似度阈值;
若是,则确定所述更新地址的该目标片段准确;
若否,则确定所述更新地址的该目标片段不准确。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
当验证结果为不准确时,根据所述基准兴趣点的地址调整所述更新地址。
10.一种地址的验证装置,其特征在于,包括:
获取模块,用于获取目标兴趣点对应的更新地址以及坐标;根据所述坐标,获取所述目标兴趣点周围各临近兴趣点对应的地址;
拆分模块,用于通过预先训练的拆分模型,将所述更新地址拆分为若干与预设的各地址级别对应的地址片段,作为各目标片段,并将各临近兴趣点的地址拆分为若干与所述各地址级别对应的地址片段,作为各匹配片段;
匹配模块,用于针对每个地址级别,通过预先训练的匹配模型,确定该地址级别对应的目标片段分别与该地址级别对应的各匹配片段间的相似度;
验证模块,用于至少根据各匹配片段对应的相似度,从各临近兴趣点中确定所述目标兴趣点的基准兴趣点,并根据所述基准兴趣点的地址验证所述更新地址是否准确。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~9任一项所述的方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111521478.5A CN114297326A (zh) | 2021-12-13 | 2021-12-13 | 一种地址的验证方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111521478.5A CN114297326A (zh) | 2021-12-13 | 2021-12-13 | 一种地址的验证方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297326A true CN114297326A (zh) | 2022-04-08 |
Family
ID=80968298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111521478.5A Pending CN114297326A (zh) | 2021-12-13 | 2021-12-13 | 一种地址的验证方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297326A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658839A (zh) * | 2022-12-27 | 2023-01-31 | 深圳依时货拉拉科技有限公司 | Poi数据的挖掘方法、装置、计算机设备及存储介质 |
-
2021
- 2021-12-13 CN CN202111521478.5A patent/CN114297326A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658839A (zh) * | 2022-12-27 | 2023-01-31 | 深圳依时货拉拉科技有限公司 | Poi数据的挖掘方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
RU2010142014A (ru) | Навигационное устройство и способ, использующие файлы корректировки картографических данных | |
CN110188353B (zh) | 文本纠错方法及装置 | |
CN112732585A (zh) | 一种仿真测试的方法及装置 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112200193B (zh) | 基于多属性融合的分布式车牌识别方法、系统、装置 | |
CN113344098A (zh) | 一种模型训练方法及装置 | |
CN114297326A (zh) | 一种地址的验证方法及装置 | |
CN114626437A (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
CN114092949A (zh) | 类别预测模型的训练、界面元素类别的识别方法及装置 | |
CN110046621A (zh) | 证件识别方法及装置 | |
CN110119754B (zh) | 图像生成描述方法、装置及模型 | |
CN110998589B (zh) | 用于分割文本的系统和方法 | |
CN115130621A (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN114449443A (zh) | 一种信息推送方法、装置、存储介质及电子设备 | |
CN114676344A (zh) | 一种兴趣点坐标确定方法、装置、存储介质及电子设备 | |
CN111213118A (zh) | 位置识别方法及终端 | |
CN111412925B (zh) | 一种poi位置的纠错方法及装置 | |
CN114065868A (zh) | 文本检测模型的训练方法、文本检测方法及装置 | |
CN113468881A (zh) | 一种地址标准化方法及装置 | |
CN110516241B (zh) | 地理地址解析方法、装置、可读存储介质及电子设备 | |
CN112642158B (zh) | 游戏资源地图审核方法及装置、存储介质、计算机设备 | |
CN115641430B (zh) | 一种兴趣面确定方法、装置、介质及计算机设备 | |
CN114691523B (zh) | 一种gps系统调测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |