CN111859002A

CN111859002A - 兴趣点名称生成方法及装置、电子设备和介质

Info

Publication number: CN111859002A
Application number: CN202010700371.6A
Authority: CN
Inventors: 王洪志; 余威; 吴云鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-30

Abstract

本公开提供一种兴趣点名称生成方法及装置、电子设备和介质，涉及云计算、图像处理、自然语言处理技术领域。所述生成方法包括：从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，目标招牌图像包括文本区域；确定目标招牌图像的目标图像特征向量，目标图像特征向量为至少基于目标招牌图像的文本区域而得到；确定多个相关兴趣点名称文本中的每一个相关兴趣点名称文本的相关文本特征向量；确定目标图像特征向量和多个相关文本特征向量之间的相似度；以及基于目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个相关兴趣点名称文本确定为目标招牌图像的目标兴趣点名称。

Description

兴趣点名称生成方法及装置、电子设备和介质

技术领域

本公开涉及云计算、图像处理、自然语言处理技术领域，特别涉及兴趣点名称生成方法及装置、电子设备和介质。

背景技术

在一些应用(例如百度地图)中会涉及兴趣点(Point of interest，简称“POI”)数据推荐服务。POI数据可以包括POI名称、位置、电话等基础信息，还可以包括例如评分、价格、团购信息等商业信息。

根据相关技术，可以基于图像中的文本区域，从POI数据库中确定图像的POI名称，并且可以基于图像的POI名称来推荐相应的其它POI数据(例如，位置、电话、评分等)。其中，基于图像生成POI名称的方法包括以下两种：

1)利用光学字符识别(Optical Character Recognition，简称“OCR”)对图像中的文本区域进行文本识别，然后利用识别后的文本信息与POI数据库中的POI名称进行匹配，将与识别的文本信息匹配的POI名称确定为图像的目标POI名称；

2)将图像与POI数据库中的POI图像进行匹配，将与图像匹配的POI图像相应的POI名称确定为图像的目标POI名称。

上述方法1)依赖于OCR的识别效果，但是针对自然场景中OCR的识别效果目前仍是一个热点和难点。上述方法2)依赖于已经生成POI名称的历史POI图像，对于没有相应的历史POI图像，则无法基于图像来生成POI名称。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一方面，提供一种兴趣点名称生成方法，包括：从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到；确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

根据本公开的另一方面，还提供一种神经网络模型的训练方法，所述神经网络模型包括第一子网络模型和第二子网络模型，其中，所述训练方法包括：获取样本招牌图像以及与所述样本招牌图像相应的样本兴趣点名称文本，所述样本招牌图像包括文本区域；将所述样本招牌图像输入所述第一子网络模型，基于所述第一子网络模型来确定所述样本招牌图像的样本图像特征向量，所述样本图像特征向量为至少基于所述样本招牌图像的文本区域而得到；将所述样本兴趣点名称文本输入所述第二子网络模型，基于所述第二子网络模型来确定所述样本兴趣点名称文本的样本文本特征向量；利用第一损失函数计算所述样本图像特征向量和所述样本文本特征向量之间的第一损失值；以及至少基于所述第一损失值调整所述神经网络模型的参数。

根据本公开的另一方面，还提供一种基于图像的兴趣点名称生成装置，包括：获取单元，被配置用于从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；第一确定单元，被配置用于确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域得到；第二确定单元，被配置用于确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；第三确定单元，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及第四确定单元，被配置用于基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

根据本公开的另一方面，还提供一种神经网络模型，采用上述的训练方法进行训练而得到，其中，所述神经网络模型包括：第一子网络模型，被配置用于针对目标招牌图像执行特征提取操作，以确定所述目标招牌图像的目标图像特征向量，所述目标招牌图像包括文本区域，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到；第二子网络模型，被配置用于针对所述目标招牌图像的多个相关兴趣点名称文本执行特征提取操作，以确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；以及第二输出层，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度。

根据本公开的另一方面，还提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的生成方法和/或根据上述的训练方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述的生成方法和/或根据上述的训练方法。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1-图3是示出根据示例性实施例的兴趣点名称生成方法的流程图；

图4是示出根据示例性实施例的神经网络模型的训练方法的流程图；

图5是示出根据示例性实施例的神经网络模型的示意性结构图；

图6是示出根据示例性实施例的兴趣点名称生成装置的示意性组成框图；

图7是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在例如百度地图等应用程序中，可以基于获取的用户输入向用户推荐POI数据。用户输入可以为图像，所述图像可以为商家招牌图像、写字楼招牌图像、银行招牌图像等招牌图像。从而能够基于用户输入的招牌图像来推荐与招牌相关的POI数据。所述招牌图像可以包括完整的招牌信息，也可以仅包括部分招牌信息。

相关技术中，在获取用户输入的招牌图像后，可以利用OCR来识别输入的招牌图像中的文本信息，并将得到的文本信息与POI数据库中的POI名称进行匹配，将匹配的POI名称确定为输入图像的POI名称。也可以将输入图像与POI数据库中的POI图像进行相似度匹配，将匹配的POI图像相应的POI名称确定为输入图像的POI名称。但是，第一种方法依赖于OCR的识别效果，针对自然场景中OCR的识别效果目前仍是一个热点和难点。第二种方法则依赖于已经生成POI名称的历史POI图像，对于没有相应的历史POI图像，则无法基于输入图像来生成POI名称。

基于此，本公开提出一种新的基于图像的兴趣点(POI)名称生成方法，通过获取POI数据库中目标招牌图像的多个相关POI名称文本，并确定目标招牌图像的目标图像特征向量和多个相关POI名称文本的相关文本特征向量之间的相似度，从而能够基于特征向量之间的相似度将满足预设条件的其中一个相关POI名称文本确定为所述目标招牌图像的目标POI名称。由此，通过建立具有文本区域的招牌图像和纯文本这两种不同模态数据之间的联系，能够实现基于招牌图像和多个相关POI名称文本来生成招牌图像的POI名称。由于目标招牌图像的目标图像特征向量为表征图像特征的向量，因此，能够克服相关技术中生成结果依赖于OCR的文字识别效果的问题，并且即使POI数据库中没有相应的历史POI图像，也能够实现基于图像来生成POI名称。

本公开的技术方案可以适用于任意使用推荐系统的应用程序，例如，百度地图。

以下将结合附图对本公开的POI名称生成方法进行进一步描述。

图1是示出根据本公开示例性实施例的POI名称生成方法的流程图。如图1所示，所述POI名称生成方法可以包括：步骤S101、从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；步骤S102、确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为基于所述目标招牌图像的文本区域而得到；步骤S103、确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；步骤S104、确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及步骤S105、基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。由此，通过建立基于文本区域而得到的图像特征向量和文本特征向量之间的相似度联系，从而能够基于相应的特征向量的相似度，从多个相关POI名称文本中确定目标招牌图像的目标POI名称。

POI数据库可以存储在服务器上。POI数据库可以包括POI名称、位置、电话等基础信息，还可以包括评分、价格、团购信息等商业信息。POI名称例如可以为银行名称、餐馆名称、写字楼名称、酒店名称等等。

所述目标招牌图像可以为客户端(例如，手机)拍摄的图像或本地存储的图像，也可以为采集车沿道路行驶拍摄的图像，或行车记录仪拍摄的图像，在此不作限定。

所述目标招牌图像的文本区域可以包括完整的招牌名称，也可以仅包括完整招牌名称的部分。例如在存在遮挡或者本地存储图像不完整的情况下，所述目标招牌图像的文本区域仅包括完整招牌名称的部分。在目标招牌图像的文本区域仅包括完整招牌名称的部分情况下，基于相应的特征向量的相似度可能将至少两个相关POI名称文本确定为目标招牌图像的目标POI名称。例如，在所述目标招牌图像的文本区域仅包括完整招牌名称中的“银行”的情况下，可能会将多个相关POI名称文本中包括“银行”的至少两个相关POI名称文本确定为目标招牌图像的目标POI名称。

根据一些实施例，步骤S101可以包括基于所述目标招牌图像的拍摄参数，从兴趣点数据库中的多个兴趣点名称文本中确定所述多个相关兴趣点名称文本。其中，所述拍摄参数可以包括所述目标招牌图像的拍摄位置，则所述兴趣点数据库可以包括所述多个兴趣点名称文本相应的位置参数。由此，能够基于位置参数来确定目标招牌图像的多个相关POI名称文本，以提升生成效率。例如，可以根据目标招牌图像的拍摄位置确定一位置区域，将相应的位置参数位于所述位置区域内的多个POI名称确定为所述多个相关POI名称文本。所述位置区域例如可以为目标招牌图像的拍摄位置所在的一条街，也可以为以目标招牌图像的拍摄位置为中心向外辐射预设距离的区域，在此不作限定。所述位置参数例如可以为世界坐标。

所述拍摄参数还可以但不限于包括所述目标招牌图像的拍摄角度，从而能够根据拍摄角度进一步缩小相关POI名称文本的范围，提升生成效率。所述拍摄角度例如可以通过获取摄像机的陀螺仪参数而得到。

步骤S102可以但不限于基于神经网络模型来确定目标招牌图像的目标图像特征向量。步骤S103可以但不限于基于神经网络模型来确定相关POI名称文本的相关文本特征向量。在基于神经网络模型来确定目标图像特征向量和相关文本特征向量的情况下，可以但不限于基于神经网络模型来确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，具体的原理将在以下内容中描述。

根据一些实施例，步骤S105、将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称可以包括：确定与所述目标图像特征向量之间的相似度最高的所述其中一个相关文本特征向量；以及将所述其中一个相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。从而能够将相应的特征向量相似度最高的相关POI名称文本确定为目标招牌图像的目标POI名称，提升生成结果的准确性。在将目标POI名称推荐给用户的情况，能够实现推荐的目标POI名称为用户所感兴趣的。所述阈值可以根据实际需求来设定，在此不作限定。

可以理解的是，上述仅是举例说明如何基于目标图像特征向量和多个相关文本特征向量之间的相似度来确定目标招牌图像的目标POI名称，并不是一种限定。例如，步骤S105中也可以确定与所述目标图像特征向量之间的相似度大于阈值的一个相关文本特征向量，并将该相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。

以下将结合一个具体的示例性实施例来描述本公开的技术方案。

在一个示例性实施例中，可以基于神经网络模型来确定所述目标招牌图像的目标POI名称。

根据一些实施例，所述神经网络模型可以包括第一子网络模型，并且可以基于所述第一子网络模型来确定所述目标图像特征向量。也就是说，步骤S102可以基于第一子网络模型来确定所述目标图像特征向量。

根据一些实施例，所述神经网络模型可以包括第二子网络模型，并且可以基于所述第二子网络模型来确定多个所述相关文本特征向量。也就是说，步骤S103可以基于第二子网络模型来确定所述相关文本特征向量。

所述第二子网络模型例如可以选择以下模型之一：基于词向量的LSTM模型、基于词向量的GRU模型、基于词向量的Transformer和基于词向量的BERT模型。

作为一个优选的实施例，所述神经网络模型可以既包括所述第一子网络模型，又包括所述第二子网络模型。在这种情况下，可以将目标招牌图像输入所述第一子网络模型，而将多个POI名称相关POI名称文本输入所述第二子网络模型。从而能够基于神经网络模型确定所述目标图像特征向量和多个所述相关文本特征向量。

根据一些实施例，可以通过度量学习训练，使得目标图像特征向量和多个相关文本特征向量分布在同一个度量空间中，则距离越近的目标图像特征向量和相关文本特征向量，两者的相似度越高。相应地，步骤S104可以包括：计算目标图像特征向量和多个所述相关文本特征向量之间的距离(例如，欧式距离或余弦距离)，基于相应的距离来确定目标图像特征向量和多个所述相关文本特征向量之间的相似度。

根据一些实施例，所述神经网络模型还可以包括第二输出层，所述第二输出层可以被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度。可以理解的是，所述第二输出层也可以被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，并且基于所确定的相似度，将满足预设条件的其中一个所述相关文本特征向量相应的相关POI名称文本确定为目标招牌图像的目标POI名称。

根据一些实施例，所述第一子网络模型可以包括第一输出层和最靠近所述第一输出层的全连接层。所述第一输出层的输出可以包括能够包围所述目标招牌图像中的文字区域的至少一个边界框。在这种情况下，步骤S102、确定所述目标图像特征向量可以包括：将所述目标招牌图输入所述第一子网络模型，获取所述第一子网络模型的最靠近所述第一输出层的全连接层输出的所述目标图像特征向量。由此，第一子网络模型能够实现对目标招牌图像的文本区域的检测，从而最靠近第一输出层的全连接层输出的特征向量能够很好得表征文本区域的特征，对文本区域敏感，提升后续生成结果的准确性。在一些示例性实施例中，所述目标图像特征向量还可以同时表征目标招牌图像的除文本区域以外的背景区域的特征，能够结合目标招牌图像的文本区域特征和背景区域特征进一步提升后续生成结果的准确性。

所述第一子网络模型例如可以选择以下模型之一：Faster RCNN模型、YOLO模型、SSD模型、EAST模型、Deeplab模型和Mask RCNN模型。

根据一些实施例，第一子网络模型的所述第一输出层的输出可以包括能够各自包围所述目标招牌图像中相应的一个字符的多个边界框。从而能够实现对目标招牌图像中的每一个字符的检测，由此确定的所述目标图像特征向量能够很好得表征文本区域的每一个字符的特征，提高与相关文本特征向量的相似度匹配的准确性，从而提高生成结果的准确性。

可以理解的是，在神经网络模型的训练完成后，也可以删除所述第一子网络模型的第一输出层。即，对于训练完成的所述神经网络模型，第一子网络模型可以不包括所述第一输出层，最终的输出结果为最后一个全连接层输出的所述目标图像特征向量。

根据一些实施例，所述神经网络模型可以包括第三子网络模型。所述兴趣点名称生成方法还可以包括：将所述目标图像特征向量和多个候选文本特征向量输入所述第三子网络模型，获取所述第三子网络模型输出的所述目标招牌图像的类别及其置信度，以及多个所述相关兴趣点名称文本的类别及其置信度。由此，利用分类训练能够实现第一子网络模型和第二子网络模型学习到图像和文本的区别，以更好得提取目标图像特征向量和/或相关文本特征向量，从而能够更好得进行度量学习，建立图像特征向量和文本特征向量之间的相似度联系，使得目标图像特征向量和相应的相关兴趣点名称文本距离更近。

可以理解的是，在所述神经网络模型的训练完成后，也可以删除第三子网络模型。

根据一些实施例，所述神经网络模型可以包括上述的第一子网络模型、第二子网络模型和第三子网络模型。通过将目标招牌图像输入所述第一子网络模型，将多个相关POI名称文本输入所述第二子网络模型，从而能够获取所述神经网络模型的第二输出层输出的目标招牌图像与多个相关POI名称文本之间的相似度，还能够获取所述第一子网络模型输出的能够包围目标招牌图像中的文本区域的至少一个边界框，并且能够获取所述第三子网络模型输出的目标招牌图像的类别及其置信度，以及多个相关POI名称文本的类别及其置信度。

根据一些实施例，所述的兴趣点名称生成方法还可以包括：针对POI数据库，确定多个兴趣点名称文本中的除所述多个相关兴趣点名称文本以外的剩余的每一个兴趣点名称文本的文本特征向量；以及在所述兴趣点数据库中存储所述多个兴趣点名称文本与多个文本特征向量之间的对应关系。从而能够预先确定目标招牌图像的多个相关POI名称文本的相关文本特征向量，提升生成效率。根据一些实施例，可以但不限于基于上述的第二子网络模型来确定POI数据库中的所有POI名称相应的文本特征向量。

根据一些实施例，可以对POI数据库中的多个文本特征向量进行哈希编码，建立哈希表。在这种情况下，在确定目标招牌图像的目标图像特征向量之后，可以对目标图像特征向量进行哈希编码。从而能够基于哈希表进行检索，快速实现将多个相关POI名称文本中的其中一个相关POI名称文本确定为目标招牌图像的目标POI名称，提升生成效率。

根据一些实施例，所述兴趣点数据库还可以包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系。在这种情况下，如图2所示，所述兴趣点名称生成方法还可以包括：步骤S201、在获取所述多个相关兴趣点名称文本之前，将所述目标招牌图像与所述至少一个历史招牌图像进行匹配；步骤202、基于匹配结果确定兴趣点数据库中是否包括与所述目标招牌图像匹配的历史招牌图像；以及步骤S203、响应于确定兴趣点数据库中包括与所述目标招牌图像匹配的历史招牌图像，将所述匹配的历史招牌图像相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。可以响应于确定兴趣点数据库中不包括与所述目标招牌图像匹配的历史招牌图像，执行步骤S101-步骤S105。从而能够在POI数据库中无相应的历史招牌图像的情况下，才确定目标招牌图像的目标图像特征向量，基于目标图像特征向量来确定目标招牌图像的目标POI名称，提升生成效率。

根据一些实施例，如图3所示，所述兴趣点名称生成方法还可以包括：步骤S301、确定所述至少一个历史招牌图像中的每一个所述历史招牌图像的历史图像特征向量，所述历史图像特征向量为至少基于所述历史招牌图像的文本区域而得到；步骤S302、在所述兴趣点数据库中存储所述至少一个历史招牌图像与至少一个所述历史图像特征向量之间的对应关系；步骤S303、在获取所述多个相关兴趣点名称文本之前，将所述目标图像特征向量和所述至少一个历史图像特征向量进行匹配；步骤S304、基于匹配结果确定所述兴趣点数据库中是否包括与所述目标图像特征向量匹配的历史图像特征向量；以及步骤S305、响应于确定所述兴趣点数据库中包括与所述目标图像特征向量匹配的历史图像特征向量，将匹配的历史图像特征向量相应的兴趣点名称文本确定为所述目标图像的目标兴趣点名称。可以响应于确定兴趣点数据库中不包括与所述目标图像特征向量匹配的历史图像特征向量，执行步骤S101、步骤S103-步骤S105。从而能够首先基于目标图像特征向量和历史图像特征向量，来确定是否存在与所述目标招牌图像相应的历史招牌图像，提高生成结果的准确性，提升生成效率。根据一些实施例，可以但不限于基于上述的第一子网络模型来确定POI数据库中的所述至少一个历史招牌图像的历史图像特征向量。在一些示例性实施例中，还可以对POI数据库中的多个历史图像特征向量进行哈希编码。

根据本公开的另一方面，结合图4和图5所示，还提供一种神经网络模型200的训练方法，神经网络模型200包括第一子网络模型201和第二子网络模型202，所述训练方法可以包括：步骤S401、获取样本招牌图像1001以及与所述样本招牌图像相应的样本兴趣点名称文本1002，样本招牌图像1001包括文本区域；步骤S402、将所述样本招牌图像1001输入所述第一子网络模型201，基于所述第一子网络模型201来确定所述样本招牌图像1001的样本图像特征向量，所述样本图像特征向量为至少基于所述样本招牌图像的文本区域而得到；步骤S403、将所述样本兴趣点名称文本1002输入所述第二子网络模型202，基于所述第二子网络模型202来确定所述样本兴趣点名称文本的样本文本特征向量；步骤S404、利用第一损失函数计算所述样本图像特征向量和所述样本文本特征向量之间的第一损失值；以及步骤S405、至少基于所述第一损失值调整所述神经网络模型的参数。可以对上述训练过程进行迭代，直至所述第一损失值满足预设的条件，完成神经网络模型的训练。由此，通过对第一子网络模型和第二子网络模型进行度量学习训练，能够使得图像特征向量和文本特征向量分布在同一个度量空间中，从而能够实现同一POI名称的图像特征向量和文本特征向量之间的距离尽可能相近，非同一POI名称的图像特征向量和文本特征向量之间的距离尽可能远，并且使得同一POI名称的不同图像特征向量之间的距离尽可能相近，非同一POI名称的不同图像特征向量之间的距离尽可能远。

所述第一损失函数例如可以为triplet损失函数。

根据一些实施例，所述训练方法还可以包括：在所述样本招牌图像中标记能够各自包围所述样本招牌图像的的文本区域中相应的一个字符的多个真实框；获取所述第一子网络模型201的第一输出层2011输出的所述样本招牌图像中的每一个字符相应的预测边界框；以及利用第二损失函数计算所述多个真实框中的每一个真实框和相应的预测边界框之间的第二损失值。其中，调整所述神经网络模型200的参数为至少基于所述第一损失值和所述多个真实框相应的所述第二损失值而执行，并且所述样本图像特征向量为所述第一子网络模型201的最靠近第一输出层2011的全连接层2012的输出。可以对上述训练过程进行迭代，直至所述第一损失值和第二损失值都满足相应的预设条件，完成神经网络模型的训练。由此，训练完成的第一子网络模型能够实现对目标招牌图像的文本区域进行检测，并且最靠近第一输出层的全连接层输出的特征向量能够很好得表征文本区域的特征，对文本区域敏感，提升后续生成结果的准确性。

根据一些实施例，所述神经网络模型还可以包括第三子网络模型203，则所述训练方法还可以包括：标记所述样本招牌图像的第一真实类别及其标记置信度，以及所述样本兴趣点名称文本的第二真实类别及其标记置信度；将所述样本图像特征向量和所述样本文本特征向量输入所述第三子网络模型，获取所述第三子网络模型输出的所述样本图像的第一预测类别及其预测置信度，以及所述样本兴趣点名称文本的第二预测类别及其预测置信度；以及基于所述第一预测类别及其预测置信度、所述第二预测类别及其预测置信度、所述第一真实类别及其标记置信度，以及所述第二真实类别及其标记置信度，利用第三损失函数来计算第三损失值。其中，调整所述网络模型的参数为至少基于所述第一损失值和所述第三损失值而执行。可以对上述训练过程进行迭代，直至所述第一损失值和第三损失值都满足相应的预设条件，完成神经网络模型的训练。由此，通过增加分类训练，能够使得实现上述的第一子网络模型和第二子网络模型学习到图像特征和文本特征的区别，以更好得提取目标图像特征向量和相关文本特征向量，从而能够更好得进行度量学习，建立目标图像特征向量和文本特征向量之间的相似度联系，使得目标图像特征向量和相应的相关兴趣点名称文本距离尽可能近，提高生成结果的准确性。

根据一些实施例，可以同时进行文本框检测训练和分类训练，则调整所述网络模型的参数可以为基于所述第一损失值、第二损失值和所述第三损失值而执行。同样可以对训练过程进行迭代，直至所述第一损失值、第二损失值和第三损失值都满足相应的预设条件，完成神经网络模型的训练。由此，通过增加文本框检测训练和分类训练，能够使得第一子网络模型更好得提取目标招牌图像中文本区域的特征，并且使得第一子网络模型和第二子网络模型能够学习到图像和文本的区别，提高生成结果的准确性。

根据本公开的另一方面，如图6所示，还提供一种基于图像的兴趣点名称生成装置100，可以包括：获取单元101，被配置用于从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；第一确定单元102，被配置用于确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域得到；第二确定单元103，被配置用于确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；第三确定单元104，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及第四确定单元105，被配置用于基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

这里，兴趣点名称生成装置100的上述各单元101-105的操作分别与前面描述的步骤S101-S105的操作类似，在此不再赘述。

根据一些实施例，第四确定单元可包括：第一子确定单元，被配置用于确定与所述目标图像特征向量之间的相似度最高的所述其中一个相关文本特征向量；以及第二子确定单元，被配置用于将所述其中一个相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。从而能够将相应的特征向量相似度最高的相关POI名称文本确定为目标招牌图像的目标POI名称，提升生成结果的准确性。

在一个示例性实施例中，所述兴趣点名称生成装置可被配置用于基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称。其中，

根据一些实施例，所述神经网络模型可包括第一子网络模型，并且第一确定单元可被配置用于基于所述第一子网络模型来确定所述目标图像特征向量。

根据一些实施例，所述神经网络模型可包括第二子网络模型，并且所述第二确定单元可被配置用于基于所述第二子网络模型来确定多个所述相关文本特征向量。

根据一些实施例，所述第一子网络模型可包括第一输出层和最靠近所述第一输出层的全连接层，所述第一输出层的输出包括能够包围所述目标招牌图像中的文字区域的至少一个边界框。在这种情况下，第一确定单元可被配置用于执行以下操作来确定所述目标图像特征向量包括：将所述目标招牌图输入所述第一子网络模型，获取所述第一子网络模型的最靠近所述第一输出层的全连接层输出的所述目标图像特征向量。由此，第一子网络模型能够实现对目标招牌图像的文本区域的检测，从而最靠近第一输出层的全连接层输出的特征向量能够很好得表征文本区域的特征，对文本区域敏感，提升后续生成结果的准确性。

根据一些实施例，所述神经网络模型还可包括第三子网络模型。所述兴趣点名称生成装置还可包括：分类单元，被配置用于基于所述第三子网络模型来获取所述目标招牌图像的类别及其置信度，以及多个所述相关兴趣点名称文本的类别及其置信度。由此，利用分类训练能够实现第一子网络模型和第二子网络模型学习到图像和文本的区别，以更好得提取目标图像特征向量和/或相关文本特征向量，从而能够更好得进行度量学习，建立图像特征向量和文本特征向量之间的相似度联系，使得目标图像特征向量和相应的相关兴趣点名称文本距离更近。

根据一些实施例，获取单元可被配置用于基于所述目标招牌图像的拍摄参数，从兴趣点数据库中的多个兴趣点名称文本中确定所述多个相关兴趣点名称文本。其中，所述拍摄参数包括所述目标招牌图像的拍摄位置，所述兴趣点数据库包括所述多个兴趣点名称文本相应的位置参数。

根据一些实施例，所述兴趣点名称生成装置还可包括：第五确定单元，被配置用于确定所述多个兴趣点名称文本中的除所述多个相关兴趣点名称文本以外的剩余的每一个兴趣点名称文本的文本特征向量。其中，所述兴趣点数据库可包括所述多个兴趣点名称文本与多个文本特征向量之间的对应关系。

根据一些实施例，所述兴趣点数据库还可包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系。在这种情况下，所述兴趣点名称生成装置还可包括：第一匹配单元，被配置用于在获取所述多个相关兴趣点名称文本之前，将所述目标招牌图像与所述至少一个历史招牌图像进行匹配；第六确定单元，被配置用于基于匹配结果确定所述兴趣点数据库中是否包括与所述目标招牌图像匹配的历史招牌图像；以及第七确定单元，被配置用于响应于确定所述兴趣点数据库中包括与所述目标招牌图像匹配的历史招牌图像，将匹配的历史招牌图像相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。从而能够在POI数据库中无相应的历史招牌图像的情况下，才确定目标招牌图像的目标图像特征向量，基于目标图像特征向量来确定目标招牌图像的目标POI名称，提升生成效率。

根据一些实施例，所述兴趣点数据库还可包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系。在这种情况下，所述兴趣点名称生成装置还可包括：第八确定单元，被配置用于确定所述至少一个历史招牌图像中的每一个所述历史招牌图像的历史图像特征向量，所述历史图像特征向量为至少基于所述历史招牌图像的文本区域而得到。其中，所述兴趣点数据库还可包括所述至少一个历史招牌图像与至少一个所述历史图像特征向量之间的对应关系；第二匹配单元，被配置用于在获取所述多个相关兴趣点名称文本之前，将所述目标图像特征向量和所述至少一个历史图像特征向量进行匹配；第九确定单元，被配置用于基于匹配结果确定所述兴趣点数据库中是否包括与所述目标图像特征向量匹配的历史图像特征向量；以及第十确定单元，响应于确定所述兴趣点数据库中包括与所述目标图像特征向量匹配的历史图像特征向量，将匹配的历史图像特征向量相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。从而能够首先基于目标图像特征向量和历史图像特征向量，来确定是否存在与所述目标招牌图像相应的历史招牌图像，提高生成结果的准确性，提升生成效率。根据一些实施例，第八确定单元可以基于上述的第一子网络模型来确定所述至少一个历史招牌图像的历史图像特征向量。

根据本公开的另一方面，参见图5所示，还提供一种神经网络模型200，采用上述的训练方法进行训练而得到。其中，神经网络模型200可以包括：第一子网络模型201，被配置用于针对目标招牌图像执行特征提取操作，以确定所述目标招牌图像的目标图像特征向量，所述目标招牌图像包括文本区域，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到；以及第二子网络模型202，被配置用于针对所述目标招牌图像的多个相关兴趣点名称文本执行特征提取操作，以确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；第二输出层204，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度。

根据一些实施例，第一子网络模型201还可以被配置用于基于所述目标图像特征向量获取能够各自包围所述目标招牌图像中相应的一个字符的边界框。

根据一些实施例，神经网络模型200还可以包括：第三子网络模型203，被配置用于基于所述目标图像特征向量和多个所述相关文本特征向量确定所述目标招牌图像的类别及其置信度，以及所述多个相关兴趣点名称文本的类别及其置信度。

根据本公开的另一方面，还提供一种电子设备，可以包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的生成方法和/或所述的训练方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据所述的生成方法和/或所述的训练方法。

参见图7所示，现将描述计算设备2000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述生成方法可以全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙^TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中，并且上述构建方法可以通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述生成方法中，步骤S101～步骤S105可以例如通过处理器2004执行具有步骤S101～步骤S105的指令的应用程序2018而实现。此外，上述兴趣点名称生成方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种基于图像的兴趣点名称生成方法，包括：

从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；

确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到；

确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；

确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及

基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

2.如权利要求1所述的兴趣点名称生成方法，其中，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称包括：

确定与所述目标图像特征向量之间的相似度最高的所述其中一个相关文本特征向量；以及

将所述其中一个相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。

3.如权利要求1所述的兴趣点名称生成方法，其中，基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称，

其中，所述神经网络模型包括第一子网络模型，并且基于所述第一子网络模型来确定所述目标图像特征向量。

4.如权利要求1所述的兴趣点名称生成方法，其中，基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称，

其中，所述神经网络模型包括第二子网络模型，并且基于所述第二子网络模型来确定多个所述相关文本特征向量。

5.如权利要求3所述的兴趣点名称生成方法，其中，所述第一子网络模型包括第一输出层和最靠近所述第一输出层的全连接层，所述第一输出层的输出包括能够包围所述目标招牌图像中的文字区域的至少一个边界框，

其中，确定所述目标图像特征向量包括：

将所述目标招牌图输入所述第一子网络模型，获取所述第一子网络模型的最靠近所述第一输出层的全连接层输出的所述目标图像特征向量。

6.如权利要求3-5中任一项所述的兴趣点名称生成方法，其中，所述神经网络模型还包括第三子网络模型；

所述兴趣点名称生成方法还包括：

将所述目标图像特征向量和多个所述相关文本特征向量输入所述第三子网络模型，获取所述第三子网络模型输出的所述目标招牌图像的类别及其置信度，以及多个所述相关兴趣点名称文本的类别及其置信度。

7.如权利要求1所述的兴趣点名称生成方法，其中，获取多个相关兴趣点名称文本包括：

基于所述目标招牌图像的拍摄参数，从兴趣点数据库中的多个兴趣点名称文本中确定所述多个相关兴趣点名称文本，其中，所述拍摄参数包括所述目标招牌图像的拍摄位置，所述兴趣点数据库包括所述多个兴趣点名称文本相应的位置参数。

8.如权利要求7所述的兴趣点名称生成方法，其中，所述拍摄参数还包括所述目标招牌图像的拍摄角度。

9.如权利要求7所述的兴趣点名称生成方法，还包括：

确定所述多个兴趣点名称文本中的除所述多个相关兴趣点名称文本以外的剩余的每一个兴趣点名称文本的文本特征向量；以及

在所述兴趣点数据库中存储所述多个兴趣点名称文本与多个文本特征向量之间的对应关系。

10.如权利要求7-9中任一项所述的兴趣点名称生成方法，其中，所述兴趣点数据库还包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系；

所述兴趣点名称生成方法还包括：

在获取所述多个相关兴趣点名称文本之前，将所述目标招牌图像与所述至少一个历史招牌图像进行匹配；

基于匹配结果确定所述兴趣点数据库中是否包括与所述目标招牌图像匹配的历史招牌图像；以及

响应于确定所述兴趣点数据库中包括与所述目标招牌图像匹配的历史招牌图像，将匹配的历史招牌图像相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

11.如权利要求7-9中任一项所述的兴趣点名称生成方法，其中，所述兴趣点数据库还包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系；

所述兴趣点名称生成方法还包括：

确定所述至少一个历史招牌图像中的每一个所述历史招牌图像的历史图像特征向量，所述历史图像特征向量为至少基于所述历史招牌图像的文本区域而得到；

在所述兴趣点数据库中存储所述至少一个历史招牌图像与至少一个所述历史图像特征向量之间的对应关系；

在获取所述多个相关兴趣点名称文本之前，将所述目标图像特征向量和所述至少一个历史图像特征向量进行匹配；

基于匹配结果确定所述兴趣点数据库中是否包括与所述目标图像特征向量匹配的历史图像特征向量；以及

响应于确定所述兴趣点数据库中包括与所述目标图像特征向量匹配的历史图像特征向量，将匹配的历史图像特征向量相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

12.一种神经网络模型的训练方法，所述神经网络模型包括第一子网络模型和第二子网络模型，

其中，所述训练方法包括：

获取样本招牌图像以及与所述样本招牌图像相应的样本兴趣点名称文本，所述样本招牌图像包括文本区域；

将所述样本招牌图像输入所述第一子网络模型，基于所述第一子网络模型来确定所述样本招牌图像的样本图像特征向量，所述样本图像特征向量为至少基于所述样本招牌图像的文本区域而得到；

将所述样本兴趣点名称文本输入所述第二子网络模型，基于所述第二子网络模型来确定所述样本兴趣点名称文本的样本文本特征向量；

利用第一损失函数计算所述样本图像特征向量和所述样本文本特征向量之间的第一损失值；以及

至少基于所述第一损失值调整所述神经网络模型的参数。

13.如权利要求12所述的训练方法，还包括：

在所述样本招牌图像中标记能够各自包围所述样本招牌图像的文本区域中相应的一个字符的多个真实框；

获取所述第一子网络模型的第一输出层输出的所述样本招牌图像中的每一个字符相应的预测边界框；以及

利用第二损失函数计算所述多个真实框中的每一个真实框和相应的预测边界框之间的第二损失值，

其中，调整所述神经网络模型的参数为至少基于所述第一损失值和所述多个真实框相应的所述第二损失值而执行，

并且所述样本图像特征向量为所述第一子网络模型的最靠近所述第一输出层的全连接层的输出。

14.如权利要求12或13所述的训练方法，其中，所述神经网络模型还包括第三子网络模型；

所述训练方法还包括：

标记所述样本招牌图像的第一真实类别及其标记置信度，以及所述样本兴趣点名称文本的第二真实类别及其标记置信度；

将所述样本图像特征向量和所述样本文本特征向量输入所述第三子网络模型，获取所述第三子网络模型输出的所述样本招牌图像的第一预测类别及其预测置信度，以及所述样本兴趣点名称文本的第二预测类别及其预测置信度；以及

基于所述第一预测类别及其预测置信度、所述第二预测类别及其预测置信度、所述第一真实类别及其标记置信度、以及所述第二真实类别及其标记置信度，利用第三损失函数计算第三损失值，

其中，调整所述网络模型的参数为至少基于所述第一损失值和所述第三损失值而执行。

15.一种基于图像的兴趣点名称生成装置，包括：

获取单元，被配置用于从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本，所述目标招牌图像包括文本区域；

第一确定单元，被配置用于确定所述目标招牌图像的目标图像特征向量，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域得到；

第二确定单元，被配置用于确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；

第三确定单元，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度；以及

第四确定单元，被配置用于基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度，将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

16.如权利要求15所述的兴趣点名称生成装置，其中，所述第四确定单元包括：

第一子确定单元，被配置用于确定与所述目标图像特征向量之间的相似度最高的所述其中一个相关文本特征向量；以及

第二子确定单元，被配置用于将所述其中一个相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。

17.如权利要求15所述的兴趣点名称生成装置，其中，所述兴趣点名称生成装置被配置用于基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称，

其中，所述神经网络模型包括第一子网络模型，并且所述第一确定单元被配置用于基于所述第一子网络模型来确定所述目标图像特征向量。

18.如权利要求15所述的兴趣点名称生成装置，其中，所述兴趣点名称生成装置被配置用于基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称，

其中，所述神经网络模型包括第二子网络模型，并且所述第二确定单元被配置用于基于所述第二子网络模型来确定多个所述相关文本特征向量。

19.如权利要求17所述的兴趣点名称生成装置，其中，所述第一子网络模型包括第一输出层和最靠近所述第一输出层的全连接层，所述第一输出层的输出包括能够包围所述目标招牌图像中的文字区域的至少一个边界框，

其中，所述第一确定单元被配置用于执行以下操作来确定所述目标图像特征向量包括：

20.如权利要求17-19中任一项所述的兴趣点名称生成装置，其中，所述神经网络模型还包括第三子网络模型；

所述兴趣点名称生成装置还包括：

分类单元，被配置用于基于所述第三子网络模型来获取所述目标招牌图像的类别及其置信度，以及多个所述相关兴趣点名称文本的类别及其置信度。

21.如权利要求15所述的兴趣点名称生成装置，其中，所述获取单元被配置用于基于所述目标招牌图像的拍摄参数，从兴趣点数据库中的多个兴趣点名称文本中确定所述多个相关兴趣点名称文本，其中，所述拍摄参数包括所述目标招牌图像的拍摄位置，所述兴趣点数据库包括所述多个兴趣点名称文本相应的位置参数。

22.如权利要求21所述的兴趣点名称生成装置，还包括：

第五确定单元，被配置用于确定所述多个兴趣点名称文本中的除所述多个相关兴趣点名称文本以外的剩余的每一个兴趣点名称文本的文本特征向量，

其中，所述兴趣点数据库还包括所述多个兴趣点名称文本与多个文本特征向量之间的对应关系。

23.如权利要求21或22所述的兴趣点名称生成装置，其中，所述兴趣点数据库还包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系；

所述兴趣点名称生成装置还包括：

第一匹配单元，被配置用于在获取所述多个相关兴趣点名称文本之前，将所述目标招牌图像与所述至少一个历史招牌图像进行匹配；

第六确定单元，被配置用于基于匹配结果确定所述兴趣点数据库中是否包括与所述目标招牌图像匹配的历史招牌图像；以及

第七确定单元，被配置用于响应于确定所述兴趣点数据库中包括与所述目标招牌图像匹配的历史招牌图像，将匹配的历史招牌图像相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

24.如权利要求21或22所述的兴趣点名称生成装置，其中，所述兴趣点数据库还包括至少一个历史招牌图像，以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系；

所述兴趣点名称生成装置还包括：

第八确定单元，被配置用于确定所述至少一个历史招牌图像中的每一个所述历史招牌图像的历史图像特征向量，所述历史图像特征向量为至少基于所述历史招牌图像的文本区域而得到，其中，所述兴趣点数据库还包括所述至少一个历史招牌图像与至少一个所述历史图像特征向量之间的对应关系；

第二匹配单元，被配置用于在获取所述多个相关兴趣点名称文本之前，将所述目标图像特征向量和所述至少一个历史图像特征向量进行匹配；

第九确定单元，被配置用于基于匹配结果确定所述兴趣点数据库中是否包括与所述目标图像特征向量匹配的历史图像特征向量；以及

第十确定单元，响应于确定所述兴趣点数据库中包括与所述目标图像特征向量匹配的历史图像特征向量，将匹配的历史图像特征向量相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。

25.一种神经网络模型，采用权利要求12-14中任一项所述的训练方法进行训练而得到，

其中，所述神经网络模型包括：

第一子网络模型，被配置用于针对目标招牌图像执行特征提取操作，以确定所述目标招牌图像的目标图像特征向量，所述目标招牌图像包括文本区域，所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到；

第二子网络模型，被配置用于针对所述目标招牌图像的多个相关兴趣点名称文本执行特征提取操作，以确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量；以及

第二输出层，被配置用于确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度。

26.如权利要求25所述的神经网络模型，其中，所述第一子网络模型还被配置用于基于所述目标图像特征向量获取能够各自包围所述目标招牌图像中相应的一个字符的边界框。

27.如权利要求25或26所述的神经网络模型，还包括：

第三子网络模型，被配置用于基于所述目标图像特征向量和多个所述相关文本特征向量确定所述目标招牌图像的类别及其置信度，以及所述多个相关兴趣点名称文本的类别及其置信度。

28.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-11中任一项所述的生成方法和/或根据权利要求12-14中任一项所述的训练方法。

29.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-11中任一项所述的生成方法和/或根据权利要求12-14中任一项所述的训练方法。