CN117237963A

CN117237963A - 视觉模型的构建方法、图像定位方法、装置及电子设备

Info

Publication number: CN117237963A
Application number: CN202311348642.6A
Authority: CN
Inventors: 洪毅强; 王�琦; 胡良军; 刘泽凡; 陈佳悦
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Comic Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Comic Co Ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-15

Abstract

本申请提供了一种视觉模型的构建方法、图像定位方法、装置及电子设备，该视觉模型的构建方法包括：获取目标场景的多个样本图像；针对所述样本图像，提取图像特征点信息以及文本特征点信息；根据所述图像特征点信息以及文本特征点信息，构建视觉模型；其中，所述视觉模型用于图像定位。本申请能够解决现有技术中的场景模型在应用于图像定位时，存在定位准确度低以及定位成功率低的问题。

Description

视觉模型的构建方法、图像定位方法、装置及电子设备

技术领域

本申请涉及通信技术领域，尤其涉及一种视觉模型的构建方法、图像定位方法、装置及电子设备。

背景技术

目前的图像定位方法，比如增强现实(Augmented Reality，AR)技术的方案，主要是基于对目标场景进行场景建模。图像定位过程具体为：当查询图像输入时，基于对目标场景进行三维建模查找与查询图像最相似的关键帧，以及对查询图像与关键帧进行特征点匹配等过程，进一步可以通过透视n点(Perspective-n-Point，PNP)算法估算最优相机位姿，进一步还可以实现AR导航等。

但是，目前的场景建模方式是基于样本图像中确定的关键帧、样本图像中的特征点的位置信息、视角信息等进行建模的，基于这种场景建模方式的场景建模在进行图像定位时存在准确度低以及定位成功率低的问题。

发明内容

本申请提供一种视觉模型的构建方法、图像定位方法、装置及电子设备，解决了现有技术中的场景模型在应用于图像定位时，存在定位准确度低以及定位成功率低的问题。

本申请的实施例提供一种视觉模型的构建方法，包括：

获取目标场景的多个样本图像；

针对所述样本图像，提取图像特征点信息以及文本特征点信息；

根据所述图像特征点信息以及文本特征点信息，构建视觉模型；其中，所述视觉模型用于图像定位。

可选地，针对所述样本图像，提取文本特征点信息，包括：

检测所述样本图像中的文本区域；

针对所述文本区域，提取得到文本内容对应的特征点位置信息；

针对所述文本区域，识别得到所述文本内容对应的字符串；

根据所述文本内容对应的特征点位置信息以及所述文本内容对应的字符串，确定所述文本特征点信息。

可选地，根据所述文本内容对应的特征点位置信息以及所述文本内容对应的字符串，确定所述文本特征点信息，包括：

针对所述多个样本图像中包含的每个文本内容，分别执行以下操作：

确定从所述多个样本图像中识别得到的第一文本内容对应的多个字符串；其中，所述第一文本内容是所述多个样本图像中相似的任意文本内容，且一个样本图像对应所述第一文本内容的一个字符串；

从所述多个字符串中确定与所述第一文本内容对应的目标字符串；

针对包含所述第一文本内容的样本图像，将所述目标字符串以及从所述样本图像中提取得到的所述第一文本内容对应的特征点位置信息，确定为所述第一文本内容的文本特征点信息。

可选地，从所述第一文本内容对应的多个字符串中确定目标字符串，包括：

将所述多个字符串中的任意两个字符串进行匹配，得到任意两个字符串之间的相似度值；

根据所述任意两个字符串之间的相似度值，对所述多个字符串进行分组；其中，所述相似度值大于或等于第一预设门限的两个字符串属于同一分组，以及所述相似度值小于所述第一预设门限的两个字符串属于不同分组；

从目标分组中确定与所述第一文本内容对应的目标字符串；其中，所述目标分组是字符串个数大于第二门限的分组。

可选地，将所述多个字符串中的任意两个字符串进行匹配，得到任意两个字符串之间的相似度值，包括：

基于动态规划算法，将第一字符串的每个字符与第二字符串的每个字符进行匹配，计算所述第一字符串与所述的第二字符串之间的距离值；其中，所述第一字符串与所述第二字符串为任意两个字符串；

根据所述第一字符串与所述的第二字符串之间的距离值、所述第一字符串的长度以及所述的第二字符串的长度，确定所述第一字符串与所述的第二字符串之间的相似度值。

本申请实施例提供一种图像定位方法，包括：

获取目标场景的查询图像；

提取所述查询图像中的多个二维特征点信息；其中，所述二维特征点信息包括图像特征点信息和文本特征点信息；

根据预先构建的视觉模型，确定与所述二维特征点信息对应的三维特征点信息；

根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿。

可选地，所述根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿，包括：

根据所述二维特征点信息中的图像二维特征点信息和所述三维特征点信息中图像三维特征点信息，结合所述查询图像的相机参数和图像特征的权重值，构建第一关系式；

根据所述二维特征点信息中的文本二维特征点信息和所述三维特征点信息中文本三维特征点信息，结合所述查询图像的相机参数和文本特征权重值，构建第二关系式；

根据所述第一关系式和所述第二关系式构建范数函数，并根据所述范数函数求解得到的最小位姿值，确定为所述目标位姿。

可选地，所述图像定位方法还包括：

接收用户输入的第一信息；其中，所述第一信息包括语音信息和/或文本信息；

基于所述视觉模型中的文本特征点信息，确定与所述第一信息匹配的目的地信息；

根据所述目标位姿和所述目的地信息，生成导航路径。

本申请实施例提供一种视觉模型的构建装置，包括：

获取模块，用于获取目标场景的多个样本图像；

提取模块，用于针对所述样本图像，提取图像特征点信息以及文本特征点信息；

构建模块，用于根据所述图像特征点信息以及文本特征点信息，构建所述视觉模型；其中，所述视觉模型用于图像定位。

本申请实施例提供一种图像定位装置，包括：

获取模块，用于获取目标场景的查询图像；

提取模块，用于提取所述查询图像中的多个二维特征点信息；其中，所述二维特征点信息包括图像特征点信息和文本特征点信息；

第一处理模块，用于根据预先构建的视觉模型，确定与所述多个二维特征点信息对应的三维特征点信息；

第二处理模块，用于根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿。

本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的视觉模型的构建方法的步骤，或者所述处理器执行所述计算机程序时实现如上所述的图像定位方法的步骤。

本申请实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视觉模型的构建方法的步骤，或者所述处理器执行所述计算机程序时实现如上所述的图像定位方法的步骤。

本申请的实施例，针对目标场景的多个样本图像，提取图像特征点信息以及文本特征点信息，根据所述图像特征点信息以及文本特征点信息，构建视觉模型。也即是在构建视觉模型时引入文本特征点信息，这样在基于该视觉模型进行图像定位时，可以提高定位的准确度以及提高定位的成功率，从而解决了目前的场景模型在应用于图像定位时，存在定位准确度低以及定位成功率低的问题。

附图说明

图1表示本申请实施例的视觉模型的构建方法的流程图；

图2表示本申请实施例的图像定位方法的流程图；

图3表示本申请实施例的视觉模型的构建装置的框图；

图4表示本申请实施例的图像定位装置的框图；

图5表示本申请实施例的电子设备的框图。

具体实施方式

为使本申请要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。另外，本文中术语“系统”和“网络”在本文中常可互换使用。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本申请实施例涉及的视觉建模过程包含：特征提取、特征匹配、三角化、光束法平差(Bundle Adjust)等步骤，比如基于即时定位与地图构建(Simultaneous Localizationand Mapping，SLAM)技术的视觉建模方式等，本申请实施例不以此为限。

如图1所示，本申请实施例提供一种视觉模型的构建方法，包括以下步骤：

步骤11：获取目标场景的多个样本图像。

可选地，所述多个样本图像可以是在目标场景(也即是待建模的场景)中实时采集的，也可以是预先采集等，本申请实施例不以此为限。例如：目标场景(也即是待建模的场景)可以是商场、停车场、工业园区等，本申请实施例不以此为限。

步骤12：针对所述样本图像，提取图像特征点信息以及文本特征点信息。

可选地，图像特征点信息包括但不限于以下至少一项：图像特征点的二维位置信息(比如二维坐标点)、图像特征点的三维位置信息(比如三维坐标点)等、用于计算所述图像特征点的描述子的相关信息等；文本特征点信息包括但不限于以下至少一项：文本特征点的二维位置信息(比如二维坐标点)、文本特征点的三维位置信息(比如三维坐标点)、文本内容信息(比如文本内容对应的字符串等)。

可选地，本申请实施例中的图像特征点和文本特征点，也即是从样本图像中提取(或检测)的所有特征点；或者也可以理解为，本申请实施例中在样本图像中提取(或检测)特征点时，针对样本图像中的文本内容进行特殊标记，并记录其文本内容信息，用于计算其特征点对应的描述子等，本申请实施例不以此为限。

步骤13：根据所述图像特征点信息以及文本特征点信息，构建视觉模型；其中，所述视觉模型用于图像定位。

具体的，本申请实施例在视觉建模过程中，加入了对于文本特征点的额外标记。以基于SLAM技术的视觉建模方式举例来说，当执行基于视觉惯性里程计的SLAM(Visual-Inertial Odometry SLAM，VIO SLAM)进行实时建图时，同时开启建图线程及文本检测识别线程(即上述步骤12)，当前帧(即当前样本图像)检测到有文本内容时，记录下当前帧的相机位姿，以及该文本内容上的特征点坐标(此时记录的是二维坐标)，并基于此坐标，根据该文本内容所在样本图像的相机参数、相机位姿等，计算得到其三维坐标，以三维坐标为世界坐标T(x_w,y_w,z_w)表示为例，具体可以通过以下公式计算其三维坐标：

其中，T_wc是该文本内容上的特征点所在样本图像对应的相机位姿，由SLAM建模过程中记录得到；F_c为相机参数，一般可在事先获取；I_c为图像坐标至像素坐标的转换矩阵，在确定图像长宽后，可计算得出。

相应的，针对样本图像中除文本特征点之外的其他图像特征点，也可以采用上述方式计算其三维坐标，为避免重复，这里不再赘述。

上述方案中，针对目标场景的多个样本图像，提取图像特征点信息以及文本特征点信息，根据所述图像特征点信息以及文本特征点信息，构建视觉模型。也即是在构建视觉模型时引入文本特征点信息，这样在基于该视觉模型进行图像定位时，可以提高定位的准确度以及提高定位的成功率，从而解决了目前的场景模型在应用于图像定位时，存在定位准确度低以及定位成功率低的问题。

可选地，针对所述样本图像，提取文本特征点信息，包括：

检测所述样本图像中的文本区域；

针对所述文本区域，识别得到所述文本内容对应的字符串；

例如：在获取到多个样本图像时，可以针对每个样本图像执行文本检测操作(这里需要说明的是，针对每个样本图像执行文本检测操作，并不意味着每个样本图像中均包含文本内容)。当检测到样本图像中包含有文本内容时，确定所述样本图像中的文本区域。比如针对包含有文本内容的位置，通过四点透视变换将文本框矫正为矩形框，该矩形框即为所述文本区域。

具体的，作为一种实现方式：可以使用分割网络模型，对样本图像进行语义分割。可以设定一个阈值，将语义分割网络生成的概率图转换为二值图像，再采用像素聚类方法将像素分组成文本实例，即得到文本区域。

在确定样本图像中的文本内容所在的文本区域之后，在相应文本区域中的文本内容上提取多个位置坐标，即提取得到文本内容对应的特征点位置信息。以及针对相应文本区域，识别得到该文本区域中的文本内容(如以字符串表示，即识别得到所述文本内容对应的字符串)。

具体的，作为一种实现方式：可以搭建一个包含用于提取样本图像的特征点的卷积层、用于预测特征序列，输出预测标签分布的双向循环神经网络(Recurrent NeuralNetwork，RNN)，以及用于将标签分布转换为最终的标签系列损失层的网络模型，基于该网络模型对相应文本区域中的文本内容进行识别，得到所述文本内容对应的字符串。

举例来说，所述多个样本图像中可能存在针对同一目标对象，在不同视角(或相机位姿)下拍摄得到的图像，这样多个样本图像中可能包含有相同的文本内容。同时，由于拍摄光线、角度等因素，针对包含有相同文本内容的多个样本图像进行文本识别时，可能识别得到的结果(即文本内容的字符串)之间存在差异，因此针对每个文本内容，需要确定其对应的一个准确的字符串。

例如：多个样本图像为样本图像1～100，其中，样本图像1、2、5、7、8、13、14中包含有相同的文本内容1，样本图像2、4、7、10、35中包含有相同的文本内容2等等。针对文本内容1，从样本图像1、2、5、7、8、13、14中可以分别识别得到所述文本内容1对应的一个字符串，以及针对文本内容2，可以从样本图像2、4、7、10、35中分别识别得到所述文本内容2对应的一个字符串。这样针对文本内容1即得到7个字符串，以及针对文本内容2即得到5个字符串(需要说明的是，这里举例的样本图像数量仅为说明本申请中样本图像、文本内容以及字符串之间的关系，实际构建模型时所采用的样本图像的数量并不以此为限)。

举例来说，两个字符串之间的相似度值越高，表示这两个字符串之间的相似程度越高。比如在针对每个文本内容对应的多个字符串进行分组时，可以按照高频的准确数据、中频的轻微错误数据和低频的无关数据进行分类。

具体的，在计算得到每两个字符串之间的相似度值之后，可以按照相似度值进行分组，将相似度高的数据聚类成一种类别，比如：可以将相似度值大于或等于第一预设门限的两个字符串划分到同一分组，以及将相似度值小于所述第一预设门限的两个字符串划分到不同分组等。

在针对第一文本内容对应的多个字符串全部分组完成之后，可以进一步对所述分组进行过滤，比如将分组内的字符串个数少于第二门限值的分组剔除(通常该分组对应于“低频的无关数据”)。比如：在剔除“低频的无关数据”之后剩下的分组中，可能掺杂着高频准确数据及中频的轻微错误(也即是目标分组)。

进一步地，针对目标分组中的字符串，可以使用额外训练的带强监督的神经网络从中筛选得到该第一文本内容对应的目标字符串(即认为该第一文本内容对应的准确的字符串)。或者，还可以调用Chat GPT工具，将同类别字符串组成一个列表提问，要求其选出最正确的一个字符串(即目标字符串)；或者，考虑目标场景中的文本内容(比如商场场景下的商店名称等、车库场景中的车库分类号、路标指示等具有普遍适用性)，因此还可以采用语义库匹配等方式，从目标分组中筛选得到该第一文本内容对应的目标字符串等，本申请实施例不以此为限。

举例来说，基于动态规划算法计算两个字符串之间的距离值，具体可以是：维护一个二维数组D，先把D[0,:],[:,0]都置为0(考虑没有0的位置，这里是做一个安全边界的作用)。针对两个字符串Sn，Sm，D[i,j]表示Sn前i个字符串和Sm前j个字符串的举例值(即Sn前i个字符串和Sm前j个字符串的匹配程度)；在进行匹配时，i从1……n，j从1……m进行匹配，如果Si等于Sj，即匹配成功，那么距离就是从上一个匹配状态D[i-1,j-1]减掉1(这里是设定匹配成功，距离变小，即距离值越小表示相似程度越高)，如果Si不等于Sj，即匹配失败，则从三种上一个状态：D[i-1,j],D[i,j-1],[i-1,j-1]中取最小值，以此方式依次计算到D[n+1,m+1]，即为Sn和Sm之间的距离值。

例如：对于两个待比较的字符串，长度分别为n,m,记为S_n,S_m。创建一个二维数组D，用于保存中间计算结果。D的计算方法如下：

其中，minV的计算公式为：

minV＝1+min<D[i-1,j],D[i,j-1],D[i-1,j-1]-k>

其中，当Si＝Sj时，k＝1，否则k＝0。

基于上述公式，即可计算得到Sn和Sm之间的距离值D[n+1,m+1]。

可选地，根据所述第一字符串与所述的第二字符串之间的距离值、所述第一字符串的长度以及所述的第二字符串的长度，确定所述第一字符串与所述的第二字符串之间的相似度值，可以包括：

根据所述第一字符串与所述的第二字符串之间的距离值、所述第一字符串的长度以及所述的第二字符串的长度进行归一化处理，得到所述第一字符串与所述的第二字符串之间的相似度值。

例如：可以采用以下公式实现归一化处理：

其中，Sim(S_n,S_m)即为两个字符串S_n,S_m之间的相似度值。

如图2所示，本申请实施例还提供一种图像定位方法。可选地，所述图像定位方法采用上述视觉模型的构建方法所构建的视觉模型实现图像定位。所述方法包括以下步骤：

步骤21：获取目标场景的查询图像。

可选地，所述查询图像可以是针对目标场景拍摄的用于进行定位的图像，或者该查询图像也可以是从预先采集的目标场景的图像等(比如AR设备采集目标场景图像的过程中，可以从中选择出查询图像等)，本申请实施例不以此为限。

步骤22：提取所述查询图像中的多个二维特征点信息；其中，所述二维特征点信息包括图像特征点信息和文本特征点信息。

可选地，基于查询图像选取图像平面中的特征点，即为二维特征点。其中，二维特征点信息包括：二维特征点坐标以及用于描述该二维特征点在该查询图像中的相关信息的描述子等，比如：针对文本特征点其描述子可以包括文本内容的字符串等。

步骤23：根据预先构建的视觉模型，确定与所述二维特征点信息对应的三维特征点信息。

可选地，所述视觉模型的拓扑结构包括但不限于：

图像特征点的三维位置信息和二维位置信息；

文本特征点的三维位置信息和二维位置信息；

关键帧的位姿、相机参数；

包含文本内容的样本图像的位姿、相机参数。

这样，基于预先构建的视觉模型(比如采用上述视觉模型的构建方法所构建的视觉模型)，可以确定与所述二维特征点信息对应的三维特征点信息。其中，该三维特征点信息包括：三维特征点坐标以及用于描述该三维特征点在该查询图像中的相关信息的描述子等。

步骤24：根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿。

可选地，根据所述二维特征点信息和所述三维特征点信息进行特征匹配，即是进行候选关键帧筛选，将查询图像与关键帧的二维特征点进行匹配，以及将查询图像与视觉模型的特征点进行匹配(比如基于描述子进行匹配)，基于PNP估算得到目标位姿。举例来说，本申请实施例中的图像定位方法可以采用AR定位技术，其关键在于本申请中的视觉模型中包含有文本特征点信息，以提高定位准确性和成功率。具体的AR定位方法这里不再赘述。

本申请实施例中，根据所述二维特征点信息和所述三维特征点信息进行特征匹配，并基于PNP算法确定所述查询图像的目标位姿时，可以基于构建的范数函数计算得到所述目标位姿。

可选地，范数函数的构建过程，也即是所述根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿，包括：

例如：基于上述范数函数的构建方法，该范数函数表示为：

其中，w(p)、w(t)为权重参数，可根据实际情况调整；P_p为视觉特征对应的三维特征点(也即是除文本特征之外的图像特征点)，P_t为文本特征对应的三维特征点，p_p为普通视觉特征的二维特征点、p_t为文本特征的二维特征点，T_cw为待估算的相机位姿。通过加权最小化三维特征点重投影误差，估算相机位姿T_cw，完成定位请求。

可选地，所述图像定位方法还包括：

根据所述目标位姿和所述目的地信息，生成导航路径。

举例来说，该第一信息可以是用户输入的语音信息和/或文本信息，比如该第一信息可以直接指示目的地信息，或者用户也可以通过提问的方式间接指示目的地信息。例如：在SLAM建模过程中，已将场景中的文本信息及其对应的坐标注册完毕，将其提供给预训练的问答模型(比如Chat GPT模型)，用户可进行类似于“哪里有好吃的西餐厅”的提问，基于问答模型的结果，确定目的地信息。

该实施例中，用户通过输入语音信息和/或文本信息，直接或间接指示目的地信息，从而进行AR导航的目标地点定位，可以避免当用户执行导航选择目的地时，需手动浏览可选目的地列表并单击选择后目的地或者基于场景地图手动标记目的地等进行导航的繁琐操作，节省了导航流程，有利于提升用户体验。

如图3所示，本申请实施例还提供一种视觉模型的构建装置300，包括：

获取模块310，用于获取目标场景的多个样本图像；

提取模块320，用于针对所述样本图像，提取图像特征点信息以及文本特征点信息；

构建模块330，用于根据所述图像特征点信息以及文本特征点信息，构建视觉模型；其中，所述视觉模型用于图像定位。

可选地，所述提取模块320包括：

检测单元，用于检测所述样本图像中的文本区域；

提取单元，用于针对所述文本区域，提取得到文本内容对应的特征点位置信息；

识别单元，用于针对所述文本区域，识别得到所述文本内容对应的字符串；

确定单元，用于根据所述文本内容对应的特征点位置信息以及所述文本内容对应的字符串，确定所述文本特征点信息。

可选地，所述确定单元还用于：

需要说明的是，本申请实施例中的上述视觉模型的构建装置能够实现上述视觉模型的构建方法的各个实施例，且能达到相同的技术效果，为避免重复，这里不再赘述。

如图4所示，本申请实施例提供一种图像定位装置400，包括：

获取模块410，用于获取目标场景的查询图像；

提取模块420，用于提取所述查询图像中的多个二维特征点信息；其中，所述二维特征点信息包括图像特征点信息和文本特征点信息；

第一处理模块430，用于根据预先构建的视觉模型，确定与所述多个二维特征点信息对应的三维特征点信息；

第二处理模块440，用于根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿。

可选地，所述第二处理模块440包括：

第一构建单元，用于根据所述二维特征点信息中的图像二维特征点信息和所述三维特征点信息中图像三维特征点信息，结合所述查询图像的相机参数和图像特征的权重值，构建第一关系式；

第二构建单元，用于根据所述二维特征点信息中的文本二维特征点信息和所述三维特征点信息中文本三维特征点信息，结合所述查询图像的相机参数和文本特征权重值，构建第二关系式；

确定单元，用于根据所述第一关系式和所述第二关系式构建范数函数，并根据所述范数函数求解得到的最小位姿值，确定为所述目标位姿。

可选地，所述图像定位装置400还包括：

接收模块，用于接收用户输入的第一信息；其中，所述第一信息包括语音信息和/或文本信息；

确定模块，用于基于所述视觉模型中的文本特征点信息，确定与所述第一信息匹配的目的地信息；

生成模块，用于根据所述目标位姿和所述目的地信息，生成导航路径。

需要说明的是，本申请实施例中的上述图像定位装置能够实现上述图像定位方法的各个实施例，且能达到相同的技术效果，为避免重复，这里不再赘述。

如图5所示，本申请实施例还提供一种电子设备，包括收发机53、处理器51、存储器52及存储在所述存储器52上并可在所述处理器51上运行的计算机程序，所述处理器51执行所述计算机程序时实现上述的视觉模型的构建方法的步骤。

具体地，所述处理器51用于：

获取目标场景的多个样本图像；

可选地，所述处理器51还用于：

检测所述样本图像中的文本区域；

针对所述文本区域，识别得到所述文本内容对应的字符串；

可选地，所述处理器51还用于：

可选地，所述处理器51执行所述计算机程序时还可以实现上述的图像定位方法的步骤。需要说明的是：执行所述计算机程序时还可以实现上述的图像定位方法的步骤的处理器，与执行所述计算机程序时还可以实现上述的视觉模型的构建方法的步骤的处理器，可以是相同的处理器或不同的处理器。或者，执行所述计算机程序时还可以实现上述的图像定位方法的步骤的处理器，与执行所述计算机程序时还可以实现上述的视觉模型的构建方法的步骤的处理器，可以设置在相同的电子设备或者也可以设置在不同的电子设备中，本申请实施例不以此为限。

具体的，所述处理器51用于：

获取目标场景的查询图像；

可选地，所述处理器51还用于：

根据所述目标位姿和所述目的地信息，生成导航路径。

其中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器51代表的一个或多个处理器51和存储器52代表的存储器52的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机53可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器51负责管理总线架构和通常的处理，存储器52可以存储处理器在执行操作时所使用的数据。

本领域技术人员可以理解，实现上述实施例的全部或者部分步骤可以通过硬件来完成，也可以通过计算机程序来指示相关的硬件来完成，所述计算机程序包括执行上述方法的部分或者全部步骤的指令；且该计算机程序可以存储于一可读存储介质中，存储介质可以是任何形式的存储介质。

另外，本申请具体实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的视觉模型的构建方法中的步骤，和/或，该程序被处理器执行时实现上述的图像定位方法中的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本申请的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本申请所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本申请的保护范围内。

Claims

1.一种视觉模型的构建方法，其特征在于，包括：

获取目标场景的多个样本图像；

2.根据权利要求1所述的视觉模型的构建方法，其特征在于，针对所述样本图像，提取文本特征点信息，包括：

检测所述样本图像中的文本区域；

针对所述文本区域，识别得到所述文本内容对应的字符串；

3.根据权利要求2所述的视觉模型的构建方法，其特征在于，根据所述文本内容对应的特征点位置信息以及所述文本内容对应的字符串，确定所述文本特征点信息，包括：

4.根据权利要求3所述的视觉模型的构建方法，其特征在于，从所述第一文本内容对应的多个字符串中确定目标字符串，包括：

5.根据权利要求4所述的视觉模型的构建方法，其特征在于，将所述多个字符串中的任意两个字符串进行匹配，得到任意两个字符串之间的相似度值，包括：

6.一种图像定位方法，其特征在于，包括：

获取目标场景的查询图像；

7.根据权利要求6所述的图像定位方法，其特征在于，所述根据所述二维特征点信息和所述三维特征点信息进行特征匹配，确定所述查询图像的目标位姿，包括：

8.根据权利要求6所述的图像定位方法，其特征在于，还包括：

根据所述目标位姿和所述目的地信息，生成导航路径。

9.一种视觉模型的构建装置，其特征在于，包括：

获取模块，用于获取目标场景的多个样本图像；

10.一种图像定位装置，其特征在于，包括：

获取模块，用于获取目标场景的查询图像；

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的视觉模型的构建方法的步骤，或者所述处理器执行所述计算机程序时实现如权利要求6至8中任一项所述的图像定位方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的视觉模型的构建方法的步骤，或者所述处理器执行所述计算机程序时实现如权利要求6至8中任一项所述的图像定位方法的步骤。