CN111339976B

CN111339976B - 室内定位方法、装置、终端及存储介质

Info

Publication number: CN111339976B
Application number: CN202010139593.5A
Authority: CN
Inventors: 钟瑞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-08-11
Anticipated expiration: 2040-03-03
Also published as: CN111339976A

Abstract

本申请实施例公开了一种室内定位方法、装置、终端及存储介质，属于终端定位领域。该方法包括：获取目标图像；对目标图像中的文字进行文字识别，并根据文字识别结果确定拍摄目标图像时所处的目标场所；对目标图像进行图像识别，并根据图像识别结果确定目标场所中的目标位置，目标位置为拍摄目标图像时所处的位置，且目标位置属于目标场所中的预设拍摄位置；在目标场所对应的室内地图中显示目标位置。本申请实施例基于文字和图像识别技术实现室内定位，无需在室内预先设置WiFi设备或可见光源，从而降低了室内定位的实现难度和成本。

Description

室内定位方法、装置、终端及存储介质

技术领域

本申请实施例涉及终端定位领域，特别涉及一种室内定位方法、装置、终端及存储介质。

背景技术

室内定位是一种在室内环境进行位置定位的技术。

相较于室外环境，由于室内环境存在大量遮挡物，因此在室内利用定位组件(比如全球定位系统(Global Positioning System，GPS))进行定位的精度较差。为了提高室内定位的精度，相关技术中，终端通常基于无线保真(Wireless-Fidelity，WiFi)指纹或可见光技术实现室内定位。基于WiFi指纹或可见光技术实现室内定位时，需要预先在室内设置大量WiFi设备或用于定位的可见光源。

发明内容

本申请实施例提供了一种室内定位方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种室内定位方法，所述方法包括：

获取目标图像；

对所述目标图像中的文字进行文字识别，并根据文字识别结果确定拍摄所述目标图像时所处的目标场所；

对所述目标图像进行图像识别，并根据图像识别结果确定所述目标场所中的目标位置，所述目标位置为拍摄所述目标图像时所处的位置，且所述目标位置属于所述目标场所中的预设拍摄位置；

在所述目标场所对应的室内地图中显示所述目标位置。

另一方面，本申请实施例提供了一种室内定位装置，所述装置包括：

图像获取模块，用于获取目标图像；

第一确定模块，用于对所述目标图像中的文字进行文字识别，并根据文字识别结果确定拍摄所述目标图像时所处的目标场所；

第二确定模块，用于对所述目标图像进行图像识别，并根据图像识别结果确定所述目标场所中的目标位置，所述目标位置为拍摄所述目标图像时所处的位置，且所述目标位置属于所述目标场所中的预设拍摄位置；

显示模块，用于在所述目标场所对应的室内地图中显示所述目标位置。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的室内定位方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的室内定位方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的室内定位方法。

本申请实施例中，获取到目标图像后，通过对目标图像中的文字进行文字识别，根据文字识别结果确定拍摄该目标图像时所处的目标拍摄场景，并进一步对目标图像进行图像识别，根据图像识别结果从目标拍摄场景的预设拍摄位置中，确定出拍摄该目标图像时所处的目标位置，进而在目标场所对应的室内地图中显示目标位置，以便用户知悉当前在目标场所中所处的位置；本申请实施例基于文字和图像识别技术实现室内定位，无需在室内预先设置WiFi设备或可见光源，从而降低了室内定位的实现难度和成本。

附图说明

图1是本申请一个示例性实施例提供室内定位方法实施过程的界面示意图；

图2示出了本申请一个示例性实施例提供的室内定位方法的流程图；

图3示出了本申请另一个示例性实施例提供的室内定位方法的流程图；

图4是一个示例性实施例示出的获取目标图像过程的界面示意图；

图5是图3所示室内定位方法中文字识别过程的流程图；

图6是一个示例性实施例示出的文字识别模型的结构示意图；

图7是一个示例性实施例示出的稠密块的结构示意图；

图8是图3所示室内定位方法中图像特征点匹配过程的流程图；

图9是一个示例性实施例示出的特征点匹配过程的实施示意图；

图10是一个示例性实施例示出的室内导航过程的流程图；

图11是一个示例性实施例示出的室内导航过程的界面示意图；

图12示出了本申请一个实施例提供的室内定位装置的结构框图；

图13示出了本申请一个示例性实施例提供的终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

相关技术中，基于WiFi指纹实现室内定位时，需要预先在室内部署大量WiFi设备，并将室内划分为若干个网格，通过测量各个网格处WiFi信号的接收强度，即可得到各个网格处的WiFi指纹。在进行室内定位时，终端根据当前所处位置处WiFi信号的接收强度，确定当前所处位置的实时WiFi指纹，从而将该实时WiFi指纹与预先存储的WiFi指纹进行匹配，确定出当前所处的网格，进而确定在室内中所处的位置。基于可见光技术实现室内定位的原理与WiFi指纹类似，终端基于预先设置的可见光源的光线强度进行定位。

显然，采用上述方式实现室内定位时，需要在室内部署大量辅助定位设备(WiFi设备或可见光源)，导致室内定位的实现成本以及后期维护成本较高。

而本申请实施例提供的技术方案中，终端只需要获取一张在室内拍摄且包含文字的图像，即可通过文字识别以及图像识别技术，确定出在室内所处的位置，进而实现室内导航等功能。

在一种可能的应用场景下，如图1所示，当用户处于地铁站内部，且需要确定自身所处的具体位置时，用户可以根据指示使用终端拍摄一张包含文字的室内图像11。终端获取到室内图像11后，首先对图像中的文字进行文字识别，确定出当前所处的地铁站点(图1中当前所处的站点为T1航站楼站)。进一步的，终端对室内图像11进行图像识别，并根据识别结果，从当前所处地铁站点对应的预设室内图像12中(预先在不同位置处拍摄得到，图1中包括在位置A至F处拍摄到的室内图像)，确定出与该室内图像11匹配的预设室内图像(图1中为位置D处拍摄到的预设室内图像)。进一步的，终端根据匹配到的预设室内图像对应的拍摄位置，确定出在当前站点所处的位置，并显示在导航界面13中，以便用户进一步根据导航界面13所显示的室内地图进行室内导航。

在实现上述室内定位方法时，只需要预先采集包含文字的室内图像，并建立不同室内图像与室内位置之间的对应关系，无需在室内部署额外的设备，室内定位的实现成本较低；此外，终端只需要拍摄室内图像即可实现定位，无需开启额外的定位组件(比如WiFi组件)，有助于降低定位过程中的功耗。

请参考图2，其示出了本申请一个示例性实施例提供的室内定位方法的流程图。本实施例以该方法由终端执行为例进行说明，该过程包括如下步骤：

步骤201，获取目标图像。

在一种可能的应用场景下，当用户需要对自身所处的位置进行定位时，该目标图像可以是终端通过摄像头组件采集到的图像；在另一种可能的应用场景下，当用户需要确定其他用户当前所处的位置时，该目标图像可以通过网络接收到的其他终端发送的图像(由其他终端通过摄像头组件采集)。

在一种可能的实施方式中，目标图像中包含文字内容，该文字内容为拍摄场景内实际存在的文字。比如，当在地铁站内拍摄得到目标图像时，该目标图像中包含的文字内容可以为地铁方向指示牌上的文字；当在商场内拍摄得到目标图像时，该目标图像中包含的文字内容可以为商户门面上的文字。

步骤202，对目标图像中的文字进行文字识别，并根据文字识别结果确定拍摄目标图像时所处的目标场所。

在一种可能的实施方式中，终端通过云端服务器或者在本地对目标图像进行文字识别，得到文字识别结果，并根据该文字识别结果确定拍摄目标图像时所处的目标场所。可选的，终端采用光学字符识别(Optical Character Recognition，OCR)技术进行文字识别。

其中，由于不同场所中包含的文字可能具有相似性，因此终端根据文字识别结果确定出的目标场所为预设场所中的至少一个。该预设场所可以包括地下停车场、地铁站、厂房、商场中的至少一种，凡是需要使用到室内定位的场所均可以作为预设场所(需要支持对该预设场所的室内定位)，本申请实施例对此不作限定。

步骤203，对目标图像进行图像识别，并根据图像识别结果确定目标场所中的目标位置，目标位置为拍摄目标图像时所处的位置，且目标位置属于目标场所中的预设拍摄位置。

通过上述步骤202仅能够确定出一个较大的范围，为了进一步确定出在目标场所内的具体位置，终端进一步对目标图像进行图像识别，确定出在目标场所内拍摄目标图像时所处的位置。

由于在相近位置拍摄同一对象时，拍摄图像中对象的特征相似度较高，因此在一种可能的实施方式中，对于支持室内定位的场所，开发人员在该场所的预设拍摄位置处进行室内图像拍摄(拍摄包含文字的图像)，并将拍摄得到的图像与预设拍摄位置进行关联存储。对目标图像进行图像识别时，终端即确定预先拍摄得到的图像与目标图像的图像匹配度，进而根据该图像匹配度，从预设拍摄位置中确定目标图像对应的目标位置

可选的，室内定位的准确度与目标场所中预设拍摄位置的设置密度呈正相关关系，即预设拍摄位置设置越密集，室内定位的准确度越高。开发人员可以根据不同场所所需达到的室内定位精度设置预设拍摄位置，本实施例预设拍摄位置的设置方式进行限定。

需要说明的是，当步骤202中确定出至少两个目标场所时，终端将确定出的目标位置所处的场所确定为最终的目标场所。

步骤204，在目标场所对应的室内地图中显示目标位置。

在一种可能的实施方式中，为了指示出当前所处的位置，终端获取目标场所对应的室内地图，并在室内地图中标记目标位置。基于目标位置以及室内地图中的其他标注(比如卫生间、电梯、入口、出口等等)，用户即可快速达到目标场所内的指定位置。

其中，该室内地图可以由终端根据确定出的目标场所实时下载，或者，由终端预先下载，本实施例对此不作限定。

在一种可能的应用场景下，当上述室内定位方法应用于地铁站内部定位时，用户使用终端拍摄地铁站内包含文字的图像，终端即可根据该图像定位所处的站点以及在站点内的具体位置并进行显示，后续用户即可根据自身位置快速寻找出站口或者站点内的卫生间；当上述室内定位方法应用于地下停车场定位时，用户使用终端拍摄停车场内包含文字的图像，终端即可根据该图像定位所处的具体位置并进行显示，后续用户即可根据自身位置快速寻找车辆或者停车场出口。

综上所述，本申请实施例中，获取到目标图像后，通过对目标图像中的文字进行文字识别，根据文字识别结果确定拍摄该目标图像时所处的目标拍摄场景，并进一步对目标图像进行图像识别，根据图像识别结果从目标拍摄场景的预设拍摄位置中，确定出拍摄该目标图像时所处的目标位置，进而在目标场所对应的室内地图中显示目标位置，以便用户知悉当前在目标场所中所处的位置；本申请实施例基于文字和图像识别技术实现室内定位，无需在室内预先设置WiFi设备或可见光源，从而降低了室内定位的实现难度和成本。

在一种可能的实施方式中，当终端的网络状态良好时，可以通过调用文字识别接口，向服务器发送目标图像，由服务器用于对目标图像中的文字进行文字识别，并接收服务器反馈的文字识别结果，进而根据该文字识别结果确定目标场所，减轻终端的处理压力。然而在某些场所下(比如地下停车场或者基站覆盖边缘的地铁站)，终端的网络状态不佳，此时借助云端服务器实现文字识别的失败概率较高。因此在另一种可能的实施方式中，基于图像的场所以及位置识别均在终端本地实现。下面采用示意性的实施例进行说明。

请参考图3，其示出了本申请另一个示例性实施例提供的室内定位方法的流程图。本实施例以该方法由终端执行为例进行说明，该过程包括如下步骤：

步骤301，响应于接收到的定位操作，显示拍摄界面，拍摄界面中包含拍摄提示信息，拍摄提示信息用于提示拍摄包含文字内容的图像。

在一种可能的应用场景下，当用户需要确定自身在室内所处位置时，可以通过预设定位操作方式(比如控件、语音或者手势)指示终端开启室内定位功能，相应的，终端根据接收到定位操作，显示拍摄界面，指示用户对室内环境进行拍摄。

为了实现后续基于文字识别的场所定位，可选的，该拍摄界面显示有拍摄提示信息，该拍摄提示信息用于指示拍摄包含文字内容(与当前所在场所相关)的图像。

示意性的，如图4所示，终端显示的拍摄界面41中包含拍摄提示信息411。

步骤302，响应于拍摄指令，将摄像组件采集到的图像确定为目标图像。

进一步的，当接收到拍摄指令时，终端将摄像采集组件采集到的图像确定为目标图像。示意性的，如图4所示，当接收到对拍摄控件412的触发操作时，终端获取摄像组件采集到的目标图像413。

步骤303，将目标图像输入本地的文字识别模型，得到文字识别模型输出的文字识别结果。

本实施例中，终端中存储有预先设置的文字识别模型，该文字识别模型是通过机器学习方法对训练集训练得到的神经网络模型。对于获取到的目标图像，终端将目标图像输入该文字识别模型，由该文字识别模型对图像中的文字进行特征提取和分类，最终输出文字识别结果。

可选的，目标图像输入文字识别模型之前经过预处理(比如调整目标图像的尺寸)，预处理后的目标图像符合文字识别模型的模型输入要求。

受限于终端的存储空间以及运算能力，终端所能够运行的神经网络模型的数据量较小，为了在保证文字识别准确性的同时，提高文字识别的效率，本申请实施例中所使用的文字识别模型不同于传统的文字识别模型，而是经过重新设计和训练得到。

传统的文字识别模型采用卷积神经网络(Convolutional Neural Networks，CNN)+循环神经网络(Recurrent Neural Network，RNN)的网络结构，其中，CNN用于进行文字特征的提取，而RNN则用于对文字特征进行分类，输出分类结果(即文字识别结果)。采用这种网络结构的文字识别模型，模型数据量庞大，且在模型推理过程中，RNN需要对文字特征进行额外的运算，进而导致文字识别的效率较低。

为了降低文字识别模型的数据量，并提高文字识别效率，本申请实施例中，文字识别模型采用特征提取网络+特征分类网络的网络结构，且特征提取网络采用稠密网络(Densenet)-一种由稠密块(dense block)构成的卷积神经网络，特征分类网络则采用全连接(fully-connected)网络。相应的，对目标图像进行文字识别的过程如图5所示。

步骤303A，将目标图像输入特征提取网络，得到特征提取网络输出的文字特征，特征提取网络是包括至少一个稠密块的卷积神经网络。

为了提高特征提取质量，同时降低特征提取网络的数据量，本申请实施例中采用基于稠密块的卷积神经网络进行特征提取。稠密块的设计思路是多次重复使用卷积块，使得低层特征能够与高层特征相融合，最终得到的特征融合了高层和低层特征表现，提高卷积层的利用率和利用效率。

在一个示意性的例子中，如图6所示，特征提取网络中包括三个稠密块。将目标图像输入特征提取网络后，以此经过卷积层601(对目标图像进行特征提取)、稠密块602(特征连接)、卷积层603、池化层604(降低数据量)、稠密块605、卷积层606、池化层607和稠密块608。需要说明的是，本实施例仅以包含3个稠密块为例进行说明，在其他可能的实施方式中可以采用3个以下稠密块或者使用3个以上稠密块，本实施例对此不作限定。

在一个示意性的例子中，稠密块的结构如图7所示。稠密块中包含4个节点，且每个节点中包含两层批处理化(BatchNormlization，BN)层、两层激活层(可以使用ReLU激活函数)和两层卷积层。节点71除了向节点72输出外，还向节点73和节点74；节点72除了向节点73输出外，还向节点74输出。需要说明的是，本实施例仅以稠密块包含4个节点为例进行说明，在其他可能的实施方式中可以采用3个节点或者使用4个以上节点，本实施例对此不作限定。

步骤303B，将文字特征输入特征分类网络，得到特征分类网络输出的文字分类结果，特征分类网络为全连接网络。

得益于特征提取网络良好的特征提取结果，本申请实施例中的特征分类网络采用全连接网络，而非采用RNN，从而缩小网络的尺寸，提高文字分类的效率。

示意性的，如图6所示，特征提取网络后为特征分类网络，该特征分类网络利用线性(Linear)层610(包含池化、全连接和softmax分类器)进行特征分类，得到文字分类结果。

在一个示例性的例子中，图6所示的文字识别模型的参数如表一所示。

表一

步骤303C，根据文字分类结果确定文字识别结果。

可选的，特征提取网络输出的文字分类结果为各个文字的概率，终端即将最高概率对应的文字确定为文字识别结果。

针对上述文字识别网络的训练过程，在一种可能的实施方式中，基于预设文字(可以取2230个文字)生成不同字体、不同背景、不同颜色的100万张样本图片(每张包含10个文字)，并按照9:1的比例划分为训练集和测试集，其中，训练集和测试集中每张图片都包含对应的文字标签。训练过程中，将训练集中的图片输入文字识别模型，并以文字标签作为监督进行监督训练，不断迭代优化模型参数。可选的，模型的优化使用方均根优化器(Root MeanSquare prop，RMSprop)，学习率(learning rate)设置为0.001，超参数γ设置为0.9，批尺寸(batch size)为256，且训练周期为5(每个训练周期100万张图片)。

步骤304，根据文字识别结果确定拍摄目标图像时所处的目标场所。

进一步的，终端根据文字识别结果，从预设场所中确定出目标场所。在一种可能的实施方式中，终端中存储有预设场所与场所描述之间的对应关系，终端即根据文字识别结果与场所描述之间的匹配度，从预设场所中确定出目标场所。其中，该场所描述可以根据该场所下所有室内图像中包含的文字确定得到。

在一种可能的情况下，文字识别结果中包含至少两段文字，且不同文字内容指示不同的场所。比如终端识别出在地铁站内拍摄的图像中包含文字“T1航站楼”和“开往火车南站”(实际含义为当前站点为T1航站楼，下一站为火车南站)。为了提高确定出的目标场所的准确性，可选的，本步骤可以包括如下步骤。

一、确定文字识别结果中各段文字在目标图像中所占的图像比例。

在一种可能的实施方式中，通过文字识别模型识别目标图像中文字时，终端进一步得到各段文字对应的图像在目标图像中所处的位置，并确定文字对应图像占目标图像的图像比例。

示意性的，终端确定“T1航站楼”在目标图像中所占的图像比例为15％，而“开往火车南站”在目标图像中所占的图像比例为8％。

二、将文字识别结果中占据最高图像比例的文字确定为目标文字，并根据目标文字确定目标场所。

通常情况下，文字的尺寸越大，表明该文字的重要程度越高，因此终端将占据最高图像比例的文字确定为目标文字，并进一步根据目标文字确定出所处的目标场所。

结合上述示例，终端将“T1航站楼”确定为目标文字，进而确定目标场所为T1航站楼地铁站内。

当然，除了通过上述方式确定目标场所外，在其他可能的实施方式中，终端也可以将文字识别结果输入语义识别模型，得到语义识别结果，从而根据语义识别结果确定出目标场所，本实施例对此不作限定。

步骤305，获取目标场所对应的目标图像集，目标图像集中包含在预设拍摄位置处拍摄的候选图像。

对于支持室内导航的场所，开发人员预先对该场所中包含文字的区域进行拍摄(在包含文字区域周侧的预设拍摄位置)，得到各个包含文字区域对应的候选图像，进而根据各张候选图像生成该场所对应的图像集。

在一种可能的实施方式中，图像集中候选图像对应各自包含的文字内容以及拍摄该候选图像时对应的预设拍摄位置。示意性的，地铁站点对应图像集中，候选图像、文字内容以及预设拍摄位置之间的对应关系如表二所示。

表二

基于文字识别内容确定出目标场所后，终端进一步获取该目标场所对应的目标图像集。

可选的，由于每个预设场所对应图像集中包含大量候选图像，若将目标图像与图像集中的每张图像进行逐一匹配，将造成极大的数据处理压力，因此，为了降低数据处理压力，获取到目标图像集后，基于文字识别结果对目标图像集中的候选图像进行筛选(步骤306)。

步骤306，根据文字识别结果，从目标图像集中筛选候选图像，其中，筛选出的候选图像对应的候选文字内容中包含文字识别结果。

当候选图像包含对应的候选文字内容时，终端根据文字识别结果，筛选出包含文字识别结果的候选文字内容，进而筛选出该候选文字内容对应的候选图像。

结合表二所示的示例，在一个示例性的例子中，当文字识别结果包含T1航站楼时，终端从目标图像集中筛选出候选图像A和B。

步骤307，对筛选出的候选图像与目标图像进行特征点匹配，得到匹配分值。

相关技术中，在进行图像匹配时，通常采用哈希的方式计算图像相似度。然而，受到拍摄角度、拍摄距离、环境光等因素的影响，拍摄同一对象得到的图像的相似度可能较低，进而同一对象对应图像的匹配度较低，导致采用哈希方式进行图像匹配无法适用于本申请实施例的应用场景。为了提高图像匹配的准确性，本申请实施例中，终端采用特征点匹配的方式，确定候选图像与目标图像之间的匹配度。

在一种可能的实施方式中，终端确定候选图像与目标图像间匹配度的过程如图8所示。

步骤307A，通过尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)算子对目标图像进行特征点提取，得到目标图像对应的目标特征点集，目标特征点集包含目标图像中各个特征点的特征点信息，特征点信息包括特征点的特征向量，特征向量用于表征特征点在图像中的位置。

利用SIFT算子进行特征点提取时，提取到的特征点与图像的大小和旋转无关，且对于光线、噪声、微视角改变的容忍度也相当高。并且，在现有处理器运算速度下，辨识速度可接近即时运算。

可选的，终端通过SIFT孙子对目标图像进行特征点提取，确定出目标图像中各个特征点以及对应的特征点信息(或被成为特征点描述)，该特征点信息中至少包括用于指示特征点在图像中所处位置的特征向量。进一步的，终端根据各个特征点及其特征点信息，生成目标图像对应的目标特征点集。

可选的，终端采用类似的方式对候选图像进行特征点提取，得到各张候选图像对应的候选特征点集。当然，候选特征点集也可以预先生成，并与候选图像进行关联存储，本实施例对此不作限定。

示意性的，如图9所示，终端利用SIFT算子对目标图像91进行特征点检测(比如检测图像中物体的拐点)，并进一步获取特征点的特征点信息，生成目标特征点集92；终端利用SIFT算子对候选图像93进行特征点检测，并进一步获取特征点的特征点信息，生成候选特征点集94。

步骤307B，根据目标特征点集以及候选图像对应的候选特征点集，计算目标图像与候选图像中特征点之间的欧式距离，欧式距离根据特征向量计算得到。

在一种可能的实施方式中，终端对目标特征点集以及候选特征点集中的特征点进行特征点匹配，并根据特征点对应的特征向量，计算一对特征点之间的欧式距离，其中，欧式距离小，表明特征点之间的匹配度越高。

示意性的，当特征向量为二维向量时，若目标图像中特征点为(a，b)，而候选图像中特征点为(c，d)，特征点之间的欧式距离即为

步骤307C，根据各个特征点之间的欧式距离确定匹配分值。

进一步的，根据各对特征点对应的欧式距离，终端确定目标图像与候选图像之间的匹配分值。可选的，匹配分值由各队欧式距离加权计算得到。

示意性的，如图9所示，终端对目标特征点集92和候选特征点集94中的特征点进行匹配，并根据匹配结果计算得到两者的匹配分值95。

步骤308，确定最高匹配分值对应的候选图像，并将候选图像对应的预设拍摄位置确定为目标位置。

可选的，终端从若干候选图像中确定出匹配度最高的候选图像，并将该候选图像对应的预设拍摄位置确定为终端当前所处的目标位置。

步骤309，在目标场所对应的室内地图中显示目标位置。

本步骤的实施方式可以参考上述步骤204，本实施例在此不再赘述。

本实施例中，终端利用基于稠密块的卷积神经网络作为特征提取网络，利用全连接网络作为特征分类网络，在保证文字识别准确度的前提下，降低了文字识别模型的尺寸，使得文字识别模型能够部署在终端本地，进而在终端本地实现文字识别，降低对云端服务器的依赖。

此外，本实施例中，终端利用SIFT算子对图像进行特征点提取，进而基于提取到的特征点集进行特征点匹配，降低拍摄角度、拍摄距离等因素对图像匹配造成的影响，提高了图像匹配的准确度。

同时，终端基于文字在图像中所占的图像比例，从多段文字内容中确定出与当前所处场所关联度最高的目标恩子，进而基于该目标文字确定目标场所，提高了确定出的目标场所的准确性。

在一种可能的应用场景下，确定出自身所处的位置后，用户需要知悉从当前位置前往目的地的路线，并在前往目的地的过程中实时导航。可选的，如图10所示，上述步骤309之后还可以包括如下步骤。

步骤310，接收对室内地图的标注操作，标注操作用于在室内地图中标注目的地。

示意性的，如图11所示，终端确定出目标位置后，在导航界面1101中显示室内地图，并在室内地图上标记目标位置(图中用星形标记)。当接收到对室内地图的标注操作时，终端在室内地图上显示目的地标记1102。

当然，除了在室内地图上直接标注目的地外，用户也可以从若干候选目的地选项中选取目的地，本实施例对此不作限定。

步骤311，根据目标位置和目的地生成导航路线，并在室内地图上显示导航路线。

可选的，终端根据目标位置以及目的地之间的相对方位，生成最短的导航路线，并显示在室内地图上。其中，终端可以采用成熟的导航路径生成方式生成导航路线，本实施例对此不作限定。

示意性的，如图11所示，终端在室内地图上显示当前位置到目的地厕所之间的导航路线(图中采用虚线表示)。

步骤312，根据传感器数据和导航路线进行惯性导航。

不同于相关技术中，在室内导航过程中需要实时根据WiFi指纹或者可见光源更新当前所处的位置，本实施例中，终端在进行室内导航过程中，开启传感器，并根据传感器输出的传感器数据，在目标位置的基础上进行惯性导航，并根据惯性导航结果实时更新导航路线上用户的实时位置。

其中，用于惯性导航的传感器数据包括加速度数据和角速度数据，其中，加速度数据用于确定行进距离，角速度数据用于确定行进方向。本实施例对惯性导航的具体过程不作限定。

步骤313，每隔预定时间间隔显示提示信息，提示信息用于提示重新拍摄图像。

由于在惯性导航过程中，终端会对传感器数据进行积分运算，从而确定行进距离和行进方向，因此惯性导航存在误差(惯性导航时间越长误差越大)。因此提高导航的准确度，在一种可能的实施方式中，终端每隔预定时间间隔显示提示信息，提示用户重新拍摄图像，进而基于重新拍摄的图像进行位置校准。

示意性的，如图11所示，惯性导航过程中，终端每隔2分钟显示一次提示信息1103，提示用户重新拍摄一张包含文字的室内图像。

步骤314，根据重新拍摄的图像更新导航路线上终端所处的实时位置。

与上述基于目标图像确定目标位置相似的，终端根据重新拍摄的图像确定当前所处的实时位置，并根据该实时位置更新导航路线。

本实施例中，终端确定出目标位置后，基于传感器数据进行惯性导航，并且在惯性导航过程中，每隔预定时间间隔提示用户通过重新拍摄图像进行位置校准，避免惯性导航累积误差对导航精度的影响。

请参考图12，其示出了本申请一个实施例提供的室内定位装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

图像获取模块1201，用于获取目标图像；

第一确定模块1202，用于对所述目标图像中的文字进行文字识别，并根据文字识别结果确定拍摄所述目标图像时所处的目标场所；

第二确定模块1203，用于对所述目标图像进行图像识别，并根据图像识别结果确定所述目标场所中的目标位置，所述目标位置为拍摄所述目标图像时所处的位置，且所述目标位置属于所述目标场所中的预设拍摄位置；

显示模块1204，用于在所述目标场所对应的室内地图中显示所述目标位置。

可选的，所述第一确定模块1202，包括：

第一识别单元，用于通过调用文字识别接口，向服务器发送所述目标图像，所述服务器用于对所述目标图像中的文字进行文字识别；接收所述服务器反馈的所述文字识别结果；

或者，

第二识别单元，用于将所述目标图像输入本地的文字识别模型，得到所述文字识别模型输出的所述文字识别结果。

可选的，所述文字识别模型包括特征提取网络和特征分类网络；

所述第二识别单元，用于：

将所述目标图像输入所述特征提取网络，得到所述特征提取网络输出的文字特征，所述特征提取网络是包括至少一个稠密块的卷积神经网络；

将所述文字特征输入所述特征分类网络，得到所述特征分类网络输出的文字分类结果，所述特征分类网络为全连接网络；

根据所述文字分类结果确定所述文字识别结果。

可选的，所述第二确定模块，包括：

图像集获取单元，用于获取所述目标场所对应的目标图像集，所述目标图像集中包含在所述预设拍摄位置处拍摄的候选图像；

匹配单元，用于对所述候选图像与所述目标图像进行特征点匹配，得到匹配分值；

位置确定单元，用于确定最高匹配分值对应的所述候选图像，并将所述候选图像对应的所述预设拍摄位置确定为所述目标位置。

可选的，所述匹配单元，用于：

通过尺度不变特征变换SIFT算子对所述目标图像进行特征点提取，得到所述目标图像对应的目标特征点集，所述目标特征点集包含所述目标图像中各个特征点的特征点信息，所述特征点信息包括特征点的特征向量，所述特征向量用于表征特征点在图像中的位置；

根据所述目标特征点集以及所述候选图像对应的候选特征点集，计算所述目标图像与所述候选图像中特征点之间的欧式距离，所述欧式距离根据所述特征向量计算得到；

根据各个特征点之间的所述欧式距离确定所述匹配分值。

可选的，所述候选图像对应有候选文字内容，所述候选文字内容为所述候选图像中包含的文字内容；

所述装置还包括：

筛选模块，用于根据所述文字识别结果，从所述目标图像集中筛选所述候选图像，其中，筛选出的所述候选图像对应的候选文字内容中包含所述文字识别结果；

所述匹配单元，用于：

对筛选出的所述候选图像与所述目标图像进行特征点匹配，得到所述匹配分值。

可选的，所述第一确定模块1202，包括：

比例确定单元，用于确定所述文字识别结果中各段文字在所述目标图像中所占的图像比例；

场所确定单元，用于将所述文字识别结果中占据最高图像比例的文字确定为目标文字，并根据所述目标文字确定所述目标场所。

可选的，所述装置还包括：

接收模块，用于接收对所述室内地图的标注操作，所述标注操作用于在所述室内地图中标注目的地；

生成模块，用于根据所述目标位置和所述目的地生成导航路线，并在所述室内地图上显示所述导航路线；

导航模块，用于根据传感器数据和所述导航路线进行惯性导航；

提示模块，用于每隔预定时间间隔显示提示信息，所述提示信息用于提示重新拍摄图像；

更新模块，用于根据重新拍摄的图像更新所述导航路线上终端所处的实时位置。

可选的，所述图像获取模块，用于：

响应于接收到的定位操作，显示拍摄界面，所述拍摄界面中包含拍摄提示信息，所述拍摄提示信息用于提示拍摄包含文字内容的图像；

响应于拍摄指令，将摄像组件采集到的图像确定为所述目标图像。

上述装置实施例中，各个模块或单元的功能实施过程可以参考上述方法实施例，本实施例在此不再赘述。

请参考图13，其示出了本申请一个示例性实施例提供的终端的结构方框图。该终端1200可以是智能手机、平板电脑、笔记本电脑等。本申请中的终端1200可以包括一个或多个如下部件：处理器1210、存储器1220和显示屏1230。

处理器1210可以包括一个或者多个处理核心。处理器1210利用各种接口和线路连接整个终端1200内的各个部分，通过运行或执行存储在存储器1220内的指令、程序、代码集或指令集，以及调用存储在存储器1220内的数据，执行终端1200的各种功能和处理数据。可选地，处理器1210可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1210可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏1230所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1210中，单独通过一块芯片进行实现。

存储器1220可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1220包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1220可用于存储指令、程序、代码、代码集或指令集。存储器1220可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端1200的使用所创建的数据(比如音频数据、电话本)等。

显示屏1230是用于显示用户界面的显示组件。可选的，该显示屏1230还具有触控功能，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏1230上进行触控操作。

显示屏1230通常设置在终端1230的前面板。显示屏1230可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏1230还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1200的结构并不构成对终端1200的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1200中还包括摄像组件、麦克风、扬声器、射频电路、输入单元、传感器(比如加速度传感器、角速度传感器、光线传感器等等)、音频电路、WiFi模块、电源、蓝牙模块等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的室内定位方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的室内定位方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种室内定位方法，其特征在于，所述方法包括：

获取目标图像；

对所述目标图像中的文字进行文字识别；

确定文字识别结果中各段文字在所述目标图像中所占的图像比例；

将所述文字识别结果中占据最高图像比例的文字确定为目标文字，并根据所述目标文字确定目标场所；

获取所述目标场所对应的目标图像集，所述目标图像集中包含在预设拍摄位置处拍摄的候选图像，所述候选图像对应有候选文字内容，所述候选文字内容为所述候选图像中包含的文字内容；

根据所述文字识别结果，从所述目标图像集中筛选所述候选图像，其中，筛选出的所述候选图像对应的所述候选文字内容中包含所述文字识别结果；

对筛选出的所述候选图像与所述目标图像进行特征点匹配，得到匹配分值；

确定最高匹配分值对应的所述候选图像，并将所述候选图像对应的所述预设拍摄位置确定为目标位置，所述目标位置为拍摄所述目标图像时所处的位置，且所述目标位置属于所述目标场所中的所述预设拍摄位置；

在所述目标场所对应的室内地图中显示所述目标位置。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像中的文字进行文字识别，包括：

通过调用文字识别接口，向服务器发送所述目标图像，所述服务器用于对所述目标图像中的文字进行文字识别；接收所述服务器反馈的所述文字识别结果；

或者，

将所述目标图像输入本地的文字识别模型，得到所述文字识别模型输出的所述文字识别结果。

3.根据权利要求2所述的方法，其特征在于，所述文字识别模型包括特征提取网络和特征分类网络；

所述将所述目标图像输入本地的文字识别模型，得到所述文字识别模型输出的所述文字识别结果，包括：

根据所述文字分类结果确定所述文字识别结果。

4.根据权利要求1所述的方法，其特征在于，所述对所述候选图像与所述目标图像进行特征点匹配，得到匹配分值，包括：

根据各个特征点之间的所述欧式距离确定所述匹配分值。

5.根据权利要求1至3任一所述的方法，其特征在于，所述在所述目标场所对应的室内地图中显示所述目标位置之后，所述方法还包括：

接收对所述室内地图的标注操作，所述标注操作用于在所述室内地图中标注目的地；

根据所述目标位置和所述目的地生成导航路线，并在所述室内地图上显示所述导航路线；

根据传感器数据和所述导航路线进行惯性导航；

每隔预定时间间隔显示提示信息，所述提示信息用于提示重新拍摄图像；

根据重新拍摄的图像更新所述导航路线上终端所处的实时位置。

6.根据权利要求1至3任一所述的方法，其特征在于，所述获取目标图像，包括：

7.一种室内定位装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标图像；

第一确定模块，用于对所述目标图像中的文字进行文字识别；

所述第一确定模块，还用于确定文字识别结果中各段文字在所述目标图像中所占的图像比例；

所述第一确定模块，还用于将所述文字识别结果中占据最高图像比例的文字确定为目标文字，并根据所述目标文字确定目标场所；

第二确定模块，用于获取所述目标场所对应的目标图像集，所述目标图像集中包含在预设拍摄位置处拍摄的候选图像，所述候选图像对应有候选文字内容，所述候选文字内容为所述候选图像中包含的文字内容；

筛选模块，用于根据所述文字识别结果，从所述目标图像集中筛选所述候选图像，其中，筛选出的所述候选图像对应的所述候选文字内容中包含所述文字识别结果；

所述第二确定模块，还用于对筛选出的所述候选图像与所述目标图像进行特征点匹配，得到匹配分值；

所述第二确定模块，还用于确定最高匹配分值对应的所述候选图像，并将所述候选图像对应的所述预设拍摄位置确定为目标位置，所述目标位置为拍摄所述目标图像时所处的位置，且所述目标位置属于所述目标场所中的所述预设拍摄位置；

8.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至6任一所述的室内定位方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至6任一所述的室内定位方法。