CN116740721B

CN116740721B - 手指查句方法、装置、电子设备及计算机存储介质

Info

Publication number: CN116740721B
Application number: CN202311026422.1A
Authority: CN
Inventors: 寇婷婷; 朱松; 武庆三; 潘鑫; 黄勇
Original assignee: Shenzhen Wantong Technology Co ltd
Current assignee: Shenzhen Wantong Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-17
Anticipated expiration: 2043-08-15
Also published as: CN116740721A

Abstract

本申请涉及人工智能技术领域，公开了一种手指查句方法，包括：通过获取待检测图像，对待检测图像进行手指点检测，当检测到手指点时，在预设范围内对手指点进行截取，得到目标图像；对目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据文本定位模型对目标图像进行文本定位，得到初始文本框；计算初始文本框的文本框特征，根据文本框特征和指尖坐标对初始文本框进行筛选，得到候选文本框，对候选文本框进行截取，得到文本图像；获取预设的文本识别模型，基于文本识别模型对文本图像进行文本识别，得到目标查询语句。本申请还公开了一种手指查句装置、电子设备及计算机存储介质。本申请提高了手指查句速度和准确率。

Description

手指查句方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种手指查句方法、装置、电子设备及计算机存储介质。

背景技术

随着信息技术的快速发展，人们对信息获取的效率和准确率都有了更高的要求。手指查句是指将用户手指点到的文本信息返回给用户，通过对带有手指信息的图像进行检测，进而识别到手指所在的文本信息。通过手指查句可以快速识别到用户手指所指的文本信息，提高对文本信息的获取效率。

当前，在手指查句中，主要通过一些常规的文本识别模型对文本图像进行检测，识别得到手指所在的文本信息。然而，该类文本识别模型对不在同一行但靠得较近的文本框进行识别时，会出现连接错误的问题，并且，在通过该类文本识别模型对形近字进行识别时，亦会出现查句错误。由此最终导致手指查句准确率低的技术问题。

发明内容

本申请实施例提供一种手指查句方法、装置、电子设备及计算机存储介质，可以解决手指查句准确率低的技术问题。

本申请实施例提供一种手指查句方法，包括：

获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像；

对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框；

计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

进一步的，所述获取预设的文本定位模型，包括：

获取第一训练数据集，并构建基础文本定位网络，根据所述基础文本定位网络对所述第一训练数据集进行计算，得到预测概率图、预测二值图、预测阈值图和预测连接概率；

计算所述预测概率图、所述预测二值图、所述预测阈值图和所述预测连接概率的总损失值；

根据所述总损失值对所述基础文本定位网络进行参数调整，直至调整后的基础文本定位网络对所述第一训练数据集计算得到的总损失值达到预设的第一损失阈值，确定所述调整后的基础文本定位网络为所述文本定位模型。

进一步的，所述根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，包括：

根据所述文本框特征确定同一行的初始文本框，得到文本框连线结果；

获取预设筛选条件，根据所述预设筛选条件和所述指尖坐标对所述初始文本框进行筛选，得到指尖文本框；

根据所述文本框连线结果确定所有所述指尖文本框的所在行，将所述指尖文本框所在行的所有初始文本框作为第一备选文本框，根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框。

进一步的，所述根据所述文本框特征确定同一行的初始文本框，包括：

将所有所述初始文本框作为节点添加至目标有向图中，并按照预设方向对所有所述初始文本框进行排序，遍历所有所述初始文本框，计算任意两个所述初始文本框之间的比值特征、差值特征和距离特征；

根据所述比值特征、所述差值特征和所述距离特征，确定相邻的初始文本框，基于所述目标有向图在所述相邻的初始文本框之间添加边；

根据所述比值特征、所述差值特征和所述距离特征，计算所述目标有向图中每条边的单位流量费用，通过最小的单位流量费用得到所述同一行的初始文本框。

进一步的，所述计算所述初始文本框的文本框特征，包括：

获取所述初始文本框的文本轮廓点，根据所述文本轮廓点构建所述初始文本框的外轮廓，并计算所述初始文本框的最小外接矩形；

根据所述外轮廓和所述最小外接矩形确定所述初始文本框的弯曲程度，在所述初始文本框的弯曲程度为小弯曲程度时，确定所述初始文本框的最小外接矩形的参数特征为所述初始文本框的文本框特征；

在所述初始文本框的弯曲程度为大弯曲程度时，计算所述初始文本框的第二外接矩形，将所述第二外接矩形的参数特征作为所述初始文本框的文本框特征。

进一步的，所述获取预设的文本识别模型，包括：

获取第二训练数据集，并构建基础文本识别网络，根据所述基础文本识别网络对所述第二训练数据集进行计算，得到预测识别语句；

计算所述预测识别语句对应的第一损失值和第二损失值；

根据所述第一损失值和所述第二损失值对所述基础文本识别网络进行参数调整，直至调整后的基础文本识别网络对所述第二训练数据集计算得到的损失值达到预设的第二损失阈值，确定所述调整后的基础文本识别网络为所述文本识别模型。

进一步的，所述文本识别模型包括卷积层、循环层和转录层，所述基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句，包括：

输入所述文本图像至所述卷积层，根据所述卷积层对所述文本图像进行特征提取，得到所述文本图像对应的特征图；

通过所述循环层对所述特征图进行预测计算，得到预测标签分布；

根据所述转录层对所述预测标签分布进行标签转换，得到所述目标查询语句。

相应地，本申请实施例提供一种手指查句装置，包括：

检测模块，用于获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像；

定位模块，用于对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框；

筛选模块，用于计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

识别模块，用于获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

此外，本申请实施例还提供一种电子设备，包括处理器和存储器，上述存储器存储有计算机程序，上述处理器用于运行上述存储器内的计算机程序实现本申请实施例提供的手指查句方法。

此外，本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序适于处理器进行加载，以执行本申请实施例所提供的任一种手指查句方法。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例所提供的任一种手指查句方法。

在本申请实施例中，通过获取待检测图像，对待检测图像进行手指点检测，当检测到手指点时，在预设范围内对手指点进行截取，得到目标图像，实现了对手指图像的高清截取；之后，对目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据文本定位模型对目标图像进行文本定位，得到初始文本框，通过文本定位模型能够对弯曲文本进行精确定位，并对文本断开问题进行优化，具有较高的实时性；而后，计算初始文本框的文本框特征，根据文本框特征和指尖坐标对初始文本框进行筛选，得到候选文本框，对候选文本框进行截取，得到文本图像；最后，获取预设的文本识别模型，基于文本识别模型对文本图像进行文本识别，得到目标查询语句，实现了在不同光照环境、成像系统和复杂背景下，均能对图片进行稳定而精确的手指查句，极大地提高了手指查句速度和准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的手指查句方法的流程示意图；

图2是本申请实施例提供的文本框外接矩形特征的示意图；

图3是本申请实施例提供的手指查句装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种手指查句方法、装置、电子设备及计算机存储介质。该手指查句装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

另外，本申请实施例中的“多个”指两个或两个以上。本申请实施例中的“第一”和“第二”等用于区分描述，而不能理解为暗示相对重要性。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

请参阅图1，图1是本申请一实施例提供的手指查句方法的流程示意图。该手指查句方法可以包括：

S101、获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像。

在本实施例中，待检测图像获取的目标图像，也可以为视频的静态帧图像。在获取到待检测图像时，对该待检测图像进行手指点检测并获取预设范围，其中，预设范围为预设的像素点范围，不同待检测图像的大小可能对应不同的预设范围。在检测到该手指点时，以该手指点为中心，在预设范围对该手指点进行截取，得到目标图像。

S102、对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框。

在本实施例中，在得到目标图像时，对目标图像中的手指点进行指尖定位，得到该手指点在目标图像中的指尖坐标。之后，获取预设的文本定位模型，该文本定位模型为预先训练完成的文本检测模型，根据该文本定位模型对目标图像进行文本定位，得到初始文本框。该初始文本框包括在目标图像中定位到的文本，以及每个文本对应的框。

具体地，由于拍摄角度或图像弯曲等问题，在得到目标图像时，该目标图像中的文本可能存在文本弯曲。因此，本实施例中的文本定位模型采用基于分割的检测网络DBNet（Real-time Scene Text Detection with Differentiable Binarization，深度双向文本检测网络），该检测网络DBNet包括FPN（Feature Pyramid Networks，特征金字塔网络）结构。其中，DBNet为一种文本定位的深度学习模型，包括正向和反向的两个网络结构；FPN为特征金字塔网络，使用不同层次的金字塔层的特征图进行预测，可以得到高分辨率特征。在得到目标图像时，将该目标图像输入至文本定位模型，根据该文本定位模型对该目标图像进行卷积特征提取，得到图像特征；之后，对该图像特征进行预测计算，输出得到目标图像的初始文本框。通过该文本定位模型能够解决目标图像中文本尺度的问题，进而对目标图像中文本的精确定位，得到目标图像的初始文本框。

S103、计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像。

在本实施例中，在得到初始文本框时，对初始文本框进行筛选，确定指尖对应的候选文本框。具体地，在得到初始文本框时，计算初始文本框的文本框特征，根据该文本框特征确定属于同一行的初始文本框；之后，根据指尖坐标对同一行的初始文本框进行筛选，得到候选文本框。在得到所有的候选文本框时，计算每个候选文本框的弯曲程度，该弯曲程度可通过候选文本框的文本轮廓面积和该候选文本框对应的最小外接矩形的面积的比值确定，将比值大于或等于预设阈值的候选文本框确定为弯曲程度较小的候选文本框；将比值小于预设阈值的候选文本框确定为弯曲程度较大的候选文本框。对其中弯曲程度较小的候选文本框进行透视变换，得到文本图像；对其中弯曲程度较大的候选文本框通过移动最小二乘插值拉平，得到文本图像。

S104、获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

在本实施例中，文本识别模型为预先训练完成的识别模型，根据该文本识别模型可以对文本图像进行文本识别，将图像中的文字区域转化为字符信息，得到手指点对应的查询语句，该手指点对应的查询语句即为目标查询语句。具体地，本实施例中的文本识别模型为CRNN（Convolution Recurrent Neural Network，卷积循环神经网络）模型，该文本识别模型包括卷积层、循环层和转录层。将文本图像输入至文本识别模型，依次通过该卷积层、循环层和转录层，最终计算得到文本图像对应的标签序列，得到文本内容，对文本内容进行字符串操作，得到目标查询语句。

本实施例通过获取待检测图像，对待检测图像进行手指点检测，当检测到手指点时，在预设范围内对手指点进行截取，得到目标图像，实现了对手指图像的高清截取；之后，对目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据文本定位模型对目标图像进行文本定位，得到初始文本框，通过文本定位模型能够对弯曲文本进行精确定位，并对文本断开问题进行优化，使得文本定位模型对目标图像定位具有较高的实时性；而后，计算初始文本框的文本框特征，根据文本框特征和指尖坐标对初始文本框进行筛选，得到候选文本框，对候选文本框进行截取，得到文本图像；最后，获取预设的文本识别模型，基于文本识别模型对文本图像进行文本识别，得到目标查询语句，实现了在不同光照环境、成像系统和复杂背景下，均能对图片进行稳定而精确的手指查句，极大地提高了手指查句速度和准确率。除此之外，本申请提出的手指查句方法还可以应用在文本翻译中，实现对文本的实时翻译。

在本申请一些实施例中，上述获取预设的文本定位模型，包括：

在本实施例中，构建基础文本定位网络，基础文本定位网络为与文本定位模型相同网络结构的模型网络，通过第一训练数据集对基础文本定位网络的参数进行调整，得到最终的文本定位模型。具体地，获取多组包含文本的文本图像数据，对该文本图像数据中的文本通过单词或单句级别的标注方式进行多点框标注，得到文本框标注信息；对该文本框标注信息进行二值图转换，得到训练二值图。在训练过程中对第一训练数据集中的训练图像进行随机裁剪，旋转等数据增强操作，提高模型的泛化能力。同时，抽取部分OCR（OpticalCharacter Recognition，光学字符识别）公开数据集RCTW（Reading Chinest Text in theWild，中文数据集）中的数据作为训练数据，将该训练数据、文本框标注信息和训练二值图作为第一训练数据集。本实施例并不局限于公开数据集RCTW，亦可采用其他的公开数据集作为训练数据。

将该第一训练数据集投入至基础文本定位网络，基于该基本文本定位网络对第一训练数据集进行计算，得到当前第一训练数据集对应的预测概率图、预测二值图、预测阈值图和预测连接概率。其中，预测连接概率为对第一训练数据集的文本像素之间的link预测值，根据基础文本定位网络对第一训练数据集的每个像素八个相邻位置与该像素属于同一文本实例的概率进行预测，得到该预测连接概率。通过link预测可以避免在文本弯曲，文字小且单一的情况下，出现的文本框断开的问题，提高文本定位的准确性。

之后，计算该预测概率图、预测二值图、预测阈值图和预测连接概率的总损失值，根据该总损失值对基础文本定位网络进行参数调整，得到调整后的基础文本定位网络。总损失值的计算如下所示：

L= L_s+ α×L_b+β×L_t+L_link

其中，L_s为预测概率图的损失，L_b为预测二值图的损失，L_t为预测阈值图的损失，L_link为预测连接概率的损失，L_s、L_b、L_link采用二分类交叉熵损失，L_t采用L1距离损失，α=1，β=10。

重复上述步骤，根据第一训练数据集继续对调整后的基础文本定位网络进行训练，直至调整后的基础文本定位网络对应的总损失值达到预设的第一损失阈值，则确定当前调整后的基础文本定位网络为训练完成的文本定位模型。

本实施例通过第一训练数据集对基础文本定位网络进行训练，计算得到预测概率图、预测二值图、预测阈值图和预测连接概率，根据预测概率图、预测二值图、预测阈值图和预测连接概率对应的总损失值，对基础文本定位网络进行参数调整，实现了对文本定位网络的精确训练，使得通过训练得到的文本定位模型能够对图像中的文本进行高效地定位，并避免了在文字小且单一的情况下会出现文本框断开的问题，进一步提高了文本定位的准确性。

在本申请一些实施例中，上述根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，包括：

在本实施例中，初始文本框的文本框特征包括该初始文本框的高度，该初始文本框对应的外接矩形在竖直方向上两条边的中点，经过其中一个中点的垂线方程、以及另一中点所在矩形边的直线方程。具体地，计算初始文本框的弯曲程度，根据该弯曲程度确定初始文本框对应的外接矩形，计算该外接矩形的框高，该外接矩形在竖直方向上两条边的中点，经过其中一个中点的垂线方程、以及另一中点所在矩形边的直线方程，即得到初始文本框的文本框特征。而后，将每个初始文本框作为一个节点，构建目标有向图。按照预设方向遍历所有初始文本框，根据每个初始文本框的框高、第一中点、第二中点、垂线方程，以及直线方程，筛选计算得到属于同一行的初始文本框。

之后，获取预设筛选条件，根据预设筛选条件和指尖坐标对初始文本框进行筛选，得到指尖文本框。具体地，以指尖坐标为中心，计算指尖坐标预设高度和预设宽度的面积范围，将与该面积范围相交的面积大于等于预设面积的初始文本框作为第一预选文本框。其中，该预设高度可以为所有初始文本框的平均高度的十倍，该预设宽度可以为平均高度的五倍，预设面积可以选取100。而后，计算每个第一预选文本框水平方向中线，指尖坐标在该中线的垂足，以及指尖坐标到该中线的垂直距离。将文本框连线结果中文本框高度大于或等于预设像素（如10pixel），且垂直距离小于第一阈值，且垂足至文本框中点的距离小于第二阈值的第一预选文本框作为第二预选文本框。选取第二预选文本框中垂直距离最小的文本框为指尖文本框。

之后，根据文本框连线结果，确定所有指尖文本框分别的所在行，将每个指尖文本框所在行所有初始文本框作为第一备选文本框。分别从x轴方向和y轴方向，计算每行第一备选文本框的起始位置到同行的指尖文本框起始位置的距离的绝对值，确定绝对值小于第一预设高度范围（如avg_h的5倍，其中avg_h为上述所有初始文本框的平均高度）内的第一备选文本框为第二备选文本框。进一步的，对每行的首个第一备选文本框在y方向上进行排序，计算上下两行的首个第一备选文本框的距离，确定距离大于第二预设高度范围（如avg_h的1.2倍）的首个第一备选文本框为待选文本框。从第二备选文本框中删除该待选文本框所在行的所有文本框，以及该待选文本框之前或者之后行的所有第二备选文本框，得到最终的候选文本框。

本实施例通过文本框特征、指尖坐标和初始文本框确定候选文本框，实现了对指尖所对应的文本框的精确定位，提高了指尖文本获取的准确率。

在本申请一些实施例中，上述根据所述文本框特征确定同一行的初始文本框，包括：

在本实施例中，在确定初始文本框是否在同一行时，首先将每个初始文本框作为一个节点添加至目标有向图中，并对所有初始文本框按照左上角顶点坐标从x轴方向进行排序，遍历所有初始文本框，计算任意两个初始文本框之间的比值特征、差值特征和距离特征，即对所有初始文本框进行两两比较，计算得到该比值特征、差值特征和距离特征。具体地，在计算比值特征时，计算两个初始文本框中较小文本框高度与较大文本框高度的比值，得到该比值特征h_ratio；在计算差值特征时，计算两个初始文本框的左上角顶点中坐标较大x坐标p1.x和较小x坐标p2.x的差值，并将该差值除以文本框高度，归一化得到该差值特征distance_x。在计算距离特征时，如图2所示，图2为文本框外接矩形的示意图，计算两个初始文本框中，左上角顶点x坐标较大的初始文本框的垂线方程c，到x坐标较小的初始文本框的外接矩形边（即图2中左边外接矩形）b的垂足p3，p2为左边外接矩形边b的第二中点。计算p2和p3的距离，对该距离与初始文本框高度作归一化计算，得到该距离特征distance_y。若两个初始文本框的比值特征大于第一阈值（如0.5），差值特征大于第二阈值（如-0.5）且小于第一阈值，且距离特征小于第三阈值（如0.6），在该三个条件均满足时确定该两个初始文本框相邻。

在目标有向图中，在该相邻的初始文本框之间添加边，其中，该边为有向边；之后，根据该比值特征、差值特征和距离特征计算目标有向图中每条边的单位流量费用，通过最小的单位流量费用确定连线的同一行的初始文本框。具体地，基于目标有向图对最小的单位流量费用进行计算，在计算得到一个最小单位流量费用时，则将当前该最小的单位流量费用对应的节点从目标有向图中取出；之后，根据节点取出后的目标有向图再次计算最小的单位流量费用，直至目标有向图的节点数量为2，即只剩下初始节点和终止节点，停止计算，由此得到最终的连线的同一行的初始文本框。其中，每条边的单位流量费用计算公式如下所示：

weight=α×h_ratio+(1-α)×(distance_x+distance_y)/2

其中，weight为单位流量费用，α=0.3，h_ratio为比值特征，distance_x为差值特征，distance_y为距离特征。

本实施例通过构建目标有向图，并通过计算两两计算初始文本框之间的比值特征、差值特征和距离特征，计算得到目标有向图中每条边的单位流量费用，实现了对同行初始文本框的精确确定，避免了语序的混乱错误。

在本申请一些实施例中，上述计算所述初始文本框的文本框特征，包括：

在本实施例中，在得到初始文本框时，获取该初始文本框的文本轮廓点的最小外接矩形，分别计算该最小外接矩形的面积，和该文本轮廓点构成的外轮廓面积。而后，计算该外轮廓面积和该最小外接矩形的面积的比值，若该比值小于预设阈值，如0.6，确定初始文本框中的文本为弯曲程度较大的文本；若该比值大于或等于该预设阈值，确定初始文本框中的文本为弯曲程度较小的文本。根据弯曲程度确定初始文本框对应的文本框特征。

在初始文本框中的文本为弯曲程度较小的文本时，计算该初始文本框对应的最小外接矩形在竖直方向上两条边的中点，分别对应第一中点和第二中点；基于该第一中点计算经过第一中点的垂线方程，以及第二中点所在的矩形边的直线方程。将该最小外接矩形的框高、该最小外接矩形的第一中点、第二中点、垂线方程，以及直线方程作为该初始文本框的文本框特征。如图2所示，图2为文本框外接矩形的示意图，其中，h为左边外接矩形的框高，p1为左边外接矩形边a的第一中点，p2为左边外接矩形边b的第二中点，c为右边外接矩形的第二中点的垂线，p3为垂线c与左边外接矩形的相交点。

在初始文本框中的文本为弯曲程度较大的文本时，计算该初始文本框对应的最小外接矩形的矩形高度，按照该矩形高度从该最小外接矩形的水平方向，对该最小外接矩形进行N等分，得到水平方向两端1/N的文本轮廓点，根据该文本轮廓点计算得到该初始文本框对应的第二外接矩形。将该第二外接矩形的框高、第一中点、第二中点、垂线方程，以及直线方程作为该初始文本框的文本框特征。

本实施例通过计算初始文本框的文本框特征，实现了对文本框特征的精确计算，使得通过该文本框特征能够确定属于同一行的初始文本框，进而避免语序的混乱，提高图像文本识别的精确度。

在本申请一些实施例中，上述获取预设的文本识别模型，包括：

计算所述预测识别语句和所述标准识别语句的第一损失值和第二损失值；根据所述第一损失值和所述第二损失值对所述基础文本识别网络进行参数调整，直至调整后的基础文本识别网络对所述第二训练数据集计算得到的损失值达到预设的第二损失阈值，确定所述调整后的基础文本识别网络为所述文本识别模型。

在本实施例中，第二训练数据集为对基础文本识别网络进行训练的数据集。获取预设的语料库数据，对从语料库中获取的文本内容合成图像，对该合成图像添加透视、弯曲、阴影或边界等干扰信息，得到第一合成图像数据；获取目标检测图像，从该目标检测图像截取图像作为截取图像；分析该第一合成图像数据的分布，补充部分文本内容图像作为第二合成图像数据，由此，得到所有第二训练数据集，该第二训练数据集包括第一合成图像数据和第二合成图像数据组成的合成图像数据，以及截取图像。构建基础文本识别网络，该基础文本识别网络与文本识别模型结构相同，根据该基础文本识别网络对第二训练数据集进行计算，得到预测识别语句。计算该预测识别语句的第一损失值和第二损失值，其中，第一损失值为Focal-CTC Loss损失值，第二损失值为center loss损失值。根据该第一损失值和第二损失值计算得到预测总损失，通过该预测总损失对基础文本识别网络进行参数调整，直至调整后的基础文本识别网络对第二训练数据集计算得到的损失值达到预设的第二损失阈值，确定调整后的基础文本识别网络为文本识别模型。该预测总损失的计算公式如下所示：

L= L_(focal_ctc)+ α × L_center

其中，L_(focal_ctc)为第一损失值，L_center为第二损失值，α=0.25。

本实施例通过第二训练数据集对基础文本识别网络进行训练，并且通过Focal-CTC Loss对基础文本识别网络进行调整，避免了第二训练数据集分布不平衡的问题，通过center loss对基础文本识别网络进行调整，减少了相似字的误识别，最终使得通过训练得到的文本识别模型能够对文本图像中的文本进行精确识别，提高了文本识别的准确率。

在本申请一些实施例中，上述文本识别模型包括卷积层、循环层和转录层，所述基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句，包括：

在本实施例中，文本识别模型包括卷积层、循环层和转录层。其中，卷积层采用CNN（Convolutional Neural Network，卷积神经网络），其主干网络为Resnet50，通过该卷积层对输入的文本图像进行特征提取，计算得到特征图；循环层采用RNN（Recurrent NeuralNetwork，循环神经网络），通过BiLSTM（Bi-directional Long Short-Term Memory，双向长短期记忆网络）对输入的特征图进行预测，得到预测标签分布；转录层采用CTC（Connectionist temporal classification，联结时序分类），在该转录层中通过blank机制，将预测标签分布转换为最终的标签序列，即得到目标查询语句。

本实施例通过文本识别模型的卷积层、循环层和转录层，依次计算得到文本图像的目标查询语句，提高了图像文本识别的准确率和识别效率，减少了误识别，进一步提高了识别容错率。

为便于更好的实施本申请实施例提供的手指查句方法，本申请实施例还提供一种基于上述手指查句方法的装置。其中名词的含义与上述手指查句方法中相同，具体实现细节可以参考方法实施例中的说明。

例如，如图3所示，该手指查句装置可以包括：检测模块301、定位模块302、筛选模块303和识别模块304。其中，

检测模块301，用于获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像；

定位模块302，用于对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框；

在本申请一实施例中，上述定位模块302包括：

构建单元，用于获取第一训练数据集，并构建基础文本定位网络，根据所述基础文本定位网络对所述第一训练数据集进行计算，得到预测概率图、预测二值图、预测阈值图和预测连接概率；

第一计算单元，用于计算所述预测概率图、所述预测二值图、所述预测阈值图和所述预测连接概率的总损失值；

调整单元，用于根据所述总损失值对所述基础文本定位网络进行参数调整，第一训练单元，用于，直至调整后的基础文本定位网络对所述第一训练数据集计算得到的总损失值达到预设的第一损失阈值，确定所述调整后的基础文本定位网络为所述文本定位模型。

筛选模块303，用于计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

在本申请一实施例中，上述筛选模块303包括：

连线单元，用于根据所述文本框特征确定同一行的初始文本框，得到文本框连线结果；

第一筛选单元，用于获取预设筛选条件，根据所述预设筛选条件和所述指尖坐标对所述初始文本框进行筛选，得到指尖文本框；

第二筛选单元，用于根据所述文本框连线结果确定所有所述指尖文本框的所在行，将所述指尖文本框所在行的所有初始文本框作为第一备选文本框，根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框。

在本申请一实施例中，上述连线单元包括：

排序单元，用于将所有所述初始文本框作为节点添加至目标有向图中，并按照预设方向对所有所述初始文本框进行排序，遍历所有所述初始文本框，计算任意两个所述初始文本框之间的比值特征、差值特征和距离特征；

构建单元，用于根据所述比值特征、所述差值特征和所述距离特征，确定相邻的初始文本框，基于所述目标有向图在所述相邻的初始文本框之间添加边；

第二计算单元，用于根据所述比值特征、所述差值特征和所述距离特征，计算所述目标有向图中每条边的单位流量费用，通过最小的单位流量费用得到所述同一行的初始文本框。

在本申请一实施例中，上述筛选模块303还包括：

第三计算单元，用于获取所述初始文本框的文本轮廓点，根据所述文本轮廓点构建所述初始文本框的外轮廓，并计算所述初始文本框的最小外接矩形；

第一确认单元，用于根据所述外轮廓和所述最小外接矩形确定所述初始文本框的弯曲程度，在所述初始文本框的弯曲程度为小弯曲程度时，确定所述初始文本框的最小外接矩形的参数特征为所述初始文本框的文本框特征；

第二确认单元，用于在所述初始文本框的弯曲程度为大弯曲程度时，计算所述初始文本框的第二外接矩形，将所述第二外接矩形的参数特征作为所述初始文本框的文本框特征。

识别模块304，用于获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

在本申请一实施例中，上述识别模块304包括：

第四计算单元，用于获取第二训练数据集，并构建基础文本识别网络，根据所述基础文本识别网络对所述第二训练数据集进行计算，得到预测识别语句；

第五计算单元，用于计算所述预测识别语句对应的第一损失值和第二损失值；

第二训练单元，用于根据所述第一损失值和所述第二损失值对所述基础文本识别网络进行参数调整，直至调整后的基础文本识别网络对所述第二训练数据集计算得到的损失值达到预设的第二损失阈值，确定所述调整后的基础文本识别网络为所述文本识别模型。

在本申请一实施例中，上述识别模块304还包括：

提取单元，用于输入所述文本图像至所述卷积层，根据所述卷积层对所述文本图像进行特征提取，得到所述文本图像对应的特征图；

预测单元，用于通过所述循环层对所述特征图进行预测计算，得到预测标签分布；

转换单元，用于根据所述转录层对所述预测标签分布进行标签转换，得到所述目标查询语句。

本申请提出的手指查句装置，实现了在不同光照环境、成像系统和复杂背景下，均能对图片进行稳定而精确的手指查句，极大地提高了手指查句速度和准确率。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施方式以及对应的有益效果可参见前面的方法实施例，在此不再赘述。

本申请实施例还提供一种电子设备，该电子设备可以是服务器或终端等，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的计算机程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储计算机程序以及模块，处理器601通过运行存储在存储器602的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

电子设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的计算机程序，从而实现各种功能，比如：

以上各个操作的具体实施方式以及对应的有益效果可参见上文对手指查句方法的详细描述，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种手指查句方法中的步骤。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施方式以及对应的有益效果可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种手指查句方法中的步骤，因此，可以实现本申请实施例所提供的任一种手指查句方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述手指查句方法。

以上对本申请实施例所提供的一种手指查句方法、装置、电子设备及计算机存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手指查句方法，其特征在于，包括：

计算所述初始文本框的文本框特征，所述文本框特征包括所述初始文本框的框高、第一中点、第二中点、垂线方程，以及直线方程，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句；

所述计算所述初始文本框的文本框特征，包括：在所述初始文本框的弯曲程度为大弯曲程度时，计算所述初始文本框的第二外接矩形，将所述第二外接矩形的参数特征作为所述初始文本框的文本框特征；

所述根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，包括：

根据所述文本框连线结果确定所有所述指尖文本框的所在行，将所述指尖文本框所在行的所有初始文本框作为第一备选文本框，根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框；

所述根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框，包括：计算每行所述第一备选文本框的起始位置到同行的指尖文本框起始位置的距离的绝对值，确定所述绝对值小于第一预设高度范围内的第一备选文本框为第二备选文本框；计算上下两行的首个第一备选文本框的距离，确定所述距离大于第二预设高度范围的首个第一备选文本框为待选文本框；从所述第二备选文本框中删除所述待选文本框所在行的所有文本框，以及所述待选文本框之前或之后行的所有第二备选文本框，得到所述候选文本框。

2.根据权利要求1所述的手指查句方法，其特征在于，所述获取预设的文本定位模型，包括：

计算所述预测概率图、所述预测二值图、所述预测阈值图和所述预测连接概率的总损失值；根据所述总损失值对所述基础文本定位网络进行参数调整，直至调整后的基础文本定位网络对所述第一训练数据集计算得到的总损失值达到预设的第一损失阈值，确定所述调整后的基础文本定位网络为所述文本定位模型。

3.根据权利要求1所述的手指查句方法，其特征在于，所述根据所述文本框特征确定同一行的初始文本框，包括：

4.根据权利要求1所述的手指查句方法，其特征在于，所述计算所述初始文本框的文本框特征，包括：

根据所述外轮廓和所述最小外接矩形确定所述初始文本框的弯曲程度，在所述初始文本框的弯曲程度为小弯曲程度时，确定所述初始文本框的最小外接矩形的参数特征为所述初始文本框的文本框特征。

5.根据权利要求1所述的手指查句方法，其特征在于，所述获取预设的文本识别模型，包括：

计算所述预测识别语句对应的第一损失值和第二损失值；

6.根据权利要求5所述的手指查句方法，其特征在于，所述文本识别模型包括卷积层、循环层和转录层，所述基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句，包括：

7.一种手指查句装置，其特征在于，包括：

筛选模块，用于计算所述初始文本框的文本框特征，所述文本框特征包括所述初始文本框的框高、第一中点、第二中点、垂线方程，以及直线方程，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

识别模块，用于获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句；

所述筛选模块包括：

第二筛选单元，用于根据所述文本框连线结果确定所有所述指尖文本框的所在行，将所述指尖文本框所在行的所有初始文本框作为第一备选文本框，根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框；

所述第二筛选单元，还用于计算每行所述第一备选文本框的起始位置到同行的指尖文本框起始位置的距离的绝对值，确定所述绝对值小于第一预设高度范围内的第一备选文本框为第二备选文本框；计算上下两行的首个第一备选文本框的距离，确定所述距离大于第二预设高度范围的首个第一备选文本框为待选文本框；从所述第二备选文本框中删除所述待选文本框所在行的所有文本框，以及所述待选文本框之前或之后行的所有第二备选文本框，得到所述候选文本框；

所述筛选模块，还包括：第二确认单元，用于在所述初始文本框的弯曲程度为大弯曲程度时，计算所述初始文本框的第二外接矩形，将所述第二外接矩形的参数特征作为所述初始文本框的文本框特征。

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至6任一项所述的手指查句方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1至6任一项所述的手指查句方法。