CN118015627A

CN118015627A - 文本定位方法、装置、设备及存储介质

Info

Publication number: CN118015627A
Application number: CN202311805366.1A
Authority: CN
Inventors: 谢迅; 胡立天
Original assignee: Meta Bounds Inc
Current assignee: Meta Bounds Inc
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-05-10

Abstract

本发明公开了一种文本定位方法、装置、设备及存储介质，通过检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。本实施例提供的定位方法及设备，不需要限定拍摄待识别文本图像的摄像头固定位置和角度，也不需要限定待识别文本在拍摄时需要完全水平放置，基于手指指尖的位置实现对待识别文本的准确定位，因此易于实现，应用场景广泛。

Description

文本定位方法、装置、设备及存储介质

技术领域

本发明涉及信息识别技术领域，尤其涉及的是一种文本定位方法、装置、设备及存储介质。

背景技术

在日常的生活和工作中，常常需要对文本进行识别和提取，例如：需要对文本页面中某一部分内容进行翻译时，或者需要对文本页面中某一部分内容复制时，均需要识别出该部分文本内容，并对识别出的该部分文本内容进行提取。在相关技术中，通过摄像头拍摄需要识别的文本，再对拍摄的文本图像进行裁剪，进而得到需要进行文字识别的区域图像，但由于在拍摄所需识别的文本时，摄像头的位置和拍摄角度固定，且需要待识别的文本水平放置，否则拍摄到的文本图像的文本是倾斜的，导致无法准确的定位出需要识别的文本内容。

发明内容

本发明的目的在于提供一种文本定位方法、装置、设备及存储介质，克服在拍摄含有待识别文本内容的文本图像时，需要满足摄像头和拍摄角度固定，且待识别文本需要完全水平放置，否则无法准确定位出需要识别的文本内容的缺陷。

本发明解决技术问题所采用的技术方案如下：

第一方面，本实施例公开了一种文本定位方法，其中，所述方法包括：

检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；

识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；

根据所述第一文本框和所述指尖位置确定目标文本框；

筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。

可选地，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；所述检测手指指尖在文本上的指尖位置，基于所述指尖位置确定待识别文本的区域图像的步骤，包括：

获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置；

计算所述第一指尖位置和第二指尖位置之间连接线的中点和所述连接线的长度值；

以所述连接线中点为截取图像中心，以连接线的长度值为截取图像的长和宽，从所述拍摄图像中截取图像，将截取得到的图像确定为待识别文本的区域图像。

可选地，所述获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置的步骤包括：

拍摄手指指尖位于文本页面上的拍摄图像；

从所述拍摄图像中定位出手部所在位置的手部区域框；

从所述拍摄图像中裁剪出所述手部区域框，得到手部图像；

对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置。

可选地，对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置的步骤之后，还包括：

检测摄像头的视轴是否发生变化；

当检测到摄像头的视轴发生变化时，则获取视轴发生变化后的更新图像；

分别提取所述手部图像和更新图像中的关键点和特征描述子；

利用所述关键点和特征描述子对所述手部图像和更新图像进行匹配，得到所述手部图像与更新图像之间的变换矩阵；

利用所述变换矩阵计算得到所述更新图像中的第一指尖位置，以所述更新图像中的第一指尖位置为更新后的第一指尖位置。

可选地，所述识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框的步骤包括：

将所述区域图像输入至已训练完成的文本检测模型，得到所述文本检测模型输出的所述区域图像中每行文本行对应的第二文本框；

根据每行文本行对应的第二文本框之间的几何位置关系，识别出各个文本行所在段落，进而得到各个段落对应的段落文本框；

从各个段落对应的段落文本框中筛选出面积最大的第一文本框。

可选地，所述指尖位置包括分别位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

所述从各个段落对应的段落文本框中筛选出面积最大的第一文本框的步骤包括：

获取与所述第一指尖位置和第二指尖位置指尖的连接线相交的段落；

从相交的段落对应的段落文本框中筛选出面积最大的第一文本框。

可选地，所述根据所述第一文本框和所述指尖位置确定目标文本框的步骤包括：

获取所述第一文本框的长边方向；

根据所述第一文本框的长边方向及所述指尖位置确定目标文本框。

可选地，所述筛选出段落中心点位于所述目标文本框内的一个或多个段落的步骤包括:

获取目标文本框内各个段落对应段落文本框的四个角坐标；

根据各个段落对应段落文本框的四个角坐标依次计算每个段落对应段落文本框的段落中心点；

根据各个段落对应文本框的依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内；

依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内，得到段落中心点位于目标文本框内的一个或多个段落。

第二方面，本实施例公开了一种文本定位装置，其中，包括：

区域图像确定模块，用于检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；

文本框识别模块，用于识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；

目标文本框识别模块，用于根据所述第一文本框和所述指尖位置确定目标文本框；

文本区域确定模块，用于将段落中心点位于所述目标文本框内的各个段落确定为待识别文本所在的段落，定位得到所述待识别文本。

第三方面，本实施例还提供了一种智能设备，其中，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的文本定位程序，所述处理器执行所述文本定位程序时，实现所述的文本定位方法的步骤。

第四方面，本实施例还公开了一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现所述的文本定位中的步骤。

有益效果:

本实施例公开了一种文本定位方法、装置、设备及存储介质，通过检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定待识别文本的区域图像；识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；根据第一文本框确定出目标文本框，筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。在本申请实施例中，不需要限定拍摄待识别文本图像的摄像头固定位置和角度，也不需要限定待识别文本在拍摄时需要完全水平放置，基于手指指尖的位置即可实现对待识别文本的准确定位，因此易于实现，应用场景广泛。

附图说明

图1为本实施例所提供的文本定位方法步骤流程图；

图2为本实施例所提供的利用手指进行定位的示意图；

图3为本实施例所提供的在文本图像中截取出的区域图像的示意图；

图4为本实施例所提供的区域图像中合并成段落的示意图；

图5为本实施所提供的筛选出区域图像中面积最大文本框的示意图；

图6为本实施所提供的定位得到待识别文本区域的示意图

图7为本实施所提供的定位得到待识别文本区域的实例图；

图8为本实施例所提供的所述文本定位装置的原理结构框图；

图9为本发明实施例中智能设备的原理结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

在日常工作和生活中常会遇到利用智能设备对文本中的信息进行识别和提取，以获取到纸质文件中的字符。

目前使用到的识别或者提取纸质文件中字符的方法一般为OCR(Opticalcharacter recognition)文字识别方法，OCR文字识别是指利用扫描仪或数码相机扫描或拍摄纸质文件，获取到待提取文字的图像，将图像进行二值化、噪声去除和倾斜校正等处理后，进行字符切割，再进行字符识别，从而定位得到待识别文字所在的区域。

当使用数码相机拍摄纸质文件时，需要固定好数码相机摄像头的拍摄位置和拍摄角度，以及将纸质文件放平整，进而识别出需要进行文字识别的区域，但是若摄像头移动或者拍摄角度未正对纸质文件，或者纸质文件与摄像头之间倾斜，则无法准确的识别得到纸质文件中含有的字符。若待识别和提取的字符信息为纸质文件页面上的部分内容时，则准确定位出待识别和提取的文本内容的难度增大。

为了克服上述技术问题，本实施例提供了一种文本定位方法，通过获取手指的指尖在文本页面上的指尖位置，进而根据指尖位置得到含有待识别文本的区域图像，根据指尖位置对区域图像中的文本行进行分析，得到段落对应的段落文本框，进而确定出面积最大的段落文本框，最后将中心点位于该面积最大段落文本框内的所有段落确定为待识别文本，实现对待识别文本的定位。本实施例所提供的方法首先基于对指尖位置的准确定位，再根据指尖位置对文本文件中指尖位置之间出现的各个文本行和段落进行分析，能够实现对指尖位置之间文字行的准确分析和定位，提高了定位的准确度，进而降低了对摄像头拍摄位置和拍摄角度，及对纸质文本放置角度的要求，为更便利的定位出待识别文本提供了保障。

下面结合附图对本实施例提供的方法、装置及设备做进一步更为详细的说明。

如图1所示，为本实施例提供的一种文本定位方法，所述方法包括：

步骤S1、检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定待识别文本的区域图像。

当需要定位出待识别文本时，用户首先将手指的指尖放置在待识别文本的两侧，进而实现对待识别文本的锁定。

在具体实施时，若设置利用智能设备上安装的摄像头自动检测，则当摄像头检测到双手的指尖放置在待识别文本两侧时，拍摄手指指尖在文本页面上的拍摄图像，并对拍摄图像中的两个指尖位置进行识别，分别得到第一指尖位置和第二指尖位置。摄像头也可以分两次分别获取两个指尖分别文本页面内容左上点和右下点的两张拍摄图像，进而实现对第一指尖位置和第二指尖位置的识别。

另外，当智能设备为便携式设备时，例如使用手机拍摄时，则可能实现的方式，可以为在其他人辅助的情况下，拍摄出两只手的手指指尖放置在文本上的拍摄图像，也可以是通过先后拍摄两张图像，第一张拍摄图像中含有位于文本页面内容左上点的第一指尖位置，第二张拍摄图像中含有位于文本页面内容右下点的第二指尖位置。

结合图2所示，左手的指尖放置在待识别文本的左上点，右手的指尖放置在待识别文本的右下点，则处于该左上点和右下点之间的段落文本属于待识别的文本。

在具体实施时，如图2中所示，可以使用两只手实现对待识别文本的锁定，若使用一只手实现对待识别文本的锁定，则需要分两次分别识别左上点的指尖位置和右下点的指尖位置，具体的，先识别手指的指尖位于左上点的位置，接下来再在预设时间内识别出手指的指尖在右下点的位置，进而实现使用一只手对待识别文本的锁定。

进一步的，识别手指的指尖位置，可以通过摄像头拍摄得到图像实现，为了获取到更为准确的指尖位置，也可以通过摄像头拍摄手指的指尖放置在文本页面上的视频，通过对视频中的每一帧画面进行分析实现。

详细的，若识别手指的指尖位置，通过对摄像头拍摄得到的图像实现，则需要先获取到摄像头拍摄得到的含有如图2所示手指的拍摄图像，进而对拍摄图像进行分析，得到指尖位置。其步骤包括：

步骤S11、获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置。

获取拍摄图像的方法可以为利用智能设备的摄像头拍摄得到拍摄图像，或者当智能设备未安装有摄像头时，从其他智能设备获取含有手指的指尖锁定待识别文本的拍摄图像。智能设备可以为安装有摄像头的便携式设备或者近眼显示设备，例如：手机、平板、笔记本、AR眼镜或者XR头盔等。

当获取到拍摄图像后，则从拍摄图像中识别出其中的手指指尖所在的第一指尖位置和第二指尖位置，结合图2所示，也即是图中P1和P2的位置。

进一步的，本步骤中获取拍摄图像，并识别出拍摄图像中第一指尖位置和第二指尖位置的步骤包括：

拍摄手指指尖位于文本页面上的拍摄图像，从所述拍摄图像中提取出含有手指位置信息的手部区域框。

利用摄像头拍摄拍摄图像，或者接收其他智能设备传输的拍摄图像。对该拍摄图像进行信息提取，得到其中含有手指位置的手部区域框。该手部区域框为将识别出的手部位置用一个方形框标识出来的图形。

具体的，该手部区域框从该拍摄图像中提取得到含有手指位置信息，根据所述手部区域框，从所述拍摄图像中裁剪出所手部图像。

对所述手部图像进行关键点检测，得到检测出的指尖位置。

将裁剪得到的手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置。具体的，对手部图像进行关键点检测的方法可以利用基于目标检测的关键点检测算法实现，也可以利用已训练完成的关键点检测模型实现。常用的关键点检测算法有：角点检测。而基于关键点检测模型为利用手部关键点特征将含有手部特征标注的图像输入至已训练完成的手部关键点检测模型，该手部关键点检测模型中包含有卷积网络和全连接层，输入的手部图像经过卷积网络和全连接层的处理，输出手部关键点的坐标。

在一种实施方式中，可以采用已经训练完成的手部检测模型实现对拍摄图像中手部位置的检测。

具体的，该手部检测模型为利用样本集对预设网络模型进行训练得到的。该样本集包括正样本集和负样本集。正样本集中包含的样本图片为采集到的手指的指尖放置在纸质文本页面上的图像，且该图像上标注有指尖的手部所在位置区域框。负样本集中包含的样本图片中不含有手的图像，因此未标注有手部所在的位置区域框。将样本集中的样本图片输入至预设网络模型，对预设网络模型进行训练，进而得到训练完成的手部检测模型。

当获取到含有待识别文本对应的拍摄图像时，则将拍摄图像输入至训练得到的手部检测模型，得到手部检测模型输出的含有手部位置信息的手部区域框。

进一步的，当获取到的是通过摄像头拍摄手指的指尖放置在纸质文本页面上的视频时，记录视频中每一帧图像中指尖位置的坐标，那么在连续的预设帧图像中，判断指尖位置的横坐标和纵坐标变化范围是否超出预设像素阈值，若未超出，则判断视频中指尖位置的保持不动了，则将当前视频帧中保持不动的指尖位置作为检测得到的指尖位置。例如：假如视频流每秒包含30帧图像，若在连续的60帧图像中，指尖位置的横坐标和纵坐标变化范围不超过20个像素，就被认为是稳定不动了2s，则将当前稳定不动的左上点的手指指尖坐标和右下点的手指指尖坐标判定为检测得到的指尖位置的坐标。

若手部锁定待识别文本的操作是通过一只手完成的，则需要先判定出其中一个指尖位置的坐标，在接下来的预设时间内(可能是几秒内)判定出另一个指尖位置的坐标，从而实现对两个指尖位置对应坐标的判定。具体的，当该手的手指指尖稳定在文本页面内容的左上点时，拍摄手指指尖稳定时的拍摄图像，将拍摄图像输入至手部检测模型，以得到手部检测模型输出的手部位于左上点时的手部区域框，在接下来的时间内，当检测到手的手指指尖稳定在文本页面内容右下点时，拍摄当前图像，将当前手指指尖在右下点的图像输入至手部检测模型，得到手部检测模型输出的手指位置处于右下点的手部区域框，从而获取到分别位于左上点和右下点的手部区域框位置坐标。进而再分别根据左上点对应的手部区域框和右下点对应的手部区域框，裁剪得到左右两边的手部区域框，从图像中裁剪得到左右两边对应的手部图像，再分别将手部图像分别进行关键点检测，得到检测出的左上点和右下点的指尖位置。

本步骤中首先得到拍摄图像，再从拍摄图像中的定位出手部所在位置，裁剪得到手部所在位置的手部图像，利用手部检测模型对手部图像中的指尖位置进行检测，从而得到准确的指尖位置。本实施例中由于逐步定位得到指尖位置，因此检测到的指尖位置更为准确。

当智能设备为智能穿戴设备时，例如：AR眼镜，使用者的位置发生变化或穿戴角度发生变化，会引起摄像头的视轴发生改变，或者虽然智能设备的摄像头为固定设置，但是可能会由于外在的原因导致智能设备上摄像头的位置发生变化，则摄像头的视轴也会发生变化。随着摄像头视轴的改变，位于左上点的第一指尖位置发生变化，为了实现获取到更准确的第一指尖位置，本步骤中需要对第一指尖位置进行校正，因此本步骤还包括：

步骤S111、检测摄像头的视轴是否发生变化；当检测到摄像头的视轴发生变化时，则获取视轴发生变化后的更新图像。

由于当摄像头的视轴发生变化时，视轴发生变化先后拍摄到拍摄图像会有差异，因此可以根据拍摄到拍摄图像画面是否有差异判断出摄像头的视轴是否发生变化。

具体的，摄像头每隔预设时间获取拍摄图像，并计算连续获取到的两个拍摄图像之间的像素差，根据像素差是否大于预设像素差值判定出两个拍摄图像之间是否有差异。当判定出两个拍摄图像之间有差异时，则判定出摄像头的视轴发生了变化。因此在具体使用时，摄像头在获取到当前的拍摄图像后，在接下来的预设时间以后再次获取拍摄图像，并将两次获取的拍摄图像进行像素差的计算，若像素差超过预设像素差值，则判定出摄像头的视轴发生变化。

例如：当拍摄到当前手指指尖位于文本页面上的第一拍摄图像后，若预设时间为3秒，则在3秒时间以后拍摄得到第二拍摄图像，当第一拍摄图像和第二拍摄图像之间的像素差超过预设像素差值，则说明第一拍摄图像和第二拍摄图像之间存在差异，则判断出摄像头的视轴发生了变化。

在具体实施时，当摄像机是固定不动时，由于外界原因导致摄像头的视轴发生变化的情况较小，则可以设置不对摄像头的视轴发生变化进行检测，不对第一指尖位置进行校正，仅当检测到智能设备自身的位置发生了变化或者摄像头的摄像参数发生了变化之后，才触发对第一指尖位置的校正。例如：当智能设备为固定在墙壁上的电脑，该电脑上自带摄像头的位置是固定的，其视轴一般不会发生变化，因此不需要对第一指尖位置进行校正。仅当摄像机不固定时，才需要检测视轴是否发生变化。当智能设备为手机或平板时，虽然这些便携式智能设备的摄像头可以移动，但是在使用时不其位置并非是实时在动的，因此可以当检测到视轴发生变化再对第一指尖位置进行校正。另外，当智能设备为穿戴式智能设备时，还可以设置不对视轴是否发生变化进行检测，设置当用户在使用过程中，每隔预设时间自动获取更新图像，对第一指尖位置进行更新，因为穿戴式智能设备在使用过程中，设备上的摄像头的位置是实时发生变化的，因此在使用过程中，可以直接设置每隔预设时间对第一指尖位置进行更新，而不必检测视轴是否发生变化。

由于摄像头的视轴发生变化会导致第一指尖位置的位置产生偏差，因此需要拍摄视轴发生变化后的更新图像，根据更新图像对第一指尖位置进行校正。

步骤S112、分别提取所述手部图像和更新图像中的关键点和特征描述子；利用所述关键点和特征描述子对所述手部图像和更新图像进行匹配，得到所述手部图像与更新图像之间的变换矩阵。

提取手部图像和更新图像的关键点和特征描述子，进行特征匹配，找到手部图像和更新图像之间的变换矩阵。

进一步的，还可以获取手部图像中第一指尖位置的坐标，以该坐标为中心裁剪出一个大小为n*n的区域作为第一图像，其中，n的取值可以为：文本页面长度或宽度的1/4至1之间。当画面发生移动，拍摄获取更新后的图像，并根据更新图像中第一指尖位置在当前帧裁剪出一个大小为n*n的区域作为第二图像。通过分别提取第一图像和第二图像中的关键点和特征描述子，利用关键点和特征描述子对第一图像和第二图像进行匹配，以得到所述第一图像与第二图像之间的变换矩阵，以简化计算变换矩阵的过程。

具体的，利用关键点和特征描述子对第一图像和第二图像进行匹配实质上是利用关键点和特征描述子计算各个关键点之间的距离，在第一图像中选取一个关键点，然后依次计算选取的关键点与第二图像中各个关键点之间的距离值(也即是计算选取的关键点对应的特征描述子与第二图像中各个关键点对应的特征描述子之间距离值的计算，特征描述子不但包括关键点还包括关键点周围对其有贡献的像素点，相匹配的关键点具有相似的特征描述子)，返回距离值最小的点，将第二图像中距离值最小的关键点作为匹配出的关键点，进而得到第一图像中各个关键点对应到第二图像中各个关键点之间的匹配关系。常用的距离计算方法包括：欧式距离、汉明距离、余弦距离等。而基于第一图像和第二图像之间关键点的匹配关系得到变换矩阵。

具体的，关键点是指特征点在图像中位置，具有方向和尺度等信息，特征点为图像中所在位置比较特殊的点，比如说角点或边缘上的某一个点，描述子通常是一个向量，描述关键点邻域的像素信息。分别在手部图像和更新后的图像中选定出多个关键点，并根据选定的关键点计算特征描述子，该特征描述子可以为二进制的描述子，例如：当其他的两个点距离某一个关键点的远近，若远，则取1，否则取0。当分别获取到手部图像和更新图像中的关键点和特征描述子后，对关键点和特征描述子进行匹配，计算手部图像和更新图像之间的位置关系，得到手部图像和更新图像之间的变换矩阵。

步骤S113、利用所述变换矩阵计算得到所述更新图像中的第一指尖位置，以所述更新图像中的第一指尖位置作为更新得到的第一指尖位置。

根据计算得到的变换矩阵，将手部图像中位于左上点的第一指尖位置通过求得的变换矩阵进行透视变换，得到其在更新图像上的位置坐标，也就得到了校正后的左上点的第一指尖位置对应的位置坐标。

步骤S12、计算所述第一指尖位置和第二指尖位置之间连接线的中点所在位置，以及第一指尖位置和第二指尖位置之间连接线的长度值。

在上述步骤S11中检测得到第一指尖位置和第二指尖位置后，根据定位出的位置坐标，计算两个坐标点之间的连接线的中点和这两个坐标点之间连接线的长度值。具体的，可以根据定位出的坐标值计算直接计算得到连接线的中点坐标和连接线的长度值。

步骤S13、以所述连接线中点为中心点，以连接线的长度值为长和宽，从所述拍摄图像中截取图像，将截取得到的图像确定为待识别文本的区域图像。

以连接线的中点为中心点，以连接线的长度值为截取区域图像的长和宽，从拍摄图像中确定出待识别文本所在区域的区域图像。

步骤S2、识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框。

当上述步骤S1中确定出待识别文本所在区域的区域图像时，则对该区域图像进行分析，得到该区域图像内每个文本行对应的文本框，进而对相邻的两个文本行对应的文本框之间的位置关系进行计算，判定出相邻两个文本行是否属于同一个段落，具体的，可以通过判断两个相邻文本行之间是否存在空行，若两个相邻文本行之间存在空行，则属于不同段落，若两个相邻文本行之间不存在空行，则属于相同段落。若属于同一个段落，则划分到同一个段落中，否则将该文本行划分到另一个段落中，通过多各个相邻的文本行对应的文本框之间的距离进行判断，将每个文本行划分并合并到多个段落中，得到多个段落，再对段落的面积进行判断，从中筛选得到面积最大的段落对应的段落文本框。

具体的，识别出面积最大的第一文本框的步骤包括：

步骤S21、将所述区域图像输入至已训练完成的文本检测模型，得到所述文本检测模型输出的所述区域图像中每行文本行对应的第二文本框。

利用已训练完成的文本检测模型识别出区域图像中每个文本行。具体的，文本行为单行文本对应的文本框，其包含一行文字或者字符，用户通常通过对每个文本行进行编辑以实现对整个文件页面内容的编辑。

具体的，本步骤中的文本检测模型，可以用开源的文本检测模型实现，也可以调用OCR识别的API接口实现。

步骤S22、根据每行文本行对应的第二文本框之间的几何位置关系，识别出各个文本行所在段落，进而得到各个段落对应的段落文本框。

当识别出区域图像中各个文本行所对应的第二文本框时，则分别获取各个第二文本框之间的几何位置关系(几何位置关系包括：距离关系、方位关系、重合度及左右是否对齐等)，根据识别得到的几何位置关系将各个文本行进行合并，得到合并得到的段落，进而得到各个段落对应的段落文本框。

具体的，文本行的文本框由位于四个角上的四个点构成，首先获取各个文本行四个角上的点的位置坐标，根据四个角的位置坐标，分别计算相邻文本行的对应第二文本框之间的距离、方位关系、重合度、左右是否对齐等指标，然后根据上述计算结果判断相邻的两个文本行的文本框之间的位置关系，如果满足属于同一个段落的位置关系，则将该两个文本行合并到同一个段落。否则，将相邻的两个文本行划分到两个不同的段落中。

步骤S23、从各个段落对应的段落文本框中筛选出面积最大的第一文本框。

获取各个段落对应的段落文本框的四个角的位置坐标，根据四个角的位置坐标，计算出各个段落对应段落文本框的面积，进而从中筛选出面积最大的第一文本框。

为了实现更准确的从待识别文本中的各个段落对应的段落文本框中筛选出面积大的第一文本框，还可以利用定位出的指尖位置的坐标，建立两个指尖位置之间的连接线，将与该连接线相交的段落中筛选出面积最大的第一文本框。

具体的，指尖位置包括分别位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置，则本步骤还包括：获取与所述第一指尖位置和第二指尖位置指尖的连接线相交的段落，从相交的段落中筛选出面积最大的第一文本框。

步骤S3、根据所述第一文本框和所述指尖位置确定目标文本框。

具体的，为了实现更准确的定位到待识别文本所在的区域，本步骤包括：

获取所述第一文本框的长边方向；根据所述第一文本框的长边方向及所述指尖位置确定目标文本框。

当确定出其中面积最大的第一文本框后，根据两个指尖点P1、P2，以及这个面积最大的第一文本框的长边的方向，得到一个大的目标文本框，也就是图6所示的P1EP2F和如图7所示的蓝色box。由于已经计算得到两个指尖位置的位置(P1和P2)，第一文本框中长边的方向，因此根据长边所在的方向和两个指尖位置，便可以确定出目标文本框对应的矩形区域。

本实施例中，确定出目标文本框为文本页面上两个指尖之间锁定的区域对应的文本框，从而可以定位得到待识别文本。由于本实施例中选择基于段落文本框中面积最大的第一文本框的长边方向，作为目标文本框的一个边的方向，不仅仅降低了直接对待识别文件所在区域进行定位的精确度要求，而且更便于实现。

步骤S4、筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。

当上述步骤中得到多个段落对应的段落文本框后，依次获取各个段落对应段落文本框的段落中心点，逐个判断各个的段落对应的段落文本框的段落中心点是否位于上述确定出的目标文本框内，若段落中心点位于目标文本框内，则判定该段落对应的文本内容属于待识别文本，若段落中心点不位于目标文本框内，则判定该段落对应的文本内容不属于待识别文本，将判定出的对应的文本内容属于待识别文本的全部段落合并在一起，组成本实施例所要定位得到的待识别文本所在的区域。

步骤S41、目标文本框内每个段落对应段落文本框四个角的坐标，再根据四个角的坐标分别计算得到各个段落文本框的段落中心点。

当步骤S2中获取到各个段落对应的段落文本框时，分别获取目标文本框内各个段落对应段落文本框四个角的坐标，根据获取到的各个段落对应段落文本框四个角的坐标，依次计算得到各个段落对应段落文本框的段落中心点。

步骤S42、依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内，得到段落中心点位于目标文本框内的一个或多个段落。

根据各个段落对应段落文本框的四个角的坐标，依次判断各个段落的段落文本框的中心点是否位于目标文本框内。

具体的，结合图6和图7所示，若某一个段落对应文本框的中心点K位于目标文本框P1EP2F的内部，则该段落为待识别文本所对应的段落。具体的，以目标文本框的四个角点的排列顺序为：P1EP2F按照顺时针方向排列，则分别计算各个段落的中心点与P1EP2F四个角点之间连线与其相连接文本框侧边的向量积，并依次判断各个向量积是否大于0，若各个向量积均大于0，则说明该中心点位于目标文本框的内部。

具体的，中心点与四个角点之间连线与其相连接段落文本框侧边的向量积可以表示为：

cross_product(P1B,P1K)、cross_product(EC,EK)、cross_product(P2D,P2K)、cross_product(FA,FK)，若上述四个向量积均大于0，则该段落对应的段落文本框的中心点位于目标文本框内部。

将段落中心点位于目标文本框内的全部段落均判定为待识别文本所在的段落，将全部段落合并在一起，得到本实施例中所要定位得到的待识别文本所在区域。

本实施例公开了上述文本定位方法，通过先定位出指尖位置，裁剪得到拍摄图像，进而对拍摄图像中含有的各个文本行进行识别，确定出各个文本行所属的段落，对各个段落的面积进行分析，从中选择中面积最大的段落文本框，再基于面积最大的第一文本框和指尖位置，确定出目标文本框。将中心点位于目标文本框内的各个段落，锁定为本实施例中基于手指的指尖锁定的需要识别的文本内容。本实施例所提供的方法通过对获取到的拍摄图像中含有的手指指尖位置信息、文本行的位置信息和段落的大小信息进行逐步分析，提高了对待识别文本进行定位的准确性，降低了对拍摄图像角度的要求，为顺利实现字符的识别提供了保障。

下面以本方法具体应用实施例，结合图2至图7，对本实施例方法做进一步更为详细的说明。

步骤H1，使用一只手或两只手对纸质文本页面上待识别文本进行锁定，结合图2所示。

步骤H2、使用智能设备的摄像头拍摄手部锁定待识别文本的图像，并将拍摄得到的拍摄图像传输到智能设备中的文本定位系统中，该定位系统可以通过应用程序的形式执行相应的功能，也可以是小程序等形式。

步骤H3、定位系统中保存的手部检测模型，接收输入的拍摄图像，输出对拍摄图像中的手部位置进行检测后得到的手部区域框，从所述拍摄图像中裁剪出所手部区域框，得到手部图像，再对手部图像进行关键点检测，从而得到指尖位置P1和P2。

步骤H4、定位系统进一步的对位于指尖位置之间的区域进行识别，计算两个指尖位置之间的中点，以及计算两个指尖位置连接线的长度L，截取一个高和宽均为L的区域图像，如图3所示。

步骤H5，将区域图像输入到已训练完成的文本检测模型，得到区域图像中各文本行的文本框，通过后处理方法将文本行合并后得到段落的文本框。如图4所示。

步骤H6、通过判断找出与左上指尖位置P1和右下指尖位置P2的连线相交的段落文本框。对于段落对应文本框的四条边，若四条线段中存在线段与P1P2相交，则P1P2和该文本框相交，如图5所示。

具体判断方法为：若线段AB与线段CD相交，则向量积满足：

cross_product(AC,AD)*cross_product(BC,BD)<＝0；

且cross_product(CA,CB)*cross_product(DA,DB)<＝0

步骤H7、从与P1P2相交的段落对应的段落文本框中挑选出面积最大的第一文本框box_max，记录最大面积的文本框box_max的长边的方向，根据P1、P2以及最大文本框box_max的长边的方向得到一个大的box target，可以得到，box_target和box_max的方向是一致的，如图6所示。

步骤H8、通过判断，找到中心点在box_max内的所有段落，即为通过手指指尖确定的需要识别的文本段(上图中白色box)。判断方法为：若点K在矩形ABCD内部，且ABCD按照顺时针方向排列，则向量积cross_product(AB,AK)、cross_product(BC,BK)、cross_product(CD,CK)、cross_product(DA,DK)都大于0。

本实施例提供的定位方法用双手手指指尖来确定识别的文字区域，只需要将左手手指指尖放在待识别文本的文本行的左上点，右手手指指尖放在待识别文本的文本行的右下点，即可确定需要识别的文字区域。不论文本行在图像中排列是什么方向，都可以精准框选出需要识别的文字区域。

本实施例公开了一种文本定位装置，如图8所示，包括：

区域图像确定模块710，用于检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；其功能如步骤S1所述。

文本框识别模块720，用于识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；其功能如步骤S2所述。

目标文本框识别模块730，用于根据所述第一文本框和所述指尖位置确定目标文本框；其功能如步骤S3所述。

文本区域确定模块740，用于将段落中心点位于所述目标文本框内的各个段落确定为待识别文本所在的段落，定位得到所述待识别文本，其功能如步骤S4所述。

进一步的，所述指尖位置包括至少一个位于文本页面内容左上点的第一指尖位置和至少一个位于文本页面内容右下点的第二指尖位置；所述区域图像确定模块，包括：指尖位置识别单元、长度计算单元和区域图像确定单元；

所述指尖位置识别单元，用于获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置；

长度计算单元，用于计算所述第一指尖位置和第二指尖位置之间连接线中点和所述连接线的长度值；

区域图像确定单元，用于以所述连接线中点为截取图像中心点，以连接线的长度值为截取图像的长和宽，从所述拍摄图像中截取图像，将截取得到的图像确定为待识别文本的区域图像。

可选地，所述指尖位置识别单元包括：拍摄子单元、特征提取子单元、裁剪子单元和检测位置子单元。

拍摄子单元，用于拍摄手指指尖位于文本页面上的拍摄图像；

特征提取子单元，用于从所述拍摄图像中定位出手部所在位置的手部区域框；

裁剪子单元，用于从所述拍摄图像中裁剪出所手部区域框，得到手部图像；

检测位置子单元，用于对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置。

进一步的，所述指尖位置识别单元，还包括：校正子单元；

所述校正子单元，用于检测摄像头的视轴是否发生变化；当检测到摄像头的视轴发生变化时，则获取视轴发生变化后的更新图像；分别提取所述手部图像和更新图像中的关键点和特征描述子；利用所述关键点和特征描述子对所述手部图像和更新图像进行匹配，得到所述手部图像与更新图像之间的变换矩阵；

进一步的，所述文本框识别模块包括：文本行检测单元、段落合并单元和筛选单元；

所述文本行检测单元，用于将所述区域图像输入至已训练完成的文本检测模型，得到所述文本检测模型输出的所述区域图像中每行文本行对应的第二文本框；

所述段落合并单元，用于根据每行文本行对应的第二文本框之间的几何位置关系，识别出各个文本行所在段落，进而得到各个段落对应的段落文本框；

所述筛选单元，用于从各个段落对应的段落文本框中筛选出面积最大的第一文本框。

所述筛选单元包括：相交段落获取子单元和筛选面积子单元；

所述相交段落获取子单元，用于获取与所述第一指尖位置和第二指尖位置指尖的连接线相交的段落；

所述筛选面积子单元，用于从相交的段落对应的段落文本框中筛选出面积最大的第一文本框。

可选地，所述文本区域确定模块包括：目标文本框定位单元，坐标获取单元、中心点判断单元和区域确定单元。

所述目标文本框定位单元，用于获取所述第一文本框的长边方向；根据所述第一文本框的长边方向及所述指尖位置确定目标文本框；

所述坐标获取单元，用于获取目标文本框内每个段落对应段落文本框的四个角的坐标，并根据各个段落对应段落文本框的四个角坐标依次计算每个段落对应段落文本框的段落中心点；

所述中心点判断单元，用于依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内；

所述区域确定单元，用于筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。

在公开了上述方法和装置的基础上，本实施例还公开了一种智能设备，如图8所示，所述智能设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的文本定位程序，所述处理器执行所述文本定位程序时，实现所述的文本定位方法的步骤。

图9为本申请实施例提供的智能设备的结构示意图。

该智能设备可以包括：

存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。

处理器802执行程序时实现上述实施例中提供的文本定位方法的步骤。

进一步地，所述智能设备还包括：

通信接口803，用于存储器801和处理器802之间的通信。

存储器801，用于存放可在处理器502上运行的计算机程序。

存储器801可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器801、处理器802和通信接口803独立实现，则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Periphera lComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器801、处理器802及通信接口803，集成在一块芯片上实现，则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。

处理器802可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本定位方法，其特征在于，所述方法包括：

根据所述第一文本框和所述指尖位置确定目标文本框；

2.根据权利要求1所述的文本定位方法，其特征在于，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

所述检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像的步骤，包括：

以所述连接线的中点为截取图像中心，以连接线的长度值为截取图像的长和宽，从所述拍摄图像中截取图像，将截取得到的图像确定为待识别文本的区域图像。

3.根据权利要求2所述的文本定位方法，其特征在于，所述获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置的步骤包括：

拍摄手指指尖位于文本页面上的拍摄图像；

从所述拍摄图像中定位出手部所在位置的手部区域框；

从所述拍摄图像中裁剪出所手部区域框，得到手部图像；

4.根据权利要求3所述的文本定位方法，其特征在于，对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置的步骤之后，还包括：

检测摄像头的视轴是否发生变化；

5.根据权利要求1所述的文本定位方法，其特征在于，所述识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框的步骤包括：

6.根据权利要求5所述的文本定位方法，其特征在于，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

7.根据权利要求1所述的文本定位方法，其特征在于，所述根据所述第一文本框和所述指尖位置确定目标文本框的步骤包括：

获取所述第一文本框的长边方向；

8.根据权利要求1-7任一项所述的文本定位方法，其特征在于，所述筛选出段落中心点位于所述目标文本框内的一个或多个段落的步骤包括:

获取目标文本框内各个段落对应段落文本框的四个角坐标；

9.一种文本定位装置，其特征在于，包括：

文本区域确定模块，用于筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。

10.一种智能设备，其特征在于，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的文本定位程序，所述处理器执行所述文本定位程序时，实现如权利要求1-8任一项所述的文本定位方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任一项所述的文本定位方法中的步骤。