CN114648756A

CN114648756A - 一种基于指向向量的书本文字识别指读方法和系统

Info

Publication number: CN114648756A
Application number: CN202210566091.XA
Authority: CN
Inventors: 朱开元; 周智慧
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-06-21
Anticipated expiration: 2042-05-24
Also published as: CN114648756B

Abstract

本发明公开一种基于指向向量的书本文字识别指读方法和系统，该方法包括：步骤一：采集图像，对图像进行预处理，得到文字特征图像；步骤二：基于文字特征图像，计算得到矫正角度；步骤三：对文字特征图像旋转矫正角度，并执行轮廓检测和外接矩形提取算法操作，得到图像的文本区域；步骤四：对矫正角度图像进行手部关节检测和指尖检测，获得手指指尖点坐标及指向向量；步骤五：根据指尖点坐标、指向向量及每个文本区域的位置来筛选文本区域，再重组筛选出的文本区域得到目标识别图像；步骤六：将目标识别图像通过开源文字识别方法得到文字信息，即得出文字识别结果。本发明有效提高了文本识别的效率，缩减了用户的等待时间。

Description

一种基于指向向量的书本文字识别指读方法和系统

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于指向向量的书本文字识别指读方法和系统。

背景技术

光学字符识别（Optical Character Recognition, OCR）技术的进步，使其能够应用在更加复杂场景，特别是自然场景的文本识别任务中，如书本的点读、菜单的翻译、无人车路牌识别、机器人场景识别等。传统的OCR技术路线包括图像预处理、文字检测和文字识别等步骤。使用深度学习网络技术让文字识别流程更加简化，发展了高效的端到端OCR技术。然而，上述技术在执行识别任务时并没有考虑用户的识别意图，如手指手势信息、语音指令等。当设备无法正确理解用户意图时，输出的结果往往过于冗长，或是非用户所需。而当设备能正确处理用户意图，就能去除不必要的信息，输出更加精准的结果；而且能缩小图像识别的范围，缩短处理时间。

针对手指手势信息在文本识别任务中的处理，相关技术只是简单地通过手指位置，截取手指附近区域作为识别区域，并没有真正处理手指或手势的意图。

现公开有一种基于人工智能的手指点读文字识别方法【CN201811205785.0】，该方法获知手指电机状态下的手指位置信息，并以手指位置为中心，截取方框区域图像为识别图像。然而，该方法没有考虑截取方框区域是否会损失文字特征，如刚好有文字在方框区边缘。而且该方法没有使用手指指向信息，这样识别的文字可能位于手指前方、也可能位于手指后方，而后者往往不是用户想要的信息。

一种基于人工智能的单手手指点读文字识别方法和系统【CN201910837914.6】，该方法通过手指特征识别网络得出指尖坐标，并截取指尖前方矩形区域进行文字识别，并获得文字中心坐标，最后对文字中心坐标和指尖坐标的距离进行比较，得出距离指尖最近的文字，输出文字信息。此方法能够得到离指尖最近的前方文字，但是，如果纸张有旋转、或者手指不是指向正前方，识别的文字就可能跨行，得到不连续的语句。

一种基于指向手势的单行文字识别方法【CN201910281744.8】可以解决湖南神通智能股份有限公司发明中的文字跨行问题，即通过文本倾斜矫正后做弯曲单行文本分割，并识别离指向位置质心距离最小的单行文本。然而，此方法如果要满足用户识别多行或是段落的需求，就必须执行多次文本识别任务，消耗了运算时间。

一种基于深度学习的书本点读方法及系统【CN202010116650.8】，该方法分别检测指尖位置及文字区域，将文字区域进行放射变换及切割后输入文字识别模型识别文字信息，然后利用标点符号或分段符信息对文字信息进行断句或分段处理，根据点读需求输出单字、单次、句子或文本段。此发明利用了诸多信息并根据用户需求输出识别的文字，但专利中并没有阐述如何从印刷文本中得到分段符信息，从专利中的文字“结合检测的指尖位置和文字区域，对文字区域进行仿射变换”中无法判断指尖信息对文字区域的筛选功能。

综上所述，现有的公开技术中没有从手指信息，特别是手指的方向信息对意图的理解，筛选和处理文字区域、输出更加精准的信息的过程。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于指向向量的书本文字识别指读方法和系统，以解决在书本点读领域中对手指信息，特别是手指的指尖方向信息的处理，达到系统能根据用户意图，筛选和处理文字区域，输出更加精准识别结果的目的，其具体技术方案如下：

一种基于指向向量的书本文字识别指读方法，包括以下步骤：

步骤一：采集包含手部且手部的手指指向书本文字的图像，对图像进行预处理，得到文字特征图像；

步骤二：基于文字特征图像，计算得到矫正角度；

步骤三：对文字特征图像旋转矫正角度，并执行轮廓检测和外接矩形提取算法操作，得到图像的文本区域；

步骤四：将经过矫正角度旋转的文字特征图像，进行手部关节检测和指尖检测，获得手指指尖点坐标及指向向量；

步骤五：根据指尖点坐标、指向向量及每个文本区域的位置来筛选文本区域，再重组筛选出的文本区域得到目标识别图像；

步骤六：将目标识别图像通过开源文字识别方法得到文字信息，即得出文字识别结果。

进一步的，所述步骤一，具体包括以下步骤：

步骤1.1：采集包含手部且手部的手指指向书本文字的图像，利用索贝尔算子的均值检测图像清晰度，若清晰度高于预先设定的阈值，则执行下一步，否则，终止操作，重新采集图像；

步骤1.2：缩小原图像尺寸至原图像的四分之一，后进行形态学礼帽操作，接着采用索贝尔算子计算图像的横向梯度，然后进行形态学闭运算操作，再进行二值化操作得到文字特征图像。

进一步的，所述步骤二，具体包括以下步骤：

步骤2.1：使用霍夫变换寻找文字特征图像中的线条成分；

步骤2.2：对寻找到的线条的倾斜角度排序，去除掉离群值，筛选线条的倾斜角，保留排名在前25%至75%的数据；

步骤2.3：筛选得到的线条的平均倾斜角度即为矫正角度，当矫正角度不为0时，则对原图像旋转矫正角度得到矫正的图像，否则，直接使用原图像。

进一步的，所述步骤四，具体包括以下步骤：

步骤4.1：通过开源手指关节检测方法，识别得到图像中手的所有关节点坐标，若无法得到关节点坐标，则终止操作，重新采集图像；

步骤4.2：根据关节点坐标，判断至少有一根手指是伸展的，即同一个手指上的末端关节点到手腕关节点的距离大于其他关节点到手腕关节点的距离，否则，终止操作，重新采集图像；

步骤4.3：根据手的关节点的外接矩形截取得到一个包含手部的图像；

步骤4.4：将截取图像转化成YCbCr颜色空间，提取Cr颜色层的图像，对提取的图像进行高斯模糊及二值化操作，然后进行外轮廓提取操作，对得到的外轮廓进行凸包点检测操作，将所述凸包点加入到凸包点队列中，从凸包点队列中剔除靠近截取图像边缘的点，接着计算每个凸包点到手腕关节点的距离，得出最大距离的点，最大距离的点的坐标即为指尖点的坐标，则以手腕关节点为原点到指尖点的向量为指向向量。

进一步的，所述步骤五，具体包括以下步骤：

步骤5.1：计算所有文本区域的中心坐标，以指尖点为原点到文本区域中心的向量为文本区域向量；

步骤5.2：预先设定指向向量和文本区域向量夹角的阈值，根据此阈值筛选文本区域，如下面的表达式：

其中

为指向向量和文本区域向量的夹角，

为指向向量，

为文本区域向量，

为筛选夹角的阈值；

步骤5.3：将筛选的文本区域加入到文本区域队列，并根据到指尖的距离由远到近排序；

步骤5.4：从文本区域队列中得出文本区域的最大宽度，再改变其他文本区域的宽度为此最大宽度，然后填充所有文本区域，填充颜色为文本区域的中值，使文本区域的宽度为最大宽度；所有文本区域以宽对齐拼接成新的图像，再对拼接的图像做自适应均衡化、拉普拉斯锐化的操作，后生成的图片即为输出目标识别图像。

一种基于指向向量的书本文字识别指读系统，包括：

用户输入单元，获取用户的识别请求；

视频采集单元，根据用户的识别请求，通过摄像头实时采集当前图像，将其中包含手部且手部的手指指向书本文字的连续图像输入图像预处理单元；

图像预处理单元，对连续图像进行清晰度检测、缩小图像尺寸、形态学礼帽操作、计算图像的横向梯度、形态学闭运算操作、二值化操作得到文字特征图像，再对文字特征图像进行角度矫正操作，同时执行轮廓检测和外接矩形提取算法处理，得到文本区域；

指尖检测单元，将经过矫正角度旋转的文字特征图像，进行手部关节检测和指尖检测，获得手指指尖点坐标及指向向量；

文字识别单元，根据指尖点坐标、指向向量及每个文本区域的位置来筛选文本区域，重组文本区域得到目标识别图像，再通过开源文字识别方法得到目标识别图像中的文字信息，根据识别请求，输出精准信息，即得出文字识别结果；

识别结果输出单元，以语音播报的形式输出识别结果。

一种基于指向向量的书本文字识别指读装置，包括一个或多个处理器，用于实现所述的基于指向向量的书本文字识别指读方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的基于指向向量的书本文字识别指读方法。

本发明的优势在于：通过检测用户手指指尖坐标、指向向量，对文本识别区域进行筛选，其作用在于缩小了识别范围，有效过滤了用户不需要的识别区域，使文本识别的结果更加符合用户期望；对于计算资源受限的终端设备，因其生成的新的图像大小远远小于原始图像，此方法有效提高了文本识别的效率，缩减了用户的等待时间。

附图说明

图1为本发明基于指向向量的书本文字识别指读方法的流程图；

图2为本发明实施例获取的原始图像示意图；

图3为本发明实施例旋转矫正的图像中获取的指尖点及指尖向量的示意图；

图4为本发明实施例旋转矫正的图像中筛选得到的文本区域及文本区域向量的示意图；

图5为本发明实施例筛选得到的文本区域所拼接生成的目标识别图像的示意图；

图6为本发明基于指向向量的书本文字识别指读系统的单元模块示意图；

图7为本发明基于指向向量的书本文字识别指读装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，一种基于指向向量的书本文字识别指读方法，包括以下步骤：

步骤一：采集包含手部且手部的手指指向书本文字的图像，对图像进行预处理，得到文字特征图像。

当用户输入单元获得识别请求时，视频采集单元实时采集当前图像，将图像连续输入图像预处理单元，得到文字特征图像。

在此实施例中，所述用户输入单元为语音识别程序，也可以被替换为屏幕选项按钮、终端输入等方法。

如图2所示为此实施例的原始图像，具体计算平台为树莓派4B（4G内存），摄像头型号为AF500W，具备1920×1080分辨率和自动对焦。

为了突出图像中的文字部分，将图像连续输入图像预处理单元，得到文字特征图像，具体包括以下步骤：

步骤1.1：采集包含手部且手部的手指指向书本文字的图像，利用索贝尔算子的均值检测图像清晰度，若清晰度高于预先设定的阈值，则执行下一步，否则，终止操作，重新采集图像，在此实施例中，清晰度阈值设为2.0；

步骤1.2：缩小原图像尺寸至原图像的四分之一，再采用9×3核的形态学礼帽操作，然后采用1×1核的索贝尔算子计算图像的横向梯度，接着采用9×3核的形态学闭运算操作，最后进行二值化操作得到文字特征图像。

步骤二：基于文字特征图像，计算得到矫正角度，其具体步骤为：

步骤2.1：使用Hough霍夫变换寻找文字特征图像中的线条成分，在此实施例中，其累加器阈值为90，该阈值表示经过该线条的离散点的个数至少大于此阈值；

步骤2.2：根据寻找到的线条的倾斜角度排序，去除掉离群值，筛选线条的倾斜角，在此实施例中，只保留排名在前25%至75%的数据；

步骤三：对文字特征图像旋转矫正角度，并执行轮廓检测和外接矩形提取算法操作，得到图像的文本区域。

步骤四：将经过矫正角度旋转的文字特征图像，进行手部关节检测和指尖检测，获得手指指尖点坐标及指向向量，其具体步骤为：

步骤4.1：通过开源手指关节检测方法，识别得到图像中手的所有关节点坐标，若无法得到关节点坐标，则终止操作，重新采集图像；本实施例使用基于机器学习的开源手指关节检测软件库或方法：Google MediaPipe Hands，识别手指的所有关节点坐标；

步骤4.3：根据手的关节点的外接矩形截取得到一个包含手部的图像，上述截取图像也可以通过其他方式得到，如基于深度学习网络的手部检测方法：victordibia/handtracking；

步骤4.4：将截取图像转化成YCbCr颜色空间，提取Cr颜色层的图像，对提取的图像进行5×5核的高斯模糊及二值化操作，然后进行外轮廓提取操作，对得到的外轮廓进行凸包点检测操作，将所述凸包点加入到一个凸包点队列中，从凸包点队列中剔除靠近截取图像边缘的点，接着计算每个凸包点到手腕关节点的距离，得出最大距离的点，最大距离的点的坐标即为指尖点的坐标，则以手腕关节点为原点到指尖点的向量为指向向量。如图3所示为实施例中指尖点的坐标及指向向量。

步骤五：根据指尖点坐标、指向向量及每个文本区域的位置来筛选文本区域，再重组筛选出的文本区域得到目标识别图像，其具体步骤为：

其中

为指向向量和文本区域向量的夹角，

为指向向量，

为文本区域向量，

为筛选夹角的阈值；该实施例中，上述阈值设为

= 20，

= 90；该步骤的作用在于缩小了识别范围，有效过滤了用户不需要的识别区域，使文本识别的结果更加符合用户期望；

步骤5.3：将筛选的文本区域加入到一个文本区域队列，并根据到指尖的距离由远到近排序；

步骤5.4：从文本区域队列中得出文本区域的最大宽度，改变其他文本区域的宽度为此最大宽度，然后填充所有文本区域，填充颜色为文本区域的中值，使文本区域的宽度为最大宽度；所有文本区域以宽对齐拼接成新的图像，再对拼接的图像做自适应均衡化、拉普拉斯锐化等操作改善图片清晰度，后生成的图片即为输出目标识别图像。

如图4所示为筛选得到的文本区域及文本区域向量。

如图5所示为重组文本区域得到目标识别图像。

所述文字识别结果根据识别请求，使用开源他文字识别软件库输出精准信息得到，所述开源他文字识别软件库如DayBreak-u/chineseocr_lite；其中，对文字识别软件的最低需求为：返回识别结果包含识别的文字以及文字对应在输入图像中的位置信息。

如图6所示，一种基于指向向量的书本文字识别指读系统，包括：

用户输入单元，获取用户的识别请求；

视频采集单元，根据用户的识别请求，实时采集当前图像，将其中包含手部且手部的手指指向书本文字的连续图像输入图像预处理单元；

识别结果输出单元，以语音播报等形式输出识别结果。

根据用户输入单元的识别请求，筛选文字识别的结果：当用户输入单元的请求为“读这行”时，本实施例会从识别结果中提取出离指尖坐标最近的那行文字；当用户输入单元的请求为“读这句话”时，本实施例会根据标点符号，从识别结果中提取离指尖坐标最近的那个句子；当用户输入单元的请求为“读这段”时，本实施例会根据识别结果中行与行的间隙分离段落，并输出离指尖坐标最近的那段话。最后，将此信息通过输出单元反馈给用户，此实施例中，输出单元以语音播报形式输出识别结果。

此实施例中，由于根据指向向量和对文本识别区域的有效筛选，文字识别单元所要处理的图像大大缩小，识别耗时也大大缩短。如图1原始图像的尺寸为1920×1080，图5目标识别图像的尺寸为406×767，文字识别单元的输入图像尺寸缩小到原来的15%，识别耗时减少从13.2秒减少到4.12秒，时间缩短了69%。并且，根据用户手指的指向对信息进行筛选，更加符合用户的自然交互习惯。使用此方法，输出的内容中不会包含用户不需要的信息，如与手指指向方向相反的内容和覆盖在手指、手掌下的内容等，更加符合人机交互的设计要求，提高了系统的可用性。

与前述一种基于指向向量的书本文字识别指读方法的实施例相对应，本发明还提供了一种基于指向向量的书本文字识别指读装置的实施例。

参见图7，本发明实施例提供的一种基于指向向量的书本文字识别指读装置，包括一个或多个处理器，用于实现上述实施例中的一种基于指向向量的书本文字识别指读方法。

本发明基于指向向量的书本文字识别指读装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明一种基于指向向量的书本文字识别指读装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于指向向量的书本文字识别指读方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。