CN110443231A

CN110443231A - 一种基于人工智能的单手手指点读文字识别方法和系统

Info

Publication number: CN110443231A
Application number: CN201910837914.6A
Authority: CN
Inventors: 陈大凯; 宋伟; 刘光磊; 尹正杰
Original assignee: Hunan Shentong Intelligent Co Ltd
Current assignee: Hunan Shentong Intelligent Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-11-12

Abstract

本发明提供一种基于人工智能的单手手指点读文字识别方法，属于智能点读技术领域。所述的手指点读文字识别方法包括以下步骤：(1)通过摄像头采集图像；(2)对图像进行处理；(3)使用手指特征识别神经网络获得初步指尖点坐标；(4)手指特征识别网络经过两次输入定位出精准的指尖坐标，并截取指尖前方矩形区域；(5)文字识别库对矩形区域文字进行识别，获得文字中心坐标点；(6)对文字中心坐标点和指尖点坐标的距离进行比较，输出文字信息；(7)对文字信息进行语音朗读。本发明通过OpenCV视觉算法予以辅助，减轻硬件方面压力，具有良好的市场推广前景，通过手指神经网络精准定位指尖，实现手指精确点读。

Description

一种基于人工智能的单手手指点读文字识别方法和系统

技术领域

本发明属于智能点读技术领域，具体涉及一种基于人工智能的单手手指点读文字识别方法。

背景技术

现有的儿童早教机器大多是基于绘本图像的特征来识别绘本。这种早教点读相对不够灵活，无法激起小孩的学习兴趣。对于外文读物和技术文献，很多外语基础不好但从事外贸业务或者国外学术研究人员无法直接阅读，而需要查字典或借其他的翻译工具，耗时耗力又不方便。

公告号为CN109325464A的中国专利，公开了一种基于人工智能的文字识别方法，发明了利用纯深度学习算法来实现手指点读。实现了快速的文本识别和查单词的流程，整个流程耗时不超过300ms，极大地提高了人们阅读外文的效率。

但是，该项目虽然从原理上可以实现手指点读识别文本和英文和其他语种，然而该专利在实现上需要构建并训练手指定位神经网络、文本角度神经网络、文本检测神经网络、OCR识别神经网络。因此在算法实现上存在着一定难度。对于系统硬件也有着一定的要求。并且该项目并没有在对手指指尖坐标点进行精准定位，无法在文本上实现精确点读。

山东音为爱智能科技有限公司在201810326362.8公开了一种基于人工智能的儿童绘本辅助阅读方法，其内容包括：逐页拍摄书页图像，制作书页图像模板，保存书页图像特征；通过摄像头拍摄书页图像，提取书页图像的纹理特征，与模板进行匹配，判断书页页码；根据书页页码载入当前页面上的点读资源，点读资源包括绘本中的人物形象及其对应的音频故事和问答资源；检测动态手势的关键图像帧，抛弃模糊不清晰的手势图像帧；通过摄像头拍摄视频帧图像，检测儿童手指指向的点读资源处，则播放对应人物的故事；进入语音问答环节，根据当前页的内容匹配知识库中的问题，主动与儿童会话。上述方法可提供绘本的点读和问答，提高儿童学习兴趣和效率，能够在教学条件不足的场合，辅助儿童自行进行绘本阅读。

但是，该项目虽然从理论上可以实现辅助儿童自行进行绘本阅读，但是，通过遍历图像的像素点来进行非肤色区域的排除，算法耗费时间长，并且具有一定的误判性，不能高效准确的进行手指肤色区域的判别。其次结合视频连续帧进行处理，计算相邻两帧的像素值差，根据阈值判断视频帧图像中移动物体的位置区域。在实际运用过程中。实时性不够和硬件成本过高。使其不具有良好的推广性。

发明内容

本发明通过提供一种基于人工智能的单手手指点读文字识别方法，以解决现有的人工智能点读识别的算法复杂，对硬件要求过高，手指点读不够精准的问题。

为实现上述目的，本发明的技术解决方案是：

一种基于人工智能的单手手指点读文字识别方法，包括以下步骤：

(1)通过摄像头实时采集手指图文图像；

(2)对摄像头采集的单帧高清晰图像进行图像预处理；

(3)使用预先训练好的手指特征识别神经网络，在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标；截取手指指尖点坐标前方的区域输出给文字识别库；

(4)文字识别库对矩形区域中的文字进行识别，并且得到文字中心坐标点；

(5)对文字中心坐标点和指尖点坐标的距离进行比较，计算得出距离指尖最近的文字，输出文字信息；

(6)对文字信息进行语音朗读。

优选地，所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。

优选地，所述步骤(2)中图像处理为使用OpenCV算法库对图像进行处理，包括以下步骤：

S1、对图像进行开运算；

S2、对图像进行双边滤波，保存边缘图像特征；

S3、使用图像金字塔进行向下采样。

优选地，所述手指特征识别神经网络的训练包括以下步骤：

S1、通过拍照获取大量训练数据，通过图像定位技术获取得到手指区域，人工标记手指关键点所在的坐标点，手指关键点包括指尖点、手指左右两侧点、手指关节点；

S2、人工标记手指关键点所在位置的笛卡尔坐标，并根据图像的原始长宽进行归一化存储，即在一个长宽为(w，h)的矩形图像，手指关键点坐标为(a，b)，则归一化坐标为(a/w，b/h)；

S3、搭建一个深度卷积神经网络，包括卷积层、池化层、全卷积层，使得网络输入为三通道RGB图像，输出为二维坐标(x，y)。

S4、利用该卷积神经网络求解点坐标回归问题，通过损失函数求解其梯度，可求得反向传播的残差；

S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数，在该卷积神经网络经过一定迭代到达稳定后，可以获得多层的卷积核参数。

优选地，所述获得手指指尖点坐标的方法包括以下步骤：

S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络；

S2、通过网格计算获得预测的手指特征的关键点；

S3、进行一次前向传播；

S4、输入预测好的手指特征的关键点，去归一化得到输出初步手指指尖坐标。

S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。

优选地，所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。

一种基于人工智能的单手手指点读文字识别的系统，包括摄像头、图像处理模块、手指识别模块、OCR文字识别模块、中央处理模块以及语音模块，所述摄像头与图像处理模块连接，图像处理模块与手指识别模块连接，手指识别模块、OCR文字识别模块、语音模块与中央处理模块连接；

所述摄像头用于实施摄取手指图文图像；

所述图像处理模块用于对所述图像进行处理；

所述手指识别模块对处理的图像进行识别，并定位出手指初步指尖坐标，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标；最后截取精准的手指指尖点坐标前方的矩形区域输出给OCR文字识别模块；

所述OCR文字识别模块识别矩形区域内的文字，并且得到文字中心坐标点；

所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较，计算得出距离指尖最近的文字，输出文字信息，将文字信息和播放文字信息的指令传输给语音模块进行语音播报。

本发明的有益效果是：

本发明基于人工智能实现手指点读，减少了神经网络训练部分的复杂度，通过OpenCV视觉算法予以辅助，减轻了硬件方面的压力，具有良好的市场推广前景。并且通过手指神经网络精准定位指尖，实现基于单手指情况下的手指精确点读。

附图说明

图1是本发明手指点读文字识别方法的流程图。

图2是本发明手指特征识别神经网络的训练的流程图。

图3是本发明手指系统的结构示意图。

图4是本发明手指点读功能实现的流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参见图1，一种基于人工智能的单手手指点读文字识别方法，包括以下步骤：

(1)通过摄像头实时采集手指图文图像；

(2)使用OpenCV算法库对摄像头采集的单帧高清晰图像进行尺寸压缩和图像处理，并将图像转换成Mat数据格式；

具体包括以下步骤：

S1、对图像进行开运算，作用是消除图像上细小的噪声，并平滑物体边界；

S2、对图像进行双边滤波，保存边缘图像特征；

S3、使用图像金字塔进行向下采样，作用是便于深度卷积网络的应用。

(3)使用预先训练好的手指特征识别神经网络，在图像中对手指特征区域进行定位出手指的初步指尖点，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标；最后截取精准的手指指尖点坐标前方的矩形区域输出给OCR文字识别模块；具体地，使用谷歌开源的OCR图文识别库tesseract-ocr来进行文字识别，为保证识别率，已经预先训练好了大量文字素材来进行人工修正，以提高文字识别率；

(4)OCR文字识别库对矩形区域中的文字进行识别，并且得到文字中心坐标点；

(6)对文字信息进行语音朗读。

参见图2，所述手指特征识别神经网络的训练，包括以下步骤：

S1、通过拍照获取大量训练数据，通过图像定位技术获取得到手指区域，人工标记手指指尖点所在的坐标点为关键点；

S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数，在该卷积神经网络经过一定迭代到达稳定后，可以获得多层的卷积核参数，完成训练。

具体地，手指特征识别神经网络的测试流程，具体内容包括：

S1、对图像使用OpenCV进行预处理，首先进行开运算，最后进行双边滤波操作；

S2、将处理后的图像输入到训练好的卷积神经网络；

S3、通过网格计算获得预测的手指特征的关键点；

S4、进行一次前向传播；

S5、输入预测好的手指特征的关键点，去归一化得到输出初步手指指尖点坐标。

S6、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。

进一步的，OCR文字识别库样本文件的训练过程，包括以下步骤：

S1、将训练图像转换成tif格式，用于后面生成box文件；

S2、使用命令行tesseract dty.dt.exp0.tif dty.dt.exp0-l eng-psm7batch.nochop makebox将tif格式的图像转换成box文件；

S3、打开tesseract-ocr中的jTessBoxEditor工具，打开训练图像并进行位置矫正；

S4、通过命令行echo dt 0 0 0 0 0>font_properties生成默认的字体文件；

S5、通过命令行shapeclustering-F font_properties-U unicharset-Odty.unicharset dty.dt.exp0.tr生成shape文件；

S6、通过命令行mftraining-F font_properties-U unicharset-Odty.unicharset dty.dt.exp0.tr生成聚集字符特征文件；

S7、通过命令行cntraining dty.dt.exp0.tr生成字符正常化特征文件；

S8、将文件重新更名；

rename normproto dt.normproto

rename inttemp dt.inttemp

rename pffmtable dt.pffmtable

rename unicharset dt.unicharset

rename shapetable dt.shapetable

S8、通过命令行combine_tessdata normal.合并训练文件，生成自定义的字体识别库dt.traineddata。

参见图3，一种基于人工智能的单手手指点读文字识别的系统，其特征在于，包括摄像头、图像处理模块、手指识别模块、OCR文字识别模块、中央处理模块以及语音模块，所述摄像头与图像处理模块连接，图像处理模块与手指识别模块连接，手指识别模块、OCR文字识别模块、语音模块与中央处理模块连接；

所述摄像头用于实施摄取手指图文图像；

所述图像处理模块用于对所述图像进行处理；

所述手指识别模块对处理的图像进行识别，并定位出初步手指指尖点坐标，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。最后截取第二次输出的指尖点前方预定义的一块矩形区域，并传输给OCR文字识别库。

参见图4，本发明基于人工智能的单手手指点读功能实现的流程，具体内容包括：

S1、摄像头采集高清晰度图像(1920*1080分辨率)；

S2、图像处理使用OpenCV算法库对图像进行处理:(1)对图像进行开运算，作用是消除图像上细小的噪声，并平滑物体边界；(2)对图像进行双边滤波，作用是保存边缘图像特征；(3)使用图像金字塔进行向下采样。作用是便于深度卷积网络的应用。

S3、将处理后的图像输入到手指关键点识别神经网络，手指识别模块首先判断有无手部特征，没有的话则发送指令给中央处理模块，中央处理模块发送手指点读的引导语音和播放指令给语音模块，然后再判断手部特征数量是否存在其他手部特征的干扰，存在其他手部特征干扰的话则发送指令给中央处理模块，中央处理模块发送手部数量干扰的引导语音播放指令给语音模块，两者判断成功后，手指关键点识别网络会输出归一化后的初步手指指尖点坐标。

S4、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。最后截取第二次输出的指尖点前方预定义的一块矩形区域，并传输给OCR文字识别库。

S5、OCR文字库成功识别后则输出识别的文字内容和坐标点给中央处理模块，若文字识别失败则发送文字识别失败指令给中央处理模块，中央处理模块发送识别文字失败的语音引导播放指令给语音模块。

S6、中央处理模块通过对文字坐标和指尖坐标距离的判断，得到手指点读的文字内容，并发送点读文字内容和播放语音指令给语音模块。

S7、语音模块调用麦克风播放点读文字内容，实现手指点读功能。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工智能的单手手指点读文字识别方法，其特征在于，包括以下步骤：

(1)通过摄像头实时采集手指图文图像；

(2)对摄像头采集的单帧高清晰图像进行图像预处理；

(6)对文字信息进行语音朗读。

2.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法，其特征在于，所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标。

3.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法，其特征在于，所述步骤(2)中图像处理采用OpenCV算法库对图像进行处理，包括以下步骤：

S1、对图像进行开运算；

S2、对图像进行双边滤波，保存边缘图像特征；

S3、使用图像金字塔进行向下采样。

4.根据权利要求3所述的基于人工智能的单手手指点读文字识别方法，其特征在于，所述手指特征识别神经网络的训练包括以下步骤：

S3、搭建一个深度卷积神经网络，包括卷积层、池化层、全卷积层，使得网络输入为三通道RGB图像，输出为二维坐标(x，y)；

5.根据权利要求4所述的基于人工智能的单手手指点读文字识别系统，其特征在于，对所述手指特征点卷积神经网络进行测试，包括以下步骤：

S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络；

S2、通过网格计算获得预测的手指特征的关键点；

S3、进行一次前向传播；

6.根据权利要求1所述的基于人工智能的单手手指点读文字识别系统，其特征在于，所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。

7.一种基于人工智能的单手手指点读文字识别的系统，其特征在于，包括摄像头、图像处理模块、手指识别模块、文字识别模块、中央处理模块以及语音模块，所述摄像头与图像处理模块连接，图像处理模块与手指识别模块连接，手指识别模块、文字识别模块、语音模块与中央处理模块连接；

所述摄像头用于实施摄取手指图文图像；

所述图像处理模块用于对所述图像进行处理；

所述手指识别模块对处理的图像进行识别，并定位出手指初步指尖点坐标，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标；最后截取精准的手指指尖点坐标前方的矩形区域输出给文字识别模块；

所述文字识别模块识别矩形区域内的文字，并且得到文字中心坐标点；