CN111832567A

CN111832567A - 一种盲人友好的书本文字阅读检测交互方法

Info

Publication number: CN111832567A
Application number: CN202010441587.5A
Authority: CN
Inventors: 朱建科; 顾煜镠; 任金伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-10-27
Anticipated expiration: 2040-05-22
Also published as: CN111832567B

Abstract

本发明公开了一种盲人友好的书本文字阅读检测交互方法。盲人视觉辅助设备佩戴在盲人上，采集前方书本阅读内容的图像，并识别获得每行文字的文本框，计算出文本框高度均值以及左右侧文本位置并判断语音提示移动书本靠近或者远离；检测文本框的平均中点并判断语音提示书本左右移动；然后从上至下地将各个文本框的文字识别结果播放声音阅读。本发明解决了阅读场景下盲人所使用视觉辅助设备与盲人的交互问题，使得盲人能够根据视觉辅助设备的语音提示去调整合适的位置，以获得更好的文字识别结果。

Description

一种盲人友好的书本文字阅读检测交互方法

技术领域

本发明涉及计算机视觉、人机交互领域的一种盲人阅读交互方法，更具体的涉及一种盲人友好的书本文字阅读检测交互方法。

背景技术

计算机视觉是利用摄像机和电脑代替人眼，使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。随着深度学习与计算机视觉相结合，计算机视觉在很多领域取得了突破性的进展，比如文字识别这个方向。传统的OCR(光学字符识别)基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习(Adaboost、SVM)，过去20年间在扫描文档上取得了不错的效果，但在普通图像中应用仍有准确率上的限制。

随着移动设备的普及，以及智能助视系统的要求，对传感器所获取图像中的文字提取和识别成为主流需求。光学文字识别系统需要提供适合识别的包含文字信息图片作为输入，于是需要视力正常人通过视觉感受判断当前输入图片上的文字大小与位置。

尤其是对于智能助视系统，普通的文字识别程序对于盲人不具有可操作性，现有技术中缺少了一套完整的交互系统和方法能解决盲人阅读实时性的问题。

发明内容

为了解决背景技术中存在的问题，本发明目的是针对普通文字识别系统对于盲人用户设计的交互性不足之处，以提高系统的可用性，提供了一种盲人友好的书本文字阅读检测交互方法。

正常的文字识别软件要视力正常人通过视觉感受图像中的文字信息位置来获取图像，本发明能解决阅读场景下盲人所使用视觉辅助设备与盲人的交互问题。

如图1所示，本发明所采用的技术方案是：

A1，盲人视觉辅助设备佩戴在盲人身上，通过盲人视觉辅助设备采集获得前方的书本阅读对象的图像，将图像大小均为previewWidth*previewHeight，previewWidth、previewHeight分别表示图像的宽度和高度，实时地将图像输入具有小目标对象检测能力的骨干卷积神经网络，获取特征图；再将特征图通过基于锚点或无锚点直接回归的文字检测网络，获取当前图像的文字检测结果，即实时得到书本阅读对象中每一行文字的检测结果，每一行文字构成了一个文本框，第i行文字的文本框检测结果表示为{left_i，top_i，width_i，height_i}，left_i，top_i，width_i，height_i分别表示第i行文字的文本框的左侧边沿坐标、上侧边沿坐标、宽度和高度；

A2，针对所有行文字的文本框结果，计算出文本框高度均值averageHeight：

其中，i表示文字行的序数，n表示文字行的总数；

A3，然后根据文本框高度均值averageHeight进行判断：

当文本框高度均值averageHeight＜thresholdHeight₁时，thresholdHeight₁表示最远距离文本框高度阈值，根据分辨率的大小获得，则当前盲人视觉辅助设备距离书本的文字信息太远，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备靠近书本，当前采集的图像由于文字信息较小很难得到良好的文字识别结果，语音提示盲人用户靠近书本；

当文本框高度均值averageHeight＞thresholdHeight₂时，thresholdHeight₂表示最近距离文本框高度阈值，根据分辨率的大小获得，则当前盲人视觉辅助设备距离书本的文字信息太近，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备远离书本，当前采集的图像由于较为靠近文字信息很难得覆盖到整个阅读对象页面，语音提示盲人用户远离书本；

当文本框高度均值满足thresholdHeight₁≤averageHeight≤thresholdHeight₂后，当averageHeight满足该条件时，保证了一定存在一些位置使得文字图像能够全部包含在盲人视觉辅助设备采集的图像视野中，且不会距离过远，导致采集的文字图像不清晰，则当前盲人视觉辅助设备距离书本的文字信息达到合适范围；

A4，通过步骤A3使得盲人视觉辅助设备和书本在图像视线方向处于合适的远近距离，之后提示盲人用户书本的左右位置是否合适，计算出各个文本框左侧坐标的最小值minLeft以及各个文本框右侧坐标的最大值maxRight：

A5，然后根据各个文本框左侧坐标的最小值minLeft以及各个文本框右侧坐标的最大值maxRight进行判断：

当minLeft＜minGap时，minGap表示文本框与图像边缘距离的最小值，其大小体现了文本框与图像边缘距离最近能够接受的程度，当文本框与图像边缘的距离小于该值时表示文字处于视野边缘，需要作出调整，minGap根据图像分辨率来确定，在720p分辨率下可以取30。盲人视觉辅助设备通过播放声音提示移动书本向右侧方向或者移动盲人视觉辅助设备向左侧方向，即通过语音提示右移书本；

当maxRight＞previewWidth-minGap时，盲人视觉辅助设备通过播放声音提示移动书本向左侧方向或者移动盲人视觉辅助设备向右侧方向，即通过语音提示左移书本；

A6，通过步骤A5使得盲人视觉辅助设备和书本在图像视线方向处于合适的水平位置，之后提示盲人用户书本的上下位置是否合适，计算出第一个文本框的顶部坐标minTop以及最后一个文本框的底部坐标maxBottom：

minTop＝top₁

maxBottom＝top_n+height_n

其中，top₁表示第一行文字框的顶部坐标，top_n表示最后一行文字框的顶部坐标，height_n表示最后一行文字框的高度；

A7，然后根据第一个文本框的顶部坐标minTop以及最后一个文本框的底部坐标maxBottom进行判断：

当minTop＜minGap时，盲人视觉辅助设备通过播放声音提示移动书本向下侧方向或者移动盲人视觉辅助设备向上侧方向，即通过语音提示下移书本；

当maxBottom＞previewHeight-minGap时，盲人视觉辅助设备通过播放声音提示移动书本向上侧方向或者移动盲人视觉辅助设备向下侧方向，即通过语音提示上移书本；

A8，将每一个文本框按照竖直坐标排序，从上至下地将各个文本框的文字识别结果通过盲人视觉辅助设备播放声音进行阅读。

所述的骨干卷积神经网络具体采用mobilenetV2神经网络，

所述的文字检测网络采用CTPN神经网络，

所述的盲人视觉辅助设备是指带有摄像头和声音输出设备的眼镜，可以是镜片上带有摄像头，眼镜戴在盲人上。

人手握图书在胸前，通过摄像头拍摄RGB图像进而进行图像分析识别获得图书上的文字信息。

所述A1中，采用不同类型的文字检测算法均可，针对长文本需要合并处于同一行的文字预测框，且最终的结果格式要统一处理为left_i，top_i，width_i，height_i的形式。

所述A5中：采用不同类型的文字识别算法均可，用以得到最终的识别文字结果，并通过语音辅助播报。

本发明先利用文字检测获得当前帧的文本框结果，然后计算各个文本框几何特征，通过一系列的阈值判断，来得出文字信息在视野中的相对位置和大小，将结果通过语音提示用户操作，以此达到交互的目的，满足识别条件后才调用识别模块得到文字识别结果，相比于不作出交互的文字识别结果有较大的提升，整体提升盲人对文字识别系统的易用性。

所述的文字检测是通过拥有小目标检测能力和较少参数量的卷积神经骨干网络进行图像特征提取，后续利用基于锚框回归或直接回归文本位置的长文本检测算法，获得文本框结果；这样通过较少参数量的卷积神经网络提取特征，经过特定损失函数进行训练，输出为最终文字识别结果。

本发明为了让盲人用户也能使用文字识别系统，在智能助视系统和文字检测与识别模块的基础上，开发了上述的盲人友好的交互方法和方式。

在阅读场景下，操作时，盲人用户将盲人视觉辅助设备的图像采集设备对准书本，交互模块会发出语音指令引导用户对准文字信息，当达到识别标准时，才进行文字识别操作，相比于直接给出识别结果，识别准确率会大大提高，盲人用户体验感大大提升。

本发明的有益效果是：

本发明与现有文字识别系统相比，充分利用了文字检测的信息，并利用语音输出，提高了对盲人友好的阅读交互方式，有效的提高了用户体验，也提供提高了盲人阅读图书的可能性。

本发明使得盲人能够根据视觉辅助设备的语音提示去调整合适的位置，以获得更好的文字识别结果。

附图说明

图1为本发明的系统整体示意图。

图2为本发明的文字检测结果可视化示意图。

图3为本发明的交互过程中需要靠近阅读对象情况示意图。

图4为本发明的交互过程中需要远离阅读对象情况示意图。

图5为本发明的交互过程中需要调整阅读对象上下左右位置情况示意图。

图3至图5中浅色区域表示采集图像，深色区域为文本框结果。

具体实施方式

下面结合附图与实施例对本发明做进一步说明，本发明的目的和效果将变得更加明显。

如图1所示，本发明的具体实施例及其实施过程如下：

A1，盲人视觉辅助设备采用带有摄像头和声音输出设备的眼镜，镜片上带有摄像头，盲人手握图书在胸前，通过摄像头拍摄RGB图像进而进行图像分析识别获得图书上的文字信息。

眼镜戴在盲人上，通过摄像头拍摄胸前获得前方的书本阅读对象的图像，图像大小均为previewWidth*previewHeight，previewWidth、previewHeight分别表示图像的宽度和高度，将图像输入骨干卷积神经网络，获取特征图；再将特征图通过基于锚点或无锚点直接回归的文字检测网络，获取当前图像的文字检测结果，即得到书本阅读对象中每一行文字的检测结果，每一行文字构成了一个文本框，第i行文字的文本框检测结果表示为{left_i，top_i，width_i，height_i}，left_i，top_i，width_i，height_i分别表示第i行文字的文本框的左侧边沿坐标、上侧边沿坐标、宽度和高度；

骨干卷积神经网络具体采用mobilenetV2神经网络，文字检测网络采用CTPN神经网络，检测结果可视化实例如图2所示；

其中，i表示文字行的序数，n表示文字行的总数；

A3，然后根据文本框高度均值averageHeight进行判断：

当文本框高度均值averageHeight＜thresholdHeight₁时，thresholdHeight₁表示最远距离文本框高度阈值，根据分辨率的大小获得，则当前盲人视觉辅助设备距离书本的文字信息太远，如图3所示，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备靠近书本，当前采集的图像由于文字信息较小很难得到良好的文字识别结果，语音提示盲人用户靠近书本；

当文本框高度均值averageHeight＞thresholdHeight₂时，thresholdHeight₂表示最近距离文本框高度阈值，根据分辨率的大小获得，则当前盲人视觉辅助设备距离书本的文字信息太近，如图4所示，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备远离书本，当前采集的图像由于较为靠近文字信息，很难得覆盖到整个阅读对象页面，可能会导致部分文字不在采集的图像内，语音提示盲人用户远离书本；

当文本框高度均值满足thresholdHeight₁≤averageHeight≤thresholdHeight₂后，当averageHeight满足该条件时，保证了一定存在一些位置使得文字图像能够全部包含在盲人视觉辅助设备采集的图像视野中，并且不会距离过远，导致采集的文字图像不清晰，则当前盲人视觉辅助设备距离书本的文字信息达到合适范围。否则，则不作处理；

A4，通过步骤A3使得盲人视觉辅助设备和书本在图像视线方向处于合适远近距离，之后还要提示盲人用户书本的左右位置是否合适，计算出各个文本框左侧坐标的最小值minLeft以及各个文本框右侧坐标的最大值maxRight：

当minLeft＜minGap时，minGap表示文本框与图像边缘距离的最小值，其大小体现了文本框与图像边缘距离最近能够接受的程度，当文本框与图像边缘的距离小于该值时表示文字处于视野边缘，需要作出调整，minGap根据图像分辨率来确定，在720p分辨率下可以取30。满足minLeft＜minGap时，表示文本的左侧处于视野边缘，如图5(1)所示，需要右移书本。盲人视觉辅助设备通过播放声音提示移动书本向右侧方向或者移动盲人视觉辅助设备向左侧方向，即通过语音提示右移书本；

当maxRight＞previewWidth-minGap时，表示文本的右侧处于视野边缘，如图5(2)所示，需要左移书本。盲人视觉辅助设备通过播放声音提示移动书本向左侧方向或者移动盲人视觉辅助设备向右侧方向，即通过语音提示左移书本；否则，则不作处理；

A6，通过步骤A5使得盲人视觉辅助设备和书本在图像视线方向处于合适的水平位置，之后还要提示盲人用户书本的上下位置是否合适，计算出第一个文本框的顶部坐标minTop以及最后一个文本框的底部坐标maxBottom：

minTop＝top₁

maxBottom＝top_n+height_n

当minTop＜minGap时，表示文本的上侧处于视野边缘，如图5(3)所示，需要下移书本。盲人视觉辅助设备通过播放声音提示移动书本向下侧方向或者移动盲人视觉辅助设备向上侧方向，即通过语音提示下移书本；

当maxBottom＞previewHeight-minGap时，表示文本的下侧处于视野边缘，如图5(4)所示，需要上移书本。盲人视觉辅助设备通过播放声音提示移动书本向上侧方向或者移动盲人视觉辅助设备向下侧方向，即通过语音提示上移书本；否则，则不作处理；

A8，将每一个文本框按照竖直坐标排序，从上至下地将各个文本框的文字识别结果通过盲人视觉辅助设备播放声音，进而实现盲人辅助的书本实时阅读。

由此本发明能通过图像采集设备获取文本信息图像，将图像输入到拥有小目标检测能力的卷积神经网络中进行特征提取并通过文本检测算法获取当前图像的文本行位置，进而作出一系列图像分析判断并反馈通过语音提示盲人用户做出行为从而达到与用户交互的目的，解决了阅读场景下盲人所使用视觉辅助设备与盲人的交互问题，使得盲人获得的文字识别结果更加准确可靠。

Claims

1.一种盲人友好的书本文字阅读检测交互方法，其特征在于：方法过程如下：

A1，盲人视觉辅助设备佩戴在盲人身上，通过盲人视觉辅助设备采集获得前方的书本阅读对象的图像，将图像大小均为previewWidth*previewHeight，实时地将图像输入骨干卷积神经网络，获取特征图；再将特征图通过基于锚点或无锚点直接回归的文字检测网络，获取当前图像的文字检测结果，即实时得到书本阅读对象中每一行文字的检测结果，每一行文字构成了一个文本框，第i行文字的文本框表示为{left_i，top_i，width_i，height_i}，left_i，top_i，width_i，height_i分别表示第i行文字的文本框的左侧边沿坐标、上侧边沿坐标、宽度和高度；

其中，i表示文字行的序数，n表示文字行的总数；

A3，然后根据文本框高度均值averageHeight进行判断：

当文本框高度均值averageHeight＜thresholdHeight₁时，thresholdHeight₁表示最远距离文本框高度阈值，则当前盲人视觉辅助设备距离书本太远，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备靠近书本；

当文本框高度均值averageHeight＞thresholdHeight₂时，thresholdHeight₂表示最近距离文本框高度阈值，则当前盲人视觉辅助设备距离书本太近，盲人视觉辅助设备通过播放声音提示移动书本靠近盲人视觉辅助设备或者移动盲人视觉辅助设备远离书本；

当文本框高度均值满足thresholdHeight₁≤averageHeight≤thresholdHeight₂后，则当前盲人视觉辅助设备距离书本达到合适范围；

A4，计算出各个文本框左侧坐标的最小值minLeft以及各个文本框右侧坐标的最大值maxRight：

当minLeft＜minGap时，minGap表示文本框与图像边缘距离的最小值，盲人视觉辅助设备通过播放声音提示移动书本向右侧方向或者移动盲人视觉辅助设备向左侧方向；

当maxRight＞previewWidth-minGap时，盲人视觉辅助设备通过播放声音提示移动书本向左侧方向或者移动盲人视觉辅助设备向右侧方向；

A6，计算出第一个文本框的顶部坐标minTop以及最后一个文本框的底部坐标maxBottom：

minTop＝top₁

maxBottom＝top_n+height_n

当minTop＜minGap时，盲人视觉辅助设备通过播放声音提示移动书本向下侧方向或者移动盲人视觉辅助设备向上侧方向；

当maxBottom＞previewHeight-minGap时，盲人视觉辅助设备通过播放声音提示移动书本向上侧方向或者移动盲人视觉辅助设备向下侧方向；

2.根据权利要求1所述的一种盲人友好的阅读场景文字检测交互方法，其特征在于：所述的骨干卷积神经网络具体采用mobilenetV2神经网络。

3.根据权利要求1所述的一种盲人友好的阅读场景文字检测交互方法，其特征在于：所述的文字检测网络采用CTPN神经网络。

4.根据权利要求1所述的一种盲人友好的阅读场景文字检测交互方法，其特征在于：所述的盲人视觉辅助设备是指带有摄像头和声音输出设备的眼镜，眼镜戴在盲人上。

5.根据权利要求1所述的一种盲人友好的阅读场景文字检测交互方法，其特征在于：人手握图书在胸前，通过摄像头拍摄RGB图像进而进行图像分析识别获得图书上的文字信息。