CN105787442A

CN105787442A - 一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法

Info

Publication number: CN105787442A
Application number: CN201610093809.2A
Authority: CN
Inventors: 程洪; 黄殿; 杨路; 邝逸群; 金凡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-02-19
Filing date: 2016-02-19
Publication date: 2016-07-20
Anticipated expiration: 2036-02-19
Also published as: CN105787442B

Abstract

本发明公开了一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法，系统包括摄像头和ARM处理器，所述的ARM处理器包括：手指检测模块：用于接收摄像头传感器采集的图像，并检测图像中手指在图像中的位置；ROI提取模块：用于根据手指位置的先验信息结合图像的边界大小确定出ROI位置，及获得兴趣目标的潜在位置，输出至检测识别模块；检测识别模块：并行的多个检测识别模块应对不同的目标检测；综合模块：综合多个检测识别模块的识别结果，分析出用户的使用意图；语音输出模块。本发明用于辅助视障人群日常生活，可通过语音提示使用者手指所指向的物体，用户只要用手指指向交互的给出识别的物品，那么设备就会进行识别并将结果语音输出，具有自然、易用的特点。

Description

一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法

技术领域

本发明涉及一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法。

背景技术

可穿戴设备是指直接穿戴在使用者身上或是整合到使用者的衣服或配件上的设备，具体实现形式主要有头盔、眼镜、手表、腕带、鞋子等等。随着工业技术的进步智能设备的形式也在将来也一定会呈现不一样的形式。与传统电子设备相比较，可穿戴设备具有方便携带和交互性好等优点，可以作为信息通信工具无缝地存在于生活和工作环境中，为人们的生活提供极大地便利。

市面上面向大众化的可穿戴设备主要可以分为如下几类：首先是消费娱乐类，主要是满足人们信息沟通、游戏娱乐需求，代表产品智能手表、眼镜(GoogleGlass、Smartwatch、虚拟现实头盔等)。然后就是健康医疗类，主要用于对用户身体状态和运动记录做出有效评估和给出合理建议，代表产品主要有Nike+系列、JawboneUp、Dubike等等。再有就是安全保护类，该类产品主要用于满足老年人和小孩需求，防止走失，代表产品(GTX鞋、BuDiu童鞋)。最后就是智能手机辅助类，作为其他移动设备的补充，使得其他设备的操作变得更加智能便捷，代表产品Pebble腕带。

现阶段大部分穿戴设备的焦点依然关注在消费领域，却很少有人将注意力放在对帮助残疾人改善他们本就不易的生活。根据世界卫生组织2013年给出的“面向普遍的眼健康：2014–2019年全球行动计划”统计数据显示。全球大概有2.85亿视觉损伤者，其中盲人约有3900万，其余的大多为视弱。另外，根据中国统计局给出数据，在2007年五月份给出的第二次全国残疾人抽样调查数据显示。中国目前各类残疾人总数为8296万人。占全国人口总数的6.34％。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法，用于辅助视障人群日常生活，具有识别具体物体、纸币、文字等功能可以为视力残障人士提供帮助。同时可通过语音提示使用者手指所指向的物体，用户只要用手指指向交互的给出识别的物品，那么设备就会开始读取这个场景，进行识别并将结果语音输出。本发明采用基于手势的交互方式，具有自然、易用的特点。

本发明的目的是通过以下技术方案来实现的：一种基于视觉交互面向视障人群的穿戴式辅助系统，它包括摄像头和ARM处理器，所述的ARM处理器包括：

手指检测模块：用于接收摄像头传感器采集的图像，并检测图像中手指在图像中的位置T(x,y)；

ROI提取模块：用于根据手指位置的先验信息结合图像的边界大小确定出ROI位置，及获得兴趣目标的潜在位置，输出至检测识别模块；

检测识别模块：并行的多个检测识别模块应对不同的目标检测；

综合模块：综合多个检测识别模块的识别结果，分析出用户的使用意图；

语音输出模块：把分析的结果通过语音的方式反馈给用户。

所述的检测识别模块包括纸币识别模块、场景文字识别模块和家居物品识别模块。

所述的语音输出模块将语音通过骨传导耳机反馈给用户。

一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，包括以下步骤：

S1：手指指尖检测，包括以下子步骤：

S101：针对不同的场景训练随机回归树来建模不同光照，得到手掌区域检测器；

S102：通过手掌区域检测器以及采集的图像I提取手掌轮廓；

S103：通过几何约束计算出指尖坐标T(x,y)，所述的几何约束包含距离约束和夹角约束；

S2：ROI提取，根据步骤S1获得的指尖位置结合图片边界几何约束可以计算出ROI[x₀,y₀,w₀,h₀]：

\{\begin{matrix} x_{0} = x - \frac{1}{2} * w_{0} \\ y_{0} = y - h_{0} \\ w_{0} = α * M i n (x, w - x) \\ h_{0} = β * M i n (y, h - y) \end{matrix}

其中，α,β为ROI大小修正参数，w为图像I的宽，h为图像I的高；

S3：检测识别，包括以下子步骤：

S301：通过mask操作获得ROI子图，作为识别模块的输入；

S302：采用多线程并行的处理方式，把不同功能的检测识别模块放到不同线程中去；

S4：综合识别：通过综合步骤S3中各个检测识别模块的识别结果，准确分析处用户的使用意图，通过文本的方式给出结果；

S5：语音输出：采用TTS引擎，接受由步骤S4给出的识别结果，然后转化成语音的方式通过骨传导耳机反馈给使用者。

所述的步骤S101包括以下子步骤：

S10101：采集大量不同条件下的手掌肤色样本得到一个肤色训练集，包括正负样本；

S10102：对采集来的样本根据HSV各通道的直方图进行k-means聚类c_i，类别数目可以根据经验设置为不同的值，其中c_i表示不同场景，i＝1,2,....k，k为k-means的类别数取经验值；

S10103：对于每一个类别c_i，学习一个独立的随机回归树P(c_i||g)，g表示图像I的全局特征；

S10104：对于待检测的像素点p(x,y)，和给定l,g条件下，属于判定为像素点的概率用如下全概率公式表达：

P (p | l, g) = \underset{i}{Σ} P (p | l, c_{i}) P (c_{i} | g)

其中P(T|l,c_i)是给定全局特征条件下属于第i个场景的概率，由步骤S10103中的随机回归树学习得到；P(c_i|g)是通过步骤S10103学习过程中聚类步骤中通过统计第i中场景下光照获得；l表示图像I的局部特征；

所述的步骤S102包括以下子步骤：比较P(p|l,g)与概率化的阈值μ，得到当前像素p(x,y)是否属于手掌，将所有属于手掌的像素点保留得到手掌轮廓。

所述的步骤S103包括以下子步骤：

S10301：在手掌轮廓上取第i点T_i(x,y)，以及T_i(x,y)的前后第k个点分别为T_i+k(x,y)，T_i-k(x,y)，此处k两点间间隔的像素点为经验值；

S10302：依次遍历轮廓上的各像素点，分别计算向量和的点积和叉积：通过判断点积的极值可以检测出手掌轮廓上的凹点以及凸点；

S10303：利用叉积结合右手法则分辨出指尖；

S10304：在获得过个拟指尖的点后，再通过计算指尖到手掌轮廓中的距离||TC||，以||TC||最大值对应的点即为待求指尖点T(x,y)；C表示手掌轮廓的中心点。

所述的步骤S302包括一个常用物品识别子步骤：在外部PC端进行离线分类器学习，将分类器移植入到嵌入式运算器中进行在线识别。

所述的步骤S302包括一个纸币识别子步骤：

S3020101：采集不同光照条件下标准纸币模板，根据纸币的纹理特征将纸币划分成不同小块；

S3020102：对每个小块计算局部特征，然后将每个小块的局部特征组合成一个特征向量作为纸币的特征表达，对所有的模板执行相同操作；

S3020103：在识别匹配阶段，用计算纸币特征表达相同的方式来计算待识别目标的特征；

S3020104：然后将该特征向量与模板库中特征向量计算相似度，通过阈值化的相似度既可以判断出纸币的币种、面额信息。

所述的步骤S302包括一个场景文字识别子步骤：

S3020201：预处理，包括模糊处理、二值化、边缘检测；

S3020202：特征提取，包括字符水平特征、几何相似度特征，用于字符区域检测；

S3020203：规则聚链，包括字符方向、字符尺度、颜色，用于将单个字符聚合正单词，单词组合成句子；

S3020204：后续处理，包括方向校正、缺失补齐，用于将检测出来的文本作进一步处理成水平二值化分割好的文本区域；

S3020205：OCR引擎识别检测结果。

所述的步骤S5包括以下子步骤：

S501：文本分析：对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，并在其中加入所需要的各种发音提示，包括数字、特殊词汇、断句停顿；

S502：语音合成：把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形；

S503：通过骨传导耳机反馈给使用者。

本发明的有益效果是：

本发明最主要解决的问题是如何准确的识别出用户的使用意图，并且快速的把结果反馈给用户：旨在根据视障人群日程生活中常用的触觉媒介“手”作为切入点，将手作为用户与设备之间的交互方式使得用户体验更加自然流畅，这同时也是出于对于穿戴式设备就算性能受限的考虑，通过手指交互的方式可以有效快速的获取到目标物体所在区域(RegionOfInterest，ROI)，从而极大减小在识别过程中的计算量，提高计算效率。

本发明实现视障人群日常生活辅助设备原型，帮助视障人群在室内可以较为自如、独立的生活。此外，纸币识别配合文字是识别可以帮助他们自如的完成超市购物等日常活动。

本发明使用单摄像头和高性能ARM处理器构建出面向视障人群的穿戴式辅助设备,硬件简单易用。提出的软件框架具有运算高效，交互方式自然、流畅的特点。物品识别功能支持识别库的扩容，以识别更多物品。

附图说明

图1为本发明硬件结构示意图；

图2为本发明软件框图；

图3为本发明方法流程图；

图4为手掌检测器训练流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：如图1所示，一种基于视觉交互面向视障人群的穿戴式辅助系统，它包括摄像头和ARM处理器，如图2所示，所述的ARM处理器包括：

语音输出模块：把分析的结果通过语音的方式反馈给用户。

手指检测模块接收单目摄像头传感器采集的图像然后检测图像中手指的在图像中位置T(x,y)，然后通过手指位置的先验信息结合图像的边界大小来确定出ROI的位置，及获得兴趣目标的大致潜在位置。在获取到ROI之后，将ROI作为后续识别模块的输入。并行的多个检测识别模块可以应对不同的目标检测。之后，综合模块则是综合每个检测识别模块的输出，分析得到用户的使用意图，把结果通过语音的方式反馈给用户。

如图1所示，在本实施例中，可拆卸式骨传导耳机和微型摄像头均设置于眼镜的镜架上。

所述的语音输出模块将语音通过骨传导耳机反馈给用户。

在使用时，用户戴上安装好可拆卸式骨传导耳机和微型摄像头的眼镜，将手指指向目标物体。

如图3所示，一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，包括以下步骤：

S1：手指指尖检测，包括以下子步骤：

为了检测到指尖的位置，我们首先要对整个手掌进行检测，然后在通过手掌计算出指尖所在位置具体方法。为了让手掌检测器更加鲁棒，适应于不同光照条件，本发明中设计了一种有监督学习的手掌区域检测器。针对不同的场景(光照)训练随机回归树来建模不同光照。

如图4所示，所述的步骤S101包括以下子步骤：

P (p | l, g) = \underset{i}{Σ} P (p | l, c_{i}) P (c_{i} | g)

S102：通过手掌区域检测器以及采集的图像I提取手掌轮廓：比较P(p|l,g)与概率化的阈值μ，得到当前像素p(x,y)是否属于手掌，将所有属于手掌的像素点保留得到手掌轮廓；μ表示像素属于手掌的概率化阈值；

所述的步骤S103包括以下子步骤：

S10303：利用叉积结合右手法则分辨出指尖；

\{\begin{matrix} x_{0} = x - \frac{1}{2} * w_{0} \\ y_{0} = y - h_{0} \\ w_{0} = α * M i n (x, w - x) \\ h_{0} = β * M i n (y, h - y) \end{matrix}

S3：检测识别，包括以下子步骤：

S301：通过mask操作获得ROI子图，作为识别模块的输入，可以有有效的提升算法处理效率；

常用物品识别，这可以看做是一个多类别的分类问题。在本发明中该模块采用的是一种离线学习(PC)，在线识别的方式(嵌入式运算器)。由于分类器的学习过程是一个运算量要求较大的过程，因此采用离线的方式在PC上完成学习。在分类器的学习过程中，采用的是一种特征共享的学习算法，该学习算法可以完成有效的在多类分类问题中有效的学习到各个类别的共有特征。从而减小在分类过程中特征空间，以增加运算的效率。在学习完分类器后，将分类器移植到嵌入式运算器，即可以实现多类分类的目标。此外，如果目标类别需要改变或者增加只需要重新离线训练，然后更新分类器即可。

所述的步骤S302包括一个纸币识别子步骤，纸币识别是基于一个I2C的模板匹配识别方式。通过改变模板库的大小可以实现不同币种面值识别任务：

所述的步骤S302包括一个场景文字识别子步骤，采用基于MSER及笔画线宽的检测方式：

S3020201：预处理，包括模糊处理、二值化、边缘检测；

S3020205：OCR引擎识别检测结果。

所述的步骤S5包括以下子步骤：

S503：通过骨传导耳机反馈给使用者。

Claims

1.一种基于视觉交互面向视障人群的穿戴式辅助系统，其特征在于：它包括摄像头和ARM处理器，所述的ARM处理器包括：

语音输出模块：把分析的结果通过语音的方式反馈给用户。

2.根据权利要求1所述的一种基于视觉交互面向视障人群的穿戴式辅助系统，其特征在于：所述的检测识别模块包括纸币识别模块、场景文字识别模块和家居物品识别模块。

3.根据权利要求1所述的一种基于视觉交互面向视障人群的穿戴式辅助系统，其特征在于：所述的语音输出模块将语音通过骨传导耳机反馈给用户。

4.一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：包括以下步骤：

S1：手指指尖检测，包括以下子步骤：

S102：通过手掌区域检测器以及采集的图像I提取手掌轮廓；

\{\begin{matrix} x_{0} = x - \frac{1}{2} * w_{0} \\ y_{0} = y - h_{0} \\ w_{0} = α * M i n (x, w - x) \\ h_{0} = β * M i n (y, h - y) \end{matrix}

S3：检测识别，包括以下子步骤：

S301：通过mask操作获得ROI子图，作为识别模块的输入；

5.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S101包括以下子步骤：

P (p | l, g) = \underset{i}{Σ} P (p | l, c_{i}) P (c_{i} | g)

6.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S103包括以下子步骤：

S10303：利用叉积结合右手法则分辨出指尖；

7.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S302包括一个常用物品识别子步骤：在外部PC端进行离线分类器学习，将分类器移植入到嵌入式运算器中进行在线识别。

8.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S302包括一个纸币识别子步骤：

9.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S302包括一个场景文字识别子步骤：

S3020201：预处理，包括模糊处理、二值化、边缘检测；

S3020205：OCR引擎识别检测结果。

10.根据权利要求4所述的一种基于视觉交互面向视障人群的穿戴式辅助系统的使用方法，其特征在于：所述的步骤S5包括以下子步骤：

S503：通过骨传导耳机反馈给使用者。