CN114168104A

CN114168104A - 一种面向视障人群的场景文字交互式理解系统

Info

Publication number: CN114168104A
Application number: CN202111491972.1A
Authority: CN
Inventors: 余宙; 王璐瑶; 梁崴; 黄逸飞; 陈晨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-11

Abstract

本发明公开了一种面向视障人群的场景文字交互式理解系统，包括手机移动端APP和后端视觉交互计算处理平台，手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件；后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型。本发明能够实现针对不同场景图片中的文字信息的识别，场景信息由用户自主采集，环境适应性和可拓展性高，且对于场景中文字识别的灵敏度和准确性高。可以根据用户问题进行动态回答，更具实用性和实时性；能够安装在手机移动端可以使用语音进行信息交互上，对用户来说，使用方便，耗费成本较低，简易上手。

Description

一种面向视障人群的场景文字交互式理解系统

技术领域

本发明属于计算机视觉技术领域和互联网技术领域，尤其涉及到一种基于视觉描述技术和视觉问答技术，通过语音交互辅助视障人群获取图像中文字信息的方法。

背景技术

根据卫生部统计，中国的盲人达1400万之多，数量列居世界之首，且包括盲人在内的视障人群规模还在不断地扩大。视觉障碍人群日常生活的不便利性和危险性使得视障人群对于能辅助其正常生活的设施产生了较大的需求，各类视障辅助产品也应运而生。就文字辅助识别方面而言，现有产品大都无法实现针对场景图片所含文字的智能识别，且无法以语音形式和视障用户端进行信息交互，不能满足视障人群对图像中文字信息获取感知的需求。因此，如何识别照片等各类场景图像中文字信息并实现与用户语音交互，成为信息无障碍化建设中亟待解决的问题。

当前视觉问答(VQA)和视觉描述(VCap)领域技术发展日趋成熟，已经能够实现了很好的效果。但是传统的视觉问答和视觉描述的局限性在于概要性的描述，无法对图像中的具体文字进行描述，图像文字信息描述效果较差。因此TextVQA和TextCap进一步发展，其为重点关注图像中文本信息的文本视觉问答和文本图像描述新兴技术，其结合光学字符识别技术(OCR，OpticalCharacterRecognition)，对图像中所包含的文字信息的敏感度更高。

发明内容

为了实现场景图片中文字信息的获取，满足视障用户对场景中文字的感知需求，本发明基于文本图像描述技术(TextCap)和文本视觉问答技术(TextVQA)，提供了一种基于语音交互形式，辅助视障人群理解场景文字信息的系统。

面向视障人群的场景文字交互式理解系统由手机移动端APP和后端视觉交互计算处理平台两大基本模块构成。手机移动端APP是用户与系统交互的直接方式，考虑到用户群体(视障人群)的特殊性，交互形式以语音交互为主，以争取最大限度的保证用户使用APP的便捷性和简单性；后端视觉交互计算处理平台主要实现视觉问答和图像描述两大核心功能，由后端根据用户的提问内容自动进行双任务区分处理操作，形成一个完整统一的后端视觉交互计算处理平台。

一种面向视障人群的场景文字交互式理解系统，包括手机移动端APP和后端视觉交互计算处理平台，以下简称前端和后端。

所述的手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件。

所述的语音唤醒组件，针对视障人群设计，简化手机移动端APP的使用，通过语音唤醒组件完成APP的语音唤醒，无需手动点击APP图标进行启动。

所述视觉场景拍摄组件，由用户通过手机自带摄像头获取周围场景照片即图像信息。考虑到用户的特殊性，为方便视障人群使用，视觉场景拍摄组件对拍摄界面进行简化设计，用户点击屏幕任意处均可触发拍摄功能。

所述的语音问题采集组件，通过手机麦克风收集用户针对所拍摄照片进行口头提问，采集语音信息。

所述的语音转换文字组件，用于对所采集的语音信息进行转换，形成对应的文字信息。

所述的逻辑判断组件，根据语音转换文字组件所得的文字信息，判断区分视觉问答和图像描述两个功能。其通过附加一个任务区分标志实现：如果用户要求视觉问答功能(即文字信息中包含“视觉问答”)则任务区分标志置1，如果用户要求图像描述功能(即文字信息中包含“图像描述”)则任务区分标志置0。任务区分标志附加在语音转换文字组件所得的文字信息的最前端。

所述的数据传输收发组件，用于负责前后端之间信息交流工作，包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端，同时接收后端视觉交互平台处理完成后发送回来的文字信息回复。

所述的文字合成语音组件，将从后端所接收的文字信息回复转换成对应的语音信息，并通过手机扩音器播报传达给用户。

所述的后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型，用于对数据传输收发组件发送的图像信息和文字信息进行分析，得到对应的文字信息结果。

所述的输入预处理模块，用于对数据传输收发组件上传的数据进行预处理，包括三个方面：图像文字特征提取、图像特征提取和文字特征提取；

(1)图像文字特征提取

针对前端传输的图像信息中包含的文字特征提取，采用成熟且完整度高的OCR技术(字符识别技术)进行提取。

(2)图像特征提取

针对前端传输的图像信息中包含的物体特征提取，使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。

(3)文字特征提取

针对前端传输的问题文字信息，采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同，实现针对TextVQA和TextCap任务进行自适应调整：如果任务区分标志为1，则说明是视觉问答任务，进行问题特征输入；如果任务区分标志为0，则说明是图像描述任务，不需要进行问题特征输入，将文字特征置0处理即可。

所述的多头注意力机制模型，用于对输入的特征进行交叉学习，迭代输出得到对应的文字信息结果。

进一步的，所述的语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用，实现语音信息转换成文字信息。

进一步的，其中采用的多头注意力机制模型设计如下：

多头注意力机制模型基于现有的M4C模型和M4C-Captioner模型，结合多任务联合学习机制进行创新，将TextVQA和TextCap任务进行融合，针对多头注意力机制模型的输入进行优化设计，降低模型在实际运行阶段的计算复杂度，以满足系统实时性的需求。

多头注意力机制模型对已处理好的图像文字特征，图像特征和文字特征进行处理后，将处理信息进行输出解码。解码时输入上一个预测的单词编码结果，根据解码端的输出，采用动态指针结构，在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词，作为下一个单词，直到预测出结束标志符，完成后端视觉信息处理的工作，并把预测结果返回给前端即移动端APP。

一种面向视障人群的场景文字交互式理解系统的使用方法，步骤如下：

步骤(1)、用户通过手机移动端APP的语音唤醒组件唤醒APP，运行APP获得照片存储权限和相机访问权限；

步骤(2)、通过视觉场景拍摄组件获取图像信息；

APP唤醒即进入照片拍摄界面，APP自动进行语音提示“请拍摄照片”，由用户点击屏幕有效区域的任意位置(相当于按下拍照键)，通过手机摄像头拍摄图像后缓存。

步骤(3)、确定任务模式；

获取图像信息后，手机移动端APP自动进行语音提问，首先提示用户确定任务模型，等待用户回答进行“视觉问答”还是“图像描述”；通过语音问题采集组件采集语音信息，再通过语音转换文字组件，用于对所采集的语音信息进行转换，形成对应的文字信息，发送至逻辑判断组件进行判断；

当用户选择“图像描述”时，逻辑判断组件判断后，将任务区分标志置0，手机移动端APP不再继续提示“请提问”，逻辑判断组件将任务区分标志附加到文字信息的最前端，再通过数据传输收发组件进行处理。

当用户选择“视觉问答”时，逻辑判断组件判断后，将任务区分标志置1，且手机移动端APP继续提示“请提问”，等待用户提出问题，并通过语音问题采集组件采集问题语音信息，然后使用语音转文字组件将采集到的问题语音信息转换成文字信息，逻辑判断组件再将任务区分标志附加到问题语音信息转换的文字信息的最前端，再通过数据传输收发组件进行处理。

步骤(4)、通过数据传输收发组件将视觉拍摄组件获取的图像信息和逻辑判断组件处理后的文字信息发送至后端，

步骤(5)、通过输入预处理模块对数据传输收发组件上传的数据进行预处理，包括三个方面：图像文字特征提取、图像特征提取和文字特征提取；

(1)图像文字特征提取

针对前端传输的图像信息中包含的文字特征提取，采用成熟且完整度高的OCR技术进行提取。

(2)图像特征提取

(3)文字特征提取

步骤(6)、通过多头注意力机制模型完成文本图像描述和文本视觉问答的任务。

多头注意力机制模型对已处理好的图像文字特征，图像特征和文字特征进行处理后，将处理信息进行输出解码。解码时输入上一个预测的单词编码结果，根据解码端的输出，采用动态指针结构，在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词，作为下一个单词，直到预测出结束标志符，完成后端视觉信息处理的工作，并把预测结果返回给前端即手机移动端APP。

步骤(7)、手机移动端APP通过数据传输收发组件接收到后端所接收的文字信息回复后，通过文字合成语音组件，将从后端所接收的文字信息回复转换成对应的语音信息，并通过手机扩音器播报传达给用户。

本发明具有的优点及有益结果为：

1.本发明通过语音技术、新颖的文字视觉描述和文字视觉问答技术，解决广大视障人群在日常生活中无法准确感知场景中相关文字信息的问题，从而在一定程度上提高视觉障碍人群的生活质量。

2.能够实现针对不同场景图片中的文字信息的识别，场景信息由用户自主采集，环境适应性和可拓展性高，且对于场景中文字识别的灵敏度和准确性高。

3.能够实现和用户的语音交互，可以根据用户问题进行动态回答，更具实用性和实时性。

4.能够安装在手机移动端可以使用语音进行信息交互上，对用户来说，使用方便，耗费成本较低，简易上手。

附图说明

图1是本发明的整体架构图；

图2是本发明的手机移动端APP用户使用流程；

图3是本发明的后端视觉交互平台网络模型；

图4是本发明中文本视觉描述功能说明；

图5是本发明中文本视觉问答功能说明；

具体实施方式

下面结合附图与实施例，对本发明做进一步的说明：

手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件。

语音唤醒组件，针对视障人群设计，简化手机移动端APP的使用，通过语音唤醒组件完成APP的语音唤醒，无需手动点击APP图标进行启动。

语音问题采集组件，通过手机麦克风收集用户针对所拍摄照片进行口头提问，采集语音信息。

语音转换文字组件，用于对所采集的语音信息进行转换，形成对应的文字信息。

逻辑判断组件，根据语音转换文字组件所得的文字信息，判断区分视觉问答和图像描述两个功能。其通过附加一个任务区分标志实现：如果用户要求视觉问答功能(即文字信息中包含“视觉问答”)则任务区分标志置1，如果用户要求图像描述功能(即文字信息中包含“图像描述”)则任务区分标志置0。任务区分标志附加在语音转换文字组件所得的文字信息的最前端。

数据传输收发组件，用于负责前后端之间信息交流工作，包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端，同时接收后端视觉交互平台处理完成后发送回来的文字信息回复。

文字合成语音组件，将从后端所接收的文字信息回复转换成对应的语音信息，并通过手机扩音器播报传达给用户。

语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用，实现语音信息转换成文字信息。

输入预处理模块，用于对数据传输收发组件上传的数据进行预处理，包括三个方面：图像文字特征提取、图像特征提取和文字特征提取；

(1)图像文字特征提取

(2)图像特征提取

(3)文字特征提取

多头注意力机制模型，用于对输入的特征进行交叉学习，迭代输出得到对应的文字信息结果。

步骤(2)、通过视觉场景拍摄组件获取图像信息；

步骤(3)、确定任务模式；

(1)图像文字特征提取

(2)图像特征提取

(3)文字特征提取

实施例

1.手机移动端APP

针对前端即移动端APP，本发明基于使用广泛且应用稳定的vue框架进行开发，编程实现各个组件的功能。其中语音转换文字组件和文字合成语音组件所涉及的语音转换技术采用科大讯飞的语音识别SDK的API调用，因为其提供了将小于60秒的语音信号转换成对应文字信息的语音听写接口以及iFLYOS服务接入平台，降低了读取语音信息的技术门槛。

APP用户使用流程可参考图1。首先用户通过语音唤醒APP，运行APP获得照片存储权限和相机访问权限，进入照片拍摄界面，APP语音提示“请拍摄照片”，由用户点击屏幕有效区域的任意位置(相当于按下拍照键)，通过手机摄像头拍摄图像后缓存，APP语音提示“请提问”，等待用户提出问题，先提问是“视觉问答”还是“图像描述”，如果是视觉问答，则需要再提出对应问题。由APP录音后，和先前拍摄的图像一起输送给后端，使用语音转文字模块将录音转换成文字信息，再使用预训练好的多头注意力机制模型对图片和提问进行分析，得到答案的文字信息，输送至前端，由文字转语音模块进行转换，APP语音回答，告知用户答案，再一次由用户点击屏幕有效区域的任意位置进行确认后，APP重新回到等待拍摄状态，重新语音提示“请拍摄照片”。

2.后端视觉交互处理计算平台

针对后端视觉交互平台，本发明采用结合M4C模型和M4C-Captioner模型融合改进的多头注意力机制模型实现图像信息和问题信息的处理功能，进行文本视觉问答以及文本图像描述答案的生成，为提取多头注意力机制模型所需的文字和图片信息输入特征，同时增加了一个输入预处理模块。

其中输入预处理模块的设计如下：

主要提取图像文字特征、图像特征以及文字特征

(1)图像文字特征提取

(2)图像特征提取

(3)文字特征提取

其中采用的多头注意力机制模型设计如下：

以上的具体实施方案，针对本发明的实施过程进行了进一步的详细说明，但并非是对本发明的限制，本发明也不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种面向视障人群的场景文字交互式理解系统，其特征在于，包括手机移动端APP和后端视觉交互计算处理平台，以下简称前端和后端；

所述的手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件；

所述的语音唤醒组件，针对视障人群设计，简化手机移动端APP的使用，通过语音唤醒组件完成APP的语音唤醒，无需手动点击APP图标进行启动；

所述视觉场景拍摄组件，由用户通过手机自带摄像头获取周围场景照片即图像信息；考虑到用户的特殊性，为方便视障人群使用，视觉场景拍摄组件对拍摄界面进行简化设计，用户点击屏幕任意处均可触发拍摄功能；

所述的语音问题采集组件，通过手机麦克风收集用户针对所拍摄照片进行口头提问，采集语音信息；

所述的语音转换文字组件，用于对所采集的语音信息进行转换，形成对应的文字信息；

所述的逻辑判断组件，根据语音转换文字组件所得的文字信息，判断区分视觉问答和图像描述两个功能；其通过附加一个任务区分标志实现：如果用户要求视觉问答功能则任务区分标志置1，如果用户要求图像描述功能则任务区分标志置0；任务区分标志附加在语音转换文字组件所得的文字信息的最前端；

所述的数据传输收发组件，用于负责前后端之间信息交流工作，包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端，同时接收后端视觉交互平台处理完成后发送回来的文字信息回复；

所述的文字合成语音组件，将从后端所接收的文字信息回复转换成对应的语音信息，并通过手机扩音器播报传达给用户；

2.根据权利要求1所述的一种面向视障人群的场景文字交互式理解系统，其特征在于，所述的语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用，实现语音信息转换成文字信息。

3.根据权利要求2所述的一种面向视障人群的场景文字交互式理解系统，其特征在于，所述的输入预处理模块，用于对数据传输收发组件上传的数据进行预处理，包括三个方面：图像文字特征提取、图像特征提取和文字特征提取；

(1)图像文字特征提取

针对前端传输的图像信息中包含的文字特征提取，采用成熟且完整度高的OCR技术(字符识别技术)进行提取；

(2)图像特征提取

针对前端传输的图像信息中包含的物体特征提取，使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征；

(3)文字特征提取

针对前端传输的问题文字信息，采用的是预训练好的BERT模型进行编码得到文字特征；通过文字信息最前端的任务区分标志的不同，实现针对TextVQA和TextCap任务进行自适应调整：如果任务区分标志为1，则说明是视觉问答任务，进行问题特征输入；如果任务区分标志为0，则说明是图像描述任务，不需要进行问题特征输入，将文字特征置0处理即可。

4.根据权利要求3所述的一种面向视障人群的场景文字交互式理解系统，其特征在于，所述的多头注意力机制模型，用于对输入的特征进行交叉学习，迭代输出得到对应的文字信息结果；

多头注意力机制模型基于现有的M4C模型和M4C-Captioner模型，结合多任务联合学习机制进行创新，将TextVQA和TextCap任务进行融合，针对多头注意力机制模型的输入进行优化设计，降低模型在实际运行阶段的计算复杂度，以满足系统实时性的需求；

多头注意力机制模型对已处理好的图像文字特征，图像特征和文字特征进行处理后，将处理信息进行输出解码；解码时输入上一个预测的单词编码结果，根据解码端的输出，采用动态指针结构，在预先保留的出现频率最高的单词库和在图片中检测出的文字中选取一个单词，作为下一个单词，直到预测出结束标志符，完成后端视觉信息处理的工作，并把预测结果返回给前端即移动端APP。

5.一种面向视障人群的场景文字交互式理解系统的使用方法，其特征在于，步骤如下：

步骤(2)、通过视觉场景拍摄组件获取图像信息；

APP唤醒即进入照片拍摄界面，APP自动进行语音提示“请拍摄照片”，由用户点击屏幕有效区域的任意位置(相当于按下拍照键)，通过手机摄像头拍摄图像后缓存；

步骤(3)、确定任务模式；

当用户选择“图像描述”时，逻辑判断组件判断后，将任务区分标志置0，手机移动端APP不再继续提示“请提问”，逻辑判断组件将任务区分标志附加到文字信息的最前端，再通过数据传输收发组件进行处理；

当用户选择“视觉问答”时，逻辑判断组件判断后，将任务区分标志置1，且手机移动端APP继续提示“请提问”，等待用户提出问题，并通过语音问题采集组件采集问题语音信息，然后使用语音转文字组件将采集到的问题语音信息转换成文字信息，逻辑判断组件再将任务区分标志附加到问题语音信息转换的文字信息的最前端，再通过数据传输收发组件进行处理；

(1)图像文字特征提取

针对前端传输的图像信息中包含的文字特征提取，采用成熟且完整度高的OCR技术进行提取；

(2)图像特征提取

(3)文字特征提取

针对前端传输的问题文字信息，采用的是预训练好的BERT模型进行编码得到文字特征；通过文字信息最前端的任务区分标志的不同，实现针对TextVQA和TextCap任务进行自适应调整：如果任务区分标志为1，则说明是视觉问答任务，进行问题特征输入；如果任务区分标志为0，则说明是图像描述任务，不需要进行问题特征输入，将文字特征置0处理即可；

步骤(6)、通过多头注意力机制模型完成文本图像描述和文本视觉问答的任务；

多头注意力机制模型对已处理好的图像文字特征，图像特征和文字特征进行处理后，将处理信息进行输出解码；解码时输入上一个预测的单词编码结果，根据解码端的输出，采用动态指针结构，在预先保留的出现频率最高的单词库和在图片中检测出的文字中选取一个单词，作为下一个单词，直到预测出结束标志符，完成后端视觉信息处理的工作，并把预测结果返回给前端即手机移动端APP；