CN114168104A - 一种面向视障人群的场景文字交互式理解系统 - Google Patents
一种面向视障人群的场景文字交互式理解系统 Download PDFInfo
- Publication number
- CN114168104A CN114168104A CN202111491972.1A CN202111491972A CN114168104A CN 114168104 A CN114168104 A CN 114168104A CN 202111491972 A CN202111491972 A CN 202111491972A CN 114168104 A CN114168104 A CN 114168104A
- Authority
- CN
- China
- Prior art keywords
- component
- voice
- information
- character
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001771 impaired effect Effects 0.000 title claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 79
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 230000005540 biological transmission Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 13
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 29
- 238000005516 engineering process Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000010365 information processing Effects 0.000 claims description 7
- 206010047571 Visual impairment Diseases 0.000 claims description 6
- 238000003825 pressing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 208000029257 vision disease Diseases 0.000 claims description 3
- 230000004393 visual impairment Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 239000008186 active pharmaceutical agent Substances 0.000 claims 1
- 239000003550 marker Substances 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 12
- 230000004888 barrier function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型。本发明能够实现针对不同场景图片中的文字信息的识别,场景信息由用户自主采集,环境适应性和可拓展性高,且对于场景中文字识别的灵敏度和准确性高。可以根据用户问题进行动态回答,更具实用性和实时性;能够安装在手机移动端可以使用语音进行信息交互上,对用户来说,使用方便,耗费成本较低,简易上手。
Description
技术领域
本发明属于计算机视觉技术领域和互联网技术领域,尤其涉及到一种基于视觉描述技术和视觉问答技术,通过语音交互辅助视障人群获取图像中文字信息的方法。
背景技术
根据卫生部统计,中国的盲人达1400万之多,数量列居世界之首,且包括盲人在内的视障人群规模还在不断地扩大。视觉障碍人群日常生活的不便利性和危险性使得视障人群对于能辅助其正常生活的设施产生了较大的需求,各类视障辅助产品也应运而生。就文字辅助识别方面而言,现有产品大都无法实现针对场景图片所含文字的智能识别,且无法以语音形式和视障用户端进行信息交互,不能满足视障人群对图像中文字信息获取感知的需求。因此,如何识别照片等各类场景图像中文字信息并实现与用户语音交互,成为信息无障碍化建设中亟待解决的问题。
当前视觉问答(VQA)和视觉描述(VCap)领域技术发展日趋成熟,已经能够实现了很好的效果。但是传统的视觉问答和视觉描述的局限性在于概要性的描述,无法对图像中的具体文字进行描述,图像文字信息描述效果较差。因此TextVQA和TextCap进一步发展,其为重点关注图像中文本信息的文本视觉问答和文本图像描述新兴技术,其结合光学字符识别技术(OCR,OpticalCharacterRecognition),对图像中所包含的文字信息的敏感度更高。
发明内容
为了实现场景图片中文字信息的获取,满足视障用户对场景中文字的感知需求,本发明基于文本图像描述技术(TextCap)和文本视觉问答技术(TextVQA),提供了一种基于语音交互形式,辅助视障人群理解场景文字信息的系统。
面向视障人群的场景文字交互式理解系统由手机移动端APP和后端视觉交互计算处理平台两大基本模块构成。手机移动端APP是用户与系统交互的直接方式,考虑到用户群体(视障人群)的特殊性,交互形式以语音交互为主,以争取最大限度的保证用户使用APP的便捷性和简单性;后端视觉交互计算处理平台主要实现视觉问答和图像描述两大核心功能,由后端根据用户的提问内容自动进行双任务区分处理操作,形成一个完整统一的后端视觉交互计算处理平台。
一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,以下简称前端和后端。
所述的手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件。
所述的语音唤醒组件,针对视障人群设计,简化手机移动端APP的使用,通过语音唤醒组件完成APP的语音唤醒,无需手动点击APP图标进行启动。
所述视觉场景拍摄组件,由用户通过手机自带摄像头获取周围场景照片即图像信息。考虑到用户的特殊性,为方便视障人群使用,视觉场景拍摄组件对拍摄界面进行简化设计,用户点击屏幕任意处均可触发拍摄功能。
所述的语音问题采集组件,通过手机麦克风收集用户针对所拍摄照片进行口头提问,采集语音信息。
所述的语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息。
所述的逻辑判断组件,根据语音转换文字组件所得的文字信息,判断区分视觉问答和图像描述两个功能。其通过附加一个任务区分标志实现:如果用户要求视觉问答功能(即文字信息中包含“视觉问答”)则任务区分标志置1,如果用户要求图像描述功能(即文字信息中包含“图像描述”)则任务区分标志置0。任务区分标志附加在语音转换文字组件所得的文字信息的最前端。
所述的数据传输收发组件,用于负责前后端之间信息交流工作,包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端,同时接收后端视觉交互平台处理完成后发送回来的文字信息回复。
所述的文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户。
所述的后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型,用于对数据传输收发组件发送的图像信息和文字信息进行分析,得到对应的文字信息结果。
所述的输入预处理模块,用于对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术(字符识别技术)进行提取。
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
所述的多头注意力机制模型,用于对输入的特征进行交叉学习,迭代输出得到对应的文字信息结果。
进一步的,所述的语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用,实现语音信息转换成文字信息。
进一步的,其中采用的多头注意力机制模型设计如下:
多头注意力机制模型基于现有的M4C模型和M4C-Captioner模型,结合多任务联合学习机制进行创新,将TextVQA和TextCap任务进行融合,针对多头注意力机制模型的输入进行优化设计,降低模型在实际运行阶段的计算复杂度,以满足系统实时性的需求。
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码。解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即移动端APP。
一种面向视障人群的场景文字交互式理解系统的使用方法,步骤如下:
步骤(1)、用户通过手机移动端APP的语音唤醒组件唤醒APP,运行APP获得照片存储权限和相机访问权限;
步骤(2)、通过视觉场景拍摄组件获取图像信息;
APP唤醒即进入照片拍摄界面,APP自动进行语音提示“请拍摄照片”,由用户点击屏幕有效区域的任意位置(相当于按下拍照键),通过手机摄像头拍摄图像后缓存。
步骤(3)、确定任务模式;
获取图像信息后,手机移动端APP自动进行语音提问,首先提示用户确定任务模型,等待用户回答进行“视觉问答”还是“图像描述”;通过语音问题采集组件采集语音信息,再通过语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息,发送至逻辑判断组件进行判断;
当用户选择“图像描述”时,逻辑判断组件判断后,将任务区分标志置0,手机移动端APP不再继续提示“请提问”,逻辑判断组件将任务区分标志附加到文字信息的最前端,再通过数据传输收发组件进行处理。
当用户选择“视觉问答”时,逻辑判断组件判断后,将任务区分标志置1,且手机移动端APP继续提示“请提问”,等待用户提出问题,并通过语音问题采集组件采集问题语音信息,然后使用语音转文字组件将采集到的问题语音信息转换成文字信息,逻辑判断组件再将任务区分标志附加到问题语音信息转换的文字信息的最前端,再通过数据传输收发组件进行处理。
步骤(4)、通过数据传输收发组件将视觉拍摄组件获取的图像信息和逻辑判断组件处理后的文字信息发送至后端,
步骤(5)、通过输入预处理模块对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术进行提取。
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
步骤(6)、通过多头注意力机制模型完成文本图像描述和文本视觉问答的任务。
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码。解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即手机移动端APP。
步骤(7)、手机移动端APP通过数据传输收发组件接收到后端所接收的文字信息回复后,通过文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户。
本发明具有的优点及有益结果为:
1.本发明通过语音技术、新颖的文字视觉描述和文字视觉问答技术,解决广大视障人群在日常生活中无法准确感知场景中相关文字信息的问题,从而在一定程度上提高视觉障碍人群的生活质量。
2.能够实现针对不同场景图片中的文字信息的识别,场景信息由用户自主采集,环境适应性和可拓展性高,且对于场景中文字识别的灵敏度和准确性高。
3.能够实现和用户的语音交互,可以根据用户问题进行动态回答,更具实用性和实时性。
4.能够安装在手机移动端可以使用语音进行信息交互上,对用户来说,使用方便,耗费成本较低,简易上手。
附图说明
图1是本发明的整体架构图;
图2是本发明的手机移动端APP用户使用流程;
图3是本发明的后端视觉交互平台网络模型;
图4是本发明中文本视觉描述功能说明;
图5是本发明中文本视觉问答功能说明;
具体实施方式
下面结合附图与实施例,对本发明做进一步的说明:
一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,以下简称前端和后端。
手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件。
语音唤醒组件,针对视障人群设计,简化手机移动端APP的使用,通过语音唤醒组件完成APP的语音唤醒,无需手动点击APP图标进行启动。
所述视觉场景拍摄组件,由用户通过手机自带摄像头获取周围场景照片即图像信息。考虑到用户的特殊性,为方便视障人群使用,视觉场景拍摄组件对拍摄界面进行简化设计,用户点击屏幕任意处均可触发拍摄功能。
语音问题采集组件,通过手机麦克风收集用户针对所拍摄照片进行口头提问,采集语音信息。
语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息。
逻辑判断组件,根据语音转换文字组件所得的文字信息,判断区分视觉问答和图像描述两个功能。其通过附加一个任务区分标志实现:如果用户要求视觉问答功能(即文字信息中包含“视觉问答”)则任务区分标志置1,如果用户要求图像描述功能(即文字信息中包含“图像描述”)则任务区分标志置0。任务区分标志附加在语音转换文字组件所得的文字信息的最前端。
数据传输收发组件,用于负责前后端之间信息交流工作,包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端,同时接收后端视觉交互平台处理完成后发送回来的文字信息回复。
文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户。
语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用,实现语音信息转换成文字信息。
所述的后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型,用于对数据传输收发组件发送的图像信息和文字信息进行分析,得到对应的文字信息结果。
输入预处理模块,用于对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术(字符识别技术)进行提取。
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
多头注意力机制模型,用于对输入的特征进行交叉学习,迭代输出得到对应的文字信息结果。
多头注意力机制模型基于现有的M4C模型和M4C-Captioner模型,结合多任务联合学习机制进行创新,将TextVQA和TextCap任务进行融合,针对多头注意力机制模型的输入进行优化设计,降低模型在实际运行阶段的计算复杂度,以满足系统实时性的需求。
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码。解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即移动端APP。
一种面向视障人群的场景文字交互式理解系统的使用方法,步骤如下:
步骤(1)、用户通过手机移动端APP的语音唤醒组件唤醒APP,运行APP获得照片存储权限和相机访问权限;
步骤(2)、通过视觉场景拍摄组件获取图像信息;
APP唤醒即进入照片拍摄界面,APP自动进行语音提示“请拍摄照片”,由用户点击屏幕有效区域的任意位置(相当于按下拍照键),通过手机摄像头拍摄图像后缓存。
步骤(3)、确定任务模式;
获取图像信息后,手机移动端APP自动进行语音提问,首先提示用户确定任务模型,等待用户回答进行“视觉问答”还是“图像描述”;通过语音问题采集组件采集语音信息,再通过语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息,发送至逻辑判断组件进行判断;
当用户选择“图像描述”时,逻辑判断组件判断后,将任务区分标志置0,手机移动端APP不再继续提示“请提问”,逻辑判断组件将任务区分标志附加到文字信息的最前端,再通过数据传输收发组件进行处理。
当用户选择“视觉问答”时,逻辑判断组件判断后,将任务区分标志置1,且手机移动端APP继续提示“请提问”,等待用户提出问题,并通过语音问题采集组件采集问题语音信息,然后使用语音转文字组件将采集到的问题语音信息转换成文字信息,逻辑判断组件再将任务区分标志附加到问题语音信息转换的文字信息的最前端,再通过数据传输收发组件进行处理。
步骤(4)、通过数据传输收发组件将视觉拍摄组件获取的图像信息和逻辑判断组件处理后的文字信息发送至后端,
步骤(5)、通过输入预处理模块对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术进行提取。
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
步骤(6)、通过多头注意力机制模型完成文本图像描述和文本视觉问答的任务。
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码。解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即手机移动端APP。
步骤(7)、手机移动端APP通过数据传输收发组件接收到后端所接收的文字信息回复后,通过文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户。
实施例
1.手机移动端APP
针对前端即移动端APP,本发明基于使用广泛且应用稳定的vue框架进行开发,编程实现各个组件的功能。其中语音转换文字组件和文字合成语音组件所涉及的语音转换技术采用科大讯飞的语音识别SDK的API调用,因为其提供了将小于60秒的语音信号转换成对应文字信息的语音听写接口以及iFLYOS服务接入平台,降低了读取语音信息的技术门槛。
APP用户使用流程可参考图1。首先用户通过语音唤醒APP,运行APP获得照片存储权限和相机访问权限,进入照片拍摄界面,APP语音提示“请拍摄照片”,由用户点击屏幕有效区域的任意位置(相当于按下拍照键),通过手机摄像头拍摄图像后缓存,APP语音提示“请提问”,等待用户提出问题,先提问是“视觉问答”还是“图像描述”,如果是视觉问答,则需要再提出对应问题。由APP录音后,和先前拍摄的图像一起输送给后端,使用语音转文字模块将录音转换成文字信息,再使用预训练好的多头注意力机制模型对图片和提问进行分析,得到答案的文字信息,输送至前端,由文字转语音模块进行转换,APP语音回答,告知用户答案,再一次由用户点击屏幕有效区域的任意位置进行确认后,APP重新回到等待拍摄状态,重新语音提示“请拍摄照片”。
2.后端视觉交互处理计算平台
针对后端视觉交互平台,本发明采用结合M4C模型和M4C-Captioner模型融合改进的多头注意力机制模型实现图像信息和问题信息的处理功能,进行文本视觉问答以及文本图像描述答案的生成,为提取多头注意力机制模型所需的文字和图片信息输入特征,同时增加了一个输入预处理模块。
其中输入预处理模块的设计如下:
主要提取图像文字特征、图像特征以及文字特征
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术(字符识别技术)进行提取。
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征。
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征。通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
其中采用的多头注意力机制模型设计如下:
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码。解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字(即输入部分采用OCR技术提取的词语)中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即移动端APP。
以上的具体实施方案,针对本发明的实施过程进行了进一步的详细说明,但并非是对本发明的限制,本发明也不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (5)
1.一种面向视障人群的场景文字交互式理解系统,其特征在于,包括手机移动端APP和后端视觉交互计算处理平台,以下简称前端和后端;
所述的手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;
所述的语音唤醒组件,针对视障人群设计,简化手机移动端APP的使用,通过语音唤醒组件完成APP的语音唤醒,无需手动点击APP图标进行启动;
所述视觉场景拍摄组件,由用户通过手机自带摄像头获取周围场景照片即图像信息;考虑到用户的特殊性,为方便视障人群使用,视觉场景拍摄组件对拍摄界面进行简化设计,用户点击屏幕任意处均可触发拍摄功能;
所述的语音问题采集组件,通过手机麦克风收集用户针对所拍摄照片进行口头提问,采集语音信息;
所述的语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息;
所述的逻辑判断组件,根据语音转换文字组件所得的文字信息,判断区分视觉问答和图像描述两个功能;其通过附加一个任务区分标志实现:如果用户要求视觉问答功能则任务区分标志置1,如果用户要求图像描述功能则任务区分标志置0;任务区分标志附加在语音转换文字组件所得的文字信息的最前端;
所述的数据传输收发组件,用于负责前后端之间信息交流工作,包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端,同时接收后端视觉交互平台处理完成后发送回来的文字信息回复;
所述的文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户;
所述的后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型,用于对数据传输收发组件发送的图像信息和文字信息进行分析,得到对应的文字信息结果。
2.根据权利要求1所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用,实现语音信息转换成文字信息。
3.根据权利要求2所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的输入预处理模块,用于对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术(字符识别技术)进行提取;
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征;
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征;通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。
4.根据权利要求3所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的多头注意力机制模型,用于对输入的特征进行交叉学习,迭代输出得到对应的文字信息结果;
多头注意力机制模型基于现有的M4C模型和M4C-Captioner模型,结合多任务联合学习机制进行创新,将TextVQA和TextCap任务进行融合,针对多头注意力机制模型的输入进行优化设计,降低模型在实际运行阶段的计算复杂度,以满足系统实时性的需求;
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码;解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即移动端APP。
5.一种面向视障人群的场景文字交互式理解系统的使用方法,其特征在于,步骤如下:
步骤(1)、用户通过手机移动端APP的语音唤醒组件唤醒APP,运行APP获得照片存储权限和相机访问权限;
步骤(2)、通过视觉场景拍摄组件获取图像信息;
APP唤醒即进入照片拍摄界面,APP自动进行语音提示“请拍摄照片”,由用户点击屏幕有效区域的任意位置(相当于按下拍照键),通过手机摄像头拍摄图像后缓存;
步骤(3)、确定任务模式;
获取图像信息后,手机移动端APP自动进行语音提问,首先提示用户确定任务模型,等待用户回答进行“视觉问答”还是“图像描述”;通过语音问题采集组件采集语音信息,再通过语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息,发送至逻辑判断组件进行判断;
当用户选择“图像描述”时,逻辑判断组件判断后,将任务区分标志置0,手机移动端APP不再继续提示“请提问”,逻辑判断组件将任务区分标志附加到文字信息的最前端,再通过数据传输收发组件进行处理;
当用户选择“视觉问答”时,逻辑判断组件判断后,将任务区分标志置1,且手机移动端APP继续提示“请提问”,等待用户提出问题,并通过语音问题采集组件采集问题语音信息,然后使用语音转文字组件将采集到的问题语音信息转换成文字信息,逻辑判断组件再将任务区分标志附加到问题语音信息转换的文字信息的最前端,再通过数据传输收发组件进行处理;
步骤(4)、通过数据传输收发组件将视觉拍摄组件获取的图像信息和逻辑判断组件处理后的文字信息发送至后端,
步骤(5)、通过输入预处理模块对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;
(1)图像文字特征提取
针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术进行提取;
(2)图像特征提取
针对前端传输的图像信息中包含的物体特征提取,使用FasterR-CNN目标检测模型提取物体的视觉特征以及位置特征;
(3)文字特征提取
针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征;通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可;
步骤(6)、通过多头注意力机制模型完成文本图像描述和文本视觉问答的任务;
多头注意力机制模型对已处理好的图像文字特征,图像特征和文字特征进行处理后,将处理信息进行输出解码;解码时输入上一个预测的单词编码结果,根据解码端的输出,采用动态指针结构,在预先保留的出现频率最高的单词库和在图片中检测出的文字中选取一个单词,作为下一个单词,直到预测出结束标志符,完成后端视觉信息处理的工作,并把预测结果返回给前端即手机移动端APP;
步骤(7)、手机移动端APP通过数据传输收发组件接收到后端所接收的文字信息回复后,通过文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111491972.1A CN114168104A (zh) | 2021-12-08 | 2021-12-08 | 一种面向视障人群的场景文字交互式理解系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111491972.1A CN114168104A (zh) | 2021-12-08 | 2021-12-08 | 一种面向视障人群的场景文字交互式理解系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168104A true CN114168104A (zh) | 2022-03-11 |
Family
ID=80484614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111491972.1A Pending CN114168104A (zh) | 2021-12-08 | 2021-12-08 | 一种面向视障人群的场景文字交互式理解系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168104A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030264A (zh) * | 2023-02-01 | 2023-04-28 | 安徽信息工程学院 | 一种用于辅助视觉障碍者理解图片的方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130116128A (ko) * | 2012-04-14 | 2013-10-23 | 윤재민 | 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법 |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN111539408A (zh) * | 2020-04-08 | 2020-08-14 | 王鹏 | 基于拍照识物的智能点读方案 |
CN111797811A (zh) * | 2020-07-20 | 2020-10-20 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
-
2021
- 2021-12-08 CN CN202111491972.1A patent/CN114168104A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130116128A (ko) * | 2012-04-14 | 2013-10-23 | 윤재민 | 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법 |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN111539408A (zh) * | 2020-04-08 | 2020-08-14 | 王鹏 | 基于拍照识物的智能点读方案 |
CN111797811A (zh) * | 2020-07-20 | 2020-10-20 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
CN112733533A (zh) * | 2020-12-31 | 2021-04-30 | 浙大城市学院 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030264A (zh) * | 2023-02-01 | 2023-04-28 | 安徽信息工程学院 | 一种用于辅助视觉障碍者理解图片的方法及装置 |
CN116030264B (zh) * | 2023-02-01 | 2024-03-29 | 安徽信息工程学院 | 一种用于辅助视觉障碍者理解图片的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN109254669B (zh) | 一种表情图片输入方法、装置、电子设备及系统 | |
EP2770445A2 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN113835522A (zh) | 手语视频生成、翻译、客服方法、设备和可读介质 | |
JPWO2015059976A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN110188364B (zh) | 基于智能眼镜的翻译方法、设备及计算机可读存储介质 | |
CN114168104A (zh) | 一种面向视障人群的场景文字交互式理解系统 | |
CN111626038A (zh) | 背诵文本的提示方法、装置、设备及存储介质 | |
CN111354362A (zh) | 用于辅助听障者交流的方法和装置 | |
CN112600750A (zh) | 即时通信中多条对话信息的处理方法和装置 | |
CN111626061A (zh) | 会议记录生成方法、装置、设备及可读存储介质 | |
CN109961789B (zh) | 一种基于视频及语音交互服务设备 | |
CN117371459A (zh) | 一种基于智能语音ai实时翻译的会议辅助系统及方法 | |
CN111833865B (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的系统 | |
CN113837907A (zh) | 一种英语教学人机互动系统及其方法 | |
CN113822187A (zh) | 手语翻译、客服、通信方法、设备和可读介质 | |
CN210516214U (zh) | 一种基于视频及语音交互服务设备 | |
CN111985252A (zh) | 对话翻译方法及装置、存储介质和电子设备 | |
KR20060031769A (ko) | 촬영문자를 음성 변환하는 기능을 갖는 이동통신 단말기및 그 방법 | |
CN111524518B (zh) | 增强现实处理方法及装置、存储介质和电子设备 | |
CN116108176A (zh) | 基于多模态深度学习的文本分类方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |