CN113032535A - 辅助视障人士视觉问答方法、装置、计算设备及存储介质 - Google Patents
辅助视障人士视觉问答方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN113032535A CN113032535A CN201911347611.2A CN201911347611A CN113032535A CN 113032535 A CN113032535 A CN 113032535A CN 201911347611 A CN201911347611 A CN 201911347611A CN 113032535 A CN113032535 A CN 113032535A
- Authority
- CN
- China
- Prior art keywords
- question
- historical
- video frame
- text
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001771 impaired effect Effects 0.000 title claims abstract description 86
- 230000000007 visual effect Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 116
- 230000015654 memory Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 239000011521 glass Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000035582 behavioral recognition Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及人工智能技术领域,公开了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,该方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。通过上述方式,本发明实施例能够帮助视障人士更好的了解日常生活视觉信息。
Description
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种辅助视障人士视觉问答方法、装置、计算设备及存储介质。
背景技术
中国视力障碍人数有7551万,其中盲人达到1400万。视障人士对于了解日常生活视觉信息的需求非常迫切,但是目前视障人群暂无有效手段来进行视觉问答。
发明内容
鉴于上述问题,本发明实施例提供了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种辅助视障人士视觉问答方法,所述方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,所述分别对所述视频帧图像以及所述问题进行预处理,包括:将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,所述将所述视频帧图像中的每一帧图像进行归一化处理,包括:从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;对每一帧图像的每一个像素值按比例压缩至0到1的范围内;将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前,包括:获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型,包括:将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,所述应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答,包括:应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量,包括:应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
根据本发明实施例的另一个方面,提供了一种辅助视障人士视觉问答装置,所述装置包括:数据获取单元,用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;预处理单元,用于分别对所述视频帧图像以及所述问题文本进行预处理;回答获取单元,用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;回答反馈单元,用于将所述回答转换成声音反馈给视障人士。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的辅助视障人士视觉问答方法的流程示意图;
图2示出了本发明实施例提供的辅助视障人士视觉问答方法的示例图;
图3示出了本发明实施例提供的辅助视障人士视觉问答方法的模型训练流程示意图;
图4示出了本发明实施例提供的辅助视障人士视觉问答方法的模型训练示例图;
图5示出了本发明实施例提供的辅助视障人士视觉问答装置的结构示意图;
图6示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的辅助视障人士视觉问答方法的流程示意图。如图1所示,该辅助视障人士视觉问答方法包括:
步骤S11:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本。
在本发明实施例中,视障人士佩戴的智能眼镜携带有4K摄像头。在步骤S11中,应用智能眼镜携带的4K摄像头获取实时视频图像,同时获取视障人士针对该视频图像提出的问题文本。
步骤S12:分别对所述视频帧图像以及所述问题文本进行预处理。
在本发明实施例中,将所述视频帧图像中的每一帧图像进行归一化处理。具体地,从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小,该大小为后续注意力视觉问答模型可接受的输入数据大小。为了确保数据都在同一范围内,需要对数据做标准化处理,对每一帧图像的每一个像素值按比例压缩至0到1的范围内。然后将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。其中,全局均值图片的像素值是通过计算每一帧图片的每一个位置像素值的均值所得到。经处理后的图像像素值都将被归一化为均值为0、方差为1。
在步骤S12中,还将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。具体地,移除所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度question_length的序列补零。
在本发明实施例中,通过智能眼镜将完成预处理后的视频帧图像以及问题文本通过5G网络输入至位于最贴近用户的边缘端的预训练完毕的注意力视觉问答模型以生成针对所述问题文本的回答。
步骤S13:根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答。
视觉问答(Visual Question Answering,VQA)是一种涉及计算机视觉和自然语言处理的学习任务。该任务的定义如下:一个VQA模型以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是对给定的图片进行问答。VQA模型需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的人工智能(Artificial Intelligence,AI)技术:细粒度识别、物体识别、行为识别和对问题所包含文本的理解的神经语言程序学(Neuro-LinguisticProgramming,NLP)。VQA是一项涉及了计算机视觉(Computer Vision,CV)和自然语言处理(NLP)两大领域的学习任务。其主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。
在注意力视觉问答模型中,由卷积神经网络(Convolutional Neural Network,CNN)组成的图像特征提取器利用CNN学习图像像素在空间上的关系,负责将获取的图像信息转换成空间向量表示;由长短期记忆神经网络(long short-term memory,LSTM)组成的问题文本提取器利用LSTM可以记住长期依赖信息的特点,提取问题文本特征向量。注意力(attention)机制的引入使得注意力视觉问答模型可以带着视障人士提出的问题,去视频帧图像中聚焦特定的区域。注意力机制使得注意力视觉问答模型可以按需要聚焦于输入序列中的相关部分,给每一个输入分配一个注意力权重,如果该输入与当前操作越相关则注意力权重越接近于1,反之则越接近于0,注意力权重在每一个输出步骤都会重新计算。
在步骤S13中,应用预先训练生成的注意力视觉问答模型中的卷积神经网络模型对预处理后的视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;应用预先训练生成的注意力视觉问答模型中的长短期记忆神经网络模型对预处理后的问题文本进行向量映射,并提取并输出问题文本特征向量;然后应用全连接注意力层根据图像特征向量矩阵以及问题文本特征向量生成图像各区域的注意力权重,并计算图像特征向量与对应的注意力权重的乘积之和;最后应用全连接层根据图像特征向量与对应的注意力权重的乘积之和输出针对问题文本的回答。
在本发明实施例中,视障人士的智能眼镜端接收最贴近用户的边缘端(如基站)通过5G网络下发的针对问题文本的回答。5G全新的网络架构将提供至少十倍于4G的峰值速率、毫秒级的传输时延,可以满足本场景数据传输量大、实时性要求高的需求,借助5G高速稳定的网络,和强大的边缘云处理能力,大大降低计算处理时延、减轻终端的重量,帮助视障人士的生活更加便利。
步骤S14:将所述回答转换成声音反馈给视障人士。
视障人士的智能眼镜端将接收的回答文本转换成声音反馈给视障人士,从而回答视障人士所需要了解的图像信息。
如图2所示,举例说明,视障人士针对图中的视频帧图像提出问题“桌上是否有钱包”。视障人士佩戴的智能眼镜携带的摄像头获取图中的视频帧图像,并在智能眼镜端对该视频帧图像进行预处理后通过5G网络上传至贴近用户侧的边缘端,输入注意力视觉问答模型。同时智能眼镜端将视障人士提问的语音转换成文本,并进行文本预处理后通过5G网络上传至贴近用户侧的边缘端,输入注意力视觉问答模型。经过注意力视觉问答模型处理输出回答文本“是”,并5G网络下发至智能眼镜端。智能眼镜端将回答文本转换成语音反馈给视障人士。
在本发明实施例中,在步骤S13之前,需要对注意力视觉问答模型进行模型训练,以获取收敛的注意力视觉问答模型。具体地,获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
对历史视频帧图像和历史问题文本的预处理与步骤S12中的预处理相同,将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。另外,取历史问题文本的最长长度question_length作为其索引序列长度,词典大小为question_vocab_size。取历史回答的最长长度answer_length作为其索引序列长度,历史回答的词典大小为answer_vocab_size。
经过预处理后,视频帧图像集可表示为:V={v1,v2,...,vN},其中vn是空间位置n处的特征向量。对应的问题文本集可表示为:Q={q1,q2,...,qT},其中,qt是第t个单词的特征向量。对应的回答集可表示为:A={a1,a2,...,aM},其中,am是第m个单词的特征向量。
在本发明实施例中,将总的历史局数据集划分为训练集和测试集,总的历史局数据集的90%划为训练集,总的历史局数据集的10%划为测试集。训练集用于训练注意力视觉问答模型模型,测试集用于测试注意力视觉问答模型模型。
对注意力视觉问答模型进行训练时,将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在本发明实施例中,将训练回合数设置为1000(epochs=1000),批处理大小设置为100(batch_size=100),选择categorical crossentropy多类交叉熵作为损失函数即目标函数(loss='categorical_crossentropy'),梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer='adam')。注意力视觉问答模型通过梯度下降,可以找到使目标函数最小的最优权重值,注意力视觉问答模型通过训练会自主学习到权重值。注意力视觉问答模型收敛后导出该注意力视觉问答模型的权重。
在本发明实施例中,应用注意力视觉问答模型根据历史视频帧图像和历史问题文本生成预测的回答如图3所示,包括:
步骤S21:应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵。
具体地,将视频帧图像压缩至448*448大小后输入至注意力视觉问答模型中,利用预训练的深度卷积神经网络(VGG)模型对图像进行预处理,抽取出图像的特征表示,将图像编码为固定长度的向量,将VGG模型的最后一个池化层作为输出,输出形状为512*14*14的图像特征向量矩阵V,14*14是图像区域的数量,512为图像每个区域的特征向量维度。
步骤S22:应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量。
输入索引化后的问题文本,每条索引序列长度为question_length,输出数据的形状为(None,question_length)。在步骤S21中,应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
具体地,首先经过词嵌入层(word embedding),利用词嵌入将每个词转化为向量,输入数据维度为question_vocab_size,输出设置为需要将词转换为128维度的空间向量,输入序列长度为question_length,因此该词嵌入层输出数据的形状为(None,question_length,128)。词嵌入层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量。然后经过三个LSTM层(每层含64个LSTM神经元、激活函数为relu)和三个dropout层,从而提取出问题文本的特征向量,输出问题文本特征向量Q。
长短期记忆循环神经网络(long short-term memory,LSTM)是一种特殊的循环神经网络类型,所谓的循环神经网络即同一个神经网络被重复使用。LSTM可以学习长期依赖信息,通过控制缓存中的值保存的时间,可以记住长期的信息,适合进行长序列的学习。每个神经元有四个输入和一个输出,每个神经元内有一个Cell存放记忆的数值,每一个LSTM神经元中含有三个门控:遗忘门、输入门、输出门。
步骤S23:应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和。
通常情况下,对应问题的回答总是和图像的某个特定区域相关,注意力机制就是通过结合图像和问题二者的信息,生成一个关于图像各区域的注意力权重,对图像信息进行加权,从而实现将注意力放在图像的特定区域,使图像和问题联系起来,学习将更大的注意力权重分配给那些和问题更相关的区域。
在本发明实施例中,共包含2层全连接注意力层,每一层的操作如下:首先将图像特征矩阵V和问题文本特征向量Q输入至全连接神经网络层,其中矩阵和向量的加法是将矩阵的每一列与向量相加,最终输出ha,再将ha输入至softmax函数,输出图像各区域的注意力分布attentionv。
attentionV=softmax(Whha+bh)
根据注意力权重的分布来计算注意力权重attentioni与图像特征向量vi的乘积之和:ci=∑iattentionivi。
步骤S24:应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
输出层为全连接(Dense)层:包含Dense全连接神经元个数为answer_vocab_size,激活函数设置为“softmax”,将softmax输出结果,送入多类交叉熵损失函数。输出数据的形状为(None,answer_vocab_size),将注意力解码层的输出形状转换成最终输出的维度。参见图4,视障人士对图中的历史视频帧图像提出问题“what is the weather lik”,应用卷积神经网络模型将该历史视频帧图像转换成图像特征向量V,输出至全连接注意力层。应用词嵌入层将历史问题文本的每个词索引转换为128维的固定形状向量,经过LSTM层转换成问题文本特征向量Q,输出至全连接注意力层。2层全连接注意力层根据图像特征向量V和问题文本特征向量Q获取注意力权重的分布,并计算注意力权重与图像特征向量V的乘积之和,通过全连接层输出预测的回答“sunny”。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
图5示出了本发明实施例的辅助视障人士视觉问答装置的结构示意图。如图5所示,该辅助视障人士视觉问答装置包括:数据获取单元501、预处理单元502、回答获取单元503、回答反馈单元504以及模型训练单元505。其中:
数据获取单元501用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;预处理单元502用于分别对所述视频帧图像以及所述问题文本进行预处理;回答获取单元503用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;回答反馈单元504用于将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,预处理单元502用于:将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,预处理单元502用于:从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;对每一帧图像的每一个像素值按比例压缩至0到1的范围内;将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,模型训练单元505用于:获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,模型训练单元505用于:将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,模型训练单元505用于:应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,模型训练单元505用于:应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的辅助视障人士视觉问答方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;
分别对所述视频帧图像以及所述问题文本进行预处理;
根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;
将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述视频帧图像中的每一帧图像进行归一化处理;
将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;
对每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;
对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;
根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;
应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;
应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;
应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;
应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;
应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;
应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;
应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的辅助视障人士视觉问答方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;
分别对所述视频帧图像以及所述问题文本进行预处理;
根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;
将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述视频帧图像中的每一帧图像进行归一化处理;
将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;
对每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;
对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;
根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;
应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;
应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;
应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;
应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;
应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;
应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;
应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
图6示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。处理器602,用于执行程序610,具体可以执行上述辅助视障人士视觉问答方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器,可以是同一类型的处理器,如一个或各个CPU;也可以是不同类型的处理器,如一个或各个CPU以及一个或各个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:
获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;
分别对所述视频帧图像以及所述问题文本进行预处理;
根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;
将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
将所述视频帧图像中的每一帧图像进行归一化处理;
将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;
对每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;
对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;
根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;
应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;
应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;
应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为612*14*14的图像特征向量矩阵;
应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;
应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;
应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:
应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;
应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种辅助视障人士视觉问答方法,其特征在于,所述方法包括:
获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;
分别对所述视频帧图像以及所述问题文本进行预处理;
根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;
将所述回答转换成声音反馈给视障人士。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述视频帧图像以及所述问题进行预处理,包括:
将所述视频帧图像中的每一帧图像进行归一化处理;
将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
3.根据权利要求2所述的方法,其特征在于,所述将所述视频帧图像中的每一帧图像进行归一化处理,包括:
从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;
对每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
4.根据权利要求1所述的方法,其特征在于,所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前,包括:
获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;
对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;
根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
5.根据权利要求4所述的方法,其特征在于,所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型,包括:
将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;
应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;
应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;
应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
6.根据权利要求5所述的方法,其特征在于,所述应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答,包括:
应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;
应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;
应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;
应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
7.根据权利要求6所述的方法,其特征在于,所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量,包括:
应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;
应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
8.一种辅助视障人士视觉问答装置,其特征在于,所述装置包括:
数据获取单元,用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;
预处理单元,用于分别对所述视频帧图像以及所述问题文本进行预处理;
回答获取单元,用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;
回答反馈单元,用于将所述回答转换成声音反馈给视障人士。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7任一项所述辅助视障人士视觉问答方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述辅助视障人士视觉问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347611.2A CN113032535A (zh) | 2019-12-24 | 2019-12-24 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347611.2A CN113032535A (zh) | 2019-12-24 | 2019-12-24 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113032535A true CN113032535A (zh) | 2021-06-25 |
Family
ID=76451698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911347611.2A Pending CN113032535A (zh) | 2019-12-24 | 2019-12-24 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032535A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解系统 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
WO2024082914A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 视频问答方法及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106389078A (zh) * | 2016-11-24 | 2017-02-15 | 贵州大学 | 一种智能导盲眼镜系统及其导盲方法 |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
US20190043351A1 (en) * | 2017-12-28 | 2019-02-07 | Shao-Wen Yang | Ubiquitous visual computing witness |
CN109662830A (zh) * | 2019-01-18 | 2019-04-23 | 湖南师范大学 | 一种语言导盲手杖、基于该手杖的深度神经网络优化方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110516791A (zh) * | 2019-08-20 | 2019-11-29 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
-
2019
- 2019-12-24 CN CN201911347611.2A patent/CN113032535A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106389078A (zh) * | 2016-11-24 | 2017-02-15 | 贵州大学 | 一种智能导盲眼镜系统及其导盲方法 |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
US20190043351A1 (en) * | 2017-12-28 | 2019-02-07 | Shao-Wen Yang | Ubiquitous visual computing witness |
CN109662830A (zh) * | 2019-01-18 | 2019-04-23 | 湖南师范大学 | 一种语言导盲手杖、基于该手杖的深度神经网络优化方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110516791A (zh) * | 2019-08-20 | 2019-11-29 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
Non-Patent Citations (6)
Title |
---|
SHIH KJ ET AL.: ""Where to look: Focus regions for visual question answering"", 《PROC. OF THE IEEE CONF. ON COMPUTER VISION AND PATTERN RECOGNITION 2016》 * |
SHIH KJ ET AL.: ""Where to look: Focus regions for visual question answering"", 《PROC. OF THE IEEE CONF. ON COMPUTER VISION AND PATTERN RECOGNITION 2016》, 23 November 2015 (2015-11-23), pages 4613 * |
Z. YANG ET AL.: ""Stacked Attention Networks for Image Question Answering"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 21 - 29 * |
王天伦: ""基于嵌入式平台的便携式避障系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, pages 138 - 3970 * |
胡雨霞 等: ""视障助行产品的智能交互设计研究"", 《美术大观》, no. 04, pages 116 - 117 * |
黄渝龙: ""基于人工智能技术的智能盲人眼镜"", 《电子世界》, no. 23, pages 173 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解系统 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN114842368B (zh) * | 2022-05-07 | 2023-10-03 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
WO2024082914A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 视频问答方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
WO2020119631A1 (zh) | 一种轻量视觉问答系统及方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN113032535A (zh) | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
KR101887637B1 (ko) | 로봇 시스템 | |
CN113537024B (zh) | 多层时序注意力融合机制的弱监督神经网络手语识别方法 | |
CN113722458B (zh) | 视觉问答处理方法、设备、计算机可读介质和程序产品 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
WO2022052530A1 (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
CN109871736A (zh) | 自然语言描述信息的生成方法及装置 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN111553419A (zh) | 一种图像识别方法、装置、设备以及可读存储介质 | |
CN111949824A (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
CN114372191A (zh) | 消息行业应用模板推荐方法、装置及计算设备 | |
CN115169548A (zh) | 基于张量的持续学习方法和装置 | |
CN117112766A (zh) | 视觉对话方法、装置、电子设备和计算机可读存储介质 | |
CN112132075A (zh) | 图文内容处理方法及介质 | |
Ahmed et al. | Two person interaction recognition based on effective hybrid learning | |
CN115830711A (zh) | 基于深度学习的手语词汇识别方法、系统、设备及介质 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN116386105A (zh) | 人脸表情识别方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |