CN113128415A - 一种环境辨别方法、系统、设备及存储介质 - Google Patents

一种环境辨别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113128415A
CN113128415A CN202110437611.2A CN202110437611A CN113128415A CN 113128415 A CN113128415 A CN 113128415A CN 202110437611 A CN202110437611 A CN 202110437611A CN 113128415 A CN113128415 A CN 113128415A
Authority
CN
China
Prior art keywords
environment
features
environmental
fusion
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110437611.2A
Other languages
English (en)
Other versions
CN113128415B (zh
Inventor
沈奥
韩知渊
卫星
赵冲
陆阳
葛久松
帅竞贤
康旭
侯宝华
李航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110437611.2A priority Critical patent/CN113128415B/zh
Publication of CN113128415A publication Critical patent/CN113128415A/zh
Application granted granted Critical
Publication of CN113128415B publication Critical patent/CN113128415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。

Description

一种环境辨别方法、系统、设备及存储介质
技术领域
本发明涉及视频问答技术领域,特别是涉及一种环境辨别方法、系统、设备及存储介质。
背景技术
根据世界卫生组织调查统计数据显示,中国约有1730万盲人,占整个世界盲人数量的20%,是目前世界上盲人最多的国家。然而,据调查显示,中国的盲人之中,每天外出的仅占了27%;由于视觉障碍,盲人群体在日常生活和出行中面临了诸多不便,无法辨别方向、易被障碍物撞到等都是限制盲人出门的原因,在现有条件下,盲人很难全面、便捷的进行场景感知。
智能化手段作为辅助盲人进行环境信息交互的工具,得到了越来越多的关注,近些年来陆续提出的注意力机制使得深度学习方法在环境辨别过程中有了更好的表现,然而,在具体的环境辨别场景中,受图片中的目标特征模糊等问题影响,现有的注意力机制输出的预测答案往往与真实答案不符;而视频问答就能很好的解决这个问题,视频问答是一种涉及计算机视觉和自然语言处理的学习任务,能够全方位体现目标特征,采用视频问答的环境辨别方法以一个视频和一个自然语言问题作为输入,以一个自然语言答案作为输出,从而帮助盲人进行环境的辨别,换言之,基于视频问答的环境辨别方法即是对于给定的视频进行问答深度学习;深度学习作为视觉任务和自然语言处理任务的重要驱动力,通过卷积神经网络提取视觉特征、循环神经网络提取文本特征,从而得出最终的辨别结果。
综上,现有技术中的环境辨别方法存在无法全方位体现目标特征的技术问题。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种环境辨别方法、系统、设备及存储介质,用于解决现有技术中环境辨别方法存在无法全方位体现目标特征的技术问题。
为实现上述目的及其他相关目的,本发明提供一种环境辨别方法,其中,包括:
在采集到环境问题时,实时采集一预设时长的环境视频;
根据所述环境视频中每一帧的环境图像,处理得到环境图像特征,并提取所述环境问题的语义特征,处理得到问题文本特征;
将所述环境图像特征和所述问题文本特征进行加权融合,得到融合特征;
将所述融合特征作为环境辨别模型的输入,所述环境辨别模型根据所述融合特征,采用对应的激活函数和损失函数,处理得到预测答案。
于本发明的一实施方式中,所述环境问题包括多分类问题、多标签问题和回归问题中的至少一种。
于本发明的一实施方式中,所述根据所述环境视频中每一帧的环境图像,处理得到环境图像特征的步骤包括:
根据所述环境视频中每一帧的环境图像,处理得到环境图像动态特征和环境图像静态特征;
采用如下公式将所述环境图像动态特征和所述环境图像静态特征进行拼接,以得到所述环境图像特征:
Figure BDA0003033758660000021
其中:
Zconcat为所述环境图像特征;
Xi为所述环境图像中第i帧的所述环境图像动态特征;
Yi为所述环境图像中第i帧的所述环境图像静态特征;
K为拼接参数;
C为所述环境图像总的帧数。
于本发明的一实施方式中,所述提取所述环境问题的语义特征,处理得到问题文本特征的步骤包括:
根据所述环境问题,处理得到问题文本特征向量;
提取所述问题文本特征向量的语义特征,作为所述问题文本特征。
于本发明的一实施方式中,所述将所述环境图像特征和所述问题文本特征进行加权融合,得到融合特征的步骤包括:
采用如下公式将所述环境图像特征和所述问题文本特征进行加权处理:
Figure BDA0003033758660000022
其中:
Figure BDA0003033758660000023
为加权后的所述问题文本特征;
Figure BDA0003033758660000024
为加权后的所述环境图像特征;
Figure BDA0003033758660000025
为所述环境图像的第i个子空间的问题文本特征;
Figure BDA0003033758660000026
为所述环境图像的第i个子空间的环境图像特征;
将加权后的所述环境图像特征和所述问题文本特征分别连接至神经网络,并进行点乘处理,以实现融合,得到所述融合特征。
于本发明的一实施方式中,所述将所述融合特征作为环境辨别模型的输入,所述环境辨别模型根据所述融合特征,采用对应的激活函数和损失函数,处理得到预测答案并输出,作为环境辨别的结果的步骤包括:
将所述融合特征输入至所述环境辨别模型;
所述环境辨别模型进行所述融合特征的判断;
根据判断的结果,所述环境辨别模型采用对应的激活函数和损失函数进行预测,得到所述预测答案并输出,作为环境辨别的结果。
于本发明的一实施方式中,所述根据判断的结果,所述环境辨别模型采用对应的激活函数和损失函数进行预测,得到所述预测答案并输出,作为环境辨别的结果的步骤包括:
当判断的结果为所述融合特征中包含多分类问题时,采用softmax激活函数和交叉熵损失函数进行预测,得到所述预测答案;
当判断的结果为所述融合特征中包含多标签问题时,采用sigmod激活函数和交叉熵损失函数进行预测,得到所述预测答案;
当判断的结果为所述融合特征中包含回归问题时,采用sigmod激活函数和MES损失函数进行预测,得到所述预测答案。
本发明还公开了一种环境辨别系统,采用上述环境辨别方法,则所述环境辨别系统包括:
图像存储模块,用于存储采集到的环境问题和预设时长的环境视频;
环境图像特征提取模块,用于处理得到所述环境视频中的环境图像,得到环境图像特征;
问题文本特征提取模块,用于提取所述环境问题的语义特征,处理得到多种问题文本特征;
特征融合模块,用于将所述环境图像特征和所述问题文本特征进行加权融合,得到多种融合特征;
模型存储模块,用于存储环境辨别模型;
处理模块,用于根据所述融合特征,调用所述环境辨别模型采用对应的激活函数和损失函数,得到预测答案并输出,作为环境辨别的结果。
本发明还公开了一种环境辨别设备,其中,包括:
穿戴设备;
语音采集装置,固定设置在所述穿戴设备上,用于采集环境问题;
画面采集装置,固定设置在所述穿戴设备上,用于在采集到环境问题时,实时采集预设时长的环境视频;
处理器,固定设置在所述穿戴设备上,用于调用如权利要求8所述的环境辨别系统,并处理得到预测答案;
语音播报装置,固定设置在所述穿戴设备上,用于通过语音的方式播报所述预测答案。
本发明还公开了一种计算机可读的存储介质,其中,包括程序,当其在计算机上运行时,使得计算机执行上述环境辨别方法。
如上所述,本发明提供的一种环境辨别方法、系统、设备及存储介质,能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息,避免其在出行过程中撞到障碍物或遇到危险;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明的一种环境辨别方法的系统流程图。
图2显示为本发明的步骤S2的具体流程图。
图3显示为本发明的一种环境辨别系统的原理结构示意图。
图4显示为本发明的一种环境辨别设备的原理结构示意图。
元件标号说明:
环境辨别系统 100;
图像存储模块 110;
环境图像特征提取模块 120;
问题文本特征提取模块 130;
特征融合模块 140;
模型存储模块 150;
处理模块 160;
环境辨别设备 200;
穿戴设备 210;
语音采集装置 220;
画面采集装置 230;
处理器 240;
语音播报装置 250。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图4。须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,显示为本发明的一种环境辨别方法的系统流程图,包括:
步骤S10、在采集到环境问题时,采集实时的环境视频。
从采集到盲人提出的环境问题时开始,截取一预设时长的实时视频作为环境视频;
具体的,环境问题包括多分类问题,多标签问题和回归问题中的至少一种。
多分类问题指与多个类别有关的问题,如在环境辨别中,可以分为建筑、行人、障碍物等多个类别,若环境问题与环境中的类别有关,则将该环境问题判断为多分类问题。
多标签问题指与某个目标的一系列标签有关的问题,在环境辨别过程中,具体的目标的多个标签不是相互排斥的,比如一个行人,高矮、胖瘦、性别都可以是该行人的标签。
回归问题指与具体数据有关的问题,回归用于预测输入变量(即自变量)和输出变量(因变量)之间的关系,当输入变量的值发生变化时,输出变量的值也随之发生变化,多用来预测一个具体的数值,比如一条通道的宽度,一个人行横道的长度均可以为回归问题的输入变量。
步骤S20、根据环境视频中所有帧的视频图像,处理得到环境图像特征,并提取环境问题的语义特征,处理得到问题文本特征。
请参阅图2,显示为本发明的S20步骤的具体流程图,包括:
步骤S21、根据环境视频中每一帧的环境图像,处理得到环境图像动态特征和环境图像静态特征;将环境图像动态特征和环境图像静态特征进行拼接,以得到环境图像特征。
首先将所述环境视频中的每一帧的环境图像均缩放至224*224大小,优选的,采用在ImageNet上预训练好的残差神经网Resnet152,从池化层提取视频每一帧环境图像的2048维的环境图形静态特征;采用Sport-1M上预训练好的C3D网络,按照每16帧一次的提取频率提取视频中的环境图像动态特征,以减少帧冗余,其特征维度为4096维;采用concat级联操作拼接环境图形静态特征和环境图像动态特征,则具体采用如下公式处理得到环境图像特性:
Figure BDA0003033758660000061
其中:
Zconcat为环境图像特征;
Xi为环境图像中第i个像素点的环境图像动态特征;
Yi为环境图像中第i个像素点的环境图像静态特征;
K为拼接参数;
C为环境图像的像素点总量。
步骤S22、根据环境问题,处理得到问题文本特征向量;提取问题文本特征向量的语义特征,作为问题文本特征。
优选的,采用Wikipidia 2014与Gigaword 5预训练好的Glove模型,按照每单词提取大小为300维的特征向量作为问题文本特征向量;采用512维LSTM网络来提取语义特征,则采用如下公式处理得到问题文本特征:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
Figure BDA0003033758660000062
Figure BDA0003033758660000063
Figure BDA0003033758660000064
其中,σ为sigmod函数;i为输入门的输出;f为忘记门的输出值;o为输出门的输出值;t为当前节点;t-1为上一个节点;x为LSTM网络的输入;h为LSTM网络的输出;bi为LSTM网络输入门的偏置;bf为LSTM网络忘记门的偏置;bo为LSTM网络输出门的偏置;W为权重矩阵;
Figure BDA0003033758660000065
为tanh函数;
Figure BDA0003033758660000066
为LSTM网络隐藏层的输出值;
Figure BDA0003033758660000067
为LSTM网络隐藏层的偏置;c为t时刻的元胞状态。
步骤S30、将环境图像特征和问题文本特征进行加权融合,得到融合特征;
包括:
将环境图像特征和问题文本特征进行加权处理:将加权后的环境图像特征和问题文本特征分别连接至神经网络,并进行点乘处理,以实现融合,得到融合特征。
首先,采用Multi-path Pyramid Co-attention机制获得加权后的视频图像特征和问题文本特征,其中,Multi-path Pyramid Co-attention机制可以表述为:
将输入的环境图形特征V或问题文本特征Q转换为子空间H,形成特征金字塔结构,以提高多样性,因此,V与Q之间存在有H种相似矩阵,而每一种相似矩阵均可以写成:
Si=QWwqi(VWwvi)T
其中,Si为第i个亲和矩阵;V为多帧环境图像中的环境图像特征;Q为问题文本特征;Wwqi、Wwvi均为可学习参数。
随后,对每个亲和矩阵,在水平和竖直两个方向上使用归一化操作得到两类注意力图,对于每个模态,可以采用如下公式对所有子空间中的特征进行求和处理,得到最终的加权后的环境图像特征和问题文本特征:
Figure BDA0003033758660000071
其中:
Figure BDA0003033758660000072
为加权后的问题文本特征;Q为问题文本特征;
Figure BDA0003033758660000073
为加权后的环境图像特征;V为
Figure BDA0003033758660000074
为环境图像的第i个子空间的问题文本特征;
Figure BDA0003033758660000075
为环境图像的第i个子空间的环境图像特征。
其次,将加权后的环境图像特征和问题文本特征各自连接至1024维神经网络上,随后对其进行点乘操作,以实现视频特征和文本特征的融合。
步骤S40、将融合特征作为环境辨别模型的输入,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,处理得到预测答案。
包括:
将融合特征输入至环境辨别模型;环境辨别模型进行融合特征的判断;根据判断的结果,环境辨别模型采用对应的激活函数和损失函数进行预测,得到预测答案并输出,作为环境辨别的结果。
由于环境问题的种类很多,其中包括了开放式问题和非开放式问题,因此将问题分为多分类问题、多标签问题和回归问题三种,分别采用不同的激活函数和损失函数,则在对融合特征进行处理前,需先进行融合特征的判断,即对融合特征包含的环境问题进行判断:
当判断的结果为融合特征中包含多分类问题时,环境辨别模型采用softmax激活函数和交叉熵损失函数进行预测,得到预测答案;
softmax函数表示为:
Figure BDA0003033758660000081
其中,Si为softmax函数的输出;Vi为第i个节点的输出值;j为输出节点的总数。
交叉熵损失函数表示为:
Figure BDA0003033758660000082
其中,losscls为交叉熵损失函数的输出;
Figure BDA0003033758660000083
为样本i中第k类的标注,
Figure BDA0003033758660000084
为样本i中第k类的预测。
当判断的结果为融合特征中包含多标签问题时,环境辨别模型采用sigmod激活函数和交叉熵损失函数进行预测,得到预测答案;
sigmod激活函数表示为:
Figure BDA0003033758660000085
其中:f(x)为sigmod激活函数的输出;L为样本的总数,x为sigmod激活函数的输入;x0为sigmod激活函数的原始输入。
当判断的结果为融合特征中包含回归问题时,环境辨别模型采用sigmod激活函数和MES损失函数进行预测,得到预测答案。
MES损失函数表示为:
Figure BDA0003033758660000086
其中,MSE(y,y′)为MES损失函数的输出;yi为第i个样本的真实数据;y′i为第i个样本的拟合数据;n为样本个数。
其中,环境辨别模型采用大量的训练数据训练而成,训练数据的采集过程包括:
采集多个视频;优选的,包括日常人们出行视频、网络上人们拍摄的出行vlog、室内环境视频等,其中着重收集复杂环境的视频,如包括门槛、楼梯、消防栓、标识牌等突出物,或是包括汽车、非机动车和行人等移动物的容易引发安全问题的场景;针对采集的视频,人为的在每段视频中提出多个预设的环境问题;优选的,如:前方是否有障碍物,前方是否有车等;随后让不同的人针对环境问题给出相应的答案,并对多个人给出的不同答案进行筛选,剔除不符合实际的数据,得到最终的训练数据。
请参阅图3,显示为本发明的一种环境辨别系统的原理结构示意图,则本实施例还提供了一种环境辨别系统100,环境辨别系统100包括:
图像存储模块110,用于存储采集到的环境问题和预设时长的环境视频;
环境图像特征提取模块120,用于处理得到所述环境视频中的环境图像,得到环境图像特征;
问题文本特征提取模块130,用于提取环境问题的语义特征,处理得到多种问题文本特征;
特征融合模块140,用于将环境图像特征和问题文本特征进行加权融合,得到多种融合特征;
模型存储模块150,用于存储环境辨别模型;
处理模块160,用于根据融合特征,调用环境辨别模型采用对应的激活函数和损失函数,得到预测答案并输出,作为环境辨别的结果。
请参阅图4,显示为本发明的一种环境辨别设备的原理结构示意图,则本实施例还包括了一种环境辨别设备200,包括:
穿戴设备210;
语音采集装置220,固定设置在穿戴设备210上,用于采集环境问题;
画面采集装置230,固定设置在穿戴设备210上,用于在采集到环境问题时,实时采集预设时长的环境视频;
处理器240,固定设置在穿戴设备210上,用于调用上述环境辨别系统100,并处理得到预测答案;
语音播报装置250,固定设置在穿戴设备210上,用于通过语音的方式播报预测答案。
优选的,穿戴设备210为一眼镜;语音采集装置220为设置在眼镜上的麦克风,用于接收盲人对周围环境提出的环境问题,采用讯飞语音识别盲人的语音并转换为文本数据;画面采集装置230可以为设置在眼睛上的摄像头,可采用通过软排线直接与树莓派控制板连接树莓派原装RPi IR-CUT Camera(B)型摄像头,不仅自带红外补光灯,而且支持红外夜视,同时内置IR-CUT,可修正红外摄像头白天偏色的问题,成像效果好;调焦功能可根据进物体的远近进行调整,拍摄盲人眼前的环境的实时视频。
本实施例还提出一种计算机可读的存储介质,所述存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的环境辨别方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
如上所述,本发明提供的一种环境辨别方法、系统、设备及存储介质,能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息,避免其在出行过程中撞到障碍物或遇到危险;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种环境辨别方法,其特征在于,包括:
在采集到环境问题时,实时采集一预设时长的环境视频;
根据所述环境视频中每一帧的环境图像,处理得到环境图像特征,并提取所述环境问题的语义特征,处理得到问题文本特征;
将所述环境图像特征和所述问题文本特征进行加权融合,得到融合特征;
将所述融合特征作为环境辨别模型的输入,所述环境辨别模型根据所述融合特征,采用对应的激活函数和损失函数,处理得到预测答案。
2.根据权利要求1所述的环境辨别方法,其特征在于,所述环境问题包括多分类问题、多标签问题和回归问题中的至少一种。
3.根据权利要求1所述的环境辨别方法,其特征在于,所述根据所述环境视频中每一帧的环境图像,处理得到环境图像特征的步骤包括:
根据所述环境视频中每一帧的环境图像,处理得到环境图像动态特征和环境图像静态特征;
采用如下公式将所述环境图像动态特征和所述环境图像静态特征进行拼接,以得到所述环境图像特征:
Figure FDA0003033758650000011
其中:
Zconcat为所述环境图像特征;
Xi为所述环境图像中第i帧的所述环境图像动态特征;
Yi为所述环境图像中第i帧的所述环境图像静态特征;
K为拼接参数;
C为所述环境图像总的帧数。
4.根据权利要求1所述的环境辨别方法,其特征在于,所述提取所述环境问题的语义特征,处理得到问题文本特征的步骤包括:
根据所述环境问题,处理得到问题文本特征向量;
提取所述问题文本特征向量的语义特征,作为所述问题文本特征。
5.根据权利要求1所述的环境辨别方法,其特征在于,所述将所述环境图像特征和所述问题文本特征进行加权融合,得到融合特征的步骤包括:
采用如下公式将所述环境图像特征和所述问题文本特征进行加权处理:
Figure FDA0003033758650000021
其中:
Figure FDA0003033758650000022
为加权后的所述问题文本特征;
Figure FDA0003033758650000023
为加权后的所述环境图像特征;
Figure FDA0003033758650000024
为所述环境图像的第i个子空间的问题文本特征;
Figure FDA0003033758650000025
为所述环境图像的第i个子空间的环境图像特征;
将加权后的所述环境图像特征和所述问题文本特征分别连接至神经网络,并进行点乘处理,以实现融合,得到所述融合特征。
6.根据权利要求1所述的环境辨别方法,其特征在于,所述将所述融合特征作为环境辨别模型的输入,所述环境辨别模型根据所述融合特征,采用对应的激活函数和损失函数,处理得到预测答案并输出,作为环境辨别的结果的步骤包括:
将所述融合特征输入至所述环境辨别模型;
所述环境辨别模型进行所述融合特征的判断;
根据判断的结果,所述环境辨别模型采用对应的激活函数和损失函数进行预测,得到所述预测答案并输出,作为环境辨别的结果。
7.根据权利要求1所述的环境辨别方法,其特征在于,所述根据判断的结果,所述环境辨别模型采用对应的激活函数和损失函数进行预测,得到所述预测答案并输出,作为环境辨别的结果的步骤包括:
当判断的结果为所述融合特征中包含多分类问题时,采用softmax激活函数和交叉熵损失函数进行预测,得到所述预测答案;
当判断的结果为所述融合特征中包含多标签问题时,采用sigmod激活函数和交叉熵损失函数进行预测,得到所述预测答案;
当判断的结果为所述融合特征中包含回归问题时,采用sigmod激活函数和MES损失函数进行预测,得到所述预测答案。
8.一种环境辨别系统,其特征在于,采用如权利要求1-7任意一项所述的环境辨别方法,则所述环境辨别系统包括:
图像存储模块,用于存储采集到的环境问题和预设时长的环境视频;
环境图像特征提取模块,用于处理得到所述环境视频中的环境图像,得到环境图像特征;
问题文本特征提取模块,用于提取所述环境问题的语义特征,处理得到多种问题文本特征;
特征融合模块,用于将所述环境图像特征和所述问题文本特征进行加权融合,得到多种融合特征;
模型存储模块,用于存储环境辨别模型;
处理模块,用于根据所述融合特征,调用所述环境辨别模型采用对应的激活函数和损失函数,得到预测答案并输出,作为环境辨别的结果。
9.一种环境辨别设备,其特征在于,包括:
穿戴设备;
语音采集装置,固定设置在所述穿戴设备上,用于采集环境问题;
画面采集装置,固定设置在所述穿戴设备上,用于在采集到环境问题时,实时采集预设时长的环境视频;
处理器,固定设置在所述穿戴设备上,用于调用如权利要求8所述的环境辨别系统,并处理得到预测答案;
语音播报装置,固定设置在所述穿戴设备上,用于通过语音的方式播报所述预测答案。
10.一种计算机可读的存储介质,其特征在于,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的环境辨别方法。
CN202110437611.2A 2021-04-22 2021-04-22 一种环境辨别方法、系统、设备及存储介质 Active CN113128415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437611.2A CN113128415B (zh) 2021-04-22 2021-04-22 一种环境辨别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437611.2A CN113128415B (zh) 2021-04-22 2021-04-22 一种环境辨别方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113128415A true CN113128415A (zh) 2021-07-16
CN113128415B CN113128415B (zh) 2023-09-29

Family

ID=76779210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437611.2A Active CN113128415B (zh) 2021-04-22 2021-04-22 一种环境辨别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113128415B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792423A (zh) * 2022-05-20 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184735A1 (en) * 2010-01-22 2011-07-28 Microsoft Corporation Speech recognition analysis via identification information
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109947928A (zh) * 2019-04-16 2019-06-28 上海海事大学 一种检索式人工智能问答机器人开发方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN111797811A (zh) * 2020-07-20 2020-10-20 广东工业大学 一种基于图像理解的盲人导航系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112418032A (zh) * 2020-11-11 2021-02-26 北京城市系统工程研究中心 一种人体行为识别方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184735A1 (en) * 2010-01-22 2011-07-28 Microsoft Corporation Speech recognition analysis via identification information
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109947928A (zh) * 2019-04-16 2019-06-28 上海海事大学 一种检索式人工智能问答机器人开发方法
CN111797811A (zh) * 2020-07-20 2020-10-20 广东工业大学 一种基于图像理解的盲人导航系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112418032A (zh) * 2020-11-11 2021-02-26 北京城市系统工程研究中心 一种人体行为识别方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD IQBAL HASAN CHOWDHURY 等: ""Hierarchical Relational Attention for Video Question Answering"", 《2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
白姣姣;柯显信;曹斌;: "基于注意力机制的视觉问答任务研究", 计算机应用与软件, no. 10 *
闫茹玉;刘学亮;: "结合自底向上注意力机制和记忆网络的视觉问答模型", 中国图象图形学报, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792423A (zh) * 2022-05-20 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置和存储介质
CN114792423B (zh) * 2022-05-20 2022-12-09 北京百度网讯科技有限公司 文档图像的处理方法、装置和存储介质

Also Published As

Publication number Publication date
CN113128415B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111126258B (zh) 图像识别方法及相关装置
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
US20180114071A1 (en) Method for analysing media content
CN111209810A (zh) 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
US20170364742A1 (en) Lip-reading recognition method and apparatus based on projection extreme learning machine
CN112906485A (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN113269054B (zh) 一种基于时空2d卷积神经网络的航拍视频分析方法
Hussan et al. Object Detection and recognition in real time using deep learning for visually Impaired people
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN115375781A (zh) 一种数据处理方法及其装置
CN111461181B (zh) 一种车辆细粒度分类方法及装置
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN113128415B (zh) 一种环境辨别方法、系统、设备及存储介质
CN113688761A (zh) 一种基于图像序列的行人行为类别检测方法
CN112488213A (zh) 一种基于多尺度特征学习网络的火灾图片分类方法
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
CN111898608A (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN113076902B (zh) 一种多任务融合的人物细粒度分割系统和方法
Salam et al. You Only Look Once (YOLOv3): Object Detection and Recognition for Indoor Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhao Chong

Inventor after: Li Hang

Inventor after: Shen Ao

Inventor after: Han Zhiyuan

Inventor after: Wei Xing

Inventor after: Lu Yang

Inventor after: Ge Jiusong

Inventor after: Shuai Jingxian

Inventor after: Kang Xu

Inventor after: Hou Baohua

Inventor before: Shen Ao

Inventor before: Li Hang

Inventor before: Han Zhiyuan

Inventor before: Wei Xing

Inventor before: Zhao Chong

Inventor before: Lu Yang

Inventor before: Ge Jiusong

Inventor before: Shuai Jingxian

Inventor before: Kang Xu

Inventor before: Hou Baohua

CB03 Change of inventor or designer information