CN113128415A

CN113128415A - 一种环境辨别方法、系统、设备及存储介质

Info

Publication number: CN113128415A
Application number: CN202110437611.2A
Authority: CN
Inventors: 沈奥; 韩知渊; 卫星; 赵冲; 陆阳; 葛久松; 帅竞贤; 康旭; 侯宝华; 李航
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-16
Anticipated expiration: 2041-04-22
Also published as: CN113128415B

Abstract

本发明提供了一种环境辨别方法、系统、设备及存储介质，涉及视频问答技术领域，环境辨别方法包括：在采集到环境问题时，实时采集一预设时长的环境视频；根据环境视频中每一帧的环境图像，得到环境图像特征，并提取环境问题的语义特征，得到问题文本特征；将环境图像特征和问题文本特征进行加权融合，得到融合特征；将融合特征输入环境辨别模型，环境辨别模型根据融合特征，采用对应的激活函数和损失函数，得到预测答案。本发明能够在盲人提出问题时，及时的进行环境的辨别和反馈，使得具有视觉障碍的人群能感知到环境信息；且在交互技术中应用了视频问答技术，使得环境辨别的准确度大大提高，输出的辨别结果与实际情况更符合。

Description

一种环境辨别方法、系统、设备及存储介质

技术领域

本发明涉及视频问答技术领域，特别是涉及一种环境辨别方法、系统、设备及存储介质。

背景技术

根据世界卫生组织调查统计数据显示，中国约有1730万盲人，占整个世界盲人数量的20％，是目前世界上盲人最多的国家。然而，据调查显示，中国的盲人之中，每天外出的仅占了27％；由于视觉障碍，盲人群体在日常生活和出行中面临了诸多不便，无法辨别方向、易被障碍物撞到等都是限制盲人出门的原因，在现有条件下，盲人很难全面、便捷的进行场景感知。

智能化手段作为辅助盲人进行环境信息交互的工具，得到了越来越多的关注，近些年来陆续提出的注意力机制使得深度学习方法在环境辨别过程中有了更好的表现，然而，在具体的环境辨别场景中，受图片中的目标特征模糊等问题影响，现有的注意力机制输出的预测答案往往与真实答案不符；而视频问答就能很好的解决这个问题，视频问答是一种涉及计算机视觉和自然语言处理的学习任务，能够全方位体现目标特征，采用视频问答的环境辨别方法以一个视频和一个自然语言问题作为输入，以一个自然语言答案作为输出，从而帮助盲人进行环境的辨别，换言之，基于视频问答的环境辨别方法即是对于给定的视频进行问答深度学习；深度学习作为视觉任务和自然语言处理任务的重要驱动力，通过卷积神经网络提取视觉特征、循环神经网络提取文本特征，从而得出最终的辨别结果。

综上，现有技术中的环境辨别方法存在无法全方位体现目标特征的技术问题。

发明内容

鉴于以上现有技术的缺点，本发明的目的在于提供一种环境辨别方法、系统、设备及存储介质，用于解决现有技术中环境辨别方法存在无法全方位体现目标特征的技术问题。

为实现上述目的及其他相关目的，本发明提供一种环境辨别方法，其中，包括：

在采集到环境问题时，实时采集一预设时长的环境视频；

根据所述环境视频中每一帧的环境图像，处理得到环境图像特征，并提取所述环境问题的语义特征，处理得到问题文本特征；

将所述环境图像特征和所述问题文本特征进行加权融合，得到融合特征；

将所述融合特征作为环境辨别模型的输入，所述环境辨别模型根据所述融合特征，采用对应的激活函数和损失函数，处理得到预测答案。

于本发明的一实施方式中，所述环境问题包括多分类问题、多标签问题和回归问题中的至少一种。

于本发明的一实施方式中，所述根据所述环境视频中每一帧的环境图像，处理得到环境图像特征的步骤包括：

根据所述环境视频中每一帧的环境图像，处理得到环境图像动态特征和环境图像静态特征；

采用如下公式将所述环境图像动态特征和所述环境图像静态特征进行拼接，以得到所述环境图像特征：

其中：

Z_concat为所述环境图像特征；

X_i为所述环境图像中第i帧的所述环境图像动态特征；

Y_i为所述环境图像中第i帧的所述环境图像静态特征；

K为拼接参数；

C为所述环境图像总的帧数。

于本发明的一实施方式中，所述提取所述环境问题的语义特征，处理得到问题文本特征的步骤包括：

根据所述环境问题，处理得到问题文本特征向量；

提取所述问题文本特征向量的语义特征，作为所述问题文本特征。

于本发明的一实施方式中，所述将所述环境图像特征和所述问题文本特征进行加权融合，得到融合特征的步骤包括：

采用如下公式将所述环境图像特征和所述问题文本特征进行加权处理：

其中：

为加权后的所述问题文本特征；

为加权后的所述环境图像特征；

为所述环境图像的第i个子空间的问题文本特征；

为所述环境图像的第i个子空间的环境图像特征；

将加权后的所述环境图像特征和所述问题文本特征分别连接至神经网络，并进行点乘处理，以实现融合，得到所述融合特征。

于本发明的一实施方式中，所述将所述融合特征作为环境辨别模型的输入，所述环境辨别模型根据所述融合特征，采用对应的激活函数和损失函数，处理得到预测答案并输出，作为环境辨别的结果的步骤包括：

将所述融合特征输入至所述环境辨别模型；

所述环境辨别模型进行所述融合特征的判断；

根据判断的结果，所述环境辨别模型采用对应的激活函数和损失函数进行预测，得到所述预测答案并输出，作为环境辨别的结果。

于本发明的一实施方式中，所述根据判断的结果，所述环境辨别模型采用对应的激活函数和损失函数进行预测，得到所述预测答案并输出，作为环境辨别的结果的步骤包括：

当判断的结果为所述融合特征中包含多分类问题时，采用softmax激活函数和交叉熵损失函数进行预测，得到所述预测答案；

当判断的结果为所述融合特征中包含多标签问题时，采用sigmod激活函数和交叉熵损失函数进行预测，得到所述预测答案；

当判断的结果为所述融合特征中包含回归问题时，采用sigmod激活函数和MES损失函数进行预测，得到所述预测答案。

本发明还公开了一种环境辨别系统，采用上述环境辨别方法，则所述环境辨别系统包括：

图像存储模块，用于存储采集到的环境问题和预设时长的环境视频；

环境图像特征提取模块，用于处理得到所述环境视频中的环境图像，得到环境图像特征；

问题文本特征提取模块，用于提取所述环境问题的语义特征，处理得到多种问题文本特征；

特征融合模块，用于将所述环境图像特征和所述问题文本特征进行加权融合，得到多种融合特征；

模型存储模块，用于存储环境辨别模型；

处理模块，用于根据所述融合特征，调用所述环境辨别模型采用对应的激活函数和损失函数，得到预测答案并输出，作为环境辨别的结果。

本发明还公开了一种环境辨别设备，其中，包括：

穿戴设备；

语音采集装置，固定设置在所述穿戴设备上，用于采集环境问题；

画面采集装置，固定设置在所述穿戴设备上，用于在采集到环境问题时，实时采集预设时长的环境视频；

处理器，固定设置在所述穿戴设备上，用于调用如权利要求8所述的环境辨别系统，并处理得到预测答案；

语音播报装置，固定设置在所述穿戴设备上，用于通过语音的方式播报所述预测答案。

本发明还公开了一种计算机可读的存储介质，其中，包括程序，当其在计算机上运行时，使得计算机执行上述环境辨别方法。

如上所述，本发明提供的一种环境辨别方法、系统、设备及存储介质，能够在盲人提出问题时，及时的进行环境的辨别和反馈，使得具有视觉障碍的人群能感知到环境信息，避免其在出行过程中撞到障碍物或遇到危险；且在交互技术中应用了视频问答技术，使得环境辨别的准确度大大提高，输出的辨别结果与实际情况更符合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的一种环境辨别方法的系统流程图。

图2显示为本发明的步骤S2的具体流程图。

图3显示为本发明的一种环境辨别系统的原理结构示意图。

图4显示为本发明的一种环境辨别设备的原理结构示意图。

元件标号说明：

环境辨别系统 100；

图像存储模块 110；

环境图像特征提取模块 120；

问题文本特征提取模块 130；

特征融合模块 140；

模型存储模块 150；

处理模块 160；

环境辨别设备 200；

穿戴设备 210；

语音采集装置 220；

画面采集装置 230；

处理器 240；

语音播报装置 250。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1至图4。须知，本说明书所附图式所绘示的结构，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

请参阅图1，显示为本发明的一种环境辨别方法的系统流程图，包括：

步骤S10、在采集到环境问题时，采集实时的环境视频。

从采集到盲人提出的环境问题时开始，截取一预设时长的实时视频作为环境视频；

具体的，环境问题包括多分类问题，多标签问题和回归问题中的至少一种。

多分类问题指与多个类别有关的问题，如在环境辨别中，可以分为建筑、行人、障碍物等多个类别，若环境问题与环境中的类别有关，则将该环境问题判断为多分类问题。

多标签问题指与某个目标的一系列标签有关的问题，在环境辨别过程中，具体的目标的多个标签不是相互排斥的，比如一个行人，高矮、胖瘦、性别都可以是该行人的标签。

回归问题指与具体数据有关的问题，回归用于预测输入变量(即自变量)和输出变量(因变量)之间的关系，当输入变量的值发生变化时，输出变量的值也随之发生变化，多用来预测一个具体的数值，比如一条通道的宽度，一个人行横道的长度均可以为回归问题的输入变量。

步骤S20、根据环境视频中所有帧的视频图像，处理得到环境图像特征，并提取环境问题的语义特征，处理得到问题文本特征。

请参阅图2，显示为本发明的S20步骤的具体流程图，包括：

步骤S21、根据环境视频中每一帧的环境图像，处理得到环境图像动态特征和环境图像静态特征；将环境图像动态特征和环境图像静态特征进行拼接，以得到环境图像特征。

首先将所述环境视频中的每一帧的环境图像均缩放至224*224大小，优选的，采用在ImageNet上预训练好的残差神经网Resnet152，从池化层提取视频每一帧环境图像的2048维的环境图形静态特征；采用Sport-1M上预训练好的C3D网络，按照每16帧一次的提取频率提取视频中的环境图像动态特征，以减少帧冗余，其特征维度为4096维；采用concat级联操作拼接环境图形静态特征和环境图像动态特征，则具体采用如下公式处理得到环境图像特性：

其中：

Z_concat为环境图像特征；

X_i为环境图像中第i个像素点的环境图像动态特征；

Y_i为环境图像中第i个像素点的环境图像静态特征；

K为拼接参数；

C为环境图像的像素点总量。

步骤S22、根据环境问题，处理得到问题文本特征向量；提取问题文本特征向量的语义特征，作为问题文本特征。

优选的，采用Wikipidia 2014与Gigaword 5预训练好的Glove模型，按照每单词提取大小为300维的特征向量作为问题文本特征向量；采用512维LSTM网络来提取语义特征，则采用如下公式处理得到问题文本特征：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

其中，σ为sigmod函数；i为输入门的输出；f为忘记门的输出值；o为输出门的输出值；t为当前节点；t-1为上一个节点；x为LSTM网络的输入；h为LSTM网络的输出；b_i为LSTM网络输入门的偏置；b_f为LSTM网络忘记门的偏置；b_o为LSTM网络输出门的偏置；W为权重矩阵；

为tanh函数；

为LSTM网络隐藏层的输出值；

为LSTM网络隐藏层的偏置；c为t时刻的元胞状态。

步骤S30、将环境图像特征和问题文本特征进行加权融合，得到融合特征；

包括：

将环境图像特征和问题文本特征进行加权处理：将加权后的环境图像特征和问题文本特征分别连接至神经网络，并进行点乘处理，以实现融合，得到融合特征。

首先，采用Multi-path Pyramid Co-attention机制获得加权后的视频图像特征和问题文本特征，其中，Multi-path Pyramid Co-attention机制可以表述为：

将输入的环境图形特征V或问题文本特征Q转换为子空间H，形成特征金字塔结构，以提高多样性，因此，V与Q之间存在有H种相似矩阵，而每一种相似矩阵均可以写成：

S_i＝QW_wqi(VW_wvi)^T

其中，S_i为第i个亲和矩阵；V为多帧环境图像中的环境图像特征；Q为问题文本特征；W_wqi、W_wvi均为可学习参数。

随后，对每个亲和矩阵，在水平和竖直两个方向上使用归一化操作得到两类注意力图，对于每个模态，可以采用如下公式对所有子空间中的特征进行求和处理，得到最终的加权后的环境图像特征和问题文本特征：

其中：

为加权后的问题文本特征；Q为问题文本特征；

为加权后的环境图像特征；V为

为环境图像的第i个子空间的问题文本特征；

为环境图像的第i个子空间的环境图像特征。

其次，将加权后的环境图像特征和问题文本特征各自连接至1024维神经网络上，随后对其进行点乘操作，以实现视频特征和文本特征的融合。

步骤S40、将融合特征作为环境辨别模型的输入，环境辨别模型根据融合特征，采用对应的激活函数和损失函数，处理得到预测答案。

包括：

将融合特征输入至环境辨别模型；环境辨别模型进行融合特征的判断；根据判断的结果，环境辨别模型采用对应的激活函数和损失函数进行预测，得到预测答案并输出，作为环境辨别的结果。

由于环境问题的种类很多，其中包括了开放式问题和非开放式问题，因此将问题分为多分类问题、多标签问题和回归问题三种，分别采用不同的激活函数和损失函数，则在对融合特征进行处理前，需先进行融合特征的判断，即对融合特征包含的环境问题进行判断：

当判断的结果为融合特征中包含多分类问题时，环境辨别模型采用softmax激活函数和交叉熵损失函数进行预测，得到预测答案；

softmax函数表示为：

其中，S_i为softmax函数的输出；V_i为第i个节点的输出值；j为输出节点的总数。

交叉熵损失函数表示为：

其中，loss_cls为交叉熵损失函数的输出；

为样本i中第k类的标注，

为样本i中第k类的预测。

当判断的结果为融合特征中包含多标签问题时，环境辨别模型采用sigmod激活函数和交叉熵损失函数进行预测，得到预测答案；

sigmod激活函数表示为：

其中：f(x)为sigmod激活函数的输出；L为样本的总数，x为sigmod激活函数的输入；x₀为sigmod激活函数的原始输入。

当判断的结果为融合特征中包含回归问题时，环境辨别模型采用sigmod激活函数和MES损失函数进行预测，得到预测答案。

MES损失函数表示为：

其中，MSE(y,y′)为MES损失函数的输出；y_i为第i个样本的真实数据；y′_i为第i个样本的拟合数据；n为样本个数。

其中，环境辨别模型采用大量的训练数据训练而成，训练数据的采集过程包括：

采集多个视频；优选的，包括日常人们出行视频、网络上人们拍摄的出行vlog、室内环境视频等，其中着重收集复杂环境的视频，如包括门槛、楼梯、消防栓、标识牌等突出物，或是包括汽车、非机动车和行人等移动物的容易引发安全问题的场景；针对采集的视频，人为的在每段视频中提出多个预设的环境问题；优选的，如：前方是否有障碍物，前方是否有车等；随后让不同的人针对环境问题给出相应的答案，并对多个人给出的不同答案进行筛选，剔除不符合实际的数据，得到最终的训练数据。

请参阅图3，显示为本发明的一种环境辨别系统的原理结构示意图，则本实施例还提供了一种环境辨别系统100，环境辨别系统100包括：

图像存储模块110，用于存储采集到的环境问题和预设时长的环境视频；

环境图像特征提取模块120，用于处理得到所述环境视频中的环境图像，得到环境图像特征；

问题文本特征提取模块130，用于提取环境问题的语义特征，处理得到多种问题文本特征；

特征融合模块140，用于将环境图像特征和问题文本特征进行加权融合，得到多种融合特征；

模型存储模块150，用于存储环境辨别模型；

处理模块160，用于根据融合特征，调用环境辨别模型采用对应的激活函数和损失函数，得到预测答案并输出，作为环境辨别的结果。

请参阅图4，显示为本发明的一种环境辨别设备的原理结构示意图，则本实施例还包括了一种环境辨别设备200，包括：

穿戴设备210；

语音采集装置220，固定设置在穿戴设备210上，用于采集环境问题；

画面采集装置230，固定设置在穿戴设备210上，用于在采集到环境问题时，实时采集预设时长的环境视频；

处理器240，固定设置在穿戴设备210上，用于调用上述环境辨别系统100，并处理得到预测答案；

语音播报装置250，固定设置在穿戴设备210上，用于通过语音的方式播报预测答案。

优选的，穿戴设备210为一眼镜；语音采集装置220为设置在眼镜上的麦克风，用于接收盲人对周围环境提出的环境问题，采用讯飞语音识别盲人的语音并转换为文本数据；画面采集装置230可以为设置在眼睛上的摄像头，可采用通过软排线直接与树莓派控制板连接树莓派原装RPi IR-CUT Camera(B)型摄像头，不仅自带红外补光灯，而且支持红外夜视，同时内置IR-CUT，可修正红外摄像头白天偏色的问题，成像效果好；调焦功能可根据进物体的远近进行调整，拍摄盲人眼前的环境的实时视频。

本实施例还提出一种计算机可读的存储介质，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行上述的环境辨别方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。