CN110991336B

CN110991336B - 一种基于感官替代的辅助感知方法和系统

Info

Publication number: CN110991336B
Application number: CN201911210888.0A
Authority: CN
Inventors: 伍楷舜; 黄勇志; 王璐; 陈凯鑫
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2023-04-28
Anticipated expiration: 2039-12-02
Also published as: US20210168551A1; US11310620B2; WO2021109662A1; CN110991336A

Abstract

本发明提供一种基于感官替代的辅助感知方法和系统。该方法包括：建立三维空间中离散水平面夹角角度和法向量夹角，以及不同离散距离对应的响应函数并建立物体的声音编码库；获取周围的环境视频；对每一帧视觉图像分别进行物体检测，得到当前环境的物体信息和类别，通过每一帧的视觉图像信息，计算各个物体距离视觉输入单元的三维坐标位置；根据获得的图像信息，物体信息和三维坐标信息，结合物体的声音编码库建立物体的三维声场；对于不同类别的物体，根据运动信息和图像的变化，调整各物体的三维声场，并且实时播放各物体的三维声场。本发明利用感官替代方式，将外界的信息通过模式化方法转化成声音信号，利于进行辅助感知。

Description

一种基于感官替代的辅助感知方法和系统

技术领域

本发明涉及感官替代技术领域，尤其涉及一种基于感官替代的辅助感知方法和系统。

背景技术

随着社会科技的进步和医疗水平的进步，视觉障碍者中由于视网膜导致的失明者已经能够通过手术移植视网膜等方法恢复视力，然而，这些视觉障碍者中，还有另外一部分群体，视觉通路神经出现问题的视觉障碍者还没有相关的治疗方法。虽然，基因筛查技术在最近几年减少了残疾婴儿的出生率，但是，随着人口基数的增长和人口寿命的提升，残疾婴儿的出生人数依然逐年增长，其中，盲人的数量也在逐年的提升。所以，帮助盲人感知外界是需要解决的问题。

目前，为了让视觉障碍者能够在环境中正常活动，对于视觉障碍者所提供的常用辅助设备包括拐杖，导盲犬和盲文书等。这些设备虽然能在一定程度上帮助视觉障碍者避开障碍物，引导盲人行走和帮助盲人学习知识，使得他们生活变得方便一点，但是，却对他们感知世界和重建世界并没有帮助。

随着脑科学的进步，人们已经能够使用非侵入式设备进行大脑扫描，从而得到大脑的活跃区域的脑电信号。通过脑电信号，人们发现，当训练盲人将声音作为一种视觉信息的时候，盲人的大脑内的视觉相关区域，如，枕叶，会产生相关电信号，这样的实验证明，如果训练盲人使用声音作为一种视觉信息的输入，则可以使盲人产生如同双眼看到东西的视觉效应。这种方式就是视觉替代。因此，很多研究成果定义了声音转换成听觉的方法。而这些方法都是基于图片像素点对应的转换，这样的转换，对于盲人来讲会产生很大的信息冗余，使得感官的替代失败。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于感官替代的辅助感知方法和系统，利用感官替代的方式，将外界的信息通过模式化的方法转化成为声音信号。

根据本发明的第一方面，提供了一种基于感官替代的辅助感知方法。

该方法包括以下步骤：

步骤S1，建立三维空间中离散水平面夹角角度和法向量夹角，以及不同离散距离对应的响应函数并建立物体的声音编码库；

步骤S2，使用视觉输入单元实时获取周围的环境视频；

步骤S3，基于所获得的环境视频，对每一帧视觉图像分别进行物体检测，得到当前环境的物体信息和类别，通过每一帧的视觉图像信息，计算各个物体距离视觉输入单元的三维坐标位置；

步骤S4，根据所获得的图像信息，物体信息和三维坐标信息，结合所述物体的声音编码库建立物体的三维声场；

步骤S5，对于不同类别的物体，根据运动信息和图像的变化，调整各个物体的三维声场，并且实时播放各个物体的三维声场。

根据本发明的第二方面，提供一种基于感官替代的辅助感知系统。该系统包括：用于建立三维空间中离散水平面夹角角度和法向量夹角，以及不同离散距离对应的响应函数并建立物体的声音编码库的模块；用于使用视觉输入单元实时获取周围的环境视频的模块；用于基于所获得环境视频，对每一帧视觉图像分别进行物体检测，得到当前环境的物体信息和类别，通过每一帧的视觉图像信息，计算各个物体距离视觉输入单元的三维坐标位置的模块；用于根据所获得的图像信息，物体信息和三维坐标信息，结合所述声音编码库建立物体的三维声场的模块；用于对不同类别的物体，根据运动信息和图像的变化，调整各个物体的三维声场，并且实时播放各个物体的三维声场的模块。

与现有技术相比，本发明的优点在于：利用感官替代实现了盲人的视觉替代，并且利用模式识别的方法，解决了单纯的视觉图像转换为声音图像的信息冗余过大的问题。本发明的方法在盲人经过训练以后能够很好的根据声音的变化，快速的在大脑枕叶映射出大致符合外界的立体图像。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于感官替代的辅助感知方法的流程图；

图2是根据本发明一个实施例的建立个性化的HRTFs响应函数所使用的神经网络结构示意图；

图3是根据本发明一个实施例的建立个性化的HRTFs响应函数所使用的神经网络训练和测量示意图；

图4是本发明实施例的建立目标检测所使用的网络结构示意图；

图5是根据本发明一个实施例的基于感官替代的辅助感知系统的示意图；

图6是根据本发明另一实施例的基于感官替代的辅助感知系统的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

参见图1所示，本发明实施例提供的基于感官替代的辅助感知方法包括以下步骤：

步骤S100，建立个性化响应函数和个性化声音编码库，并设置初始状态。

具体地包括以下子步骤：

步骤S101，通过标准棋盘，完成对相机的标定。

例如，标定方法是，使用标准的棋盘，棋盘的交点为检测点，实际坐标位置是(X_W,Y_W,Z_W)，通过实际的像素坐标(u,v)，根据公式(1)计算相机坐标系的旋转矩阵R，R为3*3大小的矩阵，T为3*1大小的平移矩阵，根据相机的焦距f，可以计算尺度因子

和

步骤S102，对九轴惯性测量单元的数据进行水平和垂直方向的校准。

具体地，将惯性传感器处于静止状态，在时间t内(t可取50s)，分别计算acc(x)、acc(y)、acc(z)三轴数据的方差，分别表示为var[acc(x)]、var[acc(y)]、var[acc(z)]，如果var[acc(x)]+var[acc(y)]+var[acc(z)]小于阈值H，就判断传感器静止，如果不小于阈值则调整阈值H。角速度校准则使用Allan方差算法校准量化噪声Q、角度随机游走N、零偏B、角速度随机游走K、角速度斜坡R的噪声，并且用最小二乘法求解尺度误差Sw和轴偏差Tw。

应理解的是，除了九轴惯性测量单元之外，也可采用其他的惯性测量传感器。

步骤S103，使用相机拍摄用户和用户人耳。

例如，使用相机在人的侧面将完整的人耳，或人头部侧视图拍照下来。

步骤S104，通过拍摄到的用户图片计算用户的头部特征。

例如，所计算的用户头部特征包括用户的头部的宽度，头部的高度，头部深度，耳廓高度，耳廓宽度，脖子宽度，脖子长度，脖子深度，躯干顶部宽度，躯干顶部高度，躯干顶部深度，肩宽，头向前便宜长度，高度，座位高度，头周长和肩部周长等17个特征。

步骤S105，将S102中计算的数值和人耳的图片放入深度学习网络中，得到三维空间中各个离散水平面夹角角度和法向量夹角，以及不同离散距离对应的HRTFs(头部相关传输函数)响应函数。

深度学习网络参见图2所示，包括子网络A、子网络B和子网络C，其中子网络A的输入是人工测量的人体参数(例如上述17个用户头部特征)，子网络B的输入是通过拍摄图片计算的用户头部特征。

在图2中，ReLU函数为

该深度学习网络需要预先进行训练。具体训练方式如下：先搜集大量的人耳和上身特征数据，并且通过实验让测试者在现有的HRTFs响应函数库中寻找配对的响应函数。例如，播放一段由某个HRTFs响应函数所合成的声音，让测试者选择声音产生的角度和距离，如果产生角度和距离在阈值范围则认为该点的响应函数是合理的，并测试下一个点。如果不在阈值范围，则更换响应函数。每组测量角度间隔和距离间隔可设置为一个固定值，如10度和1m。当测试完毕后，将测试结果的HRTFs响应函数作为输出结果的真实值。通过真实值训练深度学习网络。使用时候，只需要将人体上身的参数和人耳的图像放入神经网络中，则可得到个性化的HRTFs响应函数。

应理解的是，训练完成后，对于新的用户，可利用经训练的模型预测HRTFs响应函数，参见图3所示。

步骤S106，使用插值法对各个离散水平面夹角角度和法向量夹角，以及不同离散距离对应的HRTFs响应函数的间断点进行插值。

具体实施方法是，假设HRTFs(x1,y1)和HRTFs(x2，y2)是与HRTFs(x，y)的欧氏距离最近的两个HRTFs响应函数。

那么采用以下三条公式联立计算：

得到这样的计算公式

步骤S107，选择或建立对应各种物体的声音编码库。

例如，可以自定义各种不同物体所代表声音的编码，将确定的编码更新到库中，代表该物体。

对于初始状态的设置，可以戴上基于感官替代的盲人辅助感知系统，并且将用户此时头部的状态设置为初始状态。

步骤S200，使用视觉输入单元实时获取周围的环境视频。

例如，打开多目视觉输入单元，将多目视觉输入单元的信号能够实时的传到处理器中。多目视觉单元可从多个角度拍摄图像，在下文中，将以左右两个图像为例进行介绍。

步骤S300，对每一帧视觉图像分别进行物体检测，得到当前环境的物体信息和类别，通过每一帧的视觉图像信息，计算各个物体距离视觉输入单元的三维坐标位置。

具体地，包括以下子步骤：

步骤S301，将实时视频中的每帧图像导入深度神经网络中，使用深度神经网络对物体目标进行检测，得到多目视觉输入单元中每一帧中各个物体的图像位置和类别，并且区分固定障碍物物体和非固定障碍物物体。

所使用的深度神经网络参见图4所示，其中LeakyReLU函数为

其中a是大于1的固定参数。

固定障碍物物体例如包括柱子、树和墙等。

步骤S302，对物体框进行切割，得到当前框内的物体图像。

步骤S303，将物体框内的物体图像进行抽象，得到当前框内图像的哈希值。

具体实施方法是，计算当前图像矩阵中均值

其中，

均为n*1的向量，若图像在该点的值大于

中所对应的均值，则将该点设为1，否则设为0，因此，可以得到一个n维的哈希矩阵Hash。

步骤S304，计算左边图像与右边图像哈希值的汉明距离，通过汉明距离得到左右图像相同物体所对应的图相框。

具体实施方法受，将哈希矩阵按位异或，得到的值进行求和，具体公式如下，

选择HamDis最小的矩阵即为相同的物体所对应的图相框。

步骤S305，检测当前图像中的物体与上一帧检测图像中是否有相同物体，如果有相同物体，则标记为未消失物体，并且计算相同物体的位移矢量，将没有在图像视野范围内的物体标记为消失物体。

计算位移矢量具体方法是，假设上一个检测帧中该物体的位置为(x₀,y₀)，当前检测帧中物体的位置为(x₁,y₁)，那么位移矢量则可视为向量

步骤S306，对步骤S304得到的左右图像相同框图内的物体进行角点分析，得到物体的角点矩阵。

角点检测的具体方法是，先选择一个p点作为圆心

其中I(x)为圆周上任意一点的灰度，I(p)为圆心的灰度，ε_d为灰度值差得阈值，如果N大于给定阈值，一般为周围圆圈点的四分之三，则认为p是一个角点。

步骤S307，对步骤S306得到的左右图像的角点矩阵计算哈希值。

步骤S308，将步骤S307中的左右图像角点矩阵的哈希值放入同一个空间中进行聚类。

步骤S309，通过聚类，寻找每个角点矩阵哈希值距离最近的点进行两两配对。

步骤S310，将两两配对的点进行对应的连线。

步骤S311，根据九轴惯性测量单元，计算当前头部上下运动产生的与水平面的垂直偏移角，左右摆动产生的---前一个状态视觉输入单元中心连线垂直的平面和当前状态视觉输入单元中心连线垂直的平面----的水平航向角，左右倾斜与水平面法向量所产生的水平滚动角。

步骤S312，去除配对连线为非水平连线的角点。

步骤S313，根据步骤S312所筛选的角点和连线，计算所有物体相对视觉输入单元的距离。

具体测距方法是，计算两点之间的距离dis＝B-(X_R-X_L)，其中X_R-X_L即为两个角点的视差，B则为视觉输入单元中心的距离，角点在三维中的距离则可用

其中f为相机焦距。

步骤S314，根据计算出的物体相对视觉输入单元的距离和物体与视觉输入单元中心位置的垂直偏移，计算物体相对视觉输入单元水平面的垂直高度。

步骤S315，根据计算出的物体相对视觉输入单元的距离和物体与视觉输入单元中心位置的水平偏移，计算物体相对视觉输入单元中心的左右偏离距离。

垂直高度的计算方法是，

其中YBias为图像中距离中心点的垂直偏移。

左右偏离距离的计算方法是，

其中XBias为图像中距离中心点的水平偏移。

步骤S400，根据步骤S300所得到的图像信息，物体信息和三维坐标信息，结合声音编码库建立物体的三维声场。

具体包括以下子步骤：

步骤S401，根据步骤S300所得到的所有物体的类别，寻找物体对应的声音编码库。

具体的声音编码是，码元由频率，波形，波长，和组合方式共同构成。根据物体的类型信息，包括是什么物体，大小是什么，状态是什么等信息，对码元选择不同的组合方式。

步骤S402，根据步骤S300中所计算出的各个物体相对视觉输入单元的水平面中心距离，相对视觉输入单元所在垂直平面的远近距离和视觉输入单元的水平面高度，带入HRTFs响应函数得到相应的各个物体的响应函数。

步骤S403，根据步骤S401所计算的各个物体的声音编码库和S402所计算的响应函数，计算各个物体所对应的立体声音。

具体三维声场合成方式如下，

其中，HRTFs是响应函数，AcousticCoding是物体对应的声音编码，

是卷积符号。

步骤S500，对不同类别的物体，根据运动信息和图像的变化，调整各个物体的三维声场，并且实时播放各个物体三维声场。

具体包括以下子步骤：

步骤S501，根据步骤S300得到上一帧和当前帧的垂直偏移角，水平航向角和水平滚动角的变化值。

步骤S502，计算三个角度的变化值是否在阈值范围内，如果没有超过阈值，则跳过当前帧，计算下一帧的角度变化值，直到超过阈值则进行下一步。

步骤S503，通过计算九轴惯性测量单元，判断人的运动方向。

步骤S504，通过步骤S300所标记的消失的物体，提取固定障碍物上一个检测帧固定障碍物的位置。

步骤S505，根据步骤S502计算的三个角度变化值和步骤S503所计算的人运动方向，计算当前检测帧中，消失的固体障碍物的位置；

步骤S506，更新步骤S505中物体的三维空间位置；

步骤S507，将步骤S506更新的三维位置代入该障碍物物体的三维声场中，判断是否超出了提醒范围，如果没有超出提醒范围则保留该物体的三维声场，否则，清除该物体的三维声场。

步骤S508，根据步骤S300中所得到的标记为消失的非固定障碍物物体，寻找该物体消失在图相框视野的前一个检测帧的位移矢量。

步骤S509，将标记为消失的非固定障碍物物体声音，根据该物体的位移矢量，叠加入该物体声音三维空间向量中。

步骤S510，更新消失的非固定障碍物物体的HRTFs响应函数三维坐标。

步骤S511，将非固定障碍物物体的声音编码做衰减处理，得到平滑后的声音编码。

步骤S512，若该声音编码衰减后的值仍大于阈值，则将衰减处理后的声音编码与该物体的HRTFs响应函数进行卷积，得到该物体此时的三维声场，否则，清除该物体的三维声场。

步骤S513，将消失的固定障碍物物体的三维声场，消失的非固定障碍物物体三维声场和图像中物体所对应的三维声场，同时叠加。

步骤S514，播放合成后的声音。

相应地，本发明还提供一种基于感官替代的辅助感知系统。该系统用于实现上述方法中的一个或多个方面。

例如，参见图5所示，该系统包括：预处理模块，用于对相机进行标定，对九轴惯性测量单元校准，通过用户耳朵和上身特征的特征完成HRTFs响应函数的个性化设置，对声音编码库的建立和对头部初始状态的设置；识别模块，用于对外界视觉环境的输入，对输入的视觉信息中的物体进行检测，对视觉信息中的物体进行切割；感知-三维视觉重建模块，用于对视觉信息的输入，对视觉信息中的不同物体建立不同的哈希值，寻找不同视觉输入单元中视觉信息中所代表的相同物体，寻找相同物体的角点，对相同物体的角点进行配对和筛选，对视觉物体的三维参数进行计算；感知-三维听觉重建模块，用于视觉信息的输入，运动信息的输入，选择声音编码，使用HRTFs的响应函数对声音进行三维重建，对移除视觉框的物体做衰减处理；输出模块，用于对听觉重建后的声音进行实时的输出，调整音量。

进一步地，参见图6所示(并未示出所有单元)，所述预处理模块包括以下单元：相机校准单元，用于标定相机；九轴惯性测量校准单元，用于在校准时候调整九轴惯性测量单元输出数值；人耳图片输入单元，用于建立个性化的HRTFs响应函数；上身参数输入单元，用于建立个性化的HRTFs响应函数；声音预编码单元，用于建立个性化的声音编码；头部初始状态设置单元，用于设置头部的初始状态。

进一步地，所述识别模块包括以下单元：视觉输入单元，用于接收外界的视觉信息，将视觉信息输入系统中；视觉物体检测单元，用于检测输入系统中的视觉信息中的物体和类别；视觉物体切割单元，用于切割检测到视觉信息中的物体。

进一步地，所述感知-三维视觉重建模块包括以下单元：视觉信息输入单元，用于接收从视觉信息中根据物体切割出来的图片信息和物体类别信息；视觉信息存储单元，用于存储从视觉信息中根据物体切割出来的图片信息和物体类别信息；物体抽象单元，用于将切割出的物体抽象成哈希值；物体区分单元，用于利用抽象后的哈希值，配对不同视觉输入单元中同一个物体；相同物体识别单元，用于识别与上一帧相同的物体；消失物体检测单元，用于检测当前帧与上一检测帧中物体的区别，将未检测到的物体标记为消失物体，并标记保存时间，当保存时间过则清除该物体，将检测到处于保存时间中标记为消失的物体重新标记为未消失物体；物体位移矢量检测单元，用于检测上一帧物体与当前帧相同物体产生的位移矢量；角点检测单元，用于检测配对后不同视觉输入单元的同一个物体在图像中的角点；角点抽象单元，用于将检测出的角点信息抽象成哈希值；角点区分单元，用于利用抽象后的哈希值，寻找相同物体中相似的角点；角点筛选单元，用于利用九轴惯性测量单元的信息，筛选角点；距离检测单元，用于利用不同视觉输入单元中相同的角点在图像中的位置，计算物体距离视觉输入单元的距离；垂直偏移检测单元，用于利用物体相对视觉输入单元的距离，通过计算垂直偏移量得到物体相对视觉输入单元平面垂直偏移的高度；水平偏移检测单元，用于利用物体相对视觉输入单元的距离，通过计算水平偏移量得到物体相对视觉输入单元中心左右偏移的距离。

进一步地，所述感知-三维听觉重建模块包括以下单元：三维信息输入单元，用于接收各个物体相对视觉输入单元的三维空间位置和该物体的类别信息；三维信息存储单元，用于存储和更新各个物体相对视觉输入单元的三维空间位置和该物体的类别信息；三维声场响应函数单元，用于存储个性化的三维空间中的HRTFs响应函数；声音编码单元，用于存储默认的和个性化的声音编码；三维声场选择单元，用于根据各个物体的三维空间位置信息选择三维声场响应函数，并且根据物体的类别信息选择物体的声音编码；三维声场的重建单元，用于将各个物体的响应函数和声音编码进行卷积，得到各个物体重建的三维声音；运动检测单元，用于检测当前九轴惯性测量单元相对上一个检测时间发生的变化是否超过阈值，超过阈值则记录此时视觉输入单元垂直偏移角，水平航向角，水平滚动角和运动方向的变化；更新检测单元，用于根据运动检测单元检测到的变化，更新标签为消失物体中的障碍物物体的三维空间位置，同时根据物体位移矢量检测单元的位移矢量，更新标签为消失物体中的非障碍物物体的三维空间位置；衰减处理单元，用于将消失物体中的非障碍物体的声音编码进行衰减处理。

进一步地，所述输出模块包括以下单元：音量调整单元，用于对输出的声音大小进行调整；输出单元，用于对听觉重建后的声音进行实施的输出。

综上所述，本发明提供的基于感官替代的辅助感知方法和系统是一种创新的帮助盲人感知世界替代视觉的方法；利用深度学习的模式识别方法，进行视觉图像数据转换，使得繁琐的图像变成简单的标签，从而使盲人更容易的感知周围环境；对每种声音提出了不同的声音编码；对固定障碍物物体和非固定障碍物物体提出了两种不同的三维声场的处理方法，这样更利于盲人的出行；对超出视野范围的物体采用了声音衰减处理，显著提高了盲人的用户体验。总之，本发明提供了一项非常创新的盲人视觉替代方案，非常利于盲人的室内以及室外等活动。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于感官替代的辅助感知方法，包括以下步骤：

步骤S2，使用视觉输入单元实时获取周围的环境视频；

步骤S5，对于不同类别的物体，根据运动信息和图像的变化，调整各个物体的三维声场，并且实时播放各个物体的三维声场；

其中，步骤S3包括以下子步骤：

将实时视频中的每帧图像导入深度神经网络中，使用深度神经网络对物体目标进行检测，得到视觉输入单元中每一帧中各个物体的图像位置和类别，并且区分固定障碍物物体和非固定障碍物物体；

对物体框进行切割，得到当前框内的物体图像；

将物体框内的进行抽象，得到当前框内图像的哈希值；

计算左边图像与右边图像哈希值的汉明距离，通过汉明距离得到左右图像相同物体所对应的图相框；

检测当前图像中的物体与上一帧检测图像中是否有相同物体，如果有相同物体，则标记为未消失物体，并且计算相同物体的位移矢量，将没有在图像视野范围内的物体标记为消失物体；

对得到的左右图像相框内的物体进行角点分析，得到物体的角点矩阵；

对得到的左右图像对应的角点矩阵计算哈希值；

将左右图像角点矩阵的哈希值放入同一个空间中进行聚类；

通过聚类，寻找每个角点矩阵哈希值距离最近的点进行两两配对；

将两两配对的点进行对应的连线；

根据惯性测量单元，计算当前用户头部上下运动产生的与水平面的垂直偏移角，左右摆动产生的前一个状态视觉输入单元中心连线垂直的平面和当前状态视觉输入单元中心连线垂直的平面的水平航向角，左右倾斜与水平面法向量所产生的水平滚动角；

去除配对连线为非水平连线的角点；

根据所筛选的角点和连线，计算所有物体相对于视觉输入单元的距离；

根据所计算出的物体相对视觉输入单元的距离和物体与视觉输入单元中心位置的垂直偏移，计算物体相对视觉输入单元水平面的垂直高度；

根据所计算的物体相对视觉输入单元的距离和物体与视觉输入单元中心位置的水平偏移，计算物体相对视觉输入单元中心的左右偏离距离。

2.根据权利要求1所述的基于感官替代的辅助感知方法，其中，步骤S1包括以下子步骤：

利用惯性测量单元的数据进行水平和垂直方向的校准；

拍摄用户和用户人耳的图片；

基于所拍摄到的图片计算用户的头部特征；

将惯性测量单元的数据和人耳的图片放入深度学习网络中，得到三维空间中各个离散水平面夹角角度和法向量夹角，以及不同离散距离对应的HRTFs响应函数；

使用插值法对各个离散水平面夹角角度和法向量夹角，以及不同离散距离对应的HRTFs响应函数的间断点进行插值。

3.根据权利要求2所述的基于感官替代的辅助感知方法，其中，所述用户的头部特征包括用户的头部的宽度，头部的高度，头部深度，耳廓高度，耳廓宽度，脖子宽度，脖子长度，脖子深度，躯干顶部宽度，躯干顶部高度，躯干顶部深度，肩宽，头向前偏移长度，高度，座位高度，头周长和肩部周长。

4.根据权利要求1所述的基于感官替代的辅助感知方法，其中，步骤S4包括以下子步骤：

根据所得到的所有物体的类别，寻找物体对应的声音编码库；

根据所计算的各个物体相对视觉输入单元的水平面中心距离，相对视觉输入单元所在垂直平面的远近距离和视觉输入单元的水平面高度，带入HRTFs响应函数得到相应的各个物体的响应函数；

根据已知的各个物体的声音编码库和所计算的各个物体的响应函数，计算各个物体所对应的立体声音。

5.根据权利要求1所述的基于感官替代的辅助感知方法，其中，步骤S5包括以下子步骤：

计算上一帧和当前帧的垂直偏移角，水平航向角和水平滚动角的变化值；

判断所述垂直偏移角，水平航向角和水平滚动角的变化值是否在阈值范围内，如果没有超过阈值，则跳过当前帧，计算下一帧的角度变化值，如果超过阈值，则进行下一步；

基于惯性测量单元判断人的运动方向；

通过所标记的消失的物体，提取固定障碍物上一个检测帧固定障碍物的位置；

根据所计算的垂直偏移角，水平航向角和水平滚动角的变化值和所获得的人运动方向，计算当前检测帧中，消失的固定障碍物的位置；

更新消失的固定障碍物物体的三维空间位置；

将更新的三维位置带入该固定障碍物物体的三维声场中，判断是否超出了提醒范围，如果没有超出提醒范围则保留该固定障碍物物体的三维声场，否则，清除该固定障碍物物体的三维声场；

根据所得到的标记为消失的非固定障碍物物体，寻找该非固定障碍物物体消失在图相框视野的前一个检测帧的位移矢量；

将标记为消失的非固定障碍物物体声音，根据该非固定障碍物的位移矢量，叠加入该非固定障碍物声音三维空间向量中；

更新消失的非固定障碍物的HRTFs响应函数三维坐标；

将非固定障碍物的声音编码做衰减处理，得到平滑后的声音编码；

若该声音编码衰减后的值仍大于阈值，则将衰减处理后的声音编码与该非固定障碍物的HRTFs响应函数进行卷积，得到该非固定障碍物物体此时的三维声场，否则，清除该非固定障碍物物体的三维声场；

将消失的固定障碍物物体的三维声场，消失的非固定障碍物物体三维声场和图像中物体所对应的三维声场同时叠加合成，获得合成后的声音。

6.一种基于感官替代的辅助感知系统，包括：

用于建立三维空间中离散水平面夹角角度和法向量夹角，以及不同离散距离对应的响应函数并建立物体的声音编码库的模块；

用于使用视觉输入单元实时获取周围的环境视频的模块；

用于基于所获得环境视频，对每一帧视觉图像分别进行物体检测，得到当前环境的物体信息和类别，通过每一帧的视觉图像信息，计算各个物体距离视觉输入单元的三维坐标位置的模块，该模块执行以下子步骤：

对物体框进行切割，得到当前框内的物体图像；

将物体框内的进行抽象，得到当前框内图像的哈希值；

对得到的左右图像对应的角点矩阵计算哈希值；

将左右图像角点矩阵的哈希值放入同一个空间中进行聚类；

将两两配对的点进行对应的连线；

去除配对连线为非水平连线的角点；

根据所计算的物体相对视觉输入单元的距离和物体与视觉输入单元中心位置的水平偏移，计算物体相对视觉输入单元中心的左右偏离距离；

用于根据所获得的图像信息，物体信息和三维坐标信息，结合所述声音编码库建立物体的三维声场的模块；

用于对不同类别的物体，根据运动信息和图像的变化，调整各个物体的三维声场，并且实时播放各个物体的三维声场的模块。

7.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至5中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5中任一项所述的方法的步骤。