CN215897762U

CN215897762U - 一种视觉辅助系统

Info

Publication number: CN215897762U
Application number: CN202120366625.5U
Authority: CN
Inventors: 饶培伦; 罗怿鸣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-02-22
Anticipated expiration: 2031-02-09

Abstract

本实用新型实施例公开了一种视觉辅助系统，包括：图像数据采集装置，设置为采集所在环境的图像数据；第一服务器，与所述图像数据采集装置相连，设置为接收所述图像数据，并进行包括距离检测、物体检测和处所检测在内的核心计算；第二服务器，与所述图像数据采集装置和所述第一服务器相连，设置为接收所述图像数据和核心计算结果，合成场景动态描述，并计算对被辅助者的辅助信息；语音合成装置，与所述第二服务器相连，设置为将所述辅助信息转化为交互语句；语音交互装置，与所述语音合成装置相连，设置为播放所述交互语句。通过该实施例方案，提升了用户出行过程中的安全系数、安全感以及对所处空间的认知。

Description

一种视觉辅助系统

技术领域

本实用新型实施例涉及视觉辅助技术，更具体地，涉及一种视觉辅助系统。

背景技术

人工智能是一种利用现代计算机的强大计算功能，通过大量的数据学习，使得计算机能够像人一样完成任务的技术。其中的深度学习是利用深度神经网络，即众多包含线性变换和简单非线性变换的神经元，使用大量的数据和与之对应的标签，通过反向传播调整线性变换的参数，从而使得计算机学得数据与其标签之间的规律的一种技术。该技术在计算机视觉、自然语言处理等方向有着重要的应用。

边缘计算是5G时代新兴的一种计算方式，在物联网等设施中有着重要的应用。其包括产生数据并接收计算结果的终端、离终端较近并负责大部分计算的边缘服务器、离终端较远且与边缘服务器进行数据交换的云服务器。其主要数据流为，将大流量的数据从终端发送至边缘服务器，边缘服务器进行运算之后将相对少了很多的数据传送给云服务器，运算结果返回边缘服务器再返回终端。其减少了大流量数据的远距离传输，十分符合5G技术的底层特点。

现代的视觉辅助技术多以雷达、双目摄像头等为输入硬件，价格都较为昂贵，且购买途径较少。此外少有的利用人工智能技术的系统也大多采用单片机进行计算，效率极低。大部分视觉辅助技术并未做深入交互研究，仅仅将冷冰冰的数据通过语音汇报给用户，增大了用户的脑力负荷，降低了技术的实时性与简便性。这些设备无法进行大规模普及推广，导致大部分盲人出行的主要辅助工具还是盲杖。盲杖效率较低且需要人主动触地探索，造成了出行的诸多不便。

实用新型内容

本实用新型实施例提供了一种视觉辅助系统，能够提升用户出行过程中的安全系数、安全感以及对所处空间的认知。

本实用新型实施例还提供了一种视觉辅助系统，可以包括：

图像数据采集装置，设置为采集所在环境的图像数据；

第一服务器，与所述图像数据采集装置相连，设置为接收所述图像数据，并进行包括距离检测、物体检测和处所检测在内的核心计算；

第二服务器，与所述图像数据采集装置和所述第一服务器相连，设置为接收所述图像数据和核心计算结果，合成场景动态描述，并计算对被辅助者的辅助信息；

语音合成装置，与所述第二服务器相连，设置为将所述辅助信息转化为交互语句；

语音交互装置，与所述语音合成装置相连，设置为播放所述交互语句。

在本实用新型的示例性实施例中，所述第一服务器可以为运行云服务器的云主机；

所述第二服务器可以为边缘服务器。

在本实用新型的示例性实施例中，所述第一服务器可以包括：

设置为进行距离检测计算的距离检测模块；

设置为进行物体检测计算的物体检测模块；以及，

设置为进行处所检测计算的处所检测模块。

在本实用新型的示例性实施例中，所述图像数据采集装置可以包括：第一无线通信模块，所述第一服务器可以包括：第二无线通信模块；

所述距离检测模块、所述物体检测模块和所述处所检测模块的数据输入端口分别与所述第二无线通信模块的数据输出端相连；

所述第一无线通信模块与所述第二无线通信模块进行无线通讯，将所述图像数据传输至所述第二无线通信模块。

在本实用新型的示例性实施例中，所述距离检测模块、所述物体检测模块和所述处所检测模块可以分别由独立的芯片实现或者集成于一个芯片内。

在本实用新型的示例性实施例中，所述第二服务器可以包括：

设置为进行场景描述生成的场景描述生成模块；

设置为根据所述核心计算结果计算所述辅助信息的辅助信息确定模块；

其中，所述辅助信息确定模块可以包括：

设置为根据距离检测结果确定距离报警内容的距离报警生成模块；

设置为根据物体检测结果确定物体提示内容的物体提示生成模块；以及，

设置为根据处所检测结果确定处所变更提示内容的处所变更提示生成模块。

在本实用新型的示例性实施例中，所述语音合成装置可以为将生成的场景描述以及所述辅助信息转化为交互语句的语音合成装置；

所述语音合成装置可以设置于所述第二服务器内。

在本实用新型的示例性实施例中，所述场景描述生成模块、所述距离报警生成模块、所述物体提示生成模块、所述距离报警生成模块和所述语音合成装置可以分别由独立的芯片实现或者集成于一个芯片内。

在本实用新型的示例性实施例中，所述图像数据采集装置可以为移动终端的图像数据采集装置；所述语音交互装置可以为所述移动终端的语音播放器。

在本实用新型的示例性实施例中，所述移动终端可以包括：第三无线通信模块，所述第二服务器可以包括：第四无线通信模块；

所述场景描述生成模块、所述距离报警生成模块、所述物体提示生成模块、所述处所变更提示生成模块和的数据输出端口可以分别与所述第四无线通信模块的数据输入端相连；

所述第三无线通信模块的数据输出端可以与所述语音交互装置的数据输入端相连；

所述第四无线通信模块可以与所述第三无线通信模块进行无线通讯，将所述交互语句传输至所述第三无线通信模块。

在本实用新型的示例性实施例中，所述视觉辅助系统还可以包括：姿态采集装置，设置为采集所持移动终端的姿态信息；

所述姿态采集装置可以设置于所述移动终端内，与所述移动终端的主控单元相连；

所述主控单元可以与所述第二服务器通信，所述第二服务器还可以设置为接收所述姿态信息。

在本实用新型的示例性实施例中，所述姿态采集装置可以包括移动终端的陀螺仪和/或加速度传感器。

在本实用新型的示例性实施例中，所述视觉辅助系统还可以包括：输入采集装置和辅助求助装置；

所述输入采集装置可以设置于所述移动终端内，与所述移动终端的主控单元相连，设置为采集控制输入信息；

所述辅助求助装置可以设置于所述移动终端内，与所述移动终端的主控单元相连，设置为发出求助信号。

在本实用新型的示例性实施例中，所述输入采集装置可以包括以下任意一种或多种：移动终端的按钮、人机交互界面和语音采集装置；

所述辅助求助装置可以包括所述移动终端的发光元件和/或扬声器。

本实用新型实施例可以包括：图像数据采集装置，设置为采集所在环境的图像数据；第一服务器，与所述图像数据采集装置相连，设置为接收所述图像数据，并进行包括距离检测、物体检测和处所检测在内的核心计算；第二服务器，与所述图像数据采集装置和所述第一服务器相连，设置为接收所述图像数据和核心计算结果，并计算对被辅助者的辅助信息；语音合成装置，与所述第二服务器相连，设置为将所述辅助信息转化为交互语句；语音交互装置，与所述语音合成装置相连，设置为播放所述交互语句。通过该实施例方案，提升了用户出行过程中的安全系数、安全感以及对所处空间的认知。

本实用新型的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本实用新型而了解。本实用新型的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本实用新型技术方案的进一步理解，并且构成说明书的一部分，与本实用新型的实施例一起用于解释本实用新型的技术方案，并不构成对本实用新型技术方案的限制。

图1为本实用新型实施例的视觉辅助系统组成框图；

图2为本实用新型实施例的视觉辅助系统各组成部分部署示意图；

图3为本实用新型实施例的视觉辅助系统各组成部分之间的数据交换过程示意图。

具体实施方式

为使本实用新型的目的、技术方案和优点更加清楚明白，下文中将结合附图对本实用新型的实施例进行详细说明。需要说明的是，在不冲突的情况下，本实用新型中的实施例及实施例中的特征可以相互任意组合。

本实用新型实施例提供了一种视觉辅助系统1，如图1所示，可以包括：

图像数据采集装置11，设置为采集所在环境的图像数据；

第一服务器12，与所述图像数据采集装置相连，设置为接收所述图像数据，并进行包括距离检测、物体检测和处所检测在内的核心计算；

第二服务器13，与所述图像数据采集装置和所述第一服务器相连，设置为接收所述图像数据和核心计算结果，合成场景动态描述，并计算对被辅助者的辅助信息；

语音合成装置14，与所述第二服务器相连，设置为将所述辅助信息转化为交互语句；

语音交互装置15，与所述语音合成装置相连，设置为播放所述交互语句，以将所述交互语句以语音形式传递给所述被辅助者。

在本实用新型的示例性实施例中，提供了一款不需要特殊、复杂的硬件且计算速度较快的针对视力障碍人群的视觉辅助系统，可以利用人工智能进行图像处理，利用边缘计算的技术进行计算加速。

在本实用新型的示例性实施例中，更加关注于与用户的交互，将处理得到的信息以一种更符合认知规律、用户能更快接受并理解直到形成意识的方式进行输出，提升用户出行过程中的安全系数、安全感以及对所处空间的认知。

在本实用新型的示例性实施例中，本实用新型实施例方案可以通过普通的移动终端实现，该移动终端包括但不限于智能手机、平板电脑、智能可穿戴设备等。

在本实用新型的示例性实施例中，对于移动终端所采用的操作系统不做限制，例如，移动终端可以采用搭载Android操作系统的智能手机，具有最基本的后置摄像头、音量上下键、陀螺仪、加速度传感器、闪光灯、扬声器功能即可。

在本实用新型的示例性实施例中，对于移动终端所支持的通信技术也不做限制，例如，可以包括但不限于4G、5G、6G……等通讯技术。

在本实用新型的示例性实施例中，移动终端上可以部署图像数据采集装置11，该图像数据采集装置11的功能可以包括：以30帧每秒的帧率拍摄照片，同时上传至第一服务器12；接受用户对音量键的输入，以此启动或关闭本实用新型实施例方案的视觉辅助功能，并可以切换系统模式(视觉辅助模式)；接收边缘服务器发回的语音合成结果，并将该语音合成结果播放给用户(即被辅助者)。

在本实用新型的示例性实施例中，所述第一服务器12可以为运行云服务器的云主机；

所述第二服务器13可以为边缘服务器。

在本实用新型的示例性实施例中，所述第一服务器12可以包括：

设置为进行距离检测计算的距离检测模块121；

设置为进行物体检测计算的物体检测模块122；以及，

设置为进行处所检测计算的处所检测模块123。

在本实用新型的示例性实施例中，所述第二服务器13可以包括：设置为对所述图像数据进行预处理的预处理模块131。

在本实用新型的示例性实施例中，所述第二服务器13还可以包括：

设置为根据所述图像数据进行场景描述生成的场景描述生成模块132；

设置为根据所述核心计算结果计算所述辅助信息的辅助信息确定模块133；

其中，所述辅助信息确定模块133可以包括：

设置为根据距离检测结果确定距离报警内容的距离报警生成模块1331；

设置为根据物体检测结果确定物体提示内容的物体提示生成模块1332；以及，

设置为根据处所检测结果确定处所变更提示内容的处所变更提示生成模块1333。

在本实用新型的示例性实施例中，所述语音合成装置14可以为将生成的场景描述以及包括所述距离报警内容、所述物体提示内容和所述处所变更提示内容在内的辅助信息转化为交互语句的语音合成装置；

所述语音合成装置14可以设置于所述第二服务器13内。

在本实用新型的示例性实施例中，所述图像数据采集装置11可以为移动终端16的图像数据采集装置；所述语音交互装置15可以为所述移动终端16的语音播放器。

在本申请的示例性实施例中，如图2所示，在边缘服务器上可以部署预处理模块131、场景描述生成模块132、周围计算模块133(可以称为辅助信息确定模块，实现距离报警、物体提示、处所变更提示、场景描述等功能)和语音合成装置14，在云服务器上可以部署单目测距模块(即距离检测模块)121、物体检测模块122和处所检测模块123，语音交互装置15可以设置于移动终端16上，例如可以为有线耳机或蓝牙耳机，在移动终端16上可以设置图像数据采集装置11(如摄像头)、加速度传感器161、陀螺仪162、振动模块163等设备，并设置视觉辅助模式164。边缘服务器和云服务器上的模块与移动终端16相配合实现本申请实施例方案。各个模块的具体数据交换过程可以如图3所示。

在本实用新型的示例性实施例中，核心计算子系统中的单目测距模块121、物体检测模块122、处所检测模块123由于输入的图片时间间隔相对较大，所以所需流量较小，可以将其部署在云服务器上进行运算。

在本实用新型的示例性实施例中，所述核心计算子系统中的场景描述生成模块132，由于输入图片的时间间隔相对较小，所需流量较大，可以将其部署在边缘服务器上进行运算。

在本实用新型的示例性实施例中，所述周围计算模块133由于需要核心计算子系统的计算结果，且计算量相对较小，可以将其部署在边缘服务器上进行运算。

在本实用新型的示例性实施例中，所述语音合成装置14由于传输的语音流量较大，且需要周围计算模块133的计算结果，可以将其部署在边缘服务器上进行运算。

在本实用新型的示例性实施例中，摄像头、加速度传感器、陀螺仪等的输入可以由移动终端16上的软件系统自行获取，无需用户主动操作。

在本实用新型的示例性实施例中，所述视觉辅助系统还可以包括：姿态采集装置，设置为采集所持移动终端16的姿态信息；

所述姿态采集装置可以设置于所述移动终端16内，与所述移动终端16的主控单元相连；

所述主控单元可以与所述第二服务器13通信，所述第二服务器13还可以设置为接收所述姿态信息。

在本实用新型的示例性实施例中，所述姿态采集装置可以包括移动终端16的陀螺仪和/或加速度传感器。

所述输入采集装置可以设置于所述移动终端16内，与所述移动终端16的主控单元相连，设置为采集控制输入信息；

所述辅助求助装置可以设置于所述移动终端16内，与所述移动终端16的主控单元相连，设置为发出求助信号。

在本实用新型的示例性实施例中，所述输入采集装置可以设置于所述移动终端16内，并可以与所述辅助求助装置直接相连，所述辅助求助装置根据输入采集装置的输入信息发出求助信号。

在本实用新型的示例性实施例中，所述输入采集装置可以包括以下任意一种或多种：移动终端的按钮、人机交互界面(如视力障碍者专用的触摸屏)和语音采集装置；

所述辅助求助装置可以包括所述移动终端16的发光元件和/或扬声器。

在本实用新型的示例性实施例中，基于上述部署，基于人工智能和边缘计算的视力障碍者(即被辅助者)视觉辅助方法的详细步骤可以包括步骤1-7：

1.打开移动终端上的图像数据采集装置，以每秒一定帧数的速率采集图像数据；该图像数据可以包括图片和/或视频。

2.通过预处理模块，可以对由图像数据采集装置采集到的图片进行筛选，其中合格的图片可以称为1类图片，不合格图片可以称为2类图片。

3.将合格图片送入云服务器上的核心计算子系统(可以包括单目测距模块、物体检测模块、处所检测模块和场景描述生成模块)，进行测距(即距离检测)、物体检测、处所检测和场景描述生成。

4.将计算结果送入周围计算模块，并读取用户的模式配置(即当前的视觉辅助模式)。

5.根据用户的模式配置，进行一系列周围计算(即确定对被辅助者的辅助信息)，把核心计算的数据转换为符合认知的交互语句。

6.将交互语句传输至语音合成装置，合成出缓慢、温柔的人声。

7.通过语音交互装置将合成出的人声播放给用户。

8.当输入采集装置获得用户需要向他人求助的输入信息时，移动终端可根据该输入信息生成命令信号发送到该辅助求助装置，辅助求助装置可以根据该命令信号生成求助信号，例如，光信号、声音信号中的一种或多种，展示给周围人。这个输入信息可以是一个1bit数据，即只是用于表征被辅助者是否需要向他人求助的信号。详细的求助内容可以由被辅助者自行向他人表述，辅助求助装置只负责吸引周围人的注意。

在本实用新型的示例性实施例中，所述方法还可以包括：所述图像数据可以包括图片；在根据所述图像数据进行核心计算之前，对所述图片进行预处理；

所述对所述图片进行预处理可以包括但不限于：

从采集的全部图片中筛选出合格图片，并剔除不合格图片；以及，

将所述合格图片切分成多个区域，其中相邻区域之间具有重叠部分。

在本实用新型的示例性实施例中，可以利用移动终端中的陀螺仪、加速度传感器、图片颜色块数等信息，对图像数据采集装置获取的图片进一步筛选。

在本实用新型的示例性实施例中，例如，可以检测因图像数据采集装置移动速度过快导致的模糊，所有模糊图片被标为不合格图片；可以检测因图像数据采集装置对焦失败导致的模糊，所有模糊图片被标为不合格图片；还可以检测因图像数据采集装置离某确定平面或物体过近导致的信息过少，所有信息过少的图片被标为不合格图片。

在本实用新型的示例性实施例中，图片上传到边缘服务器后，经过预处理模块进行图片预处理的详细步骤可以包括步骤21-29：

21、利用下采样的方法，将图片大小变为预设尺寸，例如224×448。

22、利用计算机视觉中动态模糊检测算法，筛选出动态模糊的图片标为2类图片，即不合格图片。

23、利用移动终端上传来的陀螺仪、加速度传感器数据，筛选掉动态模糊的图片标为2类图片，即不合格图片。

24、利用计算机视觉中的拉普拉斯方差算法，筛选出高斯模糊的图片标为2类图片，即不合格图片。

25、利用聚类算法，将距离、颜色都相近的像素点聚类，检测图片中出现多少个聚类簇。如果聚类簇个数过少则认为图片可用信息量过少，标为2类图片，即不合格图片。

26、按照时间轴，每隔设定时长(如5秒)取出一张剩余图片，标为1类图片(即合格图片)，其余标为2类图片。

27、图片切割，将所有1类图片切割为上、下两部分，再将上半部分的下半部与下半部分的上半部结合起来形成中间部分。例如，将1类图片的纵坐标分为两段，224×[1,224]为上半张图片，224×[225,448]为下半张图片。生成中间半张图片，为224×[112,335]。

28、图片筛选，将所有1类图片每隔一定帧数提取一张，标记为选定。

29、将1类图片、1类图片分割后的结果、2类图片按时间顺序发送至云服务器。

在本实用新型的示例性实施例中，云服务器可以同时启动部署在其中的三个模块(即核心计算子系统所包括的单目测距模块、物体检测模块、处所检测模块和场景描述生成模块)，进行并行核心计算。

在本实用新型的示例性实施例中，所述图像数据可以包括：图片和/或视频；所述根据所述图像数据进行核心计算可以包括：

将采集的图片输入预先训练好的第一神经网络，通过所述第一神经网络确定所述图片中的特征物，并测量所述特征物与所述图片的拍摄装置之间的深度，实现所述距离检测；

将采集的图片输入预先训练好的第二神经网络，通过所述第二神经网络检测所述图片中是否存在物体以及物体类型，并测量所述物体的位置，实现所述物体检测；所述物体的位置包括所述物体相对于所述被辅助者的方位；

将采集的图片输入预先训练好的第三神经网络，通过所述第三神经网络检测所述图片中的场景，并预测出n种可能的所处场景，n为正整数，实现所述处所检测；

将采集的视频输入预先训练好的第四神经网络，通过所述第四神经网络生成所述视频中的事件的语音描述信息，实现所述场景描述生成。

在本实用新型的示例性实施例中，所述第一神经网络可以包括SeNet-154神经网络，并以NYU-v2数据集作为训练数据集；

所述第二神经网络可以包括Darknet-v3神经网络，具体基于yolo-v3算法实现物体检测；

所述第三神经网络可以包括ResNet-152神经网络，并以Place365数据集作为训练数据集；

所述第四神经网络可以包括：编码器ResNet-152和解码器SA-LSTM。

在本实用新型的示例性实施例中，单目测距模块包括所述第一神经网络，物体检测模块包括所述第二神经网络，处所检测模块包括所述第三神经网络，场景描述生成模块包括所述第四神经网络。

在本实用新型的示例性实施例中，所述单目测距模块利用一个图像数据采集装置的图片输入进行距离估计，无需传统方法中复杂的双目摄像头，也无需进行相机标定，普通的智能手机摄像头就能充当此单目测距模块的输入端。

在本实用新型的示例性实施例中，所述单目测距模块可以利用人工智能算法进行计算，使用最新的SeNet-154神经网络，利用编码器、解码器、不同大小的特征融合器和细化器进行深度检测。

在本实用新型的示例性实施例中，单目测距模块采取SeNet-154作为主干神经网络，同时也是编码器。其根据S-E模块可以分成4个块和一个单独卷积层。将后三个块和卷积层的输出输入到多尺度特征融合器中，将单独卷积层的输出输入到解码器中，将解码器和特征融合器的输出一并输入到细化层中，得出最终的深度图片。输入图片的尺寸可以为224×224×3，深度图片的尺寸可以为112×152×1，将深度图片进行二维插值，获得和输入图片尺寸一致的深度信息。

在本实用新型的示例性实施例中，单目测距模块的输入可以为所有1类图片分割后的结果，将所有标记为选定的1类图片的三部分放入第一神经网络进行运算，然后按照中间半张图片的测距结果，合并三幅图片的深度图；具体地，可以将重合部分的深度取平均值，非重合部分通过计算重合部分的计算值与最终平均值的偏移量进行一定偏移计算。通过第一神经网络实现了对图片中的点距离图像数据采集装置的深度进行测量与判断。

在本实用新型的示例性实施例中，所述物体检测模块可以利用人工智能算法，即最新的yolo-v3算法，利用Darknet-v3进行特征提取，并利用anchor box等方法进行相应目标检测。

在本实用新型的示例性实施例中，物体检测模块采取Darknet-v3作为主干神经网络，利用COCO数据集作为训练数据，同时去除一些在本实用新型实施例方案的应用场景中出现概率较小的物体信息。例如，可以采取YOLO-v3目标检测算法作为上层的物体检测方法，由于最终所需的颗粒度不高，所以可以特化地将anchor box数量取3，并将图片划分为5×5的网格。先将所述主干神经网络放入ImageNet数据集下进行物体类别判断的训练，再冻结网络的前数层，放入COCO数据集进行目标检测训练，最后解冻网络前数层，进行整体训练。

在本实用新型的示例性实施例中，物体检测模块的输入为所有1类图片分割后的结果，将所有标记为选定的1类图片分割后的三部分放入第二神经网络进行运算，再将所有识别到的物体进行坐标转换，转换回原图坐标，再找出交并比较大的物体框对，删除其中概率较小的一个。通过第二神经网络实现了对图片中出现的物体集中的常见物体进行检测和位置测量。

在本实用新型的示例性实施例中，将1类图片切成上、中、下三块有所重叠的区域，分别进行单目测距和物体检测的计算，提高了识别精度。

在本实用新型的示例性实施例中，所述处所检测模块可以利用最新的ResNet-152神经网络与Place365数据集，预测最可能的n种处所场景，n为正整数。

在本实用新型的示例性实施例中，处所检测模块采用ResNet-152作为主干神经网络，采取Place365数据集进行训练，且删除数据集中不可能出现在本实用新型实施例方案的应用场景中的图片与标签。将该网络先放入ImageNet数据集下进行物体类别判断的训练，再冻结网络的前数层，放入Place365数据集进行训练，最后解冻前数层进行整体训练。

在本实用新型的示例性实施例中，处所检测模块的输入为所有1类图片分割前的原图片，将所有标记为选定的1类图片的原图片输入第三神经网络进行计算，计算最可能的n个(如五个)处所和其概率。通过第三神经网络实现了对图片的拍摄装置所处的场所进行判断。

在本实用新型的示例性实施例中，云服务器可以将单目测距模块、物体检测模块和处所检测模块这三个模块的运算结果分别发送回边缘服务器，也可以将四个模块的计算结果整合打包发送到周围计算模块。例如，可以包括如下信息：

单目测距模块的深度图，尺寸为224×448；

物体检测模块的物体框，即左上角的坐标、宽度、高度以及物体的种类(或称类型)；

处所检测模块最可能的五个处所名称及其概率。

在本实用新型的示例性实施例中，所述场景描述生成模块可以以一段视频为输入，以视频中发生的事情的描述为输出。其利用ResNet-152作为编码器，将输入视频逐帧进行特征提取，利用SA-LSTM作为解码器，对输入的每一帧进行注意力机制的处理，并输入到排成序列状的多层长短期记忆神经网络单元(LSTM Unit)中，生成图片描述。

在本实用新型的示例性实施例中，场景描述生成模块采用ResNet-152作为编码器神经网络，采用带注意力机制的长短期记忆网络作为解码器神经网络。对于编码器的训练，将编码器放入ImageNet数据集下进行物体类别判断的训练，在接下来的训练过程中将编码器冻结，不做反向传播的修正。将编码器神经网络的最后一层去掉，使编码器输出图片的特征向量而不是类别信息。将输入视频抽帧处理，每一帧输入编码器神经网络，获得相应的特征向量矩阵，将矩阵进行注意力机制处理。对于解码器，其一部分输入是注意力机制处理后的特征向量矩阵，另一部分是当前已经生成的句子，解码器的任务是根据这两种信息预测句子的下一个词，这样增加了解码器的健壮性，在某个词汇出现预测偏差之后，后面的词汇也能尽可能减小该偏差。在应用时，利用集束搜索的方式选择下一个词。

在本实用新型的示例性实施例中，所述场景描述生成模块利用预训练完成的第四神经网络对于一段视频中发生的事情进行自然语言的描述。具体地，可以将所有1类图片未经分割的整体与所有2类图片以一定时间间隔打包成一段视频，输入所述第四神经网络进行计算。

在本实用新型的示例性实施例中，场景描述生成模块可以设置于边缘服务器中，边缘服务器可以每隔30秒，将所有1类图片、2类图片输入场景描述生成模块的编码器中，得到对应的30×30个特征向量，再将特征向量输入到场景描述生成模块的解码器中，得到初步生成的场景描述。此计算可以与单目测距模块、物体检测模块和处所检测模块的计算并行发生。

在本实用新型的示例性实施例中，边缘服务器可以将计算得到的场景描述以及从云服务器接收到的计算结果进行整合，并生成具体的辅助交互语句。

在本实用新型的示例性实施例中，在周围计算模块中可以首先根据核心计算子系统返回的数据确定对用户实施的辅助信息。

在本实用新型的示例性实施例中，所述辅助信息可以包括以下任意一种或多种：距离报警、物体提示、处所变更提示、场景描述以及主动引导；

其中，所述距离报警，用于在被辅助者与检测到的物体之间的距离小于或等于预设的距离阈值时向所述被辅助者发出提醒；

所述物体提示，用于向所述被辅助者描述检测到的物体对应的物体信息；所述物体信息可以包括：名称和/或空间坐标；

所述处所变更提示，用于提示所述被辅助者当前处所发生变更，并向所述被辅助者提供多个可能的处所；

所述场景描述，用于对采集的视频中的动态场景进行语言描述；

所述主动引导，用于根据所述距离检测中所获得的物体深度信息进行障碍物判断，并以语音形式向所述被辅助者提供道路方向引导。

在本实用新型的示例性实施例中，在实现以上辅助功能之前，可以首先确定本实用新型实施例中所使用的坐标系，以便于确定物体的空间坐标，并与上述辅助信息的描述。

在本实用新型的示例性实施例中，物体的空间坐标所在坐标系可以以所述被辅助者的重心为坐标原点，所述坐标系可以包括：深度坐标、横坐标和纵坐标；

其中，可以以水平方向上所述被辅助者面对的方向为所述深度坐标的正方向，以水平方向上所述被辅助者左手侧所在的方向为横坐标的正方向，以竖直方向上竖直向上的方向作为纵坐标的正方向；

所述横坐标被分成a段，所述纵坐标被分成b段，所述竖直坐标被分为c段，每一分段都具有相应的自然语言名称；

在所述坐标系的水平面上，所述被辅助者前方180度的区域被划分为d个扇区，每一扇区都具有相应的自然语言名称；a、b、c、d为正整数。

在本实用新型的示例性实施例中，采取了一种特殊的坐标描述方法，可以把水平方向分成五段，竖直方向分为三段，前后方向分为三段，并分别以自然语言对每个分段进行命名。坐标变化量也可以进行分段，水平、竖直、前后方向均分为两段(正、负方向各一段)，同样以自然语言对每个分段进行命名。射线角度(即方位)分为五段，以竖直为中心，两侧各两段，以自然语言命名。

在本实用新型的示例性实施例中，例如，可以将输入图片的横坐标分成五段，纵坐标分成三段，深度坐标分为三段，每一段都有相应的自然语言名称。横、纵、深坐标变化量分别为两段，即正变化和负变化各一段。用户面前180度的方向分为五段，正左正右、斜左斜右、正前各一段。

在本实用新型的示例性实施例中，如果将224×448的图片的水平方向等分为5份，分别称为左边、靠左、中间、靠右、右边；竖直方向等分为3份，分别称为地上、中部、空中；前后方向以2米和5米为分界点分为3份，分别称为面前、近处、远处。水平坐标(即横坐标)变化量分别称为向左移动、向右移动；竖直坐标(即纵坐标)变化量分别称为向上移动、向下移动；深度坐标变化量分别称为靠近、远离、没动。将面前的方向分为五份，分别称为向左、向左前方、向前、向右前方、向右。

在本实用新型的示例性实施例中，所述周围计算模块可以利用物体检测时检测出的物体信息的纵坐标与其对应位置的深度信息联系起来，利用透视算法进行纵坐标修正。其中，对于分类为不可悬空的物体，其纵坐标修正为空，即在描述时不进行其纵坐标描述。通过该实施例方案，可以减少透视效果对于物体三维坐标检测造成的影响。

在本实用新型的示例性实施例中，在实现以上辅助功能之前，还可以对图片进行网格化，例如，根据上述的坐标分段，可以将输入图片分成5×3共15个网格，在涉及画面整体的交互或信息输出时，每个格子作为一个整体进行处理，以便于辅助提示时的内容描述。

在本实用新型的示例性实施例中，在实现以上辅助功能之前，还可以把物体分为两类，一类是可以悬空的，另一类是不可以悬空的，可以悬空的物体描述时描述水平(横坐标)、竖直(纵坐标)、前后(深度坐标)的三维度坐标，不可悬空的物体描述时只描述水平、前后两维度坐标。

在本实用新型的示例性实施例中，所述根据核心计算的计算结果确定对被辅助者的辅助信息，可以包括下述一至五条的内容：

一、距离报警

将所述距离检测所检测出的深度信息确定为所述图片上的任意的第一物体与所述被辅助者之间的第一距离，将所述第一距离与所述距离阈值进行比较，当所述第一距离小于或等于所述距离阈值时，生成所述距离报警。

在本实用新型的示例性实施例中，所述距离报警功能可以通过语音提示和设备振动的双通道同时进行报警。

在本实用新型的示例性实施例中，距离预警功能可以基于上述的网格化方法，挑选其中与被辅助者的距离最小的几个(如两个)格子，其距离记为两个最近探测距离。如果最近探测距离小于设定的距离阈值，则可以进行距离提醒，提醒方式可以按照上述的坐标描述方法描述对应网格的坐标和最近探测距离。当最近探测距离过近时，可以辅以手持设备振动的提醒。为了进一步提升用户安全感，每隔一段时间如果无距离报警信息，可以对最近探测距离和相应网格坐标进行一次描述式的提醒。

在本实用新型的示例性实施例中，可以依照核心计算子系统设置的计算间隔，每5秒触发一次该距离报警功能。计算5×3网格每一格的最小距离，若最小距离较为极端，且周围梯度较大，则将其剔除重新计算。取最小距离最小的两格，如果有一个小于距离阈值0.3，则按照所述坐标描述法进行描述，且辅以手机振动。如果两格距离都小于0.3，则将两格坐标都按照所述坐标描述法进行描述，亦辅以手机振动。如果两个距离都大于0.3，则不进行任何提醒，如果30秒内无任何提醒发生，则按照所述坐标描述法描述距离最小的网格，且不辅以手机振动。提示的语句形例如“您面前某某坐标(所述自然语言坐标)处有障碍物靠近”。

二、物体提示

根据所述物体检测中检测到的物体类型确定所述第一物体的第一名称；根据所述物体检测中检测到的物体边界信息确定所述第一物体的第一高度；根据所述第一距离、所述第一高度以及所述物体检测中检测到的所述第一物体相对于所述被辅助者的第一方位确定所述第一物体的第一空间坐标；根据所述第一名称确定第一物体是否可以悬空；根据所述第一空间坐标和所述第一物体是否可以悬空的性质修正第一空间坐标；根据所述第一名称、修正后的第一空间坐标生成所述物体提示的提示内容。

在本实用新型的示例性实施例中，根据所述第一空间坐标生成所述物体提示的提示内容可以包括：

当所述第一空间坐标位于所述横坐标、纵坐标或垂直坐标上时，根据所述第一空间坐标所在的分段对应的自然语言名称形成所述提示内容中的关于第一空间坐标的描述内容；

当所述第一空间坐标发生变化时，实时根据所述第一空间坐标的变化情况更新所述第一空间坐标的描述内容。

在本实用新型的示例性实施例中，在物体第一次出现时，依照所述坐标分段法描述该物体的横纵深三坐标以及该物体的物体类别，其中，对于坐标相同的物体，即，对于分段后坐标相同的物体，描述时可以进行合并，可以在同一语句中同时描述。在同一物体第二次出现时，可以依照坐标的变化量分段描述坐标的变化量及物体类型。

在本实用新型的示例性实施例中，所述物体描述(即物体提示)功能还可以进行整体画面描述，对5×3每个网格进行距离、物体描述。

在本实用新型的示例性实施例中，物体提示功能可以依照核心计算子系统设定的计算间隔，每5秒触发一次该功能。提示语句形如“您面前某某坐标(所述自然语言坐标)处有某某物体”。

三、处所变更提示

调取根据所述处所检测确定出的上一次预测的n种可能的所处场景，并将当前处所检测过程中获取的第一处所信息与所述上一次预测的n种可能的所处场景的第二处所信息相比较，当所述第一处所信息与所述第二处所信息的差异率大于或等于预设的差异率阈值时，确定当前处所发生变更，并根据所述第一处所信息重新预测出n种可能的所处场景；根据当前处所发生变更的信息以及重新预测出的n种可能的所处场景生成所述处所变更提示的提示内容。

在本实用新型的示例性实施例中，在处所检测结果给出的最可能的n种(例如五种)处所和当前处所存在差别，且多张图片的识别信息都产生了类似的差别时，可以判断为处所变更了，并给出相应提示。提示内容并不是最可能的一种处所，而是提供多种可能处所让用户根据背景信息自行判断。

在本实用新型的示例性实施例中，所述处所变更提示功能采取多帧判断的方法，只有在很多帧图片识别到的处所都变化时，才进行处所变化提示，每次处所变更时给出多种最可能的处所。训练过程中舍弃了Place365数据集中不太可能出现在本实用新型实施例方案的应用场景中的处所。

在本实用新型的示例性实施例中，每次进行处所检测可以记录当前最可能的五种场所及其概率。依照核心计算子系统的计算间隔，可以每5秒进行一次检查。如果最近核心计算子系统算得的连续五次处所检测模块检测出的的最可能五种场所与当前记录的场所(即上一个间隔预测并记录的n种可能的所处场景)差距很大，则进行当前处所更新，取五次中概率最高的两种场所，提示给用户，提示的格式形例如“您现在来到了某某某地”。

四、场景描述

调取所述场景描述生成计算中所获取的语音描述信息，将所述语音描述信息作为所述场景描述的描述内容。

在本实用新型的示例性实施例中，所述场景描述功能可以对场景描述生成模块的输出语句进行简单的修饰，使之变得更像是对话。根据核心计算子系统生成的场景描述语句稍加修饰输出即可，修饰的目的主要是为了使语句变得更亲切、富有对话性。

在本实用新型的示例性实施例中，可以根据核心计算子系统的计算间隔，每30秒触发一次该场景描述功能。将场景描述生成模块生成的语句稍加修饰，格式形如“您面前发生了某某事件”。

在本实用新型的示例性实施例中，利用人工智能技术，合成出富有感情的语音，消除了冷漠的机器感。并且所述周围计算模块生成的语句偏向口语，利用对话语体，营造出一种陪伴感。

五、主动引导

根据所述距离检测中检测到的深度信息判断所述被辅助者的周围是否具有深度大于或等于预设的深度阈值的连续段，当存在所述连续段时，将所述连续段确定为可行路线，作为所述主动引导的引导方向。

当所述引导方向位于所述扇区内时，根据所述引导方向所在的山区对应的自然语言名称形成所述提示内容中主动引导方向的内容。

在本实用新型的示例性实施例中，主动引导功能可以根据当前深度信息和障碍物判断信息，主动给用户提供宽阔道路的方向引导。

在本实用新型的示例性实施例中，主动引导功能开启后，可以依据深度图进行判断，一条竖直直线(原坐标，并非所述自然语言描述坐标)的估价函数计算方式为，在地面线(设定的纵坐标阈值)以下的梯度性(考虑到地面的透视效果)、在地面线以上的最近距离以及转向附加代价。选择一个横坐标区间，其长度大于一个设定的阈值(即路的最小宽度)，使得其中所有竖直线的最大估价函数最小。判断这个区间相对于用户的方向，并利用所述方向描述的自然语言反馈给用户。在选择一个方向之后，下一步计算时，与该方向相反的竖直直线的转向附加代价会减小(可以小于0)，相同方向的竖直直线附加转向代价会增大，尽量引导用户在转弯之后转回来，以至于可以整体上不改变用户的前进方向。

在本实用新型的示例性实施例中，主动引导功能可以在用户走到障碍物繁多的地方时启动。根据所述核心计算子系统给出的深度信息，判断用户面前哪个方向有深度较深的连续段，将其认定为一条可能的路线。引导用户向该方向前进，方向信息可以根据前述方向分段方法传达给用户。当图片中无法检测到可能的路线时，引导用户进行左或右转身，进行新的方向的引导。在用户进行左或右转身后，相应反方向的引导权重变高，尽量保证用户朝着直线行走。

在本申请的示例性实施例中，所述辅助方法还可以包括：当被辅助者需要帮助时主动向周围人寻求帮助。

其中，被辅助者可以通过所述移动终端中的输入采集装置开启辅助求助功能，移动终端在接收到开启通知时，通过辅助求助装置中的硬件，以声音和/或光信号的方式吸引周围人的注意，从而达到寻求帮助的目的。在获得帮助之后，被辅助者可以再次通过输入采集装置关闭辅助求助功能。

在本实用新型的示例性实施例中，所述方法还可以包括：根据当前的视觉辅助模式确定所采用的辅助信息；

其中，所述视觉辅助模式可以包括以下任意一种或多种：步行模式、探索模式、近景模式和待机模式。

在本实用新型的示例性实施例中，所述根据当前的视觉辅助模式确定所采用的辅助信息，可以包括：

当当前处于所述步行模式时，根据所述主动引导对被辅助者进行道路方向引导，并筛选出根据所述物体检测所检测到的需提醒物体，根据所述物体提示对该需提醒物体进行描述；

当当前处于所述探索模式时，每隔预设时长，针对当前采集到的图片进行一次空间整体描述；其中，所述图片被划分为多个网格，描述内容包括以下任意一种或多种：每个网格的场景描述、每个网格的空间坐标描述、每个网格与被辅助者的平均距离描述、每个网格中所包含物体的物体信息描述；

当当前处于所述近景模式时，执行所述物体提示，其中，当检测出的同一类型的物体的数量大于或等于预设的数量阈值时，在所述物体提示的提示内容中将所检测到的该类型物体进行合并描述，当检测出的同一类型的物体的数量小于所述数量阈值时，在所述物体提示的提示内容中将所检测到的该类型物体进行分别描述；并且在所述提示内容中仅包含横坐标和/或纵坐标的描述，不包含深度坐标的描述；

当当前处于所述待机模式时，仅上传当前的视觉辅助模式为待机模式，以使得根据所述待机模式停止计算。

在本实用新型的示例性实施例中，可以从所述移动终端读取用户的模式配置，具体地，可以包括所设置的视觉辅助模式(步行模式、探索模式、近景模式和待机模式)以及主动导航是否开启。可以将用户的模式配置和所述核心计算子系统的计算结果一起发送至周围计算模块。

在本实用新型的示例性实施例中，对于步行模式，可以应用在用户具有较为明确的目的地，且需求快速、安全到达该地点时的情况下。该模式下所述周围计算模块中距离报警、物体提示、处所变更提示功能可以均启动。

在本实用新型的示例性实施例中，对于探索模式，可以应用在用户需求是更多地了解当前所处空间状态的情况下。该模式的主要目的是提升用户的空间认知，让用户在脑海中有更多关于当前空间的细节的概念。该模式下所述周围计算模块中的距离报警、物体提示、处所变更提示和动态的场景描述功能可以均启动。

在本实用新型的示例性实施例中，对于近景模式，可以应用在用户基本保持静止，且面前有相对静止较多不会造成危险的障碍物的情况下，例如拥挤的公交车上或书桌前。该模式下所述周围计算模块中可以只有物体提示功能会启动。

在本实用新型的示例性实施例中，对于待机模式，可以应用在用户到达熟悉的场所或暂时不需要视觉辅助的情况下。该模式下所述移动终端上的摄像头不会进行拍照工作，唯一的数据传输可以是将保持待机的模式上传到所述核心计算子系统和周围计算模块，让其停止计算工作。

在本实用新型的示例性实施例中，判断当前处于步行模式、近景模式还是探索模式。若当前处于步行模式，则筛选出核心计算子系统识别出的物体中易造成危险的和会发出令人注意的声音的物体，依照前述的物体描述方法进行描述。若当前处于近景模式，则将核心计算子系统识别出的物体中，被识别到的个数较少的物体依照前述物体描述方法进行描述，但只描述横纵坐标及其变化量，忽略深度坐标及其变化量；如果某种物体被识别到的个数较多，则将其合并描述，即描述所有识别到该物体的块的坐标以及物体类型。若当前处于探索模式，则每隔一段时间进行一次空间整体描述，即描述全部十五个网格，内容可以为其位置、平均距离及该网格中出现的物体，可以按照前述的物体描述方法进行描述，直到下一次空间整体描述。

在本实用新型的示例性实施例中，针对前述的物体提示功能，在此针对不同的视觉辅助模式(步行模式、探索模式、近景模式和待机模式)可以进行不同的处理。

在本实用新型的示例性实施例中，针对步行模式，在物体提示功能中可以筛选出识别的物体中可能造成危险的和会发出令人注意的声音的物体，在深度图中寻找其对应距离。可以应用动态目标检测算法，若判断该物体为第一次出现，则将物体坐标、距离转换为前述的坐标描述方式，一并与物体类别输出，同一网格的新物体可以进行合并，在同一语句中描述，不重复描述坐标；若判断该物体之前出现过且被描述过，则可以将物体坐标变化量、距离变化量转换为坐标变化量描述方式，坐标变化量相同的物体可以进行合并，在同一语句中描述，不重复描述坐标变化量。

在本实用新型的示例性实施例中，针对探索模式，可以每隔30秒或在深度图片出现明显非线性变化时，进行一次整体空间描述。整体空间描述的步骤可以包括：从下到上，从左到右，分别按前述的坐标描述方式描述十五个网格的坐标、平均深度、其中出现的物体类别。在不进行整体空间描述时，按照上述方法对第一次出现的物体或出现过的物体进行分别描述。注意，该模式下并不进行物体筛选，可以描述所有识别到的物体。

在本实用新型的示例性实施例中，针对近景模式，可以按照前述方法对第一次出现的物体或出现过的物体进行分别描述，同样不进行物体筛选。若某种物体在同一张图中识别到的次数很多，则进行合并描述，描述方式为按照坐标描述方式描述所有识别到的坐标，并描述物体类别和个数。

在本实用新型的示例性实施例中，周围计算模块可以将所有生成的描述语句发送给语音合成装置，周围计算模块和语音合成装置二者可以都设置在边缘服务器中。

在本实用新型的示例性实施例中，语音合成装置可以调用人工智能算法生成具有缓慢、温柔特点的人声，发送给移动终端，由移动终端中的语音交互装置播放接收到的声音文件。

在本实用新型的示例性实施例中，语音合成装置，可以利用长短期记忆网络进行语音的生成，分为编码器部分和解码器部分，编码器部分输入为注意力机制处理后的语句，解码器部分为预测的下一个音节。例如，可以采取开源软件提供的成熟的语音合成接口进行合成。

在本实用新型的示例性实施例中，对用于对于所述视觉辅助模式的设置方式给出几个实施例。

在本实用新型的示例性实施例中，步行模式、探索模式、近景模式和待机模式四个模式可以排成一个环，形如“步行模式——探索模式——近景模式——待机模式——步行模式”，可以使用切换至相邻模式的简单输入方式进行模式切换设置。

在本实用新型的示例性实施例中，可以采用安卓手机自带的音量上下键作为切换模式按钮，音量上键表示切换至上一个模式，音量下键表示切换至下一个模式。

在本实用新型的示例性实施例中，可以采用安卓手机的音量上下键作为开启主动引导功能的按钮，例如，同时按下两个按键表示打开主动引导功能。

在本实用新型的示例性实施例中，安卓手机上的软件系统将用户的模式配置(包括当前视觉辅助模式与主动导航是否开启)与拍摄的照片一同，以每秒30次的速率发送至边缘服务器。边缘服务器检测到用户的模式配置有所变更后，合成提示语音返回给手机，形如“当前模式：某某某”或“主动引导：开启(或关闭)”。

在本实用新型的示例性实施例中，还可以采取智能切换视觉辅助模式、开关主动导航的方式：

1.对于最常见的步行模式和探索模式的切换，可以仍采用户手动切换，因为这两个模式和用户的需求相关。

2.当移动终端上传的加速度传感器与陀螺仪数据在一段时间内保持稳定，或所述深度图数据长期保持较低状况，则可以开启近景模式。当两个条件都不满足时，自动退出近景模式，默认切换至步行模式。

3.当物体检测系统检测出的物体数量较多，且对应距离都较近时，开启主动引导功能，当该条件不满足时，自动退出主动引导功能。

4.当GPS(全球定位系统)数据显示，用户到达了经常切换至待机模式的位置时，则认为用户处于较熟悉的场所，无需本实用新型实施例方案进行辅助。若该条件不满足，或用户手动打开，则退出待机模式，默认切换至步行模式。

5.采取上下选择的方式进行模式配置。针对有按钮的移动终端，用户可以利用按钮的按下表示切换至下一个模式。针对没有按钮的移动终端，用户可以利用特定的手势(即将移动终端进行特定的晃动和位移)表示切换至下一个模式。

6.所述主动引导开启关闭，可以采取智能识别的方法，也可以由用户主动开启或关闭。针对有按钮的移动终端，用户可以利用另一个按钮的按下表示打开或关闭主动导航。针对没有按钮的移动终端，用户可以利用另一特定手势表示切换至下一个模式。

在本实用新型的示例性实施例中，针对用户主动发起的模式配置改变，在改变后可以以语音形式通知用户改变结果。

在本实用新型的示例性实施例中，综上所述，本实用新型实施例的软件系统可以包括核心计算子系统、周围计算模块和语音合成装置，所述核心计算子系统利用人工智能的技术对输入图像进行初步处理，所述周围计算模块对这些初步处理结果进行进一步的加工，从用户角度的心理感受出发，生成相应的描述语句，所述语音合成装置将生成的语句通过成熟的人工智能算法转换为缓慢、温柔的人声。本实用新型实施例的硬件系统可以包括移动终端、边缘服务器和云服务器，所述移动终端可以直接使用带摄像头、陀螺仪、加速度传感器的普通智能手机，所述边缘服务器可以利用5G、6G等时代的边缘计算技术，负责处理传输数据量大、步骤繁琐的运算，所述云服务器接受所述边缘服务器处理、筛选后的数据，进行较为核心的运算。

在本实用新型的示例性实施例中，本实用新型实施例方案至少包括以下优势：

1、与盲杖等手动导盲设备相比，具有更加主动的特点。用户无需主动用手探测面前的区域，降低了探测的颗粒度，降低了用户的体力负荷。无需主动探测也使得设备更易于处理一些通过接触式探测不容易探测到，或接触后会造成更多困扰的物体。

2、与EyeCane等靠声纳设备加强的盲杖或机械狗相比，具有感知范围更大的特点。这些设备主要感知范围都在地面附近，而本实用新型实施例方案不仅可以探测到地面物体，也可以探测到悬挂在空中的物体。

3、与其他依靠声纳设备进行输入的导盲设备相比，具有能够感知物体种类的特点。其他依靠声纳输入的设备只能测定反射面的距离，不能判断这些物体的种类或名称。本实用新型实施例方案利用了人工智能的算法，在测定物体距离的同时，能够判断物体的种类，增加了用户对所处空间的认知。

4、与其他为盲人描述空间场景的设备相比，在覆盖其功能的同时，增加了更多基础的功能，例如距离报警等。距离报警是最基础的功能，它能防止视力障碍者在步行过程中撞到障碍物而受伤，是提升视力障碍者安全感的最底层功能。

5、更加关注交互过程的设计。一部分基于计算机视觉算法的导盲设备仅仅给出数字信息，这种信息呈现方式是不符合交互设计规律的。数字不能给人在脑海中快速形成直观的位置信息，需要进行一系列复杂的加工，增大了用户的脑力负荷，降低了信息处理的实时性。久而久之，由于这些处理过程的负荷不断叠加，这种设备就变得不易于用户使用。本实用新型实施例方案采取更加符合规律的交互设计方法，采取了利用自然语言的坐标位置描述方式，加快了认知的过程。

6、关注提升视力障碍者的安全感。视力障碍群体在出行过程中，经常会因为各种无端的噪音造成恐慌。例如，知道附近有一些物体而不知道其距离，经常担心会不会和这个物体相撞而产生危险。安全感降低会导致视力障碍者出行的意愿降低，生活质量降低。本实用新型实施例方案力图解决这个问题，并提升视力障碍者出行过程中的体验，提升其生活质量。

7、力图提高视力障碍群体对所处空间的认知，通过物体坐标描述、网格深度描述来对当前场景进行细节描绘。通过处所变更提示、动态场景描述提供整体性的场景描绘。二者结合起来形成了一副内容较为丰富的画面，呈现给视力障碍群体，增加他们获得的信息量。

8、给用户一种陪伴感。在语句生成时，尽量采取模拟对话的形式。本实用新型实施例方案的语音合成装置抛弃了常见的机械合成人声，采取人工智能算法进行人声合成，其合成出的声音更有感情，具有缓慢、温柔的特点，增加了陪伴感，使用户觉得不是那么孤独。

9、根据调查可知，当盲人走入错综复杂的障碍物中，往往会导致四处碰壁、无法找到一条宽阔的路的情况，从而导致十分慌乱。例如不小心走到了路边停得较为杂乱的共享单车群，可能要经过很久的摸索、多次碰撞才能走出单车群。本实用新型实施例方案提供了主动引导功能，在感知范围加大的基础上，利用感知到的数据搜索出一条较为宽阔的路，引导用户向该方向前进，在减少探索次数的情况下尽快走出复杂障碍物的场景。

10、利用人工智能的技术进行底层视觉信息处理，将处理的信息转换为视力障碍者易于接受的方式，利用5G时代边缘计算的方式提高处理效率，提升用户出行时的安全感和空间认知。

在本实用新型中的描述中，需要说明的是，术语“上”、“下”、“一侧”、“另一侧”、“一端”、“另一端”、“边”、“相对”、“四角”、“周边”、““口”字结构”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本实用新型和简化描述，而不是指示或暗示所指的结构具有特定的方位、以特定的方位构造和操作，因此不能理解为对本实用新型的限制。

在本实用新型实施例的描述中，除非另有明确的规定和限定，术语“连接”、“直接连接”、“间接连接”、“固定连接”、“安装”、“装配”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；术语“安装”、“连接”、“固定连接”可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本实用新型中的具体含义。

虽然本实用新型所揭露的实施方式如上，但所述的内容仅为便于理解本实用新型而采用的实施方式，并非用以限定本实用新型。任何本实用新型所属领域内的技术人员，在不脱离本实用新型所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本实用新型的专利保护范围，仍须以所附的权利要求书所界定为准。

Claims

1.一种视觉辅助系统，其特征在于，包括：

图像数据采集装置，设置为采集所在环境的图像数据；

2.根据权利要求1所述的视觉辅助系统，其特征在于，

所述第一服务器为运行云服务器的云主机；

所述第二服务器为边缘服务器。

3.根据权利要求1或2所述的视觉辅助系统，其特征在于，所述第一服务器包括：

设置为进行距离检测计算的距离检测模块；

设置为进行物体检测计算的物体检测模块；以及，

设置为进行处所检测计算的处所检测模块；

所述距离检测模块、所述物体检测模块和所述处所检测模块分别由独立的芯片实现。

4.根据权利要求3所述的视觉辅助系统，其特征在于，所述图像数据采集装置包括：第一无线通信模块，所述第一服务器包括：第二无线通信模块；

5.根据权利要求1或2所述的视觉辅助系统，其特征在于，所述第二服务器包括：

设置为进行场景描述生成的场景描述生成模块；

其中，所述辅助信息确定模块包括：

设置为根据处所检测结果确定处所变更提示内容的处所变更提示生成模块；

所述场景描述生成模块、所述距离报警生成模块、所述物体提示生成模块、所述处所变更提示生成模块和所述语音合成装置分别由独立的芯片实现。

6.根据权利要求5所述的视觉辅助系统，其特征在于，所述语音合成装置为将生成的场景描述以及所述辅助信息转化为交互语句的语音合成装置；

所述语音合成装置设置于所述第二服务器内。

7.根据权利要求5所述的视觉辅助系统，其特征在于，

所述图像数据采集装置为移动终端的图像数据采集装置；

所述语音交互装置为所述移动终端的语音播放器。

8.根据权利要求7所述的视觉辅助系统，其特征在于，

所述移动终端包括：第三无线通信模块，所述第二服务器包括：第四无线通信模块；

所述场景描述生成模块、所述距离报警生成模块、所述物体提示生成模块、所述处所变更提示生成模块和的数据输出端口分别与所述第四无线通信模块的数据输入端相连；

所述第三无线通信模块的数据输出端与所述语音交互装置的数据输入端相连；

所述第四无线通信模块与所述第三无线通信模块进行无线通讯，将所述交互语句传输至所述第三无线通信模块。

9.根据权利要求1所述的视觉辅助系统，其特征在于，还包括：姿态采集装置，设置为采集所持移动终端的姿态信息；

所述姿态采集装置设置于所述移动终端内，与所述移动终端的主控单元相连；

所述主控单元与所述第二服务器通信，所述第二服务器还设置为接收所述姿态信息。

10.根据权利要求9所述的视觉辅助系统，其特征在于，所述姿态采集装置包括移动终端的陀螺仪和/或加速度传感器。

11.根据权利要求1所述的视觉辅助系统，其特征在于，还包括：输入采集装置和辅助求助装置；

所述输入采集装置设置于移动终端内，与所述移动终端的主控单元相连，设置为采集控制输入信息；

所述辅助求助装置设置于所述移动终端内，与所述移动终端的主控单元相连，设置为发出求助信号。

12.根据权利要求11所述的视觉辅助系统，其特征在于，

所述输入采集装置包括以下任意一种或多种：移动终端的按钮、人机交互界面和语音采集装置；

所述辅助求助装置包括所述移动终端的发光元件和/或扬声器。