CN112465005B

CN112465005B - 基于图像识别的智能盲人音频手杖控制方法及其相关组件

Info

Publication number: CN112465005B
Application number: CN202011329730.8A
Authority: CN
Inventors: 洪振厚; 王健宗; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-03-19
Anticipated expiration: 2040-11-24
Also published as: CN112465005A

Abstract

本发明公开了基于图像识别的智能盲人音频手杖控制方法及其相关组件，其中方法包括：接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；将物体的分类结果、大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。本发明通过卷积神经网络技术生成音频信号指引盲人前进，技术简单便于实现，更具有实时性。

Description

基于图像识别的智能盲人音频手杖控制方法及其相关组件

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于图像识别的智能盲人音频手杖控制方法及其相关组件。

背景技术

盲人有先天性盲人与后天性盲人之分，后天性盲人由于失明前曾用眼睛认识过这个世界，所以能通过他人语言的描述，在脑海中完成对周围环境的构建。而先天性盲人由于没有经历过对色彩的体验，所以没有颜色的概念，也不存在“看到”这一说法。世界对于他们来说是黑暗虚无的，再精妙的语言描述对他们构建对世界的认识起不到任何作用。但先天性的失明患者通常在听觉方面强于常人数倍，这是因为他们大脑中负责处理视觉信息的神经细胞可以被处理听觉信息的部分占用，这就导致了即便是极难分辨的两种声音，他们也有很高的准确率。

目前已有的智能手杖，通过深度学习技术，超声波技术，以及GPS定位技术建立导盲系统，通过识别盲人行进路线中的障碍物，给出下一步的行进建议。手杖完全承担了收集信息，处理数据，分析前进路线的任务，而使用者则是单方面被动的接受建议。这种牵引式的服务，无法发挥视觉障碍者的主观能动性，世界于他们仍是黑暗混沌的，他们能做的只有对手杖完全地信任，缺少自己的主观判断。并且这类智能手杖需要多种技术配合建立导盲系统，整体系统复杂，出错风险高。

发明内容

本发明实施例提供了一种基于图像识别的智能盲人音频手杖控制方法及其相关组件，旨在解决现有技术中导盲系统技术繁多复杂、出错风险高的问题。

第一方面，本发明实施例提供了一种基于图像识别的智能盲人音频手杖控制方法，其包括：

接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；

根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；

将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

第二方面，本发明实施例提供了一种基于图像识别的智能盲人音频手杖控制装置，其包括：

图像训练单元，用于接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；

虚拟音频信号获取单元，用于根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；

实际音频信号输出单元，用于将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于图像识别的智能盲人音频手杖控制方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于图像识别的智能盲人音频手杖控制方法。

本发明实施例提供了一种基于图像识别的智能盲人音频手杖控制方法及其相关组件，其中方法包括：接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。本发明通过卷积神经网络技术生成音频信号指引盲人前进，技术简单便于实现，更具有实时性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于图像识别的智能盲人音频手杖控制方法的流程示意图；

图2为本发明实施例提供的基于图像识别的智能盲人音频手杖控制方法的子流程示意图；

图3为本发明实施例提供的基于图像识别的智能盲人音频手杖控制方法的另一子流程示意图；

图4为本发明实施例提供的基于图像识别的智能盲人音频手杖控制方法的另一子流程示意图；

图5为本发明实施例提供的基于图像识别的智能盲人音频手杖控制方法的另一子流程示意图；

图6为本发明实施例提供的基于图像识别的智能盲人音频手杖控制装置的示意性框图；

图7为本发明实施例提供的基于图像识别的智能盲人音频手杖控制装置的子单元示意性框图；

图8为本发明实施例提供的基于图像识别的智能盲人音频手杖控制装置的另一子单元示意性框图；

图9为本发明实施例提供的基于图像识别的智能盲人音频手杖控制装置的另一子单元示意性框图；

图10为本发明实施例提供的基于图像识别的智能盲人音频手杖控制装置的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种基于图像识别的智能盲人音频手杖控制方法的流程示意图，该方法可以包括步骤S101～S103：

S101、接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；

在本步骤中，当接收到所述智能盲人音频手杖通过设置在前端的摄像机采集的当前路段的路况图像后，通过已经训练好的深度学习模型对所采集到的路况图像进行物体分类，同时根据所述路况图像计算出每个物体的大小及每个物体与用户之间的距离。在本发明中，所述深度学习模型可以为MobileNetV2模型。

本发明实施例可通过智能盲人音频手杖每隔一段距离采集一次当前路段的路况图像，具体的：当用户持所述智能盲人音频手杖行进时，每间隔一段距离便通过所述摄像机对前方路况进行拍摄，然后将所拍摄的路况图像通过蓝牙或者WiFi等无线传输方式传输至用户的移动终端，由所述移动终端通过已训练的深度学习模型对所述路况图像进行处理。

在一实施例中，如图2所示，所述步骤S101包括步骤S201～S202：

S201、将所述路况图像输入至卷积层中预先构建的第一卷积网络进行多次卷积并将卷积后输出的结果与输入的所述路况图像叠加，并通过第一全连接层进行输出，以获得物体的分类结果；

S202、将所述路况图像输入至所述卷积层中预先构建的第二卷积网络进行多次卷积并通过第二全连接层进行输出，以获得每个物体的大小及每个物体与用户之间的距离。

在本实施例中，所述物体的分类结果通过第一卷积网络对所述路况图像进行多次卷积，并将卷积后输出的结果与输入的所述路况图像相叠加，再通过第一全连接层输出获得；所述每个物体的大小及每个物体与用户之间的距离则通过第二卷积网络对所述路况图像进行多次卷积后，直接通过第二全连接层输出获得。

在一具体实施例中，如图3所示，所述步骤S201包括步骤S301～S303：

S301、对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第一卷积结果；

S302、对所述第一卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为1的卷积操作，以获得第二卷积结果；

S303、对所述第二卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第一全连接层，并通过所述第一全连接层输出物体的分类结果。

在本实施例中，将输入的路况图像先用卷积核为1×1、激活函数为ReLU6的卷积操作进行扩张，获得进行扩张后的数据；然后再将扩张后的数据通过激活函数为ReLU6、卷积核为3×3的卷积操作(Depthwise convolution，空间卷积操作)进行特征提取，其中空间卷积操作中的stride(即滑动步长)＝1；最后将进行特征提取后的数据进行卷积核为1×1的卷积操作将数据进行压缩，最终将压缩后的数据与输入的数据相叠加，以输出物体的分类结果。整体而言，本实施例将输入经过多次卷积后，获得一卷积结果，将输入通过短连接的方式与卷积结果连接叠加，获得最终输出的物体的分类结果。

ReLU6就是普通的ReLU但是限制最大输出值为6，这是为了在移动端设备在低精度时，也能有较好的数值分辨率。ReLU变换后保留非0区域对应于一个线性变换，仅当输入低维时ReLU能保留所有完整信息，因此在进行空间卷积操作后，若在压缩过程中继续采用ReLU6激活函数，则会导致部分信息丢失，因此在进行最后的卷积核为1×1的卷积操作步骤时不采用ReLU6激活函数。

在一具体实施例中，如图4所示，所述步骤S202包括步骤S401～S403：

S401、对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第三卷积结果；

S402、对所述第三卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为2的卷积操作，以获得第四卷积结果；

S403、对所述第四卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第二全连接层，并通过所述第二全连接层输出每个物体的大小及每个物体与用户之间的距离。

在本实施例中，将输入的路况图像先用卷积核为1×1、激活函数为ReLU6的卷积操作进行扩张，获得进行扩张后的数据；然后再将扩张后的数据通过激活函数为ReLU6、卷积核为3×3的空间卷积操作进行特征提取，其中空间卷积操作中的stride(即滑动步长)＝2；最后将进行特征提取后的数据进行卷积核为1×1的卷积操作将数据进行压缩，最终输出每个物体的大小及每个物体与用户之间的距离。本实施例将输入经过多次卷积后，获得一卷积结果，该卷积结果即为最终输出的每个物体的大小及每个物体与用户之间的距离。

S102、根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；

在本步骤中，根据上一步骤所获取的分类结果，在预先设置的物体音色音频库中，获取每个物体对应音色的虚拟音频信号。由于波形决定了声音的音色，而不同材质的对象具有不同的波形，因此根据物体的材质不同，为每个物体设置对应的音色。例如汽车、行人还有围栏可以用3种迥异的音色标识，而汽车与摩托车之类的可以用相近的音色区分。

S103、将物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

在本步骤中，通过神经网络模型对每个物体的分类结果、大小及每个物体与用户之间的距离进行处理，以输出每个物体对应虚拟音频信号的音调大小以及音频持续时间。音色、音调、音量是声音的三要素，其中，通过音色区分物体的种类，音调的高低区分每个物体的大小，音量的大小分辨物体与用户之间的距离。其中，音色：波形决定了声音的音色，不同材质的对象具有不同的波形；音调：声音的高低，由频率决定，频率越高音调越高；音量(响度)：人主观上感觉声音的大小，由振幅和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。

通过声音的三要素及音频持续时间，可以很好的标识一个物体的类别、大小和远近。音量用于标识物体的远近，距离物体越远声音越小，在设置物体音量时，可以以物体与用户的距离长短设定界限，例如以10米、3米、1米为界，设置不同的音量大小，提示用户小心碰撞。而音调的高低可以标识物体的高度，音频持续时间能用来标识物体的长度，这两者结合可以很好地帮助用户跨越障碍物。

在一实施例中，所述神经网络模型为LSTM网络。在本实施例中，所述LSTM网络(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络。本发明实施例中，在所述LSTM网络中加入了判断信息有用与否的处理单元(细胞)。一个处理单元当中被放置了三扇门，分别是输入门、遗忘门和输出门。一个信息进入LSTM网络当中，可以根据预设规则来判断是否有用，只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

在一具体实施例中，如图5所示，所述步骤S103包括步骤S501～S504：

S501、将物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型；

S502、通过神经网络模型中的遗忘门单元对所述输入参数进行筛选，获取需求参数；

S503、将所述输入参数输入至神经网络模型中的输入门单元进行更新得到更新参数，并利用tanh激活函数对所述输入参数生成输入向量，将所述更新参数和输入向量进行联合，以进行数据更新得到数据状态；

S504、将所述输入参数输入至神经网络模型中的输出门单元，利用所述输出门单元的sigmoid函数确定输出内容，并将所述数据状态输入至所述输出门单元，利用所述输出门单元的tanh激活函数对所述数据状态进行激活，并与所述输出内容相乘，以输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间。

在本步骤中，将个物体的分类结果、大小及每个物体与用户之间的距离作为输入参数输入至LSTM网络中，利用遗忘门对输入参数进行筛选，通过输入门确认数据状态，通过输出门输出信息。

LSTM网络的关键就是细胞状态，水平线在图上方贯穿运行。细胞状态类似于传送带，直接在整个链上运行，只有一些少量的线性交互。通过各个门的结构来去除或者增加信息到细胞状态，即选择式通过信息。

当输入参数输入至LSTM网络时，依次将输入参数输入至遗忘门、输入门以及输出门。当输入参数输入至遗忘门时，通过sigmoid函数(S型函数)对输入参数进行处理，以获取需求参数；当输入参数输入至输入门时，利用sigmoid函数对所述输入参数进行更新得到更新参数，利用tanh激活函数(双曲正切函数)对所述输入参数进行处理以生成输入向量，对更新参数以及输入向量进行pointwise乘法操作(点乘操作)，以获得更新的数据状态；当输入参数输入至输出门时，利用所述输出门单元的sigmoid函数确定输出内容，并将数据状态输入至输出门单元，利用所述输出门单元的tanh激活函数对所述数据状态进行激活，并与输出内容进行pointwise乘法操作，以输出每个物体对应虚拟音频信号的音调大小以及音频持续时间。

在一实施例中，所述输出所述实际音频信号，包括：

通过蓝牙将所述实际音频信号发送至与移动终端配对的耳机进行播放；

或者直接在移动终端上播放所述实际音频信号。

在本实施例中，当获取了实际音频信号后，需要将所述实际音频信号进行播放，具体可发送至于移动终端基于蓝牙方式配对的耳机进行播放，或者直接在移动终端上播放。根据用户实际需求，选择不同的播放方式。另外，本发明实施例中，还可以将所述实际音频信号通过蓝牙或WiFi等无线传输方式发送至所述智能盲人音频手杖，通过所述智能盲人音频手杖进行播放。

请参阅图6，图6为本发明实施例提供的一种基于图像识别的智能盲人音频手杖控制装置的示意性框图，该基于图像识别的智能盲人音频手杖控制装置600包括：

图像训练单元601，用于接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；

虚拟音频信号获取单元602，用于根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；

实际音频信号输出单元603，用于将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

在一实施例中，如图7所示，所述图像训练单元601包括：

第一输出单元701，用于将所述路况图像输入至卷积层中预先构建的第一卷积网络进行多次卷积并将卷积后输出的结果与输入的所述路况图像叠加，并通过第一全连接层进行输出，以获得物体的分类结果；

第二输出单元702，用于将所述路况图像输入至所述卷积层中预先构建的第二卷积网络进行多次卷积并通过第二全连接层进行输出，以获得每个物体的大小及每个物体与用户之间的距离。

在一实施例中，如图8所示，所述第一输出单元701包括：

第一卷积结果获取单元801，用于对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第一卷积结果；

第二卷积结果获取单元802，用于对所述第一卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为1的卷积操作，以获得第二卷积结果；

物体分类结果获取单元803，用于对所述第二卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第一全连接层，并通过所述第一全连接层输出物体的分类结果。

在一实施例中，如图9所示，所述第二输出单元702包括：

第三卷积结果获取单元901，用于对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第三卷积结果；

第四卷积结果获取单元902，用于对所述第三卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为2的卷积操作，以获得第四卷积结果；

物体大小与距离获取单元903，用于对所述第四卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第二全连接层，并通过所述第二全连接层输出每个物体的大小及每个物体与用户之间的距离。

在一实施例中，所述神经网络模型为LSTM网络。

在一实施例中，如图10所示，所述实际音频信号输出单元603包括：

输入参数确认单元1001，用于将物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型；

需求参数获取单元1002，用于通过神经网络模型中的遗忘门单元对所述输入参数进行筛选，获取需求参数；

数据状态获取单元1003，用于将所述输入参数输入至神经网络模型中的输入门单元进行更新得到更新参数，并利用tanh激活函数对所述输入参数生成输入向量，将所述更新参数和输入向量进行联合，以进行数据更新得到数据状态；

实际音频信号获取单元1004，用于将所述输入参数输入至神经网络模型中的输出门单元，利用所述输出门单元的sigmoid函数确定输出内容，并将所述数据状态输入至所述输出门单元，利用所述输出门单元的tanh激活函数对所述数据状态进行激活，并与所述输出内容相乘，以输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间。

在一实施例中，所述实际音频信号输出单元603还包括：

耳机播放单元，用于通过蓝牙将所述实际音频信号发送至与移动终端配对的耳机进行播放；

直接播放单元，用于或者直接在移动终端上播放所述实际音频信号。

该装置采用卷积神经网络技术生成音频信号指引盲人前进，技术简单便于实现，更具有实时性

上述基于图像识别的智能盲人音频手杖控制装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105，其中，存储器可以包括非易失性存储介质1103和内存储器1104。

该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时，可使得处理器1102执行基于图像识别的智能盲人音频手杖控制方法。

该处理器1102用于提供计算和控制能力，支撑整个计算机设备1100的运行。

该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境，该计算机程序11032被处理器1102执行时，可使得处理器1102执行基于图像识别的智能盲人音频手杖控制方法。

该网络接口1105用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1100的限定，具体的计算机设备1100可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1102用于运行存储在存储器中的计算机程序11032，以实现如下功能：接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1102可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离；根据物体的分类结果在预设的物体音色音频库中获取每个物体对应音色的虚拟音频信号；将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于图像识别的智能盲人音频手杖控制方法，其特征在于，包括：

将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号；

所述接收智能盲人音频手杖采集的当前路段的路况图像，通过已训练的深度学习模型对所述路况图像中的物体进行分类，并计算所述路况图像中每个物体的大小及每个物体与用户之间的距离，包括：

将所述路况图像输入至卷积层中预先构建的第一卷积网络进行多次卷积并将卷积后输出的结果与输入的所述路况图像叠加，并通过第一全连接层进行输出，以获得物体的分类结果；

将所述路况图像输入至所述卷积层中预先构建的第二卷积网络进行多次卷积并通过第二全连接层进行输出，以获得每个物体的大小及每个物体与用户之间的距离；

所述将所述路况图像输入至所述卷积层中预先构建的第二卷积网络进行多次卷积并通过第二全连接层进行输出，以获得每个物体的大小及每个物体与用户之间的距离，包括：

对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第三卷积结果；

对所述第三卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为2的卷积操作，以获得第四卷积结果；

对所述第四卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第二全连接层，并通过所述第二全连接层输出每个物体的大小及每个物体与用户之间的距离。

2.根据权利要求1所述的基于图像识别的智能盲人音频手杖控制方法，其特征在于，所述将所述路况图像输入至卷积层中预先构建的第一卷积网络进行多次卷积并将卷积后输出的结果与输入的所述路况图像叠加，并通过第一全连接层进行输出，以获得物体的分类结果，包括：

对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第一卷积结果；

对所述第一卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为1的卷积操作，以获得第二卷积结果；

对所述第二卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第一全连接层，并通过所述第一全连接层输出物体的分类结果。

3.根据权利要求1所述的基于图像识别的智能盲人音频手杖控制方法，其特征在于，所述神经网络模型为LSTM网络。

4.根据权利要求3所述的基于图像识别的智能盲人音频手杖控制方法，其特征在于，所述将物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号，包括：

将物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型；

通过神经网络模型中的遗忘门单元对所述输入参数进行筛选，获取需求参数；

将所述输入参数输入至神经网络模型中的输入门单元进行更新得到更新参数，并利用tanh激活函数对所述输入参数生成输入向量，将所述更新参数和输入向量进行联合，以进行数据更新得到数据状态；

将所述输入参数输入至神经网络模型中的输出门单元，利用所述输出门单元的sigmoid函数确定输出内容，并将所述数据状态输入至所述输出门单元，利用所述输出门单元的tanh激活函数对所述数据状态进行激活，并与所述输出内容相乘，以输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间。

5.根据权利要求1所述的基于图像识别的智能盲人音频手杖控制方法，其特征在于，所述输出所述实际音频信号，包括：

或者直接在移动终端上播放所述实际音频信号。

6.一种基于图像识别的智能盲人音频手杖控制装置，其特征在于，包括：

实际音频信号输出单元，用于将所述物体的分类结果、每个物体的大小及每个物体与用户之间的距离作为输入参数输入至神经网络模型中，输出每个物体对应虚拟音频信号的音调、音量以及音频持续时间，以生成物体的实际音频信号，并输出所述实际音频信号；

所述图像训练单元，包括：

第一输出单元，用于将所述路况图像输入至卷积层中预先构建的第一卷积网络进行多次卷积并将卷积后输出的结果与输入的所述路况图像叠加，并通过第一全连接层进行输出，以获得物体的分类结果；

第二输出单元，用于将所述路况图像输入至所述卷积层中预先构建的第二卷积网络进行多次卷积并通过第二全连接层进行输出，以获得每个物体的大小及每个物体与用户之间的距离；

所述第二输出单元，包括：

第三卷积结果获取单元，用于对所述路况图像进行卷积核大小为1×1、激活函数为ReLU6的卷积操作，以获得第三卷积结果；

第四卷积结果获取单元，用于对所述第三卷积结果进行卷积核大小为3×3、激活函数为ReLU6、滑动步长为2的卷积操作，以获得第四卷积结果；

物体大小与距离获取单元，用于对所述第四卷积结果进行卷积核大小为1×1的卷积操作，并将得到的操作结果连接至第二全连接层，并通过所述第二全连接层输出每个物体的大小及每个物体与用户之间的距离。

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于图像识别的智能盲人音频手杖控制方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于图像识别的智能盲人音频手杖控制方法。