CN113520810A - 辅助视障人士的行进动作规划方法、装置及计算设备 - Google Patents

辅助视障人士的行进动作规划方法、装置及计算设备 Download PDF

Info

Publication number
CN113520810A
CN113520810A CN202010292256.XA CN202010292256A CN113520810A CN 113520810 A CN113520810 A CN 113520810A CN 202010292256 A CN202010292256 A CN 202010292256A CN 113520810 A CN113520810 A CN 113520810A
Authority
CN
China
Prior art keywords
destination
visually impaired
neural network
video stream
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010292256.XA
Other languages
English (en)
Inventor
邢彪
陈维新
章淑敏
郑远哲
刘梦晗
林乐轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010292256.XA priority Critical patent/CN113520810A/zh
Publication of CN113520810A publication Critical patent/CN113520810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • G01C21/343Calculating itineraries, i.e. routes leading from a starting point to a series of categorical destinations using a global route restraint, round trips, touristic trips
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Pain & Pain Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及人工智能技术领域,公开了一种辅助视障人士的行进动作规划方法、装置及计算设备,该方法包括:实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。通过上述方式,本发明实施例能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。

Description

辅助视障人士的行进动作规划方法、装置及计算设备
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种辅助视障人士的行进动作规划方法、装置及计算设备。
背景技术
据统计,中国视力障碍人数有7551万,其中盲人达到1400万,中国的视残者占据全世界视残人口的18%。盲人缺少感知外界的手段,出行往往有不少障碍。目前出行难仍是视障人群的首要问题。中国拥有大量视力残疾者,但是我们却很少可以看到盲人走在盲道上。究其缘由还是因为盲人所依赖的盲道经常因各种原因被障碍物阻挡。盲道存在的唯一的价值是让视障人士可以独自出行,如果盲道不能让他们“独自出行”,那么盲道也就形同虚设。而手机导航虽然有行走路线的规划,但无法帮助视障人士避开路途中的障碍物。
发明内容
鉴于上述问题,本发明实施例提供了一种辅助视障人士的行进动作规划方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种辅助视障人士的行进动作规划方法,所述方法包括:实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在一种可选的方式中,所述实时获取视障人士前方的视频流以及目的地方位,包括:获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在一种可选的方式中,所述对所述视频流以及所述目的地方位进行预处理,包括:从所述视频流中提取每一帧图像并进行归一化处理;将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
在一种可选的方式中,所述从所述视频流中提取每一帧图像并进行归一化处理,包括:从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在一种可选的方式中,所述将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型之前,包括:获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在一种可选的方式中,所述根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,包括:将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;计算所述预测的行走动作和所述正确的行走动作之间的误差;选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
在一种可选的方式中,所述将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作,包括:
将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
根据本发明实施例的另一个方面,提供了一种辅助视障人士的行进动作规划装置,所述装置包括:数据获取单元,用于实时获取视障人士前方的视频流以及目的地方位;预处理单元,用于对所述视频流以及所述目的地方位进行预处理;数据输入单元,用于将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;动作获取单元,用于通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士的行进动作规划方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士的行进动作规划方法的步骤。
本发明实施例通过实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的辅助视障人士的行进动作规划方法的流程示意图;
图2示出了本发明实施例提供的辅助视障人士的行进动作规划方法的深度卷积神经网络模型预测的方法示意图;
图3示出了本发明实施例提供的辅助视障人士的行进动作规划方法的深度卷积神经网络模型的结构示意图;
图4示出了本发明实施例提供的辅助视障人士的行进动作规划装置的结构示意图;
图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的辅助视障人士的行进动作规划方法的流程示意图。该辅助视障人士的行进动作规划方法主要应用于服务器。如图1所示,该辅助视障人士的行进动作规划方法包括:
步骤S11:实时获取视障人士前方的视频流以及目的地方位。
具体地,获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在本发明实施例中,当视障人士出行时,视障人士佩戴的智能眼镜的4K摄像头捕获实时的前方画面视频流及目的地方位,通过5G网络将代表环境的视频流输入至位于边缘端(如基站),以方便进行后续的处理。
步骤S12:对所述视频流以及所述目的地方位进行预处理。
具体地,从所述视频流中提取每一帧图像并进行归一化处理;将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。极坐标可表示为:目的地到视障人士当前位置的距离以及目的地到视障人士当前位置的极角。
进行归一化处理时,从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在本发明实施例中,智能眼镜上的4K摄像头所捕捉到的原始图像的分辨率为4096×2160,具有3通道(RGB)。使用4个连续视频帧作为模型的单个输入,因此单个输入的尺寸为4096×2160×3×4。由于输入太大需消耗大量的计算力,而且并不是所有的特征都是有用的,使用OpenCV库来调整、裁剪和处理图像后的输入为800×800像素,而且是单通道(grey scale,灰度)。同时为了确保数据都在同一范围内,需要对数据做标准化处理,对每一帧图像的每一个像素值按比例压缩至0到1的范围内,然后将每一帧图像的像素值分别对应减去全局均值图像的像素值以实现归一化。其中全局均值图像的像素值是通过计算训练数据中每一帧图像的每一个位置像素值的均值所得到。经处理后的图像像素值都将被归一化为均值为0、方差为1。
步骤S13:将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型。
在本发明实施例中,在步骤S13之前,对深度卷积神经网络模型进行训练,具体如图2所示,包括:
步骤S131:获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集。
获取视障人士佩戴的智能眼镜的4K摄像头捕获的历史视频流及对应的目的地方位,还获取对应的正确的行进动作数据,形成数据集。
步骤S132:将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集。
从所述视频流中提取每一帧图像并进行归一化处理;将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。具体的预处理方法与步骤S12中的方法相同,在此不再赘述。
在本发明实施例中,还将数据集划分为训练集和测试集,优选地,将数据集的90%划为训练集,剩余数据集的10%划为测试集。训练集用于训练深度卷积神经网络模型,测试集用于测试深度卷积神经网络模型。
步骤S133:根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在本发明实施例中,将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;计算所述预测的行走动作和所述正确的行走动作之间的误差;选择平均绝对值误差函数(Mean Squared Error,MSE)作为目标函数(loss='mse'),应用自适应矩估计(adam)优化器作为梯度下降优化算法改善梯度下降的学习速度(optimizer='adam'),应用所述测试集对所述深度卷积神经网络模型进行验证;找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。本发明实施例将深度卷积神经网络模型训练1000个回合(epochs=1000),批处理大小设置为32(batch_size=32),回放缓存大小设置为50000。神经网络通过梯度下降,可以找到使目标函数最小的最优权重值,随着训练回合数的增加,训练误差也逐渐下降,深度卷积神经网络模型逐渐收敛。离线训练完成后,将计算得出的神经网络权重导出,得到训练后的深度卷积神经网络。
在本发明实施例中,深度卷积神经网络模型的具体结构如图3所示,在进行模型训练时,将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
其中,第一卷积层的滤波器(filter,也称为卷积核kernel)的个数设置为32(即特征映射的深度),滤波器的形状设置为8*8,滑动步长(stride)设置为(4,4)(步长即滤波器每次划过的像素数),激活函数(activation)设置为“relu”,即纠正线性单元RectifiedLinear Unit,是一种非线性操作:Relu(x)=max(x,0),填充(padding)设置为“same”即输入数据不够卷积核扫描时会对输入数据补零。
第一最大池化层(Maxpooling2D)的池化窗口大小设置为2*2,激活函数设置为“relu”,最大值池化层将卷积核抽取出的特征值中的最大值保留,其他特征值全部丢弃。
第二卷积层(Conv2D)的滤波器的个数设置为64,滤波器的形状设置为4*4,滑动步长设置为2*2,激活函数设置为“relu”,padding设置为“same”。
第二最大池化层(Maxpooling2D)的池化窗口大小设置为2*2,激活函数设置为“relu”。
第三卷积层(Conv2D)的滤波器的个数设置为64,滤波器的形状设置为3*3,滑动步长设置为1*1,激活函数设置为“relu”,padding设置为“same”。
第三最大池化层(Maxpooling2D)的池化窗口大小设置为2*2,激活函数设置为“relu”。
第七层为合并层(merge),用于将第三最大池化层输出的经三个卷积层和三个最大池化层处理后的历史视频帧图像和目的地方位信息进行合并。
第八层为全连接层(Dense),其神经元个数为1024,激活函数设置为“relu”。
第九层为全连接层(Dense),其神经元个数为1024,激活函数设置为“relu”。
第十层为全连接层(Dense),其神经元个数为5,激活函数设置为“relu”。该全连接层也是输出层,用于输出所选择的向前、向后、向左、向右、停止五类离散行进动作中的至少其中之一,作为预测的行进动作。
步骤S14:通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在本发明实施例中,训练后的深度卷积神经网络模型存储在视障人士的智能眼镜端接收最贴近用户的边缘端(如基站)。当视障人士出行时,将通过5G网络将代表环境的预处理后来的视频流以及目的地方位信息输入训练后的深度卷积神经网络模型,通过深度卷积神经网络模型输出对应前方画面的最优行进动作(向前、向后、向左、向右、停止五类离散动作),将动作提示转换为声音后通过5G网络反馈给视障人士的眼镜端,辅助视障人士在出行中避开障碍物并到达目的地。5G全新的网络架构将提供至少十倍于4G的峰值速率、毫秒级的传输时延,可以满足本场景数据传输量大、实时性要求高的需求,借助5G高速稳定的网络,和强大的边缘云处理能力,大大降低计算处理时延、减轻终端的重量,帮助视障人士的生活更加便利。
本发明实施例通过获取预设时间内的网络质量数据,包括实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
图4示出了本发明实施例的辅助视障人士的行进动作规划装置的结构示意图。如图4所示,该辅助视障人士的行进动作规划装置包括:数据获取单元401、预处理单元402、数据输入单元403、动作获取单元404以及模型预测单元405。其中:
数据获取单元401用于实时获取视障人士前方的视频流以及目的地方位;预处理单元402用于对所述视频流以及所述目的地方位进行预处理;数据输入单元403用于将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;动作获取单元404用于通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在一种可选的方式中,数据获取单元401用于:获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在一种可选的方式中,预处理单元402用于:从所述视频流中提取每一帧图像并进行归一化处理;将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
在一种可选的方式中,预处理单元402还用于:从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在一种可选的方式中,模型预测单元405用于:获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在一种可选的方式中,模型预测单元405用于:将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;计算所述预测的行走动作和所述正确的行走动作之间的误差;选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
在一种可选的方式中,模型预测单元405用于:将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
本发明实施例通过获取预设时间内的网络质量数据,包括实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的辅助视障人士的行进动作规划方法。
可执行指令具体可以用于使得处理器执行以下操作:
实时获取视障人士前方的视频流以及目的地方位;
对所述视频流以及所述目的地方位进行预处理;
将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;
通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并进行归一化处理;
将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;
对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;
将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;
根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;
计算所述预测的行走动作和所述正确的行走动作之间的误差;
选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;
找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;
将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;
经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
本发明实施例通过获取预设时间内的网络质量数据,包括实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的辅助视障人士的行进动作规划方法。
可执行指令具体可以用于使得处理器执行以下操作:
实时获取视障人士前方的视频流以及目的地方位;
对所述视频流以及所述目的地方位进行预处理;
将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;
通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并进行归一化处理;
将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;
对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;
将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;
根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;
计算所述预测的行走动作和所述正确的行走动作之间的误差;
选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;
找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;
将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;
经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
本发明实施例通过获取预设时间内的网络质量数据,包括实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
图5示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述辅助视障人士的行进动作规划方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器,可以是同一类型的处理器,如一个或各个CPU;也可以是不同类型的处理器,如一个或各个CPU以及一个或各个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
实时获取视障人士前方的视频流以及目的地方位;
对所述视频流以及所述目的地方位进行预处理;
将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;
通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并进行归一化处理;
将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;
对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;
将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;
根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;
计算所述预测的行走动作和所述正确的行走动作之间的误差;
选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;
找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;
将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;
经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
本发明实施例通过获取预设时间内的网络质量数据,包括实时获取视障人士前方的视频流以及目的地方位;对所述视频流以及所述目的地方位进行预处理;将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士,能够能够实时、准确地辅助视障人士在出行中避开障碍物并到达目的地。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种辅助视障人士的行进动作规划方法,其特征在于,所述方法包括:
实时获取视障人士前方的视频流以及目的地方位;
对所述视频流以及所述目的地方位进行预处理;
将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;
通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
2.根据权利要求1所述的方法,其特征在于,所述实时获取视障人士前方的视频流以及目的地方位,包括:
获取通过5G网络传输的通过设置在视障人士佩戴的眼镜上的4K摄像头实时捕获的所述视频流及所述目的地方位。
3.根据权利要求1所述的方法,其特征在于,所述对所述视频流以及所述目的地方位进行预处理,包括:
从所述视频流中提取每一帧图像并进行归一化处理;
将所述目的地方位通过极坐标来表示,其中所述极坐标为以视障人士当前位置为极点的用方向和距离表示的目的地的位置。
4.根据权利要求3所述的方法,其特征在于,所述从所述视频流中提取每一帧图像并进行归一化处理,包括:
从所述视频流中提取每一帧图像并转换成单通道的800*800的大小;
对所述每一帧图像的每一个像素值按比例压缩至0到1的范围内;
将所述每一帧图像的像素值分别对应减去全局均值图片的像素值以实现归一化。
5.根据权利要求1所述的方法,其特征在于,所述将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型之前,包括:
获取视障人士的历史视频帧流、对应的目的地方位以及正确的行走动作数据,形成数据集;
将所述历史视频帧流以及对应的所述目的地方位进行预处理,并将所述数据集分为训练集和测试集;
根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,获取训练后的所述深度卷积神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述历史视频帧流、对应的所述目的地方位以及所述正确的行进动作数据对所述深度卷积神经网络模型进行训练,包括:
将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作;
计算所述预测的行走动作和所述正确的行走动作之间的误差;
选择平均绝对值误差函数作为目标函数,应用自适应矩估计优化器作为梯度下降优化算法改善梯度下降的学习速度,应用所述测试集对所述深度卷积神经网络模型进行验证;
找到使所述目标函数最小的最优权重值,作为训练后的所述深度卷积神经网络模型的权重。
7.根据权利要求6所述的方法,其特征在于,所述将预处理后的所述历史视频帧流、对应的所述目的地方位输入所述深度卷积神经网络模型,输出预测的行走动作,包括:
将所述历史视频帧流输入所述深度卷积神经网络模型,依次经过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层进行处理;
将对应的所述目的地方位输入合并层与处理后的所述历史视频帧流进行合并;
经过神经元个数不尽相同的三个连接层后输出所述预测的行走动作。
8.一种辅助视障人士的行进动作规划装置,其特征在于,所述装置包括:
数据获取单元,用于实时获取视障人士前方的视频流以及目的地方位;
预处理单元,用于对所述视频流以及所述目的地方位进行预处理;
数据输入单元,用于将预处理后的所述视频流以及所述目的地方位输入训练后的深度卷积神经网络模型;
动作获取单元,用于通过所述深度卷积神经网络模型根据所述视频流以及所述目的地方位输出对应的最优行走动作,并反馈至视障人士。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7任一项所述辅助视障人士的行进动作规划方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述辅助视障人士的行进动作规划方法的步骤。
CN202010292256.XA 2020-04-14 2020-04-14 辅助视障人士的行进动作规划方法、装置及计算设备 Pending CN113520810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010292256.XA CN113520810A (zh) 2020-04-14 2020-04-14 辅助视障人士的行进动作规划方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010292256.XA CN113520810A (zh) 2020-04-14 2020-04-14 辅助视障人士的行进动作规划方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN113520810A true CN113520810A (zh) 2021-10-22

Family

ID=78119966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010292256.XA Pending CN113520810A (zh) 2020-04-14 2020-04-14 辅助视障人士的行进动作规划方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113520810A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN109106563A (zh) * 2018-06-28 2019-01-01 清华大学天津高端装备研究院 一种基于深度学习算法的自动化导盲装置
CN109166100A (zh) * 2018-07-24 2019-01-08 中南大学 基于卷积神经网络的多任务学习细胞计数方法
CN109341689A (zh) * 2018-09-12 2019-02-15 北京工业大学 基于深度学习的移动机器人视觉导航方法
CN110427937A (zh) * 2019-07-18 2019-11-08 浙江大学 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709511A (zh) * 2016-12-08 2017-05-24 华中师范大学 基于深度学习的城市轨道交通全景监控视频故障检测方法
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN109106563A (zh) * 2018-06-28 2019-01-01 清华大学天津高端装备研究院 一种基于深度学习算法的自动化导盲装置
CN109166100A (zh) * 2018-07-24 2019-01-08 中南大学 基于卷积神经网络的多任务学习细胞计数方法
CN109341689A (zh) * 2018-09-12 2019-02-15 北京工业大学 基于深度学习的移动机器人视觉导航方法
CN110427937A (zh) * 2019-07-18 2019-11-08 浙江大学 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Similar Documents

Publication Publication Date Title
CN110378854B (zh) 机器人图像增强方法及装置
CN110210417B (zh) 一种行人运动轨迹的预测方法、终端及可读存储介质
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
WO2020192736A1 (zh) 物体识别方法及装置
CN109993707B (zh) 图像去噪方法和装置
WO2021018106A1 (zh) 行人检测方法、装置、计算机可读存储介质和芯片
CN113674421B (zh) 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113011562A (zh) 一种模型训练方法及装置
CN111368972A (zh) 一种卷积层量化方法及其装置
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN109584299A (zh) 一种定位方法、定位装置、终端及存储介质
CN114926766A (zh) 识别方法及装置、设备、计算机可读存储介质
CN112446835A (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN113284055A (zh) 一种图像处理的方法以及装置
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
WO2024104365A1 (zh) 一种设备测温方法及其相关设备
CN112541972A (zh) 一种视点图像处理方法及相关设备
CN106778576A (zh) 一种基于sehm特征图序列的动作识别方法
CN112418046B (zh) 一种基于云机器人的健身指导方法、存储介质及系统
CN117237411A (zh) 一种基于深度学习的行人多目标跟踪方法
CN117351957A (zh) 基于视觉跟踪的唇语图像识别方法和装置
CN113520810A (zh) 辅助视障人士的行进动作规划方法、装置及计算设备
Xue et al. Multiscale feature extraction network for real-time semantic segmentation of road scenes on the autonomous robot
CN117253282A (zh) 一种基于双摄相机的多人混合式人体跌倒检测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination