CN109558774A

CN109558774A - 基于深度残差网络和支持向量机的物体自动识别系统

Info

Publication number: CN109558774A
Application number: CN201710886820.9A
Authority: CN
Inventors: 仲国强; 张康; 凌霄; 洪辰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-04-02

Abstract

随着机器学习等人工智能技术和图像处理器（GPU）等计算机硬件的高速发展，可以解决大规模数据问题的深度学习方法在计算机视觉领域取得了巨大成就。而物体识别与分类作为该领域中的基础性问题，有着极高的研究、应用和市场价值。本发明以机器学习与模式识别理论作为支撑，融合了深度残差网络、支持向量机、在线学习、语音识别等技术，有效实现了物体类别的高精度识别与人机交互等功能。本发明设计结构合理清晰，具有模块化、识别精度高、泛化能力强、可进行人机交互等特点，并且具备较好的用户体验。同时，本发明具有较高的实用和市场价值，可以在人机交互、智能穿戴和机器人等设备上进行推广应用。

Description

基于深度残差网络和支持向量机的物体自动识别系统

技术领域

本发明涉及图像处理领域的图像识别技术，语音识别技术，人工智能领域的机器学习、深度学习技术。

背景技术

深度学习框架Caffe和Matlab R2014a

本发明采用的深度残差网络基于深度学习框架Caffe构建，运行环境为：Ubuntu14.04。

在线学习的支持向量机、语音识别算法和界面设计基于Matlab R2014a开发，运行环境为：Windows7。

发明内容

当前，随着人工智能的发展和存储设备，GPU等硬件技术的逐步提升，具有高度数据依赖性的深度学习在计算机视觉领域取得了巨大成就，尤其是物体识别这一方向，基于这一背景下，我们基于深度残差网络，在线学习的支持向量机，语音识别等技术提出了物体自动识别系统的发明。

本发明由三个模块构成：

一，特征提取模块，选择深度残差网络（Deep Residual Network）作为类别图像特征提取的深度网络模型，采用了在ImageNet数据集（ImageNet数据集包含上百万张共1000类别的物体）上训练完成的，具有50层的残差网络Resnet-50作为模型，在Resnet-50的fc1000层上提取出合适的图像特征。

二，分类器模块，本发明采用支持向量机（SVM）作为分类器，由于核函数的选择对支持向量机的性能起到了决定性作用，因此在本系统中用户可根据自身需求设置相应的核函数以及相关参数来训练分类器。其次将支持向量机与增强学习相结合，使分类器具备在线（Online）学习能力，实现发明识别能力的“智能化”增强。

三，语音识别模块，本发明的用户反馈采用语音对话的方式，通过DTW语音模型对识别结果进行语音反馈，使发明更具交互性与趣味性。该发明具有模型简单，测试精度高，泛化能力强的优点。同时该发明在训练的过程中随反馈结果调整逐渐优化，达到了“NeverEnding Learning”的要求。

附图说明

图1为本发明的设计框图，可分为三个模块：特征提取模块，分类器模块，语音识别模块。

图2是残差网络的网络架构，本发明采用具有50层网络结构的残差网络Resnet-50模型，为了更好地获取图像特征，我们在fc1000层进行特征提取。将实验图像输入Resnet-50 模型，抽取fc1000层的1000维卷积特征作为分类器输入。实验结果表明，样本的1000维的特征分类效果表现良好，使样本间具备很好的区分性，能够得到极好的识别效果。

图3是支持向量机在线学习的流程图。本系统采用支持向量机作为分类器。相较于大多数分类器，支持向量机的鲁棒性更好，对于未见示例的泛化能力更强。此外该发明还提供了核函数的设置，用户可以根据自身需求设置相应的核函数以及相关参数来训练分类器，实现不同核函数准确率的横向比较。

图4是语音识别模块的流程图。用户通过语音对系统识别的结果进行反馈，分类器接受语音信号并识别，依据信号采取相应动作：若用户信号为“Yes”，分类器无动作，等待下一张图片；若用户信号为“No”，说明模型误分测试样本，分类器按正确结果对SVM模型进行调整。

图5是物体识别正确的界面图。界面包括图像显示，SVM参数设置，识别初始化，反馈和结果几个模块。SVM参数和图像个数初始化后，结果如图5。

图6是物体识别错误的界面图。系统进行SVM参数调整来进行增强学习后，等待下一张图片的载入。

Claims

1.一个基于深度残差网络和支持向量机的物体自动识别系统，其特征在于，包括特征提取模块、分类器模块和语音识别模块；其中，

所述特征提取模块，用于提取输入图片的特征；

所述分类器模块，用于对图像特征的分类；

所述语音识别模块，用于对用户语音的识别。

2.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统，其特征是，所述特征提取模块具体包括：

深度残差网络单元，用于对输入图像的特征提取。

3.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统，其特征是，所述分类器模块具体包括：

支持向量机单元，用于对提取图像特征的特征向量分类；

在线增量学习单元，用于对支持向量机分类器的在线学习，自我优化。