CN109558774A - 基于深度残差网络和支持向量机的物体自动识别系统 - Google Patents

基于深度残差网络和支持向量机的物体自动识别系统 Download PDF

Info

Publication number
CN109558774A
CN109558774A CN201710886820.9A CN201710886820A CN109558774A CN 109558774 A CN109558774 A CN 109558774A CN 201710886820 A CN201710886820 A CN 201710886820A CN 109558774 A CN109558774 A CN 109558774A
Authority
CN
China
Prior art keywords
support vector
residual error
error network
module
depth residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710886820.9A
Other languages
English (en)
Inventor
仲国强
张康
凌霄
洪辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN201710886820.9A priority Critical patent/CN109558774A/zh
Publication of CN109558774A publication Critical patent/CN109558774A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

随着机器学习等人工智能技术和图像处理器(GPU)等计算机硬件的高速发展,可以解决大规模数据问题的深度学习方法在计算机视觉领域取得了巨大成就。而物体识别与分类作为该领域中的基础性问题,有着极高的研究、应用和市场价值。本发明以机器学习与模式识别理论作为支撑,融合了深度残差网络、支持向量机、在线学习、语音识别等技术,有效实现了物体类别的高精度识别与人机交互等功能。本发明设计结构合理清晰,具有模块化、识别精度高、泛化能力强、可进行人机交互等特点,并且具备较好的用户体验。同时,本发明具有较高的实用和市场价值,可以在人机交互、智能穿戴和机器人等设备上进行推广应用。

Description

基于深度残差网络和支持向量机的物体自动识别系统
技术领域
本发明涉及图像处理领域的图像识别技术,语音识别技术,人工智能领域的机器学习、深度学习技术。
背景技术
深度学习框架Caffe和Matlab R2014a
本发明采用的深度残差网络基于深度学习框架Caffe构建,运行环境为:Ubuntu14.04。
在线学习的支持向量机、语音识别算法和界面设计基于Matlab R2014a开发,运行环境为:Windows7。
发明内容
当前,随着人工智能的发展和存储设备,GPU等硬件技术的逐步提升,具有高度数据依赖性的深度学习在计算机视觉领域取得了巨大成就,尤其是物体识别这一方向,基于这一背景下,我们基于深度残差网络,在线学习的支持向量机,语音识别等技术提出了物体自动识别系统的发明。
本发明由三个模块构成:
一,特征提取模块,选择深度残差网络(Deep Residual Network)作为类别图像特征提取的深度网络模型,采用了在ImageNet数据集(ImageNet数据集包含上百万张共1000类别的物体)上训练完成的,具有50层的残差网络Resnet-50作为模型,在Resnet-50的fc1000层上提取出合适的图像特征。
二,分类器模块,本发明采用支持向量机(SVM)作为分类器,由于核函数的选择对支持向量机的性能起到了决定性作用,因此在本系统中用户可根据自身需求设置相应的核函数以及相关参数来训练分类器。其次将支持向量机与增强学习相结合,使分类器具备在线(Online)学习能力,实现发明识别能力的“智能化”增强。
三,语音识别模块,本发明的用户反馈采用语音对话的方式,通过DTW语音模型对识别结果进行语音反馈,使发明更具交互性与趣味性。该发明具有模型简单,测试精度高,泛化能力强的优点。同时该发明在训练的过程中随反馈结果调整逐渐优化,达到了“NeverEnding Learning”的要求。
附图说明
图1为本发明的设计框图,可分为三个模块:特征提取模块,分类器模块,语音识别模块。
图2是残差网络的网络架构,本发明采用具有50层网络结构的残差网络Resnet-50模型,为了更好地获取图像特征,我们在fc1000层进行特征提取。将实验图像输入Resnet-50 模型,抽取fc1000层的1000维卷积特征作为分类器输入。实验结果表明,样本的1000维的特征分类效果表现良好,使样本间具备很好的区分性,能够得到极好的识别效果。
图3是支持向量机在线学习的流程图。本系统采用支持向量机作为分类器。相较于大多数分类器,支持向量机的鲁棒性更好,对于未见示例的泛化能力更强。此外该发明还提供了核函数的设置,用户可以根据自身需求设置相应的核函数以及相关参数来训练分类器,实现不同核函数准确率的横向比较。
图4是语音识别模块的流程图。用户通过语音对系统识别的结果进行反馈,分类器接受语音信号并识别,依据信号采取相应动作:若用户信号为“Yes”,分类器无动作,等待下一张图片;若用户信号为“No”,说明模型误分测试样本,分类器按正确结果对SVM模型进行调整。
图5是物体识别正确的界面图。界面包括图像显示,SVM参数设置,识别初始化,反馈和结果几个模块。SVM参数和图像个数初始化后,结果如图5。
图6是物体识别错误的界面图。系统进行SVM参数调整来进行增强学习后,等待下一张图片的载入。

Claims (3)

1.一个基于深度残差网络和支持向量机的物体自动识别系统,其特征在于,包括特征提取模块、分类器模块和语音识别模块;其中,
所述特征提取模块,用于提取输入图片的特征;
所述分类器模块,用于对图像特征的分类;
所述语音识别模块,用于对用户语音的识别。
2.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统,其特征是,所述特征提取模块具体包括:
深度残差网络单元,用于对输入图像的特征提取。
3.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统,其特征是,所述分类器模块具体包括:
支持向量机单元,用于对提取图像特征的特征向量分类;
在线增量学习单元,用于对支持向量机分类器的在线学习,自我优化。
CN201710886820.9A 2017-09-27 2017-09-27 基于深度残差网络和支持向量机的物体自动识别系统 Pending CN109558774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710886820.9A CN109558774A (zh) 2017-09-27 2017-09-27 基于深度残差网络和支持向量机的物体自动识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710886820.9A CN109558774A (zh) 2017-09-27 2017-09-27 基于深度残差网络和支持向量机的物体自动识别系统

Publications (1)

Publication Number Publication Date
CN109558774A true CN109558774A (zh) 2019-04-02

Family

ID=65863410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710886820.9A Pending CN109558774A (zh) 2017-09-27 2017-09-27 基于深度残差网络和支持向量机的物体自动识别系统

Country Status (1)

Country Link
CN (1) CN109558774A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704711A (zh) * 2019-09-11 2020-01-17 中国海洋大学 面向终生学习的物体自动识别系统
CN112171721A (zh) * 2020-11-30 2021-01-05 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN112948897A (zh) * 2021-03-15 2021-06-11 东北农业大学 一种基于drae与svm相结合的网页防篡改检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163287A (zh) * 2011-03-28 2011-08-24 北京邮电大学 一种基于类Haar特征和支持向量机的车牌字符识别方法
CN102955950A (zh) * 2011-08-16 2013-03-06 索尼公司 用于在线训练分类器的装置和在线训练分类器的方法
CN103207999A (zh) * 2012-11-07 2013-07-17 中国矿业大学(北京) 一种基于煤岩图像特征抽取以及分类识别的煤岩分界方法和系统
CN104063713A (zh) * 2014-07-04 2014-09-24 中国地质大学(武汉) 一种基于随机蕨分类器的半自主在线学习方法
CN104834943A (zh) * 2015-05-25 2015-08-12 电子科技大学 一种基于深度学习的脑肿瘤分类方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107016372A (zh) * 2017-04-12 2017-08-04 邹霞 基于神经网络的人脸识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163287A (zh) * 2011-03-28 2011-08-24 北京邮电大学 一种基于类Haar特征和支持向量机的车牌字符识别方法
CN102955950A (zh) * 2011-08-16 2013-03-06 索尼公司 用于在线训练分类器的装置和在线训练分类器的方法
CN103207999A (zh) * 2012-11-07 2013-07-17 中国矿业大学(北京) 一种基于煤岩图像特征抽取以及分类识别的煤岩分界方法和系统
CN104063713A (zh) * 2014-07-04 2014-09-24 中国地质大学(武汉) 一种基于随机蕨分类器的半自主在线学习方法
CN104834943A (zh) * 2015-05-25 2015-08-12 电子科技大学 一种基于深度学习的脑肿瘤分类方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107016372A (zh) * 2017-04-12 2017-08-04 邹霞 基于神经网络的人脸识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704711A (zh) * 2019-09-11 2020-01-17 中国海洋大学 面向终生学习的物体自动识别系统
CN112171721A (zh) * 2020-11-30 2021-01-05 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN112171721B (zh) * 2020-11-30 2021-02-19 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN112948897A (zh) * 2021-03-15 2021-06-11 东北农业大学 一种基于drae与svm相结合的网页防篡改检测方法

Similar Documents

Publication Publication Date Title
Mittal et al. A modified LSTM model for continuous sign language recognition using leap motion
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
Neverova et al. Moddrop: adaptive multi-modal gesture recognition
WO2020078017A1 (zh) 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
Gao et al. Sign language recognition based on HMM/ANN/DP
Sharma et al. Human computer interaction using hand gesture
Kurakin et al. A real time system for dynamic hand gesture recognition with a depth sensor
Murthy et al. A review of vision based hand gestures recognition
Moni et al. HMM based hand gesture recognition: A review on techniques and approaches
Rioux-Maldague et al. Sign language fingerspelling classification from depth and color images using a deep belief network
Neverova et al. A multi-scale approach to gesture detection and recognition
Dima et al. Using YOLOv5 algorithm to detect and recognize American sign language
Bilal et al. Hidden Markov model for human to computer interaction: a study on human hand gesture recognition
CN108073851B (zh) 一种抓取手势识别的方法、装置及电子设备
CN107992792A (zh) 一种基于加速度传感器的空中手写汉字识别系统及方法
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
US20230214458A1 (en) Hand Pose Estimation for Machine Learning Based Gesture Recognition
dos Santos Anjo et al. A real-time system to recognize static gestures of Brazilian sign language (libras) alphabet using Kinect.
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
CN111241922B (zh) 一种机器人及其控制方法、计算机可读存储介质
CN109558774A (zh) 基于深度残差网络和支持向量机的物体自动识别系统
Sahana et al. Hand sign recognition from depth images with multi-scale density features for deaf mute persons
CN106778574A (zh) 用于人脸图像的检测方法和装置
CN109886164B (zh) 一种异常手势的识别与处理方法
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190402