CN109558774A - 基于深度残差网络和支持向量机的物体自动识别系统 - Google Patents
基于深度残差网络和支持向量机的物体自动识别系统 Download PDFInfo
- Publication number
- CN109558774A CN109558774A CN201710886820.9A CN201710886820A CN109558774A CN 109558774 A CN109558774 A CN 109558774A CN 201710886820 A CN201710886820 A CN 201710886820A CN 109558774 A CN109558774 A CN 109558774A
- Authority
- CN
- China
- Prior art keywords
- support vector
- residual error
- error network
- module
- depth residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract 3
- 238000003909 pattern recognition Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
随着机器学习等人工智能技术和图像处理器(GPU)等计算机硬件的高速发展,可以解决大规模数据问题的深度学习方法在计算机视觉领域取得了巨大成就。而物体识别与分类作为该领域中的基础性问题,有着极高的研究、应用和市场价值。本发明以机器学习与模式识别理论作为支撑,融合了深度残差网络、支持向量机、在线学习、语音识别等技术,有效实现了物体类别的高精度识别与人机交互等功能。本发明设计结构合理清晰,具有模块化、识别精度高、泛化能力强、可进行人机交互等特点,并且具备较好的用户体验。同时,本发明具有较高的实用和市场价值,可以在人机交互、智能穿戴和机器人等设备上进行推广应用。
Description
技术领域
本发明涉及图像处理领域的图像识别技术,语音识别技术,人工智能领域的机器学习、深度学习技术。
背景技术
深度学习框架Caffe和Matlab R2014a
本发明采用的深度残差网络基于深度学习框架Caffe构建,运行环境为:Ubuntu14.04。
在线学习的支持向量机、语音识别算法和界面设计基于Matlab R2014a开发,运行环境为:Windows7。
发明内容
当前,随着人工智能的发展和存储设备,GPU等硬件技术的逐步提升,具有高度数据依赖性的深度学习在计算机视觉领域取得了巨大成就,尤其是物体识别这一方向,基于这一背景下,我们基于深度残差网络,在线学习的支持向量机,语音识别等技术提出了物体自动识别系统的发明。
本发明由三个模块构成:
一,特征提取模块,选择深度残差网络(Deep Residual Network)作为类别图像特征提取的深度网络模型,采用了在ImageNet数据集(ImageNet数据集包含上百万张共1000类别的物体)上训练完成的,具有50层的残差网络Resnet-50作为模型,在Resnet-50的fc1000层上提取出合适的图像特征。
二,分类器模块,本发明采用支持向量机(SVM)作为分类器,由于核函数的选择对支持向量机的性能起到了决定性作用,因此在本系统中用户可根据自身需求设置相应的核函数以及相关参数来训练分类器。其次将支持向量机与增强学习相结合,使分类器具备在线(Online)学习能力,实现发明识别能力的“智能化”增强。
三,语音识别模块,本发明的用户反馈采用语音对话的方式,通过DTW语音模型对识别结果进行语音反馈,使发明更具交互性与趣味性。该发明具有模型简单,测试精度高,泛化能力强的优点。同时该发明在训练的过程中随反馈结果调整逐渐优化,达到了“NeverEnding Learning”的要求。
附图说明
图1为本发明的设计框图,可分为三个模块:特征提取模块,分类器模块,语音识别模块。
图2是残差网络的网络架构,本发明采用具有50层网络结构的残差网络Resnet-50模型,为了更好地获取图像特征,我们在fc1000层进行特征提取。将实验图像输入Resnet-50 模型,抽取fc1000层的1000维卷积特征作为分类器输入。实验结果表明,样本的1000维的特征分类效果表现良好,使样本间具备很好的区分性,能够得到极好的识别效果。
图3是支持向量机在线学习的流程图。本系统采用支持向量机作为分类器。相较于大多数分类器,支持向量机的鲁棒性更好,对于未见示例的泛化能力更强。此外该发明还提供了核函数的设置,用户可以根据自身需求设置相应的核函数以及相关参数来训练分类器,实现不同核函数准确率的横向比较。
图4是语音识别模块的流程图。用户通过语音对系统识别的结果进行反馈,分类器接受语音信号并识别,依据信号采取相应动作:若用户信号为“Yes”,分类器无动作,等待下一张图片;若用户信号为“No”,说明模型误分测试样本,分类器按正确结果对SVM模型进行调整。
图5是物体识别正确的界面图。界面包括图像显示,SVM参数设置,识别初始化,反馈和结果几个模块。SVM参数和图像个数初始化后,结果如图5。
图6是物体识别错误的界面图。系统进行SVM参数调整来进行增强学习后,等待下一张图片的载入。
Claims (3)
1.一个基于深度残差网络和支持向量机的物体自动识别系统,其特征在于,包括特征提取模块、分类器模块和语音识别模块;其中,
所述特征提取模块,用于提取输入图片的特征;
所述分类器模块,用于对图像特征的分类;
所述语音识别模块,用于对用户语音的识别。
2.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统,其特征是,所述特征提取模块具体包括:
深度残差网络单元,用于对输入图像的特征提取。
3.根据权利要求1所述的基于深度残差网络和支持向量机的物体自动识别系统,其特征是,所述分类器模块具体包括:
支持向量机单元,用于对提取图像特征的特征向量分类;
在线增量学习单元,用于对支持向量机分类器的在线学习,自我优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710886820.9A CN109558774A (zh) | 2017-09-27 | 2017-09-27 | 基于深度残差网络和支持向量机的物体自动识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710886820.9A CN109558774A (zh) | 2017-09-27 | 2017-09-27 | 基于深度残差网络和支持向量机的物体自动识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558774A true CN109558774A (zh) | 2019-04-02 |
Family
ID=65863410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710886820.9A Pending CN109558774A (zh) | 2017-09-27 | 2017-09-27 | 基于深度残差网络和支持向量机的物体自动识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558774A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704711A (zh) * | 2019-09-11 | 2020-01-17 | 中国海洋大学 | 面向终生学习的物体自动识别系统 |
CN112171721A (zh) * | 2020-11-30 | 2021-01-05 | 北京科技大学 | 一种机器人关节传感器和执行器故障诊断方法及系统 |
CN112948897A (zh) * | 2021-03-15 | 2021-06-11 | 东北农业大学 | 一种基于drae与svm相结合的网页防篡改检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163287A (zh) * | 2011-03-28 | 2011-08-24 | 北京邮电大学 | 一种基于类Haar特征和支持向量机的车牌字符识别方法 |
CN102955950A (zh) * | 2011-08-16 | 2013-03-06 | 索尼公司 | 用于在线训练分类器的装置和在线训练分类器的方法 |
CN103207999A (zh) * | 2012-11-07 | 2013-07-17 | 中国矿业大学(北京) | 一种基于煤岩图像特征抽取以及分类识别的煤岩分界方法和系统 |
CN104063713A (zh) * | 2014-07-04 | 2014-09-24 | 中国地质大学(武汉) | 一种基于随机蕨分类器的半自主在线学习方法 |
CN104834943A (zh) * | 2015-05-25 | 2015-08-12 | 电子科技大学 | 一种基于深度学习的脑肿瘤分类方法 |
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN107016372A (zh) * | 2017-04-12 | 2017-08-04 | 邹霞 | 基于神经网络的人脸识别方法 |
-
2017
- 2017-09-27 CN CN201710886820.9A patent/CN109558774A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163287A (zh) * | 2011-03-28 | 2011-08-24 | 北京邮电大学 | 一种基于类Haar特征和支持向量机的车牌字符识别方法 |
CN102955950A (zh) * | 2011-08-16 | 2013-03-06 | 索尼公司 | 用于在线训练分类器的装置和在线训练分类器的方法 |
CN103207999A (zh) * | 2012-11-07 | 2013-07-17 | 中国矿业大学(北京) | 一种基于煤岩图像特征抽取以及分类识别的煤岩分界方法和系统 |
CN104063713A (zh) * | 2014-07-04 | 2014-09-24 | 中国地质大学(武汉) | 一种基于随机蕨分类器的半自主在线学习方法 |
CN104834943A (zh) * | 2015-05-25 | 2015-08-12 | 电子科技大学 | 一种基于深度学习的脑肿瘤分类方法 |
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN107016372A (zh) * | 2017-04-12 | 2017-08-04 | 邹霞 | 基于神经网络的人脸识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704711A (zh) * | 2019-09-11 | 2020-01-17 | 中国海洋大学 | 面向终生学习的物体自动识别系统 |
CN112171721A (zh) * | 2020-11-30 | 2021-01-05 | 北京科技大学 | 一种机器人关节传感器和执行器故障诊断方法及系统 |
CN112171721B (zh) * | 2020-11-30 | 2021-02-19 | 北京科技大学 | 一种机器人关节传感器和执行器故障诊断方法及系统 |
CN112948897A (zh) * | 2021-03-15 | 2021-06-11 | 东北农业大学 | 一种基于drae与svm相结合的网页防篡改检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mittal et al. | A modified LSTM model for continuous sign language recognition using leap motion | |
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
Neverova et al. | Moddrop: adaptive multi-modal gesture recognition | |
WO2020078017A1 (zh) | 用于识别空中手写的方法、装置、设备以及计算机可读存储介质 | |
Gao et al. | Sign language recognition based on HMM/ANN/DP | |
Sharma et al. | Human computer interaction using hand gesture | |
Kurakin et al. | A real time system for dynamic hand gesture recognition with a depth sensor | |
Murthy et al. | A review of vision based hand gestures recognition | |
Moni et al. | HMM based hand gesture recognition: A review on techniques and approaches | |
Rioux-Maldague et al. | Sign language fingerspelling classification from depth and color images using a deep belief network | |
Neverova et al. | A multi-scale approach to gesture detection and recognition | |
Dima et al. | Using YOLOv5 algorithm to detect and recognize American sign language | |
Bilal et al. | Hidden Markov model for human to computer interaction: a study on human hand gesture recognition | |
CN108073851B (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
CN107992792A (zh) | 一种基于加速度传感器的空中手写汉字识别系统及方法 | |
CN103092329A (zh) | 一种基于唇读技术的唇语输入方法 | |
US20230214458A1 (en) | Hand Pose Estimation for Machine Learning Based Gesture Recognition | |
dos Santos Anjo et al. | A real-time system to recognize static gestures of Brazilian sign language (libras) alphabet using Kinect. | |
CN108764019A (zh) | 一种基于多源深度学习的视频事件检测方法 | |
CN111241922B (zh) | 一种机器人及其控制方法、计算机可读存储介质 | |
CN109558774A (zh) | 基于深度残差网络和支持向量机的物体自动识别系统 | |
Sahana et al. | Hand sign recognition from depth images with multi-scale density features for deaf mute persons | |
CN106778574A (zh) | 用于人脸图像的检测方法和装置 | |
CN109886164B (zh) | 一种异常手势的识别与处理方法 | |
Lahiani et al. | Hand pose estimation system based on Viola-Jones algorithm for android devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |