CN110175626A - 一种基于云平台下svm图像识别系统及方法 - Google Patents

一种基于云平台下svm图像识别系统及方法 Download PDF

Info

Publication number
CN110175626A
CN110175626A CN201910297878.9A CN201910297878A CN110175626A CN 110175626 A CN110175626 A CN 110175626A CN 201910297878 A CN201910297878 A CN 201910297878A CN 110175626 A CN110175626 A CN 110175626A
Authority
CN
China
Prior art keywords
data
svm
cloud platform
carried out
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910297878.9A
Other languages
English (en)
Inventor
房国志
李玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910297878.9A priority Critical patent/CN110175626A/zh
Publication of CN110175626A publication Critical patent/CN110175626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

一种基于云平台下SVM图像识别系统及方法,属于图像处理领域。现有SVM图像识别系统和识别方法存在效率低的问题。一种基于云平台下SVM图像识别系统。在训练数据集中找到决策函数对应的分类进行分析,找到数据集的支持向量;所有的支持向量都具有稀疏性的特点,它们在数据向量集中占据很小的比重,通过利用这样的特征,实现对数据的并行SVM算法;在运算过程中,首先将训练数据进行切分,进行分块化处理;然后对每个切分的数据块分别进行SVM算法求解,以此来达到缩短求解时间的目的。

Description

一种基于云平台下SVM图像识别系统及方法
技术领域
本发明涉及一种图像识别方法,特别涉及一种基于云平台下SVM图像识别系统及方法。
背景技术
现阶段个人电脑和移动互联网的广泛使用,各种图片、声音、视频等数字信息在网络上广泛交互,数据量已经不可估量。作为其中最为生动直接的图片图像信息正因为互联网的使用而大放光彩,越来越成为人们日常生活中交流与学习的重要组成部分。海量的图像数据在互联网上广泛传播,每天都有数以亿计的图片在网络上上传或下载。为了便于人们在海量图像中检索到自己需要的图像,专家对图像检索方法进行了广泛的研究和学习。其中支持向量机(SVM)模型被广泛应用于图像检索系统中。随着大量数据的产生,云计算随之出现。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。简单来说,云计算就是将所有资源进过计算、转换和存储,形成一个巨型的云端网络数据存储平台,利用此平台可以完成各种存储和运算任务,将SVM算法和云平台结合,可以更好的提高海量图像识别检索效率。
发明内容
本发明的目的是为了解决现有的SVM图像识别方法检索效率低的问题,而提出一种基于云平台下SVM图像识别系统及方法。
一种基于云平台下SVM图像识别系统,云平台主要由三部分构成:文件系统、数据库、分布式并行计算;在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现;
作为存储和计算的处理平台,云平台处理的核心部分还是分布式文件系统以及并行处理;优越的硬件系统也使该平台体现出了可扩展、廉价、高容错、高效稳定等特点;云平台结构完善,不需要进行改动即可直接进行存储和计算的扩展,可扩展性是云平台的关键属性。
一种基于云平台下SVM图像识别方法,在训练数据集中找到决策函数对应的分类进行分析,找到数据集的支持向量;所有的支持向量都具有稀疏性的特点,它们在数据向量集中占据很小的比重,通过利用这样的特征,实现对数据的并行SVM算法;在运算过程中,首先将训练数据进行切分,进行分块化处理;然后对每个切分的数据块分别进行SVM算法求解。
一种基于云平台下SVM图像识别方法,所述的图像识别方法主要通过以下步骤实现:
步骤一、向云平台上传数据信息;向云平台上传数据信息及提交作业,主要从HDFS中获取数据源,根据数据集群配置对数据进行划分处理,也要对作业的图像样本读入进行分类处理,输入该过程过程中所需的节点信息;
步骤二、实现图像样本读入的操作过程;将储存在HDFS中的图像样本读入系统,同时转换block中的数据样本的参数类型。转换之后通过遗传算法进行优化转换的组合参数;所有准备工作之后,进行svm_train函数的调入,进行样本训练处理,从而得到数据的支持向量即<key/value>形式的支持向量;最后处理结果等待传入Reduce的操作过程。
步骤三、实现数据形式分类排序的操作过程;把图像样本读入所转换的数据形式<key/value>进行分类排序;
步骤四、实现对SVM参数优化;支持向量机SVM进行参数优化时,可以对存储的数据进行提取,也可以对优化后的数据进行实时更新,确保可以凭借记忆来记录参数选择过程,同时也可对参数进行调整,减小结果误差。
本发明的有益效果为:
1)决策树SVM不存在划分盲区,分类精度高、分类准确;
2)决策树SVM构造分类器数量少,对于N个分类事例,只需构造N-1个分类器;
3)随着分类层次的递增,训练样本数量和支持向量数量都在减少,大大减少了训练时间;
4)采用决策树进行分类时,单一训练样本不需要通过所有分类器,减少了分类时间
附图说明
图1为本发明方法的流程图;
具体实施方式
具体实施方式一:
本实施方式的一种基于云平台下SVM图像识别系统,云平台主要由三部分构成:文件系统、数据库、分布式并行计算;在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现;
作为存储和计算的处理平台,云平台处理的核心部分还是分布式文件系统以及并行处理。优越的硬件系统也使该平台体现出了可扩展、廉价、高容错、高效稳定等特点;云平台结构完善,不需要进行改动即可直接进行存储和计算的扩展,可扩展性是云平台的关键属性。
具体实施方式二:
本实施方式的一种基于云平台下SVM图像识别方法,SVM方法训练样本数据量逐步增大,而且训练样本的时间还出现了指数上升的趋势,在单机模式下进行仍然十分困难。这也是训练样本规模增大带来的问题。为了解决这个问题,使SVM算法的训练速度加快,本发明对基于云平台的并行运算SVM方法进行研究,使得运算时间得到了进一步缩短。SVM算法的主要思想是在训练数据集中找到决策函数对应的分类进行分析,找到数据集的支持向量;所有的支持向量都具有稀疏性的特点,它们在数据向量集中占据很小的比重,通过利用这样的特征,实现对数据的并行SVM算法;在运算过程中,首先将训练数据进行切分,进行分块化处理;然后对每个切分的数据块分别进行SVM算法求解,以此来达到缩短求解时间的目的。
具体实施方式三:
与具体实施方式二不同的是,本实施方式的一种基于云平台下SVM图像识别方法,所述的图像识别方法主要通过以下步骤实现:
步骤一、向云平台上传数据信息。向云平台上传数据信息及提交作业,主要从HDFS中获取数据源,根据数据集群配置对数据进行划分处理,也要对作业的图像样本读入进行分类处理,输入该过程过程中所需的节点信息。
步骤二、实现图像样本读入的操作过程。将储存在HDFS中的图像样本读入系统,同时转换block中的数据样本的参数类型。转换之后通过遗传算法进行优化转换的组合参数。所有准备工作之后,进行svm_train函数的调入,进行样本训练处理,从而得到数据的支持向量即<key/value>形式的支持向量。最后处理结果等待传入Reduce的操作过程。
步骤三、实现数据形式分类排序的操作过程。把图像样本读入所转换的数据形式<key/value>进行分类排序。
步骤四、实现对SVM参数优化。支持向量机SVM进行参数优化时,可以对存储的数据进行提取,也可以对优化后的数据进行实时更新,确保可以凭借记忆来记录参数选择过程,同时也可对参数进行调整,减小结果误差。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的一种基于云平台下SVM图像识别方法,所述的步骤四中,支持向量机SVM进行参数优化的过程具体为:
SVM分类方法的优点是不需要海量的训练样本来对训练模型进行训练,而缺点是其惩罚因子(C和ε等)需要依靠建模人员的经验来选取,因此其分类性能具有较大的随机性。采用退火算法对支持向量机的参数进行优化选择,以提高决策树SVM分类方法的分类性能。
退火算法在本质上是随机寻优算法的一种,它是以蒙特卡罗迭代求解方法为基础发展而来的。其根本原理与金属退火原理较为相似。运用该算法对SVM参数优化的详细过程如下:
步骤四1)、定义初始参数,确定支持向量机中ε、C和σ等参数的取值范围:ε∈[0,1],C∈[0,106],σ∈[0,1];定义计数变量m和i,并赋初值为0;
步骤四2)、对支持向量机进行参数优化;
步骤四3)、求解最优解;
如果f(Xi+1)<fopt,则使optXi+1=Xopt,f(Xi+1)=fopt,m=0;
否则使m=m+1;其中,f(Xi+1)表示函数取Xi+1时刻的值,fopt表示当前最优解;
步骤四4)、判断随机抽样的稳定性,设检验抽样稳定性的阈值为Nr
如果m=Nr,则使i=i+1,并重新进行2);
否则使m=0;
步骤四5)、判断停止条件;
如果fopt<k时,温度为Tk,则使j=j+1;
否则使j=0;
设j的阈值为I,检验精度为ε,如果j≥I或fopt<ε,则停止;
否则进行步骤四6);
步骤四6)、确定方案;如果则按照Tk+1=T0/(1+ΔNfc)方式结果进行,其中,为某一设定值,Nfc为模拟目标函数的调用次数;否则按照Tk+1=rTTK方式结果进行,rT取值为0<rT<1。

Claims (4)

1.一种基于云平台下SVM图像识别系统,其特征在于:云平台主要由三部分构成:文件系统、数据库、分布式并行计算;在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现;
作为存储和计算的处理平台,云平台处理的核心部分还是分布式文件系统以及并行处理;优越的硬件系统也使该平台体现出了可扩展、廉价、高容错、高效稳定等特点;云平台结构完善,不需要进行改动即可直接进行存储和计算的扩展,可扩展性是云平台的关键属性。
2.一种利用上述基于云平台下SVM图像识别系统进行的图像识别方法,其特征在于:在训练数据集中找到决策函数对应的分类进行分析,找到数据集的支持向量;所有的支持向量都具有稀疏性的特点,它们在数据向量集中占据很小的比重,通过利用这样的特征,实现对数据的并行SVM算法;在运算过程中,首先将训练数据进行切分,进行分块化处理;然后对每个切分的数据块分别进行SVM算法求解。
3.根据权利要求2所述的一种基于云平台下SVM图像识别方法,其特征在于:所述的图像识别方法主要通过以下步骤实现:
步骤一、向云平台上传数据信息;向云平台上传数据信息及提交作业,主要从HDFS中获取数据源,根据数据集群配置对数据进行划分处理,也要对作业的图像样本读入进行分类处理,输入该过程过程中所需的节点信息;
步骤二、实现图像样本读入的操作过程;将储存在HDFS中的图像样本读入系统,同时转换block中的数据样本的参数类型;转换之后通过遗传算法进行优化转换的组合参数;所有准备工作之后,进行svm_train函数的调入,进行样本训练处理,从而得到数据的支持向量即<key/value>形式的支持向量;最后处理结果等待传入Reduce的操作过程;
步骤三、实现数据形式分类排序的操作过程;把图像样本读入所转换的数据形式<key/value>进行分类排序;
步骤四、实现对SVM参数优化;支持向量机SVM进行参数优化时,可以对存储的数据进行提取,也可以对优化后的数据进行实时更新,确保可以凭借记忆来记录参数选择过程,同时也可对参数进行调整,减小结果误差。
4.根据权利要求3所述的一种基于云平台下SVM图像识别方法,其特征在于:所述的步骤四中,支持向量机SVM进行参数优化的过程具体为:
SVM分类方法的优点是不需要海量的训练样本来对训练模型进行训练,采用退火算法对支持向量机的参数进行优化选择,以提高决策树SVM分类方法的分类性能;退火算法在本质上是随机寻优算法的一种,它是以蒙特卡罗迭代求解方法为基础发展而来的;其根本原理与金属退火原理较为相似;运用该算法对SVM参数优化的详细过程如下:
步骤四1)、定义初始参数,确定支持向量机中ε、C和σ等参数的取值范围:ε∈[0,1],C∈[0,106],σ∈[0,1];定义计数变量m和i,并赋初值为0;
步骤四2)、对支持向量机进行参数优化;
步骤四3)、求解最优解;
如果f(Xi+1)<fopt,则使optXi+1=Xopt,f(Xi+1)=fopt,m=0;
否则使m=m+1;其中,f(Xi+1)表示函数取Xi+1时刻的值,fopt表示当前最优解;
步骤四4)、判断随机抽样的稳定性,设检验抽样稳定性的阈值为Nr
如果m=Nr,则使i=i+1,并重新进行2);
否则使m=0;
步骤四5)、判断停止条件;
如果fopt<k时,温度为Tk,则使j=j+1;
否则使j=0;
设j的阈值为I,检验精度为ε,如果j≥I或fopt<ε,则停止;
否则进行步骤四6);
步骤四6)、确定方案;如果则按照Tk+1=T0/(1+ΔNfc)方式结果进行,其中,为某一设定值,Nfc为模拟目标函数的调用次数;否则按照Tk+1=rTTK方式结果进行,rT取值为0<rT<1。
CN201910297878.9A 2019-04-15 2019-04-15 一种基于云平台下svm图像识别系统及方法 Pending CN110175626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910297878.9A CN110175626A (zh) 2019-04-15 2019-04-15 一种基于云平台下svm图像识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910297878.9A CN110175626A (zh) 2019-04-15 2019-04-15 一种基于云平台下svm图像识别系统及方法

Publications (1)

Publication Number Publication Date
CN110175626A true CN110175626A (zh) 2019-08-27

Family

ID=67690018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910297878.9A Pending CN110175626A (zh) 2019-04-15 2019-04-15 一种基于云平台下svm图像识别系统及方法

Country Status (1)

Country Link
CN (1) CN110175626A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738240A (zh) * 2019-09-24 2020-01-31 中国船舶重工集团公司第七0七研究所 一种基于嵌入式裸机的svm分类算法应用的实现方法
CN110910991A (zh) * 2019-11-21 2020-03-24 张军 一种医用自动图像处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298975A (zh) * 2014-10-13 2015-01-21 江苏大学 一种分布式图像识别方法
WO2016075274A1 (en) * 2014-11-14 2016-05-19 Thomson Licensing Methods, systems and apparatus for image recognition based on recursively determined exemplar-support vector machines (e-svm) features
CN105930794A (zh) * 2016-04-20 2016-09-07 东北大学 一种基于云计算的室内场景识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298975A (zh) * 2014-10-13 2015-01-21 江苏大学 一种分布式图像识别方法
WO2016075274A1 (en) * 2014-11-14 2016-05-19 Thomson Licensing Methods, systems and apparatus for image recognition based on recursively determined exemplar-support vector machines (e-svm) features
CN105930794A (zh) * 2016-04-20 2016-09-07 东北大学 一种基于云计算的室内场景识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘燕: "基于改进型决策树SVM的图像识别方法", 《新乡学院学报》 *
白灵: "基于Hadoop平台下SVM的图像识别技术", 《现代电子技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738240A (zh) * 2019-09-24 2020-01-31 中国船舶重工集团公司第七0七研究所 一种基于嵌入式裸机的svm分类算法应用的实现方法
CN110910991A (zh) * 2019-11-21 2020-03-24 张军 一种医用自动图像处理系统
CN110910991B (zh) * 2019-11-21 2020-09-01 张军 一种医用自动图像处理系统

Similar Documents

Publication Publication Date Title
Rosendo et al. Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review
CN104239501B (zh) 一种基于Spark的海量视频语义标注方法
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN110175626A (zh) 一种基于云平台下svm图像识别系统及方法
Sun et al. Survey of distributed computing frameworks for supporting big data analysis
Achakeev et al. Sort-based parallel loading of R-trees
CN110347754B (zh) 一种数据查询方法及装置
Chandrasekhar et al. A comparative study of enterprise and open source big data analytical tools
Yuan et al. Shrec’19 track: Extended 2D scene sketch-based 3D scene retrieval
Chen et al. Design and implementation of an intelligent system for tourist routes recommendation based on Hadoop
CN107066328A (zh) 大规模数据处理平台的构建方法
Gadde et al. A SURVEY ON EVOLUTION OF BIG DATA WITH HADOOP
WO2023029944A1 (zh) 联邦学习的方法和装置
CN111178578A (zh) 一种融合聚类与集成学习的金融股票预测方法
Zhang et al. Small files storing and computing optimization in Hadoop parallel rendering
Martínez-Castaño et al. Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis
CN111523685B (zh) 基于主动学习的降低性能建模开销的方法
Klimentov Exascale Data Processing in Heterogeneous Distributed Computing Infrastructure for Applications in High Energy Physics
Ding et al. An efficient query processing optimization based on ELM in the cloud
CN115587297A (zh) 构建图像识别模型和图像识别的方法、装置、设备及介质
CN106055594A (zh) 基于用户兴趣的信息提供方法
CN112988724A (zh) 一种工作效率数据获取方法及系统
Bousrih et al. Optimizing cost and response time for data intensive services' composition based on ABC algorithm
Wei et al. Structured network pruning via adversarial multi-indicator architecture selection
Sakkari et al. An architecture of distributed beta wavelet networks for large image classification in mapreduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190827

WD01 Invention patent application deemed withdrawn after publication