CN110175626A

CN110175626A - 一种基于云平台下svm图像识别系统及方法

Info

Publication number: CN110175626A
Application number: CN201910297878.9A
Authority: CN
Inventors: 房国志; 李玉龙
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-08-27

Abstract

一种基于云平台下SVM图像识别系统及方法，属于图像处理领域。现有SVM图像识别系统和识别方法存在效率低的问题。一种基于云平台下SVM图像识别系统。在训练数据集中找到决策函数对应的分类进行分析，找到数据集的支持向量；所有的支持向量都具有稀疏性的特点，它们在数据向量集中占据很小的比重，通过利用这样的特征，实现对数据的并行SVM算法；在运算过程中，首先将训练数据进行切分，进行分块化处理；然后对每个切分的数据块分别进行SVM算法求解，以此来达到缩短求解时间的目的。

Description

一种基于云平台下SVM图像识别系统及方法

技术领域

本发明涉及一种图像识别方法，特别涉及一种基于云平台下SVM图像识别系统及方法。

背景技术

现阶段个人电脑和移动互联网的广泛使用，各种图片、声音、视频等数字信息在网络上广泛交互，数据量已经不可估量。作为其中最为生动直接的图片图像信息正因为互联网的使用而大放光彩，越来越成为人们日常生活中交流与学习的重要组成部分。海量的图像数据在互联网上广泛传播，每天都有数以亿计的图片在网络上上传或下载。为了便于人们在海量图像中检索到自己需要的图像，专家对图像检索方法进行了广泛的研究和学习。其中支持向量机(SVM)模型被广泛应用于图像检索系统中。随着大量数据的产生，云计算随之出现。云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。简单来说，云计算就是将所有资源进过计算、转换和存储，形成一个巨型的云端网络数据存储平台，利用此平台可以完成各种存储和运算任务，将SVM算法和云平台结合，可以更好的提高海量图像识别检索效率。

发明内容

本发明的目的是为了解决现有的SVM图像识别方法检索效率低的问题，而提出一种基于云平台下SVM图像识别系统及方法。

一种基于云平台下SVM图像识别系统，云平台主要由三部分构成：文件系统、数据库、分布式并行计算；在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现；

作为存储和计算的处理平台，云平台处理的核心部分还是分布式文件系统以及并行处理；优越的硬件系统也使该平台体现出了可扩展、廉价、高容错、高效稳定等特点；云平台结构完善，不需要进行改动即可直接进行存储和计算的扩展，可扩展性是云平台的关键属性。

一种基于云平台下SVM图像识别方法，在训练数据集中找到决策函数对应的分类进行分析，找到数据集的支持向量；所有的支持向量都具有稀疏性的特点，它们在数据向量集中占据很小的比重，通过利用这样的特征，实现对数据的并行SVM算法；在运算过程中，首先将训练数据进行切分，进行分块化处理；然后对每个切分的数据块分别进行SVM算法求解。

一种基于云平台下SVM图像识别方法，所述的图像识别方法主要通过以下步骤实现：

步骤一、向云平台上传数据信息；向云平台上传数据信息及提交作业，主要从HDFS中获取数据源，根据数据集群配置对数据进行划分处理，也要对作业的图像样本读入进行分类处理，输入该过程过程中所需的节点信息；

步骤二、实现图像样本读入的操作过程；将储存在HDFS中的图像样本读入系统，同时转换block中的数据样本的参数类型。转换之后通过遗传算法进行优化转换的组合参数；所有准备工作之后，进行svm_train函数的调入，进行样本训练处理，从而得到数据的支持向量即<key/value>形式的支持向量；最后处理结果等待传入Reduce的操作过程。

步骤三、实现数据形式分类排序的操作过程；把图像样本读入所转换的数据形式<key/value>进行分类排序；

步骤四、实现对SVM参数优化；支持向量机SVM进行参数优化时，可以对存储的数据进行提取，也可以对优化后的数据进行实时更新，确保可以凭借记忆来记录参数选择过程，同时也可对参数进行调整，减小结果误差。

本发明的有益效果为：

1)决策树SVM不存在划分盲区，分类精度高、分类准确；

2)决策树SVM构造分类器数量少，对于N个分类事例，只需构造N-1个分类器；

3)随着分类层次的递增，训练样本数量和支持向量数量都在减少，大大减少了训练时间；

4)采用决策树进行分类时，单一训练样本不需要通过所有分类器，减少了分类时间

附图说明

图1为本发明方法的流程图；

具体实施方式

具体实施方式一：

本实施方式的一种基于云平台下SVM图像识别系统，云平台主要由三部分构成：文件系统、数据库、分布式并行计算；在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现；

作为存储和计算的处理平台，云平台处理的核心部分还是分布式文件系统以及并行处理。优越的硬件系统也使该平台体现出了可扩展、廉价、高容错、高效稳定等特点；云平台结构完善，不需要进行改动即可直接进行存储和计算的扩展，可扩展性是云平台的关键属性。

具体实施方式二：

本实施方式的一种基于云平台下SVM图像识别方法，SVM方法训练样本数据量逐步增大，而且训练样本的时间还出现了指数上升的趋势，在单机模式下进行仍然十分困难。这也是训练样本规模增大带来的问题。为了解决这个问题，使SVM算法的训练速度加快，本发明对基于云平台的并行运算SVM方法进行研究，使得运算时间得到了进一步缩短。SVM算法的主要思想是在训练数据集中找到决策函数对应的分类进行分析，找到数据集的支持向量；所有的支持向量都具有稀疏性的特点，它们在数据向量集中占据很小的比重，通过利用这样的特征，实现对数据的并行SVM算法；在运算过程中，首先将训练数据进行切分，进行分块化处理；然后对每个切分的数据块分别进行SVM算法求解，以此来达到缩短求解时间的目的。

具体实施方式三：

与具体实施方式二不同的是，本实施方式的一种基于云平台下SVM图像识别方法，所述的图像识别方法主要通过以下步骤实现：

步骤一、向云平台上传数据信息。向云平台上传数据信息及提交作业，主要从HDFS中获取数据源，根据数据集群配置对数据进行划分处理，也要对作业的图像样本读入进行分类处理，输入该过程过程中所需的节点信息。

步骤二、实现图像样本读入的操作过程。将储存在HDFS中的图像样本读入系统，同时转换block中的数据样本的参数类型。转换之后通过遗传算法进行优化转换的组合参数。所有准备工作之后，进行svm_train函数的调入，进行样本训练处理，从而得到数据的支持向量即<key/value>形式的支持向量。最后处理结果等待传入Reduce的操作过程。

步骤三、实现数据形式分类排序的操作过程。把图像样本读入所转换的数据形式<key/value>进行分类排序。

步骤四、实现对SVM参数优化。支持向量机SVM进行参数优化时，可以对存储的数据进行提取，也可以对优化后的数据进行实时更新，确保可以凭借记忆来记录参数选择过程，同时也可对参数进行调整，减小结果误差。

具体实施方式四：

与具体实施方式三不同的是，本实施方式的一种基于云平台下SVM图像识别方法，所述的步骤四中，支持向量机SVM进行参数优化的过程具体为：

SVM分类方法的优点是不需要海量的训练样本来对训练模型进行训练，而缺点是其惩罚因子(C和ε等)需要依靠建模人员的经验来选取，因此其分类性能具有较大的随机性。采用退火算法对支持向量机的参数进行优化选择，以提高决策树SVM分类方法的分类性能。

退火算法在本质上是随机寻优算法的一种，它是以蒙特卡罗迭代求解方法为基础发展而来的。其根本原理与金属退火原理较为相似。运用该算法对SVM参数优化的详细过程如下：

步骤四1)、定义初始参数，确定支持向量机中ε、C和σ等参数的取值范围：ε∈[0，1]，C∈[0，10⁶]，σ∈[0，1]；定义计数变量m和i，并赋初值为0；

步骤四2)、对支持向量机进行参数优化；

步骤四3)、求解最优解；

如果f(Xⁱ⁺¹)＜f_opt，则使optXⁱ⁺¹＝X_opt，f(Xⁱ⁺¹)＝f_opt，m＝0；

否则使m＝m+1；其中，f(Xⁱ⁺¹)表示函数取Xⁱ⁺¹时刻的值，f_opt表示当前最优解；

步骤四4)、判断随机抽样的稳定性，设检验抽样稳定性的阈值为N_r，

如果m＝N_r，则使i＝i+1，并重新进行2)；

否则使m＝0；

步骤四5)、判断停止条件；

如果f_opt＜k时，温度为T_k，则使j＝j+1；

否则使j＝0；

设j的阈值为I，检验精度为ε，如果j≥I或f_opt＜ε，则停止；

否则进行步骤四6)；

步骤四6)、确定方案；如果则按照T_k+1＝T₀/(1+ΔN_fc)方式结果进行，其中，为某一设定值，N_fc为模拟目标函数的调用次数；否则按照T_k+1＝r_TT_K方式结果进行，r_T取值为0＜r_T＜1。

Claims

1.一种基于云平台下SVM图像识别系统，其特征在于：云平台主要由三部分构成：文件系统、数据库、分布式并行计算；在云平台中最主要的运算和处理部分主要通过分布式文件管理系统和并行处理两个关键技术实现；

2.一种利用上述基于云平台下SVM图像识别系统进行的图像识别方法，其特征在于：在训练数据集中找到决策函数对应的分类进行分析，找到数据集的支持向量；所有的支持向量都具有稀疏性的特点，它们在数据向量集中占据很小的比重，通过利用这样的特征，实现对数据的并行SVM算法；在运算过程中，首先将训练数据进行切分，进行分块化处理；然后对每个切分的数据块分别进行SVM算法求解。

3.根据权利要求2所述的一种基于云平台下SVM图像识别方法，其特征在于：所述的图像识别方法主要通过以下步骤实现：

步骤二、实现图像样本读入的操作过程；将储存在HDFS中的图像样本读入系统，同时转换block中的数据样本的参数类型；转换之后通过遗传算法进行优化转换的组合参数；所有准备工作之后，进行svm_train函数的调入，进行样本训练处理，从而得到数据的支持向量即<key/value>形式的支持向量；最后处理结果等待传入Reduce的操作过程；

4.根据权利要求3所述的一种基于云平台下SVM图像识别方法，其特征在于：所述的步骤四中，支持向量机SVM进行参数优化的过程具体为：

SVM分类方法的优点是不需要海量的训练样本来对训练模型进行训练，采用退火算法对支持向量机的参数进行优化选择，以提高决策树SVM分类方法的分类性能；退火算法在本质上是随机寻优算法的一种，它是以蒙特卡罗迭代求解方法为基础发展而来的；其根本原理与金属退火原理较为相似；运用该算法对SVM参数优化的详细过程如下：