CN107392256A

CN107392256A - 一种图像识别方法及系统

Info

Publication number: CN107392256A
Application number: CN201710639261.1A
Authority: CN
Inventors: 黎启祥; 肖燕珊; 刘波; 郝志峰; 阮奕邦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-11-24

Abstract

本申请公开了一种图像识别方法及系统，包括：获取图像信息，提取图像的特征数据；对特征数据进行标记，转换成多示例的表示形式；通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；训练得到多示例多任务图像识别分类器，对图像进行识别分类。本申请公开的上述图像识别方法，利用给多示例加权包来降低图像识别中噪声对分类结果的影响，同时提高分类精度；并且算法扩展到多任务环境中，利用多任务环境的优势，能有效的利用图像之间的关联性，进一步提高识别准确率。

Description

一种图像识别方法及系统

技术领域

本发明涉及图像识别技术领域，特别是涉及一种图像识别方法及系统。

背景技术

目前，随着互联网的快速发展，网络数据越来越庞大，尤其图像数据呈几何倍增长。因此，如何合理而有效的利用这些数据成为了我们的思考。同时，随着机器学习的极大发展，在线图像识别，例如手写数字，人脸识别等，也得到了广泛的应用。

一方面，在应用的过程中，由于手写设备的局限，拍摄设备的误差，数据的环境和传输过程等不确定因素的影响，获得的图像经常会包含噪声数据，数据的有效性有所欠缺，基于多示例的支持向量机无法进行有效的学习和表达，从而降低了图像的识别精度，严重影响到图像识别的广泛应用；另一方面，由于图像识别应用中，由于获取的图像数据不充足，而这些图像又比较相似而有潜在的联系时，基于单任务多示例的支持向量机无法更加深入了利用图像之间的联系，从而影响识别的效率，降低了图像识别精度使得图像的识别的准确率不高。

发明内容

有鉴于此，本发明的目的在于提供一种图像识别方法及系统，可以降低图像识别中噪声对分类结果的影响，并且提高分类精度和识别准确率。其具体方案如下：

一种图像识别方法，包括：

获取图像信息，提取所述图像的特征数据；

对所述特征数据进行标记，转换成多示例的表示形式；

通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；

训练得到多示例多任务图像识别分类器，对所述图像进行识别分类。

优选地，在本发明实施例提供的上述图像识别方法中，通过多示例加权包进行机器学习，具体包括：

对所述包示例中的噪声数据进行处理，赋予所述包示例不同的权值，利用迭代的训练分类器，训练示例权值，改进包表示。

优选地，在本发明实施例提供的上述图像识别方法中，进行多任务学习环境的扩展，具体包括：

利用多任务中的人物中共享图像的信息，确定所述图像之间的关联性。

优选地，在本发明实施例提供的上述图像识别方法中，对所述特征数据进行标记，转换成多示例的表示形式，具体包括：

将所述特征数据转换为矩阵数据；

假设存在T个分类任务，则第t个分类任务的数据集表示为D_t，包含|N_t|个负多示例包和|P_t|个正多示例包，此时

D_t＝N_t∪P_t；

其中，N_t表示第t个分类任务的负示例包；P_t表示第t个分类任务的正示例包；B_it表示负多示例包，由m个示例组成；B_jt表示正多示例包，由m个示例组成；

N_t对应的标签集为Y_it∈{-1，+1}表示第t个分类任务中的负多示例包B_it所关联的标签；P_t对应的标签集为Y_jt∈{-1，+1}表示为第t个分类任务中的正多示例包B_jt所关联的标签。

优选地，在本发明实施例提供的上述图像识别方法中，下述公式为加权的公式：

y_it ^Z＝-1；

y_jt ^Z＝+1；

其中，表示第k次负多示例包迭代的权值；表示第k次正多示例包迭代的权值；表示负多示例包迭代的初始化权值；表示正多示例包迭代的初始化权值；y_it ^Z表示负示例包中所有示例标签；y_jtZ表示负示例包中所有示例标签。

优选地，在本发明实施例提供的上述图像识别方法中，利用多任务中的人物中共享图像的信息，确定所述图像之间的关联性，具体包括：

构建第t个分类任务中正多示例包和负多示例包所关联的拉格朗日乘子列向量：

其中，α_it表示第t个分类任务中负多示例包n_it所关联的拉格朗日乘子，共有|N_t|个；β_jt表示第t个分类任务中正多示例包p_jt所关联的拉格朗日乘子，共有|P_t|个。

优选地，在本发明实施例提供的上述图像识别方法中，利用多任务中的人物中共享图像的信息，确定图像间的关联性，具体还包括：

构建T个分类任务中的所有多示例包构成的矩阵:

其中,表示第t个分类任务所有负多示例包构成的包矩阵；表示第t个分类任务所有正多示例包构成的包矩阵；φ(n_it)表示负多示例包n_it在多任务学习环境下的映射；φ(p_jt)表示正多示例包p_jt在多任务学习环境下的映射。

本发明实施例还提供了一种图像识别系统，包括：

数据提取模块，用于获取图像信息，提取所述图像的特征数据；

数据转换模块，用于对所述特征数据进行标记，转换成多示例的表示形式；

加权包学习模块，用于通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；

分类器获取模块，用于训练得到多示例多任务图像识别分类器，对所述图像进行识别分类

本发明所提供的一种图像识别方法及系统，包括：获取图像信息，提取图像的特征数据；对特征数据进行标记，转换成多示例的表示形式；通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；训练得到多示例多任务图像识别分类器，对图像进行识别分类。本发明公开的上述图像识别方法，利用给多示例加权包来降低图像识别中噪声对分类结果的影响，同时提高分类精度；并且算法扩展到多任务环境中，利用多任务环境的优势，能有效的利用图像之间的关联性，进一步提高识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的图像识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种图像识别方法，如图1所示，包括以下步骤：

S101、获取图像信息，提取图像的特征数据；

S102、对特征数据进行标记，转换成多示例的表示形式；

S103、通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；

S104、训练得到多示例多任务图像识别分类器，对图像进行识别分类。

在本发明实施例提供的上述图像识别方法中，首先获取图像信息，提取图像的特征数据；然后对特征数据进行标记，转换成多示例的表示形式；之后通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；最后训练得到多示例多任务图像识别分类器，对图像进行识别分类。这种图像识别方法，利用给多示例加权包来降低图像识别中噪声对分类结果的影响，同时提高分类精度；并且算法扩展到多任务环境中，利用多任务环境的优势，能有效的利用图像之间的关联性，进一步提高识别准确率。

需要说明的是，多示例加权包(即训练集)由若干个包组成，每个包包含若干个示例，包示例标签未知，现有技术中正包中不仅存在正示例，也可能包含负示例噪声，会影响分类效果；而本发明通过多示例加权包进行机器学习可以实现降噪。

在具体实施时，在本发明实施例提供的上述图像识别方法中，步骤S103通过多示例加权包进行机器学习，具体可以包括：

对包示例中的噪声数据进行处理，赋予包示例不同的权值，利用迭代的训练分类器，训练示例权值，改进包表示。

这样针对包示例存在噪声的情况，提出赋予包示例不同的权值，不断更新分类器，调整权值，可以降低噪声对分类结果影响，提高分类精度。

在具体实施时，在本发明实施例提供的上述图像识别方法中，为了进一步提高图像识别精度，步骤S103进行多任务学习环境的扩展，具体可以包括：

利用多任务中的人物中共享图像的信息，确定图像之间的关联性。

在具体实施时，在本发明实施例提供的上述图像识别方法中，步骤S102对特征数据进行标记，转换成多示例的表示形式，具体可以包括：

将特征数据转换为矩阵数据；

D_t＝N_t∪P_t；

在具体实施时，在本发明实施例提供的上述图像识别方法中，下述公式为加权的公式：

y_it ^Z＝-1；

y_jt ^Z＝+1；

其中，表示第k次负多示例包迭代的权值；表示第k次正多示例包迭代的权值；表示负多示例包迭代的初始化权值；表示正多示例包迭代的初始化权值；y_it ^Z表示负示例包中所有示例标签；y_jt ^Z表示负示例包中所有示例标签。

在具体实施时，在本发明实施例提供的上述图像识别方法中，利用多任务中的人物中共享图像的信息，确定图像之间的关联性，具体可以包括：

之后，构建T个分类任务中的所有多示例包构成的矩阵:

下面以一个具体的实例详细的说明本发明实施例提供的图像识别方法：

步骤一、初始化第t个分类任务的训练集，设置负多示例包中所有示例标签y_it ^Z＝-1，示例初始权值此时正多示例包中的所有示例标签y_jt ^Z＝+1，示例初始权值此时ε＝0.01，任务的完成程度Ω＝{0,…,0,…,0}，k＝1迭代开始；

步骤二、计算第t个分类任务中训练集示例的权值和其中，正包迭代方式负包迭代方式

步骤三、k＝1时，构建向量n_it和p_jt，否则更新n_it和p_jt的值，n_it表示负多示例包，p_jt是正多示例包，

步骤四、构建第t个分类任务中正负多示例包所关联的拉格朗日乘子列向量α_t和β_t它们分别表示为和其中，α_it为第t个分类任务中负多示例包n_it所关联的拉格朗日乘子，共有|N_t|个，β_jt为第t个分类任务中正多示例包p_jt所关联的拉格朗日乘子，共有|P_t|个；

步骤五、构建T个分类任务中的所有多示例包构成的矩阵:其中，为第t个分类任务所有负多示例包构成的包矩阵和为第t个分类任务所有正多示例包构成的包矩阵。其中，为负多示例包n_it在多任务学习环境下的映射，为正多示例包p_jt在多任务学习环境下的映射；

步骤六、参数向量G_t＝[H^T,L^T]^T，其中H＝[1,…,1,…,1]^T是长度为|N_t|的列向量，而为控制变量构成的列向量；

步骤七、因此，提出了如下优化问题：

max imize：

subject to:

0≤γ_st≤C₁,1≤s≤|N_t|

0≤γ_st≤C₂,|N_t|+1≤s≤|N_t|+|P_t|

公式(1)基本实现了对多示例包中的示例赋予权值，并且进行多次迭代更新权值，达到降低噪声的影响的目的，而且把算法扩展到多任务学习环境中，利用任务之间潜在的关联性，提高算法的预测性能；

步骤八、计算第t个分类任务的J_kt，具体步骤如下：

输入：T个任务数据集χ₁,χ₂,…,χ_T，参数γ₀和γ₁，惩罚系数C，精度ε，任务完成程度参数Ω＝{Ω₁,Ω₂,…,Ω_T}，迭代次数k；

输出：T个任务的分类器：f₁,f₂,…,f_T，T个分类任务中测试包的标签Y^T；

整个步骤简化描述下：

1)初始化第t个分类任务的训练集，设置负多示例包中所有示例标签y_it ^Z＝-1，示例初始权值正多示例包中的所有示例标签y_jt ^Z＝+1，示例初始权值ε＝0.01，任务的完成程度Ω＝{0,…,0,…,0}，k＝1迭代开始；

2)计算第t个分类任务中训练集示例的权值和

3)k＝1时，构建向量n_it和p_jt，否则更新n_it和p_jt的值；

4)基于数据集χ_t，训练得到第t个分类任务的分类器f_t；

5)计算第t个分类任务的J_kt。若Ω_t＝1则不再迭代此任务，等待其他任务迭代结束；若Ω_t＝0则继续迭代至(J_|k-1|t-J_kt)/J_kt＜ε或者迭代次数达到k时，并设置Ω_t＝1。

6)计算更新第t个分类任务中负多示例包的示例标签y_it ^Z和正多示例包的示例标签y_jt ^Z；

7)k＝k+1并跳转到步骤2；

8)迭代结束，得到每个任务的分类器并且利用该分类器计算得到T个分类任务中测试包的标签Y^T；

至此，完成了本发明实施例提供的上述图像识别方法。

基于同一发明构思，本发明实施例还提供了一种图像识别系统，由于该系统解决问题的原理与前述一种图像识别方法相似，因此该系统的实施可以参见图像识别方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的图像识别系统，具体包括：

数据提取模块，用于获取图像信息，提取图像的特征数据；

数据转换模块，用于对特征数据进行标记，转换成多示例的表示形式；

分类器获取模块，用于训练得到多示例多任务图像识别分类器，对图像进行识别分类。

在本发明实施例提供的上述图像识别系统中，可以对示例加权，降低了噪声示例对分类预测的干扰，并通过扩展到多任务学习环境中，从而弥补了训练数据不足所造成的模型欠拟合问题，降低了噪声数据对训练过程的干扰，并且能够利用多个分类任务间的关联性来进行算法性能的提高。

本发明实施例提供的一种图像识别方法及系统，包括：获取图像信息，提取图像的特征数据；对特征数据进行标记，转换成多示例的表示形式；通过多示例加权包进行机器学习，并进行多任务学习环境的扩展；训练得到多示例多任务图像识别分类器，对图像进行识别分类。本发明公开的上述图像识别方法，利用给多示例加权包来降低图像识别中噪声对分类结果的影响，同时提出赋予包示例不同的权值，不断更新分类器，调整权值，以提高分类精度；并且算法扩展到多任务环境中，利用多任务环境的优势，能有效的利用图像之间的关联性，进一步提高识别准确率。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的图像识别方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像识别方法，其特征在于，包括：

获取图像信息，提取所述图像的特征数据；

对所述特征数据进行标记，转换成多示例的表示形式；

2.根据权利要求1所述的图像识别方法，其特征在于，通过多示例加权包进行机器学习，具体包括：

3.根据权利要求2所述的图像识别方法，其特征在于，进行多任务学习环境的扩展，具体包括：

4.根据权利要求3所述的图像识别方法，其特征在于，对所述特征数据进行标记，转换成多示例的表示形式，具体包括：

将所述特征数据转换为矩阵数据；

D_t＝N_t∪P_t；

5.根据权利要求4所述的图像识别方法，其特征在于，下述公式为加权的公式：

<mrow> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msubsup> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>y</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> <mi>z</mi> </msubsup> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>/</mo> <msup> <mi>&alpha;</mi> <mn>2</mn> </msup> </mrow> </msup> <mo>;</mo> </mrow>

<mrow> <msubsup> <mi>Q</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>Q</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msubsup> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>y</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mi>z</mi> </msubsup> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>/</mo> <msup> <mi>&alpha;</mi> <mn>2</mn> </msup> </mrow> </msup> </mrow>

y_it ^Z＝-1；

y_jt ^Z＝+1；

6.根据权利要求5所述的图像识别方法，其特征在于，利用多任务中的人物中共享图像的信息，确定所述图像之间的关联性，具体包括：

<mrow> <msub> <mi>&alpha;</mi> <mi>t</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>&alpha;</mi> <mrow> <mn>1</mn> <mi>t</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&alpha;</mi> <mrow> <mn>2</mn> <mi>t</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>&alpha;</mi> <mrow> <mrow> <mo>|</mo> <msub> <mi>N</mi> <mi>t</mi> </msub> <mo>|</mo> </mrow> <mi>t</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

<mrow> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </msubsup> <msup> <msub> <mi>Q</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>B</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> <mi>z</mi> </msubsup> <mo>/</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </msubsup> <msup> <msub> <mi>Q</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>;</mo> </mrow>

<mrow> <msub> <mi>p</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>B</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </msubsup> <msubsup> <mi>Q</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <msubsup> <mi>B</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mi>z</mi> </msubsup> <mo>/</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>B</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </msubsup> <msubsup> <mi>Q</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> <mrow> <mi>z</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>;</mo> </mrow>

7.根据权利要求6所述的图像识别方法，其特征在于，利用多任务中的人物中共享图像的信息，确定图像间的关联性，具体还包括：

构建T个分类任务中的所有多示例包构成的矩阵:

8.一种图像识别系统，其特征在于，包括：

分类器获取模块，用于训练得到多示例多任务图像识别分类器，对所述图像进行识别分类。