CN107239787A - 一种利用多来源数据具有隐私保护功能的图象分类方法 - Google Patents

一种利用多来源数据具有隐私保护功能的图象分类方法 Download PDF

Info

Publication number
CN107239787A
CN107239787A CN201610188948.3A CN201610188948A CN107239787A CN 107239787 A CN107239787 A CN 107239787A CN 201610188948 A CN201610188948 A CN 201610188948A CN 107239787 A CN107239787 A CN 107239787A
Authority
CN
China
Prior art keywords
view
image
grader
outcome
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610188948.3A
Other languages
English (en)
Inventor
詹德川
叶翰嘉
储醉
姜�远
周志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610188948.3A priority Critical patent/CN107239787A/zh
Publication of CN107239787A publication Critical patent/CN107239787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明公开了一种利用多来源数据具有隐私保护功能的图象分类方法,首先针对图象收集不同类型的特征属性,将每一组特征看作一个视图,每一个视图上训练一个分类器,对图象的结果进行预测,要求在有标记数据上预测的结果和真实的结果相同;在之后的训练过程中,要求不同视图的预测结果尽可能相近,使得预测性能强的视图能够辅助其它的视图,从而提升每一个视图以及综合的分类结果;最后利用在迭代训练过程中得到的分类器在每一个视图上进行图象分类。本发明所提供的方法实施过程中能够充分利用有标记数据和未标记数据上不同数据源的多种特征属性,适合数据源很多的情况,同时在整个训练过程中能够确保每一个数据源的特征属性不被其它数据源所获取。

Description

一种利用多来源数据具有隐私保护功能的图象分类方法
技术领域
本发明涉及图象特征抽取、应用技术,图象分类技术,特别涉及一种基于从图象抽取多组特征之间关系的图象识别方法以及保护图象具体特征提取方法的隐私保护技术。
背景技术
目前,随着多媒体技术的发展和智能设备的普及,图象信息的获取日益便捷,同时,对于图象的分类需求也日益提高,如使用只能手机拍照之后,需要对照片进行分类;机器人对物体进行识别时,也会用到图像识别技术;在网络搜索图象时也有相关技术的需求。
目前图象分类的流程主要是先针对图象提取特征,之后使用某些分类器进行分类。对于图象进行标记十分昂贵,需要花费大量的人力资源,而从互联网上获取图象十分便捷,但是获取到的都是没有标记的图象。对于一幅图象,可以有多种不同类型的特征属性集合:如可以使用不同图象特征提取方法对图象进行特征抽取,每一种方法抽取到的特征构成一个属性集;网络上一幅图象往往配有文字、视频等其它多媒体资源,从这些附带的资源中也可以提取出特征;智能手机配备多个传感器,使用手机拍一张照片,其它传感器可以提供时间、温度、光照强度等信息,这些信息也可以辅助图象的分类。传统的方法一方面需要获取有标记的图象进行分类器的训练,一方面依赖于特定的特征,无法较好地利用未标记图象和多组不同的图象特征属性集。
图象分类往往也是多个公司、研究组织的共同需求。不同的公司或者研究组织会针对其获取的数据使用他们自己的方法提取特征,之后根据他们提取的特征进行分类器的训练。将多个公司(组织)的特征进行结合,无疑可以得到更好的特征,但是各组特征涉及多个公司(组织)的隐私信息,如提取特征的具体技术,这些往往不适合和他人共享,因此需要一种具有隐私保护的利用不同特征进行图象分类的方法。
发明内容:
发明目的:目前关于图象分类的算法往往依赖于有标记的图象,或者只针对图象的某一类属性集,同时已有的方法几乎没有考虑过在“竞争-合作”的场景下对每一个数据来源的特征进行隐私保护,针对上述问题,本发明提出一种利用多来源数据具有隐私保护功能的图象分类方法,将图像的多个特征集合看作多个视图,通过利用视图之间的相关性提升图象分类的性能。
技术方案:一种利用多来源数据具有隐私保护功能的图象分类方法,首先针对图象收集(提取)不同类型的特征属性,将每一组特征看作一个视图,每一个视图上训练一个分类器,对图象的结果进行预测,要求在有标记数据上预测的结果和真实的结果相同;在之后的训练过程中,要求不同视图的预测结果尽可能相近,使得预测性能强的视图能够辅助其它的视图,从而提升每一个视图以及综合的分类结果;最后利用在迭代训练过程中得到的分类器在每一个视图上进行图象分类。本发明方法可分为图象分类模型训练步骤和图象分类模型分类步骤,具体如下:
所述图象分类模型的训练步骤具体为:
步骤100,从不同的K个数据源获取图象特征属性集,将每一个属性集看作一个视图;
步骤101,在每一个视图上利用本视图的特征属性训练分类器,得到每一个视图上对所有样本的预测结果,训练过程中要求在有标记样本上每一个分类器的预测结果和真实标记相同;
步骤102,将每个视图对所有图象的预测结果收集,拼接成一个矩阵(APM),优化该矩阵的秩,使每一个视图的预测结果尽可能一致;
步骤103,判断每一个视图预测拼接构成的矩阵秩是否满足要求,如果否,则转入步骤101,继续分类器的训练;如果是,则通过该矩阵重构分类器,即每一个视图最终的预测结果根据该视图上的特征构造出针对该视图的分类器Wk确定。
所述图象分类模型的分类步骤具体为:
步骤200,从不同的K个数据源获取图象特征属性集,将每一个属性集看作一个视图;
步骤201,利用训练过程中在每一个视图上得到的分类器Wk对每一个视图上的图象进行分类;
步骤202,判断是否需要综合每一个视图进行图象分类,如果否,则获得每一个视图上的分类结果;如果是,则收集每一个视图的分类结果,将其进行融合,得到综合的分类结果。
所述步骤100从不同的K个数据源获取图象特征属性集的方法包括使用不同的特征提取方法对图象进行特征提取、使用网络上的附带信息作为其它数据源和从真实存在的多数据源(如多传感器)提取特征等。
所述步骤101在每一个视图上利用本视图的特征属性训练分类器具体方法为:在每一个视图上构建线性分类器Wk,分类器的维度同时取决于图象类别的数目C和该视图特征属性集的维度Dk,使用最小二乘方法在有标记样本上使得分类器的预测结果和真实的结果尽可能相似,具体公式如下:
其中,bk为每个视图上的分类偏置,γ为参数,Fk是分类器的输出。
所述步骤102使每一个视图的预测结果尽可能一致的具体方法为:在每一个视图上对训练集中所有图象进行类别的预测,得到预测结果Fk,其维度同时取决于训练集中图象的数目和类别数目,将所有视图的预测结果拼接,得到一个扩展的矩阵表示APM,使各个视图的预测结果一致即优化APM的秩,使其尽可能低秩。优化目标及使得APM的秩为C-1,和理想情况下的秩相同。
所述优化APM的秩方法为优化APM的截断核范数的方法,包括加速近端梯度方法和交替方向乘子法,具体优化方法如下:
其中,Lk为最小二乘损失函数,Fk是第k个视图上分类器的输出,||F||r是扩展矩阵APM的截断核范数,集合D为可用分类器集合,在本申请中D为带偏置的线性分类器集合。
所述步骤201利用训练过程中在每一个视图上得到的分类器Wk对每一个视图上的图象进行分类的具体方法为:将该视图上某一幅图象的特征和Wk做内积运算,得到一个长为C的向量,其中每一个元素表示分类到每一个类的置信度,图象分类过程即把当前图象分类为置信度最高的一类。
所述步骤202将各类别的预测结果融合,具体是指使用某些集成方法(如多个预测结果投票)得到最终的预测。
有益效果:与现有技术相比,本发明所提供的利用多数具有的图象分类方法,实施过程中能够充分利用有标记数据和未标记数据上不同数据源的多种特征属性,适合数据源很多的情况,同时在整个训练过程中能够确保每一个数据源的特征属性不被其它数据源所获取。
附图说明
图1是本发明的图象分类模型训练阶段的工作流程图;
图2是本发明的图象分类模型分类阶段的工作流程图;
图3是本发明的训练图象分类模型M的工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图象分类模型训练阶段的工作流程如图1所示。图象分类模型在训练阶段需要收集一定数量的带标记和大量不带标记的图象用于训练,具体来说,以公司之间“竞争-合作”为例,首先不同的公司确定对于同一个任务(对于某一类型的图象分类任务)进行协作,从网络上收集大量数据(步骤10);然后不同公司确定针对相同一部分的图象进行模型的训练(可以某一方搜集图象然后共享,或者由各公司都从同一数据源获取图象,步骤11);各个公司使用其自己的方法进行对搜集到的图象进行特征提取(步骤12a),并对同一批图象进行类别的标注(步骤12b)。判断各公司搜集数据、对数据的特征提取是否完成(步骤13),如果否,等待所有公司数据准备完成;如果是,则各公司使用搜集到的数据以及提取到的特征进行模型训练(步骤14),最终得到模型M(步骤15),包含每一个类别的分类器Wk,用于每一个公司的图象分类。
图象分类模型分类工作阶段的工作流程如图2所示。首先各个公司获取训练过程中得到的针对每一个公司(每个视图)的图象分类器Wk(步骤16),然后判定各公司之间是否存在进一步协作(步骤17),即是否需要综合多个公司的预测结果提供最终的图象分类结果,如果是,则将图象分发给各个公司或各公司收集同一批图象(步骤18b),各公司使用自己的对应的特征提取技术对该图象提取特征(步骤19b),之后使用各公司的分类器进行判定,得到预测结果(步骤20b),最后将这些预测结果进行集成,得到最终的综合的预测结果(步骤21)。如果各公司独立分类,则各个公司分别收集新的数据,这里不要求不同公司搜集的图象相同,也不要求不同公司要同步操作(步骤18a);对于每一个公司,每当搜集到一个(一批)图象,使用训练过程中同样的方法对该(批)图象进行特征提取,得到图象的特征(步骤19a);最后,公司使用自己的分类器对图像特征进行类别判定,分类结果为置信度最高的一个类别(步骤20a)。注:在图象分类过程中,各个公司对于数据独立处理,但要保证使用训练过程中相同的方式对图象提取特征。
训练图象分类模型M的工作流程如图3所示。首先各公司使用各自的特征提取方法对图象进行特征提取,获取到的数据记为X1,X2,…,Xk(步骤141);然后每个公司在有标记的图象上分别训练一个线性分类器W1,W2,…,Wk(步骤142);各公司使用训练好的分类器对所有样本的标记进行预测,得到的预测结果分别为F1,F2,…,Fk(步骤143);将各个公司的预测结果集中到一个中间结点,拼接成一个矩阵(步骤144),在中间结点对该矩阵进行优化,得到更好的预测结果矩阵APM,通过优化该矩阵的秩实现(步骤145);将更新之后的预测结果分别传给各个公司(步骤146);判断各公司的预测结果是否足够好(步骤147),如果否,则返回步骤,继续训练;如果是,则停止,各公司通过预测结果Fk更新分类器Wk,各公司得到各自的分类器(步骤148)。注:在训练过程中,中心结点只获取各个公司针对图象的预测结果,不需要获取各个公司提取到的图象特征,保护了各公司图象提取技术的隐私性。在实现中,通过优化APM的秩来对预测结果更新,使用优化APM的截断核范数的方法实现,具体有加速近端梯度方法和交替方向乘子法等。

Claims (7)

1.一种利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:包括图象分类模型训练和图象分类模型分类两个步骤;
所述图像分类模型的训练步骤具体为:
步骤100,从不同的K个数据源获取图象特征属性集,将每一个属性集看作一个视图;
步骤101,在每一个视图上利用本视图的特征属性训练分类器,得到每一个视图上对所有样本的预测结果,训练过程中要求在有标记样本上每一个分类器的预测结果和真实标记相同;
步骤102,将每个视图对所有图象的预测结果收集,拼接成一个矩阵,优化该矩阵的秩,使每一个视图上的预测结果尽可能一致;
步骤103,判断每一个视图预测拼接构成的矩阵秩是否满足要求,如果否,则转入步骤101,继续分类器的训练;如果是,则通过该矩阵重构分类器,即每一个视图最终的预测结果根据该视图上的特征构造出针对该视图的分类器Wk确定;
所述图象分类模型的分类步骤具体为:
步骤200,从不同的K个数据源获取图象特征属性集,将每一个属性集看作一个视图;
步骤201,利用训练过程中在每一个视图上得到的分类器Wk对每一个视图上的图象进行分类;
步骤202,判断是否需要综合每一个视图进行图象分类,如果否,则获得每一个视图上的分类结果;如果是,则收集每一个视图的分类结果,将其进行融合,得到综合的分类结果。
2.根据权利要求1所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述步骤100从不同的K个数据源获取图象特征属性集的方法包括使用不同的特征提取方法对图象进行特征提取、使用网络上的附带信息作为其它数据源和从真实存在的多数据源提取特征。
3.根据权利要求1所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述步骤101在每一个视图上利用本视图的特征属性训练分类器的具体方法为:在每一个视图上构建线性分类器Wk,使用类似最小二乘方法在有标记样本上使得分类器的预测结果和真实的结果尽可能相似,具体公式如下:
其中,bk为每个视图上的分类偏置,γ为参数,Fk是分类器的输出。
4.根据权利要求1所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述步骤102使每一个视图的预测结果尽可能一致具体方法为:在每一个视图上对训练集中所有图象进行类别的预测,得到预测结果Fk,将所有视图的预测结果拼接,得到一个扩展的矩阵表示APM,优化APM的秩,使得APM的秩为C-1,其中C为图象类别的数目。
5.根据权利要求4所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述优化APM的秩方法为优化APM的截断核范数的方法,包括加速近端梯度方法和交替方向乘子法,具体优化方法如下:
其中,Lk为最小二乘损失函数,Fk是第k个视图上分类器的输出,||F||r是扩展矩阵APM的截断核范数,集合D为可用分类器集合。
6.根据权利要求1所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述步骤201利用训练过程中在每一个视图上得到的分类器对每一个视图上的图象进行分类的具体方法为:将该视图上某一幅图象的特征和分类器Wk做内积运算,得到一个长为C的向量,其中每一个元素表示分类到每一个类的置信度,C表示图像类别的数目,图象分类过程即把当前图象分类为置信度最高的一类。
7.根据权利要求1所述的利用多来源数据具有隐私保护功能的图象分类方法,其特征在于:所述步骤202将各类别的预测结果融合的具体方法是使用投票的方法得到最终的结果。
CN201610188948.3A 2016-03-29 2016-03-29 一种利用多来源数据具有隐私保护功能的图象分类方法 Pending CN107239787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610188948.3A CN107239787A (zh) 2016-03-29 2016-03-29 一种利用多来源数据具有隐私保护功能的图象分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610188948.3A CN107239787A (zh) 2016-03-29 2016-03-29 一种利用多来源数据具有隐私保护功能的图象分类方法

Publications (1)

Publication Number Publication Date
CN107239787A true CN107239787A (zh) 2017-10-10

Family

ID=59983945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610188948.3A Pending CN107239787A (zh) 2016-03-29 2016-03-29 一种利用多来源数据具有隐私保护功能的图象分类方法

Country Status (1)

Country Link
CN (1) CN107239787A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890978A (zh) * 2019-11-06 2020-03-17 南京大学 基于模型重用的带隐私保护的跨区域通信质量预测方法
CN111368337A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 保护隐私的样本生成模型构建、仿真样本生成方法及装置
CN111598120A (zh) * 2020-03-31 2020-08-28 宁波吉利汽车研究开发有限公司 数据标注方法、设备及装置
CN112068844A (zh) * 2020-09-09 2020-12-11 西安交通大学 面向隐私保护政策的app隐私数据一致性行为分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750345A (zh) * 2012-06-07 2012-10-24 山东师范大学 通过网页多视图数据关联组合识别垃圾网页的方法
CN104318459A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于多模态学习的自动化市场分析方法
CN104809468A (zh) * 2015-04-20 2015-07-29 东南大学 一种基于不定核的多视图分类方法
CN104834746A (zh) * 2015-05-23 2015-08-12 华东交通大学 基于图形处理单元的异构特征时序数据演化聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750345A (zh) * 2012-06-07 2012-10-24 山东师范大学 通过网页多视图数据关联组合识别垃圾网页的方法
CN104318459A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于多模态学习的自动化市场分析方法
CN104809468A (zh) * 2015-04-20 2015-07-29 东南大学 一种基于不定核的多视图分类方法
CN104834746A (zh) * 2015-05-23 2015-08-12 华东交通大学 基于图形处理单元的异构特征时序数据演化聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHISHEK KUMAR ET AL.: "A Co-training Approach for Multi-view Spectral Clustering", 《PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING(ICML-11)》 *
杨琬琪: "多视图特征选择与降维方法及其应用研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890978A (zh) * 2019-11-06 2020-03-17 南京大学 基于模型重用的带隐私保护的跨区域通信质量预测方法
CN110890978B (zh) * 2019-11-06 2021-06-22 南京大学 基于模型重用的带隐私保护的跨区域通信质量预测方法
CN111598120A (zh) * 2020-03-31 2020-08-28 宁波吉利汽车研究开发有限公司 数据标注方法、设备及装置
CN111368337A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 保护隐私的样本生成模型构建、仿真样本生成方法及装置
CN112068844A (zh) * 2020-09-09 2020-12-11 西安交通大学 面向隐私保护政策的app隐私数据一致性行为分析方法

Similar Documents

Publication Publication Date Title
Hazirbas et al. Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture
CN104035997B (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN104063683B (zh) 一种基于人脸识别的表情输入方法和装置
CN107704877A (zh) 一种基于深度学习的图像隐私感知方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
CN107239787A (zh) 一种利用多来源数据具有隐私保护功能的图象分类方法
Cheng et al. Large-scale visible watermark detection and removal with deep convolutional networks
CN113076994A (zh) 一种开集域自适应图像分类方法及系统
CN105956631A (zh) 一种面向电子图库的在线渐进式图像分类方法
CN110059539A (zh) 一种基于图像分割的自然场景文本位置检测方法
CN111597870A (zh) 一种基于注意力机制与多任务学习的人体属性识别方法
CN104951791A (zh) 数据分类方法和装置
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN112819510A (zh) 基于服饰多属性识别的时尚趋势预测方法、系统以及设备
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
Rahman et al. SMIFD: novel social media image forgery detection database
Thakur et al. Geometrical attack classification using DCNN and forgery localization using machine learning
CN107169030A (zh) 一种身份核查一体化的方法和系统
CN113449808A (zh) 多源图文信息分类方法及其相应的装置、设备、介质
Chakraborty et al. Discovering tampered image in social media using ELA and deep learning
CN106023079A (zh) 联合局部与全局特性的两阶段人脸画像生成方法
Shinde et al. Study on Fruit Recognization Using Image Processing
CN111062484A (zh) 基于多任务学习的数据集选取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010

RJ01 Rejection of invention patent application after publication