CN110084141B - 一种基于私有信息的跨领域场景识别方法 - Google Patents

一种基于私有信息的跨领域场景识别方法 Download PDF

Info

Publication number
CN110084141B
CN110084141B CN201910274944.0A CN201910274944A CN110084141B CN 110084141 B CN110084141 B CN 110084141B CN 201910274944 A CN201910274944 A CN 201910274944A CN 110084141 B CN110084141 B CN 110084141B
Authority
CN
China
Prior art keywords
scene
scene image
cross
private information
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910274944.0A
Other languages
English (en)
Other versions
CN110084141A (zh
Inventor
孙宁
张星
李晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910274944.0A priority Critical patent/CN110084141B/zh
Publication of CN110084141A publication Critical patent/CN110084141A/zh
Application granted granted Critical
Publication of CN110084141B publication Critical patent/CN110084141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于私有信息的跨领域场景识别方法,包括如下步骤:获取彩色场景图像和对应的深度场景图像;构建跨领域多通道场景识别模型;将彩色场景图像和深度场景图像同时输入到跨领域多通道场景识别模型中,通过相应的卷积层,池化层,全连接层后生成相应的共享信息特征和私有信息特征;提高共享信息特征和私有信息特征的相关性,融合两类特征,通过归一化层输出场景图像的结果;使用时,将待识别的同类彩色场景图像输入到已训练完成的跨领域多通道场景识别模型中,得到识别结果。本方法利用深度场景图像中的深度信息作为训练场景识别模型时的私有信息,补充彩色场景图像所缺失的特征信息,最终提高了单领域场景识别方法的识别率和鲁棒性。

Description

一种基于私有信息的跨领域场景识别方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于私有信息的跨领域场景识别方法。
背景技术
随着计算机视觉的不断发展,场景识别作为计算机视觉的重要课题之一也广泛应用于许多领域,主要包括大型数据库的图像信息检索、机器人的移动定位与环境交互、安防监控领域的事件检测等。对于训练数据和测试数据样本分布不一致的跨领域的学习模式,通过在训练过程中额外添加辅助信息,可以让模型更加鲁棒,更加有效。这种辅助信息称为私有信息,仅在训练时使用。它往往可以描述图像的重要属性,如标记,文本描述或其他高级信息等。学习使用私有信息模型是由Vapnik和Vashist以支持向量机的形式提出,将私有信息作为预测松弛变量的条件,最后告诉我们哪个样本容易预测,哪个样本很难预测。
在过去的几年,深度神经网络在各种计算机视觉应用上面取得了巨大的成功,出现通过结合私有信息和深度神经网络的优势的更复杂模型。深度信息由于可以提供传统图像所缺失的深度特征,使用深度信息作为网络训练的私有信息进行实验,提高了识别方法的识别率和鲁棒性。然而目前处理深度图像信息时,大部分实验提出了将深度图像编码的方式,利用深度图像所提供的深度信息。这种方法不能包含深度图像中所有的深度信息。因此,需要一种更高鲁棒性的场景识别方法。
发明内容
发明目的:针对现有技术的不足,本发明提出一种基于私有信息的跨领域场景识别方法,充分利用深度场景图像的信息,提高单领域场景识别的识别率和鲁棒性。
技术方案:为了达到以上目的,本发明提出的基于私有信息的跨领域场景识别方法,通过提取深度场景图像中所特有的深度信息,并将此深度信息作为跨领域模型中的私有信息进行利用,从而提高单领域场景识别的识别率和鲁棒性。具体步骤为:
S1、获取彩色场景图像和对应的深度场景图像;
S2、构建基于深度神经网络的跨领域多通道场景识别模型,包括分别用于彩色场景图像和深度场景图像的2个输入通道,42层网络,1个输出通道,其中42层网络包含2个输入通道并行的两路神经网络网络,分别为共享信息卷积神经网络和私有信息卷积神经网络;
S3、将S1所得图像输入跨领域多通道场景识别模型,经过模型中的共享信息卷积神经网络和私有信息卷积神经网络分别得到共享信息特征和私有信息特征;
S4、融合提取出的共享信息特征和私有信息特征,经过归一化层输出场景图像的识别结果,通过优化损失函数提高共享信息特征和私有信息特征的相关性,并得到最优网络参数;
S5、将待识别的彩色场景图像输入到已训练完成的跨领域多通道场景识别模型中,得到识别结果。
其中,步骤S2构建的模型中,每路卷积神经网络均包括:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层,1池化层,3全连接层,输出的维度为4096维,卷积层的卷积核为3*3,池化层为最大池化,池化核为2*2。
所述步骤S3包括:将彩色场景图像和深度场景图像同时输入跨领域多通道场景识别模型中,两路卷积神经网络通过卷积层初步提取特征,池化层提取主要特征,得到彩色场景图像和深度场景图像对应共享信息特征和私有信息特征,之后将共享信息特征和私有信息特征分别通过各自全连接层,分别输出各自的4096维特征信息。
所述步骤S4中提高共享信息特征和私有信息特征的相关性方法为:在两路卷积神经网络对应的池化层,即每路卷积神经网络的第3层、第6层、第10层、第14层、第18层提取出对应输出特征,并将两路对应层的对应输出特征建立回归损失函数,通过不断优化损失函数,达到提高共享信息特征和私有信息特征相关性的优化目标。优化损失函数的方法为:将分类损失值与特征损失值融合得到总损失值,并基于该总损失值进行反向传播,特征融合的方式是拼接融合。
所述步骤S5包括:去掉跨领域场景模型中每路卷积神经网络中的第3层、第6层、第10层、第14层、第18层建立的特征损失函数,将同一彩色场景图像同时输入跨领域识别模型中的两路卷积神经网络,经过卷积层、池化层、全连接层,分别提取出两个网络对应的输出特征并融合,经过归一化层,输出最后的结果,从而得到对单领域场景图像的预测。
有益效果:本发明通过构建多通道跨领域场景识别模型,利用两路卷积神经网络分别提取出共享信息特征和私有信息特征,再利用两路卷积神经网络各对应池化层的相应损失函数,不断提高共享信息特征和私有信息特征的数据相关性,然后融合特征,通过归一化层输出最后的识别结果。本方法利用深度场景图像中的深度信息,并将其作为训练模型时的私有信息,补充彩色场景图像所缺失的特征信息,最终提高了单领域场景识别方法的识别率和鲁棒性。
附图说明
图1为本发明的跨领域场景识别方法流程图;
图2为根据本发明实施例的测试集图像识别流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。应当了解,以下提供的实施例仅是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的技术构思,本发明还可以用许多不同的形式来实施,并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。
请参阅图1,本实施例提供的一种基于私有信息的跨领域场景识别方法,具体步骤为:
步骤S1,从源域数据集(包含成对深度场景图像和彩色场景图像的数据集)中选取出成对场景图像作为训练集,从目标域数据集(只包含彩色场景图像的数据集)中选取与训练集相同类别的场景图像作为测试集。
选取训练集数据的方法为:由于深度场景图像数据集和彩色场景图像数据集包含的图像类别不一致,取深度场景图像数据集和彩色场景图像数据集共有的10个类别,并同时将10个共有类别的图像进行一定程度内的随机旋转,平移,缩放,颜色变换等预处理。
步骤S2,构建基于深度神经网络的跨领域多通道场景识别模型,包括两个输入通道,42层网络,一个输出通道。
两个输入通道分别为:深度场景图像数据集中的彩色场景图像,深度场景图像数据集中的深度场景图像。一个输出通道为:归一化层输出。
42层网络为:两个输入通道并行的两路神经网络,共享信息卷积神经网络和私有信息卷积神经网络,每路卷积神经网络均为:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1池化层、3全连接层,输出的维度为4096维。卷积层的卷积核为3*3,池化层为最大池化,池化核为2*2。该内部网络和参数设置是根据实验以及现有的VGG16改进而得。
步骤S3,将训练集中对应的彩色场景图像和深度场景图像同时输入到跨领域多通道场景识别模型中,分别经过模型中的共享信息卷积神经网络和私有信息卷积神经网络,得到共享信息特征和私有信息特征。
具体而言,将彩色场景图像输入卷积神经网络得到共享信息特征,将深度场景图像输入卷积神经网络得到私有信息特征。两路卷积神经网络通过卷积层和池化层分别提取出彩色场景图像和深度场景图像对应特征。在得到共享信息特征和私有信息特征后,将共享信息特征和私有信息特征分别通过各自全连接层,分别输出各自的4096维特征信息。
步骤S4,融合提取出的共享信息特征和私有信息特征,经过归一化层输出场景图像的识别结果,通过优化损失函数提高共享信息特征和私有信息特征的相关性并得到最优网络参数。
具体而言,融合特征并获取场景识别结果包括:将共享信息特征和私有信息特征进行拼接融合后,经过归一化函数得到各个类别评分,通过选取最高分数对场景图像类别进行判断。
训练时的场景识别结果和图像实际标签相比会产生分类损失值,与此同时可通过损失值反向传播来优化网络参数,进一步提高共享信息特征和私有信息特征的相关性。具体方法如下:分别在两路卷积神经网络对应的池化层,即每路卷积神经网络的第3层、第6层、第10层、第14层、第18层提取出对应的输出特征,并将两路对应层的对应输出特征建立L2损失函数得到特征损失值,通过将分类损失值与特征损失值融合后的总损失值反向传播优化网络模型的方式不断优化损失函数,并得到更小的损失值,当损失值低于设定阈值时,得到最优网络参数,并达到提高共享信息特征和私有信息特征相关性的优化目标。
步骤S5,将待识别的彩色场景图像输入已训练完成的跨领域多通道场景识别模型,实现利用跨领域信息提升单领域场景识别效果的目标。
用步骤S1中只包含彩色场景图像数据集的测试集场景图像进行测试,具体为:如图2,在测试时使用的RGB数据集中,选出与训练跨领域场景识别模型的深度场景图像数据集相同的场景图像类别,去掉训练好的跨领域模型中每路卷积神经网络中的第3层、第6层、第10层、第14层、第18层建立的特征损失函数,将同一彩色场景图像同时输入跨领域识别模型中的两路卷积神经网络,经过卷积层,池化层,全连接层,分别提取出两个网络对应的输出特征并融合,经过归一化层,输出最后的结果,从而得到对单领域场景图像的预测。

Claims (3)

1.一种基于私有信息的跨领域场景识别方法,其特征在于,包括如下步骤:
S1、获取彩色场景图像和对应的深度场景图像;
S2、构建基于深度神经网络的跨领域多通道场景识别模型,包括分别用于彩色场景图像和深度场景图像的2个输入通道,42层网络,1个输出通道,其中42层网络包含2个输入通道并行的两路神经网络,分别为共享信息卷积神经网络和私有信息卷积神经网络;
S3、将S1所得图像输入跨领域多通道场景识别模型,经过模型中的共享信息卷积神经网络和私有信息卷积神经网络分别得到共享信息特征和私有信息特征,具体地,两路卷积神经网络通过卷积层初步提取特征,池化层提取主要特征,分别得到彩色场景图像和深度场景图像对应的共享信息特征和私有信息特征,之后将共享信息特征和私有信息特征分别通过各自全连接层,分别输出各自的4096维特征信息;
S4、融合提取出的共享信息特征和私有信息特征,经过归一化层输出场景图像的识别结果,通过优化损失函数提高共享信息特征和私有信息特征的相关性,并得到最优网络参数,其中优化损失函数包括:在两路卷积神经网络对应的池化层提取出对应输出特征,并将两路对应层的对应输出特征建立回归损失函数,将分类损失值与特征损失值融合得到总损失值,并基于该总损失值进行反向传播,通过不断优化损失函数,提高共享信息特征和私有信息特征的相关性;
S5、将待识别的彩色场景图像输入到已训练完成的跨领域多通道场景识别模型中,得到识别结果,具体包括:去掉跨领域场景模型中每路卷积神经网络中建立的特征损失函数,将同一彩色场景图像同时输入跨领域识别模型中的两路卷积神经网络,经过卷积层、池化层、全连接层,分别提取出两个网络对应的输出特征并融合,经过归一化层,输出最后的结果,从而得到对单领域场景图像的预测。
2.根据权利要求1所述的一种基于私有信息的跨领域场景识别方法,其特征在于,所述两路卷积神经网络中的每一路均包括:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层,1池化层,3全连接层,输出的维度为4096维,卷积层的卷积核为3*3,池化层为最大池化,池化核为2*2。
3.根据权利要求1所述的一种基于私有信息的跨领域场景识别方法,其特征在于,所述步骤S4中特征融合的方式是拼接融合。
CN201910274944.0A 2019-04-08 2019-04-08 一种基于私有信息的跨领域场景识别方法 Active CN110084141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910274944.0A CN110084141B (zh) 2019-04-08 2019-04-08 一种基于私有信息的跨领域场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910274944.0A CN110084141B (zh) 2019-04-08 2019-04-08 一种基于私有信息的跨领域场景识别方法

Publications (2)

Publication Number Publication Date
CN110084141A CN110084141A (zh) 2019-08-02
CN110084141B true CN110084141B (zh) 2021-02-09

Family

ID=67414374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910274944.0A Active CN110084141B (zh) 2019-04-08 2019-04-08 一种基于私有信息的跨领域场景识别方法

Country Status (1)

Country Link
CN (1) CN110084141B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914738A (zh) * 2020-07-29 2020-11-10 南京汽车集团有限公司 一种基于并行交叉卷积神经网络的疲劳驾驶行为检测系统
CN112348117A (zh) * 2020-11-30 2021-02-09 腾讯科技(深圳)有限公司 场景识别方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280856A (zh) * 2018-02-09 2018-07-13 哈尔滨工业大学 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108960141A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于增强型深度卷积神经网络的行人再识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017088125A1 (zh) * 2015-11-25 2017-06-01 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280856A (zh) * 2018-02-09 2018-07-13 哈尔滨工业大学 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108960141A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于增强型深度卷积神经网络的行人再识别方法

Also Published As

Publication number Publication date
CN110084141A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
Grm et al. Strengths and weaknesses of deep learning models for face recognition against image degradations
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
Dekhtyar et al. Re data challenge: Requirements identification with word2vec and tensorflow
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN111046664A (zh) 基于多粒度的图卷积神经网络的假新闻检测方法及系统
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
US11544510B2 (en) System and method for multi-modal image classification
CN110084141B (zh) 一种基于私有信息的跨领域场景识别方法
Rafique et al. Deep fake detection and classification using error-level analysis and deep learning
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN111782804B (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN115080865B (zh) 基于多维数据分析的电商数据运营管理系统
Guo et al. Blind detection of glow-based facial forgery
Lv et al. Chinese character CAPTCHA recognition based on convolution neural network
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
Zhang et al. DuGAN: An effective framework for underwater image enhancement
Drass et al. Semantic segmentation with deep learning: detection of cracks at the cut edge of glass
Yan et al. Overcoming language priors with self-contrastive learning for visual question answering
Abir et al. Detecting deepfake images using deep learning techniques and explainable AI methods
Zhang et al. Improved colour‐to‐grey method using image segmentation and colour difference model for colour vision deficiency
CN116664880B (zh) 深度伪造反取证图像的生成方法
Jeong et al. A more reliable defect detection and performance improvement method for panel inspection based on artificial intelligence
CN117312504A (zh) 基于大模型实现智能问答服务的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant