CN109145763A - 基于自然语言描述的视频监控行人搜索图像文本融合方法 - Google Patents

基于自然语言描述的视频监控行人搜索图像文本融合方法 Download PDF

Info

Publication number
CN109145763A
CN109145763A CN201810844143.9A CN201810844143A CN109145763A CN 109145763 A CN109145763 A CN 109145763A CN 201810844143 A CN201810844143 A CN 201810844143A CN 109145763 A CN109145763 A CN 109145763A
Authority
CN
China
Prior art keywords
vector
image
natural language
text
language description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810844143.9A
Other languages
English (en)
Other versions
CN109145763B (zh
Inventor
冀中
李晟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810844143.9A priority Critical patent/CN109145763B/zh
Publication of CN109145763A publication Critical patent/CN109145763A/zh
Application granted granted Critical
Publication of CN109145763B publication Critical patent/CN109145763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。

Description

基于自然语言描述的视频监控行人搜索图像文本融合方法
技术领域
本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。
背景技术
随着社会的发展与进步,对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下,一些机器学习和深度学习的方法被运用在视频监控技术中。其中,人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中,人们利用卷积神经网络对视频中的关键帧进行特征提取,并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合,从而得到可以应用于行人搜索的融合特征向量。
发明内容
本发明所要解决的技术问题是,提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点:
(1)新颖性:在基于自然语言描述的视频监控行人搜索领域中,提出了全新的图像与文本的特征向量融合方法。
(2)有效性:初步融合矩阵中既保存了原始的文本和图像信息,又包含了经图像特征决定的注意力权重加权后的文本信息,最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合,利用本发明的图像文本的特征融合向量进行该领域的行人搜索,会得到更高的行人搜索准确率。
(3)实用性:采用本发明的图像与文本的融合方法,可以提高训练效果以及测试的准确性,解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。
附图说明
图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。
如图1所示,本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合,并输入到LSTM神经网络中进行训练处理融合,从而得到更有效,更具有代表性的适用于行人搜索的融合特征向量。包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。

Claims (2)

1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法,其特征在于,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
2.根据权利要求1所述的基于自然语言描述的视频监控行人搜索的图像文本融合方法,其特征在于,包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I’n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
CN201810844143.9A 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法 Active CN109145763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810844143.9A CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810844143.9A CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Publications (2)

Publication Number Publication Date
CN109145763A true CN109145763A (zh) 2019-01-04
CN109145763B CN109145763B (zh) 2021-07-13

Family

ID=64798381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810844143.9A Active CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Country Status (1)

Country Link
CN (1) CN109145763B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670486A (zh) * 2019-01-30 2019-04-23 深圳前海达闼云端智能科技有限公司 一种基于视频的人脸识别方法、装置及计算设备
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111651635A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN111782880A (zh) * 2020-07-10 2020-10-16 聚好看科技股份有限公司 语义泛化方法及显示设备
CN114840700A (zh) * 2022-05-30 2022-08-02 来也科技(北京)有限公司 结合rpa和ai实现ia的图像检索方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
US20160283801A1 (en) * 2015-03-27 2016-09-29 Renesas Electronics Corporation Image recognition method, image recognition device and image recognition program
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
US20160283801A1 (en) * 2015-03-27 2016-09-29 Renesas Electronics Corporation Image recognition method, image recognition device and image recognition program
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670486A (zh) * 2019-01-30 2019-04-23 深圳前海达闼云端智能科技有限公司 一种基于视频的人脸识别方法、装置及计算设备
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111651635A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN111651635B (zh) * 2020-05-28 2023-04-28 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN111782880A (zh) * 2020-07-10 2020-10-16 聚好看科技股份有限公司 语义泛化方法及显示设备
CN111782880B (zh) * 2020-07-10 2023-12-15 聚好看科技股份有限公司 语义泛化方法及显示设备
CN114840700A (zh) * 2022-05-30 2022-08-02 来也科技(北京)有限公司 结合rpa和ai实现ia的图像检索方法、装置及电子设备
CN114840700B (zh) * 2022-05-30 2023-01-13 来也科技(北京)有限公司 结合rpa和ai实现ia的图像检索方法、装置及电子设备

Also Published As

Publication number Publication date
CN109145763B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN109145763B (zh) 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
Guo et al. CDnetV2: CNN-based cloud detection for remote sensing imagery with cloud-snow coexistence
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN110135295A (zh) 一种基于迁移学习的无监督行人重识别方法
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN108537119B (zh) 一种小样本视频识别方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN111797814A (zh) 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN112347888A (zh) 基于双向特征迭代融合的遥感图像场景分类方法
CN114022372B (zh) 一种引入语义损失上下文编码器的掩膜图像修补方法
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN110334622A (zh) 基于自适应特征金字塔的行人检索方法
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN117173450A (zh) 一种交通场景生成式图像描述方法
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN109190471B (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN112149496A (zh) 一种基于卷积神经网络的实时道路场景分割方法
Yuan et al. Multi-objects change detection based on Res-UNet
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN116704196B (zh) 一种训练图像语义分割模型的方法
CN117893937A (zh) 数据生成方法、模型训练方法、图像差异检测方法及设备
CN114067356B (zh) 基于联合局部引导与属性聚类的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant