CN109145763B - 基于自然语言描述的视频监控行人搜索图像文本融合方法 - Google Patents

基于自然语言描述的视频监控行人搜索图像文本融合方法 Download PDF

Info

Publication number
CN109145763B
CN109145763B CN201810844143.9A CN201810844143A CN109145763B CN 109145763 B CN109145763 B CN 109145763B CN 201810844143 A CN201810844143 A CN 201810844143A CN 109145763 B CN109145763 B CN 109145763B
Authority
CN
China
Prior art keywords
vector
image
natural language
text
language description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810844143.9A
Other languages
English (en)
Other versions
CN109145763A (zh
Inventor
冀中
李晟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810844143.9A priority Critical patent/CN109145763B/zh
Publication of CN109145763A publication Critical patent/CN109145763A/zh
Application granted granted Critical
Publication of CN109145763B publication Critical patent/CN109145763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为
Figure DDA0001746259390000011
将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。

Description

基于自然语言描述的视频监控行人搜索图像文本融合方法
技术领域
本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。
背景技术
随着社会的发展与进步,对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下,一些机器学习和深度学习的方法被运用在视频监控技术中。其中,人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中,人们利用卷积神经网络对视频中的关键帧进行特征提取,并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合,从而得到可以应用于行人搜索的融合特征向量。
发明内容
本发明所要解决的技术问题是,提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为
Figure BDA0001746259370000018
将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
Figure BDA0001746259370000011
其中,注意力向量I″n中共有j个元素xj
Figure BDA0001746259370000012
为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量
Figure BDA0001746259370000013
输入到神经网络的全连接层中进行训练,得到向量
Figure BDA0001746259370000014
即:
Figure BDA0001746259370000015
其中,
Figure BDA0001746259370000016
为第n张图像对应的第k个单词的文本特征向量的权重矩阵,
Figure BDA0001746259370000017
为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量
Figure BDA0001746259370000021
中对应元素相乘,得到经过注意力向量加权的文本特征向量
Figure BDA0001746259370000022
即:
Figure BDA0001746259370000023
5)将图像特征向量In,文本特征向量
Figure BDA0001746259370000024
与经过注意力向量加权的文本特征向量
Figure BDA0001746259370000025
进行串联而组合成一个初步融合矩阵
Figure BDA0001746259370000026
即:
Figure BDA0001746259370000027
最终把初步融合矩阵
Figure BDA0001746259370000028
输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点:
(1)新颖性:在基于自然语言描述的视频监控行人搜索领域中,提出了全新的图像与文本的特征向量融合方法。
(2)有效性:初步融合矩阵中既保存了原始的文本和图像信息,又包含了经图像特征决定的注意力权重加权后的文本信息,最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合,利用本发明的图像文本的特征融合向量进行该领域的行人搜索,会得到更高的行人搜索准确率。
(3)实用性:采用本发明的图像与文本的融合方法,可以提高训练效果以及测试的准确性,解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。
附图说明
图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。
如图1所示,本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合,并输入到LSTM神经网络中进行训练处理融合,从而得到更有效,更具有代表性的适用于行人搜索的融合特征向量。包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为
Figure BDA0001746259370000029
将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
Figure BDA0001746259370000031
其中,注意力向量I″n中共有j个元素xj
Figure BDA0001746259370000032
为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量
Figure BDA0001746259370000033
输入到神经网络的全连接层中进行训练,得到向量
Figure BDA0001746259370000034
即:
Figure BDA0001746259370000035
其中,
Figure BDA0001746259370000036
为第n张图像对应的第k个单词的文本特征向量的权重矩阵,
Figure BDA0001746259370000037
为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量
Figure BDA0001746259370000038
中对应元素相乘,得到经过注意力向量加权的文本特征向量
Figure BDA0001746259370000039
即:
Figure BDA00017462593700000310
5)将图像特征向量In,文本特征向量
Figure BDA00017462593700000311
与经过注意力向量加权的文本特征向量
Figure BDA00017462593700000312
进行串联而组合成一个初步融合矩阵
Figure BDA00017462593700000313
即:
Figure BDA00017462593700000314
最终把初步融合矩阵
Figure BDA00017462593700000315
输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。

Claims (1)

1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法,其特征在于,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为Tn k,将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系;具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I”n,即:
Figure FDA0002963750140000011
其中,注意力向量I”n中共有j个元素xj
Figure FDA0002963750140000012
为注意力向量I”n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量
Figure FDA0002963750140000013
输入到神经网络的全连接层中进行训练,得到向量
Figure FDA0002963750140000014
即:
Figure FDA0002963750140000015
其中,
Figure FDA0002963750140000016
为第n张图像对应的第k个单词的文本特征向量的权重矩阵,
Figure FDA0002963750140000017
为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I”n中每个元素与向量
Figure FDA0002963750140000018
中对应元素相乘,得到经过注意力向量加权的文本特征向量
Figure FDA0002963750140000019
即:
Figure FDA00029637501400000110
5)将图像特征向量In,文本特征向量
Figure FDA00029637501400000111
与经过注意力向量加权的文本特征向量
Figure FDA00029637501400000112
进行串联而组合成一个初步融合矩阵
Figure FDA00029637501400000113
即:
Figure FDA00029637501400000114
最终把初步融合矩阵
Figure FDA00029637501400000115
输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
CN201810844143.9A 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法 Active CN109145763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810844143.9A CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810844143.9A CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Publications (2)

Publication Number Publication Date
CN109145763A CN109145763A (zh) 2019-01-04
CN109145763B true CN109145763B (zh) 2021-07-13

Family

ID=64798381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810844143.9A Active CN109145763B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索图像文本融合方法

Country Status (1)

Country Link
CN (1) CN109145763B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670486A (zh) * 2019-01-30 2019-04-23 深圳前海达闼云端智能科技有限公司 一种基于视频的人脸识别方法、装置及计算设备
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111651635B (zh) * 2020-05-28 2023-04-28 拾音智能科技有限公司 一种基于自然语言描述的视频检索方法
CN111782880B (zh) * 2020-07-10 2023-12-15 聚好看科技股份有限公司 语义泛化方法及显示设备
CN114840700B (zh) * 2022-05-30 2023-01-13 来也科技(北京)有限公司 结合rpa和ai实现ia的图像检索方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186703A (ja) * 2015-03-27 2016-10-27 ルネサスエレクトロニクス株式会社 画像認識方法、画像認識装置および画像認識プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Also Published As

Publication number Publication date
CN109145763A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145763B (zh) 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110223106B (zh) 一种基于深度学习的欺诈应用检测方法
CN109961434A (zh) 面向层级语义衰减的无参考图像质量评价方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN108664658A (zh) 一种考虑用户偏好动态变化的协同过滤视频推荐方法
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN110555461A (zh) 基于多结构卷积神经网络特征融合的场景分类方法及系统
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN109190471B (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN115131753A (zh) 一种自动驾驶场景下的异构多任务协同系统
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
Conrad et al. Two-stage seamless text erasing on real-world scene images
Zhou et al. A deep learning algorithm for fast motion video sequences based on improved codebook model
CN114550016B (zh) 一种基于上下文信息感知的无人机定位方法及系统
CN114692604A (zh) 一种基于深度学习的方面级情感分类方法
CN112149496A (zh) 一种基于卷积神经网络的实时道路场景分割方法
Liu et al. Semantic segmentation network of uav image based on improved U-net

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant