CN109190471A - 基于自然语言描述的视频监控行人搜索的注意力模型方法 - Google Patents

基于自然语言描述的视频监控行人搜索的注意力模型方法 Download PDF

Info

Publication number
CN109190471A
CN109190471A CN201810844117.6A CN201810844117A CN109190471A CN 109190471 A CN109190471 A CN 109190471A CN 201810844117 A CN201810844117 A CN 201810844117A CN 109190471 A CN109190471 A CN 109190471A
Authority
CN
China
Prior art keywords
vector
attention
text
image
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810844117.6A
Other languages
English (en)
Other versions
CN109190471B (zh
Inventor
冀中
李晟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810844117.6A priority Critical patent/CN109190471B/zh
Publication of CN109190471A publication Critical patent/CN109190471A/zh
Application granted granted Critical
Publication of CN109190471B publication Critical patent/CN109190471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。

Description

基于自然语言描述的视频监控行人搜索的注意力模型方法
技术领域
本发明涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
背景技术
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。
相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
发明内容
本发明所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
其中,注意力向量中共有j个元素zj为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,具有如下特点:
(1)新颖性:提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。
(2)有效性:使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。
(3)实用性:可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
附图说明
图1是本发明基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
其中,注意力向量中共有j个元素zj为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。

Claims (1)

1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
其中,注意力向量中共有j个元素zj为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
CN201810844117.6A 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法 Active CN109190471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810844117.6A CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810844117.6A CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Publications (2)

Publication Number Publication Date
CN109190471A true CN109190471A (zh) 2019-01-11
CN109190471B CN109190471B (zh) 2021-07-13

Family

ID=64937314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810844117.6A Active CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Country Status (1)

Country Link
CN (1) CN109190471B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110502650A (zh) * 2019-08-12 2019-11-26 深圳智能思创科技有限公司 一种基于自然语言描述的图像检索系统及方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
WO2014036813A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 图像特征的提取方法及装置
US9471851B1 (en) * 2015-06-29 2016-10-18 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
WO2014036813A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 图像特征的提取方法及装置
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
US9471851B1 (en) * 2015-06-29 2016-10-18 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110502650A (zh) * 2019-08-12 2019-11-26 深圳智能思创科技有限公司 一种基于自然语言描述的图像检索系统及方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法

Also Published As

Publication number Publication date
CN109190471B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN109816092B (zh) 深度神经网络训练方法、装置、电子设备及存储介质
CN108256561B (zh) 一种基于对抗学习的多源域适应迁移方法及系统
Mousavi et al. Deep reinforcement learning: an overview
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN109829436A (zh) 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
Braik et al. Image Enhancement Using Particle Swarm Optimization.
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN108921107A (zh) 基于排序损失和Siamese网络的行人再识别方法
CN109190471A (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN106570522B (zh) 物体识别模型的建立方法及物体识别方法
CN106778796A (zh) 基于混合式协同训练的人体动作识别方法及系统
US11163989B2 (en) Action localization in images and videos using relational features
CN109461001A (zh) 基于第二模型获取第一模型的训练样本的方法和装置
CN105787100A (zh) 一种基于深度神经网络的用户会话推荐方法
CN109284668A (zh) 一种基于距离正则化投影和字典学习的行人重识别算法
Takano et al. Bigram-based natural language model and statistical motion symbol model for scalable language of humanoid robots
CN112801019A (zh) 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN110533107B (zh) 梯度增强型Softmax分类器系统、训练信号产生方法及其应用
CN116796810A (zh) 一种基于知识蒸馏的深度神经网络模型压缩方法及装置
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
Barros et al. I only have eyes for you: The impact of masks on convolutional-based facial expression recognition
CN111753684B (zh) 一种利用目标姿势进行生成的行人重识别方法
CN106022293A (zh) 一种基于自适应共享小生境进化算法的行人再识别方法
Zhou et al. Online object tracking based on cnn with metropolis-hasting re-sampling
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant