CN109190471B - 基于自然语言描述的视频监控行人搜索的注意力模型方法 - Google Patents

基于自然语言描述的视频监控行人搜索的注意力模型方法 Download PDF

Info

Publication number
CN109190471B
CN109190471B CN201810844117.6A CN201810844117A CN109190471B CN 109190471 B CN109190471 B CN 109190471B CN 201810844117 A CN201810844117 A CN 201810844117A CN 109190471 B CN109190471 B CN 109190471B
Authority
CN
China
Prior art keywords
vector
attention
text
image
namely
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810844117.6A
Other languages
English (en)
Other versions
CN109190471A (zh
Inventor
冀中
李晟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810844117.6A priority Critical patent/CN109190471B/zh
Publication of CN109190471A publication Critical patent/CN109190471A/zh
Application granted granted Critical
Publication of CN109190471B publication Critical patent/CN109190471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。

Description

基于自然语言描述的视频监控行人搜索的注意力模型方法
技术领域
本发明涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
背景技术
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。
相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
发明内容
本发明所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为
Figure BDA0001746252410000011
图像特征向量In和文本特征向量
Figure BDA0001746252410000012
融合得到的融合向量为
Figure BDA0001746252410000013
2)将所述的融合向量
Figure BDA0001746252410000014
输入到全连接层中进行训练,得到向量
Figure BDA0001746252410000015
即:
Figure BDA0001746252410000016
其中,
Figure BDA0001746252410000017
为融合向量
Figure BDA00017462524100000119
的权重矩阵,
Figure BDA0001746252410000018
为图像特征向量In和文本特征向量
Figure BDA0001746252410000019
所对应的融合向量
Figure BDA00017462524100000110
的偏置向量;
3)将向量
Figure BDA00017462524100000111
输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量
Figure BDA00017462524100000112
即:
Figure BDA00017462524100000113
其中,注意力向量
Figure BDA00017462524100000114
中共有j个元素xj
Figure BDA00017462524100000115
为注意力向量
Figure BDA00017462524100000116
中第i个元素的权重;
4)将第k个单词的文本特征向量为
Figure BDA00017462524100000117
输入到全连接层中进行训练,得到向量
Figure BDA00017462524100000118
即:
Figure BDA0001746252410000021
其中,
Figure BDA0001746252410000022
为第n张图像和第k个单词对应的文本特征向量的权重矩阵,
Figure BDA0001746252410000023
为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量
Figure BDA0001746252410000024
输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
Figure BDA0001746252410000025
Figure BDA0001746252410000026
其中,注意力向量
Figure BDA0001746252410000027
中共有j个元素zj
Figure BDA0001746252410000028
为注意力向量
Figure BDA0001746252410000029
中第i个元素的权重;
6)将注意力向量
Figure BDA00017462524100000210
与文本特征向量
Figure BDA00017462524100000211
进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度
Figure BDA00017462524100000212
即:
Figure BDA00017462524100000213
7)将注意力向量
Figure BDA00017462524100000214
与图像特征向量为
Figure BDA00017462524100000215
进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度
Figure BDA00017462524100000216
即:
Figure BDA00017462524100000217
8)将联系程度
Figure BDA00017462524100000218
与重要程度
Figure BDA00017462524100000219
进行乘积运算,得到注意力评价分数Sco,即:
Figure BDA00017462524100000220
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,具有如下特点:
(1)新颖性:提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。
(2)有效性:使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。
(3)实用性:可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
附图说明
图1是本发明基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为
Figure BDA0001746252410000031
图像特征向量In和文本特征向量
Figure BDA0001746252410000032
融合得到的融合向量为
Figure BDA0001746252410000033
2)将所述的融合向量
Figure BDA0001746252410000034
输入到全连接层中进行训练,得到向量
Figure BDA0001746252410000035
即:
Figure BDA0001746252410000036
其中,
Figure BDA0001746252410000037
为融合向量
Figure BDA0001746252410000038
的权重矩阵,
Figure BDA0001746252410000039
为图像特征向量In和文本特征向量
Figure BDA00017462524100000310
所对应的融合向量
Figure BDA00017462524100000311
的偏置向量;
3)将向量
Figure BDA00017462524100000312
输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量
Figure BDA00017462524100000313
即:
Figure BDA00017462524100000314
其中,注意力向量
Figure BDA00017462524100000315
中共有j个元素xj
Figure BDA00017462524100000316
为注意力向量
Figure BDA00017462524100000317
中第i个元素的权重;
4)将第k个单词的文本特征向量为
Figure BDA00017462524100000318
输入到全连接层中进行训练,得到向量
Figure BDA00017462524100000319
即:
Figure BDA00017462524100000320
其中,
Figure BDA00017462524100000321
为第n张图像和第k个单词对应的文本特征向量的权重矩阵,
Figure BDA00017462524100000322
为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量
Figure BDA00017462524100000323
输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
Figure BDA00017462524100000324
Figure BDA00017462524100000325
其中,注意力向量
Figure BDA00017462524100000326
中共有j个元素zj
Figure BDA00017462524100000327
为注意力向量
Figure BDA00017462524100000328
中第i个元素的权重;
6)将注意力向量
Figure BDA00017462524100000329
与文本特征向量
Figure BDA00017462524100000330
进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度
Figure BDA00017462524100000331
即:
Figure BDA00017462524100000332
7)将注意力向量
Figure BDA00017462524100000333
与图像特征向量为
Figure BDA00017462524100000334
进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度
Figure BDA00017462524100000335
即:
Figure BDA00017462524100000336
8)将联系程度
Figure BDA00017462524100000337
与重要程度
Figure BDA00017462524100000338
进行乘积运算,得到注意力评价分数Sco,即:
Figure BDA00017462524100000339
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。

Claims (1)

1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为
Figure FDA0002963465280000011
图像特征向量In和文本特征向量
Figure FDA0002963465280000012
融合得到的融合向量为
Figure FDA0002963465280000013
2)将所述的融合向量
Figure FDA0002963465280000014
输入到全连接层中进行训练,得到向量
Figure FDA0002963465280000015
即:
Figure FDA0002963465280000016
其中,
Figure FDA0002963465280000017
为融合向量
Figure FDA0002963465280000018
的权重矩阵,
Figure FDA0002963465280000019
为图像特征向量In和文本特征向量
Figure FDA00029634652800000110
所对应的融合向量
Figure FDA00029634652800000111
的偏置向量;
3)将向量
Figure FDA00029634652800000112
输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量
Figure FDA00029634652800000113
即:
Figure FDA00029634652800000114
其中,注意力向量
Figure FDA00029634652800000115
中共有j个元素xj
Figure FDA00029634652800000116
为注意力向量
Figure FDA00029634652800000117
中第i个元素的权重;
4)将第k个单词的文本特征向量为
Figure FDA00029634652800000118
输入到全连接层中进行训练,得到向量
Figure FDA00029634652800000119
即:
Figure FDA00029634652800000120
其中,
Figure FDA00029634652800000121
为第n张图像和第k个单词对应的文本特征向量的权重矩阵,
Figure FDA00029634652800000122
为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量
Figure FDA00029634652800000123
输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量
Figure FDA00029634652800000124
Figure FDA00029634652800000125
其中,注意力向量
Figure FDA00029634652800000126
中共有j个元素zj
Figure FDA00029634652800000127
为注意力向量
Figure FDA00029634652800000128
中第i个元素的权重;
6)将注意力向量
Figure FDA00029634652800000129
与文本特征向量
Figure FDA00029634652800000130
进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度
Figure FDA00029634652800000131
即:
Figure FDA00029634652800000132
7)将注意力向量
Figure FDA00029634652800000133
与第k个单词的图像特征向量
Figure FDA00029634652800000134
进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度
Figure FDA00029634652800000135
即:
Figure FDA00029634652800000136
8)将联系程度
Figure FDA00029634652800000137
与重要程度
Figure FDA00029634652800000138
进行乘积运算,得到注意力评价分数Sco,即:
Figure FDA00029634652800000139
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
CN201810844117.6A 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法 Active CN109190471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810844117.6A CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810844117.6A CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Publications (2)

Publication Number Publication Date
CN109190471A CN109190471A (zh) 2019-01-11
CN109190471B true CN109190471B (zh) 2021-07-13

Family

ID=64937314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810844117.6A Active CN109190471B (zh) 2018-07-27 2018-07-27 基于自然语言描述的视频监控行人搜索的注意力模型方法

Country Status (1)

Country Link
CN (1) CN109190471B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110601B (zh) * 2019-04-04 2023-04-25 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别方法及装置
CN110502650A (zh) * 2019-08-12 2019-11-26 深圳智能思创科技有限公司 一种基于自然语言描述的图像检索系统及方法
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
WO2014036813A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 图像特征的提取方法及装置
US9471851B1 (en) * 2015-06-29 2016-10-18 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
WO2014036813A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 图像特征的提取方法及装置
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
US9471851B1 (en) * 2015-06-29 2016-10-18 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法

Also Published As

Publication number Publication date
CN109190471A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109034044B (zh) 一种基于融合卷积神经网络的行人再识别方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109816092B (zh) 深度神经网络训练方法、装置、电子设备及存储介质
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN109190471B (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN109145763B (zh) 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN104298977A (zh) 一种基于不相关性约束的低秩表示人体行为识别方法
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN106339718A (zh) 一种基于神经网络的分类方法及装置
CN109284668A (zh) 一种基于距离正则化投影和字典学习的行人重识别算法
CN106326843A (zh) 一种人脸识别方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN113609294B (zh) 一种基于情感分析的生鲜冷链监管方法及系统
CN104715071B (zh) 一种基于不完整文本描述的特定行人检索方法
Li et al. Multiple instance discriminative dictionary learning for action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant