CN109190471A - 基于自然语言描述的视频监控行人搜索的注意力模型方法 - Google Patents
基于自然语言描述的视频监控行人搜索的注意力模型方法 Download PDFInfo
- Publication number
- CN109190471A CN109190471A CN201810844117.6A CN201810844117A CN109190471A CN 109190471 A CN109190471 A CN 109190471A CN 201810844117 A CN201810844117 A CN 201810844117A CN 109190471 A CN109190471 A CN 109190471A
- Authority
- CN
- China
- Prior art keywords
- vector
- attention
- text
- image
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
Description
技术领域
本发明涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
背景技术
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。
相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
发明内容
本发明所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量即
其中,注意力向量中共有j个元素zj,为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,具有如下特点:
(1)新颖性:提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。
(2)有效性:使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。
(3)实用性:可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
附图说明
图1是本发明基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量即
其中,注意力向量中共有j个元素zj,为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
Claims (1)
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:
1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为
2)将所述的融合向量输入到全连接层中进行训练,得到向量即:
其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;
3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:
其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;
4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:
其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;
5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量即
其中,注意力向量中共有j个元素zj,为注意力向量中第i个元素的权重;
6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:
7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:
8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844117.6A CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844117.6A CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190471A true CN109190471A (zh) | 2019-01-11 |
CN109190471B CN109190471B (zh) | 2021-07-13 |
Family
ID=64937314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844117.6A Active CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190471B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110601A (zh) * | 2019-04-04 | 2019-08-09 | 深圳久凌软件技术有限公司 | 基于多时空注意力模型的视频行人重识别算法及装置 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
WO2014036813A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 图像特征的提取方法及装置 |
US9471851B1 (en) * | 2015-06-29 | 2016-10-18 | International Business Machines Corporation | Systems and methods for inferring gender by fusion of multimodal content |
CN106529492A (zh) * | 2016-11-17 | 2017-03-22 | 天津大学 | 面向网络查询基于多图融合视频主题分类与描述方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
-
2018
- 2018-07-27 CN CN201810844117.6A patent/CN109190471B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
WO2014036813A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 图像特征的提取方法及装置 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US9471851B1 (en) * | 2015-06-29 | 2016-10-18 | International Business Machines Corporation | Systems and methods for inferring gender by fusion of multimodal content |
CN106529492A (zh) * | 2016-11-17 | 2017-03-22 | 天津大学 | 面向网络查询基于多图融合视频主题分类与描述方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110601A (zh) * | 2019-04-04 | 2019-08-09 | 深圳久凌软件技术有限公司 | 基于多时空注意力模型的视频行人重识别算法及装置 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190471B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816092B (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN108256561B (zh) | 一种基于对抗学习的多源域适应迁移方法及系统 | |
Mousavi et al. | Deep reinforcement learning: an overview | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN109829436A (zh) | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 | |
Braik et al. | Image Enhancement Using Particle Swarm Optimization. | |
Hong et al. | Sentiment analysis with deeply learned distributed representations of variable length texts | |
CN108921107A (zh) | 基于排序损失和Siamese网络的行人再识别方法 | |
CN109190471A (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN106570522B (zh) | 物体识别模型的建立方法及物体识别方法 | |
CN106778796A (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
US11163989B2 (en) | Action localization in images and videos using relational features | |
CN109461001A (zh) | 基于第二模型获取第一模型的训练样本的方法和装置 | |
CN105787100A (zh) | 一种基于深度神经网络的用户会话推荐方法 | |
CN109284668A (zh) | 一种基于距离正则化投影和字典学习的行人重识别算法 | |
Takano et al. | Bigram-based natural language model and statistical motion symbol model for scalable language of humanoid robots | |
CN112801019A (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN110533107B (zh) | 梯度增强型Softmax分类器系统、训练信号产生方法及其应用 | |
CN116796810A (zh) | 一种基于知识蒸馏的深度神经网络模型压缩方法及装置 | |
CN115205903A (zh) | 一种基于身份迁移生成对抗网络的行人重识别方法 | |
Barros et al. | I only have eyes for you: The impact of masks on convolutional-based facial expression recognition | |
CN111753684B (zh) | 一种利用目标姿势进行生成的行人重识别方法 | |
CN106022293A (zh) | 一种基于自适应共享小生境进化算法的行人再识别方法 | |
Zhou et al. | Online object tracking based on cnn with metropolis-hasting re-sampling | |
CN116543021A (zh) | 一种基于特征融合的Siamese网络视频单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |