CN109190471B

CN109190471B - 基于自然语言描述的视频监控行人搜索的注意力模型方法

Info

Publication number: CN109190471B
Application number: CN201810844117.6A
Authority: CN
Inventors: 冀中; 李晟嘉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-07-13
Anticipated expiration: 2038-07-27
Also published as: CN109190471A

Abstract

一种基于自然语言描述的视频监控行人搜索的注意力模型方法，利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权，得到文本与图像之间的联系程度。与此同时，利用文本特征向量形成的注意力权重对该文本进行注意力加权，得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明使用三种不同的注意力加权方式，更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性，可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征，提高训练和测试的效果。可以解决一些人工智能，机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。

Description

基于自然语言描述的视频监控行人搜索的注意力模型方法

技术领域

本发明涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。

背景技术

随着人工智能和深度学习的不断发展，人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要，甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量，人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中，例如图像分类，图像识别和字幕生成等。与此同时，在基于属性的视频监控行人搜索领域中，不同种类的注意力模型也经常被使用。

相对于广泛使用的基于属性的行人搜索，利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用，但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中，现有的注意力模型算法的效果并不理想。

发明内容

本发明所要解决的技术问题是，提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。

本发明所采用的技术方案是：一种基于自然语言描述的视频监控行人搜索的注意力模型方法，包括如下步骤：

1)设由卷积神经网络提取的第n张图像特征向量为I_n；第n张图像对应的自然语言描述中含有若干个单词；第k个单词的文本特征向量为

图像特征向量I_n和文本特征向量

融合得到的融合向量为

2)将所述的融合向量

输入到全连接层中进行训练，得到向量

即：

其中，

为融合向量

的权重矩阵，

为图像特征向量I_n和文本特征向量

所对应的融合向量

的偏置向量；

3)将向量

输入神经网络的Softmax层中进行归一化，并计算权重值S_n，将所有权重值作为元素构成注意力向量

即：

其中，注意力向量

中共有j个元素x_j，

为注意力向量

中第i个元素的权重；

4)将第k个单词的文本特征向量为

输入到全连接层中进行训练，得到向量

即：

其中，

为第n张图像和第k个单词对应的文本特征向量的权重矩阵，

为第n张图像和第k个单词对应的文本特征向量的偏置向量；

5)将向量

输入神经网络的Softmax层中进行归一化，并计算权重值TS_n，将所有权重值作为元素构成注意力向量

即

其中，注意力向量

中共有j个元素z_j，

为注意力向量

中第i个元素的权重；

6)将注意力向量

与文本特征向量

进行内积运算，得到经过注意力向量加权的标量分数--文本的重要程度

即：

7)将注意力向量

与图像特征向量为

进行内积运算，得到经过注意力向量加权的标量分数--文本与图像之间的联系程度

即：

8)将联系程度

与重要程度

进行乘积运算，得到注意力评价分数Sco，即：

其中，注意力评价分数是用于表示文本中每个单词与图像的相关程度，分数越大，则每个单词与图像的相关程度越高。

本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法，具有如下特点：

(1)新颖性：提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。

(2)有效性：使用三种不同的注意力加权方式，更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性，可以更加充分有效的使用特征向量。

(3)实用性：可以充分的利用特征向量中有效的特征，提高训练和测试的效果。可以解决一些人工智能，机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。

附图说明

图1是本发明基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。

本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法，利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权，得到文本与图像之间的联系程度。与此同时，利用文本特征向量形成的注意力权重对该文本进行注意力加权，得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤：

图像特征向量I_n和文本特征向量

融合得到的融合向量为

2)将所述的融合向量

输入到全连接层中进行训练，得到向量

即：

其中，

为融合向量

的权重矩阵，

为图像特征向量I_n和文本特征向量

所对应的融合向量

的偏置向量；

3)将向量

即：

其中，注意力向量

中共有j个元素x_j，

为注意力向量

中第i个元素的权重；

4)将第k个单词的文本特征向量为

输入到全连接层中进行训练，得到向量

即：

其中，

为第n张图像和第k个单词对应的文本特征向量的权重矩阵，

为第n张图像和第k个单词对应的文本特征向量的偏置向量；

5)将向量

即

其中，注意力向量

中共有j个元素z_j，

为注意力向量

中第i个元素的权重；

6)将注意力向量

与文本特征向量

即：

7)将注意力向量

与图像特征向量为

即：

8)将联系程度

与重要程度

进行乘积运算，得到注意力评价分数Sco，即：