CN109145763B

CN109145763B - 基于自然语言描述的视频监控行人搜索图像文本融合方法

Info

Publication number: CN109145763B
Application number: CN201810844143.9A
Authority: CN
Inventors: 冀中; 李晟嘉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-07-13
Anticipated expiration: 2038-07-27
Also published as: CN109145763A

Abstract

一种基于自然语言描述的视频监控行人搜索图像文本融合方法，包括：设卷积神经网络提取的第n张图像特征向量为I_n，所述第n张图像对应的自然语言描述中含有若干个单词，其中，第k个单词的文本特征向量为

将第n张图像特征向量I_n分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合，从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中，从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合，从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。

Description

基于自然语言描述的视频监控行人搜索图像文本融合方法

技术领域

本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。

背景技术

随着社会的发展与进步，对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下，一些机器学习和深度学习的方法被运用在视频监控技术中。其中，人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中，人们利用卷积神经网络对视频中的关键帧进行特征提取，并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合，从而得到可以应用于行人搜索的融合特征向量。

发明内容

本发明所要解决的技术问题是，提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。

本发明所采用的技术方案是：一种基于自然语言描述的视频监控行人搜索图像文本融合方法，包括：设卷积神经网络提取的第n张图像特征向量为I_n，所述第n张图像对应的自然语言描述中含有若干个单词，其中，第k个单词的文本特征向量为

将第n张图像特征向量I_n分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合，从而找到该自然语言描述中每个单词与该第n张图像的对应关系。

具体包括如下步骤：

1)将第n张图像特征向量I_n输入到神经网络的全连接层中进行训练，得到向量I'_n，即：

I'_n＝W_n·I_n+b_n (1)

其中，W_n为第n张图像特征向量的权重矩阵，b_n为第n张图像特征向量的偏置向量；

2)将向量I'_n输入神经网络的Softmax层中进行归一化，并计算权重值S_n，所有权重值作为元素构成注意力向量I″_n，即：

其中，注意力向量I″_n中共有j个元素x_j，

为注意力向量I″_n中第i个元素的权重；

3)将第n张图像对应的第k个单词的文本特征向量

输入到神经网络的全连接层中进行训练，得到向量

即：

其中，

为第n张图像对应的第k个单词的文本特征向量的权重矩阵，

为第n张图像对应的第k个单词的文本特征向量的偏置向量；

4)将注意力向量I″_n中每个元素与向量

中对应元素相乘，得到经过注意力向量加权的文本特征向量

即：

5)将图像特征向量I_n，文本特征向量

与经过注意力向量加权的文本特征向量

进行串联而组合成一个初步融合矩阵

即：

最终把初步融合矩阵

输入到LSTM网络中进行训练融合，得到适用于行人搜索的融合特征向量。

本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法，是为了视频监控的行人搜索可以更好的应用于实际之中，从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合，从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点：

(1)新颖性：在基于自然语言描述的视频监控行人搜索领域中，提出了全新的图像与文本的特征向量融合方法。

(2)有效性：初步融合矩阵中既保存了原始的文本和图像信息，又包含了经图像特征决定的注意力权重加权后的文本信息，最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合，利用本发明的图像文本的特征融合向量进行该领域的行人搜索，会得到更高的行人搜索准确率。

(3)实用性：采用本发明的图像与文本的融合方法，可以提高训练效果以及测试的准确性，解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。

附图说明

图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。

如图1所示，本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法，是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合，并输入到LSTM神经网络中进行训练处理融合，从而得到更有效，更具有代表性的适用于行人搜索的融合特征向量。包括：设卷积神经网络提取的第n张图像特征向量为I_n，所述第n张图像对应的自然语言描述中含有若干个单词，其中，第k个单词的文本特征向量为

将第n张图像特征向量I_n分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合，从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤：

I'_n＝W_n·I_n+b_n (1)

其中，注意力向量I″_n中共有j个元素x_j，

为注意力向量I″_n中第i个元素的权重；

3)将第n张图像对应的第k个单词的文本特征向量

输入到神经网络的全连接层中进行训练，得到向量

即：

其中，

为第n张图像对应的第k个单词的文本特征向量的权重矩阵，

为第n张图像对应的第k个单词的文本特征向量的偏置向量；

4)将注意力向量I″_n中每个元素与向量

中对应元素相乘，得到经过注意力向量加权的文本特征向量

即：

5)将图像特征向量I_n，文本特征向量

与经过注意力向量加权的文本特征向量

进行串联而组合成一个初步融合矩阵

即：

最终把初步融合矩阵

Claims

1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法，其特征在于，包括：设卷积神经网络提取的第n张图像特征向量为I_n，所述第n张图像对应的自然语言描述中含有若干个单词，其中，第k个单词的文本特征向量为T_n ^k，将第n张图像特征向量I_n分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合，从而找到该自然语言描述中每个单词与该第n张图像的对应关系；具体包括如下步骤：

I'_n＝W_n·I_n+b_n (1)

2)将向量I'_n输入神经网络的Softmax层中进行归一化，并计算权重值S_n，所有权重值作为元素构成注意力向量I”_n，即：