CN109145763A - 基于自然语言描述的视频监控行人搜索图像文本融合方法 - Google Patents
基于自然语言描述的视频监控行人搜索图像文本融合方法 Download PDFInfo
- Publication number
- CN109145763A CN109145763A CN201810844143.9A CN201810844143A CN109145763A CN 109145763 A CN109145763 A CN 109145763A CN 201810844143 A CN201810844143 A CN 201810844143A CN 109145763 A CN109145763 A CN 109145763A
- Authority
- CN
- China
- Prior art keywords
- vector
- image
- natural language
- text
- language description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 17
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 108
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。
Description
技术领域
本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。
背景技术
随着社会的发展与进步,对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下,一些机器学习和深度学习的方法被运用在视频监控技术中。其中,人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中,人们利用卷积神经网络对视频中的关键帧进行特征提取,并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合,从而得到可以应用于行人搜索的融合特征向量。
发明内容
本发明所要解决的技术问题是,提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点:
(1)新颖性:在基于自然语言描述的视频监控行人搜索领域中,提出了全新的图像与文本的特征向量融合方法。
(2)有效性:初步融合矩阵中既保存了原始的文本和图像信息,又包含了经图像特征决定的注意力权重加权后的文本信息,最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合,利用本发明的图像文本的特征融合向量进行该领域的行人搜索,会得到更高的行人搜索准确率。
(3)实用性:采用本发明的图像与文本的融合方法,可以提高训练效果以及测试的准确性,解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。
附图说明
图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。
如图1所示,本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合,并输入到LSTM神经网络中进行训练处理融合,从而得到更有效,更具有代表性的适用于行人搜索的融合特征向量。包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
Claims (2)
1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法,其特征在于,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
2.根据权利要求1所述的基于自然语言描述的视频监控行人搜索的图像文本融合方法,其特征在于,包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I’n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145763A true CN109145763A (zh) | 2019-01-04 |
CN109145763B CN109145763B (zh) | 2021-07-13 |
Family
ID=64798381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844143.9A Active CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145763B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670486A (zh) * | 2019-01-30 | 2019-04-23 | 深圳前海达闼云端智能科技有限公司 | 一种基于视频的人脸识别方法、装置及计算设备 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111651635A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN114840700A (zh) * | 2022-05-30 | 2022-08-02 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US20160283801A1 (en) * | 2015-03-27 | 2016-09-29 | Renesas Electronics Corporation | Image recognition method, image recognition device and image recognition program |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
-
2018
- 2018-07-27 CN CN201810844143.9A patent/CN109145763B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US20160283801A1 (en) * | 2015-03-27 | 2016-09-29 | Renesas Electronics Corporation | Image recognition method, image recognition device and image recognition program |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670486A (zh) * | 2019-01-30 | 2019-04-23 | 深圳前海达闼云端智能科技有限公司 | 一种基于视频的人脸识别方法、装置及计算设备 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111651635A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111651635B (zh) * | 2020-05-28 | 2023-04-28 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN111782880B (zh) * | 2020-07-10 | 2023-12-15 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN114840700A (zh) * | 2022-05-30 | 2022-08-02 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
CN114840700B (zh) * | 2022-05-30 | 2023-01-13 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109145763B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145763B (zh) | 基于自然语言描述的视频监控行人搜索图像文本融合方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
Guo et al. | CDnetV2: CNN-based cloud detection for remote sensing imagery with cloud-snow coexistence | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN110135295A (zh) | 一种基于迁移学习的无监督行人重识别方法 | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
CN112819065B (zh) | 基于多重聚类信息的无监督行人难样本挖掘方法和系统 | |
CN111797814A (zh) | 基于通道融合和分类器对抗的无监督跨域动作识别方法 | |
CN112347888A (zh) | 基于双向特征迭代融合的遥感图像场景分类方法 | |
CN114022372B (zh) | 一种引入语义损失上下文编码器的掩膜图像修补方法 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN110334622A (zh) | 基于自适应特征金字塔的行人检索方法 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN117173450A (zh) | 一种交通场景生成式图像描述方法 | |
CN112819837A (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
Yuan et al. | Multi-objects change detection based on Res-UNet | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN116704196B (zh) | 一种训练图像语义分割模型的方法 | |
CN117893937A (zh) | 数据生成方法、模型训练方法、图像差异检测方法及设备 | |
CN114067356B (zh) | 基于联合局部引导与属性聚类的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |