CN109145763A - 基于自然语言描述的视频监控行人搜索图像文本融合方法 - Google Patents
基于自然语言描述的视频监控行人搜索图像文本融合方法 Download PDFInfo
- Publication number
- CN109145763A CN109145763A CN201810844143.9A CN201810844143A CN109145763A CN 109145763 A CN109145763 A CN 109145763A CN 201810844143 A CN201810844143 A CN 201810844143A CN 109145763 A CN109145763 A CN 109145763A
- Authority
- CN
- China
- Prior art keywords
- vector
- image
- natural language
- feature vector
- language description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 12
- 238000012544 monitoring process Methods 0.000 title claims 2
- 239000013598 vector Substances 0.000 claims abstract description 102
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。
Description
技术领域
本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。
背景技术
随着社会的发展与进步,对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下,一些机器学习和深度学习的方法被运用在视频监控技术中。其中,人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中,人们利用卷积神经网络对视频中的关键帧进行特征提取,并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合,从而得到可以应用于行人搜索的融合特征向量。
发明内容
本发明所要解决的技术问题是,提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点:
(1)新颖性:在基于自然语言描述的视频监控行人搜索领域中,提出了全新的图像与文本的特征向量融合方法。
(2)有效性:初步融合矩阵中既保存了原始的文本和图像信息,又包含了经图像特征决定的注意力权重加权后的文本信息,最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合,利用本发明的图像文本的特征融合向量进行该领域的行人搜索,会得到更高的行人搜索准确率。
(3)实用性:采用本发明的图像与文本的融合方法,可以提高训练效果以及测试的准确性,解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。
附图说明
图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。
如图1所示,本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合,并输入到LSTM神经网络中进行训练处理融合,从而得到更有效,更具有代表性的适用于行人搜索的融合特征向量。包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
Claims (2)
1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法,其特征在于,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
2.根据权利要求1所述的基于自然语言描述的视频监控行人搜索的图像文本融合方法,其特征在于,包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I’n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
其中,注意力向量I″n中共有j个元素xj,为注意力向量I″n中第i个元素的权重;
3)将第n张图像对应的第k个单词的文本特征向量输入到神经网络的全连接层中进行训练,得到向量即:
其中,为第n张图像对应的第k个单词的文本特征向量的权重矩阵,为第n张图像对应的第k个单词的文本特征向量的偏置向量;
4)将注意力向量I″n中每个元素与向量中对应元素相乘,得到经过注意力向量加权的文本特征向量即:
5)将图像特征向量In,文本特征向量与经过注意力向量加权的文本特征向量进行串联而组合成一个初步融合矩阵即:
最终把初步融合矩阵输入到LSTM网络中进行训练融合,得到适用于行人搜索的融合特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145763A true CN109145763A (zh) | 2019-01-04 |
CN109145763B CN109145763B (zh) | 2021-07-13 |
Family
ID=64798381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844143.9A Active CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145763B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670486A (zh) * | 2019-01-30 | 2019-04-23 | 深圳前海达闼云端智能科技有限公司 | 一种基于视频的人脸识别方法、装置及计算设备 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111651635A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN112732890A (zh) * | 2020-12-25 | 2021-04-30 | 中科恒运股份有限公司 | 人口数据特征提取方法、装置及终端设备 |
CN114840700A (zh) * | 2022-05-30 | 2022-08-02 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US20160283801A1 (en) * | 2015-03-27 | 2016-09-29 | Renesas Electronics Corporation | Image recognition method, image recognition device and image recognition program |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
-
2018
- 2018-07-27 CN CN201810844143.9A patent/CN109145763B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US20160283801A1 (en) * | 2015-03-27 | 2016-09-29 | Renesas Electronics Corporation | Image recognition method, image recognition device and image recognition program |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670486A (zh) * | 2019-01-30 | 2019-04-23 | 深圳前海达闼云端智能科技有限公司 | 一种基于视频的人脸识别方法、装置及计算设备 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111651635A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111651635B (zh) * | 2020-05-28 | 2023-04-28 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN111782880B (zh) * | 2020-07-10 | 2023-12-15 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN112732890A (zh) * | 2020-12-25 | 2021-04-30 | 中科恒运股份有限公司 | 人口数据特征提取方法、装置及终端设备 |
CN114840700A (zh) * | 2022-05-30 | 2022-08-02 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
CN114840700B (zh) * | 2022-05-30 | 2023-01-13 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109145763B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145763B (zh) | 基于自然语言描述的视频监控行人搜索图像文本融合方法 | |
CN110110642B (zh) | 一种基于多通道注意力特征的行人重识别方法 | |
WO2022011681A1 (zh) | 一种基于迭代补全的知识图谱融合方法 | |
CN109299657B (zh) | 基于语义注意力保留机制的群体行为识别方法及装置 | |
CN110796026A (zh) | 一种基于全局特征拼接的行人重识别方法 | |
CN109034044A (zh) | 一种基于融合卷积神经网络的行人再识别方法 | |
CN109993072A (zh) | 基于超分辨图像生成的低分辨率行人重识别系统和方法 | |
CN106056628A (zh) | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 | |
CN107330355B (zh) | 一种基于正样本平衡约束的深度行人再标识方法 | |
CN110378233B (zh) | 一种基于人群行为先验知识的双分支异常检测方法 | |
CN109190472B (zh) | 基于图像与属性联合引导的行人属性识别方法 | |
CN111832546A (zh) | 一种轻量级自然场景文本识别方法 | |
CN103854014A (zh) | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 | |
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其系统 | |
CN108763191A (zh) | 一种文本摘要生成方法及系统 | |
CN110533024A (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN111680190B (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN110853074A (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
CN109492750A (zh) | 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统 | |
CN111612024A (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
CN106022287A (zh) | 一种基于深度学习与字典表示的跨年龄人脸验证方法 | |
CN110298270A (zh) | 一种基于跨模态重要性感知的多视频摘要方法 | |
CN109461177A (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN114330516A (zh) | 基于多图引导神经网络模型的小样本徽景图像分类 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |