CN109145763B - 基于自然语言描述的视频监控行人搜索图像文本融合方法 - Google Patents
基于自然语言描述的视频监控行人搜索图像文本融合方法 Download PDFInfo
- Publication number
- CN109145763B CN109145763B CN201810844143.9A CN201810844143A CN109145763B CN 109145763 B CN109145763 B CN 109145763B CN 201810844143 A CN201810844143 A CN 201810844143A CN 109145763 B CN109145763 B CN 109145763B
- Authority
- CN
- China
- Prior art keywords
- vector
- image
- natural language
- text
- language description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。本发明是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。
Description
技术领域
本发明涉及一种搜索图像文本融合方法。特别是涉及一种基于自然语言描述的视频监控行人搜索图像文本融合方法。
背景技术
随着社会的发展与进步,对视频监控技术的需求越来越迫切。在人工智能飞速发展的情况下,一些机器学习和深度学习的方法被运用在视频监控技术中。其中,人们对于视频监控进行行人搜索的应用十分关注。在视频监控行人搜索的领域中,人们利用卷积神经网络对视频中的关键帧进行特征提取,并结合相对应的属性特征输入到LSTM神经网络中进行训练处理融合,从而得到可以应用于行人搜索的融合特征向量。
发明内容
本发明所要解决的技术问题是,提供一种可以提高训练效果以及测试的准确性的基于自然语言描述的视频监控行人搜索图像文本融合方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索图像文本融合方法,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。
具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是为了视频监控的行人搜索可以更好的应用于实际之中,从而使用一段自然语言描述进行行人搜索而不采用属性搜索行人的方式。为了将一段自然语言描述中的单词文本特征向量分别与对应的图像特征向量可以更有效的融合,从而得到适用于自然语言描述的视频监控的行人搜索的融合特征向量。本发明具有如下特点:
(1)新颖性:在基于自然语言描述的视频监控行人搜索领域中,提出了全新的图像与文本的特征向量融合方法。
(2)有效性:初步融合矩阵中既保存了原始的文本和图像信息,又包含了经图像特征决定的注意力权重加权后的文本信息,最后将初步融合矩阵输入到LSTM神经网络中进行最终的融合。本发明可以更有效的将文本特征向量与图像特征向量进行融合,利用本发明的图像文本的特征融合向量进行该领域的行人搜索,会得到更高的行人搜索准确率。
(3)实用性:采用本发明的图像与文本的融合方法,可以提高训练效果以及测试的准确性,解决根据自然语言描述进行基于自然语言描述的视频监控行人搜索的相关问题。
附图说明
图1是本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法做出详细说明。
如图1所示,本发明的基于自然语言描述的视频监控行人搜索图像文本融合方法,是将卷积神经网络提取的图像特征向量和自然语言描述的文本特征向量进行更有效的融合,并输入到LSTM神经网络中进行训练处理融合,从而得到更有效,更具有代表性的适用于行人搜索的融合特征向量。包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系。具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I″n,即:
Claims (1)
1.一种基于自然语言描述的视频监控行人搜索图像文本融合方法,其特征在于,包括:设卷积神经网络提取的第n张图像特征向量为In,所述第n张图像对应的自然语言描述中含有若干个单词,其中,第k个单词的文本特征向量为Tn k,将第n张图像特征向量In分别与第n张图像对应的自然语言描述中每个单词的文本特征向量进行融合,从而找到该自然语言描述中每个单词与该第n张图像的对应关系;具体包括如下步骤:
1)将第n张图像特征向量In输入到神经网络的全连接层中进行训练,得到向量I'n,即:
I'n=Wn·In+bn (1)
其中,Wn为第n张图像特征向量的权重矩阵,bn为第n张图像特征向量的偏置向量;
2)将向量I'n输入神经网络的Softmax层中进行归一化,并计算权重值Sn,所有权重值作为元素构成注意力向量I”n,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844143.9A CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145763A CN109145763A (zh) | 2019-01-04 |
CN109145763B true CN109145763B (zh) | 2021-07-13 |
Family
ID=64798381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844143.9A Active CN109145763B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索图像文本融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145763B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670486A (zh) * | 2019-01-30 | 2019-04-23 | 深圳前海达闼云端智能科技有限公司 | 一种基于视频的人脸识别方法、装置及计算设备 |
CN110909673B (zh) * | 2019-11-21 | 2022-09-16 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111651635B (zh) * | 2020-05-28 | 2023-04-28 | 拾音智能科技有限公司 | 一种基于自然语言描述的视频检索方法 |
CN111782880B (zh) * | 2020-07-10 | 2023-12-15 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN114840700B (zh) * | 2022-05-30 | 2023-01-13 | 来也科技(北京)有限公司 | 结合rpa和ai实现ia的图像检索方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016186703A (ja) * | 2015-03-27 | 2016-10-27 | ルネサスエレクトロニクス株式会社 | 画像認識方法、画像認識装置および画像認識プログラム |
-
2018
- 2018-07-27 CN CN201810844143.9A patent/CN109145763B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109145763A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145763B (zh) | 基于自然语言描述的视频监控行人搜索图像文本融合方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
CN111507311B (zh) | 一种基于多模态特征融合深度网络的视频人物识别方法 | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN110223106B (zh) | 一种基于深度学习的欺诈应用检测方法 | |
CN109961434A (zh) | 面向层级语义衰减的无参考图像质量评价方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN108664658A (zh) | 一种考虑用户偏好动态变化的协同过滤视频推荐方法 | |
CN109919252A (zh) | 利用少数标注图像生成分类器的方法 | |
CN115761900B (zh) | 用于实训基地管理的物联网云平台 | |
CN110555461A (zh) | 基于多结构卷积神经网络特征融合的场景分类方法及系统 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN115131753A (zh) | 一种自动驾驶场景下的异构多任务协同系统 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN113807214B (zh) | 基于deit附属网络知识蒸馏的小目标人脸识别方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
Conrad et al. | Two-stage seamless text erasing on real-world scene images | |
Zhou et al. | A deep learning algorithm for fast motion video sequences based on improved codebook model | |
CN114550016B (zh) | 一种基于上下文信息感知的无人机定位方法及系统 | |
CN114692604A (zh) | 一种基于深度学习的方面级情感分类方法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
Liu et al. | Semantic segmentation network of uav image based on improved U-net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |