CN109190471B - 基于自然语言描述的视频监控行人搜索的注意力模型方法 - Google Patents
基于自然语言描述的视频监控行人搜索的注意力模型方法 Download PDFInfo
- Publication number
- CN109190471B CN109190471B CN201810844117.6A CN201810844117A CN109190471B CN 109190471 B CN109190471 B CN 109190471B CN 201810844117 A CN201810844117 A CN 201810844117A CN 109190471 B CN109190471 B CN 109190471B
- Authority
- CN
- China
- Prior art keywords
- vector
- attention
- text
- image
- namely
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
Description
技术领域
本发明涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
背景技术
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。
相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
发明内容
本发明所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。
本发明所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,具有如下特点:
(1)新颖性:提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。
(2)有效性:使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。
(3)实用性:可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。
附图说明
图1是本发明基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。
本发明的基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
Claims (1)
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:
其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844117.6A CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844117.6A CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190471A CN109190471A (zh) | 2019-01-11 |
CN109190471B true CN109190471B (zh) | 2021-07-13 |
Family
ID=64937314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844117.6A Active CN109190471B (zh) | 2018-07-27 | 2018-07-27 | 基于自然语言描述的视频监控行人搜索的注意力模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190471B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110601B (zh) * | 2019-04-04 | 2023-04-25 | 深圳久凌软件技术有限公司 | 基于多时空注意力模型的视频行人重识别方法及装置 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110909673B (zh) * | 2019-11-21 | 2022-09-16 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
WO2014036813A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 图像特征的提取方法及装置 |
US9471851B1 (en) * | 2015-06-29 | 2016-10-18 | International Business Machines Corporation | Systems and methods for inferring gender by fusion of multimodal content |
CN106529492A (zh) * | 2016-11-17 | 2017-03-22 | 天津大学 | 面向网络查询基于多图融合视频主题分类与描述方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
-
2018
- 2018-07-27 CN CN201810844117.6A patent/CN109190471B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
WO2014036813A1 (zh) * | 2012-09-10 | 2014-03-13 | 华为技术有限公司 | 图像特征的提取方法及装置 |
CN102880729A (zh) * | 2012-11-02 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 基于人脸检测与识别的人物图片索引方法及装置 |
US9471851B1 (en) * | 2015-06-29 | 2016-10-18 | International Business Machines Corporation | Systems and methods for inferring gender by fusion of multimodal content |
CN106529492A (zh) * | 2016-11-17 | 2017-03-22 | 天津大学 | 面向网络查询基于多图融合视频主题分类与描述方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190471A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034044B (zh) | 一种基于融合卷积神经网络的行人再识别方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109816092B (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
CN111222332B (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN109145763B (zh) | 基于自然语言描述的视频监控行人搜索图像文本融合方法 | |
CN112990296A (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN104298977A (zh) | 一种基于不相关性约束的低秩表示人体行为识别方法 | |
CN115761900B (zh) | 用于实训基地管理的物联网云平台 | |
CN114693397A (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN106339718A (zh) | 一种基于神经网络的分类方法及装置 | |
CN109284668A (zh) | 一种基于距离正则化投影和字典学习的行人重识别算法 | |
CN106326843A (zh) | 一种人脸识别方法 | |
CN109670169B (zh) | 一种基于特征提取的深度学习情感分类方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
CN114329031A (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
CN113609294B (zh) | 一种基于情感分析的生鲜冷链监管方法及系统 | |
CN104715071B (zh) | 一种基于不完整文本描述的特定行人检索方法 | |
Li et al. | Multiple instance discriminative dictionary learning for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |