CN110929587A - 一种基于层次注意力机制的双向重构网络视频描述方法 - Google Patents
一种基于层次注意力机制的双向重构网络视频描述方法 Download PDFInfo
- Publication number
- CN110929587A CN110929587A CN201911045154.1A CN201911045154A CN110929587A CN 110929587 A CN110929587 A CN 110929587A CN 201911045154 A CN201911045154 A CN 201911045154A CN 110929587 A CN110929587 A CN 110929587A
- Authority
- CN
- China
- Prior art keywords
- video
- features
- decoder
- attention mechanism
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 101100208381 Caenorhabditis elegans tth-1 gene Proteins 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045154.1A CN110929587B (zh) | 2019-10-30 | 2019-10-30 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045154.1A CN110929587B (zh) | 2019-10-30 | 2019-10-30 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929587A true CN110929587A (zh) | 2020-03-27 |
CN110929587B CN110929587B (zh) | 2021-04-20 |
Family
ID=69849915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045154.1A Active CN110929587B (zh) | 2019-10-30 | 2019-10-30 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929587B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111818397A (zh) * | 2020-06-29 | 2020-10-23 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN112135200A (zh) * | 2020-08-13 | 2020-12-25 | 南京众智未来人工智能研究院有限公司 | 一种针对压缩视频的视频描述生成方法 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
CN113420179A (zh) * | 2021-06-24 | 2021-09-21 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
CN113779310A (zh) * | 2021-09-10 | 2021-12-10 | 电子科技大学 | 一种基于层级表征网络的视频理解文本生成方法 |
CN114186568A (zh) * | 2021-12-16 | 2022-03-15 | 北京邮电大学 | 一种基于关系编码和层次注意力机制的图像段落描述方法 |
CN116723333A (zh) * | 2023-08-02 | 2023-09-08 | 清华大学 | 基于语义信息的可分层视频编码方法、装置及产品 |
CN117893697A (zh) * | 2024-03-15 | 2024-04-16 | 之江实验室 | 一种三维人体视频重建方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
US20190122373A1 (en) * | 2018-12-10 | 2019-04-25 | Intel Corporation | Depth and motion estimations in machine learning environments |
US20190130204A1 (en) * | 2017-10-31 | 2019-05-02 | The University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
CN109743642A (zh) * | 2018-12-21 | 2019-05-10 | 西北工业大学 | 基于分层循环神经网络的视频摘要生成方法 |
-
2019
- 2019-10-30 CN CN201911045154.1A patent/CN110929587B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130204A1 (en) * | 2017-10-31 | 2019-05-02 | The University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
US20190122373A1 (en) * | 2018-12-10 | 2019-04-25 | Intel Corporation | Depth and motion estimations in machine learning environments |
CN109743642A (zh) * | 2018-12-21 | 2019-05-10 | 西北工业大学 | 基于分层循环神经网络的视频摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
HAIFENG SANG 等: "Two-Level Attention Model Based Video Action Recognition Network", 《IEEE ACCESS》 * |
王柏瑞: "基于重构特征的视频语义描述生成方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340006B (zh) * | 2020-04-16 | 2024-06-11 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111626116B (zh) * | 2020-04-21 | 2022-12-27 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111612103B (zh) * | 2020-06-23 | 2023-07-11 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111818397B (zh) * | 2020-06-29 | 2021-10-08 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN111818397A (zh) * | 2020-06-29 | 2020-10-23 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN112135200A (zh) * | 2020-08-13 | 2020-12-25 | 南京众智未来人工智能研究院有限公司 | 一种针对压缩视频的视频描述生成方法 |
CN112135200B (zh) * | 2020-08-13 | 2022-07-08 | 南京众智未来人工智能研究院有限公司 | 一种针对压缩视频的视频描述生成方法 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
CN113420179A (zh) * | 2021-06-24 | 2021-09-21 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
CN113420179B (zh) * | 2021-06-24 | 2022-03-22 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
CN113779310A (zh) * | 2021-09-10 | 2021-12-10 | 电子科技大学 | 一种基于层级表征网络的视频理解文本生成方法 |
CN113779310B (zh) * | 2021-09-10 | 2023-06-02 | 电子科技大学 | 一种基于层级表征网络的视频理解文本生成方法 |
CN114186568A (zh) * | 2021-12-16 | 2022-03-15 | 北京邮电大学 | 一种基于关系编码和层次注意力机制的图像段落描述方法 |
CN116723333A (zh) * | 2023-08-02 | 2023-09-08 | 清华大学 | 基于语义信息的可分层视频编码方法、装置及产品 |
CN116723333B (zh) * | 2023-08-02 | 2023-10-31 | 清华大学 | 基于语义信息的可分层视频编码方法、装置及产品 |
CN117893697A (zh) * | 2024-03-15 | 2024-04-16 | 之江实验室 | 一种三维人体视频重建方法、装置、存储介质及电子设备 |
CN117893697B (zh) * | 2024-03-15 | 2024-05-31 | 之江实验室 | 一种三维人体视频重建方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110929587B (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929587B (zh) | 一种基于层次注意力机制的双向重构网络视频描述方法 | |
CN110795556B (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
US10885344B2 (en) | Method and apparatus for generating video | |
Chen et al. | Abstractive text-image summarization using multi-modal attentional hierarchical RNN | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
CN107979764A (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN113434664B (zh) | 文本摘要生成方法、装置、介质及电子设备 | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
CN110059324A (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
US11687711B2 (en) | Method and apparatus for generating commentary | |
Wang et al. | Image captioning with adaptive incremental global context attention | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 | |
CN115361595B (zh) | 一种视频弹幕生成方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN117251795A (zh) | 基于自适应融合的多模态虚假新闻检测方法 | |
Chen et al. | A survey on recent advances in image captioning | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
Xia et al. | Boosting image caption generation with feature fusion module | |
CN113722536B (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
CN117079081B (zh) | 一种多模态视频文本处理模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230822 Address after: Room 102, Building C14, Zidong International Creative Park, No. 2 Zidong Road, Maqun Street, Qixia District, Nanjing City, Jiangsu Province, 210000 Patentee after: Nanjing Chima Information Technology Co.,Ltd. Address before: No. 508-2A, Baoli Tianji North Block, Qiandenghu, Guicheng Street, Nanhai District, Foshan City, Guangdong Province, 528000 (Residence application) Patentee before: Foshan Haixie Technology Co.,Ltd. Effective date of registration: 20230822 Address after: No. 508-2A, Baoli Tianji North Block, Qiandenghu, Guicheng Street, Nanhai District, Foshan City, Guangdong Province, 528000 (Residence application) Patentee after: Foshan Haixie Technology Co.,Ltd. Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang Patentee before: HANGZHOU DIANZI University |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Bidirectional Reconstruction Network Video Description Method Based on Hierarchical Attention Mechanism Granted publication date: 20210420 Pledgee: Bank of China Limited Nanjing Chengdong Branch Pledgor: Nanjing Chima Information Technology Co.,Ltd. Registration number: Y2024980007341 |