CN107391609B - 一种双向多模态递归网络的图像描述方法 - Google Patents
一种双向多模态递归网络的图像描述方法 Download PDFInfo
- Publication number
- CN107391609B CN107391609B CN201710528814.6A CN201710528814A CN107391609B CN 107391609 B CN107391609 B CN 107391609B CN 201710528814 A CN201710528814 A CN 201710528814A CN 107391609 B CN107391609 B CN 107391609B
- Authority
- CN
- China
- Prior art keywords
- word
- layer
- image
- model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710528814.6A CN107391609B (zh) | 2017-07-01 | 2017-07-01 | 一种双向多模态递归网络的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710528814.6A CN107391609B (zh) | 2017-07-01 | 2017-07-01 | 一种双向多模态递归网络的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391609A CN107391609A (zh) | 2017-11-24 |
CN107391609B true CN107391609B (zh) | 2020-07-31 |
Family
ID=60333944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710528814.6A Expired - Fee Related CN107391609B (zh) | 2017-07-01 | 2017-07-01 | 一种双向多模态递归网络的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391609B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009154B (zh) * | 2017-12-20 | 2021-01-05 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN107977472B (zh) * | 2017-12-27 | 2021-11-05 | 北京诸葛找房信息技术有限公司 | 房产类新闻文章自动生成的方法 |
CN108376558B (zh) * | 2018-01-24 | 2021-08-20 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN110072142B (zh) * | 2018-01-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、视频播放方法、装置和存储介质 |
CN108665950B (zh) * | 2018-04-16 | 2022-04-01 | 首都医科大学附属北京同仁医院 | 基于卷积神经网络生成结构化医学影像报告的方法和系统 |
CN110555805B (zh) * | 2018-05-31 | 2022-05-31 | 杭州海康威视数字技术股份有限公司 | 图像处理的方法、装置、设备及存储介质 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
CN109033304B (zh) * | 2018-07-17 | 2022-05-03 | 西安电子科技大学 | 基于在线深层主题模型的多模态检索方法 |
CN109472298B (zh) * | 2018-10-19 | 2021-06-01 | 天津大学 | 用于小尺度目标检测的深度双向特征金字塔增强网络 |
CN109712108B (zh) * | 2018-11-05 | 2021-02-02 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN110135473B (zh) * | 2019-04-25 | 2021-03-30 | 暗物智能科技(广州)有限公司 | 图像描述模型中奖赏及图像描述模型的构建方法 |
CN110287354A (zh) * | 2019-05-16 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 一种基于多模态神经网络的高分遥感图像语义理解方法 |
CN110222222B (zh) * | 2019-06-18 | 2022-12-27 | 西安电子科技大学 | 基于深层主题自编码模型的多模态检索方法 |
CN111753078B (zh) * | 2019-07-12 | 2024-02-02 | 北京京东尚科信息技术有限公司 | 图像段落描述生成方法、装置、介质及电子设备 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN111291558B (zh) * | 2020-01-17 | 2023-05-02 | 合肥工业大学 | 一种基于非成对学习的图像描述自动评价方法 |
CN111859005B (zh) * | 2020-07-01 | 2022-03-29 | 江西理工大学 | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN105893354A (zh) * | 2016-05-03 | 2016-08-24 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的分词方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
-
2017
- 2017-07-01 CN CN201710528814.6A patent/CN107391609B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN105893354A (zh) * | 2016-05-03 | 2016-08-24 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的分词方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107391609A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391609B (zh) | 一种双向多模态递归网络的图像描述方法 | |
CN107239801B (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111259804B (zh) | 一种基于图卷积的多模态融合手语识别系统及方法 | |
CN111260740A (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN110489567B (zh) | 一种基于跨网络特征映射的节点信息获取方法及其装置 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN111143617A (zh) | 一种图片或视频文本描述自动生成方法及系统 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
KR20230152741A (ko) | 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
CN116244416A (zh) | 生成式大语言模型训练方法、基于模型的人机语音交互方法 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN112541347A (zh) | 一种基于预训练模型的机器阅读理解方法 | |
CN117149952A (zh) | 一种基于aigc的多场景内容生成系统 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN114049501A (zh) | 融合集束搜索的图像描述生成方法、系统、介质及设备 | |
CN114329025A (zh) | 基于对抗生成网络的跨模态文本到图像生成方法 | |
CN113065324A (zh) | 一种基于结构化三元组和锚定模板的文本生成方法及装置 | |
CN110750669B (zh) | 一种图像字幕生成的方法及系统 | |
CN116386895B (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
CN110136226B (zh) | 一种基于图像组协同描述生成的新闻自动配图方法 | |
CN105206267B (zh) | 一种融合非确定性反馈的语音识别错误修正方法及系统 | |
Fan et al. | Long-term recurrent merge network model for image captioning | |
CN115905852A (zh) | 基于预训练提示的故事生成方法、系统、存储介质和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Tang Jinhui Inventor after: Fan Chunxiao Inventor after: Shu Yanwu Inventor before: Tang Jinhui Inventor before: Shu Yanwu |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221027 Address after: Room 1413, Building 7, Xinghu 101 Plaza, No. 1101 Xinghu Avenue, Development Zone, Nantong City, Jiangsu Province, 226010 Patentee after: Nantong Zebra Intelligent Technology Co.,Ltd. Address before: 210094 No. 200, Xiaolingwei, Jiangsu, Nanjing Patentee before: NANJING University OF SCIENCE AND TECHNOLOGY |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200731 |