CN113779938B - 基于视觉与主题协同注意力的连贯性故事生成系统及方法 - Google Patents
基于视觉与主题协同注意力的连贯性故事生成系统及方法 Download PDFInfo
- Publication number
- CN113779938B CN113779938B CN202110931513.4A CN202110931513A CN113779938B CN 113779938 B CN113779938 B CN 113779938B CN 202110931513 A CN202110931513 A CN 202110931513A CN 113779938 B CN113779938 B CN 113779938B
- Authority
- CN
- China
- Prior art keywords
- album
- topic
- image
- model
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001427 coherent effect Effects 0.000 title claims abstract description 30
- 230000014509 gene expression Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000010845 search algorithm Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000000699 topical effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法,该方法包括以下步骤:1)提取相册特征向量以及时间动态信息;2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;4)通过考虑n‑gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。与现有技术相比,本发明具有增强描述语句的主题连贯性、提高故事本文的表达多样性、优化视觉故事的生成质量等优点。
Description
技术领域
本发明涉及计算机视觉故事描述领域,尤其是涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。
背景技术
目前,基于深度学习的视觉描述方法虽取得了一系列进展,但图像相册故事生成任务对描述内容的主题连贯性和描述语句的表达多样性提出了更高的要求。
现阶段基于深度学习的图像相册故事生成方法研究可以分为以下两个类别:
(1)基于强化学习的图像故事生成模型:在模型的训练阶段引入强化学习,以提高生成故事的评价指标值;
(2)基于视觉特征理解的图像相册故事生成模型:通过对图像相册中蕴含的视觉信息进行细粒度的理解,来提高生成的叙述故事的表达多样性。
但是,以上这两类方法生成的故事在主题连贯性和表达多样性两个方面仍有待进一步提高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种基于视觉与主题协同注意力的连贯性故事生成系统,该系统包括:
图像相册特征编码模块:用以提取相册特征向量以及时间动态信息;
主题感知模块:由故事描述文本主题挖掘模型和主题分布预测模型构成,用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
视觉与主题协同注意力模块:分别与图像相册特征编码模块和主题感知模块连接,用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句。
所述的图像相册特征编码模块的数据处理步骤为:
11)图像特征提取:采用ResNet-152模型提取相册j中作为图像相册视觉编码信息的每幅图像的图像特征后通过平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息。
所述的主题感知模块的数据处理步骤为:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取每条描述语句的主题概率分布其中,主题词涉及与主题相近的目标主体和动作;
22)主题分布预测:将相册中每幅图像的图像特征输入长短时序列神经网络LSTM中进行预测,得到相册中每幅图像中的主题预测分布
所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成。
所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,以视觉权重分布和当前时间步的隐状态作为输出,具体为:
其中,θj,t为时间步t图像相册j的时间动态信息的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,/>表示向量连接运算符,/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数,We为大小为Ω的词汇表单词嵌入矩阵,χt-1为输入单词在时间步t-1的独热编码。
所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词Weχt-1作为输入,以主题权重分布和当前时间步的隐状态作为输出,具体为:
其中,bj,t为时间步t图像相册特征的正则化注意力权重,Wd和Wc为转换矩阵,为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的主题权重分布,/>为第j个相册在时间步t的主题概率分布。
所述的连贯性语句生成模型以视觉权重分布主题权重分布/>时间步t第j个相册特征的隐状态作为输入,生成主题连贯性的图像描述语句,所述的连贯性语句生成模型的表达式为:
其中,表示连贯性语句生成模型GRUlan的输入,/>表示连贯性语句生成模型GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp分别为连贯性语句生成模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
该系统还包括:
短语束搜索算法模块:用以在检测过程中,通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤:
41)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
42)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数;
43)单词生成和选择:依据多样性惩罚系数更新每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择前B个概率最高的单词作为模型的单词输出。
一种基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法,包括以下步骤:
1)提取相册特征向量以及时间动态信息;
2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;
4)通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
与现有技术相比,本发明具有以下优点:
一、增强描述语句的主题连贯性:本发明提出视觉与主题协同注意力模型,能够有效克服长时间序列视觉故事描述问题中内容主题不连贯的不足,视觉注意力模型能够使故事生成模型关注到重点的视觉信息,同时采用LDA主题模型从描述文本中提取出主题分布信息,再结合自上而下的主题注意力模型,帮助语句生成模型更好地保持描述文本的主题连贯性。
二、提高故事本文的表达多样性:本发明采用考虑n-gram多样性的短语束搜索算法,并将其应用于模型的测试阶段,该方法从短语多样性的角度出发,结合多样性惩罚机制,能够提高视觉故事叙述表达的多样性。
三、优化视觉故事的生成质量:本发明采用自动评估指标对模型性能进行定量评价,同时从主题连贯性和表达多样性两个角度对模型性能进行量化评估,实验结果表明,本发明能够在提高故事描述准确度的基础上,为图像相册生成更具有主题连贯性和表达多样性的文本故事。
附图说明
图1为基于视觉与主题协同注意力的连贯性故事生成方法示意图。
图2为视觉与主题协同注意力模型原理图。
图3为本发明生成的连贯性故事示例1。
图4为本发明生成的连贯性故事示例2。
图5为本发明生成的连贯性故事表达多样性分布评估。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供了一种基于视觉与主题协同注意力的连贯性故事生成方法,通过弥合计算机视觉和自然语言两个模态数据之间的语义鸿沟,能够应用于早教、导盲、人机交互、安防监控、自动驾驶、交通监控和机器人视觉等领域,如图1和2所示,包括以下步骤:
1)图像相册特征编码模块:依次将各相册中的图像输入设计好的带有联合双向门控循环单元GRU和残差模块的图像相册特征编码模块中,提取出图像相册中的时间动态信息。本实施例中,图像相册特征编码步骤过程如下:
11)图像特征提取:采用ResNet-152模型提取相册j中每幅图像的图像特征{Ij,1,Ij,2,Ij,3,Ij,4,Ij,5},其中,j为相册编号,作为图像相册视觉信息,然后运用平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息,即图像相册视觉编码信息;
2)主题感知模块:该模块由故事描述文本主题挖掘模型和主题分布预测模型组成,本实施例中,主题感知模块的感知过程如下:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取出每条描述语句的主题词及其概率分布,其中主题词涉及与主题相近的目标主体、动作等;
22)主题分布预测:将相册中每幅图像的图像特征输入构建主题感知长短时序列神经网络LSTM中,预测得到相册中每幅图像中的主题分布信息。
3)视觉与主题协同注意力模块:该模块由基于GRU的自上而下视觉注意力模型(TDVA-GRU)、基于GRU的自上而下主题注意力模型(TDTA-GRU)以及连贯性语句生成模型组成。首先,分别将图像相册视觉编码信息和主题分布信息输入TDTA-GRU和TDVA-GRU中,自动训练学习到各时间步需要重点关注的视觉和主题信息;然后,将TDTA-GRU和TDVA-GRU的输出协同输入到连贯性语句生成模型,得到具有主题连贯性的图像描述语句,本实施例中,视觉与主题协同注意力模型描述如下:
(1)基于GRU的自上而下视觉注意力模型(TDVA-GRU):该模型将上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,将视觉权重分布和当前时间步的隐状态作为输出。其中,We是大小为Ω的词汇表单词嵌入矩阵,χt-1是输入单词在时间步t-1的独热编码。以编号为j的相册为例,视觉注意力权重计算式具体为:
其中,θj,t为时间步t图像相册j的时间动态信息的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,/>表示向量连接运算符,/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数。
(2)基于GRU的自上而下主题注意力模型(TDTA-GRU):将自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测概率分布以及在当前时间步前已经生成的单词Weχt-1作为输入,将主题权重分布和当前时间步的隐状态作为输出。以编号为j的相册为例,其主题注意力权重计算过程如下所示:
其中,bj,t为时间步t图像相册特征的正则化注意力权重,Wd和Wc为转换矩阵,为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的主题权重分布,/>为第j个相册在时间步t的主题概率分布;
(3)连贯性语句生成模型:将自上而下的视觉注意力模型和自上而下的主题注意力模型的输出协同输入连贯性语句生成模型,生成具有主题连贯性的描述语句。本实施例中,连贯性语句生成模型如下:
其中,表示连贯性语句生成模型GRUlan的输入,/>表示GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp表示模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
4)短语束搜索算法:为了提高视觉故事叙述表达的多样性,本发明提出一个考虑了n-gram多样性的短语束搜索算法。本实施例中,短语束搜索算法过程如下:
(1)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
(2)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数。
(3)单词生成和选择:依据多样性惩罚系数重新计算得出每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择B个概率最高的单词作为模型的单词输出。
为了验证上述方法的性能,设计了以下实验。
本方法在视觉故事叙述数据集(VIST)上进行了实验验证。VIST数据集一共包含了10,117个相册,其中涉及210,819张图像。每个故事包含5张从相册中随机选择的图像和5个对应的故事。在去除掉损坏的照片之后,剩余的50,136个故事被分为三类,40,098个故事用于训练,4,988个故事用于测试,5,050个故事用于验证。为了验证所提出方法的有效性,本发明方法的结果与现有研究中的模型结果进行了对比,结果如表1所示。其中,与本发明方法进行对比的10种方法具体细节如下:(1)Story-Flat:采用循环神经网络的结构;(2)Hattn-rank:采用分层次注意力循环网络;(3)GLAC:采用全局和局部注意力机制;(4)AREL:采用逆强化学习和生成对抗网络的框架;(5)Visual storyteller:采用多个独立解码单元的编码-解码框架;(6)HPSR:采用分层次强化学习网络;(7)ConceptNet:考虑常识推理的网络;(8)TAVST(RL):基于多智能体强化学习框架的模型;(9)INet(RL):引入想象力模块的内容推理网络;(10)SGVST:采用场景图知识增强网络。此外,采用BLEU-1(B-1),BLEU-2(B-2),BLEU-3(B-3),BLEU-4(B-4),ROUGE-L(R-L),CIDEr(C)和METEOR(M)这7个视觉描述通用评价指标计算各个模型的性能。其中,最优的指标值加粗表示,次优的指标值加下划线表示。
表1基于视觉与主题协同注意力的连贯性故事生成方法在VIST数据集上的性能比较
表2 VIST数据集上基于视觉与主题协同注意力的连贯性故事生成方法消融实验对比
表3 VIST数据集上本发明生成故事的主题连贯性对比
模型方法 | AREL | 本发明的方法 |
主题连贯性指标值 | 0.0626 | 0.0761 |
表1和表2中的实验可以证实,在VIST数据集上,本发明提出的基于视觉与主题协同注意力的连贯性故事生成方法在B-1,B-2,B-3,B-4和M这5个指标上都达到了目前最高的性能,在C指标上达到了目前方法中次优的性能。此外,表2的消融实验结果证明,本发明提出的每个模块对于提升模型的性能都是有效的。因此,在目前已知的先进视觉故事生成方法中,本方法具有较强的优势和应用前景。表3中的主题连贯性指标值越接近1,说明故事的主题连贯性更高,相对于基准模型AREL,本发明生成的故事呈现出更好的主题连贯性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,该系统包括:
图像相册特征编码模块:用以提取相册特征向量以及时间动态信息;
主题感知模块:由故事描述文本主题挖掘模型和主题分布预测模型构成,用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
视觉与主题协同注意力模块:分别与图像相册特征编码模块和主题感知模块连接,用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句;
所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成;
所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,以视觉权重分布和当前时间步的隐状态作为输出,具体为:
其中,θj,t为时间步t图像相册j的时间动态信息的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,/>表示向量连接运算符,/>为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数,We为大小为Ω的词汇表单词嵌入矩阵,χt-1为输入单词在时间步t-1的独热编码;
所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词Weχt-1作为输入,以主题权重分布和当前时间步的隐状态作为输出,具体为:
其中,bj,t为时间步t图像相册特征的正则化注意力权重,Wd和Wc为转换矩阵,/>为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,/>为权重参数,/>为第j个相册在时间步t的主题权重分布,/>为第j个相册在时间步t的主题概率分布;
所述的连贯性语句生成模型以视觉权重分布主题权重分布/>时间步t第j个相册特征的隐状态作为输入,生成主题连贯性的图像描述语句,所述的连贯性语句生成模型的表达式为:
其中,表示连贯性语句生成模型GRUlan的输入,/>表示连贯性语句生成模型GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp分别为连贯性语句生成模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
2.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的图像相册特征编码模块的数据处理步骤为:
11)图像特征提取:采用ResNet-152模型提取相册j中作为图像相册视觉编码信息的每幅图像的图像特征后通过平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息。
3.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的主题感知模块的数据处理步骤为:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取每条描述语句的主题概率分布其中,主题词涉及与主题相近的目标主体和动作;
22)主题分布预测:将相册中每幅图像的图像特征输入长短时序列神经网络LSTM中进行预测,得到相册中每幅图像中的主题预测分布
4.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,该系统还包括:
短语束搜索算法模块:用以在检测过程中,通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
5.根据权利要求4所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤:
41)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
42)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数;
43)单词生成和选择:依据多样性惩罚系数更新每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择前B个概率最高的单词作为模型的单词输出。
6.一种应用如权利要求1-5任一项所述的基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法,其特征在于,包括以下步骤:
1)提取相册特征向量以及时间动态信息;
2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;
4)通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931513.4A CN113779938B (zh) | 2021-08-13 | 2021-08-13 | 基于视觉与主题协同注意力的连贯性故事生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931513.4A CN113779938B (zh) | 2021-08-13 | 2021-08-13 | 基于视觉与主题协同注意力的连贯性故事生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779938A CN113779938A (zh) | 2021-12-10 |
CN113779938B true CN113779938B (zh) | 2024-01-23 |
Family
ID=78837583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110931513.4A Active CN113779938B (zh) | 2021-08-13 | 2021-08-13 | 基于视觉与主题协同注意力的连贯性故事生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779938B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003131B (zh) * | 2021-12-31 | 2022-05-27 | 垒途智能教科技术研究院江苏有限公司 | 一种基于注意力引导机制的vr叙事方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
US10467274B1 (en) * | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
CN111708904A (zh) * | 2020-08-24 | 2020-09-25 | 浙江大学 | 一种基于主题适应与原型编码的少样本视觉故事叙述方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN113035311A (zh) * | 2021-03-30 | 2021-06-25 | 广东工业大学 | 一种基于多模态注意力机制的医学图像报告自动生成方法 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726062B2 (en) * | 2018-11-30 | 2020-07-28 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
-
2021
- 2021-08-13 CN CN202110931513.4A patent/CN113779938B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467274B1 (en) * | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
CN111708904A (zh) * | 2020-08-24 | 2020-09-25 | 浙江大学 | 一种基于主题适应与原型编码的少样本视觉故事叙述方法 |
CN113035311A (zh) * | 2021-03-30 | 2021-06-25 | 广东工业大学 | 一种基于多模态注意力机制的医学图像报告自动生成方法 |
Non-Patent Citations (3)
Title |
---|
基于全局-局部特征和自适应注意力机制的图像语义描述算法;赵小虎;尹良飞;赵成龙;;浙江大学学报(工学版)(01);全文 * |
结合视觉特征和场景语义的图像描述生成;李志欣;魏海洋;黄飞成;张灿龙;马慧芳;史忠植;;计算机学报(09);全文 * |
融合多标签和双注意力机制的图像语义理解模型;吴倩;应捷;黄影平;杨海马;胡文凯;;智能计算机与应用(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779938A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Li et al. | Context-aware emotion cause analysis with multi-attention-based neural network | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111488739A (zh) | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 | |
Rashid et al. | Emotion detection of contextual text using deep learning | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
Kim et al. | Exploring convolutional and recurrent neural networks in sequential labelling for dialogue topic tracking | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN113326374A (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN114743143A (zh) | 一种基于多概念知识挖掘的视频描述生成方法及存储介质 | |
CN111144410A (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
Zhang et al. | A contrastive learning-based task adaptation model for few-shot intent recognition | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN111400492A (zh) | 基于sfm-dcnn的层次特征文本分类方法和系统 | |
CN117371456A (zh) | 一种基于特征融合的多模态讽刺检测方法及系统 | |
CN113779938B (zh) | 基于视觉与主题协同注意力的连贯性故事生成系统及方法 | |
CN116663523B (zh) | 多角度增强网络的语义文本相似度计算方法 | |
Zhang et al. | Convolution neural network based syntactic and semantic aware paraphrase identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |