CN113779938A - 基于视觉与主题协同注意力的连贯性故事生成系统及方法 - Google Patents

基于视觉与主题协同注意力的连贯性故事生成系统及方法 Download PDF

Info

Publication number
CN113779938A
CN113779938A CN202110931513.4A CN202110931513A CN113779938A CN 113779938 A CN113779938 A CN 113779938A CN 202110931513 A CN202110931513 A CN 202110931513A CN 113779938 A CN113779938 A CN 113779938A
Authority
CN
China
Prior art keywords
album
theme
image
attention
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110931513.4A
Other languages
English (en)
Other versions
CN113779938B (zh
Inventor
王瀚漓
谷金晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110931513.4A priority Critical patent/CN113779938B/zh
Publication of CN113779938A publication Critical patent/CN113779938A/zh
Application granted granted Critical
Publication of CN113779938B publication Critical patent/CN113779938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法,该方法包括以下步骤:1)提取相册特征向量以及时间动态信息;2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;4)通过考虑n‑gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。与现有技术相比,本发明具有增强描述语句的主题连贯性、提高故事本文的表达多样性、优化视觉故事的生成质量等优点。

Description

基于视觉与主题协同注意力的连贯性故事生成系统及方法
技术领域
本发明涉及计算机视觉故事描述领域,尤其是涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。
背景技术
目前,基于深度学习的视觉描述方法虽取得了一系列进展,但图像相册故事生成任务对描述内容的主题连贯性和描述语句的表达多样性提出了更高的要求。
现阶段基于深度学习的图像相册故事生成方法研究可以分为以下两个类别:
(1)基于强化学习的图像故事生成模型:在模型的训练阶段引入强化学习,以提高生成故事的评价指标值;
(2)基于视觉特征理解的图像相册故事生成模型:通过对图像相册中蕴含的视觉信息进行细粒度的理解,来提高生成的叙述故事的表达多样性。
但是,以上这两类方法生成的故事在主题连贯性和表达多样性两个方面仍有待进一步提高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉与主题协同注意力的连贯性故事生成系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种基于视觉与主题协同注意力的连贯性故事生成系统,该系统包括:
图像相册特征编码模块:用以提取相册特征向量以及时间动态信息;
主题感知模块:由故事描述文本主题挖掘模型和主题分布预测模型构成,用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
视觉与主题协同注意力模块:分别与图像相册特征编码模块和主题感知模块连接,用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句。
所述的图像相册特征编码模块的数据处理步骤为:
11)图像特征提取:采用ResNet-152模型提取相册j中作为图像相册视觉编码信息的每幅图像的图像特征后通过平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息。
所述的主题感知模块的数据处理步骤为:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取每条描述语句的主题概率分布
Figure BDA0003211019250000021
其中,主题词涉及与主题相近的目标主体和动作;
22)主题分布预测:将相册中每幅图像的图像特征输入长短时序列神经网络LSTM中进行预测,得到相册中每幅图像中的主题预测分布
Figure BDA0003211019250000022
所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成。
所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,以视觉权重分布和当前时间步的隐状态作为输出,具体为:
Figure BDA0003211019250000023
Figure BDA0003211019250000024
其中,θj,t为时间步t图像相册j的时间动态信息
Figure BDA0003211019250000025
的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,
Figure BDA0003211019250000026
表示向量连接运算符,
Figure BDA0003211019250000027
为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure BDA0003211019250000028
为权重参数,
Figure BDA0003211019250000029
为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数,We为大小为Ω的词汇表单词嵌入矩阵,χt-1为输入单词在时间步t-1的独热编码。
所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词Weχt-1作为输入,以主题权重分布和当前时间步的隐状态作为输出,具体为:
Figure BDA0003211019250000031
Figure BDA0003211019250000032
其中,bj,t为时间步t图像相册特征
Figure BDA0003211019250000033
的正则化注意力权重,Wd和Wc为转换矩阵,
Figure BDA0003211019250000034
为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure BDA0003211019250000035
为权重参数,
Figure BDA0003211019250000036
为第j个相册在时间步t的主题权重分布,
Figure BDA0003211019250000037
为第j个相册在时间步t的主题概率分布。
所述的连贯性语句生成模型以视觉权重分布
Figure BDA0003211019250000038
主题权重分布
Figure BDA0003211019250000039
时间步t第j个相册特征的隐状态作为输入,生成主题连贯性的图像描述语句,所述的连贯性语句生成模型的表达式为:
Figure BDA00032110192500000310
Figure BDA00032110192500000311
Figure BDA00032110192500000312
其中,
Figure BDA00032110192500000313
表示连贯性语句生成模型GRUlan的输入,
Figure BDA00032110192500000314
表示连贯性语句生成模型GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp分别为连贯性语句生成模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
该系统还包括:
短语束搜索算法模块:用以在检测过程中,通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤:
41)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
42)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数;
43)单词生成和选择:依据多样性惩罚系数更新每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择前B个概率最高的单词作为模型的单词输出。
一种基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法,包括以下步骤:
1)提取相册特征向量以及时间动态信息;
2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;
4)通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
与现有技术相比,本发明具有以下优点:
一、增强描述语句的主题连贯性:本发明提出视觉与主题协同注意力模型,能够有效克服长时间序列视觉故事描述问题中内容主题不连贯的不足,视觉注意力模型能够使故事生成模型关注到重点的视觉信息,同时采用LDA主题模型从描述文本中提取出主题分布信息,再结合自上而下的主题注意力模型,帮助语句生成模型更好地保持描述文本的主题连贯性。
二、提高故事本文的表达多样性:本发明采用考虑n-gram多样性的短语束搜索算法,并将其应用于模型的测试阶段,该方法从短语多样性的角度出发,结合多样性惩罚机制,能够提高视觉故事叙述表达的多样性。
三、优化视觉故事的生成质量:本发明采用自动评估指标对模型性能进行定量评价,同时从主题连贯性和表达多样性两个角度对模型性能进行量化评估,实验结果表明,本发明能够在提高故事描述准确度的基础上,为图像相册生成更具有主题连贯性和表达多样性的文本故事。
附图说明
图1为基于视觉与主题协同注意力的连贯性故事生成方法示意图。
图2为视觉与主题协同注意力模型原理图。
图3为本发明生成的连贯性故事示例1。
图4为本发明生成的连贯性故事示例2。
图5为本发明生成的连贯性故事表达多样性分布评估。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供了一种基于视觉与主题协同注意力的连贯性故事生成方法,通过弥合计算机视觉和自然语言两个模态数据之间的语义鸿沟,能够应用于早教、导盲、人机交互、安防监控、自动驾驶、交通监控和机器人视觉等领域,如图1和2所示,包括以下步骤:
1)图像相册特征编码模块:依次将各相册中的图像输入设计好的带有联合双向门控循环单元GRU和残差模块的图像相册特征编码模块中,提取出图像相册中的时间动态信息。本实施例中,图像相册特征编码步骤过程如下:
11)图像特征提取:采用ResNet-152模型提取相册j中每幅图像的图像特征{Ij,1,Ij,2,Ij,3,Ij,4,Ij,5},其中,j为相册编号,作为图像相册视觉信息,然后运用平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息,即图像相册视觉编码信息;
2)主题感知模块:该模块由故事描述文本主题挖掘模型和主题分布预测模型组成,本实施例中,主题感知模块的感知过程如下:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取出每条描述语句的主题词及其概率分布,其中主题词涉及与主题相近的目标主体、动作等;
22)主题分布预测:将相册中每幅图像的图像特征输入构建主题感知长短时序列神经网络LSTM中,预测得到相册中每幅图像中的主题分布信息。
3)视觉与主题协同注意力模块:该模块由基于GRU的自上而下视觉注意力模型(TDVA-GRU)、基于GRU的自上而下主题注意力模型(TDTA-GRU)以及连贯性语句生成模型组成。首先,分别将图像相册视觉编码信息和主题分布信息输入TDTA-GRU和TDVA-GRU中,自动训练学习到各时间步需要重点关注的视觉和主题信息;然后,将TDTA-GRU和TDVA-GRU的输出协同输入到连贯性语句生成模型,得到具有主题连贯性的图像描述语句,本实施例中,视觉与主题协同注意力模型描述如下:
(1)基于GRU的自上而下视觉注意力模型(TDVA-GRU):该模型将上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,将视觉权重分布和当前时间步的隐状态作为输出。其中,We是大小为Ω的词汇表单词嵌入矩阵,χt-1是输入单词在时间步t-1的独热编码。以编号为j的相册为例,视觉注意力权重计算式具体为:
Figure BDA0003211019250000061
Figure BDA0003211019250000062
其中,θj,t为时间步t图像相册j的时间动态信息
Figure BDA0003211019250000063
的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,
Figure BDA0003211019250000064
表示向量连接运算符,
Figure BDA0003211019250000065
为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure BDA0003211019250000066
为权重参数,
Figure BDA0003211019250000067
为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数。
(2)基于GRU的自上而下主题注意力模型(TDTA-GRU):将自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测概率分布以及在当前时间步前已经生成的单词Weχt-1作为输入,将主题权重分布和当前时间步的隐状态作为输出。以编号为j的相册为例,其主题注意力权重计算过程如下所示:
Figure BDA0003211019250000068
Figure BDA0003211019250000069
其中,bj,t为时间步t图像相册特征
Figure BDA00032110192500000610
的正则化注意力权重,Wd和Wc为转换矩阵,
Figure BDA00032110192500000611
为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure BDA00032110192500000612
为权重参数,
Figure BDA00032110192500000613
为第j个相册在时间步t的主题权重分布,
Figure BDA00032110192500000614
为第j个相册在时间步t的主题概率分布;
(3)连贯性语句生成模型:将自上而下的视觉注意力模型和自上而下的主题注意力模型的输出协同输入连贯性语句生成模型,生成具有主题连贯性的描述语句。本实施例中,连贯性语句生成模型如下:
Figure BDA00032110192500000615
Figure BDA00032110192500000616
Figure BDA00032110192500000617
其中,
Figure BDA00032110192500000618
表示连贯性语句生成模型GRUlan的输入,
Figure BDA00032110192500000619
表示GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp表示模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
4)短语束搜索算法:为了提高视觉故事叙述表达的多样性,本发明提出一个考虑了n-gram多样性的短语束搜索算法。本实施例中,短语束搜索算法过程如下:
(1)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
(2)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数。
(3)单词生成和选择:依据多样性惩罚系数重新计算得出每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择B个概率最高的单词作为模型的单词输出。
为了验证上述方法的性能,设计了以下实验。
本方法在视觉故事叙述数据集(VIST)上进行了实验验证。VIST数据集一共包含了10,117个相册,其中涉及210,819张图像。每个故事包含5张从相册中随机选择的图像和5个对应的故事。在去除掉损坏的照片之后,剩余的50,136个故事被分为三类,40,098个故事用于训练,4,988个故事用于测试,5,050个故事用于验证。为了验证所提出方法的有效性,本发明方法的结果与现有研究中的模型结果进行了对比,结果如表1所示。其中,与本发明方法进行对比的10种方法具体细节如下:(1)Story-Flat:采用循环神经网络的结构;(2)Hattn-rank:采用分层次注意力循环网络;(3)GLAC:采用全局和局部注意力机制;(4)AREL:采用逆强化学习和生成对抗网络的框架;(5)Visual storyteller:采用多个独立解码单元的编码-解码框架;(6)HPSR:采用分层次强化学习网络;(7)ConceptNet:考虑常识推理的网络;(8)TAVST(RL):基于多智能体强化学习框架的模型;(9)INet(RL):引入想象力模块的内容推理网络;(10)SGVST:采用场景图知识增强网络。此外,采用BLEU-1(B-1),BLEU-2(B-2),BLEU-3(B-3),BLEU-4(B-4),ROUGE-L(R-L),CIDEr(C)和METEOR(M)这7个视觉描述通用评价指标计算各个模型的性能。其中,最优的指标值加粗表示,次优的指标值加下划线表示。
表1基于视觉与主题协同注意力的连贯性故事生成方法在VIST数据集上的性能比较
Figure BDA0003211019250000071
Figure BDA0003211019250000081
表2 VIST数据集上基于视觉与主题协同注意力的连贯性故事生成方法消融实验对比
Figure BDA0003211019250000082
表3 VIST数据集上本发明生成故事的主题连贯性对比
模型方法 AREL 本发明的方法
主题连贯性指标值 0.0626 0.0761
表1和表2中的实验可以证实,在VIST数据集上,本发明提出的基于视觉与主题协同注意力的连贯性故事生成方法在B-1,B-2,B-3,B-4和M这5个指标上都达到了目前最高的性能,在C指标上达到了目前方法中次优的性能。此外,表2的消融实验结果证明,本发明提出的每个模块对于提升模型的性能都是有效的。因此,在目前已知的先进视觉故事生成方法中,本方法具有较强的优势和应用前景。表3中的主题连贯性指标值越接近1,说明故事的主题连贯性更高,相对于基准模型AREL,本发明生成的故事呈现出更好的主题连贯性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,该系统包括:
图像相册特征编码模块:用以提取相册特征向量以及时间动态信息;
主题感知模块:由故事描述文本主题挖掘模型和主题分布预测模型构成,用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
视觉与主题协同注意力模块:分别与图像相册特征编码模块和主题感知模块连接,用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句。
2.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的图像相册特征编码模块的数据处理步骤为:
11)图像特征提取:采用ResNet-152模型提取相册j中作为图像相册视觉编码信息的每幅图像的图像特征后通过平均池化层获得相册特征向量;
12)相册特征编码:将提取出的相册特征向量输入带有残差模块的双向门控循环单元GRU中,获取相册的时间动态信息。
3.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的主题感知模块的数据处理步骤为:
21)故事描述文本主题挖掘:采用LDA主题模型从视觉描述文本中提取每条描述语句的主题概率分布
Figure FDA0003211019240000011
其中,主题词涉及与主题相近的目标主体和动作;
22)主题分布预测:将相册中每幅图像的图像特征输入长短时序列神经网络LSTM中进行预测,得到相册中每幅图像中的主题预测分布
Figure FDA0003211019240000012
4.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成。
5.根据权利要求4所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,以视觉权重分布和当前时间步的隐状态作为输出,具体为:
Figure FDA0003211019240000021
Figure FDA0003211019240000022
其中,θj,t为时间步t图像相册j的时间动态信息
Figure FDA0003211019240000023
的正则化注意力权重,tanh(·)表示双曲正切函数,Wv和Wa为转换矩阵,
Figure FDA0003211019240000024
表示向量连接运算符,
Figure FDA0003211019240000025
为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure FDA0003211019240000026
为权重参数,
Figure FDA0003211019240000027
为第j个相册在时间步t的视觉权重分布,softmax(·)为归一化指数函数,We为大小为Ω的词汇表单词嵌入矩阵,χt-1为输入单词在时间步t-1的独热编码。
6.根据权利要求5所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词Weχt-1作为输入,以主题权重分布和当前时间步的隐状态作为输出,具体为:
Figure FDA0003211019240000028
Figure FDA0003211019240000029
其中,bj,t为时间步t图像相册特征
Figure FDA00032110192400000210
的正则化注意力权重,Wd和Wc为转换矩阵,
Figure FDA00032110192400000211
为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,
Figure FDA00032110192400000212
为权重参数,
Figure FDA00032110192400000213
为第j个相册在时间步t的主题权重分布,
Figure FDA00032110192400000214
为第j个相册在时间步t的主题概率分布。
7.根据权利要求6所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的连贯性语句生成模型以视觉权重分布
Figure FDA00032110192400000215
主题权重分布
Figure FDA00032110192400000216
时间步t第j个相册特征的隐状态作为输入,生成主题连贯性的图像描述语句,所述的连贯性语句生成模型的表达式为:
Figure FDA00032110192400000217
Figure FDA00032110192400000218
Figure FDA00032110192400000219
其中,
Figure FDA00032110192400000220
表示连贯性语句生成模型GRUlan的输入,
Figure FDA00032110192400000221
表示连贯性语句生成模型GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp分别为连贯性语句生成模型的学习参数和偏差,p(yj,t)为第j个相册在时间步t生成单词yj,t的概率分布。
8.根据权利要求1所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,该系统还包括:
短语束搜索算法模块:用以在检测过程中,通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
9.根据权利要求8所述的一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,所述的考虑n-gram多样性的短语束搜索算法具体包括以下步骤:
41)单词概率计算:采用现有的束搜索算法计算生成单词的概率;
42)多样性惩罚:采用n-gram方法划分已生成的故事,依据各短语的出现频次,更新多样性惩罚系数;
43)单词生成和选择:依据多样性惩罚系数更新每一个单词的概率,并对单词的概率进行重新排序,在每一个时间步,短语束搜索方法选择前B个概率最高的单词作为模型的单词输出。
10.一种应用如权利要求1-9任一项所述的基于视觉与主题协同注意力的连贯性故事生成系统的连贯性故事生成方法,其特征在于,包括以下步骤:
1)提取相册特征向量以及时间动态信息;
2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;
3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;
4)通过考虑n-gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。
CN202110931513.4A 2021-08-13 2021-08-13 基于视觉与主题协同注意力的连贯性故事生成系统及方法 Active CN113779938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110931513.4A CN113779938B (zh) 2021-08-13 2021-08-13 基于视觉与主题协同注意力的连贯性故事生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110931513.4A CN113779938B (zh) 2021-08-13 2021-08-13 基于视觉与主题协同注意力的连贯性故事生成系统及方法

Publications (2)

Publication Number Publication Date
CN113779938A true CN113779938A (zh) 2021-12-10
CN113779938B CN113779938B (zh) 2024-01-23

Family

ID=78837583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110931513.4A Active CN113779938B (zh) 2021-08-13 2021-08-13 基于视觉与主题协同注意力的连贯性故事生成系统及方法

Country Status (1)

Country Link
CN (1) CN113779938B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003131A (zh) * 2021-12-31 2022-02-01 垒途智能教科技术研究院江苏有限公司 一种基于注意力引导机制的vr叙事方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN113035311A (zh) * 2021-03-30 2021-06-25 广东工业大学 一种基于多模态注意力机制的医学图像报告自动生成方法
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
CN113035311A (zh) * 2021-03-30 2021-06-25 广东工业大学 一种基于多模态注意力机制的医学图像报告自动生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴倩;应捷;黄影平;杨海马;胡文凯;: "融合多标签和双注意力机制的图像语义理解模型", 智能计算机与应用, no. 01 *
李志欣;魏海洋;黄飞成;张灿龙;马慧芳;史忠植;: "结合视觉特征和场景语义的图像描述生成", 计算机学报, no. 09 *
赵小虎;尹良飞;赵成龙;: "基于全局-局部特征和自适应注意力机制的图像语义描述算法", 浙江大学学报(工学版), no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003131A (zh) * 2021-12-31 2022-02-01 垒途智能教科技术研究院江苏有限公司 一种基于注意力引导机制的vr叙事方法
CN114003131B (zh) * 2021-12-31 2022-05-27 垒途智能教科技术研究院江苏有限公司 一种基于注意力引导机制的vr叙事方法

Also Published As

Publication number Publication date
CN113779938B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
Zhai et al. Neural models for sequence chunking
CN107967257B (zh) 一种级联式作文生成方法
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN107229610A (zh) 一种情感数据的分析方法及装置
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
Rashid et al. Emotion detection of contextual text using deep learning
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114254645A (zh) 一种人工智能辅助写作系统
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN113779938B (zh) 基于视觉与主题协同注意力的连贯性故事生成系统及方法
CN113780418A (zh) 一种数据的筛选方法、系统、设备和存储介质
Shiyun et al. Sentiment commonsense induced sequential neural networks for sentiment classification
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
Chen et al. Audio captioning with meshed-memory transformer
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
Huspi et al. Sentiment Analysis on Roman Urdu Students’ Feedback Using Enhanced Word Embedding Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant