CN112016573B - 弹幕生成方法、装置、电子设备及计算机存储介质 - Google Patents

弹幕生成方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN112016573B
CN112016573B CN202011112941.6A CN202011112941A CN112016573B CN 112016573 B CN112016573 B CN 112016573B CN 202011112941 A CN202011112941 A CN 202011112941A CN 112016573 B CN112016573 B CN 112016573B
Authority
CN
China
Prior art keywords
bullet screen
text
emotional
features
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011112941.6A
Other languages
English (en)
Other versions
CN112016573A (zh
Inventor
葛旭日
冀志龙
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202011112941.6A priority Critical patent/CN112016573B/zh
Publication of CN112016573A publication Critical patent/CN112016573A/zh
Application granted granted Critical
Publication of CN112016573B publication Critical patent/CN112016573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种弹幕生成方法、装置、电子设备及计算机存储介质,该弹幕生成方法包括:获取目标图像和表征情绪信息的文本数据;对目标图像进行特征提取,得到图像特征,并且,对文本数据进行特征提取,得到文本特征;将图像特征和文本特征输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕。本申请通过对表征情绪信息的文本数据进行特征提取,使得提取到的文本特征中包括丰富的情绪,再将目标图像的图像特征和文本特征输入弹幕生成器,使得弹幕生成器生成的情绪化弹幕与目标图像匹配,丰富了情绪化弹幕在目标图像中的展示效果,提高了情绪化弹幕的趣味性。

Description

弹幕生成方法、装置、电子设备及计算机存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种弹幕生成方法、装置、电子设备及计算机存储介质。
背景技术
随着人工智能的不断发展,通过对图像添加文本描述内容被应用到众多的技术领域,例如电影弹幕、计算机视觉问答、看图说话、视频直播、在线讲课等,为图像或视频等添加文本描述内容,能够为用户带来乐趣和新的想法,可以增强用户与视频或图像之间的交互。
然而,在利用弹幕生成器,根据文字信息生成与图像一致的文本描述内容时,现有技术中仅是考虑文本信息表面的语义理解部分,使得生成的文本描述内容风格单一、趣味性低。
发明内容
有鉴于此,本申请实施例提供一种弹幕生成方法、装置、电子设备及计算机存储介质,用以克服现有技术中由弹幕生成器生成的文本描述内容风格单一、趣味性低的缺陷。
第一方面,本申请实施例提供了一种弹幕生成方法,所述方法包括:
获取目标图像和表征情绪信息的文本数据;
对所述目标图像进行特征提取,得到图像特征,并且,对所述文本数据进行特征提取,得到文本特征;
将所述图像特征和所述文本特征输入训练完成的弹幕生成器,生成与所述目标图像对应的情绪化弹幕。
第二方面,本申请实施例提供了一种弹幕生成装置,所述装置包括:
所述获取模块用于获取目标图像和表征情绪信息的文本数据;
所述特征提取模块用于对所述目标图像进行特征提取,得到图像特征,并且,对所述文本数据进行特征提取,得到文本特征;
所述生成模块用于将所述图像特征和所述文本特征输入训练完成的弹幕生成器,生成与所述目标图像对应的情绪化弹幕。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面所述的弹幕生成方法对应的操作。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的弹幕生成方法。
本申请实施例提供的弹幕生成方案,通过对表征情绪信息的文本数据进行特征提取,使得提取到的文本特征中包括丰富的情绪,再将目标图像的图像特征和文本特征输入弹幕生成器,使得弹幕生成器生成的情绪化弹幕与目标图像更为匹配,并且丰富了情绪化弹幕在目标图像中的展示效果,提高了情绪化弹幕的趣味性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种弹幕生成方法的流程图;
图2为本申请实施例提供的一种弹幕生成器的训练方法流程图;
图3为本申请实施例提供的另一种弹幕生成方法的流程图;
图4为本申请实施例提供的一种弹幕生成装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的目标只是为了表示单数概念,而不用于限制,不是特指某一个,例如,目标图像指的是任意一个图像。第一分类函数和第二分类函数。本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一分类函数、第二分类函数。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一、
本申请实施例一提供一种弹幕生成方法,如图1所示,图1为本申请实施例提供的一种弹幕生成方法的流程图,该弹幕生成方法包括以下步骤:
步骤S101、获取目标图像和表征情绪信息的文本数据。
本申请中的目标图像可以是不同场景下包含任意画面的图像,例如,可以是动物照片,也可以是试题考卷等,本申请实施例对目标图像的具体形式不作限制。表征情绪信息的文本数据可以是使用网络爬虫从社交媒体软件平台上采集的,社交媒体软件平台可以是评论网站、电影影评、视频弹幕、直播平台等,任意适当的带有情绪信息的文本数据,该情绪信息的情绪类型可以是正向、中立和负向中的任意一项。其中,正向情绪用于表征用户较好的情绪,如高兴、开心、喜欢等;中立情绪用于表征用户没有明显感情倾向的情绪,如情绪一般、平衡等;负向情绪用于表征用户负面的、不好的情绪,如生气、愤怒、低落等。情绪类型可以是按照数值划分,例如,情绪信息的总分为5分,将0分、1分和2分对应的情绪信息划分为负向,将3分对应的情绪信息划分为中立,将4分和5分对应的情绪信息划分为正向。可以理解的是,本申请中情绪信息的情绪类型可以但不限于包括正向、中立和负向,或者,情绪信息的情绪类型也可以仅包括正向和负向,对申请实施例不做限制。
步骤S102、对目标图像进行特征提取,得到图像特征,并且,对文本数据进行特征提取,得到文本特征。
需要说明的是,在对目标图像进行特征提取以及对表征情绪信息的文本数据进行特征提取如编码时,这两个特征提取步骤没有先后执行顺序,可以同时执行,也可以分开执行,能够提取得到图像特征和文本特征即可,对此本申请实施例不做限制。
示例的,可以通过图像特征提取网络对目标图像进行图像特征提取,得到图像特征,例如,可以通过循环神经网络(Recurrent Neural Network,简称RNN)及其变种网络对文本数据进行文本特征提取,得到文本特征,循环神经网络的变种网络包括:长短期记忆网络(Long Short-Term Memory,简称LSTM)、双向LSTM和门控循环单元网络(GatedRecurrent Unit networks,简称GRU)等。其中,LSTM是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
可选地,在本申请的一种实施例中,通过图像编码器对目标图像进行特征提取,得到图像特征,并且,通过长短期记忆神经网络对文本数据进行编码,得到关联上下文信息的文本特征。
本申请实施例中图像编码器是用于提取图像特征的网络,例如,可以是卷积神经网络(Convolutional NeuralNetwork,简称CNN),例如VGGNet、GoogLeNet、Resnet18和Resnet50等。通过多个卷积层以及最终的全连接层输出2048维的特征向量作为图像特征。本申请实施例中使用长短期记忆神经网络对表征情绪信息的文本数据进行编码,编码得到的文本特征可以更好的关联上下文信息,使得文本特征中包括丰富的情绪。
步骤S103、将图像特征和文本特征输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕。
本申请实施例通过将目标图像的图像特征和文本特征输入弹幕生成器,使得弹幕生成器生成的情绪化弹幕与目标图像匹配,丰富了情绪化弹幕在目标图像中的展示效果。
可选地,在本申请的一种实施例中,在生成与目标图像对应的情绪化弹幕之后,该弹幕生成方法还包括:在展示目标图像时展示目标图像对应的情绪化弹幕。
在展示目标图像时还一并展示目标图像对应的情绪化弹幕,提高了情绪化弹幕的趣味性和可观赏性。
可选地,在本申请的一种实施例中,将图像特征和文本特征输入训练完成的生成对抗神经网络中的弹幕生成器,生成与目标图像对应的情绪化弹幕。
需要说明的是,生成对抗神经网络(GAN)包括生成器和判别器,GAN通过建立的一个学习框架,GAN实际上就是生成器和判别器之间的一个模仿游戏。生成器的目的,就是要尽量去模仿、建模和学习真实数据的分布规律;而判别器则是要判别自己所得到的一个输入数据,究竟是来自于真实的数据分布还是来自于一个生成器。GAN通过生成器和判别器之间不断的竞争,从而提高两个模型的生成能力和判别能力。本申请中的生成对抗神经网络包括弹幕生成器和分类判别器。
将图像特征和文本特征的融合特征作为弹幕生成器的输入,本申请实施例在将图像特征和文本特征进行融合时,使用的融合方法可以包括特征级融合(或称为早期融合),决策级融合(或称为后期融合)和模型级融合,对此本申请实施例不做限制。该融合特征可以提高目标图像和文本数据之间的语义鸿沟,并能够提高训练生成对抗神经网络的训练效果,使得生成的情绪化弹幕不仅反映目标图像中的内容,还能体现出文本数据中的情绪类型,增加了情绪化弹幕的多样性和趣味性。
本申请实施例将图像编码器、长短期记忆神经网络和生成对抗神经网络三个模型结合使用,根据提取的文本特征和图像特征生成情绪化弹幕,提高了情绪化弹幕的准确性和多样性。
实施例二、
基于实施例一中的方案,在利用生成对抗神经网络中的弹幕生成器生成情绪化弹幕之前,本申请实施例还对生成对抗神经网络进行训练,以便获取训练完成的生成对抗神经网络,如图2所示,图2为本申请实施例提供的一种弹幕生成器的训练方法流程图,弹幕生成器通过以下方式训练生成:
步骤S201、获取图像样本特征和文本样本标签特征。
其中,图像样本特征用于指示对神经网络模型如生成对抗神经网络进行训练时使用的图像样本的特征,而文本样本标签特征则用于指示对神经网络模型如生成对抗神经网络进行训练的、用于作为标签的文本样本的特征。
本实施例中,图像样本特征和文本样本标签特征均为能够被弹幕生成器识别的特征。
可选地,在本申请的一种实施例中,步骤S201可以包括:获取图像样本和表征情绪标签信息的文本样本数据;对图像样本进行特征提取,得到图像样本特征,并且,对表征情绪标签信息的文本样本数据进行编码,得到文本样本标签特征,其中,文本样本标签特征包括文本样本数据的关键词和情绪标签类型,情绪标签类型包括正向、中立和负向。
需要说明的是,在对图像样本进行特征提取以及对表征情绪标签信息的文本样本数据进行编码时,这两个特征提取步骤没有先后执行顺序,可以同时执行,也可以分开执行,只要是提取得到图像样本特征和文本样本标签特征即可,对此本申请实施例不做限制。
示例的,可以通过图像编码器对图像样本进行特征提取,得到图像样本特征,并且,通过长短期记忆神经网络对文本样本数据进行编码,得到关联上下文信息的文本样本标签特征,该文本样本标签特征包括文本样本数据的关键词和情绪标签类型,情绪标签类型包括但不限于正向、中立和负向。
步骤S202、将图像样本特征和文本样本标签特征进行融合,得到多模态特征。
在对图像样本特征和文本样本标签特征进行融合时,使用的融合方法可以包括特征级融合(或称为早期融合),决策级融合(或称为后期融合)和模型级融合,对此本申请实施例不做限制。示例的,将图像样本特征和文本样本标签特征进行融合,得到的多模态特征中包括更丰富的情绪。多模态特征表示融合了多种特征的参数信息或参数数据,由于图像和情绪的复杂性和应用情景的多样性,单一模态特征很难满足需求,本申请将文本特征和图像特征融合得到多模态特征的方法可以提高生成情绪化弹幕的情绪多样性。
在对图像样本特征和文本样本标签特征进行融合时,可选地,在本申请的一种实施例中,步骤S202还可以包括:对图像样本特征和文本样本标签特征分别进行筛选,得到对应的有效图像样本特征和有效文本样本标签特征;对有效图像样本特征和有效文本样本标签特征进行拼接,得到多模态特征。
不同模态的特征有各自的优缺点,本申请实施例从不同方面提供互补的信息,对单一模态图像进行融合,得到多模态特征,提高了生成情绪化弹幕的情绪多样性。示例的,在对图像样本特征和文本样本标签特征进行融合时,可以通过典型相关分析的特征筛选策略对图像样本特征和文本样本标签特征中的特征分别进行筛选,得到有效图像样本特征和有效文本样本标签特征,然后将有效图像样本特征和有效文本样本标签特征输入特征融合模型,进行特征拼接操作,输出多模态特征,或者直接对有效图像样本特征和有效文本样本标签特征进行拼接操作,得到多模态特征。
步骤S203、使用多模态特征对生成对抗神经网络进行训练,获得用于输出情绪化弹幕的弹幕生成器。
其中,生成对抗神经网络包括弹幕生成器和分类判别器。在训练时,是利用损失函数同时训练弹幕生成器和分类判别器,训练分类判别器使其可区分真实情绪化弹幕和弹幕生成器生成的情绪化弹幕,真实情绪化弹幕表示多模态特征对应的情绪化弹幕;训练弹幕生成器使其生成尽可能真实的情绪化弹幕,让分类判别器错误地将其判别为真实情绪化弹幕,达到以假乱真的效果,从而使弹幕生成器和分类判别器都不断优化,直到弹幕生成器和分类判别器收敛,达到理想的生成与判别效果,得的训练好的弹幕生成器和训练好的分类判别器。
可选地,在本申请的一种实施例中,步骤S203可以包括步骤203a1-203a3,具体如下:
步骤203a1、将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕。
步骤203a2、通过生成对抗神经网络中的分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到类别置信结果。
需要说明的是,在通过分类判别器对情绪化弹幕进行分类判别之前,还需要对弹幕生成器生成的情绪化弹幕进行编码,以使编码后的情绪化弹幕能够被分类判别器识别。可以理解的是,也可以直接将弹幕生成器生成的情绪化弹幕和真实情绪化弹幕输入分类判别器,真实情绪化弹幕表示多模态特征对应的情绪化弹幕,由分类判别器对情绪化弹幕进行编码,然后再对编码后的情绪化弹幕进行分类判别,对此本申请实施例不做限制。
本申请实施例中采用长短期记忆神经网络对情绪化弹幕进行特征编码,具体的,对于不定长的情绪化弹幕我们采用padding方式为其填充空白,并采用<start>和<end>的标记来表示每个情绪化弹幕的开始和结束。根据弹幕生成器生成的至少一个情绪化弹幕,每个情绪化弹幕的单词长度不一定相同,通过对情绪化弹幕填充空白和添加特殊标记的方法,使得输入到分类判别器中的情绪化弹幕的句子长度是一致的,提高了分类判别器对情绪化弹幕进行分类判别的效率。
步骤203a3、根据类别置信结果,对生成对抗神经网络中的弹幕生成器和分类判别器进行监督训练。
本申请实施例中将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕,将多模态特征和至少一个情绪化弹幕一同输入分类判别器中进行生成对抗,从而不断的优化弹幕生成器和分类判别器,使弹幕生成器生成的情绪化弹幕不断的接近多模态特征,也就是不断的接近真实情绪化弹幕,使分类判别器的判别能力得到最佳。
需要说明的是,步骤203a2中分类判别器可以是用于情绪分类的二分类判别器,也可以是用于内容相关性分类的多分类判别器,在此列举两个示例分别对二分类判别器和多分类判别器的训练进行说明。
第一个示例,若步骤203a2中的分类判别器是用于情绪分类的二分类判别器,则类别置信结果是情绪类别置信结果,步骤203a3中是根据情绪类别置信结果,对生成对抗神经网络中的弹幕生成器和分类判别器进行监督训练。
其中,情绪类别置信结果表示至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度,生成情绪用于指示由弹幕生成器生成的情绪化弹幕的情绪类型,标签情绪用于指示情绪类型为正向类型、中立类型或负向类型中的一种。
示例的,将弹幕生成器生成的情绪化弹幕输入二分类判别器,利用二分类判别器区分情绪化弹幕中的情绪类型分别属于生成情绪的概率和标签情绪的概率,例如,某一个情绪化弹幕的情绪类别置信结果为生成情绪80%,正向标签情绪20%。将情绪类别置信结果反馈到弹幕生成器,以对生成对抗神经网络中的弹幕生成器进行训练,使得弹幕生成器生成的情绪化弹幕越来越接近真实情绪化弹幕所表达的情绪。
此外,本申请实施例根据至少一个情绪化弹幕和多模态特征中文本样本数据的情绪标签类型,使用极大似然函数作为损失函数对二分类判别器进行训练。具体的,训练二分类判别器时的损失函数为:
Figure DEST_PATH_IMAGE001
上述公式中的log函数以2为底,I为图像样本特征和文本样本标签特征融合后的多模态特征,在该损失函数中多模态特征I的情绪类型是已知的,也就是说已知多模态特征I的情绪类型是正向、负向或中立。N为生成的情绪化弹幕的句子总数量,Sn为生成的第n句情绪化弹幕,Ds表示弹幕生成器生成的Sn属于不同情绪类别的概率,即Sn分别属于正向,负向和中立的概率。
第二个示例,若步骤203a2中的分类判别器是用于内容相关性分类的多分类判别器,则类别置信结果是内容类别置信结果,步骤203a3中是根据内容类别置信结果,对生成对抗神经网络中的弹幕生成器和分类判别器进行监督训练。
其中,生成文本包括由弹幕生成器生成的情绪化弹幕的文本内容,标签文本包括用于指示情绪化弹幕的文本内容为正向情绪内容、中立情绪内容或负向情绪内容,错误文本包括与情绪化弹幕的文本内容相关的负样例文本内容。
示例的,将弹幕生成器生成的情绪化弹幕输入多分类判别器,利用多分类判别器区分情绪化弹幕中的内容类别分别属于生成文本的概率、标签文本的概率和错误文本的概率,例如,某一个情绪化弹幕的内容类别置信结果为生成文本5%,标签文本80%,错误文本15%。将内容类别置信结果反馈到弹幕生成器,以对生成对抗神经网络中的弹幕生成器进行训练,使得弹幕生成器生成的情绪化弹幕越来越接近真实情绪化弹幕所表达的内容。
本申请实施例根据至少一个情绪化弹幕和多模态特征中文本样本数据的内容标签类型,使用极大似然函数作为损失函数对多分类判别器进行训练。训练多分类判别器时的损失函数为:
Figure 488156DEST_PATH_IMAGE002
上述公式中的log函数以2为底,I为图像样本特征和文本样本标签特征融合后的多模态特征,在该损失函数中多模态特征I的内容是已知的,也就是说多模态特征I是由弹幕生成器生成的文本内容、添加了情绪标签类型的文本内容或表征错误内容的负样例文本内容,N为生成的情绪化弹幕的句子总数量,Sn为生成的第n句情绪化弹幕,Dc表示弹幕生成器生成的Sn属于不同内容类别的概率,即Sn分别属于生成文本的概率、标签文本的概率和错误文本的概率。
此外,本申请实施例中还使用极大似然函数作为损失函数对弹幕生成器进行训练。训练弹幕生成器时的损失函数为:
Figure DEST_PATH_IMAGE003
上述公式中的log函数以2为底,I为图像样本特征和文本样本标签特征融合后的多模态特征,S为真实情绪化弹幕的词语总长度,真实情绪化弹幕表示多模态特征对应的情绪化弹幕,一个情绪化弹幕中包括至少一个时间步对应的单词,词语总长度等于时间步的数量,t表示真实情绪化弹幕中的单词对应的时间步,St表示当前时间步生成的单词,Pt表示当前时间步生成的St的概率。
实施例三、
基于实施例二中的方案,可选地,在本申请的一种实施例中,步骤203a1可以包括步骤203a11-203a13,具体如下:
步骤203a11、将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个预测单词。
本申请实施例中将多模态特征输入生成对抗神经网络中的弹幕生成器,依次生成至少一个预测单词,其中,在后生成的预测单词依赖于在前生成的预测单词,一个句子中,前一个预测单词对于当前单词的词性预测是有很大影响的,例如,在生成“我吃苹果”的句子时,在预测苹果的时候,由于前面的吃是一个动词,那么很显然苹果作为名词的概率就会远大于动词的概率,因为动词后面接名词很常见,而动词后面接动词很少见。一个情绪化弹幕中包括至少一个预测单词和一个表征情绪信息的单词。
步骤203a12、根据至少一个预测单词,获取至少一个表征情绪信息的单词。
示例的,某个情绪化弹幕中包括由弹幕生成器生成的3个预测单词,3个预测单词分别是这个、板报、内容,还需要根据这3个预测单词获取至少一个表征情绪信息的单词,使得获取的表征情绪信息的单词与这3个预测单词相关。
可选地,在本申请的一种实施例中,根据至少一个预测单词,采用蒙特卡罗搜索算法获取至少一个表征情绪信息的单词。
蒙特卡洛搜索算法用于根据获得的部分序列对下一个字符或者序列进行搜索,示例的,利用蒙特卡洛搜索算法根据已生成的“这个板报内容”搜索得到3个表征情绪信息的单词,分别是“趣味、充满、十分”。
步骤203a13、根据至少一个预测单词和至少一个表征情绪信息的单词,生成至少一个情绪化弹幕。
示例的,根据3个预测单词“这个、板报、内容”以及3个表征情绪信息的单词“趣味、充满、十分”生成3个完整的情绪化弹幕,分别是“这个板报内容趣味很丰富”、“这个板报内容充满了图画”、“这个板报内容十分好笑”,可以理解的是,本申请中可以根据弹幕生成器生成更多的预测单词,利用蒙特卡洛搜索算法根据已生成的“这个板报内容”搜索得到更多的表征情绪信息的单词,此处仅是以3个预测单词和3个表征情绪信息的单词进行示例,并不代表本申请局限于此。
本申请实施例通过弹幕生成器根据已经生成的预测单词预测下一个单词,从而获得至少一个预测单词,再根据至少一个预测单词搜索出至少一个表征情绪信息的单词,例如,至少一个预测单词和三个表征情绪信息的单词,可以生成三个完整的情绪化弹幕,使得生成的情绪化弹幕中包括情绪化单词,使得得到的情绪化弹幕包括丰富的情绪,提高了情绪化弹幕表达情绪的多样性,然后将生成的三个完整的情绪化弹幕分别交给分类判别器进行打分。
进一步的,在实现上述步骤203a11时,可选地,在本申请的一种实施例中,步骤203a11包括:将多模态特征输入弹幕生成器,生成至少一个单词向量;对至少一个单词向量进行编码,得到至少一个单词向量的隐藏状态;针对每个单词向量,根据单词向量的隐藏状态确定单词向量对应的预测单词,以得到至少一个预测单词。
将多模态特征输入弹幕生成器,生成至少一个时间步的单词向量,一个时间步对应一个单词向量,根据单词向量并不知道其表示的单词,还需要根据长短期记忆神经网络对至少一个单词向量进行编码,得到至少一个单词向量的隐藏状态,隐藏状态用于对单词向量的输出进行预测。针对每个单词向量,根据每个单词向量的隐藏状态确定该单词向量对应的预测单词,从而得到至少一个预测单词。
在根据单词向量的隐藏状态确定单词向量对应的预测单词时,可选地,在本申请的一种实施例中,采用第二分类函数对单词向量的隐藏状态进行分类判别,得到单词向量的置信结果,单词向量的置信结果包括单词向量分别属于至少一个预测单词的置信度;将单词向量的置信结果中,置信度最高的预测单词作为单词向量对应的预测单词。
本申请实施例采用Softmax函数对每个时间步的单词向量的隐藏状态进行分类,根据每个单词向量的隐藏状态,将该单词向量映射到词表上的每一个类别,例如词表中包括10000个单词,以当前时间步的单词向量为例,利用长短期神经网络对当前时间步的单词向量进行编码,得到编码后的单词向量h。利用Softmax函数对h进行分类,得到当前时间步的单词向量的置信结果,置信结果包括10000个概率,它们的概率之和为1,以概率表示单词向量分别属于该预测单词的置信度,若词表中概率最高对应的单词是“板报”,则将“板报”作为当前时间步的预测单词。可以理解的是,本申请实施例中的分类函数也就是概率分布函数,并以Softmax函数为例进行说明,只要是能根据单词向量的隐藏状态进行分类的分类函数或概率分布函数都在本申请的保护范围之内。
实施例四、
基于实施例二中的方案,可选地,在本申请的一种实施例中,分类判别器包括用于情绪分类的二分类判别器和用于内容相关性分类的多分类判别器,步骤S203可以包括步骤203b1-203b3,具体如下:
步骤203b1、将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕。
步骤203b1与步骤203a1一致,在此不再赘述。
步骤203b2、通过二分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果;并且,通过多分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到内容类别置信结果。
需要说明的是,在根据二分类判别器和多分类判别器对至少一个情绪化弹幕进行分类判别时,可以同时执行,也可以分开执行,对此本申请实施例不做限制。
其中,情绪类别置信结果表示至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度;内容类别置信结果表示至少一个情绪化弹幕分别属于生成文本的置信度、标签文本的置信度和错误文本的置信度。
在通过二分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别时,可选地,本申请通过建立至少一个情绪化弹幕与多模态特征之间的映射关系;根据至少一个情绪化弹幕与多模态特征之间的映射关系,采用二分类判别器中的第一分类函数计算至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度。
根据embeding函数对多模态特征和至少一个情绪化弹幕进行编码,建立至少一个情绪化弹幕与多模态特征之间的映射关系,用公式表示为embedding(LSTM(Sn),I),公式中LSTM(Sn)表示通过长短期神经网络对弹幕生成器生成的情绪化弹幕Sn进行特征编码,并利用softmax分类函数根据映射关系对情绪化弹幕Sn进行分类。用公式表示为C=softmax(embedding(LSTM(Sn),I)),公式中的C表示分类classify。
步骤203b3、根据情绪类别置信结果和内容类别置信结果,对生成对抗神经网络中的弹幕生成器进行训练。
将弹幕生成器生成的情绪化弹幕输入分类判别器中的二分类判别器和多分类判别器,利用二分类判别器区分情绪化弹幕中的情绪类型分别属于生成情绪的概率和标签情绪的概率,例如,某一个情绪化弹幕的情绪类别置信结果为生成情绪60%,负向标签情绪40%;利用多分类判别器区分情绪化弹幕中的内容类别分别属于生成文本的概率、标签文本的概率和错误文本的概率,例如,某一个情绪化弹幕的内容类别置信结果为生成文本76%,标签文本21%,错误文本3%。
将情绪类别置信结果和内容类别置信结果都反馈到弹幕生成器,以对生成对抗神经网络中的弹幕生成器进行训练,使得弹幕生成器生成的情绪化弹幕越来越接近真实情绪化弹幕所表达的情绪,以及越来越接近真实情绪化弹幕所表达的内容。本申请实施例中分类判别器包括二分类判别器和多分类判别器,并将二分类判别器对应的情绪类别置信结果和多分类判别器对应的内容类别置信结果都反馈到弹幕生成器,从而对弹幕生成器进行训练,使得在利用训练完成的弹幕生成器生成的情绪化弹幕,不仅反映目标图像中的内容,还能体现出文本数据中的情绪类型,在情绪表达和内容上丰富了在目标图像中展示效果,增加了情绪化弹幕的趣味性和多样性。
进一步的,列举一个具体的示例对本申请实施例中利用弹幕生成器生成情绪化弹幕进行说明,如图3所示,图3为本申请实施例提供的另一种弹幕生成方法的流程图。
步骤S301、将目标图像输入卷积神经网络,对目标图像进行特征提取,得到图像特征Y。
图3中的目标图像是一个表达板报内容的图像。
步骤S302、将表征情绪信息的文本数据输入长短期记忆神经网络,对文本数据进行编码,得到文本特征Z。
图3中表征情绪信息的文本数据是以“正向、板报、内容、趣味”示出。
步骤S301和步骤S302之间没有先后执行顺序,可以同时执行,也可以分开执行,对此本申请实施例不做限制。
步骤S303、将图像特征Y和文本特征Z融合后的特征I输入弹幕生成器,生成3个预测单词“这个、板报和内容”,并采用蒙特卡罗搜索的方式进行搜索,随机搜索3个表征情绪信息的单词“趣味、充满、十分”,生成3个情绪化弹幕,分别是“这个板报内容趣味很丰富”、“这个板报内容充满了图画”、“这个板报内容十分好笑”。
步骤S304、将步骤S303生成的3个情绪化弹幕和融合后的特征I输入用于情绪分类的二分类判别器,分类判别这3个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度,获得情绪类别置信结果。
其中,生成情绪用于指示由弹幕生成器生成的情绪化弹幕的情绪类型,标签情绪用于指示情绪类型为正向类型、中立类型或负向类型中的一种。
步骤S305、将步骤S303生成的3个情绪化弹幕和融合后的特征I输入用于内容分类的多分类判别器,分类判别这3个情绪化弹幕分别属于生成文本的置信度、标签文本的置信度和错误文本的置信度,获得内容类别置信结果。
其中,生成文本包括由弹幕生成器生成的情绪化弹幕的文本内容,标签文本包括用于指示情绪化弹幕的文本内容为正向情绪内容、中立情绪内容或负向情绪内容,错误文本包括与情绪化弹幕的文本内容相关的负样例文本内容。
步骤S304和步骤S305没有先后执行顺序,可以同时执行,也可以分开执行,对此本申请实施例不做限制。
步骤S306、将步骤S304获得的情绪类别置信结果,和步骤S305获得的内容类别置信结果结合后的Q反馈到弹幕生成器,对弹幕生成器进行训练优化。步骤S306中情绪类别置信结果和内容类别置信结果结合得到的最终类别置信结果,用公式表示为
Figure 61088DEST_PATH_IMAGE004
。公式中Q表示最终类别置信结果,
Figure DEST_PATH_IMAGE005
表示第k个Ds,是由步骤S304得到的,与上述训练二分类判别器时的损失函数公式中的Ds一致,Ds表示弹幕生成器生成的Sn属于不同情绪类别的概率,即Sn分别属于正向,负向和中立的概率,Sn为生成的第n句情绪化弹幕;
Figure 44088DEST_PATH_IMAGE006
表示第k个Dc,是由步骤S304得到的,与上述训练多分类判别器时的损失函数公式中的Dc一致,Dc表示弹幕生成器生成的Sn属于不同内容类别的概率,即Sn分别属于生成文本的概率、标签文本的概率和错误文本的概率,Sn为生成的第n句情绪化弹幕。
以上步骤S301-S306是对生成对抗神经网络中的弹幕生成器和分类判别器进行训练的整个过程。可以理解的是,在应用阶段,仅需要根据上述步骤S301-S303即可实现对视频或图像生成情绪化弹幕,具体的,获取目标图像和表征情绪信息的文本数据,并不需要图文必须匹配,即不需要目标图像和表征情绪信息的文本数据匹配,将目标图像和表征情绪信息的文本数据输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕。需要说明的是,图3中是以3个表征情绪信息的单词(k=3)为例进行说明,可以理解的是,根据实际需要,k可以是任意正整数,k越大,训练完成的弹幕生成器生成的情绪化弹幕的情绪越丰富,为了保证循环训练效率和速度,本申请实施例中是以每个图像对应3个表征情绪信息的单词对弹幕生成器进行训练。
本申请实施例中提供的弹幕生成方法可应用于教育直播、美食直播、评论网站自动化、半自动化情绪化弹幕生成场景、电影海报评论、微博等社交媒体软件的自动发文中。通过图像特征和文本特征融合构建多模态特征,并且采用对抗神经网络根据多模态特征生成情绪化弹幕,消除了图文不匹配的问题,提高了生成情绪化弹幕的多样性和趣味性。示例的,如果目标图像是一只猫,根据本申请实施例提供的一种弹幕生成方法,可以生成“一只漂亮的白猫”和“一只可爱的猫咪”等,与生成的“一只猫”相比,本申请实施例生成的句子更加生动、丰富和多样。如果是在教育场景,根据本申请实施例提供的一种弹幕生成方法,可以生成一些和图像不相关,但与图像中表达的情绪相关的弹幕,例如,在老师的课堂讲课过程中,以孩子口吻描述的句子生成句子“今天老师讲的课真有趣呀”和“这个知识点真难学会”等。
实施例五、
本申请实施例提供了一种弹幕生成装置,如图4所示,图4为本申请实施例提供的一种弹幕生成装置,弹幕生成装置40包括获取模块401、特征提取模块402和生成模块403;
获取模块401用于获取目标图像和表征情绪信息的文本数据;
特征提取模块402用于对目标图像进行特征提取,得到图像特征,并且,对文本数据进行特征提取,得到文本特征;
生成模块403用于将图像特征和文本特征输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕。
可选地,在本申请的一种实施例中,特征提取模块402还用于通过图像编码器对目标图像进行特征提取,得到图像特征,并且,通过长短期记忆神经网络对文本数据进行编码,得到关联上下文信息的文本特征;生成模块403还用于将图像特征和文本特征输入训练完成的生成对抗神经网络中的弹幕生成器,生成与目标图像对应的情绪化弹幕。
可选地,在本申请的一种实施例中,弹幕生成装置40还包括训练模块,训练模块包括样本获取单元、融合单元和训练单元;
样本获取单元用于获取图像样本特征和文本样本标签特征;
融合单元用于将图像样本特征和文本样本标签特征进行融合,得到多模态特征;
训练单元用于使用多模态特征对生成对抗神经网络进行训练,获得用于输出情绪化弹幕的弹幕生成器,其中,生成对抗神经网络包括弹幕生成器和分类判别器。
可选地,在本申请的一种实施例中,样本获取单元还用于获取图像样本和表征情绪标签信息的文本样本数据;对图像样本进行特征提取,得到图像样本特征,并且,对表征情绪标签信息的文本样本数据进行编码,得到文本样本标签特征,文本样本标签特征包括文本样本数据的关键词和情绪标签类型,情绪标签类型包括正向、中立和负向。
可选地,在本申请的一种实施例中,融合单元还用于对图像样本特征和文本样本标签特征分别进行筛选,得到对应的有效图像样本特征和有效文本样本标签特征;对有效图像样本特征和有效文本样本标签特征进行拼接,得到多模态特征。
可选地,在本申请的一种实施例中,训练单元还用于将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕;通过生成对抗神经网络中的分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到类别置信结果;根据类别置信结果,对生成对抗神经网络中的弹幕生成器和分类判别器进行监督训练。
可选地,在本申请的一种实施例中,分类判别器包括用于情绪分类的二分类判别器和用于内容相关性分类的多分类判别器,类别置信结果包括二分类判别器对应的情绪类别置信结果和多分类判别器对应的内容类别置信结果。
可选地,在本申请的一种实施例中,训练单元还用于根据情绪类别置信结果和内容类别置信结果,对生成对抗神经网络中的弹幕生成器进行训练。
可选地,在本申请的一种实施例中,训练单元还用于通过二分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果,情绪类别置信结果表示至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度,生成情绪用于指示由弹幕生成器生成的情绪化弹幕的情绪类型,标签情绪用于指示情绪类型为正向类型、中立类型或负向类型中的一种。
可选地,在本申请的一种实施例中,训练单元还用于建立至少一个情绪化弹幕与多模态特征之间的映射关系;根据至少一个情绪化弹幕与多模态特征之间的映射关系,采用二分类判别器中的第一分类函数计算至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度。
可选地,在本申请的一种实施例中,训练单元还用于通过多分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到内容类别置信结果,内容类别置信结果表示至少一个情绪化弹幕分别属于生成文本的置信度、标签文本的置信度和错误文本的置信度,生成文本包括由弹幕生成器生成的情绪化弹幕的文本内容,标签文本包括用于指示情绪化弹幕的文本内容为正向情绪内容、中立情绪内容或负向情绪内容,错误文本包括与情绪化弹幕的文本内容相关的负样例文本内容。
可选地,在本申请的一种实施例中,训练单元还用于将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个预测单词;根据至少一个预测单词,获取至少一个表征情绪信息的单词;根据至少一个预测单词和至少一个表征情绪信息的单词,生成至少一个情绪化弹幕。
可选地,在本申请的一种实施例中,训练单元还用于根据至少一个预测单词,采用蒙特卡罗搜索算法获取至少一个表征情绪信息的单词。
可选地,在本申请的一种实施例中,训练单元还用于将多模态特征输入弹幕生成器,生成至少一个单词向量;对至少一个单词向量进行编码,得到至少一个单词向量的隐藏状态;针对每个单词向量,根据单词向量的隐藏状态确定单词向量对应的预测单词,以得到至少一个预测单词。
可选地,在本申请的一种实施例中,训练单元还用于采用第二分类函数对单词向量的隐藏状态进行分类判别,得到单词向量的置信结果,单词向量的置信结果包括单词向量分别属于至少一个预测单词的置信度;将单词向量的置信结果中,置信度最高的预测单词作为单词向量对应的预测单词。
可选地,在本申请的一种实施例中,弹幕生成装置还包括展示模块,展示模块用于在展示目标图像时展示目标图像对应的情绪化弹幕。
本申请实施例的弹幕生成装置用于实现前述多个方法实施例中相应的弹幕生成方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的弹幕生成装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六、
基于上述实施例一至实施例四描述的任一项弹幕生成方法,本申请实施例提供了一种电子设备,需要说明的,本实施例的弹幕生成方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图5所示,图5为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备50可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行计算机程序510,具体可以执行上述弹幕生成方法实施例中的相关步骤。
具体地,计算机程序510可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放计算机程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
计算机程序510具体可以用于使得处理器502执行以下操作:
获取目标图像和表征情绪信息的文本数据;
对目标图像进行特征提取,得到图像特征,并且,对文本数据进行特征提取,得到文本特征;
将图像特征和文本特征输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在对目标图像进行特征提取,得到图像特征,并且,对文本数据进行特征提取,得到文本特征时,通过图像编码器对目标图像进行特征提取,得到图像特征,并且,通过长短期记忆神经网络对文本数据进行编码,得到关联上下文信息的文本特征;计算机程序510还可以用于使得处理器502在将图像特征和文本特征输入训练完成的弹幕生成器,生成与目标图像对应的情绪化弹幕时,将图像特征和文本特征输入训练完成的生成对抗神经网络中的弹幕生成器,生成与目标图像对应的情绪化弹幕。
计算机程序510具体还可以用于使得处理器502执行以下操作:通过以下方式训练弹幕生成器,可选地,获取图像样本特征和文本样本标签特征;将图像样本特征和文本样本标签特征进行融合,得到多模态特征;使用多模态特征对生成对抗神经网络进行训练,获得用于输出情绪化弹幕的弹幕生成器,其中,生成对抗神经网络包括弹幕生成器和分类判别器。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在获取图像样本特征和文本样本标签特征时获取图像样本和表征情绪标签信息的文本样本数据;对图像样本进行特征提取,得到图像样本特征,并且,对表征情绪标签信息的文本样本数据进行编码,得到文本样本标签特征,文本样本标签特征包括文本样本数据的关键词和情绪标签类型,情绪标签类型包括正向、中立和负向。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在将图像样本特征和文本样本标签特征进行融合,得到多模态特征时,对图像样本特征和文本样本标签特征分别进行筛选,得到对应的有效图像样本特征和有效文本样本标签特征;对有效图像样本特征和有效文本样本标签特征进行拼接,得到多模态特征。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在使用多模态特征对生成对抗神经网络进行训练时,将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕;通过生成对抗神经网络中的分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到类别置信结果;根据类别置信结果,对生成对抗神经网络中的弹幕生成器和分类判别器进行监督训练。
在一种可选地实施方式中,分类判别器包括用于情绪分类的二分类判别器和用于内容相关性分类的多分类判别器,类别置信结果包括二分类判别器对应的情绪类别置信结果和多分类判别器对应的内容类别置信结果。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据类别置信结果,对生成对抗神经网络中的弹幕生成器进行训练时,根据情绪类别置信结果和内容类别置信结果,对生成对抗神经网络中的弹幕生成器进行训练。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在通过生成对抗神经网络中的分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到类别置信结果时,通过二分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果,情绪类别置信结果表示至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度,生成情绪用于指示由弹幕生成器生成的情绪化弹幕的情绪类型,标签情绪用于指示情绪类型为正向类型、中立类型或负向类型中的一种。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在通过二分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果时,建立至少一个情绪化弹幕与多模态特征之间的映射关系;根据至少一个情绪化弹幕与多模态特征之间的映射关系,采用二分类判别器中的第一分类函数计算至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在通过生成对抗神经网络中的分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到类别置信结果时,通过多分类判别器,依据多模态特征,对至少一个情绪化弹幕进行分类判别,得到内容类别置信结果,内容类别置信结果表示至少一个情绪化弹幕分别属于生成文本的置信度、标签文本的置信度和错误文本的置信度,生成文本包括由弹幕生成器生成的情绪化弹幕的文本内容,标签文本包括用于指示情绪化弹幕的文本内容为正向情绪内容、中立情绪内容或负向情绪内容,错误文本包括与情绪化弹幕的文本内容相关的负样例文本内容。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕时,将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个预测单词;根据至少一个预测单词,获取至少一个表征情绪信息的单词;根据至少一个预测单词和至少一个表征情绪信息的单词,生成至少一个情绪化弹幕。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据至少一个预测单词,获取至少一个表征情绪信息的单词时,根据至少一个预测单词,采用蒙特卡罗搜索算法获取至少一个表征情绪信息的单词。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在将多模态特征输入生成对抗神经网络中的弹幕生成器,生成至少一个预测单词时,将多模态特征输入弹幕生成器,生成至少一个单词向量;对至少一个单词向量进行编码,得到至少一个单词向量的隐藏状态;针对每个单词向量,根据单词向量的隐藏状态确定单词向量对应的预测单词,以得到至少一个预测单词。
可选地,在本申请的一种实施例中,计算机程序510还可以用于使得处理器502在根据单词向量的隐藏状态确定单词向量对应的预测单词时,采用第二分类函数对单词向量的隐藏状态进行分类判别,得到单词向量的置信结果,单词向量的置信结果包括单词向量分别属于至少一个预测单词的置信度;将单词向量的置信结果中,置信度最高的预测单词作为单词向量对应的预测单词。
计算机程序510具体还可以用于使得处理器502执行以下操作:在展示目标图像时展示目标图像对应的情绪化弹幕。
可以理解的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例七、
基于上述实施例一至实施例四所描述的弹幕生成方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例四所描述的弹幕生成方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的弹幕生成方法。此外,当通用计算机访问用于实现在此示出的弹幕生成方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的弹幕生成方法的专用计算机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (17)

1.一种弹幕生成方法,其特征在于,所述方法包括:
获取目标图像和表征情绪信息的文本数据;
对所述目标图像进行特征提取,得到图像特征,并且,对所述文本数据进行特征提取,得到文本特征;
将所述图像特征和所述文本特征输入训练完成的弹幕生成器,生成与所述目标图像对应的情绪化弹幕;
所述弹幕生成器通过以下方式训练生成:获取图像样本特征和文本样本标签特征;将所述图像样本特征和所述文本样本标签特征进行融合,得到多模态特征;将所述多模态特征输入所述生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕;通过所述生成对抗神经网络中的分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到类别置信结果;根据所述类别置信结果,对所述生成对抗神经网络中的弹幕生成器和所述分类判别器进行监督训练,获得用于输出情绪化弹幕的弹幕生成器,其中,所述生成对抗神经网络包括所述弹幕生成器和分类判别器。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行特征提取,得到图像特征,并且,对所述文本数据进行特征提取,得到文本特征,包括:通过图像编码器对所述目标图像进行特征提取,得到图像特征,并且,通过长短期记忆神经网络对所述文本数据进行编码,得到关联上下文信息的文本特征;
所述将所述图像特征和所述文本特征输入训练完成的弹幕生成器,生成与所述目标图像对应的情绪化弹幕,包括:将所述图像特征和所述文本特征输入训练完成的生成对抗神经网络中的弹幕生成器,生成与所述目标图像对应的情绪化弹幕。
3.根据权利要求1所述的方法,其特征在于,所述获取图像样本特征和文本样本标签特征,包括:
获取图像样本和表征情绪标签信息的文本样本数据;
对图像样本进行特征提取,得到所述图像样本特征,并且,对所述表征情绪标签信息的文本样本数据进行编码,得到所述文本样本标签特征,所述文本样本标签特征包括所述文本样本数据的关键词和情绪标签类型,所述情绪标签类型包括正向、中立和负向。
4.根据权利要求1所述的方法,其特征在于,将所述图像样本特征和所述文本样本标签特征进行融合,得到多模态特征,包括:
对所述图像样本特征和所述文本样本标签特征分别进行筛选,得到对应的有效图像样本特征和有效文本样本标签特征;
对所述有效图像样本特征和所述有效文本样本标签特征进行拼接,得到所述多模态特征。
5.根据权利要求1所述的方法,其特征在于,所述分类判别器包括用于情绪分类的二分类判别器和用于内容相关性分类的多分类判别器,所述类别置信结果包括所述二分类判别器对应的情绪类别置信结果和所述多分类判别器对应的内容类别置信结果。
6.根据权利要求5所述的方法,其特征在于,根据所述类别置信结果,对所述生成对抗神经网络中的弹幕生成器进行训练,包括:
根据所述情绪类别置信结果和内容类别置信结果,对所述生成对抗神经网络中的弹幕生成器进行训练。
7.根据权利要求5或6所述的方法,其特征在于,通过所述生成对抗神经网络中的分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到类别置信结果,包括:
通过所述二分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果,所述情绪类别置信结果表示所述至少一个情绪化弹幕分别属于生成情绪的置信度和标签情绪的置信度,所述生成情绪用于指示由所述弹幕生成器生成的情绪化弹幕的情绪类型,所述标签情绪用于指示所述情绪类型为正向类型、中立类型或负向类型中的一种。
8.根据权利要求7所述的方法,其特征在于,通过所述二分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到情绪类别置信结果,包括:
建立所述至少一个情绪化弹幕与所述多模态特征之间的映射关系;
根据所述至少一个情绪化弹幕与所述多模态特征之间的映射关系,采用所述二分类判别器中的第一分类函数计算所述至少一个情绪化弹幕分别属于所述生成情绪的置信度和所述标签情绪的置信度。
9.根据权利要求5或6所述的方法,其特征在于,通过所述生成对抗神经网络中的分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到类别置信结果,包括:
通过所述多分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到内容类别置信结果,所述内容类别置信结果表示至少一个情绪化弹幕分别属于生成文本的置信度、标签文本的置信度和错误文本的置信度,所述生成文本包括由所述弹幕生成器生成的情绪化弹幕的文本内容,所述标签文本包括用于指示情绪化弹幕的文本内容为正向情绪内容、中立情绪内容或负向情绪内容,所述错误文本包括与情绪化弹幕的文本内容相关的负样例文本内容。
10.根据权利要求1所述的方法,其特征在于,将所述多模态特征输入所述生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕,包括:
将所述多模态特征输入所述生成对抗神经网络中的弹幕生成器,生成至少一个预测单词;
根据所述至少一个预测单词,获取至少一个表征情绪信息的单词;
根据所述至少一个预测单词和所述至少一个表征情绪信息的单词,生成所述至少一个情绪化弹幕。
11.根据权利要求10所述的方法,其特征在于,所述根据所述至少一个预测单词,获取至少一个表征情绪信息的单词,包括:
根据所述至少一个预测单词,采用蒙特卡罗搜索算法获取至少一个表征情绪信息的单词。
12.根据权利要求10所述的方法,其特征在于,将所述多模态特征输入所述生成对抗神经网络中的弹幕生成器,生成至少一个预测单词,包括:
将所述多模态特征输入所述弹幕生成器,生成至少一个单词向量;
对所述至少一个单词向量进行编码,得到至少一个单词向量的隐藏状态;
针对每个单词向量,根据单词向量的隐藏状态确定所述单词向量对应的预测单词,以得到所述至少一个预测单词。
13.根据权利要求12所述的方法,其特征在于,根据单词向量的隐藏状态确定所述单词向量对应的预测单词,包括:
采用第二分类函数对所述单词向量的隐藏状态进行分类判别,得到所述单词向量的置信结果,所述单词向量的置信结果包括所述单词向量分别属于至少一个预测单词的置信度;
将所述单词向量的置信结果中,置信度最高的预测单词作为所述单词向量对应的预测单词。
14.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在展示所述目标图像时展示所述目标图像对应的情绪化弹幕。
15.一种弹幕生成装置,其特征在于,所述装置包括获取模块、特征提取模块、生成模块和训练模块;
所述获取模块用于获取目标图像和表征情绪信息的文本数据;
所述特征提取模块用于对所述目标图像进行特征提取,得到图像特征,并且,对所述文本数据进行特征提取,得到文本特征;
所述生成模块用于将所述图像特征和所述文本特征输入训练完成的弹幕生成器,生成与所述目标图像对应的情绪化弹幕;
所述训练模块包括样本获取单元、融合单元和训练单元;
所述样本获取单元用于获取图像样本特征和文本样本标签特征;所述融合单元用于将所述图像样本特征和所述文本样本标签特征进行融合,得到多模态特征;所述训练单元用于将所述多模态特征输入所述生成对抗神经网络中的弹幕生成器,生成至少一个情绪化弹幕;通过所述生成对抗神经网络中的分类判别器,依据所述多模态特征,对所述至少一个情绪化弹幕进行分类判别,得到类别置信结果;根据所述类别置信结果,对所述生成对抗神经网络中的弹幕生成器和所述分类判别器进行监督训练,获得用于输出情绪化弹幕的弹幕生成器,其中,所述生成对抗神经网络包括所述弹幕生成器和分类判别器。
16.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-14中任一项所述的弹幕生成方法对应的操作。
17.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-14中任一项所述的弹幕生成方法。
CN202011112941.6A 2020-10-16 2020-10-16 弹幕生成方法、装置、电子设备及计算机存储介质 Active CN112016573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011112941.6A CN112016573B (zh) 2020-10-16 2020-10-16 弹幕生成方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011112941.6A CN112016573B (zh) 2020-10-16 2020-10-16 弹幕生成方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112016573A CN112016573A (zh) 2020-12-01
CN112016573B true CN112016573B (zh) 2021-04-30

Family

ID=73528044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011112941.6A Active CN112016573B (zh) 2020-10-16 2020-10-16 弹幕生成方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112016573B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115134652A (zh) * 2021-03-22 2022-09-30 阿里巴巴新加坡控股有限公司 视频动态字幕生成方法、装置、电子设备及存储介质
CN113673376B (zh) * 2021-08-03 2023-09-01 北京奇艺世纪科技有限公司 弹幕生成方法、装置、计算机设备和存储介质
CN114125544A (zh) * 2021-11-10 2022-03-01 杭州电子科技大学 一种基于多模态生成的直播弹幕正向话题引导方法
CN115546355B (zh) * 2022-11-28 2023-03-31 北京红棉小冰科技有限公司 一种文本配图方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN109671137A (zh) * 2018-10-26 2019-04-23 广东智媒云图科技股份有限公司 一种图片配文字的方法、电子设备及存储介质
CN110135441A (zh) * 2019-05-17 2019-08-16 北京邮电大学 一种图像的文本描述方法及装置
CN110290403A (zh) * 2019-07-08 2019-09-27 合肥工业大学 网络视频贴片广告播放方法和系统
CN110740387A (zh) * 2019-10-30 2020-01-31 深圳Tcl数字技术有限公司 一种弹幕编辑方法、智能终端及存储介质
CN111368118A (zh) * 2020-02-13 2020-07-03 中山大学 一种图像描述生成方法、系统、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108135520B (zh) * 2015-10-23 2021-06-04 美国西门子医疗解决公司 从功能性大脑图像生成心理内容的自然语言表示

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN109671137A (zh) * 2018-10-26 2019-04-23 广东智媒云图科技股份有限公司 一种图片配文字的方法、电子设备及存储介质
CN110135441A (zh) * 2019-05-17 2019-08-16 北京邮电大学 一种图像的文本描述方法及装置
CN110290403A (zh) * 2019-07-08 2019-09-27 合肥工业大学 网络视频贴片广告播放方法和系统
CN110740387A (zh) * 2019-10-30 2020-01-31 深圳Tcl数字技术有限公司 一种弹幕编辑方法、智能终端及存储介质
CN111368118A (zh) * 2020-02-13 2020-07-03 中山大学 一种图像描述生成方法、系统、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深层多模态特征构建研究;李鑫;《中国优秀硕士论文全文数据库》;20180315;参见第27-46页 *

Also Published As

Publication number Publication date
CN112016573A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112016573B (zh) 弹幕生成方法、装置、电子设备及计算机存储介质
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN111541910B (zh) 一种基于深度学习的视频弹幕评论自动生成方法及系统
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN110781668B (zh) 文本信息的类型识别方法及装置
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN111294646A (zh) 一种视频处理方法、装置、设备及存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
Seo et al. FaNDeR: fake news detection model using media reliability
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN112784156A (zh) 基于意图识别的搜索反馈方法、系统、设备及存储介质
Shigenaka et al. Content-aware multi-task neural networks for user gender inference based on social media images
CN114943877A (zh) 模型的训练方法、装置、电子设备以及存储介质
CN115269961A (zh) 内容搜索方法以及相关设备
CN113869518A (zh) 视觉常识推理方法、装置、电子设备及存储介质
CN115130453A (zh) 互动信息生成方法和装置
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN113505267A (zh) 一种自回归弹幕生成方法和系统
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN117540024B (zh) 一种分类模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant