CN112995748A

CN112995748A - 基于多模态的自动弹幕生成方法、系统、存储介质及设备

Info

Publication number: CN112995748A
Application number: CN202110101966.4A
Authority: CN
Inventors: 孙晓飞; 周毅成
Original assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Current assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-18

Abstract

本申请公开了一种基于多模态的自动弹幕生成方法、系统、存储介质及设备，属于网络视频播放技术领域。该方法包括将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量；利用融合模型，将多模态特征向量中的图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者进行融合，得到融合特征向量；以及利用弹幕生成模型，将融合特征向量生成视频在具体时间点的弹幕。本申请结合多模态，自动生成当前视频时间点的弹幕，增强了观众之间的交互度，以及有效丰富了视频内容性。

Description

基于多模态的自动弹幕生成方法、系统、存储介质及设备

技术领域

本申请涉及网络视频播放技术领域，特别是一种基于多模态的自动弹幕生成方法、系统、存储介质及设备。

背景技术

随着当前互联网在线视频网站的兴起，“弹幕”已经成为一种内容创作者和观众互动的最重要的形式。所谓“弹幕”，就是在视频的某个时间点，用户将文本输入到画面上，而其他用户也能看到的文字交互形式。换句话说，弹幕就是一种观者即时互动的过程。弹幕生成，就是让模型自动根据当前的视频内容，生成某个时间点上的弹幕内容，从而提高视频的丰富度，以及观众之间的交互度。

然而，当前鲜有关于自动弹幕生成的模型或系统，即使有，也大都只是根据视频当前时间点的一帧或几帧画面去生成，这就忽略了用户观察视频本身就是用多种感知器官去感知世界的一种过程。

发明内容

本申请主要是提供一种基于多模态的自动弹幕生成方法、系统、存储介质及设备，以解决现有技术中的自动生成的弹幕内容乏味，视频内容不丰富，观众之间不能够即时互动的问题。

为了实现上述目的，本申请采用的一个技术方案是：提供一种基于多模态的自动弹幕生成方法，其包括：将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量，其中，多模态信息包括图像信息、音频信息或者文本信息中的至少两者，多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者；利用融合模型，将多模态特征向量中的图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者进行融合，得到融合特征向量；以及利用弹幕生成模型，将融合特征向量生成视频在具体时间点的弹幕。

本申请采用的另一个技术方案是：提供一种基于多模态的自动弹幕生成系统，其包括：用于将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量的模块，其中，多模态信息包括图像信息、音频信息或者文本信息中的至少两者，多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者；用于利用融合模型，将多模态特征向量中的图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者进行融合，得到融合特征向量的模块；以及用于利用弹幕生成模型，将融合特征向量生成视频在具体时间点的弹幕的模块。

本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以执行方案一中的基于多模态的自动弹幕生成方法。

本申请采用的另一个技术方案是：提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行方案一中的基于多模态的自动弹幕生成方法。

本申请的技术方案可以达到的有益效果是：本申请设计了一种基于多模态的自动弹幕生成方法、系统、存储介质及设备。在该方法中结合多模态，即对视频中具体时间点的图像信息、音频信息和文本信息三者中的至少两者分别进行采样编码处理，然后将处理后得到的对应的信息特征进行融合而得到的整体信息特征用于生成即时弹幕，,这有效丰富了视频内容性，增强了观众的即时互动度。

附图说明

图1是本申请一种基于多模态的自动弹幕生成方法的一个具体实施方式的示意图；

图2是本申请一种基于多模态的自动弹幕生成方法的一个具体实例的示意图；

图3是本申请一种基于多模态的自动弹幕生成系统的一个具体实施方式的示意图。

通过上述附图，已示出本申请明确的实施方式，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述，以使本申请的优点和特征能更易于被本领域技术人员理解，从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1的流程示意图示出了本申请基于多模态的自动弹幕生成方法的一个具体实施方式。

在本申请的一个具体实施方式中，本申请的基于多模态的自动弹幕生成方法包括过程S101，将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量，其中，多模态信息包括图像信息、音频信息或者文本信息中的至少两者，多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者。

在本申请的一个具体实例中，视频在一个具体时间点中，可能值包含图像信息和音频信息，没有任何弹幕和字幕，即没有文本信息，也可能包含音频信息和字幕信息，也可能包含图像信息、音频信息和文本信息三者。在本方案所阐述的实例中，视频包含三者信息，即图像信息、音频信息和文本信息。

在本申请的一个具体实施例中，将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理的过程包括，将视频中多模态信息在同一时间段内以同等时间间隔进行均匀采样。多模态信息中的图像信息、音频信息或者文本信息中的至少两者都能得到在时间上对应的各自的采样信息。

图2是本申请一种基于多模态的自动弹幕生成方法的一个具体实例。

在本申请的一个具体实例中，为了能够融合视频图像信息、音频信息和文本信息，我们需要分别对三者进行编码，提取出三者各自的特征。但又由于视频是图像、声音的连续组合体，直接从视频提取特征不可行，为此，可以先采取采样的方法。

在本申请的一个具体实施例中，具体时间点位于同一时间段的中点，这样使得在具体时间点采样得到的多模态信息更加准确。

在本申请的一个具体实例中，如图2所示先对视频图像信息、音频信息和文本信息分别进行采样处理。在输入视频的某一具体时间点t前后N秒的时间内，均匀采样X帧图片；在该输入视频的某一具体时间点t前后N秒的时间内，均匀采样2N秒的音频；在该输入视频的某一具体时间点t前后N秒的时间内，采样Y条文本，即弹幕和、或字幕。

在本申请的一个具体实例中，采样就是把模拟信号向数字信号转变的过程，先把复合视频信号中的亮度和色度分离，得到YUV或YIQ分量，然后对三个分量分别采样并进行数字化，最后再转换成RGB空间。通俗点讲，就是一个采样点里面包含了一组亮度样本(Y)和两组色差样本(Cr，Cb)，无数个采样点组合起来就是我们所看到的最终图像。假定输入视频为V，V的时长为5分钟，要在每一个具体时间点t附近N秒进行采样图像信息，在具体时间点t的前后5秒的时间内，均匀采样100帧画面，每一帧都是一张图片，得到采样后的100帧图片。

优选的，由于电影每秒播放24帧画面，国内电视式制每秒播放25帧画面，由于人类肉眼的“视觉暂留”和“脑补”现象，每秒播放24帧画面我们都认为此视频是流畅的。一般一个流畅视频每秒播放24帧画面就可以了。视频中具体时间点t附近N秒内，N至少为1，则在视频具体时间点t前后2秒内的图像至少包含48帧画面。

在本申请的一个具体实例中，音频信号是一种连续变化的模拟信号，但编码器只能处理和记录二进制的数字信号，所以视频中的音频信号必须经过A/D转换器转换，成为数字音频信号之后，才能送到编码器中作进一步的编码处理。而声音数字化的两个关键步骤就是采样和量化。采样就是每隔一定时间就读一次声音信号的幅度，量化则是将采样得到的声音信号幅度转换为数字值，从本质上讲，采样是时间上的数字化，而量化则是幅度上的数字化。在输入视频为V，V的时长为5分钟的前提下，要在每一个具体时间点t附近N秒进行采样音频信息，我们同样要在具体时间点t的前后5秒的时间内进行音频采样，获得10秒的音频数据。在此需提前设置采样频率为48KHz，采样位数为16位，这样得到的数字化后的音频信号不仅音质越好，也越可能接近原始信号。

在本申请的一个具体实例中，在输入视频为V，V的时长为5分钟的前提下，在每一个具体时间点t附近N秒进行采样文本信息，我们同样需要在具体时间点t的前后5秒的时间内进行文本信息采样，采样20条历史弹幕和、或字幕。

在本申请的一个具体实施例中，将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理的过程还包括，利用多模态编码模型，将经采样处理的多模态信息进行编码处理得到对应的多模态特征向量，其中，多模态编码模型包括图像编码模型、音频编码模型和文本编码模型，利用三种编码模型分别同时编码具有一定的灵活度，便于手动控制参与融合的部分，多模态信息中的图像信息、音频信息或者文本信息中的至少两者同时进行采样编码处理使得弹幕生成的过程延迟很小，能够及时根据视频内容生成弹幕。

在本申请的一个具体实例中，将采样后的视频中的图像信息、音频信息和文本信息分别输入到图2所示的图像编码模型、音频编码模型以及文本编码模型中一起进行训练，分别得到三者各自的特征向量。

在本申请的一个具体实例中，将采样得到的X帧图片送入图像编码模型，得到这X帧图片的图像信息特征向量P；将采样得到的2N秒的音频送入音频编码模型，得到音频信息特征向量A；将采样得到的Y条弹幕和、或字幕送入文本编码模型，得到文本信息特征向量T。

在本申请的一个具体实例中，图像编码也是图像压缩，图像编码模型是将经过模-数变换的原始数字图像进行去相关处理，去除信息的冗余度；然后，根据一定的允许失真要求，对去相关后的信号编码即重新码化。一般用线性预测和正交变换进行去相关处理，对去相关后的图像数字矩阵进行正交变换，得到采样后100帧图片的图像信息特征向量P。

在本申请的一个具体实例中，根据编码方式的不同，音频编码技术分为三种：波形编码、参数编码和混合编码。一般来说，波形编码是指不利用生成音频信号的任何参数，直接将时间域信号变换为数字代码，使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。波形编码的基本原理是在时间轴上对模拟语音信号按一定的速率抽样，然后将幅度样本分层量化，并用代码表示；它的话音质量高，但编码码率也很高；参数编码是从语音波形信号中提取生成语音的参数，使用这些参数通过语音生成模型重构出语音，使重构的语音信号尽可能地保持原始语音信号的语意。也就是说，参数编码是把语音信号产生的数字模型作为基础，然后求出数字模型的模型参数，再按照这些参数还原数字模型，进而合成语音；它的编码码率很低，产生的合成语音的音质不高；混合编码使用参数编码技术和波形编码技术，并结合了波形编码高质量和参数编码的低编码码率，其编码码率和音质介于它们之间。

在本申请的一个具体实例中，音频编码模型我们采用波形编码中的脉冲代码调制编码，即PCM编码，将经过采样量化的音频数据矩阵进行编码处理，得到音频信息特征向量A。

在本申请的一个具体实例中，文本编码模型根据文本编码规范协议将20条弹幕和、或字幕的内容处理成文本编码模型能识别的字符，然后进行编码处理后得到文本信息特征向量T。常见的文本编码有ASCII编码、GBK编码、Unicode编码、UTF-8编码等等。

在本申请的一个具体实例中，多模态就是用多种感知器官去感知世界的方法，比如听觉、视觉、触觉等等。在这里，多模态指的是视频的图像、音频和文本。

在本申请的一个具体实施方式中，图1所示的基于多模态的自动弹幕生成方法还包括过程S102，利用融合模型，将多模态特征向量中的图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者进行融合，得到融合特征向量。

在本申请的一个具体实例中，如果视频没有字幕和弹幕，那视频便没有文本信息，但是采集编码过程对视频中的图像信息、音频信息及文本信息都会进行采样编码处理，只不过是对文本信息采样编码得到的是空特征向量，即没有文本特征。融合的过程便只对视频中的图像信息和音频信息进行融合。

在本申请的一个具体实例中，分别编码具有一定的灵活度，可以手动控制哪些部分参与融合。

在本申请的一个具体实施方式中，图1所示的基于多模态的自动弹幕生成方法还包括过程S103，利用弹幕生成模型，将融合特征向量生成视频在具体时间点的弹幕。

在本申请的一个具体实例中，图2展示出采样图片经过图像编码模型的编码处理后得到的图像信息特征向量P，采样音频经过音频编码模型的编码处理后得到的音频信息特征向量A以及采样文本经过文本编码模型的编码处理后得到的文本信息特征向量T，将这三者一起输入到特征融合模型中进行融合，得到一个融合后的融合特征向量Q。融合特征向量Q具有图像信息特征向量P，音频信息特征向量A以及文本信息特征向量T的重要信息特征，能很好地表达出视频中图像，声音和文本之间的关联性。

在本申请的一个具体实例中，将融合后的融合特征向量Q输入到弹幕生成模型中，弹幕生成模型利用解码器对融合特征向量Q进行解码，生成弹幕。在此过程中，输入的是图像信息、音频信息及文本信息三者融合后的信息特征，输出为该视频在某一具体时间点的弹幕。

图3的流程示意图示出了本申请基于多模态的自动弹幕生成系统的一个具体实施方式。

在本申请的一个具体实施方式中，一种基于多模态的自动弹幕生成系统包括模块301，用于将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量的模块，其中，多模态信息包括图像信息、音频信息或者文本信息中的至少两者，多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者。

在本申请的一个具体实例中，模块301还用于设定输入视频的采样时间，并且图像信息、音频信息及文本信息的采样时间相同。

在本申请的一个具体实例中，模块301还包含编码模型，其中编码模型包含图像编码模型、音频编码模型以及文本编码模型。

在本申请的一个具体实例中，模块301还用于针对不同的信息采取不同的设置。比如采集图像信息时，使用视频图片采集工具，设置好帧间距和采集数量，例如帧间距1秒，采集数量10帧，在具体时间点t的前后5秒的时间内，采集100帧图片，将采集到的100帧图片送入到图像编码模型中。

在本申请的一个具体实例中，模块301采集视频中的音频信号时，使用视频中音频采集工具每隔一定时间就读一次声音信号的幅度，然后将采样得到的声音信号幅度转换为数字值，将采样得到的音频信息送到音频编码模型中。

在本申请的一个具体实例中，模块301采集文本信息时，首先在输入视频V的具体时间点t的额前后5秒的时间内，采集20条文本信息，并且获得文本具体内容，将这20条文本信息送入到文本编码模型中。

在本申请的一个具体实例中，模块301将采样的100帧图片的数据进行处理，处理包括对图片数据矩阵的正交变换，编码等等，最后得到这100帧图片的图像信息特征向量P；音频编码模型将采集的经采样量化后的10秒的音频信息进行编码处理，得到音频信息特征向量A；文本编码模型根据编码协议表将文本信息转换成编码器能看懂的机器语言，如二进制的数字信号，编码后得到的文本信息特征向量T。

在本申请的一个具体实施方式中，一种基于多模态的自动弹幕生成系统还包括模块302，用于利用融合模型，将多模态特征向量中的图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者进行融合，得到融合特征向量的模块。

在本申请的一个实例中，模块302还用于提取图像信息特征向量P、音频信息特征向量A和文本信息特征向量T各自的特征。

在本申请的一个实例中，编码模型进行编码处理后得到的图像信息特征向量P、音频信息特征向量A和文本信息特征向量T送到特征融合模块，利用特征融合模型进行三个信息的特征融合，形成融合后的融合特征向量Q。

在本申请的一个具体实施方式中，一种基于多模态的自动弹幕生成系统还包括模块303，用于利用弹幕生成模型，将融合特征向量生成视频在具体时间点的弹幕的模块。

在本申请的一个具体实例中，模块303包含弹幕生成模型，能够将融合后的融合特征向量输入到弹幕生成模型中，最终生成视频在某一具体时间点的弹幕。

本申请提供的基于多模态的自动弹幕生成系统，可用于执行上述任一实施例描述的基于多模态的自动弹幕生成方法，其实现原理和技术效果类似，在此不再赘述。

在本申请的一个具体实施例中，本申请一种基于多模态的自动弹幕生成系统中模块301，模块302，以及模块303可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(简称：CPU)，还可以是其他通用处理器、数字信号处理器(简称：DSP)、专用集成电路(简称：ASIC)、现场可编程门阵列(简称：FPGA)或其它可编程逻辑系统、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算系统的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC(专用集成电路)中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行任一实施例描述的基于多模态的自动弹幕生成方法。

在本申请的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行任一实施例描述的基于多模态的自动弹幕生成方法。

在本申请所提供的几个实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上描述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于多模态的自动弹幕生成方法，其特征在于，包括：

将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量，其中，所述多模态信息包括图像信息、音频信息或者文本信息中的至少两者，所述多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者；

利用融合模型，将所述多模态特征向量中的所述图像信息特征向量、所述音频信息特征向量或者所述文本信息特征向量中的至少两者进行融合，得到融合特征向量；以及

利用弹幕生成模型，将所述融合特征向量生成所述视频在所述具体时间点的弹幕。

2.如权利要求1所述的基于多模态的自动弹幕生成方法，其特征在于，所述将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理的过程包括：

将所述视频中所述多模态信息在同一时间段内以同等时间间隔进行均匀采样。

3.如权利要求2所述的基于多模态的自动弹幕生成方法，其特征在于，所述将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理的过程还包括：

利用多模态编码模型，将经采样处理的多模态信息进行编码处理得到对应的多模态特征向量，其中，所述多模态编码模型包括图像编码模型、音频编码模型和文本编码模型。

4.如权利要求1所述的基于多模态的自动弹幕生成方法，其特征在于，所述具体时间点位于所述同一时间段的中点。

5.一种基于多模态的自动弹幕生成系统，其特征在于，包括：

用于将视频中包含具体时间点的同一时间段内的多模态信息进行采样编码处理，得到对应的多模态特征向量的模块，其中，所述多模态信息包括图像信息、音频信息或者文本信息中的至少两者，所述多模态特征向量包括图像信息特征向量、音频信息特征向量或者文本信息特征向量中的至少两者；

用于利用融合模型，将所述多模态特征向量中的所述图像信息特征向量、所述音频信息特征向量或者所述文本信息特征向量中的至少两者进行融合，得到融合特征向量的模块；以及

用于利用弹幕生成模型，将所述融合特征向量生成所述视频在所述具体时间点的弹幕的模块。

6.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-4中任一项所述的基于多模态的自动弹幕生成方法。

7.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-4中任一项所述的基于多模态的自动弹幕生成方法。