CN115243111A

CN115243111A - 视频弹幕生成方法、装置、存储介质及电子设备

Info

Publication number: CN115243111A
Application number: CN202210794405.1A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-25

Abstract

本申请实施例公开了视频弹幕生成方法、装置、存储介质及电子设备，可以应用于云领域、人工智能领域或者视频应用领域。上述方法包括：获取目标视频片段；根据上述目标视频片段，获取上述目标片段所属的目标视频所对应的视频要素信息；根据上述视频要素信息进行知识联想，生成上述目标视频片段对应的视频弹幕，上述视频弹幕根据目标知识生成，上述目标知识为根据上述视频要素信息进行知识联想所得到的、并且不属于上述目标视频片段本身的知识。本申请可以生成知识联想类型的弹幕，这类弹幕不属于该视频当前内容所属的长视频但是由于与该视频当前内容存在某些关联，从而可以激发用户的联想能力和互动热情，提升用户体验。

Description

视频弹幕生成方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及视频弹幕生成方法、装置、存储介质及电子设备。

背景技术

视频弹幕可以指直接显现在视频上的评论，可以以滚动、停留甚至更多动作特效方式出现在视频上。视频弹幕可以显著增强视频表现力，丰富视频的互动能力，提升用户的参与度以及粘度。目前，相关技术中的视频弹幕可以来自用户的发送或者根据视频内容自动生成，但是视频弹幕较多的专注于视频内容本身，对于除去视频内容本身之外的其他内容的关注较少，从而在一定程度上约束了弹幕本身的内容，也为用户参与弹幕交互无形中设置了瓶颈。

发明内容

为了解决上述至少一个技术问题，本申请实施例提供视频弹幕生成方法、装置、存储介质及电子设备。

一方面，本申请实施例提供了一种视频弹幕生成方法，所述方法包括：

获取目标视频片段；

根据所述目标视频片段，获取所述目标片段所属的目标视频所对应的视频要素信息；

根据所述视频要素信息进行知识联想，生成所述目标视频片段对应的视频弹幕，所述视频弹幕根据目标知识生成，所述目标知识为根据所述视频要素信息进行知识联想所得到的、并且不属于所述目标视频片段本身的知识。

另一方面，本申请实施例提供一种视频弹幕生成装置，所述装置包括：

目标视频片段获取模块，用于获取目标视频片段；

视频要素信息获取模块，用于根据所述目标视频片段，获取所述目标片段所属的目标视频所对应的视频要素信息；

弹幕生成模块，用于根据所述视频要素信息进行知识联想，生成所述目标视频片段对应的视频弹幕，所述视频弹幕根据目标知识生成，所述目标知识为根据所述视频要素信息进行知识联想所得到的、并且不属于所述目标视频片段本身的知识。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种视频弹幕生成方法。

另一方面，本申请实施例提供了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种视频弹幕生成方法。

另一方面，本申请实施例提供了一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述的一种视频弹幕生成方法。

本申请实施例提供一种视频弹幕生成方案，该方案不仅关注视频本身的内容，还根据视频本身的内容和视频本身的内容所对应的视频信息进行知识联想，从而确定出不属于视频本身的内容但是与该视频本身的内容具备明显关联的相关知识，根据这些知识生成知识联想类的弹幕，这类弹幕可以有效触发用户联想，提升弹幕互动率和弹幕的知识富集度。在对上述视频本身的内容进行显示的场景中，该视频本身的内容即为正在播放的视频当前内容，在该视频当前内容的基础上即可显示对应的知识联想类的弹幕，这类弹幕不属于该视频当前内容所属的长视频但是由于与该视频当前内容存在某些关联，从而可以激发用户的联想能力和互动热情，提升用户体验。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案和优点，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本说明书实施例提供的相关技术中用户发送的知识联想类型弹幕的示意图；

图2是本说明书实施例提供的视频弹幕生成方法的一种可行的实施框架示意图；

图3是本申请实施例提供的一种视频弹幕生成方法的流程示意图；

图4是本申请实施例提供的人名实体识别模型示意图；

图5是本申请实施例提供的情节类型识别模型示意图；

图6是本申请实施例提供的弹幕生成模型的示意图；

图7是本申请实施例提供的弹幕筛选方法流程图；

图8是本申请实施例提供的进行弹幕筛选所使用的模型的示意图；

图9是本申请实施例提供的视频处理方案的示意图；

图10是本申请实施例提供的视频弹幕生成装置的框图；

图11是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果，本申请实施例首先对于相关专业名词进行解释：

云技术(Cloud technology)：是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

智能交通系统(Intelligent Traffic System，ITS)又称智能运输系统(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

智能车路协同系统(Intelligent Vehicle Infrastructure CooperativeSystems，IVICS)，简称车路协同系统，是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。

BERT(Bidirectional Encoder Representation from Transformers，基于转换模型的双向编码表示模型)，是大规模文本预训练模型，BERT用12层的transformerencoder(转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量)，经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识，提供更精准的文本特征。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替。

人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

视频弹幕：用户观看到视频某位置时，发布的针对当前视频内容的即时互动，通过弹幕可增强视频平台的用户互动氛围。其他用户可以为该弹幕点赞，或者回复该弹幕，从而使得很多用户都参与到对当前视频内容的讨论之中。

知识联想视频弹幕：在视频弹幕中有一类型弹幕具备较高的互动，如图1所示，视频中某个演员正在出演角色1，并且该名演员曾经出演过角色2，则可以显示以角色2为内容的视频弹幕，这一类型的弹幕可以引发观看者对于该名演员以及角色1的有关联想和讨论，也就是说，这类弹幕能引起用户进行更多人物、情节联想，因此能获得更高的互动，本申请实施例中将这一类型的弹幕称为知识联想弹幕，生产足够充分的知识联想弹幕可以充分满足用户的互动需求。知识联想弹幕具有很高的业务应用价值，长期来看可以为视频平台的用户互动会带来可观提升。

短视频：短视频即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频。时长高于5分钟的视频为长视频。

目前，相关技术中可以依赖于用户发送和自身生成两种方式得到视频弹幕，用户发送的视频弹幕不可控，而自身生成的视频弹幕通常只是专注于正在播放的视频当前内容，而没有考虑到跟视频当前内容有关的其他内容，并未进行知识联想，因此，无法生成知识联想类型的视频弹幕，只能生成专注于视频当前内容的普通弹幕，这类弹幕不能与用户的思考联想能力结合，但用户有主动思考意识与客观需求，因此相关技术中的视频弹幕生成方法不能满足用户的高阶弹幕需求。

有鉴于此，本申请实施例提供一种视频弹幕生成方案，该方案不仅关注视频本身的内容，还根据视频本身的内容和视频本身的内容所对应的视频信息进行知识联想，从而确定出不属于视频本身的内容但是与该视频本身的内容具备明显关联的相关知识，根据这些知识生成知识联想类的弹幕，这类弹幕可以有效触发用户联想，提升弹幕互动率和弹幕的知识富集度。在对上述视频本身的内容进行显示的场景中，该视频本身的内容即为正在播放的视频当前内容，在该视频当前内容的基础上即可显示对应的知识联想类的弹幕，这类弹幕不属于该视频当前内容所属的长视频但是由于与该视频当前内容存在某些关联，从而可以激发用户的联想能力和互动热情，提升用户体验。

本申请实施例可以被应用于公有云、私有云或混合云场景之中，比如，本申请中的视频或者视频弹幕可以被存储于上述公有云、私有云或者混合云之中。私有云(PrivateCloud)是将云基础设施与软硬件资源创建在防火墙内，以供机构或企业内各部门共享数据中心内的资源。公有云(Public Cloud)通常指第三方提供商为用户提供的能够使用的云，公有云一般可通过Internet使用，可能是免费或成本低廉的，公有云的核心属性是共享资源服务。这种云有许多实例，可在当今整个开放的公有网络中提供服务。混合云(HybridCloud)融合了公有云(Public Cloud)和私有云(Private Cloud)，是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户，出于安全考虑，企业更愿意将数据存放在私有云中，但是同时又希望可以获得公有云的计算资源，在这种情况下混合云被越来越多的采用，它将公有云和私有云进行混合和匹配，以获得最佳的效果，这种个性化的解决方案，达到了既省钱又安全的目的。

请参阅图2，图2是本说明书实施例提供的视频弹幕生成方法的一种可行的实施框架示意图，如图2所示，该实施框架可以至少包括客户端10、视频弹幕生成处理器20，客户端10和视频弹幕生成处理器20通过网络30通信。视频弹幕生成处理器20可以为客户端10中显示的视频当前内容生成视频弹幕，并根据客户端10的实际需求将这些视频弹幕有选择地发送至客户端10中，以触发客户端10将上述视频弹幕显示在上述视频当前内容中。本申请实施例并不限定生成的视频弹幕的接受者，其可以为某个或某些客户端10。本发明实施例的上述框架可以提供各种场景下的应用所需的视频弹幕生成能力，该应用包括但不限于云技术、云游戏、云渲染、人工智能、智慧交通、辅助驾驶、视频媒体、智能社区、即时通信等。该框架中各组件可以是终端设备或服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

以下介绍本申请实施例的一种视频弹幕生成方法，图3示出了本申请实施例提供的一种视频弹幕生成方法的流程示意图。本申请实施例提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)，上述方法可以包括：

S101.获取目标视频片段。

本公开实施例并不限定目标视频片段，可以认为其是用于生成视频弹幕的视频片段，该视频片段在一些短视频应用场景中也可以被理解为完整的短视频。对于视频库中的任意视频都可以根据用户需求生成至少一个目标视频片段，并且为这些目标视频片段生成弹幕。

目标视频片段也可以作为视频播放场景中的播放单元，比如，客户端可以向服务器请求播放视频，服务器将组成该视频的若干目标视频片段发送至客户端，客户端即可按照该若干目标视频片段在该视频中的时序顺序对各目标视频片段进行播放。

举个例子，对视频V构建弹幕，可以基于时间窗口T(如T＝7秒)将视频V切分为多个目标视频片段，对每一目标视频片段构建对应的视频弹幕。

S102.根据上述目标视频片段，获取上述目标片段所属的目标视频所对应的视频要素信息。

本申请实施例并不限定视频要素信息的具体内容，比如，其可以包括目标视频的视频名称、演员表、角色表，演员-角色扮演关系等。在一个实施方式中，该视频要素信息包括上述目标视频的知识图谱，而上述视频名称、演员表、角色表，演员-角色扮演关系等内容可以作为上述知识图谱的内容。

根据上述知识图谱可以确定上述目标视频片段对应的片段要素，上述片段要素包括下述至少之一：上述目标视频片段出现的演员、上述目标视频片段出现的角色、上述目标视频片段所属的情节类型。根据上述片段要素，可以生成上述目标视频片段对应的视频弹幕。

S103.根据上述视频要素信息进行知识联想，生成上述目标视频片段对应的视频弹幕，上述视频弹幕根据目标知识生成，上述目标知识为根据上述视频要素信息进行知识联想所得到的、并且不属于上述目标视频片段本身的知识。

具体来说，在进行知识联想之前，可以识别目标视频片段所属的目标视频，该目标视频可以为正片长视频，此处识别正片长视频目的是因为视频弹幕中相关的联想到的知识应该为其他的视频信息，不会联想到自身(目标视频)的信息，识别正片长视频一方面可以基于该正片长视频的视频要素信息进行知识联想，另一方面还可以通过该视频要素信息确定目标知识，该目标知识为根据上述视频要素信息进行知识联想所得到的、并且不属于上述目标视频片段本身的知识，这就避免在进行知识联想的环节联想到自身而导致的降低视频弹幕质量的情况。当然，如果目标视频片段本身就是完整的视频，则可以直接提取其对应的视频要素信息，否则，根据该目标视频片段检索其所属的目标视频。在一个具体的实施例中，可以基于指纹进行目标视频的检索，具体来说，可以对目标视频片段进行指纹表示，然后查询视频平台的正片指纹库，获取到目标视频片段的出处长视频(目标视频)。

视频平台有大量的正片长视频数据，目标视频即为其中之一，其可以包括视频名称、演员表、角色表，演员-角色扮演关系等视频要素信息，将这些信息构建成一个小型知识图谱，通过此知识图谱可以实现：查询一个长视频的演员表、角色表，以及演员-角色扮演关系，以及通过演员名查询参演的多个剧、通过角色名查询演员名、通过演员名查询角色名等，当然，演员或者角色可以通过名称、昵称或者代号等表征。

在一个具体的实施例中，基于该知识图谱可以查询目标视频片段的片段要素，具体来说，该片段要素可以包括下述至少之一：上述目标视频片段出现的演员、上述目标视频片段出现的角色、上述目标视频片段所属的情节类型。显而易见，目标视频片段出现的角色、演员等必然为目标视频的知识图谱的子集，因此，根据上述知识图谱进行片段要素提取可以提升片段要素提取的准确度。

对于片段要素中的演员的提取，本申请实施例可以给出两个方法，当然，本申请实施例也不限定其他方法同样可以实现演员提取。

第一个方法为通过文本内容来识别目标视频片段中出现的演员。可以获取目标视频片段中的文本内容，比如通过光学字符识别的方式获取目标视频片段的字幕、通过自动语音识别(ASR)获取目标视频片段的对白文本或者直接提取该目标视频片段已有的弹幕文本，根据这些文本内容识别人名实体。请参考图4，其示出人名实体识别模型示意图。通过在该模型的输入层输入前文中得到的文本内容，该文本内容经过BERT和最大池化操作后可以输出该文本内容中包含各个演员的概率，或者包含各个角色的概率，根据角色与演员的对应关系，即可得到目标视频片段中出现的演员。其中，图4的Span、Width、CLS、Context分别表示超文本标记语言的行内标签，被用来组合文档中的行内元素、文本宽度标签、BERT添加的分类标签以及文本标签。Max Pooling表示最大池化操作，Width Embedding表示文本宽度方向嵌入操作。

第二个方法为通过图像人脸检测方式实现。通过对目标视频片段进行图像帧人脸检测，然后与视频平台演员人脸库进行比对，识别出相应的演员，保留出现在目标视频片段对应出处正片视频的演员列表集合中的演员实体，并扩充通过目标视频片段文本识别出的演员集合，最终得到目标视频片段的演员集合。

另外，还可以对目标视频片段进行情节类型识别，比如搞笑、打斗等，情节类型可以反映此目标视频片段的基础背景，作为后续知识联想弹幕生成的输入特征，决定了后续视频弹幕生成的调性。对于片段要素中的情节类型的提取，也可以采用神经网络的方式实现，通过神经网络技术训练得到情节类型识别模型。请参考图5，其示出情节类型识别模型示意图。具体来说，可以对目标视频片段的关键帧序列进行特征提取，得到每一单帧的特征表达，并通过自注意力网络对各单帧的特征表达进行多帧融合处理，从而得到目标视频片段的图像表达。当然，本申请实施例不限定单帧特征提取和多帧融合的方法，比如，可以使用相关技术中已有的EfficientNet网络进行单帧提取，使用自注意力网络Self-Attention进行多帧融合。并且，提取该目标视频片段的文本内容，对上述文本内容进行文本特征提取处理，得到目标视频片段的文本特征，对上述图像表达和上述文本特征进行特征融合处理，对融合结果进行情节类型预测，从而得到情节类型的概率分布。根据预测的结果可以确定目标视频片段所属的情节类型。

事实上，在确定出目标视频片段的基础上，可以确定出目标知识范围，目标知识范围可以被理解为目标知识所形成的范围，也就是说，根据目标知识范围内的任意知识都可以生成知识脸型类型的视频弹幕，当然，本申请实施例并不限定生成视频弹幕的方法，可以参考相关技术。在一个实施例中，根据前文的片段要素可以得到目标视频片段出现的演员集合、角色集合，查询该演员集合可以得到每个演员参演的其他视频，查询该角色集合可以查询出出演过这一角色的其他视频中的演员或者角色，根据查询结果即可构建出对于目标视频片段而言可联想的视频知识范围，比如，该视频知识范围可以被表达为：

目标视频片段演员a1、目标视频片段对应的角色j1、参演的其他视频v1、参演的其他视频角色jo1

目标视频片段演员a1、目标视频片段对应的角色j1、参演的其他视频v2、参演的其他视频角色jo2

…

目标视频片段演员ax、目标视频片段对应的角色jx、参演的其他视频vy、参演的其他视频角色joy……

在一个实施例中，可以根据上述片段要素确定可以进行知识联想的目标知识范围，在该目标知识范围内通过受限生成的方式构建弹幕生成模型，该弹幕生成模型用于生成目标视频片段对应的视频弹幕。具体的，可以根据上述片段要素中的各个内容生成对应的第一候选信息；根据上述目标视频片段对应的文本内容生成第二候选信息；基于该弹幕生成模型对各上述第一候选信息和上述第二候选信息进行决策，根据决策结果生成上述视频弹幕。

在一个实施例中，上述片段要素包括上述目标视频片段出现的演员、上述目标视频片段所属的情节类型，上述根据上述片段要素中的各个内容生成对应的第一候选信息，包括：上述演员参演的其他视频的信息，以及上述其他视频中上述演员的角色信息；还包括上述情节类型对应的信息。

上述对各上述第一候选信息和上述第二候选信息进行决策，根据决策结果生成上述视频弹幕，包括：将上述演员参演的其他视频的信息，以及上述其他视频中上述演员的角色信息形成的第一候选信息作为第一输入信息；将上述第二候选信息作为第二输入信息；将上述情节类型对应的信息作为第三输入信息；将上述第一输入信息、上述第二输入信息和上述第三输入信息作为受限生成控制模型的输入信息，得到上述受限生成控制模型输出的上述视频弹幕。

请参考图6，其示出弹幕生成模型的示意图。该弹幕生成模型可以基于Transformer模型结构构建，Transformer可以被理解为编解码器。编码单元(Transformer-Encoder)可以用于接收生成视频弹幕所需的一些信息，而解码单元(Transformer-Decoder)可以用于生成视频弹幕，本申请实施例中受限生成控制单元和解码单元配合工作，从而形成受限生成控制模型，弹幕生成模型中包括该受限生成控制模型。受限生成控制模型的受限生成控制单元用于对生成视频弹幕所需的上述第一输入信息、上述第二输入信息和第三输入信息进行决策，选取目标输入信息，解码单元用于根据选择得到的目标输入信息生成视频弹幕。

在一个实施例中，可以对上述目标视频片段的文本信息进行编码处理，得到上述第二输入信息，也就是说，可以将目标视频片段对应的文本内容，比如对白、字幕文本、弹幕等内容通过分词与向量化之后输入Transformer-Encoder，从而得到对目标视频片段的对白、字幕文本的深度表示(第二输入信息)，为Transformer-Decoder部分知识联想弹幕生成做依据，对上述第一输入信息、上述第二输入信息和上述第三输入信息进行基于受限生成决策的解码处理，得到上述视频弹幕。Transformer-Decoder部分逐步解码生成知识联想弹幕，在每步生成时候，通过受限生成控制单元，来决策是从第一输入信息选择一个演员、角色，或者剧名来生成，还是从Encoder部分的第二输入信息中复制一个视频内容词汇来生成，亦或是从普通词表中选择一个词汇来生成，通过就这样实现了知识联想受限生成。

在一个具体的实施例中，上述对上述第一输入信息、上述第二输入信息和上述第三输入信息进行基于受限生成决策的解码处理，得到上述视频弹幕，包括：根据第一输入信息和受限控制模型的解码单元的隐层输入向量，确定上述第一输入信息联想后对应的注意力信息；响应于上述注意力信息满足预设要求的情况，上述受限控制模型的解码单元根据上述第一输入信息的联想结果生成上述视频弹幕；响应于上述注意力信息不满足预设要求的情况，上述受限控制模型的解码单元根据上述第二输入信息生成上述视频弹幕。

如上述图6所示，Transformer-Decoder在每步生成一个弹幕词时，可以先计算一个受限生成注意力信息(Attention)，通过Transformer-Decoder当前步的隐层输出向量x与每个知识联想信息(基于第一输入信息联想得到的信息)进行交互计算第一输入信息联想后对应的注意力信息(Attention)，假定第i个知识联想信息的表示为kv[i]，使用知识联想信息i的受限生成Att_kgen[i]＝e^(x*w[i]*kv[i])/sum_j(e^(x*w[j]*kv[j]))，如果针对知识联想信息i的受限生成Attention Att_kgen[i]最大且满足阈值P_THRE_KGEN，且知识联想信息i属于目标视频片段对应的目标知识范围，则Transformer-Decoder本步生成直接输出知识联想信息i作为视频弹幕的生成结果。

如果当前生成步未能从知识联想信息中受限生成，则计算从目标视频片段的文本信息中直接复制某个词的概率，同样针对目标视频片段的文本信息(第二输入信息)中的每个词计算一个复制概率注意力信息(Attention)，类似于上述针对知识联想信息的Attention计算，如果针对目标视频片段中某文本词的复制概率Attention满足阈值，则此步生成时，直接将目标视频片段相应文本词输出。否则针对通用词表中各个文本词计算Attention概率分布，选择概率较大的词进行弹幕生成。

弹幕生成模型还接收第三输入信息，该第三输入信息可以被理解为根据前文得到的情节类型概率分布所得到的信息，具体来说，可以将前文得到的情节类型概率分布输入弹幕生成模型的全连接网络层，从而得到若干情节表示信息，根据这些情节表示信息生成若干弹幕词，这些弹幕词也可以参与到受限生成控制模型的决策中，如果这些弹幕词对应的注意力信息足够充分，也可以被作为弹幕输出。注意力信息的获取方式参考前文，不做赘述。

当然，本申请实施例并不限定前文中弹幕生成模型的训练方法。其训练所需的数据集可以通过下述方法构建:

对若干样本视频片段的原有已发布的弹幕进行筛选，保留可联想的知识范围内演员名、其他剧名角色的弹幕作为训练与验证数据集。通过在上述构建的训练据集上进行训练，待弹幕生成模型训练收敛后，通过Transformer-Encoder部分输入验证数据集的若干视频片段的文本内容，在Transformer-Decoder部分输入对应的视频片段的情节概率分布、挖掘好的可联想知识范围备选，可以输出与视频相关的知识联想弹幕，对这些弹幕即可进行验证，验证通过即可上线应用。

按照上述方法为各目标视频片段生成好知识联想弹幕后，当用户观看到具体某一目标视频片段时，可以基于用户的个性化兴趣情况，从该目标视频片段的多个知识联想弹幕中选取合适的传输到客户端，由客户端进行展示。弹幕筛选方法如图7上述，包括：

S201.获取用户账户的兴趣标签序列。

本申请实施例并不限定兴趣标签序列的具体内容，其可以是视频平台记录的每一用户所对应的标签，这些标签体现了用户的感兴趣倾向信息，比如<萌宠><温馨>等，如果存在这些标签，则显然打斗类的情节相关的弹幕很大程度不会受到该用户的青睐。

S202.根据上述兴趣标签序列，确定上述用户账户对应的兴趣表示信息。

请参考图8，其示出进行弹幕筛选所使用的模型的示意图。在图8中，可以使用BERT提取用户账户对应的兴趣表示信息。

S203.根据上述目标视频片段对应的视频弹幕得到上述视频弹幕的文本表示信息。

上述视频弹幕可以为根据本申请中的方法所生成的知识联想类型的视频弹幕，当然，还可以是其它方式得到的弹幕，比如自动生成的普通弹幕，或者来自一些客户端发送的弹幕，通过BERT提取其中的文本信息。

S204.获取上述目标视频片段对应的上下文表示信息。

将目标视频片段的文本信息，比如对白、字幕等通过BERT进行信息提取，得到上下文表示信息。

S205.融合上述兴趣表示信息、上述文本表示信息和上述上下文表示信息。

S206.根据融合结果，确定上述用户账户对上述视频弹幕的感兴趣概率。

S207.响应于上述感兴趣概率大于预设阈值的情况，将上述视频弹幕推送到上述用户账户对应的客户端，以使得上述客户端显示上述视频弹幕。

当然，本申请实施例并不限定图8中的模型的训练过程所使用的数据的获取方式。具体来说，其使用的训练集可以选择有用户互动(如点赞)的知识弹幕作为正例，其他作为负例，对上述图8中的模型进行训练，待模型训练收敛后，模型可在输入用户兴趣标签序列、弹幕内容、视频片段的文本内容条件下，输出用户对此弹幕的兴趣概率，将满足一定兴趣概率阈值的弹幕展示给用户，至此实现基于知识联想的视频弹幕生成与展现。

本申请实施例充分考虑到相关技术没有利用视频知识构建知识联想类型的视频弹幕，导致生成的弹幕只能与视频当前内容相关，不能与用户的进一步思考结合，不能满足用户的观看视频的联想本能需求的现状，从而提出了一种知识联想弹幕的生成方案，如图9所示，其示出本申请实施例的视频处理方案的示意图。通过对用户观看的视频内容挖掘可联想的知识信息，并结合视频领域知识图谱，构建出视频知识联想范围，通过特别训练得到的基于知识联想受限生成的弹幕生成模型，可自动生成视频知识联想类型的视频弹幕，并且还可以基于观看用户的个性化兴趣，选取相应的知识联想弹幕进行展示，通过本申请可以显著提升视频弹幕的互动率与互动深度。

请参考图10，其示出本实施例中一种视频弹幕生成装置的框图，上述装置包括：

目标视频片段获取模块101，用于获取目标视频片段；

视频要素信息获取模块102，用于根据上述目标视频片段，获取上述目标片段所属的目标视频所对应的视频要素信息；

弹幕生成模块103，用于根据上述视频要素信息进行知识联想，生成上述目标视频片段对应的视频弹幕，上述视频弹幕根据目标知识生成，上述目标知识为根据上述视频要素信息进行知识联想所得到的、并且不属于上述目标视频片段本身的知识。

在一个实施例中，上述视频要素信息包括上述目标视频的知识图谱，上述弹幕生成模块103，用于执行下述操作：

根据上述知识图谱，确定上述目标视频片段对应的片段要素，上述片段要素包括下述至少之一：上述目标视频片段出现的演员、上述目标视频片段出现的角色、上述目标视频片段所属的情节类型；

根据上述片段要素，生成上述目标视频片段对应的视频弹幕。

在一个实施例中，上述弹幕生成模块103，用于执行下述操作：

根据上述片段要素中的各个内容生成对应的第一候选信息；

根据上述目标视频片段对应的文本内容生成第二候选信息；

对各上述第一候选信息和上述第二候选信息进行决策，根据决策结果生成上述视频弹幕。

在一个实施例中，上述片段要素包括上述目标视频片段出现的演员、上述目标视频片段所属的情节类型，上述根据上述片段要素中的各个内容生成对应的第一候选信息，包括：

上述演员参演的其他视频的信息，以及上述其他视频中上述演员的角色信息；

上述情节类型对应的信息；

上述弹幕生成模块103，用于执行下述操作：

将上述演员参演的其他视频的信息，以及上述其他视频中上述演员的角色信息形成的第一候选信息作为第一输入信息；

将上述第二候选信息作为第二输入信息；

将上述情节类型对应的信息作为第三输入信息；

将上述第一输入信息、上述第二输入信息和上述第三输入信息作为受限生成控制模型的输入信息，得到上述受限生成控制模型输出的上述视频弹幕。

对上述目标视频片段的文本信息进行编码处理，得到上述第二输入信息；

对上述第一输入信息、上述第二输入信息和上述第三输入信息进行基于受限生成决策的解码处理，得到上述视频弹幕。

根据第一输入信息和受限控制模型的解码单元的隐层输入向量，确定上述第一输入信息联想后对应的注意力信息；

响应于上述注意力信息满足预设要求的情况，上述受限控制模型的解码单元根据上述第一输入信息的联想结果生成上述视频弹幕；

响应于上述注意力信息不满足预设要求的情况，上述受限控制模型的解码单元根据上述第二输入信息生成上述视频弹幕。

在一个实施例中，上述装置还包括显示控制模块104，上述显示控制模块104用于执行下述操作：

获取用户账户的兴趣标签序列；

根据上述兴趣标签序列，确定上述用户账户对应的兴趣表示信息；

根据上述目标视频片段对应的视频弹幕得到上述视频弹幕的文本表示信息；

获取上述目标视频片段对应的上下文表示信息；

融合上述兴趣表示信息、上述文本表示信息和上述上下文表示信息；

根据融合结果，确定上述用户账户对上述视频弹幕的感兴趣概率。

在一个实施例中，上述显示控制模块104用于执行下述操作：

响应于上述感兴趣概率大于预设阈值的情况，将上述视频弹幕推送到上述用户账户对应的客户端，以使得上述客户端显示上述视频弹幕。

本申请实施例中装置部分与方法实施例基于相同发明构思，在此不做赘述。

进一步地，图11示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图，上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图11所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中上述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种视频弹幕生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述存储介质中的指令可以执行一种视频弹幕生成方法，上述方法包括：

获取目标视频片段；

根据上述目标视频片段，获取上述目标片段所属的目标视频所对应的视频要素信息；

根据上述视频要素信息进行知识联想，生成上述目标视频片段对应的视频弹幕，上述视频弹幕根据目标知识生成，上述目标知识为根据上述视频要素信息进行知识联想所得到的、并且不属于上述目标视频片段本身的知识。

在一个实施例中，上述视频要素信息包括上述目标视频的知识图谱，上述根据上述视频要素信息进行知识联想，生成上述目标视频片段对应的视频弹幕，包括：

在一个实施例中，上述根据上述片段要素，生成上述目标视频片段对应的视频弹幕，包括：

根据上述片段要素中的各个内容生成对应的第一候选信息；

根据上述目标视频片段对应的文本内容生成第二候选信息；

在一个实施例中，上述片段要素包括上述目标视频片段出现的演员、上述目标视频片段所属的情节类型，

上述根据上述片段要素中的各个内容生成对应的第一候选信息，包括：

上述情节类型对应的信息；

上述对各上述第一候选信息和上述第二候选信息进行决策，根据决策结果生成上述视频弹幕，包括：

将上述第二候选信息作为第二输入信息；

将上述情节类型对应的信息作为第三输入信息；

在一个实施例中，上述方法还包括：

在一个实施例中，上述对上述第一输入信息、上述第二输入信息和上述第三输入信息进行基于受限生成决策的解码处理，得到上述视频弹幕，包括：

在一个实施例中，上述方法还包括：

获取用户账户的兴趣标签序列；

获取上述目标视频片段对应的上下文表示信息；

在一个实施例中，上述方法还包括：

以上上述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种视频弹幕生成方法，其特征在于，所述方法包括：

获取目标视频片段；

2.根据权利要求1所述的方法，其特征在于，所述视频要素信息包括所述目标视频的知识图谱，所述根据所述视频要素信息进行知识联想，生成所述目标视频片段对应的视频弹幕，包括：

根据所述知识图谱，确定所述目标视频片段对应的片段要素，所述片段要素包括下述至少之一：所述目标视频片段出现的演员、所述目标视频片段出现的角色、所述目标视频片段所属的情节类型；

根据所述片段要素，生成所述目标视频片段对应的视频弹幕。

3.根据权利要求2所述的方法，其特征在于，所述根据所述片段要素，生成所述目标视频片段对应的视频弹幕，包括：

根据所述片段要素中的各个内容生成对应的第一候选信息；

根据所述目标视频片段对应的文本内容生成第二候选信息；

对各所述第一候选信息和所述第二候选信息进行决策，根据决策结果生成所述视频弹幕。

4.根据权利要求3所述的方法，其特征在于，所述片段要素包括所述目标视频片段出现的演员、所述目标视频片段所属的情节类型，

所述根据所述片段要素中的各个内容生成对应的第一候选信息，包括：

所述演员参演的其他视频的信息，以及所述其他视频中所述演员的角色信息；

所述情节类型对应的信息；

所述对各所述第一候选信息和所述第二候选信息进行决策，根据决策结果生成所述视频弹幕，包括：

将所述演员参演的其他视频的信息，以及所述其他视频中所述演员的角色信息形成的第一候选信息作为第一输入信息；

将所述第二候选信息作为第二输入信息；

将所述情节类型对应的信息作为第三输入信息；

将所述第一输入信息、所述第二输入信息和所述第三输入信息作为受限生成控制模型的输入信息，得到所述受限生成控制模型输出的所述视频弹幕。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述目标视频片段的文本信息进行编码处理，得到所述第二输入信息；

对所述第一输入信息、所述第二输入信息和所述第三输入信息进行基于受限生成决策的解码处理，得到所述视频弹幕。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一输入信息、所述第二输入信息和所述第三输入信息进行基于受限生成决策的解码处理，得到所述视频弹幕，包括：

根据第一输入信息和受限控制模型的解码单元的隐层输入向量，确定所述第一输入信息联想后对应的注意力信息；

响应于所述注意力信息满足预设要求的情况，所述受限控制模型的解码单元根据所述第一输入信息的联想结果生成所述视频弹幕；

响应于所述注意力信息不满足预设要求的情况，所述受限控制模型的解码单元根据所述第二输入信息生成所述视频弹幕。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户账户的兴趣标签序列；

根据所述兴趣标签序列，确定所述用户账户对应的兴趣表示信息；

根据所述目标视频片段对应的视频弹幕得到所述视频弹幕的文本表示信息；

获取所述目标视频片段对应的上下文表示信息；

融合所述兴趣表示信息、所述文本表示信息和所述上下文表示信息；

根据融合结果，确定所述用户账户对所述视频弹幕的感兴趣概率。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

响应于所述感兴趣概率大于预设阈值的情况，将所述视频弹幕推送到所述用户账户对应的客户端，以使得所述客户端显示所述视频弹幕。

9.一种视频弹幕生成装置，其特征在于，所述装置包括：

目标视频片段获取模块，用于获取目标视频片段；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至8中任一项所述的一种视频弹幕生成方法。

11.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1至8中任一项所述的一种视频弹幕生成方法。

12.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至8中任一项所述的一种视频弹幕生成方法。