CN115484503A

CN115484503A - 弹幕生成方法及装置、电子设备和存储介质

Info

Publication number: CN115484503A
Application number: CN202110599762.8A
Authority: CN
Inventors: 张怡
Original assignee: Shanghai Hode Information Technology Co Ltd
Current assignee: Shanghai Hode Information Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-16
Anticipated expiration: 2041-05-31
Also published as: CN115484503B

Abstract

本公开提供了一种弹幕生成方法及装置、电子设备和存储介质，涉及多媒体文件技术领域。实现方案为：获取多媒体文件中的音频信号；获取所述音频信号对应的频域图；基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。根据本公开，可以实现对多媒体文件自动添加与多媒体文件情节相关的弹幕。

Description

弹幕生成方法及装置、电子设备和存储介质

技术领域

本公开涉及多媒体文件技术领域，尤其涉及一种弹幕生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着互联网及多媒体技术的发展，多媒体文件(例如视频)已经成为大众生活、娱乐的一种方式。用户在观看多媒体文件时通过将文字评论发布到显示界面上表达自己的感受，使多媒体文件在播放时同时在显示界面上显示弹幕，给观众一种实时互动的感受，能够烘托观众在观看多媒体文件时的气氛。同时，在多媒体文件播放的过程中出现的弹幕，也能帮助该多媒体文件吸引更多的人观看，提高该多媒体文件的人气。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种弹幕生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种弹幕生成方法，包括：获取多媒体文件中的音频信号；获取所述音频信号对应的频域图；基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

根据本公开的另一方面，还提供一种弹幕生成装置，包括：第一获取单元，被配置用于获取多媒体文件中的音频信号；第二获取单元，被配置用于获取所述音频信号对应的频域图；第三获取单元，被配置用于基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及第四获取单元，被配置用于针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

根据本公开的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有计算机程序，所述计算机程序在被所述至少一个处理器执行时实现根据上述的方法。

根据本公开的另一方面，还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被处理器执行时实现根据上述的方法。

根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据上述的方法。

根据本公开的一个或多个实施例，基于多媒体文件中的音频信号获取多媒体文件的音频信号的频域图，根据频域图中所包含的与音源复杂度相关的信息，确定多媒体文件中的目标情节和包含该目标情节的多媒体片段。并通过分析音频信号，获得与该目标情节对应的弹幕，可以实现为多媒体文件自动生成弹幕，并且生成的弹幕与该多媒体文件的情节相关，使生成的弹幕逼真，保持互动性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的一些实施例的弹幕生成方法的示意性流程图；

图2A示出了根据本公开的一些实施例的弹幕生成方法中音频信号的频率图；

图2B示出了根据本公开的一些实施例的弹幕生成方法中音频信号的频域图；

图3示出了根据本公开的一些实施例的弹幕生成方法中获取音频信号的频域图的方法的示意性流程图；

图4示出了根据本公开的一些实施例的弹幕生成方法中获取一个或多个关键音频片段的方法的示意性流程图；

图5示出了根据本公开的一些实施例的弹幕生成方法中基于关键音频片段获取目标弹幕的方法的示意性流程图；

图6示出了根据本公开的一些实施例的弹幕生成方法中基于目标文本获取文本弹幕的方法的示例性流程图；

图7示出了根据本公开的一些实施例的弹幕生成方法中在多媒体文件中显示出的目标文本和文本弹幕的示意图；

图8示出了根据本公开的一些实施例的弹幕生成方法中从匹配文本弹幕中确定目标弹幕的方法的示例性流程图；

图9示出了根据本公开的一些实施例的弹幕生成方法中设置文本弹幕的添加形式的方法的示意性流程图；

图10示出了根据本公开的一些实施例的弹幕生成装置的示意性框图；以及

图11示出了能够用于实现本公开的一些实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

根据本公开的一方面提供了一种弹幕生成方法。参看图1，对根据本发明的一些实施例的一种弹幕生成方法进行示意性说明。该弹幕生成方法包括：

步骤S110：获取多媒体文件中的音频信号；

步骤S120：获取所述音频信号对应的频域图；

步骤S130：基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及

步骤S140：针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

根据本公开的方法，基于多媒体文件中的音频信号获取多媒体文件的音频信号的频域图，根据频域图中所包含的与音源复杂度相关的信息，确定多媒体文件中的目标情节和包含该目标情节的多媒体片段。并通过分析音频信号，获得与该目标情节对应的弹幕，可以实现为多媒体文件自动生成弹幕，特别是为刚刚发布的多媒体文件生成弹幕，并且使生成的弹幕与该多媒体文件的情节相关，保证生成的弹幕效果逼真，保持多媒体文件的互动性。

在步骤S110中，多媒体文件包括包含有音频信号并且具有情节的各种可支持播放的格式的图像、音频、视频或者文本文件等，在此不作限制。

在一些实施例中，在步骤S110中，多媒体文件可以包括视频。该视频在由视频播放器播放时能够在显示器上显示，并且所显示的内容具有情节。视频包括与该视频相对应的音频信号，用于在显示器上显示该视频时，使视频播放器播放出匹配的背景音乐或者人物对话等。

根据一些实施例，该多媒体文件例如可以是番剧、影视、电视剧等具有情节的视频，在此不作限制。

在一些实施例中，在步骤S110中，多媒体文件可以包括与该多媒体文件中的音频信号对应的文本文件，其中，该文本文件用于在播放该多媒体文件时，在显示该多媒体文件的显示器上进行匹配显示。该文本文件例如可以是字幕、歌词等，在此不作限制。

在步骤S120中，获取所述音频信号对应的频域图。

发明人发现，番剧、影视剧、电视剧等具有情节的多媒体文件，在其目标情节处，往往由角色对话的语音以及背景音乐构成其相应的音频信号。因此，可以通过对音频信号处理能够获得多媒体文件的目标情节，并确定与该目标情节相关的弹幕，从而能够实现对多媒体文件自动添加弹幕。

音频信号的频域图(也称音轨频域图)是与声音信号的频率相关的图谱，其反映声音信号在频率方面的特性。声音信号在频率上的特性随着音源的不同，差异明显。通过分析音频信号的频域图，可以获得与音源复杂度有关的信息，例如在频域跨度大的地方，音源复杂度高。在具有情节的多媒体文件中，在不同的情节处，往往具有不同的角色或者背景音乐，尤其是在目标情节处，角色和背景音乐较为丰富。丰富的角色和背景音乐反映到音频信号中，代表该音频信号中的音源复杂度高。因此，基于该多媒体文件的音频信号对应的反映音源信息的频域图，可以分析多媒体文件的目标情节。目标情节例如可以是高潮情节、人物出现多或者场面热闹的情节等，在此不作限制。

在一些实施例中，可以但不限于采用傅里叶变换处理该音频信号，获得音频信号对应的频域图。具体的，可以采用公式(1)进行傅里叶变换：

参看图2A和图2B，图2A为根据本公开的一些实施例的音频信号的频率图，其中，横坐标示出为频率(Hz)，纵坐标示出为信号的振幅(dB)；图2B为根据本公开的一些实施例的音频信号的频域图，其中，横坐标为频率(Hz)，纵坐标为频率变化的大小。

如图2A和图2B所示，在对音频信号进行处理后，得到与音频信号对应的频域图。该频域图能够表征音频信号的音源信息，其与频域的跨度相关。例如，在图2B的频域图中具有高峰(高峰a和高峰b)，该高峰处频域图中的频率变化(纵坐标值所示)大于预设值，指示在高峰处的音频信号的频域跨度较大，也即高峰处的音源复杂度高。高峰数量越多，指示该音频信号中的音源越复杂或者音源复杂度越高。因此，基于该反映音频信号中的音源复杂度的高峰数(或者高峰的分布密度)，可以获得音源复杂度较高的音频片段。该音频片段中的音源复杂度较高，即该音频片段对应的多媒体片段的音源复杂度高(即，角色或背景音乐丰富)，即该音频片段对应的多媒体片段包含目标情节。因此，基于频域图，可以获取该音频信号中一个或多个关键音频片段，该一个或多个关键音频片段中的每一个关键音频片段对应于包含有该多媒体文件中的目标情节的关键多媒体片段，其中，具体的方法将在下面进一步介绍。

根据一些实施例，在步骤S120中，可以对音频信号不作切分，直接获得该音频信号的整体频域图，并基于该频域图从该音频信号中截取对应于包含有该多媒体文件中的目标情节的关键多媒体片段的一个或多个音频片段，将截取的该一个或多个音频片段确定为该一个或多个关键音频片段。

例如，在步骤120中，可以基于步骤S110中的音频信号整体获得频域图，截取频域图中高峰数分布最为密集的或者高峰数分布密度大于预设值的一个或多个区段，并基于该一个或多个区段对应截取音频信号中的一个或多个音频片段，该音频片段即为一个或多个关键音频片段。

由于截取的频域图中一个或多个区段为高峰数分布最为密集的或者高峰数分布密度大于预设值的区段，表明该一个或多个区段对应的音频片段中的音源较其他区段更复杂或者复杂度已经达到了预设程度，因此基于截取的该一个或多个区段对应截取音频信号中的一个或多个音频片段，即为该多媒体文件中的音源较其他片段复杂度高或者复杂度已经达到预设程度，因此该音频片段为关键音频片段。

根据另一些实施例，在步骤S120中，可以对音频信号进行切分，获得多个音频片段，并获取多个音频片段中的每一个音频片段对应的频域图，并基于对应的频域图，获得该多个音频片段中的对应于包含有该多媒体文件中的目标情节的关键多媒体片段的一个或多个关键音频片段。

图3示出了根据本公开的一些实施例的获取音频信号对应的频域图的方法的示例性流程图。参看图3，下面将对步骤120中获取音频信号对应的频域图的方法进行示例性介绍。

如图3所示，在一些实施例中，步骤S120获取所述音频信号对应的频域图可以包括：

步骤S310：将所述音频信号切分为多个音频片段；以及

步骤S320：针对所述多个音频片段中的每一个音频片段，获取与所述音频片段对应的频域图。

在步骤S310中将音频信号进行切分后获得音频片段，在步骤320中，例如，如上所述，可以采用傅里叶变换处理切分后的音频片段的音频信号，获得各个音频片段对应的频域图。使后续基于频域图获得一个或多个关键音频片段的过程中，基于该多个音频片段对应的多个频域图，确定对应于包含有该多媒体文件中的目标情节的多媒体片段的一个或多个关键音频片段，使确定的关键音频片段更加准确。

具体的，发明人发现，若对音频信号不作切分，获取音频信号的整体频域图时，其频域跨度(或者高峰幅度)与音频信号的频率图中整体幅度相关。当频率图的幅度分布较大时，容易导致高峰幅度不明显，造成难以准确获取频域图的高峰，进而难以准确获得关键音频片段。然而，将音频信号切分后，对切分后的音频片段进行处理获得音频片段的频域图，能够使频域图中的高峰的幅度只与该音频片段有关，缩小与其相关的频率图的幅度的分布范围，使获得的频域图中高峰更为明显，能够准确获取频域图中的高峰，从而使获取的关键音频片段更加准确。

根据一些实施例，在步骤S310中，多个音频片段为对所述音频信号进行等分切分而得到。例如，将音频信号切分为n等份，获得n个音频片段，其中，n≥2。示例性的，根据播放时长切分音频信号。例如，将音频信号以每一分钟切割，或者每五分钟切割，等等，在此不作限制。将音频信号做等分切分，可以通过对比音频片段的频域图的高峰数，来获取高峰数多的音频片段作为关键音频片段。该关键音频片段中的高峰数多，表明音源复杂度高，即该关键音频片段对应包含有目标情节的关键多媒体片段。通过将音频信号等分切分，获得高峰数，可以将基于频域图中的高峰获取关键音频片段的过程量化，而使关键音频片段的获取过程简单、准确。

下面对步骤S130进行示例性介绍，以进一步介绍基于步骤S120获取的频域图获取关键音频片段的过程，该关键音频片段对应于包含有该多媒体文件中的目标情节的多媒体片段。

根据一些实施例，在步骤S120中，对音频信号不作切分，直接获取该音频信号的整体频域图，在步骤S130中，基于该频域图从该音频信号中截取对应于包含有该多媒体文件中的目标情节的关键多媒体片段的一个或多个音频片段，截取的该一个或多个音频片段为一个或多个关键音频片段。

根据另一些实施例，在步骤S120中，对音频信号进行切分，获取多个音频片段，并获取该多个音频片段中的每一个音频片段对应的频域图。在这种情况下，在步骤S130中，基于对应的频域图，从该多个音频片段中确定对应于包含有该多媒体文件中的目标情节的多媒体片段的一个或多个音频片段，该一个或多个音频片段即为一个或多个关键音频片段。

图4示出了根据本公开的一些实施例的基于音频信号对应的频域图获取一个或多个关键音频片段的方法的示例性流程图。参看图4，下面对根据本公开的一些实施例的弹幕生成方法100中的步骤S130中进行示例性介绍。

如图4所示，根据一些实施例，步骤S130、基于所述频域图获取一个或多个关键音频片段可以包括：

步骤S410：针对所述多个音频片段中的每一个音频片段，获取与所述音频片段对应的所述频域图中的高峰，其中在所述高峰处所述频域图的频率变化大于预设值；以及

步骤S420：基于对应的所述频域图中的高峰，从所述多个音频片段中确定所述一个或多个关键音频片段。

例如，在图2B示意的示例中，步骤S410所获取频域图包括高峰a和高峰b，其中，在高峰a和高峰b处频域图中的频率变化(纵坐标值所示)大于预设值，指示在高峰a和高峰b处的音频信号的频域跨度较大，因此高峰a和高峰b处的音源复杂度高。基于包含有反映音频信号中的音源复杂度的高峰a和高峰b的频域图，可以对应获取该频域图对应的音频片段。该音频片段中的音源复杂度高，即该音频片段对应的多媒体片段包含目标情节。

根据一些实施例，在步骤S420中，可以基于频域图中的高峰分布密度，确定一个或多个关键音频片段。高峰分布密度，以单位时长的音频片段对应的频率图中的高峰的数量为计。音频片段对应的频率图中的高峰分布密度大，说明该音频片段中的音源信号复杂度高，该音频片段对应的多媒体片段包含目标情节。

根据另一些实施例，在将所述音频信号进行等分切分的情况下，例如将所述音频信号切分为n等份，其中，n≥2，并且n为正整数。相应地，在步骤S420中，可以基于频域图中的高峰数，对该多个音频片段进行排序，可以使该多个音频片段按对应的频域图中的高峰数的数量逐渐递减的趋势排列，获得该多个音频片段的排序序列；在该多个音频片段的排序序列中筛选出排序靠前的一个或多个音频片段，以作为该一个或多个关键音频片段。

由于该多个音频片段的排序序列中筛选出排序靠前的一个或多个音频片段中的频域图中的高峰数大于该多个音频片段中其他音频片段的高峰数，说明该排序靠前的一个或多个音频片段的音源复杂度高于该多个音频片段中其他音频片段中的音源复杂度，进而表明该排序靠前的一个或多个音频片段为该音频信号中对应于包含有目标情节的多媒体片段的一个或多个关键音频片段。

根据另一些实施例，将该多个音频片段中的每一个音频片段的高峰数与预设值进行比较，当该音频片段的高峰数大于预设值时，确定该音频片段为关键音频片段。

由于高峰数大于预设值，说明该音频片段中的音源复杂度高于预设值，即音频片段对应的多媒体片段的音源复杂度足够高，指示该音频片段对应的多媒体片段包含目标情节。因此，可以确定该音频片段为对应于包含有目标情节的多媒体片段的关键音频片段。

在步骤S140中，针对在步骤S130中获取的一个或多个关键音频片段中的每一关键音频片段，基于该关键音频片段获取与对应的多媒体片段的目标情节匹配的目标弹幕。由此，通过基于关键音频片段获得目标弹幕，使得该目标弹幕与关键音频片段对应的多媒体片段的目标情节有关，从而能够实现添加到关键多媒体片段上的目标弹幕与目标情节相关度高，弹幕效果逼真。

图5示出了根据本公开的一些实施例的基于关键音频片段获取目标弹幕的方法的示例性流程图。参看图5，下面对根据本公开的一些实施例的弹幕生成方法100中的步骤S140进行示例性介绍。

如图5所示，根据一些实施例，步骤S140、基于关键音频片段获取目标弹幕可以包括：

步骤S510：获取所述关键音频片段对应的目标文本；以及

步骤S520：基于所述目标文本，获取与对应的多媒体片段的目标情节匹配的所述目标弹幕。

关键音频片段对应的目标文本往往包含多媒体文件中目标情节处的对话文本、提示文本或者歌词信息等，这些对话文本、提示文本或者歌词信息往往与目标情节密切相关。基于该对话文本获得目标弹幕，使获得的目标弹幕与目标情节处的台词、提示信息或者歌词信息等相关，进一步提升目标弹幕与目标情节的相关度，使弹幕效果更加逼真。

根据一些实施例，在步骤在S510中，基于关键音频片段，采用语音识别技术获取该关键音频片段对应的目标文本。

根据另一些实施例，多媒体文件可以包括音频文件、与该音频文件对应的视频文件和与该音频文件对应的文本文件。其中，该文本文件用于在播放该视频文件时，在播放该视频文件的显示器上进行匹配显示。该文本文件例如可以包括人物对话文本、背景音乐歌词文本等。在步骤S510中，可以基于该文本文件获取对应于该关键音频片段对应的目标文本。

根据一些实施例，目标弹幕可以包括文本弹幕。根据另一些实施例，目标弹幕也可以包括表情弹幕等，在此不作限制。

图6示出了根据本公开的一些实施例的基于目标文本获取文本弹幕的方法的示例性流程图；图7示出了根据本公开的一些实施例的在多媒体文件中显示出的目标文本和文本弹幕的示意图。参看图6和图7，下面对根据本公开的一些实施例的步骤S520进行示例性介绍。

如图6所示，根据一些实施例，步骤S520、基于目标文本获取文本弹幕可以包括：

步骤S610：获取所述目标文本的至少一个关键词；

步骤S620：针对所述至少一个关键词中的每一个关键词，从预设弹幕数据库中获取与所述关键词匹配的匹配文本弹幕；以及

步骤S630：从所获取的至少一个所述匹配文本弹幕中确定所述目标弹幕。

基于关键音频片段对应的目标文本中的关键词，获取目标弹幕，使目标弹幕与目标文本相关联，尤其是当目标文本是人物对话文本时，使目标弹幕与关键音频片段对应的目标情节高度关联，提升所获取的目标弹幕与目标情节的相关性，提升目标弹幕的真实性。

根据一些实施例，在步骤S610中，可以对目标文本进行拆分获得分词，基于拆分得到的分词，获取该目标文本中的关键词。在一些实施例中，基于分词的词性确定关键词。例如，当拆分得到的分词为形容词、名词或者副词时，确定该分词为关键词。

根据另一些实施例，在步骤S610中，基于预设的关键词数据库从目标文本中截取关键词。在一些实施例中，基于预设的关键词数据库从拆分得到的分词中确定关键词，例如，预设的关键词数据库中包含有多个分词作为关键词，在该预设的关键词数据库中检索拆分得到的分词，当检索到该关键词数据库中包含有该拆分得到的分词时，确定该拆分得到的分词为关键词。

根据一些实施例，在步骤S620中，针对每一关键词，在预设弹幕数据库中检索以获取与该关键词对应匹配的匹配文本弹幕。其中，预设弹幕数据库可以是对文本弹幕进行标签分类或具有预设的文本弹幕-关键词映射关系的弹幕数据库。

参看图7，下面对根据一些实施例基于目标文本获取文本弹幕的方法进行示例性介绍。

例如，在步骤S610中，以目标文本为“仿佛连骨髓深处都在颤抖般的恐怖的气味”为例，对目标文本进行拆分，获得分词“骨髓”、“颤抖”、“恐怖”；在预设关键词数据库中对拆分的目标文本中的分词“骨髓”、“颤抖”、“恐怖”进行检索，确定“颤抖”、“恐怖”为关键词。进一步，在步骤S620中，基于“颤抖”、“恐怖”这两个关键词在预设弹幕数据库中检索，获得与关键词“颤抖”对应匹配的匹配文本弹幕包括：“脊髓在颤抖”、“吓到鬼了”、“鬼我怕鬼”、“看把孩子吓得”以及“怕死了”；以及获得与关键词“恐怖”对应匹配的匹配文本弹幕包括“不讲武德呀”、“迪奥布兰度”、“三刀流！”。

在完成步骤S620之后，执行步骤S630，从所获取的至少一个匹配文本弹幕中确定目标弹幕。根据一些实施例，在步骤S630中，将所获取的上述至少一个匹配文本弹幕均确定为目标弹幕，以用于添加到多媒体文件的对应于该目标情节的多媒体片段处。由于该匹配文本弹幕是基于对应于包含有多媒体文件中的目标情节的多媒体片段的关键音频片段获得的，其与该多媒体文件的目标情节相关，使添加到多媒体文件上的弹幕类似于人观看后人为添加的弹幕，使弹幕内容逼真。

根据另一些实施例，如图6所示，在步骤S630中确定的目标弹幕，该目标弹幕与目标情节相关度较该至少一个匹配文本弹幕中的其他匹配文本弹幕高。由于目标弹幕与目标情节相关度更高，使弹幕效果更加逼真。

在一些实施例中，多媒体文件包括视频，所述关键多媒体片段为所述关键视频片段，在步骤S630中基于该关键视频片段，从所获取的至少一个所述匹配文本弹幕中确定目标弹幕。

图8示出了根据本发明的一些实施例的基于关键视频片段确定目标弹幕的方法示意性流程图。参看图8，下面对根据一些实施例的在步骤S630中基于关键视频片段确定目标弹幕的过程进行示例性介绍。

如图8所示，根据一些实施例，基于所述关键音频片段，从匹配文本弹幕中确定目标弹幕包括：

步骤S810：获取所述关键音频片段对应的所述关键视频片段；

步骤S820：基于所述关键视频片段中的视频帧，获取相关图像信息；以及

步骤S830：基于所述图像信息，从所获取的至少一个匹配文本弹幕中确定所述目标弹幕。

在步骤S810中，基于关键音频片段，获取关键音频片段对应的关键视频片段。根据一些实施例，基于关键音频片段对应的播放时间点，获取视频中与关键音频片段的播放时间点相同的关键视频片段。

在步骤S820中，基于所述关键视频片段中的视频帧，获取图像信息。根据一些实施例，采用图像分析的方法获取图像信息。例如，采用人脸识别的方法，识别关键视频片段中的视频帧是否包括人像的图像信息。

在步骤S830中，基于所述图像信息，从所获取的至少一个匹配文本弹幕中确定所述目标弹幕。例如，仍然以图7作为示例进行说明，根据步骤S810中识别的关键视频片段中的视频帧包括人像的图像信息，从步骤S620中获得的与关键词“颤抖”对应匹配的匹配文本弹幕包括：“脊髓在颤抖”、“吓到鬼了”、“鬼我怕鬼”、“看把孩子吓得”中筛选出包括人物描述的匹配文本弹幕“看把孩子吓得”，将其作为目标弹幕。这样使获得的目标弹幕不仅仅基于对话文本获得，还基于关键视频片段处的图像信息获得，从而目标弹幕与该关键视频片段中的目标情节处的对话文本和图像信息都相关，使目标弹幕与目标情节的相关度更高，具有更接近人为观看视频后添加的弹幕的逼真效果。

根据另一些实施例，在步骤S610中，获取目标文本的多个关键词，在步骤S620中，针对该多个关键词中的每一个关键词，从预设数据库中获取与该关键词匹配的匹配文本弹幕，从而获取多个匹配文本弹幕；在步骤S630中，从所获取的至少一个所述匹配文本弹幕中确定所述目标弹幕包括：基于所述多个关键词，从所获取的多个匹配文本弹幕中筛选出所述目标弹幕。

基于关键词，从所获取的多个匹配文本弹幕中筛选出目标弹幕，该目标弹幕与目标情节的相关度较其他匹配本文本弹幕更高，使目标弹幕具有更接近人为观看视频后添加的弹幕的逼真效果。同时，由于匹配文本弹幕是基于关键词获得的，在筛选匹配文本弹幕中不需要引入新的信息，通过已有的关键词信息就能实现对匹配文本弹幕的筛选过程，使从多个匹配文本弹幕中确定目标弹幕的过程中的信息处理量更少，简化处理过程的同时可以节省计算量。

在一些实施例中，根据所匹配的关键词的数量筛选匹配文本弹幕，例如，从多个匹配文本弹幕中筛选同时与预设数量的关键词匹配的匹配文本弹幕作为目标弹幕。在另一些实施例中，根据关键词对应的音频信号中音频片段的语音强度筛选目标弹幕，例如，筛选出对应的音频信号中音频片段的语音强度最强的关键词的匹配文本弹幕作为目标弹幕。

根据一些实施例，方法100还包括针对一个或多个关键音频片段中的每一关键音频片段，基于该关键音频片段，设置对应的目标弹幕的添加形式。

根据一些实施例，目标弹幕包括文本弹幕。根据另一些实施例，目标弹幕包括表情弹幕等。基于关键音频片段，设置目标弹幕的添加形式，例如，针对文本弹幕设置不同的后缀，针对表情弹幕设置重复的次数等等。

通过对目标弹幕设置添加形式，使目标弹幕添加到多媒体文件上时，以不同展现形式出现在多媒体文件的显示界面上，丰富弹幕形式，提升弹幕效果。在本公开的实施例中，基于关键音频片段设置目标弹幕的添加形式，使目标弹幕的添加形式与目标情节相关，进一步提升弹幕效果与目标情节的相关性，使目标弹幕具有更接近人为观看视频后添加的弹幕的逼真效果。

图9示出了根据本发明的一些实施例的设置文本弹幕的添加形式的示意性流程图。参看图9，下面对根据一些实施例的方法100中设置文本弹幕的添加形式的过程进行示例性介绍。

如图9所示，根据一些实施例，设置文本弹幕的添加形式包括：

步骤S910：基于所述关键音频片段，获得所述文本弹幕对应的所述关键词的音频信息；以及

步骤S920：基于所述音频信息，确定所述文本弹幕的所述添加形式。

根据一些实施例，在基于通过拆分对话文本获取的关键词获取匹配文本弹幕的过程中，拆分对话文本的音频信号，在步骤S910中，基于文本弹幕对应的关键字，获取该文本弹幕对应的关键词的音频信息。

根据另一些实施例，步骤S910直接通过文本弹幕对应的关键词，截取该关键词对应的关键音频片段，获得关键词对应的音频信息。

根据一些实施例，音频信息可以包括音频强度和/或语音持续时间等，在此不作限制。

根据一些实施例，步骤S920根据音频信息，确定文本弹幕的添加形式，其中，文本弹幕的添加形式包括重复添加次数和以突出显示的方式添加等，在此不作限制。通过设置不同的弹幕添加形式，使弹幕以不同的形式展现在关键多媒体片段上，丰富弹幕形式，提升弹幕效果。

在一些实施例中，根据关键词的语音持续时间，设置重复添加文本弹幕的次数。例如文本弹幕对应的关键词，语音持续时间较长，则设置多次重复添加文本弹幕。对于语音持续时间较长的关键词，其对应于目标文本中较为关键的信息和内容，将其对应的文本弹幕多次重复添加到关键多媒体片段上，可以使弹幕贴近关键多媒体片段的情节，弹幕效果更加逼真。

在另一些实施例中，根据文本弹幕对应的关键词的语音强度，设置文本弹幕的添加形式为将文本弹幕以突出显示的方式添加。同样，对于语音持续时间较长的关键词，其对应于目标文本中较为关键的信息和内容，将其对应的文本弹幕多次重复添加到关键多媒体片段上，可以使弹幕贴近关键多媒体片段的情节，弹幕效果更加逼真。

根据一些实施例，突出显示的方式例如可以是给文本弹幕增加后缀，更改文本弹幕的字体大小、颜色等等，在此不作限制。例如，根据文本弹幕对应的关键词的语音强度较高，将文本弹幕添加后缀后添加。后缀例如可以是，“～”、“！”、“^_^”以及“￥”等各种符号或者其中的组合。

根据本公开的另一方面，还提供一种弹幕生成装置。如图10所示，该装置1000可以包括：第一获取单元1010，被配置用于获取多媒体文件中的音频信号；第二获取单元1020，被配置用于获取所述音频信号对应的频域图；第三获取单元1030，被配置用于基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及第四获取单元1040，被配置用于针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

参见图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备可以是不同类型的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100可以包括能够通过系统总线1130彼此通信的至少一个处理器1110、工作存储器1120、输入单元1140、显示单元1150、扬声器1160、存储单元1170、通信单元1180以及其它输出单元1190。

处理器1110可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1110可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器1110可以被配置成获取并且执行存储在工作存储器1120、存储单元1170或者其他计算机可读介质中的计算机可读指令，诸如操作系统1120a的程序代码、应用程序1120b的程序代码等。

工作存储器1120和存储单元1170是用于存储指令的计算机可读存储介质的示例，指令由处理器1110执行来实施前面所描述的各种功能。工作存储器1120可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外，存储单元1170可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。工作存储器1120和存储单元1170在本文中都可以被统称为存储器或计算机可读存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可以由处理器1110作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

输入单元1140可以是能向电子设备1100输入信息的任何类型的设备，输入单元1140可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示单元1150、扬声器1160以及其它输出单元1190，其它输出单元1190可以但不限于包括视频/音频输出终端、振动器和/或打印机。通信单元1180允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

工作寄存器1120中的应用程序1120b可以被加载执行上文所描述的各个方法和处理，例如图1中的步骤S110-步骤S130。例如，在一些实施例中，弹幕生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1170。在一些实施例中，计算机程序的部分或者全部可以经由存储单元1170和/或通信单元1180而被载入和/或安装到电子设备1100上。当计算机程序被加载并由处理器1110执行时，可以执行上文描述的弹幕生成方法的一个或多个步骤。备选地，在其他实施例中，处理器1110可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行弹幕生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种弹幕生成方法，包括：

获取多媒体文件中的音频信号；

获取所述音频信号对应的频域图；

基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及

针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

2.如权利要求1所述的方法，其中，获取所述音频信号对应的频域图包括：

将所述音频信号切分为多个音频片段；以及

针对所述多个音频片段中的每一个音频片段，获取与所述音频片段对应的频域图，

其中，基于所述频域图获取一个或多个关键音频片段包括：

针对所述多个音频片段中的每一个音频片段，获取与所述音频片段对应的所述频域图中的高峰，其中在所述高峰处所述频域图的频率变化大于预设值，以及

基于对应的所述频域图中的高峰，从所述多个音频片段中确定所述一个或多个关键音频片段。

3.如权利要求2所述的方法，其中，所述多个音频片段为对所述音频信号进行等分切分而得到，

其中，每一关键音频片段对应的所述频域图中的高峰数均大于所述多个音频片段中其他音频片段对应的所述频域图中的高峰数。

4.如权利要求1-3中任意一项所述的方法，其中，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕包括：

获取所述关键音频片段对应的目标文本；以及

基于所述目标文本，获取与对应的关键多媒体片段的目标情节匹配的所述目标弹幕。

5.如权利要求4所述的方法，其中，所述目标弹幕包括文本弹幕。

6.如权利要求5所述的方法，其中，基于所述目标文本，获取与对应的关键多媒体片段的目标情节匹配的所述目标弹幕包括：

获取所述目标文本的至少一个关键词；

针对所述至少一个关键词中的每一个关键词，从预设弹幕数据库中获取与所述关键词匹配的匹配文本弹幕；以及

从所获取的至少一个所述匹配文本弹幕中确定所述目标弹幕。

7.如权利要求6所述的方法，其中，所述目标弹幕与所述目标情节的相关度较所述至少一个匹配文本弹幕中的其它匹配文本弹幕高。

8.如权利要求6或7所述的方法，其中，所述多媒体文件包括视频，所述关键多媒体片段为所述关键视频片段，以及其中，从所获取的至少一个所述匹配文本弹幕中确定所述目标弹幕包括：

获取所述关键音频片段对应的所述关键视频片段；

基于所述关键视频片段中的视频帧，获取相关图像信息；以及

基于所述图像信息，从所获取的至少一个匹配文本弹幕中确定所述目标弹幕。

9.如权利要求6或7所述的方法，其中，所述至少一个关键词包括多个关键词，以及其中，从所获取的至少一个所述匹配文本弹幕中确定所述目标弹幕包括：

基于所述多个关键词，从所获取的多个匹配文本弹幕中筛选出所述目标弹幕。

10.如权利要求9所述的方法，其中，所述目标弹幕包括与预设数量的关键词中的每一个关键词均匹配的所述匹配文本弹幕。

11.如权利要求1-10中任意一项所述的方法，还包括：

针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段，设置对应的所述目标弹幕的添加形式。

12.如权利要求11所述的方法，其中，其中所述目标弹幕包括文本弹幕，并且其中所述文本弹幕基于所述关键音频片段中对应的目标文本中的关键词获得，以及其中

设置对应的所述目标弹幕的添加形式包括：

基于所述关键音频片段，获得所述文本弹幕对应的所述关键词的音频信息；以及

基于所述音频信息，确定所述文本弹幕的所述添加形式。

13.一种弹幕生成装置，包括：

第一获取单元，被配置用于获取多媒体文件中的音频信号；

第二获取单元，被配置用于获取所述音频信号对应的频域图；

第三获取单元，被配置用于基于所述频域图获取一个或多个关键音频片段，其中，每一关键音频片段对应于所述多媒体文件中包含有目标情节的关键多媒体片段；以及

第四获取单元，被配置用于针对所述一个或多个关键音频片段中的每一关键音频片段，基于所述关键音频片段获取与对应的关键多媒体片段的目标情节匹配的目标弹幕。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有计算机程序，所述计算机程序在被所述至少一个处理器执行时实现根据权利要求1-12中任一项所述的方法。

15.一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。