CN111726696B

CN111726696B - 声音弹幕的应用方法、装置、设备及可读存储介质

Info

Publication number: CN111726696B
Application number: CN201910288910.7A
Authority: CN
Inventors: 贾锦杰; 廖多依; 邹可心
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-21
Filing date: 2019-04-11
Publication date: 2022-09-09
Anticipated expiration: 2039-04-11
Also published as: CN111726696A

Abstract

本发明公开了一种声音弹幕的应用方法、装置、设备及可读存储介质。该方法包括：根据在当前视频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕；在当前视频的视频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形；根据接收的声音弹幕播放指示，播放目标声音弹幕。

Description

声音弹幕的应用方法、装置、设备及可读存储介质

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种声音弹幕的应用方法、装置、设备及可读存储介质。

背景技术

随着视频播放技术的飞速发展，时下提供视频播放服务的视频应用通常都向用户提供弹幕功能，令用户在视频播放过程中，可以通过在视屏播放界面上弹出评论性字幕，发表自身对视频内容的观感、与同看视频的其他用户进行互动，增加趣味性。

目前，视频应用提供的弹幕功能，只能展示用户输入的文字内容，但文字内容并不具有直观的用户情感体现功能，难以真实、完整地表达用户在输出弹幕时的情绪或情感，影响用户的弹幕使用体验。

发明内容

本发明的一个目的是提供一种用于应用声音弹幕的新技术方案。

根据本发明的第一方面，提供了一种声音弹幕的应用方法，其中，包括：

根据在当前视频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕；

在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形；

根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

可选地，

所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；

所述在与所述目标声音弹幕关联的视频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形的步骤包括：

根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征以及情感特征；

根据所述目标声音弹幕的声音特征以及情感特征，生成所述声音弹幕波形；

根据所述弹幕展示时序，在所述视频播放窗口中展示所述声音弹幕波形。

可选地，

所述声音特征包括音量特征以及节奏特征；所述情感特征包括情感类型以及情感程度；

所述根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征以及情感特征的步骤包括：

对所述声音弹幕内容进行语音分析，提取对应的音量特征以及节奏特征；

将所述声音弹幕内容转换为对应的声音弹幕文本，根据预先构建的情感词库从所述声音弹幕文本中提取情感关键词，通过情感结构化模型，对所述情感关键词进行结构化分析，得到所述情感关键词的情感类型以及情感程度，作为所述目标声音弹幕的情感特征；

其中，所述情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型；所述情感结构化模型中包括的每个情感词汇都具有对应的情感类型以及情感程度。

可选地，所述根据所述目标声音弹幕的声音特征以及情感特征，生成所述声音弹幕波形的步骤包括：

根据所述目标声音弹幕的声音特征，设置所述声音弹幕波形的显示形状，以及，根据所述目标声音弹幕的情感特征，设置所述声音弹幕波形的显示颜色；

根据所述声音弹幕波形的显示形状、显示颜色，生成所述声音弹幕波形。

可选地，

所述声音弹幕播放指示用于指示将所述目标声音弹幕与其他弹幕混合播放；

所述根据接收的声音弹幕播放指示，播放所述目标声音弹幕的步骤包括：

获取与所述目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段的同时段弹幕；所述同时段弹幕包括文字弹幕或者声音弹幕；

将所述同时段弹幕包括的文字弹幕进行转换处理，得到对应的声音弹幕；

将进行所述转换处理后的所述同时段弹幕与所述目标声音弹幕，根据对应的弹幕展示时序进行声音合成后播放；

和/或，

所述声音弹幕播放指示用于指示将所述目标声音弹幕通过文字形式显示实现播放；

将所述目标声音弹幕转换为对应的文字弹幕后，在所述视频播放窗口中显示。

可选地，所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；

所述根据在视频播放过程中接收的用户声音数据，生成对应的声音弹幕的步骤包括：

根据接收到所述用户声音数据时的所述当前视频的视频播放时刻，确定所述弹幕展示时序；

根据所述用户声音数据，生成所述声音弹幕内容。

可选地，所述用户声音数据至少包括用户语音数据以及声音表情其中之一；所述声音表情包括语音表情以及音效表情；

所述根据所述用户声音数据，生成所述声音弹幕内容的步骤包括：

所述用户声音数据中仅包括所述用户语音数据或仅包括所述声音表情时，将所述用户声音数据作为所述声音弹幕内容；

所述用户声音数据包括所述用户语音数据以及所述语音表情时，在所述用户语音数据的相应位置插入所述语音表情，合成所述声音弹幕内容；

所述用户声音数据包括所述用户语音数据以及所述音效表情时，将所述用户语音数据与所述音效表情，混音合成所述声音弹幕内容。

根据本发明的第二方面，提供一种声音弹幕的应用装置，其中，包括：

弹幕生成单元，用于根据在当前视频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕；

弹幕展示单元，用于在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形；

弹幕播放单元，用于根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

根据本发明的第三方面，提供一种声音弹幕的应用设备，其中，包括：

显示装置；

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述声音弹幕的应用设备执行如本发明第一方面所述的任意一项所述声音弹幕的应用方法。

根据本发明的第四方面，提供一种可读存储介质，所述可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本发明第一方面所述的声音弹幕的应用方法。

根据本发明的第五方面，提供了一种声音弹幕的应用方法，其中，包括：

根据在当前音频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕；

在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形；

根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

可选地，

所述在与所述目标声音弹幕关联的音频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形的步骤包括：

根据所述弹幕展示时序，在所述音频播放窗口中展示所述声音弹幕波形。

可选地，

和/或，

将所述目标声音弹幕转换为对应的文字弹幕后，在所述音频播放窗口中显示。

根据接收到所述用户声音数据时的所述当前音频的音频播放时刻，确定所述弹幕展示时序；

根据所述用户声音数据，生成所述声音弹幕内容。

根据本发明的第六方面，提供一种声音弹幕的应用装置，其中，包括：

弹幕生成单元，用于根据在当前音频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕；

弹幕展示单元，用于在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形；

根据本发明的第七方面，提供一种声音弹幕的应用设备，其中，包括：

显示装置；

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述声音弹幕的应用设备执行如本发明第五方面所述的任意一项所述声音弹幕的应用方法。

根据本发明的第八方面，提供一种可读存储介质，所述可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本发明第五方面所述的声音弹幕的应用方法。

根据本公开的一个实施例，根据在视频播放过程中接收的用户声音数据，生成对应的目标声音弹幕，在与目标声音弹幕关联的视频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形，根据接收的声音弹幕播放指示，播放目标声音弹幕，令用户在视频播放过程中，可以通过声音这一简单便捷的交流手段发送弹幕，实现通过声音弹幕快速、直观、完整地表达用户真实的情绪或感受。同时，只在用户关注时播放声音弹幕，避免影响用户观看视频。有效提升用户的弹幕使用体验。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备1000的硬件配置的例子的框图。

图2示出了本发明的第一实施例的声音弹幕的应用方法的流程图。

图3是在视频播放窗口中引导用户输入用户声音数据的例子的示意图。

图4是在视频播放窗口中展示声音弹幕波形的例子的示意图。

图5是在视频播放窗口中播放声音弹幕的例子的示意图。

图6是用户在视频播放过程中发送、收听声音弹幕的例子的示意图。

图7示出了本发明的第一实施例的声音弹幕的应用装置3000的框图。

图8示出了本发明的第一实施例的声音弹幕的应用设备4000的框图。

图9示出了本发明的第二实施例的声音弹幕的应用方法的流程图。

图10是在音频播放窗口中引导用户输入用户声音数据的例子的示意图。

图11是在音频播放窗口中展示声音弹幕波形的例子的示意图。

图12是在音频播放窗口中播放声音弹幕的例子的示意图。

图13是用户在音频播放过程中发送、收听声音弹幕的例子的示意图。

图14示出了本发明的第二实施例的声音弹幕的应用装置3000的框图。

图15示出了本发明的第二实施例的声音弹幕的应用设备4000的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项声音弹幕的应用方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<第一实施例>

在本实施例的总体构思，提供一种声音弹幕的应用方案，根据在视频播放过程中接收的用户声音数据，生成对应的目标声音弹幕，在与目标声音弹幕关联的视频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形，根据接收的声音弹幕播放指示，播放目标声音弹幕，令用户在视频播放过程中，可以通过声音这一简单便捷的交流手段发送弹幕，实现通过声音弹幕快速、直观、完整地表达用户真实的情绪或感受。同时，只在用户关注时播放声音弹幕，避免影响用户观看视频。有效提升用户的弹幕使用体验。

<方法>

在本实施例中，提供一种声音弹幕的使用方法，如图2所示，包括：步骤S2100-S2300。

步骤S2100，根据在当前视频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕。

当前视频是用户正在播放或观看的视频。在本实施例中，可以通过任意提供视频播放服务的应用或者操作系统自带的视频播放器播放当前视频，在此不做限定。

在当前视频的播放过程中，可以通过在视频播放界面上设置可以实施人机交互的声音弹幕窗口上的相关功能项，引导用户发送用户声音数据，以生成对应的目标声音弹幕，例如，如图3所示。

在一个例子中，目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容。

弹幕展示时序是目标声音弹幕在视频播放过程中展示时相对其他弹幕的展示时间先后次序。声音弹幕内容是在播放对应的声音弹幕时用户能听到的声音内容。

在本例中，步骤S2100可以包括：步骤S2110-S2120。

步骤S2110，根据接收到用户声音数据时的当前视频的视频播放时刻，确定弹幕展示时序。

接收到用户声音数据时的当前视频的视频播放时刻，是区分接收到的、用于生成目标声音弹幕的用户声音数据，相对于接收到生成其他弹幕的用户文字数据或者用户声音数据的时序先后的依据。根据该视频播放时刻，可以准确地确定根据用户声音数据生成的目标声音弹幕的弹幕展示时序，确保当前视频的所有弹幕均根据对应的时序播放，避免出现弹幕展示混乱影响用户体验。

步骤S2120，根据用户声音数据，生成声音弹幕内容。

更具体的一个例子中，用户声音数据至少包括用户语音数据以及声音表情其中之一。声音表情包括语音表情以及音效表情。

声音表情是表达特定的情感或者主题的声音内容，用于供用户选择在语音交流过程中表达自身的情绪或感受。

语音表情的声音内容是与该语音表情所表达情感或者主题对应的语音，是有语言内容的声音表情。该语音表情的声音内容可以是由特定的人员例如名人、明星、声优等根据预设的主题或者内容录制的，也可以是由用户根据自身的情感表达需求录制的。

用户通常期望通过语音表情播放时的语言内容来表达自身的情感或情绪。

音效表情的声音内容是与音效表情的情感特征对应的音效，是没有语言内容的声音表情。用户通常期望通过音效表情播放时所产生的音效来表达自身的情感或情绪。音效表情的声音内容可以针对各种预设的主题或者情感表达需求录制的音效内容。

在当前视频的播放过程中，用户在输入用于生成目标声音弹幕的用户声音数据时，还可以提供功能项供用户选择使用声音表情，例如，如图3所示。

在这个例子中，步骤S2120可以包括：步骤S2121-S2123。

步骤S2121，用户声音数据中仅包括用户语音数据或仅包括声音表情时，将用户声音数据作为声音弹幕内容。

在本例中，用户不仅可以直接输入用户语音数据作为声音弹幕的内容，还可以直接输入符合自身情感表达需求的声音表情作为声音弹幕的内容，更为简单、直接、生动地表达自身在观看视频时的情绪或感受。

步骤S2122，用户声音数据包括用户语音数据以及语音表情时，在用户语音数据的相应位置插入语音表情，合成声音弹幕内容。

当用户不仅输入用户语音数据、还选择使用语音表情时，通常选择使用的语音表情在用户语音数据具有相应位置进行插入使用，例如可以插入在用户语音数据的开头、中间某个时间点或者末尾，由用户选择使用语音表情确定。

在用户语音数据的相应位置插入具有语言内容的语音表情，可以直观表达用户在观看视频时当下期望表达的情绪或感受。例如，语音表情的语言内容是“好喜欢啊”，用户在用户语音数据的末尾插入该语音表情，对应的，生成的声音弹幕内容中在用户语音数据之后是“好喜欢啊”这一声语音表情表达的感叹。

步骤S2123，用户声音数据包括用户语音数据以及音效表情时，将用户语音数据与音效表情，混音合成声音弹幕内容。

当用户不仅输入用户语音数据、还选择使用音效表情时，用户是期望通过音效表情播放时所产生的音效来表达自身的情绪或感受。将用户声音数据包括用户语音数据以及音效表情，混音合成声音弹幕内容，使得音效表情成为用户语音数据的音效背景，在作为声音弹幕播放时，使得用户语音具有音效表情形成的音效，表达用户观看视频时期望表达的情绪或感受。例如，音效表情的音效是哄堂大笑的笑声特效，将音效表情与用户语音数据混音合成后，生成的声音弹幕内容是带有哄堂大笑的笑声特效作为音效的用户语音数据，直观地表达用户观看视频时感受到的搞笑氛围。

应当理解的是，在实际应用中，为了避免时长过长的声音弹幕影响用户正常观看视频，可以在用户输入用于生成声音弹幕的用户声音数据时，限制输入用户声音数据的时长，当用户声音数据包括用户语音数据或者声音表情时，相应地，也可以限制用户语音数据的时长，并且在生成声音表情限制声音表情的时长，具体的限制时长可以根据应用场景或者应用需求设置，在本实施例中不做具体限定。

在步骤S2100生成对应的目标声音弹幕之后，进入：

步骤S2200，在当前视频的视频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形。

与目标声音弹幕对应的声音弹幕波形，是声音弹幕的图形化表达方式。通过声音弹幕波形，可以无需播放声音弹幕就能在视频播放窗口中展示声音弹幕，实现声音弹幕与文字弹幕可以在视频播放窗口的混合展示。例如，如图4所示的视频播放窗口中，可以同时混合展示文字弹幕以及声音弹幕。

在一个例子中，目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容。步骤S2200可以包括：步骤S2110-S2130。

步骤S2110，根据目标声音弹幕的声音弹幕内容，获取目标声音弹幕的声音特征以及情感特征。

目标声音弹幕的声音特征是目标声音弹幕的声音弹幕内容中体现的与声音属性相关的特征，该声音特征可以包括音量特征、节奏特征、音调特征等。

目标声音弹幕的情感特征是目标声音弹幕的声音弹幕内容中体现的用户的情绪或感受相关的特征，该情感特征可以包括情感类型、情感程度、表情主题等。情感类型可以是根据人类的情感及情绪分类预先设置的类型，例如情感类型可以包括生气、快乐、哀伤、欢喜等，情感程度可以包括对应的情感类型的情感程度，例如生气这一情感类型可以包括狂怒、发火、微怒等不同程度的生气情绪。表情主题可以针对不同的使用表情的场景设置，例如包括新年红包主题、开学主题等等。

在更具体的一个例子中，声音特征包括音量特征以及节奏特征；情感特征包括情感类型以及情感程度；步骤S2110可以包括：步骤S2111-S2112。

步骤S2111，对声音弹幕内容进行语音分析，提取对应的音量特征以及节奏特征。

对声音弹幕内容进行语音分析，可以使用常用的语音信号分析手段，确定声音弹幕内容的音量大小、节奏快慢等，对应得到声音弹幕内容的音量特征以及节奏特征。

步骤S2112，将声音弹幕内容转换为对应的声音弹幕文本，根据预先构建的情感词库从声音弹幕文本中提取情感关键词，通过情感结构化模型，对情感关键词进行结构化分析，得到情感关键词的情感类型以及情感程度，作为目标声音弹幕的情感特征。

在本例中，可以将声音弹幕内容通过语音识别引擎或者语音转文本的工具、插件等，得到对应的声音弹幕文本。

情感词库中包括多个分别体现不同的人类情感或者人类情绪的情感词汇。在本例中，可以通过人工或者机器挖掘这些情感词汇，预先构建情感词库。

根据该情感词库，可以将声音弹幕文本进行分词得到的词汇与情感词库中包括的情感词汇通过余弦相似度等方法进行相似度分析，提取相似度高于预设的相似度阈值的情感词汇作为情感关键词。

情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型。情感结构化模型中包括的每个情感词汇都具有对应的情感类型以及情感程度。

在本例中，可以对预先通过人工或者机器挖掘得到的情感词汇，根据人类情感或者人类情绪进行不同层次的分类，例如，根据每种情感类型进分为大类，每个大类里包括属于相同情感类型的情感词汇，在每个大类里再按情感程度的不同，进一步细分为不同的小类，每个小类下可根据情感程度的高低对情感词汇进行排序，形成不同分类层次的结构，以此组织情感词汇对应的得到情感结构化模型。

通过情感结构化模型，对情感关键词进行结构化分析，可以在情感结构化模型查找到与情感关键词对应的情感词汇，根据该情感词汇的情感类型以及情感程度，确定情感关键词的情感类型以及情感程度，对应得到目标声音弹幕的情感特征。

在本例中，通过预设的情感词库从与声音弹幕内容对应的声音弹幕文本中提取情感关键词，再通过对情感词汇进行层次结构组织得到的情感结构化模型，对情感关键词进行结构化分析，得到包括情感类型和情感程度情感特征，可以无需采集大量语音样本，通过较为简单的结构化分析手段，快速、有效地获取声音弹幕内容体现的情感特征。

在步骤S2110获取目标声音弹幕的声音特征以及情感特征之后，进入：

步骤S2120，根据目标声音弹幕的声音特征以及情感特征，生成声音弹幕波形。

在本例中，与目标声音弹幕对应的声音弹幕波形是根据目标声音弹幕的声音特征以及情感特征生成，在展示时能直观体现目标声音弹幕的声音特征以及情感特征，可以令用户在观看视频时，无需播放声音弹幕就能快速、直接地了解声音弹幕的声音特征以及情感特征，以选择是否播放声音弹幕，提高用户播放声音弹幕的效率。

在更具体的例子中，步骤S2120可以包括：步骤S2121-S2122。

步骤S2121，根据目标声音弹幕的声音特征，设置声音弹幕波形的显示形状，以及，根据目标声音弹幕的情感特征，设置声音弹幕波形的显示颜色。

在本例中，可以根据目标声音弹幕的声音特征，设置声音弹幕波形的显示形状，显示形状可以包括声音弹幕波形的幅度大小、波形周期间隔、波形持续长度等。例如，目标声音弹幕的声音特征包括节奏特征以及音量特征，可以根据节奏特征体现的节奏快慢设置声音弹幕波形的波形周期间隔，如节奏越快，波形周期间隔越短等，根据音量特征体现的音量大小设置声音弹幕波形的波形幅度，如音量越大，波形幅度越大等。

在本例中，可以目标声音弹幕的情感特征，设置声音弹幕波形的显示颜色。例如，目标声音弹幕的情感特征包括情感类型以及情感程度，可以根据不同的情感类型设置不同类型的显示颜色，如情感类型是“生气”，设置显示颜色是红色，情感类型是“高兴”，设置显示颜色是绿色，对于同一情感类型的不同情感程度设置同类型的显示颜色深浅不同，例如，对于情感类型是“高兴”，情感程度是“大喜”，设置显示颜色是深绿色，情感程度是“有点开心”，设置显示颜色是浅绿色，等等。

步骤S2122，根据声音弹幕波形的显示形状、显示颜色，生成声音弹幕波形。

声音弹幕波形的显示形状根据目标声音弹幕的声音特征设置，声音弹幕波形的显示颜色根据目标声音弹幕的情感特征设置，对应生成的声音弹幕波形可以直观体现目标声音弹幕的声音特征以及情感特征，令用户在观看视频时，无需播放声音弹幕就能快速、直接地了解声音弹幕的声音特征以及情感特征。

例如，如图4所示，在视频播放窗口中显示的声音弹幕波形的显示颜色是深灰色(假设该颜色对应情感类型“生气”)并且波形周期间隔较小、波形幅度较大，用户看到该声音弹幕波形可以快速直观地了解到对应的声音弹幕表达的情感类型是“生气”并且音量较大、节奏较快。

在步骤S2120生成声音弹幕波形之后，进入：

步骤S2130，根据弹幕展示时序，在视频播放窗口中展示声音弹幕波形。

声音弹幕波形是根据目标声音弹幕的声音特征以及情感特征生成，在视频播放窗口中根据弹幕展示时序展示，不仅可以与其他弹幕一起进行有序展示，实现声音弹幕的图形化表达，还可以直观表达目标声音弹幕的声音特征以及情感特征。

在步骤S2200展示与目标声音弹幕对应的声音弹幕波形之后，进入：

步骤S2300，根据接收的声音弹幕播放指示，播放目标声音弹幕。

声音弹幕播放指示是由具有弹幕播放需求的用户触发的、用于指示播放对应的声音弹幕的指示信息，可以由用户实施在当前视频的播放窗口提供的功能项上的点击、勾选操作或者实施于播放窗口的窗口界面上的其他预定的手势操作触发。而为了便于用户能获取更顺畅、便捷地播放声音弹幕，用户也可以通过语音方式触发生成作为声音弹幕播放指示的语音指令。

例如，如图5所示，看到当前视频的视频播放窗口中展示的声音弹幕后，可以点击视频播放窗口中提供的声音弹幕播放按钮，播放声音弹幕进行收听。

根据接收的声音弹幕播放指示，播放目标声音弹幕，不仅可以通过声音弹幕快速、直观、完整地表达发送弹幕的用户真实的情绪或感受，还可以只在被展示声音弹幕的用户关注时播放声音弹幕，避免影响用户观看视频。

在本实施例中，根据不同的声音弹幕播放需求，声音弹幕播放指示可以用于指定播放对应的目标声音弹幕，也可以用于指示播放包括目标声音弹幕在内的多条弹幕，以满足不同的用户对于声音弹幕的播放需求。

比如，在一个例子中，目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；声音弹幕播放指示用于指示将目标声音弹幕与其他弹幕混合播放；步骤S2300可以包括：步骤是2310-S2330。

步骤S2310，获取与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段的同时段弹幕。

与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段，可以是以与目标声音弹幕的弹幕展示时序所对应的视频播放时刻为中心，根据预设的时段长度，前后截取的一个弹幕播放时段。例如，假设与目标声音弹幕的弹幕展示时序所对应的视频播放时刻为t，预设的时段长度是T，与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段是[t-T,t+T]。

在与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段中，视频播放窗口中会展示多条弹幕，这些弹幕就是目标声音弹幕的同时段弹幕。目标声音弹幕的同时段弹幕包括文字弹幕或者声音弹幕，即这些同时段弹幕里可能有文字弹幕以及其他的声音弹幕。

本例的一个简单的应用场景，可以直接将弹幕播放时段设置为当前视频播放的整个时段，使得可以结合后续步骤直接播放当前视频的所有展示的弹幕。

步骤S2320，将同时段弹幕包括的文字弹幕进行转换处理，得到对应的声音弹幕。

在本例中，可以通过预设的语音阅读引擎或者语音阅读插件，将同时段弹幕中的文字弹幕中的文字内容通过预设类型的语音读出，录制生成对应的声音弹幕。该预设类型的语音可以是预先默认设置，或者由期望播放弹幕的用户从可支持的语音类型中选取。

步骤S2330，将进行转换处理后的同时段弹幕与目标声音弹幕，根据对应的弹幕展示时序进行声音合成后播放。

在本例中，同时段弹幕中的每条弹幕(包括文字弹幕或声音弹幕)都具有对应的弹幕展示时序。进行转换处理后的同时段弹幕中只包括声音弹幕，但对应的弹幕展示时序不变。根据进行转换处理后的同时段弹幕中每条声音弹幕的弹幕展示时序以及目标声音弹幕自身的弹幕展示时序，根据时序的先后进行声音合成：如果在同一时间点上只有一条声音弹幕，则合成后播放的声音内容只有该条声音弹幕在该时间点上的声音弹幕内容；而如果同一时间点上存在多条声音弹幕，则将多条声音弹幕在该时间点上的声音弹幕内容合成，合成后播放的声音内容可以同时多条声音弹幕在该时间点播出时的声音，例如，可以清晰听到多个用户的发出的声音弹幕的声音，形成多人说话的效果。

通过将与目标声音弹幕处于相同的弹幕播放时段的同时段弹幕中的文字弹幕转换成文字弹幕，并根据同时段弹幕中每条弹幕的弹幕展示时序以及目标声音弹幕的弹幕展示时序进行声音合成后播放，可以形成多个用户共同发出声音弹幕的效果，满足收听声音弹幕的用户对声音弹幕期望共同播放的需求。

而在另一个例子中，声音弹幕播放指示用于指示将目标声音弹幕通过文字形式显示实现播放；步骤S2300可以包括：

将目标声音弹幕转换为对应的文字弹幕后，在视频播放窗口中显示。

在本例中，可以通过语音识别工具或者语音识别引擎等，识别目标声音弹幕中的声音弹幕内容，转换为对应的文本，得到对应的文字弹幕。

通过将目标声音弹幕转化为对应的文字弹幕后在视频播放窗口中显示，对关注目标声音弹幕的用户，可以在不方便收听声音弹幕的情况下，快速、直观地查看声音弹幕内容，及时满足用户的声音弹幕收听需求。

<例子>

以下将结合图6进一步说明本实施例中提供的声音弹幕的应用方法。

如图6所示，声音弹幕的应用方法包括：步骤S201-S204。

步骤S201，用户A在观看当前视频时，在当前视频的视频播放窗口中点击生成发送声音弹幕的功能按钮，录制用户语音数据；

步骤S202，用户A继续点击插入声音表情的按钮，选择声音表情插入用户语音数据中；

步骤S203,根据所接收包括用户语音数据以及用户选择的声音表情的用户声音数据，生成用户A的声音弹幕，在视频播放窗口中展示与用户A的声音弹幕对应的声音弹幕波形。

在本例中，声音弹幕的生成步骤可以同上述步骤S2100，在此不再赘述。

生成与用户A的声音弹幕对应的声音弹幕波形，可以同上述步骤S2200，在此不再赘述。

步骤S204，接收用户B的声音弹幕播放指示，播放用户A发送的声音弹幕。

在本例中，用户B可以直接通过语音指令触发声音弹幕播放指示，可以将与用户A发生的声音弹幕处于相同的弹幕播放时段的同时段弹幕一起进行声音合成播放给用户B收听，令用户B可以收听共同发出的多个声音弹幕，满足对应的声音弹幕播放需求。

<声音弹幕的应用装置>

在本实施例中，还提供一种声音弹幕的应用装置3000，如图7所示，包括：弹幕生成单元3100、弹幕展示单元3200以及弹幕播放单元3300，用于实施本实施例中提供的声音弹幕的应用方法，在此不再赘述。

弹幕生成单元3100，用于根据在当前视频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕。

可选地，所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；所述弹幕生成单元3100包括：

用于根据接收到所述用户声音数据时的所述当前视频的视频播放时刻，确定所述弹幕展示时序的装置；

用于根据所述用户声音数据，生成所述声音弹幕内容的装置。

可选地，所述用户声音数据至少包括用户语音数据以及声音表情其中之一；所述声音表情包括语音表情以及音效表情；用于根据接收到所述用户声音数据时的所述当前视频的视频播放时刻，确定所述弹幕展示时序的装置还用于：

弹幕展示单元3200，用于在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形。

可选地，所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；弹幕展示单元3200还包括：

用于根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征以及情感特征的装置；

用于根据所述目标声音弹幕的声音特征以及情感特征，生成所述声音弹幕波形的装置；

用于根据所述弹幕展示时序，在所述视频播放窗口中展示所述声音弹幕波形的装置。

可选地，所述声音特征包括音量特征以及节奏特征；所述情感特征包括情感类型以及情感程度；

用于根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征以及情感特征的装置还用于：

可选地，用于根据所述目标声音弹幕的声音特征以及情感特征，生成所述声音弹幕波形的装置还用于：

弹幕播放单元3300，用于根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

所述弹幕播放单元3300用于：

可选地，所述声音弹幕播放指示用于指示将所述目标声音弹幕通过文字形式显示实现播放；所述弹幕播放单元3300用于：

本领域技术人员应当明白，可以通过各种方式来实现声音弹幕的应用装置3000。例如，可以通过指令配置处理器来实现声音弹幕的应用装置3000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现声音弹幕的应用装置3000。例如，可以将声音弹幕的应用装置3000固化到专用器件(例如ASIC)中。可以将声音弹幕的应用装置3000分成相互独立的单元，或者可以将它们合并在一起实现。声音弹幕的应用装置3000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，声音弹幕的应用装置3000可以是任意地提供在观看视频时输出声音弹幕功能的软件产品或者应用程序。例如，声音弹幕的应用装置3000可以是支持在视频播放时提供声音弹幕功能的视频类应用。

<声音弹幕的应用设备>

在本实施例中，还提供一种声音弹幕的应用设备4000，如图8所示，包括：

显示装置4100，

存储器4200，用于存储可执行的指令；

处理器4300，用于根据所述可执行的指令的控制，运行所述声音表情的应用设备执行如本实施例所述的声音弹幕的应用方法。

在本实施例中，声音弹幕的应用设备4000可以是手机、掌上电脑、平板电脑、笔记本电脑、台式电脑等电子设备。具体的一个例子中，声音弹幕的应用设备4000可以是安装有任意地提供在观看视频时输出声音弹幕功能的软件产品或者应用程序的手机，例如，安装有支持在视频播放时提供声音弹幕功能的视频类应用的手机。

声音弹幕的应用设备4000还可以包括其他的装置，例如，如图1所示的电子设备1000，还可以包括输入装置等。

<可读存储介质>

在本实施例中，还提供一种可读存储介质，可读存储介质存储有可被计算机读取并运行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本实施例所述的声音弹幕的应用方法。

可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

以上已经结合附图描述了本发明的实施例，根据本实施例，提供一种声音弹幕的应用方法、装置、设备及可读存储介质，根据在视频播放过程中接收的用户声音数据，生成对应的目标声音弹幕，在与目标声音弹幕关联的视频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形，根据接收的声音弹幕播放指示，播放目标声音弹幕，令用户在视频播放过程中，可以通过声音这一简单便捷的交流手段发送弹幕，实现通过声音弹幕快速、直观、完整地表达用户真实的情绪或感受。同时，只在用户关注时播放声音弹幕，避免影响用户观看视频。有效提升用户的弹幕使用体验。

<第二实施例>

在本实施例的总体构思，是针对现有技术中用户在收听音频过程中无法与其他用户进行互动、不能直观表达自身情绪或感受的问题，提供一种声音弹幕的应用方案，根据在音频播放过程中接收的用户声音数据，生成对应的目标声音弹幕，在与目标声音弹幕关联的音频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形，根据接收的声音弹幕播放指示，播放目标声音弹幕，令用户在音频播放过程中，可以通过声音这一简单便捷的交流手段发送弹幕，实现通过声音弹幕快速、直观、完整地表达用户真实的情绪或感受，与其他用户实现互动。同时，只在用户关注时播放声音弹幕，避免影响用户收听音频。有效提升用户的弹幕使用体验。

<方法>

在本实施例中，提供一种声音弹幕的使用方法，如图9所示，包括：步骤S3100-S3300。

步骤S3100，根据在当前音频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕。

当前音频是用户正在播放或收听的音频。在本实施例中，可以通过任意提供音频播放服务的应用或者操作系统自带的音频播放器播放当前音频，在此不做限定。

在当前音频的播放过程中，可以通过在音频播放界面上设置可以实施人机交互的声音弹幕窗口上的相关功能项，引导用户发送用户声音数据，以生成对应的目标声音弹幕，例如，如图10所示。

弹幕展示时序是目标声音弹幕在音频播放过程中展示时相对其他弹幕的展示时间先后次序。声音弹幕内容是在播放对应的声音弹幕时用户能听到的声音内容。

在本例中，步骤S3100可以包括：步骤S3110-S3120。

步骤S3110，根据接收到用户声音数据时的当前音频的音频播放时刻，确定弹幕展示时序。

接收到用户声音数据时的当前音频的音频播放时刻，是区分接收到的、用于生成目标声音弹幕的用户声音数据，相对于接收到生成其他弹幕的用户文字数据或者用户声音数据的时序先后的依据。根据该音频播放时刻，可以准确地确定根据用户声音数据生成的目标声音弹幕的弹幕展示时序，确保当前音频的所有弹幕均根据对应的时序播放，避免出现弹幕展示混乱影响用户体验。

步骤S3120，根据用户声音数据，生成声音弹幕内容。

在当前音频的播放过程中，用户在输入用于生成目标声音弹幕的用户声音数据时，还可以提供功能项供用户选择使用声音表情，例如，如图10所示。

在这个例子中，步骤S3120可以包括：步骤S3121-S3123。

步骤S3121，用户声音数据中仅包括用户语音数据或仅包括声音表情时，将用户声音数据作为声音弹幕内容。

在本例中，用户不仅可以直接输入用户语音数据作为声音弹幕的内容，还可以直接输入符合自身情感表达需求的声音表情作为声音弹幕的内容，更为简单、直接、生动地表达自身在收听音频时的情绪或感受。

步骤S3122，用户声音数据包括用户语音数据以及语音表情时，在用户语音数据的相应位置插入语音表情，合成声音弹幕内容。

在用户语音数据的相应位置插入具有语言内容的语音表情，可以直观表达用户在收听音频时当下期望表达的情绪或感受。例如，语音表情的语言内容是“好喜欢啊”，用户在用户语音数据的末尾插入该语音表情，对应的，生成的声音弹幕内容中在用户语音数据之后是“好喜欢啊”这一声语音表情表达的感叹。

步骤S3123，用户声音数据包括用户语音数据以及音效表情时，将用户语音数据与音效表情，混音合成声音弹幕内容。

当用户不仅输入用户语音数据、还选择使用音效表情时，用户是期望通过音效表情播放时所产生的音效来表达自身的情绪或感受。将用户声音数据包括用户语音数据以及音效表情，混音合成声音弹幕内容，使得音效表情成为用户语音数据的音效背景，在作为声音弹幕播放时，使得用户语音具有音效表情形成的音效，表达用户收听音频时期望表达的情绪或感受。例如，音效表情的音效是哄堂大笑的笑声特效，将音效表情与用户语音数据混音合成后，生成的声音弹幕内容是带有哄堂大笑的笑声特效作为音效的用户语音数据，直观地表达用户收听音频时感受到的搞笑氛围。

应当理解的是，在实际应用中，为了避免时长过长的声音弹幕影响用户正常收听音频，可以在用户输入用于生成声音弹幕的用户声音数据时，限制输入用户声音数据的时长，当用户声音数据包括用户语音数据或者声音表情时，相应地，也可以限制用户语音数据的时长，并且在生成声音表情限制声音表情的时长，具体的限制时长可以根据应用场景或者应用需求设置，在本实施例中不做具体限定。

在步骤S3100生成对应的目标声音弹幕之后，进入：

步骤S3200，在当前音频的音频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形。

与目标声音弹幕对应的声音弹幕波形，是声音弹幕的图形化表达方式。通过声音弹幕波形，可以无需播放声音弹幕就能在音频播放窗口中展示声音弹幕，实现声音弹幕与文字弹幕可以在音频播放窗口的混合展示。例如，如图11所示的音频播放窗口中，可以同时混合展示文字弹幕以及声音弹幕。

在一个例子中，目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容。步骤S3200可以包括：步骤S3110-S3130。

步骤S3110，根据目标声音弹幕的声音弹幕内容，获取目标声音弹幕的声音特征以及情感特征。

在更具体的一个例子中，声音特征包括音量特征以及节奏特征；情感特征包括情感类型以及情感程度；步骤S3110可以包括：步骤S3111-S3112。

步骤S3111，对声音弹幕内容进行语音分析，提取对应的音量特征以及节奏特征。

步骤S3112，将声音弹幕内容转换为对应的声音弹幕文本，根据预先构建的情感词库从声音弹幕文本中提取情感关键词，通过情感结构化模型，对情感关键词进行结构化分析，得到情感关键词的情感类型以及情感程度，作为目标声音弹幕的情感特征。

在步骤S3110获取目标声音弹幕的声音特征以及情感特征之后，进入：

步骤S3120，根据目标声音弹幕的声音特征以及情感特征，生成声音弹幕波形。

在本例中，与目标声音弹幕对应的声音弹幕波形是根据目标声音弹幕的声音特征以及情感特征生成，在展示时能直观体现目标声音弹幕的声音特征以及情感特征，可以令用户在收听音频时，无需播放声音弹幕就能快速、直接地了解声音弹幕的声音特征以及情感特征，以选择是否播放声音弹幕，提高用户播放声音弹幕的效率。

在更具体的例子中，步骤S3120可以包括：步骤S3121-S3122。

步骤S3121，根据目标声音弹幕的声音特征，设置声音弹幕波形的显示形状，以及，根据目标声音弹幕的情感特征，设置声音弹幕波形的显示颜色。

步骤S3122，根据声音弹幕波形的显示形状、显示颜色，生成声音弹幕波形。

声音弹幕波形的显示形状根据目标声音弹幕的声音特征设置，声音弹幕波形的显示颜色根据目标声音弹幕的情感特征设置，对应生成的声音弹幕波形可以直观体现目标声音弹幕的声音特征以及情感特征，令用户在收听音频时，无需播放声音弹幕就能快速、直接地了解声音弹幕的声音特征以及情感特征。

例如，如图11所示，在音频播放窗口中显示的声音弹幕波形的显示颜色是深灰色(假设该颜色对应情感类型“生气”)并且波形周期间隔较小、波形幅度较大，用户看到该声音弹幕波形可以快速直观地了解到对应的声音弹幕表达的情感类型是“生气”并且音量较大、节奏较快。

在步骤S3120生成声音弹幕波形之后，进入：

步骤S3130，根据弹幕展示时序，在音频播放窗口中展示声音弹幕波形。

声音弹幕波形是根据目标声音弹幕的声音特征以及情感特征生成，在音频播放窗口中根据弹幕展示时序展示，不仅可以与其他弹幕一起进行有序展示，实现声音弹幕的图形化表达，还可以直观表达目标声音弹幕的声音特征以及情感特征。

在步骤S3200展示与目标声音弹幕对应的声音弹幕波形之后，进入：

步骤S3300，根据接收的声音弹幕播放指示，播放目标声音弹幕。

声音弹幕播放指示是由具有弹幕播放需求的用户触发的、用于指示播放对应的声音弹幕的指示信息，可以由用户实施在当前音频的播放窗口提供的功能项上的点击、勾选操作或者实施于播放窗口的窗口界面上的其他预定的手势操作触发。而为了便于用户能获取更顺畅、便捷地播放声音弹幕，用户也可以通过语音方式触发生成作为声音弹幕播放指示的语音指令。

例如，如图12所示，看到当前音频的音频播放窗口中展示的声音弹幕后，可以点击音频播放窗口中提供的声音弹幕播放按钮，播放声音弹幕进行收听。

根据接收的声音弹幕播放指示，播放目标声音弹幕，不仅可以通过声音弹幕快速、直观、完整地表达发送弹幕的用户真实的情绪或感受，还可以只在被展示声音弹幕的用户关注时播放声音弹幕，避免影响用户收听音频。

比如，在一个例子中，目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；声音弹幕播放指示用于指示将目标声音弹幕与其他弹幕混合播放；步骤S3300可以包括：步骤是3310-S3330。

步骤S3310，获取与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段的同时段弹幕。

与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段，可以是以与目标声音弹幕的弹幕展示时序所对应的音频播放时刻为中心，根据预设的时段长度，前后截取的一个弹幕播放时段。例如，假设与目标声音弹幕的弹幕展示时序所对应的音频播放时刻为t，预设的时段长度是T，与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段是[t-T,t+T]。

在与目标声音弹幕的弹幕展示时序处于相同的弹幕播放时段中，音频播放窗口中会展示多条弹幕，这些弹幕就是目标声音弹幕的同时段弹幕。目标声音弹幕的同时段弹幕包括文字弹幕或者声音弹幕，即这些同时段弹幕里可能有文字弹幕以及其他的声音弹幕。

本例的一个简单的应用场景，可以直接将弹幕播放时段设置为当前音频播放的整个时段，使得可以结合后续步骤直接播放当前音频的所有展示的弹幕。

步骤S3320，将同时段弹幕包括的文字弹幕进行转换处理，得到对应的声音弹幕。

步骤S3330，将进行转换处理后的同时段弹幕与目标声音弹幕，根据对应的弹幕展示时序进行声音合成后播放。

而在另一个例子中，声音弹幕播放指示用于指示将目标声音弹幕通过文字形式显示实现播放；步骤S3300可以包括：

将目标声音弹幕转换为对应的文字弹幕后，在音频播放窗口中显示。

通过将目标声音弹幕转化为对应的文字弹幕后在音频播放窗口中显示，对关注目标声音弹幕的用户，可以在不方便收听声音弹幕的情况下，快速、直观地查看声音弹幕内容，及时满足用户的声音弹幕收听需求。

<例子>

以下将结合图13进一步说明本实施例中提供的声音弹幕的应用方法。

如图13所示，声音弹幕的应用方法包括：步骤S301-S304。

步骤S301，用户A在观看当前音频时，在当前音频的音频播放窗口中点击生成发送声音弹幕的功能按钮，录制用户语音数据；

步骤S302，用户A继续点击插入声音表情的按钮，选择声音表情插入用户语音数据中；

步骤S303,根据所接收包括用户语音数据以及用户选择的声音表情的用户声音数据，生成用户A的声音弹幕，在音频播放窗口中展示与用户A的声音弹幕对应的声音弹幕波形。

在本例中，声音弹幕的生成步骤可以同上述步骤S3100，在此不再赘述。

生成与用户A的声音弹幕对应的声音弹幕波形，可以同上述步骤S3200，在此不再赘述。

步骤S304，接收用户B的声音弹幕播放指示，播放用户A发送的声音弹幕。

<声音弹幕的应用装置>

在本实施例中，还提供一种声音弹幕的应用装置5000，如图14所示，包括：弹幕生成单元5100、弹幕展示单元5200以及弹幕播放单元5300，用于实施本实施例中提供的声音弹幕的应用方法，在此不再赘述。

弹幕生成单元5100，用于根据在当前音频的播放过程中接收的用户声音数据，生成对应的目标声音弹幕。

可选地，所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；所述弹幕生成单元5100包括：

用于根据接收到所述用户声音数据时的所述当前音频的音频播放时刻，确定所述弹幕展示时序的装置；

可选地，所述用户声音数据至少包括用户语音数据以及声音表情其中之一；所述声音表情包括语音表情以及音效表情；用于根据接收到所述用户声音数据时的所述当前音频的音频播放时刻，确定所述弹幕展示时序的装置还用于：

弹幕展示单元5200，用于在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的所述声音弹幕波形。

可选地，所述目标声音弹幕具有对应的弹幕展示时序以及声音弹幕内容；弹幕展示单元5200还包括：

用于根据所述弹幕展示时序，在所述音频播放窗口中展示所述声音弹幕波形的装置。

弹幕播放单元5300，用于根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

所述弹幕播放单元5300用于：

可选地，所述声音弹幕播放指示用于指示将所述目标声音弹幕通过文字形式显示实现播放；所述弹幕播放单元5300用于：

本领域技术人员应当明白，可以通过各种方式来实现声音弹幕的应用装置5000。例如，可以通过指令配置处理器来实现声音弹幕的应用装置5000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现声音弹幕的应用装置5000。例如，可以将声音弹幕的应用装置5000固化到专用器件(例如ASIC)中。可以将声音弹幕的应用装置5000分成相互独立的单元，或者可以将它们合并在一起实现。声音弹幕的应用装置5000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，声音弹幕的应用装置5000可以是任意地提供在收听音频时输出声音弹幕功能的软件产品或者应用程序。例如，声音弹幕的应用装置5000可以是支持在音频播放时提供声音弹幕功能的音频类应用。

<声音弹幕的应用设备>

在本实施例中，还提供一种声音弹幕的应用设备6000，如图15所示，包括：

显示装置6100；

存储器6200，用于存储可执行的指令；

处理器6300，用于根据所述可执行的指令的控制，运行所述声音表情的应用设备执行如本实施例所述的声音弹幕的应用方法。

在本实施例中，声音弹幕的应用设备6000可以是手机、掌上电脑、平板电脑、笔记本电脑、台式电脑等电子设备。具体的一个例子中，声音弹幕的应用设备6000可以是安装有任意地提供在收听音频时输出声音弹幕功能的软件产品或者应用程序的手机，例如，安装有支持在音频播放时提供声音弹幕功能的音频类应用的手机。

声音弹幕的应用设备6000还可以包括其他的装置，例如，如图1所示的电子设备1000，还可以包括输入装置等。

<可读存储介质>

以上已经结合附图描述了本发明的实施例，根据本实施例，提供一种声音弹幕的应用方法、装置、设备及可读存储介质，根据在音频播放过程中接收的用户声音数据，生成对应的目标声音弹幕，在与目标声音弹幕关联的音频播放窗口中，展示与目标声音弹幕对应的声音弹幕波形，根据接收的声音弹幕播放指示，播放目标声音弹幕，令用户在音频播放过程中，可以通过声音这一简单便捷的交流手段发送弹幕，实现通过声音弹幕快速、直观、完整地表达用户真实的情绪或感受,与其他用户实现互动。同时，只在用户关注时播放声音弹幕，避免影响用户收听音频。有效提升用户的弹幕使用体验。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种声音弹幕的应用方法，其中，包括：

在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形；所述在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形，包括：根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征,根据所述目标声音弹幕的声音特征,生成所述声音弹幕波形；

根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

2.根据权利要求1所述的方法，其中，

所述在与所述目标声音弹幕关联的视频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形的步骤包括：

根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的情感特征；

3.根据权利要求2所述的方法，其中，

4.根据权利要求2所述的方法，其中，

所述根据所述目标声音弹幕的声音特征以及情感特征，生成所述声音弹幕波形的步骤包括：

5.根据权利要求1所述的方法，其中，

和/或，

6.根据权利要求1所述的方法，其中，

根据所述用户声音数据，生成所述声音弹幕内容。

7.根据权利要求6所述方法，其中，

所述用户声音数据至少包括用户语音数据以及声音表情其中之一；所述声音表情包括语音表情以及音效表情；

8.一种声音弹幕的应用装置，其中，包括：

弹幕展示单元，用于在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形；所述在所述当前视频的视频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形，包括：根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征,根据所述目标声音弹幕的声音特征,生成所述声音弹幕波形；弹幕播放单元，用于根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

9.一种声音弹幕的应用设备，其中，包括：

显示装置；

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述声音弹幕的应用设备执行如权利要求1-7任一项所述的声音弹幕的应用方法。

10.一种可读存储介质，其中，所述可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如权利要求1-7任一项所述的声音弹幕的应用方法。

11.一种声音弹幕的应用方法，其中，包括：

在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形；所述在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形，包括：根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征,根据所述目标声音弹幕的声音特征,生成所述声音弹幕波形；

根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

12.根据权利要求11所述的方法，其中，

所述在与所述目标声音弹幕关联的音频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形的步骤包括：

13.根据权利要求12所述的方法，其中，

14.根据权利要求12所述的方法，其中，

15.根据权利要求11所述的方法，其中，

和/或，

16.根据权利要求11所述的方法，其中，

所述根据在音频播放过程中接收的用户声音数据，生成对应的声音弹幕的步骤包括：

根据所述用户声音数据，生成所述声音弹幕内容。

17.根据权利要求16所述方法，其中，

18.一种声音弹幕的应用装置，其中，包括：

弹幕展示单元，用于在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形；所述在所述当前音频的音频播放窗口中，展示与所述目标声音弹幕对应的声音弹幕波形，包括：根据所述目标声音弹幕的声音弹幕内容，获取所述目标声音弹幕的声音特征,根据所述目标声音弹幕的声音特征,生成所述声音弹幕波形；弹幕播放单元，用于根据接收的声音弹幕播放指示，播放所述目标声音弹幕。

19.一种声音弹幕的应用设备，其中，包括：

显示装置；

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述声音弹幕的应用设备执行如权利要求11-17任一项所述的声音弹幕的应用方法。

20.一种可读存储介质，其中，所述可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如权利要求11-17任一项所述的声音弹幕的应用方法。