CN113873296A

CN113873296A - 视频流处理方法及装置

Info

Publication number: CN113873296A
Application number: CN202111123239.4A
Authority: CN
Inventors: 汤然
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-31

Abstract

本申请提供视频流处理方法及装置，其中所述视频流处理方法包括：接收待处理视频流以及与所述待处理视频流对应的目标音频流；获取与所述目标音频流对应的目标字幕信息；编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。本申请通过获取与目标音频流对应的目标字幕信息，实现了音频与字幕的同步，提升了用户的观看体验；将字幕信息添加至码流中，获得包含字幕信息的目标视频流，提升了字幕信息的传输效率；并且目标视频流添加的字幕信息以字幕文件的方式保存，便于对字幕信息的复用。

Description

视频流处理方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及视频流处理方法。本申请同时涉及视频流处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的不断发展，观看网络视频的用户越来越多。为了便于用户对视频的观看和理解，许多视频中都添加了字幕。通常添加至视频中的字幕包含内嵌字幕和外挂字幕两种，其中，内嵌字幕即直接嵌入视频内部的字幕，外挂字幕则是字幕文件与视频文件独立分开的字幕，外挂字幕可以由播放器进行渲染，即观看视频的用户可选取不同的字幕展示形式在客户端播放。为了使直播也便于用户对内容的理解，可以为直播画面实时添加字幕信息。

然而，如何为直播视频添加与直播画面同步的字幕成为技术人员目前亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了视频流处理方法。本申请同时涉及视频流处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的直播场景缺少外挂形式字幕的问题。

根据本申请实施例的第一方面，提供了一种视频流处理方法，包括：

接收待处理视频流以及与所述待处理视频流对应的目标音频流；

获取与所述目标音频流对应的目标字幕信息；

编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。

根据本申请实施例的第二方面，提供了一种视频流处理装置，包括：

第一接收模块，被配置为接收待处理视频流以及与所述待处理视频流对应的目标音频流；

获取模块，被配置为获取与所述目标音频流对应的目标字幕信息；

编码模块，被配置为编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。

根据本申请实施例的第三方面，提供了一种视频流处理方法，应用于客户端，包括：

接收目标视频流；

解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息；

对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。

根据本申请实施例的第四方面，提供了一种视频流处理装置，应用于客户端，包括：

第二接收模块，被配置为接收目标视频流；

解码模块，被配置为解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息；

播放模块，被配置为对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述视频流处理方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述视频流处理方法的步骤。

本申请提供的视频流处理方法，接收待处理视频流以及与所述待处理视频流对应的目标音频流；获取与所述目标音频流对应的目标字幕信息；编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。

本申请一实施例通过获取与目标音频流对应的目标字幕信息，并在编码过程中将目标字幕信息添加至码流中获得目标视频流，提高了目标字幕信息的传输效率，并且实现了音频、视频以及字幕的三者的同步，提升了用户的观看体验。

附图说明

图1是本申请一实施例提供的一种视频流处理方法的流程图；

图2是本申请一实施例提供的一种应用于客户端的视频流处理方法的流程图；

图3是本申请一实施例提供的一种应用于演讲直播流的视频流处理方法的处理流程图；

图4是本申请一实施例提供的一种视频流处理装置的结构示意图；

图5是本申请一实施例提供的一种应用于客户端的视频流处理装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

直播：直播的英文为Live broadcast，广义上的直播还包括了电视台的直播，我们这里一般都指网络视频直播。直播音视频会以媒体流的形式推到服务器上(推流)。如果有观众收看直播，服务器收到用户的请求后，会把视频传输到网站、APP、客户端的播放器，实时播放视频。

点播：点播是二十世纪90年代在国外发展起来的，也称为“VOD”。顾名思义，就是根据观众的要求播放节目的视频点播系统，把用户所点击或选择的视频内容，传输给所请求的用户。视频点播业务是近年来新兴的传媒方式，是计算机技术、网络通信技术、多媒体技术、电视技术和数字压缩技术等多领域融合的产物。

字幕：是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容，也泛指影视作品后期加工的文字。在电影银幕或电视机荧光屏下方出现的解说文字以及种种文字，如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。

Srt字幕格式：比较流行的文本字幕有srt、smi、ssa，因为是文本格式，所以就比较小。其中srt文本字幕最为流行，因为其制作规范简单，一句时间代码+一句字幕，使得制作修改就相当简单。配合上.style文件还能让Srt自带一些字体上的特效等。几种文本字幕可以互相转换。

ASS字幕格式：ASS是一种高级的字幕格式，是较SSA(SubStation Alpha(或SubStation Alpha))更高级的字幕，它是技术上而言的SSAv4+，它包含了所有SSA的所有特性，它可以将任何简单的文本转变成为卡拉OK的字幕样式，数个项目旨在创建这些脚本。ASS的特点在于它比普通的SSA更为规范，如ASS的编程风格。

FFmpeg：FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

H264编码：H264一般指H.264。H.264，同时也是MPEG-4第十部分，是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT，JointVideo Team)提出的高度压缩数字视频编解码器标准。

H265编码：H.265是ITU-T VCEG继H.264之后所制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进。

SEI：SEI即补充增强信息(Supplemental Enhancement Information)，属于码流范畴，它提供了向视频码流中加入额外信息的方法，是H.264/H.265这些视频压缩标准的特性之一。

UUID：通用唯一识别码，是一种软件建构的标准，亦为开放软件基金会组织在分布式计算环境领域的一部分。其目的，是让分布式系统中的所有元素，都能有唯一的辨识信息，而不需要通过中央控制端来做辨识信息的指定。

通常情况下，很多视频都带有字幕，有些是外挂字幕(srt/ass/ssa等)，有些是压制在视频画面内容上的内嵌字幕。视频拥有字幕可以辅助用户理解视频内容，有很多好处。视频内嵌字幕的优点：字幕内容直接嵌入视频内容，不需要其他辅助方法即可看见字幕；缺点：字幕本身属于高纹理的内容，可能会分走部分码率，在相同码率的情况下，带字幕的视频画质会比不带字幕的差，且字幕完全嵌入视频后，无法做便携的替换。外挂字幕的优点：字幕内容与视频文件独立，可以任意编辑(包括字幕内容和字幕样式)，播放时只需要播放器支持(且大多数播放器都已支持)就可以绘制出各种各样的弹幕格式，因为外挂字幕是由播放器渲染的，所以不会影响原视频画质；缺点：外挂字幕内容需要事先生成，无法适用于直播场景，渲染字幕需要播放器支持。

基于此，为了可以在直播场景中使用外挂字幕，达到在直播时渲染多种多样的字幕内容的效果，提升观看体验且不会影响原视频画质，在本申请中，提供了一种视频流处理方法，本申请同时涉及一种视频流处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种视频流处理方法的流程图，具体包括以下步骤：

步骤102：接收待处理视频流以及与所述待处理视频流对应的目标音频流。

其中，待处理视频流是指用于生成视频画面的流数据；目标音频流是指用于生成视频画面对应的声音的流数据。

本申请视频流处理方法可以应用在主播端或推流服务器，其中，主播端是指可以采集主播在直播过程中产生的视频和音频数据的终端设备，包括但不限于手机、平板等终端设备；推流服务器是指将接收到的视频流推流至子节点进行处理的服务器。

具体的，在应用于主播端的情况下，主播端通过摄像头等设备采集视频数据，通过音频采集设备采集音频数据；将采集到的目标视频数据进行编码获得待处理视频流，将采集到的目标音频数据进行编码获得目标音频流。

在应用于推流服务器的情况下，推流服务器可以接收主播端发送的视频流，在主播端发送的视频流中获取到目标音频流和待处理视频流。

实际应用中，推流服务器接收待处理视频流以及与所述待处理视频流对应的目标音频流的方法包括：

接收初始直播流；

解码所述初始直播流，获得待处理视频流以及与所述待处理视频流对应的目标视频音频流。

其中，初始直播流是指包含待处理视频流以及与待处理视频流对应的目标音频流的流数据。

在实际应用中，为了可以接收到存在对应的关系的目标音频流和待处理视频流，可将待处理视频流以及与待处理视频流对应的目标音频流封装为初始直播流。推流服务器在接收到初始直播流后，对初始直播流进行解码，获得待处理视频流以及与待处理视频流对应的目标音频流。

在本申请一具体实施方式中，以主播端接收待处理视频流和目标音频流为例，主播端采集主播直播时产生的目标视频数据以及与目标视频数据对应的目标音频数据，对目标音频数据进行编码获得目标音频流，对目标视频数据进行编码获得待处理视频流，主播端获得待处理视频流以及与待处理视频流对应的目标音频流。

在本申请另一具体实施方式中，以推流服务器接收初始直播流为例，推流端接收由主播端发送至推流服务器的初始直播流，对初始直播流进行解码，获得待处理视频流以及与待处理视频流对应的目标音频流。

通过接收待处理视频流以及与待处理视频流对应的目标音频流，便于后续基于目标音频流以及待处理视频流在客户端再现主播端直播的画面和声音。

步骤104：获取与所述目标音频流对应的目标字幕信息。

其中，目标字幕信息是指用于在观看直播的客户端生成字幕的信息。

在实际应用中，为了获取到可添加至视频画面的字幕信息，可以基于目标音频流确定与目标音频流对应的目标字幕信息，具体获取与所述目标音频流对应的目标字幕信息的方法包括：

解码所述目标音频流获得目标音频数据；

基于所述目标音频数据确定与所述目标音频流对应的目标字幕信息。

其中，目标音频数据是指在直播时采集的音频数据，可用于对直播的音频内容进行再现。

在本申请一具体实施方式中，以目标音频流包含演讲音频数据为例，对目标音频流进行解码获得演讲音频数据，根据演讲音频数据确定与目标音频流对应的演讲字幕信息。

通过对目标音频流进行解码，获得目标音频数据，便于基于目标音频数据获得目标字幕信息并向流数据中添加目标字幕信息。

在实际应用中，目标字幕信息可以为从目标字幕数据中提取的字幕信息，或根据实际需求预设的字幕信息。

具体的，基于所述目标音频数据确定与所述目标音频流对应的目标字幕信息的方法包括：

对所述目标音频数据进行语音识别，获得所述目标音频流对应的目标字幕信息；和/或

获取预先为所述目标音频流设置的目标字幕信息。

其中，语音识别是指将音频转化为计算机可以处理的数据。对目标音频数据进行语音识别获得目标字幕信息，获得的目标字幕信息与目标音频流存在对应关系，例如，识别从3分20秒到3分21秒的音频数据，获得音频内容为“拼写检查”，则将“拼写检查”作为与目标音频流对应的目标字幕信息。实际应用中为了提高语音识别的速度，可以牺牲一些识别正确率，做到将直播音频实时生成字幕。

预先为所述目标音频流设置的目标字幕信息是指根据实际需求预想设定的字幕信息。例如，目标字幕信息可以是直播歌曲的歌词、直播中的广告词等等。

在本申请一具体实施方式中，以电影音频数据为例，采用AI语音识别，识别电影音频数据中的字幕信息，字幕信息包含“00:00:17，400-->00:00:22，079我们一起来玩捉迷藏吧”等电影字幕时间以及对应的文本，其中，“00:00:17，400”表示0时0分17秒4000毫秒，“我们一起来玩捉迷藏吧”表示识别到的语音对应的文字内容。

在本申请另一具体实施方式中，以歌曲音频视频流为例，获取预先为歌曲音频流设置的目标字幕信息“金曲”，即确定“金曲”为与歌曲音频流对应的目标字幕信息。

通过采用语音识别获得与目标音频流对应的目标字幕信息或直接获取预设的目标字幕信息，实现了字幕信息与音频信息的对应，进而实现字幕信息与直播画面的同步。

在实际应用中，目标字幕信息中可以包含字幕时间信息、字幕样式信息和字幕内容信息：

其中，目标字幕内容信息是指字幕的文字内容信息；目标字幕时间信息是指预设的对目标字幕进行展示时间信息；目标字幕样式信息是指对字幕样式进行处理的信息。

在本申请一具体实施方式中，以讲课字幕信息为例，讲课字幕信息中包含讲课字幕内容信息“第一讲”、讲课字幕样式信息“黑体”以及讲课字幕时间信息“3时15分1秒至3时15分2秒”。

通过目标字幕信息中包含目标字幕内容信息、目标字幕时间信息以及目标字幕样式信息，便于后续将字幕以不同形式的进行展示。

步骤106：编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。

其中，目标视频流是指包含目标字幕信息的流数据。

在实际应用中，将字幕信息添加至H264或H265编码格式等支持SEI的任意编码格式的流数据的SEI信息中，并将包含字幕信息的流数据传输至客户端，客户端基于流数据的SEI信息中的字幕信息在直播画面中对字幕进行展示。

将目标字幕信息按照预设的字幕文件格式添加至流数据的SEI信息中，其中，字幕文件格式包括但不限于Srt、ASS。字幕文件格式可以分为普通字幕格式和高级字幕格式。ASS等高级字幕文件格式中可以包含预设的字幕样式信息，客户端在接收到高级字幕文件格式的字幕信息后，可根据其预设的字幕样式信息对字幕进行展示。而Srt等普通字幕文件格式中仅包含字幕文本信息，无法包含字幕格式信息，则客户端在接收到普通字幕文件格式的字幕信息后，可基于用户在客户端选取的字幕样式对应的字幕样式信息或客户端播放器预设的字幕演示信息对字幕信息进行渲染并展示。

具体的，编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流的方法包括：

编码所述目标音频流和所述待处理视频流获得临时视频流；

添加所述目标字幕信息至所述临时视频流，获得目标视频流。

其中，临时视频流是指对待处理视频流以及目标音频流进行封装得到的流数据。临时视频流为未添加字幕信息的流数据。

在本申请一具体实施方式中，以演讲视频流为例，获取演讲视频流以及与演讲视频流对应的演讲音频流，使用FFmpeg对演讲视频流以及演讲音频流进行编码，即将演讲视频流和演讲音频流封装为临时视频流；对演讲音频流进行AI语音识别，将识别获得的演讲字幕信息按照ASS字幕格式添加至临时视频流的SEI信息中，获得目标视频流。

通过编码视频流数据以及对应的音频流数据得到临时视频流，在临时视频流中添加目标字幕信息，从而提高了字幕信息的传输效率。

在实际应用中，为了可以将字幕信息在不同时间或以不同形式进行展示，编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流的方法包括：

编码所述目标音频流和所述待处理视频流获得临时视频流；

添加所述目标字幕内容信息、所述目标字幕时间信息和所述目标字幕样式信息至所述临时视频流，获得目标视频流。

具体的，将获取到的目标字幕内容信息、目标字幕时间信息添加至临时视频流中获得目标视频流，客户端接收目标视频流后可以根据目标字幕时间信息在规定的时间区间内对字幕内容进行展示；将获取到的目标字幕内容、目标字幕样式信息添加至临时视频流中，客户端接收目标视频流后可以根据目标字幕样式信息对字幕信息进行展示，例如，根据目标字幕样式“绿色字体”将字幕内容以绿色字体进行展示。

在本申请一具体实施方式中，以目标字幕时间信息为在3时15分至3时18分显示字幕为例，将标字幕时间信息“在3时15分值3时18分显示字幕”，以及根据目标字幕样式信息“黑底白色字”添加至临时视频流中，获得目标视频流。

通过将目标字幕内容信息、目标字幕时间信息以及目标字幕样式信息添加至初始直播流，便于后续根据目标字幕时间信息在不同的时间段对字幕内容进行展示，以及基于不同的字幕样式信息对字幕内容以不同的样式进行展示，提升用户体验。

在实际应用中，可以通过确定目标视频帧的方式添加字幕信息，具体添加所述目标字幕信息至所述临时视频流的方法包括：

确定所述临时视频流中的目标视频帧；

获取所述目标视频帧的目标时间信息；

根据所述目标时间信息确定所述目标字幕信息中与所述目标视频帧对应的视频帧字幕信息；

添加所述视频帧字幕信息至所述目标视频帧的码流信息。

其中，目标视频帧是指在临时视频流中确定的要为其添加字幕信息的视频帧；目标时间信息是指目标视频帧对应的时间信息；视频帧字幕信息是指在目标字幕信息中与目标时间对应的字幕信息；目标视频帧的码流信息是指目标视频帧对应的流数据的信息。

具体的，根据实际需求在临时视频流的视频帧中确定目标视频帧，基于目标视频帧对应的时间获的目标时间信息，确定目标字幕信息中与目标时间信息对应的字幕信息作为视频帧字幕信息，将确定的视频帧字幕信息添加至目标视频帧对应的流数据的SEI信息中，完成将目标字幕信息添加至临时视频流的过程。

在本申请一具体实施方式中，以临时视频流为游戏视频流为例，确定游戏视频流中的目标视频帧为50个视频帧{视频帧1、视频帧2...视频帧50}，确定50个视频帧对应的目标时间信息为4分15秒至4分16秒，根据目标时间信息确定目标字幕信息中与目标时间信息对应的视频帧字幕信息“游戏胜利”，其中，目标字幕信息中包含{0分0秒-2分0秒，游戏进行}、{2分0秒-4分0秒，游戏暂停}、{4分0秒-5分0秒，游戏胜利}等。将视频帧字幕信息“游戏胜利”添加至游戏视频流的SEI信息中。

实际应用中，所述视频帧字幕信息还包括视频帧字幕标识信息；添加所述视频帧字幕信息至所述目标视频帧的码流信息，包括：

添加所述视频帧字幕标识信息至所述目标视频帧的码流信息。

其中，视频帧字幕标识信息是指对目标视频帧的字幕数据进行标识的信息，即视频帧字幕信息的组成可以是“UUID+字幕”，UUID是128位整数(16字节)的全局唯一标识符，项目中常用UUID作为唯一标识码，还可采用其他标识码或标识方法对字幕进行标识，本申请不做具体限定。

在本申请一具体实施方式中，以游戏成功视频帧为例，将视频帧字幕信息中包含的视频帧字幕标识信息“550e8400-e29b-41d4-a716-446655440000”添加至游戏成功视频帧所在视频流的SEI信息中。

在实际应用中，可根据实际需求为每个视频帧添加字幕信息、或按指定时间间隔添加字幕信息的方式，向临时视频流中添加目标字幕信息，具体确定所述临时视频流中的目标视频帧的方法包括：

基于预设时间段确定所述临时视频流中的目标视频帧；或

根据所述目标音频流的目标时间段确定所述临时视频流中与目标时间段对应的目标视频帧。

其中，预设时间段是指根据实际需求预先设定的时间段，例如，在卖货直播间中，预设时间段为8点至9点的抢购时间段；目标音频流的目标时间段是指根据目标音频流确定的时间段，例如，目标音频流中3时3分至3时6分为主播与观众进行沟通的时间段，即将3时3分至3时6分作为目标时间段。

本申请一具体实施方式中，以临时视频流为卖货视频流为例，根据卖货直播的商家预先设定的抢购时间8点至9点作为预设时间段，根据预设时间段确定卖货视频流中的8点至9点卖货视频流中的视频帧均为目标视频帧，即可为8点至9点时间段内的每个视频帧添加字幕信息。

本申请另一具体实施方式中，以目标视频流为游戏视频流为例，根据目标音频数据可以确定主播在3时15分至3时18分持续对游戏情况进行讲解，在3时18分至3时19分离开，则可以将3时15分至3时18分作为目标时间段，确定游戏视频流中与目标时间段对应的视频帧作为目标视频帧，因在3时18分至3时19分主播离开视频画面在这个时间段内上没有对应的声音，故可以不将3时18分至3时19分作为目标时间段，即后续可以不对这个时间段内的视频帧添加字幕信息。

在实际应用中，为每个视频帧添加对应的字幕信息会消耗较多的资源，为了提高添加字幕的效率，还可以通过目标音频流中的时间段添加字幕信息，具体添加所述目标字幕信息至所述临时视频流的方法包括：

在所述目标音频流中获取目标音频时间区间；

根据所述目标音频时间区间确定所述目标视频流中的目标视频片段，并在所述目标字幕信息中确定与所述目标音频时间区间对应的音频字幕信息；

添加所述音频字幕信息至所述目标视频片段。

其中，目标音频时间区间是指根据目标音频流确定时间区间，例如，待处理视频流中13时20分至13时25分主播唱歌，则确定13时20分至13时25分为目标音频时间区间；目标视频片段是指在目标音频时间区间内播放的视频片段；音频字幕信息是指目标字幕信息中与目标视频片段对应的字幕信息。

具体的，在目标音频流中基于目标音频流的内容确定目标音频时间区间，基于确定的目标音频时间区间在目标视频流中确定与目标音频时间区间对应的目标视频片段；基于目标音频时间区间在目标字幕信息中确定与目标字幕信息对应的音频字幕信息；将确定的音频字幕信息添加至目标视频片段的码流中。

在本申请一具体实施方式中，以体育视频流为例，体育视频流中包含体育音频流，在体育音频流中的音频内容中15时3分15秒至15时3分25秒为运动员的发言，将15时3分15秒至15时3分25秒作为目标音频时间区间，根据目标音频时间区间确定15时3分15秒至15时3分25秒的体育视频片段以及音频字幕信息，将确定的音频字幕信息添加至体育视频片段的码流的SEI信息中。

在实际应用中，所述音频字幕信息还包括音频字幕标识信息；添加所述音频字幕信息至所述目标视频片段的码流信息，包括：

添加所述音频字幕标识信息至所述目标视频片段的码流信息。

其中，音频字幕标识信息是指对目标视频片段内的字幕数据进行标识的信息，即音频字幕信息的组成可以是“UUID+字幕”，UUID是标识目标片段对应字幕的标识符，其他可实现对视频片段对应的字幕进行标识的方法均可，本申请不做具体限定。

在本申请一具体实施方式中，以游戏成功视频帧为例，将视频帧字幕信息中包含的视频帧字幕标识信息“670e8400-e29b-41d4-a716-446655440000”添加至游戏成功视频帧所在视频流的SEI信息中。

在实际应用中，获得目标视频流后，还可以将目标视频流存储为目标直播文件。通过将目标视频流保存为目标直播文件，用户可根据目标直播文件观看点播的直播回放，实现对字幕信息的复用。

在本申请一具体实施方式中，以体育视频流为例，服务器将添加字幕信息后的体育视频流存储为体育直播文件。客户端接收根据用户点击体育直播视频的操作生成的体育直播点播指令；基于体育直播点播指令确定与体育直播对应的播放文件为体育直播文件；解码体育直播文件中的体育内容播放视频，并根据体育直播点播指令中包含的用户选取的字幕样式信息对字幕进行渲染后再与体育视频画面内容对应进行播放。

本申请提供的视频流处理方法，通过接收待处理视频流以及与所述待处理视频流对应的目标音频流；获取与所述目标音频流对应的目标字幕信息；编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。本申请通过获取与目标音频流对应的目标字幕信息，确保了字幕信息与音频信息的同步，即实现了音频、视频和字幕三者的同步，提升了用户体验；将字幕信息添加至目标视频流的码流信息中，提升了字幕信息的传输效率；向目标视频流添加的字幕信息以字幕文件方式保存，便于后续根据需求对字幕样式进行修改。

图2示出了根据本申请一实施例提供的一种应用于客户端的视频流处理方法的流程图，具体包括以下步骤：

步骤202：接收目标视频流。

具体的，客户端是指观看直播的客户端。客户端接收目标视频流，所述目标视频流的码流信息中包含的字幕数据标识以及对应的字幕数据。

在本申请一具体实施例中，以游戏视频流为例，接收游戏视频流，游戏视频流的SEI信息中包含“UUID+字幕文本”形式的游戏字幕信息。

步骤204：解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息。

具体的，对目标视频流进行解码获得待处理视频流、目标音频流以及目标字幕信息；根据字幕数据标识获取目标视频流中的目标字幕信息。

在本申请一具体实施例中，沿用上例，对游戏视频流进行解码，获得游戏视频流、游戏音频流以及游戏字幕信息。具体的，游戏视频流中的字幕数据以“UUID+字幕文本”的存储形式，识别游戏视频流中的字幕数据标识“UUID”，根据“UUID”获取游戏视频流中获取字幕信息。

步骤206：对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。

根据待处理视频流生成直播画面以及根据目标音频流生成对应的直播音频，从目标视频流的码流信息中获取到目标字幕信息后，根据目标字幕信息生成与直播画面对应的字幕并展示；在播放直播画面的播放器处于字幕关闭状态的情况下，屏蔽码流信息中包含的目标字幕信息，仅根据待处理视频流以及目标音频流生成直播画面，其中，播放器的字幕关闭状态或字幕开启状态可以由用户自行设置。具体的，目标字幕信息中可以包含目标字幕内容信息、目标字幕时间信息以及目标字幕样式信息。在目标字幕信息中包含目标字幕样式信息的情况下，可基于目标字幕样式信息生成携带有字幕样式的字幕并展示；在目标字幕信息中包含目标字幕时间信息的情况下，可根据目标字幕时间信息中规定的时间对字幕进行展示。

在本申请一具体实施例中，沿用上例，将游戏视频流、游戏音频流以及游戏字幕信息对应播放。

在实际应用中，还可以通过点播的方式对直播视频流、直播音频流以及直播字幕信息进行复用，具体对字幕信息进行复用的方法包括：

接收针对所述目标字幕信息的字幕样式调整指令；

基于所述字幕样式调整指令的字幕样式信息对所述目标字幕信息进行调整。

具体的，用户在客户端选取想要查看的字幕样式生成字幕样式调整指令，根据字幕样式调整指令中用户确定的字幕样式对目标字幕进行渲染，并将渲染完成的目标字幕信息进行展示。

在本申请一具体实施方式中，以歌曲直播为例，用户点击回放歌曲直播视频，客户端接收到点播歌曲直播视频指令，确定与歌曲直播视频对应的歌曲直播视频文件；在歌曲直播视频文件中获取字幕信息，并基于观看点播用户选取的淡入淡出的字幕样式对字幕信息进行渲染，获得带有淡入淡出样式的字幕并在客户端进行展示。

本申请应用于客户端的视频流处理方法，接收目标视频流；解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息；对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。通过接收携带有字幕信息的视频流，提升了获取字幕信息的效率，根据字幕信息生成并展示与直播画面内容对应的字幕，提升了用户观看体验。

下述结合附图3，以本申请提供的视频流处理方法在演讲直播流的应用为例，对所述视频流处理方法进行进一步说明。其中，图3示出了本申请一实施例提供的一种应用于演讲直播流的视频流处理方法的处理流程图，具体包括以下步骤：

步骤302：主播端接收待处理视频流以及与所述待处理视频流对应的目标视频音频流。

在本申请一具体实施方式中，以演讲直播流为例，演讲主播使用手机终端采集演讲视频数据以及演讲音频数据；主播端接收由演讲音频数据生成的演讲音频流、由演讲视频数据生成的演讲视频流。

步骤304：解码所述目标音频流获得目标音频数据。

在本申请一具体实施方式中，沿用上例，对主播端接收的演讲音频流进行解码，获得演讲音频数据。

步骤306：对所述目标音频数据进行语音识别，获得所述目标音频流对应的目标字幕信息。

在本申请一具体实施方式中，沿用上例，通过AI识别演讲音频数据，获得演讲字幕信息，其中，演讲字幕信息中包含演讲字幕内容信息：“我的演讲结束了”、以及演讲字幕样式信息“向右滑动”。

步骤308：编码所述目标音频流和所述待处理视频流获得临时视频流。

在本申请一具体实施方式中，沿用上例，编码演讲视频流以及演讲音频流，得到临时演讲直播流。

步骤310：在所述目标音频流中获取目标音频时间区间；根据所述目标音频时间区间确定所述目标视频流中的目标视频片段，并在所述目标字幕信息中确定与所述目标音频时间区间对应的音频字幕信息。

在本申请一具体实施方式中，沿用上例，在演讲视频流中确定演讲时间区间为15时3分58秒至15时4分0秒，根据确定的演讲时间区间在演讲直播流中确定演讲人A发言的视频片段，并根据演讲时间区间确定演讲字幕信息中的与演讲时间区间对应的演讲音频字幕信息“我的演讲结束了”。

步骤312：添加所述音频字幕信息至所述目标视频片段的码流信息，获得目标视频流，并发送至客户端。

在本申请一具体实施方式中，沿用上例，将演讲音频字幕信息添加至临时演讲直播流中，获得演讲直播流，并将演讲直播流发送至客户端。

步骤314：客户端接收目标视频流。

在本申请一具体实施方式中，沿用上例，客户端接收演讲直播流。

步骤316：解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息。

在本申请一具体实施方式中，沿用上例，客户端对演讲直播流进行解码获得演讲视频流、演讲音频流以及演讲字幕信息。

步骤318：对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。

在本申请一具体实施方式中，沿用上例，客户端将演讲视频流、演讲音频流以及演讲字幕信息对应进行播放。其中，将字幕信息“我的演讲结束了”以“向右滑动”的字幕样式进行展示。

本申请的视频流处理方法，通过获取与演讲音频流对应的演讲字幕信息，从而实现了字幕与音频的同步，并将演讲字幕信息添加至视频流的SEI信息中，提升了字幕信息的传输效率，客户端可根据演讲字幕信息中的字幕样式信息生成对应样式的字幕进行展示，从而提升用户的观看体验。

与上述方法实施例相对应，本申请还提供了视频流处理装置实施例，图4示出了本申请一实施例提供的一种视频流处理装置的结构示意图。如图4所示，该装置包括：

第一接收模块402，被配置为接收待处理视频流以及与所述待处理视频流对应的目标音频流；

获取模块404，被配置为获取与所述目标音频流对应的目标字幕信息；

编码模块406，被配置为编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流。

本申请一具体实施方式中，所述第一接收模块402，进一步被配置为：

接收初始直播流；

所述获取模块404，进一步被配置为：

解码所述目标音频流获得目标音频数据；

所述获取模块404，进一步被配置为：

获取预先为所述目标音频流设置的目标字幕信息。

所述目标字幕信息包括：目标字幕内容信息、目标字幕时间信息以及目标字幕样式信息。

所述编码模块406，进一步被配置为：

编码所述目标音频流和所述待处理视频流获得临时视频流；

所述编码模块406，进一步被配置为：

确定所述临时视频流中的目标视频帧；

获取所述目标视频帧的目标时间信息；

添加所述视频帧字幕信息至所述目标视频帧的码流信息。

所述视频帧字幕信息还包括视频帧字幕标识信息；

所述编码模块406，进一步被配置为：

基于预设时间段确定所述临时视频流中的目标视频帧；或

所述编码模块406，进一步被配置为：

在所述目标音频流中获取目标音频时间区间；

添加所述音频字幕信息至所述目标视频片段的码流信息。

所述音频字幕信息还包括音频字幕标识信息；

所述编码模块406，进一步被配置为：

编码所述目标音频流和所述待处理视频流获得临时视频流；

所述装置还包括存储模块，被配置为：

将所述目标视频流存储为目标直播文件。

本申请的视频流处理装置，通过第一接收模块，接收待处理视频流以及与所述待处理视频流对应的目标音频流；获取模块，获取与所述目标音频流对应的目标字幕信息；编码模块，编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流，将字幕信息添加至流数据的SEI信息中，提升了对字幕信息的传输效率，并且获取与音频对应的字幕信息，实现了直播音频与字幕的同步，提升了用户体验。

与上述方法实施例相对应，本申请还提供了视频流处理装置实施例，图5示出了本申请一实施例提供的一种应用于客户端的视频流处理装置的结构示意图。如图5所示，该装置包括：

第二接收模块502，被配置为接收目标视频流；

解码模块504，被配置为解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息；

播放模块506，被配置为对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。

在本申请一具体实施方式中，所述装置还包括调整模块，被配置为：

接收针对所述目标字幕信息的字幕样式调整指令；

本申请应用于客户端的视频流处理装置，通过第二接收模块，接收目标视频流；解码模块，解码所述目标视频流，获得待处理视频流、目标音频流以及目标字幕信息；播放模块，对应播放所述待处理视频流、所述目标音频流以及所述目标字幕信息。通过接收携带有字幕信息的目标视频流，根据目标视频流中的字幕信息生成与直播画面对应的字幕信息，提升了用户的观看体验。

上述为本实施例的一种视频流处理装置的示意性方案。需要说明的是，该视频流处理装置的技术方案与上述的视频流处理方法的技术方案属于同一构思，视频流处理装置的技术方案未详细描述的细节内容，均可以参见上述视频流处理方法的技术方案的描述。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620执行所述计算机指令时实现所述的视频流处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频流处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频流处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述视频流处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频流处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频流处理方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频流处理方法，其特征在于，包括：

获取与所述目标音频流对应的目标字幕信息；

2.如权利要求1所述的视频流处理方法，其特征在于，接收待处理视频流以及与所述待处理视频流对应的目标音频流，包括：

接收初始直播流；

解码所述初始直播流，获得待处理视频流以及与所述待处理视频流对应的目标音频流。

3.如权利要求1所述的视频流处理方法，其特征在于，获取与所述目标音频流对应的目标字幕信息，包括：

解码所述目标音频流获得目标音频数据；

4.如权利要求3所述的视频流处理方法，其特征在于，基于所述目标音频数据确定与所述目标音频流对应的目标字幕信息，包括：

获取预先为所述目标音频流设置的目标字幕信息。

5.如权利要求1所述的视频流处理方法，其特征在于，所述目标字幕信息包括：

目标字幕内容信息、目标字幕时间信息以及目标字幕样式信息。

6.如权利要求1所述的视频流处理方法，其特征在于，编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流，包括：

编码所述目标音频流和所述待处理视频流获得临时视频流；

7.如权利要求6所述的视频流处理方法，其特征在于，添加所述目标字幕信息至所述临时视频流，包括：

确定所述临时视频流中的目标视频帧；

获取所述目标视频帧的目标时间信息；

添加所述视频帧字幕信息至所述目标视频帧的码流信息。

8.如权利要求7所述的视频流处理方法，其特征在于，所述视频帧字幕信息还包括视频帧字幕标识信息；

添加所述视频帧字幕信息至所述目标视频帧的码流信息，包括：

9.如权利要求7所述的视频流处理方法，其特征在于，确定所述临时视频流中的目标视频帧，包括：

基于预设时间段确定所述临时视频流中的目标视频帧；或

10.如权利要求6所述的视频流处理方法，其特征在于，添加所述目标字幕信息至所述临时视频流，包括：

在所述目标音频流中获取目标音频时间区间；

添加所述音频字幕信息至所述目标视频片段的码流信息。

11.如权利要求10所述的视频流处理方法，其特征在于，所述音频字幕信息还包括音频字幕标识信息；

添加所述音频字幕信息至所述目标视频片段的码流信息，包括：

12.如权利要求5所述的视频流处理方法，其特征在于，编码所述目标音频流、所述待处理视频流以及所述目标字幕信息获得目标视频流，包括：

编码所述目标音频流和所述待处理视频流获得临时视频流；

13.如权利要求1所述的视频流处理方法，其特征在于，还包括：

将所述目标视频流存储为目标视频文件。

14.一种视频流处理方法，其特征在于，应用于客户端，包括：

接收目标视频流；

15.如权利要求14所述的视频流处理方法，其特征在于，还包括：

接收针对所述目标字幕信息的字幕样式调整指令；

16.一种视频流处理装置，其特征在于，包括：

17.一种视频流处理装置，其特征在于，应用于客户端，包括：

第二接收模块，被配置为接收目标视频流；

18.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-13或者14-15任意一项所述方法的步骤。

19.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-13或者14-15任意一项所述方法的步骤。