CN110225364B

CN110225364B - 一种视频处理方法、装置、终端、服务器及存储介质

Info

Publication number: CN110225364B
Application number: CN201910645946.6A
Authority: CN
Inventors: 任家锐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2022-03-25
Anticipated expiration: 2039-07-17
Also published as: CN110225364A

Abstract

本公开实施例提供了一种视频处理方法、装置、终端、服务器及存储介质，所述方法应用于终端，包括：获取待处理视频；对待处理视频进行语音检测，确定待处理视频的音频中是否包括语音信号；如果包括语音信号，将包括待处理视频的语音信号的数据发送至服务器；接收服务器发送的处理结果，并基于处理结果，获得带有字幕的目标视频，其中，处理结果至少包括所述服务器对待处理视频的语音信号的数据进行语音识别得到的字幕文本。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

Description

一种视频处理方法、装置、终端、服务器及存储介质

技术领域

本公开涉及多媒体数据处理技术领域，特别是涉及一种视频处理方法、装置、终端、服务器及存储介质。

背景技术

在许多领域均会需要为视频添加字幕，例如，在短视频展示领域、直播领域等。目前为视频添加字幕的方式一般为终端获得视频后，将视频上传至服务器，服务器对视频进行处理，对于包括人声的视频，得到字幕文本并添加相应字幕至视频，将添加字幕后的视频返回终端。对于无人声的视频，服务器检测完成后，返回无人声结果至终端。

在上述方式中，由于视频均需要上传至服务器进行处理，这样会占用大量网络带宽，导致响应速度慢。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种视频处理方法、装置、终端、服务器及存储介质。具体技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，应用于终端，所述方法包括：

获取待处理视频；

对所述待处理视频进行语音检测，确定所述待处理视频的音频中是否包括语音信号；

如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器；

接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频，其中，所述处理结果至少包括所述服务器对所述待处理视频的语音信号的数据进行语音识别得到的字幕文本。

作为一种实施方式，所述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，包括：

在检测到所述语音信号的开始的时刻，将包括所述待处理视频的语音信号的数据发送至服务器。

如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器；

所述接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频的步骤，包括：

接收所述服务器发送的对所述待处理视频的全部音频进行语音识别得到的字幕文本；

将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

作为一种实施方式，所述如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器的步骤，包括：

在检测到所述语音信号的开始的时刻，将所述待处理视频的全部音频发送至服务器。

如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器；

接收所述服务器发送的视频文件，其中，所述视频文件为所述服务器将字幕文本按照时间顺序添加至所述待处理视频后得到的，所述字幕文本为所述服务器对所述待处理视频的音频进行语音识别得到的；

将所述视频文件确定为带有字幕的目标视频。

作为一种实施方式，所述如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器的步骤，包括：

在检测到所述语音信号的开始的时刻，将所述待处理视频发送至服务器。

如果所述待处理视频的音频中包括语音信号，确定所述待处理视频的音频中包括语音信号的目标音频；

将所述目标音频发送至服务器；

接收所述服务器发送的对所述目标音频进行语音识别得到的字幕文本；

作为一种实施方式，如果所述待处理视频的音频中不包括语音信号，所述方法还包括：

输出添加字幕提示信息；

获取用户基于所述字幕提示信息提供的字幕文本；

将所述字幕文本添加至所述待处理视频，获得带有字幕的目标视频。

根据本公开实施例的第二方面，提供另一种视频处理方法，应用于服务器，所述方法包括：

接收终端发送的包括待处理视频的语音信号的数据，其中，所述数据为所述终端确定所述待处理视频的音频中包括语音信号时发送的；

对所述数据进行语音识别得到处理结果，其中，所述处理结果包括字幕文本；

发送所述处理结果至所述终端。

作为一种实施方式，所述接收终端发送的包括待处理视频的语音信号的数据的步骤，包括：

接收终端发送的所述待处理视频的全部音频；

所述对所述数据进行语音识别得到处理结果的步骤，包括：

对所述全部音频进行语音识别，获得字幕文本，作为处理结果。

接收终端发送的所述待处理视频；

所述对所述数据进行语音识别得到处理结果的步骤，包括：

对所述待处理视频的音频进行语音识别，获得字幕文本；

将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的视频文件，作为处理结果。

接收终端发送的目标音频，其中，所述目标音频为所述待处理视频的音频中包括语音信号的音频数据；

所述对所述数据进行语音识别得到处理结果的步骤，包括：

对所述目标音频进行语音识别，获得字幕文本，作为处理结果。

根据本公开实施例的第三方面，提供一种视频处理装置，应用于终端，所述装置包括：

待处理视频获取模块，被配置为执行获取待处理视频；

语音检测模块，被配置为执行对所述待处理视频进行语音检测，确定所述待处理视频的音频中是否包括语音信号；

数据发送模块，被配置为执行如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器；

目标视频获得模块，被配置为执行接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频，其中，所述处理结果至少包括所述服务器对所述待处理视频的语音信号的数据进行语音识别得到的字幕文本。

作为一种实施方式，所述数据发送模块包括：

语音数据发送单元，被配置为执行在检测到所述语音信号的开始的时刻，将包括所述待处理视频的语音信号的数据发送至服务器。

作为一种实施方式，所述数据发送模块包括：

第一数据发送单元，被配置为执行如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器；

所述目标视频获得模块包括：

第一接收单元，被配置为执行接收所述服务器发送的对所述待处理视频的全部音频进行语音识别得到的字幕文本；

第一字幕添加单元，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

作为一种实施方式，所述第一数据发送单元包括：

第一数据发送子单元，被配置为执行在检测到所述语音信号的开始的时刻，将所述待处理视频的全部音频发送至服务器。

作为一种实施方式，所述数据发送模块包括：

第二数据发送单元，被配置为执行如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器；

所述目标视频获得模块包括：

第二接收单元，被配置为执行接收所述服务器发送的视频文件，其中，所述视频文件为所述服务器将字幕文本按照时间顺序添加至所述待处理视频后得到的，所述字幕文本为所述服务器对所述待处理视频的音频进行语音识别得到的；

目标视频获得单元，被配置为执行将所述视频文件确定为带有字幕的目标视频。

作为一种实施方式，所述第二数据发送单元包括：

第二数据发送子单元，被配置为执行在检测到所述语音信号的开始的时刻，将所述待处理视频发送至服务器。

作为一种实施方式，所述数据发送模块包括：

目标音频确定单元，被配置为执行如果所述待处理视频的音频中包括语音信号，确定所述待处理视频的音频中包括语音信号的目标音频；

第三数据发送单元，被配置为执行将所述目标音频发送至服务器；

所述目标视频获得模块包括：

第三接收单元，被配置为执行接收所述服务器发送的对所述目标音频进行语音识别得到的字幕文本；

第二字幕添加单元，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

作为一种实施方式，所述装置还包括：

提示信息输出模块，被配置为执行如果所述待处理视频的音频中不包括语音信号，输出添加字幕提示信息；

字幕文本获取模块，被配置为执行获取用户基于所述字幕提示信息提供的字幕文本；

目标视频确定模块，被配置为执行将所述字幕文本添加至所述待处理视频，获得带有字幕的目标视频。

根据本公开实施例的第四方面，提供一种视频处理装置，应用于服务器，所述装置包括：

数据接收模块，被配置为执行接收终端发送的包括待处理视频的语音信号的数据，其中，所述数据为所述终端确定所述待处理视频的音频中包括语音信号时发送的；

语音识别模块，被配置为执行对所述数据进行语音识别得到处理结果，其中，所述处理结果包括字幕文本；

处理结果发送模块，被配置为执行发送所述处理结果至所述终端。

作为一种实施方式，所述数据接收模块包括：

全部音频接收单元，被配置为执行接收终端发送的所述待处理视频的全部音频；

所述语音识别模块包括：

第一语音识别单元，被配置为执行对所述全部音频进行语音识别，获得字幕文本，作为处理结果。

作为一种实施方式，所述数据接收模块包括：

待处理视频接收单元，被配置为执行接收终端发送的所述待处理视频；

所述语音识别模块包括：

第二语音识别单元，被配置为执行对所述待处理视频的音频进行语音识别，获得字幕文本；

第一字幕添加单元，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的视频文件，作为处理结果。

作为一种实施方式，所述数据接收模块包括：

目标音频接收单元，被配置为执行接收终端发送的目标音频，其中，所述目标音频为所述待处理视频的音频中包括语音信号的音频数据；

所述语音识别模块包括：

第三语音识别单元，被配置为执行对所述目标音频进行语音识别，获得字幕文本，作为处理结果。

根据本公开实施例的第五方面，提供一种终端，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面任一所述的视频处理方法。

根据本公开实施例的第六方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第二方面任一所述的视频处理方法。

根据本公开实施例的第七方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面任一所述的视频处理方法。

根据本公开实施例的第八方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第二方面任一所述的视频处理方法。

本公开实施例所提供的方案中，终端获取待处理视频后，可以对待处理视频进行语音检测，确定待处理视频的音频中是否包括语音信号，如果待处理视频的音频中包括语音信号，将包括待处理视频的语音信号的数据发送至服务器，进而，接收服务器发送的处理结果，并基于处理结果，获得带有字幕的目标视频，其中，处理结果至少包括服务器对待处理视频的语音信号的数据进行语音识别得到的字幕文本。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的第一种视频处理方法的流程图；

图2是根据一示例性实施例示出的另一种视频处理方法的流程图；

图3是根据一示例性实施例示出的另一种视频处理方法的流程图；

图4是根据一示例性实施例示出的第一种视频处理装置的结构框图；

图5是根据一示例性实施例示出的第二种视频处理装置的结构框图；

图6是根据一示例性实施例示出的一种终端的结构框图。

图7是根据一示例性实施例示出的一种服务器的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了减少网络带宽的占用，提高响应速度，本公开实施例提供了一种视频处理方法、装置、终端、服务器及计算机可读存储介质。

下面首先对本公开实施例所提供的第一种视频处理方法进行介绍。

本公开实施例所提供的第一种视频处理方法可以应用于终端，例如，可以为手机、平板电脑、电脑等电子设备。

如图1所示，一种视频处理方法，应用于终端，所述方法包括步骤S101-步骤S104。

在步骤S101中，获取待处理视频；

在步骤S102中，对所述待处理视频进行语音检测，确定所述待处理视频的音频中是否包括语音信号；

在步骤S103中，如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器；

在步骤S104中，接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频。

其中，所述处理结果至少包括所述服务器对所述待处理视频的语音信号的数据进行语音识别得到的字幕文本。

可见，本公开实施例所提供的方案中，终端获取待处理视频后，可以对待处理视频进行语音检测，确定待处理视频的音频中是否包括语音信号，如果待处理视频的音频中包括语音信号，将包括待处理视频的语音信号的数据发送至服务器，进而，接收服务器发送的处理结果，并基于处理结果，获得带有字幕的目标视频，其中，处理结果至少包括服务器对待处理视频的语音信号的数据进行语音识别得到的字幕文本。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

在上述步骤S101中，终端可以获取需要添加字幕的视频，将其作为待处理视频。例如，用户利用短视频应用程序拍摄了一段视频，需要添加字幕，那么该视频即为待处理视频。

为了方便用户操作，终端可以提供用于添加字幕的用户接口，用户可以通过该用户接口发出添加字幕请求。例如，终端可以提供“添加字幕”按钮，用户点击该“添加字幕”按钮便可以发出添加字幕请求，此时，添加字幕请求所对应的视频即为待处理视频。

获取待处理视频后，为了确定待处理视频是否包括语音信号，终端可以执行上述步骤S102，即对待处理视频进行语音检测，确定待处理视频的音频中是否包括语音信号。语音信号即为人发出的语音对应的信号。具体来说，终端可以采用VAD(Voice ActivityDetection，语音活动检测)等方式对待处理视频的音频进行语音活动检测，进而确定待处理视频的音频中是否包括语音信号。

如果待处理视频的音频中包括语音信号，说明此时需要得到该语音信号对应字幕，所以终端可以将包括待处理视频的语音信号的数据发送至服务器，也就是执行上述步骤S103。服务器接收到包括待处理视频的语音信号的数据，便可以对该包括待处理视频的语音信号的数据进行语音识别，进而得到处理结果，该处理结果至少包括待处理视频的语音信号对应的字幕文本。

进而，服务器可以将上述处理结果发送至终端，终端也就可以接收到服务器发送的处理结果。由于该处理结果包括待处理视频的语音信号对应的字幕文本，所以终端可以基于该处理结果，获得带有字幕的目标视频。

获得带有字幕的目标视频后，可以根据实际应用场景，将该目标视频上传至服务器进行发布等，在此不做具体限定。

作为本公开的一种实施方式，上述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，可以包括：

由于响应速度对于用户体验是一个非常重要的影响因素，所以终端在检测到待处理视频的音频中包括语音信号的开始的时刻，可以将包括待处理视频的语音信号的数据发送至服务器，也就是说，终端在检测到待处理视频的音频中包括语音信号时，可以立刻将包括待处理视频的语音信号的数据发送至服务器。

可见，在本实施例中，终端可以在检测到语音信号的开始的时刻，将包括待处理视频的语音信号的数据发送至服务器，这样，可以提高视频处理的响应速度，提升用户体验。

作为本公开的一种实施方式，如果上述待处理视频的音频中不包括语音信号，如图2所示，上述方法还可以包括：

S201，输出添加字幕提示信息；

如果终端确定待处理视频的音频中不包括语音信号，那么为了提高响应速度，并且减少网络带宽的占用，终端无需将包括待处理视频的语音信号的数据发送至服务器进行处理。

由于一般用户均会想要在制作的视频中添加一些自己想要发表的想法等，所以终端可以输出添加字幕提示信息。例如，终端可以输出文字提示信息“该视频或音频无人声内容，请手动添加字幕”等提示用户添加字幕。还可以显示添加字幕的编辑框、输入字幕文本内容、编辑字幕时间轴、编辑字幕格式等，在此不做具体限定。

S202，获取用户基于所述字幕提示信息提供的字幕文本；

用户可以根据字幕提示信息输入自己想要添加的字幕文本，终端也就可以获取该用户输入的字幕文本。例如，用户在字幕的编辑框中输入“这的风景很美”，那么终端便可以获取该字幕文本“这的风景很美”。

S203，将所述字幕文本添加至所述待处理视频，获得带有字幕的目标视频。

获取用户基于字幕提示信息提供的字幕文本后，终端便可以将字幕文本添加至待处理视频，也就可以获得带有字幕的目标视频。

可见，在本实施例中，如果待处理视频的音频中不包括语音信号，终端可以输出添加字幕提示信息，获取用户基于字幕提示信息提供的字幕文本，进而将字幕文本添加至待处理视频，获得带有字幕的目标视频。这样，在待处理视频的音频中不包括语音信号可以在本地进行添加字幕操作，无需将待处理视频上传至服务器，可以进一步提高响应速度，减少用户等待时长，并且减少网络带宽的占用。

如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器。

在一种实施方式中，如果终端确定待处理视频的音频中包括语音信号，终端可以将待处理视频的全部音频发送至服务器。服务器接收到待处理视频的全部音频后，便可以对待处理视频的全部音频进行语音识别，确定待处理视频的字幕文本，进而将该字幕文本作为处理结果发送至终端。

相应的，上述接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频的步骤，可以包括：

接收所述服务器发送的对所述待处理视频的全部音频进行语音识别得到的字幕文本；将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

终端可以接收服务器发送的对待处理视频的全部音频进行语音识别得到的字幕文本，进而，可以将字幕文本按照时间顺序添加至待处理视频，也就可以得到带有字幕的目标视频。其中，将字幕文本按照时间顺序添加至待处理视频的具体方式可以采用视频处理领域的任意字幕添加方式，在此不做具体限定及说明。

可见，在本实施例中，终端可以将待处理视频的全部音频发送至服务器，进而接收服务器发送的对待处理视频的全部音频进行语音识别得到的字幕文本，将字幕文本按照时间顺序添加至待处理视频，得到带有字幕的目标视频。这样，服务器只需要对待处理视频的全部音频进行语音识别处理，终端完成字幕的添加操作，可以降低服务器的处理量，减少服务器的压力。

作为本公开的一种实施方式，上述如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器的步骤，可以包括：

终端在检测到待处理视频的音频中包括语音信号时，可以立刻将待处理视频的全部音频发送至服务器，这样，可以提高视频处理的响应速度，提升用户体验。

如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器。

在一种实施方式中，如果终端确定待处理视频的音频中包括语音信号，终端可以将待处理视频发送至服务器。服务器接收到待处理视频后，便可以对音频进行语音识别得到字幕文本。

进而，服务器可以将字幕文本按照时间顺序添加至待处理视频，得到带有字幕的视频文件。然后将该带有字幕的视频文件发送至终端。

接收所述服务器发送的视频文件；将所述视频文件确定为带有字幕的目标视频。

其中，该视频文件即为服务器将字幕文本按照时间顺序添加至待处理视频后得到的，字幕文本即为服务器对待处理视频的音频进行语音识别得到的。终端接收到服务器发送的视频文件后，便可以将视频文件确定为带有字幕的目标视频。

可见，在本实施例中，终端可以将待处理视频发送至服务器，进而，接收服务器发送的视频文件，将视频文件确定为带有字幕的目标视频，这样，服务器可以对待处理视频的音频进行语音识别得到字幕文本，进而将字幕文本添加至待处理视频，完成对待处理视频的处理。由于服务器的处理能力较强，因此将待处理视频发送至服务器可以提高视频处理速度，缩短响应时间。

作为本公开的一种实施方式，上述如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器的步骤，可以包括：

终端在检测到待处理视频的音频中包括语音信号时，可以立刻将待处理视频发送至服务器，这样，可以进一步提高视频处理的响应速度，提升用户体验。

如果所述待处理视频的音频中包括语音信号，确定所述待处理视频的音频中包括语音信号的目标音频；将所述目标音频发送至服务器。

在一种实施方式中，由于待处理视频的音频中可能不是全部都是语音信号，而只有语音信号部分需要进行语音识别处理，所以，如果终端确定待处理视频的音频中包括语音信号，终端可以通过VAD等方式确定待处理视频的音频中只包括语音信号的目标音频。确定上述目标音频后，终端便可以将目标音频发送至服务器。

例如，终端确定待处理视频的音频中包括语音信号的部分为第5秒至第27秒，那么终端便可以确定待处理视频的音频从第5秒至第27秒的部分为目标音频。并将待处理视频的音频第5秒至第27秒的部分发送至服务器。

服务器接收到终端发送的目标音频后，便可以对目标音频进行语音识别，得到字幕文本，将该字幕文本确定为处理结果，并发送处理结果至终端。

相应的，上述接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频的步骤，包括：

接收所述服务器发送的对所述目标音频进行语音识别得到的字幕文本；将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

终端可以接收到服务器发送的对上述目标音频进行语音识别得到的字幕文本，进而，终端可以将字幕文本按照时间顺序添加至待处理视频，也就可以得到带有字幕的目标视频。

可见，在本实施例中，终端可以确定待处理视频的音频中包括语音信号的目标音频，将目标音频发送至服务器，进而，服务器可以接收服务器发送的对目标音频进行语音识别得到的字幕文本，将字幕文本按照时间顺序添加至待处理视频，得到带有字幕的目标视频。这样，服务器只需要对目标音频进行语音识别，不需要对全部音频进行处理，进一步减少服务器的处理量，缩短响应时间。

相应于上述第一种视频处理方法，本公开实施例还提供了另一种视频处理方法。下面对本公开实施例所提供的第二种视频处理方法进行介绍。

本公开实施例所提供的第二种视频处理方法可以应用于服务器，该服务器与上述终端通信连接，以进行数据交互。

如图3所示，一种视频处理方法，应用于服务器，所述方法包括步骤S301-步骤S303。

在步骤S301中，接收终端发送的包括待处理视频的语音信号的数据；

其中，所述数据为所述终端确定所述待处理视频的音频中包括语音信号时发送的。

在步骤S302中，对所述数据进行语音识别得到处理结果；

其中，所述处理结果包括字幕文本。

在步骤S303中，发送所述处理结果至所述终端。

可见，在本公开实施例所提供的方案中，服务器可以接收终端发送的包括待处理视频的语音信号的数据，其中，该数据为终端确定待处理视频的音频中包括语音信号时发送的。对该数据进行语音识别得到处理结果，其中，处理结果包括字幕文本，进而，可以发送处理结果至所述终端。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

终端获取待处理视频后，可以确定待处理视频的音频中是否包括语音信号，如果包括语音信号，说明需要进行添加字幕处理，所以终端此时可以将包括待处理视频的语音信号的数据发送给服务器。服务器也就可以接收到该包括待处理视频的语音信号的数据。

接下来在上述步骤S302中，终端便可以对上述包括待处理视频的语音信号的数据进行语音识别，得到处理结果，其中，处理结果至少包括字幕文本。

进而，服务器便可以将该处理结果发送至终端，也就是执行上述步骤S303。由于处理结果至少包括字幕文本，所以终端也就可以根据接收到的处理结果，获得带有字幕的目标视频。

作为本公开的一种实施方式，上述接收终端发送的包括待处理视频的语音信号的数据的步骤，可以包括：

接收终端发送的所述待处理视频的全部音频。

在一种实施方式中，终端可以将待处理视频的全部音频发送至服务器，服务器便可以接收到待处理视频的全部音频。

相应的，上述对所述数据进行语音识别得到处理结果的步骤，可以包括：

在服务器接收到待处理视频的全部音频后，便可以对全部音频进行语音识别，获得待处理视频对应的字幕文本，并将该字幕文本作为处理结果，发送至终端。

可见，在本实施例中，终端可以将待处理视频的全部音频发送至服务器，进而服务器只需要对待处理视频的全部音频进行语音识别处理，获得待处理视频对应的字幕文本，并将该字幕文本作为处理结果，发送至终端，可以降低服务器的处理量，减少服务器的压力。

接收终端发送的所述待处理视频。

在一种实施方式中，终端可以将待处理视频发送至服务器，服务器便可以接收到该待处理视频。

对所述待处理视频的音频进行语音识别，获得字幕文本；将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的视频文件，作为处理结果。

服务器接收待处理视频后，便可以对该待处理视频的音频进行语音识别，获得字幕文本。接下来，服务器将字幕文本按照时间顺序添加至待处理视频，得到带有字幕的视频文件，并将该视频文件作为处理结果发送至终端。

可见，在本实施例中，终端可以发送待处理视频至服务器，服务器可以对待处理视频的音频进行语音识别，获得字幕文本，进而将字幕文本按照时间顺序添加至待处理视频，得到带有字幕的视频文件，作为处理结果。由于服务器的处理能力较强，因此将待处理视频发送至服务器可以提高视频处理速度，缩短响应时间。

接收终端发送的目标音频。

其中，目标音频为待处理视频的音频中包括语音信号的音频数据。在一种实施方式中，终端可以确定待处理视频的音频中包括语音信号的音频数据，进而将该音频数据作为目标音频发送至服务器。服务器也就可以接收到终端发送的目标音频。

服务器接收到目标音频后，便可以对目标音频进行语音识别，获得字幕文本，进而将该字幕文本作为处理结果发送至终端。

可见，在本实施例中，终端可以将待处理视频的音频中包括语音信号的音频数据作为目标音频发送至服务器，服务器可以对目标音频进行语音识别，获得字幕文本，作为处理结果。这样，服务器只需要对目标音频进行语音识别，不需要对全部音频进行处理，进一步减少服务器的处理量，缩短响应时间。

图4是根据一示例性实施例示出的一种视频处理装置框图。

如图4所示，一种视频处理装置，应用于终端，所述装置包括：

待处理视频获取模块410，被配置为执行获取待处理视频；

语音检测模块420，被配置为执行对所述待处理视频进行语音检测，确定所述待处理视频的音频中是否包括语音信号；

数据发送模块430，被配置为执行如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器；

目标视频获得模块440，被配置为执行接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频.

作为本公开实施例的一种实施方式，上述数据发送模块430可以包括：

语音数据发送单元(图4中未示出)，被配置为执行在检测到所述语音信号的开始的时刻，将包括所述待处理视频的语音信号的数据发送至服务器。

第一数据发送单元(图4中未示出)，被配置为执行如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器；

上述目标视频获得模块440可以包括：

第一接收单元(图4中未示出)，被配置为执行接收所述服务器发送的对所述待处理视频的全部音频进行语音识别得到的字幕文本；

第一字幕添加单元(图4中未示出)，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

作为本公开实施例的一种实施方式，上述第一数据发送单元可以包括：

第一数据发送子单元(图4中未示出)，被配置为执行在检测到所述语音信号的开始的时刻，将所述待处理视频的全部音频发送至服务器。

第二数据发送单元(图4中未示出)，被配置为执行如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器；

上述目标视频获得模块440可以包括：

第二接收单元(图4中未示出)，被配置为执行接收所述服务器发送的视频文件；

其中，所述视频文件为所述服务器将字幕文本按照时间顺序添加至所述待处理视频后得到的，所述字幕文本为所述服务器对所述待处理视频的音频进行语音识别得到的。

目标视频获得单元(图4中未示出)，被配置为执行将所述视频文件确定为带有字幕的目标视频。

作为本公开实施例的一种实施方式，上述第二数据发送单元可以包括：

第二数据发送子单元(图4中未示出)，被配置为执行在检测到所述语音信号的开始的时刻，将所述待处理视频发送至服务器。

目标音频确定单元(图4中未示出)，被配置为执行如果所述待处理视频的音频中包括语音信号，确定所述待处理视频的音频中包括语音信号的目标音频；

上述目标视频获得模块440可以包括：

第三接收单元(图4中未示出)，被配置为执行接收所述服务器发送的对所述目标音频进行语音识别得到的字幕文本；

第二字幕添加单元(图4中未示出)，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的目标视频。

作为本公开实施例的一种实施方式，上述装置还可以包括：

提示信息输出模块(图4中未示出)，被配置为执行如果所述待处理视频的音频中不包括语音信号，输出添加字幕提示信息；

字幕文本获取模块(图4中未示出)，被配置为执行获取用户基于所述字幕提示信息提供的字幕文本；

目标视频确定模块(图4中未示出)，被配置为执行将所述字幕文本添加至所述待处理视频，获得带有字幕的目标视频。

图5是根据一示例性实施例示出的另一种视频处理装置框图。

如图5所示，一种视频处理装置，应用于服务器，所述装置包括：

数据接收模块510，被配置为执行接收终端发送的包括待处理视频的语音信号的数据；

语音识别模块520，被配置为执行对所述数据进行语音识别得到处理结果；

其中，所述处理结果包括字幕文本。

处理结果发送模块530，被配置为执行发送所述处理结果至所述终端。

作为本公开实施例的一种实施方式，上述数据接收模块510可以包括：

全部音频接收单元(图5中未示出)，被配置为执行接收终端发送的所述待处理视频的全部音频；

上述语音识别模块520可以包括：

第一语音识别单元(图5中未示出)，被配置为执行对所述全部音频进行语音识别，获得字幕文本，作为处理结果。

待处理视频接收单元(图5中未示出)，被配置为执行接收终端发送的所述待处理视频；

上述语音识别模块520可以包括：

第二语音识别单元(图5中未示出)，被配置为执行对所述待处理视频的音频进行语音识别，获得字幕文本；

第一字幕添加单元(图5中未示出)，被配置为执行将所述字幕文本按照时间顺序添加至所述待处理视频，得到带有字幕的视频文件，作为处理结果。

目标音频接收单元(图5中未示出)，被配置为执行接收终端发送的目标音频；

其中，所述目标音频为所述待处理视频的音频中包括语音信号的音频数据。

上述语音识别模块520可以包括：

第三语音识别单元(图5中未示出)，被配置为执行对所述目标音频进行语音识别，获得字幕文本，作为处理结果。

本公开实施例还提供了一种终端，如图6所示，终端可以包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存储处理器可执行指令；

处理器601，用于执行所述指令时，实现如下步骤：

获取待处理视频；

接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，可以包括：

其中，上述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的音频数据发送至服务器的步骤，可以包括：

上述接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频的步骤，可以包括：

其中，上述如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器的步骤，可以包括：

将所述视频文件确定为带有字幕的目标视频。

其中，上述如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器的步骤，可以包括：

将所述目标音频发送至服务器；

其中，如果所述待处理视频的音频中不包括语音信号，上述方法还可以包括：

输出添加字幕提示信息；

获取用户基于所述字幕提示信息提供的字幕文本；

本公开实施例还提供了一种服务器，如图7所示，服务器可以包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存储处理器可执行指令；

处理器701，用于执行所述指令时，实现如下步骤：

接收终端发送的包括待处理视频的语音信号的数据；

对所述数据进行语音识别得到处理结果；

其中，所述处理结果包括字幕文本。

发送所述处理结果至所述终端。

可见，本公开实施例所提供的方案中，服务器可以接收终端发送的包括待处理视频的语音信号的数据，其中，该数据为终端确定待处理视频的音频中包括语音信号时发送的。对该数据进行语音识别得到处理结果，其中，处理结果包括字幕文本，进而，可以发送处理结果至所述终端。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

其中，上述接收终端发送的包括待处理视频的语音信号的数据的步骤，可以包括：

接收终端发送的所述待处理视频的全部音频；

上述对所述数据进行语音识别得到处理结果的步骤，可以包括：

接收终端发送的所述待处理视频；

对所述待处理视频的音频进行语音识别，获得字幕文本；

本公开实施例还提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例中所述的第一种视频处理方法。

本公开实施例还提供了另一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例中所述的第二种视频处理方法。

本公开实施例还提供了一种应用程序产品，该应用程序产品用于在运行时执行上述任一实施例中所述的第一种视频处理方法。

可见，本公开实施例所提供的方案中，该应用程序产品在运行时终端获取待处理视频后，可以对待处理视频进行语音检测，确定待处理视频的音频中是否包括语音信号，如果待处理视频的音频中包括语音信号，将包括待处理视频的语音信号的数据发送至服务器，进而，接收服务器发送的处理结果，并基于处理结果，获得带有字幕的目标视频，其中，处理结果至少包括服务器对待处理视频的语音信号的数据进行语音识别得到的字幕文本。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

本公开实施例还提供了另一种应用程序产品，该应用程序产品用于在运行时执行上述任一实施例中所述的第二种视频处理方法。

可见，本公开实施例所提供的方案中，该应用程序产品在运行时服务器可以接收终端发送的包括待处理视频的语音信号的数据，其中，该数据为终端确定待处理视频的音频中包括语音信号时发送的。对该数据进行语音识别得到处理结果，其中，处理结果包括字幕文本，进而，可以发送处理结果至所述终端。这样，只有在待处理视频的音频中包括语音信号才将包括待处理视频的语音信号的数据发送至服务器进行处理，可以降低网络带宽的占用，提高响应速度，并且可以降低网络资源的开销。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由上面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，应用于终端，所述方法包括：

获取待处理视频，所述待处理视频为所述终端的用户拍摄的视频；

接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频，其中，所述处理结果至少包括所述服务器对所述待处理视频的语音信号的数据进行语音识别得到的字幕文本；

将所述目标视频上传至所述服务器进行发布。

2.如权利要求1所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，包括：

4.如权利要求3所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将所述待处理视频的全部音频发送至服务器的步骤，包括：

5.如权利要求1所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，包括：

将所述视频文件确定为带有字幕的目标视频。

6.如权利要求5所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将所述待处理视频发送至服务器的步骤，包括：

7.如权利要求1所述的方法，其特征在于，所述如果所述待处理视频的音频中包括语音信号，将包括所述待处理视频的语音信号的数据发送至服务器的步骤，包括：

将所述目标音频发送至服务器；

8.如权利要求1-7任一项所述的方法，其特征在于，如果所述待处理视频的音频中不包括语音信号，所述方法还包括：

输出添加字幕提示信息；

获取用户基于所述字幕提示信息提供的字幕文本；

9.一种视频处理方法，其特征在于，应用于服务器，所述方法包括：

接收终端发送的包括待处理视频的语音信号的数据，其中，所述数据为所述终端确定所述待处理视频的音频中包括语音信号时发送的，所述待处理视频为所述终端的用户拍摄的视频；

发送所述处理结果至所述终端，以使所述终端基于所述处理结果，获得带有字幕的目标视频，并将所述目标视频上传至所述服务器进行发布。

10.如权利要求9所述的方法，其特征在于，所述接收终端发送的包括待处理视频的语音信号的数据的步骤，包括：

接收终端发送的所述待处理视频的全部音频；

所述对所述数据进行语音识别得到处理结果的步骤，包括：

11.如权利要求9所述的方法，其特征在于，所述接收终端发送的包括待处理视频的语音信号的数据的步骤，包括：

接收终端发送的所述待处理视频；

所述对所述数据进行语音识别得到处理结果的步骤，包括：

对所述待处理视频的音频进行语音识别，获得字幕文本；

12.如权利要求9所述的方法，其特征在于，所述接收终端发送的包括待处理视频的语音信号的数据的步骤，包括：

所述对所述数据进行语音识别得到处理结果的步骤，包括：

13.一种视频处理装置，其特征在于，应用于终端，所述装置包括：

待处理视频获取模块，被配置为执行获取待处理视频，所述待处理视频为所述终端的用户拍摄的视频；

目标视频获得模块，被配置为执行接收所述服务器发送的处理结果，并基于所述处理结果，获得带有字幕的目标视频，其中，所述处理结果至少包括所述服务器对所述待处理视频的语音信号的数据进行语音识别得到的字幕文本；

将所述目标视频上传至所述服务器进行发布。

14.如权利要求13所述的装置，其特征在于，所述数据发送模块包括：

15.如权利要求13所述的装置，其特征在于，所述数据发送模块包括：

所述目标视频获得模块包括：

16.如权利要求15所述的装置，其特征在于，所述第一数据发送单元包括：

17.如权利要求13所述的装置，其特征在于，所述数据发送模块包括：

所述目标视频获得模块包括：

18.如权利要求17所述的装置，其特征在于，所述第二数据发送单元包括：

19.如权利要求13所述的装置，其特征在于，所述数据发送模块包括：

所述目标视频获得模块包括：

20.如权利要求13-19任一项所述的装置，其特征在于，所述装置还包括：

21.一种视频处理装置，其特征在于，应用于服务器，所述装置包括：

数据接收模块，被配置为执行接收终端发送的包括待处理视频的语音信号的数据，其中，所述数据为所述终端确定所述待处理视频的音频中包括语音信号时发送的，所述待处理视频为所述终端的用户拍摄的视频；

处理结果发送模块，被配置为执行发送所述处理结果至所述终端，以使所述终端基于所述处理结果，获得带有字幕的目标视频，并将所述目标视频上传至所述服务器进行发布。

22.如权利要求21所述的装置，其特征在于，所述数据接收模块包括：

所述语音识别模块包括：

23.如权利要求21所述的装置，其特征在于，所述数据接收模块包括：

所述语音识别模块包括：

24.如权利要求21所述的装置，其特征在于，所述数据接收模块包括：

所述语音识别模块包括：

25.一种终端，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的视频处理方法。

26.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求9至12中任一项所述的视频处理方法。

27.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至8中任一项所述的视频处理方法。

28.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求9至12中任一项所述的视频处理方法。