CN107071512A

CN107071512A - 一种配音方法、装置及系统

Info

Publication number: CN107071512A
Application number: CN201710029246.5A
Authority: CN
Inventors: 李钟伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-08-18
Anticipated expiration: 2037-01-16
Also published as: CN107071512B; WO2018130173A1

Abstract

本发明公开了一种配音方法、装置及系统，所述配音方法包括获取来自第一客户端的待配音视频；根据所述待配音视频生成目标视频；生成与所述目标视频对应的管理标识，得到与所述管理标识对应的交互标识；获取来自第二客户端的音频文件；所述服务器根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。本发明配音的具体工作在服务器端完成，用户只需选取待配音视频并录制音频文件即可，从而简化用户配音流程。对于待配音视频的具体内容和格式不做限制，用户可以任意选择视频进行配音，可以在任意时刻进行配音，从而提升用户体验。

Description

一种配音方法、装置及系统

技术领域

本发明涉及视频处理领域，尤其涉及一种配音方法、装置及系统。

背景技术

网络上现有的一些由用户配音完成的视频文件一般都需要用户选择某些特定电影片段或者自拍的视频文件，通过使用电脑上的配音软件制作完成。用户在制作这些视频文件时，不仅需要具备一定的专业知识和专业技能，还只能使用特定的视频资源，导致了选择具有局限性。

随着电视行业的快速发展，电视作为视频的主要载体之一走进了千家万户，但是目前尚不能直接使用电视中的视频资源进行配音，从而流失了大量潜在的视频资源。

发明内容

本发明提出了一种配音方法、装置及系统。

本发明具体是以如下技术方案实现的：

一种配音方法，所述方法包括：

第一客户端响应于用户指令，得到待配音视频；将所述待配音视频发送至服务器；

所述服务器获取所述待配音视频；根据所述待配音视频生成目标视频；生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识；将所述交互标识发送至第一客户端；

所述第一客户端获取来自所述服务器的所述交互标识，并使得所述交互标识能够被第二客户端获取；

所述第二客户端根据所述交互标识从所述服务器得到所述目标视频和所述管理标识；响应于配音指令，生成与所述管理标识对应的音频文件并将所述音频文件发送至所述服务器；

所述服务器根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

一种配音方法，所述方法包括：

获取来自第一客户端的待配音视频；

根据所述待配音视频生成目标视频；

生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识；

获取来自第二客户端的与所述管理标识对应的音频文件；

根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

一种配音装置，包括：

待配音视频获取模块，用于获取来自第一客户端的待配音视频；

目标视频生成模块，用于根据所述待配音视频生成目标视频；

标识生成模块，用于生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到目标视频和管理标识；

音频文件获取模块，用于获取来自第二客户端的与所述管理标识对应的音频文件；

合成模块，用于根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

一种配音系统，所述系统第一客户端、第二客户端和服务器，所述服务器为上述的一种配音装置；

所述第一客户端包括：

视频标识选择模块，用于获取用户选择的视频标识；

时间点获取模块，用于获取用户选择的视频起始点与视频终止点；

待配音视频获取模块，用于在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频；

所述第二客户端包括：

交互标识获取模块，用于获取交互标识；

交互结果获取模块，用于根据所述交互标识从服务器得到目标视频和管理标识；

音频文件获取模块，用于生成与所述管理标识对应的音频文件；

音频文件发送模块，用于将所述音频文件发送至所述服务器。

本发明的一种配音方法、装置及系统，具有如下有益效果：

(1)配音的具体工作在服务器端完成，用户只需选取待配音视频并录制音频文件即可，从而简化用户配音流程。

(2)对于待配音视频的具体内容和格式不做限制，用户可以任意选择视频进行配音，可以在任意时刻进行配音，从而提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的实施环境的示意图；

图2是本发明实施例提供的服务器集群架构示意图；

图3是本发明实施例提供的配音方法的流程图；

图4是本发明实施例提供的第一客户端得到待配音视频的方法的流程图；

图5是本发明实施例提供的视频编辑方法；

图6是本发明实施例提供的对视频进行编辑的流程示意图；

图7是本发明实施例提供的配音方法流程图；

图8是本发明实施例提供的目标视频生成方法流程图；

图9是本发明实施例提供的字幕获取方法的流程图；

图10是本发明实施例提供的语音识别的方法的流程图；

图11是本发明实施例提供的配音装置框图；

图12是本发明实施例提供的目标视频生成模块的框图；

图13是本发明实施例提供的标识生成模块的框图；

图14是本发明实施例提供的终端的结构框图；

图15是本发明实施例提供的服务器的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明一个实施例提供的实施环境的示意图。该实施环境包括：第一终端120、服务器140和第二终端160。

第一终端120中运行有第一客户端。第一终端120可以是手机、平板电脑、电视机、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器140可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

第二终端160中运行有第二客户端。第二终端160可以是手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器140可以通过通信网络分别与第一终端120和第二终端160建立通信连接。该网络可以是无线网络，也可以是有线网络。

在本发明实施例中，第一客户端可以是任何具有用户界面(User Interface，UI)接口并能够与服务器140通信的客户端。例如，第一客户端可以是视频服务类客户端、有线电视客户端、游戏客户端、浏览器、专用于视频配音的客户端等等。

在本发明实施例中，第二客户端可以是任何具有用户界面(User Interface，UI)接口并能够与服务器140通信的客户端。例如，第二客户端可以是视频编辑类客户端、社交类应用客户端、即时通信客户端、支付类应用客户端、专用于视频配音的客户端等等。

在实际应用中，第一客户端和第二客户端可以是两个具有不同功能的客户端，第一客户端和第二客户端也可以是两个具有相同功能的客户端。相应地，第一终端和第二终端均为终端设备。当该终端设备中运行的客户端用于实现本发明方法示例中第一客户端侧的功能时，该终端设备即作为第一终端；当该终端设备中运行的客户端用于实现本发明方法示例中第二客户端侧的功能时，该终端设备即作为第二终端。在实际应用中，对于同一个客户端来讲，其可以作为第一客户端，也可以作为第二客户端。对于同一台终端，其可以作为第一终端，也可以作为第二终端。

在一个示例中，如图2所示，当后台服务器140为集群架构时，后台服务器140可以包括：通讯服务器142、管理服务器144和视频服务器146。

通讯服务器142用于提供与第一客户端和与第二客户端的通讯服务，还用于提供与管理服务器144和视频服务器146的通信服务。

管理服务器144用于提供对视频文件以及音频文件进行管理的功能。

视频服务器146用于提供对视频进行编辑和配音功能。

上述各个服务器之间可通过通信网络建立通信连接。该网络可以是无线网络，也可以是有线网络。

请参考图3，其示出了本发明一个实施例提供的配音方法的流程图。该方法可应用于图1所示实施环境中。该方法可以包括如下步骤。

步骤301，第一客户端响应于用户指令，得到待配音视频。

若第一客户端运行于电视机、台式机或便携式计算机等带有按键和屏幕的终端设备之上，所述用户指令可以通过按下或长按指定按钮的方式触发，也可以通过单击或双击指定图标的方式触发；若第一客户端运行于手机或平板电脑上，所述用户指令也可以通过单击、双击、活动、拖动等手势触发。响应于所述用户指令，第一客户端进入配音模式。请参考图4，其示出了在所述配音模式下，第一客户端得到待配音视频的方法的流程图。

步骤3011，获取用户选择的视频标识；

步骤3012，获取用户选择的视频起始点与视频终止点；

步骤3012，在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频。

步骤302，第一客户端将所述待配音视频发送至服务器。

进一步地，所述第一客户端在将所述待配音视频发送至服务器之前，还可以在本地保存所述待配音视频。

步骤303，服务器获取所述待配音视频，服务器根据所述待配音视频生成目标视频。

具体地，若所述待配音视频符合目标视频的相关限定，则所述待配音视频可以直接作为目标视频；若所述待配音视频不符合目标视频的相关限定，则对所述待配音视频进行编辑后生成目标视频。所述目标视频的相关限定包括但不限于所述目标视频中无音频数据。

步骤304，服务器生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识。

具体地，所述管理标识可以为用于标识目标视频的ID(identification)号或key值(键值)。所有与所述目标视频相关的音频文件和视频文件均具有同样的管理标识，服务器根据所述管理标识对视频文件和/或音频文件进行管理。

所述交互标识用于使得第二客户端能够获取服务器生成的目标视频以及所述管理标识；所述交互标识可以与所述管理标识相同，也可以与所述管理标识不同。所述交互标识根据所述管理标识生成，所述交互标识包括但不限于网址、二维码、条形码以及它们的组合等形式。

本发明的一个实施例中，所述交互标识包括与管理标识对应的网址以及以二维码形式表示的所述网址。所述网址所在位置下，存储有所述目标视频以及所述管理标识。

步骤305，服务器将所述交互标识发送至第一客户端。

步骤306，第一客户端获取来自所述服务器的所述交互标识，并使得所述交互标识能够被第二客户端获取。

步骤307，第二客户端根据所述交互标识从所述服务器得到所述目标视频和所述管理标识。

第一客户端获取所述二维码，所述第二客户端即可通过扫码的方式得到所述二维码，通过所述二维码，所述第二客户端即可登录所述二维码表示的网址，从而获取所述目标视频以及所述管理标识。

进一步地，第二客户端还可以对于所述目标视频进行编辑操作，所述编辑操作包括但不限于画面裁剪、视频裁减、视频增加、消音、配音及图形处理，从而得到编辑后的目标视频，并将编辑后的目标视频以及所述管理标识发送至服务器以替换服务器端与所述管理标识对应的目标视频。

进一步地，第二客户端还可以通过与服务器交互，向服务器发布视频编辑指令，所述编辑指令中还包括所述管理标识。由服务器对与所述管理标识对应的目标视频进行编辑操作，所述编辑操作包括但不限于画面裁剪、视频裁减、视频增加、消音、配音及图形处理。服务器得到编辑后的目标视频，并以编辑后的目标视频替换原目标视频，并将编辑后的目标视频推送至第二客户端。

步骤308，响应于配音指令，生成与所述管理标识对应的音频文件并将所述音频文件发送至所述服务器。

具体地，响应于配音指令，第二客户端可以通过录制音频文件、选取已有音频文件等方式以获取音频文件，并将所述音频文件与所述管理标识发送至服务器使得服务器能够获取所述音频文件。

进一步地，若通过录制音频文件的形式生成音频文件，则在录制过程中，播放目标视频以便用户进行配音；若在步骤308之前，所述第二客户端通过与服务器交互的方式，或通过自身的编辑功能编辑过目标视频，则在录制过程中，播放编辑后的目标视频以便用户进行配音。

步骤309，服务器根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

若在步骤308之前，所述第二客户端通过与服务器交互的方式，或通过自身的编辑功能编辑过目标视频，则服务器中的目标视频已经被替换，则服务器根据所述音频文件与被替换过的目标视频得到配音后的视频文件。

进一步地，响应于第二客户端的发送指令，服务器可以将所述视频文件发送至第二客户端。

进一步地，响应于第二客户端发送的分享指令，服务器还可以将所述视频文件分享至其它用户。

综上所述，本实施例提供的方法，通过第一客户端、第二客户端与服务器之间的三方交互，实现了对于视频的配音。配音的具体工作在服务器端完成，用户只需选取待配音视频并录制音频文件即可，从而简化用户配音流程。进一步地，待配音视频的来源不限，可以为用户在某些视频库中选取的视频资源，也可以用户在电视机上观看的视频资源，比如OTT视频。

OTT是“Over The Top”的缩写，是指通过互联网向用户提供各种应用服务。这种应用和目前运营商所提供的通信业务不同，它仅利用运营商的网络，而服务由运营商之外的第三方提供。目前，典型的OTT业务有互联网电视业务，苹果应用商店等。互联网企业利用电信运营商的宽带网络发展自己的业务，如国外的谷歌、苹果、Skype、Netflix、国内的QQ等。Netflix网络视频以及各种移动应用商店里的应用都是OTT。本发明实施例可以直接基于OTT视频进行配音，从而显著拓宽配音素材的来源。

进一步地，在步骤308之前，所述目标视频可以被服务器或第二客户端编辑，请参考图5，其示出本发明的视频编辑方法，包括以下步骤：

步骤S310，对所述目标视频按照时间轴先后顺序逐帧分解为视频帧的组合；所述时间轴指的是两个以上时间点按先后顺序排列而成的直线。

根据所述视频帧的组合生成分解后的临时文件，所述视频帧中包括图形数据。

步骤S320，接收视频编辑指令，并根据所述视频编辑指令，对所述按帧分解的视频帧进行编辑。

步骤S330，根据编辑结果得到编辑后的目标视频。

以画面裁剪为例，若视频编辑指令为画面裁剪指令，则所述画面裁剪指令包括视频画面的宽度数据和高度数据。

(1)若画面剪辑在第二客户端完成，则由第二客户端直接根据所述视频画面的宽度数据和高度数据对临时文件中的每一个视频帧进行编辑，并根据编辑结果得到画面裁剪后的目标文件。

(2)若画面剪辑在服务器端完成，则第二客户端响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据；将所述宽度数据和所述高度数据传输至服务器使得所述服务器按照所述宽度数据和所述高度数据对服务器中的目标视频进行画面裁剪，所述画面裁剪的方法与(1)一致。

进一步地，还可以接收用户的其它视频编辑指令，包括视频裁减、视频增加、消音、配音及图形处理等。

本发明实施例通过对目标视频进行多种编辑，可以满足用户的多种编辑需求，最终取得更好的配音效果；通过进行画面裁剪，可以去掉目标视频中的原有字幕。

进一步的，对于视频裁减、视频增加、消音、配音及图形处理等视频编辑指令，参照图6，其示出根据视频裁减、视频增加、消音、配音及图形处理等视频编辑指令对视频进行编辑的流程示意图。上述步骤S320具体包括：

S3201、接收视频编辑指令，其中所述视频编辑指令包括视频编辑的起点与终点以及视频编辑的类型；

S3022、将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；

S3203、查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧；

S3204、根据所述视频编辑的类型，对所第一视频帧与第二视频帧之间的视频帧进行编辑。

下面将根据具体地视频编辑的类型对步骤S320进行描述。

(一)视频裁剪处理

若视频编辑的类型为视频裁剪处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧，对在所述临时文件中将第一视频帧与第二视频帧中的视频帧进行裁剪。

(二)视频增加处理

若视频编辑的类型为视频增加处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。若起点与终点为相邻两帧图像数据所对应的时间点，则将待添加的视频帧，插入至第一视频帧和第二视频帧之间。若起点与终点之间包括多帧图形数据所对应的时间点，则可以按照预设规则插入至第一视频帧和第二视频帧之间的预设位置。

(三)消音处理

若视频编辑的类型为消音处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，将第一视频帧和第二视频帧间声音数据删除。

(四)配音处理

若视频编辑的类型为配音处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，将第一视频帧和第二视频帧之间加入用户所选的声音数据，若第一视频帧和第二视频帧之间的视频帧中原本带有声音数据，则将原本带有的声音数据抹除，然后加入用户所选的声音数据。

(五)图形处理

若视频编辑的类型为图形处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，对第一视频帧和第二视频帧之间的视频帧之间的图像数据的对比度，亮度，以及色饱和度进行调整。

当然，步骤S320的视频编辑处理不限定于上述几种处理。也可以包括其他的处理。而且上述处理可以灵活组合，例如可以先对视频帧进行消音处理，然后再对消音处理的视频帧进行配音处理；或者先对视频帧进行视频裁剪，然后再对裁剪处理后的视频帧的对应位置插入待添加的视频帧等等。在这里需要说明的是，若视频编辑指令中，不包括起点及终点，则该起点默认设置为整个视频帧时间轴的起始时间点，终点默认设置为整个视频信号时间轴的最后一时间点。

本发明实施例通过将需处理的目标视频逐帧进行分解，从而使得目标视频进行编辑处理时可以精确到每一帧，提高了视频处理的精确度，改善了编辑效果。

请参考图7，其示出了一种配音方法，所述方法包括如下步骤：

步骤S401，获取来自第一客户端的待配音视频。

步骤S402，根据所述待配音视频生成目标视频。

请参考图8，其示出了目标视频生成方法：

S4021，判断所述待配音视频中是否还有音频数据；

S4022，若是，则消除所述待配音视频中的音频数据，得到目标视频；

S4023，若否，直接将所述待配音视频作为目标视频。

具体地，所述消除所述待配音视频中的音频数据可以通过下述两种方式实现：

(1)解码所述待配音视频所在的文件，得到视频数据和音频数据；根据得到的视频数据重新编码得到目标视频；

(2)采用数字过滤的方式直接消除所述待配音视频中的音频数据，得到目标视频。

步骤S403，生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识。

本发明实施例中可以按照预设的标识生成方法生成与所述目标视频对应的管理标识。所述标识生成方法包括但不限于随机生成标识，根据目标视频生成时间生成标识，根据目标视频生成时间以及其它属性参数生成标识。

本发明实施例中可以根据所述管理标识与预设的网址生成算法生成网址。生成的网址即为一种交互标识，所述网址与所述管理标识一一对应。所述网址生成后被推送至第一客户端。进一步地，推送至第一客户端的网址可以为字符串形式，也可以为二维码或条形码形式。

步骤S404，获取来自第二客户端的与所述管理标识对应的音频文件。

步骤S405，根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

进一步地，请参考图9，其示出了字幕获取方法的流程图。响应于字幕生成指令，所述获取来自第二客户端的与所述管理标识对应的音频文件之后，还包括：

步骤S410，对所述音频文件中的音频进行语音识别。

具体地，请参考图10，其示出了对所述音频文件中的音频进行语音识别的方法的流程图，步骤S410包括如下步骤：

步骤S4101，得到音频文件中的音频数据。

步骤S4102，根据说话的时间间隔对音频数据进行切分，得到音频数据段，并记录音频数据段的时间信息。

具体地，根据说话的时间间隔对音频数据进行切分是根据音频数据中音频的波形图通过语音识别来判断应该断句位置。由于人声的语速快慢不同，有一般语速、较快语速以及较慢语速，为了进一步的实现断句的精确性，可以根据音频数据中人声的语速分别设置停顿时间间隔、每段语音的时间间隔。其中，对音频数据进行切分以得到音频数据段保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容。

步骤S4103，通过语音识别得到对应的文本数据段。

具体地，将音频数据段通过语音识别得到对应的文本数据段，包括：将所述音频数据段与词库进行匹配，得到对应音频数据段的分类词库；根据所匹配的分类词库进行语音识别。该分类词库包括：两种以上的语种分类词库、及两种以上的专业学科分类词库。通过将音频数据段与词库进行匹配可以得到与音频数据中原声语种对应语种分类词库，并可以利用该语种分类词库中的词汇进一步加快语音识别得到对应的文本数据、还可以通过将音频数据段与词库进行匹配得到与音频数据中的专业学科对应专业学科分类词库，例如历史题材的音频数据可以匹配到历史专业学科分类词库，可利用该专业学科分类词库中的词汇进一步加快语音识别得到对应的文本数据。

具体地，将音频数据段通过语音识别得到对应的文本数据段可以是将音频数据段中的音频内容直接识别成原声对应语言的文本数据，当然，也可将音频数据段中的音频内容识别成其它语言的文字。将音频数据段中的音频内容识别成其它语言的文字的具体过程为：获取用户选择的语言类别，将音频数据段识别成原声对应语言的文本数据，然后将识别出的原声对应语言的文本数据翻译成用户所选择的用户选择的语言类别的文本数据。

在本实施例中，根据说话的时间间隔的长短，在对应的文本数据段中添加间隔标识符。由于通过语音识别得到文本数据段中包含了大量的标点符号，其很多标点符号不符合上下文的语境，为了方便进一步校对文本数据段，可对音识别得到文本数据段进行过滤，将文本数据段中标点符号所占字节转换成对应字节的间隔标识符。以方便人工校对时，修改成符合语境的标点符号。

具体地，通过语音识别得到文本数据段，可以是根据每段文本数据段的开始时间和结束时间将文本数据进行分割和换行，形成对应于音频文件中的音频数据的字幕文本。具体地，将文本数据进行分割和换行的标准主要依据音视频中字幕与音频的配合。

步骤S420，根据识别的结果生成与管理标识对应的字幕文件。

以字幕文件的形式记录上述文本数据段。需要说明的是，生成音视频数据的字幕文件后，可以根据实际情况选择字幕文件的输出方式，字幕文件的输出方式包括但不限于：生成特定格式、符合字幕格式标准的字幕文件；在播放视频时，将字幕文件整合到音视频输出流中，让播放器去做字幕显示工作。

步骤S430，将所述字幕文件传输至第二客户端使得第二客户端能够对所述字幕文件进行校正并返回修正结果。

步骤S440，根据所述修正结果得到目标字幕文件。

所述修正结果包括确认指令或修正后的字幕文件。若第二客户端对字幕文件进行了修正，则返回修正后的字幕文件，并以所述修正后的字幕文件作为目标字幕文件；若第二客户端对字幕文件没有修正，则直接返回确认指令，则以原字幕文件作为目标字幕文件。目标字幕文件也与管理标识对应。

进一步地，获取目标字幕文件后，在步骤S405中，即可将对应于相同管理标识的音频文件、目标视频以及目标字幕文件合成，得到配音后的视频文件。

本实施例提供了一种配音方法，通过语音识别的方式自动生成字幕文件，并基于管理标识生成了配音文件，用户只需录入对应于目标视频的声音得到音频文件，即可自动完成配音工作，并自动生成字幕，从而避免用户过多的接触复杂的配音文件生成工作，提升用户体验。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图11，其示出了一种配音装置，该装置具有实现上述方法示例中服务器的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

待配音视频获取模块501，用于获取来自第一客户端的待配音视频。可以用于执行上述步骤303和步骤401。

目标视频生成模块502，用于根据所述待配音视频生成目标视频。可以用于执行上述步骤303和步骤402。

标识生成模块503，用于生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识。可以用于执行上述步骤304和步骤403。

音频文件获取模块504，用于获取来自第二客户端的与所述管理标识对应的音频文件。可以用于执行上述步骤308和步骤404。

合成模块505，用于根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。可以用于执行上述步骤309和步骤405。

具体地，请参考图12，其示出了目标视频生成模块的框图。所述目标视频生成模块502可以包括：

判断单元5021，用于判断所述待配音视频中是否还有音频数据。可以用于执行上述步骤4021。

消音单元5022，用于消除所述待配音视频中的音频数据。可以用于执行上述步骤3022。

具体地，请参考图13，其使出了标识生成模块的框图。所述标识生成模块503可以包括：

管理标识生成单元5031，用于按照预设的标识生成方法生成与所述目标视频对应的管理标识。可以用于执行上述步骤304和步骤403。

网址生成单元5032，用于根据所述管理标识与预设的网址生成算法生成网址。可以用于执行上述步骤304和步骤403。

二维码生成单元5033，用于根据所述网址生成二维码。可以用于执行上述步骤304和步骤403。

相应的，本装置还可以包括：二维码推送模块506，用于将所述二维码推送至所述第一客户端。可以用于执行上述步骤304。

进一步地，本装置还可以包括：

语音识别模块507，用于对所述音频文件中的音频进行语音识别。可以用于执行上述步骤410。

字幕文件生成模块508，用于根据识别的结果生成字幕文件。可以用于执行上述步骤420。

进一步地，本装置还可以包括：

视频编辑模块509，用于进行视频编辑。

视频文件发送模块510，用于将配音后的视频文件发送至第二客户端。

视频文件分享模块511，用于将配音后的视频文件分享至其它用户。

本发明一示例性实施例还提供了一种配音系统，所述系统包括第一客户端601、第二客户端602和服务器603；

所述第一客户端601，用于响应于用户指令，得到待配音视频；将所述待配音视频发送至服务器；获取来自所述服务器的交互标识，并使得所述交互标识能够被第二客户端获取；

所述第二客户端602，用于根据所述交互标识从所述服务器获取目标视频；响应于配音指令，生成与管理标识对应的音频文件并将所述音频文件发送至所述服务器；

所述服务器603，用于获取所述待配音视频；根据所述待配音视频生成目标视频；生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识；将所述交互标识发送至第一客户端；向第二客户端发送目标视频；根据所述音频文件与服务器中的目标视频得到配音后的视频文件。

具体地，所述服务器603可以为上述的配音装置；

所述第一客户端601可以包括：

视频标识选择模块6011，用于获取用户选择的视频标识；

时间点获取模块6012，用于获取用户选择的视频起始点与视频终止点；

待配音视频获取模块6013，用于在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频；

所述第二客户端602可以包括：

交互标识获取模块6021，用于获取交互标识；

交互结果获取模块6022，用于根据所述交互标识从服务器得到目标视频和管理标识；

音频文件获取模块6023，用于生成与所述管理标识对应的音频文件；

音频文件发送模块6024，用于将所述音频文件发送至所述服务器。

进一步地，所述第二客户端还可以包括：

画面裁剪模块6025，响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据。

需要说明的是，上述实施例提供的装置和系统，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本发明一个实施例提供的终端的结构示意图。该终端用于实施上述实施例中提供的配音方法。

所述终端可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图14中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图14中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

所述终端还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在所述终端移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与所述终端之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与所述终端的通信。

WiFi属于短距离无线传输技术，所述终端通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块170，但是可以理解的是，其并不属于所述终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行所述终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

所述终端还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于执行上述配音方法的指令。

请参考图15，其示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的服务器的配音方法。具体来讲：

所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本发明的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述服务器的方法的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述方法实施例中的各个步骤，或者上述指令由服务器的处理器执行以完成上述方法实施例中后台服务器侧的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种配音方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一客户端响应于用户指令，得到待配音视频包括：

获取用户选择的视频标识；

获取用户选择的视频起始点与视频终止点；

在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频。

3.根据权利要求1所述的方法，其特征在于，第二客户端响应于配音指令，生成音频文件并将所述音频文件发送至所述服务器之前，还包括：

响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据；

将所述宽度数据和所述高度数据传输至服务器使得所述服务器按照所述宽度数据和所述高度数据对服务器中的目标视频进行画面裁剪。

4.根据权利要求1所述的方法，其特征在于，所述服务器在得到配音后的视频文件之后，还包括：

响应于第二客户端的发送指令，将所述视频文件发送至第二客户端。

5.根据权利要求1所述的方法，其特征在于，所述服务器在得到配音后的视频文件之后，还包括：

响应于第二客户端发送的分享指令，将所述视频文件分享至其它用户。

6.一种配音方法，其特征在于，所述方法包括：

获取来自第一客户端的待配音视频；

根据所述待配音视频生成目标视频；

获取来自第二客户端的与所述管理标识对应的音频文件；

7.根据权利要求6所述的方法，其特征在于，所述根据所述待配音视频生成目标视频包括：

判断所述待配音视频中是否还有音频数据；

若是，则消除所述待配音视频中的音频数据，得到目标视频；

若否，直接将所述待配音视频作为目标视频。

8.根据权利要求6所述的方法，其特征在于，所述生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到目标视频和管理标识包括：

按照预设的标识生成方法生成与所述目标视频对应的管理标识；

根据所述管理标识与预设的网址生成算法生成网址。

9.根据权利要求8所述的方法，其特征在于，所述生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到目标视频和管理标识还包括：

根据所述网址生成二维码，并将所述二维码推送至所述第一客户端。

10.根据权利要求6所述的方法，其特征在于，所述获取来自第二客户端的与所述管理标识对应的音频文件之后，还包括：

对所述音频文件中的音频进行语音识别；

根据识别的结果生成与管理标识对应的字幕文件；

将所述字幕文件传输至第二客户端使得第二客户端能够对所述字幕文件进行校正并返回修正结果；

根据所述修正结果得到对应于所述管理标识的目标字幕文件。

11.根据权利要求10所述的方法，其特征在于，所述根据与管理标识对应的所述音频文件和本地与管理标识对应的目标视频生成配音后的视频文件包括：

将对应于相同管理标识的音频文件、目标视频以及目标字幕文件合成，得到配音后的视频文件。

12.一种配音装置，其特征在于，包括：

标识生成模块，用于生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识；

13.根据权利要求12所述的装置，其特征在于，目标视频生成模块包括：

判断单元，用于判断所述待配音视频中是否还有音频数据；

消音单元，用于消除所述待配音视频中的音频数据。

14.根据权利要求12所述的装置，其特征在于，标识生成模块包括：

管理标识生成单元，用于按照预设的标识生成方法生成与所述目标视频对应的管理标识；

网址生成单元，用于根据所述管理标识与预设的网址生成算法生成网址。

15.根据权利要求14所述的装置，其特征在于，所述标识生成模块还包括：

二维码生成模块，用于根据所述网址生成二维码；

所述装置还包括：

二维码推送模块，用于将所述二维码推送至所述第一客户端。

16.根据权利要求12所述的装置，其特征在于，还包括：

语音识别模块，用于对所述音频文件中的音频进行语音识别；

字幕文件生成模块，用于根据识别的结果生成字幕文件。

17.一种配音系统，其特征在于，所述系统第一客户端、第二客户端和服务器，所述服务器为权利要求12-16中任意一项所述的一种配音装置；

所述第一客户端包括：

视频标识选择模块，用于获取用户选择的视频标识；

所述第二客户端包括：

交互标识获取模块，用于获取交互标识；

18.据权利要求17所述的系统，其特征在于，所述第二客户端还包括：

画面裁剪模块，响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据。