CN110691204B

CN110691204B - 一种音视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN110691204B
Application number: CN201910850136.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Suzhou Zhendi Intelligent Technology Co Ltd
Current assignee: Suzhou Zhendi Intelligent Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2021-04-02
Anticipated expiration: 2039-09-09
Also published as: CN110691204A

Abstract

本申请提供一种音视频处理方法、装置、电子设备及存储介质。该方法包括：采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得；将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。本申请实施例通过第一终端采集音频信息，通过智能设备采集视频信息，以及根据音频信息生成对应的文字信息，最后，将音频信息、视频信息和文字信息进行合成，一方面能够同时保证音频和视频的质量，另一方面，通过文字信息可以使用户获得更加准确的音频信息，能够更好地理解音视频。

Description

一种音视频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及音视频处理技术领域，具体而言，涉及一种音视频处理方法、装置、电子设备及存储介质。

背景技术

对于音视频的录制，例如在进行晚会直播活动时，会采用录制设备同时进行音视频的录制。为了能够录制视角更加广阔的视频，需要将录制设备置于较高的位置，以防止观众的遮挡，此时，由于距离舞台上演员较远，从而导致录制的声音较小，且容易录制到一些噪音。如果为了提高录制的音质，则需要将录制设备置于演员较近的位置，那么则无法获得视角广阔的视频。

发明内容

本申请实施例的目的在于提供一种音视频处理方法、装置、电子设备及存储介质，用以解决现有技术中，无法同时获得高质量的音频和视频的问题。

第一方面，本申请实施例提供一种音视频处理方法，应用于智能设备，包括：采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得；将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

本申请实施例通过第一终端采集音频信息，通过智能设备采集视频信息，以及根据音频信息生成对应的文字信息，最后，将音频信息、视频信息和文字信息进行合成，一方面能够同时保证音频和视频的质量，另一方面，通过文字信息可以使用户获得更加准确的音频信息，能够更好地理解音视频。

进一步地，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

根据所述第一时间信息将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

通过第一时间信息保证了音频、视频和文字合成后在时间上的同步，防止音频、视频和文字有延时的情况。

进一步地，所述视频信息中包括人，所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

获取所述视频信息对应的多帧视频图像，并对多帧视频图像进行识别，获得所述视频信息中人的口型变化特征；

根据所述口型变化特征获得对应的文字；

根据所述口型变化特征对应的文字将所述视频信息、音频信息和所述文字信息合成所述带有字幕的音视频文件。

本申请实施例通过口型变化获得视频中的人说的话，并基于此进行音视频的合成，从而保证了音频、视频和文字合成后在时间上的同步。

进一步地，所述获得音频信息和所述音频信息对应的文字信息，包括：

接收所述第一终端发送的所述音频信息；

根据所述音频信息生成对应的所述文字信息。

本申请在音视频合成时，加入了字幕，有利用用户对音频的理解。

进一步地，所述根据所述音频信息生成对应的所述文字信息，包括：

对所述音频信息进行预处理，获得处理后音频信息；

对所述处理后音频信息进行端点切分，获得音频样本；

根据预设的最小静音长度和最短有效声音对所述音频样本进行再次切分，获得多个音频片段；

对每个音频片段进行文字识别，获得所述文字信息。

本申请实施例通过两次切分获得音频片段，能够提高生成的文字信息的准确性。

接收所述第一终端发送的所述音频信息和所述文字信息，其中，所述文字信息为所述第一终端根据采集的所述音频信息生成的。

本申请实施例通过将合成操作在第一终端完成，从而智能设备无需具备这样的功能，降低了智能设备的要求。

进一步地，所述采集视频信息，包括：

接收所述第一终端发送的控制指令，根据所述控制指令采集所述视频信息。

通过远程控制智能设备进行视频的录制，保证了智能设备能够与第一终端同步采集，并且便于控制参数的调整。

进一步地，所述控制指令包括第二时间信息；所述根据所述控制指令采集所述视频信息，包括：

若所述第二时间信息为延时时长的信息，则所述智能设备在接收到所述控制指令后，等待所述延时时长进行视频信息的采集；

若所述第二时间信息为进行视频采集的时间点，则当到达所述时间点时，所述智能设备开始采集所述视频信息。

本申请实施例通过控制指令中的第二时间信息保证了第一终端和智能设备在录制时的同步。

第二方面，本申请实施例提供一种音视频处理方法，应用于第一终端，包括：

采集音频信息，并根据所述音频信息生成对应的文字信息；

接收智能设备发送的视频信息；

将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

本申请实施例通过第一终端采集音频信息，通过智能设备采集视频信息，并将其生成带有字幕的音视频文件，第一方面，保证了采集到的音频和视频的质量，第二方面，通过字幕便于用户对音频的理解，第三方面，智能设备无需具备音视频文件合成及文字信息生成的功能，其对智能设备的要求较低。

根据第一时间信息进行音频、视频和字幕的合成，从而使得合成后的音视频文件在时间上保持同步。

进一步地，在接收智能设备发送的视频信息之前，所述方法还包括：

向所述智能设备发送控制指令，以使所述智能设备根据所述控制指令采集所述视频信息。

通过远程控制智能设备，可以方便地对智能设备在采集视频时的参数的设定。

第三方面，本申请实施例提供一种音视频处理方法，应用于服务器，包括：

获得视频信息、音频信息和所述音频信息对应的文字信息；其中，所述视频信息为智能设备采集获得，所述音频信息为第一终端采集获得；

本申请实施例通过第一终端采集音频、智能设备采集视频、服务器进行音视频的合成，一方面提高了音频和视频的质量，一方面通过字幕有助于用户理解音频信息，再一方面，能够降低第一终端和智能设备的负载。

通过第一时间信息能够保证音频、视频和字幕在时间上的同步。

进一步地，所述获得所述音频信息对应的文字信息，包括：

接收所述第一终端发送的所述文字信息，其中，所述文字信息为所述第一终端根据所述音频信息生成的。

通过第一终端生成音频信息对应的文字信息，降低了对智能设备的要求。

进一步地，所述获得所述音频信息对应的文字信息，包括：

所述服务器根据所述音频信息生成对应的所述文字信息。

通过服务器生成文字信息降低了对第一终端的负载。

第四方面，本申请实施例提供一种，音视频处理装置，包括：

第一信息获得模块，用于采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得；

第一合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

第五方面，本申请实施例提供一种音视频处理装置，包括：

音频采集模块，用于采集音频信息，并根据所述音频信息生成对应的文字信息；

接收模块，用于接收智能设备发送的视频信息；

第二合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

第六方面，本申请实施例提供一种音视频处理装置，包括：

第二信息获得模块，用于获得视频信息、音频信息和所述音频信息对应的文字信息；其中，所述视频信息为智能设备采集获得，所述音频信息为第一终端采集获得；

第三合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

第七方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面、第二方面或第三方面的方法步骤。

第八方面，本申请实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面、第二方面或第三方面的方法步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的带有字幕的音视频文件合成的场景示意图；

图2为本申请实施例提供的一种音视频处理方法流程示意图；

图3为本申请实施例提供的一种音视频处理方法信令交互图；

图4为本申请实施例提供的一种音视频处理方法信令交互图；

图5为本申请实施例提供的另一种音视频处理方法信令交互图；

图6为本申请实施例提供的带有字幕的音视频文件合成的场景示意图；

图7为本申请实施例提供的一种音视频处理方法信令交互图；

图8为本申请另一实施例提供的带有字幕的音视频文件合成的场景示意图；

图9为本申请实施例提供的一种音视频处理方法信令交互图；

图10为本申请实施例提供的又一种音视频处理方法信令交互图；

图11为本申请实施例提供的装置结构示意图；

图12为本申请实施例提供的另一种装置结构示意图；

图13为本申请实施例提供的又一种装置结构示意图；

图14为本申请实施例提供的电子设备实体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供的音视频处理方法中，由智能设备进行视频信息的采集，应当说明的是，智能设备可以是任何一种具有视频采集的设备、器械或者机器。本申请中的智能设备可以包括具有自我检测以及自我诊断的设备。应理解，本申请中的智能设备可以设置有通信模块，通过通信模块可以与用户终端或者另一智能设备通信。上述通信的方式可以是WIFI、红外、蓝牙、4G或5G等无线通信形式，本申请实施例并不限于此。另外，本申请实施例中的智能设备包括但不限于无人机、无人车、无人船或手持DV。下面的实施例中以智能设备为无人机进行描述。

在本申请之前，由于无人机技术越来越成熟，航拍技术也越来越受到青睐。例如，可以通过带有摄像功能的无人机对演奏舞台上的节目进行录制，以获得更好的拍摄视角，也可以通过无人机飞在空中对山水景色进行录制。由于无人机在飞行过程中，其旋转的机翼以及发动机工作都会发出声音。如果使用无人机一边录制视频，一边采集音频，那么无人机自身发出的声音也会被录制进去，再有无人机可能会离声源较远，使得录制获得的音频中，噪音大，声源的声音反而很小，当为人们播放该音视频文件时，人们往往较难理解音视频中表达的意思。

因此，本申请实施例提供一种音视频处理方法，该方法通过使用第一终端收录音频信息，通过无人机采集视频信息，然后根据音频信息获得对应的文字信息(即字幕)，最后，将音频信息、视频信息和文字信息进行合成，获得带有字幕的音视频文件，该带有字幕的音视频文件由于通过第一终端采集声音，因此能够避免无人机产生的噪声，且能够录制质量较高的音频信息，再通过文字信息的展示，使得音视频文件能够更加清楚的表达其内容。

图1为本申请实施例提供的带有字幕的音视频文件合成的场景示意图，如图1所示，包括无人机、手机和用户；无人机带有视频录制功能，且能够与手机通信；手机用来采集用户的语音，为了能够更加清楚地采集到用户的音频信息，可以将手机放在用户附近。应当说明的是，使用手机进行音频的采集是一种可行的实施方式，也可以通过其他具备音频录制功能的电子设备代替，例如：可以是平板电脑、录音笔以及智能穿戴设备等，可以将录制音频的设备称为第一终端。无人机获得到视频信息、音频信息和文字信息之后，将视频信息、音频信息和文字信息进行合成，获得带字幕的音视频文件。

图2为本申请实施例提供的一种音视频处理方法流程示意图，如图2所示，该方法应用于无人机，应当说明的是，该无人机具备视频采集功能。

该方法包括：

步骤201：采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得。

在具体的实施过程中，在使用无人机采集视频信息时，可以预先在无人机上进行视频录制参数的设定，设定完成后使无人机起飞并根据设定的参数进行视频的录制。也可以是用户远程操控无人机，例如可以通过第一终端与无人机进行通信连接，由第一终端向无人机发送视频录制参数的控制信息，以实现对无人机的控制。可选地，在无人机中设置有通信模块，无人机通过通信模块与第一终端进行通信。

为了能够获得质量较高的音频信息，可以将第一终端放置在声源附近，通过第一终端采集声源的音频信息。第一终端可以将其录制的音频信息发送给无人机。应当说明的是，第一终端采集的音频信息可以与无人机采集的视频信息同步。

另外，文字信息是根据音频信息生成的，生成文字信息的步骤可以是在第一终端执行，也可以在无人机执行。即无人机可以在接收到第一终端发送的音频信息后，根据该音频信息生成对应的文字信息。无人机也可以接收第一终端发送的音频信息和文字信息，这种情况下，是第一终端在采集到音频信息后，生成对应的文字信息，将音频信息和文字信息发送给无人机。音频信息生成文字信息的具体方式通过下面的实施例详细描述。

步骤202：将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

在具体的实施过程中，无人机在获得到视频信息、音频信息和文字信息之后，将其进行合成，从而获得带有字幕的音视频文件。

应当说明的是，视频信息包括多帧视频图像，视频信息与文字信息的合成是指将文字信息添加在对应帧的视频图像中。

本申请实施例通过第一终端采集音频信息，通过无人机采集视频信息，以及根据音频信息生成对应的文字信息，最后，将音频信息、视频信息和文字信息进行合成，一方面能够同时保证音频和视频的质量，另一方面，通过文字信息可以使用户获得更加准确的音频信息，能够更好地理解音视频。

在另一实施例中，对于通过第一终端对无人机进行控制的情况，可以预先安装对无人机进行控制的应用程序(Application，APP)，具体的，该APP中设置有控制按键，当检测到该控制键被按下时，该APP会向无人机发送控制指令。第一终端和无人机可以预先进行控制指令的配置，当检测到控制按键被按下时，第一终端向无人机发送预设格式的控制指令，当无人机接收到该预设格式的控制指令时，可以响应该控制指令。

其中，控制指令中可以包括第二时间信息，且该第二时间信息可以是延时时长的信息，也可以是进行视频采集的时间点。当第二时间信息为延时时长的信息时，例如：延时时长为10分钟，当无人机接收到控制指令后，可以开始计时，等自接收到控制指令开始的10分钟之后，开始进行视频信息的采集。当第二时间信息为进行视频采集的时间点时，例如：在2019年3月15日18:00开始进行视频的采集，当无人机接收到控制指令后，等2019年3月15日18:00时开始进行视频的采集。因此，应当说明的是，进行视频采集的时间点应当晚于控制指令发送的时间。

还应当说明的是，控制指令中也可以没有第二时间信息，即表示在无人机接收到控制指令之后立即开始视频的采集。

同样地，为了保证第一终端与无人机同步录制，当第一终端发送了控制指令后，当无人机根据控制指令开始录制视频时，第一终端也同时开始录制音频。

本申请实施例通过控制指令中的第二时间信息来保证第一终端与无人机同步录制，从而保证了合成的带字幕的音视频文件的准确性。

根据音频信息生成对应的文字信息的方法可以有多种，下面介绍一种可行的实施方式，如图3所示，包括：

步骤301：音频预处理；获取音频信息中的参数信息，参数信息至少包括声道数、编码方式及采样率，将音频信息中的参数信息转换为标准格式。例如：声道数为单声道、采样率为16000帧率、编码方式为WAV格式。

步骤302：降噪；选取音频信息中前0.5秒的声音作为噪声样本，通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值，以此作为噪声门阈值，再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值，获得音频信号强度值，随后对音频信号强度值与噪声门阈值进行逐帧比较，保留音频信号强度值大于噪声门阈值的音频信息，最终得到降噪完成的音频文件。

步骤303：音频信息切分；采用双门限语音端点检测技术，对已完成降噪的音频信息进行端点切分，切分出可用的音频段，将未满足门限的部分音频文件当作静音或噪音、不作处理。

步骤304：片段识别；按照默认的最小静音长度和最短有效声音两项参数对选择出的音频样本进行进一步切分，得到一系列的语音片段，然后将得到语音片段通过调用第三方语音识别软件进行语音识别，整理得到全部音频信息对应的文字信息。

应当说明的是，每个音频片段都有对应的时间戳，因此转换成对应的文字信息后，文字信息也具有相同的时间戳，通过时间戳可以将音频信息与文字信息在时间上进行对齐。

应当说明的是，可以预先构建方言库、外文翻译库，从而当音频信息为方言或者是外文时，也可以将音频信息生成对应的文字信息。

本申请实施例通过对音频信息进行两次切分后进行文字识别，能够获得较为准确的文字信息。

在上述实施例的基础上，对于使用第一终端和无人机同步进行采集音视频的情况，在采集音视频信息时，可以记录采集的时间，因此，视频信息和音频信息中均包括有第一时间信息。另外，由于文字信息是根据音频信息生成的，获得的文字信息中也包括第一时间信息。

例如：对舞台剧表演的录制，通过无人机采集舞台上演员的表演视频，通过第一终端同步采集舞台上演员的音频信息。由于第一时间信息表示的是采集时的绝对时间，又由于视频信息和音频信息是同步采集的，所以在进行合成时，可以根据第一时间信息，将视频信息、音频信息和文字信息在时间点上进行对齐，以实现获得的带有字幕的音视频文件在时间上是同步的。

本申请实施通过根据第一时间信息对音频信息、视频信息和文字信息进行合成，能够使得三者之间同步播放，不会出现播放的视频、音频和字幕在时间上不匹配的问题。

在另一实施例中，对于视频信息中有人的场景，并且有人在讲话，例如：晚会中的歌唱节目、语言类节目或者新闻联播等，需要将讲话的人的口型、声音和字幕同步播放，在无人机采集到视频信息之后，获取视频信息中的多帧视频图像，并对多帧视频图像进行识别，获得视频信息中人的口型变化特征。应当说明的是，在对多帧视频图像进行识别之前，可以对多帧视频图像进行划分，获得视频信息中的人说出的每个字对应的多帧视频图像。

在获得了口型变化特征之后，可以根据口型变化特征获得对应的文字。应当说明的是，可以预先构建文字识别模型，通过文字识别模型对口型变化特征进行分析，输出对应的文字。

应当说明的是，通过口型变化特征获得对应的文字的主要目的是为了将视频信息、音频信息和文字信息进行对齐合成。因此，可以根据口型变化特征对应的文字将视频信息、音频信息和文字信息合成带有字幕的音视频文件。

本申请实施例通过对视频中人的口型变化特征获得人说的文字，然后根据人说的文字将视频信息、音频信息和文字信息进行对齐合成，从而能够使得合成后的音视频文件在播放时，视频、音频和字幕保持时间上的同步。

在另一实施例中，图4为本申请实施例提供的一种音视频处理方法信令交互图，如图4所示，包括无人机和第一终端，该方法包括：

步骤401：无人机采集视频信息；带有视频录制功能的无人机采集视频信息；

步骤402：第一终端采集音频信息；带有音频录制功能的第一终端采集音频信息，应当说明的是，步骤401和步骤402可以同时进行；

步骤403：第一终端向无人机发送音频信息；第一终端将采集到的音频信息发送给无人机，应当说明的是，第一终端与无人机进行通信连接；

步骤404：根据音频信息生成文字信息；无人机在接收到第一终端发送的音频信息后，根据音频信息生成对应的文字信息；

步骤405：进行合成；无人机将视频信息、音频信息和文字信息进行合成，获得带有字幕的音视频文件。

本申请实施例通过第一终端将采集获得的音频信息发送给无人机，无人机生成音频信息对应的文字信息，并将采集到的视频信息、接收的音频信息以及生成的文字信息进行合成，从而，一方面同时保证了获得清晰的视频信息和音频信息，另一方面，通过字幕的方式，使得观看该音视频的用户能够更加清楚的理解音频，防止采集到的音频是方言或者外语，导致用户不能理解其正确含义的问题。

图5为本申请实施例提供的另一种音视频处理方法信令交互图，如图5所示，包括无人机和第一终端，该方法包括：

步骤501：无人机采集视频信息；带有视频录制功能的无人机采集视频信息；

步骤502：第一终端采集音频信息；带有音频录制功能的第一终端采集音频信息，应当说明的是，步骤501和步骤502可以同时进行；

步骤503：根据音频信息生成文字信息；第一终端在采集到音频信息后，根据音频信息生成对应的文字信息；

步骤504：第一终端向无人机发送音频信息和文字信息；第一终端将采集到的音频信息以及生成的文字信息发送给无人机，应当说明的是，第一终端与无人机进行通信连接；

步骤505：进行合成；无人机将视频信息、音频信息和文字信息进行合成，获得带有字幕的音视频文件。

本申请实施例通过第一终端采集音频信息，通过无人机采集视频信息，通过音频信息生成对应的文字信息，一方面能够获得高质量的音视频文件，另一方面通过字幕来帮助用户更好的理解音频信息。

图6为本申请实施例提供的带有字幕的音视频文件合成的场景示意图，如图6所示，包括无人机、手机和用户；无人机带有视频录制功能，且能够与手机通信；手机用来采集用户的语音，为了能够更加清楚地采集到用户的音频信息，可以将手机放在用户附近。应当说明的是，使用手机进行音频的采集是一种可行的实施方式，也可以通过其他具备音频录制功能的电子设备代替，例如：可以是平板电脑、录音笔以及智能穿戴设备等，可以将录制音频的设备称为第一终端。手机在采集到音频信息后，根据音频信息生成对应的文字信息，并且手机接收无人机发送的视频信息，然后根据视频信息、音频信息和文字信息进行合成，获得带字幕的音视频文件。

图7为本申请实施例提供的一种音视频处理方法信令交互图，如图7所述，该方法应用于第一终端，第一终端可以为手机、平板电脑等带有录音功能的电子设备，该方法包括：

步骤701：采集音频信息；为了能够采集到较为清晰的音频信息，可以将用来采集音频信息的第一终端放置在声源附近。

步骤702：采集视频信息；为了能够获得更加清晰广阔的视频信息，采用无人机进行视频信息的采集。其中，第一终端与无人机进行录制操作可以同步进行。应当说明的是，无人机可以将视频信息采集完之后再将整个视频信息发送给第一终端，也可以将采集的视频信息实时发送给第一终端，当然，还可以按照预设时间段将采集到的视频信息发送给第一终端。

步骤703：生成文字信息；在当第一终端采集到音频信息之后，将音频信息生成对应的文字信息，其中，第一终端根据音频信息生成对应的文字信息的方法与上述图3中的方法一致，此处不再赘述。并且，第一终端可以在将整个音频信息全部采集完成后再进行文字信息的生成，也可以对采集到的音频信息实时生成对应的文字信息。

步骤704：接收无人机发送的视频信息；无人机在采集到视频信息之后，将采集到的视频信息发送给第一终端。应当说明的是，第一终端和无人机可以预先进行通信连接，视频信息可以通过无线信号进行传输。

步骤705：合成带字幕的音视频文件；第一终端将音频信息、文字信息和视频信息进行合成，获得带字幕的音视频文件。

在合成时，为了保证视频、音频和字幕同步，视频信息、音频信息和文字信息中均包括第一时间信息，其中，视频信息中的第一时间信息为无人机在录制视频信息时的时间点，同时，音频信息中的第一时间信息为第一终端在录制音频信息时的时间点，无人机和第一终端同时进行录制。另外，文字信息根据音频信息生成，其文字信息跟音频信息在时间上是同步的。第一终端在将视频信息、音频信息和文字信息进行合成时，根据第一时间信息将视频信息、音频信息和文字信息在时间点上进行对齐，从而使得获得同步的带字幕的音视频文件。

本申请实施例通过第一终端采集音频信息，并将音频信息生成对应的文字信息，通过无人机采集视频信息，并且第一终端将接收无人机发送的视频信息、采集的音频信息和生成的文字信息进行合成，获得带有字幕的音视频文件，从而在保证获得高质量的音视频文件时，再加上字幕能够使用户正确理解音频信息。

在上述实施例的基础上，所述在接收无人机发送的视频信息之前，所述方法还包括：向所述无人机发送控制指令，以使所述无人机根据所述控制指令采集所述视频信息。

在具体的实施过程中，在使用无人机录制视频时，可以预先在无人机上进行录制的开始时间、录制参数等，然后使得无人机按照设置的参数进行视频的录制。另外，也可以通过第一终端与无人机的通信来实现无人机对视频的录制，在录制之前，第一终端中可以预先安装有能够控制无人机的APP，用户可以通过该APP向无人机发送控制指令，并且当无人机接收到该控制指令后能够根据该控制指令执行相应的操作。

可选地，控制指令可以为开始录制视频，当无人机接收到该控制指令后，立即开始视频的录制；控制指令中也可以包括第二时间信息，且第二时间信息可以为开始录制的时间点或延时时长，若第二时间信息为开始录制的时间点，那么当无人机接收到该控制指令后，监测当前时间是否到达开始录制的时间点，若到达，则开始视频的录制。若第二时间信息为延时时长，那么当无人机接收到控制指令后，等待延时时长之后开始视频的录制。

应当说明的是，控制指令中还可以包括视频录制中所需的其他参数，例如焦距、亮度等参数的设置。

本申请实施例通过第二时间信息控制无人机进行视频的录制操作，保证了第一终端和无人机的录制功能在时间上同步，从而便于在音视频合成的过程中，更好地将音频、视频和文字对齐。

图8为本申请另一实施例提供的带有字幕的音视频文件合成的场景示意图，如图8所示，包括无人机、手机、服务器和用户；无人机带有视频录制功能，且能够与手机通信；手机用来采集用户的语音，为了能够更加清楚地采集到用户的音频信息，可以将手机放在用户附近；服务器用于合成带字幕的音视频文件。应当说明的是，使用手机进行音频的采集是一种可行的实施方式，也可以通过其他具备音频录制功能的电子设备代替，例如：可以是平板电脑、录音笔以及智能穿戴设备等，可以将录制音频的设备称为第一终端。手机在采集到音频信息后，可以根据音频信息生成对应的文字信息，并将音频信息和文字信息发送给服务器，也可以只将音频信息发送给服务器，由服务器进行文字信息的生成。

图9为本申请实施例提供的一种音视频处理方法信令交互图，如图9所示，该处理方法中包括第一终端、无人机和服务器，该方法包括：

步骤901：采集音频信息；第一终端采集视频信息，其中，为了能够获得更加清晰的音频信息，可以将第一终端放置在声源附近。

步骤902：采集视频信息；无人机进行视频信息的采集，其中，无人机可以预先与第一终端进行通信连接，接收第一终端发送的控制指令，并根据控制指令进行视频信息的采集。应当说明的是，步骤901和步骤902之间可以同步进行。

步骤903：发送音频信息；第一终端在采集到音频信息之后，将音频信息发送给服务器。应当说明的是，第一终端可以实时将采集到的音频信息发送给服务器，也可以将音频信息全部采集完之后再将音频信息发送给服务器。

步骤904：发送视频信息；无人机将采集到的音频信息发送给服务器。应当说明的是，无人机可以实时将采集到的视频信息发送给服务器，也可以将视频信息全部采集完之后再将视频信息发送给服务器。应当说明的是，步骤903和步骤904可以同步进行。

步骤905：生成文字信息；服务器在接收到音频信息之后，根据音频信息生成对应的文字信息，其中，具体生成文字信息的方法有多种，例如可以与上述实施例中的生成方法一致，此处不再赘述。

步骤906：合成带字幕的音视频文件；服务器在生成文字信息之后，将音频信息、文字信息和视频信息进行合成，获得带字幕的音视频文件。

本申请实施例通过第一终端采集音频信息并根据音频信息生成对应的文字信息，无人机采集视频信息，服务器将视频信息、音频信息和文字信息进行合成，在保证获得高质量音视频文件的同时，还能够降低第一终端和无人机的负载，并且无人机中无需具备音视频文件合成的功能，对无人机的要求较低。

图10为本申请实施例提供的又一种音视频处理方法信令交互图，如图10所示，该方法包括：

步骤1001：采集音频信息，并生成文字信息；第一终端采集音频信息，为了采集到清晰的音频信息，可以将第一终端放置在声源附近。当第一终端采集到音频信息之后，根据音频信息生成对应的文字信息。应当说明的是，生成文字信息的方法可以与上述实施例一致，此处不再赘述。

步骤1002：采集视频信息；无人机可以预先与第一终端进行通信连接，并且无人机可以接收第一终端发送的控制指令，然后开始采集视频信息。

步骤1003：发送音频信息和文字信息；第一终端将音频信息和文字信息发送给服务器。

步骤1004：发送视频信息；无人机将采集到的视频信息发送给服务器。应当说明的是，无人机也可以预先与服务器建立通信连接。

步骤1005：合成带字幕的音视频文件；服务器将接收到的音频信息、视频信息和文字信息进行合成，获得带字幕的音视频文件。

在上述实施例的基础上，服务器在合成带字幕的音视频文件时，为了保证视频、音频和字幕同步，视频信息、音频信息和文字信息中均包括第一时间信息，其中，视频信息中的第一时间信息为无人机在录制视频信息时的时间点，同时，音频信息中的第一时间信息为第一终端在录制音频信息时的时间点，无人机和第一终端同时进行录制。另外，文字信息根据音频信息生成，其文字信息跟音频信息在时间上是同步的。服务器在将视频信息、音频信息和文字信息进行合成时，根据第一时间信息将视频信息、音频信息和文字信息在时间点上进行对齐，从而使得获得同步的带字幕的音视频文件。

本申请实施例通过第一时间信息将音频信息、视频信息和文字信息进行合并，从而保证了音频、视频和文字在时间上的同步。

本申请通过识别视频中人讲话的口型，获知其说的话，并根据人说的话将视频信息、音频信息和文字信息进行合成，从而能够保证音频、视频和文字在时间上的同步。

在另一实施例中，对于通过第一终端向无人机发送控制指令以使无人机进行视频采集的场景，控制指令可以为开始录制视频，当无人机接收到该控制指令后，立即开始视频的录制；控制指令中也可以包括第二时间信息，且第二时间信息可以为开始录制的时间点或延时时长，若第二时间信息为开始录制的时间点，那么当无人机接收到该控制指令后，监测当前时间是否到达开始录制的时间点，若到达，则开始视频的录制。若第二时间信息为延时时长，那么当无人机接收到控制指令后，等待延时时长之后开始视频的录制。

并且，第一终端采集音频和无人机采集视频都是通过服务器进行控制，即，服务器中安装有能够控制第一终端采集音频和无人机采集视频的APP，当需要第一终端和无人机同时采集时，可以同时向第一终端和无人机发送控制指令，当第一终端和无人机接收到控制指令后，开始音视频的采集。当然，还可以采用其他智能设备对第一终端和无人机进行控制。

本申请实施例通过控制指令中的第二时间信息保证第一终端和无人机的录制操作同步进行，便于后期进行合成时的时间对齐。

图11为本申请实施例提供的装置结构示意图，该装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括：第一信息获得模块1101和第一合成模块1102，其中：

第一信息获得模块1101用于采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得；第一合成模块1102用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

在上述实施例的基础上，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；第一合成模块1102具体用于：

在上述实施例的基础上，所述视频信息中包括人，第一合成模块1102具体用于：

根据所述口型变化特征获得对应的文字；

在上述实施例的基础上，第一信息获得模块1101具体用于：

接收所述第一终端发送的所述音频信息；

根据所述音频信息生成对应的所述文字信息。

在上述实施例的基础上，第一信息获得模块1101具体用于：

对所述音频信息进行预处理，获得处理后音频信息；

对所述处理后音频信息进行端点切分，获得音频样本；

对每个音频片段进行文字识别，获得所述文字信息。

在上述实施例的基础上，第一信息获得模块1101具体用于：

在上述实施例的基础上，所述控制指令包括第二时间信息；第一信息获得模块1101具体用于：

若所述第二时间信息为延时时长的信息，则所述无人机在接收到所述控制指令后，等待所述延时时长进行视频信息的采集；

若所述第二时间信息为进行视频采集的时间点，则当到达所述时间点时，所述无人机开始采集所述视频信息。

图12为本申请实施例提供的另一种装置结构示意图，该装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图7方法实施例对应，能够执行图7方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括：音频采集模块1201、接收模块1202和第二合成模块1203，其中：

音频采集模块1201用于采集音频信息，并根据所述音频信息生成对应的文字信息；接收模块1202用于接收无人机发送的视频信息；第二合成模块1203用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

在上述实施例的基础上，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；第二合成模块1203具体用于：

在上述实施例的基础上，所述装置还包括：

指令发送模块，用于向所述无人机发送控制指令，以使所述无人机根据所述控制指令采集所述视频信息。

图13为本申请实施例提供的又一种装置结构示意图，该装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图9方法实施例对应，能够执行图9方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括：第二信息获得模块1301和第三合成模块1302，其中：

第二信息获得模块1301用于获得视频信息、音频信息和所述音频信息对应的文字信息；其中，所述视频信息为无人机采集获得，所述音频信息为第一终端采集获得；第三合成模块1302用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。

在上述实施例的基础上，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；第三合成模块1302具体用于：

在上述实施例的基础上，第二信息获得模块1301具体用于：

所述服务器根据所述音频信息生成对应的所述文字信息。

图14为本申请实施例提供的电子设备实体结构示意图，如图14所示，所述电子设备，包括：处理器(processor)1401、存储器(memory)1402和总线1403；其中，

所述处理器1401和存储器1402通过所述总线1403完成相互间的通信；

所述处理器1401用于调用所述存储器1402中的程序指令，以执行上述各方法实施例所提供的方法。

处理器1401可以是一种集成电路芯片，具有信号处理能力。上述处理器1401可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1402可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音视频处理方法，其特征在于，应用于智能设备，包括：

采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中，所述视频信息由无人机采集，所述音频信息为通过第一终端采集获得，所述第一终端设置于声源附近；所述视频信息和所述音频信息为同步采集获得；

将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件；

其中，若所述视频信息中包括人，所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

获取所述视频信息对应的多帧视频图像，对多帧视频图像进行划分，获得所述视频信息中的人说出的每个字对应的多帧视频图像；并对多帧视频图像进行识别，获得所述视频信息中人的口型变化特征；

根据文字识别模型对所述口型变化特征进行识别，获得对应的文字；

2.根据权利要求1所述的方法，其特征在于，若所述视频信息、所述音频信息和所述文字信息均包括第一时间信息，所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

3.根据权利要求1所述的方法，其特征在于，所述获得音频信息和所述音频信息对应的文字信息，包括：

接收所述第一终端发送的所述音频信息；

根据所述音频信息生成对应的所述文字信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述音频信息生成对应的所述文字信息，包括：

对所述音频信息进行预处理，获得处理后音频信息；

对所述处理后音频信息进行端点切分，获得音频样本；

对每个音频片段进行文字识别，获得所述文字信息。

5.根据权利要求1所述的方法，其特征在于，所述获得音频信息和所述音频信息对应的文字信息，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述采集视频信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述控制指令包括第二时间信息；所述根据所述控制指令采集所述视频信息，包括：

8.一种音视频处理方法，其特征在于，应用于第一终端，其中，所述第一终端设置于声源附近；包括：

采集音频信息，并根据所述音频信息生成对应的文字信息；

接收智能设备发送的视频信息；所述视频信息和所述音频信息为同步采集获得；

所述视频信息中包括人，所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

根据所述口型变化特征获得对应的文字；

9.根据权利要求8所述的方法，其特征在于，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

10.根据权利要求8所述的方法，其特征在于，在接收智能设备发送的视频信息之前，所述方法还包括：

11.一种音视频处理方法，其特征在于，应用于服务器，包括：

获得视频信息、音频信息和所述音频信息对应的文字信息；其中，所述视频信息为智能设备采集获得，所述音频信息为第一终端采集获得；其中，所述第一终端设置于声源附近；所述视频信息和所述音频信息为同步采集获得；

根据所述口型变化特征获得对应的文字；

12.根据权利要求11所述的方法，其特征在于，所述视频信息、所述音频信息和所述文字信息均包括第一时间信息；所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件，包括：

13.根据权利要求11所述的方法，其特征在于，所述获得所述音频信息对应的文字信息，包括：

14.根据权利要求11所述的方法，其特征在于，所述获得所述音频信息对应的文字信息，包括：

所述服务器根据所述音频信息生成对应的所述文字信息。

15.一种音视频处理装置，其特征在于，包括：

第一信息获得模块，用于采集视频信息，并获得音频信息和所述音频信息对应的文字信息；其中所述音频信息为通过第一终端采集获得；其中，所述第一终端设置于声源附近；所述视频信息和所述音频信息为同步采集获得；

第一合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件；

所述视频信息中包括人，所述第一合成模块具体用于：

根据所述口型变化特征获得对应的文字；

16.一种音视频处理装置，其特征在于，应用于第一终端，其中，所述第一终端设置于声源附近；包括：

接收模块，用于接收智能设备发送的视频信息；所述视频信息和所述音频信息为同步采集获得；

第二合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件；

所述视频信息中包括人，所述第二合成模块具体用于：

根据所述口型变化特征获得对应的文字；

17.一种音视频处理装置，其特征在于，包括：

第二信息获得模块，用于获得视频信息、音频信息和所述音频信息对应的文字信息；其中，所述视频信息为智能设备采集获得，所述音频信息为第一终端采集获得；其中，所述第一终端设置于声源附近；所述视频信息和所述音频信息为同步采集获得；

第三合成模块，用于将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件；

所述视频信息中包括人，所述第三合成模块具体用于：

根据所述口型变化特征获得对应的文字；

18.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-14任一项所述的方法。

19.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1-14任一项所述的方法。