CN111885416A

CN111885416A - 一种音视频的修正方法、装置、介质及计算设备

Info

Publication number: CN111885416A
Application number: CN202010695651.2A
Authority: CN
Inventors: 汪冠春; 胡一川; 张铁
Original assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-03
Anticipated expiration: 2040-07-17
Also published as: CN111885416B

Abstract

本发明实施例公开一种音视频的修正方法、装置、介质及计算设备，该方法包括：从待修改视频中，提取出其中的初始音频；基于初始音频，确定初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；基于初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，待修改文本为：存在待修改内容的初始文本；获得第一子视频段，第一子视频段为：修改待修改视频所需的视频段；基于第一子视频段，以及待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定待修改视频对应的包括修改后的音频的目标视频，以实现对音视频的修正。

Description

一种音视频的修正方法、装置、介质及计算设备

技术领域

本发明涉及视频处理技术领域，具体而言，涉及一种音视频的修正方法、装置、介质及计算设备。

背景技术

随着网络技术的发展，人们越来越喜欢录制视频，以通过视频来介绍或传递一些信息，例如：为了宣传企业和/或宣传企业产品，企业人员会录制关于介绍企业文化、现状以及发展等信息的宣传视频，和/或录制关于介绍企业产品的功能等相关产品信息的宣传视频。

在视频录制过程中，难免出现所表达内容不够准确、表达过程中出现多余语气词或者部分子视频段存在错误等问题，如果再重新录制视频，在一定程度上增加了视频录制人员的负担。

那么，如何提供一种对视频进行修正的方法成为亟待解决的问题。

发明内容

本发明提供了一种音视频的修正方法、装置、介质及计算设备，以实现对音视频的修正。具体的技术方案如下：

第一方面，本发明实施例提供了一种音视频的修正方法，所述方法包括：

S1：从待修改视频中，提取出其中的初始音频；

S2：基于所述初始音频，确定所述初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；

S3：基于所述初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，所述待修改文本为：存在待修改内容的初始文本；

S4：获得第一子视频段，所述第一子视频段为：修改所述待修改视频所需的视频段；

S5：基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

可选的，所述S3，包括：

S31：针对每一初始文本，执行以下步骤，以确定出待修改文本对应的修改后的目标文本；

S311：展示该初始文本和/或所述待修改视频正该初始文本对应的子视频段，以便审核人员审核该初始文本中是否存在需要修改的文本内容；

S312：获得针对该作为待修改文本的初始文本的创建新文本指令，获得所述审核人员基于该初始文本中需要修改的文本内容，输入该创建新文本指令对应的空文本的文本内容，以得到该待修改文本对应的修改后的目标文本。

可选的，所述S3，包括：

S32：遍历每一初始文本，确定该初始文本中是否存在满足预设修改条件的文本内容；

S33：在确定初始文本中存在满足预设修改条件的文本内容的情况下，基于该预设修改条件对应的第一修改方式，修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容，确定出该待修改文本对应的修改后的目标文本，其中，所述预设修改条件为：在指定位置存在预设语气词，存在预设过期内容和/或存在预设需隐藏内容；若该待修改文本中的指定位置存在预设语气词，所述第一修改方式为：删除该指定位置存在的预设语气词；若该待修改文本中存在预设过期内容，所述第一修改方式为：将所述预设过期内容替换为该预设过期内容对应的指定内容；若该待修改文本中存在预设需隐藏内容，所述第一修改方式为：删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容。

可选的，所述S2，包括：

S21：基于所述初始音频对应的时间轴信息以及所述初始音频对应的音频情况，对所述初始音频进行划分，得到多个子初始音频段；

S22：利用语音识别技术，对每一子初始音频段进行语音识别，确定所述初始音频对应的初始文本。

可选的，所述S5，包括：

S51：从所述待修改视频中，确定出所述第一子视频段对应的所需替换的子视频段，作为待替换子视频段；

S52：将所述待替换子视频段及其中包含的音频段，替换为所述第一子视频段及其中包含的音频段，得到第一中间视频；

S53：针对每一第一待修改文本，基于该第一待修改文本对应的子初始音频段的时长信息，和所述第一待修改文本所对应目标文本的字数，对该第一待修改文本所对应目标文本、所对应当前语速信息和/或所述第一中间视频中该第一待修改文本所对应子视频段进行修改，以确定所述待修改视频对应的包括修改后的音频的目标视频，所述第一待修改文本为：所述待修改文本中，除所述待替换子视频段对应的待修改文本外的其他待修改文本。

可选的，在所述S5之前，所述方法还包括：

S6：确定所述第一子视频段对应的第一文本，其中，所述第一文本为所对应第一子视频段对应的音频所对应文本；

所述S5，包括：

S54：基于所述第一子视频段及其对应的第一文本，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

可选的，所述第一文本为录制所述第一子视频段时的录制音频对应的文本；

所述S54，包括：

S541：从所述待修改文本中，确定出所述第一子视频段对应的待修改文本，作为待替换文本；

S542：将所述待替换文本，替换为所对应第一子视频段对应的第一文本；

S543：从所述待修改视频中确定出待替换文本对应的子视频段；

S544：将所述待修改视频中待替换文本对应的子视频段，替换为所述待替换文本对应的所述第一子视频段，得到第二中间视频；

S545：针对每一第二待修改文本，基于该第二待修改文本对应的子初始音频段的时长信息，和所述第二待修改文本所对应目标文本的字数，对该第二待修改文本所对应目标文本、所对应当前语速信息和/或所述第二中间视频中该第二待修改文本所对应子视频段进行修改，以确定所述待修改视频对应的包括修改后的音频的目标视频，所述第二待修改文本为：所述待修改文本中，除所述待替换文本外的待修改文本。

可选的，所述第一文本为所述待修改文本中第三待修改文本对应的目标文本；所述第三待修改文本为：所述待修改视频中所述第一子视频段对应的所需替换的子视频段所对应待修改文本；

所述S54，包括：

S546：基于每一第三待修改文本对应的时间段信息，从所述待修改视频中确定出每一第三待修改文本对应的子视频段，其中，所述时间段信息包括：所对应第三待修改文本对应的子初始音频段在所述待修改视频中对应的起始时间信息和结束时间信息；

S547：将所述待修改视频中每一第三待修改文本所对应子视频段，替换为每一第三待修改文本对应的第一子视频段，得到第三中间视频；

S548：针对每一第四待修改文本，基于该第四待修改文本对应的子初始音频段的时长信息，以及该第四待修改文本所对应目标文本，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或所述第三中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段，其中，所述第四待修改文本为所述待修改文本中除所述第三待修改文本外的修改文本；

S548：基于第四待修改文本所对应最终信息、所述第三待修改文本对应的目标文本以及所述初始文本中除待修改文本外的其他初始文本，确定所述待修改视频对应的包括修改后的音频的目标视频；所述第四待修改文本所对应最终信息包括：第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段。

可选的，所述S548，包括：

S5481：针对每一第四待修改文本，基于该第四待修改文本所对应目标文本的字数以及当前语速信息，确定该第四待修改文本对应的子目标音频段的时长信息；

S5482：在第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同的情况下，基于以下五种实现方式中的任一种实现方式，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或所述中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段；

第一种实现方式：

S54821：调整该第四待修改文本所对应目标文本的字数，得到该第四待修改文本所对应修改后的目标文本，使得基于该第四待修改文本所对应调整字数后的目标文本以及当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同；

第二种实现方式：

S54822：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，调小所对应当前语速信息；

S54823：基于该第四待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息，返回步骤S54822；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同；

第三种实现方式：

S54824：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，调大所对应当前语速信息；

S54825：基于该第四待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息，返回步骤S54824；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同；

第四种实现方式：

S54826：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，删除所述第三中间视频中，该第四待修改文本所对应子视频段中的部分视频帧，使得删除部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同；

第五种实现方式：

S54827：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，在所述第三中间视频中该第四待修改文本所对应子视频段中，添加部分视频帧，使得添加部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同。

第二方面，本发明实施例提供了一种音视频的修正装置，所述装置包括：

提取模块，被配置为从待修改视频中，提取出其中的初始音频；

第一确定模块，被配置为基于所述初始音频，确定所述初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；

第二确定模块，被配置为基于所述初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，所述待修改文本为：存在待修改内容的初始文本；

获得模块，被配置为获得第一子视频段，所述第一子视频段为：修改所述待修改视频所需的视频段；

第三确定模块，被配置为基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现本发明实施例所示的音视频的修正方法。

第四方面，本发明实施例提供了一种计算设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所示的音视频的修正方法。

由上述内容可知，本发明实施例提供的一种音视频的修正方法、装置、介质及计算设备。方法包括：S1：从待修改视频中，提取出其中的初始音频；S2：基于初始音频，确定初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；S3：基于初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，待修改文本为：存在待修改内容的初始文本；S4：获得第一子视频段，第一子视频段为：修改待修改视频所需的视频段；S5：基于第一子视频段，以及待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定待修改视频对应的包括修改后的音频的目标视频。

应用本发明实施例，基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改，得到修改后的目标文本，并且可以获得用于替换待修改视频中所需的视频段的第一子视频段，进而基于待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定出相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段，以便于该待修改文本对应的音视频段的融合，并基于第一子视频段替换待修改视频中需要替换的视频段，以确定出待修改视频对应的包括修改后的音频的目标视频，实现对音视频的修正，避免待修改视频的重新录制，在一定程度上节省人力以及资源成本。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改，得到修改后的目标文本，并且可以获得用于替换待修改视频中所需的视频段的第一子视频段，进而基于待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定出相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段，以便于该待修改文本对应的音视频段的融合，并基于第一子视频段替换待修改视频中需要替换的视频段，以确定出待修改视频对应的包括修改后的音频的目标视频，实现对音视频的修正，避免待修改视频的重新录制，在一定程度上节省人力以及资源成本。

2、提供人机交互功能，通过人工审核，实现对初始文本中需要修改的待修改文本的审核和修改，在一定程度上提供所需修改的待修改文本的准确确定以及修改结果的准确性。或基于预设修改条件，自动从初始文本中识别包含存在满足预设修改条件的文本内容的待修改文本，并基于不同预设修改条件对应的不同第一修改方式，修改该作为待修改文本的初始文本中所存在的满足相应的预设修改条件的文本内容，确定出该待修改文本对应的修改后的目标文本，在一定程度上降低人力成本，实现修改文本的自动化。

3、直接将包含音频段的第一子视频段替换至待修改视频中，得到第一中间视频，进而，基于第一待修改文本对应的子初始音频段的时长信息，和第一待修改文本所对应目标文本的字数，对该第一待修改文本所对应目标文本、所对应当前语速信息和/或第一中间视频中该第一待修改文本所对应子视频段进行修改，以得到相互匹配的该第一待修改文本所对应目标文本和该第一待修改文本所对应子视频段，以便于该第一待修改文本对应的音视频段的融合，以确定待修改视频对应的包括修改后的音频的目标视频，以在实现对待修改视频的修改的同时，保证视频观看者的观看体验。

4、在第一子视频段对应的第一文本为录制第一子视频段时的录制音频对应的文本时，可以直接将待修改文本中该第一子视频段对应的待替换文本，替换为该第一子视频段对应的第一文本，并将待修改视频中待替换文本对应的子视频段，替换为待替换文本对应的第一子视频段，得到第二中间视频；进而，针对每一第二待修改文本，对该第二待修改文本所对应目标文本、所对应当前语速信息和/或第二中间视频中该第二待修改文本所对应子视频段进行修改，以得到确定待修改视频对应的包括修改后的音频的目标视频，以在实现对待修改视频的修改，保证视频观看者的观看体验。

5、在第一子视频段对应的第一文本为待修改文本中的第三待修改文本对应的目标文本，即为待修改视频中第一子视频段对应的所需替换的子视频段所对应待修改文本对应的目标文本的情况下，基于第三修改文本对应的时间段信息，从待修改视频中确定出每一第三待修改文本对应的子视频段，并替换为第三待修改文本对应的第一子视频段，得到第三中间视频；进而，针对每一第四待修改文本，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或第三中间视频中该第四待修改文本所对应子视频段进行修改，以得到确定待修改视频对应的包括修改后的音频的目标视频，以在实现对待修改视频的修改，保证视频观看者的观看体验。

6、考虑到音频与视频的对应关系，在第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同的情况下，通过调整第四待修改文本所对应目标文本的字数和/或语速信息，来实现对第四待修改文本所对应目标文本对应的音频段的时长信息的调整，和/或通过删除或添加第四待修改文本所对应子视频段的视频帧，来实现对第四待修改文本所对应子视频段的时长信息的调整，以使得第四待修改文本对应的音频段和视频段达到匹配，即时长信息相同，进而确定出待修改视频对应的包括修改后的音频的目标视频，实现对待修改视频的修改。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为初始文本的一种展示示意图；

图1B为视频播放界面的一种示意图；

图2为本发明实施例提供的音视频的修正方法的一种流程示意图；

图3为本发明实施例提供的音视频的修正装置的一种结构示意图；

图4为本发明实施例提供的计算机可读存储介质的一种结构示意图；

图5为本发明实施例提供的计算设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种音视频的修正方法、装置、介质及计算设备，以实现对音视频的修正。下面对本发明实施例进行详细说明。

本发明实施例的描述中，术语“待修改视频”指需要修改其中所包含音频的视频，可以为任一类型的视频。

本发明实施例的描述中，术语“初始音频”指从待修改视频中提取出的音频，其可以为基于相关技术中任一种音频提取算法，从待修改视频中提取出的音频。

本发明实施例的描述中，术语“子初始音频段”指对初始音频进行划分，所得到的音频段，作为子初始音频段。其中，可以是基于初始音频对应的时间轴信息，依次识别初始音频的音频情况，确定出表征初始音频中音频振幅较小的位置处，在此位置处划分初始音频，得到多个子初始音频段。

本发明实施例的描述中，术语“初始文本”指存储有由所对应子初始音频段转化所得的文字类内容的文本。

本发明实施例的描述中，术语“目标文本”指包含所对应待修改文本中已被修改之后的文本内容的文本，与待修改文本一一对应。

本发明实施例的描述中，术语“第一子视频段”指预先拍摄的用于替换待修改视频中需要替换的子视频段的视频。

本发明实施例的描述中，术语“子视频段”指待修改视频中的视频段，每一子视频段对应的在待修改视频中的时间段信息，与初始文本对应的子初始音频段所对应在待修改视频中的时间段信息相同，其中，在待修改视频中的时间段信息包括在待修改视频中的起始时间信息和结束时间信息。

本发明实施例的描述中，术语“预设修改规则”指针对初始文本中所包含的由所对应子初始音频段转化所得的文字内容所设置的修改规则，可以包括指示手动修改初始文本中的待修改文本的规则和/或指示自动修改初始文本中的待修改文本的规则。

本发明实施例的描述中，术语“第一子视频段”指修改待修改视频所需的视频段，可以是基于待修改文本对应的目标文本进行拍摄的视频段，也可以是直接基于需求直接拍摄的视频段。

下面通过具体实现方式，对本发明实施例所提供的音视频的修正流程进行介绍。

在视频中出现部分音频以及部分视频的内容不够合适，例如出现表达内容出现错误，或表达过程中出现多余语气词或部分视频的内容过期或不清楚，会影响视频观看者的观看体验。若直接重新录制视频在一定程度上会增加资源的消耗，为了在一定程度上降低出现部分音频的内容不够合适的视频的制造成本，本发明实施例提供了一种音视频的修正方法，可以实现对视频中音频以及视频的修正。

具体的，电子设备通过审核人员选择或其他电子设备的指示，获得待修改视频，并从待修改视频中提取出音频，作为初始音频；利用初始音频对应的时间轴信息以及音频情况，从初始音频中确定出出现声音停顿的位置，进而从该出现声音停顿的位置处划分初始音频，得到多个子初始音频段；并利用语音识别技术，对每一子初始音频段进行语音识别，确定初始音频对应的初始文本。如图1A所示，为初始音频对应的初始文本的一种展示示意图，每一初始文本对应时间段信息，即初始文本在待修改视频中的起始时间信息和结束时间信息，分别如1A中所示的“起始时间”和“结束时间”。

基于初始文本以及预设修改规则，通过人工或自动修改的方式，从初始文本中确定出存在待修改内容的初始文本，作为待修改文本；并基于待修改文本的内容，进行人工或自动修改，确定出待修改文本对应的修改后的目标文本。例如：待修改文本中存在句中或句首出现多余语气词的情况，将其中出现的多余语气词删除，得到待修改文本对应的目标文本；又例如：待修改文本中出现过期内容，例如：视频录制时存在对目标1的介绍，现在需要介绍目标2，相应的，将待修改文本中包含的目标1的介绍的内容，修改为对目标2的介绍的内容，得到待修改文本对应的目标文本。如图1A所示，每一初始文本对应有相关的操作选项按钮，通过触发相应的操作选项按钮，可以进入对初始文本进行相应修改的界面，以实现对初始文本的修改。

获得第一子视频段，该第一子视频段为预先拍摄的用于替换待修改视频中需要替换的视频段的视频。例如：待修改视频为公司A宣传片，录制公司A宣传片的时候公司地址为公司地址1，而当前公司的地址为公司地址2，且待修改视频中出现了相应公司地址1对应的场景，相应的，可以认为待修改视频中出现的相应公司地址1对应的场景为过期内容，即待修改视频中出现的相应公司地址1对应的场景所在视频段为需要替换的视频段，需要替换为对公司地址2对应的场景。

该第一子视频段可以是审核人员直接通过预先浏览待修改视频，从待修改视频中确定出是否存在需要替换的视频片段，以及确定需要替换的内容是什么，并进行第一子视频段的拍摄所得到的的第一子视频段。或者，可以是审核人员通过查看待修改文本及其对应的目标本文，并比对待修改视频，从待修改视频中确定出是否存在需要替换的视频片段，在确定存在需要替换的视频片段的情况下，基于需要替换的视频片段对应的待修改文本对应的时间段信息，确定该需要替换的视频片段，并基于需要替换的视频片段对应的待修改文本对应的目标文本，拍摄的第一子视频段。

后续的，考虑到视频和音频的对应关系，即视频中的片段需要与音频中的片段对齐，为了保证视频观看者的观看体验，可以直接将待修改视频中该第一子视频段对应的需要修改的视频段，替换为第一子视频段，得到中间视频；进而，待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定出相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段，例如：可以根据该待修改文本所对应子视频段的时长信息调整待修改文本所对应目标文本的字数和/或所对应语速信息，以使得基于待修改文本所对应未修改或修改后的目标文本和所对应未修改或修改后的所对应语速信息，确定出时长信息与该待修改文本所对应子视频段的时长信息相同的子目标音频段；或者，可以根据待修改文本所对应目标文本的字数以及所对应语速信息确定出待修改文本所对应子目标音频段的时长信息，并基于待修改文本所对应子目标音频段的时长信息，删除或增加该待修改文本所对应子视频段中的部分视频帧，以使得删除或增加该待修改文本所对应子视频段中的部分视频帧后的视频段的时长信息，与待修改文本所对应子目标音频段的时长信息相同。以便于该待修改文本对应的音视频段的融合，以确定出待修改视频对应的包括修改后的音频的目标视频，实现对音视频的修正，避免待修改视频的重新录制，在一定程度上节省人力以及资源成本。

一种情况中，确定出各待修改文本对应的未修改或修改后的目标文本、所对应未修改或修改后的所对应语速信息，以及包含各待修改文本对应的未修改或修改后的子视频段的中间视频之后；结合各待修改文本对应的未修改或修改后的目标文本、所对应未修改或修改后的所对应语速信息，以及初始文本及其对应的语速信息，合成得到完整的修改后的音频；

电子设备可以播放该包含各待修改文本对应的未修改或修改后的子视频段的中间视频，审核人员可以触发播放该包含各待修改文本对应的未修改或修改后的子视频段的中间视频的播放界面的预定功能按钮，实现将修改后的音频导入该包含各待修改文本对应的未修改或修改后的子视频段的中间视频，得到目标视频。如图1B所示，为播放该包含各待修改文本对应的未修改或修改后的子视频段的中间视频的一种示例图，审核人员可以通过触发“音视频重组”按钮，将修改后的音频导入该包含各待修改文本对应的未修改或修改后的子视频段的中间视频。

图2为本发明实施例提供的音视频的修正方法的一种流程示意图。所述方法可以包括如下步骤：

S201：从待修改视频中，提取出其中的初始音频。

本发明实施例所提供的音视频的修正方法可以应用于任一具有计算能力的电子设备中。实现该音视频的修正方法的功能软件可以以单独的客户端软件的形式存在，也可以以现有的客户端软件的插件的形式存在，这都是可以的。

电子设备可以首先获得待修改的视频，作为待修改视频。该待修改视频可以是审核人员选择确定的，也可以是其他电子设备发送至该电子设备的，这都是可以的。该待修改视频可以为任一类型的视频，该待修改视频中包括所对应的音频。

在一种实现方式中，获得待修改视频的电子设备可以展示有供审核人员选择所需修改的视频的界面。一种情况，该界面可以展示有各视频对应的缩略图，审核人员可以通过选中缩略图的方式，来确定待修改视频。另一种情况，该界面可以展示有供审核人员输入待修改视频的视频标识信息的区域，电子设备检测到该区域中输入的视频标识信息，基于该视频标识信息检索到该视频标识信息对应的视频，作为待修改视频。

电子设备确定待修改视频之后，从待修改视频中提取出其中的音频，作为初始音频，并记录初始音频与待修改视频之间的时间对应关系。

S202：基于初始音频，确定初始音频对应的初始文本。

其中，每一初始文本对应初始音频的一子初始音频段。

本步骤中，可以基于语音识别技术，识别初始音频，确定初始音频对应的初始文本，该初始文本中包括从初始音频中识别出的文字。在一种情况中，为了有助于音频、文本以及视频之间时间信息的对齐，例如初始音频中的音频段需要与待修改视频中的视频段对齐，本发明实施例中，可以预先将初始音频进行划分，进而针对划分所得的每一子初始音频段进行语义识别，得到每一子初始音频段对应的初始文本。

一种情况，电子设备得到初始音频对应的初始文本后，可以直接展示初始音频对应的各初始文本，如图1A所示，得到初始音频对应的初始文本之后，可以按照初始文本对应的时间段信息依次排序展示各初始文本，并展示初始文本对应的时间段信息，即其在待修改视频中的起始时间信息和结束时间信息。

具体的，在本发明的一种实现方式中，所述S202，可以包括如下步骤011-012：

011：基于初始音频对应的时间轴信息以及初始音频的音频情况，对初始音频进行划分，得到多个子初始音频段。

012：利用语音识别技术，对每一子初始音频段进行语音识别，确定初始音频对应的初始文本。

电子设备可以基于初始音频对应的时间轴信息，依次识别初始音频的音频情况，在确定处表征初始音频中音频振幅较小的位置处，例如音频振幅小于预设振幅阈值，可以认为该位置处为音频的停顿处，即表征音频中的一句话已完成的位置，即将开始另一句话，在此位置处划分初始音频，以得到多个子初始音频段。理论上而言，每一子初始音频段可以包括一句话的内容。

得到多个子初始音频段后，利用语音识别技术，对每一子初始音频段进行语音识别，得到每一子初始音频段对应的包含该子初始音频段对应的文字的初始文本，确定出初始音频对应的初始文本。并且记录每一子初始音频段在待修改视频中的第一位置对应关系，每一子初始音频段对应的初始文本中的文字与待修改视频中的第二位置对应关系。该第一位置对应关系可以通过每一子初始音频段对应的时间段信息表示，例如：子初始音频段A对应在待修改视频中的时间段信息为：在待修改视频中的第5秒至第10秒，即子初始音频段A在待修改视频中的起始时间为第5秒，在待修改视频中的终止时间为第5秒。该第二位置对应关系可以通过每一子初始音频段对应的初始文本中的文字在待修改视频中的时间信息表示，例如：子初始音频段A对应的初始文本中的文字a在待修改视频中的时间为第6秒。

S203：基于初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，待修改文本为：存在待修改内容的初始文本。

电子设备确定出初始文本之后，就有预设修改规则从初始文本中确定出存在待修改内容的初始文本，作为待修改文本，并针对每一待修改文本进行修改，得到包含待修改文本的修改后的文本内容的目标文本。

该预设修改规则包括指示手动修改待修改文本的规则，和/或指示自动修改待修改文本的规则。

在本发明的一种实现方式中，该预设修改规则包括指示手动修改待修改文本的规则，所述S203，可以包括如下步骤021：

021：针对每一初始文本，执行以下步骤，以确定出待修改文本对应的修改后的目标文本；

0211：展示该初始文本和/或待修改视频正该初始文本对应的子视频段，以便审核人员审核该初始文本中是否存在需要修改的文本内容；

0212：在获得针对作为待修改文本的初始文本的创建新文本指令的情况下，对应该待修改文本创建新文本；

0213：获得审核人员基于该初始文本中需要修改的文本内容，输入的该待修改文本所对应新文本的文本内容，以得到该待修改文本对应的修改后的目标文本。

其中，该需要修改的文本内容包括但不限于：文本中多余的语气词、口误所生成的内容、需要替换的内容以及需要隐藏的信息。其中，需要替换的内容可以包括审核已过期的内容。例如：待修改视频为公司A宣传片，录制公司A宣传片的时候公司地址为公司地址1，而当前公司的地址为公司地址2，相应的，可以认为公司A宣传片中的公司地址为审核已过期的内容。例如：待修改视频为产品推销宣传片，录制产品推销宣传片时需要向A公司介绍产品，现在需要向B公司介绍产品，相应的待修改视频中A公司为修改替换的信息。

本实现方式中，电子设备可以针对每一初始文本，向审核人员展示该初始文本或者展示初始文本以及待修改视频中该初始文本对应的子视频段，以便审核人员审核该初始文本中是否存在需要修改的文本内容。

一种情况中，电子设备可以基于所展示初始文本对应的时间段信息，从待修改视频中确定出该初始文本对应的时间段信息对应的子视频段，并展示给审核人员；或者，另一种情况中，电子设备向审核人员展示初始文本及其对应的时间段信息，以使得审核人员可以基于初始文本对应的时间段信息，从待修改视频中找到该初始文本对应的子视频段，并展示给审核人员。其中，初始文本对应的时间段信息包括：该初始文本对应的子初始音频段在待修改视频中的起始时间信息和结束时间信息。

在审核人员审核该初始文本中存在需要修改的文本内容，针对该存在修改的文本内容的初始文本触发创建新文本指令；电子设备获得该创建新文本指令，将该初始文本作为待修改文本，并对应该待修改文本创建新文本；获得审核人员基于该初始文本中需要修改的文本内容，输入的该待修改文本所对应新文本的文本内容，以得到该待修改文本对应的修改后的目标文本。

一种情况中，该新文本包括与所对应待修改文本相同的文本内容，相应的，审核人员直接在该新文本中对其中的内容进行修改。另一种情况，该新文本为空文本，相应的，审核人员直接基于所对应待修改文本中的包括所需修改的文本内容的文本内容，确定修改后的文本内容，并将所确定的修改后的文本内容直接输入新文本中，这都是可以的。

在一种情况中，电子设备可以记录针对初始文本的审核记录，优先向审核人员展示未被审核过的初始文本，以在一定程度上降低审核人员的工作量。

通过审核人员的审核修改，得到准确性较高的待修改文本对应的目标文本。

在本发明的一种实现方式中，该预设修改规则包括指示自动修改待修改文本的规则，所述S203，可以包括如下步骤022-023：

022：遍历每一初始文本，确定该初始文本中是否存在满足预设修改条件的文本内容。

023：在确定初始文本中存在满足预设修改条件的文本内容的情况下，基于该预设修改条件对应的第一修改方式，修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容，确定出该待修改文本对应的修改后的目标文本。

其中，预设修改条件为：在指定位置存在预设语气词，存在预设过期内容和/或存在预设需隐藏内容；若该待修改文本中的指定位置存在预设语气词，第一修改方式为：创建得到包含删除所对应待修改文本的指定位置存在的预设语气词的文本内容的目标文本；若该待修改文本中存在预设过期内容，第一修改方式为：创建得到包含所对应待修改文本的将所述预设过期内容替换为该预设过期内容所对应指定内容的文本内容的目标文本；若该待修改文本中存在预设需隐藏内容，第一修改方式为：创建得到所对应待修改文本的删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容的文本内容的目标文本。

该指定位置为初始文本的句中和/或句首，即初始文本的文字非结尾位置。若确定初始文本的非结尾位置存在预设语气词，则可以认为该位置的预设语气词为多余的语气词。上述预设过期内容可以为预先针对该待修改视频所设置的需要修改的过期内容，该预设需隐藏内容可以为预先针对该待修改视频所设置的需要隐藏的内容。

电子设备确定出初始音频对应的初始文本之后，遍历每一初始文本，确定该初始文本中是否存在满足预设修改条件的文本内容，在确定初始文本中存在满足预设修改条件的文本内容的情况下，若确定初始文本中的指定位置存在预设语气词，则可以基于第一修改方式，创建该待修改文本对应的新文本，将所对应待修改文本中该指定位置存在的预设语气词删除后的文本内容，复制于该待修改文本对应的新文本，以得到待修改文本对应的目标文本；若确定初始文本中存在预设过期内容，则可以基于第一修改方式，创建该待修改文本对应的新文本，将所对应待修改文本中所存在的预设过期内容替换为该预设过期内容对应的指定内容后的文本内容，复制于该待修改文本对应的新文本，以得到待修改文本对应的目标文本；若确定初始文本中存在预设需隐藏内容，则可以基于第一修改方式，创建该待修改文本对应的新文本，将所对应待修改文本中所存在的预设需隐藏内容删除，或将该预设需隐藏内容替换为预设内容后的文本内容，复制于该待修改文本对应的新文本，以得到待修改文本对应的目标文本。

S204：获得第一子视频段。

第一子视频段为：修改待修改视频所需的视频段。其中，该第一子视频段为预先拍摄的用于替换待修改视频中需要替换的子视频段的视频。

在一种情况中，待修改视频中可能存在需要替换的视频片段即子视频段，例如：待修改视频段中存在部分视频片段拍摄模糊，或者待修改视频段中存在部分过期内容，举例而言：待修改视频为公司A宣传片，录制公司A宣传片的时候公司地址为公司地址1，而当前公司的地址为公司地址2，且待修改视频中出现了相应公司地址1对应的场景，相应的，可以认为待修改视频中出现的相应公司地址1对应的场景为过期内容，即待修改视频中出现的相应公司地址1对应的场景所在视频段为需要替换的视频段，需要替换为对公司地址2对应的场景。

一种情况，审核人员可以直接预先浏览待修改视频，从待修改视频中确定出是否存在需要替换的视频片段，以及确定需要替换的内容是什么，并进行第一子视频段的拍摄，相应的，电子设备可以获得第一子视频段。

另一种情况，审核人员可以通过查看待修改文本及其对应的目标本文，并比对待修改视频，从待修改视频中确定出是否存在需要替换的视频片段，在确定存在需要替换的视频片段的情况下，可以基于需要替换的视频片段对应的待修改文本对应的时间段信息，确定该需要替换的视频片段，并基于需要替换的视频片段对应的待修改文本对应的目标文本，拍摄第一子视频段，相应的，电子设备获得第一子视频段。

S205：基于第一子视频段，以及待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定待修改视频对应的包括修改后的音频的目标视频。

本步骤中，可以直接利用第一子视频段替换掉该待修改视频中该第一子视频段对应的需要替换的子视频段；得到中间视频；并利用待修改文本对应的子初始音频段和待修改文本对应的目标文本，确定出时长信息与待修改文本对应的子初始音频段的时长信息相同的待修改文本对应的目标文本对应的子目标音频段，即确定出时长信息与待修改文本对应的子视频段的时长信息相同的待修改文本对应的目标文本对应的子目标音频段；或确定出时长信息与待修改文本对应的目标文本对应的子目标音频段的时长信息相同的待修改文本对应的修改后的子视频段，进而，将待修改文本对应的子视频段或修改后的子视频段对应的子初始音频，替换为时长信息相同的待修改文本对应的目标文本对应的子目标音频段，确定待修改视频对应的包括修改后的音频的目标视频，实现对待修改视频的修改。

应用本发明实施例，基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改，得到修改后的目标文本，并且可以获得用于替换待修改视频中所需的视频段的第一子视频段，进而基于待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定出相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段，以便于该待修改文本对应的音视频段的融合，并基于第一子视频段替换待修改视频中需要替换的视频段，以确定出待修改视频对应的包括修改后的音频的目标视频，实现对音视频的修正，避免待修改视频的重新录制，在一定程度上节省人力以及资源成本。

在一种实现中，审核人员为了更快的实现对待修改视频中的音频的修改，可以直接将待修改视频中的字幕导出，并对所导出的字幕进行修改，进而基于修改后的字幕合成音频，将音频和修改后的字幕，导入包含各待修改文本对应的未修改或修改后的子视频段的中间视频中，以实现对待修改视频中的音频的快速修改。例如，可以是：触发播放待修改视频的播放界面中的“导出字幕”的功能按钮将待修改视频中的字幕导出；可以是触发播放包含各待修改文本对应的未修改或修改后的子视频段的中间视频的播放界面中的“导如字幕”的功能按钮，将包含各待修改文本对应的未修改或修改后的子视频段的中间视频对应的通过修改后的字幕合成的音频和字幕导入。

在本发明的另一实施例中，所述S205，可以包括如下步骤031-033：

031：从待修改视频中，确定出第一子视频段对应的所需替换的子视频段，作为待替换子视频段；

032：将待替换子视频段及其中包含的音频段，替换为第一子视频段及其中包含的音频段，得到第一中间视频；

033：针对每一第一待修改文本，基于该第一待修改文本对应的子初始音频段的时长信息，和第一待修改文本所对应目标文本的字数，对该第一待修改文本所对应目标文本、所对应当前语速信息和/或第一中间视频中该第一待修改文本所对应子视频段进行修改，以确定待修改视频对应的包括修改后的音频的目标视频，第一待修改文本为：待修改文本中，除待替换子视频段对应的待修改文本外的其他待修改文本。

本实现方式中，审核人员可以基于第一子视频段的内容，以及待修改视频的内容，从待修改视频中，确定出第一子视频段对应的所需替换的子视频段的时间段信息，即第一子视频段对应的所需替换的子视频段在待修改视频中的起始时间信息以及结束时间信息；进而，触发选中该第一子视频段对应的所需替换的子视频段的视频段选中操作，该视频段选中操作携带第一子视频段对应的所需替换的子视频段的时间段信息，电子设备基于视频段选中操作，从待修改视频中，确定出第一子视频段对应的所需替换的子视频段，作为待替换子视频段；并将待替换子视频段及其中包含的音频段，替换为第一子视频段及其中包含的音频段，得到第一中间视频。

后续的，针对每一第一待修改文本，基于该第一待修改文本所对应目标文本的字数以及所对应当前语速信息，确定该第一待修改文本所对应目标文本对应的子目标音频段的时长信息；进而，判断该第一待修改文本对应的子初始音频段的时长信息和该第一待修改文本所对应子目标音频段的时长信息的大小。

在确定该第一待修改文本对应的子初始音频段的时长信息和该第一待修改文本所对应子目标音频段的时长信息相同的情况下，可以无需对该第一待修改文本所对应目标文本、所对应当前语速信息和/或第一中间视频中该第一待修改文本所对应子视频段进行修改。

在确定该第一待修改文本对应的子初始音频段的时长信息，小于该第一待修改文本所对应子目标音频段的时长信息的情况下，可以通过修改该第一待修改文本所对应目标文本，以减少第一待修改文本所对应目标文本中的字数，和/或调小该第一待修改文本所对应目标文本所对应当前语速信息，来调短该第一待修改文本对应的子目标音频段的时长信息，以使得该第一待修改文本对应的调短时长信息的子目标音频段即新的子目标音频段的时长信息，与该第一待修改文本对应的子初始音频段的时长信息即第一中间视频的该第一待修改文本所对应子视频段的时长信息相同。或者，可以通过在第一中间视频的该第一待修改文本所对应子视频段中，添加部分视频帧的方式，来调长第一中间视频的该第一待修改文本所对应子视频段的时长信息，使得该第一待修改文本对应的子目标音频段的时长信息与第一中间视频的该第一待修改文本所对应调长时长信息的子视频段的时长信息相同。

在确定该第一待修改文本对应的子初始音频段的时长信息，大于该第一待修改文本所对应子目标音频段的时长信息的情况下，可以通过修改该第一待修改文本所对应目标文本，以增加第一待修改文本所对应目标文本中的字数，和/或调大该第一待修改文本所对应目标文本所对应当前语速信息，来调长该第一待修改文本对应的子目标音频段的时长信息，以使得该第一待修改文本对应的调长时长信息的子目标音频段即新的子目标音频段的时长信息，与该第一待修改文本对应的子初始音频段的时长信息即第一中间视频的该第一待修改文本所对应子视频段的时长信息相同。或者，可以通过在第一中间视频的该第一待修改文本所对应子视频段中，删除部分视频帧的方式，来调短第一中间视频的该第一待修改文本所对应子视频段的时长信息，使得该第一待修改文本对应的子目标音频段的时长信息与第一中间视频的该第一待修改文本所对应调长时长信息的子视频段的时长信息相同。

进而，基于每一第一待修改文本对应的信息以及第一中间视频，确定待修改视频对应的包括修改后的音频的目标视频。其中，每一第一待修改文本对应的信息包括：该第一待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息和在第一中间视频中该第一待修改文本所对应的未修改和修改后的子视频段。

具体的，可以是基于每一第一待修改文本对应的未修改或修改后的目标文本以及所对应未修改或修改后的当前语速信息，确定每一第一待修改文本对应的最新子目标音频段；并基于每一第一待修改文本对应的时间段信息，即其在第一中间视频中的时间段信息，确定每一第一待修改文本在第一中间视频中对应的子视频段；将每一第一待修改文本在第一中间视频中对应的子视频段中的子初始音频段，替换为每一第一待修改文本对应的最新子目标音频段。

或者，可以是：基于第一子视频段中的音频段，确定第一子视频段对应的文本，即待替换子视频段对应的文本；基于每一第一待修改文本对应的时间段信息、待替换子视频段对应的文本对应的时间段信息之间的先后顺序，依次基于每一第一待修改文本对应的未修改或修改后的目标文本以及所对应未修改或修改后的当前语速信息，合成拼接音频，将第一中间视频中的音频直接替换为所合成拼接的音频。

在本发明的另一实施例中，在所述S205之前，所述方法还可以包括如下步骤041：

041：确定第一子视频段对应的第一文本，其中，第一文本为所对应第一子视频段对应的音频所对应文本；

所述S105，可以包括：基于第一子视频段及其对应的第一文本，以及待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定待修改视频对应的包括修改后的音频的目标视频。

一种情况，获得第一子视频段之后，可以从第一子视频段提取出其中的音频；并基于从第一子视频段提取出的音频，确定第一子视频段对应的第一文本，相应的，该第一文本为录制第一子视频段是所录制音频对应的文本。

第一子视频段为用于替换待修改视频中需要修改的子视频段的视频段，考虑到需要子视频段的画面的同时可能需要修改其中的音频，鉴于此，待修改视频中待修改文本对应的子视频段中可能包括第一子视频段对应的待修改视频中需要修改的子视频段，相应的，为了便利审核人员可以预先基于需要修改视频画面的子视频段所对应待修改文本对应的目标文本，录制该第一子视频段，相应的，该第一子视频段对应的第一文本为：待修改文本中、第一子视频段所对应待修改视频中需要修改的子视频段所对应的待修改文本对应的目标文本。

后续的，电子设备可以基于第一子视频段及其对应的第一文本，以及待修改文本对应的子初始音频段和待修改文本所对应目标文本，确定待修改视频对应的包括修改后的音频的目标视频。

在本发明的另一实施例中，第一文本为录制第一子视频段时的录制音频对应的文本；

所述S205，可以包括如下步骤051-055：

051：从待修改文本中，确定出第一子视频段对应的待修改文本，作为待替换文本；

052：将待替换文本，替换为所对应第一子视频段对应的第一文本；

053：从待修改视频中确定出待替换文本对应的子视频段；

054：将待修改视频中待替换文本对应的子视频段，替换为待替换文本对应的第一子视频段，得到第二中间视频；

055：针对每一第二待修改文本，基于该第二待修改文本对应的子初始音频段的时长信息，和第二待修改文本所对应目标文本的字数，对该第二待修改文本所对应目标文本、所对应当前语速信息和/或第二中间视频中该第二待修改文本所对应子视频段进行修改，以确定待修改视频对应的包括修改后的音频的目标视频，第二待修改文本为：待修改文本中，除待替换文本外的待修改文本。

本实现方式中，若第一文本为录制第一子视频段时的录制音频对应的文本，审核人员可以首先基于第一子视频段的视频内容及第一文本，从待修改文本中确定出第一子视频段对应的待修改文本，作为待替换文本；并利用第一子视频段对应的第一文本，替换该第一子视频段对应的待替换文本。后续的，审核人员可以通过待替换文本对应的时间段信息，或者电子设备直接基于待替换文本对应的时间段信息，从待修改视频中确定出待替换文本对应的子视频段；将待修改视频中待替换文本对应的子视频段，替换为待替换文本对应的第一子视频段，得到第二中间视频。

考虑到待替换文本对应的第一子视频段与待修改视频中待替换文本对应的子视频段之间的时长信息可能存在不同，相应的，可以基于待替换文本对应的第一子视频段的时长信息、待修改视频中待替换文本对应的子视频段的时长信息以及待修改视频对应的各初始文本对应的时间段信息，重新确定待替换文本及其之后的各初始文本对应的新的时间段信息，即在第二中间视频中对应的时间段信息。后续的，可以直接基于待替换文本及其之后各初始文本对应的在第二中间视频中对应的时间段信息，确定各初始文本对应子目标音频段的位置。

电子设备确定出第二中间视频之后，针对待修改文本中除待替换文本外的每一第二待修改文本，基于该第二待修改文本对应的子初始音频段的时长信息，和第二待修改文本所对应目标文本的字数，对该第二待修改文本所对应目标文本、所对应当前语速信息和/或第二中间视频中该第二待修改文本所对应子视频段进行修改，以确定待修改视频对应的包括修改后的音频的目标视频。其中，该过程可以参见上述确定待修改视频对应的包括修改后的音频的目标视频的过程，在此不再赘述。

在本发明的另一实施例中，第一文本为待修改文本中第三待修改文本对应的目标文本；第三待修改文本为：待修改视频中第一子视频段对应的所需替换的子视频段所对应待修改文本；

所述S205，可以包括如下步骤061-064：

061：基于每一第三待修改文本对应的时间段信息，从待修改视频中确定出每一第三待修改文本对应的子视频段，其中，时间段信息包括：所对应第三待修改文本对应的子初始音频段在待修改视频中对应的起始时间信息和结束时间信息。

062：将待修改视频中每一第三待修改文本所对应子视频段，替换为每一第三待修改文本对应的第一子视频段，得到第三中间视频。

第一文本为待修改文本中第三待修改文本对应的目标文本；且第三待修改文本为：待修改视频中第一子视频段对应的所需替换的子视频段所对应的待修改文本。即第一子视频段为基于所对应第三待修改文本所录制的视频段。

相应的，电子设备可以直接基于每一第三待修改文本对应的在待修改视频中的时间段信息，从待修改视频中确定出每一第三待修改文本对应的子视频段，将待修改视频中每一第三待修改文本所对应子视频段，替换为每一第三待修改文本对应的第一子视频段，得到第三中间视频。

进而，基于第三待修改文本对应的第一子视频段的时长信息、待修改视频中第三待修改文本对应的子视频段的时长信息以及待修改视频对应的各初始文本对应的时间段信息，重新确定第三待修改文本及其之后的各初始文本对应的新的时间段信息，即在第三中间视频中对应的时间段信息。后续的，可以直接基于第三待修改文本之后各初始文本对应的在第三中间视频中对应的时间段信息，确定各初始文本对应子目标音频段的位置。

063：针对每一第四待修改文本，基于该第四待修改文本对应的子初始音频段的时长信息，以及该第四待修改文本所对应目标文本，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或第三中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段，其中，第四待修改文本为待修改文本中除第三待修改文本外的修改文本。

在本发明的另一实施例中，所述063，可以包括如下步骤：

0631：针对每一第四待修改文本，基于该第四待修改文本所对应目标文本的字数以及当前语速信息，确定该第四待修改文本对应的子目标音频段的时长信息。

0632：在第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同的情况下，基于以下五种实现方式中的任一种实现方式，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或所述中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段。

第一种实现方式：

06321：调整该第四待修改文本所对应目标文本的字数，得到该第四待修改文本所对应修改后的目标文本，使得基于该第四待修改文本所对应调整字数后的目标文本以及当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同。

一种情况，电子设备可以自动判断第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息是否相同，在第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同的情况下，本实现方式中，电子设备可以展示用于指示审核人员调整文本字数的信息，相应的，审核人员可以基于第四待修改文本对应的子目标音频段的时长信息和第四待修改文本对应的目标文本的字数，以及该第四待修改文本对应的子初始音频段的时长信息和第四待修改文本的字数，确定如何调整第四待修改文本对应的目标文本，即对第四待修改文本对应的目标文本所包含的文字进行调整，即对第四待修改文本对应的目标文本的字数进行调整，使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同。

相应的，电子设备基于审核人员针对该第四待修改文本对应的目标文本的调整操作，调整该待修改文本所对应目标文本所包含的文字，即调整该第四待修改文本所对应目标文本的字数，得到该第四待修改文本所对应修改后的目标文本。以实现通过对该第四待修改文本所对应目标文本的字数的调整，来得到可用于替换的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同的第四待修改文本对应的新的子目标音频段。

另一种情况，电子设备确定该第四待修改文本对应的子目标音频段及其时长信息之后，可以将第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息展示给审核人员，以供审核人员确定其两者是否相同；审核人员在确定其两者不相同的情况下，可以触发调整该第四待修改文本所对应目标文本的字数的调整操作，该调整操作可以携带用于指示修改该第四待修改文本所对应目标文本的文本内容的信息以及相应的修改结果信息，以实现对该第四待修改文本所对应目标文本的字数修改。相应的，电子设备基于该字数调整指令调整该第四待修改文本所对应目标文本的字数，以得到相应的第四待修改文本所对应修改后的目标文本，基于该修改后的目标文本以及当前语速信息确定的该第四待修改文本所对应新的子目标音频段的时长信息，与该第四待修改文本对应的子初始音频段的时长信息相同。

第二种实现方式：

06322：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，调小所对应当前语速信息；

06323：基于该第四待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息，返回步骤06322；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同。

本实现方式中，可以通过调整基于该第四待修改文本所对应目标文本合成音频时的语速信息，来实现对基于该第四待修改文本所对应目标文本所合成的音频的时长信息的调整。电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，可以调小该第四待修改文本所对应目标文本所对应的当前语速信息，得到调小后的当前语速信息，进而，基于该第四待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；并判断该第四待修改文本对应的子初始音频段的时长信息与该第四待修改文本对应的新的子目标音频段的时长信息是否相同；若确定出该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息，则继续调小所对应当前语速信息；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同。

第三种实现方式：

06324：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，调大所对应当前语速信息；

06325：基于该第四待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息，返回步骤06324；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同。

本实现方式中，可以通过调整合成音频时的语速信息实现对基于该待修改文本所对应目标文本所合成的音频的时长信息的调整。电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，可以调大该第四待修改文本所对应目标文本所对应的当前语速信息，得到调大后的当前语速信息，基于该第四待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；判断该第四待修改文本对应的子初始音频段的时长信息与该第四待修改文本对应的新的子目标音频段的时长信息是否相同；若确定出该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息，则继续调大所对应当前语速信息；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同。

考虑到待修改视频修改后的用户的观看体验，待修改视频中的音频的语速应适应人体听觉感受，相应的，电子设备本地或所连接的存储设备可以预先存储有预设语速信息范围，在本发明的一种实现方式中，所述06325，可以包括如下步骤：

判断所对应调小后的当前语速信息是否小于预设语速信息范围的下限值；

若判断所对应调小后的当前语速信息不小于预设语速信息范围的下限值，基于该第四待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息。

在另一种实现方式中，电子设备若判断所对应调小后的当前语速信息小于预设语速信息范围的下限值，则可以提示审核人员调整该待修改文本所对应目标文本的字数，以使得基于该第四待修改文本所对应修改后的目标文本的字数以及所调整到的当前语速信息，所确定的该第四待修改文本所对应新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，即使得该第四待修改文本所对应新的子目标音频段的时长信息与该第四待修改文本对应的在待修改视频中的子视频段的时长相同。

在另一种实现方式中，电子设备若判断所对应调小后的当前语速信息小于预设语速信息范围的下限值，则可以提示审核人员调整该第四待修改文本对应的在待修改视频中的子视频段，例如删除该第四待修改文本对应的在待修改视频中的子视频段的部分视频帧，以使得基于该第四待修改文本所对应目标文本的字数以及所调整到的当前语速信息，所确定的该第四待修改文本所对应新的子目标音频段的时长信息，与该第四待修改文本对应的在待修改视频中的子视频段的时长相同。

在本发明的另一实施例中，所述06325，包括：

判断所对应调大后的当前语速信息是否大于预设语速信息范围的上限值；

若判断所对应调小后的当前语速信息不大于预设语速信息范围的上限值，基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息。

在另一种实现方式中，电子设备若判断所对应调大后的当前语速信息大于预设语速信息范围的下限值，则可以提示审核人员调整该第四待修改文本所对应目标文本的字数，以使得基于该第四待修改文本所对应修改后的目标文本的字数以及所调整到的当前语速信息，所确定的该待修改文本所对应新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，即使得该第四待修改文本所对应新的子目标音频段的时长信息与该第四待修改文本对应的在待修改视频中的子视频段的时长相同。

在另一种实现方式中，电子设备若判断所对应调大后的当前语速信息大于预设语速信息范围的下限值，则可以提示审核人员调整该第四待修改文本对应的在待修改视频中的子视频段，例如在该第四待修改文本对应的在待修改视频中的子视频段中，添加部分视频帧，以使得基于该第四待修改文本所对应目标文本以及所调整到的当前语速信息，所确定的该第四待修改文本所对应新的子目标音频段的时长信息，与该第四待修改文本对应的在待修改视频中的子视频段的时长相同。

除了上述通过调整第四待修改文本对应的目标文本的字数和/或调整合成第四待修改文本对应的目标文本对应的音频所需的当前语速信息的方式，实现对第四待修改文本对应的目标文本对应的子目标音频段的时长信息的调整，以使得第四修改文本对应的目标文本对应的子目标音频段的时长信息与第四修改文本对应的子初始音频段的时长信息相同，即使得第四修改文本对应的目标文本对应的子目标音频段的时长信息与第四修改文本对应的子视频段的时长信息相同，还可以通过调整第四待修改文本对应的子视频段的时长信息，即对第四待修改文本对应的子视频段中的视频帧的添加或删除，以使得第四修改文本对应的目标文本对应的子目标音频段的时长信息与第四修改文本对应的子视频段的时长信息相同。

第四种实现方式：

06326：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，删除第三中间视频中，该第四待修改文本所对应子视频段中的部分视频帧，使得删除部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同。

本实现方式中，电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，可以提示审核人员通过删除第三中间视频中，该第四待修改文本所对应子视频段中的部分视频帧的方式，来缩短该第四待修改文本所对应子视频段的时长信息。相应的，审核人员可以基于该第四待修改文本所对应子视频段的内容确定删除其中的哪些视频帧，以及删除多少视频帧，使得该第四待修改文本所对应子视频段的时长信息与该待修改文本对应的子目标音频段的时长信息相同，且不影响视频观看者的观看体验。电子设备获得审核人员针对该第四待修改文本所对应子视频段的视频帧的删除指令，并删除待修改视频中，该第四待修改文本所对应子视频段中的部分视频帧。

或者，电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，直接基于该第四待修改文本对应的子目标音频段的时长信息，以及第四待修改文本所对应子视频段的时长信息以及第四待修改文本所对应子视频段的视频帧的帧数，确定出需要从第四待修改文本所对应子视频段中删除的视频帧的帧数，作为删除帧数，使得删除相应的删除帧数帧视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本对应的子目标音频段的时长信息相同，进而随机从第四待修改文本所对应子视频段中删除的该删除帧数帧视频帧。这都是可以的。

第五种实现方式：

06327：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，在第三中间视频中该第四待修改文本所对应子视频段中，添加部分视频帧，使得添加部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同。

本实现方式中，电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，可以提示审核人员通过在第三中间视频的该第四待修改文本所对应子视频段中，添加部分视频帧的方式，来增长该第四待修改文本所对应子视频段的时长信息。相应的，审核人员可以基于该第四待修改文本所对应子视频段的内容确定在哪里添加视频帧，以及添加多少视频帧，使得该第四待修改文本所对应子视频段的时长信息与该第四待修改文本对应的子目标音频段的时长信息相同，且不影响视频观看者的观看体验。电子设备获得审核人员针对该第四待修改文本所对应子视频段的视频帧的添加指令，并在第四待修改视频的该待修改文本所对应子视频段中，添加部分视频帧。

或者，电子设备在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，直接基于该第四待修改文本对应的子目标音频段的时长信息，以及第四待修改文本所对应子视频段的时长信息以及第四待修改文本所对应子视频段的视频帧的帧数，确定出需要在第四待修改文本所对应子视频段中，添加的视频帧的帧数，作为添加帧数，使得添加相应的添加帧数帧视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本对应的子目标音频段的时长信息相同；进而电子设备随机在第四待修改文本所对应子视频段中，添加该添加帧数帧视频帧。这都是可以的。

上述所提到的添加的视频帧可以是该第三中间视频的该第四待修改文本所对应子视频段中的视频帧，例如，可以是添加视频帧位置处的前N帧内的任一帧，和/或添加视频帧位置处的后M帧内的任一帧，这都是可以的。该N和M均为正整数，可以根据审核人员的需求进行设置。

064：基于第四待修改文本所对应最终信息、第三待修改文本对应的目标文本以及初始文本中除待修改文本外的其他初始文本，确定待修改视频对应的包括修改后的音频的目标视频；

第四待修改文本所对应最终信息包括：第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段。

可以理解的是，若第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同，则需要对第四待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该第四待修改文本所对应子视频段进行修改，相应的，第四待修改文本对应的最终信息包括：所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息，以及待修改视频中该第四待修改文本所对应未修改或修改后的子视频段。若第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，则不需要对第四待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该第四待修改文本所对应子视频段进行修改；则可以直接基于第四待修改文本所对应目标文本以及所对应当前语速信息，确定音频并且替换待修改视频中相应位置的音频，相应的，第四待修改文本对应的最终信息包括所对应未修改的目标文本以及所对应未修改的当前语速信息。

一种实现方式中，若对该第四待修改文本所对应目标文本进行修改后，则电子设备可以基于第四待修改文本所对应修改后的目标文本以及所对应当前语速信息，确定第四待修改文本对应的新的子目标音频段；并基于第四待修改文本对应的在第三中间视频中的时间段信息，从第三中间视频中确定该第四待修改文本对应的子视频段所在位置，并基于所确定的该待修改文本对应的子视频段所在位置，将第三中间视频中该第四待修改文本对应的子视频段中的子初始音频段，替换为该第四待修改文本对应的新的子目标音频段。

若对该第四待修改文本所对应当前语速信息进行修改后，则电子设备可以基于第四待修改文本所对应目标文本以及所对应调整所得的当前语速信息，确定该第四待修改文本对应的新的子目标音频段；并基于第四待修改文本对应的在第三中间视频的时间段信息，将第三中间视频中该第四待修改文本对应的子视频段中的子初始音频段，替换为该第四待修改文本对应的新的子目标音频段。

若对该第四待修改文本所对应子视频段进行修改后，则电子设备可以基于该第四待修改文本对应的在第三中间视频中的时间段信息，将添加或删除部分视频帧的第三中间视频中该第四待修改文本对应的子视频段的子初始音频段，替换为该第四待修改文本对应的子目标音频段。

可以理解的是，为了保证视频观看者的观看体验，各第四待修改文本对应的语速信息越接近越好。

另一种实现方式中，在确定未对各第四待修改文本所对应的当前语速信息进行修改，即各初始文件所对应的当前语速信息均相同的情况下，电子设备可以采用相关技术中任一类型的语音合成算法，依次基于各初始文本在第三中间视频中对应的时间段信息，各初始文本对应的最终文本，以及当前语速信息，合成新的音频；利用所合成的新的音频，替换第三中间视频中的初始音频，或替换删除和/或添加部分视频帧的第三中间视频中的初始音频。

在确定对第四待修改文本中的某些文本所对应的当前语速信息进行修改的情况下，电子设备可以采用相关技术中任一类型的语音合成算法，依次基于各初始文本对应的在第三中间视频中的时间段信息，各初始文本对应的最终文本，以及各最终文本对应的语速信息，合成新的音频；利用所合成的新的音频，替换第三中间视频中的初始音频，或替换删除和/或添加部分视频帧的待修改视频中的初始音频。

在本发明的另一实施例中，所述方法还包括：

06328：在调整该第四待修改文本所对应目标文本的字数，无法使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，并且在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息的情况下，删除第三中间视频中，该第四待修改文本所对应子视频段中的部分视频帧，使得删除部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应新的子目标音频段的时长信息相同；

0328：在调整该第四待修改文本所对应目标文本的字数，无法使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，并且在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息的情况下，在所述第三中间视频中该第四待修改文本所对应子视频段中，添加部分视频帧，使得添加部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应新的子目标音频段的时长信息相同。

本实现方式中，电子设备在确定调整该第四待修改文本所对应目标文本的字数后，无法使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同，即无法与该第四待修改文本对应的子视频段的时长信息相同的情况下，电子设备可以通过调整该第四待修改文本对应的子视频段中的视频帧的帧数的方式，实现对该第四待修改文本对应的子视频段的时长信息的调整，使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息，与调整后的该第四待修改文本对应的子视频段的时长信息相同。

相应的，在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息的情况下，可以删除第三中间视频中该第四待修改文本所对应子视频段中的部分视频帧，使得删除部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应新的子目标音频段的时长信息相同。

在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息的情况下，在第三中间视频中该第四待修改文本所对应子视频段中，添加部分视频帧，使得添加部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应新的子目标音频段的时长信息相同。

在另一种实现方式中，电子设备在确定调整该第四待修改文本所对应目标文本的字数后，无法使得基于该第四待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同的情况下，电子设备可以继续调整合成该第四待修改文本所对应修改后的目标文本对应的新的子目标音频段所需的当前语速信息，以使得基于该第四待修改文本所对应修改后的目标文本以及调整后的当前语速信息确定的新的子目标音频段的时长信息，与该第四待修改文本对应的子初始音频段的时长信息相同，即与该第四待修改文本对应的子视频段的时长信息相同。

相应于上述方法实施例，本发明实施例提供了一种音视频的修正装置，如图3所示，所述装置包括：提取模块310，被配置为从待修改视频中，提取出其中的初始音频；

第一确定模块320，被配置为基于所述初始音频，确定所述初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；

第二确定模块330，被配置为基于所述初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，所述待修改文本为：存在待修改内容的初始文本；

获得模块340，被配置为获得第一子视频段，所述第一子视频段为：修改所述待修改视频所需的视频段；

第三确定模块350，被配置为基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

在本发明的另一种实施例中，所述第二确定模块330，被具体配置为针对每一初始文本，执行以下步骤，以确定出待修改文本对应的修改后的目标文本；

展示该初始文本以及所述待修改视频正该初始文本对应的子视频段，以便审核人员审核该初始文本中是否存在需要修改的文本内容；

获得针对该作为待修改文本的初始文本的创建新文本指令，获得所述审核人员基于该初始文本中需要修改的文本内容，输入该创建新文本指令对应的空文本的文本内容，以得到该待修改文本对应的修改后的目标文本。

在本发明的另一种实施例中，所述第二确定模块330，被具体配置为遍历每一初始文本，确定该初始文本中是否存在满足预设修改条件的文本内容；

在确定初始文本中存在满足预设修改条件的文本内容的情况下，基于该预设修改条件对应的第一修改方式，修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容，确定出该待修改文本对应的修改后的目标文本，其中，所述预设修改条件为：在指定位置存在预设语气词，存在预设过期内容和/或存在预设需隐藏内容；若该待修改文本中的指定位置存在预设语气词，所述第一修改方式为：删除该指定位置存在的预设语气词；若该待修改文本中存在预设过期内容，所述第一修改方式为：将所述预设过期内容替换为该预设过期内容对应的指定内容；若该待修改文本中存在预设需隐藏内容，所述第一修改方式为：删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容。

在本发明的另一种实施例中，所述第一确定模块320，被具体配置为基于所述初始音频对应的时间轴信息以及所述初始音频对应的音频情况，对所述初始音频进行划分，得到多个子初始音频段；利用语音识别技术，对每一子初始音频段进行语音识别，确定所述初始音频对应的初始文本。

在本发明的另一种实施例中，所述第三确定模块350，被具体配置为从所述待修改视频中，确定出所述第一子视频段对应的所需替换的子视频段，作为待替换子视频段；

将所述待替换子视频段及其中包含的音频段，替换为所述第一子视频段及其中包含的音频段，得到第一中间视频；

针对每一第一待修改文本，基于该第一待修改文本对应的子初始音频段的时长信息，和所述第一待修改文本所对应目标文本的字数，对该第一待修改文本所对应目标文本、所对应当前语速信息和/或所述第一中间视频中该第一待修改文本所对应子视频段进行修改，以确定所述待修改视频对应的包括修改后的音频的目标视频，所述第一待修改文本为：所述待修改文本中，除所述待替换子视频段对应的待修改文本外的其他待修改文本。

在本发明的另一种实施例中，所述装置还包括：

第四确定模块(图中未示出)，被配置为在所述基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频之前，确定所述第一子视频段对应的第一文本，其中，所述第一文本为所对应第一子视频段对应的音频所对应文本；

所述第三确定模块250，被具体配置为基于所述第一子视频段及其对应的第一文本，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

在本发明的另一种实施例中，所述第一文本为录制所述第一子视频段时的录制音频对应的文本；

所述第三确定模块350，被具体配置为从所述待修改文本中，确定出所述第一子视频段对应的待修改文本，作为待替换文本；将所述待替换文本，替换为所对应第一子视频段对应的第一文本；从所述待修改视频中确定出待替换文本对应的子视频段；将所述待修改视频中待替换文本对应的子视频段，替换为所述待替换文本对应的所述第一子视频段，得到第二中间视频；

针对每一第二待修改文本，基于该第二待修改文本对应的子初始音频段的时长信息，和所述第二待修改文本所对应目标文本的字数，对该第二待修改文本所对应目标文本、所对应当前语速信息和/或所述第二中间视频中该第二待修改文本所对应子视频段进行修改，以确定所述待修改视频对应的包括修改后的音频的目标视频，所述第二待修改文本为：所述待修改文本中，除所述待替换文本外的待修改文本。

在本发明的另一种实施例中，所述第一文本为所述待修改文本中第三待修改文本对应的目标文本；所述第三待修改文本为：所述待修改视频中所述第一子视频段对应的所需替换的子视频段所对应待修改文本；

所述第三确定模块350，包括：第一确定单元(图中未示出)，被配置为基于每一第三待修改文本对应的时间段信息，从所述待修改视频中确定出每一第三待修改文本对应的子视频段，其中，所述时间段信息包括：所对应第三待修改文本对应的子初始音频段在所述待修改视频中对应的起始时间信息和结束时间信息；

替换单元(图中未示出)，被配置为将所述待修改视频中每一第三待修改文本所对应子视频段，替换为每一第三待修改文本对应的第一子视频段，得到第三中间视频；

修改得到单元(图中未示出)，被配置为针对每一第四待修改文本，基于该第四待修改文本对应的子初始音频段的时长信息，以及该第四待修改文本所对应目标文本，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或所述第三中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段，其中，所述第四待修改文本为所述待修改文本中除所述第三待修改文本外的修改文本；

第二确定单元(图中未示出)，被配置为基于第四待修改文本所对应最终信息、所述第三待修改文本对应的目标文本以及所述初始文本中除待修改文本外的其他初始文本，确定所述待修改视频对应的包括修改后的音频的目标视频；所述第四待修改文本所对应最终信息包括：第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段。

在本发明的另一种实施例中，所述修改得到单元，被具体配置为针对每一第四待修改文本，基于该第四待修改文本所对应目标文本的字数以及当前语速信息，确定该第四待修改文本对应的子目标音频段的时长信息；

在第四待修改文本对应的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息不相同的情况下，基于以下五种实现方式中的任一种实现方式，对该第四待修改文本所对应目标文本、所对应当前语速信息和/或所述中间视频中该第四待修改文本所对应子视频段进行修改，得到该第四待修改文本所对应未修改或修改后的目标文本、所对应未修改或修改后的当前语速信息，以及第三中间视频中该第四待修改文本所对应未修改或修改后的子视频段；

第一种实现方式：调整该第四待修改文本所对应目标文本的字数，得到该第四待修改文本所对应修改后的目标文本，使得基于该第四待修改文本所对应调整字数后的目标文本以及当前语速信息确定的新的子目标音频段的时长信息与该第四待修改文本对应的子初始音频段的时长信息相同；

第二种实现方式：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，调小所对应当前语速信息；

基于该第四待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的新的子目标音频段的时长信息，返回调小所对应当前语速信息；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同；

第三种实现方式：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，调大所对应当前语速信息；

基于该第四待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息，确定该第四待修改文本对应的新的子目标音频段的时长信息；若该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的新的子目标音频段的时长信息，返回调大所对应当前语速信息；直至所确定的该第四待修改文本对应的子初始音频段的时长信息，与该第四待修改文本对应的新的子目标音频段的时长信息相同；

第四种实现方式：在确定该第四待修改文本对应的子初始音频段的时长信息，大于该第四待修改文本对应的子目标音频段的时长信息的情况下，删除所述第三中间视频中，该第四待修改文本所对应子视频段中的部分视频帧，使得删除部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同；

第五种实现方式：在确定该第四待修改文本对应的子初始音频段的时长信息，小于该第四待修改文本对应的子目标音频段的时长信息的情况下，在所述第三中间视频中该第四待修改文本所对应子视频段中，添加部分视频帧，使得添加部分视频帧后的该第四待修改文本所对应子视频段的时长信息与该第四待修改文本所对应子目标音频段的时长信息相同。

相应于上述方法实施例，本发明实施例提供了一种计算机可读存储介质，其示例性的结构示意图如图4所示。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述方法实施例中描述的根据本发明各种示例性实施方式的远程控制方法中的步骤，例如，所述计算设备可以执行如图2中所示的操作S201，从待修改视频中，提取出其中的初始音频；操作S202，基于所述初始音频，确定所述初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；操作S203，基于所述初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，所述待修改文本为：存在待修改内容的初始文本；操作S204，获得第一子视频段，所述第一子视频段为：修改所述待修改视频所需的视频段；操作S205，基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图4所示，描述了根据本发明实施例的用于远程控制的程序产品40，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

相应于上述方法实施例，本发明实施例提供了一种计算设备，其示例性的结构示意图如图5所示。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元即处理器、以及至少一个存储单元即存储装置。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的远程控制方法中的步骤。例如，所述处理单元可以执行如图2中所示的操作S201，从待修改视频中，提取出其中的初始音频；操作S202，基于所述初始音频，确定所述初始音频对应的初始文本，其中，每一初始文本对应所述初始音频的一子初始音频段；操作S203，基于所述初始文本以及预设修改规则，确定待修改文本对应的修改后的目标文本，其中，所述待修改文本为：存在待修改内容的初始文本；操作S204，获得第一子视频段，所述第一子视频段为：修改所述待修改视频所需的视频段；操作S205，基于所述第一子视频段，以及所述待修改文本对应的子初始音频段和所述待修改文本所对应目标文本，确定所述待修改视频对应的包括修改后的音频的目标视频。

下面参照图5来描述根据本发明的这种实施方式的用于数据查询的计算设备50。如图5所示的计算设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于：上述至少一个处理单元501、上述至少一个存储单元502、连接不同系统组件(包括存储单元502和处理单元501)的总线503。

总线503表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元502可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器5022，还可以进一步包括只读存储器(ROM)5023。

存储单元502还可以包括具有一组(至少一个)程序模块5024的程序/实用工具5025，这样的程序模块5024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备50也可以与一个或多个外部设备504(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与计算设备50交互的设备通信，和/或与使得计算设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口505进行。并且，计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器506通过总线503与计算设备50的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

上述方法、计算机可读存储介质以及计算设备实施例与系统实施例相对应，与该系统实施例具有同样的技术效果，具体说明参见系统实施例。方法实施例是基于系统实施例得到的，具体的说明可以参见系统实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种音视频的修正方法，其特征在于，所述方法包括：

S1：从待修改视频中，提取出其中的初始音频；

2.如权利要求1所述的方法，其特征在于，所述S3，包括：

3.如权利要求1所述的方法，其特征在于，所述S5，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，在所述S5之前，所述方法还包括：

所述S5，包括：

5.如权利要求4所述的方法，其特征在于，所述第一文本为录制所述第一子视频段时的录制音频对应的文本；

所述S54，包括：

6.如权利要求5所述的方法，其特征在于，所述第一文本为所述待修改文本中第三待修改文本对应的目标文本；所述第三待修改文本为：所述待修改视频中所述第一子视频段对应的所需替换的子视频段所对应待修改文本；

所述S54，包括：

7.如权利要求6所述的方法，其特征在于，所述S548，包括：

第一种实现方式：

第二种实现方式：

第三种实现方式：

第四种实现方式：

第五种实现方式：

8.一种音视频的修正装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1-7中任一项所述的音视频的修正方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1-7中任一项所述的音视频的修正方法。