CN111885313A - 一种音视频的修正方法、装置、介质及计算设备 - Google Patents
一种音视频的修正方法、装置、介质及计算设备 Download PDFInfo
- Publication number
- CN111885313A CN111885313A CN202010695557.7A CN202010695557A CN111885313A CN 111885313 A CN111885313 A CN 111885313A CN 202010695557 A CN202010695557 A CN 202010695557A CN 111885313 A CN111885313 A CN 111885313A
- Authority
- CN
- China
- Prior art keywords
- text
- modified
- sub
- video
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012937 correction Methods 0.000 title description 19
- 230000004048 modification Effects 0.000 claims abstract description 88
- 238000012986 modification Methods 0.000 claims abstract description 88
- 238000012550 audit Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例公开一种音视频的修正方法、装置、介质及计算设备,该方法包括:从待修改视频中,提取出其中的初始音频;基于初始音频,确定初始音频对应的初始文本,其中,每一初始文本对应初始音频的一子初始音频段;基于初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,待修改文本为:存在待修改内容的初始文本;针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段进行修改,以确定待修改视频对应的包括修改后的音频的目标视频,以实现对音视频的修正。
Description
技术领域
本发明涉及视频处理技术领域,具体而言,涉及一种音视频的修正方法、装置、介质及计算设备。
背景技术
随着网络技术的发展,人们越来越喜欢录制视频,以通过视频来介绍或传递一些信息,例如:为了宣传企业和/或宣传企业产品,企业人员会录制关于介绍企业文化现状以及发展等信息的宣传视频,和/或录制关于介绍企业产品的功能等相关信息的宣传视频。
在视频录制过程中,难免出现所表达内容不够准确或者表达过程中出现多余语气词等问题,如果再重新录制视频,在一定程度上增加了视频录制人员的负担。
那么,如何提供一种对视频进行修正的方法成为亟待解决的问题。
发明内容
本发明提供了一种音视频的修正方法、装置、介质及计算设备,以实现对音视频的修正。具体的技术方案如下:
第一方面,本发明实施例提供了一种音视频的修正方法,所述方法包括:
S1:从待修改视频中,提取出其中的初始音频;
S2:基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;
S3:基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;
S4:针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
可选的,所述S3,包括:
S31:针对每一初始文本,执行以下步骤,以确定出待修改文本对应的修改后的目标文本;
S311:展示该初始文本和/或所述待修改视频正该初始文本对应的子视频段,以便审核人员审核该初始文本中是否存在需要修改的文本内容;
S312:在获得针对作为待修改文本的初始文本的创建新文本指令的情况下,对应该待修改文本创建新文本;
S313:获得所述审核人员基于该初始文本中需要修改的文本内容,输入的该待修改文本所对应新文本的文本内容,以得到该待修改文本对应的修改后的目标文本。
可选的,所述S3,包括:
S32:遍历每一初始文本,确定该初始文本中是否存在满足预设修改条件的文本内容;
S33:在确定初始文本中存在满足预设修改条件的文本内容的情况下,基于该预设修改条件对应的第一修改方式,修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容,确定出该待修改文本对应的修改后的目标文本,其中,所述预设修改条件为:在指定位置存在预设语气词,存在预设过期内容和/或存在预设需隐藏内容;若该待修改文本中的指定位置存在预设语气词,所述第一修改方式为:创建得到包含删除所对应待修改文本的指定位置存在的预设语气词的文本内容的目标文本;若该待修改文本中存在预设过期内容,所述第一修改方式为:创建得到包含所对应待修改文本的将所述预设过期内容替换为该预设过期内容所对应指定内容的文本内容的目标文本;若该待修改文本中存在预设需隐藏内容,所述第一修改方式为:创建得到所对应待修改文本的删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容的文本内容的目标文本。
可选的,所述S2,包括:
S21:基于所述初始音频对应的时间轴信息以及所述初始音频的音频情况,对所述初始音频进行划分,得到多个子初始音频段;
S22:利用语音识别技术,对每一子初始音频段进行语音识别,确定所述初始音频对应的初始文本。
可选的,所述S4,包括:
S41:针对每一待修改文本,基于该待修改文本对应的子初始音频段的时长信息,以及该待修改文本所对应目标文本,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
可选的,所述S41,包括:
S411:针对每一待修改文本,基于该待修改文本所对应目标文本的字数以及所对应当前语速信息,确定该待修改文本对应的子目标音频段的时长信息;
S412:在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,基于以下五种实现方式中的任一种实现方式,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,得到该待修改文本所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
S413:基于待修改文本所对应最终信息以及所述初始文本中除待修改文本外的其他初始文本,确定所述待修改视频对应的包括修改后的音频的目标视频,其中,所述待修改文本所对应最终信息包括:所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
第一种实现方式:
S4121:调整该待修改文本所对应目标文本的字数,得到该待修改文本所对应修改后的目标文本,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同;
第二种实现方式:
S4122:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,调小所对应当前语速信息;
S4123:基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息,返回步骤S4122;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第三种实现方式:
S4124:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,调大所对应当前语速信息;
S4125:基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息,返回步骤S4124;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第四种实现方式:
S4126:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同;
第五种实现方式:
S4127:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同。
可选的,所述方法还包括:
S4128:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同;
S4129:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。
可选的,所述S4122,包括:
判断所对应调小后的当前语速信息是否小于预设语速信息范围的下限值;
若判断所对应调小后的当前语速信息不小于预设语速信息范围的下限值,基于该待修改文本所对应目标文本以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段。
可选的,所述S4124,包括:
判断所对应调大后的当前语速信息是否大于预设语速信息范围的上限值;
若判断所对应调小后的当前语速信息不大于预设语速信息范围的上限值,基于该待修改文本所对应目标文本以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段。
第二方面,本发明实施例提供了一种音视频的修正装置,所述装置包括:
提取模块,被配置为从待修改视频中,提取出其中的初始音频;
第一确定模块,被配置为基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;
第二确定模块,被配置为基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;
修改确定模块,被配置为针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现本发明实施例所示的音视频的修正方法。
第四方面,本发明实施例提供了一种计算设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明实施例所示的音视频的修正方法。
由上述内容可知,本发明实施例提供的一种音视频的修正方法、装置、介质及计算设备。方法包括:S1:从待修改视频中,提取出其中的初始音频;S2:基于初始音频,确定初始音频对应的初始文本,其中,每一初始文本对应初始音频的一子初始音频段;S3:基于初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,待修改文本为:存在待修改内容的初始文本;S4:针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段进行修改,以确定待修改视频对应的包括修改后的音频的目标视频。
应用本发明实施例,基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改,得到修改后的目标文本,进而针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以得到相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段,以便于该待修改文本对应的音视频段的融合,确定出待修改视频对应的包括修改后的音频的目标视频,实现对音视频的修正,避免待修改视频的重新录制,在一定程度上节省人力以及资源成本。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
本发明实施例的创新点包括:
1、基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改,得到修改后的目标文本,进而针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以得到相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段,以便于该待修改文本对应的音视频段的融合,确定出待修改视频对应的包括修改后的音频的目标视频,实现对音视频的修正,避免待修改视频的重新录制,在一定程度上节省人力以及资源成本。
2、提供人机交互功能,通过人工审核,实现对初始文本中需要修改的待修改文本的审核和修改,在一定程度上提供所需修改的待修改文本的准确确定以及修改结果的准确性。
3、基于预设修改条件,自动从初始文本中识别包含存在满足预设修改条件的文本内容的待修改文本,并基于不同预设修改条件对应的不同第一修改方式,修改该作为待修改文本的初始文本中所存在的满足相应的预设修改条件的文本内容,确定出该待修改文本对应的修改后的目标文本,在一定程度上降低人力成本,实现修改文本的自动化。
4、考虑到音频与视频的对应关系,在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,通过调整待修改文本所对应目标文本的字数和/或语速信息,来实现对待修改文本所对应目标文本对应的音频段的时长信息的调整,和/或通过删除或添加待修改文本所对应子视频段的视频帧,来实现对待修改文本所对应子视频段的时长信息的调整,以使得待修改文本对应的音频段和视频段达到匹配,即时长信息相同,进而确定出待修改视频对应的包括修改后的音频的目标视频,实现对待修改视频的修改。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为初始文本的一种展示示意图;
图1B为视频播放界面的一种示意图;
图2为本发明实施例提供的音视频的修正方法的一种流程示意图;
图3为本发明实施例提供的音视频的修正装置的一种结构示意图;
图4为本发明实施例提供的计算机可读存储介质的一种结构示意图;
图5为本发明实施例提供的计算设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本发明提供了一种音视频的修正方法、装置、介质及计算设备,以实现对音视频的修正。下面对本发明实施例进行详细说明。
本发明实施例的描述中,术语“待修改视频”指需要修改其中所包含音频的视频,可以为任一类型的视频。
本发明实施例的描述中,术语“初始音频”指从待修改视频中提取出的音频,其可以为基于相关技术中任一种音频提取算法,从待修改视频中提取出的音频。
本发明实施例的描述中,术语“子初始音频段”指对初始音频进行划分,所得到的音频段,作为子初始音频段。其中,可以是基于初始音频对应的时间轴信息,依次识别初始音频的音频情况,确定出表征初始音频中音频振幅较小的位置处,在此位置处划分初始音频,得到多个子初始音频段。
本发明实施例的描述中,术语“初始文本”指存储有由所对应子初始音频段转化所得的文字的文本。
本发明实施例的描述中,术语“目标文本”指包含所对应待修改文本中已被修改之后的文本内容的文本,与待修改文本一一对应。
本发明实施例的描述中,术语“子视频段”指待修改视频中的视频段,每一子视频段对应的在待修改视频中的时间段信息,与初始文本对应的子初始音频段所对应在待修改视频中的时间段信息相同,其中,在待修改视频中的时间段信息包括在待修改视频中的起始时间信息和结束时间信息。
本发明实施例的描述中,术语“预设修改规则”指针对初始文本中所包含的由所对应子初始音频段转化所得的文字内容所设置的修改规则,可以包括指示手动修改初始文本中的待修改文本的规则和/或指示自动修改初始文本中的待修改文本的规则。
下面通过具体实现方式,对本发明实施例所提供的音视频的修正流程进行介绍。
在视频中出现部分音频的内容不够合适,例如出现表达内容出现错误,或表达过程中出现多余语气词,会影响视频观看者的观看体验。若直接重新录制视频在一定程度上会增加资源的消耗,为了在一定程度上降低出现部分音频的内容不够合适的视频的制造成本,本发明实施例提供了一种音视频的修正方法,可以实现对视频中音频的修正。
具体的,电子设备通过审核人员选择或其他电子设备的指示,获得待修改视频,并从待修改视频中提取出音频,作为初始音频;利用初始音频对应的时间轴信息以及音频情况,从初始音频中确定出出现声音停顿的位置,进而从该出现声音停顿的位置处划分初始音频,得到多个子初始音频段;并利用语音识别技术,对每一子初始音频段进行语音识别,确定初始音频对应的初始文本。如图1A所示,为初始音频对应的初始文本的一种展示示意图,每一初始文本对应时间段信息,即初始文本在待修改视频中的起始时间信息和结束时间信息,分别如1A中所示的“起始时间”和“结束时间”。
基于初始文本以及预设修改规则,通过人工或自动修改的方式,从初始文本中确定出存在待修改内容的初始文本,作为待修改文本;并基于待修改文本的内容,进行人工或自动修改,确定出待修改文本对应的修改后的目标文本。例如:待修改文本中存在句中或句首出现多余语气词的情况,将其中出现的多余语气词删除,得到待修改文本对应的目标文本;又例如:待修改文本中出现过期内容,例如:视频录制时存在对目标1的介绍,现在需要介绍目标2,相应的,将待修改文本中包含的目标1的介绍的内容,修改为对目标2的介绍的内容,得到待修改文本对应的目标文本。如图1A所示,每一初始文本对应有相关的操作选项按钮,通过触发相应的操作选项按钮,可以进入对初始文本进行相应修改的界面,以实现对初始文本的修改。
后续的,考虑到视频和音频的对应关系,即视频中的片段需要与音频中的片段对齐,为了保证视频观看者的观看体验,针对每一待修改文本,基于该待修改文本对应的子初始音频段与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段进行修改。
例如:可以根据该待修改文本所对应子视频段的时长信息调整待修改文本所对应目标文本的字数和/或所对应语速信息,以使得基于待修改文本所对应未修改或修改后的目标文本,以及未修改或修改后的所对应语速信息,确定出时长信息与该待修改文本所对应子视频段的时长信息相同的子目标音频段;或者,可以根据待修改文本所对应目标文本的字数以及所对应语速信息确定出待修改文本所对应子目标音频段,并基于待修改文本所对应子目标音频段的时长信息,删除或增加该待修改文本所对应子视频段中的部分视频帧,以使得删除或增加该待修改文本所对应子视频段中的部分视频帧后的视频段的时长信息,与待修改文本所对应子目标音频段的时长信息相同。
进而,基于该待修改文本所对应未修改或修改后的目标文本,以及未修改或修改后的语速信息,确定得到待修改文本对应的子目标音频段;以使得后续的待修改文本所对应子目标音频段的时长信息,与待修改视频中该待修改文本所对应修改或未修改的子视频段的时长信息相同。
后续的,一种情况结合所有待修改文本所对应未修改或修改后的目标文本,和所对应未修改或修改后的语速信息,以及其他未修改的初始文本和语速信息,得到完整的修改后的音频,进而,将该修改后的音频导入该未修改或修改后的待修改视频,以可以融合得到待修改视频对应的目标视频,实现对待修改视频的修正。
一种情况中,电子设备可以播放该未修改或修改后的待修改视频,审核人员可以触发播放该未修改或修改后的待修改视频的播放界面的预定功能按钮,实现将利用修改修改后的音频导入该未修改或修改后的待修改视频,得到目标视频。如图1B所示,为播放该未修改或修改后的待修改视频的一种示例图,审核人员可以通过触发“音视频重组”按钮,将修改后的音频导入该未修改或修改后的待修改视频。
图2为本发明实施例提供的音视频的修正方法的一种流程示意图。所述方法可以包括如下步骤:
S201:从待修改视频中,提取出其中的初始音频。
本发明实施例所提供的音视频的修正方法可以应用于任一具有计算能力的电子设备中。实现该音视频的修正方法的功能软件可以以单独的客户端软件的形式存在,也可以以现有的客户端软件的插件的形式存在,这都是可以的。
电子设备可以首先获得待修改的视频,作为待修改视频。该待修改视频可以是审核人员选择确定的,也可以是其他电子设备发送至该电子设备的,这都是可以的。该待修改视频可以为任一类型的视频,该待修改视频中包括所对应的音频。
在一种实现方式中,获得待修改视频的电子设备可以展示有供审核人员选择所需修改的视频的界面。一种情况,该界面可以展示有各视频对应的缩略图,审核人员可以通过选中缩略图的方式,来确定待修改视频。另一种情况,该界面可以展示有供审核人员输入待修改视频的视频标识信息的区域,电子设备检测到该区域中输入的视频标识信息,基于该视频标识信息检索到该视频标识信息对应的视频,作为待修改视频。另一种情况,审核人员可以在审核浏览视频的过程,在确定视频的音频需要修改的情况下,可以触发指示修改视频中音频的指令,以将所浏览的视频确定为待修改视频,进而触发后续的音视频的修正流程。
电子设备确定待修改视频之后,从待修改视频中提取出其中的音频,作为初始音频,并记录初始音频与待修改视频之间的时间对应关系。
S202:基于初始音频,确定初始音频对应的初始文本。
其中,每一初始文本对应所述初始音频的一子初始音频段。
本步骤中,可以基于语音识别技术,识别初始音频,确定初始音频对应的初始文本,该初始文本中包括从初始音频中识别出的文字。在一种情况中,为了有助于音频、文本以及视频之间时间信息的对齐,例如初始音频中的音频段需要与待修改视频中的视频段对齐,本发明实施例中,可以预先将初始音频进行划分,进而针对划分所得的每一子初始音频段进行语义识别,得到每一子初始音频段对应的初始文本。
一种情况,电子设备得到初始音频对应的初始文本后,可以直接展示初始音频对应的各初始文本,如图1A所示,得到初始音频对应的初始文本之后,可以按照初始文本对应的时间段信息依次排序展示各初始文本,并展示初始文本对应的时间段信息,即其在待修改视频中的起始时间信息和结束时间信息。
具体的,在本发明的一种实现方式中,所述S202,可以包括如下步骤011-012:
011:基于初始音频对应的时间轴信息以及初始音频的音频情况,对初始音频进行划分,得到多个子初始音频段。
012:利用语音识别技术,对每一子初始音频段进行语音识别,确定初始音频对应的初始文本。
电子设备可以基于初始音频对应的时间轴信息,依次识别初始音频的音频情况,确定出表征初始音频中音频振幅较小的位置处,例如音频振幅小于预设振幅阈值,可以认为该位置处为音频的停顿处,即表征音频中的一句话已完成的位置,或即将开始另一句话的位置,在此位置处划分初始音频,以得到多个子初始音频段。理论上而言,每一子初始音频段可以包括一句话的内容。
得到多个子初始音频段后,利用语音识别技术,对每一子初始音频段进行语音识别,得到每一子初始音频段对应的包含该子初始音频段对应的文字的初始文本,确定出初始音频对应的初始文本。并且记录每一子初始音频段在待修改视频中的第一位置对应关系,每一子初始音频段对应的初始文本中的文字与待修改视频中的第二位置对应关系。该第一位置对应关系可以通过每一子初始音频段对应的时间段信息表示,例如:子初始音频段A对应在待修改视频中的时间段信息为:在待修改视频中的第5秒至第10秒,即子初始音频段A在待修改视频中的起始时间为第5秒,在待修改视频中的终止时间为第5秒。该第二位置对应关系可以通过每一子初始音频段对应的初始文本中的文字在待修改视频中的时间信息表示,例如:子初始音频段A对应的初始文本中的文字a在待修改视频中的时间为第6秒。
S203:基于初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本。
其中,待修改文本为:存在待修改内容的初始文本。
电子设备确定出初始文本之后,就有预设修改规则从初始文本中确定出存在待修改内容的初始文本,作为待修改文本,并针对每一待修改文本进行修改,得到包含待修改文本的修改后的文本内容的目标文本。
该预设修改规则包括指示手动修改待修改文本的规则,和/或指示自动修改待修改文本的规则。
在本发明的一种实现方式中,该预设修改规则包括指示手动修改待修改文本的规则,所述S203,可以包括如下步骤021:
021:针对每一初始文本,执行以下步骤,以确定出待修改文本对应的修改后的目标文本;
0211:展示该初始文本和/或待修改视频正该初始文本对应的子视频段,以便审核人员审核该初始文本中是否存在需要修改的文本内容;
0212:在获得针对作为待修改文本的初始文本的创建新文本指令的情况下,对应该待修改文本创建新文本;
0213:获得审核人员基于该初始文本中需要修改的文本内容,输入的该待修改文本所对应新文本的文本内容,以得到该待修改文本对应的修改后的目标文本。
其中,该需要修改的文本内容包括但不限于:文本中多余的语气词、口误所生成的内容、需要替换的内容以及需要隐藏的信息。其中,需要替换的内容可以包括审核已过期的内容。例如:待修改视频为公司A宣传片,录制公司A宣传片的时候公司地址为公司地址1,而当前公司的地址为公司地址2,相应的,可以认为公司A宣传片中的公司地址为审核已过期的内容。例如:待修改视频为产品推销宣传片,录制产品推销宣传片时需要向A公司介绍产品,现在需要向B公司介绍产品,相应的待修改视频中A公司为修改替换的信息。
本实现方式中,电子设备可以针对每一初始文本,向审核人员展示该初始文本,或者展示初始文本以及待修改视频中该初始文本对应的子视频段,以便审核人员审核该初始文本中是否存在需要修改的文本内容。
一种情况中,电子设备可以基于所展示初始文本对应的时间段信息,从待修改视频中确定出该初始文本对应的时间段信息对应的子视频段,并展示给审核人员;或者,另一种情况中,电子设备向审核人员展示初始文本及其对应的时间段信息,以使得审核人员可以基于初始文本对应的时间段信息,从待修改视频中找到该初始文本对应的子视频段,并展示给审核人员。其中,初始文本对应的时间段信息包括:该初始文本对应的子初始音频段在待修改视频中的起始时间信息和结束时间信息。
在审核人员审核该初始文本中存在需要修改的文本内容,针对该存在修改的文本内容的初始文本触发创建新文本指令;电子设备获得该创建新文本指令,将该初始文本作为待修改文本,并对应该待修改文本创建新文本;获得审核人员基于该初始文本中需要修改的文本内容,输入的该待修改文本所对应新文本的文本内容,以得到该待修改文本对应的修改后的目标文本。
一种情况中,该新文本包括与所对应待修改文本相同的文本内容,相应的,审核人员直接在该新文本中对其中的内容进行修改。另一种情况,该新文本为空文本,相应的,审核人员直接基于所对应待修改文本中的包括所需修改的文本内容的文本内容,确定修改后的文本内容,并将所确定的修改后的文本内容直接输入新文本中,这都是可以的。
在一种情况中,电子设备可以记录针对初始文本的审核记录,优先向审核人员展示未被审核过的初始文本,以在一定程度上降低审核人员的工作量。
通过审核人员的审核修改,得到准确性较高的待修改文本对应的目标文本。
在本发明的一种实现方式中,该预设修改规则包括指示自动修改待修改文本的规则,所述S203,可以包括如下步骤022-023:
022:遍历每一初始文本,确定该初始文本中是否存在满足预设修改条件的文本内容。
023:在确定初始文本中存在满足预设修改条件的文本内容的情况下,基于该预设修改条件对应的第一修改方式,修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容,确定出该待修改文本对应的修改后的目标文本。
其中,预设修改条件为:在指定位置存在预设语气词,存在预设过期内容和/或存在预设需隐藏内容;若该待修改文本中的指定位置存在预设语气词,第一修改方式为:创建得到包含删除所对应待修改文本的指定位置存在的预设语气词的文本内容的目标文本;若该待修改文本中存在预设过期内容,第一修改方式为:创建得到包含所对应待修改文本的将所述预设过期内容替换为该预设过期内容所对应指定内容的文本内容的目标文本;若该待修改文本中存在预设需隐藏内容,第一修改方式为:创建得到所对应待修改文本的删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容的文本内容的目标文本。
该指定位置为初始文本的句中和/或句首,即初始文本的文字非结尾位置。若确定初始文本的非结尾位置存在预设语气词,则可以认为该位置的预设语气词为多余的语气词。上述预设过期内容可以为预先针对该待修改视频所设置的需要修改的过期内容,该预设需隐藏内容可以为预先针对该待修改视频所设置的需要隐藏的内容。
电子设备确定出初始音频对应的初始文本之后,遍历每一初始文本,确定该初始文本中是否存在满足预设修改条件的文本内容,在确定初始文本中存在满足预设修改条件的文本内容的情况下,若确定初始文本中的指定位置存在预设语气词,则可以基于第一修改方式,创建该待修改文本对应的新文本,将所对应待修改文本中该指定位置存在的预设语气词删除后的文本内容,复制于该待修改文本对应的新文本,以得到待修改文本对应的目标文本;若确定初始文本中存在预设过期内容,则可以基于第一修改方式,创建该待修改文本对应的新文本,将所对应待修改文本中所存在的预设过期内容替换为该预设过期内容对应的指定内容后的文本内容,复制于该待修改文本对应的新文本,以得到待修改文本对应的目标文本;若确定初始文本中存在预设需隐藏内容,则可以基于第一修改方式,创建该待修改文本对应的新文本,将所对应待修改文本中所存在的预设需隐藏内容删除,或将该预设需隐藏内容替换为预设内容后的文本内容,复制于该待修改文本对应的新文本,以得到待修改文本对应的目标文本。
S204:针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段进行修改,以确定待修改视频对应的包括修改后的音频的目标视频。
本步骤中,考虑到音视频之间的对应关系,并且保证对该待修改视频在修改后的观看体验,电子设备可以针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,确定是否需要修改该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段,在确定需要修改该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段的情况下,基于待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段进行修改,以基于修改后的待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段,确定出待修改视频对应的包括修改后的音频的目标视频;在确定不需要修改该待修改文本所对应目标文本,和/或待修改视频中该待修改文本所对应子视频段的情况下,可以直接基于待修改文本所对应目标文本以及待修改视频中该待修改文本所对应子视频段,确定出待修改视频对应的包括修改后的音频的目标视频。
在本发明的一种实现方式中,S204,可以包括如下步骤:针对每一待修改文本,基于该待修改文本对应的子初始音频段的时长信息,以及该待修改文本所对应目标文本,对该待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改,以确定待修改视频对应的包括修改后的音频的目标视频。
本实现方式中,针对每一待修改文本,基于该待修改文本所对应目标文本的字数以及当前语速信息,确定该待修改文本所对应目标文本对应的子目标音频段的时长信息,进而,判断该待修改文本对应的子初始音频段的时长信息与该待修改文本所对应目标文本对应的子目标音频段的时长信息是否相同,若判断结果为相同,则可以确定无需对该待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改;若判断结果为不相同,则可以确定需要对该待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改。为了布局清楚,后续描述对该待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改的具体过程。
其中,本发明实施例中,判断该待修改文本对应的子初始音频段的时长信息与该待修改文本所对应目标文本对应的子目标音频段的时长信息相同,可以指判断该待修改文本对应的子初始音频段的时长信息与该待修改文本所对应目标文本对应的子目标音频段的时长信息之间的时间差值是否在预设允许误差范围内,在判断其两者之间的时间差值在预设允许误差范围内,则可以确定该待修改文本对应的子初始音频段的时长信息与该待修改文本所对应目标文本对应的子目标音频段的时长信息相同,若判断其两者之间的时间差值不在预设允许误差范围内,则可以确定该待修改文本对应的子初始音频段的时长信息与该待修改文本所对应目标文本对应的子目标音频段的时长信息不相同。
应用本发明实施例,基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改,得到修改后的目标文本,进而针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以得到相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段,以便于该待修改文本对应的音视频段的融合,确定出待修改视频对应的包括修改后的音频的目标视频,实现对音视频的修正,避免待修改视频的重新录制,在一定程度上节省人力以及资源成本。
在一种实现中,审核人员为了更快的实现对待修改视频中的音频的修改,可以直接将待修改视频中的字幕导出,并对所导出的字幕进行修改,进而基于修改后的字幕合成音频,将音频和修改后的字幕导入待修改视频中,以实现对待修改视频中的音频的快速修改。例如,可以是:触发播放待修改视频的播放界面中的“导出字幕”的功能按钮将待修改视频中的字幕导出;可以是触发播放待修改视频的播放界面中的“导如字幕”的功能按钮将待修改视频对应的通过修改后的字幕合成的音频和字幕导入。
在本发明的另一实施例中,所述S204,可以包括如下步骤031-033:
031:针对每一待修改文本,基于该待修改文本所对应目标文本的字数以及所对应当前语速信息,确定该待修改文本对应的子目标音频段的时长信息;
032:在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,基于以下五种实现方式中的任一种实现方式,对该待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改,得到该待修改文本所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段。
第一种实现方式:0321:调整该待修改文本所对应目标文本的字数,得到该待修改文本所对应修改后的目标文本,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同。
一种情况,电子设备可以自动判断待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息是否相同,在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,本实现方式中,电子设备可以展示用于指示审核人员调整文本字数的信息,相应的,审核人员可以基于待修改文本对应的子目标音频段的时长信息和待修改文本对应的目标文本的字数,以及该待修改文本对应的子初始音频段的时长信息和待修改文本的字数,确定如何调整待修改文本对应的目标文本,即对待修改文本对应的目标文本所包含的文字进行调整,即对待修改文本对应的目标文本的字数进行调整,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同。相应的,电子设备基于审核人员针对该待修改文本对应的目标文本的调整操作,调整该待修改文本所对应目标文本所包含的文字,即调整该待修改文本所对应目标文本的字数,得到该待修改文本所对应修改后的目标文本。以实现通过对该待修改文本所对应目标文本的字数的调整,来得到可用于替换的时长信息与该待修改文本对应的子初始音频段的时长信息相同的待修改文本对应的新的子目标音频段。
另一种情况,电子设备确定该待修改文本对应的子目标音频段及其时长信息之后,可以将待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息展示给审核人员,以供审核人员确定其两者是否相同;审核人员在确定其两者不相同的情况下,可以触发调整该待修改文本所对应目标文本的字数的调整操作,该调整操作可以携带用于指示修改该待修改文本所对应目标文本的文本内容的信息以及相应的修改结果信息,以实现对该待修改文本所对应目标文本的字数修改。相应的,电子设备基于该字数调整指令调整该待修改文本所对应目标文本的字数,以得到相应的待修改文本所对应修改后的目标文本,基于该修改后的目标文本以及当前语速信息确定的该待修改文本所对应新的子目标音频段的时长信息,与该待修改文本对应的子初始音频段的时长信息相同。
第二种实现方式:0322:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,调小所对应当前语速信息;
0323:基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息,返回步骤0322;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同。
本实现方式中,可以通过调整基于该待修改文本所对应目标文本合成音频时的语速信息,来实现对基于该待修改文本所对应目标文本所合成的音频的时长信息的调整。电子设备在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,可以调小该待修改文本所对应目标文本所对应的当前语速信息,得到调小后的当前语速信息,进而,基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;并判断该待修改文本对应的子初始音频段的时长信息与该待修改文本对应的新的子目标音频段的时长信息是否相同;若确定出该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息,则继续调小所对应当前语速信息;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同。
第三种实现方式:0324:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,调大所对应当前语速信息;
0325:基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息,返回步骤0324;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同。
本实现方式中,可以通过调整合成音频时的语速信息实现对基于该待修改文本所对应目标文本所合成的音频的时长信息的调整。电子设备在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,可以调大该待修改文本所对应目标文本所对应的当前语速信息,得到调大后的当前语速信息,基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;判断该待修改文本对应的子初始音频段的时长信息与该待修改文本对应的新的子目标音频段的时长信息是否相同;若确定出该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息,则继续调大所对应当前语速信息;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同。
考虑到待修改视频修改后的用户的观看体验,待修改视频中的音频的语速应适应人体听觉感受,相应的,电子设备本地或所连接的存储设备可以预先存储有预设语速信息范围,在本发明的一种实现方式中,所述0323,可以包括如下步骤:
判断所对应调小后的当前语速信息是否小于预设语速信息范围的下限值;
若判断所对应调小后的当前语速信息不小于预设语速信息范围的下限值,基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息。
在另一种实现方式中,电子设备若判断所对应调小后的当前语速信息小于预设语速信息范围的下限值,则可以提示审核人员调整该待修改文本所对应目标文本的字数,以使得基于该待修改文本所对应修改后的目标文本的字数以及所调整到的当前语速信息,所确定的该待修改文本所对应新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,即使得该待修改文本所对应新的子目标音频段的时长信息与该待修改文本对应的在待修改视频中的子视频段的时长相同。
在另一种实现方式中,电子设备若判断所对应调小后的当前语速信息小于预设语速信息范围的下限值,则可以提示审核人员调整该待修改文本对应的在待修改视频中的子视频段,例如删除该待修改文本对应的在待修改视频中的子视频段的部分视频帧,以使得基于该待修改文本所对应目标文本以及所调整到的当前语速信息,所确定的该待修改文本所对应新的子目标音频段的时长信息,与该待修改文本对应的在待修改视频中的子视频段的时长相同。
在本发明的另一实施例中,所述0325,包括:
判断所对应调大后的当前语速信息是否大于预设语速信息范围的上限值;
若判断所对应调小后的当前语速信息不大于预设语速信息范围的上限值,基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息。
在另一种实现方式中,电子设备若判断所对应调大后的当前语速信息大于预设语速信息范围的下限值,则可以提示审核人员调整该待修改文本所对应目标文本的字数,以使得基于该待修改文本所对应修改后的目标文本的字数以及所调整到的当前语速信息,所确定的该待修改文本所对应新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,即使得该待修改文本所对应新的子目标音频段的时长信息与该待修改文本对应的在待修改视频中的子视频段的时长相同。
在另一种实现方式中,电子设备若判断所对应调大后的当前语速信息大于预设语速信息范围的下限值,则可以提示审核人员调整该待修改文本对应的在待修改视频中的子视频段,例如在该待修改文本对应的在待修改视频中的子视频段中,添加部分视频帧,以使得基于该待修改文本所对应目标文本以及所调整到的当前语速信息,所确定的该待修改文本所对应新的子目标音频段的时长信息,与该待修改文本对应的在待修改视频中的子视频段的时长相同。
除了上述通过调整待修改文本对应的目标文本的字数和/或调整合成待修改文本对应的目标文本对应的音频所需的当前语速信息的方式,实现对待修改文本对应的目标文本对应的子目标音频段的时长信息的调整,以使得修改文本对应的目标文本对应的子目标音频段的时长信息与修改文本对应的子初始音频段的时长信息相同,即使得修改文本对应的目标文本对应的子目标音频段的时长信息与修改文本对应的子视频段的时长信息相同,还可以通过调整待修改文本对应的子视频段的时长信息,即对待修改文本对应的子视频段中的视频帧的添加或删除,以使得修改文本对应的目标文本对应的子目标音频段的时长信息与修改文本对应的子视频段的时长信息相同。
第四种实现方式:0326:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,删除待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同。
本实现方式中,电子设备在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,可以提示审核人员通过删除待修改视频中,该待修改文本所对应子视频段中的部分视频帧的方式,来缩短该待修改文本所对应子视频段的时长信息。相应的,审核人员可以基于该待修改文本所对应子视频段的内容确定删除其中的哪些视频帧,以及删除多少视频帧,使得该待修改文本所对应子视频段的时长信息与该待修改文本对应的子目标音频段的时长信息相同,且不影响视频观看者的观看体验。电子设备获得审核人员针对该待修改文本所对应子视频段的视频帧的删除指令,并删除待修改视频中,该待修改文本所对应子视频段中的部分视频帧。
或者,电子设备在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,直接基于该待修改文本对应的子目标音频段的时长信息,以及待修改文本所对应子视频段的时长信息以及待修改文本所对应子视频段的视频帧的帧数,确定出需要从待修改文本所对应子视频段中删除的视频帧的帧数,作为删除帧数,使得删除相应的删除帧数帧视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本对应的子目标音频段的时长信息相同,进而随机从待修改文本所对应子视频段中删除的该删除帧数帧视频帧。这都是可以的。
第五种实现方式:0327:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,在待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同。
本实现方式中,电子设备在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,可以提示审核人员通过在待修改视频的该待修改文本所对应子视频段中,添加部分视频帧的方式,来增长该待修改文本所对应子视频段的时长信息。相应的,审核人员可以基于该待修改文本所对应子视频段的内容确定在哪里添加视频帧,以及添加多少视频帧,使得该待修改文本所对应子视频段的时长信息与该待修改文本对应的子目标音频段的时长信息相同,且不影响视频观看者的观看体验。电子设备获得审核人员针对该待修改文本所对应子视频段的视频帧的添加指令,并在待修改视频的该待修改文本所对应子视频段中,添加部分视频帧。
或者,电子设备在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,直接基于该待修改文本对应的子目标音频段的时长信息,以及待修改文本所对应子视频段的时长信息以及待修改文本所对应子视频段的视频帧的帧数,确定出需要在待修改文本所对应子视频段中,添加的视频帧的帧数,作为添加帧数,使得添加相应的添加帧数帧视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本对应的子目标音频段的时长信息相同;进而电子设备随机在待修改文本所对应子视频段中,添加该添加帧数帧视频帧。这都是可以的。
上述所提到的添加的视频帧可以是该待修改视频的该待修改文本所对应子视频段中的视频帧,例如,可以是添加视频帧位置处的前N帧内的任一帧,和/或添加视频帧位置处的后M帧内的任一帧,这都是可以的。该N和M均为正整数,可以根据审核人员的需求进行设置。
033:基于待修改文本所对应最终信息以及初始文本中除待修改文本外的其他初始文本,确定待修改视频对应的包括修改后的音频的目标视频。其中,待修改文本所对应最终信息包括:所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段。
可以理解的是,若待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同,则需要对待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改,相应的,待修改文本对应的最终信息包括:所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段。若待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,则不需要对待修改文本所对应目标文本、所对应当前语速信息和/或待修改视频中该待修改文本所对应子视频段进行修改;则可以直接基于待修改文本所对应目标文本以及所对应当前语速信息,确定音频并且替换待修改视频中相应位置的音频,相应的,待修改文本对应的最终信息包括所对应未修改的目标文本以及所对应未修改的当前语速信息。
一种实现方式中,若对该待修改文本所对应目标文本进行修改后,则电子设备可以基于待修改文本所对应修改后的目标文本以及所对应当前语速信息,确定待修改文本对应的新的子目标音频段;并基于待修改文本对应的时间段信息,从待修改视频中确定该待修改文本对应的子视频段所在位置,并基于所确定的该待修改文本对应的子视频段所在位置,将待修改视频中该待修改文本对应的子视频段中的子初始音频段,替换为该待修改文本对应的新的子目标音频段。
若对该待修改文本所对应当前语速信息进行修改后,则电子设备可以基于待修改文本所对应目标文本以及所对应调整所得的当前语速信息,确定该待修改文本对应的新的子目标音频段;并基于待修改文本对应的时间段信息,将待修改视频中该待修改文本对应的子视频段中的子初始音频段,替换为该待修改文本对应的新的子目标音频段。
若对该待修改文本所对应子视频段进行修改后,则电子设备可以基于该待修改文本对应的时间段信息,将添加或删除部分视频帧的待修改视频中该待修改文本对应的子视频段的子初始音频段,替换为该待修改文本对应的子目标音频段。
可以理解的是,为了保证视频观看者的观看体验,各待修改文本对应的语速信息越接近越好。
另一种实现方式中,在确定未对各待修改文本所对应的当前语速信息进行修改,即各初始文件所对应的当前语速信息均相同的情况下,电子设备可以采用相关技术中任一类型的语音合成算法,依次基于各初始文本在待修改视频中对应的时间段信息,各初始文本对应的最终文本,以及当前语速信息,合成新的音频;利用所合成的新的音频,替换待修改视频中的初始音频,或替换删除和/或添加部分视频帧的待修改视频中的初始音频。
在确定对待修改文本中的某些文本所对应的当前语速信息进行修改的情况下,电子设备可以采用相关技术中任一类型的语音合成算法,依次基于各初始文本在待修改视频中对应的时间段信息,各初始文本对应的最终文本,以及各最终文本对应的语速信息,合成新的音频;利用所合成的新的音频,替换待修改视频中的初始音频,或替换删除和/或添加部分视频帧的待修改视频中的初始音频。
在本发明的另一实施例中,所述方法还包括:0328:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同;
0328:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。
本实现方式中,电子设备在确定调整该待修改文本所对应目标文本的字数后,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,即无法与该待修改文本对应的子视频段的时长信息相同的情况下,电子设备可以通过调整该待修改文本对应的子视频段中的视频帧的帧数的方式,实现对该待修改文本对应的子视频段的时长信息的调整,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息,与调整后的该待修改文本对应的子视频段的时长信息相同。
相应的,在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息的情况下,可以删除待修改视频中该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。具体方式可以参见上述删除待修改视频中该待修改文本所对应子视频段中的部分视频帧的方式,在此不再赘述。
在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息的情况下,在待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。具体方式可以参见上述在待修改视频中该待修改文本所对应子视频段中,添加部分视频帧的方式,在此不再赘述。
在另一种实现方式中,电子设备在确定调整该待修改文本所对应目标文本的字数后,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同的情况下,电子设备可以继续调整合成该待修改文本所对应修改后的目标文本对应的新的子目标音频段所需的当前语速信息,以使得基于该待修改文本所对应修改后的目标文本以及调整后的当前语速信息确定的新的子目标音频段的时长信息,与该待修改文本对应的子初始音频段的时长信息相同,即与该待修改文本对应的子视频段的时长信息相同。
相应于上述方法实施例,本发明实施例提供了一种音视频的修正装置,如图3所示,所述装置包括:提取模块310,被配置为从待修改视频中,提取出其中的初始音频;第一确定模块320,被配置为基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;第二确定模块330,被配置为基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;修改确定模块340,被配置为针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
应用本发明实施例,基于预设修改规则对从待修改视频中提取的初始音频所对应初始文本中的待修改文本进行修改,得到修改后的目标文本,进而针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以得到相互匹配的该待修改文本所对应目标文本和该待修改文本所对应子视频段,以便于该待修改文本对应的音视频段的融合,确定出待修改视频对应的包括修改后的音频的目标视频,实现对音视频的修正,避免待修改视频的重新录制,在一定程度上节省人力以及资源成本。
在本发明的另一种实施例中,第二确定模块330,被具体配置为针对每一初始文本,执行以下步骤,以确定出待修改文本对应的修改后的目标文本;展示该初始文本和/或所述待修改视频正该初始文本对应的子视频段,以便审核人员审核该初始文本中是否存在需要修改的文本内容;在获得针对作为待修改文本的初始文本的创建新文本指令的情况下,对应该待修改文本创建新文本;获得所述审核人员基于该初始文本中需要修改的文本内容,输入的该待修改文本所对应新文本的文本内容,以得到该待修改文本对应的修改后的目标文本。
在本发明的另一种实施例中,第二确定模块330,被具体配置为
遍历每一初始文本,确定该初始文本中是否存在满足预设修改条件的文本内容;
在确定初始文本中存在满足预设修改条件的文本内容的情况下,基于该预设修改条件对应的第一修改方式,修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容,确定出该待修改文本对应的修改后的目标文本,其中,所述预设修改条件为:在指定位置存在预设语气词,存在预设过期内容和/或存在预设需隐藏内容;若该待修改文本中的指定位置存在预设语气词,所述第一修改方式为:创建得到包含删除所对应待修改文本的指定位置存在的预设语气词的文本内容的目标文本;若该待修改文本中存在预设过期内容,所述第一修改方式为:创建得到包含所对应待修改文本的将所述预设过期内容替换为该预设过期内容所对应指定内容的文本内容的目标文本;若该待修改文本中存在预设需隐藏内容,所述第一修改方式为:创建得到所对应待修改文本的删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容的文本内容的目标文本。
在本发明的另一种实施例中,所述第一确定模块320,被具体配置基于所述初始音频对应的时间轴信息以及所述初始音频的音频情况,对所述初始音频进行划分,得到多个子初始音频段;利用语音识别技术,对每一子初始音频段进行语音识别,确定所述初始音频对应的初始文本。
在本发明的另一种实施例中,所述修改确定模块340,被具体配置为针对每一待修改文本,基于该待修改文本对应的子初始音频段的时长信息,以及该待修改文本所对应目标文本,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
在本发明的另一种实施例中,所述修改确定模块340,包括:第一确定单元(图中未示出),被配置为针对每一待修改文本,基于该待修改文本所对应目标文本的字数以及所对应当前语速信息,确定该待修改文本对应的子目标音频段的时长信息;
第二确定单元(图中未示出),被配置为在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,基于以下五种实现方式中的任一种实现方式,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,得到该待修改文本所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
第三确定单元(图中未示出),被配置为基于待修改文本所对应最终信息以及所述初始文本中除待修改文本外的其他初始文本,确定所述待修改视频对应的包括修改后的音频的目标视频,其中,所述待修改文本所对应最终信息包括:所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
第一种实现方式:所述第二确定单元,包括:第一调整子模块(图中未示出),被配置为调整该待修改文本所对应目标文本的字数,得到该待修改文本所对应修改后的目标文本,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同;
第二种实现方式:所述第二确定单元,包括:调小子模块(图中未示出),被配置为在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,调小所对应当前语速信息;第一确定子模块(图中未示出),被配置为基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息,触发调小子模块;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第三种实现方式:所述第二确定单元,包括:调大子模块(图中未示出),被配置为在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,调大所对应当前语速信息;
第二确定子模块(图中未示出),被配置为基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息,触发调大子模块;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第二替换子模块(图中未示出),被配置为直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同,基于该待修改文本对应的时间段信息,将所述待修改视频中该待修改文本对应的子视频段中的子初始音频段,替换为该待修改文本对应的新的子目标音频段;
第四种实现方式:所述第二确定单元,包括:第一删除子模块(图中未示出),被配置为在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同;
第五种实现方式:所述第二确定单元,包括:第一添加子模块(图中未示出),被配置为在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同。
在本发明的另一种实施例中,所述装置还包括:
第二删除子模块(图中未示出),被配置为在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同;
第二添加子模块(图中未示出),被配置为在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。
在本发明的另一种实施例中,所述第一确定子模块,被具体配置为判断调小后的当前语速信息是否小于预设语速信息范围的下限值;若判断调小后的当前语速信息不小于预设语速信息范围的下限值,基于该待修改文本所对应目标文本的字数以及调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息。
在本发明的另一种实施例中,所述第二确定子模块,被具体配置为判断调大后的当前语速信息是否大于预设语速信息范围的上限值;若判断调小后的当前语速信息不大于预设语速信息范围的上限值,基于该待修改文本所对应目标文本的字数以及调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息。
相应于上述方法实施例,本发明实施例提供了一种计算机可读存储介质,其示例性的结构示意图如图4所示。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述方法实施例中描述的根据本发明各种示例性实施方式的远程控制方法中的步骤,例如,所述计算设备可以执行如图2中所示的操作S201,从待修改视频中,提取出其中的初始音频;操作S202,基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;操作S203,基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;操作S204,针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图4所示,描述了根据本发明实施例的用于远程控制的程序产品40,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
相应于上述方法实施例,本发明实施例提供了一种计算设备,其示例性的结构示意图如图5所示。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元即处理器、以及至少一个存储单元即存储装置。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的远程控制方法中的步骤。例如,所述处理单元可以执行如图2中所示的操作S201,从待修改视频中,提取出其中的初始音频;操作S202,基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;操作S203,基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;操作S204,针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
下面参照图5来描述根据本发明的这种实施方式的用于数据查询的计算设备50。如图5所示的计算设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于:上述至少一个处理单元501、上述至少一个存储单元502、连接不同系统组件(包括存储单元502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元502可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器5022,还可以进一步包括只读存储器(ROM)5023。
存储单元502还可以包括具有一组(至少一个)程序模块5024的程序/实用工具5025,这样的程序模块5024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备50也可以与一个或多个外部设备504(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与计算设备50交互的设备通信,和/或与使得计算设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口505进行。并且,计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与计算设备50的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述方法、计算机可读存储介质以及计算设备实施例与系统实施例相对应,与该系统实施例具有同样的技术效果,具体说明参见系统实施例。方法实施例是基于系统实施例得到的,具体的说明可以参见系统实施例部分,此处不再赘述。本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (10)
1.一种音视频的修正方法,其特征在于,所述方法包括:
S1:从待修改视频中,提取出其中的初始音频;
S2:基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;
S3:基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;
S4:针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
2.如权利要求1所述的方法,其特征在于,所述S3,包括:
S31:针对每一初始文本,执行以下步骤,以确定出待修改文本对应的修改后的目标文本;
S311:展示该初始文本和/或所述待修改视频正该初始文本对应的子视频段,以便审核人员审核该初始文本中是否存在需要修改的文本内容;
S312:在获得针对作为待修改文本的初始文本的创建新文本指令的情况下,对应该待修改文本创建新文本;
S313:获得所述审核人员基于该初始文本中需要修改的文本内容,输入的该待修改文本所对应新文本的文本内容,以得到该待修改文本对应的修改后的目标文本。
3.如权利要求1所述的方法,其特征在于,所述S3,包括:
S32:遍历每一初始文本,确定该初始文本中是否存在满足预设修改条件的文本内容;
S33:在确定初始文本中存在满足预设修改条件的文本内容的情况下,基于该预设修改条件对应的第一修改方式,修改该作为待修改文本的初始文本中所存在的满足预设修改条件的文本内容,确定出该待修改文本对应的修改后的目标文本,其中,所述预设修改条件为:在指定位置存在预设语气词,存在预设过期内容和/或存在预设需隐藏内容;若该待修改文本中的指定位置存在预设语气词,所述第一修改方式为:创建得到包含删除所对应待修改文本的指定位置存在的预设语气词的文本内容的目标文本;若该待修改文本中存在预设过期内容,所述第一修改方式为:创建得到包含所对应待修改文本的将所述预设过期内容替换为该预设过期内容所对应指定内容的文本内容的目标文本;若该待修改文本中存在预设需隐藏内容,所述第一修改方式为:创建得到所对应待修改文本的删除该预设需隐藏内容或将该预设需隐藏内容替换为预设内容的文本内容的目标文本。
4.如权利要求1所述的方法,其特征在于,所述S2,包括:
S21:基于所述初始音频对应的时间轴信息以及所述初始音频的音频情况,对所述初始音频进行划分,得到多个子初始音频段;
S22:利用语音识别技术,对每一子初始音频段进行语音识别,确定所述初始音频对应的初始文本。
5.如权利要求1-4任一项所述的方法,其特征在于,所述S4,包括:
S41:针对每一待修改文本,基于该待修改文本对应的子初始音频段的时长信息,以及该待修改文本所对应目标文本,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
6.如权利要求5所述的方法,其特征在于,所述S41,包括:
S411:针对每一待修改文本,基于该待修改文本所对应目标文本的字数以及所对应当前语速信息,确定该待修改文本对应的子目标音频段的时长信息;
S412:在待修改文本对应的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息不相同的情况下,基于以下五种实现方式中的任一种实现方式,对该待修改文本所对应目标文本、所对应当前语速信息和/或所述待修改视频中该待修改文本所对应子视频段进行修改,得到该待修改文本所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
S413:基于待修改文本所对应最终信息以及所述初始文本中除待修改文本外的其他初始文本,确定所述待修改视频对应的包括修改后的音频的目标视频,其中,所述待修改文本所对应最终信息包括:所对应未修改或修改后的目标文本、未修改或修改后的当前语速信息,以及待修改视频中该待修改文本所对应未修改或修改后的子视频段;
第一种实现方式:
S4121:调整该待修改文本所对应目标文本的字数,得到该待修改文本所对应修改后的目标文本,使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同;
第二种实现方式:
S4122:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,调小所对应当前语速信息;
S4123:基于该待修改文本所对应目标文本的字数以及所对应调小后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息,返回步骤S4122;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第三种实现方式:
S4124:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,调大所对应当前语速信息;
S4125:基于该待修改文本所对应目标文本的字数以及所对应调大后的当前语速信息,确定该待修改文本对应的新的子目标音频段的时长信息;若该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息,返回步骤S4124;直至所确定的该待修改文本对应的子初始音频段的时长信息,与该待修改文本对应的新的子目标音频段的时长信息相同;
第四种实现方式:
S4126:在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同;
第五种实现方式:
S4127:在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应子目标音频段的时长信息相同。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
S4128:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,大于该待修改文本对应的新的子目标音频段的时长信息的情况下,删除所述待修改视频中,该待修改文本所对应子视频段中的部分视频帧,使得删除部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同;
S4129:在调整该待修改文本所对应目标文本的字数,无法使得基于该待修改文本所对应修改后的目标文本以及所对应当前语速信息确定的新的子目标音频段的时长信息与该待修改文本对应的子初始音频段的时长信息相同,并且在确定该待修改文本对应的子初始音频段的时长信息,小于该待修改文本对应的新的子目标音频段的时长信息的情况下,在所述待修改视频中该待修改文本所对应子视频段中,添加部分视频帧,使得添加部分视频帧后的该待修改文本所对应子视频段的时长信息与该待修改文本所对应新的子目标音频段的时长信息相同。
8.一种音视频的修正装置,其特征在于,所述装置包括:
提取模块,被配置为从待修改视频中,提取出其中的初始音频;
第一确定模块,被配置为基于所述初始音频,确定所述初始音频对应的初始文本,其中,每一初始文本对应所述初始音频的一子初始音频段;
第二确定模块,被配置为基于所述初始文本以及预设修改规则,确定待修改文本对应的修改后的目标文本,其中,所述待修改文本为:存在待修改内容的初始文本;
修改确定模块,被配置为针对每一待修改文本,基于该待修改文本对应的子初始音频段,与该待修改文本所对应目标文本,对该待修改文本所对应目标文本,和/或所述待修改视频中该待修改文本所对应子视频段进行修改,以确定所述待修改视频对应的包括修改后的音频的目标视频。
9.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1-7中任一项所述的音视频的修正方法。
10.一种计算设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1-7中任一项所述的音视频的修正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695557.7A CN111885313A (zh) | 2020-07-17 | 2020-07-17 | 一种音视频的修正方法、装置、介质及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695557.7A CN111885313A (zh) | 2020-07-17 | 2020-07-17 | 一种音视频的修正方法、装置、介质及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111885313A true CN111885313A (zh) | 2020-11-03 |
Family
ID=73156047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010695557.7A Pending CN111885313A (zh) | 2020-07-17 | 2020-07-17 | 一种音视频的修正方法、装置、介质及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111885313A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674731A (zh) * | 2021-05-14 | 2021-11-19 | 北京搜狗科技发展有限公司 | 语音合成处理方法、装置和介质 |
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
CN113722513A (zh) * | 2021-09-06 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 多媒体数据的处理方法及设备 |
CN113747233A (zh) * | 2021-08-24 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 一种音乐替换方法、装置、电子设备及存储介质 |
CN114880997A (zh) * | 2022-05-06 | 2022-08-09 | 北京字节跳动网络技术有限公司 | 用于音频编辑的方法、装置、设备和存储介质 |
WO2023011142A1 (zh) * | 2021-08-03 | 2023-02-09 | 北京字跳网络技术有限公司 | 视频的处理方法、装置、电子设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1961350A (zh) * | 2004-05-27 | 2007-05-09 | 皇家飞利浦电子股份有限公司 | 用于修改消息的方法和系统 |
US20070230913A1 (en) * | 2006-03-31 | 2007-10-04 | Sony Corporation | Video and audio processing system, video processing apparatus, audio processing apparatus, output apparatus, and method of controlling the system |
WO2010045736A1 (en) * | 2008-10-22 | 2010-04-29 | Xtranormal Technology Inc. | Reduced-latency rendering for a text-to-movie system |
US20110113335A1 (en) * | 2009-11-06 | 2011-05-12 | Tandberg Television, Inc. | Systems and Methods for Replacing Audio Segments in an Audio Track for a Video Asset |
US9185225B1 (en) * | 2011-06-08 | 2015-11-10 | Cellco Partnership | Method and apparatus for modifying digital messages containing at least audio |
CN105898499A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 移动客户端及在其中实施的视频文件修改方法 |
CN107071553A (zh) * | 2017-06-05 | 2017-08-18 | 广东小天才科技有限公司 | 一种修改视频语音的方法、装置和计算机可读存储介质 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN108305636A (zh) * | 2017-11-06 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种音频文件处理方法及装置 |
WO2019037615A1 (zh) * | 2017-08-24 | 2019-02-28 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
CN109429077A (zh) * | 2017-08-24 | 2019-03-05 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
-
2020
- 2020-07-17 CN CN202010695557.7A patent/CN111885313A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1961350A (zh) * | 2004-05-27 | 2007-05-09 | 皇家飞利浦电子股份有限公司 | 用于修改消息的方法和系统 |
US20070230913A1 (en) * | 2006-03-31 | 2007-10-04 | Sony Corporation | Video and audio processing system, video processing apparatus, audio processing apparatus, output apparatus, and method of controlling the system |
WO2010045736A1 (en) * | 2008-10-22 | 2010-04-29 | Xtranormal Technology Inc. | Reduced-latency rendering for a text-to-movie system |
US20110113335A1 (en) * | 2009-11-06 | 2011-05-12 | Tandberg Television, Inc. | Systems and Methods for Replacing Audio Segments in an Audio Track for a Video Asset |
US9185225B1 (en) * | 2011-06-08 | 2015-11-10 | Cellco Partnership | Method and apparatus for modifying digital messages containing at least audio |
CN105898499A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 移动客户端及在其中实施的视频文件修改方法 |
CN107071553A (zh) * | 2017-06-05 | 2017-08-18 | 广东小天才科技有限公司 | 一种修改视频语音的方法、装置和计算机可读存储介质 |
WO2019037615A1 (zh) * | 2017-08-24 | 2019-02-28 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
CN109429077A (zh) * | 2017-08-24 | 2019-03-05 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
CN108305636A (zh) * | 2017-11-06 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种音频文件处理方法及装置 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674731A (zh) * | 2021-05-14 | 2021-11-19 | 北京搜狗科技发展有限公司 | 语音合成处理方法、装置和介质 |
WO2023011142A1 (zh) * | 2021-08-03 | 2023-02-09 | 北京字跳网络技术有限公司 | 视频的处理方法、装置、电子设备和存储介质 |
CN113747233A (zh) * | 2021-08-24 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 一种音乐替换方法、装置、电子设备及存储介质 |
CN113747233B (zh) * | 2021-08-24 | 2023-03-24 | 北京达佳互联信息技术有限公司 | 一种音乐替换方法、装置、电子设备及存储介质 |
CN113722513A (zh) * | 2021-09-06 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 多媒体数据的处理方法及设备 |
CN113722513B (zh) * | 2021-09-06 | 2022-12-20 | 抖音视界有限公司 | 多媒体数据的处理方法及设备 |
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
CN113724686B (zh) * | 2021-11-03 | 2022-04-01 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
US11462207B1 (en) | 2021-11-03 | 2022-10-04 | Institute Of Automation, Chinese Academy Of Sciences | Method and apparatus for editing audio, electronic device and storage medium |
CN114880997A (zh) * | 2022-05-06 | 2022-08-09 | 北京字节跳动网络技术有限公司 | 用于音频编辑的方法、装置、设备和存储介质 |
WO2023213313A1 (zh) * | 2022-05-06 | 2023-11-09 | 北京字节跳动网络技术有限公司 | 用于音频编辑的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111885313A (zh) | 一种音视频的修正方法、装置、介质及计算设备 | |
CN111885416B (zh) | 一种音视频的修正方法、装置、介质及计算设备 | |
US11012486B2 (en) | Personalized video playback | |
US20220398541A1 (en) | System and method for interview training with time-matched feedback | |
JP6150405B2 (ja) | メディアにキャプションを付けるシステム及び方法 | |
US11929099B2 (en) | Text-driven editor for audio and video assembly | |
US8966360B2 (en) | Transcript editor | |
TW202002611A (zh) | 視頻字幕顯示方法及裝置 | |
US20210304799A1 (en) | Transcript-based insertion of secondary video content into primary video content | |
WO2021111123A1 (en) | Generating and editing media | |
CN104349173A (zh) | 视频复读方法及装置 | |
US11119727B1 (en) | Digital tutorial generation system | |
KR102353797B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
JP2018180519A (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
CN113923479A (zh) | 音视频剪辑方法和装置 | |
CN111787188B (zh) | 视频播放方法、装置、终端设备及存储介质 | |
JP2019197210A (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
WO2023072172A1 (zh) | 多媒体数据生成方法、装置、电子设备、介质及程序产品 | |
KR102488623B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
JP7481863B2 (ja) | 音声認識誤り修正支援装置、プログラムおよび方法 | |
JP2022076078A (ja) | 情報処理システム、情報処理装置、情報処理方法、及びプログラム | |
JP2022076119A (ja) | 情報処理システム、情報処理装置、情報処理方法、及びプログラム | |
CN113903021A (zh) | 信息呈现方法、装置、电子设备和存储介质 | |
JP2023539815A (ja) | 議事録のインタラクション方法、装置、機器及び媒体 | |
AU2021201103A1 (en) | A computer implemented method for adding subtitles to a media file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201103 |