CN114449310A

CN114449310A - 视频剪辑方法、装置、计算机设备及存储介质

Info

Publication number: CN114449310A
Application number: CN202210138556.1A
Authority: CN
Inventors: 苏雨春晓
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-06

Abstract

本发明涉及语音分析领域，尤其涉及一种视频剪辑方法、装置、计算机设备及存储介质。其方法包括：获取待剪辑视频；从待剪辑视频提取目标音频流和目标视频流；对目标音频流进行语音识别，得到与目标音频流对应的文字文本以及文字文本在目标音频流的出现时间；根据文字文本和出现时间生成字幕文件；将字幕文件输入内容理解模型，通过内容理解模型对字幕文件进行场景关键词和语气分析，得到场景数据；根据场景数据对目标视频流进行渲染，得到渲染视频流；并根据渲染视频流和目标音频流，生成包含场景特效的目标视频。本发明可快速得到视频的目标内容，提高语音识别的准确性和用户体验感。且考虑了关键词和语气，可使渲染更加准确的符合用户的需求。

Description

视频剪辑方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音分析领域，尤其涉及一种视频剪辑方法、装置、计算机设备及存储介质。

背景技术

近年来，随着我国互联网的迅速发展，越来越多的企业和个人使用短视频、直播等视频媒体进行信息传播。通常在进行一场直播后，有些用户需要对直播视频进行剪辑，以生成目标视频。现有对直播视频的剪辑，一般是通过对直播视频进行场景识别或画面识别，将直播视频剪辑成短视频进行发布，未对原直播视频的内容做任何加工，无法满足不同用户对目标视频的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种视频剪辑方法、装置、计算机设备及存储介质，以解决现有技术未对原直播视频的内容做任何加工，无法满足不同用户对目标视频的需求的问题。

一种视频剪辑方法，包括：

获取待剪辑视频；

从所述待剪辑视频提取目标音频流和目标视频流；

对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件；

将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据；

根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。

一种视频剪辑装置，包括：

待剪辑视频模块，用于获取待剪辑视频；

目标数据模块，用于从所述待剪辑视频提取目标音频流和目标视频流；

字幕文件模块，用于对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件；

场景数据模块，用于将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据；

目标视频模块，用于根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述视频剪辑方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述视频剪辑方法。

上述视频剪辑方法、装置、计算机设备及存储介质，通过获取待剪辑视频；从所述待剪辑视频提取目标音频流和目标视频流；对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件；将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据；根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。本发明通过对从待剪辑视频中获取目标音频流和目标视频流，对待剪辑视频进行除杂处理，可快速得到视频的目标内容，同时提高语音识别的准确性和用户体验感。根据场景数据对目标视频流进行渲染，该场景数据考虑了关键词和语气，可使渲染更加准确的符合用户的需求，进一步提高用户体验感。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中视频剪辑方法的一应用环境示意图；

图2是本发明一实施例中视频剪辑方法的一流程示意图；

图3是本发明一实施例中视频剪辑装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的视频剪辑方法，可应用在如图1的应用环境中，其中，用户端与服务端进行通信。其中，用户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种视频剪辑方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、获取待剪辑视频。

可理解的，待剪辑视频是指待处理的视频。通常在进行一场直播后，有些用户需要对直播视频进行剪辑，以生成目标视频。该待剪辑视频可以是用户端输入的录制的直播视频。

S20、从所述待剪辑视频提取目标音频流和目标视频流。

可理解的，目标音频流是指对待剪辑视频中的原始音频流进行除杂处理和剪裁后得到的目标音频数据。目标视频流是指对待剪辑视频中的原始视频流进行剪裁后，得到的目标视频流。具体的，通过视频分割技术，从待剪辑视频中分割出原始音频流和原始视频流，对原始音频流进行除杂处理，得到人声音频流。进一步的，将人声音频流输入录制词识别模型，通过录制词识别模型对人声音频流中的录制词进行识别，生成人声音频流的录制数据。更进一步的，根据得到的录制数据对原始音频流和原始视频流进行裁剪，得到目标音频流和目标视频流。

S30、对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件。

可理解的，语音识别是指通过语音识别模型对目标音频流中的语音进行识别并将语音转换为文字的过程。文字文本是指将目标音频流中语音转换为文字得到的文本。出现时间是指与文字文本对应的语音在目标音频流时间轴中出现的时间段，将该时间段记录为文字文本在目标音频流的出现时间。字幕文件是指根据文字文本的出现时间的时序对若干文字文本进行排序得到的文本。优选的，语音识别模型可以是ASRT(Auto SpeechRecognition Tool，自动语音识别工具)语音识别模型。ASRT语音识别模型采用卷积神经网络和连结性时序分类，可将音频流转化为可学习的音频特征，通过音频特征的对比，完成对任意音频流的识别。

S40、将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据。

可理解的，内容理解模型是指用于对字幕文件中的场景关键词进行识别定位，并根据场景关键词分析和语气分析获取场景数据的神经网络模型。优选的，该内容理解模型可以是基于URE预训练模型框架的GPT-Chinese(中文语言模型)。其中，GPT是一种半监督学习方法，它致力于用大量无标注数据让模型学习“常识”，以缓解标注信息不足的问题。该内容理解模型包括场景关键词识别算法和语气分析算法。其中，场景数据包括场景内容、与该场景内容对应的场景时间和语气标识。具体的，通过该内容理解模型中的场景关键词识别算法对字幕文件进行场景关键词识别，得到场景内容以及与该场景内容对应的场景时间。并通过该内容理解模型中的语气分析算法对场景内容进行上下文语气分析，得到该场景内容的语气类型。进一步的，为该场景内容生成与该语气类型对应的语气标识。最终，根据场景内容、与该场景内容对应的场景时间和语气标识生成场景数据。其中，场景关键词是指与场景相关的关键词。例如，场景关键词可以是“重要”、“产品”、“重点”等。场景时间是指场景内容出现的时间。例如，字幕文件中包含“今天我要给大家重点讲的是金瑞人生这款长期寿险产品”。当通过场景关键词识别算法识别到“重点”这个词为场景关键词时，可以将“今天我要给大家重点讲的是金瑞人生这款长期寿险产品”这句话标记为场景内容，并将该句话在字幕文件中的出现时间记录为场景时间。

S50、根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。

可理解的，场景数据包括场景内容、与该场景内容对应的场景时间和语气标识。其中。渲染视频流是指根据场景数据对目标视频流进行渲染后得到的视频流。其中，渲染是指通过字幕高亮，关键词花字显示，插入弹幕等场景特效对视频流进行处理。场景特效是指用于对场景内容进行突出显示的方式。目标视频是指对渲染视频流和目标音频流进行合成处理后得到的视频数据。具体的，获取与场景数据对应的场景特效，并获取场景数据中的场景时间，根据所述场景时间，查询所述目标视频流中与所述场景时间对应的视频帧。进一步的，将场景特效添加至与场景时间对应的视频帧中，得到渲染视频流。在得到渲染视频流后，将渲染视频流和目标音频流进行合成处理，得到目标视频。

在步骤S10-S50中，通过获取待剪辑视频；从所述待剪辑视频提取目标音频流和目标视频流；对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件；将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据；根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。本发明通过对从待剪辑视频中获取目标音频流和目标视频流，对待剪辑视频进行除杂处理，可提高语音识别的准确性，且可快速得到视频的目标内容，提高用户体验感。根据场景数据对目标视频流进行渲染，该场景数据考虑了关键词和语气，可使渲染更加准确的符合用户的需求，进一步提高用户体验感。运用本发明，通过识别场景内容自动添加场景特效，可批量处理视频，提高用户体验感。

可选的，在步骤S20中，即所述从所述待剪辑视频提取目标音频流和目标视频流，包括：

S201、通过视频分割技术，从所述待剪辑视频中分割出原始音频流和原始视频流；

S202、对所述原始音频流进行除杂处理，得到人声音频流；

S203、将所述人声音频流输入录制词识别模型，通过所述录制词识别模型对所述人声音频流中的录制词进行识别，生成所述人声音频流的录制数据；

S204、根据所述录制数据对所述原始音频流和所述原始视频流进行裁剪，得到所述目标音频流和所述目标视频流。

可理解的，所述视频分割技术为从用户端输入的待剪辑视频中分离成图像和音频两部分，并将图像部分作为视频流，将音频部分作为频频流的技术。原始音频流是指从待剪辑视频中分离出来的未经处理的音频数据。原始视频流是指从待剪辑视频中分离出来的未经处理的视频数据。除杂处理是指运用人声识别模型对原始音频流进行去除杂音、去除噪声的过程。除杂处理具体包括将原始音频流输入人声识别模型，通过人声识别模型对原始音频流中的进行人声识别，将识别到的人声从原始音频流中提取出来，得到人声音频流的过程。其中，人声音频流是指只包含人声的音频数据。录制词识别模型是指用于识别人声音频流中录制词的模型。其中，录制词是指视频录制过程中的开始词、暂停词、结束词等录制专用场景词。例如，“开始录制”、“打板”等。录制数据包含录制词识别模型识别到的录制词、与录制词对应的录制词出现时间。根据录制数据对原始音频流和原始视频流进行裁剪，是指根据录制数据定位到录制词出现的时间，根据录制词出现的时间对原始音频流和原始视频流进行裁剪。

优选的，根据录制词出现的时间对原始音频流和原始视频流进行裁剪，包括：在原始音频流中剪掉与录制词出现时间对应的音频数据，得到目标音频流，并在在原始视频流中剪掉与录制词出现时间对应的视频数据，得到目标视频流。

优选的，根据录制词出现的时间对原始音频流和原始视频流进行裁剪，还包括：当录制词为开始词时，获取该开始词的开始词出现时间，在原始音频流中剪掉该开始词出现时间对应的音频数据以及该开始词出现时间之前的音频数据，得到目标音频流。在原始视频流中剪掉该开始词出现时间对应的视频数据以及该开始词出现时间之前的视频数据，得到目标视频流。当录制词为结束词时，获取该结束词的结束词出现时间，在原始音频流中剪掉该结束词出现时间对应的音频数据以及该结束词出现时间之后的音频数据，得到目标音频流。在原始视频流中剪掉该结束词出现时间对应的视频数据以及该结束词出现时间之后的视频数据，得到目标视频流。本方案通过对原始音频流进行除杂处理，可提高语音识别的准确性。对原始音频流和原始视频流进行裁剪，得到目标音频流和目标视频流，可快速得到视频的目标内容，提高用户体验感。

在步骤S201-S204中，通过视频分割技术，从所述待剪辑视频中分割出原始音频流和原始视频流；对所述原始音频流进行除杂处理，得到人声音频流；将所述人声音频流输入录制词识别模型，通过所述录制词识别模型对所述人声音频流中的录制词进行识别，生成所述人声音频流的录制数据；根据所述录制数据对所述原始音频流和所述原始视频流进行裁剪，得到所述目标音频流和所述目标视频流。本发明通过对原始音频流进行除杂处理，可提高语音识别的准确性。对原始音频流和原始视频流进行裁剪，得到目标音频流和视频流，可快速得到视频的目标内容，提高用户体验感。

可选的，在步骤S202中，即所述对所述原始音频流进行除杂处理，得到人声音频流，包括：

S2021、将所述原始音频流输入人声识别模型；

S2022、通过所述人声识别模型对所述原始音频流中的进行人声识别，将识别到的人声从所述原始音频流中提取出来，得到所述人声音频流。

可理解的，人声识别模型是指用于对原始音频流中的人声进行识别的模型。其中，人声是指人发出的声音。优选的，人声识别模型可以是基于是tensorflowLite(张量流精简版)框架、梅尔倒频谱算法的神经网络模型。其中，tensorflowLite框架具有小巧的特点。在保证精度的同时，框架的大小只有300KB左右，且经过压缩后产生的模型是tensorflow模型的四分之一。人声识别是指通过人声识别模型对原始音频流中的人声进行识别，并将其从原始音频流中提取出来，得到人声音频流的过程。其中，人声音频流是指仅包含人声的音频数据。本方案通过对原始音频流进行除杂处理，可提高语音识别的准确性。

可选的，在步骤S40中，即所述将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据，包括：

S401、通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行场景关键词识别，得到场景内容以及与所述场景内容对应的场景时间；

S402、通过所述内容理解模型中的语气分析算法对所述场景内容进行上下文语气分析，得到所述场景内容的语气类型，并为所述场景内容生成与所述语气类型对应的语气标识；

S403、根据所述场景内容、与所述场景内容对应的场景时间和所述语气标识生成场景数据。

可理解的，场景关键词识别算法是用于对字幕文件中的场景关键词进行识别的算法。其中，场景关键词是指与场景相关的关键词。例如，场景关键词可以是“重要”、“产品”、“重点”等。当字幕文件中出现场景关键词时，通过场景关键词识别算法可以对该场景关键词进行定位，获取包含该场景关键词的场景内容。其中，场景内容指包含该场景关键词的一句话或者一段话。例如，字幕文件中包含“今天我要给大家重点讲的是金瑞人生这款长期寿险产品”。当通过场景关键词识别算法识别到“重点”这个词为场景关键词时，可以将“今天我要给大家重点讲的是金瑞人生这款长期寿险产品”这句话标记为场景内容，并将该句话在字幕文件中的出现时间记录为场景时间。语气分析算法是指用于对场景内容进行上下文语气识别和分析的算法。上下文语气分析包括通过语气分析算法对场景内容进行语气特征的提取，并对该语气特征进行语气识别，识别出与该场景内容最匹配的语气类型的过程。其中，语气特征是指场景内容中音素升降的特征。语气类型包括疑问句、陈述句、感叹句等等。通过语气分析算法提取出场景内容中的语气特征，得到语气类型，可准确地得到语气标识。其中，语气标识是指根据语气类型生成的用于识别场景内容的语气的标识。例如，语气类型为疑问句，对应的语气标识可为“疑问”。

在步骤S401-S403中，通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行场景关键词识别，得到场景内容以及与所述场景内容对应的场景时间；通过所述内容理解模型中的语气分析算法对所述场景内容进行上下文语气分析，得到所述场景内容的语气类型，并为所述场景内容生成与所述语气类型对应的语气标识；根据所述场景内容、与所述场景内容对应的场景时间和所述语气标识生成场景数据。本发明生成的场景数据考虑了场景内容、场景内容的语气类型以及场景时间，使添加的场景特效更加准确。

可选的，在步骤S401中，通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行关键词识别，得到场景内容以及与所述场景内容对应的场景时间，包括：

S4011、通过分词技术对所述字幕文件进行分词，得到若干字幕词；

S4012、运用场景关键词识别算法对所述若干字幕词进行识别，得到场景关键词；

S4013、根据场景关键词，得到所述字幕文件的场景内容；并将所述场景内容在所述字幕文件中出现的时间记录为场景时间。

可理解的，分词技术是指根据搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。字幕词是指通过分词技术对字幕文件进行分词处理后得到的字或词。运用场景关键词识别算法对若干字幕词进行场景关键词识别，定位到场景关键词所在的位置，将包含场景关键词的一句话或者一段话作为关键内容，并将该句话在字幕文件中的出现时间记录为场景时间，可快速确定场景时间，提高场景特效的添加在时间节点上的准确性。

可选的，在步骤S50中，即所述根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流，包括：

S501、获取与所述场景数据对应的场景特效；

S502、将所述场景特效添加至所述目标视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流。

可理解的，场景特效是指用于对场景内容进行突出显示的方式。渲染视频流是指通过字幕高亮，关键词花字显示，插入弹幕等场景特效方式对视频流进行处理后得到的视频流。具体的，获取场景数据中的场景时间，根据该场景时间，查询目标视频流中与该场景时间对应的视频帧；将场景特效添加至与该场景时间对应的视频帧中，得到渲染视频流。

在步骤S501和S502中，获取与所述场景数据对应的场景特效；将所述场景特效添加至所述目标视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流。不同的场景数据对应不同的场景特效，可满足用户不同的剪辑需求。

可选的，在步骤S502中，即所述将所述场景特效添加至所述视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流，包括：

S5021、获取所述场景数据中的场景时间；

S5022、根据所述场景时间，查询所述目标视频流中与所述场景时间对应的视频帧；

S5023、将所述场景特效添加至所述与所述场景时间对应的视频帧中，得到所述渲染视频流。

可理解的，场景时间是指场景内容在目标音频流中出现的时间。视频帧是指对目标视频流进行分帧处理，得到的一张一张的视频图片。通过将场景特效添加至与场景时间对应的视频帧中，使场景特效与视频帧对应，可提高用户的体验感。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种视频剪辑装置，该视频剪辑装置与上述实施例中视频剪辑方法一一对应。如图3所示，该视频剪辑装置包括待剪辑视频模块10、目标数据模块20、字幕文件模块30、场景数据模块40和目标视频模块50。各功能模块详细说明如下：

待剪辑视频模块10，用于获取待剪辑视频；

目标数据模块20，用于从所述待剪辑视频提取目标音频流和目标视频流；

字幕文件模块30，用于对所述目标音频流进行语音识别，得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间；根据所述文字文本和所述出现时间生成字幕文件；

场景数据模块40，用于将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据；

目标视频模块50，用于根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流；并根据所述渲染视频流和所述目标音频流，生成包含场景特效的目标视频。

可选的，目标数据模块20，包括：

原始数据单元，用于通过视频分割技术，从所述待剪辑视频中分割出原始音频流和原始视频流；

人声音频流单元，用于对所述原始音频流进行除杂处理，得到人声音频流；

录制数据单元，用于将所述人声音频流输入录制词识别模型，通过所述录制词识别模型对所述人声音频流中的录制词进行识别，生成所述人声音频流的录制数据；

目标数据单元，用于根据所述录制数据对所述原始音频流和所述原始视频流进行裁剪，得到所述目标音频流和所述目标视频流。

可选的，所述人声音频流单元，包括：

人声识别模型单元，用于将所述原始音频流输入人声识别模型；

人声识别单元，用于通过所述人声识别模型对所述原始音频流中的进行人声识别，将识别到的人声从所述原始音频流中提取出来，得到所述人声音频流。

可选的，场景数据模块40，包括：

场景时间单元，用于通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行场景关键词识别，得到场景内容以及与所述场景内容对应的场景时间；

语气标识单元，用于通过所述内容理解模型中的语气分析算法对所述场景内容进行上下文语气分析，得到所述场景内容的语气类型，并为所述场景内容生成与所述语气类型对应的语气标识；

场景数据单元，用于根据所述场景内容、与所述场景内容对应的场景时间和所述语气标识生成场景数据。

可选的，所述场景时间单元，包括：

字幕词单元，用于通过分词技术对所述字幕文件进行分词，得到若干字幕词；

场景关键词单元，用于运用场景关键词识别算法对所述若干字幕词进行识别，得到场景关键词；

场景时间记录单元，用于根据场景关键词，得到所述字幕文件的场景内容；并将所述场景内容在所述字幕文件中出现的时间记录为场景时间。

可选的，目标视频模块50，包括：

场景特效单元，用于获取与所述场景数据对应的场景特效；

渲染视频流单元，用于将所述场景特效添加至所述目标视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流。

可选的，所述渲染视频流单元，包括：

场景时间获取单元，用于获取所述场景数据中的场景时间；

视频帧查询单元，用于根据所述场景时间，查询所述目标视频流中与所述场景时间对应的视频帧；

场景特效添加单元，用于将所述场景特效添加至所述与所述场景时间对应的视频帧中，得到所述渲染视频流。

关于视频剪辑装置的具体限定可以参见上文中对于视频剪辑方法的限定，在此不再赘述。上述视频剪辑装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频剪辑方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

待剪辑视频模块，用于获取待剪辑视频；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

待剪辑视频模块，用于获取待剪辑视频；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，包括：

获取待剪辑视频；

从所述待剪辑视频提取目标音频流和目标视频流；

2.如权利要求1所述的视频剪辑方法，其特征在于，所述从所述待剪辑视频提取目标音频流和目标视频流，包括：

通过视频分割技术，从所述待剪辑视频中分割出原始音频流和原始视频流；

对所述原始音频流进行除杂处理，得到人声音频流；

将所述人声音频流输入录制词识别模型，通过所述录制词识别模型对所述人声音频流中的录制词进行识别，生成所述人声音频流的录制数据；

根据所述录制数据对所述原始音频流和所述原始视频流进行裁剪，得到所述目标音频流和所述目标视频流。

3.如权利要求2所述的视频剪辑方法，其特征在于，所述对所述原始音频流进行除杂处理，得到人声音频流，包括：

将所述原始音频流输入人声识别模型；

通过所述人声识别模型对所述原始音频流中的进行人声识别，将识别到的人声从所述原始音频流中提取出来，得到所述人声音频流。

4.如权利要求1所述的视频剪辑方法，其特征在于，所述将所述字幕文件输入内容理解模型，通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析，得到场景数据，包括：

通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行场景关键词识别，得到场景内容以及与所述场景内容对应的场景时间；

通过所述内容理解模型中的语气分析算法对所述场景内容进行上下文语气分析，得到所述场景内容的语气类型，并为所述场景内容生成与所述语气类型对应的语气标识；

根据所述场景内容、与所述场景内容对应的场景时间和所述语气标识生成场景数据。

5.如权利要求4所述的视频剪辑方法，其特征在于，所述通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行关键词识别，得到场景内容以及与所述场景内容对应的场景时间，包括：

通过分词技术对所述字幕文件进行分词，得到若干字幕词；

运用场景关键词识别算法对所述若干字幕词进行识别，得到场景关键词；

根据场景关键词，得到所述字幕文件的场景内容；并将所述场景内容在所述字幕文件中出现的时间记录为场景时间。

6.如权利要求1所述的视频剪辑方法，其特征在于，所述根据所述场景数据对所述目标视频流进行渲染，得到渲染视频流，包括：

获取与所述场景数据对应的场景特效；

将所述场景特效添加至所述目标视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流。

7.如权利要求6所述的视频剪辑方法，其特征在于，所述将所述场景特效添加至所述视频流中与所述场景数据对应的视频帧中，得到所述渲染视频流，包括：

获取所述场景数据中的场景时间；

根据所述场景时间，查询所述目标视频流中与所述场景时间对应的视频帧；

将所述场景特效添加至所述与所述场景时间对应的视频帧中，得到所述渲染视频流。

8.一种视频剪辑装置，其特征在于，包括：

待剪辑视频模块，用于获取待剪辑视频；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述视频剪辑方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述视频剪辑方法。