CN111556254B

CN111556254B - 利用视频内容进行视频切割的方法、系统、介质及智能设备

Info

Publication number: CN111556254B
Application number: CN202010281326.1A
Authority: CN
Inventors: 林倩雅; 夏天; 何雷米一阳; 谢榛逦; 陈品霖; 刘荣潺
Original assignee: Good Morning Technology Guangzhou Co ltd
Current assignee: Good Morning Technology Guangzhou Co ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-04-02
Anticipated expiration: 2040-04-10
Also published as: CN111556254A; US11227638B2; US20210319809A1

Abstract

本发明公开了一种利用视频内容进行视频切割的方法及系统，所述方法包括：获取用户进行录像操作所产生的录像视频；对所述录像视频中的录像音频进行特征提取，并判断所述录像音频是否受损；若否，则提取所述录像音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示；若是，则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将所述图像特征数据与过滤去背景音的人声数据进行拟合，并将拟合度最高的视频片段作为剪辑视频进行展示。本发明能够通过提高视频剪辑的效率及质量，以进一步提升用户进行视频剪辑体验的满意度，满足了实际应用需求。

Description

利用视频内容进行视频切割的方法、系统、介质及智能设备

技术领域

本发明涉及人工智能技术领域，特别是涉及一种利用视频内容进行视频切割的方法、系统、介质及智能设备。

背景技术

AI剪辑视频技术是运用图像识别或语音识别技术，对视频内容进行智能识别处理，从而实现对视频内容的智能剪辑，极大提高了视频剪辑效率，节省剪辑成本，因此AI剪辑视频技术成为了视频剪辑领域重要组成部分。

图像识别自动裁剪视频技作为AI剪辑视频技术中常见的剪辑技术，能够通过人工智能去识别视频画面内容的指定对象，提取包含此对象的视频画面段，实现在一段或多段较长的视频中快速识别并剪辑出指定图像对应的片段的技术。

然而，现有的图像识别自动剪辑视频技术只是获取相似图像的片段，对音频不做处理，吵杂的背景音或不带人声的视频片段也会被保留下来，从而大大降低了用户进行视频剪辑体验的满意度。

发明内容

为了解决上述问题，本发明的目的是提供一种能够解决现有视频剪辑效率低、视频质量差，提高用户视频剪辑体验满意度的利用视频内容进行视频切割的方法、系统、介质及智能设备。

一种利用视频内容进行视频切割的方法，所述方法包括：

获取用户进行录像操作所产生的录像视频；

对所述录像视频中的录像音频进行特征提取，并判断所述录像音频是否受损；

若否，则提取所述录像音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示；

若是，则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将所述图像特征数据与过滤去背景音的人声数据进行拟合，并将拟合度最高的视频片段作为剪辑视频进行展示。

根据本发明提供的利用视频内容进行视频切割的方法，通过对用户进行录像操作所产生的录像视频中的录像音频进行特征提取，以判断该录像音频是否受损，当该录像视频受损则提取所述录像音频中过滤去背景音的人声数据，并截取含有有效人声所对应的视频片段，以去除吵杂的背景音，并保留带有人声的视频片段，即使在吵杂的环境下拍摄的视频也能够清楚听到说话者的声音；通过在录像音频受损后，提取对录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将该图像特征数据与人声数据进行拟合，以输出拟合度较高的视频片段，实现了在录像音频受损后仍能进行根据录像视频中的图像信息及已有的有效人声片段的语义进行还原，同时减少了录像音频中的无效内容，使视频中说话这的声音更加突出，且可根据视频内容进行贴纸及音效等素材的添加与合成，解决了现有视频剪辑效率低、视频质量差，用户剪辑体验满意度低的问题，满足了实际应用需求。

另外，根据本发明上述的利用视频内容进行视频切割的方法，还可以具有如下附加的技术特征：

进一步地，提取所述音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示的方法包括：

通过AI模型对录像视频中的人声视频片段进行识别，提取所述人声视频片段中的有效人声数据，过滤去背景音，并记录下该有效人声数据所对应的第一时间范围；

将过滤去背景音的有效人声数据转换为文字，并记录该文字对应的第二时间范围，根据所述第二时间范围对所述第一时间范围进行调整；

根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成，并将得到的剪辑视频进行效果展示。

进一步地，提取所述人声视频片段中的有效人声数据，过滤去背景音，并记录下该有效人声数据所对应的的方法包括：

将所述人声数据切割成多个声音子片段，通过快速傅里叶变换提取各声音子片段的频率信息，通过基于CNN VAD算法的AI模型及各声音子片段的频率信息对各声音子片段中的噪声进行滤除后合并成具有连续声音的声音片段，并记录该声音片段所对应的时间段以作为第一时间范围。

进一步地，提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括：

获取所述录像视频中包含人物说话的图像帧，对该图像帧中的人物口型及人体动作进行图像识别及分析，以得到人物口型的唇部信息及人体动作的动作信息；

对所述人物口型的唇部信息及人体动作的动作信息进行特征提取，从而得到对应的图像特征数据。

进一步地，所述方法还包括：

将有效人声数据所对应的文本进行语意分割，以得到多个分割语意；

在素材库中搜索与所述分割语义相匹配的音频及视频贴纸，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置。

进一步地，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括：

根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置，并根据贴纸放置的有效位置的调整该视频壁纸的大小；

根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息。

进一步地，所述方法还包括：

根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间，计算该视频贴纸与音频在视频录像中出现的时间。

本发明的另一实施例提出一种利用视频内容进行视频切割的系统，解决现有的图像识别自动剪辑视频技术只是获取相似图像的片段，对音频不做处理，吵杂的背景音或不带人声的视频片段也会被保留下来，从而大大降低了用户进行视频剪辑体验的满意度的问题。

根据本发明实施例的利用视频内容进行视频切割的系统，包括：

获取模块，用于获取用户进行录像操作所产生的录像视频；

判断模块，用于对所述录像视频中的录像音频进行特征提取，并判断所述录像音频是否受损；

截取模块，用于提取所述录像音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示；

拟合模块，用于提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将所述图像特征数据与过滤去背景音的人声数据进行拟合，并将拟合度最高的视频片段作为剪辑视频进行展示。

本发明的另一个实施例还提出一种介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的另一个实施例还提出一种智能设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1是本发明第一实施例提出的利用视频内容进行视频切割的方法的流程图；

图2是图1中步骤S101的具体流程图；

图3是图1中步骤S102的具体流程图；

图4是本发明第二实施例提出的利用视频内容进行视频切割的系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的一种利用视频内容进行视频切割的方法，其中，包括步骤S101～S104：

步骤S101，获取用户进行录像操作所产生的录像视频。

步骤S102，对所述录像视频中的录像音频进行特征提取，并判断所述录像音频是否受损。

如上所述，通过在用户进行录像操作时，获取用户进行录像操作所产生的录像视频，该录像视频通常为包含人物图像及声音数据的视频录像，可以理解的该录像视频也可为不包含人物的录像视频；通过对所述录像视频中的录像音频进行特征提取，以便于根据提取的所述录像音频的特征信息确定该录像音频是否受损，以避免由于录像音频受损而影响视频剪辑的完整性与可靠性，同时为后续根据录像视频的人物图像信息进行视频补偿与剪辑提供必要条件。

具体的，当用户打开相机进行人物视频录制时，通过相机检测目标范围内的有效人声数据及图像信息，以形成录像视频，即该录像视频包含图像及声音信号，然后对所述录像视频的视频内容进行视频预处理，如亮度/饱和度/对比度及色彩的调节、连续化处理、解块/解环滤波处理、边界检测、解交织处理、帧率转换处理、噪声滤波处理、色彩空间转换处理中的一种或多种，将进行视频预处理后的录像视频分离成语音流及是视频流，然后提取语音流中的录像音频，对所述录像音频音频的音频信息进行特征提取对所述录像视频中的录像音频进行特征提取，并根据提取的音频特征判断所述录像音频是否受损。可以理解的，通过对录像音频的完整性进行判断，为后续根据录像视频的人物图像信息进行视频补偿与剪辑提供必要条件，满足了实际应用需求。

步骤S103，若否，则提取所述录像音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示。

如上所述，当所述录像音频未受损时，则表明该录像音频为完整的录像音频，且该音频是与视频画面所对应的，因此只需对过滤去背景音的人声数据所对应的视频片段进行截取，并将截取后的视频片段进行视频合成以得到剪辑视频，然后将该剪辑视频进行展示。其中，对含有有效人声的视频片段进行合成的方法包括：根据各有效视频片段的图像矢量信息和图像帧以及有效人声的矢量信息和音频帧，进行视频画面与人声音频的匹配，图像矢量信息及人声矢量信息分别用于表征下一刻图像内容及声音内容方向。

请参阅图2，提取所述音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段的方法包括如下步骤：

步骤S1031，通过AI模型对录像视频中的人声视频片段进行识别，提取所述人声视频片段中的有效人声数据，过滤去背景音，并记录下该有效人声数据所对应的第一时间范围。

步骤S1032，将过滤去背景音的有效人声数据转换为文字，并记录该文字对应的第二时间范围，根据所述第二时间范围对所述第一时间范围进行调整。

步骤S1033，根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成，并将得到的剪辑视频进行效果展示。

具体的，将所述人声数据切割成多个声音子片段，通过快速傅里叶变换提取各声音子片段的频率信息，通过基于CNN VAD算法的AI模型对各声音子片段的噪声进行滤除后合并成具有连续声音的声音片段，并记录该声音片段所对应的时间段，以作为第一时间范围；通过基于DFCNN算法的AI模型及各过滤去背景音的有效人声数据的声音子片段的时间范围，将语音转换成文字并确定该文字对应的时间范围，并将该事件范围作为第二时间范围，然后根据第二时间范围对有效人声数据所对应的第一时间范围进一步调整，以使剪辑视频的音频、文字与画面相对应。

步骤S104，若是，则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将所述图像特征数据与过滤去背景音的人声数据进行拟合，并将拟合度最高的视频片段作为剪辑视频进行展示。

如上所述，当所述录像音频受损时，则表明该录像音频并非完整的录像音频，且该音频并不与视频画面所对应，因此需根据录像视频的视频画面对受损的音频进行音频补偿，并将进行音频补偿后的录像音频与视频画面进行拟合，以输出拟合度较高的视频片段，从而能够实现在录像音频受损时，尽可能的根据视频画面信息及未受损的有效人声片段的语义信息对视频内容进行还原与剪切，且剪辑的内容为具有人声片段的视频内容，从而提高了用户视频剪辑的满意度。可以理解的，在本发明其他实施例中，还可以根据用户在视频剪辑界面的配置信息，以及用户进行视频剪辑的历史数据，对所需剪辑的录像视频进行有针对性的剪辑，减少用户进行视频剪辑的操作步骤，提高用户剪辑的满意度，其中配置信息可以为剪辑的特征剪辑、人物剪辑、画面剪辑中的一种或多种，发明人可根据实际应用需求进行调整，在此不做限制。

请参阅图3，提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括如下步骤：

步骤S1041，获取所述录像视频中包含人物说话的图像帧，对该图像帧中的人物口型及人体动作进行图像识别及分析，以得到人物口型的唇部信息及人体动作的动作信息。

步骤S1042，对所述人物口型的唇部信息及人体动作的动作信息进行特征提取，从而得到对应的图像特征数据。

如上所述，通过将录像视频分成若干帧的图像，对各帧图像中的人物口型及人体动作进行图像识别与分析，根据人物口型的唇部信息、人体动作的动作信息进行特征提取，从而得到对应的图像特征数据，以便于根据图像特征数据、各帧图像间人物口型和人体动作的变化率，以及有效人声数据所对应的文本的语义对视频内容进行还原与剪切，以使剪辑的内容为具有人声片段的视频内容。

在此还需要说明的是，所述方法还包括：将有效人声数据所对应的文本进行语意分割，以得到多个分割语意；在素材库中搜索与所述分割语义相匹配的音频及视频贴纸，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置。

进一步地，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括：根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置，并根据贴纸放置的有效位置的调整该视频壁纸的大小；根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息；根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间，计算该视频贴纸与音频在视频录像中出现的时间。

具体的，将有效人生数据所对应的文本从前向后进行语义分割，得到多个分割语义，该分割语义可以为地址、名称、词语或句子中的一种或多种；在素材库中搜索与所述分割语义相匹配的音频及视频贴纸，如该当前视频画面的人脸矩形数据宽度大于显示屏幕宽度的30％，则将矩形宽度加宽40％，矩形上半部分加高60％，矩形下半部分加高30％，确保整个矩形宽度不少于显示屏幕宽度的65％，之后画出该矩形的内切椭圆，椭圆上的点为贴纸出现备用点(等分为8-10个)，在屏幕外的点为不可用点，计算时会在每个点放一个默认视频贴纸大小(该贴纸宽度为人脸扩大矩形宽度的45％)，若该放置此处的视频贴纸面积超出屏幕20％，则判定此点为无效点。排除掉不可用点和无效点之后的点为有效可用，最终视频贴纸出现位置为随机出现在有效可用点，且下一视频贴纸出现点需避开上一视频贴纸的出现点。最终呈现效果为视频贴纸围绕人脸出现，但不遮挡人脸；若最终判断有效可用点少于3个，则居中一个width＝80％playerWidth，height＝70％(playerHeight-安全区域的矩形，此时判断矩形的中心点上偏/下偏程度是否大于屏幕高度的5％，若是则只采用反方向的点；若该视频画面无人脸或者人脸小于屏幕宽度的30％，则在屏幕居中放一300*380的默认矩形，内切椭圆上的点为默认的有效可用点，视频贴纸会出现于这些点，此时视频贴纸尺寸为矩形宽度的60％。其中所有的视频贴纸出现在屏幕左边的偏角为顺时针0-45度，出现在屏幕右边的偏角为逆时针0-45度。视频贴纸出现时间为该贴纸所匹配文字在视频音轨的出现时间；如当前画面的有效人声数据的文本的出现时间为20秒，则对从素材库中获取的与当前文本语义/语境相符的音频片段进行剪贴与音轨信息调整，使该音频出现时间为该音频所匹配文字在视频音轨的出现时间，且该音频的音量为有效人生数据的43～60％。

请参阅图4，基于同一发明构思，本发明第二实施例提供的利用视频内容进行视频切割的系统，包括：

获取模块10，用于获取用户进行录像操作所产生的录像视频。

判断模块20，用于对所述录像视频中的录像音频进行特征提取，并判断所述录像音频是否受损。

截取模块30，用于提取所述录像音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示。

进一步地，所述截取模块30包括：

记录单元，用于通过AI模型对录像视频中的人声视频片段进行识别，提取所述人声视频片段中的有效人声数据，过滤去背景音，并记录下该有效人声数据所对应的第一时间范围。

具体的，将所述人声数据切割成多个声音子片段，通过快速傅里叶变换提取各声音子片段的频率信息，通过基于CNN VAD算法的AI模型及各声音子片段的频率信息对各声音子片段中的噪声进行滤除后合并成具有连续声音的声音片段，并记录该声音片段所对应的时间段以作为第一时间范围。

调整单元，用于将过滤去背景音的有效人声数据转换为文字，并记录该文字对应的第二时间范围，根据所述第二时间范围对所述第一时间范围进行调整。

合成单元，用于根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成，并将得到的剪辑视频进行效果展示。

拟合模块40，用于提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将所述图像特征数据与过滤去背景音的人声数据进行拟合，并将拟合度最高的视频片段作为剪辑视频进行展示。

进一步地，所述拟合模块40包括：

识别单元，用于获取所述录像视频中包含人物说话的图像帧，对该图像帧中的人物口型及人体动作进行图像识别及分析，以得到人物口型的唇部信息及人体动作的动作信息。

提取单元，用于对所述人物口型的唇部信息及人体动作的动作信息进行特征提取，从而得到对应的图像特征数据。

进一步地，所述拟合单元还包括：

分割单元，用于将有效人声数据所对应的文本进行语意分割，以得到多个分割语意。

具体的，根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置，并根据贴纸放置的有效位置的调整该视频壁纸的大小；根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息。

添加单元，用于在素材库中搜索与所述分割语义相匹配的音频及视频贴纸，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置；根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间，计算该视频贴纸与音频在视频录像中出现的时间。

根据本发明提供的利用视频内容进行视频切割的系统，通过对用户进行录像操作所产生的录像视频中的录像音频进行特征提取，以判断该录像音频是否受损，当该录像视频受损则提取所述录像音频中过滤去背景音的人声数据，并截取含有有效人声所对应的视频片段，以去除吵杂的背景音，并保留带有人声的视频片段，即使在吵杂的环境下拍摄的视频也能够清楚听到说话者的声音；通过在录像音频受损后，提取对录像视频进行图像处理后的人物口型及人体动作的图像特征数据，将该图像特征数据与人声数据进行拟合，以输出拟合度较高的视频片段，实现了在录像音频受损后仍能进行根据录像视频中的图像信息及已有的有效人声片段的语义进行还原，同时减少了录像音频中的无效内容，使视频中说话这的声音更加突出，且可根据视频内容进行贴纸及音效等素材的添加与合成，解决了现有视频剪辑效率低、视频质量差，用户剪辑体验满意度低的问题，满足了实际应用需求。

本发明实施例提出的利用视频内容进行视频切割的系统的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。

此外，本发明的实施例还提出一种介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

此外，本发明的实施例还提出一种智能设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种利用视频内容进行视频切割的方法，其特征在于，所述方法包括如下步骤：

获取用户进行录像操作所产生的录像视频；

2.根据权利要求1所述的利用视频内容进行视频切割的方法，其特征在于，提取所述音频中过滤去背景音的人声数据，截取含有有效人声所对应的视频片段，并将该视频片段作为剪辑视频进行展示的方法包括：

3.根据权利要求2所述的利用视频内容进行视频切割的方法，其特征在于，提取所述人声视频片段中的有效人声数据，过滤去背景音，并记录下该有效人声数据所对应的第一时间范围的方法包括：

4.根据权利要求1所述的利用视频内容进行视频切割的方法，其特征在于，提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括：

5.根据权利要求1所述的利用视频内容进行视频切割的方法，其特征在于，所述方法还包括：

将有效人声数据所对应的文本进行语义分割，以得到多个分割语义；

6.根据权利要求5所述的利用视频内容进行视频切割的方法，其特征在于，将与所述分割语义相匹配的视频贴纸放置于相应的位置，将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括：

根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置，并根据贴纸放置的有效位置的调整该视频贴纸的大小；

7.根据权利要求5所述的利用视频内容进行视频切割的方法，其特征在于，所述方法还包括：

8.一种利用视频内容进行视频切割的系统，其特征在于，所述系统包括：

获取模块，用于获取用户进行录像操作所产生的录像视频；

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任意一项所述的方法。

10.一种智能设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。