CN115086759A

CN115086759A - 视频处理方法、装置、计算机设备及介质

Info

Publication number: CN115086759A
Application number: CN202210524449.2A
Authority: CN
Inventors: 马银建; 江欢; 郑乃光; 黄灵
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-20

Abstract

本公开关于一种视频处理方法、装置、计算机设备及介质，属于视频技术领域，该方法包括：展示视频的目标功能控件，响应于对目标功能控件的触发操作，展示视频的多个视频片段，响应于对多个视频片段中至少两个视频片段的选中操作，对至少两个视频片段进行拼接，得到目标视频片段。本公开实施例中，通过设置目标功能控件，使得用户通过该目标功能控件，就能够触发按照视频中的事件对视频进行切分，以获取该视频中与事件对应的视频片段，进而展示该视频中的多个视频片段，增加了所展示的信息量，以便用户在所展示的视频片段中，能够自行选择想要拼接的视频片段，从而得到目标视频片段，如此，节省了大量的人工交互，提升了人机交互效率。

Description

视频处理方法、装置、计算机设备及介质

技术领域

本公开涉及视频技术领域，尤其涉及一种视频处理方法、装置、计算机设备及介质。

背景技术

随着计算机技术和互联网技术的飞速发展，视频处理技术逐渐成为新兴的研究热点。在视频处理技术中，通过会涉及到视频剪辑的处理过程，该视频剪辑是指对视频进行剪切、合并等处理。

目前，视频剪辑在很大程度上还依赖于人工处理，需要剪辑人员手动操作来进行视频的剪切或合并。如此，耗费了大量的人力劳动，人机交互效率差。

发明内容

本公开提供一种视频处理方法、装置、计算机设备及介质，节省了大量的人工交互，提升了人机交互效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，该方法包括：

展示视频的目标功能控件，该目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能；

响应于对该目标功能控件的触发操作，展示该视频的多个视频片段，其中，一个视频片段对应至少一个事件；

响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

本公开实施例中，通过设置目标功能控件，使得用户通过该目标功能控件，就能够触发按照视频中的事件对视频进行切分，以获取该视频中与事件对应的视频片段，进而展示该视频中的多个视频片段，增加了所展示的信息量，以便用户在所展示的视频片段中，能够自行选择想要拼接的视频片段，从而得到目标视频片段，如此，节省了大量的人工交互，提升了人机交互效率。

在一些实施例中，展示视频的目标功能控件包括：

响应于对该视频的上传操作，获取该视频的视频类别；

若该视频的视频类别为目标视频类别，则展示该视频的目标功能控件。

本公开实施例中，通过在视频的视频类别为目标视频类别的情况下，展示该视频的目标功能控件，以便后续视频处理的顺利进行，确保视频处理的可靠性。

在一些实施例中，获取该视频的视频类别包括：

从该视频中抽取目标帧数的图像，将该目标帧数的图像输入视频分类模型，通过该视频分类模型对该目标帧数的图像进行处理，得到该视频的视频类别，该视频分类模型基于样本视频的图像以及该样本视频的视频类别训练得到。

本公开实施例中，通过视频分类模型来获取该视频的视频类别，能够快速的获取到该视频的视频类别，在提高了获取视频类别的效率的同时，还提升了获取视频类别的准确性。

在一些实施例中，响应于对该目标功能控件的触发操作，展示该视频的多个视频片段包括：

响应于对该目标功能控件的触发操作，按照各个视频片段的片段类型，展示该视频的多个视频片段。

本公开实施例中，按照各个视频片段对应的片段类型，来展示该视频的多个视频片段，增加了所展示的信息量，以便用户及时获知各个视频片段所对应的片段类型。

在一些实施例中，响应于对该目标功能控件的触发操作，按照各个视频片段的片段类型，展示该视频的多个视频片段包括下述任一项：

响应于对该目标功能控件的触发操作，展示该视频对应的至少一个片段类型的触发控件，响应于对任一个片段类型的触发控件的触发操作，展示该视频在该片段类型下的视频片段；

响应于对该目标功能控件的触发操作，展示该视频对应的至少一个片段类型的触发控件以及该视频的多个视频片段，响应于对任一个片段类型的触发控件的触发操作，在该多个视频片段中，以目标状态的形式，展示该视频在该片段类型下的视频片段。

本公开实施例中，提供了两种按照片段类型来展示多个视频片段的方式，丰富了视频片段的展示形式，提升了视频片段的展示效果。

响应于对该目标功能控件的触发操作，以列表的形式，展示该视频的多个视频片段。

本公开实施例中，以列表的形式，展示该视频的多个视频片段，能够更加直观鲜明地展示该视频的多个视频片段，提升了人机交互效率。

在一些实施例中，该方法还包括：

在该视频片段所在区域，展示该视频片段对应的至少一个事件的事件内容。

本公开实施例中，通过展示该视频片段对应事件的事件内容，增加了所展示的信息量，以便用户及时获知该视频片段对应事件的事件内容。

响应于对该目标功能控件的触发操作，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果，该图像识别结果用于指示该视频的多个事件以及该多个事件的事件时间戳，该事件时间戳为该视频发生对应事件的时间戳；

对于任一个事件的事件时间戳，基于该视频中该事件时间戳的前第一时长内的图像、该事件时间戳对应的图像以及该事件时间戳的后第二时长内的图像，确定该事件对应的视频片段；

展示该视频的多个视频片段。

本公开实施例中，通过图像识别得到该视频的多个事件以及该多个事件的事件时间戳，进而利用各个事件的事件时间戳来确定各个事件对应的视频片段，能够快速的确定出该视频的多个视频片段，以便后续该视频的多个视频片段的高效展示。

在一些实施例中，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果包括：

对该视频的多帧图像进行区域检测，得到该视频的区域检测结果，该区域检测结果用于指示该多帧图像中目标区域的位置，该目标区域为与该事件关联的区域；

基于该视频的区域检测结果，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果。

本公开实施例中，通过区域检测，以确定出该多帧图像中与该事件关联的区域，进而利用所确定出的区域来进行图像识别，能够极大地提升图像识别的效率，避免对无关区域进行图像识别而耗费时间。

在一些实施例中，对该视频的多帧图像进行区域检测，得到该视频的区域检测结果包括：

将该视频的多帧图像输入区域检测模型，通过该区域检测模型对该多帧图像进行区域检测，得到该视频的区域检测结果，该区域检测模型基于样本视频的图像以及该样本视频的区域检测结果训练得到。

本公开实施例中，通过区域检测模型来进行区域检测，能够快速的检测出该视频的目标区域，在提高了区域检测的效率的同时，还提升了区域检测的准确性。

基于该视频的视频类别，确定该视频的区域范围，该区域范围用于指示该目标区域所在的范围；

在该多帧图像的区域范围内进行区域检测，得到该视频的区域检测结果。

本公开实施例中，通过先确定该视频的区域范围，再在该多帧图像的区域范围内进行区域检测，能够极大地提升图像识别的效率，避免对无关区域进行区域检测而耗费时间。

从该视频中提取至少一帧关键图像，对该至少一帧关键图像进行区域检测，得到该至少一帧关键图像的区域检测结果；

对于包含该目标区域的任一帧关键图像，若该关键图像的区域检测结果与该关键图像之后的多帧图像的区域检测结果匹配，则将该关键图像的区域检测结果确定为该视频的区域检测结果。

本公开实施例中，利用视频中的至少一帧关键图像来进行区域检测，进而在关键图像的区域检测结果稳定的情况下，将其作为视频的区域检测结果，避免对视频中多帧图像进行区域检测而耗费时间，进一步提升了区域检测的效率。

将该视频的多帧图像输入图像识别模型，通过该图像识别模型对该多帧图像进行图像识别，得到该视频的图像识别结果，该图像识别模型基于样本视频的图像以及该样本视频的图像识别结果训练得到。

本公开实施例中，通过图像识别模型来进行图像识别，能够快速的确定出该视频的图像识别结果，在提高了图像识别的效率的同时，还提升了图像识别的准确性。

在一些实施例中，基于该视频的区域检测结果，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果包括：

基于该视频的区域检测结果，从该视频的多帧图像中，提取该目标区域所在的图像块，得到图像块序列；

对该图像块序列中的多个图像块进行图像识别，得到该视频的图像识别结果。

本公开实施例中，通过获取包括目标区域的图像块序列，进而基于所获取的图像块序列来进行图像识别的过程，无需对整幅图像进行图像识别，只需对图像块进行图像识别，进一步提升了图像识别的效率。

基于该视频的区域检测结果，对该多帧图像中的目标区域进行图像识别，得到该多帧图像中目标区域的区域信息；

在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳，该变化信息用于指示引起该变化的事件；

基于该目标区域的变化信息以及该时间戳，确定该视频的图像识别结果。

本公开实施例中，对于视频中相邻的任意两帧图像，在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳，进而也就获取到了该视频的图像识别结果，如此，能够快速获取到该视频的图像识别结果，提高了获取该视频的图像识别结果的效率。

在一些实施例中，在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳包括：

在该视频中，每间隔第三时长提取一帧目标图像，得到多帧目标图像，基于该视频的区域检测结果，分别对该多帧目标图像进行图像识别，得到该多帧目标图像中目标区域的区域信息；

对于该多帧目标图像中相邻的任意两帧目标图像，在后一帧目标图像的区域信息与前一帧目标图像的区域信息相比较发生变化的情况下，提取该两帧目标图像之间的第一中间图像，对该第一中间图像进行图像识别，得到该第一中间图像中目标区域的区域信息；

若该第一中间图像的区域信息与该后一帧目标图像的区域信息相同，则提取该第一中间图像与该前一帧目标图像之间的第二中间图像，或，若该第一中间图像的区域信息与该前一帧目标图像的区域信息相同，则提取该第一中间图像与该后一帧目标图像之间的第三中间图像；

重复执行上述判断区域信息是否相同以及提取中间图像的步骤，直至满足误差条件，基于满足误差条件的中间图像的区域信息获取该目标区域的变化信息以及获取满足误差条件的中间图像的时间戳。

本公开实施例中，通过将二分抽帧的方式和图像识别的方式结合，无需对该视频的多帧图像均进行图像识别，只需在区域信息发生变化的情况下进行二分抽帧，对二分抽帧得到的图像进行图像识别即可，提升了图像识别的效率。

在一些实施例中，该误差条件为识别误差小于误差阈值，该识别误差表示该后一帧图像的时间戳与所提取的中间图像的时间戳之间的误差。

在一些实施例中，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果之后，该方法还包括：

基于该视频的图像识别结果，确定该视频的多个事件对应的音频片段；

对该多个事件对应的音频片段进行音频识别，得到该多个事件的音频识别结果，该音频识别结果用于指示该视频发生对应事件的事件内容；

对于任一个事件对应的音频识别结果，若该音频识别结果与对应的视频片段匹配，则将该音频识别结果对应的音频片段与该视频片段融合，得到融合后的该视频片段。

本公开实施例中，通过对该视频的多个事件对应的音频片段进行音频识别，以得到该多个事件的音频识别结果，进而在音频识别结果与对应的视频片段匹配的情况下，将该音频识别结果对应的音频片段与该视频片段融合，增加了确定视频片段所参考的信息量，提升了视频处理的准确性。

在一些实施例中，基于该视频的图像识别结果，确定该视频的多个事件对应的音频片段包括：

对于该图像识别结果所指示的任一个事件的事件时间戳，基于该事件时间戳的前第四时长内的音频片段、该事件时间戳对应的音频以及该事件时间戳的后第五时长内的音频片段，确定该事件对应的音频片段。

本公开实施例中，利用各个事件的事件时间戳，来获取该事件时间戳的前一段时长内的音频片段、该事件时间戳对应的音频以及该事件时间戳的后一段时长内的音频片段，能够快速获取到各个事件对应的音频片段，提升了获取各个事件的音频片段的效率。

在一些实施例中，对该多个事件对应的音频片段进行音频识别，得到该多个事件的音频识别结果包括：

将该多个事件对应的音频片段输入音频识别模型，通过该音频识别模型对该音频片段进行音频识别，得到该多个事件的音频识别结果，该音频识别模型基于样本音频以及该样本音频的音频识别结果训练得到。

本公开实施例中，通过音频识别模型来进行图像识别，能够快速的确定出该视频的音频识别结果，在提高了音频识别的效率的同时，还提升了音频识别的准确性。

在一些实施例中，基于该视频中该事件时间戳的前第一时长内的图像、该事件时间戳对应的图像以及该事件时间戳的后第二时长内的图像，确定该事件对应的视频片段之后，该方法还包括：

若该多个视频片段中的至少两个视频片段存在重合片段，将该至少两个视频片段融合，得到融合后的该视频片段；

基于融合后的该视频片段，执行该展示该视频的多个视频片段的步骤。

本公开实施例中，通过将具有重合片段的视频片段进行融合，能够获取到画面衔接更加连贯的视频片段，提升了视频片段的显示效果。

在一些实施例中，将该至少两个视频片段融合，得到融合后的该视频片段之后，该方法还包括：

若该融合后的该视频片段所包括的至少两个视频片段对应不同的事件，将优先级最高的事件的事件类型，确定为该融合后的该视频片段的片段类型。

本公开实施例中，通过设置各个事件的优先级，在一个视频片段对应多个事件的情况下，能够按照各个事件的优先级来确定该视频片段的片段类型，能够快速获取该视频片段的片段类型，以便后续按照片段类型来分类型展示视频片段。

若该融合后的该视频片段所包括的至少两个视频片段对应相同的事件，将该事件的事件类型，确定为该融合后的该视频片段的片段类型以及在该至少两个视频片段的最后一个视频片段上，添加该片段类型的标记。

本公开实施例中，在一个视频片段对应多个相同事件的情况下，将该事件的事件类型确定为该视频片段的片段类型即可，且只需要在最后一个事件上标记该片段类型即可，提升了视频处理的灵活性。

在一些实施例中，该方法还包括：

对于已选中的视频片段，响应于在该视频片段所在区域的触发操作，播放该视频片段；

对于未选中的视频片段，响应于在该视频片段所在区域的触发操作，将该视频片段展示为选中状态。

本公开实施例中，针对已选中的视频片段和未选中的视频片段，提供了不同的交互方式，提升了人机交互效率。

在一些实施例中，该方法还包括下述至少一项：

在终端已登录对象首次上传该视频的情况下，展示视频提示信息，该视频提示信息用于提示按照该视频中的事件对该视频进行切分的功能；

在该目标功能控件所在区域，展示控件提示信息，该控件提示信息用于提示基于该目标功能控件来触发按照该视频中的事件对该视频进行切分的功能；

在该视频的时长小于目标时长的情况下，展示时长提示信息，该时长提示信息用于提示该视频的时长不符合时长条件；

在该视频不包括任一事件对应的视频片段的情况下，展示识别提示信息，该识别提示信息用于提示该视频不包括任一事件对应的视频片段；

在网络异常的情况下，展示异常提示信息，该异常提示信息用于提示网络异常。

本公开实施例中，通过在视频处理的过程中，显示上述多种提示信息中的一项或两项，增加了所显示的信息量。

根据本公开实施例的第二方面，提供一种视频处理装置，该装置包括：

控件展示单元，被配置为执行展示视频的目标功能控件，该目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能；

片段展示单元，被配置为执行响应于对该目标功能控件的触发操作，展示该视频的多个视频片段，其中，一个视频片段对应至少一个事件；

拼接单元，被配置为执行响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

在一些实施例中，该控件展示单元，包括：

获取子单元，被配置为执行响应于对该视频的上传操作，获取该视频的视频类别；

展示子单元，被配置为执行若该视频的视频类别为目标视频类别，则展示该视频的目标功能控件。

在一些实施例中，该获取子单元，被配置为执行：

在一些实施例中，该片段展示单元，被配置为执行：

在一些实施例中，该片段展示单元，被配置为执行下述任一项：

在一些实施例中，该片段展示单元，被配置为执行：

在一些实施例中，该片段展示单元，还被配置为执行：

在一些实施例中，该片段展示单元，包括：

识别子单元，被配置为执行响应于对该目标功能控件的触发操作，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果，该图像识别结果用于指示该视频的多个事件以及该多个事件的事件时间戳，该事件时间戳为该视频发生对应事件的时间戳；

确定子单元，被配置为执行对于任一个事件的事件时间戳，基于该视频中该事件时间戳的前第一时长内的图像、该事件时间戳对应的图像以及该事件时间戳的后第二时长内的图像，确定该事件对应的视频片段；

展示子单元，被配置为执行展示该视频的多个视频片段。

在一些实施例中，该识别子单元，包括：

区域检测子单元，被配置为执行对该视频的多帧图像进行区域检测，得到该视频的区域检测结果，该区域检测结果用于指示该多帧图像中目标区域的位置，该目标区域为与该事件关联的区域；

图像识别子单元，被配置为执行基于该视频的区域检测结果，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果。

在一些实施例中，该区域检测子单元，被配置为执行：

在一些实施例中，该图像识别子单元，被配置为执行：

在一些实施例中，该图像识别子单元，包括：

图像识别模块，被配置为执行基于该视频的区域检测结果，对该多帧图像中的目标区域进行图像识别，得到该多帧图像中目标区域的区域信息；

获取模块，被配置为执行在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳，该变化信息用于指示引起该变化的事件；

确定模块，被配置为执行基于该目标区域的变化信息以及该时间戳，确定该视频的图像识别结果。

在一些实施例中，该获取模块，被配置为执行：

在一些实施例中，该装置还包括：

音频片段确定单元，被配置为执行基于该视频的图像识别结果，确定该视频的多个事件对应的音频片段；

音频识别单元，被配置为执行对该多个事件对应的音频片段进行音频识别，得到该多个事件的音频识别结果，该音频识别结果用于指示该视频发生对应事件的事件内容；

第一融合单元，被配置为执行对于任一个事件对应的音频识别结果，若该音频识别结果与对应的视频片段匹配，则将该音频识别结果对应的音频片段与该视频片段融合，得到融合后的该视频片段。

在一些实施例中，该音频片段确定单元，被配置为执行：

在一些实施例中，该音频识别单元，被配置为执行：

在一些实施例中，该装置还包括第二融合单元，被配置为执行若该多个视频片段中的至少两个视频片段存在重合片段，将该至少两个视频片段融合，得到融合后的该视频片段；

该片段展示单元，还被配置为执行基于融合后的该视频片段，执行该展示该视频的多个视频片段的步骤。

在一些实施例中，该装置还包括：

片段类型确定单元，被配置为执行若该融合后的该视频片段所包括的至少两个视频片段对应不同的事件，将优先级最高的事件的事件类型，确定为该融合后的该视频片段的片段类型。

在一些实施例中，该装置还包括：

添加单元，被配置为执行若该融合后的该视频片段所包括的至少两个视频片段对应相同的事件，将该事件的事件类型，确定为该融合后的该视频片段的片段类型以及在该至少两个视频片段的最后一个视频片段上，添加该片段类型的标记。

在一些实施例中，该装置还包括播放单元，被配置为执行对于已选中的视频片段，响应于在该视频片段所在区域的触发操作，播放该视频片段；

该片段展示单元，还被配置为执行对于未选中的视频片段，响应于在该视频片段所在区域的触发操作，将该视频片段展示为选中状态。

在一些实施例中，该装置还包括信息展示单元，被配置为执行下述至少一项：

根据本公开实施例的第三方面，提供一种计算机设备，该计算机设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行上述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的视频处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频处理方法的流程图；

图3是根据一示例性实施例示出的一种视频处理方法的流程图；

图4是根据一示例性实施例示出的一种视频上传页面的访问入口的示意图；

图5是根据一示例性实施例示出的一种视频上传页面的示意图；

图6是根据一示例性实施例示出的一种视频处理页面的示意图；

图7是根据一示例性实施例示出的一种视频处理页面的示意图；

图8是根据一示例性实施例示出的一种融合视频片段的示意图；

图9是根据一示例性实施例示出的一种视频处理流程的示意图；

图10是根据一示例性实施例示出的一种视频处理页面的示意图；

图11是根据一示例性实施例示出的一种视频处理页面的示意图；

图12是根据一示例性实施例示出的一种视频处理页面的示意图；

图13是根据一示例性实施例示出的一种视频处理页面的示意图；

图14是根据一示例性实施例示出的一种正在识别的提示信息的示意图；

图15是根据一示例性实施例示出的一种识别提示信息的示意图；

图16是根据一示例性实施例示出的一种异常提示信息的示意图；

图17是根据一示例性实施例示出的一种视频处理装置的框图；

图18是根据一示例性实施例示出的一种终端的框图；

图19是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开实施例中涉及到的视频等都是在充分授权的情况下获取的。在一些实施例中，终端提供有权限询问页面，该权限询问页面用于询问用户是否授予视频的获取权限，在该权限询问页面中，显示同意授权控件和拒绝授权控件，在检测到用户对该同意授权控件的触发操作的情况下，利用本公开实施例所提供的视频处理方法来获取视频，进而按照该视频中的事件对该视频进行切分，以获取该视频的多个视频片段。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。终端101具有通信功能，可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

在一些实施例中，终端101运行有具备视频处理功能的目标应用程序，例如视频剪辑应用程序或短视频应用程序。本公开实施例中，终端101用于展示视频的目标功能控件，响应于对该目标功能控件的触发操作，展示该视频的多个视频片段，响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，服务器102与终端101通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。本公开实施例中，服务器102为终端101所运行的目标应用程序提供后台服务。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，该方法由计算机设备执行，该计算机设备可提供为上述图1所示出的终端，示意性地，该方法包括以下步骤：

在步骤201中，终端展示视频的目标功能控件，该目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能。

在步骤202中，终端响应于对该目标功能控件的触发操作，展示该视频的多个视频片段，其中，一个视频片段对应至少一个事件。

在步骤203中，终端响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

本公开实施例提供的技术方案，通过设置目标功能控件，使得用户通过该目标功能控件，就能够触发按照视频中的事件对视频进行切分，以获取该视频中与事件对应的视频片段，进而展示该视频中的多个视频片段，增加了所展示的信息量，以便用户在所展示的视频片段中，能够自行选择想要拼接的视频片段，从而得到目标视频片段，如此，节省了大量的人工交互，提升了人机交互效率。

在一些实施例中，展示视频的目标功能控件包括：

响应于对该视频的上传操作，获取该视频的视频类别；

在一些实施例中，获取该视频的视频类别包括：

在一些实施例中，该方法还包括：

展示该视频的多个视频片段。

在一些实施例中，该方法还包括：

在一些实施例中，该方法还包括下述至少一项：

上述图2所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种视频处理方法的流程图，参见图3，该方法包括：

在步骤301中，终端响应于对视频的上传操作，获取该视频的视频类别。

其中，视频为待进行视频处理的视频。本公开实施例中，终端运行有具备视频处理功能的目标应用程序，例如视频剪辑应用程序或短视频应用程序。在一些实施例中，终端所运行的目标应用程序提供有视频上传页面，该视频上传页面用于对待进行视频处理的视频进行上传，相应地，步骤301可替换为：终端响应于在视频上传页面中对视频的上传操作，触发获取该视频的视频类别的过程。

针对上述目标应用程序所提供的视频上传页面，在一些实施例中，该目标应用程序还提供有视频上传页面的访问入口，例如在该目标应用程序的首页中展示该视频上传页面的访问入口，相应地，响应于对该视频上传页面的访问入口的触发操作，展示该视频上传页面，以便在该视频上传页面中上传待进行视频处理的视频。

示例地，图4是根据一示例性实施例示出的一种视频上传页面的访问入口的示意图，参见图4，在图4所示出的页面中，视频上传页面的访问入口为图4所示出的“开始剪辑”控件，响应于对该“开始剪辑”控件的触发操作(如点击操作)，展示如图5所示出的视频上传页面，图5是根据一示例性实施例示出的一种视频上传页面的示意图，在图5所示出的视频上传页面中，显示有多个候选视频，响应于在该多个候选视频中的选择操作，将被选中的候选视频展示为选中状态，进而，响应于对被选中的候选视频的上传操作，将被选中的候选视频上传。

视频类别为视频的内容类别，在一些实施例中，终端利用视频分类模型，来获取该视频的视频类别，相应过程为：从该视频中抽取目标帧数的图像，将该目标帧数的图像输入视频分类模型，通过该视频分类模型对该目标帧数的图像进行处理，得到该视频的视频类别。在该实施例中，通过视频分类模型来获取该视频的视频类别，能够快速的获取到该视频的视频类别，在提高了获取视频类别的效率的同时，还提升了获取视频类别的准确性。

其中，目标帧数为预先设定的固定帧数，如三帧。在一些实施例中，从视频的首部位置、中间位置以及尾部位置，分别抽取一帧图像，得到三帧图像，再将所抽取得到的三帧图像输入上述视频分类模型中进行分类。例如，首部位置可以是视频时长的10％对应的时间戳，中间位置可以是视频时长的50％对应的时间戳，尾部位置可以是视频时长的90％对应的时间戳。上述实施例以抽取三帧图像为例对方案进行说明，在另一些实施例中，终端还能够从该视频中抽取其他帧数(如4帧或5帧)的图像来进行分类，或者，终端还能够基于该视频所包括的多帧图像进行分类，本公开实施例对此不作限定。

视频分类模型提供有对视频进行分类的功能。在一些实施例中，该视频分类模型基于样本视频的图像以及该样本视频的视频类别训练得到，其中，视频分类模型的训练过程包括：终端基于样本视频的图像以及该样本视频的视频类别，进行模型训练，得到该视频分类模型。进一步地，在一些实施例中，在模型训练的第m次迭代过程中，将该样本视频的图像输入第m-1次迭代过程所确定的视频分类模型，得到该第m次迭代过程所得到的分类训练结果；基于该第m次迭代过程所得到的分类训练结果和该样本视频的视频类别，对该第m-1次迭代过程所确定的视频分类模型的模型参数进行调整，在调整后的视频分类模型不满足目标条件的情况下，基于调整后的该模型参数进行第m+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。其中，该m为大于1的正整数。在一些实施例中，训练满足的目标条件为模型的训练迭代次数达到目标次数，该目标次数为预先设定的训练迭代次数，如1000次；或者，训练满足的目标条件为损失值满足目标阈值条件，如损失值小于0.00001。本公开实施例对目标条件的设置不加以限定。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为视频分类模型，以获取到预测能力较优的视频分类模型，从而提升了视频分类模型的预测准确性。

在一些实施例中，步骤301由终端和服务器共同执行，相应过程为：终端响应于对视频的上传操作，向服务器发送类别获取请求，以请求该服务器获取该视频的视频类别，进而，服务器接收该类别获取请求，基于该类别获取请求所携带的视频，获取该视频的视频类别，并将该视频的视频类别返回至终端，以供终端基于该视频类别执行步骤302。

在步骤302中，若该视频的视频类别为目标视频类别，则终端展示该视频的目标功能控件，该目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能。

上述步骤301至步骤302，是在视频的视频类别为目标视频类别的情况下，展示视频的目标功能控件的过程，如此，通过在视频的视频类别为目标视频类别的情况下，展示该视频的目标功能控件，以便后续视频处理的顺利进行，确保视频处理的可靠性。

其中，目标视频类别为预先设定的视频类别，如游戏类别。在一些实施例中，以目标视频类别为游戏类别为例，上述步骤301所示出的视频分类模型可提供为二分类模型，用于对视频是否属于游戏类别进行分类，或者，上述步骤301所示出的视频分类模型可提供为多分类模型，用于对视频的游戏类别进行分类，如对视频的游戏类别为A游戏还是B游戏还是其他类型进行分类。需要说明的是，对于步骤301中视频所抽取的目标帧数的图像，若存在任意一帧图像属于游戏类别，则表示该视频为游戏类别。本公开实施例后续以目标视频类别为游戏类别为例对方案进行说明。

本公开实施例中，目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能，相应地，在一些实施例中，上述视频为待按照该视频中的事件进行切分的视频。需要说明的是，本公开实施例后续提供了一种按照视频中的事件对视频进行切分的方法，以切分得到多个事件对应的视频片段。其中，事件是指视频中的内容事件，以游戏类别的视频为例，该视频中的内容事件可以是击杀事件、助攻事件、死亡事件，进一步地，该视频中的内容事件还可以是技能释放事件、目标击杀事件、血量变化事件等等。上述示例以动态事件为例，在另一些实施例中，该视频中的内容事件还可以是静态事件，如游戏玩家的账号昵称等。

在游戏类别的视频中，击杀事件是指游戏玩家所控制的虚拟对象击杀另一队伍中游戏玩家所控制的虚拟对象的事件，其中，该虚拟对象是指游戏中的可活动对象，如虚拟人物、虚拟动物或动漫人物等，应理解的是，该虚拟对象也即是游戏中的一个虚拟的用于代表游戏玩家的虚拟形象。在一些实施例中，击杀事件包括普通击杀事件(如单杀)、多杀事件(如双杀、三杀等)、连杀事件(如三连杀、四连杀等)、特殊击杀事件(如首杀，或称作第一滴血)等，应理解的是，多杀是指在短时间内击杀游戏中的多个虚拟对象，如在10秒内击杀游戏中的三个虚拟对象称作三杀，连杀是指在不死亡的情况下连续击杀游戏中的多个虚拟对象，如在不死亡的情况下连续击杀游戏中的三个虚拟对象称作三连杀。助攻事件是指游戏玩家所控制的虚拟对象为同一队伍中的其他游戏玩家提供帮助的事件。死亡事件是指游戏玩家所控制的虚拟对象的生命值消耗为零的事件。技能释放事件是指游戏玩家所控制的虚拟对象释放技能的事件，如闪现技能释放事件或点燃技能释放事件等。目标击杀事件是指游戏玩家所控制的虚拟对象击杀目标的事件，目标为预先设定的游戏击杀目标。血量变化事件是指游戏玩家所控制的虚拟对象的生命值增加或减少的事件。如此，针对游戏类别的视频，按照视频中的事件对视频进行切分，能够切分得到多个与事件相关的视频片段，实现了针对游戏高光片段的自动切分。本公开实施例后续以游戏类别的视频中的击杀事件、助攻事件、死亡事件为例对方案进行说明。

在一些实施例中，以在视频上传页面中上传视频为例，若该视频的视频类别为目标视频类别，则终端从该视频上传页面跳转至视频处理页面，在该视频处理页面中展示该视频的目标功能控件，该视频处理页面用于对该视频进行视频处理，例如，该视频处理页面可提供为视频剪辑页面。示例地，图6是根据一示例性实施例示出的一种视频处理页面的示意图，参见图6，在图6所示出的视频处理页面中，以游戏类别的视频为例，目标功能控件也即是图6所示出的“游戏高光”控件。

在一些实施例中，终端还在该目标功能控件所在区域，展示控件提示信息，该控件提示信息用于提示基于该目标功能控件来触发按照该视频中的事件对该视频进行切分的功能。在一些实施例中，参见图6，终端以气泡的形式，展示该控件提示信息，以游戏类别的视频为例，控件提示信息的内容可以是“智能获取高光时刻”。

上述实施例是从视频上传页面直接跳转至视频处理页面进行目标功能控件的展示，在另一些实施例中，终端展示该视频的目标功能控件之前，在终端已登录对象首次上传该视频的情况下，还展示视频提示信息，该视频提示信息用于提示按照该视频中的事件对该视频进行切分的功能。在一些实施例中，终端从该视频上传页面跳转至视频处理页面，在该视频处理页面中展示该视频提示信息。示例地，图7是根据一示例性实施例示出的一种视频处理页面的示意图，参见图7，在一些实施例中，终端在视频处理页面中，以弹窗的形式，展示该视频提示信息，以游戏类别的视频为例，视频提示信息的内容可以是“智能识别游戏的高光片段”。进一步地，在一些实施例中，终端在展示视频提示信息的同时，还展示功能触发入口，如图7所示出的“立即体验”控件，以便用户基于该功能触发入口能够快速触发该按照该视频中的事件对该视频进行切分的功能，例如通过点击该“立即体验”控件能够触发展示如图6所示出的视频处理页面。在一些实施例中，终端在展示视频提示信息的同时，还展示视频提示信息的关闭控件，如图7所示出的“×”控件，以便用户通过该关闭控件来触发关闭该视频提示信息。

上述实施例是基于在视频上传页面中对视频的上传操作，来触发获取视频的视频类别的过程，也就是说，该视频为新创建(或称作新上传)的视频。在另一些实施例中，该视频还能够是新导入的视频，例如，终端在视频处理页面中对某一个视频进行处理的过程中，还能够导入一个新的视频，例如，视频处理页面提供有“项目导入”控件或“画中画”控件，基于该“项目导入”控件或“画中画”控件，能够触发导入一个新的视频，进而，终端响应于对该视频的导入操作，获取该视频的视频类别，在该视频的视频类别为目标视频类别的情况下，展示该视频的目标功能控件。当然，终端还能够基于其他方式来触发获取视频的视频类别，本公开实施例对此不作限定。

需要说明的是，上述步骤301至步骤302是以在视频的视频类别为目标视频类别的情况下，展示视频的目标功能控件的过程，而在另一些实施例中，终端无需执行获取该视频的视频类别以及判断该视频的视频类别是否为目标视频类别的过程，也即是，响应于对视频的上传操作，展示该视频的目标功能控件。

在步骤303中，终端响应于对该目标功能控件的触发操作，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果，该图像识别结果用于指示该视频的多个事件以及该多个事件的事件时间戳，该事件时间戳为该视频发生对应事件的时间戳。

下面基于步骤(303A)至步骤(303B)对上述步骤303的过程进行说明：

在步骤(303A)中，终端对该视频的多帧图像进行区域检测，得到该视频的区域检测结果，该区域检测结果用于指示该多帧图像中目标区域的位置。

其中，该目标区域为与该事件关联的区域。以游戏类别的视频中的击杀事件、助攻事件、死亡事件为例，该目标区域为游戏比分区域，该游戏比分区域用于记录游戏中击杀事件、助攻事件、死亡事件的数量，例如kda(kill-击杀，death-死亡，assists-助攻)比分区域所示出的kda比分。

在一些实施例中，终端利用区域检测模型，来对该视频的多帧图像进行区域检测，相应过程为：将该视频的多帧图像输入区域检测模型，通过该区域检测模型对该多帧图像进行区域检测，得到该视频的区域检测结果。在该实施例中，通过区域检测模型来进行区域检测，能够快速的检测出该视频的目标区域，在提高了区域检测的效率的同时，还提升了区域检测的准确性。

其中，区域检测模型提供有对图像中目标区域进行检测的功能。在一些实施例中，该区域检测模型基于样本视频的图像以及该样本视频的区域检测结果训练得到，其中，区域检测模型的训练过程包括：终端基于样本视频的图像以及该样本视频的区域检测结果，进行模型训练，得到该区域检测模型。进一步地，在一些实施例中，在模型训练的第n次迭代过程中，将该样本视频的图像输入第n-1次迭代过程所确定的区域检测模型，得到该第n次迭代过程所得到的检测训练结果；基于该第n次迭代过程所得到的检测训练结果和该样本视频的区域检测结果，对该第n-1次迭代过程所确定的区域检测模型的模型参数进行调整，在调整后的区域检测模型不满足目标条件的情况下，基于调整后的该模型参数进行第n+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。其中，该n为大于1的正整数。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为区域检测模型，以获取到预测能力较优的区域检测模型，从而提升了区域检测模型的检测准确性。

在一些实施例中，终端还基于该视频的视频类别，确定该视频的区域范围，进而，在该多帧图像的区域范围内进行区域检测，得到该视频的区域检测结果。

其中，该区域范围用于指示该目标区域所在的范围。例如，若该视频的视频类别为第一视频类别(如A游戏)，则确定该视频的区域范围为左上角，进而，在该多帧图像的左上角进行区域检测；或者，若该视频的视频类别为第二视频类别(如B游戏)，则确定该视频的区域范围为右上角，进而，在该多帧图像的右上角进行区域检测。在一些实施例中，视频的视频类别基于步骤301所示出的视频分类模型确定，例如，视频分类模型可提供为三分类模型，用于对视频为A游戏、B游戏还是其他类型进行分类。在一些实施例中，将目标帧数的图像输入视频分类模型之后，输出该目标帧数的图像的类别，若该目标帧数的图像分别对应不同的类别时，将视频分类模型所输出的置信度最高的图像的类别，确定为该视频的视频类别。例如，以目标帧数为三帧为例，假设其中一帧为其他类型，一帧为A游戏(置信度90分)，另一帧为B游戏(置信度50分)，则确定该视频的视频类别为A游戏。

在上述实施例中，通过先确定该视频的区域范围，再在该多帧图像的区域范围内进行区域检测，能够极大地提升图像识别的效率，避免对无关区域进行区域检测而耗费时间。

在一些实施例中，终端从该视频中提取至少一帧关键图像，对该至少一帧关键图像进行区域检测，得到该至少一帧关键图像的区域检测结果，对于包含该目标区域的任一帧关键图像，若该关键图像的区域检测结果与该关键图像之后的多帧图像的区域检测结果匹配，则将该关键图像的区域检测结果确定为该视频的区域检测结果。

其中，关键图像也即是关键帧，在一些实施例中，终端利用关键帧提取算法，来提取该视频中的至少一帧关键图像，以便后续对该至少一帧关键图像进行区域检测。该关键图像的区域检测结果与该关键图像之后的多帧图像的区域检测结果匹配是指该关键图像的区域检测结果与该关键图像之后的多帧图像的区域检测结果相同，例如，该关键图像的区域检测结果与该关键图像之后的多帧图像中第一预设帧数的图像的区域检测结果相同；或者，该关键图像的区域检测结果与该关键图像之后的多帧图像的区域检测结果之间的相似度达到相似度阈值，例如，该关键图像的区域检测结果与该关键图像之后的多帧图像中第一预设帧数的图像的区域检测结果之间的相似度达到相似度阈值。本公开实施例对此不作限定。

在上述实施例中，利用视频中的至少一帧关键图像来进行区域检测，进而在关键图像的区域检测结果稳定的情况下，将其作为视频的区域检测结果，避免对视频中多帧图像进行区域检测而耗费时间，进一步提升了区域检测的效率。

在一些实施例中，对于包含该目标区域的任一帧关键图像，从该关键图像之后的多帧图像中，提取第二预设帧数的图像，基于所提取的第二预设帧数的图像的区域检测结果，来判断该关键图像的区域检测结果与第二预设帧数的图像的区域检测结果是否匹配，进而在该关键图像的区域检测结果与第二预设帧数的图像的区域检测结果匹配的情况下，将该关键图像的区域检测结果确定为该视频的区域检测结果。如此，通过从关键图像之后的多帧图像中提取预设帧数的图像，利用所提取的预设帧数的图像进行后续的匹配判断过程，无需对全部的图像进行匹配判断的过程，极大地减少了终端的处理内容，从而提升了终端的处理效率。

其中，针对一帧图像进行区域检测的过程，在一些实施例中，终端预先设定有目标区域的关键图标，如游戏比分的图标或齿轮状的设置图标等，进而基于该关键图标对图像进行区域检测，将图像中包括该关键图标的区域确定为该目标区域。在一些实施例中，区域检测结果为矩形检测框的形式，或者，区域检测结果为目标区域的位置坐标。本公开实施例对此不作限定。

在上述实施例中，通过区域检测，以确定出该多帧图像中与该事件关联的区域，进而利用所确定出的区域来进行图像识别，能够极大地提升图像识别的效率，避免对无关区域进行图像识别而耗费时间。

在步骤(303B)中，终端基于该视频的区域检测结果，对该视频的多帧图像进行图像识别，得到该视频的图像识别结果。

在一些实施例中，终端利用图像识别模型，来对该视频的多帧图像进行图像识别，相应过程为：将该视频的多帧图像输入图像识别模型，通过该图像识别模型对该多帧图像进行图像识别，得到该视频的图像识别结果。在该实施例中，通过图像识别模型来进行图像识别，能够快速的确定出该视频的图像识别结果，在提高了图像识别的效率的同时，还提升了图像识别的准确性。

其中，图像识别模型提供有对图像中的事件进行识别的功能。在一些实施例中，该图像识别模型基于样本视频的图像以及该样本视频的图像识别结果训练得到，其中，图像识别模型的训练过程包括：终端基于样本视频的图像以及该样本视频的图像识别结果，进行模型训练，得到该图像识别模型。进一步地，在一些实施例中，在模型训练的第s次迭代过程中，将该样本视频的图像输入第s-1次迭代过程所确定的图像识别模型，得到该第s次迭代过程所得到的识别训练结果；基于该第s次迭代过程所得到的识别训练结果和该样本视频的图像识别结果，对该第s-1次迭代过程所确定的图像识别模型的模型参数进行调整，在调整后的图像识别模型不满足目标条件的情况下，基于调整后的该模型参数进行第s+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。其中，该s为大于1的正整数。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为图像识别模型，以获取到预测能力较优的图像识别模型，从而提升了图像识别模型的识别准确性。

在一些实施例中，终端基于该视频的区域检测结果，从该视频的多帧图像中，提取该目标区域所在的图像块，得到图像块序列，对该图像块序列中的多个图像块进行图像识别，得到该视频的图像识别结果。在该实施例中，通过获取包括目标区域的图像块序列，进而基于所获取的图像块序列来进行图像识别的过程，无需对整幅图像进行图像识别，只需对图像块进行图像识别，进一步提升了图像识别的效率。

在一些实施例中，终端基于该视频的区域检测结果进行图像识别的过程为：基于该视频的区域检测结果，对该多帧图像中的目标区域进行图像识别，得到该多帧图像中目标区域的区域信息；在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳；基于该目标区域的变化信息以及该时间戳，确定该视频的图像识别结果。

其中，区域信息是指目标区域所显示的信息，以目标区域为游戏比分区域为例，区域信息也即是该游戏比分区域所示出的击杀事件的数量、助攻事件的数量以及死亡事件的数量，以kda比分区域为例，假设kda比分区域所示出的kda比分为0/0/0，则表示击杀事件的数量为0、助攻事件的数量为0、死亡事件的数量为0。相应地，后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化，也即是后一帧图像的kda比分与前一帧图像的kda比分相比较发生变化。变化信息用于指示引起该变化的事件，在一些实施例中，变化信息为游戏比分区域所示出的击杀事件的数量变化值、助攻事件的数量变化值或死亡事件的数量变化值，以kda比分区域为例，假设kda比分区域所示出的kda比分由0/0/0变化为1/0/0，则变化信息可以是击杀事件的数量变化值1。针对上述基于该目标区域的变化信息以及该时间戳，确定该视频的图像识别结果的过程，在一些实施例中，基于该目标区域的变化信息确定该视频对应的事件，同时，将所获取的时间戳确定为事件时间戳，也即得到了该视频的图像识别结果。

在该实施例中，对于视频中相邻的任意两帧图像，在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳，进而也就获取到了该视频的图像识别结果，如此，能够快速获取到该视频的图像识别结果，提高了获取该视频的图像识别结果的效率。

针对上述在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取该目标区域的变化信息以及该后一帧图像的时间戳的过程，在一些实施例中，采用二分抽帧的方式，来获取发生变化的时间戳以及变化信息，相应过程包括：在该视频中，每间隔第三时长提取一帧目标图像，得到多帧目标图像，基于该视频的区域检测结果，分别对该多帧目标图像进行图像识别，得到该多帧目标图像中目标区域的区域信息；对于该多帧目标图像中相邻的任意两帧目标图像，在后一帧目标图像的区域信息与前一帧目标图像的区域信息相比较发生变化的情况下，提取该两帧目标图像之间的第一中间图像，对该第一中间图像进行图像识别，得到该第一中间图像中目标区域的区域信息；若该第一中间图像的区域信息与该后一帧目标图像的区域信息相同，则提取该第一中间图像与该前一帧目标图像之间的第二中间图像，或，若该第一中间图像的区域信息与该前一帧目标图像的区域信息相同，则提取该第一中间图像与该后一帧目标图像之间的第三中间图像；重复执行上述判断区域信息是否相同以及提取中间图像的步骤，直至满足误差条件，基于满足误差条件的中间图像的区域信息获取该目标区域的变化信息以及获取满足误差条件的中间图像的时间戳。

其中，第三时长为预先设定的固定时长，如1分钟。示例地，每间隔1分钟提取一帧目标图像，假设前5分钟所提取的目标图像的kda比分均为0/0/0，第6分钟所提取的目标图像的kda比分为1/0/0，可见，第6分钟所提取的目标图像与第5分钟所提取的目标图像相比较发生了变化，此时，在第5分钟所提取的目标图像与第6分钟所提取的目标图像之间提取第一中间图像，也即是在视频的第5分钟与第6分钟之间，提取第5.5分钟对应的图像。在一些实施例中，若第5.5分钟对应的图像的kda比分为1/0/0，可见，第5.5分钟对应的图像的kda比分与第6分钟对应的目标图像的kda比分相同，则在第5分钟对应的目标图像与第5.5分钟对应的图像之间提取第二中间图像，也即是在视频的第5分钟与第5.5分钟之间，提取第5.25分钟对应的图像，进而基于所提取的第5.25分钟对应的图像，分别判断第5.25分钟对应的图像与第5分钟对应的目标图像、第5.5分钟对应的图像是否相同以及继续提取中间图像的过程；在另一些实施例中，若第5.5分钟对应的图像的kda比分为0/0/0，可见，第5.5分钟对应的图像的kda比分与第5分钟对应的目标图像的kda比分相同，则在第5.5分钟对应的图像与第6分钟对应的目标图像之间提取第三中间图像，也即是在视频的第5.5分钟与第6分钟之间，提取第5.75分钟对应的图像，进而基于所提取的第5.75分钟对应的图像，分别判断第5.75分钟对应的图像与第5.5分钟对应的图像、第6分钟对应的目标图像是否相同以及继续提取中间图像的过程，直至满足误差条件。

在一些实施例中，该误差条件为识别误差小于误差阈值，该识别误差表示后一帧图像的时间戳与所提取的中间图像的时间戳之间的误差。应理解的是，识别误差也即是真正的变化帧与当前的识别帧之间的差值。在一些实施例中，识别误差基于中间图像所在的时间区间确定，例如，识别误差为中间图像所在的时间区间的差值。在上述示例中，以第5.75分钟对应的图像(即第三中间图像)为例，其对应的识别误差为第5.5分钟与第6分钟之间的差值，也即0.5分钟。在一些实施例中，误差阈值为预先设定的固定阈值，如0.5秒。

在上述实施例中，通过将二分抽帧的方式和图像识别的方式结合，无需对该视频的多帧图像均进行图像识别，只需在区域信息发生变化的情况下进行二分抽帧，对二分抽帧得到的图像进行图像识别即可，提升了图像识别的效率。

在步骤304中，对于任一个事件的事件时间戳，终端基于该视频中该事件时间戳的前第一时长内的图像、该事件时间戳对应的图像以及该事件时间戳的后第二时长内的图像，确定该事件对应的视频片段，得到该视频的多个视频片段，其中，一个视频片段对应至少一个事件。

其中，第一时长和第二时长为预先设定的时长，如第一时长可以为3秒，第二时长可以为1秒。本公开实施例对第一时长和第二时长的设置不作限定。在一些实施例中，对于任一个事件的事件时间戳，终端对该视频中该事件时间戳的前第一时长内的图像、该事件时间戳对应的图像以及该事件时间戳的后第二时长内的图像进行拼接，得到该事件对应的视频片段。

一个视频片段可能对应一个事件，也即是该视频片段中发生了一个事件，或者，一个视频片段可能对应多个事件(两个或两个以上)，也即是该视频片段中发生了多个事件。本公开实施例中，事件关联有事件类型，事件类型是指事件的类型，以游戏类别的视频中的击杀事件、助攻事件和死亡事件为例，相对应的事件类型也即是击杀类型、助攻类型和死亡类型，进一步地，以击杀事件所包括的多杀事件、连杀事件为例，相对应的事件类型也即是多杀类型、连杀类型。

视频片段关联有片段类型，片段类型为视频片段的内容类型。在一些实施例中，该片段类型基于视频片段所对应的至少一个事件的事件类型确定。相应地，在一些实施例中，针对该视频的多个视频片段中的任一个视频片段，若该视频片段对应一个事件，则将该事件的事件类型确定为该视频片段的片段类型；在另一些实施例中，针对该视频的多个视频片段中的任一个视频片段，若该视频片段对应多个事件，则按照事件的优先级，从该多个事件中选取优先级最高的事件的事件类型，将所获取的事件类型确定为该视频片段的片段类型，以便后续利用该视频片段的片段类型来进行视频片段的分类型展示。在一些实施例中，以游戏类别的视频为例，多杀事件的优先级大于首杀事件或连杀事件的优先级大于单杀事件的优先级大于助攻事件的优先级大于死亡事件的优先级。当然，优先级的设置还能够采用其他的方式，本公开实施例对此不作限定。

针对上述击杀事件所包括的多杀事件，在一些实施例中，若一个视频片段对应多个击杀事件，则判断该多个击杀事件中每两个相邻的击杀事件之间的时间差是否小于预设阈值，若该多个击杀事件中存在两个(或两个以上)相邻的击杀事件之间的时间差小于预设阈值，则判定该两个(或两个以上)相邻的击杀事件构成多杀事件，此时，该视频片段的片段类型也即是多杀类型。示例地，以一个视频片段对应两个击杀事件为例，判断该两个击杀事件之间的时间差是否小于预设阈值，如10秒，若该两个击杀事件之间的时间差小于预设阈值，则判定该两个击杀事件构成双杀事件，此时，该视频片段的片段类型也即是双杀类型。以一个视频片段对应三个击杀事件(击杀事件1、击杀事件2、击杀事件3)为例，判断该击杀事件1与击杀事件2之间的时间差是否小于预设阈值，并判断该击杀事件2与击杀事件3之间的时间差是否小于预设阈值，若该击杀事件1与击杀事件2之间的时间差小于预设阈值且该击杀事件2与击杀事件3之间的时间差小于预设阈值，则判定该三个击杀事件构成一个三杀事件，此时，该视频片段的片段类型也即是三杀类型，或者，若该击杀事件1与击杀事件2之间的时间差小于预设阈值而该击杀事件2与击杀事件3之间的时间差大于或等于预设阈值，则判定该三个击杀事件构成一个双杀事件和一个单杀事件，以多杀的优先级大于单杀的优先级为例，此时，该视频片段的片段也即是双杀类型。

基于上述步骤303至步骤304得到该视频的多个视频片段后，在一些实施例中，在该多个视频片段中，若至少两个视频片段存在重合片段，将该至少两个视频片段融合，得到融合后的该视频片段，进而，基于融合后的该视频片段，执行后续步骤305。在一些实施例中，对于该至少两个视频片段中的重合片段，将该至少两个视频片段中任一个视频片段所包括的重合片段删除，将删除重合片段后的视频片段与另一个视频片段进行拼接，得到融合后的视频片段。在该实施例中，通过将具有重合片段的视频片段进行融合，能够获取到画面衔接更加连贯的视频片段，提升了视频片段的显示效果。

针对上述融合的至少两个视频片段，在一些实施例中，若该融合后的该视频片段所包括的至少两个视频片段对应不同的事件，将优先级最高的事件的事件类型，确定为该融合后的该视频片段的片段类型。在该实施例中，通过设置各个事件的优先级，在一个视频片段对应多个事件的情况下，能够按照各个事件的优先级来确定该视频片段的片段类型，能够快速获取该视频片段的片段类型，以便后续按照片段类型来分类型展示视频片段。在另一些实施例中，若该融合后的该视频片段所包括的至少两个视频片段对应相同的事件，将该事件的事件类型，确定为该融合后的该视频片段的片段类型以及在该至少两个视频片段的最后一个视频片段上，添加该片段类型的标记。在该实施例中，在一个视频片段对应多个相同事件的情况下，将该事件的事件类型确定为该视频片段的片段类型即可，且只需要在最后一个事件上标记该片段类型即可，提升了视频处理的灵活性。

示例地，图8是根据一示例性实施例示出的一种融合视频片段的示意图，参见图8，以多杀事件的优先级大于首杀事件或连杀事件的优先级大于单杀事件的优先级大于助攻事件的优先级大于死亡事件的优先级为例，在击杀事件对应的视频片段、助攻事件对应的视频片段和死亡事件对应的视频片段存在重合片段的情况下，由于击杀事件的优先级大于助攻事件的优先级大于死亡事件的优先级，此时可以将融合后的视频片段的片段类型确定为击杀类型，参见表1，也即是针对表1事件栏中的“1击杀+1助攻+1死亡”，在经视频融合所得到的视频片段为击杀类型；在两个助攻事件对应的视频片段和死亡事件对应的视频片段存在重合片段的情况下，由于助攻事件的优先级大于死亡事件的优先级，此时可以将融合后的视频片段的片段类型确定为助攻类型，且只需要在最后一个助攻事件对应的视频片段上添加该助攻类型的标记，参见表1，也即是针对表1事件栏中的“2助攻+1死亡”，在经视频融合所得到的视频片段为助攻类型；在两个击杀事件对应的视频片段、两个助攻事件对应的视频片段和死亡事件对应的视频片段存在重合片段的情况下，判断两个击杀事件之间的时间差是否小于预设阈值，如10秒，如图8所示，在该两个击杀事件之间的时间差小于预设阈值的情况下，判定该两个击杀事件构成双杀事件，进而可以将融合后的视频片段的片段类型确定为双杀类型，且只需要在最后一个击杀事件对应的视频片段上添加该双杀类型的标记，参见表1，也即是针对表1事件栏中的“2击杀+2助攻+1死亡”，在经视频融合所得到的视频片段为双杀类型。

表1

事件	视频片段的起始时间	事件时间戳	片段类型
				1击杀+1助攻+1死亡	1:20～1:27	1:25	击杀
2助攻+1死亡	1:20～1:27	1:25	助攻
				2击杀+2助攻+1死亡	1:20～1:35	1:32	双杀

在上述步骤303至步骤304中，通过图像识别得到该视频的多个事件以及该多个事件的事件时间戳，进而利用各个事件的事件时间戳来确定各个事件对应的视频片段，能够快速的确定出该视频的多个视频片段，以便后续该视频的多个视频片段的高效展示。

在步骤305中，终端基于该视频的图像识别结果，确定该视频的多个事件对应的音频片段。

其中，音频片段为视频发生对应事件时所播放的音频。以游戏类别的视频中的击杀事件为例，击杀事件对应的音频片段可以是Double Kill(双杀)、Triple Kill(三杀)、First blood(第一滴血)、Killing spree(三连杀)或Rampage(四连杀)等。

在一些实施例中，对于该图像识别结果所指示的任一个事件的事件时间戳，基于该事件时间戳的前第四时长内的音频片段、该事件时间戳对应的音频以及该事件时间戳的后第五时长内的音频片段，确定该事件对应的音频片段。其中，第四时长和第五时长为预先设定的时长，如第四时长可以为3秒，第五时长可以为10秒。本公开实施例对第四时长和第五时长的设置不作限定。

在该实施例中，利用各个事件的事件时间戳，来获取该事件时间戳的前一段时长内的音频片段、该事件时间戳对应的音频以及该事件时间戳的后一段时长内的音频片段，能够快速获取到各个事件对应的音频片段，提升了获取各个事件的音频片段的效率。

在步骤306中，终端对该多个事件对应的音频片段进行音频识别，得到该多个事件的音频识别结果，该音频识别结果用于指示该视频发生对应事件的事件内容。

在一些实施例中，事件内容用于指示事件的内容详情，以游戏类别的视频中的击杀事件为例，击杀事件的事件内容用于指示击杀事件的击杀类型或击杀数量，如双杀、连杀、第一滴血等等。

在一些实施例中，终端利用音频识别模型，来对该多个事件对应的音频片段进行音频识别，相应过程为：将该多个事件对应的音频片段输入音频识别模型，通过该音频识别模型对该音频片段进行音频识别，得到该多个事件的音频识别结果。在该实施例中，通过音频识别模型来进行图像识别，能够快速的确定出该视频的音频识别结果，在提高了音频识别的效率的同时，还提升了音频识别的准确性。

其中，音频识别模型提供有对音频进行识别的功能。在一些实施例中，该音频识别模型基于样本音频以及该样本音频的音频识别结果训练得到，其中，音频识别模型的训练过程包括：终端基于样本音频以及该样本音频的音频识别结果，进行模型训练，得到该音频识别模型。进一步地，在一些实施例中，在模型训练的第p次迭代过程中，将该样本音频输入第p-1次迭代过程所确定的音频识别模型，得到该第p次迭代过程所得到的识别训练结果；基于该第p次迭代过程所得到的识别训练结果和该样本音频的音频识别结果，对该第p-1次迭代过程所确定的音频识别模型的模型参数进行调整，在调整后的音频识别模型不满足目标条件的情况下，基于调整后的该模型参数进行第p+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。其中，该p为大于1的正整数。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为音频识别模型，以获取到预测能力较优的音频识别模型，从而提升了音频识别模型的识别准确性。

在步骤307中，对于任一个事件对应的音频识别结果，若该音频识别结果与对应的视频片段匹配，则终端将该音频识别结果对应的音频片段与该视频片段融合，得到融合后的该视频片段。

在一些实施例中，对于任一个事件对应的音频识别结果，在该音频识别结果对应的视频片段中，基于该音频识别结果所指示的事件内容，判断该视频片段中是否发生过该事件内容对应的事件，若该视频片段中发生过该事件内容对应的事件，则表示该音频识别结果与对应的视频片段匹配，进而将该音频识别结果对应的音频片段与该视频片段融合，得到融合后的该视频片段，若该视频片段中未发生过该事件内容对应的事件，则表示该音频识别结果与对应的视频片段不匹配，则无需执行视频片段融合的过程，直接执行后续步骤308。

示例地，图9是根据一示例性实施例示出的一种视频处理流程的示意图，参见图9，通过在目标应用程序中上传视频，能够触发SDK(Software Development Kit，软件开发工具包)模块对所上传的视频进行SDK解码，进而按照预设的抽帧策略抽取视频中的多帧图像，对所抽取的多帧图像进行图像识别，以得到该视频的图像识别结果，同时，提取该视频的音频，对所提取的音频进行音频识别，以得到该视频的音频识别结果，进而基于该图像识别结果和该音频识别结果，按照预设的融合策略对多帧图像和音频进行融合，得到融合后的视频片段，再将融合后的视频片段返回至目标应用程序进行展示。

在上述步骤306至步骤307中，通过对该视频的多个事件对应的音频片段进行音频识别，以得到该多个事件的音频识别结果，进而在音频识别结果与对应的视频片段匹配的情况下，将该音频识别结果对应的音频片段与该视频片段融合，增加了确定视频片段所参考的信息量，提升了视频处理的准确性。

上述步骤305至步骤307是获取各个事件对应的音频片段，对各个事件对应的音频片段进行音频识别，进而结合音频识别结果来与视频片段进行融合的过程，需要说明的是，上述步骤305至步骤307为可选步骤。在另一些实施例中，终端在执行步骤304之后，无需执行步骤305至步骤307的步骤，基于步骤304所得到的多个视频片段执行步骤308即可。还需要说明的是，上述步骤303至步骤307是基于所上传的视频来进行图像识别和音频识别的过程，在一些实施例中，在检测到该视频为变速视频或降噪视频的情况下，将该视频还原为原始视频，进而基于该原始视频进行图像识别和音频识别，以更加准确的切分得到该视频的多个视频片段。

在一些实施例中，上述步骤303至步骤307中图像识别和音频识别的过程由终端和服务器执行，例如，终端基于步骤303中对目标功能控件的触发操作，向服务器发送视频识别请求，以请求服务器对该视频进行图像视频和音频识别，进而，服务器接收该视频识别请求之后，基于该视频识别请求所携带的视频(或视频标识，后续基于视频标识获取对应的视频)，对该视频进行图像识别和音频识别，进而基于图像识别结果和音频识别结果，按照视频的事件对该视频进行切分，得到该视频的多个视频片段，将得到的多个视频片段返回至终端，以触发终端基于所返回的多个视频片段进行展示。需要说明的是，在一些实施例中，若终端检测到终端已登录对象首次对视频的目标功能控件的触发操作，则向服务器发送上述视频识别请求，以触发服务器进行后续视频识别的过程。在一些实施例中，终端从服务器下载上述视频识别的算法模型，也即是下载上述视频分类模型、区域检测模型、图像识别模型以及音频识别模型，以便后续利用这些算法模型来进行视频识别的过程。针对本公开实施例所涉及到的视频分类模型、区域检测模型、图像识别模型以及音频识别模型中的任一个算法模型，在一些实施例中，按照终端的不同机型，分别训练对应机型的算法模型，进一步地，在一些实施例中，按照终端机型的不同版本，分别训练对应版本的算法模型，以使所训练的算法模型更加与终端适配，从而提升视频处理的准确性。

在步骤308中，终端基于融合后的该视频片段，展示该视频的多个视频片段。

上述步骤303至步骤308，是终端响应于对该目标功能控件的触发操作，展示该视频的多个视频片段的过程，在一些实施例中，终端响应于对该目标功能控件的触发操作，按照各个视频片段的片段类型，展示该视频的多个视频片段。

在一些实施例中，终端按照各个视频片段的片段类型，展示该视频的多个视频片段的过程包括下述两种实现方式中的任一项：第一种实现方式：终端响应于对该目标功能控件的触发操作，展示该视频对应的至少一个片段类型的触发控件，响应于对任一个片段类型的触发控件的触发操作，展示该视频在该片段类型下的视频片段。第二种实现方式：终端响应于对该目标功能控件的触发操作，展示该视频对应的至少一个片段类型的触发控件以及该视频的多个视频片段，响应于对任一个片段类型的触发控件的触发操作，在该多个视频片段中，以目标状态的形式，展示该视频在该片段类型下的视频片段。其中，目标状态为突出显示的状态，如高亮状态、抖动状态等。在该实施例中，提供了两种按照片段类型来展示多个视频片段的方式，丰富了视频片段的展示形式，提升了视频片段的展示效果。

在一些实施例中，终端在视频处理页面中，按照各个视频片段的片段类型，展示该视频的多个视频片段。在一些实施例中，终端在视频处理页面中的视频片段区域，按照各个视频片段的片段类型，展示该视频的多个视频片段。如此，按照各个视频片段的片段类型，来展示该视频的多个视频片段，增加了所展示的信息量，以便用户及时获知各个视频片段所的片段类型。

其中，视频片段区域用于按照各个视频片段的片段类型，展示该视频的多个视频片段。示例地，图10是根据一示例性实施例示出的一种视频处理页面的示意图，参见图10，视频片段区域为图10所示出的下方区域，在图10所示出的页面中，该视频对应的至少一个片段类型的触发控件可以是图10所示出的“击杀”控件、“助攻”控件、“死亡”控件以及“普通”控件。需要说明的是，图10以上述第二种实现方式为例，在图10所示出的页面中，展示有该视频的多个视频片段，其中，图10以触发“击杀”控件为例，在所展示的多个视频片段中，以选中状态的形式，展示该视频在该击杀类型下的视频片段，也即是图10所示出的“击杀1片段”和“击杀2片段”。

在一些实施例中，终端响应于对该目标功能控件的触发操作，以列表的形式，展示该视频的多个视频片段。如此，以列表的形式，展示该视频的多个视频片段，能够更加直观鲜明地展示该视频的多个视频片段，提升了人机交互效率。

在一些实施例中，视频处理页面还包括视频预览区域和视频轨道区域。其中，该视频预览区域为视频片段的预览区域，用于播放视频片段，参见图10，视频预览区域为图10所示出的上方区域。在一些实施例中，该视频预览区域包括视频片段的播放控件、切换控件以及全屏显示控件等等，以便在视频片段的播放过程中控制视频的播放。视频轨道区域用于以时间轴的形式显示该视频的多个视频片段，参见图10，该视频轨道区域为图10所示出的中间区域。

在一些实施例中，终端还在该视频片段所在区域，展示该视频片段对应的至少一个事件的事件内容。示例地，参见图10，以“击杀1片段”为例，该视频片段对应事件的事件内容可以是图10所示出的“首杀”。

基于图10所展示的至少一个片段类型的触发控件以及该视频的多个视频片段，在一些实施例中，以游戏类别的视频为例，终端响应于对“击杀”控件的触发操作，在该多个视频片段中，以高亮的形式，展示该视频在该“击杀”类型下的视频片段，或者，终端响应于对“助攻”控件的触发操作，在该多个视频片段中，以高亮的形式，展示该视频在该“助攻”类型下的视频片段，或者，终端响应于对“死亡”控件的触发操作，在该多个视频片段中，以高亮的形式，展示该视频在该“死亡”类型下的视频片段。需要说明的是，当视频处理页面的视频预览区域中正在播放某一个视频片段时，若选中上述“击杀”控件、“助攻”控件或“死亡”控件中的任一个控件，均不影响当前所播放的视频片段。在一些实施例中，终端响应于对全部片段类型的触发控件的触发操作，将该多个视频片段均展示为目标状态。示例地，图11是根据一示例性实施例示出的一种视频处理页面的示意图，参见图11，在图11所示出的页面中，终端响应于对“击杀”控件、“助攻”控件、“死亡”控件以及“普通”控件的触发操作，将该多个视频片段均展示为选中状态。

在步骤309中，终端响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

本公开实施例中，视频片段提供有选择区域和播放区域，该选择区域展示有勾选控件，该勾选控件用于勾选对应的视频片段，该播放区域用于触发跳转至对应的视频片段并对该视频片段进行播放。示例地，参见图10，以“击杀1片段”为例，该“击杀1片段”的选择区域为“击杀1片段”的左侧区域，该“击杀1片段”的播放区域为“击杀1片段”的右侧区域。

在一些实施例中，对于已选中的视频片段，响应于在该视频片段所在区域的触发操作，播放该视频片段。在一些实施例中，对于已选中的视频片段，响应于在该视频片段的播放区域的触发操作，播放该视频片段。在一些实施例中，对于已选中的视频片段，响应于在该视频片段所在区域的触发操作，在该视频处理页面的视频轨道区域中定位至该视频片段的第一帧图像，并在该视频处理页面的视频预览区域中播放该视频片段。示例地，在图10所示出的视频处理页面中，“击杀2片段”为已选中的视频片段，此时，响应于对“击杀2片段”的播放区域(也即右侧区域)的触发操作，展示如图12所示出的视频处理页面，图12是根据一示例性实施例示出的一种视频处理页面的示意图，在图12所示出的页面中，在该视频轨道区域中，定位至该“击杀2片段”对应的视频片段的第一帧图像，并在该视频预览区域中播放该“击杀2片段”对应的视频片段。进一步地，在该视频处理页面的视频轨道区域中定位至该视频片段的第一帧图像，并在该视频处理页面的视频预览区域中播放该视频片段之后，在一些实施例中，终端响应于对该视频片段所在区域(播放区域)的再次触发操作，取消对该视频片段的勾选，同时，自动跳转至下一个已选中的视频片段。

在一些实施例中，对于未选中的视频片段，响应于在该视频片段所在区域的触发操作，将该视频片段展示为选中状态。在一些实施例中，对于未选中的视频片段，响应于在该视频片段的播放区域的触发操作，将该视频片段展示为选中状态。在一些实施例中，对于未选中的视频片段，响应于在该视频片段所在区域的触发操作，将该视频片段展示为选中状态，同时，在该视频处理页面的视频轨道区域中定位至该视频片段的第一帧图像，并在该视频处理页面的视频预览区域中播放该视频片段。示例地，在图10所示出的视频处理页面中，“助攻1片段”为未选中的视频片段，此时，响应于对“助攻1片段”的播放区域(也即右侧区域)的触发操作，展示如图13所示出的视频处理页面，图13是根据一示例性实施例示出的一种视频处理页面的示意图，在图13所示出的页面中，在该视频片段区域中，将该“助攻1片段”展示为选中状态，且，在图13所示出的页面中，在该视频轨道区域中，定位至该“助攻1片段”对应的视频片段的第一帧图像，并在该视频预览区域中播放该“助攻1片段”对应的视频片段。

在上述实施例中，针对已选中的视频片段和未选中的视频片段，提供了不同的交互方式，提升了人机交互效率。

在一些实施例中，基于上述步骤309得到目标视频片段之后，还能够基于该目标视频片段进行切割、删除、增加音效或特效等二次剪辑。

在上述步骤301至步骤309中，是按照视频中的事件顺利切分得到该视频的多个视频片段的过程。在一些实施例中，终端在对视频进行图像识别的过程中，还展示正在识别的提示信息，示例地，图14是根据一示例性实施例示出的一种正在识别的提示信息的示意图，参见图14，该正在识别的提示信息的内容可以是“内容识别中”。在一些实施例中，终端在对视频进行图像识别的过程中，还展示识别的进度信息，参见图14，识别的进度信息可以是图14所示出的“75％”。

在一些实施例中，终端在该视频的时长小于目标时长的情况下，展示时长提示信息，该时长提示信息用于提示该视频的时长不符合时长条件。其中，目标时长为预先设定的固定时长，如20秒，例如，在该视频的时长小于20秒的情况下，所展示的时长提示信息的内容可以是“请选择时长超过20秒的视频”。在一些实施例中，终端在该视频的时长小于目标时长的情况下，以弹窗的形式，展示该时长提示信息。

在一些实施例中，终端在该视频不包括任一事件对应的视频片段的情况下，展示识别提示信息，该识别提示信息用于提示该视频不包括任一事件对应的视频片段。示例地，图15是根据一示例性实施例示出的一种识别提示信息的示意图，参见图15，以游戏类别的视频为例，该识别提示信息为图15所示出的“未识别到高光时刻，请选择××/××含高光时刻的长视频”。

在一些实施例中，在网络异常的情况下，展示异常提示信息，该异常提示信息用于提示网络异常。示例地，图16是根据一示例性实施例示出的一种异常提示信息的示意图，参见图16，异常提示信息可以是图16所示出的“网络异常，请检查网络后刷新重试”。

图17是根据一示例性实施例示出的一种视频处理装置的框图。参见图17，该装置包括控件展示单元1701，片段展示单元1702和拼接单元1703。

控件展示单元1701，被配置为执行展示视频的目标功能控件，该目标功能控件用于触发按照该视频中的事件对该视频进行切分的功能；

片段展示单元1702，被配置为执行响应于对该目标功能控件的触发操作，展示该视频的多个视频片段，其中，一个视频片段对应至少一个事件；

拼接单元1703，被配置为执行响应于对该多个视频片段中至少两个视频片段的选中操作，对该至少两个视频片段进行拼接，得到目标视频片段。

在一些实施例中，该控件展示单元1701，包括：

在一些实施例中，该获取子单元，被配置为执行：

在一些实施例中，该片段展示单元1702，被配置为执行：

在一些实施例中，该片段展示单元1702，被配置为执行下述任一项：

在一些实施例中，该片段展示单元1702，被配置为执行：

在一些实施例中，该片段展示单元1702，还被配置为执行：

在一些实施例中，该片段展示单元1702，包括：

展示子单元，被配置为执行展示该视频的多个视频片段。

在一些实施例中，该识别子单元，包括：

在一些实施例中，该区域检测子单元，被配置为执行：

在一些实施例中，该图像识别子单元，被配置为执行：

在一些实施例中，该图像识别子单元，包括：

在一些实施例中，该获取模块，被配置为执行：

在一些实施例中，该装置还包括：

在一些实施例中，该音频片段确定单元，被配置为执行：

在一些实施例中，该音频识别单元，被配置为执行：

该片段展示单元1702，还被配置为执行基于融合后的该视频片段，执行该展示该视频的多个视频片段的步骤。

在一些实施例中，该装置还包括：

该片段展示单元1702，还被配置为执行对于未选中的视频片段，响应于在该视频片段所在区域的触发操作，将该视频片段展示为选中状态。

本公开实施例所提到的计算机设备可提供为一种终端。图18是根据一示例性实施例示出的一种终端1800的框图。该终端1800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1801所执行以实现本公开中方法实施例提供的视频处理方法中终端执行的过程。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、显示屏1805、摄像头组件1806、音频电路1807、定位组件1808和电源1809中的至少一种。

外围设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置在终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在另一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在显示屏1805的下层时，由处理器1801根据用户对显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1814用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1814采集的环境光强度，控制显示屏1805的显示亮度。具体地，当环境光强度较高时，调高显示屏1805的显示亮度；当环境光强度较低时，调低显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1814采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1815，也称距离传感器，通常设置在终端1800的前面板。接近传感器1815用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1815检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制显示屏1805从亮屏状态切换为息屏状态；当接近传感器1815检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例所提到的计算机设备可提供为一种服务器。图19是根据一示例性实施例示出的一种服务器的框图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1901和一个或多个的存储器1902，其中，该一个或多个存储器1902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1901加载并执行以实现上述各个方法实施例提供的视频处理方法中服务器执行的过程。当然，该服务器1900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器1902，上述程序代码可由服务器1900的处理器1901执行以完成上述视频处理方法。可选地，计算机可读存储介质可以是ROM(Read-Only Memory，只读内存)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact-Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的视频处理方法。

在一些实施例中，本公开实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

展示视频的目标功能控件，所述目标功能控件用于触发按照所述视频中的事件对所述视频进行切分的功能；

响应于对所述目标功能控件的触发操作，展示所述视频的多个视频片段，其中，一个视频片段对应至少一个事件；

响应于对所述多个视频片段中至少两个视频片段的选中操作，对所述至少两个视频片段进行拼接，得到目标视频片段。

2.根据权利要求1所述的视频处理方法，其特征在于，所述展示视频的目标功能控件包括：

响应于对所述视频的上传操作，获取所述视频的视频类别；

若所述视频的视频类别为目标视频类别，则展示所述视频的目标功能控件。

3.根据权利要求1所述的视频处理方法，其特征在于，所述响应于对所述目标功能控件的触发操作，展示所述视频的多个视频片段包括：

响应于对所述目标功能控件的触发操作，按照各个视频片段的片段类型，展示所述视频的多个视频片段。

4.根据权利要求3所述的视频处理方法，其特征在于，所述响应于对所述目标功能控件的触发操作，按照各个视频片段的片段类型，展示所述视频的多个视频片段包括下述任一项：

响应于对所述目标功能控件的触发操作，展示所述视频对应的至少一个片段类型的触发控件，响应于对任一个片段类型的触发控件的触发操作，展示所述视频在所述片段类型下的视频片段；

响应于对所述目标功能控件的触发操作，展示所述视频对应的至少一个片段类型的触发控件以及所述视频的多个视频片段，响应于对任一个片段类型的触发控件的触发操作，在所述多个视频片段中，以目标状态的形式，展示所述视频在所述片段类型下的视频片段。

5.根据权利要求1所述的视频处理方法，其特征在于，所述响应于对所述目标功能控件的触发操作，展示所述视频的多个视频片段包括：

响应于对所述目标功能控件的触发操作，以列表的形式，展示所述视频的多个视频片段。

6.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

在所述视频片段所在区域，展示所述视频片段对应的至少一个事件的事件内容。

7.根据权利要求1所述的视频处理方法，其特征在于，所述响应于对所述目标功能控件的触发操作，展示所述视频的多个视频片段包括：

响应于对所述目标功能控件的触发操作，对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果，所述图像识别结果用于指示所述视频的多个事件以及所述多个事件的事件时间戳，所述事件时间戳为所述视频发生对应事件的时间戳；

对于任一个事件的事件时间戳，基于所述视频中所述事件时间戳的前第一时长内的图像、所述事件时间戳对应的图像以及所述事件时间戳的后第二时长内的图像，确定所述事件对应的视频片段；

展示所述视频的多个视频片段。

8.根据权利要求7所述的视频处理方法，其特征在于，所述对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果包括：

对所述视频的多帧图像进行区域检测，得到所述视频的区域检测结果，所述区域检测结果用于指示所述多帧图像中目标区域的位置，所述目标区域为与所述事件关联的区域；

基于所述视频的区域检测结果，对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果。

9.根据权利要求8所述的视频处理方法，其特征在于，所述对所述视频的多帧图像进行区域检测，得到所述视频的区域检测结果包括：

基于所述视频的视频类别，确定所述视频的区域范围，所述区域范围用于指示所述目标区域所在的范围；

在所述多帧图像的区域范围内进行区域检测，得到所述视频的区域检测结果。

10.根据权利要求8所述的视频处理方法，其特征在于，所述对所述视频的多帧图像进行区域检测，得到所述视频的区域检测结果包括：

从所述视频中提取至少一帧关键图像，对所述至少一帧关键图像进行区域检测，得到所述至少一帧关键图像的区域检测结果；

对于包含所述目标区域的任一帧关键图像，若所述关键图像的区域检测结果与所述关键图像之后的多帧图像的区域检测结果匹配，则将所述关键图像的区域检测结果确定为所述视频的区域检测结果。

11.根据权利要求8所述的视频处理方法，其特征在于，所述基于所述视频的区域检测结果，对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果包括：

基于所述视频的区域检测结果，从所述视频的多帧图像中，提取所述目标区域所在的图像块，得到图像块序列；

对所述图像块序列中的多个图像块进行图像识别，得到所述视频的图像识别结果。

12.根据权利要求8所述的视频处理方法，其特征在于，所述基于所述视频的区域检测结果，对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果包括：

基于所述视频的区域检测结果，对所述多帧图像中的目标区域进行图像识别，得到所述多帧图像中目标区域的区域信息；

在后一帧图像的区域信息与前一帧图像的区域信息相比较发生变化的情况下，获取所述目标区域的变化信息以及所述后一帧图像的时间戳，所述变化信息用于指示引起所述变化的事件；

基于所述目标区域的变化信息以及所述时间戳，确定所述视频的图像识别结果。

13.根据权利要求7所述的视频处理方法，其特征在于，所述对所述视频的多帧图像进行图像识别，得到所述视频的图像识别结果之后，所述方法还包括：

基于所述视频的图像识别结果，确定所述视频的多个事件对应的音频片段；

对所述多个事件对应的音频片段进行音频识别，得到所述多个事件的音频识别结果，所述音频识别结果用于指示所述视频发生对应事件的事件内容；

对于任一个事件对应的音频识别结果，若所述音频识别结果与对应的视频片段匹配，则将所述音频识别结果对应的音频片段与所述视频片段融合，得到融合后的所述视频片段。

14.根据权利要求7所述的视频处理方法，其特征在于，所述基于所述视频中所述事件时间戳的前第一时长内的图像、所述事件时间戳对应的图像以及所述事件时间戳的后第二时长内的图像，确定所述事件对应的视频片段之后，所述方法还包括：

若所述多个视频片段中的至少两个视频片段存在重合片段，将所述至少两个视频片段融合，得到融合后的所述视频片段；

基于融合后的所述视频片段，执行所述展示所述视频的多个视频片段的步骤。

15.根据权利要求14所述的视频处理方法，其特征在于，所述将所述至少两个视频片段融合，得到融合后的所述视频片段之后，所述方法还包括：

若所述融合后的所述视频片段所包括的至少两个视频片段对应不同的事件，将优先级最高的事件的事件类型，确定为所述融合后的所述视频片段的片段类型。

16.根据权利要求14所述的视频处理方法，其特征在于，所述将所述至少两个视频片段融合，得到融合后的所述视频片段之后，所述方法还包括：

若所述融合后的所述视频片段所包括的至少两个视频片段对应相同的事件，将所述事件的事件类型，确定为所述融合后的所述视频片段的片段类型以及在所述至少两个视频片段的最后一个视频片段上，添加所述片段类型的标记。

17.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

对于已选中的视频片段，响应于在所述视频片段所在区域的触发操作，播放所述视频片段；

对于未选中的视频片段，响应于在所述视频片段所在区域的触发操作，将所述视频片段展示为选中状态。

18.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括下述至少一项：

在终端已登录对象首次上传所述视频的情况下，展示视频提示信息，所述视频提示信息用于提示按照所述视频中的事件对所述视频进行切分的功能；

在所述目标功能控件所在区域，展示控件提示信息，所述控件提示信息用于提示基于所述目标功能控件来触发按照所述视频中的事件对所述视频进行切分的功能；

在所述视频的时长小于目标时长的情况下，展示时长提示信息，所述时长提示信息用于提示所述视频的时长不符合时长条件；

在所述视频不包括任一事件对应的视频片段的情况下，展示识别提示信息，所述识别提示信息用于提示所述视频不包括任一事件对应的视频片段；

在网络异常的情况下，展示异常提示信息，所述异常提示信息用于提示网络异常。

19.一种视频处理装置，其特征在于，所述装置包括：

控件展示单元，被配置为执行展示视频的目标功能控件，所述目标功能控件用于触发按照所述视频中的事件对所述视频进行切分的功能；

片段展示单元，被配置为执行响应于对所述目标功能控件的触发操作，展示所述视频的多个视频片段，其中，一个视频片段对应至少一个事件；

拼接单元，被配置为执行响应于对所述多个视频片段中至少两个视频片段的选中操作，对所述至少两个视频片段进行拼接，得到目标视频片段。

20.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至18中任一项所述的视频处理方法。

21.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至18中任一项所述的视频处理方法。

22.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至18中任一项所述的视频处理方法。