CN114205671A

CN114205671A - 基于场景对齐的视频内容剪辑方法及其装置

Info

Publication number: CN114205671A
Application number: CN202210050564.0A
Authority: CN
Inventors: 刘俊启
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-03-18

Abstract

本申请公开了一种基于场景对齐的视频内容剪辑方法及其装置，涉及图像处理领域，尤其涉及信息流及人工智能领域中的深度学习领域。具体实现方案为：响应于对待处理视频的选取操作，确定与选取操作对应的视频内容选取区域；基于待处理视频中的场景信息，对视频内容选取区域进行调整，获得待处理视频的待裁剪区域；对待裁剪区域进行裁剪处理。本申请通过基于视频中的场景信息进行视频的裁剪区选择推荐，结合当前用户选择的视频区信息进行完整的场景推荐，以实现完整的场景的起始点和结束点选取，从而实现了利用更加精确的方式来协助视频内容进度的调整，保证裁剪出的视频内容上下文信息的完整性。

Description

基于场景对齐的视频内容剪辑方法及其装置

技术领域

本申请涉及图像处理领域，尤其涉及信息流及人工智能领域中的深度学习领域，特别涉及一种基于场景对齐的视频内容剪辑方法及其装置。

背景技术

随着移动互联网的普及，人们使用手机上网已经成为了常态，随着移动网络的建设，更高速、更稳定的移动网络，使得用户在移动网络下查看高质量的内容变为可能。像视频、图片类的内容流量在运营网络中的流量已经成为最主要的业务形态。

相关技术中，视频生产者通常在移动设备使用视频剪辑软件对视频内容进行裁剪，例如视频生产者在移动设备上可以使用手动的交互方式圈选视频内容进行裁剪，以生成裁剪好的视频。然而，由于移动设备的设备尺寸有限，使用手势滑动边界或圈选方式，使得视频选择的精确度很难保证，需要更加精确的方式来协助内容进度的调整。

发明内容

本申请提供了一种基于场景对齐的视频内容剪辑方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种基于场景对齐的视频内容剪辑方法，包括：

响应于对待处理视频的选取操作，确定与所述选取操作对应的视频内容选取区域；

基于所述待处理视频中的场景信息，对所述视频内容选取区域进行调整，获得所述待处理视频的待裁剪区域；

对所述待裁剪区域进行裁剪处理。

根据本申请的第二方面，提供了一种基于场景对齐的视频内容剪辑装置，包括：

第一确定模块，用于响应于对待处理视频的选取操作，确定与所述选取操作对应的视频内容选取区域；

调整模块，用于基于所述待处理视频中的场景信息，对所述视频内容选取区域进行调整，获得所述待处理视频的待裁剪区域；

裁剪模块，用于对所述待裁剪区域进行裁剪处理。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行前述第一方面所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤。

根据本申请的技术方案，通过基于视频中的场景信息进行视频的裁剪区选择推荐，结合当前用户选择的视频区信息进行完整的场景推荐，以实现完整的场景的起始点和结束点选取，从而实现了利用更加精确的方式来协助视频内容进度的调整，保证裁剪出的视频内容上下文信息的完整性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2为本申请实施例的视频内容选取区域的示例图一；

图3是根据本申请第二实施例的示意图；

图4为本申请实施例的视频内容选取区域的示例图二；

图5为本申请实施例的场景对齐的效果示例图一；

图6为本申请实施例的场景对齐的效果示例图二；

图7为本申请实施例的场景对齐的效果示例图三；

图8为本申请实施例的场景对齐的效果示例图四；

图9为本申请实施例所提供的一种基于场景对齐的视频内容剪辑装置的结构框图；

图10为本申请实施例所提供的另一种基于场景对齐的视频内容剪辑装置的结构框图；

图11为本申请实施例所提供的又一种基于场景对齐的视频内容剪辑装置的结构框图；

图12为本申请实施例所提供的另一种基于场景对齐的视频内容剪辑装置的结构框图；

图13是用来实现本申请实施例的基于场景对齐的视频内容剪辑方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

需要说明的是，本申请的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

为此，本申请提供了一种基于场景对齐的视频内容剪辑方法及其装置，可以提供更为精确视频连续区的识别方式，有效的提取视频生产者想要提取的关键内容进行创造及发布，可以高效的提升视频生产者的内容生产体验。

图1为本申请实施例所提供的一种基于场景对齐的视频内容剪辑方法的流程图。需要说明的是，本申请实施例的基于场景对齐的视频内容剪辑方法可应用于本申请实施例的基于场景对齐的视频内容剪辑装置，该视频内容剪辑装置可被配置于电子设备上。如图1所示，该基于场景对齐的视频内容剪辑方法可以包括以下步骤。

在步骤101中，响应于对待处理视频的选取操作，确定与选取操作对应的视频内容选取区域。

举例而言，假设本申请实施例的基于场景对齐的视频内容剪辑方法可应用于电子设备，该电子设备上具有视频内容剪辑应用，该视频内容剪辑应用可提供视频输入接口，当监测到用户通过该接口选择某个视频进行内容剪辑时，可以将该视频加载到视频内容剪辑应用的剪辑界面中，其中，该视频可理解为上述待处理视频。用户可以在被加载到剪辑界面上的待处理视频进行选取操作，以提取出该视频中的部分内容作为视频创作。

在本申请的实施例中，该选取操作可以是单击或双击操作，比如点击或双击待处理视频上的某一个具体的点。或者，该选取操作还可以是长按操作，比如，长按待处理视频上的某一个具体的点。或者，该选取操作还可以是圈选操作，比如滑动圈选处理视频上具体的区域。

在本申请的实施例中，在监测到对待处理视频的选取操作时，可以确定与该选取操作对应的视频进度，根据该视频进度确定对应的视频内容选取区域。例如，如图2所示，假设用户在视频区采用滑动圈选方式进行选取，假设与该当前选取操作对应的视频进度为段3中间，则可以确定用户当前选取的视频区域为该图2中的区域21，即区域21即为视频内容选取区域。

在步骤102中，基于待处理视频中的场景信息，对视频内容选取区域进行调整，获得待处理视频的待裁剪区域。

可选地，基于该待处理视频的场景信息对视频内容选取区域进行场景推荐，并结合推荐的场景对该视频内容选取区域进行调整，将经过调整的视频内容选取区域作为该待处理视频的待裁剪区域，以实现完整的场景的开始的起始点选取。

在步骤103中，对待裁剪区域进行裁剪处理。

可选地，在获得待处理视频的待裁剪区域之后，可以将该待裁剪区域从该待处理视频中裁剪出来，以便视频内容生产者对该待裁剪区域进行后续处理，比如增加文字描述或其他操作。由于该待裁剪区域是结合推荐场景对视频内容选取区域进行调整后得到的，可以使得待裁剪区域能够保证对应场景的完整性。

根据本申请实施例的视频内容剪辑方法，在监测到对待处理视频的选取操作时，可以基于待处理视频的场景信息对视频内容选取区域进行调整，获得待处理视频的待裁剪区域，使得待裁剪区域能够保证对应场景的完整性，进而对待裁剪区域进行裁剪处理。由此可见，本申请通过基于视频中的场景信息进行视频的裁剪区选择推荐，结合当前用户选择的视频区信息进行完整的场景推荐，以实现完整的场景的起始点和结束点选取，从而实现了利用更加精确的方式来协助视频内容进度的调整，保证裁剪出的视频内容上下文信息的完整性。

需要说明的是，待处理视频中可能存在多个场景，可以从多个场景中匹配出与该视频内容选取区域对应的场景作为推荐场景，基于该推荐场景对该视频内容选取区域进行调整，以保证当前选取的视频内容上下文信息的完整性。在本申请一些实施例中，如图3所示，该基于场景对齐的视频内容剪辑方法可以包括但不限于以下步骤：

在步骤301中，响应于对待处理视频的选取操作，确定与选取操作对应的视频内容选取区域。

在步骤302中，确定待处理视频的场景信息；场景信息包括多个场景和每个场景所对应的视频段分段点信息。

可以理解，待处理视频中可能存在多个场景。在本申请的实施例中，待处理视频的场景信息可以是从服务器中获取，或者，还可以是客户端对该待处理视频进行分析而得到的。

在一种实现方式中，可以从服务器中获取待处理视频的场景信息。举例而言，服务器可以预先基于图像识别技术对视频进行场景识别，确定该视频的场景信息，其中，场景识别的类别至少可以包括但不限于人物、动物、物品、地点、天气情况、剧情理解等中的任意一种或多种。服务器可以将视频的场景信息进行存储。当服务器接收到客户端发送的针对待处理视频的场景信息获取请求时，可以基于该请求中的待处理视频的标识信息，从存储的视频场景信息中找出该待处理视频的场景信息，并将该待处理视频的场景信息返回给客户端，从而使得客户端从服务器中获得待处理视频的场景信息。

在另一种实现方式中，电子设备可以基于图像识别技术对待处理视频进行场景识别，确定待处理视频的场景信息；其中，场景识别的类别至少可以包括但不限于人物，动物，物品，地点，天气情况，剧情理解等中任意一种或多种。也就是说，可以基于图像识别技术对待处理视频进行场景识别，生成该待处理视频的场景信息，以便基于该场景信息对该视频内容选取区域进行调整。可选地，还可将该待处理视频的场景信息发送给服务器进行存储，以供其他客户端用户使用。

在本申请的实施例中，该场景信息可以包括多个场景和每个所述场景所对应的视频段分段点信息。其中，视频段分段点信息可以理解是视频段的第一帧和最后一帧。例如，待处理视频包括多个场景，多个场景将该视频分成多个视频段，每个场景对应一个视频段，场景的第一帧和最后一帧可以组成一个视频段。比如，如图4所示，区域41为视频区，区域42为完整视频区，区域43为视频段分段点，其中，图4中将视频分成了6段，也就是该视频中包含6个场景，有7个分段点，构成6个视频段。

需要说明的是，在本申请的实施例中，在待处理视频加载到视频内容剪辑应用的剪辑界面中时，即可开始确定该待处理视频的场景信息，此时可以将该剪辑界面上显示该待处理视频的场景信息，例如，可以展示该待处理视频的场景视频段分段点。当用户在该剪辑界面上对该待处理视频进行选取操作时，可以隐藏该待处理视频的场景视频段分段点。

在步骤303中，从多个场景中确定与视频内容选取区域匹配的推荐场景。

在一种实现方式中，可以确定视频内容选取区域的起始点信息和结束点信息，并基于该起始点信息、结束点信息和每个场景所对应的视频段分段点信息，从多个场景中确定与视频内容选取区域匹配的推荐场景。

举例而言，如图2所示，假设用户从待处理视频中选取的区域为区域21，即该区域21即为视频内容选取区域，该待处理视频包含6个场景。可先确定该区域21的起始点信息和结束点信息，然后基于该起始点信息、结束点信息和每个场景所对应的视频段分段点信息，从6个场景中确定出与该区域21匹配的推荐场景，即第3个场景(即第3个视频段)即为与该区域21匹配的推荐场景。

在步骤304中，基于推荐场景所对应的视频段分段点信息，对视频内容选取区域进行调整，获得待处理视频的待裁剪区域。

在一种实现方式中，可以基于推荐场景所对应的视频段分段点信息，确定推荐场景所对应的视频段起始点和结束点，并将视频内容选取区域的进度调整至视频段起始点和结束点。

举例而言，如图5所示，假设用户从待处理视频中选取的区域为区域51，即该区域51即为视频内容选取区域，该待处理视频包含6个场景，确定出该区域51的推荐场景为视频段3所对应的场景。基于该推荐场景所对应的视频段分段点(如图5所示中的分段点3和分段点4)，将区域51的进度调整到视频段3的起始点和结束点。区域51的进度调整后得到的区域可如图6所示，将图5中用户选取的区域51的进度调整到视频段3的起始点和结束点。

在步骤305中，对待裁剪区域进行裁剪处理。

根据本申请实施例的基于场景对齐的视频内容剪辑方法，从多个场景中匹配出与该视频内容选取区域对应的场景作为推荐场景，基于该推荐场景对该视频内容选取区域进行调整，以保证当前选取的视频内容上下文信息的完整性。

为了进一步提升用户体验，在本申请一些实施例中，可以生成第一提示信息，并展示第一提示信息；其中，第一提示信息用于指示是否选择对视频内容选取区域进行调整。响应于选择对视频内容选取区域进行调整，执行上述基于推荐场景所对应的视频段分段点信息对视频内容选取区域进行调整的步骤。

举例而言，在确定与选取操作对应的视频内容选取区域之后，可以生成第一提示信息，并以提示框的方式展示该第一提示信息，以便提示用户是否选择对视频内容选取区域进行调整。当监测到用户选择对视频内容选取区域进行调整时，可以基于推荐场景所对应的视频段分段点信息对视频内容选取区域进行调整。其中，上述基于推荐场景所对应的视频段分段点信息对视频内容选取区域进行调整的步骤的实现方式可参见上述任一实施例中的实现方式的描述，在此不再赘述。

也就是说，用户在编辑视频时，可以分两种方式进行场景对齐的推荐。例如，在确定与选取操作对应的视频内容选取区域之后，默认选择与该视频内容选取区域匹配的推荐场景，自动对视频内容选取区域进行调整，整个过程无需提醒用户，也就是说基于场景对齐信息自动对视频内容选取区域进行调整。又如，在确定与选取操作对应的视频内容选取区域之后，可以生成提示信息，以提示用户是否需要进行场景对齐，当用户选择进行场景对齐时，基于场景对齐信息对视频内容选取区域进行调整。

可选地，在本申请一些实施例中，响应于未选择对视频内容选取区域进行调整，对视频内容选取区域进行裁剪处理。也就是说，当监测到用户未选择对视频内容选取区域进行调整时，保持用户的选取区域，即直接对该视频内容选取区域进行裁剪处理。

值得注意的是，用户在选取视频内容时，可能选取的视频内容区域包含了多个场景，也就是说，与视频内容选取区域匹配的推荐场景可能为多个。在本申请的一些实施例中，当该推荐场景为多个时，可以生成第二提示信息，并展示第二提示信息；其中，第二提示信息用于指示是否完全选择或拆分选择多个推荐场景；响应于完全选择多个推荐场景，将待裁剪区域作为一个整体进行裁剪处理。

可选地，在本申请一些实施例中，响应于拆分选择多个推荐场景，将待裁剪区域拆分成多个待裁剪区域，其中，待裁剪区域的拆分数量与推荐场景的数量相同。

举例而言，当用户选取的视频内容区域包含的推荐场景为多个时，可以生成提示信息，以提示用户选择的是多个场景，是否完全选择或拆分选择。例如，如图7所示，假设多个推荐场景分别为视频段2、视频段3和视频段4所对应的场景，用户选择的是完全选择，则将视频段2、视频段3和视频段4作为一个整体，将该整体作为该待处理视频的待裁剪区域。又如，用户选择的是拆分选择，则将视频段2、视频段3和视频段4分别拆分，如图8所示，将该视频段2、视频段3和视频段4所对应的视频内容区域拆分成三个待裁剪区域，即待裁剪区域81、待裁剪区域82和待裁剪区域83。

综上所述，与相关技术中的视频进度的调整方式，本申请得基于场景的开始点信息和结束点信息进行视频内容的选取的推荐，可以实现帮助用户视频内容选取的过程中不丢失某一个具体的转场或场景的详细内容。选取方法可以精确的，帮助用户选取视频区域。特别是对于一些特定的场景，比如针对于一些特定的剧情，或者是某一段剧情，基于这种方法的内容选取，用户选择的剧情内容是完整的。精确的内容选取可以帮助用户简化内容生产的过程，并且可以节省一些不必要的内容，重复选取的时间，有效地提升了用户在视频内容生产过程中的效率和质量。直接的提升了视频内容生产过程的体验，间接地提升了搜索全流程内容满足的过程用户的体验。

为了实现上述实施例，本申请还提出了一种基于场景对齐的视频内容剪辑装置。

图9为本申请实施例所提供的一种基于场景对齐的视频内容剪辑装置的结构框图。如图9所示，该基于场景对齐的视频内容剪辑装置可以包括：第一确定模块910、调整模块920和裁剪模块930。

其中，第一确定模块910用于响应于对待处理视频的选取操作，确定与选取操作对应的视频内容选取区域。在一种实现方式中，第一确定模块910从服务器获取待处理视频的场景信息。

在另一种实现方式中，第一确定模块910基于图像识别技术对待处理视频进行场景识别，确定待处理视频的场景信息；其中，场景识别的类别至少包括人物，动物，物品，地点，天气情况，剧情理解中任意一种或多种。

调整模块920用于基于待处理视频中的场景信息，对视频内容选取区域进行调整，获得待处理视频的待裁剪区域。

裁剪模块930用于对待裁剪区域进行裁剪处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例的视频内容剪辑装置，通过基于视频中的场景信息进行视频的裁剪区选择推荐，结合当前用户选择的视频区信息进行完整的场景推荐，以实现完整的场景的起始点和结束点选取，从而实现了利用更加精确的方式来协助视频内容进度的调整，保证裁剪出的视频内容上下文信息的完整性。

在本申请一些实施例中，如图10所示，该调整模块1020可以包括：第一确定单元1021、第二确定单元1022和调整单元1023。其中，第一确定单元1021用于确定待处理视频的场景信息；场景信息包括多个场景和每个场景所对应的视频段分段点信息；第二确定单元1022用于从多个场景中确定与视频内容选取区域匹配的推荐场景；调整单元1023用于基于推荐场景所对应的视频段分段点信息，对视频内容选取区域进行调整。

在一种实现方式中，第二确定单元1022可以确定视频内容选取区域的起始点信息和结束点信息；基于起始点信息、结束点信息和每个场景所对应的视频段分段点信息，从多个场景中确定与视频内容选取区域匹配的推荐场景。

在一种实现方式中，调整单元1023可以基于推荐场景所对应的视频段分段点信息，确定推荐场景所对应的视频段起始点和结束点；将视频内容选取区域的进度调整至视频段起始点和结束点。其中，图10中1010、1030和图9中910、930具有相同功能和结构。

可选地，在本申请一些实施例中，如图11所示，该视频内容剪辑装置还可包括：第一提示模块1140。其中，第一提示模块1140用于生成第一提示信息，并展示第一提示信息；其中，第一提示信息用于指示是否选择对视频内容选取区域进行调整；其中，调整单元1123具体用于：响应于选择对视频内容选取区域进行调整，执行基于推荐场景所对应的视频段分段点信息对视频内容选取区域进行调整的步骤。

在本申请的实施例中，裁剪模块1130还用于：响应于未选择对视频内容选取区域进行调整，对视频内容选取区域进行裁剪处理。其中，图11中1110-1130和图10中1010-1030具有相同功能和结构。

在本申请一些实施例中，当推荐场景为多个时，如图12所示，该视频内容剪辑装置还可包括：第二提示模块1250。其中，第二提示模块1250用于生成第二提示信息，并展示第二提示信息；其中，第二提示信息用于指示是否完全选择或拆分选择多个推荐场景；其中，裁剪模块1230还用于响应于完全选择多个推荐场景，将待裁剪区域作为一个整体进行裁剪处理。

在本申请的实施例中，裁剪模块1230还用于响应于拆分选择多个推荐场景，将待裁剪区域拆分成多个待裁剪区域，其中，待裁剪区域的拆分数量与推荐场景的数量相同。其中，图12中1210-1240和图11中1110-1140具有相同功能和结构。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的基于场景对齐的视频内容剪辑方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的基于场景对齐的视频内容剪辑方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的基于场景对齐的视频内容剪辑方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的基于场景对齐的视频内容剪辑方法对应的程序指令/模块。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的基于场景对齐的视频内容剪辑方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于场景对齐的视频内容剪辑的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至基于场景对齐的视频内容剪辑的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现基于场景对齐的视频内容剪辑方法的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于场景对齐的视频内容剪辑方法，包括：

对所述待裁剪区域进行裁剪处理。

2.根据权利要求1所述的方法，其中，所述基于所述待处理视频中的场景信息，对所述视频内容选取区域进行调整，包括：

确定所述待处理视频的场景信息；所述场景信息包括多个场景和每个所述场景所对应的视频段分段点信息；

从所述多个场景中确定与所述视频内容选取区域匹配的推荐场景；

基于所述推荐场景所对应的视频段分段点信息，对所述视频内容选取区域进行调整。

3.根据权利要求2所述的方法，其中，所述从所述多个场景中确定与所述视频内容选取区域匹配的推荐场景，包括：

确定所述视频内容选取区域的起始点信息和结束点信息；

基于所述起始点信息、所述结束点信息和每个所述场景所对应的视频段分段点信息，从所述多个场景中确定与所述视频内容选取区域匹配的推荐场景。

4.根据权利要求2所述的方法，其中，所述基于所述推荐场景所对应的视频段分段点信息，对所述视频内容选取区域进行调整，包括：

基于所述推荐场景所对应的视频段分段点信息，确定所述推荐场景所对应的视频段起始点和结束点；

将所述视频内容选取区域的进度调整至所述视频段起始点和结束点。

5.根据权利要求2至4中任一项所述的方法，还包括：

生成第一提示信息，并展示所述第一提示信息；其中，所述第一提示信息用于指示是否选择对所述视频内容选取区域进行调整；

响应于选择对所述视频内容选取区域进行调整，执行所述基于所述推荐场景所对应的视频段分段点信息对所述视频内容选取区域进行调整的步骤。

6.根据权利要求5所述的方法，还包括：

响应于未选择对所述视频内容选取区域进行调整，对所述视频内容选取区域进行裁剪处理。

7.根据权利要求2所述的方法，其中，所述推荐场景为多个；所述方法还包括：

生成第二提示信息，并展示所述第二提示信息；其中，所述第二提示信息用于指示是否完全选择或拆分选择多个所述推荐场景；

响应于完全选择多个所述推荐场景，将所述待裁剪区域作为一个整体进行裁剪处理。

8.根据权利要求7所述的方法，还包括：

响应于拆分选择多个所述推荐场景，将所述待裁剪区域拆分成多个待裁剪区域，其中，所述待裁剪区域的拆分数量与所述推荐场景的数量相同。

9.根据权利要求2所述的方法，其中，所述确定所述待处理视频的场景信息，包括：

从服务器获取所述待处理视频的场景信息。

10.根据权利要求2所述的方法，其中，所述确定所述待处理视频的场景信息，包括：

基于图像识别技术对所述待处理视频进行场景识别，确定所述待处理视频的场景信息；其中，所述场景识别的类别至少包括人物，动物，物品，地点，天气情况，剧情理解中任意一种或多种。

11.一种基于场景对齐的视频内容剪辑装置，包括：

裁剪模块，用于对所述待裁剪区域进行裁剪处理。

12.根据权利要求11所述的装置，其中，所述调整模块包括：

第一确定单元，用于确定所述待处理视频的场景信息；所述场景信息包括多个场景和每个所述场景所对应的视频段分段点信息；

第二确定单元，用于从所述多个场景中确定与所述视频内容选取区域匹配的推荐场景；

调整单元，用于基于所述推荐场景所对应的视频段分段点信息，对所述视频内容选取区域进行调整。

13.根据权利要求12所述的装置，其中，所述第二确定单元具体用于：

确定所述视频内容选取区域的起始点信息和结束点信息；

14.根据权利要求12所述的装置，其中，所述调整单元具体用于：

15.根据权利要求12至14中任一项所述的装置，还包括：

第一提示模块，用于生成第一提示信息，并展示所述第一提示信息；其中，所述第一提示信息用于指示是否选择对所述视频内容选取区域进行调整；

其中，所述调整单元具体用于：响应于选择对所述视频内容选取区域进行调整，执行所述基于所述推荐场景所对应的视频段分段点信息对所述视频内容选取区域进行调整的步骤。

16.根据权利要求15所述的装置，其中，所述裁剪模块还用于：响应于未选择对所述视频内容选取区域进行调整，对所述视频内容选取区域进行裁剪处理。

17.根据权利要求12所述的装置，其中，所述推荐场景为多个；所述装置还包括：

第二提示模块，用于生成第二提示信息，并展示所述第二提示信息；其中，所述第二提示信息用于指示是否完全选择或拆分选择多个所述推荐场景；

其中，所述裁剪模块还用于响应于完全选择多个所述推荐场景，将所述待裁剪区域作为一个整体进行裁剪处理。

18.根据权利要求17所述的装置，其中，所述裁剪模块还用于响应于拆分选择多个所述推荐场景，将所述待裁剪区域拆分成多个待裁剪区域，其中，所述待裁剪区域的拆分数量与所述推荐场景的数量相同。

19.根据权利要求12所述的装置，其中，所述第一确定单元具体用于：从服务器获取所述待处理视频的场景信息。

20.根据权利要求12所述的装置，其中，所述第一确定单元具体用于：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述方法的步骤。