CN116830195B

CN116830195B - 用户生成的多媒体内容的自动化后期制作编辑

Info

Publication number: CN116830195B
Application number: CN202180087538.9A
Authority: CN
Inventors: 吴熙东; 吴秀波
Original assignee: Weizhong Zhimei Film And Television Technology Co
Current assignee: Weizhong Zhimei Film And Television Technology Co
Priority date: 2020-10-28
Filing date: 2021-10-27
Publication date: 2024-05-24
Anticipated expiration: 2041-10-27
Also published as: CN116830195A

Abstract

描述了与打包多媒体内容以供分发相关的方法、装置和系统。在一个示例方面，一种用于执行后期制作编辑的方法包括从至少一个用户接收事件的一个或多个片段。该方法包括基于关于事件的信息构建用来指示一个或多个片段的多个时间单元的结构的脚本，以及基于至少包括音频分析和视频分析的多模态分析从一个或多个片段中提取语义含义。该方法还包括基于多个时间单元的结构和从一个或多个片段中提取的语义含义向脚本添加编辑指令，并且基于编辑指令执行编辑操作来基于一个或多个片段生成编辑的多媒体内容。

Description

用户生成的多媒体内容的自动化后期制作编辑

相关申请的交叉引用

本专利申请是相同发明人于2020年10月28日提交的相同名称的美国专利申请第17/082,941号的部分继续申请并要求其优先权。上述专利申请的全部内容通过引用并入作为本申请的公开内容的部分。

技术领域

该专利文件涉及用户生成的多媒体内容的自动后期制作编辑，多媒体内容包括音频、视频或包含移动图像的多媒体产品。

背景技术

用户生成的内容，也称为用户创建的内容，是用户在在线平台上发布的内容。用户生成的内容的出现标志着从由媒体组织创建在线内容转变为给业余爱好者提供设施来发布他们自己的内容。随着能够在各种时间和地点捕获内容的移动设备以及各种社交媒体平台的快速发展，用户生成的内容的数量以惊人的速度增长。

发明内容

本文描述的是允许对用户生成的内容进行自动后期制作编辑的技术、子系统和系统，从而使业余用户能够轻松创建专业编辑的多媒体内容，并且在多个社交媒体平台之间分发内容。业余爱好者可以使用所公开的技术根据事件的时间线自动组织从多个设备捕获的片段，并且产生专业编辑的内容，而无需理解复杂的编辑命令。

在一个示例方面，所公开的技术可以被实施为提供一种用于执行后期制作编辑的计算机实施的方法，包括从至少一个用户接收事件的一个或多个片段。该方法包括基于关于事件的信息构建指示一个或多个片段的多个时间单元的结构的脚本，以及基于包括音频分析和视频分析的多模态分析从一个或多个片段中提取语义含义。该方法还包括基于多个时间单元的结构和从一个或多个片段中提取的语义含义向脚本添加编辑指令，并且基于编辑指令执行编辑操作来基于一个或多个片段生成编辑的多媒体内容。

在另一示例方面，所公开的技术可以被实施为提供后期制作编辑平台，其包括被配置为从至少一个用户接收事件的一个或多个片段的用户界面。该平台还包括一个或多个处理器，其被配置为基于关于事件的信息构建指示一个或多个片段的多个时间单元的结构的脚本。一个或多个处理器被配置为至少基于一个或多个片段的音频分析和视频分析从一个或多个片段中提取语义含义，基于多个时间单元的结构以及从一个或多个片段中提取的语义含义向脚本添加编辑指令，并且基于编辑指令进行编辑操作来基于一个或多个片段生成编辑的多媒体内容。

这些和其他方面在本文档中进行了描述。

附图说明

图1示出了根据本技术的使用示例后期制作编辑平台的用户界面创建后期制作项目的示例流程。

图2示出了根据本技术的通过示例后期制作编辑平台执行内容重建的示例流程。

图3示出了根据本技术的片段的示例结构。

图4示出了根据本技术的通过示例后期制作编辑平台执行语义分析的示例流程。

图5示出了根据本技术的通过示例后期制作编辑平台执行编辑操作的示例流程。

图6示出了根据本技术的通过示例后期制作编辑平台执行打包和分发的示例流程。

图7是示出可以用于实施本公开技术的各个部分的计算机系统或其他控制设备的架构的示例的框图。

图8是根据本技术的用于执行后期制作编辑的方法的流程图表示。

图9示出了根据本技术的一个或多个实施例的电影制作系统的示例架构。

图10示出了根据本技术的后期制作编辑系统的示例分布式架构。

具体实施方式

移动设备和社交媒体平台的快速发展导致了数量惊人的用户生成的内容，诸如视频和其他多媒体材料。然而，绝大多数的用户生成的内容往往编辑差。例如，许多业余视频资料可能仅使用少数几个编辑效果进行编辑，而可以通过额外的编辑和增强来进行显著改进。与专业制作的视频材料和多媒体内容不同，业余用户生成的内容通常没有精心准备的制作脚本或清晰的故事情节。很多时候，个人自发地从不同角度捕获事件，导致数字视频片段在一些方面既不同步也不对齐。各种可供业余爱好者使用的视频编辑软件在编辑功能和性能方面可能会受到限制。专业的视频编辑软件程序价格昂贵且使用复杂。因此，对来自多个来源的用户生成的内容进行后期制作编辑仍然是业余用户制作高质量骨架视频和多媒体材料的挑战。

本专利文献公开了可以在各种实施例中实现的技术，以允许对用户生成的内容进行全自动后期制作编辑，从而使业余用户能够轻松创建高质量的多媒体内容，并且具有专业编辑的视频的感觉。可以实施所公开的技术以使用简单的用户界面控制来提供内容的交互式和迭代编辑，以实现用户期望的编辑效果。

在一些实施例中，所公开的技术可以被实施为包括以下子系统中的一个或多个的后期制作编辑平台：

1.用户界面：后期制作编辑平台提供了用户界面，其允许用户上传使用一个或多个设备捕获的片段。这样的用户界面可以被构造成使得用户能够提供关于捕获的主题的一些基本信息，诸如事件的类型、用于捕获数据的设备的数量以及事件的时间和/或位置。这样的用户提供的基本信息可以随后用于促进期望的用户编辑的多媒体内容的创建。用户界面还可以被配置为使用户能够基于事件的性质从为不同类型的事件定制的不同编辑模板中选择期望的编辑模板。例如，对于婚礼事件，平台可以提供专门为婚礼设计的若干后期制作编辑模板供用户来选择。替代地或附加地，平台可以基于由用户提供的信息来选择要使用的默认模板。

2.内容重建：基于由用户提供的信息，后期制作编辑平台的内容重建部分对片段进行初步的内容分析，来根据时间线确定片段的场景和/或镜头结构。

3.语义分析：在确定了片段的场景和/或镜头结构后，平台的语义分析部分可以进一步对片段进行语义分析，以获取每个场景/镜头的细节。例如，音频数据可以转换为对话的隐藏式字幕；可以执行面部识别以识别片段中出现的主要角色。基于场景/镜头结构和语义分析的结果，平台可以构建脚本，其概述了捕获原始数据所涉及的故事情节、时间线、角色和设备。

4.自动后期制作编辑：一旦脚本构建完成，后期制作编辑可以通过平台的自动后期制作编辑模块全自动进行。例如，基于由用户选择的模板，平台的自动后期制作编辑模块可以修改生成的脚本来添加适当的编辑指令。可以剪切某些场景和/或镜头，同时可以添加某些艺术效果作为场景之间的过渡。

5.交互式细化：当用户想要对与模板中定义的内容不同的内容进行自定义编辑更改时，生成的脚本还提供了交互式细化的灵活性。该平台可以提供具有简单或直观的用户界面控制的交互式细化模块，以使用户能够修改编辑效果。

6.打包和发布：编辑后的内容可以基于目标社交媒体平台打包成适当的(一个或多个)格式并相应地分发。

后期制作编辑平台可以作为独立的软件程序或网络服务来实施。上面的子系统的细节将结合下文的图1至图6进一步讨论。

图1示出了根据本技术的使用示例后期制作编辑平台的用户界面创建后期制作项目的示例流程100。该平台可以提供用户界面(例如，网络界面或移动应用上的用户界面)以允许用户创建后期制作编辑项目。在项目创建期间，用户可以指明项目的主题(例如，有关已捕获的事件的信息)并且将片段上传到平台。例如，可以为婚礼、团聚、家庭聚会、社区庆典等捕获内容。可以提示用户提供捕获内容的时间和/或位置。替代地或附加地，如果元数据可用，后期制作编辑平台可以从片段的元数据中提取这样的信息。

在一些实施例中，平台可以对部分片段进行快速面部识别，以识别事件中涉及的主要人物。例如，如果事件涉及若干主要人物(例如，婚礼中的新娘和新郎)，平台可以分析部分片段以识别新娘和新郎。实现这种识别的一种方式是提供用户界面，来使用户能够上传主要人物(例如，新娘和新郎)的照片，以允许平台使用上传照片中的面部应用面部识别，从而正确识别视频中的人物。在一些实施例中，在平台识别出若干主要人物后，可以提示用户提供或输入这些识别出的人物的名字。

在一些实施例中，平台可以基于由用户提供的信息为项目确定合适的模板。模板可以提供默认的故事情节，以及一组背景音乐剪辑和/或艺术效果。在一些实施例中，用户可以从一组可用模板中选择模板。用户还可以在对片段执行任何处理之前或编辑片段之后对模板进行更改(例如，替换音乐剪辑或编辑效果)。对于没有明确定义的结构的事件，可能没有任何可用的模板。可以提示用户提供结构。例如，用户可以基于事件的时间顺序和不同位置来提供场景列表的描述。

一旦创建了项目，用户还可以邀请其他用户参与该项目，例如邀请朋友或家人加入该项目，以便受邀的朋友或家人可以上传从不同设备捕获的额外内容。该平台可以基于用户上传的数量和/或与片段相关的元数据来确定用于制作内容的设备的数量。

图2示出了根据本技术的通过示例后期制作编辑平台执行内容重建的示例流程200。如上所述，不同的用户可以使用不同的设备来捕获片段。由于设备之间的差异，经常在制作这些片段时使用不同的视频编解码器和/或不同的分辨率。因此需要对来自不同设备的视频片段进行转码，来将不同的视频片段转换为基于相同编解码器和/或分辨率的转码视频片段，以便项目能够以统一的方式组织它们。该平台还可以执行质量增强处理步骤，以减少和/或移除视频中的摇动或抖动伪影。在一些实施例中，平台可以丢弃质量非常差的视频剪辑。

作为内容重建的部分，平台随后执行视频分割，来以镜头和/或场景的时间单位将片段分成更小的段。镜头是由一个相机不间断拍摄的一系列帧。在相同位置和/或时间制作的多个镜头被分组到场景中。该平台可以执行镜头过渡检测，以确定内容中的任何突然或渐进的过渡，并且将片段拆分成镜头。平台还可以采用不同的算法，诸如内容感知检测和/或阈值检测，来确定是否发生了场景变化，从而将相关镜头分组在相同场景中。可以构造包括多个场景的树结构来表示片段，每个场景包括多个镜头。

图3示出了根据本技术的片段的示例结构300。在此示例中，片段包括两个主要场景，每个场景都包含多个镜头。结构中的每个时间单元(例如，镜头和/或场景)都可以分配时域值。基于片段中包括的元数据以及由(一个或多个)用户提供的信息，平台可以确定时间单元中的每一个的开始时间和结束时间。由不同用户提供(或由不同设备捕获)的片段中的不同镜头和/或场景可以沿时域对齐。大约在相同时间捕获的镜头可以被相互关联。例如，如图3中所示，来自设备1的原始剪辑1和来自设备2的原始剪辑2大约同时被捕获。后期制作编辑平台也可以确定剪辑与相同内容相关联。也就是说，这些是对应于从不同角度从不同设备拍摄的相同的(一个或多个)人物/瞬间的剪辑。剪辑被标记为与相同镜头相关联。类似地，来自设备3的原始剪辑4和来自设备2的原始剪辑5在时域中至少部分重叠。它们也是捕获相同的(一个或多个)人物和/或瞬间的不同剪辑。因此，这两个剪辑都与镜头3相关联。

在一些实施例中，用户提供的时间信息可能不准确。此外，由于设备未同步，所以元数据中包括的时间信息可能无法完全匹配。平台可以执行初步的对象/人物/手势识别，来基于镜头的内容对齐镜头(例如，当相同的人物或相同的手势出现在两个不同的视频剪辑中时)。此外，音频数据可以用于在时域中对齐镜头。当相同声音在不同剪辑中以略微不同的时间点出现时，平台可以基于声音的出现来同步剪辑和/或镜头。

平台可以开始基于初步信息和时域对齐/同步来构建脚本。表1示出了由后期制作编辑系统构建的对应于图3所示的结构的示例初始脚本。

表1示例初始脚本

由于大多数业余作品没有预定义的故事情节或制作脚本，因此用户缺乏清晰的大纲来组织内容以用于编辑目的。由后期制作编辑平台生成的脚本为用户提供了内容的顶层概览以及由不同设备捕获的内容之间的关系，从而便于对内容进行后续的编辑操作。

图4示出了根据本技术的通过示例后期制作编辑平台执行语义分析的示例流程400。基于场景/镜头结构和初步分析结果，后期制作编辑平台可以对镜头和/或场景执行深度语义分析，以进一步识别角色、分类活动、跟踪由人物执行的运动或移动等。平台可以基于计算机视觉和/或视频处理领域中的自然语言处理(NLP)算法和机器学习算法执行多模态分析(例如，音频和视频)，以进一步获得有关内容的信息。

例如，可以采用使用NLP算法的音频和文本分析来对语音进行分类和提取关键词。可以使用话音识别技术将音频数据转换为隐藏式字幕。音频分析还可以提取非语言信息，诸如鼓掌、欢呼和/或背景音乐或声音。

在一些实施例中，除了初步的面部识别和/或对象检测操作之外，计算机视觉技术可以用于准确地识别动作和运动。例如，诸如光流的技术可以用于跟踪人类动作和/或对象移动。基于由用户提供的信息(例如，事件的性质、捕获片段的位置等)和识别的对象/人物，可以将已识别的连续动作链接起来，形成语义上下文。然后可以为与动作相关联的镜头和/或场景提供对应的语义标签。例如，给定明确定义的场景，诸如婚礼上的誓言交换，由人物执行的动作可以被标记有具有高置信度的对应的语义含义。对于不具有明确定义的结构和/或语义上下文的场景，系统可以指示导出的语义含义被赋予低置信度。可以提示用户细化或改进那些场景的动作/场景的语义标记。

在一些实施例中，可以训练一个或多个神经网络来为场景/镜头提供更准确的上下文标记。不同的域特定网络可以用于明确定义的场景(例如，婚礼、表演等)以及缺乏明确定义结构的场景(例如，家庭野餐)。具体地，递归神经网络(RNN)是沿着时间序列形成有向图的一类人工神经网络。在一些实施例中，可以训练域特定的RNN(例如，用于婚礼事件)以为婚礼片段中的某些镜头/场景提供语义含义。可以训练另一个域特定的RNN(例如，用于野餐)来标记捕获家庭野餐的片段中的某些镜头/场景。RNN可以首先使用一小组训练数据进行离线训练，这些训练数据在动作之间具有预定义的对应关系(例如，演讲后的掌声，笑话后的笑声)。可以基于用户的反馈对RNN进一步执行在线训练。例如，一旦系统导出具有低置信度的语义含义，就可以提示用户提供语义含义的修正和/或细化。用户输入可以用于进一步训练模型来获得更高的精度以进行后续处理。

可以总结语义分析的结果来补充由平台生成的初始脚本。表2示出了根据本技术的具有语义信息的示例脚本。基于语义分析结果对初始脚本的添加和/或更新标有下划线。

表2具有语义信息的示例脚本

在一些实施例中，基于事件的类型，模板可以预先定义一个或多个场景，这些场景具有可以与捕获的内容相匹配的对应的语义含义。例如，对于婚礼事件，模板可以定义新郎的父亲讲话的默认场景。场景可以带有预定义的语义信息。在执行音频和视频分析后，平台可以将镜头和/或剪辑与预定义的语音场景进行匹配，并且相应地更新脚本。

图5示出了根据本技术的通过示例后期制作编辑平台执行编辑操作的示例流程500。给定项目的元数据信息和生成的脚本，后期制作编辑平台可以进一步定义编辑操作，诸如镜头/场景剪切和/或过渡效果。还可以向片段添加适当的背景音乐。

在一些实施例中，脚本可以被进一步修改为包括要对片段执行的编辑操作。例如，可以为每个场景剪切镜头；可以拼接来自不同设备的多个剪辑。除了基于模板确定剪切/编辑位置外，后期制作编辑平台还可以确定片段中是否出现了指示“戏剧性瞬间”的戏剧性变化，其可以作为潜在的剪切定位来进一步对片段进行剪切/编辑。

在一些实施例中，可以根据整个内容的期望长度来调整场景的长度。可以用不同的音效替换原来的背景音乐或声音。场景之间的过渡效果也可以添加到脚本中。表3示出了根据本技术的具有编辑操作的示例脚本。在表3中对脚本和编辑操作的示例更改标有下划线。基于脚本中的信息，平台对片段进行相应的编辑。

表3具有编辑操作的示例脚本

在一些实施例中，平台可以实施基于云的电影编辑系统(CFES)，以在完全自动的多媒体编辑平台中执行一系列编辑操作，从而实现根据表示为机器可读脚本的故事情节的自动编辑。这样的CFES系统可以以各种配置来实现，其中CFES系统的计算机服务器或部分或组件可以在地理上或物理上位于不同的区域或位置，以使CFES系统的用户能够将捕获的视频发送到CFES系统，以供在具有到CFES系统的互联网访问的任何用户位置处进行编辑，并检索CEFS编辑的视频。图9和图10示出了两个示例。CFES系统的用户可能位于一个位置，而CFES系统的一台或多台计算机服务器或部分或组件可能位于不同区域(例如，在一些系统部署中位于国外)。

作为具体示例，图9示出了实施本专利文献中公开的技术的电影制作系统900的示例。电影制作系统示例900包括四个主要子系统：电影前期制作用户服务(MPUS)901、终端设备管理系统(EDMS)903、电影制作指导系统(MPDS)905和基于云的影片编辑系统(CFES)907。电影制作系统900还可以包括用于存储用于电影制作的数字数据的数字存储器和用于存储电影数据的附加存储909。系统900还可以包括内容递送系统(CDS)911，以直接向消费者(例如，基于支付或基于订阅)或向使用他们的服务平台向他们的客户提供电影的在线电影和TV节目服务提供商(例如Netflix)提供内容的实时或准实时分发。

MPUS 901提供了可以指导用户通过前期制作处理进行工作的用户界面。基于影片的类型或视觉风格，MPUS 901可以为场景生成机器可读的脚本，并且为用户确定初步的制作计划。MPDS 905在自动影片制作中充当导演的角色。由MPUS 901生成的脚本被加载到MPDS 905中用于进一步处理。基于场景/镜头的地理位置、所需的装备和涉及的人员，MPDS905可以确定各种场景之间的依赖性和/或约束。在制作时间期间，MPDS 905可以准确确定每个镜头和每个场景的开始时间和持续时间，并且进行相应的调整。EDMS 903是代理服务器，其接收来自MPDS 905的指令，并且在影片拍摄期间将指令转发给所有终端设备和人员。EDMS 903可以用于为内容的制作提供设备注册、设备控制、设备同步、设备跟踪和编码支持。CFES 907以自动的方式执行大部分后期制作活动；它既可以在影片拍摄完成后对所有多媒体内容进行操作，也可以在现场捕获内容的同时对从终端设备流式传输的多媒体内容进行实时操作。在各种实施方式中，CFES可以被设计为提供影片编辑、音频编辑、多媒体质量增强和商业插入。

电影制作系统900可以作为用于制作电影或TV节目的完整系统提供给用户；而在其他实施方式中，用户可以访问系统900中的一个或多个子系统以促进电影或TV节目的部分特定制作。例如，使用所公开的技术实现的CFES907可以是用户可用的集成或独立的后期制作编辑系统。CFES 907包括一个或多个处理器和包括处理器可执行代码的一个或多个存储器。处理器可执行代码在由一个或多个处理器执行时，可操作以配置一个或多个处理器来接收与故事情节的一个或多个场景对应的一个或多个机器可读脚本。一个或多个机器可读脚本包括关于一个或多个场景中的每一个的多模态数据和编辑指令的信息。一个或多个处理器被配置为接收与一个或多个场景对应的多个多媒体内容流，基于一个或多个场景中的每一个的多模态数据识别多个多媒体内容流中的音频或视频特征的至少一个变化，基于编辑指令并且选择性地基于识别出的变化对多个多媒体内容流进行编辑，并且基于编辑后的多个流生成最终的多媒体内容流。在2020年5月8日提交的题为“Fully Automated Post-Production Editing for Movies,TV Shows,and Multimedia Contents”的国际申请号PCT/US2020/032217中进一步描述了有关CFES的详细信息，该申请整体通过引用被并入。

在一些实施例中，在将内容分发到各个社交媒体平台之前，用户可能希望对编辑效果进行额外的改变。在此阶段，可以向用户呈现完整的脚本，其包括编辑指令以及内容的结构。该脚本还示出了不同的剪辑/镜头如何相互关联以形成编辑后的内容。用户现在可以选择使用简单的用户界面控制(例如，不同过渡类型之间的选择、片段的不同角度之间的选择)来修改编辑效果，而无需具备有关视频编辑或软件程序的专业知识。平台可以基于控制输入提供编辑后的内容的修订版本，使得可以以交互和迭代的方式进行编辑操作。在一些实施例中，代替使用所提供的用户界面控制，用户可以手动编辑脚本以结合期望的编辑效果。系统根据脚本的变化更新编辑后的内容，以向用户提供及时反馈。

一旦编辑了片段，可以将编辑后的内容打包并且分发到目标平台。图6示出了根据本技术的通过示例后期制作编辑平台执行打包和分发的示例流程600。编辑的多媒体内容可以被编码为不同的格式，诸如Flash(.f4v)、运动图像专家组(MPEG)4(mp4)或QuickTime(.mov)。为了便于在各种在线社交媒体平台上发布编辑后的内容，使用诸如自适应流式传输的技术，通过根据网络条件应用不同的压缩级别来最大化观看体验。还可以执行转复用以将压缩的编码媒体流打包到用于在线流式传输的容器中。由于后期制作编辑系统已经基于片段的结构和语义含义构建了脚本，因此可以对编辑后的内容进行内容结构感知打包。例如，借助制作阶段的信息，可以对制作的内容进行不同的编辑和打包，以允许观众拥有完全不同的电影、TV节目或视频的观看体验。内容提供商可以灵活地创建适合各种观众群体(例如，基于观众订阅计划)的电影、TV节目或其他内容的定制版本。此外，内容提供商可以更好地控制电影、TV节目或其他内容中的商业投放，从而为观众提供无缝的观看体验。有关内容结构感知打包和分发的细节可以在2020年8月27日提交的题为“Content StructureAware Multimedia Streaming Service for Movies,TV Shows and MultimediaContents”的美国专利申请第17/004,383号并被授权为美国专利号11,070,888B1中找到，其整体通过引用并入。

图7是示出可以用于实施本公开技术的各个部分(例如，执行转码或转复用的(一个或多个)处理器)的计算机系统或其他控制设备700的架构的示例的框图。计算机系统700包括经由互连725连接的一个或多个处理器705和存储器710。互连725可以表示通过适当的桥接器、适配器或控制器连接的任何一个或多个单独的物理总线、点对点连接或两者。因此，互连725可以包括例如系统总线、外围组件互连(PCI)总线、超传输或工业标准架构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)总线或电气和电子工程师协会(IEEE)标准674总线，有时称为“火线”。

(一个或多个)处理器705可以包括中央处理单元(CPU)以控制例如主计算机的整体操作。在某些实施例中，(一个或多个)处理器705通过执行存储在存储器710中的软件或固件来实现这一点。(一个或多个)处理器705可以是或可以包括一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑器件(PLD)等，或这些设备的组合。

存储器710可以是或包括计算机系统的主存储器。存储器610表示任何合适形式的随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器等，或这些设备的组合。在使用中，除了别的以外，存储器710可以包含一组机器指令，在由处理器705执行时，该机器指令使处理器705执行操作来实现本公开技术的实施例。

还通过互连725连接到(一个或多个)处理器705的是(可选的)网络适配器715。网络适配器715为计算机系统700提供与诸如存储客户端和/或其他存储服务器的远程设备通信的能力，并且可以是例如以太网适配器或光纤通道适配器。

图8是根据本技术的用于执行后期制作编辑的方法800的流程图表示。方法800包括：在操作810处，从至少一个用户接收事件的一个或多个片段。方法800包括：在操作820处，基于关于事件的信息构建用来指示一个或多个片段的多个时间单元的结构的脚本。这里，时间单元可以包括镜头或场景。方法800包括：在操作830处，基于至少包括音频分析和视频分析的多模态分析从一个或多个片段中提取语义含义。方法800包括，在操作840处，基于多个时间单元的结构和从一个或多个片段中提取的语义含义向脚本添加编辑指令。方法800还包括：在操作850处，基于编辑指令执行编辑操作来基于一个或多个片段生成编辑的多媒体内容。

在一些实施例中，该方法包括经由用户界面向用户呈现脚本和编辑的多媒体内容；经由用户界面接收来自用户的输入以更新脚本的至少一部分；以及以迭代的方式基于更新的脚本生成编辑的多媒体内容的修订版本。

在一些实施例中，该方法包括基于嵌入在一个或多个片段中的元数据来提取关于捕获事件的时间或位置的信息。在一些实施例中，多个时间单元的结构指定场景包括多个镜头，并且来自至少一个设备的一个或多个剪辑对应于相同镜头。在一些实施例中，该方法包括为一个或多个片段的多个时间单元中的每一个分配时域位置，并且基于时域位置来对齐对应的时间单元。在一些实施例中，该方法还包括识别一个或多个片段中的一个或多个人物或一个或多个手势，并且基于识别的一个或多个人物或识别的一个或多个手势来细化对应时间单元的对齐。

在一些实施例中，该方法包括基于音频分析从一个或多个片段中提取文本或背景声音，并且将脚本修改为包括提取的文本或背景声音。在一些实施例中，该方法包括使用基于一个或多个片段的语义含义确定的替代声音来替换背景声音。

在一些实施例中，语义含义包括基于对一个或多个片段的视频分析确定的一个或多个人物中的一些人物之间的关联。在一些实施例中，该方法包括基于目标在线媒体平台将编辑的多媒体内容打包，并且将打包的多媒体内容分发到目标在线媒体平台。

图10示出了根据本技术的后期制作编辑系统100的示例分布式架构。在该系统1000中，影片编辑功能中的一些可以由一个或多个边缘影片编辑服务器1001执行。例如，由特定装备(例如，数字视频相机1002a，或诸如智能手机或平板计算机1002b等具有相机的设备等)在特定位置拍摄的场景的视频片段可以被发送给由靠近该位置的对应的边缘影片编辑服务器来编辑。存储在诸如膝上型或台式计算机1002c的用户设备处的视频片段也可以由用户发送到后期制作编辑系统1000进行编辑。然后，用户可以使用诸如智能电话、平板计算机、笔记本计算机或台式计算机的用户设备检索编辑后的视频片段，以供查看或进一步处理。边缘编辑服务器1001与场景位置的接近允许在没有太多网络延迟的情况下完成初步编辑。如果电影正在近乎实时地广播或在最终影片编辑完成后不久广播，则边缘服务器尤为重要。对于非实时后期制作编辑，可能不需要这样的边缘服务器，因为所有录制的多媒体内容都将被收集到单个云位置进行处理。来自边缘影片编辑服务器的编辑后的片段可以由中央影片编辑服务器1003合并以进行进一步处理(例如，跨多个位置的场景进行编辑)。然后将完全编辑后的片段发送到视频增强服务器1005，以用于在与来自音频编辑服务器1009和音频增强服务器1011的编辑后的音频流混合之前执行压缩和其他增强。一旦增强完成，商业插入服务器1013用期望的商业内容替换片段的选定部分。商业插入服务器1013还可以拍摄具有现有商业内容的片段，并且用另一个品牌替换它们。需要注意的是，图10中的每个块表示逻辑功能实体而不是物理实体。基于成本、技术、联网和规模的考虑，逻辑实体可以被组合成一个物理实体或被分成不同的实体。从一个物理实体到另一个物理实体的数据流可以是流式传输以进行实时处理，以及/或者也可以是批量传输以进行离线处理。

在操作中，后期制作编辑系统1000可以作为多媒体内容系统的部分被连接，或者被用户访问以执行期望的后期制作编辑操作。这样的多媒体内容系统可以包括输入设备，该输入设备至少包括被配置为捕获事件的一个或多个片段的相机(例如，如图10所示的1002a和/或1002b)。该系统还可以包括经由网络与输入设备通信的一个或多个计算机处理器、计算机服务器或计算机存储设备(例如，边缘影片编辑服务器1001、中央影片编辑服务器1003、音频编辑服务器1009等)。处理器、服务器和/或设备被配置为从输入设备接收事件的一个或多个片段，并且基于关于事件的信息构建用来指示一个或多个片段的多个时间单元(例如，镜头或场景)的结构的脚本。处理器、服务器和/或设备被配置为至少基于一个或多个片段的音频分析和视频分析从一个或多个片段中提取语义含义，基于多个时间单元的结构和从一个或多个片段中提取的语义含义向脚本添加编辑指令，基于编辑指令执行编辑操作来基于一个或多个片段生成编辑的多媒体内容，以及经由网络将编辑的多媒体内容提供给一个或多个多媒体观看设备进行观看。在一些实施例中，一个或多个多媒体观看设备(诸如图10中所示的用户移动设备1002b)也可以是输入设备。

上述示例表明，本专利文献中公开的技术和系统可以被广泛采用，以基于使用多个设备的用户捕获内容制作专业编辑的多媒体内容。所公开的系统不是执行一站式自动编辑操作，而是旨在从原始UGC内容重建专业的制作结构(例如，重建的制作脚本)，以实现专业级别的内容编辑。重构后的脚本允许用户快速了解镜头/场景、剪辑效果和不同媒体文件之间的对应关系，从而使用户能够在需要时迭代地做出合适的编辑选择。

本专利文献中描述的主题和功能操作的实现方式可以在各种系统、数字电子电路中或以计算机软件、固件或硬件实现，包括本说明书中公开的结构及其结构等同物，或在它们中的一个或多个的组合中实现。本说明书中描述的主题的实现方式可以实现为一个或多个计算机程序产品，例如，编码在有形和非暂时性计算机可读介质上的一个或多个计算机程序指令模块，用于供数据处理装置执行或用来控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质组合物或它们中的一个或多个的组合。术语“数据处理单元”或“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件的代码、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合。

计算机程序(也称为程序、软件、软件应用、机器可读脚本或代码)可以用包括编译或解释语言的任何形式的编程语言编写，并且可以以包括作为独立程序或作为模块、组件、子例程或其他适合在计算环境中使用的单元的任何形式部署。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中或多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序在一台计算机或位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行，并且装置也可以实现为专用逻辑电路(例如，FPGA(现场可编程门阵列))或ASIC(专用集成电路))。

适用于执行计算机程序的处理器通过示例的方式包括通用和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括或可操作地耦接从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据、或向其传递数据、或两者。然而，计算机不需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，通过示例的方式包括半导体存储设备，例如EPROM、EEPROM和闪速存储器设备。处理器和存储器可以由专用逻辑电路补充或合并到专用逻辑电路中。

虽然本专利文献包含许多细节，但是这些不应被解释为对任何发明或可能要求保护的范围的限制，而是对可能特定于特定发明的特定实施例的特征的描述。本专利文献中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实施。此外，尽管特征可能在上面被描述为在某些组合中起作用，甚至最初也如此声明，但在某些情况下，可以从组合中删除要求保护的组合中的一个或多个特征，并且要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定次序描绘了操作，但是这不应当被理解为要求此类操作以所示的特定次序或按顺序次序来执行、或要执行所有所例示的操作才能实现期望的结果。而且，本专利文献中描述的实施例中的各个系统组件的分离不应理解为所有实施例都需要这样的分离。

仅描述了一些实施方式和示例，并且可以基于本专利文献中描述和图示的内容进行其他实施方式、增强和变型。

Claims

1.一种用于对数字视频片段或数字多媒体片段执行后期制作编辑的计算机实施的方法，包括：

接收由至少一个用户设备捕获的事件的一个或多个片段；

确定所述一个或多个片段中的每个片段的多个时间单元，其中，时间单元包括镜头或场景；

基于关于所述事件的信息，构建指示所述一个或多个片段的所述多个时间单元的结构的脚本，所述脚本至少包括所述一个或多个片段的所述多个时间单元中的每一个时间单元的开始时间和结束时间，其中所述构建包括:

为所述一个或多个片段的所述多个时间单元中的每一个时间单元分配时域位置；和

根据为由不同设备捕获的不同时间单元分配的时域位置对齐所述不同时间单元；

基于在一个或多个时间单元中识别的一个或多个人物或一个或多个手势来细化所述不同时间单元的所述对齐；以及

基于所述不同时间单元的所述对齐的所述细化，确定所述多个时间单元中的每一个时间单元的开始时间和结束时间；

基于至少包括音频分析和视频分析的多模态分析从所述一个或多个片段中提取语义含义；

基于所述多个时间单元的所述结构和从所述一个或多个片段中提取的所述语义含义向所述脚本添加编辑指令；以及

基于所述编辑指令执行编辑操作来基于所述一个或多个片段生成编辑的多媒体内容。

2.根据权利要求1所述的方法，包括：

经由用户界面向用户呈现所述脚本和所述编辑的多媒体内容；

经由所述用户界面接收来自所述用户的输入，以响应于来自所述用户的所述输入更新所述脚本的至少部分；以及

以迭代方式基于更新的所述脚本生成所述编辑的多媒体内容的修订版本。

3.根据权利要求1所述的方法，包括：

基于嵌入在所述一个或多个片段中的元数据提取关于捕获所述事件的时间或位置的信息。

4.根据权利要求1所述的方法，其中，所述多个时间单元的所述结构包括指定多个场景的树结构，其中每个场景包括多个镜头。

5.根据权利要求1所述的方法，包括：

基于所述音频分析从所述一个或多个片段中提取文本或背景声音；和

将所述脚本修改为包括所述文本或所述背景声音。

6.根据权利要求5所述的方法，还包括：

使用基于所述一个或多个片段的所述语义含义确定的替代声音来替换所述背景声音。

7.根据权利要求1所述的方法，其中，所述语义含义包括基于对所述一个或多个片段的所述视频分析确定的所述一个或多个人物中的一些人物之间的关联。

8.根据权利要求1所述的方法，其中，所述语义含义包括基于对所述一个或多个片段的所述视频分析确定的由所述一个或多个人物中的一些人物执行的动作之间的关联。

9.根据权利要求1所述的方法，其中，所述语义含义的所述提取包括：

识别所述一个或多个片段中的一个或多个人物；

基于所述一个或多个片段识别由所述一个或多个人物执行的一个或多个动作；和

基于关于所述事件的所述信息，使用神经网络建立所述一个或多个动作的至少部分动作之间的关联。

10.根据权利要求9所述的方法，其中，所述语义含义的所述提取还包括：

使用来自用户的反馈调整所述一个或多个动作的所述至少部分动作之间的关联。

11.根据权利要求9所述的方法，其中，所述神经网络包括递归神经网络。

12.根据权利要求1所述的方法，包括：

基于目标在线媒体平台对所述编辑的多媒体内容进行打包；和

将打包的多媒体内容发布到所述目标在线媒体平台。

13.一种后期制作编辑平台，包括：

用户界面，被配置为从至少一个用户设备接收事件的一个或多个片段；和

处理器，被配置为：

基于关于所述事件的信息构建用来指示所述一个或多个片段的多个时间单元的结构的脚本，其中，时间单元包括镜头或场景，其中所述脚本至少包括所述多个时间单元中的每一个时间单元的开始时间和结束时间，并且其中所述脚本通过以下方式构建:

根据分配的时域位置对齐由不同设备捕获的一个或多个时间单元；

基于在所述一个或多个时间单元中识别的一个或多个人物或一个或多个手势来细化所述一个或多个时间单元的所述对齐；以及

基于所述细化，确定所述多个时间单元中的每一个时间单元的开始时间和结束时间；

至少基于对所述一个或多个片段的音频分析和视频分析从所述一个或多个片段中提取语义含义；

14.根据权利要求13所述的后期制作编辑平台，其中，所述用户界面被配置为向用户呈现所述脚本和所述编辑的多媒体内容，所述用户界面还被配置为接收来自所述用户的输入来更新所述脚本，以及

其中，所述处理器被配置为基于更新的所述脚本生成所述编辑的多媒体内容的修订版本，以实现所述用户对所述一个或多个片段的迭代编辑。

15.根据权利要求13所述的后期制作编辑平台，其中，所述处理器被配置为基于嵌入在所述一个或多个片段中的元数据来提取关于捕获所述事件的时间或位置的信息。

16.根据权利要求13所述的后期制作编辑平台，其中，所述多个时间单元的所述结构包括指定多个场景的树结构，其中每个场景包括多个镜头。

17.根据权利要求13所述的后期制作编辑平台，其中，所述处理器被配置为：

将所述脚本修改为包括所述文本或所述背景声音。

18.根据权利要求13所述的后期制作编辑平台，其中，所述语义含义包括基于对所述一个或多个片段的所述视频分析确定的所述一个或多个人物中的一些人物之间的关联。

19.根据权利要求13所述的后期制作编辑平台，其中，所述语义含义包括基于对所述一个或多个片段的所述视频分析确定的由所述一个或多个人物中的一些人物执行的动作之间的关联。

20.根据权利要求13所述的后期制作编辑平台，其中，所述处理器被配置为基于以下步骤提取所述语义含义：

识别所述一个或多个片段中的一个或多个人物；

21.根据权利要求20所述的后期制作编辑平台，其中，所述处理器被配置为使用来自用户的反馈来调整所述一个或多个动作的所述至少部分动作之间的所述关联。

22.根据权利要求20所述的后期制作编辑平台，其中，所述神经网络包括递归神经网络。

23.根据权利要求13所述的后期制作编辑平台，其中，所述处理器被配置为将所述编辑的多媒体内容打包并且分发至一个或多个在线媒体平台。

24.根据权利要求13所述的后期制作编辑平台，其中，所述后期制作编辑平台的至少部分被实现为网络服务。