CN116783894A

CN116783894A - 基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的方法和系统

Info

Publication number: CN116783894A
Application number: CN202280010963.2A
Authority: CN
Inventors: 迈克尔·约瑟夫·卡林; 罗伊·费恩森
Original assignee: Emgemes LLC
Current assignee: Emgemes LLC
Priority date: 2021-01-25
Filing date: 2022-01-24
Publication date: 2023-09-19
Also published as: CA3206406A1; KR20230137949A; EP4282158A1; JP2024508363A; AU2022210466A1; WO2022159821A1; US20220237224A1

Abstract

本文公开了解决上述问题、尤其是提供对不协调内容的协调的方法和系统。除了简单地归档和/或组织可用内容之外，该方法和系统还生成提供扩展到任何给定源内容之外的丰富细节和补充数据的复合媒体资产。该方法和系统通过一种新颖的数据过滤和同步处理来实现这一点。

Description

基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的方法和系统

相关申请的交叉引用

本申请要求于2021年1月25日提交的美国专利申请第63/141171号的优先权，其通过全文引用合并于此。

背景技术

近年来，可以包括内容捕获设备(例如，相机、录像机、麦克风和/或具有音频、视频或数据记录功能的其他设备)的用户设备的使用和可用性的增加(尤其是在移动设备中)已经呈指数级增长。过多的这些内容捕获设备导致了对于给定的公共事件可从许多不同的设备获得视频、音频和/或其他类型的记录。

这些内容捕获设备可能出于多种原因而被使用，例如安全、虚幻、纪念事件、直播等，但是却导致了“眼联网”环境。虽然常见的示例可能包括由相应的移动设备捕获的多个视频记录，但是可以获得图像、视频、2D、3D、4D、6D 360、激光雷达、雷达、热渲染、MRI扫描、CAT扫描、超声、红外和视点云形式或其他形式的数据。随着内容捕获设备的丰富，被捕获中的图像和个人视频(“PV”)可谓不计其数。然而，虽然许多内容捕获设备在摄取PV中，但是该内容是以不协调的方式捕获的。这些设备在不了解或不与其他PV协作的情况下摄取PV。继而，存在无数具有相似主题却永远保持分离的PV。例如，在一场给定的摇滚音乐会上，可能有成千上万的人在用他们的智能手机拍摄视频。每个视频包含音乐会的独特方面，例如角度、图像质量、缩放、方向、聚焦等。尽管所有这些人都在同一事件中，但是这些视频却保持分离。

发明内容

例如，在传统的系统中，关于给定事件的内容可以基于特定数据属性(例如，日期、作者等)来归档在一起。也就是说，传统的数据库依赖于用一个或多个属性标记个体内容并且允许用户搜索该内容。虽然这种传统系统提供了对内容组的高效导航和访问，但是这种传统系统的结果充其量是对原始内容的访问。本文描述的方法和系统超越了简单地提供对原始源内容的访问，并且取而代之地生成大于任何源内容的新内容(例如，包括更多的内容、细节、交互性等)。

作为一个示例，该方法和系统基于源内容(例如，由多个远程内容捕获设备生成的个体PV)生成复合内容。该复合内容可以将源内容(例如，其每一个可以包括给定事件的独特方面，例如角度、图像质量、缩放、方向、聚焦等)无缝地同步为包括聚合各个方面的单个复合内容。此外，与依赖于预先数据编辑和手动制作来创建复合内容相反，该方法和系统自动地实现该创建。虽然在一些实施例中，通过使用人工智能来辅助自动生成，但是该方法和系统却通过新颖的数据过滤和同步处理实现了这一点。

为了执行数据过滤处理，系统依赖于使用特定类型的数据、用于这些类型的数据的特定处理技术以及该数据的特定处理顺序。例如，系统区分某些数据特性(例如，位置)和某些特性(例如，时间)，其中所述某些数据特性可能是不可变的(例如，因为该特性基于绝对GPS坐标来确定)，所述某些特性可能不是不可变的(例如，因为该特性可能基于不同的时间/日期设置而变化)。然后，系统基于数据特性使这些不同类型的数据经历不同的数据过滤技术(例如，绝对过滤vs.范围过滤或窗口过滤)。通过这样做，系统创建串行数据过滤处理，该处理确保可用于生成复合内容的内容池涉及同一事件(例如，对应于单个地点并且在给定的时间窗口内)，但不是过度缩小的。系统可以允许用户通过指示共享时间窗口处的共享地理位置的质心点的用户选择来选择该事件。

数据过滤处理不仅创建了可靠地与同一事件相关的资产池，而且上述数据过滤处理为数据同步步骤提供了关键的预处理步骤。例如，依赖于使用不同内容捕获设备生成的不同内容可能导致帧抖动，因为不同的内容捕获设备可能具有略微不同的时间码(例如，即使是1/2帧偏移也可能导致视觉混乱)。然而，在大多数情况下，可以对内容中出现的对象进行视觉上的平滑处理，而不会不利地影响合成内容(例如，可以平滑掉与给定事件相关的次要细节以减少视觉混乱)。通过基于地点和时间执行初始数据过滤处理，系统确保了在可用源内容中极有可能出现相似的对象。

系统可以使用不可预见的结果来基于对象识别执行数据同步处理。例如，为了同步资产子集，系统现在可以依赖于不同的数据特性(例如，与捕获内容的时间和地点相对地，与捕获到什么相关的数据特性)。具体地，系统现在可以依赖于使用对象识别来分析资产子集，以识别指示对象取向的资产子集中的对象。例如，虽然系统可以依赖于位置数据(例如，GPS坐标或与先前GPS坐标的比较以确定轨迹)来确定内容被捕获时内容捕获设备所面对的方向，但是位置数据不可能具备生成复合内容所需的高精度。因此，系统依赖于另一种类型的数据。值得注意的是，以这种方式对可用内容池使用对象识别通常会带来繁重的处理和资源负担；然而，由于数据同步是在数据过滤处理之后执行的，因此要处理的数据量较低，并且在资产子集中检测到关键地标和对象细节的可能性较高(因此导致资源的更高效使用)。

最后，系统可以使用数据过滤和同步处理通过根据其中的对象合并源内容来生成复合内容。系统可以基于所选择的共享时间窗口处的共享地理位置的质心点来生成复合内容，以创建事件的环绕视频体验。

在一个方面，公开了用于基于多模态元数据通过数据过滤和同步来协调不协调内容的方法和系统。例如，该系统可以接收请求基于共享时间窗口处的共享地理位置的质心点的复合媒体资产的第一用户输入。该系统可以基于共享地理位置的质心点来确定共享对象取向。该系统可以检索第一媒体资产的第一媒体资产数据结构，其中第一媒体资产数据结构包括第一位置信息、第一时间信息和第一对象信息。该系统可以检索第二媒体资产的第二媒体资产数据结构，其中第二媒体资产数据结构包括第二位置信息、第二时间信息和第二对象信息。该系统可以基于分析第一位置信息和第二位置信息来确定第一媒体资产和第二媒体资产对应于共享地理位置。响应于确定第一媒体资产和第二媒体资产对应于共享地理位置，该系统可以基于分析第一时间信息和第二时间信息来确定第一媒体资产和第二媒体资产对应于共享时间窗口。响应于确定第一媒体资产和第二媒体资产对应于共享时间窗口，该系统可以基于分析第一对象信息和第二对象信息来确定第一媒体资产和第二媒体资产对应于共享对象取向。响应于确定第一媒体资产和第二媒体资产对应于共享对象取向，该系统可以通过围绕质心点合并第一媒体资产和第二媒体资产来基于第一媒体资产和第二媒体资产生成复合媒体资产。

通过本发明的详细描述和附图，本发明的各种其他方面、特征和优点将是显而易见的。还应当理解，前面的一般描述和下面的详细描述都是示例，而不是对本发明范围的限制。如在说明书和权利要求书中所使用的，单数形式“一”、“一个”和“该”包括复数的所指示物，除非上下文另外清楚地指明。此外，如在说明书和权利要求书中所使用的，术语“或”意指“和/或”，除非上下文另外清楚地指明。

附图说明

图1A-图1E示出了图示根据一个或多个实施例的在共享时间窗口处选择共享地理位置的质心点以创建事件的环绕视频体验的一系列图。

图2A-图2D示出了图示根据一个或多个实施例的用于生成复合内容的源内容的同步的一系列图。

图3示出了根据一个或多个实施例的以被配置为识别源内容中的对象并且当合并内容时执行对象平滑处理的人工智能模型为特征的系统。

图4示出了根据一个或多个实施例的以在人工智能模型中使用的人工智能算法为特征的系统。

图5示出了根据一个或多个实施例的包括用于生成复合内容的多模态数据的数据结构的说明性示例。

图6示出了根据一个或多个实施例的用于基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的步骤的说明性流程图。

图7示出了根据一个或多个实施例的用于训练和识别对象以生成复合媒体资产的流程图。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对本发明实施例的透彻理解。然而，本领域技术人员将理解，本发明的实施例可以在没有这些具体细节的情况下或以等效布置来实践。在其他情况下，以框图形式示出了公知的结构和设备以便避免不必要地模糊本发明的实施例。

如本文所述，系统可以促进合成不同的媒体资产或内容(例如，任何所捕获的图像、视频或其他记录)并且通过复合媒体资产创建新颖的视觉体验。例如，系统可以集成多个媒体资产，以使观众能够从许多不同的角度交互式地观看事件，并且观众能够在人群中“飞行”，从几乎任何视角审视场景。应当注意，虽然本文中关于视频描述了一些实施例，但是可以代替视频使用或除了视频之外还使用其他形式的视觉记录。

在一些实施例中，将下载来自参与用户的媒体资产(或众包视频)(例如，下载到中央云服务器系统)并且使其在时间上(从视频中的时间码)和地理上(例如，经由GPS坐标或其他地理位置数据)同步。在一些实施例中，应用(例如，移动app)可以提醒用户(例如，经由用户各自的客户端设备)定位他们的内容捕获设备或位置，以优化各种相机的角度或填充间隙。作为示例，系统可以向用户的客户端设备上的相应移动app提供指令，以呈现一个或多个视觉指示符来指导用户定位他们的相机或位置以捕获当前时间或地理同步的视频的集合的一个或多个视图(例如，从当前场景的不同角度或位置)。

例如，内容捕获设备可以包含和/或有权使用全球定位系统(“GPS”)模块或组件以用于确定内容捕获设备的位置。例如，并入内容捕获设备中的加速度计、罗盘、陀螺仪等可以指示内容捕获设备所面对的当前地理位置和/或方向。附加地或备选地，内容捕获设备可以包含和/或有权使用能够检测运动和/或感测取向的一个或多个设备或模块。

在一些实施例中，经处理的视频的最终结果将是模拟在用户控制下移动通过场景的单个相机的单个交互式“视频”(或三维或更多维的模拟空间)。与使用静态照片来创建静态结构的模型的现有系统相比，本文描述的一个或多个实施例可以产生事件(例如，用户可以将虚拟相机定位在事件中几乎任何地方的总统就职典礼)的全运动的、临时同步的3D再现。

在一些实施例中，由于镜头的呈现将源自以下广泛的因素：相机、透镜、焦距、帧速率、分辨率、照明设置和地理位移，因此可以对镜头进行预处理以减轻这些差异。同步问题可能导致帧抖动，因为不同的相机将具有略微不同的时间码(例如，即使是1/2帧偏移也可能导致视觉混乱)。在一些实施例中，可以使用一个或多个预测模型来解决这些问题。作为示例，系统可以通过使用填充间隙(例如，在其间)的3D卷积神经网络、经由自适应可分离卷积的视频帧内插或其他深度学习技术来缓解这些问题。

在一些实施例中，相机的移动将在使用回放机制的用户控制下，该回放机制允许观众创建事件的独特体验；可以是来自云服务器的流传输，也可以来自存储在其本地设备上的视频，其被配置为在用户的控制下允许用户从相对于多流视频的内容的选定角度/方向观看多流视频。用户可以动态地改变图像流的选择，从而改变视角。

在一些实施例中，由相机的地理空间分离产生的间隙可以使用创建新镜头的深度学习方法以多种不同的方式来“填充”。在一些实施例中，在AI确定了间隙不是充分地“可填充”的情况下(例如，当邻接场景的架构差异太大时)，镜头可以被剪切或叠化，或者可以将云状伪影添加到镜头中。

在一些实施例中，系统将允许用户手动地编辑和排列原始镜头(可以是个体地，也可以是协同地)。在一些实施例中，用户可以选择记录他们独特的回放体验以与其他人共享。

在一些实施例中，系统可以使用户能够“行走”到场景中并且从他选择的任何角度观看它(例如，经由本文描述的模拟空间或其他模拟)。在一些实施例中，由于场景的许多方面将被阻挡而无法观看(即使当采用多个相机时)，因此一些实施例可能使用一个或多个先前(或未来)帧来重构特定帧的所有元素(例如，经由时态数据查找)。例如，如果10部相机正在记录儿童的生日派对，一位儿童身穿后背上带有独特文字的衬衫，观众希望从这位儿童的身后放置虚拟相机以观看到他的衬衫。由于在视频中的特定点处，所有相机都被阻挡在该视图之外，因此AI可以使用先前或稍后的帧(例如，在时间上在该帧之前或之后)来渲染该帧的缺失部分。如果没有任何先前的帧支持这项工作，则AI将基于儿童的体形、衬衫、头发颜色或其他特征来采用其关于儿童的背部看起来如何的最佳预测(例如，包括没有文字的版本)。

在一些实施例中，可以执行场景的预拍摄以向一个或多个预测模型提供附加信息。由于视频的AI转换的效率可能取决于数据的获取，因此可以获得场景的先前记录并且将其提供给预测模型。作为示例，一个或多个用户可以在事件之前对生日派对的位置周围进行拍摄以提供用于时态数据查找算法的背景和上下文信息，该算法然后构建场景中的对象的数据库以用于稍后检索和插入到交互式视频或模拟空间中。

尽管为了说明的目的，基于当前被认为是最实用和优选的实施例详细地描述了本发明，但是应当理解，这样的细节仅用于该目的，并且本发明不限于所公开的实施例，而是相反，旨在涵盖在所附权利要求的范围内的修改和等效布置。例如，应当理解，本发明设想在可能的程度范围内，任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征组合。

图1A-图1E示出了图示根据一个或多个实施例的在共享时间窗口处选择共享地理位置的质心点以创建事件的环绕视频体验的一系列图。例如，如图1A所示，系统可以指定质心点(例如，质心点102)。备选地或附加地，该质心点可以由用户选择。作为响应，系统可以在如图1B所示的位置处选择多个可用的媒体资产(例如，媒体资产104和媒体资产106)。

如本文所使用的，“位置”是指当前的地理坐标。例如，位置可以被描述为结构(例如，包括但不限于公共建筑、私人住宅、办公楼、餐馆、电影院、车辆、桥梁、博物馆、道路、车道、人行道等)、结构的房间或隔间(例如，包括但不限于成人的卧室、儿童的卧室、厨房、客厅、浴室、车库或可以描述结构的房间的任何其他名称)和/或可以通过共同的名称来描述的任何其他物理设置(例如，包括但不限于庭院、公园、地标(无论是自然的还是人造的)、徒步旅行路线、水体、市政当局等)。

如本文所提及的，术语“媒体资产”和“内容”应当被理解为意指可电子消费的用户资产，例如PV、电视节目、点播节目(如在视频点播(VOD)系统中)、互联网内容(例如，流传输内容、可下载内容、网络广播等)、视频剪辑、音频、内容信息、图片、旋转图像、文档、播放列表、网站、文章、书籍、电子书、博客、广告、聊天会话、社交媒体、应用(包括例如2D、3D、4D、6D360、激光雷达、雷达、热成像、MRI、CAT扫描、混合现实、扩展现实、超声、红外和视点云或其他形式的格式和数据类型)和/或任何其他媒体或多媒体和/或其组合。如本文所提及的，术语“多媒体”应当被理解为意指利用上述至少两种不同内容形式(例如，文本、音频、图像、视频或交互式内容形式)的内容。内容可以由用户设备装置记录、播放、显示或访问，但也可以是实况演出的一部分。

如本文所使用的，“内容捕获设备”是指能够捕获数据(例如，描述事件的数据)(例如，音频/视频数据)的设备。在一些实施例中，内容捕获设备可以包含一个或多个组件或传感器(例如，能够捕获图像、音频、视频和/或任何其他类型的数据的组件或传感器)。例如，内容捕获设备可以包括但不限于相机(例如，能够捕获图像和/或视频)和/或麦克风(例如，能够捕获声音)。

系统还可以基于到给定位置的中心点(例如，质心点102)的取向(例如，媒体资产和/或内容捕获设备的取向)来选择媒体资产。例如，取向可以是关于该位置处的和/或媒体资产中被识别的任何对象的。也就是说，共享取向可以是指当媒体资产被创建时内容捕获设备所指向(或所背离)的方向，和/或取向可以是指出现在媒体资产中的对象(或对象集)。

系统还可以使用最佳拟合机制来确定哪些媒体资产(或内容捕获设备)具有适当的共享取向。例如，最佳拟合机制可以基于媒体资产是否具有共享对象取向来过滤某一位置处的媒体资产(例如，媒体资产104和媒体资产106)。该共享对象取向可以是将最佳拟合机制应用于中心点的结果。

例如，为了实现可以通过合并其他媒体资产来成功地创建复合媒体资产的增强现实和/或虚拟现实环境，系统可能需要确定媒体资产具有共享对象取向。在一些实施例中，这可能需要过滤可用的媒体资产以获得创建围绕中心点的连续(或接近连续)周界的媒体资产子集。为此，系统可以使用与最佳拟合机制中的变量相对应的各种过滤标准。

例如，系统可以过滤媒体资产以确定围绕中心点(例如，质心点102)的最小圆(或其他包含的形状)。该包含的形状内的媒体资产然后可以被用于生成复合媒体资产。为此，系统可以迭代地搜索媒体资产数据结构，以确定与该包含的形状相对应的各个媒体资产的地理和时间信息。

如图1C所示，系统可以选择近似具有质心点在中间的圆(例如，圆108)的“外环”中的媒体资产。在一些实施例中，使用一种或多种回放方法，系统可以允许用户选择沿连续的顺时针或逆时针方向围绕该“外环”“滚动”。在围绕该圆旋转的任何点处，系统可以接收选择朝向质心点“向前移动”的用户输入。在这种情况下，系统可以选择最能代表朝向质心点的移动的一系列媒体资产(从最后选择的媒体资产开始)。例如，如图1D所示，系统可以允许用户在所分配的轴上向左或向右移动，或者系统可以允许用户选择从该轴上最后选择的媒体资产开始沿顺时针或逆时针方向旋转。

在一些实施例中，圆108的大小和/或位置可以是系统使用最佳拟合机制的结果，最佳拟合机制可以是可用媒体资产表示一系列数据点的曲线拟合过程。该曲线拟合过程可以使用内插或平滑处理来生成包含的形状(例如，圆、多项式和/或围绕中心点的其他形状)。例如，在使用内插(例如，基于应用多项式内插的数学函数)的实施例中，系统可以仅选择可用媒体资产满足曲线拟合(例如，与包含的形状的曲线对齐)的包含的形状。在使用平滑处理(例如，基于应用多项式回归的数学函数)的实施例中，系统可以仅选择可用媒体资产满足阈值内的曲线拟合(例如，与包含的形状的曲线对齐)的包含的形状。在一些实施例中，阈值可以基于媒体资产图像之间可接受的模糊量。

在曲线拟合期间，系统可以使用找到使点相对于曲线的垂直(y轴)位移最小化的曲线(例如，普通最小二乘法)的最佳拟合机制。附加地或备选地，系统可以使用找到最佳视觉拟合(例如，试图最小化到曲线的正交距离(例如，总体最小二乘法)，或者试图以其他方式包括点相对于曲线的位移的两个轴)的最佳拟合机制。

附加地或备选地，系统可以动态地选择新的质心点。例如，当媒体资产的可用性改变时，质心点可以随着移动或时间而移位。然后，系统可以基于这些改变来选择新的媒体资产(例如，媒体资产110和媒体资产112)。例如，系统可以迭代地和/或连续地搜索媒体资产数据结构，以不仅基于对用户位置的改变而且还基于可用媒体资产中的改变来确定与包含的形状相对应的各个媒体资产的地理和时间信息。这样，系统可以连续地更新用于生成复合媒体资产的媒体资产。

系统可以允许用户选择不同的时间来在任何点观看复合媒体资产，例如如图1E所示的新时间窗口(例如，基于媒体资产114和媒体资产116)。由于可用媒体资产可能随着时间的推移而急剧地变换，因此系统可以更新复合媒体资产和指示可用媒体资产的用户界面以及用于生成复合媒体资产的参数(例如，应用于媒体资产的模糊和/或平滑量)。例如，当各个媒体资产结束时，它们被从可用媒体资产的数据库中去除，并且不再用于生成中心点、周长计算和/或复合媒体资产。

在一些实施例中，系统还可以基于媒体资产之间的可接受的图像模糊量来过滤可用媒体资产，以确保无缝的复合媒体资产。这样，系统可以基于可用媒体资产以及复合媒体资产的分辨率和/或质量确定(例如，基于用户设置)来自动地调整包含的形状(例如，圆108)。这样，包含的形状可以作为用户输入、时间和/或可用媒体资产的函数在大小、形状、取向和/或位置上动态地改变。

图2A-图2D示出了图示根据一个或多个实施例的用于生成复合内容的源内容的同步的一系列图。例如，如图2A-图2B所示，系统可以尽可能多地自动对齐媒体资产。例如，媒体资产可以包括以垂直或水平模式创建的内容，并且系统可以通过使用对象或对象细节(例如，地标或人物)作为参考点选择水平模式的最适当部分来显示而将水平模式转换为垂直模式。例如，图2A示出了被垂直拍摄的媒体资产的帧，其中图2B示出了从不同角度且以水平模式拍摄的类似帧(在该示例中不是时间上同步的)。

系统可以使用对象和对象细节(例如，建筑物作为地标)来确定如何旋转、调整大小和/或裁剪媒体资产以及如何模糊和平滑媒体资产以生成复合媒体资产，如图2C所示。所得到的复合媒体资产被相对均匀地匹配，并且使得滚动特征在美学上更令人愉悦，以及创建如图2D所示的平滑回放体验。

例如，媒体资产内的平滑对象如图2D所示。例如，在一些实施例中，通过将图像表示为平滑图像的单参数族，系统可以使用涉及不同尺度的图像对象处理的尺度空间合并，尺度空间表示由用于抑制精细尺度结构的平滑核的大小来参数化。例如，系统然后可以识别图像中对应于最优等级的图像集的对象。通过使用各种程度的模糊，可以将对象(例如，图像中的人)或对象细节(例如，对象的特性)一起模糊为单个对象。然后，系统可以基于对象彼此的接近度来检测单个对象或对象细节(与两个对象或两个对象细节相对)。

例如，尺度空间合并(或滤波)使图像经历不同的滤波等级(模糊)，然后基于某些标准(例如，精细对粗略细节、降噪、重要分量的选择)来选择一个。例如，当图像被模糊时，位于彼此附近的对象将合并成一个对象。

系统可以确定最优的模糊程度，以确保媒体资产中的对象数量对应于和/或满足特定阈值。例如，较高的滤波器(例如，以更多的模糊为特征)可以允许将更多的图像一起模糊成具有较少的整体对象，而较低的滤波器(例如，以更少的模糊为特征)可以允许将较少的图像无缝地模糊在一起，但是具有更多的对象细节。因此，系统可以使用尺度空间滤波来检测最优模糊量。

为了确定最优模糊量，系统可以使用分段线性回归。例如，对于图像模糊，使用高斯核，其被定义如下：

其中，(x,y)是图像像素坐标，σ是控制模糊尺度的模糊参数。当应用模糊时，所识别的对象的数量被计算为模糊尺度σ的函数f：N_objects＝F(σ)。

对象的数量将随着σ的增加而减少。然后，可以使用分段线性回归来将N_objects＝F(σ)分段为两个分段。检测到断点，并且系统提供最优模糊尺度(σ_opt)，其被用于在两个媒体资产上应用最优模糊g(x,y,σ_opt)。

在一些实施例中，系统可以使用内容识别模块或算法来确定接收到的数据中的对象。内容识别模块可以使用对象识别技术来确定接收到的数据中的对象和/或位置之间的关系，这些技术例如边缘检测、模式识别(包括但不限于自学习系统(例如神经网络))、光学字符识别、在线字符识别(包括但不限于动态字符识别、实时字符识别、智能字符识别)和/或任何其他合适的技术或方法。例如，系统可以接收视频形式的媒体资产。视频可以包括一系列帧。对于视频的每一帧，系统可以使用内容识别模块或算法来确定每一帧或一系列帧中的对象。此外，内容识别模块或算法还可以定位对象的边界和/或检测帧中的对象细节。

在一些实施例中，内容识别模块或算法还可以包括语音识别技术，包括但不限于隐马尔可夫模型、动态时间扭曲和/或神经网络(如上所述)，以将话语转化为文本和/或处理音频数据。例如，系统可以使用记录在媒体资产中的音频来识别对象和/或可以合并音频数据。内容识别模块还可以组合多种技术来确定接收到的媒体资产中的对象和/或对象之间的关系。

此外，系统可以使用多种类型的光学字符识别和/或模糊逻辑，例如，当处理从与位置相关联的数据(例如，文本数据、经转化的音频数据、用户输入等)中检索的关键词时(或者当交叉引用数据库中指示与不同位置类型相关联的不同对象的各种类型的数据时)。例如，如果接收到的特定数据是文本数据，则使用模糊逻辑，系统(例如，经由并入媒体指南应用中或可由媒体指南应用访问的内容识别模块或算法)可以将两个字段和/或值确定为相同，即使这些数据或值的实质(例如，两种不同的拼写)不相同。在一些实施例中，系统可以针对特定值或文本分析数据结构或媒体资产帧的特定接收数据。接收到的数据可以与本文描述的实施例的功能所需的特性、附加信息和/或任何其他数据相关联。此外，数据可以包含值(例如，数据可以用二进制或任何其他合适的代码或编程语言来表达)。

图3示出了根据一个或多个实施例的以被配置为识别源内容中的对象并且当合并内容时执行对象平滑处理的人工智能模型为特征的系统。如图3所示，系统300可以包括客户端设备302、客户端设备304或其他组件。客户端设备302和304中的每一个可以包括任何类型的移动终端、固定终端或其他设备。这些设备中的每一个可以经由输入/输出(在下文中被称为“I/O”)路径接收内容和数据，并且还可以包括处理器和/或控制电路以使用I/O路径发送和接收命令、请求和其他合适的数据。控制电路可以包括任何合适的处理电路。这些设备中的每一个还可以包括用于接收和显示数据的用户输入接口和/或显示器。作为示例，客户端设备302和304可以包括台式计算机、服务器或其他客户端设备。例如，用户可以利用一个或多个客户端设备302和304来与彼此、与一个或更多个服务器或系统300的其他组件进行交互。应当注意，虽然本文将一个或多个操作描述为由系统300的特定组件来执行，但是在一些实施例中，这些操作可以由系统300的其他组件来执行。作为示例，虽然本文将一个或多个操作描述为由客户端设备302的组件来执行，但是在一些实施例中，这些操作可以由客户端设备304的组件来执行。应当注意，虽然本文关于机器学习模型描述了一些实施例，但是在其他实施例中，可以代替机器学习模型使用或除了机器学习模型之外还使用其他预测模型(例如，统计模型或其他分析模型)(例如，在一个或多个实施例中，统计模型替代机器学习模型，非统计模型替代非机器学习模型)。也就是说，“机器学习模型”、“模型”和/或“人工智能模型”应被认为包括任何人工智能模型。

这些设备中的每一个还可以包括电子存储器形式的存储器。电子存储器可以包括电子地存储信息的非暂时性存储介质。电子存储器的电子存储介质可以包括以下中的一个或两个：(i)与服务器或客户端设备一体地提供(例如，基本上不可移除)的系统存储器；或(ii)经由例如端口(例如，USB端口、火线端口等)或驱动器(例如，磁盘驱动器等)可移除地连接到服务器或客户端设备的可移除存储器。电子存储器可以包括光可读存储介质(例如，光盘等)、磁可读存储介质(例如，磁带、磁硬盘驱动器、软盘驱动器等)、基于电荷的存储介质(例如，EEPROM、RAM等)、固态存储介质(例如，闪存驱动器等)和/或其他电子可读存储介质中的一个或多个。电子存储器可以包括一个或多个虚拟存储资源(例如，云存储器、虚拟专用网络和/或其他虚拟存储资源)。电子存储器可以存储软件算法、由处理器确定的信息、从服务器获得的信息、从客户端设备获得的信息或实现如本文所述的功能的其他信息。

图3还包括通信路径308、310和312。通信路径308、310和312可以包括互联网、移动电话网络、移动语音或数据网络(例如，5G或LTE网络)、有线网络、公共交换电话网络或其他类型的通信网络或通信网络的组合。通信路径308、310和312可以单独地或一起包括一个或多个通信路径，例如卫星路径、光纤路径、电缆路径、支持互联网通信的路径(例如，IPTV)、自由空间连接(例如，用于广播或其他无线信号)或任何其他合适的有线或无线通信路径或这些路径的组合。计算设备可以包括链接一起操作的多个硬件、软件和/或固件组件的附加通信路径。例如，计算设备可以由作为计算设备一起操作的计算平台云来实现。

在一些实施例中，系统300可以使用用于生成复合内容、识别对象和/或合并内容的一个或多个预测模型。例如，如图3所示，系统300可以使用机器学习模型322进行检测。该确定可以被输出为客户端设备304上的输出318。系统可以包括一个或多个神经网络(例如，如关于图3所讨论的)或其他机器学习模型。

作为示例，关于图3，机器学习模型322可以获取输入324并且提供输出326。输入可以包括多个数据集，例如训练数据集和测试数据集。数据集可以表示对象的图像(或图像集)。在一个用例中，输出326可以被反馈到机器学习模型322作为训练机器学习模型322的输入(例如，单独地或与用户对输出326的准确性的指示、与输入相关联的标签或其他参考反馈信息相结合地)。在另一用例中，机器学习模型322可以基于其对其预测(例如，输出326)和参考反馈信息(例如，用户对准确性的指示、参考标签或其他信息)的评估来更新其配置(例如，权重、偏差或其他参数)。在机器学习模型322是神经网络的另一用例中，可以调整连接权重以调和神经网络的预测与参考反馈之间的差异。在又一用例中，神经网络的一个或多个神经元(或节点)可能要求通过神经网络将它们各自的误差发回给它们以促进更新过程(例如，误差的反向传播)。例如，对连接权重的更新可以反映前向传递完成之后向回传播的误差的大小。以这种方式，例如，可以训练机器学习模型322以生成更好的预测。

可以训练机器学习模型322来识别对象。例如，客户端设备302或304可以识别对象(例如，经由内容捕获设备)，基于对象的图像生成第一像素阵列，并且标记对象(或第一像素阵列)。例如，机器学习模型322可以具有针对各种对象的分类。然后，基于第一数据集(例如，已知对象的数据)训练机器学习模型322以对未知对象进行分类。

然后，系统可以接收第二对象。客户端设备302或304可以基于第二对象的图像生成第二像素阵列，并且将第二像素阵列输入到机器学习模型322中。然后，系统可以从机器学习模型322接收指示第二对象与第一对象(或另一对象)相同的输出。例如，系统可以将第二图像输入到机器学习模型322中。然后，机器学习模型322可以对第二图像中的对象进行分类。例如，人、建筑物、对象和/或对象细节可以是机器学习模型322的第一分类，并且系统可以基于将第二像素阵列与第一分类匹配而从机器学习模型322生成第二对象相同的输出。

图4示出了根据一个或多个实施例的以在人工智能模型中使用的人工智能算法为特征的系统。模型400示出了人工神经网络。模型400包括输入层402。可以在该层级将图像输入到模型400中。模型400还包括一个或多个隐藏层(例如，隐藏层404和隐藏层406)。模型400可以基于神经单元(或人工神经元)的大集合。模型400宽松地模拟了生物脑工作的方式(例如，经由由轴突连接的大的生物神经元簇)。模型400的每个神经单元可以与模型400的许多其他神经单元连接。这种连接可以加强或抑制它们对连接的神经单元的激活状态的影响。在一些实施例中，每个个体神经单元可以具有将其所有输入的值组合在一起的求和函数。在一些实施例中，每个连接(或神经单元本身)可以具有阈值函数，使得信号在传播到其他神经单元之前必须超过该阈值函数。模型400可以是自学习和经训练的，而不是明确编程的，并且与传统的计算机程序相比，模型400可以在问题解决的某些领域中表现得显著更好。在训练期间，输出层408可以对应于模型400的分类(例如，给定图像是否对应于特定对象)，并且已知对应于该分类的输入可以被输入到输入层402中。

在一些实施例中，模型400可以包括多个层(例如，其中信号路径从前层穿越到后层)。在一些实施例中，模型400可以利用反向传播技术，其中正向刺激用于重置“前”神经单元上的权重。在一些实施例中，模型400的刺激和抑制可以是更自由流畅的，其中连接以更混乱和复杂的方式相互作用。模型400还包括输出层408。在测试期间，输出层408可以指示给定输入是否对应于模型400的分类(例如，给定图像是否对应于特定对象)。

图4还包括作为卷积神经网络的模型450。卷积神经网络是以一个或多个卷积层为特征的人工神经网络。卷积层从输入图像中提取特征。卷积通过使用输入数据的小方块学习图像特征来保持像素之间的关系。例如，图像的各个部分之间的关系。如模型450所示，输入层452可以在被输出到卷积输出460之前前进到卷积块454、456和458。在一些实施例中，模型450本身可以用作模型400的输入。

关于识别对象的应用，还可以调整模型450以提高性能。例如，模型450可以经历权重修剪，使得测量每个权重并且去除不重要的权重。值得注意的是，该数据的丢失不会影响整体准确性，因为信息与没有信息的数据部分形成了良好的对比。类似地，稀疏卷积神经网络，特别是子流形稀疏卷积网络，在对象识别应用中也表现良好。通过利用信道间和信道内冗余来获得最大稀疏度，其中包括使由最大化稀疏度引起的识别损失最小化的微调步骤。还应当注意，本文所讨论的实施例还可以与(其他/任何)深度学习、机器学习或可微分编程架构一起使用，包括CNN-LSTM和被设计为与媒体资产一起工作的尖峰神经网络。

在一些实施例中，根据一个或多个实施例，系统可以使用长短期记忆(LSTM)网络进行对象识别。例如，在系统已经检测到并且提取了最优数量的对象或对象细节之后，系统可以使用LSTM网络进行对象识别。

例如，LSTM是一种人工递归神经网络(“RNN”)架构。LSTM的使用可以提供优于其他类型的RNN架构的结果。例如，当使用反向传播来训练其他RNN时，反向传播的梯度可能趋于零或无穷大，因为该过程中涉及使用有限精度数的计算。使用LSTM单元的RNN部分地解决了梯度逐渐消失的问题，因为LSTM单元还允许梯度保持不变。

系统可以通过考虑基于先前对象的对象的条件概率使用波束搜索来优化原始概率。例如，波束搜索是一种启发式搜索算法，其通过扩展有限集中最有希望的节点来探索图。波束搜索是对最佳优先搜索的优化，其降低了其存储器要求。系统可以确定对应于对象的对象细节和/或数字地识别对象或对象细节。

图5示出了根据一个或多个实施例的包括用于生成复合内容的多模态数据的数据结构的说明性示例。数据结构500可以随着可用于生成复合媒体资产的媒体资产由系统生成和/或接收。例如，数据结构500可以涉及内容捕获设备所记录的正被处理的图像。数据结构500可以以系统接收到的描述内容捕获设备的位置或该位置处的对象的多模态元数据为特征。

在一些实施例中，数据结构500可以由内容识别模块(例如，并入系统中或可由系统访问)处理以确定该位置处和/或媒体资产内的对象。例如，系统可以处理数据结构500以识别用户设备装置的位置处的特定对象。然后，所识别的对象可以用于确定合并的媒体资产和/或生成复合媒体资产。

数据结构500包括若干代码字段，系统可以使用这些代码字段来识别对象。字段502向系统指示与媒体资产相关联的数据结构500中的数据的开始，字段526向系统指示与媒体资产相关联的数据结构500中的数据的结束。

字段504指示捕获图像的位置(或地理位置)。在一些实施例中，系统可以使用捕获图像的位置来确定媒体资产是否对应于共享地理位置。例如，字段504可以描述媒体资产的GPS坐标。在一些实施例中，媒体指南应用可以将该信息与GPS数据库交叉引用以确定关于该位置的附加信息，该附加信息可以指示位置类型(例如，该位置是否在室内、室外、私人住宅中、公共建筑中等)。在一些实施例中，系统可以检索该信息以识别最佳拟合机制的对应数据点。

附加地或备选地，系统可以使用位置信息来将指示符添加到可用媒体资产的地图(例如，如图1A-图1E所示)。例如，系统可以使用该信息来生成描述该位置相对于其他位置的地理坐标的映射。

字段506描述了对应于媒体资产的时间或时间窗口。时间可以由内容捕获设备的内部时钟生成，或者可以基于远程时间戳生成。字段508至字段620可以向媒体指南应用指示描述该位置的图像的信息。例如，字段508至字段524可以指示关于位于媒体资产中的一个或多个对象的信息。例如，字段510至字段522可以指示在该位置的图像中识别出了某一对象(例如，建筑物)。字段514指示对象的大小。字段516指示对象的形状，字段518指示对象的位置。描述对象的信息可以被系统用来识别该对象。例如，系统可以将包括在字段510至字段520中的信息输入到查找表数据库中，或者使用该信息生成用于机器学习模型的特征输入。

例如，在将接收到的数据中的对象或位置与位置数据库中的对象或位置匹配时，系统基于位置数据库中被指示为与所匹配的对象或位置相对应的位置名称来确定媒体资产的当前位置。在确定了用户媒体资产的当前位置之后，系统可以继续选择、推荐和/或传输与特定位置相对应的一个或多个媒体资产。

在一些实施例中，内容捕获设备的操作参数也可以被包括在数据结构500中。如本文所使用的，“操作参数”是指与内容捕获设备的记录能力和特性相关联的特性和属性。例如，操作参数可以包括内容捕获设备用来生成内容的格式、分辨率、取向、显示质量或其他特征(例如，3D显示能力、环绕声音频、屏幕大小限制等)。例如，系统可以使用该信息来合并媒体资产。该信息还可以被用于确定可接受的模糊量和/或媒体资产是否可以用于给定的模糊量。

图6示出了根据一个或多个实施例的用于基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的步骤的说明性流程图。可以使用图3中描述的一个或多个组件的控制电路来执行过程600。

在步骤602，过程600接收(例如，使用图3中描述的一个或多个组件的控制电路)第一用户输入。例如，系统可以接收请求基于共享时间窗口处的共享地理位置的质心点的复合媒体资产的第一用户输入。例如，系统可以基于共享地理位置的质心点来确定共享对象取向。

在一些实施例中，接收请求基于共享时间窗口处的共享地理位置的质心点的复合媒体资产的第一用户输入包括：接收用户对第一媒体资产中的对象的选择；确定找到对象处的地理位置；将该地理位置指派为共享地理位置；以及将该地理位置处的对象的位置指派为质心点。

在步骤604，过程600检索(例如，使用图3中描述的一个或多个组件的控制电路)第一媒体资产数据结构。例如，系统可以检索第一媒体资产的第一媒体资产数据结构，其中第一媒体资产数据结构包括第一位置信息、第一时间信息和第一对象信息。例如，位置信息可以指示与第一媒体资产相对应的地理位置。时间信息可以指示与第一媒体资产相对应的时间。对象信息可以指示随第一媒体资产被包括的对象。

在一些实施例中，每个媒体资产可以包括多个帧，系统可以检索关于每个帧的信息，并且动态地合并一个或多个帧以创建复合媒体资产。例如，系统可以确定多个帧中用于生成复合媒体资产的第一帧。系统可以确定与第一帧相对应的第一媒体资产数据结构子集。系统可以从该第一媒体资产数据结构子集中检索位置信息、第一时间信息和第一对象信息。

在步骤606，过程600检索(例如，使用图3中描述的一个或多个组件的控制电路)第二媒体资产数据结构。例如，系统可以检索第二媒体资产的第二媒体资产数据结构，其中第二媒体资产数据结构包括第二位置信息、第二时间信息和第二对象信息。

在步骤608，过程600确定(例如，使用图3中描述的一个或多个组件的控制电路)第一媒体资产和第二媒体资产对应于共享地理位置。例如，系统可以基于分析第一位置信息和第二位置信息来确定第一媒体资产和第二媒体资产对应于共享地理位置。

在一些实施例中，基于分析第一位置信息和第二位置信息来确定第一媒体资产和第二媒体资产对应于共享地理位置还可以包括：接收指示共享地理位置的第二用户输入，并且响应于接收到指示共享地理位置的第二用户输入，基于多个可用媒体资产的相应位置信息与共享地理位置的比较来过滤多个可用媒体资产以生成第一媒体资产子集。

在步骤610，过程600确定(例如，使用图3中描述的一个或多个组件的控制电路)第一媒体资产和第二媒体资产对应于共享时间窗口。例如，响应于确定第一媒体资产和第二媒体资产对应于共享地理位置，系统可以基于分析第一时间信息和第二时间信息来确定第一媒体资产和第二媒体资产对应于共享时间窗口。

在一些实施例中，基于分析第一时间信息和第二时间信息来确定第一媒体资产和第二媒体资产对应于共享时间窗口还包括：接收指示共享时间窗口的第三用户输入，并且响应于接收到指示共享时间窗口的第三用户输入，基于第一媒体资产子集的相应时间信息与共享时间窗口的比较来过滤第一媒体资产子集以生成第二媒体资产子集。

在步骤612，过程600确定(例如，使用图3中描述的一个或多个组件的控制电路)第一媒体资产和第二媒体资产对应于共享对象取向。例如，响应于确定第一媒体资产和第二媒体资产对应于共享时间窗口，系统可以基于分析第一对象信息和第二对象信息来确定第一媒体资产和第二媒体资产对应于共享对象取向。

在一些实施例中，基于分析第一对象信息和第二对象信息来确定第一媒体资产和第二媒体资产对应于共享对象取向还包括：识别对应于质心点的已知对象；在共享对象取向处检索已知对象的多个已知对象细节；以及确定多个已知对象细节中的已知对象细节在第一媒体资产和第二媒体资产两者中。

在步骤614，过程600基于第一媒体资产和第二媒体资产生成(例如，使用图3中描述的一个或多个组件的控制电路)复合媒体资产。例如，响应于确定第一媒体资产和第二媒体资产对应于共享对象取向，系统可以通过围绕质心点合并第一媒体资产和第二媒体资产来基于第一媒体资产和第二媒体资产生成复合媒体资产。例如，共享对象取向可以包括当捕获相应的媒体资产时内容捕获设备所面对的方向。

如本文所提及的，与媒体资产相关联的“方向”是指从将用户的当前位置连接到真北或磁北的假想线的路线到当媒体资产被捕获时内容捕获设备所面对的路线的以角度表达的偏差。例如，如果当内容捕获设备捕获媒体资产时内容捕获设备指向“北”，则与媒体资产相关联的方向将是“北”。同样，如果当捕获媒体资产的帧时内容捕获设备面向“南”，则媒体资产的帧将与方向“南”相关联。

应当注意，方向也可以用任何其他合适的格式来表达。例如，附加地或备选地，方向可以被表达为度数(例如，在极坐标系中)。在另一示例中，方向可以被表达为空间中的线与坐标轴的三个正方向(例如，从参考点)所成的三个角度(例如，通常相对于x、y和z轴被指定为α、β和γ)中的任一个。例如，在一些实施例中，与媒体资产和/或内容捕获设备相关联的“方向”可以与相对于用户和/或一个或多个固定点的坐标相关联。

在一些实施例中，通过合并第一媒体资产和第二媒体资产来基于第一媒体资产和第二媒体资产生成复合媒体资产还包括：识别在第一媒体资产和第二媒体资产两者中的共享对象；以及使用来自第一媒体资产的第一对象细节和来自第二媒体资产的第二对象细节来生成复合媒体资产中的共享对象的表示，其中第二媒体资产不包括第一对象细节，并且第一媒体资产不包括第二对象细节。

在一些实施例中，通过围绕质心点合并第一媒体资产和第二媒体资产来基于第一媒体资产和第二媒体资产生成复合媒体资产还包括：识别第一媒体资产的对应于离焦对象的第一部分；选择第二媒体资产的对应于第一媒体资产中的离焦对象的第二部分；以及用第二部分替换第一媒体资产的第一部分。例如，系统可以识别模糊区域并且替换这些区域。

可以设想，图6的步骤或描述可以与本公开的任何其他实施例一起使用。此外，关于图6描述的步骤和描述可以以可替代的顺序或并行地进行，以进一步达到本公开的目的。例如，这些步骤中的每一个可以以任何顺序或并行地或基本上同时地执行，以减少滞后或提高系统或方法的速度。此外，应当注意，上面讨论的任何装置或设备可以用于执行图6中的一个或多个步骤。

图7示出了根据一个或多个实施例的用于训练和识别对象以生成复合媒体资产的流程图。过程700可以使用图3中描述的一个或多个组件的控制电路来执行。

在步骤702，过程700接收(例如，使用图3中描述的一个或多个组件的控制电路)区域的媒体资产数据结构。例如，系统可以接收包括已知对象的第一媒体资产的第一媒体资产数据结构。

在步骤704，过程700基于第一媒体资产数据结构生成(例如，使用图3中描述的一个或多个组件的控制电路)第一像素阵列。例如，在一些实施例中，系统可以生成像素阵列以表示媒体资产中的图像(例如，帧)。像素阵列可以指描述图像的计算机数据(例如，逐像素)。在一些实施例中，这可以包括表示红色、绿色、蓝色或灰度图像的一个或多个向量、阵列和/或矩阵。此外，在一些实施例中，系统还可以将图像集从一组一个或多个向量、阵列和/或矩阵转换为另一组一个或多个向量、阵列和/或矩阵。例如，系统可以将具有红色阵列、绿色阵列和蓝色的图像集转换为灰度颜色阵列。

在步骤706，过程700用第一媒体资产数据结构的已知内容捕获位置来标记(例如，使用图3中描述的一个或多个组件的控制电路)第一像素阵列。例如，为了训练人工神经网络，系统可以收集和标记可能在各个位置处找到的多个对象。

在步骤708，过程700训练(例如，使用图3中描述的一个或多个组件的控制电路)人工智能模型以基于经标记的第一像素阵列来检测已知内容捕获位置。例如，如关于图4所讨论的，人工神经网络可以具有针对不同对象的分类。

在步骤710，过程700接收(例如，使用图3中描述的一个或多个组件的控制电路)第二媒体资产的第二媒体资产数据结构。例如，系统可以在某一位置处捕获媒体资产。

在步骤712，过程700基于第二媒体资产数据结构生成(例如，使用图3中描述的一个或多个组件的控制电路)第二像素阵列。在一些实施例中，这可以包括表示红色、绿色、蓝色或灰度图像的一个或多个向量、阵列和/或矩阵。此外，在一些实施例中，系统还可以将图像集从一组一个或多个向量、阵列和/或矩阵转换为另一组一个或多个向量、阵列和/或矩阵。例如，系统可以将具有红色阵列、绿色阵列和蓝色的图像集转换为灰度颜色阵列。

在步骤714，过程700将第二像素阵列输入(例如，使用图3中描述的一个或多个组件的控制电路)到经训练的神经网络中。例如，经训练的神经网络可以基于第二像素阵列识别对象和/或关于对象的信息(例如，如图5中所描述)。

在步骤716，过程700从经训练的人工智能模型接收(例如，使用图3中描述的一个或多个组件的控制电路)指示第二媒体资产数据结构对应于已知内容捕获位置的输出。例如，经训练的神经网络可以输出对象的标识和/或关于对象的信息(例如，大小、形状、位置等)。

可以设想，图7的步骤或描述可以与本公开的任何其他实施例一起使用。此外，关于图7描述的步骤和描述可以以可替代的顺序或并行地进行，以进一步达到本公开的目的。例如，这些步骤中的每一个可以以任何顺序或并行地或基本上同时地执行，以减少滞后或提高系统或方法的速度。此外，应当注意，上面讨论的任何装置或设备可以用于执行图7中的一个或多个步骤。

参考以下列举的实施例，将更好地理解本发明的技术：

1、一种基于多模态元数据通过数据过滤和同步来协调不协调内容的方法，所述方法包括：接收请求基于共享时间窗口处的共享地理位置的质心点的复合媒体资产的第一用户输入；基于所述共享地理位置的所述质心点来确定共享对象取向；检索第一媒体资产的第一媒体资产数据结构，其中所述第一媒体资产数据结构包括第一位置信息、第一时间信息和第一对象信息；检索第二媒体资产的第二媒体资产数据结构，其中所述第二媒体资产数据结构包括第二位置信息、第二时间信息和第二对象信息；基于分析所述第一位置信息和所述第二位置信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置；响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置，基于分析所述第一时间信息和所述第二时间信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口；响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向；以及响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向，通过围绕所述质心点合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产。

2、根据前述实施例中任一项所述的方法，其中，所述方法基于多模态元数据通过数据过滤和同步来协调不协调内容。

3、根据前述实施例中任一项所述的方法，其中，基于分析所述第一位置信息和所述第二位置信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置还包括：接收指示所述共享地理位置的第二用户输入；以及响应于接收到指示所述共享地理位置的所述第二用户输入，基于多个可用媒体资产的相应位置信息与所述共享地理位置的比较来过滤所述多个可用媒体资产以生成第一媒体资产子集。

4、根据前述实施例中任一项所述的方法，其中，基于分析所述第一时间信息和所述第二时间信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口还包括：接收指示所述共享时间窗口的第三用户输入；以及响应于接收到指示所述共享时间窗口的所述第三用户输入，基于所述第一媒体资产子集的相应时间信息与所述共享时间窗口的比较来过滤所述第一媒体资产子集以生成第二媒体资产子集。

5、根据前述实施例中任一项所述的方法，其中，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向还包括：识别对应于所述质心点的已知对象；在所述共享对象取向处检索所述已知对象的多个已知对象细节；以及确定所述多个已知对象细节中的已知对象细节在所述第一媒体资产和所述第二媒体资产两者中。

6、根据前述实施例中任一项所述的方法，其中，通过合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：识别在所述第一媒体资产和所述第二媒体资产两者中的共享对象；使用来自所述第一媒体资产的第一对象细节和来自所述第二媒体资产的第二对象细节来生成所述复合媒体资产中的所述共享对象的表示，其中，所述第二媒体资产不包括所述第一对象细节，并且所述第一媒体资产不包括所述第二对象细节。

7、根据前述实施例中任一项所述的方法，其中：所述第一位置信息指示与所述第一媒体资产相对应的第一地理位置；所述第一时间信息指示与所述第一媒体资产相对应的第一时间；并且所述第一对象信息指示随所述第一媒体资产被包括的第一对象。

8、根据前述实施例中任一项所述的方法，其中，所述第一媒体资产包括多个帧，并且其中，检索所述第一媒体资产的所述第一媒体资产数据结构还包括：确定多个帧中用于生成所述复合媒体资产的第一帧；确定与所述第一帧相对应的第一媒体资产数据结构子集；以及从所述第一媒体资产数据结构子集中检索所述位置信息、所述第一时间信息和所述第一对象信息。

9、根据前述实施例中任一项所述的方法，其中，所述共享对象取向包括当捕获相应的媒体资产时内容捕获设备所面对的方向。

10、根据前述实施例中任一项所述的方法，其中，通过围绕所述质心点合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：识别所述第一媒体资产的对应于离焦对象的第一部分；选择所述第二媒体资产的对应于所述第一媒体资产中的离焦对象的第二部分；以及用所述第二部分替换所述第一媒体资产的第一部分。

11、根据前述实施例中任一项所述的方法，其中，接收请求基于所述共享时间窗口处的所述共享地理位置的质心点的所述复合媒体资产的所述第一用户输入包括：接收用户对所述第一媒体资产中的对象的选择；确定找到所述对象处的地理位置；将所述地理位置指派为所述共享地理位置；以及将所述地理位置处的所述对象的位置指派为所述质心点。

12、一种存储指令的有形的、非暂时性的机器可读介质，所述指令当由数据处理装置执行时使所述数据处理装置执行包括根据实施例1-11中任一项所述的操作的操作。

13、一种系统，包括：一个或多个处理器；以及存储指令的存储器，所述指令当由所述处理器执行时使所述处理器实现包括根据实施例1-11中任一项所述的操作的操作。

14、一种系统，包括用于执行实施例1-11的一个或多个步骤的装置。

Claims

1.一种用于基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的系统，所述系统包括：

一个或多个处理器；以及

包括指令的存储电路，所述指令当由所述一个或多个处理器执行时引起操作，所述操作包括：

接收请求基于共享时间窗口处的共享地理位置的质心点的复合媒体资产的第一用户输入；

基于所述共享地理位置的质心点来确定共享对象取向；

检索第一媒体资产的第一媒体资产数据结构，其中，所述第一媒体资产数据结构包括第一位置信息、第一时间信息和第一对象信息，并且其中：

所述第一位置信息指示与所述第一媒体资产相对应的第一地理位置；

所述第一时间信息指示与所述第一媒体资产相对应的第一时间；并且

所述第一对象信息指示随所述第一媒体资产被包括的第一对象；

检索第二媒体资产的第二媒体资产数据结构，其中，所述第二媒体资产数据结构包括第二位置信息、第二时间信息和第二对象信息，并且其中：

所述第二位置信息指示与所述第一媒体资产相对应的第二地理位置；

所述第二时间信息指示与所述第二媒体资产相对应的第二时间；并且

所述第二对象信息指示随所述第二媒体资产被包括的第二对象；

基于分析所述第一位置信息和所述第二位置信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置；

响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置，基于分析所述第一时间信息和所述第二时间信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口；

响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于共享对象取向；以及

响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向，通过围绕所述质心点合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产。

2.一种用于基于多模态元数据通过数据过滤和同步来协调不协调内容的方法，所述方法包括：

基于所述共享地理位置的质心点来确定共享对象取向；

检索第一媒体资产的第一媒体资产数据结构，其中，所述第一媒体资产数据结构包括第一位置信息、第一时间信息和第一对象信息；

检索第二媒体资产的第二媒体资产数据结构，其中，所述第二媒体资产数据结构包括第二位置信息、第二时间信息和第二对象信息；

响应于确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向；以及

3.根据权利要求2所述的方法，其中，基于分析所述第一位置信息和所述第二位置信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置还包括：

接收指示所述共享地理位置的第二用户输入；以及

响应于接收到指示所述共享地理位置的第二用户输入，基于多个可用媒体资产的相应位置信息与所述共享地理位置的比较来过滤所述多个可用媒体资产以生成第一媒体资产子集。

4.根据权利要求3所述的方法，其中，基于分析所述第一时间信息和所述第二时间信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口还包括：

接收指示所述共享时间窗口的第三用户输入；以及

响应于接收到指示所述共享时间窗口的第三用户输入，基于所述第一媒体资产子集的相应时间信息与所述共享时间窗口的比较来过滤第一媒体资产子集以生成第二媒体资产子集。

5.根据权利要求2所述的方法，其中，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向还包括：

识别对应于所述质心点的已知对象；

检索在所述共享对象取向处所述已知对象的多个已知对象细节；以及

确定所述多个已知对象细节中的已知对象细节在所述第一媒体资产和所述第二媒体资产两者中。

6.根据权利要求2所述的方法，其中，通过合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：

识别在所述第一媒体资产和所述第二媒体资产两者中的共享对象；以及

使用来自所述第一媒体资产的第一对象细节和来自所述第二媒体资产的第二对象细节来生成所述复合媒体资产中的所述共享对象的表示，其中，所述第二媒体资产不包括所述第一对象细节，并且所述第一媒体资产不包括所述第二对象细节。

7.根据权利要求2所述的方法，其中：

所述第一对象信息指示随所述第一媒体资产被包括的第一对象。

8.根据权利要求2所述的方法，其中，所述第一媒体资产包括多个帧，并且其中，检索所述第一媒体资产的所述第一媒体资产数据结构还包括：

确定所述多个帧中的用于生成所述复合媒体资产的第一帧；

确定所述第一媒体资产数据结构的与所述第一帧相对应的子集；以及

从所述第一媒体资产数据结构的所述子集中检索所述位置信息、所述第一时间信息和所述第一对象信息。

9.根据权利要求2所述的方法，其中，所述共享对象取向包括当捕获相应的媒体资产时内容捕获设备所面对的方向。

10.根据权利要求2所述的方法，其中，通过围绕所述质心点合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：

识别所述第一媒体资产的对应于离焦对象的第一部分；

选择所述第二媒体资产的第二部分，所述第二部分对应于所述第一媒体资产中的离焦对象；以及

用所述第二部分替换所述第一媒体资产的所述第一部分。

11.根据权利要求2所述的方法，其中，接收请求基于所述共享时间窗口处的所述共享地理位置的质心点的所述复合媒体资产的第一用户输入包括：

接收用户对所述第一媒体资产中的对象的选择；

确定找到所述对象处的地理位置；

将所述地理位置指派为所述共享地理位置；以及

将所述对象在所述地理位置处的位置指派为所述质心点。

12.一种包括指令的非暂时性计算机可读介质，所述指令当由一个或多个处理器执行时引起操作，所述操作包括：

基于所述共享地理位置的质心点来确定共享对象取向；

13.根据权利要求12所述的非暂时性计算机可读介质，其中，基于分析所述第一位置信息和所述第二位置信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享地理位置还包括：

接收指示所述共享地理位置的第二用户输入；以及

14.根据权利要求13所述的非暂时性计算机可读介质，其中，基于分析所述第一时间信息和所述第二时间信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享时间窗口还包括：

接收指示所述共享时间窗口的第三用户输入；以及

15.根据权利要求12所述的非暂时性计算机可读介质，其中，基于分析所述第一对象信息和所述第二对象信息来确定所述第一媒体资产和所述第二媒体资产对应于所述共享对象取向还包括：

识别对应于所述质心点的已知对象；

16.根据权利要求12所述的非暂时性计算机可读介质，其中，通过合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：

识别在所述第一媒体资产和所述第二媒体资产两者中的共享对象；

17.根据权利要求12所述的非暂时性计算机可读介质，其中：

18.根据权利要求12所述的非暂时性计算机可读介质，其中，所述第一媒体资产包括多个帧，并且其中，检索所述第一媒体资产的所述第一媒体资产数据结构还包括：

确定所述多个帧中的用于生成所述复合媒体资产的第一帧；

19.根据权利要求12所述的非暂时性计算机可读介质，其中，所述共享对象取向包括当捕获相应的媒体资产时内容捕获设备所面对的方向。

20.根据权利要求12所述的非暂时性计算机可读介质，其中，通过围绕所述质心点合并所述第一媒体资产和所述第二媒体资产来基于所述第一媒体资产和所述第二媒体资产生成所述复合媒体资产还包括：

识别所述第一媒体资产的对应于离焦对象的第一部分；

用所述第二部分替换所述第一媒体资产的所述第一部分。