CN111193961B

CN111193961B - 视频编辑设备和方法

Info

Publication number: CN111193961B
Application number: CN201911076091.6A
Authority: CN
Inventors: P·索塔; S·巴拉戈帕尔; S·阿加瓦尔; M·洛迪; N·玛纳拉尔
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-11-15
Filing date: 2019-11-06
Publication date: 2022-02-18
Anticipated expiration: 2039-11-06
Also published as: JP6891941B2; KR20200056918A; US11070706B2; CN111193961A; JP2020088852A; US20200162641A1; KR102204269B1

Abstract

本申请涉及视频编辑设备和方法。视频编辑设备包括存储第一视频内容的存储器，并且包括提取第一视频内容的第一拍摄镜头的第一图像帧和第一视频内容的第二拍摄镜头的第二图像帧的电路系统。第一图像帧是第一拍摄镜头的最后一帧，并且第二图像帧是第二拍摄镜头的第一帧。电路系统从提取的第一图像帧中检测第一物体集合，并从提取的第二图像帧中检测第二物体集合。电路系统还基于第一图像帧中的第一物体的至少第一视觉属性与第二图像帧中的第一物体的至少第二视觉属性的偏差，生成并输出与第一物体相关联的通知信息。

Description

视频编辑设备和方法

技术领域

本公开的各种实施例涉及视频编辑技术。更具体而言，本公开的各种实施例涉及用于通知视频内容的拍摄镜头中的不同物体的描绘偏差的视频编辑设备、方法和软件。

背景技术

视频编辑领域的最新进展已导致各种促进视频内容的非线性编辑(NLE)的技术的发展。传统上，视频内容可以由一个或多个图像捕获设备在不同时间和/或制作地点以多种制作状态捕获。视频内容(例如，后期制作电影内容)包括多个场景，并且多个场景中的每个场景包括许多连续的镜头。典型地，可以或者连续地或者在一定持续时间之后(例如，在一定小时或天数之后)捕获场景的连续镜头。有各种常规技术可用，编辑者可以通过这些技术对捕获的镜头进行各种编辑功能，以生成场景或视频内容。编辑者可能需要手动分析与一个或多个场景的多个镜头中存在的各种物体(例如，人类或非生命实体)的描绘相关联的连续性错误。可能需要识别连续性错误，以避免不连续性或防止一个或多个场景的多个镜头之间的各种物体的描绘异常。手动分析导致识别物体的描绘中的连续性错误中的不准确。这可能进一步降低视频内容的整体质量，以及编辑者在视频内容的观众当中的可信度。

如本申请的其余部分并且参考附图所阐述的，通过将所描述的系统与本公开的一些方面进行比较，常规和传统途径的其它限制和缺点对于本领域技术人员将变得显而易见。

发明内容

基本上如附图至少之一所示和/或结合附图至少之一所描述的，提供了一种控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知的视频编辑设备和方法，如在权利要求中更完整地阐述。

通过审阅本公开的以下具体实施方式以及附图，可以理解本公开的这些和其它特征和优点，在附图中相似的附图标记通篇指代相似的部分。

附图说明

图1图示了根据本公开的实施例的示例性环境，该示例性环境用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知。

图2是图示根据本公开的实施例的示例性视频编辑设备的框图，该示例性视频编辑设备用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知。

图3图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知的第一示例性情形。

图4A和图4B共同地图示了根据本公开的实施例的用户界面，该用户界面用于显示由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知。

图5图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知的第二示例性情形。

图6图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘中的事实错误的通知的第三示例性情形。

图7图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘中的重复的通知的第四示例性情形。

图8A和图8B共同地描绘了图示根据本公开的实施例的用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知的示例性操作的流程图。

具体实施方式

可以在所公开的用于控制视频内容的拍摄镜头中不同物体的描绘偏差的通知的设备和方法中找到以下描述的实施方式。本公开的示例性方面提供了一种视频编辑设备，其自动检查视频内容中的场景的多个拍摄镜头之间不同物体的连续性。通过视频编辑设备的自动连续性检查确保了多个拍摄镜头之间的一致性。视频编辑设备还基于自动连续性检查向视频内容的编辑者提供关于多个拍摄镜头之间存在的不同物体的描绘偏差的一个或多个通知。这样的通知还可以帮助编辑者在视频内容的制作和后期制作阶段期间改善视频内容的整体质量。

视频编辑设备可以包括被配置为存储视频内容(例如电影)的存储器，视频内容可以包括拍摄序列的拍摄场景集合。拍摄场景集合可以包括多个拍摄镜头。拍摄场景的多个拍摄镜头可以是由视频捕获设备连续地或者在一定持续时间之后(例如，在一定小时或天数之后)捕获的连续镜头。拍摄场景中的多个拍摄镜头可以包括多个物体，所述多个物体在多个拍摄镜头中可以是共同的。多个物体可以是各种生命物体(例如人类)和非生命物体。所公开的视频编辑设备可以比较拍摄镜头之间的多个物体，以确定多个物体在拍摄镜头中是否被描绘有相似的视觉属性。所公开的视频编辑设备可以生成多个物体的三维(3D)图像以用于视觉属性的精确比较。与多个物体相关联的视觉属性的示例可以包括但不限于形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息。视频编辑设备还可以基于比较来确定拍摄镜头之间的多个物体的偏差。视频编辑设备可以基于所确定的偏差来自动检查拍摄镜头之间的多个物体的连续性。视频编辑设备还可以向视频内容的编辑者提供关于拍摄镜头之间的连续性中的各种错误的通知。视频编辑设备还可以基于所捕获的视频内容的时间线和多个物体的相应存储的时间线来确定拍摄镜头中的事实错误，并且还基于所确定的事实错误向编辑者提供通知。视频编辑设备还可以基于视频内容中的多个物体与数据库中存储的另一个视频内容中存在的相似物体的比较，向编辑者提供通知。基于来自视频编辑设备的此类自动化通知，编辑者可以做出适当的决定，或者重拍拍摄镜头，或者应用不同的图像处理技术来维持多个物体的连续性并减少检测到的事实错误。这提高了在编辑阶段之后最终制作的视频内容的整体质量，并进一步增强了编辑者在较短时间内制作高质量视频内容的整体可信度。

图1图示了根据本公开的实施例的示例性环境，该示例性环境用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知。参考图1，示出了网络环境100。网络环境100可以包括视频编辑设备102、数据存储系统102A、显示屏104、服务器106和通信网络108。视频编辑设备102可以经由通信网络108通信地耦合到服务器106。还示出了与视频编辑设备102相关联的用户110。

参考图1，还示出了第一视频内容112，其可以包括拍摄场景集合114A至114B。拍摄场景集合114A至114B可以包括第一拍摄场景114A和第二拍摄场景114B。第一拍摄场景114A可以包括多个拍摄镜头116A至116C。类似地，第二拍摄场景114B可以包括另外多个拍摄镜头116D至116F。第一拍摄镜头116A可以包括图像帧序列118，并且第二拍摄镜头116B可以包括图像帧序列120。还示出了第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124。根据实施例，第一图像帧122可以是第一拍摄镜头116A的图像帧序列118的最后一帧，并且第二图像帧124可以是第二拍摄镜头116B的图像帧序列120的第一帧。

视频编辑设备102可以包括合适的逻辑、电路系统和接口，其可以被配置为从用户110(例如，编辑者)接收编辑请求，并基于接收到的编辑请求从数据存储系统102A检索第一视频内容112。根据实施例，视频编辑设备102可以被配置为检测第一图像帧122中的第一物体集合(未示出)并且检测第二图像帧124中的第二物体集合(未示出)。视频编辑设备102还可以被配置为检查检测到的第一物体集合中的第一物体在第二图像帧124中检测到的第二物体集合中是否不存在。在一些实施例中，视频编辑设备102可以被配置为确定第一图像帧122中的第一物体的第一视觉属性与第二图像帧124中的第一物体的第二视觉属性的偏差。根据实施例，视频编辑设备102还可以被配置为基于所确定的偏差来确定第一物体在第一图像帧122和第二图像帧124之间的连续性或不连续性。在一些实施例中，视频编辑设备102可以被配置为基于确定在第二图像帧124中不存在第一图像帧122的第一物体来确定第一物体的连续性或不连续性。根据实施例，视频编辑设备102可以被配置为检测在拍摄场景集合114A至114B中的至少一个图像帧中检测到的第一物体集合中的至少一个物体和/或检测到的第二物体集合中的至少一个物体的事实错误。视频编辑设备102还可以被配置为基于所确定的不连续性或事实错误针对用户110输出通知信息。视频编辑设备102的示例可以包括但不限于非线性编辑系统(NLE)、非线性视频编辑系统(NLVE)、视频编辑系统、视频编辑控制器、媒体制作系统、计算机工作站、大型计算机、手持式计算机、蜂窝/移动电话、智能电器、视频播放器和/或具有图像处理能力的其它计算设备。

数据存储系统102A可以包括合适的逻辑、电路系统和接口，其可以被配置为存储第一视频内容112，第一视频内容112可以包括拍摄场景集合114A至114B。根据实施例，数据存储系统102A可以被配置为存储第一时间线信息，第一时间线信息指示与第一视频内容112相关的时代(era)。根据实施例，数据存储系统102A可以被配置为存储与多个拍摄镜头116A至116F相关联的元数据。数据存储系统102A可以被配置为存储与视频编辑设备102为其确定不连续性或事实错误的第一物体相关联的通知信息。根据实施例，数据存储系统102A可以是集成在视频编辑设备102中的存储器(未示出)或数据库(未示出)。

显示屏104可以包括合适的逻辑、电路系统和接口，其可以被配置为针对用户110显示通知信息。显示屏104可以经由通信信道(未示出)与视频编辑设备102通信地耦合。显示屏104可以通过几种已知技术来实现，诸如但不限于液晶显示(LCD)显示器、发光二极管(LED)显示器、等离子体显示器，以及有机LED(OLED)显示技术和其它显示器中的至少一种。根据实施例，显示屏104可以指智能眼镜设备的显示屏、透视显示器、基于投影的显示器、电致变色显示器和透明显示器。本领域普通技术人员将理解本公开的范围不限于视频编辑设备102和显示屏104作为分离的实体的实现方式。根据实施例，在不脱离本公开的范围的情况下，显示屏104的功能可以由视频编辑设备102实现。

服务器106可以包括合适的逻辑、电路系统和接口，其可以被配置为存储第一视频内容112，第一视频内容112可以包括拍摄场景集合114A至114B。服务器106可以被配置为存储第一时间线信息，第一时间线信息指示与第一视频内容112相关的时代。根据实施例，服务器106可以被配置为存储不同物体类型的不同物体的第二时间线信息。第二时间线信息可以指示不同物体类型的不同物体的发明、发现、使用、市场发布或演进的时间信息。根据实施例，服务器106可以被配置为存储与多个拍摄镜头116A至116F相关联的元数据。与多个拍摄镜头116A至116F相关联的元数据可以包括但不限于可以指示捕获多个拍摄镜头116A至116F中的每一个的地理地点的信息、艺术家信息、关于检测到的第一物体集合和检测到的第二物体集合的信息。根据实施例，服务器106还可以被配置为存储第二视频内容，其中第二视频内容可以包括具有相关联的元数据的多个拍摄镜头。

根据实施例，服务器106可以被配置为经由通信网络108从视频编辑设备102接收内容请求。服务器106还可以被配置为基于接收到的内容请求经由通信网络108将存储的第一视频内容112、第一时间线信息、第二时间线信息、元数据和第二视频内容传送到视频编辑设备102。根据实施例，服务器106可以被实现为云服务器，其可以用来通过web应用、云应用、HTTP请求、储存库操作、文件传输、游戏操作等执行视频编辑设备102的上述操作。服务器106的其它示例可以包括但不限于数据库服务器、文件服务器、web服务器、应用服务器、大型机服务器、云服务器或其它类型的服务器。

根据实施例，服务器106可以是视频编辑设备102的一部分。根据实施例，服务器106可以通过使用本领域技术人员众所周知的几种技术被实现为多个基于云的资源。此外，服务器106可以与单个或多个服务提供商相关联。本领域普通技术人员将理解的是，本公开的范围不限于服务器106和视频编辑设备102作为分离的实体的实现方式。根据实施例，在不脱离本公开的范围的情况下，服务器106的功能可以由视频编辑设备102实现。

通信网络108可以包括通信介质，视频编辑设备102和服务器106可以通过该通信介质彼此通信。通信网络108可以是有线或无线通信网络。通信网络108的示例可以包括但不限于互联网、云网络、无线保真(Wi-Fi)网络、个人局域网(PAN)、局域网(LAN)或城域网(MAN)。根据各种有线和无线通信协议，网络环境100中的各种设备可以被配置为连接到通信网络108。这样的有线和无线通信协议的示例可以包括但不限于传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备与设备通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一种。

在操作中，视频编辑设备102可以被配置为从用户110接收第一用户输入。第一用户输入可以包括对第一视频内容112进行连续性检查的请求。第一视频内容112的示例可以包括但不限于电影内容、歌曲视频场景、多媒体内容、动画内容、交互式内容和/或其组合。第一视频内容112可以存储在视频编辑设备102的存储器(图2中示出)中。根据实施例，第一视频内容112可以包括拍摄序列的拍摄场景集合114A至114B。第一拍摄场景114A可以包括多个拍摄镜头116A至116C，并且第二拍摄场景114B可以包括另外多个拍摄镜头116D至116F。第一拍摄场景114A的多个拍摄镜头116A至116C和第二拍摄场景114B的多个拍摄镜头116D至116F可以具有一定的持续时间(例如，以秒或分钟)。根据实施例，第一拍摄镜头116A可以包括图像帧序列118，并且第二拍摄镜头116B可以包括图像帧序列120。根据实施例，第一拍摄镜头116A和第二拍摄镜头116B中的图像帧的数量可以基于第一拍摄镜头116A和第二拍摄镜头116B的持续时间(或时间长度)。在一些实施例中，图像帧的数量可以基于在捕获第一拍摄镜头116A和第二拍摄镜头116B中的每一个时的视频捕获设备的捕获速率(或帧速率)。第一拍摄镜头116A和第二拍摄镜头116B可以由视频捕获设备在一时间段内连续地捕获。在一些实施例中，第一拍摄镜头116A和第二拍摄镜头116B可以由视频捕获设备以不连续的方式捕获(例如，在一定时间段，比如几小时、几天或几周之后捕获)。

根据实施例，第一拍摄镜头116A和第二拍摄镜头116B还可以包括镜头标识信息(例如，镜头标识号)。根据实施例，视频编辑设备102可以被配置为基于第一拍摄镜头116A和第二拍摄镜头116B中的每一个的镜头标识信息将第一拍摄镜头116A和第二拍摄镜头116B确定为第一拍摄场景114的连续镜头。在一些实施例中，视频编辑设备102可以被配置为基于在第一拍摄镜头116A和第二拍摄镜头116B中的每一个的捕获期间使用的拍板器(clapper board)信息，将第一拍摄镜头116A和第二拍摄镜头116B确定为第一拍摄场景114的连续镜头。拍板器信息可以包括但不限于捕获的日期时间信息、场景编号、镜次(take)编号、视频内容的标题或视频内容的导演的姓名。在一些实施例中，视频编辑设备102可以被配置为在接收到发起对第一视频内容112的连续性检查的第一用户输入之前，从用户110接收选择第一拍摄镜头116A和第二拍摄镜头116B作为连续镜头的一个或多个用户输入。在一些实施例中，视频编辑设备102可以被配置为从用户110接收在视频编辑设备102的显示屏104上显示的编辑时间线(未示出)上布置拍摄场景集合的多个拍摄镜头的一个或多个用户输入。一个或多个用户输入可以包括基于布置选择第一拍摄镜头116A和第二拍摄镜头116B作为连续镜头。根据实施例，视频编辑设备102可以被配置为基于镜头标识信息或捕获时刻信息来自动布置和选择第一拍摄镜头116A和第二拍摄镜头116B作为连续镜头。

根据实施例，视频编辑设备102还可以被配置为提取第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124。根据实施例，第一图像帧122可以是第一拍摄镜头116A的图像帧序列118的最后一帧，并且第二图像帧124可以是第二拍摄镜头116B的图像帧序列120的第一帧。视频编辑设备102可以对第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124进行连续性检查。

根据实施例，视频编辑设备102还可以被配置为从所提取的第一图像帧122中检测第一物体集合(图3中所示)和从所提取的第二图像帧124中检测第二物体集合(图3中所示)。第一物体集合和第二物体集合的示例可以包括但不限于人类、动物、植物或其它非生命实体。

根据实施例，视频编辑设备102还可以被配置为基于第一物体的物体类型从第一物体集合和第二物体集合的每一个中识别第一物体。第一物体集合和第二物体集合中的第一物体的物体类型是相同的。视频编辑设备102还可以被配置为确定第一图像帧122中的第一物体的第一视觉属性与第二图像帧124中的第一物体的第二视觉属性的偏差。第一视觉属性和第二视觉属性可以是相同的类型。第一视觉属性和第二视觉属性的示例可以包括但不限于形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息。例如图3可以详细描述第一图像帧122中的第一物体的第一视觉属性与第二图像帧124中的第一物体的第二视觉属性之间的偏差。

视频编辑设备102可以被配置为确定偏差以检查第一图像帧122和第二图像帧124两者中的第一物体的连续性。根据实施例，可以基于分别在第一拍摄镜头116A和第二拍摄镜头116B的第一图像帧122和第二图像帧124两者中存在具有相似视觉属性集合的第一物体来确定第一物体的连续性。

根据实施例，视频编辑设备102还可以被配置为基于所确定的偏差来生成与第一物体相关联的通知信息。根据实施例，视频编辑设备102还可以被配置为控制显示屏104以输出所生成的与第一图像帧122和第二图像帧124中的第一物体相关联的通知信息。可以在例如图4A和图4B中详细描述输出通知信息。因此，关于第一图像帧122和第二图像帧124之间的第一物体的不连续性的通知信息可以允许用户110(例如编辑者)做出适当的决定，或者重拍第一拍摄镜头116A和第二拍摄镜头116B，或者对第一物体应用一种或多种已知的图像处理技术，以维持第一物体在第一拍摄镜头116A和第二拍摄镜头116B之间的连续性。如果第一物体的不连续性在捕获第一拍摄镜头116A和第二拍摄镜头116B时是有意的，那么用户110也可以做出丢弃通知信息的决定。

根据实施例，视频编辑设备102可以被配置为对第一视频内容112的拍摄场景集合114A至114B中的每个拍摄场景的不同的连续或邻接的拍摄镜头进行连续性检查，并且基于所进行的连续性检查生成针对不同物体的通知信息。因此，视频编辑设备102可以提供所捕获的第一视频内容112中的连续性错误(或差错)的准确和自动检测，这进一步减少了用户110的大量手动工作。连续性错误的准确和自动检测还可以帮助用户110改善第一视频内容112的整体质量，并增强用户110在第一视频内容112的观众当中的可信度。

图2是图示根据本公开的实施例的示例性视频编辑设备的框图，该示例性视频编辑设备用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知。结合来自图1的元素来解释图2。参考图2，示出了视频编辑设备102。视频编辑设备102可以包括电路系统202，电路系统202还可以包括物体检测器204。视频编辑设备102还可以包括存储器206、网络接口208和输入/输出(I/O)设备210。I/O设备210可以包括显示屏104。电路系统202可以通信地耦合到存储器206、网络接口208和I/O设备210。电路系统202可以被配置为通过使用网络接口208与服务器106通信。

电路系统202可以包括合适的逻辑、电路系统和接口，其可以被配置为执行存储在存储器206中的指令集。电路系统202可以被配置为经由I/O设备210从用户110接收第一用户输入(即，进行连续性检查)。电路系统202还可以被配置为基于接收到的第一用户输入来确定包括在拍摄场景中的连续拍摄镜头中的不同物体的连续性。根据实施例，电路系统202可以被配置为分析第一视频内容112中的不同物体来确定事实错误。可以基于本领域中已知的多种处理器技术来实现电路系统202。电路系统202的示例可以是图形处理单元(GPU)、中央处理单元(CPU)、基于X86的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、其它处理器等。

物体检测器204可以包括合适的逻辑、电路系统和接口，其可以被配置为分别从第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124检测第一物体集合和第二物体集合。根据实施例，物体检测器204还可以被配置为识别检测到的第一物体集合和第二物体集合的不同物体类型。检测到的第一物体集合和第二物体集合可以对应于二维(2D)物体或三维(3D)物体中的至少一个。根据实施例，物体检测器204可以被配置为基于物体检测和分类技术来检测第一物体集合、第二物体集合以及相关物体类型。物体检测和分类技术可以基于但不限于使用数据流图的数值计算技术、深度神经网络(DNN)体系架构，诸如卷积神经网络(CNN)、CNN循环神经网络(CNN-RNN)、R-CNN、快速R-CNN、更快速R-CNN和(You Only Look Once)YOLO网络。在一些实施例中，物体检测器204可以实现其它物体标识技术，诸如基于人的形状的物体边界标识、预先指定的基于形状或基于模板的物体标识，诸如通过使用Sobel运算符或Prewitt运算符。物体检测器204的实现的示例可以是专用电路系统、GPU、RISC处理器、ASIC处理器、CISC处理器、微控制器、中央处理单元(CPU)或其它控制电路。

在某些实施例中，可以基于被训练用于检测和识别图像帧中的物体的DNN学习模型来实现物体检测器204。在这样的实现中，物体检测器204可以是专用的DNN电路系统和/或可以实现辅助加速器电路系统，以增强训练和/或检测由视频捕获设备捕获的图像帧中的物体的速度。加速器电路系统可以是设备上(离线)加速器电路系统(图1中未示出)或服务器端(在线)加速器电路系统(即，在云服务器上可用)。

存储器206可以包括合适的逻辑、电路系统和接口，其可以被配置为存储第一视频内容112、第一时间线信息，第一时间线信息可以指示与第一视频内容112相关的时代。根据实施例，存储器206可以被配置为存储与视频编辑设备102为其确定不连续或事实错误的第一物体相关联的通知信息。在一些实施例中，存储器206可以执行类似于图1中所示的数据存储系统102A的功能。存储器206的实现的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

网络接口208可以包括合适的逻辑、电路系统和/或接口，其可以被配置为促进经由通信网络108在视频编辑设备102和服务器106之间的通信。网络接口208可以通过使用各种已知技术来实现，以支持视频编辑设备102与通信网络108的有线或无线通信。网络接口208可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码器(CODEC)芯片组、订户身份模块(SIM)卡或本地缓冲器。

I/O设备210可以包括合适的逻辑、电路系统和/或接口，其可以被配置为充当用户110与视频编辑设备102的不同操作组件之间的I/O通道/接口。I/O设备110可以被配置为从用户110接收对第一视频内容112进行连续性检查的第一用户输入。I/O设备110还可以被配置为显示与视频编辑设备102为其确定不连续或事实错误的第一物体相关联的通知信息。I/O设备210可以包括可以被配置为与设备102的不同操作组件通信的各种输入和输出设备。I/O设备210的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风和显示屏(例如显示屏104)。

如图1中所描述的，由视频编辑设备102执行的功能或操作可以由电路系统202和物体检测器204进行。由电路系统202和物体检测器204执行的操作在例如图3、图4A、图4B、图5、图6和图7中进一步描述。

图3图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知的第一示例性情形。结合来自图1和图2的元素来解释图3。参考图3，示出了第一情形300。

在第一情形300中，示出了第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124。根据实施例，第一拍摄镜头116A和第二拍摄镜头116B可以对应于相同的拍摄场景(例如，第一拍摄场景114A)。第一拍摄镜头116A和第二拍摄镜头116B可以是第一拍摄场景114A的连续或邻接的镜头。根据实施例，第一图像帧122可以是第一拍摄镜头116A的图像帧序列118的最后一帧，并且第二图像帧124可以是第二拍摄镜头116B的图像帧序列120的第一帧。根据实施例，第一拍摄镜头116A和第二拍摄镜头116B可以对应于第一视频内容112的不同拍摄场景，其中不同拍摄场景可以对应于相同的上下文。例如，不同的场景在不同的时间捕获(或具有不同的剧本或对话)，但在背景中具有相似物体作为相同的上下文。

在图3中，还示出了视频编辑设备102，其被配置为对连续镜头(第一拍摄镜头116A和第二拍摄镜头116B)的第一图像帧122和第二图像帧124进行连续性检查。视频编辑设备102可以被配置为进行连续性检查，以验证不同物体在第一拍摄镜头116A和第二拍摄镜头116B之间的一致性(即，存在或视觉属性)。

电路系统202可以被配置为基于从用户110(例如，第一视频内容112的编辑者)接收到第一用户输入，发起在拍摄场景集合114A至114B的每个连续镜头之间的连续性检查。在连续性检查中，电路系统202可以被配置为提取第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124。根据实施例，对于提取，电路系统202可以被配置为从其中存储第一视频内容112的存储器206读取与第一图像帧122和第二图像帧124相关联的像素信息。根据实施例，电路系统202还可以被配置为将提取的第一图像帧122和提取的第二图像帧124提供给物体检测器204。

根据实施例，物体检测器204还可以被配置为从提取的第一图像帧122中检测第一物体集合(诸如图3中的302、304A、306A、308A、310A、312A和314A)。物体检测器204还可以被配置为从提取的第二图像帧124检测第二物体集合(诸如图3中的304B、306B、308B、310B、312B和314B)。物体检测器204还可以被配置为基于如图1中所描述的不同的物体检测技术将检测到的物体分类为不同的物体类型。关于图3，物体检测器204可以被配置为从第一图像帧122中的第一物体集合中检测第一物体304A并将其物体类型分类为人类、检测第二物体306A并将其物体类型分类为狗、检测第三物体308A并将其物体类型分类为汽车、检测第四物体310A并将其物体类型分类为照明设备、检测第五物体314A并将其物体类型分类为盒子，以及检测第六物体302并将其物体类型分类为植物。物体检测器204还可以被配置为从第二图像帧124中的第二物体集合中检测第七物体304B并将其物体类型分类为人类、检测第八物体306B并将其物体类型分类为狗、检测第九物体308B并将其物体类型分类为汽车、检测第十物体310B并将其物体类型分类为照明设备，以及检测第十一物体314B并将其物体类型分类为盒子。物体检测器204可以被配置为分别确定第一图像帧122和第二图像帧124中的第一物体集合和第二物体集合中的每一个的像素坐标。像素坐标可以基于由视频捕获设备捕获第一图像帧122和第二图像帧124的分辨率在X轴和Y轴中。

根据实施例，电路系统202可以被配置为从物体检测器204接收第一物体集合和第二物体集合中的每一个的检测到的物体类型和所确定的像素坐标。电路系统202还可以被配置为基于第一物体304A和第七物体304B两者的物体类型和所确定的像素坐标，将第一图像帧122中的第一物体304A和第二图像帧124中的第七物体304B识别为相同的物体。根据实施例，物体检测器204可以被配置为检测和分类检测到的物体内的不同子物体。例如，物体检测器204可以被配置为在第一图像帧122中的检测到的第一物体304A(作为人类)内检测作为徽章的第十二物体314。根据实施例，电路系统202可以被配置为从物体检测器204接收第一物体集合中的第十二物体314。电路系统202可以被配置为基于第一图像帧122中的第十二物体314的物体类型和像素坐标来确定第一物体集合中的第十二物体314(例如徽章)在检测到的第二物体集合中缺失或不存在。电路系统202还可以被配置为生成针对用户110的通知信息。通知信息可以指示第十二物体314在第一图像帧122(例如，第一拍摄镜头116A的最后一帧)和第二图像帧124(例如，第二拍摄镜头116B的第一帧)之间的不连续性或不一致性。通知信息可以是针对用户110的关于第十二物体314(例如，徽章)的不连续性的警报或错误消息。电路系统202可以被配置为控制显示屏104以输出所生成的与第十二物体314相关联的通知信息。通知信息的细节可以例如在图4A和图4B中详细描述。根据实施例，电路系统202可以被配置为控制与视频编辑设备102相关联的扬声器(未示出)从而以音频形式输出所生成的通知。

根据实施例，电路系统202还可以被配置为确定检测到的第一物体集合和第二物体集合的一个或多个视觉属性。在一些实施例中，电路系统202可以被配置为基于第一图像帧122和第二图像帧124中的每个像素的像素信息来确定一个或多个视觉属性。像素信息可以包括但不限于亮度值、对比度值或颜色值。在一些实施例中，电路系统202可以被配置为基于所确定的第一物体集合和第二物体集合中的每一个的像素坐标来确定一个或多个视觉属性。检测到的第一物体集合和第二物体集合的一个或多个视觉属性的示例可以包括但不限于形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息。

根据实施例，电路系统202还可以被配置为确定第一物体304A和第七物体304B(即，相同的物体)中的每一个的一个或多个视觉属性。电路系统202可以被配置为确定第一物体304A和第七物体304B中的每一个的所确定的一个或多个视觉属性的至少一个视觉属性的偏差。关于图3，第一物体304A和第七物体304B的一个或多个视觉属性是相同的。因此，电路系统202可以被配置为检测第一物体304A和第七物体304B的一个或多个视觉属性在第一图像帧122和第二图像帧124之间的一致性(或连续性)。

电路系统202还可以被配置为基于第二物体306A和第八物体306B两者的物体类型和所确定的像素坐标，将第一图像帧122中的第二物体306A和第二图像帧124中的第八物体306B识别为相同的物体(例如狗)。电路系统202还可以被配置为确定第二物体306A和第八物体306B的一个或多个视觉属性。关于图3，电路系统202可以确定第二物体306A和第八物体306B之间的尺寸偏差。电路系统202还可以被配置为基于尺寸偏差来生成与第二物体306A(或第八物体306B)相关联的通知信息。第二物体306A和第八物体306B之间的尺寸偏差可以指示第一拍摄镜头116A的第一图像帧122和第二拍摄镜头116B的第二图像帧124之间的不连续性或不一致性。

类似地，关于图3，电路系统202可以确定第一图像帧122中的第三物体308A(作为汽车)和第二图像帧124中的第九物体308B(类似于第三物体308A)之间的形状偏差。电路系统202还可以被配置为确定第一图像帧122中的第四物体310A(作为照明设备)和第二图像帧124中的第十物体310B之间的颜色偏差。

根据实施例，物体检测器204可以被配置为检测所检测到的第一物体集合和第二物体集合中的文本信息。根据实施例，物体检测器204可以基于一种或多种文本识别或光学字符识别技术来检测文本信息。物体检测器204还可以被配置为将第一物体集合和第二物体集合中的每一个中的检测到的文本信息提供给电路系统202。电路系统202还可以被配置为比较第一图像帧122和第二图像帧124中的相似物体的文本信息，以确定文本信息中的偏差。关于图3，电路系统202可以确定第三物体308A中的第一文本信息312A(例如“COP1017X”)和第九物体308B中的第二文本信息312B(例如“COP1022Y”)之间的偏差。电路系统202还可以被配置为基于所确定的第一文本信息312A与第二文本信息312B之间的偏差来生成与第三物体308A(或第九物体308B)相关联的通知信息。此外，关于图3，电路系统202可以基于第一物体集合和第二物体集合中的每一个的检测到的物体类型来确定第一物体集合中的第六物体302(作为植物)在第二物体集合中不存在或缺失。电路系统202可以被配置为生成通知信息，以指示第六物体302在第一图像帧122和第二图像帧124之间的不连续性。因此，视频编辑设备102可以为物体在连续镜头之间的(或者存在或者至少一种视觉属性的)不连续性提供通知信息的自动且准确的生成。通知信息的自动且准确的生成确保了在识别不连续性(或连续性错误)方面节省大量时间，并进一步确保了第一视频内容112的整体质量的提高。

根据实施例，电路系统202还可以被配置为确定第一图像帧122中的第一物体集合中的每一个相对于第二图像帧124中的第二物体集合中的相似物体的位置偏差。电路系统202可以被配置为基于第一物体集合和第二物体集合中的每一个的像素坐标来确定位置偏差。关于图3，电路系统202可以被配置为识别第一图像帧122中的第五物体314A(作为盒子)和第十一物体314B(类似于第五物体314A)之间的位置偏差。第五物体314A与第十一物体314B之间的位置偏差可以指示第五物体314A(或第十一物体314B)在第一拍摄镜头116A和第二拍摄镜头116B之间的位置或移动的变化。根据实施例，电路系统202可以被配置为基于检测到的位置偏差来生成关于第五物体314A(或第十一物体314B)的通知信息。电路系统202还可以被配置为控制显示屏104以向用户110显示关于位置偏差的通知信息。基于关于位置偏差的通知信息，用户110可以通过校正第十一物体314B的位置来作出决定重拍第二拍摄镜头116B，并且进一步避免第五物体314A和第十一物体314B之间的位置不连续性。用户110可以使用不同的图像处理或图像编辑技术来校正第十一物体314B在第二图像帧124中的位置。如果在捕获第二拍摄镜头116B时第五物体314A和第十一物体314B之间的位置偏差是有意的，那么用户110也可以忽略关于第五物体314A(或第十一物体314B)的通知信息。例如，导演或摄影师可以在捕获第一视频内容112时基于第一拍摄场景114A的剧本有意地改变特定物体在连续镜头之间的位置或地点。在另一个示例中，如果导演或摄影师在捕获第二拍摄镜头116B时相对于第一拍摄镜头116A改变视频捕获设备的焦距，那么一个或多个视觉属性(例如尺寸或维度)的偏差可以被视为用户110有意的。

根据实施例，电路系统202可以被配置为基于第一拍摄场景114A(即，其包括第一拍摄镜头116A和第二拍摄镜头116B)的上下文来确定第一物体集合中的每一个与第二物体集合中的对应相似物体之间的位置偏差。电路系统202可以被配置为分析在第一图像帧122之前的多个图像帧(或在第一拍摄镜头116A之前的多个拍摄镜头)以确定第一拍摄场景114A的上下文。根据实施例，电路系统202可以被配置为确定多个图像帧中的不同物体的像素坐标，以确定第一拍摄场景114A的上下文。例如，在其中在连续镜头之间捕获物体和子物体中的频繁移动的移动场景(诸如舞蹈或歌曲场景作为上下文)的情况下，电路系统202可以被配置为丢弃(在第一物体集合和第二物体集合的对应相似物体之间的)位置偏差来生成针对用户110的通知信息。因此，视频编辑设备102可以提供物体在连续镜头之间的智能连续性检查。由视频编辑设备102进行的这种智能连续性检查可以在更少的时间内向用户110提供准确的连续性错误。用户110可以进一步分析和校正所有连续性错误以改善在编辑阶段之后最终发布的第一视频内容112的质量。

图4A和图4B共同地图示了根据本公开的实施例的用户界面，该用户界面用于显示由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知。结合来自图1、图2和图3的元素来解释图4A和图4B。参考图4A，示出了显示在显示屏104上的第一用户界面(UI)400A。

根据实施例，第一用户界面(UI)400A可以指示基于由电路系统202对第一视频内容112的拍摄场景集合114A至114B的连续镜头执行的连续性检查而生成的通知信息。关于图4A，第一用户界面400A可以指示基于分别在第一图像帧122和第二图像帧124中的第一物体集合和第二物体集合之间执行的连续性检查而生成的通知信息，如例如在图3中详细描述的。通知信息可以指示第一图像帧122和第二图像帧124中的第一物体集合和第二物体集合之间的不连续性或不一致性。根据实施例，通知信息可以包括其中由视频编辑设备102检测到物体的一个或多个不连续性的第一拍摄场景114A的标识符。第一拍摄场景114A的标识符可以指示第一视频内容112中的场景编号。在一些实施例中，通知信息还可以包括由视频编辑设备102在其之间检测到物体的一个或多个不连续性的第一拍摄镜头116A和第二拍摄镜头116B的标识信息。标识信息可以指示可以包括第一拍摄镜头116A和第二拍摄镜头116B的第一拍摄场景114A的镜头编号。根据实施例，通知信息可以包括不连续性(或连续性错误)的细节。不连续性的细节可以包括物体类型以及第一物体集合和第二物体集合的一个或多个视觉属性的偏差。

关于图4A，示出了多个UI选项402A至402N，其可以指示所生成的以表格形式显示在显示屏104上的通知信息。多个UI选项402A至402N中的每一个可以显示所生成的通知信息。根据实施例，多个UI选项402A至402N中的每一个可以指示第一拍摄场景114A的标识符、第一拍摄镜头116A和第二拍摄镜头116B的标识信息，以及检测到的不连续性的细节。

根据实施例，多个UI选项402A至402N可以包括第一UI选项402A，第一UI选项402A可以指示关于第十二物体314(例如，徽章)在第一图像帧122和第二图像帧124之间的不连续性，如图3中所描述的。例如，第一UI选项402A可以指示错误消息，该错误消息可以包括连续性错误的细节，其中第十二物体314在拍摄场景编号“1”(作为第一拍摄场景114A的标识符)中并且在编号为1和2(作为第一拍摄镜头116A和第二拍摄镜头116B的标识信息)的连续镜头之间作为“制服上缺失徽章”。

类似地，多个UI选项402A至402N可以包括第二UI选项402B，第二UI选项402B可以包括错误消息。该错误消息可以指示与如图3中所述的第二物体306A和第八物体306B(物体类型为狗)相关联的不连续性(即，尺寸偏差)。该错误消息还可以指示第八物体306B在第二图像帧124中的描绘中的制作错误。例如，第二UI选项402B可以将第八物体306B的连续性错误的细节指示为“狗的尺寸不同”，其中第一拍摄场景114A的标识符为“1”并且第一拍摄镜头116A和第二拍摄镜头116B的标识信息为“1和2”。关于图4A，多个UI选项402A至402N可以包括第三UI选项402C、第四UI选项402D、第五UI选项402E和第六UI选项402F。根据实施例，第三UI选项402C可以包括错误消息，该错误消息可以指示与第一图像帧122和第二图像帧124之间的第三物体308A和第九物体308B(作为汽车)相关联的不连续性(即，形状和文本信息的偏差)。例如，第三UI选项402C可以将第三物体308A和第九物体308B的不连续性的细节指示为“汽车的形状和文本不同”。第四UI选项402D可以包括可以指示与第四物体310A和第十物体310B(作为照明设备)相关联的不连续性(即，颜色偏差)的错误消息。例如，第四UI选项402D可以将第四物体310A和第十物体310B的不连续的细节指示为“汽车上的照明设备的颜色不同”。第五UI选项402E可以将第六物体302的连续性错误的细节指示为“缺少植物”，其中拍摄场景编号为“1”并且连续镜头为“1，2”。此外，第六UI选项402F可以包括可以指示与第五物体314A和第十一物体314B(作为盒子)相关联的不连续性(即，位置偏差)的错误消息。例如，第六UI选项402F可以将第五物体314A和第十一物体314B的不连续性的细节指示为“盒子的位置不同”。

根据实施例，电路系统202可以被配置为将通知信息作为元数据添加到第一视频内容112中。在一些实施例中，电路系统202可以被配置为将通知信息作为元数据添加到第一拍摄镜头116A或第二拍摄镜头116B，第一拍摄镜头116A或第二拍摄镜头116B包括为其生成通知信息的不一致的物体。在稍后的阶段编辑或渲染第一视频内容112时，第一视频内容112中添加的元数据可以帮助用户110快速参考不同的连续性错误(或不一致的物体)。

根据实施例，电路系统202可以被配置为经由I/O设备210从用户110接收选择多个UI选项402A至402N之一的一个或多个用户输入。电路系统202还可以被配置为控制显示屏104以显示与多个UI选项402A至402N中的所选择的一个相关联的对应镜头或对应图像帧。例如，在用户110选择第三UI选项402C的情况下，电路系统202可以控制显示屏104以显示包括物体类型为汽车的第三物体308A(或类似的第九物体308B)的不连续性(即，形状和文本偏差)的第一图像帧122和第二图像帧124。

根据实施例，电路系统202可以被配置为经由I/O设备210从用户110接收过滤显示的多个UI选项402A至402N的一个或多个用户输入。电路系统202可以被配置为基于不同的因素来过滤多个UI选项402A至402N。这些因素的示例可以包括但不限于场景编号、镜头编号、物体类型或一个或多个视觉属性。例如，电路系统202可以从用户110接收过滤和显示场景1的多个UI选项402A至402N中的一个或多个(即，生成通知信息)的一个或多个用户输入。在另一个示例中，电路系统202可以从用户110接收过滤和显示包括位置偏差、或缺失物体或人类作为物体类型的多个UI选项402A至402N中的一个或多个的一个或多个用户输入。因此，第一视频内容112的选择性不连续性的显示可以帮助用户110识别实际的连续性差错，所述差错应当被校正以增强第一视频内容112的质量和受欢迎度。

关于图4B，在第一图像帧122和第二图像帧124中的任一个上以图形形式示出了所生成的通知信息。在图4B中，示出了作为通知信息的多个UI区域404A至404F。多个UI区域404A至404F可以是其中已经检测到连续性错误或由电路系统202生成通知信息(如例如在图3中详细描述的)的第一物体集合和第二物体集合上的图形覆盖(例如，透明边界或区域)。因此，通知信息的这种图形表示可以帮助用户110(作为编辑者)在较短的时间内识别连续性错误。基于所显示的与不同物体相关联的通知信息的图形表示，用户110可以进一步做出适当的决定，或者重拍检测到的镜头(具有连续性错误)、使用已知的视频编辑技术校正连续性错误，或者仅仅忽略特定物体的连续性错误(如果不连续性或偏差在捕获镜头时是有意的)。

图5图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘偏差的通知的第二示例性情形。结合来自图1、图2、图3、图4A和图4B的元素来解释图5。参考图5，示出了第二情形500。

在第二情形500中，示出了可以由视频编辑设备102对其进行连续性检查的第一图像帧122和第二图像帧124。第一图像帧122可以包括第一面部物体502A(物体类型为人脸)，并且第二图像帧124可以包括第二面部物体502B(类似于第一面部物体502A)。关于图5，可以由视频捕获设备相对于第一面部物体502A在不同角度捕获第一图像帧122和第二图像帧124。例如，可以从第一面部物体502A的右侧(例如，以零度角)捕获第一拍摄镜头116A中的第一图像帧122，并且可以从第二面部物体502B的前侧(例如，以90度角)捕获第二拍摄镜头116B中的第二图像帧124。

根据实施例，第一图像帧122可以包括第一角度信息(例如零度)，其可以指示可以由视频捕获设备捕获第一图像帧122的第一角度。根据实施例，视频捕获设备可以在第一位置(例如在第一面部物体502A的右侧)来捕获第一图像帧122。第二图像帧124可以包括第二角度信息(例如，90度)，其可以指示可以由视频捕获设备捕获第二图像帧124的第二角度。根据实施例，视频捕获设备可以在第二位置(例如在第二面部物体502B的前侧)来捕获第二图像帧124。可以相对于(可以捕获第一图像帧122的)第一角度定义(可以捕获第二图像帧124的)第二角度。根据实施例，第一拍摄镜头116A的图像帧序列118中的每个图像帧可以包括第一角度信息，并且第二拍摄镜头116B的图像帧序列120中的每个图像帧可以包括第二角度信息。

根据实施例，物体检测器204可以被配置为从第一图像帧122检测第一面部物体502A。电路系统202可以被配置为从物体检测器204接收检测到的第一面部物体502A。根据实施例，电路系统202还可以被配置为基于包括在第一图像帧122中的第一角度信息来生成检测到的第一面部物体502A的第一三维(3D)图像。在一些实施例中，电路系统202可以使用不同的2D-3D转换技术来生成第一面部物体502A的第一3D图像。这样的2D-3D转换技术的示例可以包括但不限于使用离散线性变换(DLT)根据多个图像进行3D重建、使用深度神经网络根据2D图像进行3D重建、使用三角测量根据2D图像进行3D重建，或根据2D图像中的单眼和立体线索进行3D重建。

根据实施例，物体检测器204还可以被配置为从第二图像帧122中检测第二面部物体502B。电路系统202可以被配置为从物体检测器204接收检测到的第二面部物体502B。根据实施例，电路系统202还可以被配置为基于包括在第二图像帧124中的第二角度信息来生成检测到的第二面部物体502B的第二3D图像。

根据实施例，图像帧序列118中的每个图像帧可以包括第一角度信息，第一角度信息指示由视频捕获设备捕获图像帧序列118中的每个图像帧的第一角度。在一些实施例中，与图像帧序列118的第二多个图像帧相比，可以以不同的角度捕获图像帧序列118的第一多个图像帧。例如，如果视频捕获设备在特定方向(或者沿着X轴、Y轴或者Z轴)并且以特定速度连续移动，那么第一拍摄镜头116A的第一多个图像帧可以相对于第一拍摄镜头116A的第二多个图像帧的捕获以不同的角度捕获。根据实施例，以不同的角度捕获的第一多个图像帧的数量和第二多个图像帧的数量可以基于视频捕获设备的帧(或捕获)速率以及视频捕获设备在捕获第一拍摄镜头116A时移动的特定速度。

根据实施例，图像帧序列118中的每个图像帧可以包括视频捕获设备的第一运动信息。第一运动信息可以指示视频捕获设备相对于第一原始位置(例如，在捕获图像帧序列118中的第一图像帧时视频捕获设备的位置)的位置变化。该位置可以与视频捕获设备在3D物理空间中的XYZ位置对应。

根据实施例，电路系统202可以被配置为基于与图像帧序列118中的每个图像帧相关联的第一角度信息或第一运动信息来生成检测到的第一面部物体502A(或图3中的第一物体集合)的第一3D图像。类似地，第二拍摄镜头116B的图像帧序列120中的每个图像帧可以包括视频捕获设备的第二运动信息。第二运动信息可以指示视频捕获设备相对于第二原始位置(例如，在捕获第二拍摄镜头116B的图像帧序列120的第一图像帧时视频捕获设备的位置)的位置变化。根据实施例，电路系统202还可以被配置为基于与第二拍摄镜头116B的图像帧序列120中的每个图像帧相关联的第二角度信息或第二运动信息来生成检测到的第二面部物体502B(或图3中的第二物体集合)的第二3D图像。

根据实施例，电路系统202还可以被配置为将所生成的第一面部物体502A的第一3D图像(即在第一角度捕获的)与所生成的第二面部物体502B的第二3D图像(即在第二角度捕获的)进行比较。电路系统202还可以被配置为检测所生成的第一面部物体502A的第一3D图像和所生成的第二面部物体502B的第二3D图像的一个或多个视觉属性的偏差。关于图5，电路系统202可以被配置为检测所生成的第一面部物体502A的第一3D图像与所生成的第二面部物体502B的第二3D图像的纹理或形状(例如血液的纹理或形状)方面的偏差。关于图5，第一面部物体502A上的第一子物体504A(例如，物体类型为血液标记)的纹理或形状不同于第二面部物体502B上的第二子物体504B(类似于第一子物体504A)的纹理或形状。此外，第二图像帧124中的第二面部物体502B上的第三子物体506(例如，物体类型为血液标记)可能在第一图像帧122中的第一面部物体502A上缺失。

根据实施例，电路系统202还可以被配置为基于第一子物体504A与第二子物体504B的纹理(或形状)的偏差来生成通知信息。在一些实施例中，电路系统202可以被配置为基于检测到第三子物体506在连续帧(即，第一图像帧122和第二图像帧124)之间的不连续性(或不存在)来生成通知信息。因此，即使物体在连续镜头中是以不同的角度捕获的，视频编辑设备102的3D生成和比较能力也提供物体的不连续性的自动检测。

图6图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘中的事实错误的通知的第三示例性情形。结合来自图1、图2、图3、图4A、图4B和图5的元素来解释图6。参考图6，示出了第三情形600。

在第三情形600中，示出了第一视频内容112的特定拍摄镜头的捕获图像帧602。图像帧602可以包括第一物体604和第二物体606。根据实施例，第一物体604可以对应于作为人类的物体类型(例如新闻记者)，并且第二物体606可以对应于作为由第一物体604持有的手持式麦克风的物体类型。在图6中，还示出了打印在第二物体606上的文本信息。例如，文本信息可以对应于可以与第一物体604(例如新闻记者)相关联的组织的名称(诸如新闻频道名称)。

根据实施例，电路系统202可以被配置为在第一视频内容112的编辑阶段期间经由I/O设备210从用户110接收第二用户输入。第二用户输入可以包括对第一视频内容112进行事实错误检查的请求。响应于接收到第二用户输入，电路系统202可以被配置为对第一视频内容112的每个图像帧(例如图像帧602)或每个拍摄镜头执行事实错误检查。

关于图6，电路系统202可以被配置为从存储在存储器206中的第一视频内容112提取图像帧602。物体检测器204可以被配置为从提取的图像帧602中检测第一物体604和第二物体606中的每一个的物体类型。物体检测器204还可以被配置为从提取的图像帧602中检测与第二物体606相关联的文本信息(例如，如图6所示的“Top Channel”)。根据实施例，电路系统202可以被配置为接收第一物体604和第二物体606中的每一个的检测到的物体类型，以及来自物体检测器204的文本信息。电路系统202还可以被配置为检索与第一视频内容相关联的第一时间线信息。第一时间线信息可以指示与第一视频内容112相关的时代或由第一视频内容112描绘的时代(例如中世纪时代)。根据实施例，第一时间线信息可以指示可以基于其捕获第一视频内容112的年份或年代。在一些实施例中，电路系统202可以被配置为经由I/O设备210从用户110接收第一时间线信息。第一时间线信息可以被包括在从用户110接收到的第二用户输入中。

根据实施例，电路系统202可以被配置为向服务器106发送检测到的第一物体604和第二物体606中的每一个的图像和物体类型，以及检测到的文本信息。根据实施例，服务器可以包括主数据库(未示出)，主数据库可以存储具有不同物体类型的多个物体。在一些实施例中，主数据库可以包括多个物体的不同版本。不同版本可以指示相对于不同物体的不同变化(例如视觉特征)。例如，主数据库可以为不同的电视或移动电话版本存储不同的物体类型。根据实施例，主数据库可以包括与多个物体、物体类型或不同版本相关联的第二时间线信息。第二时间线信息可以指示多个物体、物体类型或不同版本中的每一个的发明、发现、使用、市场发布或演进的时间信息。例如，移动电话(或特定版本或型号)的第二时间线信息可以指示移动电话被发明、在市场上被第一次发布、或被使用或演进时的年份。关于图6，服务器106中的主数据库可以存储与第二物体606(例如，手持式麦克风)相关联或与检测到的文本信息(例如“Top Channel”)相关联的第二时间线信息。

根据实施例，服务器106可以被配置为从电路系统202接收检测到的第一物体604和第二物体606中的每一个的图像和物体类型，以及检测到的文本信息。服务器106还可以被配置为基于检测到的第一物体604和第二物体606中的每一个的物体类型和所存储的多个物体中的每一个物体的所存储的物体类型，将检测到的第一物体604、第二物体606和检测到的文本信息与所存储的多个物体(或不同版本)进行比较。服务器106还可以被配置为基于比较从所存储的多个物体中识别物体，其中识别出的物体的物体类型类似于接收到的第一物体604(或具有相关联的文本信息的第二物体606)的物体类型。服务器106还可以被配置为从主数据库中检索识别出的物体的第二时间线信息。

根据实施例，电路系统202还可以被配置为从服务器106接收识别出的物体的第二时间线信息。在一些实施例中，存储器206可以被配置为存储多个物体(或不同版本)的图像、相关联的物体类型和相关联的第二时间线信息。电路系统202可以被配置为基于检测到的第一物体604、第二物体606和检测到的文本信息与所存储的多个物体(或不同版本)的比较，基于对应的物体类型从所存储的多个物体中识别物体。电路系统202还可以被配置为检索与识别出的物体相关联的第二时间线信息。

根据实施例，电路系统202还可以被配置为将与第一视频内容112相关联的第一时间线信息和与提取的图像帧602中检测到的第一物体604和第二物体606中的每一个相关联的第二时间线信息进行比较。电路系统202还可以被配置为确定第一时间线信息与检测到的第一物体604和第二物体606中的每一个的第二时间线信息的偏差。例如，如果第一时间线信息指示第一视频内容112与时代(例如1900年)相关，并且第二物体606的第二时间线信息指示“手持式麦克风”在后来(例如1950年)使用，那么电路系统202可以将第一视频内容112的第一时间线信息与第二物体606的第二时间线信息之间的偏差识别为图像帧602中的事实错误。在另一个示例中，如果与检测到的文本信息相关联的第二时间线信息指示“TopChannel”开始于1970年，那么电路系统202可以将第一视频内容112的第一时间线信息与第二物体606的第二时间线信息之间的偏差识别为事实错误。

根据实施例，电路系统202还可以被配置为生成与针对其检测到事实错误的第二物体606相关联的通知信息。根据实施例，所生成的通知信息可以包括包含图像帧602的拍摄场景的标识符、包括图像帧602的拍摄镜头的标识信息，以及第二物体606的事实错误的细节。根据实施例，电路系统202可以被配置为如图4A所示为用户110在显示屏上显示所生成的通知信息。在一些实施例中，电路系统202可以被配置为控制显示屏104以在检测到事实错误的第二物体606上显示图形覆盖(如图4B所示)。

根据实施例，电路系统202可以被配置为针对包括在第一视频内容112的每个拍摄镜头的每个图像帧中的每个检测到的物体检测事实错误。电路系统202还可以被配置为针对电路系统202为其检测事实错误的每个物体生成通知信息。基于所生成的关于事实错误的通知信息，用户110(例如编辑者)可以做出决定，或者通过移除为其检测到事实错误的物体来重拍拍摄镜头，或者在最终确定针对观众的第一视频内容112之前使用已知的图像处理技术来编辑该物体。因此，通过视频编辑设备102检测事实错误可以增强第一视频内容的整体质量和用户110(作为编辑者)的可信度。

图7图示了根据本公开的实施例的用于控制由图2的视频编辑设备对视频内容的拍摄镜头中的不同物体的描绘中的重复的通知的第四示例性情形。结合来自图1、图2、图3、图4A、图4B、图5和图6的元素来解释图7。参考图7，示出了第四情形700。

在第四情形700中，示出了第一视频内容112的特定拍摄镜头的捕获图像帧702。图像帧702可以包括第一物体704、第二物体706和第三物体708。第一物体704可以对应于作为太阳的物体类型，第二物体706可以对应于作为人类(例如，名人)的物体类型，并且第三物体708可以对应于作为山脉的物体类型。根据实施例，第一物体704、第二物体706和第三物体708中的每一个的检测到的物体类型可以是第一元数据。在一些实施例中，图像帧702可以包括与检测到的第一物体704、第二物体706和第三物体708相关联的细节作为第一元数据。在一些实施例中，电路系统202可以被配置为基于对检测到的物体的分析来将细节确定为第一元数据。细节的示例可以包括但不限于物体的尺寸、物体的维度、物体的物体类型、捕获图像帧702的地理地点、物体的姿势、物体的朝向、物体的颜色、物体的纹理或物体的形状。在一些实施例中，如果检测到的物体类型是人类，那么

第一元数据可以包括艺术家信息(例如名人或人的姓名)。

根据实施例，与拍摄镜头或图像帧702相关联的第一元数据可以存储在存储器206中。根据实施例，电路系统202可以被配置为在第一视频内容112的编辑阶段期间经由I/O设备210从用户110接收第三用户输入。第三用户输入可以包括对第一视频内容112进行重复性检查的请求。用户110(例如编辑者)可以对第一视频内容112执行重复性检查，以确认所捕获的第一视频内容112的拍摄镜头或拍摄镜头中的多个物体是否没有包括在已经发布的任何其它视频内容(例如其它电影)中。基于重复性检查，视频编辑设备102可以确保所捕获的拍摄镜头和所包括的物体集合(或组合)被新引入到第一视频内容112中，这可以进一步增强第一视频内容112的可信度和受欢迎度。

根据实施例，响应于接收到第三用户输入，电路系统202可以被配置为检索与图像帧702(或包括图像帧702的拍摄场景)相关联的存储的第一元数据。在一些实施例中，电路系统202可以被配置为确定与图像帧702中的检测到的物体相关联的第一元数据。根据实施例，电路系统202还可以被配置为从服务器106中检索第二元数据。第二元数据可以与第二视频内容(即不同于第一视频内容112)的多个拍摄镜头相关联。例如，第二视频内容可以对应于已经发布给观众的先前或较旧的电影。在一些实施例中，第二视频内容可以对应于可以负责捕获第一视频内容112的内容或电影制作组织(例如电影横幅(banner))。

第二元数据可以包括与第二视频内容的多个拍摄镜头相关的信息。与第二视频内容相关的信息可以包括但不限于关于多个拍摄镜头中的物体的信息、多个拍摄镜头的艺术家信息，或捕获多个拍摄镜头的地理地点信息。根据实施例，电路系统202可以被配置为针对第二视频内容的多个拍摄镜头中的每个拍摄镜头检索第二元数据。电路系统202还可以被配置为将第一元数据(即，与包括图像帧702的拍摄镜头相关联)与第二视频内容的多个拍摄镜头中的每个拍摄镜头的第二元数据进行比较。如果第一元数据与第二视频内容的多个拍摄镜头中的一个拍摄镜头的第二元数据匹配，那么电路系统202可以确定第一视频内容112中的所捕获的拍摄镜头(或第一物体704、第二物体706、第三物体708或其组合)可能存在于第二视频内容(例如，较旧的电影)中或已经被捕获/使用在第二视频内容(例如，较旧的电影)中。这指示拍摄镜头(或第一物体704、第二物体706、第三物体708或其组合)在第一视频内容112和第二视频内容之间的重复性。

根据实施例，电路系统202还可以被配置为基于重复性的识别为用户生成通知信息。在一些实施例中，所生成的通知信息可以指示错误消息，该错误消息可以指示第一视频内容112的拍摄场景或拍摄镜头在第二视频内容中的再现。电路系统202还可以被配置为控制显示屏104以显示基于重复性检查而生成的通知信息。根据实施例，通知信息可以包括拍摄场景的标识符、拍摄镜头的标识信息，以及与第二视频内容相比被发现重复的物体的细节。

根据实施例，电路系统202可以被配置为对第一视频内容112的多个拍摄镜头中的每一个执行重复性检查。在一些实施例中，电路系统202可以被配置为检索与存储在服务器106中的多个视频或电影相关联的第二元数据以执行重复性检查。因此，利用重复性检查能力，视频编辑设备102可以向用户110提供关于重复镜头(或镜头中相同物体的组合)的自动警报。基于自动警报，用户110可以在最终确定第一视频内容112之前进一步采取适当的动作(即，或者重拍镜头或者编辑重复的物体)。这进一步向第一视频内容112提供了新颖性，并防止并入来自先前视频内容的相似场景或镜头。因此，可以增强第一视频内容112在观众当中的受欢迎度。

图8A和图8B共同地描绘了图示根据本公开的实施例的用于控制视频内容的拍摄镜头中的不同物体的描绘偏差的通知的示例性操作的流程图。结合来自图1、图2、图3、图4A、图4B、图5、图6和图7的元素来解释图8A和8B。参考图8A和8B，示出了流程图800。可以在视频编辑设备102上实现从802到848的操作。操作开始于802，并且进行到804。

在804处，可以存储可以包括拍摄序列的拍摄场景集合114A至114B的第一视频内容112，拍摄场景集合114A至114B中的每个拍摄场景可以包括多个拍摄镜头，并且多个拍摄镜头中的每个拍摄镜头可以包括图像帧序列。根据实施例，存储器206可以被配置为存储第一视频内容112，第一视频内容112可以包括拍摄序列的拍摄场景集合114A至114B。根据实施例，视频编辑设备102可以被配置为从存储器206中检索第一视频内容112。在一些实施例中，视频编辑设备102可以被配置为从服务器106检索第一视频内容112。

在806处，可以提取多个拍摄镜头中的第一拍摄镜头116A的第一图像帧122和多个拍摄镜头中的第二拍摄镜头116B的第二图像帧124。根据实施例，电路系统202可以被配置为提取多个拍摄镜头中的第一拍摄镜头116A的第一图像帧122和多个拍摄镜头中的第二拍摄镜头116B的第二图像帧124。第一图像帧122可以是第一拍摄镜头116A的最后一帧，并且第二图像帧可以是第二拍摄镜头116B的第一帧。

在808处，可以从提取的第一拍摄镜头116A的第一图像帧122中检测第一物体集合，并且可以从提取的第二拍摄镜头116B的第二图像帧124中检测第二物体集合。物体检测器204可以被配置为从提取的第一拍摄镜头116A的第一图像帧122中检测第一物体集合，以及从提取的第二拍摄镜头116B的第二图像帧124中检测第二物体集合。

在810处，可以基于第一物体的物体类型来从第一物体集合和第二物体集合中的每一个中识别第一物体，其中第一物体集合和第二物体集合中的第一物体的物体类型是相同的。根据实施例，物体检测器204可以被配置为基于第一物体的物体类型从第一物体集合和第二物体集合的每一个中识别第一物体。

在812处，可以从第一图像帧122检索第一角度信息和从第二图像帧124检索第二角度信息。根据实施例，电路系统202可以被配置为从第一图像帧122检索第一角度信息并且从第二图像帧124检索第二角度信息。

在814处，可以基于检索到的第一角度信息来生成第一图像帧122中的第一物体的第一三维(3D)图像。根据实施例，电路系统202可以被配置为基于检索到的第一角度信息生成第一图像帧122中的第一物体的第一3D图像。可以例如在图5中详细描述在第一图像帧122中的第一物体的第一3D图像的生成。

在816处，可以基于检索到的第二角度信息来生成第二图像帧124中的第一物体的第二3D图像。根据实施例，电路系统202可以被配置为基于检索到的第二角度信息生成第二图像帧124中的第一物体的第二3D图像。可以例如在图5中详细描述在第二图像帧124中的第一物体的第二3D图像的生成。

在818处，可以检测所生成的第一物体的第一3D图像的第一视觉属性与所生成的第一物体的第二3D图像的第二视觉属性的偏差。根据实施例，视频编辑设备102可以被配置为检测所生成的第一物体的第一3D图像的第一视觉属性与所生成的第一物体的第二3D图像的第二视觉属性的偏差。第一视觉属性和第二视觉属性可以是相同的类型。第一视觉属性和第二视觉属性的示例可以包括但不限于形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息。

在820处，可以基于检测到的偏差来生成与第一物体相关联的通知信息。电路系统202可以被配置为基于检测到的偏差来生成与第一物体相关联的通知信息。

在822处，可以控制显示屏104以输出所生成的与第一图像帧122和第二图像帧124中的第一物体相关联的通知信息。电路系统202可以被配置为控制显示屏104以输出所生成的与第一图像帧122和第二图像帧124中的第一物体相关联的通知信息。

在824处，可以检测检测到的第一物体集合中的物体是否在检测到的第二物体集合中缺失。电路系统202可以被配置为检测检测到的第一物体集合中的物体是否在检测到的第二物体集合中缺失。

在826处，可以生成和输出与在检测到的第二物体集合中缺失的物体相关联的通知信息。电路系统202可以被配置为生成和输出与在检测到的第二物体集合中缺失的物体相关联的通知信息。

在828处，可以检索指示与第一视频内容112相关的时代的第一时间线信息。电路系统202可以被配置为检索指示与第一视频内容112相关的时代的第一时间线信息。第一时间线信息可以例如在图6中详细描述。在一些实施例中，电路系统202可以被配置为经由I/O设备210从用户110接收第一时间线信息。第一时间线信息可以被包括在从用户110接收的第二用户输入中。

在830处，可以从多个物体中识别第二物体，其中第一物体和第二物体的物体类型是相同的。电路系统202可以被配置为从存储在服务器106中的多个物体中识别第二物体。可以例如在图6中详细描述从存储在服务器106中的多个物体中识别第二物体。

在832处，可以检索识别出的第二物体的第二时间线信息。电路系统202可以被配置为从服务器106检索识别出的第二物体的第二时间线信息，如例如在图6中详细描述的。

在834处，可以将检索到的第一视频内容112的第一时间线信息和识别出的第二物体的第二时间线信息进行比较。电路系统202可以被配置为将检索到的第一视频内容112的第一时间线信息和检索到的识别出的第二物体的第二时间线信息进行比较，如例如在图6中详细描述的。

在836处，可以基于比较来生成和输出与第一物体相关联的通知信息。电路系统202可以被配置为基于比较来生成和输出与第一物体相关联的通知信息，如例如在图6中详细描述的。

在838处，可以检索与第一视频内容112的多个拍摄镜头中的每个拍摄镜头相关联的第一元数据。电路系统202可以被配置为检索与第一视频内容112的多个拍摄镜头中的每个拍摄镜头相关联的第一元数据。在一些实施例中，电路系统202可以被配置为基于对检测到的物体的分析将与检测到的物体相关联的细节确定为第一元数据。细节的示例可以包括但不限于物体的尺寸、物体的维度、物体的物体类型、捕获图像帧702的地理地点、物体的姿势、物体的朝向、物体的颜色、物体的纹理或物体的形状。在一些实施例中，如果检测到的物体类型是人类，那么第一元数据可以包括艺术家信息(例如名人或人的姓名)。可以例如在图7中详细描述与第一视频内容112的多个拍摄镜头中的每个拍摄镜头相关联的第一元数据。

在840处，可以检索与第二视频内容的多个拍摄镜头中的每个拍摄镜头相关联的第二元数据。电路系统202可以被配置为检索与第二视频内容的多个拍摄镜头中的每个拍摄镜头相关联的第二元数据，如例如在图7中详细描述的。第二元数据可以包括与第二视频内容的多个拍摄镜头相关的信息。与第二视频内容相关的信息可以包括但不限于关于多个拍摄镜头中的物体的信息、多个拍摄镜头的艺术家信息，或捕获多个拍摄镜头的地理地点信息。

在842处，可以将与第一视频内容112相关联的第一元数据和与第二视频内容相关联的第二元数据进行比较。电路系统202可以被配置为将与第一视频内容112相关联的第一元数据和与第二视频内容相关联的第二元数据进行比较。

在844处，可以基于比较来生成通知信息。电路系统202可以被配置为基于与第一视频内容112相关联的第一元数据和与第二视频内容相关联的第二元数据之间的比较来生成通知信息。

在846处，可以控制显示屏104以输出所生成的与第一视频内容112的第一元数据相关联的通知信息。电路系统202可以被配置为控制显示屏104以输出所生成的与第一视频内容112的第一元数据相关联的通知信息。控制传递到结束848。

本公开的示例性方面可以包括视频编辑设备(诸如图1的视频编辑设备102)，视频编辑设备包括被配置为存储第一视频内容(诸如图1的第一视频内容112)的存储器(诸如图2的存储器206)。第一视频内容112可以包括拍摄序列的拍摄场景集合(诸如图1的拍摄场景集合114A至114B)。拍摄场景集合114A至114B中的每一个可以包括多个拍摄镜头，并且多个拍摄镜头中的每一个可以包括图像帧序列(诸如图1的图像帧序列118和图像帧序列120)。视频编辑设备102还可以包括被配置为提取多个拍摄镜头中的第一拍摄镜头(诸如图1的第一拍摄镜头116A)的第一图像帧(诸如图1的第一图像帧122)的电路系统(诸如图2的电路系统202)。电路系统202还可以被配置为提取多个镜头中的第二拍摄镜头(诸如图1的第二拍摄镜头116B)的第二图像帧(诸如图1的第二图像帧124)。

根据实施例，电路系统202可以被配置为从提取的第一拍摄镜头116A的第一图像帧122中检测第一物体集合，以及从提取的第二拍摄镜头116B的第二图像帧124中检测第二物体集合。电路系统202还可以被配置为基于第一物体的物体类型从第一物体集合和第二物体集合中的每一个中识别第一物体。第一物体集合和第二物体集合中的第一物体的物体类型是相同的。电路系统202还可以被配置为基于第一图像帧122中的第一物体的至少第一视觉属性与第二图像帧124中的第一物体的至少第二视觉属性的偏差来生成与第一物体相关联的通知信息。第一视觉属性和第二视觉属性可以是相同的类型。电路系统202还可以被配置为控制显示屏(诸如图1的显示屏104)以输出所生成的与第一图像帧122和第二图像帧124中的第一物体相关联的通知信息。

根据实施例，第一拍摄镜头116A和第二拍摄镜头116B可以是第一视频内容112的拍摄场景集合中的第一拍摄场景(诸如图1的第一拍摄场景114A)的连续镜头。第一图像帧122可以是第一拍摄镜头116A的图像帧序列中的最后一帧，并且第二图像帧124可以是第二拍摄镜头116B的图像帧序列中的第一帧。根据实施例，第一拍摄镜头116A和第二拍摄镜头116B对应于第一视频内容112的拍摄场景集合中的第一拍摄场景114A。

根据实施例，第一拍摄镜头116A和第二拍摄镜头116B可以对应于第一视频内容112的拍摄场景集合中的不同拍摄场景，其中不同拍摄场景可以对应于相同的上下文。

根据实施例，至少第一视觉属性和至少第二视觉属性可以包括第一物体的形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息中的至少一项。

根据实施例，第一拍摄镜头116A可以包括第一角度信息，并且第二拍摄镜头116B可以包括第二角度信息。电路系统202还可以被配置为基于第一角度信息生成提取的第一拍摄镜头116A的第一图像帧122中的第一物体的第一三维(3D)图像。电路系统202还可以被配置为基于第二角度信息生成提取的第二拍摄镜头116B的第二图像帧124中的第一物体的第二3D图像。电路系统202还可以被配置为基于所确定的第一3D图像和所确定的第二3D图像中的差异来生成通知信息。

根据实施例，第一视频内容112可以包括第一时间线信息，该第一时间线信息指示与第一视频内容112相关的时代。电路系统202还可以被配置为基于第一物体的物体类型和主数据库中的多个物体的物体类型，将提取的第一图像帧122中的第一物体与服务器(诸如服务器106)上的主数据库中的多个物体进行比较。电路系统202还可以被配置为基于比较来检索与主数据库中的多个物体中的物体相关联的第二时间线信息。第二时间线信息可以指示该物体的发明、发现、使用、市场发布或演进的时间信息。电路系统202还可以被配置为将第一时间线信息与检索到的第二时间线信息进行比较，并且基于第一时间线信息与检索到的第二时间线信息的比较来生成与第一物体相关联的通知信息。

根据实施例，通知信息可以包括第一错误消息，该第一错误消息可以指示提取的第二图像帧124中的第一物体的描绘中的制作错误。

根据实施例，电路系统202还可以被配置为确定第一物体在第一图像帧122中的第一位置和第一物体在第二图像帧124中的第二位置。电路系统202还可以被配置为基于第一位置与第二位置的位置偏差来生成通知信息，其中该位置偏差基于可以包括第一物体的第一拍摄场景114A的上下文。

根据实施例，电路系统202还可以被配置为确定检测到的第一物体集合中的第一物体在提取的第二图像帧124的检测到的第二物体集合中是否不存在。电路系统202还可以被配置为基于确定第一物体在提取的第二图像帧124的检测到的第二物体集合中不存在来生成通知信息作为第二错误消息。

根据实施例，通知信息可以包括与第一物体相关的物体类型、第一拍摄镜头的标识信息，或可以包括第一物体的第一拍摄场景114A的标识符中的至少一项。根据实施例，电路系统202还可以被配置为将通知信息作为元数据添加到第一视频内容112中。

根据实施例，电路系统202还可以被配置为确定与检测到的第一物体集合和第二物体集合相关联的第一元数据。第一元数据可以包括可以指示捕获多个拍摄镜头中的每个拍摄镜头的地理地点的信息、艺术家信息，或关于检测到的第一物体集合和检测到的第二物体集合的信息。根据实施例，电路系统202还可以被配置为从服务器106检索与和第二视频内容相关的多个拍摄镜头相关联的第二元数据。电路系统202还可以被配置为将第一视频内容112的第一元数据与第二视频内容的第二元数据进行比较。电路系统202还可以被配置为基于比较来生成通知信息。通知信息可以包括第三错误消息，该第三错误消息可以指示第一视频内容112的拍摄场景或拍摄镜头在第二视频内容中的再现。

本公开的各种实施例可以提供非暂态计算机可读介质和/或存储介质，和/或非暂态机器可读介质和/或存储介质，其上存储有机器代码和/或计算机程序，机器代码和/或计算机程序具有可由机器和/或计算机执行的用于视频内容中的连续性检查的至少一个代码部分。该至少一个代码部分可以使机器和/或计算机进行包括以下的步骤：存储包括拍摄序列的拍摄场景集合的第一视频内容；其中拍摄场景集合中的每个拍摄场景包括多个拍摄镜头，并且其中多个拍摄镜头中的每个拍摄镜头包括图像帧序列。此外，可以提取多个拍摄镜头中的第一拍摄镜头的第一图像帧和多个拍摄镜头中的第二拍摄镜头的第二图像帧。可以从提取的第一图像帧检测第一物体集合和从提取的第二图像帧检测第二物体集合。可以基于第一物体的物体类型来从第一物体集合和第二物体集合中的每一个中识别第一物体。第一物体集合和第二物体集合中的第一物体的物体类型可以是相同的。可以基于第一图像帧中的第一物体的至少第一视觉属性与第二图像帧中的第一物体的至少第二视觉属性之间的偏差进一步生成与第一物体相关联的通知信息，其中第一视觉属性和第二视觉属性具有相同的类型。还可以控制显示屏以输出所生成的与第一图像帧和第二图像帧中的第一物体相关联的通知信息。

本公开可以以硬件或硬件和软件的组合来实现。本公开可以以集中的方式、以至少一个计算机系统或以分布式方式来实现，其中不同的元素可以分散在若干互连的计算机系统上。适于执行本文描述的方法的计算机系统或其它装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和执行时可以控制计算机系统，使得其执行本文所描述的方法。本公开可以以包括也执行其它功能的集成电路的一部分的硬件来实现。

本公开也可以被嵌入在计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当其被加载到计算机系统中时能够执行这些方法。在本上下文中，计算机程序意为以任何语言、代码或符号形式的指令集的任何表达，其旨在使具有信息处理能力的系统或者直接地或者在以下中的任何一项或两者之后执行特定的功能：a)转换成另一语言、代码或符号；b)以不同材料形式复制。

虽然参考特定实施例描述了本公开，但是本领域技术人员将理解的是，在不脱离本公开的范围的情况下，可以做出各种改变并且可以替换等价物。此外，在不脱离本公开的范围的情况下，可以做出许多修改以使特定情况或材料适于本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种视频编辑设备，包括：

存储器，被配置为存储第一视频内容，所述第一视频内容包括拍摄序列的拍摄场景集合和第一时间线信息，所述第一时间线信息指示与所述第一视频内容相关的时代，

其中所述拍摄场景集合中的每个拍摄场景包括多个拍摄镜头，并且其中所述多个拍摄镜头中的每个拍摄镜头包括图像帧序列；以及

电路系统，被配置为：

提取所述多个拍摄镜头中的第一拍摄镜头的第一图像帧和所述多个拍摄镜头中的第二拍摄镜头的第二图像帧；

从所提取的第一图像帧中检测第一物体集合，并从所提取的第二图像帧中检测第二物体集合；

基于第一物体的物体类型从所述第一物体集合和所述第二物体集合的每一个中识别所述第一物体，其中所述第一物体集合和所述第二物体集合中的所述第一物体的物体类型是相同的；

基于所述第一图像帧中的所述第一物体的至少第一视觉属性与所述第二图像帧中的所述第一物体的至少第二视觉属性的偏差，生成与所述第一物体相关联的通知信息，其中所述第一视觉属性和所述第二视觉属性是相同的类型；以及

控制显示屏以输出所生成的与所述第一图像帧和所述第二图像帧中的所述第一物体相关联的通知信息，

其中所述电路系统还被配置为：

基于所述第一物体的物体类型和服务器上的主数据库中的多个物体的物体类型，将所提取的第一图像帧中的所述第一物体与所述主数据库中的所述多个物体进行比较；

基于所述比较，检索与所述主数据库中的所述多个物体中的物体相关联的第二时间线信息，其中所述第二时间线信息指示所述物体的发明、发现、使用、市场发布或演进的时间信息；

将所述第一时间线信息与所检索到的第二时间线信息进行比较；以及

基于所述第一时间线信息与所检索到的第二时间线信息的所述比较，生成与所述第一物体相关联的所述通知信息。

2.根据权利要求1所述的视频编辑设备，

其中所述第一拍摄镜头和所述第二拍摄镜头是所述第一视频内容的所述拍摄场景集合的第一拍摄场景的连续镜头；

其中所述第一图像帧是所述第一拍摄镜头的所述图像帧序列中的最后一帧，并且所述第二图像帧是所述第二拍摄镜头的所述图像帧序列中的第一帧。

3.根据权利要求1所述的视频编辑设备，其中所述第一拍摄镜头和所述第二拍摄镜头与所述第一视频内容的所述拍摄场景集合的第一拍摄场景对应。

4.根据权利要求1所述的视频编辑设备，其中所述第一拍摄镜头和所述第二拍摄镜头与所述第一视频内容的所述拍摄场景集合的不同拍摄场景对应，其中所述不同拍摄场景能够与相同的上下文对应。

5.根据权利要求1所述的视频编辑设备，其中所述至少第一视觉属性和所述至少第二视觉属性包括所述第一物体的形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息中的至少一项。

6.根据权利要求1所述的视频编辑设备，其中所述第一拍摄镜头包括第一角度信息，并且所述第二拍摄镜头包括第二角度信息，以及

其中所述第一角度信息指示捕获所述第一拍摄镜头的第一角度，并且所述第二角度信息指示捕获所述第二拍摄镜头的第二角度。

7.根据权利要求6所述的视频编辑设备，其中所述电路系统还被配置为：

基于所述第一角度信息，生成所提取的所述第一拍摄镜头的第一图像帧中的所述第一物体的第一三维(3D)图像；

基于所述第二角度信息，生成所提取的所述第二拍摄镜头的第二图像帧中的所述第一物体的第二3D图像；以及

基于所确定的第一3D图像和所确定的第二3D图像中的差异来生成所述通知信息。

8.根据权利要求1所述的视频编辑设备，其中所述通知信息包括第一错误消息，所述第一错误消息指示所提取的第二图像帧中的所述第一物体的描绘中的制作错误。

9.根据权利要求1所述的视频编辑设备，其中所述电路系统还被配置为：

确定所述第一物体在所述第一图像帧中的第一位置和所述第一物体在所述第二图像帧中的第二位置；以及

基于所述第一位置与所述第二位置的位置偏差来生成所述通知信息，其中所述位置偏差基于包括所述第一物体的第一拍摄场景的上下文。

10.根据权利要求1所述的视频编辑设备，其中所述电路系统还被配置为：

确定所检测到的第一物体集合中的所述第一物体在所提取的第二图像帧的检测到的第二物体集合中是否不存在，

基于确定所述第一物体在所提取的第二图像帧的检测到的第二物体集合中不存在，生成所述通知信息作为第二错误消息。

11.根据权利要求1所述的视频编辑设备，其中所述通知信息包括与所述第一物体相关的所述物体类型、所述第一拍摄镜头的标识信息或包括所述第一物体的第一拍摄场景的标识符中的至少一项，并且其中所述电路系统还被配置为将所述通知信息作为元数据添加到所述第一视频内容中。

12.根据权利要求1所述的视频编辑设备，其中所述电路系统还被配置为：

确定与所检测到的第一物体集合和第二物体集合相关联的第一元数据，

其中所述第一元数据包括指示捕获所述多个拍摄镜头中的每个拍摄镜头的地理地点的信息、艺术家信息或关于所检测到的第一物体集合和所检测到的第二物体集合的信息。

13.根据权利要求12所述的视频编辑设备，其中所述电路系统还被配置为：

从服务器检索与和第二视频内容相关的多个拍摄镜头相关联的第二元数据；

将所述第一视频内容的所述第一元数据与所述第二视频内容的所述第二元数据进行比较；以及

基于所述比较生成所述通知信息，其中所述通知信息包括第三错误消息，所述第三错误消息指示所述第一视频内容的拍摄场景或拍摄镜头在所述第二视频内容中的再现。

14.一种视频编辑方法，包括：

在视频编辑设备中：

存储第一视频内容，所述第一视频内容包括拍摄序列的拍摄场景集合和第一时间线信息，所述第一时间线信息指示与所述第一视频内容相关的时代；其中所述拍摄场景集合中的每个拍摄场景包括多个拍摄镜头，并且其中所述多个拍摄镜头中的每个拍摄镜头包括图像帧序列；

基于第一物体的物体类型从所述第一物体集合和所述第二物体集合的每一个中识别第一物体，其中所述第一物体集合和所述第二物体集合中的所述第一物体的物体类型是相同的；

其中所述方法进一步包括：

15.根据权利要求14所述的方法，

其中所述第一拍摄镜头和所述第二拍摄镜头是所述第一视频内容的拍摄场景集合中的第一拍摄场景的连续镜头；以及

16.根据权利要求14所述的方法，其中所述第一拍摄镜头和所述第二拍摄镜头与所述第一视频内容的所述拍摄场景集合中的第一拍摄场景对应。

17.根据权利要求14所述的方法，其中所述第一拍摄镜头和所述第二拍摄镜头与所述第一视频内容的所述拍摄场景集合中的不同拍摄场景对应，其中所述不同拍摄场景能够与相同的上下文对应。

18.根据权利要求14所述的方法，其中所述至少第一视觉属性和所述至少第二视觉属性包括所述第一物体的形状、尺寸、维度、颜色、亮度值、对比度值、纹理、朝向、倾斜的角度、姿势或文本信息中的至少一项。

19.一种其上存储有计算机程序的非暂态计算机可读介质，所述计算机程序在由处理器执行时使所述处理器执行根据权利要求14至18中的任意一项所述的方法。