CN115633211A

CN115633211A - 所关注对象或区视频处理系统及方法

Info

Publication number: CN115633211A
Application number: CN202210804974.XA
Authority: CN
Inventors: 杨志杰; 陈学敏
Original assignee: Avago Technologies General IP Singapore Pte Ltd
Current assignee: Avago Technologies International Sales Pte Ltd
Priority date: 2021-07-12
Filing date: 2022-07-08
Publication date: 2023-01-20
Also published as: US20230010078A1; EP4120687A1

Abstract

本申请案涉及所关注对象或区视频处理系统及方法。所述系统及方法可包含处理器。所述处理器可经配置以执行对象检测以检测视频场景中的潜在所关注对象的视觉指示，接收从所述潜在所关注对象对所关注对象的选择，及在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

Description

所关注对象或区视频处理系统及方法

技术领域

本申请案涉及所关注对象或区视频处理系统及方法。

背景技术

本公开涉及视频处理，包含但不限于使用机器学习的视频处理。在包含但不限于机顶盒、调谐器及/或视频处理器的数字视频系统中，用户可对经检测及被跟踪视频对象执行通常模仿由数字录像机(DVR)提供的慢动作、快进及倒带操作期间给出的视觉反馈的功能，例如慢动作、快进、暂停及倒带。进一步操作及信息可增强用户的视频体验。

发明内容

一方面，本申请案涉及一种方法，其包括：提供第一视频流以供显示；接收所关注对象的用户选择；及提供指向与所述第一视频流相同的视频内容的第二视频流，其中所述第二视频流包括由所述用户选择指示的所述所关注对象的增强视频内容。

另一方面，本申请案涉及一种视频处理系统，其包括：处理器，其经配置以执行对象检测以检测视频场景中的潜在所关注对象的视觉指示，所述处理器经配置以接收从所述潜在所关注对象对所关注对象的选择，且所述处理器经配置以在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

另一方面，本申请案涉及一种用于提供视频以供用户观看的娱乐系统，所述娱乐系统包括：接口，其经配置以接收选择；及一或多个处理器、一或多个电路或其任何组合，其经配置以：提供视频场景中的潜在所关注对象的视觉指示；接收从所述潜在所关注对象对所关注对象的选择；及在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

附图说明

本公开的各种视频对象、方面、特征及优点将通过参考结合附图进行的详细描述而变得更加显而易见且更好理解，其中类似参考字符自始至终标识对应元件。在附图中，类似参考数字通常指示相同的、功能类似及/或结构类似的元件。

图1是描绘根据一些实施例的能够提供增强视频内容的实例性系统的一般框图。

图2是描绘根据一些实施例的具有潜在所关注对象的指示的视频场景的图式。

图3是描绘根据一些实施例的具有所关注对象的增强视频内容的图2的视频场景的图式。

图4是描绘根据一些实施例的具有使用画中画模式的所关注对象的增强视频内容的图2的视频场景的图式。

图5是描绘根据一些实施例的被图1中所说明的系统用以提供实例性增强视频的操作的流程图。

图6是根据一些实施例的用于图1中所说明的系统的实例性视频处理系统的框图。

图7是根据一些实施例的用于图1中所说明的系统的实例性视频处理系统的框图。

图8是根据一些实施例的用于图1中所说明的系统的实例性视频处理系统的框图。

图9是描绘根据一些实施例的实例性电子节目指南显示的图式。

图10A-B描绘根据一些实施例的包含被图1中所说明的系统用以提供实例性增强视频的跟踪操作的流程图。

图11是描绘根据一些实施例的经配置用于检测及跟踪操作的实例性机顶盒系统的框图。

图12是描绘根据一些实施例的经配置用于画中画操作的实例性机顶盒系统的框图。

图13是描绘根据一些实施例的经配置用于所关注对象选择的实例性机顶盒系统的框图。

图14是描绘根据一些实施例的经配置用于共享元数据及跟踪信息的实例性机顶盒系统的框图。

图15是描绘根据一些实施例的经配置用于提供增强视频内容的实例性机顶盒系统及电视的框图。

图16是描绘根据一些实施例的实例性样本索引格式的框图。

图17是描绘根据一些实施例的使用图16中所说明的索引格式以促进OOI/ROI模式下的特技播放的实例性视频处理系统的框图。

在附图及以下描述中阐述方法及系统的各个实施例的细节。

具体实施方式

以下是对与用于视频操作的方法、设备及系统相关的各种概念及所述方法、设备及系统的实施方案的更详细描述。在转向详细地说明实例性实施方案的更详细描述及图之前，应理解，本申请案不限于所述描述中所阐述或图中所说明的细节或方法。还应理解，所述术语仅用于描述的目的且不应被视为是限制性的。

本公开大体上涉及提供所关注对象(OOI)或所关注区(ROI)视频特征的系统及方法，其可增强用户视频体验。如本文中所使用，术语所关注对象意在指代对象、人、动物、区或任何所关注视频特征。在一些实施例中，视频处理系统允许用户根据他或她的兴趣自动地放大视频场景的视觉对象或区。例如，针对运动视频，用户可更详细地或以更多信息观看所关注运动员；针对电影或TV节目，用户可突显他或她最喜欢的演员；针对旅游频道，用户可放大特定场景区；针对购物频道，用户可放大特殊商品等；针对培训视频，用户可放大设备的部件或零件。

在一些实施例中，视频处理系统有利地克服与实况视频中的所关注对象或区快速地在帧间移动相关联的问题。如果在低成本家用媒体播放器或机顶盒(STB)单元上播放实况视频，那么这些问题可能尤其困难。此外，在一些实施例中，视频处理系统有利地克服与通过低成本家用媒体播放器或机顶盒单元的遥控器(具有或不具有语音控制能力)选择所关注对象或区相关联的问题。在一些实施例中，视频处理系统准确地跟踪潜在所关注对象或区且提供指示，因此可更容易地选择所述潜在所关注对象或区。

在一些实施例中，视频系统及方法具有提供处理流程以解决所关注对象及区选择、检测及跟踪的所关注对象或区视频播放架构。在一些实施例中，在芯片上系统(SoC)或多芯片模块上系统中提供深度学习对象检测及跟踪技术。在一些实施例中，使用对象检测或元数据来识别潜在所关注对象或区并将其显示在屏幕上。可经由例如播放器或机顶盒单元上的遥控器或麦克风(即，语音接口)的适当用户接口控制所关注对象或区的选择。在一些实施例中，使用对象跟踪以在视频播放期间自动地调整及指示后续帧中的所关注对象或区。

一些实施例涉及用于处理视频的包含处理器的系统、方法及设备。所述处理器经配置以执行对象检测以检测视频场景中的潜在所关注对象的视觉指示，接收从所述潜在所关注对象对所关注对象的选择，及在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

一些实施例涉及一种用于提供视频以供用户观看的娱乐系统。所述娱乐系统包含经配置以接收选择的接口及一或多个处理器、一或多个电路或其任何组合。所述一或多个处理器、一或多个电路或其任何组合经配置以：提供视频场景中的潜在所关注对象的视觉指示；接收从所述潜在所关注对象对所关注对象的选择；及在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

一些实施例涉及一种方法。所述方法包含提供第一视频流以供显示及接收所关注对象的用户选择。所述方法还包含提供指向与所述第一视频流相同的视频内容的第二视频流，其中所述第二视频流包括由所述用户选择指示的所述所关注对象的增强视频内容。

图1是描绘娱乐系统10的实例的框图。娱乐系统10是用于提供视频的任何系统(包含但不限于教育系统、培训系统、设计系统、模拟器、游戏系统、家庭影院、电视、扩增现实系统、远程拍卖系统、虚拟现实系统、实况视频会议系统等)。在一些实施例中，娱乐系统10包含用户接口12、视频处理系统14及监视器16。在一些实施例中，娱乐系统10提供用于视频回放的所关注对象处理。在一些实施例中，娱乐系统10使用视频处理系统14以处理用户输入以提供用户选择的所关注对象的增强视频内容。包含增强视频内容的视频经提供在监视器16上以供用户观看。

视频处理系统14从源接收与视频流相关联的视频帧32。所述源是任何视频源，包含但不限于媒体播放器、有线电视提供商、因特网订阅服务、前端、摄像机、存储媒体服务器、卫星提供商、机顶盒、录像机、计算机或其它视频材料源。视频处理系统14包含选择器20、跟踪器22及视频增强器24。

选择器20识别或检测输入处接收的视频帧32中的潜在所关注对象且从用户接口12 接收用户选择。选择器20使用输入处的元数据36、输入处的声音信息34及/或视频帧 32的视频处理来识别潜在所关注对象或区。在一些实施例中，可使用各种视频及数据处理技术以检测所关注对象及潜在所关注对象。在一些实施例中，选择器20及跟踪器22 使用深度学习对象检测芯片上系统(SoC)。在一些实施例中，使用视频对象检测或元数据来识别潜在所关注对象或区。

跟踪器22跟踪视频帧32中的选定所关注对象及潜在所关注对象且将数据提供到视频增强器24，因此视频增强器24可提供选定所关注对象的增强视频。增强视频作为流中的视频帧提供到监视器16。在一些实施例中，跟踪器22使用帧历史及移动向量以跟踪所关注对象及潜在所关注对象。在一些实施例中，跟踪器2使用元数据36、声音信息 34(例如，声音提示)及/或视频帧32的视频处理以跟踪所关注对象及潜在所关注对象。跟踪器22在视频播放期间自动地跟踪后续帧中的选定所关注对象或区。

视频增强器24使用来自跟踪器22的被跟踪的潜在及选定所关注对象或区且在后续帧中提供增强视频或指示。在一些实施例中，视频增强器24自动地提供由用户选择的场景的所关注对象或局部区的经缩放图像。可通过用户接口12控制缩放级别。在一些实施例中，视频增强器24自动地提供经突显图像、经重新着色图像、高对比度图像、更高清图像或三维图像作为由用户选择的场景的所关注对象或局部区的视频增强。在一些实施例中，增强视频包含以视频格式提供关于所关注对象的额外信息的文本信息、图形、图标或符号。在一些实施例中，视频增强器24还提供潜在所关注对象的指示因此用户可选择那些所关注对象。在提供到监视器16的视频信号中提供指示及增强视频。视频信号可为视频帧的流或序列。

用户接口12可为智能电话、遥控器、麦克风、触摸屏、平板计算机、鼠标或用于接收用户输入(例如可包含所关注区及视频增强类型的所关注对象的选择)的任何装置。在一些实施例中，用户接口12接收来自用户接口12的命令以在机顶盒单元或录像机上起始所关注对象或区所关注选择过程。用户接口12可包含远场语音接口或即按即说接口、游戏控制器、按钮、触摸屏或其它选择器。在一些实施例中，用户接口12是机顶盒单元、计算机、电视、智能电话、火棒(fire stick)、家用控制单元、游戏系统、扩增现实系统、虚拟现实系统、计算机或其它视频系统的部分。

监视器16可为用于来自视频处理系统14的视频信号的任何类型的屏幕或观看媒体。监视器16是液晶显示器(LCD)、等离子体显示器、电视、计算机监视器、智能电视、眼镜显示器、头戴式显示器、投影仪、平视显示器或用于向用户呈现图像的任何其它装置。在一些实施例中，监视器16是模拟器、家庭影院、机顶盒单元、计算机、智能电话、智能电视、火棒、家用控制单元、游戏系统、扩增现实系统、虚拟现实系统或其它视频系统的部分或经连接到其。

由视频处理系统14处理的视频流可呈从媒体服务器或客户端装置提供的视频帧的形式。媒体服务器的实例包含可执行数字录像机功能的机顶盒(STB)、家用或企业网关、服务器、计算机、工作站等。客户端装置的实例包含电视、计算机监视器、移动计算机、投影仪、平板计算机或手持型用户装置(例如，智能电话)等。在一些实施例中，媒体服务器或客户端装置经配置以将音频、视频、节目信息及其它数据输出到视频处理系统14。娱乐系统10具有通过有线连接或无线连接(例如，无线网络)互连的组件。例如，连接可包含同轴电缆、BNC电缆、光纤电缆、复合电缆、s-video、DVI、HDMI、组件、VGA、 DisplayPort或其它音频及视频传送技术。无线网络连接可为无线局域网(WLAN)且可使用各种Wi-Fi标准中的任一者下的Wi-Fi。在一些实施例中，视频处理系统14被实施为单个芯片或芯片上系统(SOC)。在一些实施例中，实时提供所关注对象的检测以及指示符及增强视频的提供。

在一些实施方案中，视频处理系统14包含一或多个解码单元、显示引擎、代码转换器、处理器及存储单元(例如，帧缓冲器、存储器等)。视频处理系统14包含一或多个微处理器、数字信号处理器CPU、专用集成电路(ASIC)、可编程逻辑装置、服务器及/或一或多个其它集成电路。视频处理系统14可包含可执行存储在存储器中的指令以执行本文中所描述的功能的一或多个处理器。存储单元包含但不限于磁盘驱动器、服务器、动态随机存取存储器(DRAM)、快闪存储器、存储器寄存器或其它类型的易失性或非易失性快速存储器。视频处理系统14可包含图1中未展示的其它组件。例如，视频处理系统14可包含额外缓冲器(例如，用于在由解码器解码经压缩视频帧之前存储经压缩视频帧的输入缓冲器)、网络接口、控制器、存储器、输入及输出装置、条件存取组件及用于音频/视频/数据处理的其它组件。

视频处理系统14可以数种格式(例如，不同分辨率(例如，1080p、4K或8K)、帧速率(例如，60fps对30fps)、位精度(例如，10个位对8个位)或其它视频特性)提供视频流。例如，在一些实施例中，与视频处理系统14相关联的经接收视频流或经提供视频流包含4K超高清(UHD)(例如，3,840×2,160个像素或2160p)或甚至8K UHD(7680×4320) 视频流。

参考图2，视频处理系统14在监视器16上提供视频场景100。尽管视频场景100 被展示为田径运动会，但视频场景100可为任何类型的视频场景，包含任何体育赛事、电影、电视节目、拍卖、模拟、训练视频、教育视频等。在一些实施例中，视频处理系统14在每一运动员周围提供框102、104、106、108、110及112作为潜在所关注对象的指示。

在一些实施例中，框102、104、106、108、110及112是边界框且包含用于实现用户选择的标签或数字。图2展示视频场景100的视频帧101。框102、104、106、108、 110及112也可经提供在观众、教练及裁判或其它官员周围。尽管指示符被展示为框102、 104、106、108、110及112，但可使用其它指示符或符号(例如，箭头、标签、图标、突显等)。

文本信息也可与框102、104、106、108、110及112一起提供，包含运动员的标识、时间、赛道编号、姓名、当前位置、运动员的比赛统计数据、速度等(例如，文本信息 122)。在一些实施例中，文本信息可包含有关家庭购物应用中的产品的价格、当前报价或其它信息。在一些实施例中，文本信息可与运动员的经缩放图像一起提供或经提供在与动作无关联的屏幕的一部分(例如，左下角)中。文本信息可包含用于识别框102、104、 106、108、110及112且选择框102、104、106、108、110及112中的一或多者的数字形式#1到#n。

用户可针对增强视频经由用户接口12选择潜在所关注对象中的一或多者。在图2的实例中，选择框108中的运动员且由视频增强器24将其以缩放图像提供为增强图像。经缩放图像可在其被跟踪位置出现在视频场景100中或可经提供在视频场景100的另一部分上。视频混合技术可用以在视频场景100内提供增强视频图像以降低鲜明对比。

用户可调整所关注对象的大小及位置，例如通过用户接口12放大、缩小、左/右/上/下移、放大或缩小所关注对象的图像。可使用一个对象或作为群组的多个对象来选择所关注区。

参考图3，视频处理系统14在监视器16上提供视频场景100中的帧200。帧200 是来自视频场景100的帧101的未来帧且包含框108(图2)中的运动员109作为与场景 100中的其它运动员相比更大的经缩放图像。文本信息可与框102、106、104、108、110 及112一起提供，包含当前位置及速度(例如，框106的文本信息214(图2))。在一些实施例中，在帧200中裁剪场景100以提供经缩放图像的比例性。

参考图4，视频处理系统14在监视器16上提供视频场景100中的帧300。帧300 是来自视频场景100的帧101的未来帧且包含运动员308a作为画中画区域304中的运动员308a的经缩放图像308b。在一些实施例中，画中画区域304可经放置在场景100 上的任何区域处且大小及缩放特征可由用户调整。文本信息可在场景100中提供在区 304中或在区306中提供在区304外。文本信息可包含例如比赛时间等的统计数据。可在场景100中的除运动员之外的其它所关注对象周围提供框。尽管在帧101、200及300 中展示仅一个经缩放图像，但在一些实施例中可针对增强视频特征选择多个所关注对象。

参考图5，视频处理系统14(图1)执行流程400以提供增强视频。流程400包含起始所关注对象选择操作402，接着是在操作404中由选择器20(图1)及跟踪器22执行对象检测及跟踪过程。在操作402中，用户对所关注对象或所关注区选择视频增强模式。在操作404中，对象检测及跟踪过程可使用深度学习及卷积神经网络、元数据旗标、话音处理、多模态信号处理、特征提取器等以检测及跟踪所关注对象或所关注区。

在操作404处，提供帧以供与由操作404检测及跟踪的每一潜在所关注对象的叠加边界框的帧一起显示。在操作408处，接收对象的选择且由视频增强器24针对选定对象提供视频增强。在一些实施例中，视频增强包含对象大小及位置调整。在操作410处，启动具有选定对象的增强视频的轨迹。在操作412处，在包含选定所关注对象的经缩放特征的帧或包含选定对象的画中画窗口(例如，图3中的区304)中提供选定所关注对象。在一些实施例中，轨迹的后续帧包含选定所关注对象的视频增强，直到用户退出所关注对象或区模式或直到所关注对象离开视频场景。在一些实施例中，如果所关注对象重新进入所述场景，那么在操作410中启动具有增强视频特征的所关注对象的新轨迹。

参考图6，视频处理系统14包含接收经压缩数据流72的视频解码器62、接收经压缩音频位流74的音频解码器64、接收经解压缩帧80的后处理引擎66、接收声音及方向数据84及经缩放帧78及对象筛选参数86的神经网络引擎68以及接收边界框88及帧82的图形引擎70。选择器20、跟踪器22及视频增强器24协作以执行参考图6所描述的视频处理操作。可在视频播放器或机顶盒单元处执行参考图6所描述的操作。

经压缩数据流72由在跟踪过程起始时提取的场景的视频帧组成。由视频解码器62解码经压缩数据流72中的每一视频帧以提供经解压缩帧80。使用后处理引擎66调整经解压缩帧80的每一经解码视频帧的大小及像素格式以匹配对象检测器或选择器20的输入大小及像素格式。根据一些实施例，后处理引擎66执行包含但不限于缩放、裁剪、颜色空间转换、位深度转换等的操作。

神经网络引擎68对经缩放帧78中的每一经缩放帧运行对象检测且输出具有边界框88的经检测对象列表。所述对象列表可通过预定义对象大小、对象类型等以及从音频解码器64根据经压缩音频位流74产生的声音标识及方向进行筛选。所述处理是与正常视频处理及显示并行的后台处理，或是在视频显示暂停时执行的处理。经筛选边界框88经叠加在经解码帧82的顶部上以在增强器24中提供具有经检测边界框90的帧。与具有经检测边界框90的帧相关联的视频经显示在监视器16(图1)上以供用户经由用户接口 12选择跟踪哪一对象或区。

在一些实施例中，经压缩数据流72(例如，视频位流)是高动态范围(HDR)视频位流，且视频解码器62从经压缩数据流72解析提供到图形引擎70的HDR参数。根据HDR 参数调整包含边界框88的叠加图形。

参考图7，视频处理系统14包含接收经压缩数据流714的视频解码器702、接收经解压缩帧716的后处理引擎704、接收基于用户配置文件712及经缩放帧718的对象筛选参数的神经网络引擎706以及接收跟踪信息720的本地存储装置708。选择器20、跟踪器22及视频增强器24(图1)协作以执行如参考图7所描述的视频处理操作。在一些实施例中，跟踪信息是预先产生的且在记录过程期间被计算或保存为本地装置(例如，本地存储装置708)上的元数据文件。在一些实施例中，跟踪信息作为元数据流从云源下载或流式传输(与视频一起)。

参考图8，视频处理系统14包含接收经压缩数据流810的视频解码器802、接收经解压缩帧812及帧缩放参数814的后处理引擎804、接收边界框822及帧820的图形引擎806以及接收跟踪元数据826及经缩放帧816的处理器808。选择器20、跟踪器22 及视频增强器24(图1)协作以执行参考图8所描述的视频处理操作。用户可基于元数据文件来选择跟随哪一轨迹。元数据文件中的跟踪信息(例如，跟踪元数据826)包含可根据先前用户选择历史显式或隐式地从用户配置文件导出的所有所关注轨迹的信息，例如一些特定对象类型。跟踪信息元数据文件具有针对每一所关注轨迹的以下字段，包含但不限于帧编号、时间戳记、轨迹标识、对象标识及边界框坐标。参考图9，可将跟踪信息混合到电子节目指南(EPG)显示900中以展示这个节目是否具有跟踪信息且如果是，那么哪些类型的跟踪信息是可用的。

参考图10A-B，视频处理系统14(图1)针对每一帧1002执行流程1000以提供用于轨迹的增强视频。在一些实施例中，流程1000执行包含以下三个分量的跟踪过程：运动建模、外观建模及对象检测。在一些实施例中，运动模型用以预测对象运动轨迹。

在操作1004处，视频处理系统14执行镜头转换检测以检测场景变化或交叉淡入淡出。如果帧包含场景变化或交叉淡入淡出或是其的部分，那么在操作1007处终止轨迹。在操作1006中，如果帧1002不包含场景变化或交叉淡入淡出或不是其的部分，那么视频处理系统14前进到操作1008。在一些实施例中，在操作1008处，使用运动模型预测所关注对象在下一帧中的位置、下一所关注区或与所关注对象相关联的区。

在操作1010处，视频处理系统14确定是否调度帧1002以利用对象检测进行更新。如果调度所述帧以利用对象检测进行更新，那么流程1000前进到操作1024。在操作1024处，使用所预测所关注对象或所关注区且使检测未命中计数器递增一。如果未调度所述帧以利用对象检测进行更新，那么流程1000前进到操作1012且视频处理系统14检测接近所预测所关注对象或区的对象。由于选择器20(图1)(例如，机顶盒单元的检测器) 的处理量限制，如果未调度当前帧以通过对象检测进行更新，那么在操作1012中直接输出所预测所关注对象或所关注区作为当前帧的所关注对象或所关注区。否则，在当前帧上运行对象检测以找到接近所预测所关注区的对象。

在操作1014处，视频处理系统14确定对象检测处理是否已按时传回对象列表。如果对象检测处理已按时传回对象列表，那么流程1000前进到操作1016。如果对象检测处理未按时传回对象列表，那么流程1000前进到操作1024。为了加快检测，仅在当前帧的环绕所预测所关注对象或所关注区的一部分上运行对象检测。如果在操作1014中未按时找到对象，那么在操作1024中使用所预测所关注对象或所关注区且使检测未命中计数器递增一。

在操作1016处，如果重叠大于T0，那么视频处理系统14合并检测，其中T0是阈值。在一些实施例中，在操作1016中检查经检测对象列表且合并具有显著重叠的检测。

在操作1018处，视频处理系统14获得检测的嵌入。在操作1022处，视频处理系统14使用嵌入来确定检测是否与所预测所关注区最佳地匹配。如果检测与所预测所关注区最佳地匹配，那么流程1000前进到操作1028。在一些实施例中，使用操作1018的嵌入向量来计算检测与目标之间的类似度分数。选择使用边界框重叠及类似度分数与所预测所关注对象或所关注区最佳地匹配的检测作为匹配。如果找到匹配，那么使用经匹配检测以更新运动模型并输出经更新所关注对象或所关注区。

在操作1022中，如果检测与所预测所关注区未最佳地匹配，那么流程1000前进到操作1024。在操作1024处，使用所预测所关注对象或所关注区且使检测未命中计数器递增一。

在操作1024之后，视频处理系统14确定未命中计数器是否大于T1，其中T1是阈值。如果未命中计数器不大于T1，那么流程1000前进到操作1030。如果未命中计数器大于T1，那么流程1000前进到操作1007且终止轨迹。因此，如果在操作1024中检测未命中计数器大于给定阈值T1，那么终止跟踪过程。

在操作1028处，视频处理系统14利用经匹配所关注检测区来更新运动模型。在操作1030处，视频处理系统14计算所关注区中心位置1034的移动平均值。在一些实施例中，计算所关注对象或所关注区中心位置的移动平均值以使跟踪对象轨迹平滑。

参考图11，视频处理系统14包含接收经压缩数据流1112的视频解码器1102，接收经解压缩帧1114、所关注检测区1116以及所关注显示对象或所关注显示区1118的后处理引擎1104，接收边界框及嵌入1124的主机处理器1107，接收帧1128的图形引擎 1108以及接收对象筛选参数1122及经缩放帧1126的神经网络引擎1106。选择器20、跟踪器22及视频增强器24(图1)协作执行参考图11所描述的视频处理操作。在一些实施例中，在播放器或机顶盒单元处提供视频处理系统14。

主机处理器1107使用运动模型以产生所预测所关注对象或所关注区，且基于所预测所关注对象或所关注区来导出所关注检测区1116。主机处理器1107将结果(例如，所关注检测区1116)发送到后处理引擎1104。后处理引擎1104使用所关注检测区1116以针对神经网络引擎1106产生环绕所预测所关注对象或所关注区的经缩放帧(例如，经缩放帧1126)。神经网络引擎1106执行对象检测过程且将所得边界框及嵌入1124发送到主机处理器1107以进行目标匹配。主机处理器1107使用边界框及嵌入1124以找到与目标的最佳匹配。基于经匹配结果及放大比率来导出所关注显示对象或所关注显示区 1118。将所关注对象或所关注区118发送到后处理引擎1104以提取将显示的像素。在一些实施例中，在轨迹终止时，视频处理系统14可在含有目标的最后一个更新帧处暂停或优雅地恢复原始全尺寸窗口。

参考图12，视频处理系统14包含接收经压缩数据流1212的视频解码器1202，接收经解压缩帧1214、所关注检测对象或区1224以及所关注显示区1226的后处理引擎 1204，接收边界框及嵌入1218的主机处理器1206，接收主帧1220及画中画1222的图形引擎1208以及接收对象筛选参数1222及经缩放帧1126的神经网络引擎1210。选择器20、跟踪器22及视频增强器24(图1)协作以执行参考图12所描述的视频处理操作。在一些实施例中，在播放器或机顶盒单元处提供视频处理系统14。

在一些实施例中，视频处理系统14以画中画模式提供增强视频。在主机处理器1206 确定所关注对象或区1226之后，主机处理器1206将经确定所关注对象或区1226发送到后处理引擎1204以提取跟踪对象的图像块。在默认情况下，目标图像块被显示为画中画窗口(例如，在一些实施例中，使用画中画1222及主帧1220)。用户还可对换主窗口及画中画窗口(例如，将目标图像块显示为主窗口且将原始图像显示为画中画窗口)。在轨迹终止时，视频处理系统14可在含有目标或画中画窗口的最后一个更新帧处暂停或在主窗口继续播放时优雅地淡出。

参考图13，系统1300包含内含本地存储装置1308的机顶盒装置1304且经配置以收集及跟踪用户数据并共享跟踪信息。在一些实施例中，在用户1302起始跟踪过程时，机顶盒装置1304收集跟踪对象的带时间戳记的快照图像。经收集数据连同用户1302的标识一起存储在本地存储装置1308(例如，闪存驱动器)或云1306或其它网络中的存储服务器中。在发送到云1306时，可例如使用同态加密算法来加密用户数据。在一些实施例中，可在不进行解密的情况下对经加密用户数据进行分析及分类。

参考图14，系统1400包含机顶盒装置1402、云1404中的云数据库1408及机顶盒装置1406。机顶盒装置1406将内容标识1442提供到云1404且从云1404接收跟踪信息 1446。机顶盒装置1402将内容标识、用户标识及跟踪信息提供到云1404。系统1400经配置以收集及跟踪用户数据及元数据文件信息，将元数据文件信息上传到云以用于与共享其它用户。

跟踪信息元数据文件可连同用户ID及内容id一起上传到云1404。运营商维持跟踪信息元数据数据库1410。其它客户可使用内容id从云请求这个元数据且基于经下载元数据来进行所关注区或对象播放。也可在云1404中产生或收集跟踪相关信息。例如，可在云1404中产生或收集电影的跟踪信息。所述信息可包含场景变化、场景中的角色标签、对象相关信息等。在一些实施例中，所述信息经嵌入在视频服务流中或经由旁道作为元数据发送到播放器或机顶盒装置1402及1406。

参考图15，系统1500包含机顶盒装置1502及监视器1504。在一些实施例中，监视器1504通过高清媒体接口电缆耦合到机顶盒装置1502。在一些实施例中，监视器1504 是电视。跟踪信息通过电缆作为帧元数据的部分发送到监视器1504。在一些实施例中, 监视器1504使用所述信息以增强视频，例如突显跟踪目标区。

在一些实施例中，视频处理系统14在OOI及ROI上提供数字录像机特技播放操作。在特技播放操作期间，向运动模型添加方向旗标，所述方向旗标指示当前运动模型是沿向前还是向后方向。在特技播放操作期间，如果运动模型的方向与特技播放方向不同(例如，如果运动模型的方向是向前，而用户想要向后播放)，那么首先通过将所有运动分量乘以-1来反转运动模型且使用经反转运动模型以预测下一所关注对象或所关注区。

参考图16，在一些实施例中，索引格式1600包含索引文件1610、流文件1620及轨迹信息元数据文件1630。可由视频处理系统14(图1)使用索引格式1600。索引格式 1600提供可用以快速地定位元数据文件1630中的对应轨迹信息以及与视频流相关联的流文件1620中的帧数据的配置。索引格式1600可与视频处理系统14一起使用以促进 OOI/ROI模式下的特技播放(例如，参见下图17)。

流文件1620包含帧n数据1622、帧n+1数据1624及帧n+2数据1626。帧数据 1622、1624及1626是从相应帧n索引数据1612、帧n+1索引数据1614及帧n+2索引数据1616导出。帧n索引数据1612、帧n+1索引数据1614及帧n+2索引数据1614中的每一者包含帧数据、帧偏移数据及轨迹信息偏移数据。轨迹信息元数据文件1630包含元数据1632、1634及1636。元数据1632、1634及1636中的每一者包含相应每一帧 n、n+1及n+2的帧数据、轨迹数据及边界框数据等。

参考图17，视频处理系统14经配置以使用索引文件1610(图16)以快速地定位元数据文件1630中的对应轨迹信息以及流文件1620中的帧数据1622。视频处理系统14包含接收经压缩数据流1712的视频解码器1702、接收经解压缩帧1714及帧缩放参数1716 的后处理引擎1704、接收经缩放帧1718及基于索引文件1610(图16)的经提取轨迹信息 1724的主机处理器1708、接收帧1720及边界框1726的图形引擎1706以及接收基于索引文件1610的经提取帧数据的本地存储装置。本地存储装置存储流数据(例如，流文件 1620)、索引文件1610及元数据文件1630。在一些实施例中，图17的视频处理系统14 经配置以在具有边界框的选定视频对象上以DVR特技模式操作。在一些实施例中，所述操作不仅是帧索引操作，而且是每一帧中的对象定位操作。本地存储装置将基于索引文件1610的经提取轨迹信息提供到处理器1708。视频解码器1702提供经解压缩帧1714 且后处理引擎1704提供帧1720及经缩放帧1718。处理器1708使用基于索引文件1610 (图16)的经提取轨迹信息1724来提供边界框1726。

应注意，本公开的某些段落可引用与装置、操作模式、帧、流、所关注对象等相关的例如“第一”及“第二”的术语，以用于标识或区分一者与另一者或其它者。这些术语并不意在仅仅在时间上或根据序列使实体相关(例如，第一装置与第二装置)，尽管在一些情况下，这些实体可包含此关系。这些术语也不限制可在系统或环境内操作的可能实体(例如，装置)的数目。

应理解，上文所描述的系统可提供那些组件中的任一者或每一者中的多者且这些组件可经提供在独立机器上或在一些实施例中，在分布式系统中的多个机器上。另外，上文所描述的系统及方法可作为一或多个制品上或中体现的一或多个计算机可读程序或可执行指令而提供。所述制品可为软盘、硬盘、CD-ROM、快闪存储卡、PROM、RAM、 ROM或磁带。一般来说，计算机可读程序可用任何编程语言，例如LISP、PERL、C、 C++、C#、PROLOG，或用任何字节代码语言，例如JAVA来实施。所述软件程序或可执行指令可作为目标代码存储在一或多个制品上或中。

虽然方法及系统的前述书面描述使所属领域的一般技术人员能够制作及使用目前被认为是其最佳模式的内容，但所属领域的一般技术人员将理解及明白，在本文中存在特定实施例、方法及实例的变动、组合及等效物。因此，本方法及系统不应受上文所描述的实施例、方法及实例的限制，而是应受在本公开的范围及精神内的所有实施例及方法的限制。

Claims

1.一种方法，其包括：

提供第一视频流以供显示；

接收所关注对象的用户选择；及

提供指向与所述第一视频流相同的视频内容的第二视频流，其中所述第二视频流包括由所述用户选择指示的所述所关注对象的增强视频内容。

2.根据权利要求1所述的方法，其进一步包括：

执行对象检测以提供所述第一视频流中的潜在所关注对象的视觉指示；且

其中使用远场语音、即按即说或遥控选择及所述视觉指示来选择所述所关注对象。

3.根据权利要求2所述的方法，其中所述对象检测使用先前帧中的目标位置以导出所关注检测区。

4.根据权利要求3所述的方法，其中后处理引擎使用所述所关注检测区以裁剪帧。

5.根据权利要求2所述的方法，其中所述对象检测使用所述第一视频流中的声音信息或所述第一视频流中或单独轨迹信息元数据文件中的元数据以检测所述潜在所关注对象。

6.根据权利要求5所述的方法，其中所述轨迹信息元数据包含帧编号、轨迹标识号及边界框坐标。

7.根据权利要求1所述的方法，其中索引文件包含每一帧的偏移值以快速地定位元数据文件中的轨迹信息。

8.根据权利要求1所述的方法，其中所述增强视频内容包括缩放特征，其中由用户选择所述缩放特征的级别。

9.根据权利要求1所述的方法，其进一步包括使用机顶盒单元来在画中画区域中提供所述增强视频内容，且其中如果所述所关注对象离开由所述第一视频流界定的场景，那么使所述画中画区域淡出。

10.根据权利要求1所述的方法，其中所述增强视频内容是运动员、演员、风景特征或购物品。

11.根据权利要求1所述的方法，其进一步包括：

在观看所述第二视频流时使用特技播放操作，其中在运动模型的方向与特技播放方向不同时使用运动模型反转过程以预测所关注对象位置。

12.根据权利要求1所述的方法，其进一步包括：

执行对象检测以提供所述第一视频流中的潜在所关注对象的视觉指示；及

提供位转换以将所述第一视频流的像素格式匹配到在执行对象检测时使用的对象检测器的输入格式。

13.根据权利要求1所述的方法，其进一步包括：

基于用户配置文件来预选所关注视频流；及

在电子节目指南中提供所述所关注视频流。

14.根据权利要求1所述的方法，其进一步包括：

使用转换检测或对象跟踪分数以响应于场景变化或交叉淡入淡出而终止所述增强视频内容。

15.根据权利要求1所述的方法，其进一步包括：

在上传跟踪信息时使用同态加密以支持经加密域中的数据分析。

16.根据权利要求1所述的方法，其进一步包括：

在边缘装置处产生跟踪信息且使用由唯一内容标识及用户标识索引的跟踪信息元数据数据库以通过门户共享结果。

17.根据权利要求1所述的方法，其进一步包括：

通过高清多媒体接口将跟踪信息元数据作为帧的部分提供到电视以允许所述电视使用所述跟踪信息元数据以提供所述增强视频内容。

18.根据权利要求1所述的方法，其进一步包括：

接收用于特技播放模式的索引文件；及

接收单独轨迹信息元数据文件。

19.一种视频处理系统，其包括：

处理器，其经配置以执行对象检测以检测视频场景中的潜在所关注对象的视觉指示，所述处理器经配置以接收从所述潜在所关注对象对所关注对象的选择，且所述处理器经配置以在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。

20.根据权利要求19所述的视频处理系统，其进一步包括经配置以从用户接收所述选择的接口，其中使用远场语音、即按即说或遥控接口来提供所述选择。

21.一种用于提供视频以供用户观看的娱乐系统，所述娱乐系统包括：

接口，其经配置以接收选择；及

一或多个处理器、一或多个电路或其任何组合，其经配置以：

提供视频场景中的潜在所关注对象的视觉指示；

接收从所述潜在所关注对象对所关注对象的选择；及

在所述视频场景内提供由所述选择指示的所述所关注对象的增强视频内容。