CN115605875A

CN115605875A - 确定媒体中的感兴趣区域的系统和方法

Info

Publication number: CN115605875A
Application number: CN202080096970.XA
Authority: CN
Inventors: 伊多·勒波
Original assignee: WSC Sports Technologies Ltd
Current assignee: WSC Sports Technologies Ltd
Priority date: 2019-12-18
Filing date: 2020-12-16
Publication date: 2023-01-13
Also published as: US11574200B2; EP4078442A1; EP4078442A4; AU2020408386A1; WO2021124328A1; IL293986A; US20210192355A1

Abstract

从源媒体数据元素生成新的媒体数据元素的系统和方法，包括：接收包括一个或更多个帧的源媒体数据元素；应用机器学习算法来预测至少一个帧中的一个或更多个帧中的至少一个第一感兴趣区域(ROI)；以及基于所预测的至少一个第一ROI裁剪一个或更多个帧，以生成新的媒体数据元素。

Description

确定媒体中的感兴趣区域的系统和方法

发明领域

本发明涉及媒体系统。更具体地说，本发明涉及用于确定媒体中的感兴趣区域(ROI)的系统和方法。

发明背景

允许媒体流的移动计算机化设备变得非常普遍，因此经由移动设备(例如，经由智能手机)访问互联网的任何人都可以随时轻松地获得娱乐。然而，娱乐提供商(诸如电视广播公司)通常没有赶上移动设备中的技术进步，并且继续播放只适合在大屏幕上观看的媒体。例如，与在移动设备的较小屏幕上观看电影或体育比赛的观众相比，在电视屏幕上观看电影或体育比赛的观众可以获得非常不同的体验。

一些娱乐提供商为在移动设备上观看媒体创建了新的专用平台，在这些平台上显示分辨率可以适于更小的屏幕。然而，随着近年来社交媒体使用的增加，大多数用户(或媒体消费者)正在以新的方式体验娱乐，例如通过滚动“限时动态(Instagram story)”页面来观看其他用户上传的视频，其中每个视频可能在分辨率、纵横比等方面不同。因此，期望具有在移动设备上消费媒体的可能性，该可能性适于用户在移动设备上的各种平台上观看内容的方式。

发明概述

因此，根据本发明的一些实施例，提供了一种从源媒体数据元素生成新的媒体数据元素的方法，包括：由处理器接收包括一个或更多个帧的源媒体数据元素；由处理器应用机器学习算法以预测至少一个帧中的一个或更多个帧中的至少一个第一感兴趣区域(ROI)；以及基于所预测的至少一个第一ROI裁剪一个或更多个帧，以生成新的媒体数据元素。

在一些实施例中，可以训练机器学习算法，其中训练可以包括：由处理器接收多个媒体数据元素，为多个媒体数据元素中的每个媒体数据元素标记至少一个第二ROI；以及将接收到的媒体数据元素和至少一个第二ROI中的每一个馈送到机器学习算法，以训练机器学习算法从而预测另一媒体数据元素中的至少一个ROI。

在一些实施例中，机器学习算法可以包括卷积神经网络(CNN)和循环神经网络(RNN)中的至少一个。在一些实施例中，可以在两个垂直轴中的至少一个上执行标记。

在一些实施例中，可以应用编码器以对源媒体数据元素中的至少一个帧执行变换以产生至少一个特征向量，其中机器学习算法可以被配置成基于所产生的至少一个特征向量来预测至少一个第一ROI。在一些实施例中，训练编码器可以是无监督的(unsupervised)。在一些实施例中，训练编码器可以是有监督的(supervised)。

在一些实施例中，机器学习算法可以被训练以通过以下中的至少一个来最小化多个媒体数据元素上的回归损失函数：所预测的ROI的坐标和已标记的ROI的坐标之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。在一些实施例中，所预测的至少一个第一ROI可以被修改，其中新的媒体数据元素的至少一个帧可以包括经修改的至少一个第一ROI。在一些实施例中，所预测的至少一个第一ROI可以被修改，其中可以基于经修改的至少一个第一ROI来裁剪新的媒体数据元素的至少一个帧。

在一些实施例中，新的媒体数据元素的至少一个帧可以包括所预测的至少一个ROI。在一些实施例中，训练可以基于迁移学习和参数微调中的至少一个。在一些实施例中，可以为所生成的新的媒体数据元素选择新的显示纵横比，其中所选择的新的显示纵横比可以不同于接收到的源媒体数据元素的显示纵横比。在一些实施例中，机器学习算法可以是循环神经网络(RNN)，其中源媒体数据元素可以包括至少一个帧序列，并且其中应用编码器可以包括：由处理器从至少一个帧序列中选择‘N’个帧；以及将‘N’个帧中的每一帧馈送到编码器以接收‘N’个特征向量的序列。在一些实施例中，RNN的至少一层可包括‘N’个双向长短期记忆(LSTM)单元和‘N’个单向LSTM单元中的一个。

因此，根据本发明的一些实施例，提供了一种预测媒体数据元素中的感兴趣区域(ROI)的方法，包括：由处理器接收源媒体数据元素；由处理器应用机器学习算法以检测接收到的源媒体数据元素中的至少一个对象；由所述处理器预测接收到的源媒体数据元素中的ROI，其中该ROI是基于所检测的至少一个对象来预测的；以及由所述处理器基于所预测的ROI裁剪接收到的源媒体数据元素以生成新的媒体数据元素，其中所生成的新的媒体数据元素是源媒体数据元素的一部分。

因此，根据本发明的一些实施例，提供了一种预测媒体中的感兴趣区域(ROI)的方法，包括：由处理器训练机器学习算法以预测媒体数据元素中的ROI，其中训练包括：由处理器接收多个第二媒体数据元素；为接收到的多个第二媒体数据元素中的每一个标记至少一个第二ROI；以及将至少一个第二ROI馈送至机器学习算法，以训练机器学习算法从而预测至少一个第一媒体数据元素的至少一帧中的至少一个第一ROI；由处理器接收源媒体数据元素；以及由处理器应用经训练的机器学习算法以预测接收到的源媒体数据元素中的第一ROI。

在一些实施例中，可以基于所预测的第一ROI裁剪接收到的源媒体数据元素以生成新的媒体数据元素，其中所生成的新的媒体数据元素可以是源媒体数据元素的子集。在一些实施例中，机器学习算法可以被训练以通过以下中的至少一个来最小化多个第二媒体数据元素上的回归损失函数：所预测的第一ROI的坐标和已标记的第二ROI的坐标之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。

附图简述

关于本发明的主题在说明书的结束部分被特别指出并被清楚地要求保护。然而，本发明关于操作的组织和方法以及其目的、特征和优点，在参照附图一起阅读时，通过参考以下详细描述可得到最好的理解，其中：

图1示出了根据本发明的一些实施例的示例性计算设备的框图；

图2A示出了根据本发明的一些实施例的感兴趣区域(ROI)确定系统的框图；

图2B示出了根据本发明的一些实施例的使用编码器架构的机器学习算法的流程图；

图3示意性地示出了根据本发明的一些实施例将媒体裁剪成新的媒体数据元素；

图4示出了根据本发明的一些实施例的用于预测媒体中的ROI和从源媒体数据元素生成新的媒体数据元素的方法的流程图；以及

图5示出了根据本发明的一些实施例的用于预测媒体数据元素中的ROI的方法的流程图；以及

图6示出了根据本发明的一些实施例的用于预测媒体中的ROI的方法的流程图。

将理解的是，为了说明的简单和清楚，图中所示的元素不一定按比例绘制。例如，为了清楚起见，一些元素的尺寸可能相对于其他元素被放大。此外，在认为适当的情况下，参考数字可在多个图中重复以指示对应的或类似的元素。

详细描述

在以下详细描述中，阐述了许多具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将理解，可以在没有这些具体细节的情况下实践本发明。在其他实例中，公知的方法、程序以及组件、模块、单元和/或电路没有被详细描述，以免模糊本发明。关于一个实施例描述的一些特征或元素可以与关于其他实施例描述的特征或元素组合。为了清楚起见，可以不重复讨论相同或相似的特征或元素。

虽然本发明的实施例在这方面不受限制，但是使用诸如例如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“建立”、“分析”、“检查”等的术语的讨论可以指计算机、计算平台、计算系统或其他电子计算设备的操作和/或过程，该计算机、计算平台、计算系统或其他电子计算设备将表示为计算机的寄存器和/或存储器内的物理(例如，电子)量的数据操纵和/或转换为类似地表示为计算机的寄存器和/或存储器或者可存储用于执行操作和/或过程的指令的其他信息非暂时性存储介质内的物理量的其他数据。虽然本发明的实施例在这方面不受限制，但是如本文所使用的术语“多个(plurality)”和“多个(a plurality)”可以包括例如“多个(multiple)”或“两个或更多个”。在整个说明书中可以使用术语“多个(plurality)”或“多个(a plurality)”来描述两个或更多个组件、设备、元素、单元、参数等。术语“组(set)”当在本文中使用时可以包括一个或更多个项目。除非明确规定，本文描述的方法实施例不限于特定的次序或顺序。另外，所描述的方法实施例或其元素中的一些可以同时、在同一时间点或并行地出现或被执行。

参考图1，其是根据本发明的一些实施例的示例计算设备的示意性框图。计算设备100可以包括控制器或处理器105(例如，中央处理单元处理器(CPU)、芯片或任何合适的计算设备)、操作系统115、存储器120、可执行代码125、存储系统130、输入设备135(例如，键盘或触摸屏)和输出设备140(例如，显示器)、用于经由通信网络(诸如例如，因特网)与远程设备通信的通信单元145(例如，蜂窝发射机或调制解调器、Wi-Fi通信单元等)。控制器105可以被配置成执行程序代码以执行本文描述的操作。本文描述的系统可以包括一个或更多个计算设备100，例如，以用作图2A中所示的各种设备或部件。例如，系统200可以是或者可以包括计算设备100或其部件。

操作系统115可以是或可以包括被设计和/或配置为执行涉及协调、调度、仲裁(arbitrate)、监督(supervise)、控制或以其他方式管理计算设备100的操作(例如，调度软件程序的执行或者启用软件程序或其他模块或单元进行通信)的任务的任何代码段(例如，类似于本文所述的可执行代码125的代码段)。

存储器120可以是或可以包括例如随机存取存储器(RAM)、只读存储器(ROM)、动态RAM(DRAM)、同步DRAM(SD-RAM)、双数据速率(DDR)存储器芯片、闪存、易失性存储器、非易失性存储器、高速缓冲存储器、缓冲器、短期存储器单元、长期存储器单元或者其他合适的存储器单元或存储装置单元。存储器120可以是或可以包括多个可能不同的存储器单元。存储器120可以是计算机或处理器的非暂时性可读介质、或者计算机的非暂时性存储介质，例如RAM。

可执行代码125可以是任何可执行代码，例如应用、程序、进程、任务或脚本。可执行代码125可以在操作系统115的控制下由控制器105执行。例如，可执行代码125可以是执行本文进一步描述的方法的软件应用。尽管为了清楚起见，图1中示出了单项可执行代码125，但是根据本发明的实施例的系统可以包括与可执行代码125类似的多个可执行代码段，所述可执行代码段可以被存储到存储器120中并使控制器105执行本文所述的方法。

存储系统130可以是或可以包括例如硬盘驱动器、通用串行总线(USB)设备或其他合适的可移动和/或固定的存储装置单元。在一些实施例中，在图1中示出的部件中的一些可以被省略。例如，存储器120可以是具有存储系统130的存储容量的非易失性存储器。因此，虽然示出为单独的部件，但是存储系统130可以被嵌入或包括在存储器120中。

输入设备135可以是或可以包括键盘、触摸屏或触摸板、一个或更多个传感器或者任何其他或附加的合适的输入设备。任何合适的数量的输入设备135可以可操作地连接到计算设备100。输出设备140可以包括一个或更多个显示器、或监视器和/或任何其他合适的输出设备。任何合适的数量的输出设备140可以可操作地连接到计算设备100。如框135和140所示，任何适用的输入/输出(I/O)设备可以连接到计算设备100。例如，可以在输入设备135和/或输出设备140中包括有线或无线网络接口卡(NIC)、通用串行总线(USB)设备或外部硬盘驱动器。

本发明的实施例可以包括诸如计算机或处理器非暂时性可读介质或计算机或处理器非暂时性存储介质的物品，例如用于编码、包括或存储指令(例如，计算机可执行指令)的存储器、磁盘驱动器或USB闪存，该指令在由处理器或控制器执行时执行本文公开的方法。例如，物品可以包括诸如存储器120的存储介质、诸如可执行代码125的计算机可执行指令以及诸如控制器105的控制器。这种非暂时性计算机可读介质可以是例如存储器、磁盘驱动器或USB闪存，其用于编码、包括或存储指令，例如计算机可执行指令，当该指令由处理器或控制器执行时，执行本文公开的方法。存储介质可以包括但不限于任何类型的磁盘，该磁盘包括半导体器件，诸如只读存储器(ROM)和/或随机存取存储器(RAM)、闪存、电可擦除可编程只读存储器(EEPROM)或适于存储电子指令的任何类型的介质，包括可编程存储设备。例如，在一些实施例中，存储器120是非暂时性机器可读介质。

根据本发明的实施例的系统可以包括部件，诸如但不限于，多个中央处理单元(CPU)、多个图形处理单元(GPU)或任何其他合适的多用途或特定的处理器或控制器(类似于控制器105的控制器)、多个输入单元、多个输出单元、多个存储器单元和多个存储装置单元。系统可以另外包括其他合适的硬件组件和/或软件组件。在一些实施例中，系统可以包括或者可以是例如，个人计算机、台式计算机、膝上型计算机、工作站、服务器计算机、网络设备或任何其他合适的计算设备。例如，如本文所述的系统可以包括一个或更多个设施计算设备100和一个或更多个远程服务器计算机，该远程服务器计算机与诸如计算设备100的一个或更多个设施计算设备100主动通信，并且与诸如智能手机、平板电脑等的一个或更多个便携式或移动设备主动通信。

现在参考图2A，其示出了根据一些实施例的感兴趣区域(ROI)预测系统200的框图。在图2A中，硬件元件用实线表示，并且箭头的方向可以指示信息流的方向。

ROI预测系统200可以包括处理器201(例如，图1中所示的控制器105)，该处理器201被配置成(例如，用有监督的或无监督的机器学习)训练机器学习算法203以确定或预测源媒体数据元素205中的至少一个第一ROI 204。例如，ROI 204可以由至少一个坐标表示。至少一个第一ROI204可以是对应于静止图像序列的坐标集合，使得每个ROI 204坐标可以对应于静止图像(或帧)。根据一些实施例，ROI 204可以表示图像中的(感兴趣的)区域，或者ROI 204可以表示该区域的坐标，使得所预测的至少一个第一ROI 204可以包括区域或坐标。在一些实施例中，至少一个第一ROI 204的单个坐标可以表示(例如，在图像中的)区域。在下文中，ROI204可以被称为区域或坐标。

因此，机器学习算法203可以基于所预测的至少一个第一ROI 204裁剪源媒体205的一部分(例如，裁剪视频文件的新的帧)以生成新的媒体数据元素206。在一些实施例中，新的媒体数据元素206可以包括至少一个第一ROI 204。例如，新的媒体数据元素206可以包括作为源媒体数据元素205的子集(例如，帧的子集)的至少一个第一ROI 204，例如，新的媒体数据元素206可以包括源媒体数据元素205的一部分，其中这一部分基于至少一个第一ROI 204。在一些实施例中，新的媒体数据元素206可以包括视频的至少一个帧，其中至少一个第一ROI 204位于至少一个帧的中心。在一些实施例中，可以为所生成的新的媒体数据元素206选择新的显示纵横比，其中所选择的新的(例如，子集的)显示纵横比可以不同于接收到的源媒体数据元素的显示纵横比。

在一些实施例中，由处理器201执行的训练可以包括接收具有媒体数据元素的多个源媒体文件205，例如从与处理器201通信的数据库202接收视频文件(例如，体育赛事的视频)。在一些实施例中，每个源媒体数据元素205可以包括至少一个帧207(例如，视频文件的静止图像或静止图像序列)，并且可以为源媒体数据元素205的每个帧207预测至少一个第一ROI 204。处理器201可以应用机器学习算法203来预测至少一个帧207中的一个或更多个帧中的至少一个第一ROI 204。

对于有监督的训练，多个人工加标记人员(human tagger)可以观看(例如来自数据库202的)具有真实事件(例如，篮球比赛)的源媒体内容205。当观看源媒体内容205时，人工加标记人员可以连续标记媒体内容205的至少一个帧207中的至少一个第二ROI 204’的区域或坐标。在一些实施例中，可以在两个垂直方向或轴中的至少一个上标记第二ROI的坐标，例如使用专用标记模块来标记至少一个第二ROI 204’，用于在水平和/或垂直方向上观看，例如在运行的视频中，标记模块可以生成水平/垂直矩形，该矩形可以在屏幕上移动以由人工加标记人员标记。在有监督的训练期间，每次标记坐标时，可以为媒体和/或坐标和/或有关数据(诸如ROI在媒体内容205(例如，在视频段中)的帧207内的特定位置)中的至少一个生成数据元组或向量。

在一些实施例中，处理器201可以在训练之前，例如在预处理期间，对标记的媒体应用降噪功能。降噪功能可以移除由人为错误导致的标记(tag)中的噪声，例如当单个帧的标记与相邻帧中的标记不同或差别很大时(例如，由于人为错误引起的错误标记)。

一旦训练完成并且由处理器201接收到新的源媒体数据元素，则可以应用经训练的机器学习算法203来预测接收到的新的源媒体数据元素中的至少一个第一ROI 204。在一些实施例中，可以在至少一个帧207中校正和/或修改所预测的ROI，以便例如通过对相邻和/或后续帧上的ROI位置进行自动求平均来移除噪声。在一些实施例中，(例如一旦完成ROI预测)可以用中值滤波和/或加权平均和/或自动求平均和/或形态学操作(诸如侵蚀、扩张等)来应用后处理方法。

根据一些实施例，处理器201可以接收(例如，来自数据库202的)多个源媒体数据元素205，并为至少一个源媒体数据元素205的至少一个帧207标记至少一个第二ROI 204’。例如，处理器可实现对象检测算法以检测要用作至少一个ROI 204的感兴趣对象。在另一示例中，至少一个第二ROI 204’可以由人工加标记人员标记。

至少一个帧207和已标记的至少一个第二ROI 204’可以被馈送用于训练机器学习算法203。训练机器学习算法203的目的是在给定另一媒体数据元素中的对应的至少一个帧207的情况下预测至少一个第一ROI 204。

机器学习算法203可以包括编码器模块214，用于执行对源媒体数据元素205中的至少一个帧的变换，以产生至少一个特征向量。例如，自动编码器架构可用于机器学习算法203，其中自动编码器包括两个部分，作为后接解码器的编码器，并且以无监督的方式训练，以最小化以下中的至少一个的经训练的样本上的回归损失函数：编码器214的输入与解码器的输出之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。在一些实施例中，解码器可以在训练之后的某个点被移除。在一些实施例中，可以应用编码器214，以便至少在源媒体数据元素205的帧207上执行降维。

在一些实施例中，编码器214可包括卷积神经网络(CNN)213架构，并且在一些实施例中，CNN 213架构可用作机器学习算法203以预测至少一个第一ROI 204。例如，可以以有监督的方式(例如，具有人工或自动标记(自监督的训练))训练CNN 213，以通过最小化所预测的至少一个第一ROI 204和已标记的第二ROI之间的损失函数来为给定的至少一个帧207预测新的媒体元素中的至少一个第一ROI 204。例如，损失函数可以包括均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。在一些实施例中，编码器214或CNN 213的至少一层可以被用作特征向量。

在一些实施例中，机器学习算法203可以包括循环神经网络(RNN)215架构。RNN215可以接收与至少一个帧207的序列相对应的特征向量的序列，并相应地预测新的数据元素中的至少一个第一ROI 204。例如，RNN 215可包括长短期记忆(LSTM)单元的至少一层。在一些实施例中，LSTM可以是双向的。可以通过向RNN 215馈送特征向量的序列并最小化所预测的至少一个第一ROI 204和已标记的第二ROI之间的损失函数来训练RNN 215。例如，损失函数可以包括均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。

根据一些实施例，机器学习算法203可以包括接收至少一个特征向量并预测新的媒体元素中的至少一个第一ROI 204的回归架构。例如，回归架构可以包括线性回归。可以通过向回归架构馈送特征向量的序列并最小化所预测的至少一个第一ROI 204和已标记的第二ROI之间的损失函数来训练回归架构。例如，损失函数可以包括均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。

在一些实施例中，机器学习算法203可以包括卷积循环神经网络(CRNN)。因此，机器学习算法203可以通过接收至少一个帧207的序列来被训练，并预测新的数据元素中的至少一个第一ROI 204。在一些实施例中，可以通过将至少一个帧207的序列馈送到CRNN并且最小化所预测的至少一个第一ROI 204和已标记的第二ROI之间的损失函数来训练CRNN。例如，损失函数可以包括均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。

例如，机器学习算法203可以包括用“VGG16”架构配置的CNN。在另一示例中，CNN213的输出可以被用于输入以训练机器学习算法203，其中输入包括在最终层(例如，产生预测的层)之前的一层。在一些实施例中，CNN 213的层的一些权重可以从预先训练的网络(例如，在“ImageNet”上)被加载，而其他权重(例如，完全连接的层的权重)可以随机初始化并且后来通过训练学习而被实例化。例如，处理器201可以随机确定CNN213的至少一个权重。

在一些实施例中，CNN 213可以包括接受媒体数据元素序列(例如，视频或图像或视频的帧)作为输入的三维CNN(具有三维卷积核)，并且3D-CNN可以用作编码器和/或预测器。例如，3D-CNN可以接收‘N’个媒体数据元素(例如，来自视频文件的相邻帧)作为输入，并被训练以预测媒体数据元素的至少一个第一ROI 204。

例如，RNN 215的至少一层可以包括‘N’个双向长短期记忆(LSTM)单元和/或RNN215可以包括‘N’个单向LSTM单元，例如后面跟着完全连接的层。在一些实施例中，一旦机器学习算法203预测了至少一个第一ROI 204，则可以基于新的媒体数据元素206的每个帧中的所预测的至少一个第一ROI 204来生成新的媒体数据元素206。例如，所生成的新的媒体数据元素206可以包括至少一个第一ROI 204。

在一些实施例中，机器学习算法203的训练可以基于以下中的至少一个：转移学习(其中，为第一任务开发的模型可以被重新使用为第二任务上的模型的起点)和参数微调(其中，选择至少一个参数来控制和/或增强学习过程)。

现在参考图2B，其示出了根据一些实施例的使用编码器架构的机器学习算法的流程图。在图2B中，箭头的方向可以指示信息流的方向，并且至少一些元素可以类似于图2A中的相同元素(例如，RNN 215)。

在一些实施例中，可以从经变换的至少一个帧216创建至少一个特征向量218。机器学习算法203可以基于所创建的至少一个特征向量218来预测至少一个第一ROI。

在一些实施例中，源媒体数据元素205可以包括至少一个帧序列217(具有多个后续帧207)，使得编码器214可以被应用以执行对源媒体数据元素205的至少一个帧序列217的变换。在一些实施例中，处理器201可以从至少一个帧序列217中选择‘N’个帧，并将‘N’个帧中的每一个馈送到编码器214，以接收‘N’个特征向量218的序列或一个特征向量218。机器学习算法203可以包括接收来自编码器214的结果(例如，至少一个特征向量218)作为输入的RNN 215。

编码器可以对要从二维图像空间和/或三维视频空间传输到任何其他可传输表示空间的输入数据(例如，单个媒体元素)应用至少一个变换。在一些实施例中，当CNN 213用作特征提取器时，例如二维和/或三维的CNN 213可以用作编码器架构。例如，可以向编码器214馈送单个媒体元素(例如，图像)作为输入，以由编码器214变换，直到可以提取特征向量作为RNN 215的输入。

例如，可以用包括编码器和解码器的网络来训练包括编码器214的机器学习算法203，向在空间X中具有输入层的编码器馈送媒体元素x的输入，在空间H中变换为h，并且相应的解码器在空间X中将h变换到x’，由此创建自动编码器的结构(例如，诸如从X到X’的神经网络，其中具有嵌入的至少一个隐藏层H)。输入图像x可以被馈送到网络，并且可以测量输出x’和输入x之间的均方误差(MSE)。其他误差函数也是可能的，例如平均绝对误差等。可以执行反向传播以最小化MSE，并且因此重复反向传播直到MSE值不再有任何改进。最后，解码器可以被移除，并且编码器可以相应地被用作用于其他任务(例如，具有转移学习)的编码器。

现在回去参考图2A。可以通过输入‘N’个媒体元素(例如，媒体文件的相邻帧的‘N’个图像)并馈送经训练的CNN 213或编码器214中的每个媒体元素来训练RNN 215，以预测第一ROI 204的坐标，其中CNN 213的输出(例如，最终层之前的某层或最后层)可以被用作特征向量218。在一些实施例中，‘N’个媒体元素可相应地产生‘N’个特征向量(或序列)，以作为输入被馈送到RNN 215，其中对于‘N’个LSTM单元中的每一个具有至少一个特征向量218。

在一些实施例中，可以通过最小化以下中的至少一个的经训练的样本上的回归损失函数来训练机器学习算法203：所预测的第一ROI 204的坐标和已标记的第二ROI 204的坐标之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。例如，处理器201可以对机器学习算法203应用校正算法，以便最小化误差的总和。

在一些实施例中，可以用至少一个注意力层(layer of attention)(例如，在LSTM单元的输入或输出处)来训练RNN 215，该注意力层被配置成放大至少一个特征向量中的至少一个特征。在一些实施例中，至少一个注意力层可以接收特征向量，并相应地输出作为输入特征向量的组合(例如，线性组合)的特征向量。在注意力层机制之前，RNN 215中的层可以考虑完整的输入序列并将所有信息压缩成固定长度的向量，并且注力意层可以允许RNN215中的层检查先前层或原始输入保存的所有信息，其中放大特定向量中的特定(预定义)特征和/或创建输入特征向量的组合。RNN 215可以包括至少一个密集层，并且密集层的输出可以被馈送作为注意力层(例如，使用“softmax”函数)。

在一些实施例中，可以通过向CNN 213输入‘N’个媒体元素(例如，在媒体文件的帧中的图像)并相应地从CNN 213接收‘N’个特征向量来预测第一ROI 204。接收到的‘N’个特征向量可以作为输入被输入到RNN215，以接收作为针对这些‘N’个媒体元素的第一ROI的预测的RNN 215输出。

根据一些实施例，可以在CNN 213架构和/或CNN 213与RNN 215的组合架构和/或编码器214架构与RNN 215的组合架构中执行对于新接收的源媒体数据元素的第一ROI 204的预测。对于CNN 213架构，可以例如以子样本接收媒体元素205(例如，视频的帧)。接收到的媒体元素205(例如，帧)可以作为输入通过CNN 213，其中最终层的输出用作第一ROI坐标204的预测。对于CNN 213与RNN 215的组合架构，接收到的媒体元素205(例如，帧)可以作为输入通过CNN 213，其中在最终层之前的任何层的输出用作RNN 215的特征向量，用于预测第一ROI坐标204，例如对于‘N’个LSTM单元中的每一个使用一个特征向量。每个接收到的媒体数据元素205可以被划分(例如，由处理器201划分)为‘N’个连续的媒体元素或帧，例如以小于‘N’的步长(stride)执行，使得一些帧可以出现在两个相邻序列中。在针对同一帧的多个预测可以被池化(pool)成一个值之后，RNN 215的‘N’个输出可以被用作第一ROI坐标204的预测。

根据一些实施例，例如使用社交媒体平台的计算机化移动设备(例如，智能手机、平板电脑等)的用户正在以适于用户持有移动设备的方式的新方式体验媒体消费，例如在智能手机中的垂直显示器中观看视频。由于原始媒体内容是为老式的观看方式提供的，是为像电视一样的水平观看而设计的，所以垂直观看媒体的用户获得的体验是最差的，因为它不适合消费媒体的方式。为了纠正这个问题并提供一种方式来消费适于移动设备中媒体流的新的技术的媒体，处理器201可以裁剪和/或修改所预测的第一ROI204，例如，作为来自图像208的一部分，以处于不同的纵横比，和/或被裁剪为子图像同时保持相同的纵横比。例如，处理器201可以从水平视频输入裁剪垂直的ROI。

由于第二ROI坐标204’的标记是主观的，因此合适算法的选择也可能是主观的。为了确定不同的训练和优化结果中的哪一个可能是最优的，可以应用性能度量。最初，可以随机选择一组媒体元素(例如，视频)，并由‘M’个不同的加标记人员进行标记。‘M’个标记对应于媒体元素205中每个帧207的‘M’个ROI中心坐标向量。从每个向量，可以用[min(向量),max(向量)]来池化可接受区间(I)，使得视频可以通过具有以下误差函数的求和的算法：

其中，如果|x|≤1/2，则Π(x)＝1，否则为0。此外，‘i’可以是来自性能度量测试集的帧号，并且y_i可以是所预测的第一ROI坐标204。因此，每个样本可以以其与区间的平方最小距离贡献于误差函数，从而可以选择实现最小误差的算法。

在另一示例中，可以通过为每个帧计数在所预测的第一ROI坐标204内和/或在距所预测的第一ROI坐标204的某个预定义距离中的已标记的第二ROI 204’来执行评估度量，然后可以应用一些定量逻辑来对所有帧求和。预定义距离可以是所预测的第一ROI 204内的任何距离，并且基于所预测的第一ROI 204的预定义可接受帧大小可以指示可接受区域，使得如果在ROI的可接受区域内发现已标记的第二ROI坐标204’，则预测可能是成功的。定量逻辑可以是：如果所有标记都在可接受区域内，则预测可能是成功的，和/或在帧内的可接受区域内部的标记和在帧内的可接受区域外部的标记之间的比率，和/或如果所预测的第一ROI 204在标记之间，那么，如果最近的标记在可接受区域内，则预测可能是成功的，其中可以计算所有帧上的定量逻辑之和作为结果。

现在参考图3，其示意性地示出了根据一些实施例的将媒体裁剪成新的媒体数据元素(例如，具有不同的显示纵横比)。处理器201可以接收处于第一显示纵横比301(例如，水平)的源媒体数据元素205，并预测至少一个第一ROI 204。一旦预测了至少一个第一ROI204，处理器201可以将源媒体数据元素205裁剪成第二显示纵横比302(例如，垂直)。

现在参考图4，其示出了根据一些实施例的用于预测媒体中的ROI和从源媒体数据元素生成新的媒体数据元素的方法的流程图。

在步骤401中，处理器201可以接收包括一个或更多个帧207(和/或至少一个帧序列)的源媒体数据元素205。在步骤402中，处理器201可以应用机器学习算法203来预测至少一个帧207中的一个或更多个帧中的至少一个第一ROI 204。在步骤403中，处理器201可以基于所预测的至少一个第一ROI 204裁剪一个或更多个帧207以生成新的媒体数据元素206(例如，子集)。根据一些实施例，处理器201可以裁剪用于预测的帧的子样本，但不必裁剪用于预测的相同帧。

现在回去参考图3。根据一些实施例，可以在没有标记的初始阶段的情况下预测第一ROI 204。处理器201可以接收具有第一显示纵横比301的新的源媒体数据元素，并选择第二显示纵横比302，其中第二显示纵横比302可以不同于第一显示纵横比301。处理器201可以应用由有监督的或无监督的机器学习算法203训练的神经网络(例如，具有CNN和/或编码器和/或RNN)，以确定接收到的媒体数据元素205中的至少一个对象250，例如确定冲浪者在有波浪的背景中正在板上冲浪。处理器201可以例如基于至少对象250与接收到的媒体数据元素205中的背景的分离，预测接收到的媒体数据元素205中的第一ROI 204，以在处于第二显示纵横比302的每个帧中包括所确定的对象250。

在一些实施例中，系统200通过预测媒体中的第一ROI并且仅向观众显示第一ROI来改进用于移动计算机化设备的媒体流。系统200还改进了用于移动设备的垂直显示媒体(例如，自动裁剪要垂直显示的视频)的技术问题。系统200可以应用专用机器学习算法来预测新接收到的媒体中的第一ROI，并基于所预测的至少一个第一ROI 204相应地裁剪源媒体205的一部分(例如，为了仅向观众显示第一ROI)，例如，使用系统200的媒体提供商可以流式传输其中第一ROI由系统200自动预测的现场事件(例如，体育比赛)，并且基于所预测的至少一个第一ROI 204，裁剪源媒体205的一部分(例如，其中仅第一ROI立即显示给观众(例如，垂直地))，因为一旦系统被训练，就不需要等待由人进行标记。

现在参考图5，其示出了根据一些实施例的用于预测媒体数据元素中的ROI的方法的流程图。在步骤501中，处理器201可以接收源媒体数据元素205(例如，具有至少一个帧207)。

在步骤502中，处理器201可以应用机器学习算法203来检测接收到的源媒体数据元素205中的至少一个对象250。例如，至少一个对象250可以是体育赛事视频中的球。在步骤503中，处理器201可以预测接收到的源媒体数据元素205中的第一ROI 204，其中可以基于检测到的至少一个对象250来预测第一ROI。在步骤504中，处理器201可以基于所预测的第一ROI 204裁剪接收到的源媒体数据元素205，以生成新的媒体数据元素206。在一些实施例中，所生成的新的媒体数据元素206可以是源媒体数据元素205的一部分(或子集)。

现在参考图6，其示出了根据一些实施例的用于预测媒体中的ROI的方法的流程图。在步骤601中，处理器201可以训练机器学习算法203以预测媒体数据元素205中的第一ROI 204。

在一些实施例中，训练可以包括处理器201接收具有至少一个帧207的多个源媒体数据元素205，为接收到的媒体数据元素的每一个标记至少一个第二ROI 204’，以及馈送该至少一个第二ROI 204’，以训练机器学习算法203从而预测另一帧207中的第一ROI 204。

在步骤602中，处理器201可以接收源媒体数据元素205。在步骤603中，处理器201可以应用经训练的机器学习算法203来预测接收到的源媒体数据元素205中的第一ROI204。在一些实施例中，在步骤604中，处理器201可以基于所预测的第一ROI 204裁剪接收到的源媒体数据元素205，以生成新的媒体数据元素206，其中所生成的新的媒体数据元素206可以是源媒体数据元素205的子集。

上面描述的系统和方法可以允许完全自动化的处理，将新接收到的媒体中的第一ROI的预测作为实际应用，从而以移动设备的用户所希望的方式提供媒体，并且在不花费宝贵的人力资源时间(用于实时标记每个新接收到的媒体)的情况下，同时提供无法通过人类执行的相同过程获得的结果。另外，这样的系统和方法可以提供基于来自单个源(例如，相机)的媒体的结果，使得不需要相机阵列和摄影师来捕获不同的ROI。

尽管本文已说明和描述了本发明的某些特征，但本领域技术人员可想到许多修改、替代、变化和等效体。因此，应当理解，所附权利要求旨在覆盖落入本发明内的所有这样的修改和改变。

已经提出了各种实施例。当然，这些实施例中的每一个可以包括所呈现的其他实施例的特征，并且未具体描述的实施例可以包括本文所述的各种特征。

Claims

1.一种从源媒体数据元素生成新的媒体数据元素的方法，所述方法包括：

由处理器接收包括一个或更多个帧的所述源媒体数据元素；

由所述处理器应用机器学习算法以预测至少一个帧中的一个或更多个帧中的至少一个第一感兴趣区域(ROI)；以及

基于所预测的至少一个第一ROI裁剪所述一个或更多个帧，以生成新的媒体数据元素。

2.根据权利要求1所述的方法，还包括训练所述机器学习算法，其中，所述训练包括：

由所述处理器接收多个媒体数据元素；

为所述多个媒体数据元素中的每个媒体数据元素标记至少一个第二ROI；以及

将接收到的媒体数据元素和所述至少一个第二ROI中的每一个馈送到所述机器学习算法，以训练所述机器学习算法从而预测所述源媒体数据元素中的所述至少一个帧中的一个或更多个帧中的所述至少一个第一ROI，或者预测另一媒体数据元素中的至少另一ROI。

3.根据权利要求1所述的方法，其中，所述机器学习算法包括卷积神经网络(CNN)和循环神经网络(RNN)中的至少一个。

4.根据权利要求2所述的方法，其中，在两个垂直轴中的至少一个上执行所述标记。

5.根据权利要求1所述的方法，还包括应用编码器以对所述源媒体数据元素中的至少一个帧执行变换以产生至少一个特征向量，其中，所述机器学习算法被配置成基于所产生的至少一个特征向量来预测所述至少一个第一ROI。

6.根据权利要求5所述的方法，其中，训练所述编码器是无监督的。

7.根据权利要求5所述的方法，其中，训练所述编码器是有监督的。

8.根据权利要求2所述的方法，其中，所述机器学习算法被训练以通过以下中的至少一个来最小化所述多个媒体数据元素上的回归损失函数：所预测的ROI的坐标和已标记的ROI的坐标之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。

9.根据权利要求1所述的方法，还包括修改所预测的至少一个第一ROI，其中，所述新的媒体数据元素的至少一个帧包括经修改的至少一个第一ROI。

10.根据权利要求1所述的方法，还包括修改所预测的所述至少一个第一ROI，其中，基于经修改的至少一个第一ROI来裁剪所述新的媒体数据元素的至少一个帧。

11.根据权利要求1所述的方法，其中，所述新的媒体数据元素的至少一个帧包括所预测的至少一个ROI。

12.根据权利要求2所述的方法，其中，所述训练基于迁移学习和参数微调中的至少一个。

13.根据权利要求1所述的方法，还包括为所生成的新的媒体数据元素选择新的显示纵横比，其中，所选择的新的显示纵横比不同于接收到的源媒体数据元素的显示纵横比。

14.根据权利要求5所述的方法，其中，所述机器学习算法是循环神经网络(RNN)，其中，所述源媒体数据元素包括至少一个帧序列，并且其中，应用所述编码器包括：

由所述处理器从所述至少一个帧序列中选择‘N’个帧；以及

将所述‘N’个帧中的每一个馈送到所述编码器以接收‘N’个特征向量的序列。

15.根据权利要求14所述的方法，其中，所述RNN的至少一层包括以下中的一个：‘N’个双向长短期记忆(LSTM)单元和‘N’个单向LSTM单元。

16.一种预测媒体数据元素中的感兴趣区域(ROI)的方法，所述方法包括：

由处理器接收源媒体数据元素；

由所述处理器应用机器学习算法以检测接收到的源媒体数据元素中的至少一个对象；

由所述处理器预测所述接收到的源媒体数据元素中的ROI，其中，所述ROI是基于检测到的至少一个对象来预测的；以及

由所述处理器基于所预测的ROI裁剪所述接收到的源媒体数据元素以生成新的媒体数据元素，

其中，所生成的新的媒体数据元素是所述源媒体数据元素的一部分。

17.一种预测媒体中的感兴趣区域(ROI)的方法，所述方法包括：

由处理器训练机器学习算法以预测至少一个第一媒体数据元素的至少一个帧中的至少一个第一ROI，其中，所述训练包括：

由所述处理器接收多个第二媒体数据元素；

为接收到的多个第二媒体数据元素中的每一个标记至少一个第二ROI；以及

将所述至少一个第二ROI馈送到所述机器学习算法；

由处理器接收所述至少一个第一媒体数据元素的源媒体数据元素；以及

由所述处理器应用经训练的机器学习算法以预测接收到的源媒体数据元素中的所述至少一个第一ROI。

18.根据权利要求17所述的方法，还包括由所述处理器基于所预测的至少一个第一ROI裁剪所述接收到的源媒体数据元素以生成新的媒体数据元素，其中，所生成的新的媒体数据元素是所述源媒体数据元素的子集。

19.根据权利要求17所述的方法，其中，所述机器学习算法被训练以通过以下中的至少一个来最小化所述多个第二媒体数据元素上的回归损失函数：所预测的所述至少一个第一ROI的坐标与已标记的多个第二ROI中的至少一个的坐标之间的均方误差、L1平均绝对误差、对数双曲余弦误差和Huber损失误差。