CN112806020A

CN112806020A - 基于向图像捕获设备标识捕获的视频数据中的感兴趣对象修改图像捕获设备对视频数据的捕获

Info

Publication number: CN112806020A
Application number: CN201980065921.7A
Authority: CN
Inventors: 詹森·弗朗西斯·哈里森; 蒂莫·朱哈尼·阿霍宁; 埃里克·W·黄
Original assignee: Facebook Inc
Current assignee: Meta Platforms Inc
Priority date: 2018-10-05
Filing date: 2019-10-03
Publication date: 2021-05-14
Also published as: US20200110958A1; US10915776B2; WO2020072730A1; EP3861756A1

Abstract

各种客户端设备包括显示装置和被配置成捕获视频数据的一个或更多个图像捕获设备。在线系统的不同用户可以授权客户端设备交换由它们各自的图像捕获设备捕获的信息。观看由另一用户的客户端设备捕获的视频数据的用户向另一用户的客户端设备标识视频数据中的感兴趣对象。另一用户的客户端设备修改捕获的视频数据，使得捕获的视频数据的焦点是感兴趣对象，因此感兴趣对象在捕获的视频数据中被放大。随后，修改的视频数据被传送到观看捕获的视频数据的用户的客户端设备。

Description

基于向图像捕获设备标识捕获的视频数据中的感兴趣对象修改图像捕获设备对视频数据的捕获

背景

本公开总体上涉及捕获视频数据，并且更具体地，涉及基于对捕获的视频数据中感兴趣对象的识别来修改捕获的视频数据。

越来越多的客户端设备、在线系统和网络允许用户相互交换更多的内容。例如，在线系统允许其用户经由与用户相关联的客户端设备来交换由不同用户捕获的视频数据。在特定示例中，在线系统可以在用户和另一用户之间建立视频消息传送(messaging)，允许用户实时或接近实时地交换由他们各自的客户端设备捕获的视频数据。

当在不同的客户端设备之间交换视频数据时，由发送客户端设备捕获的视频数据可以集中在观看由发送客户端设备捕获的视频数据的用户感兴趣的有限对象上。在各种实施方式中，接收客户端设备可以向发送客户端设备传送指令，以改变随后捕获的视频数据的焦点。假设发送客户端设备已经授权接收客户端设备向发送客户端设备提供指令，则发送客户端设备可以基于来自接收客户端设备的指令重新定位图像捕获设备。然而，传统的图像捕获设备通过重新定位它们的光轴来改变它们捕获的视频的焦点。例如，为了增加捕获的视频数据中包括的对象的放大率(magnification)，传统的图像捕获设备被重新定位，使得其光轴与对象对准，随后图像捕获设备沿着其光轴改变放大率。虽然这允许观看用户通过捕获的视频数据更好地观看对象，但是发送客户端设备对其图像捕获设备的重新定位提示观看用户重新定位观看用户对捕获的视频数据的注视，以跟踪发送设备的图像捕获设备的光轴的变化，这可能分散观看用户的注意力或使其迷失方向。

概述

与在线系统的用户相关联的各种客户端设备包括一个或更多个图像捕获设备。被包括在客户端设备中的图像捕获设备被配置成例如在视频呼叫期间或者当用户打开视频捕获功能时，捕获客户端设备周围的局部区域的视频数据。另外，客户端设备包括耦合到该一个或更多个图像捕获设备的控制器。控制器将一个或更多个模型应用于由图像捕获设备捕获的视频数据，并基于该一个或更多个模型的应用来修改由图像捕获设备捕获的视频数据或图像捕获设备的参数。

另外，在各种实施例中，控制器为用户和在视频数据或其他数据中捕获的其他人维护并实施一个或更多个隐私设置。例如，控制器可以具有默认隐私设置，防止控制器从捕获的视频数据中识别用户，直到用户手动改变隐私设置以允许控制器识别用户。默认隐私设置还可以扩展到任何捕获的视频数据、音频数据、图像数据或其他数据，使得用户可以选择是否允许图像捕获设备识别数据中的任何用户或人。另外，隐私设置还管理从客户端设备到另一实体(例如，另一客户端设备或第三方系统)的信息传输。各种隐私设置允许用户控制对用户的识别以及任何用户相关数据的存储和共享。也可以针对每个人或用户单独实施隐私设置。例如，选择加入(optin)用户识别功能的用户不会改变可能在客户端设备周围的局部区域中偶然捕获到的其他用户的默认隐私设置。

在各种实施例中，发送客户端设备的用户已经授权发送客户端设备经由图像捕获设备捕获视频数据，并从捕获的视频数据中识别用户，还授权发送客户端设备将捕获的视频数据传送到在线系统，在线系统将捕获的视频数据传送到接收客户端设备以呈现给观看用户。通过与接收客户端设备交互，观看用户识别捕获的视频数据中的感兴趣对象，并将标识感兴趣对象的信息传送到在线系统，在线系统将标识感兴趣对象的信息传送到发送客户端设备。感兴趣对象可以是捕获的视频数据中包括的对象、捕获的视频数据中包括的人或用户、或者捕获的视频数据中包括的人或用户的身体的一部分。基于该信息，发送客户端设备将感兴趣对象标识为捕获的视频数据的焦点，而无需重新定位发送客户端设备的图像捕获设备的光轴以与感兴趣对象对准。此外，发送客户端设备增加捕获的视频数据中的感兴趣对象的放大率(或放大(zoom))。例如，发送客户端设备增加捕获的视频数据的包括感兴趣对象的部分的放大率，并移除捕获的视频数据中不包括感兴趣对象的其他部分。或者，发送客户端设备将一个或更多个模型应用于捕获的视频数据，并根据一个或更多个模型的应用识别捕获的视频数据中的感兴趣对象。因此，发送客户端设备在不改变接收客户端设备的显示设备内呈现感兴趣对象的位置的情况下，增加捕获的视频数据的包括感兴趣对象的部分的放大率；例如，接收客户端设备在由发送客户端设备最初捕获的视频数据中和在来自发送客户端设备的修改的视频数据中，在接收客户端设备的显示设备的相同的水平和垂直坐标中显示感兴趣对象。例如，感兴趣对象被包括在呈现在接收客户端设备的显示设备的上三分之一内的捕获的视频数据的一部分中，并且当视频数据被修改以增加视频数据的包括感兴趣对象的部分的放大率时，感兴趣对象保持呈现在接收客户端设备的显示设备的上三分之一中。或者，发送客户端设备减小视频数据的包括感兴趣对象的部分的放大率，而不改变感兴趣对象在接收客户端设备的显示设备内呈现的位置。这防止了观看用户的眼睛相对于接收客户端设备的图像捕获设备移动，这避免了当来自发送客户端设备的视频数据被修改为更显著地呈现感兴趣对象时，观看用户的眼睛在由接收客户端设备捕获的视频数据中游离(wander)的现象。

在一些实施例中，发送客户端设备从观看用户接收一个或更多个指令，发送客户端设备使用这些指令来识别由发送客户端设备的图像捕获设备捕获的视频数据中的感兴趣对象，并修改捕获的视频数据，以在传送到在线系统以传递到接收客户端设备之前更显著地呈现感兴趣对象。例如，发送客户端设备从在线系统接收的附加指令使得发送客户端设备识别捕获的视频数据中包括的人的一个或更多个手势，只要为该人维护的隐私设置授权发送客户端设备识别该人的运动或手势，或者该人明确授权发送客户端设备识别该人的运动或手势。响应于识别出该人的一个或更多个特定手势，发送客户端设备从捕获的视频数据中识别该人正在向其打手势的对象或该人正持有的对象。随后，发送客户端设备通过选择所识别的对象作为捕获的视频数据的焦点并增加捕获的视频数据的包括所识别的对象的部分的放大率来修改捕获的视频数据。在一些实施例中，发送客户端设备增加捕获的视频数据的包括所识别的对象的部分的放大率，同时移除捕获的视频数据的不包括所识别的对象的其他部分，使得用户正在向其打手势的所识别的对象以至少一组阈值尺寸显示或者占据所捕获的视频数据的至少阈值量的帧。或者，发送客户端设备减小视频数据的包括所识别的对象的部分的放大率，而不改变所识别的对象在接收客户端设备的显示设备内呈现的位置。

根据本发明的一个方面，提供了一种方法，该方法包括：

捕获客户端设备中包括的图像捕获设备的视场内的局部区域的视频数据，该局部区域包括一个或更多个对象；

将视频数据从客户端设备传送到接收客户端设备；

在客户端设备处接收标识感兴趣对象的信息，该感兴趣对象是从来自图像捕获设备的所捕获的视频数据中包括的一个或更多个对象中选择的；

将由图像捕获设备捕获的视频数据的包括感兴趣对象的部分标识为由图像捕获设备捕获的视频数据的焦点；

通过增加由图像捕获设备捕获的视频数据的包括感兴趣对象的部分的放大率，并在修改的视频数据中和在捕获的视频数据中保持感兴趣对象在接收客户端设备的显示设备内的共同位置，来修改由图像捕获设备捕获的视频数据；和

将修改的视频数据从客户端设备传送到接收客户端设备。

在根据本发明的方法的一个实施例中，通过增加由图像捕获设备捕获的视频数据的包括感兴趣对象的部分的放大率，并在修改的视频数据中和在捕获的视频数据中保持感兴趣对象在接收客户端设备的显示设备内的共同位置，来修改由图像捕获设备捕获的视频数据可以包括：

通过增加由图像捕获设备捕获的视频数据的包括感兴趣对象的部分的放大率，并移除由图像捕获设备捕获的视频数据的不包括感兴趣对象的一个或更多个其他部分，来修改由图像捕获设备捕获的视频数据。

在根据本发明的方法的又一实施例中，将由图像捕获设备捕获的视频数据的包括感兴趣对象的部分标识为由图像捕获设备捕获的视频数据的焦点可以包括：

将由图像捕获设备捕获的视频数据的包括感兴趣对象的部分标识为视频数据的焦点，而无需重新定位图像捕获设备的光轴。

在本发明的另一个实施例中，该方法还可以包括：

在客户端设备处接收附加指令，以识别由图像捕获设备捕获的视频数据中包括的人的一个或更多个手势；

识别由图像捕获设备捕获的视频数据中包括的人执行的一个或更多个特定手势；

响应于识别到由图像捕获设备捕获的视频数据中包括的人执行的一个或更多个特定手势中的至少一个，分析由图像捕获设备捕获的视频数据以识别人正在向其打手势的对象；

将由图像捕获设备捕获的视频数据的包括人正在向其打手势的对象的部分标识为由图像捕获设备捕获的视频数据的焦点；和

通过增加由图像捕获设备捕获的视频数据的包括人正在向其打手势的对象的部分的放大率来修改由图像捕获设备捕获的视频数据。

在本发明的另一个实施例中，该方法还可以包括：

识别由图像捕获设备捕获的视频数据中包括的人所执行的手势，其中人持有对象；

响应于识别到由图像捕获设备捕获的视频数据中包括的人所执行的手势且其中人持有对象，将由图像捕获设备捕获的视频数据的包括人持有的对象的部分标识为由图像捕获设备捕获的视频数据的焦点；和

通过增加由图像捕获设备捕获的视频数据的包括人持有的对象的部分的放大率来修改由图像捕获设备捕获的视频数据。

在根据本发明的方法的另一个实施例中，感兴趣对象可以包括捕获的视频数据中包括的人。

在根据本发明的方法的另一个实施例中，感兴趣对象可以包括捕获的视频数据中包括的人的身体的一部分。捕获的视频数据中包括的人的身体的一部分可以从由以下项组成的组中选择：人的眼睛、人的面部和人的上身。

根据本发明的另一方面，提供了一种方法，该方法包括：

于在线系统处接收由发送客户端设备的图像捕获设备捕获的视频数据，该视频数据包括局部区域的图像，该局部区域包括发送客户端设备的图像捕获设备的视场内的一个或更多个对象；

将视频数据从在线系统传送到接收客户端设备；

从接收客户端设备接收对视频数据中包括的感兴趣对象的选择；

将标识视频数据中包括的感兴趣对象的信息从在线系统传送到发送客户端设备；

于在线系统处从发送客户端设备接收修改的视频数据，修改的视频数据具有感兴趣对象的焦点、感兴趣对象的增大的放大率，并且在修改的视频数据中和在由发送客户端设备的图像捕获设备捕获的视频数据中保持感兴趣对象在接收客户端设备的显示设备内的共同位置；和

将修改的视频数据从在线系统传送到接收客户端设备用于呈现。

在另一个实施例中，该方法还可以包括：

从接收客户端设备接收附加指令，以识别由图像捕获设备捕获的视频数据中包括的人的一个或更多个手势；

将附加指令从在线系统传送到发送客户端设备；

于在线系统处从发送客户端设备接收附加修改的视频数据，附加修改的视频数据具有由发送客户端设备的图像捕获设备捕获的视频数据中包括的人正在对其执行特定手势的对象的焦点，以及由发送客户端设备的图像捕获设备捕获的视频数据中包括的人正在对其执行特定手势的对象的增大的放大率；和

将附加修改的数据从在线系统传送到接收客户端设备。

在一个实施例中，该方法还可以包括：

将附加指令从在线系统传送到发送客户端设备；

于在线系统处从发送客户端设备接收附加修改的视频数据，附加修改的视频数据具有由发送客户端设备的图像捕获设备捕获的视频数据中包括的人持有的对象的焦点，以及由发送客户端设备的图像捕获设备捕获的视频数据中包括的人持有的对象的增大的放大率；和

将附加修改的数据从在线系统传送到接收客户端设备。

在根据本发明的方法的另一个实施例中，感兴趣对象包括捕获的视频数据中包括的人的身体的一部分。

根据本发明的另一方面，提供了一种计算机程序产品，该计算机程序产品包括非暂时性计算机可读存储介质或其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，该指令使处理器：

将视频数据从客户端设备传送到接收客户端设备；

将修改的视频数据从客户端设备传送到接收客户端设备。

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的另一个实施例中，通过增加由图像捕获设备捕获的视频数据的包括感兴趣对象的部分的放大率，并且在修改的视频数据中和在捕获的视频数据中保持感兴趣对象在接收客户端设备的显示设备内的共同位置，来修改由图像捕获设备捕获的视频数据，可以包括：

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的又一实施例中，将由图像捕获设备捕获的视频数据的包括感兴趣对象的部分标识为由图像捕获设备捕获的视频数据的焦点可以包括：

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的另一实施例中，非暂时性计算机可读存储介质还可以具有编码在其上的指令，当由处理器执行时，该指令使得处理器：

通过增加由图像捕获设备捕获的视频数据的包括人正在向其打手势的对象的部分的放大率，来修改由图像捕获设备捕获的视频数据。

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的另一个实施例中，非暂时性计算机可读存储介质还可以具有编码在其上的指令，当由处理器执行时，该指令使得处理器：

通过增加由图像捕获设备捕获的视频数据的包括人持有的对象的部分的放大率，来修改由图像捕获设备捕获的视频数据。

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的又一实施例中，感兴趣对象可以包括捕获的视频数据中包括的人。

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的另一实施例中，感兴趣对象可以包括捕获的视频数据中包括的人的身体的一部分。捕获的视频数据中包括的人的身体的一部分可以从由以下项组成的组中选择：人的眼睛、人的面部和人的上身。

将视频数据从在线系统传送到接收客户端设备；

在另一个实施例中，该方法还可以包括：

将附加指令从在线系统传送到发送客户端设备；

将附加修改的数据从在线系统传送到接收客户端设备。

在一个实施例中，该方法还可以包括：

将附加指令从在线系统传送到发送客户端设备；

将附加修改的数据从在线系统传送到接收客户端设备。

在根据本发明的计算机程序产品或非暂时性计算机可读存储介质的另一个实施例中，感兴趣对象包括捕获的视频数据中包括的人的身体的一部分。

在本发明的另一方面，提供了一种系统，该系统包括一个或更多个客户端设备、网络、一个或更多个第三方系统和在线系统，其中控制器耦合到一个或更多个客户端设备，该系统被配置为执行根据本发明的方法。

附图简述

图1是根据实施例的在线系统运行的系统环境的框图。

图2是根据实施例的客户端设备的框图。

图3是根据实施例的在线系统的框图。

图4是根据实施例的用于修改由图像捕获设备捕获的视频数据以特写(feature)向图像捕获设备标识出的感兴趣对象的方法的一个实施例的交互图。

图5是根据实施例，基于对视频数据中的感兴趣对象的识别，对由客户端设备的图像捕获设备捕获的视频数据的示例修改。

附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易认识到，在不脱离本文描述的原理的情况下，可以采用本文示出的结构和方法的替代实施例。

详细描述

系统架构

图1是用于在线系统140的系统环境100的框图。图1所示的系统环境100包括一个或更多个客户端设备110、网络120、一个或更多个第三方系统130和在线系统140。另外，在图1所示的系统环境100中，控制器117耦合到客户端设备110。在替代配置中，系统环境100中可以包括不同和/或附加的部件。例如，在线系统140是社交网络系统、内容共享网络或向用户提供内容的另一种系统。

客户端设备110是能够接收用户输入以及经由网络120传送和/或接收数据的一个或更多个计算设备。在一个实施例中，客户端设备110是传统的计算机系统，例如台式计算机或膝上型计算机。替代地，客户端设备110可以是具有计算机功能的设备，例如个人数字助理(PDA)、移动电话、智能手机或其他合适的设备。客户端设备110被配置成经由网络120进行通信。在一个实施例中，客户端设备110执行允许客户端设备110的用户与在线系统140交互的应用。例如，客户端设备110执行浏览器应用，以使得客户端设备110和在线系统140之间能够经由网络120进行交互。在另一实施例中，客户端设备110通过运行在客户端设备110的本机(native)操作系统(例如

或ANDROID^TM)上的应用编程接口(API)来与在线系统140交互。如下面结合图2进一步描述的，客户端设备110包括被配置为呈现内容的显示设备115以及被配置为捕获客户端设备110周围的局部区域的图像或视频数据的一个或更多个图像捕获设备。

客户端设备110被配置成使用有线和/或无线通信系统经由网络120进行通信，网络120可以包括局域网和/或广域网的任何组合。在一个实施例中，网络120使用标准通信技术和/或协议。例如，网络120包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、3G、4G、码分多址(CDMA)、数字用户线路(DSL)等技术的通信链路。用于经由网络120进行通信的网络协议的示例包括多协议标签交换(MPLS)、传送控制协议/互联网协议(TCP/IP)、超文本传送协议(HTTP)、简单邮件传送协议(SMTP)和文件传送协议(FTP)。可以使用任何合适的格式(例如超文本标记语言(HTML)或可扩展标记语言(XML))来表示通过网络120交换的数据。在一些实施例中，可以使用任何合适的技术或多项技术来对网络120的所有或一些通信链路进行加密。

一个或更多个第三方系统130可以耦合到网络120，以与在线系统140进行通信，这将在下面结合图3进行进一步的描述。在一个实施例中，第三方系统130是应用提供商，其传送描述用于由客户端设备110执行的应用的信息，或者向客户端设备110传送数据以供在客户端设备上执行的应用使用。在其他实施例中，第三方系统130经由客户端设备110提供用于呈现的内容或其他信息。第三方系统130还可以向在线系统140传送信息，例如广告、内容或关于第三方系统130提供的应用的信息。

图2是客户端设备117的实施例的框图。在图2所示的实施例中，客户端设备110包括显示设备115和图像捕获设备117以及控制器210。然而，在其他实施例中，客户端设备110包括与图2所示的那些部件不同的部件或附加部件。

显示设备115可以集成到客户端设备110中或者耦合到客户端设备110。例如，集成到客户端设备110中的显示设备115是被包括在客户端设备110中的显示屏。替代地，显示设备115是耦合到客户端设备110的监视器或其他显示装置。显示设备115向用户呈现图像数据或视频数据。显示设备115呈现的图像或视频数据由在客户端设备110上执行的应用确定。不同的应用可以被包括在客户端设备110上，使得不同应用的执行改变由显示设备115呈现给用户的内容。

图像捕获设备117捕获在客户端设备110周围且在图像捕获设备117的视场内的局部区域的视频数据或图像。在一些实施例中，图像捕获设备117包括一个或更多个相机、一个或更多个摄像机或能够捕获图像数据或视频数据的任何其他设备。另外，图像捕获设备117可以包括一个或更多个滤波器(例如，用于增加信噪比)。各种参数(例如，焦距、聚焦、帧速率、ISO、传感器温度、快门速度、光圈、焦点等)配置图像捕获设备117对视频数据或图像数据的捕获。因此，修改图像捕获设备117的一个或更多个参数会在该一个或更多个参数的修改之后修改由图像捕获设备117捕获的视频数据或图像数据。虽然图2示出了被包括在客户端设备110中的单个图像捕获设备117，但是在其他实施例中，客户端设备110包括任何合适数量的图像捕获设备117。在各种实施例中，用户具有防止任何记录(视频、语音等)被本地存储在客户端设备中和/或被存储在云上的选项，并且如果记录被保存的话，还具有删除任何记录的选项。

控制器210耦合到图像捕获设备117，并且包括耦合到处理器的存储设备。在各种实施例中，控制器210还耦合到显示设备115。控制器210包括指令，当这些指令由处理器执行时将一个或更多个模型应用于由图像捕获设备117捕获的视频数据。在各种实施例中，一个或更多个模型被应用于由图像捕获设备117或者被包括在客户端设备110中的或耦合到客户端设备110的任何其他设备捕获的视频数据、音频数据、图像数据或数据的任何组合。如下面结合图4进一步描述的，由控制器210应用于捕获的视频数据的模型将一个或更多个规则应用于捕获的视频数据的特征，以识别捕获的视频数据中的对象、人、移动或任何其他合适的内容。基于模型的应用并根据一个或更多个隐私设置，控制器210修改捕获的视频数据或修改图像捕获设备117的一个或更多个参数，使得修改随后捕获的视频数据。例如，用户可以授权控制器210应用基于捕获的视频数据的特征而在捕获的视频数据中定位用户的模型，并且修改捕获的视频数据以更显著地包括被定位的用户，或者修改图像捕获设备117的一个或更多个参数(例如，捕获的视频数据的焦距、放大率或缩放(zoom)、裁剪)使得附加的视频数据更显著地包括被定位的用户。附加的视频数据通过以至少一组阈值尺寸(例如，以至少阈值高度或阈值宽度)呈现被定位的人而更显著地包括被定位的人、在图像捕获设备117的至少阈值量的视场中或在捕获的视频数据的至少阈值量的帧中呈现被定位的人、或者在捕获的视频数据内的一个或更多个特定位置呈现被定位的人。然而，由控制器210应用的模型可以识别由图像捕获设备117捕获的视频数据的任何合适的组成部分，并且相应地修改图像捕获设备117的参数或者修改捕获的视频数据。

在各种实施例中，客户端设备110包括一个或更多个音频捕获设备(例如麦克风)。例如，客户端设备110包括被配置用于二维或三维波束成形的麦克风阵列。音频捕获设备从客户端设备110周围的局部区域内的不同区捕获音频信号。在各种实施例中，一个或更多个音频捕获设备耦合到控制器210，控制器210维护标识客户端设备110周围的局部区域中的不同区的信息；例如，控制器210标识客户端设备110周围的局部区域中源自客户端设备110内的点的24个15度区，从而标识客户端设备110周围的360度局部区域中的区。

一个或更多个音频捕获设备耦合到控制器210。根据用户选择的隐私设置，控制器210将一个或更多个模型(例如机器学习模型或其他声音辨识模型)应用于从客户端设备110周围的局部区域中的区捕获的音频数据。控制器210包括识别用户或对象(例如，电视、移动设备)的信息，并且将一个或更多个模型应用于从客户端设备110周围的局部区域中的区捕获的音频，以确定捕获的音频数据是否包括来自被控制器210识别的用户或对象的音频数据或环境噪声。在一些实施例中，由控制器210应用的一个或更多个模型确定由控制器210识别的特定用户或特定对象，一个或更多个音频捕获设备从该特定用户或特定对象捕获该区中的音频。在其他实施例中，客户端设备110将由一个或更多个音频设备捕获的音频数据传送到在线系统140，在线系统140应用一个或更多个模型，以确定音频数据是否包括从识别的对象或用户捕获的音频数据，或者确定从其捕获音频数据的特定识别的用户或对象。在线系统140向客户端设备110提供捕获的音频数据是否包括从识别的对象或用户捕获的音频数据的指示，或者提供指定从其捕获音频数据的特定识别的对象或用户的信息。控制器210或在线系统140类似地确定音频是否是从客户端设备110的局部区域周围的其他区捕获的。基于对从其捕获不同区中的音频数据的识别的对象或用户的确定，控制器210修改对一个或更多个音频设备的定位，以提高从一个或更多个区捕获的音频的质量。例如，控制器210重新定位一个或更多个音频捕获设备，以提高从局部区域周围的区(来自该区的音频数据是从特定用户或从特定对象捕获的)捕获的音频的质量。类似地，控制器210可以基于客户端设备110周围的局部区域中的区(来自该区的音频数据是从不同用户或对象捕获的)来重新定位图像捕获设备117或以其他方式修改图像捕获设备117的一个或更多个参数。在各种实施例中，一个或更多个音频设备和图像捕获设备117可以朝向客户端设备110周围的局部区域的不同部分。例如，图像捕获设备117朝向用户描述的对象，而控制器210使一个或更多个音频捕获设备朝向客户端设备110周围的局部区域中的区，音频数据是特定用户从该区捕获的。

在各种实施例中，在线系统140和客户端设备110的控制器210协作地或单独地维护和实施从捕获的视频数据或其他数据中识别的用户或人的一个或更多个隐私设置。用户或人的隐私设置确定可以如何共享与用户或人相关联的特定信息，并且可以与标识用户或人的信息相关联地被存储。在一些实施例中，控制器210检索由在线系统140维护的一个或更多个用户的隐私设置。在一个实施例中，隐私设置指定了与用户相关联的特定信息，并标识了可以与之共享所指定的信息的其他实体。可以与之共享信息的实体的示例可以包括其他用户、应用、第三方系统130、或可能潜在地访问信息的任何实体。可以由用户共享的信息的示例包括：包含用户或人的图像数据、包含从用户或人捕获的音频的音频数据、包含用户或人的视频数据等。

例如，在特定实施例中，隐私设置可以允许用户(例如，通过选择退出(opt out)、通过不选择加入(not opt in))指定在线系统140是否可以出于任何目的接收、收集、记录或存储与用户相关联的特定对象或信息。在特定实施例中，隐私设置可以允许用户指定特定视频捕获设备、音频捕获设备、应用或过程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许用户选择加入或选择退出使对象或信息被特定设备、应用或进程访问、存储或使用。在线系统140可以访问这样的信息以向用户提供特定的功能或服务，而在线系统140不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前，在线系统可以提示用户提供指定哪些应用或过程(如果有的话)可以在允许任何这样的动作之前访问、存储或使用对象或信息的隐私设置。作为示例而非限制，用户可以经由与在线系统140相关的应用(例如，消息传送app)向另一用户传送消息，并且可以指定这样的消息不应被在线系统140存储的隐私设置。

由在线系统140或控制器210维护和实施的隐私设置可以与默认设置相关联。在各种实施例中，控制器210不在捕获的视频数据、音频数据、图像数据或其他数据内识别用户，除非控制器210从用户获得授权控制器210识别用户的隐私设置。例如，与用户相关联的隐私设置具有防止控制器210识别用户的默认设置，因此控制器210不识别用户，除非用户手动改变该隐私设置以允许控制器210识别用户。此外，在各种实施例中，替代隐私设置管理从客户端设备110向另一实体(例如，另一客户端设备110、在线系统140、第三方系统130)传送识别用户的信息。在各种实施例中，替代隐私设置具有防止传送识别用户的信息的默认设置，这防止了控制器210向其他实体传送识别用户的信息，除非用户手动修改该替代隐私设置以授权传送。控制器210为从捕获的视频数据或其他数据中识别的每个用户维护一个或更多个隐私设置，允许对每个用户的传送和识别进行用户特定的控制。在一些实施例中，当控制器210最初从捕获的数据中识别人时，控制器210提示此人提供隐私设置，并将所提供的隐私设置与识别此人的信息相关联地进行存储。

在各种实施例中，对于具有可以将用户的个人信息或生物识别信息(biometricinformation)用作输入以用于用户认证或体验个性化目的的功能的在线系统140或客户端设备110的各种部件，用户可选择利用这些功能来增强他们使用设备和在线系统的体验。作为示例而非限制，用户可以自愿向在线系统140提供个人信息或生物识别信息。用户的隐私设置可以指定这样的信息仅可以用于特定的过程(例如认证)，并且进一步指定这样的信息不可以与任何第三方共享或者不可以用于与在线系统140相关联的其他过程或应用。作为另一示例而非限制，在线系统140可以为用户提供向在线系统140提供声纹(voice-print)记录的功能。作为示例而非限制，如果用户希望使用在线系统140的该功能，用户可以提供他或她自己的声音的声音记录，以通过在线系统140提供状态更新。声音输入的记录可以与用户的声纹进行比较，以确定用户说了什么词语。用户的隐私设置可以指定这种声音记录可以仅用于声音输入目的(例如，认证用户、发送声音消息、改进声音识别以使用在线系统140的声音操作特征)，并且还指定这种声音记录不可以与任何第三方系统130共享，或者不可以被与在线系统140相关联的其他进程或应用使用。作为另一示例而非限制，在线系统140可以为用户提供向在线系统140提供参考图像(例如，面部轮廓)的功能。在线系统140可以将参考图像与稍后接收的图像输入进行比较(例如，用于认证用户，在照片中标记用户)。用户的隐私设置可以指定这种语音记录仅可以用于有限的目的(例如，认证、在照片中标记用户)，并且进一步指定这种语音记录不可以与任何第三方系统共享或者不可以由与在线系统140相关联的其他过程或应用使用。对捕获生物识别数据和/或其他个人数据的任何这样的限制也可以应用于客户端设备110。

用户可以授权以一种或更多种方式捕获数据、识别用户和/或共享和跨应用使用用户相关数据。例如，在用户使用客户端设备110的功能和/或在在线系统140中采取动作之前，用户可以预先选择各种隐私设置。在另一种情况下，当用户第一次执行动作或使用客户端设备110或在线系统140的功能时、或当用户已经一预定时间段没有执行动作或使用功能时，可以提示选择对话框。在又一个示例中，当需要用户数据的某些功能开始操作或者由于用户的选择而被禁用时，客户端设备110和在线系统140还可以向用户提供通知，以允许用户通过通知做出进一步的选择。用户进行授权的其他合适方式也是可能的。

在一些实施例中，根据用户的隐私设置，控制器210为从捕获的视频数据中识别的用户获得由在线系统140维护的或来自一个或更多个第三方系统130的信息。基于包括客户端设备110先前捕获的用户的视频数据、音频数据、图像数据或其他数据以及获得的信息，控制器210可以生成用于经由客户端设备110呈现给用户的内容。例如，控制器210叠加(overlay)来自在线系统140的、与控制器210从客户端设备110捕获的视频数据或图像数据中识别的一个或更多个对象相关联的内容项。替代地，在线系统140基于从客户端设备110接收的包括用户的视频数据、图像数据、音频数据或其他数据以及在线系统140为用户维护的信息(或在线系统140从一个或更多个第三方系统130获得的信息)来为用户生成内容，并将生成的内容提供给客户端设备110用于呈现给用户。

图3是在线系统140的架构的框图。图3所示的在线系统140包括用户简档储存器305、内容储存器310、动作记录器315、动作日志320、边储存器(edge store)325、内容选择模块330和web服务器335。在其他实施例中，在线系统140可以包括用于各种应用的附加的、更少的或不同的部件。没有示出常规部件(例如网络接口、安全功能、负载平衡器、故障转移服务器、管理和网络操作控制台等)，以便不使系统架构的细节模糊。

在线系统140的每个用户与被存储在用户简档储存器305中的用户简档相关联。用户简档包括由用户明确共享的关于用户的声明性信息，并且还可以包括由在线系统140推断的简档信息。在一个实施例中，用户简档包括多个数据字段(data field)，每个数据字段描述相应在线系统用户的一个或更多个属性。存储在用户简档中的信息的示例包括传记信息、人口统计信息和其他类型的描述性信息(例如工作经历、教育历史、性别、爱好或偏好、位置等)。用户简档还可以存储用户提供的其他信息，例如图像或视频。在某些实施例中，可以用标识图像中显示的在线系统用户的信息来对用户的图像进行标记，其中标识用户被标记的图像的信息存储在用户的用户简档中。用户简档储存器305中的用户简档还可以维护对相应用户在内容储存器310中的内容项上执行的并存储在动作日志320中的动作的引用。

此外，为用户维护的用户简档包括与用户相关联的一个或更多个客户端设备110的特性，允许在线系统140随后从客户端设备110提供的特性中识别用户。例如，与在线系统140相关联并在客户端设备110上执行的应用将设备标识符或唯一标识客户端设备110的其他信息与用户标识符相关联地提供到在线系统140。在线系统110在为用户维护的用户简档中存储设备标识符或唯一标识客户端设备110的其他信息，这允许随后如果在线系统140接收到设备标识符或唯一标识客户端设备110的其他信息则进行用户识别。与用户相关联的客户端设备110的其他特性可以替代地或附加地被包括在用户维护的用户简档中。例如，用户简档包括客户端设备110用来访问网络120的网络地址、在线系统140从其接收信息的客户端设备110上执行的应用的标识符、在线系统140从其接收信息的客户端设备110的类型(例如，制造商、客户端设备110的型号的标识符等)以及在线系统140从其接收信息的客户端设备110上执行的操作系统。然而，在线系统140可以在用户简档中存储客户端设备110的任何合适特性，这允许在线系统140维护关于与用户简档相对应的用户所使用的客户端设备110的信息。

虽然用户简档储存器305中的用户简档通常与个人相关联，允许个人经由在线系统140彼此进行交互，但是也可以为诸如企业或组织的实体而存储用户简档。这允许实体在在线系统140上建立存在，用于与其他在线系统用户关连并交换内容。实体可以使用与该实体的用户简档相关联的品牌页面来发布关于其自身、关于其产品的信息或者向在线系统140的用户提供其他信息。在线系统140的其他用户可以关连到品牌页面以接收被发布到品牌页面的信息或者从品牌页面接收信息。与品牌页面相关联的用户简档可以包括关于实体自身的信息，以向用户提供关于实体的背景或信息数据。

内容储存器310存储对象，这些对象各自表示各种类型的内容。对象表示的内容的示例包括页面帖子、状态更新、照片、视频、链接、共享的内容项、游戏应用成就、在本地企业处的签到(check-in)事件、品牌页面或任何其他类型的内容。在线系统用户可以创建由内容储存器310存储的对象，诸如状态更新、被用户标记为与在线系统140中的其他对象相关联的照片、事件、群组或应用。在一些实施例中，从第三方应用或独立于在线系统140的第三方应用接收对象。在一个实施例中，内容储存器310中的对象表示单条内容(single pieceof content)或内容“项目(item)”。因此，通过经由各种通信渠道(communicationchannel)将文本和各种类型的媒体的内容项发布到在线系统140来鼓励在线系统用户与彼此进行通信。这增加了用户与彼此之间的交互的量，并增加了用户在在线系统140内交互的频率。

被包括在内容储存器310中的一个或更多个内容项包括创意(creative)和出价金额(bid amount)，创意是用于呈现给用户的内容。创意是呈现给用户的文本、图像、音频、视频或任何其他合适的数据。在各种实施例中，创意还指定一页内容。例如，内容项包括指定当内容项被访问时用户所朝向的内容的登录页面的网络地址的链接。如果向用户呈现内容，出价金额被用户包括在内容项中，并且如果内容项中的内容被呈现给用户、如果内容项中的内容在呈现时接收到用户交互、或者如果当内容项中的内容被呈现给用户时满足任何合适的条件，则出价金额被用来确定广告商提供给在线系统140的预期值，例如货币报酬(monetary compensation)。例如，被包括在内容项中的出价金额指定了，如果内容项中的内容被显示，在线系统140从向在线系统140提供内容项的用户接收的货币金额。在一些实施例中，对于在线系统140呈现来自内容项的内容的预期值，可以通过将出价金额乘以用户访问内容项的内容的概率来被确定。

各种内容项可以包括标识与内容项相关联的用户期望其他用户在呈现有被包括在内容项中的内容时执行的交互的意图(objective)。示例意图包括：安装与内容项相关联的应用、指示对内容项的偏好、与其他用户分享内容项、与和内容项相关联的对象进行交互、或者执行任何其他合适的交互。当来自内容项的内容被呈现给在线系统用户时，在线系统140记录在被呈现内容项的用户之间的交互或者与和内容项相关联的对象的交互。此外，当在线系统用户执行与内容项的交互，其满足内容项中包括的意图时，在线系统140从与该内容项相关联的用户接收报酬。

此外，内容项可以包括由向在线系统140提供内容项的用户指定的一个或更多个定位标准(targeting criteria)。被包括在内容项请求中的定位标准指定有资格被呈现有内容项的用户的一个或更多个特性。例如，定位标准用于识别具有满足定位标准中的至少一项的用户简档信息、边或动作的用户。因此，定位标准允许用户识别具有特定特性的用户，这简化了随后向不同用户分发内容。

在一个实施例中，定位标准可以指定用户与在线系统140的另一用户或对象之间的动作或关连的类型。定位标准还可以指定用户与在在线系统140外部(例如在第三方系统130上)执行的对象之间的交互。例如，定位标准识别已经采取特定动作(例如向另一用户发送消息、使用应用、加入群组、离开群组、加入事件、生成事件描述、使用在线市场购买或查看产品或服务、从第三方系统130请求信息、安装应用或执行任何其他合适的动作)的用户。在定位标准中包括动作允许用户进一步细分(refine)有资格被呈现有内容项的用户。作为另一示例，定位标准识别与另一用户或对象有关连或者与另一用户或对象有特定类型的关连的用户。

基于隐私设置，动作记录器315可以被授权接收关于在在线系统140内部和/或外部的用户动作的通信，用关于用户动作的信息填充动作日志320。动作的示例包括添加与另一用户的关连、向另一用户发送消息、上传图像、从另一用户读取消息、查看与另一用户相关联的内容以及参加由另一用户发布的事件。此外，许多动作可能涉及一个对象和一个或更多个特定用户，因此这些动作也与特定用户相关联并存储在动作日志320中。

基于隐私设置，动作日志320可以被用户授权为由在线系统140使用以跟踪在线系统140上的用户动作以及向在线系统140传送信息的第三方系统130上的动作。用户可以与在线系统140上的各种对象交互，并且描述这些交互的信息被存储在动作日志320中。与对象的交互的示例包括：评论帖子、分享链接、经由客户端设备110在物理位置签到、访问内容项目以及任何其他合适的交互。包括在动作日志320中的与在线系统140上的对象的交互的附加示例包括：评论相册、与用户通信、与对象建立关连、加入事件、加入群组、创建事件、授权应用、使用应用、表达对对象的偏好(“赞(like)”对象)、以及参与交易。此外，动作日志320可以记录用户与在线系统140上的广告的交互以及与在线系统140上运行的其他应用的交互。在一些实施例中，来自动作日志320的数据被用于推断用户的兴趣或偏好，增强了用户的用户简档中包括的兴趣，并允许对用户偏好的更完整的理解。

根据用户的隐私设置，动作日志320还可以存储在第三方系统130(例如外部网站)上采取的用户动作并传送给在线系统140。例如，电子商务网站可以通过使电子商务网站能够识别在线系统140的用户的社交插件(social plug-in)来辨识在线系统140的用户。因为在线系统140的用户是唯一可识别的，所以(例如在前面的示例中)电子商务网站可以将关于用户于在线系统140外部的动作的信息传送给在线系统140，用于与用户进行关联。因此，动作日志320可以记录关于用户在第三方系统130上执行的动作的信息，包括网页浏览历史、参与的广告、完成的购买以及来自购物和购买的其他模式。另外，用户经由与第三方系统130相关联的应用来执行的且在客户端设备110上执行的动作可以由该应用传送给动作记录器315，用于在动作日志320中进行记录和与用户进行关联。

在一个实施例中，边储存器325将描述用户与在线系统140上的其他对象之间的关连的信息存储为边。某些边可以由用户定义，允许用户指定他们与其他用户的关系。例如，用户可以生成平行于用户的现实生活关系(例如朋友、同事、伙伴等等)的与其他用户的边。当用户与在线系统140中的对象交互(例如表达对在线系统140上的页面的兴趣、与在线系统140的其他用户分享链接、以及对由在线系统140的其他用户制作的帖子进行评论)时，生成其他边。

边可以包括各种特征，每个特征表示用户之间的交互、用户和对象之间的交互、或者对象之间的交互的特性。例如，边中包括的特征描述了两个用户之间的交互的速率、两个用户最近如何与彼此进行交互、一个用户检索关于对象的信息的速率或量、或者用户发布的关于对象的评论的数量和类型。这些特征还可以表示描述特定对象或用户的信息。例如，特征可以表示用户对特定主题的兴趣程度、用户登录在线系统140的速率、或者描述关于用户的人口统计信息的信息。每个特征可以与源对象或用户、目标对象或用户以及特征值相关联。特征可以被指定为基于描述源对象或用户、目标对象或用户、或者源对象或用户与目标对象或用户之间的交互的值的表达式；因此，边可以被表示为一个或更多个特征表达式。

边储存器325还存储关于边的信息，例如对象、兴趣和其他用户的亲和力分数(affinity score)。在线系统140可以随时间计算亲和力分数或“亲和力”，以基于用户执行的动作来近似用户对在线系统140中的另一用户或对象的兴趣。在线系统140可以随时间计算用户的亲和力，以基于用户执行的动作来近似用户对在线系统140中的另一用户、对象或主题的兴趣。在于2010年12月23日提交的第12/978,265号美国专利申请、于2012年11月30日提交的第13/690,254号美国专利申请、于2012年11月30日提交的第13/689,969号美国专利申请和于2012年11月30日提交的第13/690,088号美国专利申请中进一步描述了亲和力的计算，这些专利申请中的每一个专利申请都在此通过引用以其整体并入。在一个实施例中，用户和特定对象之间的多个交互可以作为单条边存储在边储存器325中。替代地，用户和特定对象之间的每次交互都被存储为单独的边。在一些实施例中，用户之间的关连可以存储在用户简档储存器305中，或者用户简档储存器305可以访问边储存器325以确定用户之间的关连。

内容选择模块330选择用于传送给客户端设备110的一个或更多个内容项，以呈现给用户。内容选择模块330从内容储存器310或从另一个源检索有资格呈现给用户的内容项，内容选择模块330选择这些内容项中的一个或更多个内容项用于呈现给观看用户。有资格呈现给用户的内容项是与用户的特性所满足的至少阈值数量的定位标准相关联的内容项，或者是与定位标准不相关联的内容项。在各种实施例中，内容选择模块330包括在一个或更多个选择过程中的有资格呈现给用户的内容项，这些选择过程识别一组要呈现给用户的内容项。例如，内容选择模块330基于由在线系统140关联到用户的属性以及基于用户对不同内容项的亲和力来确定各种内容项与用户的相关性度量。内容项与用户的相关性度量是基于对用于用户的内容项的质量的度量的，这可以基于内容项中包括的创意以及由内容项中的链接标识的登录页面的内容。基于相关性度量，内容选择模块330选择内容项用于呈现给用户。作为附加示例，内容选择模块330选择具有最高相关性度量或具有至少阈值相关性度量的内容项用于呈现给用户。替代地，内容选择模块330基于其相关联的相关性度量来对内容项进行排名，并选择在排名中具有最高位置或者在排名中至少具有阈值位置的内容项用于呈现给用户。

有资格呈现给用户的内容项可以包括与出价金额相关联的内容项。当选择呈现给用户的内容时，内容选择模块330使用与内容项相关联的出价金额。在各种实施例中，内容选择模块330基于各种内容项的出价金额来确定与各种内容项相关联的预期值，并选择与最大预期值相关联或至少与阈值预期值相关联的内容项来呈现。与内容项相关联的预期值表示对用于呈现内容项给在线系统140的预期报酬量。例如，与内容项相关联的预期值是内容项的出价金额和用户与内容项交互的可能性的乘积。内容选择模块330可以基于内容项的相关出价金额来对内容项进行排名，并选择在排名中至少具有阈值位置的内容项以呈现给用户。在一些实施例中，内容选择模块330基于与内容项相关联的出价金额和相关性度量，在统一的排名中对与出价金额不相关联的内容项和与出价金额相关联的内容项进行排名。基于该统一排名，内容选择模块330选择内容以呈现给用户。在于2012年7月10日提交的第13/545,266号美国专利申请中进一步描述了通过统一排名来选择与出价金额相关联的内容项和与出价金额不相关联的内容项，该专利申请在此通过引用以其整体并入。

例如，内容选择模块330接收向在线系统140的用户呈现内容信息流(feed)的请求。该信息流包括内容项，例如描述与关连到该用户的其他在线系统用户相关联的动作的动态(stories)。内容选择模块330访问用户简档储存器305、内容储存器310、动作日志320和边储存器325中的一个或更多个，以检索关于用户的信息。例如，对描述与关连到该用户的其他用户相关联的动作或者与关连到该用户的用户相关联的其他数据的信息进行检索。内容选择模块330检索并分析来自内容储存器310的内容项，以识别有资格呈现给用户的候选内容项。例如，与未关连到该用户的用户相关联的内容项或者与该用户具有小于阈值亲和力的用户相关联的动态被舍弃用作候选内容项。基于各种标准，内容选择模块330选择一个或更多个被识别为候选内容项的内容项，用于呈现给识别的用户。所选择的内容项被包括在呈现给该用户的内容信息流中。例如，内容信息流包括至少阈值数量的内容项，其描述与经由在线系统140关连到该用户的用户相关联的动作。

在各种实施例中，内容选择模块330通过包括被选择用于呈现给用户的多个内容项的信息流来向用户呈现内容。内容选择模块330还可以确定所选择的内容项经由信息流被呈现的顺序。例如，内容选择模块330基于用户与各种内容项交互的可能性来对信息流中的内容项进行排序。

基于用户的动作或许可，内容选择模块330接收由被包括在与在线系统的用户相关联的客户端设备110中的图像捕获设备117捕获的视频数据，并且将该视频数据传送到接收客户端设备110，用于经由显示设备115呈现给观看用户。在线系统140可以从客户端设备110接收识别观看用户的请求，并且随后响应于从观看用户接收到授权，向接收客户端设备110提供来自客户端设备110的视频数据。相反，在线系统140经由接收客户端设备110接收来自观看用户的请求，并且随后响应于从用户接收到授权，向接收客户端设备110提供从客户端设备110接收的视频数据。这允许在线系统140的不同用户经由在线系统140交换由与用户相关联的客户端设备110捕获的视频数据。

此外，内容选择模块330可以经由接收客户端设备110从观看用户接收指令，并将一个或更多个指令传送到客户端设备110。基于接收到的指令，客户端设备110修改在接收到指令之后捕获的视频数据，或者基于指令修改图像捕获设备117的一个或更多个参数。因此，客户端设备110基于来自接收客户端设备110的一个或更多个指令来修改捕获的视频数据，并且将修改后的视频数据或者由图像捕获设备117使用修改后的参数捕获的视频数据传送到内容选择模块330，内容选择模块330将该视频数据传送到接收客户端设备110，这在下面结合图4进行进一步描述。这允许观看用户修改或调整由客户端设备110捕获并经由接收客户端设备110提供给观看用户的视频数据。

在各种实施例中，内容选择模块330实施在线系统140的用户的一个或更多个隐私设置。用户的隐私设置确定可以如何共享与用户相关联的特定信息，并且可以存储在用户简档储存器305中的用户的用户简档中。在一个实施例中，隐私设置指定了与用户相关联的特定信息，并标识了可以与之共享所指定的信息的其他实体。可以与之共享信息的实体的示例可以包括其他用户、应用、第三方系统130、或可能潜在地访问信息的任何实体。可以由用户共享的信息的示例包括用户简档信息(例如简档照片)、与用户相关联的电话号码、用户的关连、包括用户的视频数据、由用户采取的动作(例如添加关连)、改变用户简档信息等。在各种实施例中，在线系统140维护与用户相关联的隐私设置，该隐私设置具有防止其他实体访问或接收与用户相关联的内容的默认设置，并且允许用户修改不同的隐私设置，以允许由用户指定的其他实体访问或检索对应于修改后的隐私设置的内容。

可以以不同的粒度水平提供隐私设置规范。在一个实施例中，隐私设置可以标识要与其他用户共享的特定信息。例如，隐私设置标识电话号码或一组特定的相关信息(例如，包括简档照片、家庭电话号码以及状态的个人信息)。可选地，隐私设置可以应用于与用户相关联的所有信息。也可以以不同的粒度水平指定可以访问特定信息的该组实体的规范。可以与之共享信息的各种实体集合可以包括例如关连到该用户的所有用户、关连到该用户的一组用户、与关连到该用户的用户关连的附加用户、所有应用、所有第三方系统130、特定第三方系统130或所有外部系统。

一个实施例使用实体的枚举来指定被允许访问所标识的信息的实体或者标识呈现给不同实体的信息类型。例如，用户可以指定传送给其他用户的或传送给指定用户组的动作的类型。替代地，用户可以指定动作的类型或不发布或呈现给其他用户的其他信息的类型。

内容选择模块330包括确定与用户相关联的某些信息是否可以由经由在线系统140关连到该用户的其他用户、第三方系统130和/或其他应用和实体进行访问的逻辑。基于用户的隐私设置，内容选择模块330确定另一用户、第三方系统130、应用或另一实体是否被允许访问与该用户相关联的信息(包括关于用户采取的动作的信息)。例如，内容部分模块330使用用户的隐私设置来确定包括该用户的视频数据是否可以呈现给另一用户。这使用户的隐私设置能够指定哪些其他用户或其他实体被允许接收关于用户的动作的数据或与用户相关联的其他数据。

内容选择模块330包括确定与用户相关联的某些信息是否可以由经由在线系统140关连到该用户的其他用户、第三方系统130和/或其他应用和实体进行访问的逻辑。基于用户的隐私设置，内容选择模块330确定另一用户、第三方系统130、应用或另一实体是否被允许访问与该用户相关联的信息(包括关于用户采取的动作的信息)。例如，内容部分模块230使用用户的隐私设置来确定包括该用户的视频数据是否可以呈现给另一用户。这使用户的隐私设置能够指定哪些其他用户或其他实体被允许接收关于用户的动作的数据或与用户相关联的其他数据。

web服务器335经由网络120将在线系统140链接到一个或更多个客户端设备110以及链接到一个或更多个第三方系统130。web服务器335提供网页以及其他内容，例如

XML等。web服务器335可以接收消息并在在线系统140和客户端设备110之间路由该消息(例如即时消息、排队消息(例如，电子邮件)、文本消息、短消息服务(SMS)消息或使用任何其他合适的消息传送技术发送的消息)。用户可以向web服务器335发送上传存储在内容储存器310中的信息(例如，图像或视频)的请求。此外，web服务器335可以提供应用编程接口(API)功能，以将数据直接发送到本机客户端设备操作系统，例如

ANDROID^TM或BlackberryOS。

基于所识别的感兴趣对象修改由客户端设备捕获的视频数据

图4是用于修改由图像捕获设备117捕获的视频数据以特写向图像捕获设备117标识出的感兴趣对象的方法的一个实施例的交互图。在各种实施例中，可以以不同的顺序执行结合图4描述的步骤。此外，在一些实施例中，该方法可以包括与图4所示的那些步骤不同的步骤和/或附加的步骤。

如上面结合图1和图2进一步描述的，图像捕获设备117被包括在发送客户端设备110A中，并且捕获405发送客户端设备110A周围的局部区域的视频数据。由图像捕获设备117捕获的图像被传送到被包括在发送客户端设备110A中的(或者在其他实施例中耦合到客户端设备110的)控制器210。在各种实施例中，用户可以(例如，通过预先选择的隐私设置和/或提示选择)授权控制器210将一个或更多个机器学习模型应用于由图像捕获设备117捕获405的视频的特征，以定位捕获的视频数据中包括的人。在各种实施例中，控制器210修改视频数据以更显著地呈现被定位的用户，并将修改后的视频数据传送410到在线系统140。通过在视频数据中以至少一组阈值尺寸(例如，以至少阈值高度或阈值宽度)呈现、在图像捕获设备117的至少阈值量的视场中或在捕获的视频数据的至少阈值量的帧中呈现、或者在捕获的视频数据内的一个或更多个特定位置呈现，而更显著地呈现被定位的用户。例如，控制器210裁剪捕获的视频数据，以移除视频数据中不包括至少一个人的部分。作为另一示例，控制器210增加对视频数据中包括人的一部分的放大(也被称为放大率)。为了修改捕获的视频数据，控制器210可以在视频数据被图像捕获设备117捕获之后修改该视频数据，或者可以修改图像捕获设备117的一个或更多个参数以修改图像捕获设备117如何捕获405视频数据。

在各种实施例中，控制器210应用一种或更多种方法来在捕获的视频数据内定位人。然而，控制器210可以通过将一个或更多个模型应用于捕获的视频数据来类似地定位对象(例如，电器、家具、产品)。虽然以下示例涉及将模型应用于视频数据，但是一个或更多个模型可以被应用于视频数据、音频数据、图像数据、由客户端设备110捕获的任何其他数据及其任意组合。控制器210可以使用任何合适的模型或模型的组合来在由图像捕获设备117捕获405的视频数据内定位人。由控制器210应用于捕获的视频数据的模型可以执行(二维或三维的)面部跟踪、二维姿态跟踪、三维姿态跟踪或任何其他合适的方法来识别人的面部的一些部分或人的身体的一些部分。类似地，由控制器210应用的模型可以从捕获的视频数据中识别对象。在一些实施例中，基于用户的授权，控制器210与在线系统140通信，以基于从在线系统140获得的信息更具体地识别对象或人，而在其他实施例中，控制器210在本地维护模型，以从捕获的视频数据中识别不同的对象或人。基于一个或更多个模型的应用，控制器210可以修改包括被定位用户的身体的某些部分的捕获的视频数据的裁剪或缩放，以更显著地显示被定位用户的身体的某些部分。例如，当一个或更多个模型识别出人的面部时，控制器修改捕获的视频数据以移除视频数据中不包括人的面部的部分。如果一个或更多个模型的应用在捕获的视频数据中定位到多个人，则控制器210修改捕获的视频数据，使得视频的不同部分显示不同的人。例如，控制器210将捕获的视频数据划分成网格，网格的每个区域显示不同人的一个或更多个部分。在其他实施例中，控制器210增加图像捕获设备117在包括人的一部分的一部分视频数据上的放大率(即，放大)。因此，控制器210可以裁剪捕获的视频数据的部分或者增加捕获的视频数据的部分的放大率(即，放大)来修改视频数据，以更显著地呈现在捕获的视频数据内定位的一个或更多个人的部分。此外，当基于一个或更多个模型的应用来修改捕获的视频数据时，控制器210可以应用一个或更多个模型来稳定(stabilize)修改的视频数据，从而以更高的质量呈现一个或更多个被定位的人的部分。

基于隐私设置，控制器210还可以应用一个或更多个模型来定位被识别的人的身体的部位，并修改图像捕获设备117的一个或更多个参数或由图像捕获设备117捕获的视频数据，以修改捕获的视频数据中包括的被定位的人的身体的部分。例如，控制器210定位被识别的人的身体的不同关节，并修改捕获的视频数据或图像捕获设备117的参数，以在捕获的视频数据中包括对应于被定位的人的身体的不同部位的关节。因此，控制器210可以修改捕获的视频数据是包括人的头部、人的头部和躯干、还是人的全身。控制器210可以包括各种规则，这些规则基于在先前捕获的视频数据中包括的内容、在先前捕获的视频数据中识别的运动或者从视频数据中识别的任何其他合适的特征，来修改捕获的视频数据中包括的人的身体的部分。

在各种实施例中，由控制器210应用的一个或更多个模型应用一个或更多个规则来修改由发送客户端设备110A的图像捕获设备117捕获405的视频数据。例如，如果控制器210还确定从视频数据中定位的人的面部朝向相机，则控制器210通过修改在此人所在的一部分视频数据上的捕获的数据的缩放，或者通过修改此人所在的一部分视频数据的裁剪以移除除此人之外的对象，来修改捕获的视频数据，以更显著地显示从视频数据中定位的人。作为示例，如果控制器210应用的一个或更多个模型确定人的面部朝向图像捕获设备117(例如，如果人的面部的一个或更多个特定特征被图像捕获设备117捕获)，则控制器210修改捕获的视频数据以更显著地显示用户的面部。在另一示例中，控制器210确定视频数据内被定位的人和图像捕获设备117之间的距离，并且修改捕获的视频数据以显著地显示离图像捕获设备117具有最小确定距离的人、或者显著地显示离图像捕获设备的确定距离小于阈值距离的人。在另一示例中，当人或对象移动时，控制器210应用一个或更多个模型来重新定位图像捕获设备117，允许图像捕获设备117捕获的视频数据跟踪人或对象的移动。

由控制器210应用的一个或更多个模型可以基于考虑在捕获的视频数据中识别的多个人的位置的规则来修改捕获的视频数据。在各种实施例中，用户可以授权控制器210在捕获的视频中定位用户，控制器210将模型应用于捕获的视频，该模型确定捕获的视频数据内被识别用户的注视所朝向的位置。响应于确定至少阈值数或阈值数量的被定位用户具有朝向捕获的视频数据内包括特定人的位置的注视，控制器210修改捕获的视频数据以更显著地显示该特定人(例如，裁剪捕获的视频数据以移除除该特定人之外的内容，增加该特定人的放大率或放大)。作为另一示例，控制器210确定在视频数据内被定位的不同人之间的距离，并修改捕获的视频数据以更显著地显示在彼此的阈值距离内的人；这允许控制器210通过裁剪或缩放一组人所在的一部分视频数据来修改捕获的视频数据。此外，控制器210可以基于捕获的视频数据内识别的对象或人而从捕获的视频数据中移除一个或更多个帧；例如，如果在捕获的视频数据内识别少于阈值数量的对象或人，或者如果在捕获的视频数据内识别的对象或人的小于阈值量的移动被确定，则控制器210在将捕获的视频数据传送410到在线系统140之前从捕获的视频数据中移除帧。在其他实施例中，如下面进一步描述的，在线系统140在向接收客户端设备110B传送415捕获的视频数据之前，使用上述标准从接收自发送客户端设备110A的视频数据中移除帧。

控制器210可以从发送客户端设备110A的其他部件接收数据，并且基于所接收的视频数据和来自发送客户端设备110A的其他部件的数据的特性来修改捕获的视频数据。例如，图像捕获设备117或客户端设备110包括音频捕获设备(例如麦克风)，其被配置为从客户端设备110周围的局部区域捕获音频数据。当修改捕获的视频数据时，用户可以授权控制器210连同捕获的视频数据一起处理捕获的音频数据。在各种实施例中，控制器210将一个或更多个模型应用于捕获的音频数据，以确定捕获的视频数据内包括音频数据源的位置。控制器210将一个或更多个模型应用于捕获的视频数据内包括音频数据源的位置。响应于模型的应用确定捕获的视频数据内包括音频数据源的位置包括人，控制器210修改捕获的视频数据以更显著地呈现捕获的视频数据内包括音频数据源的位置(即，增加包括捕获的视频数据的源的位置的放大，或者裁剪包括捕获的视频数据的源的位置，以移除除捕获的视频数据的源之外的对象)，或重新定位图像捕获设备117以聚焦在音频数据源上。然而，响应于确定捕获的视频数据内包括音频数据源的位置不包括人，控制器210不修改捕获的视频数据或重新定位图像捕获设备117。作为另一示例，控制器210修改捕获的视频数据或重新定位图像捕获设备117，以更显著地呈现捕获的视频数据内被定位的、控制器210确定其是捕获的音频数据的源的人，允许捕获的视频数据更显著地显示被确定为正在说话或以其他方式提供被发送客户端设备110A的音频捕获设备捕获的音频数据的人(即，增加包括被确定为正在提供音频数据的人的位置的放大，或者裁剪包括捕获的视频数据的源的位置，以移除除了被确定为正在提供音频数据的人之外的对象)。

在一些实施例中，用户还可以授权控制器210应用一个或更多个模型，以基于由图像捕获设备117先前捕获405的视频数据来修改捕获的视频数据或客户端设备110的图像捕获设备117的参数。例如，如果控制器210在捕获的视频数据中定位到多个人，则控制器210修改捕获的视频数据或成像设备117的一个或更多个参数，使得每个被定位的人在捕获的视频中被显著地呈现(例如，以至少一组阈值尺寸在视频数据中呈现、在图像捕获设备117的至少阈值量的视场中或者在捕获的视频数据的至少阈值量的帧中呈现、或者在捕获的视频数据内的一个或更多个特定位置呈现)最小量的时间。作为另一示例，根据隐私设置，控制器210存储标识所捕获的视频数据中被定位的人的信息，这些人已经在捕获的视频数据中被显著地呈现了至少阈值量的时间。当控制器210在捕获的视频数据中定位到另一人时，控制器210将该另一人与所存储的标识已经在捕获的视频数据中被显著地呈现的人的信息进行比较。响应于确定所存储的信息没有标识该另一人，控制器210修改捕获的视频数据或修改图像捕获设备117的一个或更多个参数，以显著地显示该另一人至少阈值量的时间。这允许控制器210修改视频数据，使得由控制器210在视频数据中定位的每个人都被显著地显示至少阈值量的时间。

此外，控制器210可以响应于识别出捕获的视频数据中被定位的人的运动来修改捕获的视频数据或图像捕获设备117的参数。例如，如果由控制器210应用于所捕获的视频的一个或更多个模型确定被定位的人正在向对象打手势，则控制器210修改图像捕获设备117，使得图像捕获设备117的焦点是被定位的人正在向其打手势的对象上的位置。另外，当图像捕获设备117的焦点是被定位的人正在向其打手势的对象上的位置时，控制器210增加由图像捕获设备117捕获的视频数据的放大。在一些实施例中，控制器210增加捕获的视频数据的放大，同时图像捕获设备117的焦点是被定位的人正在向其打手势的对象上的位置，使得用户正在向其打手势的对象以至少一组阈值尺寸显示或者占据捕获的视频数据的至少阈值量的帧。在另一个示例中，控制器210将成像设备117的焦点设置到包括对象的位置，并且当成像设备117的焦点是包括对象的位置时，增加捕获的视频数据的放大。因此，被定位的人持有的对象由捕获的视频数据显著地呈现。

如上文进一步描述的，发送客户端设备110A将视频数据从发送客户端设备110A传送410到在线系统140，在线系统140将捕获的视频数据传送415到接收客户端设备110B(或者，发送客户端设备110A将视频数据直接传送410到接收客户端设备110B)。接收客户端设备110B使用显示设备115将来自在线系统140的视频数据呈现420给在线系统140的观看用户。在各种实施例中，观看用户将与发送客户端设备110A通信的请求从接收客户端设备110B传送到在线系统140。在线系统140将该请求传送到发送客户端设备110A，发送客户端设备110A向在线系统140提供响应。如果发送客户端设备110A响应于该请求而向在线系统140提供授权，则在线系统140将由发送客户端设备110A的图像捕获设备117捕获405并提供给在线系统140的视频数据传送到接收客户端设备110B用于在显示设备115上呈现，反之亦然。

在各种实施例中，用户可以(例如，基于维护的隐私设置和通过用户动作)授权发送客户端设备110A向在线系统140提供标识与控制器210在捕获的视频内定位的人相对应的一个或更多个用户的信息，该信息包括标识该一个或更多个用户的信息，其中视频数据被传送420到接收客户端设备110B。替代地，发送客户端设备110A向在线系统140标识包括控制器210定位的人的视频数据部分，在线系统140将控制器210定位的人所在的视频数据部分与所存储的标识在线系统用户的图像进行比较。基于隐私设置，在线系统140检索标识用户的信息，这些用户由被在线系统140确定为与控制器210定位的人所在的发送客户端设备110A的控制器210视频数据的部分至少具有阈值相似性的存储的图像来标识。这允许在线系统140识别被包括在从发送客户端设备110A接收的视频数据中的在线系统140的用户，如果用户选择加入这种识别特征的话。在线系统140可以将一个或更多个面部辨识过程或其他识别过程应用于接收到的视频数据中由控制器210定位的人所在的部分以及由在线系统140存储的标识用户的图像(例如，用户的用户简档中的简档图片，用标识信息标记用户的包括用户的面部的图像)，以确定在接收到的视频数据的该部分中被定位的人是否是在线系统用户。例如，在线系统140增强来自发送客户端设备110A的视频数据，使得标识在线系统用户的信息(例如，名和姓、电子邮件地址)叠加在来自发送客户端设备110A的视频数据的一部分上，该视频数据的一部分包括被在线系统140识别为在线系统用户的人。在线系统140将增强的视频数据传送420到接收客户端设备110B。替代地，在线系统140生成标识与从发送客户端设备110A接收的视频数据中被定位的人相对应的在线系统用户的信息，并且将标识与视频中的人相对应的在线系统用户的信息与视频数据一起传送到接收客户端设备110B。例如，在线系统140生成与从发送客户端设备110A接收的视频数据中的人相对应的在线系统用户的名和姓的列表或者用户名的列表，用于由接收客户端设备110B结合视频数据呈现给观看用户。

在用户授权各种用户相关数据用于改善在线系统140的用户体验的一些实施例中，当生成标识与从发送客户端设备110A接收的视频数据中被定位的人相对应的在线系统用户的信息时，在线系统140可以考虑与接收客户端设备110B相关联的观看用户和从发送客户端设备110A接收的视频数据中识别的用户之间的亲和力。例如，在线系统140为从发送客户端设备110A接收的视频数据中识别的、与在线系统140维护的观看用户有关连的在线系统用户生成标识信息；在一些实施例中，在线系统140可以不为从发送客户端设备110A接收的视频数据中识别的、与观看用户没有关连的在线系统用户生成标识信息。替代地，在线系统140在视觉上将从接收的视频数据中识别的、关连到观看用户的在线系统用户的标识信息与未关连到观看用户的在线系统用户的标识信息区分开。作为另一示例，在线系统140确定观看用户对于从发送客户端设备110A接收的视频数据中识别的每个在线系统用户的亲和力，并修改从视频数据中识别的在线系统用户的标识信息的呈现。例如，在线系统140生成标识从接收到的视频数据中识别的在线系统用户的信息，该信息在视觉上区分在线系统140确定观看用户对于其具有至少阈值亲和力的所标识的在线系统用户。作为另一示例，在线系统140基于观看用户对于从接收的视频数据中识别的在线系统用户的亲和力，对标识从接收的视频数据中识别的在线系统用户的信息进行排名；在线系统140生成信息，该信息在视觉上将在排名中具有至少阈值位置的、标识从接收的视频数据中识别的在线系统用户的信息与标识从接收的视频数据中识别的其他在线系统用户的信息区分开。在另一实施例中，在线系统140基于观看用户对于从接收的视频数据中识别的在线系统用户的亲和力来生成信息，该信息呈现标识从接收的视频数据中识别的在线系统用户的信息。

接收客户端设备110B经由显示设备115呈现420来自在线系统140(或来自发送客户端设备110A)的视频数据，允许发送客户端设备110A提供视频数据以呈现给接收客户端设备110B。接收客户端设备110B将来自在线系统140的标识在线系统140的用户的信息连同视频数据一起呈现。根据所呈现的视频数据，接收客户端设备110B从观看用户接收425对感兴趣对象的选择，并将标识感兴趣对象的信息传送430到在线系统140(或者，接收客户端设备110B将标识感兴趣对象的信息直接传送430到发送客户端设备110A)。感兴趣对象可以是视频数据中的用户或人。例如，观看用户从连同视频数据和接收客户端设备110B一起呈现的、标识在线系统140的用户的信息中选择标识用户的信息，并且接收客户端设备110B向在线系统140传送430将用户标识为感兴趣对象的信息。观看用户可以从描述视频数据中包括的用户、且由接收客户端设备110B连同视频数据一起呈现的信息中选择标识用户的信息。可选地，观看用户选择所呈现的视频数据的包括人的一部分，并且接收客户端设备110B向在线系统140标识所呈现的视频数据的所选部分，在线系统140将视频数据的所选部分的内容与存储的与用户相关联的面部或身体的图像(例如，用户简档中包括的图像、由在线系统140维护的其中标识了各种用户的图像)进行比较，其中在线系统140为这些用户维护隐私设置，该隐私设置授权在线系统140访问存储的与这些用户相关联的面部或身体的图像，并从存储的与这些用户相关联的面部或身体的图像中识别这些用户。在线系统140将与匹配视频的所选部分的内容的一个或更多个存储的图像相关联的用户标识为感兴趣对象。

在各种实施例中，观看用户可以将捕获的视频数据中包括的人的一部分标识为感兴趣对象。例如，接收客户端设备110B接收对标识出人身体的特定部分的视频数据的一部分的选择，并将人和人身体的该部分传送430到在线系统140，以将人身体的该部分标识为感兴趣对象。在另一个实施例中，接收客户端设备110B向在线系统140传送430视频数据的所选部分，或者视频数据连同标识所选部分的信息，在线系统140应用一种或更多种图像处理方法来从视频数据的部分中识别人的身体部分，并将人的身体部分标识为感兴趣对象。可选地，接收客户端设备110B将一种或更多种成像处理方法应用于视频数据的该部分，以识别视频数据的该部分中包括的人身体的部分，并将标识人身体的该部分作为感兴趣对象的信息传送430到在线系统140。人身体的示例部分包括：人的眼睛、人的面部、用户的上身或人身体的任何其他合适部分。

或者，接收客户端设备110B从观看用户接收对视频数据的包括对象的一部分的选择。接收客户端设备110B将视频数据的选定部分传送430到在线系统140，在线系统140识别视频数据的该部分中的对象，并确定所识别的对象是感兴趣对象。在各种实施例中，在线系统140应用任何合适的图像处理方法或图像处理方法的组合来从视频数据的部分提取对象。或者，接收客户端设备110B将一种或更多种图像处理方法或图像处理方法的组合应用于由观看用户选择的视频数据的部分，以从视频数据的所选部分提取对象，并将对象或标识对象的信息传送到在线系统140，在线系统140将对象指定为感兴趣对象。

在其他实施例中，接收客户端设备110B将上述一个或更多个模型应用于所呈现的视频数据，以识别感兴趣对象。如上文进一步描述的，接收客户端设备110B的控制器210应用一种或更多种方法来定位捕获的视频数据内的人或对象。虽然以下示例涉及模型对视频数据的应用，但是一个或更多个模型可以应用于视频数据、音频数据、图像数据、由接收客户端设备110B呈现的任何其他数据及其任意组合。接收客户端设备110B的控制器210可以使用任何合适的模型或模型的组合来定位由接收客户端设备110B的显示设备115呈现420的视频数据内的人。由控制器210应用于捕获的视频数据的模型可以执行(二维或三维的)面部跟踪、二维姿态跟踪、三维姿态跟踪或任何其他合适的方法，来识别人的面部的一些部分或人的身体的一些部分。类似地，由控制器210应用的模型可以从捕获的视频数据中识别对象。在一些实施例中，基于接收客户端设备110B的用户的授权，控制器210与在线系统140通信，以基于从在线系统140获得的信息更具体地识别对象或人，而在其他实施例中，控制器210本地维护模型，以从捕获的视频数据中识别不同的对象或人。基于一个或更多个模型的应用，接收客户端设备110B的控制器210识别所呈现的视频数据中的感兴趣对象。在各种实施例中，接收客户端设备110B维护一个或更多个规则，这些规则与一个或更多个模型结合应用，以从模型在所呈现的视频数据中识别的对象(包括人)中选择感兴趣对象。

在线系统140(或接收客户端设备110B)向发送客户端设备110A传送435标识感兴趣对象的信息。基于标识感兴趣对象的信息和由图像捕获设备117捕获405的视频数据中包括的对象的特征，控制器210修改440捕获的视频数据或发送客户端设备110A的图像捕获设备117的参数，使得图像捕获设备117的焦点是感兴趣对象的一部分，并且增加视频数据的包括感兴趣对象的该部分的放大(即，放大率)，其在修改的视频数据中更显著地包括感兴趣对象。在各种实施例中，发送客户端设备110A的控制器210将发送客户端设备110A的图像捕获设备117的焦点修改至感兴趣对象，并且增加捕获的视频数据的包括感兴趣对象的帧的部分的放大率，同时移除捕获的视频数据的不包括感兴趣对象的部分(例如，捕获的视频数据的接近帧边缘的部分)。可选地，发送客户端设备110A的控制器210将发送客户端设备110A的图像捕获设备117的焦点修改至感兴趣对象，并减小视频数据的包括感兴趣对象的部分的放大率，同时包括捕获的视频数据的不包括感兴趣对象的部分(例如，捕获的视频数据的接近帧边缘的部分)。在各种实施例中，控制器210数字地修改所捕获的视频数据，允许图像捕获设备117的焦点成为感兴趣对象的一部分，并且随后放大视频数据的包括感兴趣对象的部分，而无需重新定位发送客户端设备110A的图像捕获设备117的光轴。在发送客户端设备110A显示关于可以如何改变所捕获的视频的通知以供被捕获的用户查看和授权之后，和/或基于关于控制接收客户端设备110B的预授权人员列表的这种改变的预授权(例如，通过隐私设置)，可以发生该修改。被修改440使得更显著地呈现感兴趣对象的视频数据被从发送客户端设备110A传送445到在线系统140，在线系统140将焦点位于感兴趣对象上的修改的视频数据传送450到接收客户端设备110B，接收客户端设备110B将修改的视频数据呈现455给观看用户。可选地，将修改的视频数据从发送客户端设备110A直接传送450到接收客户端设备110B，接收客户端设备110B向观看用户呈现455修改的视频数据。因为发送客户端设备110A的控制器210修改440由发送客户端设备110A的图像捕获设备117捕获的视频数据，而不重新定位发送客户端设备110A的光轴，所以感兴趣对象在接收客户端设备110B的显示设备115中的位置从捕获的视频数据到修改的视频数据保持不变。例如，由图像捕获设备117捕获的修改的视频数据包括在接收客户端设备110B的显示设备115的坐标处的感兴趣对象，该坐标与由接收客户端设备110B先前呈现420的来自发送客户端设备110A的视频数据中的感兴趣对象的坐标(例如，水平位置和垂直位置)匹配。因此，在接收客户端设备110B最初从发送客户端设备110B接收的视频数据和接收客户端设备110B从发送客户端设备110B接收的修改的视频数据中，感兴趣对象保留在接收客户端设备110B的显示设备115的共同位置，允许观看用户观看修改的视频数据，而不改变观看用户的注视所指向的接收客户端设备110B的显示设备115的部分。

在一些实施例中，当发送客户端设备110A将发送客户端设备110A的图像捕获设备117的焦点修改至感兴趣对象时，发送客户端设备110A的图像捕获设备117最初将焦点标识为感兴趣对象，同时保持当前视频数据的当前放大率级别。在将焦点修改到感兴趣对象之后，发送客户端设备110A增大(或减小)视频数据的该部分的放大率。在修改捕获的视频数据的包括感兴趣对象的部分的放大率之前，对焦点的这种修改最小化了在捕获的视频数据的包括感兴趣对象的部分的放大率增加或减少时观看用户的焦点漂移。

在各种实施例中，观看用户向在线系统140提供附加指令，以修改由接收客户端设备110B的显示设备115呈现的视频数据，在线系统140向发送客户端设备110A传送该指令(或者，接收客户端设备110B直接向发送客户端设备110A传送该指令)。基于来自在线系统140的指令，发送客户端设备110A的控制器210修改图像捕获设备117的一个或更多个参数，或者修改由图像捕获设备117捕获405的视频数据。例如，发送客户端设备110A从在线系统140接收的附加指令使得控制器210识别捕获的视频数据中包括的人的一个或更多个手势，前提是为该人维护的隐私设置授权控制器210识别该人的运动或手势，或者该人明确授权控制器210识别该人的运动或手势。响应于识别到人的一个或更多个特定手势，控制器210分析由发送客户端设备110A的图像捕获设备117捕获405的视频数据，以识别人正在向其打手势的对象。随后，发送客户端设备110A通过选择所识别的对象作为捕获的视频数据的焦点并增加捕获的视频数据的包括所识别的对象的部分的放大率来修改440捕获的视频数据，同时在初始捕获的视频数据中和在修改的视频数据中保持所识别的对象在接收客户端设备110B的显示设备115中的共同位置(例如，感兴趣对象的中心在接收客户端设备110B的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。在一些实施例中，控制器210增加捕获的视频数据的包括所识别的对象的部分的放大率，同时移除捕获的视频数据的不包括所识别的对象的其他部分，使得用户正在向其打手势的所识别的对象以至少一组阈值尺寸显示或者占据所捕获的视频数据的至少阈值量的帧。

在另一示例中，发送客户端设备110A从在线系统140接收的附加指令使得控制器210识别捕获的视频数据中包括的人的一个或更多个手势，前提是为该人维护的隐私设置授权控制器210识别该人的运动或手势，或者该人明确授权控制器210识别该人的运动或手势。响应于识别到人的一个或更多个特定手势，控制器210分析由发送客户端设备110A的图像捕获设备117捕获405的视频数据，以识别人持有对象的手势。随后，发送客户端设备110A通过以下操作修改440捕获的视频数据：选择人持有的对象作为捕获的视频数据的焦点，并增加捕获的视频数据的包括人持有的对象的部分的放大率，同时在初始捕获的视频数据中和在修改的视频数据中保持所识别的对象在接收客户端设备110B的显示设备115中的共同位置(例如，感兴趣对象的中心在接收客户端设备110B的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。控制器210可以增加捕获的视频数据的包括人持有的对象的部分的放大率，同时移除捕获的视频数据的不包括人持有的对象的其他部分，使得人持有的对象以至少一组阈值尺寸显示或者占据捕获的视频数据的至少阈值量的帧。

作为另一个示例，发送客户端设备110A从在线系统140接收的附加指令使得控制器210在由发送客户端设备110A的图像捕获设备117捕获405的视频数据中根据由发送客户端设备110A的一个或更多个附加部件捕获的信息识别感兴趣对象。在一个实施例中，为捕获的视频数据中包括的人维护的隐私设置授权控制器210捕获并分析由发送客户端设备110A从该人捕获的音频数据，或捕获的视频数据中包括的人明确授权控制器210捕获并分析由发送客户端设备110A从该人捕获的音频数据。控制器210分析由一个或更多个麦克风捕获的来自人的音频数据，并将从视频数据提取的对象与捕获的音频数据的部分进行比较。如果控制器210确定来自人的音频数据至少以阈值次数标识从捕获的视频数据提取的对象，或者至少以阈值频率标识从捕获的视频数据提取的对象，则发送客户端设备110A通过选择从捕获的音频数据中识别的对象作为捕获的视频数据的焦点并增加捕获的视频数据的包括从捕获的音频数据中识别的对象的部分的放大率来修改440捕获的视频数据，同时在初始捕获的视频数据中和在修改的视频数据中保持所识别的对象在接收客户端设备110B的显示设备115中的共同位置(例如，感兴趣对象的中心在接收客户端设备的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。控制器210可以增加捕获的视频数据的包括从捕获的音频数据中识别的对象的部分的放大率，同时移除捕获的视频数据的不包括从持有的捕获的音频数据中识别的对象的其他部分，使得从捕获的音频数据中识别的对象以至少一组阈值尺寸显示或者占据捕获的视频数据的至少阈值量的帧。可选地，发送客户端设备110A的控制器210修改发送客户端设备110A的图像捕获设备117的焦点，使得由发送客户端设备110A的图像捕获设备117捕获的视频数据的焦点是感兴趣对象，并且减小捕获的视频数据的帧的部分的放大率，同时包括捕获的视频数据的不包括感兴趣对象的部分(例如，捕获的视频数据的接近帧边缘的部分)。

在其他示例中，由观看用户经由在线系统140提供的附加指令使得发送客户端设备110A的控制器210修改由发送客户端设备110A的图像捕获设备117捕获405的视频数据，以在感兴趣对象在图像捕获设备117的视场内移动时重新定位捕获的视频数据的焦点。这允许观看用户向发送客户端设备110A提供如下指令：该指令修改由发送客户端设备110A的图像捕获设备117捕获并且经由接收客户端设备110B呈现给观看用户的视频数据。因此，观看用户可以向发送客户端设备110A提供如下指令：该指令允许观看用户改变由发送客户端设备110A捕获405的视频数据，使得随后向观看用户呈现455焦点是观看用户识别的感兴趣对象的修改的视频数据。

虽然图4示出了发送客户端设备110B基于从接收客户端设备110B接收的视频数据中的感兴趣对象来修改440由发送客户端设备110B捕获的视频数据的实施例，但是在其他实施例中，接收客户端设备110B本地修改440从发送客户端设备110A接收并由接收客户端设备110B呈现455的视频数据。在这样的实施例中，在接收425对感兴趣对象的选择之后，通过选择所识别的对象作为所呈现的视频数据的焦点并增加所呈现的视频数据的包括感兴趣对象的部分的放大率，来修改440所呈现的视频数据，同时在初始呈现的视频数据中和在修改的视频数据中保持感兴趣对象在接收客户端设备110B的显示设备115中的共同位置(例如，感兴趣对象的中心在接收客户端设备的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。例如，接收客户端设备110B在所呈现的视频数据中和在修改的视频数据中保持感兴趣对象的中心在显示设备115中的水平位置和垂直位置。

在替代实施例中，发送客户端设备110A通过在捕获的视频数据内识别感兴趣对象来本地修改捕获的视频数据。如上面进一步描述的，用户可以授权(例如，通过预先选择的隐私设置和/或提示选择)发送客户端设备110A的控制器210将一个或更多个机器学习模型应用于由图像捕获设备117捕获405的视频的特征，以定位捕获的视频数据中包括的人或对象。一个或更多个机器学习模型可以识别捕获的视频数据中的感兴趣对象，并且发送客户端设备210的控制器210基于所识别的感兴趣对象来修改视频数据。例如，发送客户端设备的控制器210选择所识别的对象作为所呈现的视频数据的焦点，并且增加捕获的视频数据的包括感兴趣对象的部分的放大率，同时在初始捕获405的视频数据中和在修改的视频数据中保持感兴趣对象在发送客户端设备110A的显示设备115中的共同位置(例如，感兴趣对象的中心在发送客户端设备110A的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。例如，发送客户端设备110A在所呈现的视频数据中和在修改的视频数据中保持感兴趣对象的中心在显示设备115中的水平位置和垂直位置。应用于捕获的视频数据的一个或更多个机器学习模型可以使用任何合适的标准来识别感兴趣对象，允许客户端设备110通过将感兴趣对象标识为捕获的视频数据的焦点并增加(或减小)捕获的视频数据的包括从捕获的音频数据识别的对象的部分的放大率来本地修改捕获的视频数据，同时在初始捕获的视频数据中和在修改的视频数据中保持所识别的对象在客户端设备110的显示设备115中的共同位置(例如，感兴趣对象的中心在客户端设备110的显示设备115内的水平和垂直坐标对于捕获的视频数据和修改的视频数据来说是共同的)。

图5示出了基于对视频数据中的感兴趣对象的识别，对由客户端设备110的图像捕获设备117捕获的视频数据的示例修改。出于说明的目的，图5示出了由客户端设备110的图像捕获设备117捕获的视频数据帧500。图5示出了图像捕获设备117的光轴505的定位，其对应于图像捕获设备117的中心。如以上结合图4进一步描述的，客户端设备110接收标识由在不同客户端设备110上观看视频数据的用户指定的感兴趣对象510的信息。响应于接收到标识感兴趣对象510的信息，客户端设备110将视频数据帧500的焦点标识为感兴趣对象510。此外，客户端设备110放大视频数据帧500的包括感兴趣对象的部分515，并将焦点为感兴趣对象510的视频数据帧500和帧500的包括感兴趣对象510的放大部分515传送到不同的客户端设备110或在线系统140，在线系统140将焦点为感兴趣对象510的视频数据帧500和帧500的包括感兴趣对象510的放大部分515传送到不同的客户端设备110。

客户端设备110将视频数据帧500的焦点标识为感兴趣对象510，而没有修改图像捕获设备117的光轴505。这允许客户端设备110在不重新定位图像捕获设备117的情况下修改由图像捕获设备117捕获的视频数据帧500，这允许在不同的客户端设备110上观看视频数据帧500的用户观看具有更显著显示的感兴趣对象510的视频数据帧500(即，感兴趣对象510作为帧500的焦点并且感兴趣对象510被放大)，而无需在呈现帧500的不同的客户端设备110上重新定位用户的注视。因此，客户端设备117允许用户在与捕获视频数据帧500的客户端设备110不同的客户端设备110上观看视频数据帧500，以识别视频数据帧500内的感兴趣对象510，并更容易地查看已经被修改以聚焦于感兴趣对象510并放大感兴趣对象510的视频数据帧500。

结论

为了说明的目的提出了实施例的前述描述；它并不旨在是无遗漏的或将专利权利限制到所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了实施例。这些算法描述和表示通常被数据处理领域的技术人员用来向本领域的其他技术人员有效地传达他们工作的实质。虽然在功能上、计算上或逻辑上对这些操作进行了描述，但这些操作应被理解为由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现软件模块，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非暂时性的、有形的计算机可读存储介质、或者适于存储电子指令的任何类型的介质中，这些介质可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的体系结构。

实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息，其中信息被存储在非暂时性的、有形的计算机可读介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制专利权利。因此，意图是本专利权利的范围不受该详细描述限制，而是受在基于此的申请上所发布的任何权利要求限制。因此，实施方案的公开内容意图对本专利权利的范围是说明性的，而不是限制性的，在所附的权利要求中阐述了本专利权利的范围。

Claims

1.一种方法，包括：

捕获客户端设备中包括的图像捕获设备的视场内的局部区域的视频数据，所述局部区域包括一个或更多个对象；

将所述视频数据从所述客户端设备传送到接收客户端设备；

在所述客户端设备处接收标识感兴趣对象的信息，所述感兴趣对象是从来自所述图像捕获设备的捕获的视频数据中包括的一个或更多个对象中选择的；

将由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的部分标识为由所述图像捕获设备捕获的视频数据的焦点；

通过增加由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的所述部分的放大率，并在修改的视频数据中和在捕获的视频数据中保持所述感兴趣对象在所述接收客户端设备的显示设备内的共同位置，来修改由所述图像捕获设备捕获的视频数据；和

将所述修改的视频数据从所述客户端设备传送到所述接收客户端设备。

2.根据权利要求1所述的方法，其中，通过增加由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的所述部分的放大率，并在修改的视频数据中和在捕获的视频数据中保持所述感兴趣对象在所述接收客户端设备的显示设备内的共同位置，来修改由所述图像捕获设备捕获的视频数据包括：

通过增加由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的所述部分的放大率，并移除由所述图像捕获设备捕获的视频数据的不包括所述感兴趣对象的一个或更多个其他部分，来修改由所述图像捕获设备捕获的视频数据。

3.根据权利要求1所述的方法，其中，将由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的部分标识为由所述图像捕获设备捕获的视频数据的焦点包括：

将由所述图像捕获设备捕获的视频数据的包括所述感兴趣对象的部分标识为所述视频数据的焦点，而无需重新定位所述图像捕获设备的光轴。

4.根据权利要求1所述的方法，还包括：

在所述客户端设备处接收附加指令，以识别由所述图像捕获设备捕获的视频数据中包括的人的一个或更多个手势；

识别由所述图像捕获设备捕获的视频数据中包括的人执行的一个或更多个特定手势；

响应于识别到由所述图像捕获设备捕获的视频数据中包括的人执行的一个或更多个特定手势中的至少一个，分析由所述图像捕获设备捕获的视频数据以识别人正在向其打手势的对象；

将由所述图像捕获设备捕获的视频数据的包括人正在向其打手势的对象的部分标识为由所述图像捕获设备捕获的视频数据的焦点；和

通过增加由所述图像捕获设备捕获的视频数据的包括人正在向其打手势的对象的部分的放大率，来修改由所述图像捕获设备捕获的视频数据。

5.根据权利要求1所述的方法，还包括：

识别由所述图像捕获设备捕获的视频数据中包括的人执行的手势且其中人持有对象；

响应于识别到由所述图像捕获设备捕获的视频数据中包括的人执行的手势且其中人持有对象，将由所述图像捕获设备捕获的视频数据的包括人持有的对象的部分标识为由所述图像捕获设备捕获的视频数据的焦点；和

通过增加由所述图像捕获设备捕获的视频数据的包括人持有的对象的部分的放大率，来修改由所述图像捕获设备捕获的视频数据。

6.一种方法，包括：

于在线系统处接收由发送客户端设备的图像捕获设备捕获的视频数据，所述视频数据包括局部区域的图像，所述局部区域包括所述发送客户端设备的图像捕获设备的视场内的一个或更多个对象；

将所述视频数据从所述在线系统传送到接收客户端设备；

从所述接收客户端设备接收对所述视频数据中包括的感兴趣对象的选择；

将标识所述视频数据中包括的感兴趣对象的信息从所述在线系统传送到所述发送客户端设备；

在所述在线系统处从所述发送客户端设备接收修改的视频数据，所述修改的视频数据具有所述感兴趣对象的焦点、所述感兴趣对象的增大的放大率，并且在所述修改的视频数据中和在由所述发送客户端设备的图像捕获设备捕获的视频数据中，保持所述感兴趣对象在所述接收客户端设备的显示设备内的共同位置；和

将所述修改的视频数据从所述在线系统传送到所述接收客户端设备用于呈现。

7.根据权利要求6所述的方法，还包括：

从所述接收客户端设备接收附加指令，以识别由所述图像捕获设备捕获的视频数据中包括的人的一个或更多个手势；

将所述附加指令从所述在线系统传送到所述发送客户端设备；

在所述在线系统处从所述发送客户端设备接收附加修改的视频数据，所述附加修改的视频数据具有由所述发送客户端设备的图像捕获设备捕获的视频数据中包括的人正在对其执行特定手势的对象的焦点，以及由所述发送客户端设备的图像捕获设备捕获的视频数据中包括的人正在对其执行所述特定手势的对象的增大的放大率；和

将所述附加修改的数据从所述在线系统传送到所述接收客户端设备。

8.根据权利要求6所述的方法，还包括：

在所述在线系统处从所述发送客户端设备接收附加修改的视频数据，所述附加修改的视频数据具有由所述发送客户端设备的图像捕获设备捕获的视频数据中包括的人持有的对象的焦点，以及由所述发送客户端设备的图像捕获设备捕获的视频数据中包括的人持有的对象的增大的放大率；和

9.根据权利要求1或权利要求6所述的方法，其中，所述感兴趣对象包括被包括在所捕获的视频数据中的人。

10.根据权利要求1或权利要求6所述的方法，其中，所述感兴趣对象包括被包括在所捕获的视频数据中的人的身体的一部分。

11.根据权利要求10所述的方法，其中，所捕获的视频数据中包括的人的身体的一部分是从由以下项组成的组中选择的：人的眼睛、人的面部和人的上身。

12.一种计算机程序产品，当由处理器执行时，所述计算机程序产品使所述处理器执行权利要求1至5或权利要求6至11中任一项所述的方法。

13.一种其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器执行权利要求1至5或权利要求6至11中任一项所述的方法。

14.一种系统，包括一个或更多个客户端设备、网络、一个或更多个第三方系统和在线系统，以及耦合到所述一个或更多个客户端设备中的至少一个的控制器，所述系统被配置为执行权利要求1至5或权利要求6至11中任一项所述的方法。