CN112292866A - 基于描述性模型的自动决策 - Google Patents

基于描述性模型的自动决策 Download PDF

Info

Publication number
CN112292866A
CN112292866A CN201980039417.XA CN201980039417A CN112292866A CN 112292866 A CN112292866 A CN 112292866A CN 201980039417 A CN201980039417 A CN 201980039417A CN 112292866 A CN112292866 A CN 112292866A
Authority
CN
China
Prior art keywords
video communication
environment
communication session
user
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980039417.XA
Other languages
English (en)
Other versions
CN112292866B (zh
Inventor
詹森·弗朗西斯·哈里森
埃里克·W·黄
拉胡尔·纳拉莫苏
沙希德·拉扎克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Inc
Original Assignee
Facebook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Facebook Inc filed Critical Facebook Inc
Publication of CN112292866A publication Critical patent/CN112292866A/zh
Application granted granted Critical
Publication of CN112292866B publication Critical patent/CN112292866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4545Input to filtering algorithms, e.g. filtering a region of the image
    • H04N21/45455Input to filtering algorithms, e.g. filtering a region of the image applied to a region of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

在一个实施例中,一种方法包括访问来自一个或更多个不同输入源的输入数据。输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图。基于输入数据为当前音频‑视频通信会话生成当前描述性模型,该当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频‑视频通信会话相关联的环境,(2)环境中的一个或更多个人,或者(3)与当前音频‑视频通信会话相关联的一个或更多个上下文元素。该方法还包括基于一个或更多个描述性特征为当前音频‑视频通信会话生成一个或更多个指令;以及将一个或更多个指令发送到与一个或更多个摄像机和一个或更多个麦克风相关联的计算设备。

Description

基于描述性模型的自动决策
优先权
本申请根据35 U.S.C.§119(e)要求2018年10月5日提交的第16/153,613号美国专利申请和2018年4月10日提交的第62/655,751号美国临时专利申请的权益,其通过引用结合于此。
技术领域
本公开总体上涉及视频会议。
背景
可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户已经输入的信息。根据用户的隐私设置,信息可以是公开的或私有的,并且可以包括人口统计信息、通信渠道(communication-channel)信息和关于用户个人兴趣的信息。社交网络系统还可以用来自用户的输入和许可来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,发帖墙(wall post)、照片分享、事件组织、消息传送、游戏或广告)以便于在用户之间或当中的社交互动。
社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息(newsfeed)。
移动计算设备(例如智能手机、平板电脑、笔记本电脑或专用音频/视频(audio/video)通信接口)可以包括用于确定其位置、方向或取向的功能,例如GPS接收器、指南针、陀螺仪或加速度计。这种设备还可以包括用于无线通信(例如蓝牙通信、近场通信(NFC)、或红外(IR)通信、或与无线局域网(WLAN)或蜂窝电话网络的通信)的功能。这种设备还可以包括一个或更多个摄像机、扫描仪、触摸屏、麦克风或扬声器。移动计算设备还可以执行软件应用,例如游戏、web浏览器或社交网络应用。使用社交网络应用,用户可以与他们的社交网络中的其他用户关连、通信和分享信息。
特定实施例概述
智能通信设备可以用于音频/视频(audio/visual)通信,例如实时或视频聊天或预先录制的音频/视频演示。智能通信设备可以是位于用户家中或办公室中的专用通信设备。智能通信设备可以具有触敏显示屏、扬声器、一个或更多个摄像机以及一个或更多个麦克风。设备可以根据设备所有者和进入设备视野内的每个用户指定的隐私设置来访问用户信息。例如,设备所有者可以指定在任何情况下设备都不能访问由社交网络系统存储的关于任何人的信息。在这种情况下,设备不会就任何类型的用户信息与远程服务器通信。作为另一个示例,设备所有者可以指定设备可以访问由社交网络系统存储的信息以增强用户体验(如下面将讨论的)。在这种情况下,设备可以就设备所有者的社交网络数据与社交网络系统通信,但是设备将继续检查访问其他用户的社交网络数据的许可。例如,如果设备所有者选择加入社交网络数据访问,但是设备所有者的朋友没有选择加入,则设备将不会访问朋友的社交网络数据。
智能通信设备可以具有内部处理功能,使其能够做出模拟人类将做出的影片决策(cinematic decision)的自动影片决策。这种影片决策可以包括人类导演在她控制摄像机和麦克风的情况下做出的任何选择(例如,生成影片剪辑(cinematic cut)),以及可以通过视频编辑器获得的任何决策(例如,选择实时地应用视觉效果)。这样的选择可以包括:一个人正在说话并且(例如,在与社交网络系统相关联的隐私设置界面中)已经指定她允许设备向她拉近(zoom in)时则拉近这个人、平移(pan)或切换(cut)到另一个人、拉远(zoom out)具有大量活动的场景、设备所有者和声源允许这样的功能时则将麦克风波束形成为特定声源、以及其他合适的决策。为了做出这些决定,智能导演可以访问两个或更多用户之间的当前音频-视频(audio-visual)通信会话(“AV通信会话”)的描述性模型。智能导演可以位于智能通信设备中,也可以位于远程服务器中。根据设备所有者和每个相关用户的隐私设置,描述性模型可以包括关于以下项的信息:(1)与发送智能通信设备所处的环境相关的非身份识别信息(non-identifying information);(2)位于发送设备环境中的一个或更多个人;(3)与接收方的智能通信设备所处的环境相关的非身份识别信息;(4)位于接收方设备环境中的一个或更多个人;以及(5)当前音频-视频(audio-video)通信会话周围的上下文(context)。如果设备触发从远程服务器检索关于用户的信息,则该用户可以是相关用户。根据这些输入以及来自任何参与用户的其他手动输入和任何被捕获用户的隐私设置,智能导演可以做出与以下项相关的影片决策:视觉目标(例如,拉近一个人,特别是在这个人已经允许拉近的情况下)、音频目标(例如,如果特定的声源已经允许声音放大,则相对于其他声源放大该特定的声源)或风格(例如,视觉目标之间的平滑与快速转换)。
在特定实施例中,发送到参与音频-视频通信会话的设备的视觉数据可以经历至少三种类型的视觉处理中的一种或更多种:(1)背景/前景建模;(2)重新识别人;以及(3)消除重叠的人(overlapping people)的歧义。背景/前景建模可以包括基于实时多人2D姿势估计数据对人体骨骼使用边界框,并且只为边界框之外的区域收集背景数据。重新识别人可以涉及识别一个或更多个人体骨骼,并生成关于每个人体骨骼的一个或更多个描述性特征。如果设备所有者和相关用户已经选择加入该功能,则描述性特征可以包括对应于人体骨骼的人的颜色直方图、当前位置和轨迹、以及与人体骨骼相关联的一组比例(例如,臀肩比)。如果需要重新识别人体骨骼,系统可以依靠描述性特征来重新识别人体骨骼。重要的是要注意,重新识别可能不是设备或后端系统确定与人体骨骼相关联的人的身份的实际识别,而是“骨骼A”的更良性的非身份识别的识别(benign non-identifyingidentification),其中相应的人的身份没有被发现。消除重叠的人的歧义旨在分离出其人体骨骼共享同一边界框或者其边界框重叠的人。此外还包括将每个人的面部映射为一副面部结构,并在该映射基础上构建一棵“人类树(human tree)”。下面将更详细地解释这些和其他实施例。
本文公开的实施例仅仅是示例,并且本公开的范围不限于它们。特定实施例可以包括上面公开的实施例的组件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被包括。根据本发明的实施例在涉及方法、存储介质、系统和计算机程序产品的所附权利要求中被具体公开,其中,在一个权利要求类别(例如,方法)中提到的任何特征也可以在另一个权利要求类别(例如,系统)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而,也可以要求保护由对任何前面的权利要求的有意往回引用(特别是多项引用)而产生的任何主题,使得权利要求及其特征的任何组合被公开并且可被要求保护,而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合,而且还包括在权利要求中的特征的任何其他组合,其中,在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外,本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。
在实施例中,一种方法可以包括:
访问来自一个或更多个不同输入源的输入数据,该输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于输入数据,生成当前音频-视频通信会话的当前描述性模型,该当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境,(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于一个或更多个描述性特征为当前音频-视频通信会话生成一个或更多个指令;和
向与一个或更多个摄像机和一个或更多个麦克风相关联的计算设备发送一个或更多个指令。
关于与当前音频-视频通信会话相关联的环境的一个或更多个描述性特征可以包括:
环境中的一面或更多面墙中的每一面墙的位置;
环境中的一个或更多个门中的每一个门的位置;
环境的类别;和
环境中的一个或更多个对象中的每一个对象的位置。
对于一个或更多个人中的每个人员,关于一个或更多个人的一个或更多个描述性特征可以包括:
当前音频-视频通信会话的参与度度量;和
该人员与一个或更多个人中的至少一个其他人员之间的亲和力(affinity)。
一个或更多个人中的每个人员的参与度度量可以至少部分地基于该人员说的字数、该人员和计算设备之间的物理距离、该人员在当前音频-视频通信系统期间在环境中的时间量、或者与该人员相关联的社交图数据。
在实施例中,一种方法可以包括基于已经在环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中一个或更多个描述性特征可以至少部分地基于历史描述性模型。
一个或更多个指令可以包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或者将场景切换到视觉目标的指令。
与当前音频-视频通信会话相关联的一个或更多个上下文元素可以包括当前音频-视频通信会话在一天中的时间、当前音频-视频通信会话的数据或与当前音频-视频通信会话相关联的事件。
在实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来:
访问来自一个或更多个不同输入源的输入数据,该输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于输入数据,生成当前音频-视频通信会话的当前描述性模型,该当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境,(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于一个或更多个描述性特征为当前音频-视频通信会话生成一个或更多个指令;和
向与一个或更多个摄像机和一个或更多个麦克风相关联的计算设备发送一个或更多个指令。
关于与当前音频-视频通信会话相关联的环境的一个或更多个描述性特征可以包括:
环境中的一面或更多面墙中的每一面墙的位置;
环境中的一个或更多个门中的每一个门的位置;
环境的类别;和
环境中的一个或更多个对象中的每一个对象的位置。
对于一个或更多个人中的每个人员,关于一个或更多个人的一个或更多个描述性特征可以包括:
当前音频-视频通信会话的参与度度量;和
该人员与一个或更多个人中的至少一个其他人员之间的亲和力。
一个或更多个人中的每个人员的参与度度量可以至少部分地基于该人员说的字数、该人员和计算设备之间的物理距离、该人员在当前音频-视频通信系统期间在环境中的时间量、或者与该人员相关联的社交图数据。
在实施例中,该软件在被执行时可以可操作来基于已经在环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中一个或更多个描述性特征可以至少部分地基于历史描述性模型。
一个或更多个指令可以包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或者将场景切换到视觉目标的指令。
与当前音频-视频通信会话相关联的一个或更多个上下文元素可以包括当前音频-视频通信会话在一天中的时间、当前音频-视频通信会话的数据或与当前音频-视频通信会话相关联的事件。
在实施例中,一种系统可以包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个处理器并且包括指令,该指令当由一个或更多个处理器执行时可操作来使系统:
访问来自一个或更多个不同输入源的输入数据,该输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于输入数据,生成当前音频-视频通信会话的当前描述性模型,该当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境,(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于一个或更多个描述性特征为当前音频-视频通信会话生成一个或更多个指令;和
向与一个或更多个摄像机和一个或更多个麦克风相关联的计算设备发送一个或更多个指令。
关于与当前音频-视频通信会话相关联的环境的一个或更多个描述性特征可以包括:
环境中的一面或更多面墙中的每一面墙的位置;
环境中的一个或更多个门中的每一个门的位置;
环境的类别;和
环境中的一个或更多个对象中的每一个对象的位置。
对于一个或更多个人中的每个人员,关于一个或更多个人的一个或更多个描述性特征可以包括:
当前音频-视频通信会话的参与度度量;和
该人员与一个或更多个人中的至少一个其他人员之间的亲和力。
一个或更多个人中的每个人员的参与度度量可以至少部分地基于该人员说的字数、该人员和计算设备之间的物理距离、该人员在当前音频-视频通信系统期间在环境中的时间量、或者与该人员相关联的社交图数据。
在实施例中,该处理器在执行指令时可以可操作来基于已经在环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中一个或更多个描述性特征可以至少部分地基于历史描述性模型。
一个或更多个指令可以包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或者将场景切换到视觉目标的指令。
在实施例中,一种方法可以包括,由计算设备:
在音频-视频通信会话期间的第一时间:
确定第一参与者位于与音频-视频通信会话相关联的环境中;
定位第一参与者的第一身体区域;
生成第一身体区域的第一颜色直方图,其中第一颜色直方图表示第一身体区域的一种或更多种颜色的第一分布;
在音频-视频通信期间的第二时间:
确定第二参与者位于该环境中;
定位第二参与者的与第一身体区域相同的第二身体区域;
生成第二身体区域的第二颜色直方图,其中第二颜色直方图表示第二身体区域的一种或更多种颜色的第二分布;
确定第一颜色直方图与第二颜色直方图相同;
基于第一颜色直方图与第二颜色直方图相同的确定,确定第一参与者与第二参与者相同。
第一颜色直方图和第二颜色直方图各自可以包括多个像素桶(pixel bucket),其中像素桶可以包括其颜色值在与相应像素桶相关联的跨度内的像素。
在实施例中,一种方法可以包括识别第一参与者并将第一颜色直方图存储在与第一参与者相关联的社交图中。
在实施例中,一种方法可以包括确定第一参与者和第二参与者的一个或更多个身体比例,该身体比例包括肩躯干比例或头躯干比例,其中确定第一参与者与第二参与者相同可以基于一个或更多个身体比例。
在实施例中,一种方法可以包括:
确定第一参与者的第一当前位置和第一参与者的第一轨迹;
确定第二参与者的第二当前位置和第二参与者的第二轨迹,其中确定第一参与者与第二参与者相同还基于第一位置、第一轨迹、第二位置和第二轨迹。
在实施例中,一种方法可以包括将多个权重分配给第一轨迹、第二轨迹、第一位置、第二位置、第一颜色直方图和第二颜色直方图,其中多个权重中的第一权重大于多个权重中的第二权重。
第一身体区域和第二身体区域可以是躯干区域。
在实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来:
在音频-视频通信会话期间的第一时间:
确定第一参与者位于与音频-视频通信会话相关联的环境中;
定位第一参与者的第一身体区域;
生成第一身体区域的第一颜色直方图,其中第一颜色直方图表示第一身体区域的一种或更多种颜色的第一分布;
在音频-视频通信期间的第二时间:
确定第二参与者位于该环境中;
定位第二参与者的与第一身体区域相同的第二身体区域;
生成第二身体区域的第二颜色直方图,其中第二颜色直方图表示第二身体区域的一种或更多种颜色的第二分布;
确定第一颜色直方图与第二颜色直方图相同;
基于第一颜色直方图与第二颜色直方图相同的确定,确定第一参与者与第二参与者相同。
第一颜色直方图和第二颜色直方图各自可以包括多个像素桶,其中像素桶可以包括其颜色值在与相应像素桶相关联的跨度内的像素。
在实施例中,该软件在被执行时可操作来识别第一参与者并将第一颜色直方图存储在与第一参与者相关联的社交图中。
在实施例中,该软件在被执行时可操作来确定第一参与者和第二参与者的一个或更多个身体比例,该身体比例包括肩躯干比例或头躯干比例,其中确定第一参与者与第二参与者相同可以基于一个或更多个身体比例。
在实施例中,该软件在被执行时可操作来:
确定第一参与者的第一当前位置和第一参与者的第一轨迹;和
确定第二参与者的第二当前位置和第二参与者的第二轨迹,其中确定第一参与者与第二参与者相同还基于第一位置、第一轨迹、第二位置和第二轨迹。
在实施例中,该软件在被执行时可操作来将多个权重分配给第一轨迹、第二轨迹、第一位置、第二位置、第一颜色直方图和第二颜色直方图,其中多个权重中的第一权重可以大于多个权重中的第二权重。
第一身体区域和第二身体区域可以是躯干区域。
在实施例中,一种系统可以包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个处理器并且包括指令,该指令当由一个或更多个处理器执行时可操作来使系统:
在音频-视频通信会话期间的第一时间:
确定第一参与者位于与音频-视频通信会话相关联的环境中;
定位第一参与者的第一身体区域;
生成第一身体区域的第一颜色直方图,其中第一颜色直方图表示第一身体区域的一种或更多种颜色的第一分布;
在音频-视频通信期间的第二时间:
确定第二参与者位于该环境中;
定位第二参与者的与第一身体区域相同的第二身体区域;
生成第二身体区域的第二颜色直方图,其中第二颜色直方图表示第二身体区域的一种或更多种颜色的第二分布;
确定第一颜色直方图与第二颜色直方图相同;
基于第一颜色直方图与第二颜色直方图相同的确定,确定第一参与者与第二参与者相同。
第一颜色直方图和第二颜色直方图各自可以包括多个像素桶,其中像素桶可以包括其颜色值在与相应像素桶相关联的跨度内的像素。
在实施例中,该处理器在执行指令时可以可操作来识别第一参与者并将第一颜色直方图存储在与第一参与者相关联的社交图中。
在实施例中,该处理器在执行指令时可操作来确定第一参与者和第二参与者的一个或更多个身体比例,该身体比例可以包括肩躯干比例或头躯干比例,其中确定第一参与者与第二参与者相同可以基于一个或更多个身体比例。
在实施例中,该处理器在执行指令时可操作来:
确定第一参与者的第一当前位置和第一参与者的第一轨迹;和
确定第二参与者的第二当前位置和第二参与者的第二轨迹,其中确定第一参与者与第二参与者相同还基于第一位置、第一轨迹、第二位置和第二轨迹。
在实施例中,该处理器在执行指令时可操作来将多个权重分配给第一轨迹、第二轨迹、第一位置、第二位置、第一颜色直方图和第二颜色直方图,其中多个权重中的第一权重可以大于多个权重中的第二权重。
在实施例中,一种方法可以包括,由计算设备:
从对应于环境中的人的多个表面点的一组坐标点中识别对应于人的面部特征的坐标点;
生成人的面部的面部结构,其中该面部结构:
覆盖人的多个面部特征;和
基本上匹配预定的面部结构;
生成该人的身体骨骼结构,其中该身体骨骼结构基本上匹配预定的身体骨骼结构,并且在二维坐标平面的至少一个维度上基本上与所生成的面部结构对齐;
将所生成的身体骨骼结构和面部结构与环境中的人相关联;和
基于所生成的身体骨骼结构和面部结构来确定用于摄像机、麦克风、扬声器或显示屏的一个或更多个指令。
在实施例中,该方法可以包括确定所生成的面部结构的匹配分数,其中该匹配分数可以指示面部结构与预定的面部结构的匹配程度。
在实施例中,该方法可以包括如果匹配分数低于阈值分数,则惩罚(penalize)所生成的面部结构。
在实施例中,其中面部结构是第一面部结构,该方法可以包括:
将第一面部结构与由计算设备生成的第二面部结构进行比较;
确定第一面部结构与第二面部结构相同;和
将第二面部结构与环境中的人相关联。
环境中的人可以是音频-视频通信会话的参与者。
在实施例中,其中面部结构是第一面部结构,该方法可以包括:
确定第一面部结构的第一位置;
确定第二面部结构的第二位置;
确定第一位置和第二位置相同;和
基于确定第一位置和第二位置相同,丢弃第二面部结构。
一个或更多个指令可以包括向所生成的面部结构拉近。
在实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来:
从对应于环境中的人的多个表面点的一组坐标点中识别对应于人的面部特征的坐标点;
生成人的面部的面部结构,其中该面部结构:
覆盖人的多个面部特征;和
基本上匹配预定的面部结构;
生成该人的身体骨骼结构,其中该身体骨骼结构基本上匹配预定的身体骨骼结构,并且在二维坐标平面的至少一个维度上基本上与所生成的面部结构对齐;
将所生成的身体骨骼结构和面部结构与环境中的人相关联;和
基于所生成的身体骨骼结构和面部结构来确定用于摄像机、麦克风、扬声器或显示屏的一个或更多个指令。
在实施例中,该软件在被执行时可操作来确定所生成的面部结构的匹配分数,其中该匹配分数可以指示面部结构与预定的面部结构的匹配程度。
在实施例中,如果匹配分数低于阈值分数,则该软件在被执行时可操作来惩罚所生成的面部结构。
在介质的实施例中,其中面部结构是第一面部结构,该软件在被执行时可操作来:
将第一面部结构与由计算设备生成的第二面部结构进行比较;
确定第一面部结构与第二面部结构相同;和
将第二面部结构与环境中的人相关联。
环境中的人可以是音频-视频通信会话的参与者。
在介质的实施例中,其中面部结构是第一面部结构,软件在被执行时可操作来:
确定第一面部结构的第一位置;
确定第二面部结构的第二位置;
确定第一位置和第二位置相同;和
基于确定第一位置和第二位置相同,丢弃第二面部结构。
一个或更多个指令可以包括向所生成的面部结构拉近。
在实施例中,一种系统可以包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个处理器并且包括指令,该指令当由一个或更多个处理器执行时可操作来使系统:
从对应于环境中的人的多个表面点的一组坐标点中识别对应于人的面部特征的坐标点;
生成人的面部的面部结构,其中该面部结构:
覆盖人的多个面部特征;和
基本上匹配预定的面部结构;
生成该人的身体骨骼结构,其中该身体骨骼结构基本上匹配预定的身体骨骼结构,并且在二维坐标平面的至少一个维度上基本上与所生成的面部结构对齐;
将所生成的身体骨骼结构和面部结构与环境中的人相关联;和
基于所生成的身体骨骼结构和面部结构来确定用于摄像机、麦克风、扬声器或显示屏的一个或更多个指令。
在实施例中,该处理器在执行指令时可操作来确定所生成的面部结构的匹配分数,其中该匹配分数可以指示面部结构与预定的面部结构的匹配程度。
在实施例中,当执行指令时,如果匹配分数低于阈值分数,则该处理器可操作来惩罚所生成的面部结构。
在实施例中,其中面部结构是第一面部结构,该处理器在执行指令时可操作来:
将第一面部结构与由计算设备生成的第二面部结构进行比较;
确定第一面部结构与第二面部结构相同;和
将第二面部结构与环境中的人相关联。
环境中的人可以是音频-视频通信会话的参与者。
在实施例中,其中面部结构是第一面部结构,该处理器在执行指令时可操作来:
确定第一面部结构的第一位置;
确定第二面部结构的第二位置;
确定第一位置和第二位置相同;和
基于确定第一位置和第二位置相同,丢弃第二面部结构。
在实施例中,一种方法可以包括,由计算设备:
访问前景视觉数据,该前景视觉数据包括对应于环境中的人的多个表面点的一组坐标点;
为该组坐标点生成边界框,其中该边界框包括该组坐标点中的每个坐标点;
提供指令以收集环境中在边界框之外的区域的背景视觉数据;和
向与该计算设备相关联的智能导演提供前景视觉数据和背景视觉数据。
在实施例中,该方法可以包括将前景标签分配给边界框,并将背景标签分配给背景视觉数据。
可以以规则的间隔更新边界框内的一组坐标点。
在实施例中,该方法可以包括将前景标签分配给边界框,并将背景标签分配给背景视觉数据,其中前景标签可以保持分配给边界框,直到边界框移出环境。
背景视觉数据可以包括多个像素,其中每个像素:
包括红/绿/蓝(RGB)颜色值;和
对应于环境中的唯一位置。
在实施例中,该方法可以包括,在提供收集背景视觉数据的指令之前,为多个像素中的每个像素分配随机生成的RGB颜色值。
在实施例中,该方法可以包括:
接收用户输入,该用户输入指示用户已经轻击了智能通信设备的显示屏的对应于边界框的位置;
提供指令以裁剪掉至少一些背景视觉数据来呈现该人以在显示屏上显示。
在实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来:
访问前景视觉数据,该前景视觉数据包括对应于环境中的人的多个表面点的一组坐标点;
为该组坐标点生成边界框,其中该边界框包括该组坐标点中的每个坐标点;
提供指令以收集环境中在边界框之外的区域的背景视觉数据;和
向与计算设备相关联的智能导演提供前景视觉数据和背景视觉数据。
在实施例中,该软件在被执行时可操作来将前景标签分配给边界框,并将背景标签分配给背景视觉数据。
可以以规则的间隔更新边界框内的一组坐标点。
在实施例中,该软件在被执行时可操作来将前景标签分配给边界框,并将背景标签分配给背景视觉数据,其中前景标签可以保持分配给边界框,直到边界框移出环境。
背景视觉数据可以包括多个像素,其中每个像素:
包括红/绿/蓝(RGB)颜色值;和
对应于环境中的唯一位置。
在实施例中,该软件在被执行时可操作来在提供收集背景视觉数据的指令之前,为多个像素中的每个像素分配随机生成的RGB颜色值。
在实施例中,该软件在被执行时可操作来:
接收用户输入,该用户输入指示用户已经轻击了智能通信设备的显示屏的对应于边界框的位置;
提供指令以裁剪掉至少一些背景视觉数据来呈现该人以在显示屏上显示。
在实施例中,一种系统可以包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个处理器并且包括指令,该指令当由一个或更多个处理器执行时可操作来使系统:
访问前景视觉数据,该前景视觉数据包括对应于环境中的人的多个表面点的一组坐标点;
为该组坐标点生成边界框,其中该边界框包括该组坐标点中的每个坐标点;
提供指令以收集环境中在边界框之外的区域的背景视觉数据;和
向与计算设备相关联的智能导演提供前景视觉数据和背景视觉数据。
处理器在执行指令时可操作来将前景标签分配给边界框,并将背景标签分配给背景视觉数据。
可以以规则的间隔更新边界框内的一组坐标点。
处理器在执行指令时可操作来将前景标签分配给边界框,并将背景标签分配给背景视觉数据,其中前景标签可以保持分配给边界框,直到边界框移出环境。
在系统的实施例中,其中背景视觉数据包括多个像素,每个像素可以:
包括红/绿/蓝(RGB)颜色值;和
对应于环境中的唯一位置。
处理器在执行指令时可操作来在提供收集背景视觉数据的指令之前,为多个像素中的每个像素分配随机生成的RGB颜色值。
在根据本发明的实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。
在根据本发明的实施例中,一种系统可以包括:一个或更多个处理器;以及耦合到处理器并包括由处理器可执行的指令的至少一个存储器,处理器当执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。
在根据本发明的实施例中,优选地包括计算机可读非暂时性存储介质的计算机程序产品当在数据处理系统上被执行时可以操作来执行根据本发明或任何上面提到的实施例的方法。
附图简述
图1示出了示例客厅设置中的示例智能通信设备。
图2示出了具有示例组件的示例智能通信设备。
图3A和图3B示出了与示例智能通信设备的示例用户交互。
图4示出了用于视觉和听觉选择的示例可视化。
图5示出了由示例智能通信设备做出的示例输入和决策的示例框图。
图6示出了与示例智能通信设备相关联的视觉数据的示例框图。
图7示出了通过智能通信设备执行前景/背景建模的示例可视化。
图8示出了通过智能通信设备重新识别人的示例可视化。
图9示出了由两个重叠的人引起的问题的示例可视化。
图10A和图10B示出了由两个重叠的人引起的另一个问题的示例可视化。
图11示出了用于通过智能通信设备消除重叠的人的歧义的示例可视化。
图12示出了基于环境的描述性模型来确定影片决策的示例方法。
图13示出了用于在音频-视频通信会话期间确定前景和背景描述的示例方法。
图14示出了用于在音频-视频通信会话期间重新识别人的示例方法。
图15示出了用于在音频-视频通信会话期间消除重叠的人的歧义的示例方法。
图16示出了与社交网络系统相关联的示例网络环境。
图17示出了示例社交图。
图18示出了示例计算机系统。
示例实施例的描述
智能通信设备可以用于音频/视频通信,例如实时或视频聊天或预先录制的音频/视频演示。智能通信设备可以是位于用户家中或办公室中的专用通信设备。智能通信设备可以具有触敏显示屏、扬声器、一个或更多个摄像机以及一个或更多个麦克风。智能通信设备可以具有内部处理功能,使其能够做出模拟人类做出的影片决策的自动影片决策。这种影片决策可以包括人类导演在她控制摄像机和麦克风的情况下做出的任何选择(例如,生成影片剪辑),以及可以通过视频编辑器获得的任何决策(例如,选择实时地应用视觉效果)。这样的选择可以包括:一个人正在说话并且(例如,在与社交网络系统相关联的隐私设置界面中)已经指定她允许设备向她拉近则拉近这个人、平移或切换到另一个人、拉远具有大量活动的场景、将麦克风波束形成为特定声源、应用实时特效、以及其他合适的决策。为了做出这些确定,智能导演可以访问两个或更多用户之间的当前AV通信会话的描述性模型。智能导演可以位于智能通信设备中,也可以位于远程服务器中。根据设备所有者和每个相关用户的隐私设置,描述性模型可以包括关于以下项的信息:(1)与发送智能通信设备所处的环境相关的非身份识别信息;(2)位于发送设备环境中的一个或更多个人;(3)与接收方的智能通信设备所处的环境相关的非身份识别信息;(4)位于接收方设备环境中的一个或更多个人;以及(5)当前音频-视频通信会话周围的上下文。根据这些输入以及来自任何参与用户的其他手动输入,智能导演可以做出与以下项相关的影片决策:视觉目标(例如,特别地向一个人拉近)、音频目标(例如,相对于其他声源放大特定声源)或风格(例如,视觉目标之间的平滑与快速转换)。
在特定实施例中,发送到参与AV通信会话的设备的视觉数据可以经历至少三种类型的视觉处理中的一种或更多种:(1)背景/前景建模;(2)重新识别人;以及(3)消除重叠的人的歧义。背景/前景建模可以包括基于实时多人2D姿势估计数据来识别人体骨骼的边界框,并且只为边界框之外的区域收集背景数据。重新识别人可以涉及识别一个或更多个人体骨骼,并生成关于每个人体骨骼的一个或更多个描述性特征。描述性特征可以包括对应于人体骨骼的人的颜色直方图、当前位置和轨迹、以及与人体骨骼相关联的一组比例(例如,臀肩比)。这些描述性特征可能不用于执行实际的识别,其中设备或后端系统确定与人体骨骼相关联的人的身份,而是可能是“骨骼A”的更良性的非身份识别的识别,其中相应的人的身份没有被发现。如果需要重新识别人体骨骼,系统可以依靠描述性特征来重新识别人体骨骼。消除重叠的人的歧义旨在分离出其人体骨骼共享同一边界框的人,或者具有独立但重叠的边界框的人。它包括将每个人的面部映射到一副面部结构,并基于该映射建立一棵“人类树”。下面将更详细地解释这些和其他实施例。
图1示出了示例客厅设置中的示例智能通信设备。注意,“智能通信系统130”在本文也可以被称为“客户端系统130”,并且这些术语在本公开中可以互换使用。虽然图1示出了作为客厅设置的示例环境,但是这仅仅是智能通信设备可以位于何处的示例。设想了智能通信设备130可以位于任何合适的室内或室外环境中,包括厨房、卧室、走廊、后院、公园、海滩或任何其他环境。环境100可以包括智能通信设备130和许多其他类型的对象,包括人120和家具,包括电视110。对象可以构成环境的背景或前景。背景对象可以是在AV通信会话期间基本保持不变的那些对象。背景对象通常包括墙壁、家具、电器、门、门道、吊扇、吊灯等。前景对象四处移动和/或发出声音。前景对象一般包括人和宠物。在特定实施例中,前景对象还可以包括无生命的对象,例如电视或收音机,或玩具(例如,遥控赛车)。为了做出适当的影片决策,智能导演可能需要区分背景对象和前景对象。这样,智能导演可以适当地识别人和在前景中移动的其他对象。下面参考图7更详细地解释该过程。
图2示出了具有示例组件的示例智能通信设备130。示例组件包括智能音频组件131、智能导演132、智能视频组件133、模型生成器134和社交网络接口135。每个组件具有或使用必要的处理和存储单元来执行本公开中讨论的功能。以下对模型生成器134及其相关模块和它们的功能的讨论可能受制于(1)智能通信设备130的所有者和(2)智能通信设备130的视觉或听觉空间内的每个用户的隐私设置。例如,设备所有者可以指定在任何情况下设备都不能访问由社交网络系统存储的关于任何人的信息。在这种情况下,设备不会就任何类型的用户信息与远程服务器通信。作为另一个示例,设备所有者可以指定设备可以访问由社交网络系统存储的信息以增强用户体验(如下面将讨论的)。在这种情况下,设备可以就设备所有者的社交网络数据与社交网络系统通信,但是设备将继续检查访问其他用户的社交网络数据的许可。例如,如果设备所有者选择加入社交网络数据访问,但是设备所有者的朋友没有选择加入,则设备将不会访问朋友的社交网络数据。至少,设备可以出于确定用户是否允许访问他或她的社交网络信息或其他识别信息的有限目的来识别用户。如果用户不允许此类访问,设备将不会出于任何其他目的识别用户。如本文所讨论的,这种隐私设置可以由用户在与在线社交网络上的用户账户相关联的设置界面上配置。
模型生成器134可以包括三个模块:环境模块220、人模块230和上下文模块240。环境模块220可以生成关于智能通信设备130所处的环境的信息。作为示例而非限制,环境模块220可以确定其环境是室内的,并且还可以确定环境的各种特征,例如墙壁、走道和家具的位置。通过使智能导演132能够做出更智能的影片决策,可以收集该信息以增强观看参与者的观看体验。例如,如果环境模块220包含墙壁存在于特定位置处的信息,则智能导演可以指示摄像机平移不超过墙壁,因为没有用户会穿过墙壁。该信息被包括在描述性模型中,这将参考下面的图5进行更详细的讨论。人模块230可以生成关于环境中的人的信息。如果设备所有者和相关用户已经选择加入共享他们的信息(例如,身份和社交网络信息),则关于这些人的信息可以包括他们的身份、他们的位置、他们对当前音频-视频通信会话的参与程度(量化为“参与度度量”,下面讨论)、每个人的非身份识别的颜色直方图、他们的谈话风格(例如,快、慢)、一个人做出的手势以及其他合适的信息。人模块230可以为描述性模型生成信息,这将在下面参考图5更详细地讨论。如果设备所有者和相关用户已经选择加入共享他们的信息(例如,身份和社交网络信息),则上下文模块240可以生成关于特定AV通信会话的上下文的信息,例如AV通信会话的日期或时间、AV通信会话正在发生的房间、AV通信会话中的参与者的数量、每个智能通信设备的取向或者AV通信会话参与者之间的关系(例如,配偶、同事、同学)。在特定实施例中,如果用户已经选择加入共享社交网络信息,则上下文模块240可以经由社交网络系统接口135从社交网络系统接收关于正在参与AV通信会话的用户的社交网络信息。
在特定实施例中,AV通信会话可以涉及智能通信设备130和至少一个其他设备,该其他设备可以是另一个智能通信设备130或任何其他通信设备,例如智能手机、膝上型计算机、平板电脑或VR设备。在AV通信会话期间,每个参与的智能通信设备可以(1)向其他参与设备发送音频和视频数据,以及(2)从其他参与设备接收音频和视频数据。因此,每个参与的智能通信设备可以既是发送设备又是接收设备。作为示例而非限制,AV通信会话可以包括四个不同用户中的四个智能通信设备。这些设备中的每一个可以向其他三个设备发送音频和视频数据,并且可以从其他三个设备接收音频和视频数据。虽然本公开使用术语“发送设备”、“发送用户”、“接收设备”和“接收用户”,但是本公开设想了每个设备和用户既是发送者又是接收者,因为在AV通信会话中,所有设备都发送和接收信息。
图3A和图3B示出了与示例智能通信设备的示例用户交互。在图3A中,智能通信设备正在显示两个人在相互交谈的场景,并且正在与和智能通信设备130相关联的用户参与者交谈。智能通信设备130允许用户以各种方式与其交互,包括轻击显示屏上的特定对象或人,并向这个人或对象拉近。作为示例而非限制,如果用户希望向框310内的人拉近,则用户可以轻击框310内的某处。图3B示出了用户轻击框310可能导致的结果。在用户轻击框310内部之后,智能通信设备130可以数码地拉近框310内部的空间。在特定实施例中,如果第一用户已经指定他或她允许“跟随特征”,则第二用户可以在对应于第一用户的位置处轻击设备的屏幕,并且第二用户的轻击可以使得智能通信设备在第二用户在环境中移动时跟随第二用户,同时仍然保持第二用户的紧密拉近视图。如果第二用户已经选择加入这种功能,则第一用户的轻击也可以导致来自人的音频相对于环境中的其他噪声被放大。
图4示出了用于视觉和听觉选择的示例可视化。在特定实施例中,智能通信设备130可以将其环境分成几个“切片(slice)”。在图示的示例中,有A-H八个切片,但是本公开设想了任何合适数量的切片。智能音频组件131可以确定每个音频源来自哪个切片。同样,智能视频组件133可以确定每个视觉对象位于哪个切片中。作为示例而非限制,两个人420可以在声音切片B中进行对话,并且电视410可以在声音切片H中播放。每个人420和电视410可以同时发出声音。智能音频组件131可以识别两个声源,并确定它们当前位于哪个切片中。同样,智能视频组件133可以识别这两个视觉对象,并确定它们当前位于哪个切片中。在特定实施例中,声源或视觉对象可以占据多于一个切片。例如,人可能跨在切片C和切片D上。在这种情况下,智能音频组件和智能视频组件可以确定声音和视觉对象(例如,人)可能位于切片C和切片D的边缘处。
图5示出了示例输入510和由示例智能通信设备做出的决策的示例框图500。在特定实施例中,智能通信设备130可以访问来自一个或更多个输入源的输入数据。输入源可以是一个或更多个摄像机、一个或更多个麦克风、一个或更多个元数据元素(例如,发送或接收环境中的参与者的数量)、以及与当前AV通信会话相关联的一个或更多个上下文元素。摄像机可以提供视觉数据511,麦克风可以提供音频数据512,并且上下文元素可以来自社交网络数据513。在特定实施例中,视觉数据511和音频数据512可以由智能通信设备130上的一个或更多个计算组件来处理。在特定实施例中,视觉数据可以是2D姿势数据。2D姿势数据可以包括环境中人的骨骼。可以以特定的帧速率(例如,每秒10次)更新2D姿势数据。智能导演132可以以该帧速率(例如,每秒10次)访问2D姿势数据,并且可以基于从2D姿势数据获得的信息来指示摄像机组件和音频组件。例如,如果2D姿势数据指示参与者正在向左移动,则智能导演132可以指示摄像机组件向左平移显示器,以在参与者在房间中移动时跟踪她。在特定实施例中,2D姿势数据可以用推断(inference)来补充,以使帧速率看起来更快。为了做出这些推断,智能导演132可以外推参与者的轨迹,以预测他们在不久的将来会在哪里。例如,如果一个参与者当前在环境中正在向左移动,则很可能从现在起一秒钟后她仍然会向左移动。智能导演132可以预测参与者的位置和轨迹,并且可以相应地指示摄像机组件。例如,如果智能导演132预测参与者将在位置A并以速度B向左移动,则它可以指示摄像机组件以基于当前显示、参与者的位置和参与者的速度的特定速率向左平移。
如果用户选择加入2D姿势身体追踪,则2D姿势数据可以提供一组点,这些点指示人的身体部位在环境中的位置。如果用户在隐私设置界面中同意特定功能,则2D姿势数据可以足够详细,以提供关于用户的眼睛、嘴、下巴和耳朵的位置的点。智能导演可以多种方式使用这些数据。作为示例而非限制,它可以使用2D姿势数据来确定一个人在看哪里。智能导演然后可以做出影片决策(例如,将摄像机指向哪里,将摄像机移到多近)。例如,如果三个人正在看第四个人,则AI导演可以指示摄像机向第四个人拉近。下面参考图6至图10更详细地讨论视觉数据的处理。
在特定实施例中,音频数据512可以由智能音频组件131处理。在被处理之后,音频数据512可以包括关于来自环境的每个声源的信息。该信息可以是(1)声音相对于智能通信设备130来自的方向,以及(2)声音的分类。作为示例而非限制,电视可能正在播放篮球赛。智能音频组件131可以识别声源,将其分类为电视音频,并确定其来自智能通信设备130左侧25度。智能音频组件131然后可以将该信息作为音频数据512提供给智能导演132。智能导演132可以使用该信息来做出关于音频的决策。例如,智能导演132可以相对于环境中的其他声音衰减电视音频,使得接收参与者可以更清楚地听到发送参与者的声音。
在特定实施例中,智能通信设备130的计算组件或与社交网络系统相关联的远程计算设备可以基于输入数据生成当前描述性模型。根据设备所有者和每个相关用户的隐私设置,当前描述性模型可以包括关于以下项的描述性特征(例如,描述性元素):(1)环境、(2)环境中的人和(3)当前AV通信会话的上下文。智能通信设备当前所处环境的描述对于智能导演来说可能是重要的,因为智能导演可以在AV通信会话期间使用该信息来做出影片决策。例如,如果智能导演意识到某个特定位置处存在一面墙,则它可以指示摄像机不平移到超过墙,因为没有人会移动穿过实心墙。与环境相关的度量可以是环境的维度。
另一个度量可以是环境中通常存在的活动的级别和类型。例如,环境是一个很多人走过的房间,就像一个家的入口?智能导演可以使用这种类型的信息来确定平移的速度、缩放和裁剪个人的程度、或者在场景或人物之间切换的频率。例如,如果环境是高活动度的房间(例如,客厅或入口通道),智能导演可以指示摄像机拉远到比正常程度更大的程度。另一条信息可以是出现在墙上的线条,例如装饰线(molding)或墙边。这些可以在渲染中用来拉直曲线。摄像机镜头可以是广角镜头,尽可能多地捕获环境。生成的图像可能会出现失真或“鱼眼”。这可能会导致观看者觉得直线是弯曲的。智能导演可以提供指令以在渲染中拉直图像,使得在现实生活中直线出现的线条在接收智能通信设备的屏幕上直线出现。另一个度量可以是房间的照明。例如,如果房间暗(例如,亮度低于预定阈值水平),智能导演可以确定通过增加摄像机的曝光或者对视觉数据进行后处理并使输出视频变亮来使房间变亮。另一个度量可以是房间当前的颜色。例如,一盏灯可能使房间呈橙色色调。智能导演可以访问这些数据,并提供指令对房间进行颜色校正。
在特定实施例中,当前描述性模型可以包括环境中的人的描述性特征,如人模块522所示。在特定实施例中,描述性特征可以是非身份识别的。非身份识别的特征可以包括人的位置、取向、动作、参与程度和“锚点(anchor)”。如果该人已经选择加入共享个人信息,则描述性特征可以进一步包括该人的身份和社交网络信息。在特定实施例中,在AV通信会话结束之后,可以擦除或清除所访问的信息。因此,从一个通信会话到下一个通信会话,设备不会存储关于人的信息。一个人的位置可以是他们在环境中所处的位置。智能导演可以根据一个人的位置做出影片决策。例如,如果一个人位于远离智能通信设备的地方但正在说话,则智能导演可以做出向这个人拉近的决策。一个人的取向也可能会被考虑到智能导演的影片决策中。例如,如果一个人背向智能通信设备,智能导演可以指示摄像机聚焦到别处。如果这个人选择加入分享她的身份,这个人的身份也可能会被考虑到智能导演的影片决策中。智能通信设备130可以识别房间中选择加入使用面部或语音识别或任何其他合适类型的识别来共享其身份的人。如果一个人频繁地和/或显著地出现在AV通信会话中,智能导演可以确定她对于AV通信会话中的其他参与者是重要的。她甚至可能是智能通信设备的所有者。因此,智能导演可以指示摄像机和麦克风比房间里的其他人更关注她,其他人可能出现得不太频繁或不太显著。
一个人的动作也可以被考虑到智能导演的影片决策中。一个人的动作可以包括这个人当前正在做的运动(例如,这个人正在做跳跃运动吗?)、这个人的面部表情、这个人的手势、以及一个人的运动风格(比如,这个人是不是经常走动?她说话时会用很多手势吗?)。智能导演可以根据一个人当前的运动制定规则。通常,如果一个人是活跃的(例如,在房间内快速移动、跳跃、挥动手臂),智能导演可以确定将摄像机集中于活跃的人并拉远,从而可以看到这个人的运动,而没有快速和不平稳的摄像机移动。如果一个人不活跃,智能导演可以决定向这个人的面部或上部躯干和头部拉近。智能导演也可以根据一个人的面部表情制定规则。作为示例而非限制,如果一个人正在笑,智能导演可以提供指令来切换到这个人,并对她的面部或上部躯干和头部进行近距离裁剪,以便观看者可以看到这个人正在笑。智能导演也可以根据一个人的手势制定规则。手势可以包括从挥手到拥抱到点头到在厨房切菜的任何动作。根据手势,智能导演可以指示摄像机做不同的事情。例如,挥手或拥抱可能会导致智能导演指示摄像机切换到挥手或拥抱另一个人的人。但是切蔬菜的手势可能会导致智能导演提供指令来向这个人的手拉近。到目前为止,这一讨论集中在向接收参与者发送可视数据的参与者的动作上。但是如果接收用户已经允许该设备监控面部表情,则智能通信设备还可以考虑接收用户的动作(例如,面部姿态(facial gesture))。作为示例而非限制,第一参与者Alice可能正在与朋友Betsy以及Betsy的朋友Caroline进行AV通信会话。当Caroline出现在Alice的智能通信设备上的视图中时,Alice可能会微笑着说“嗨,Caroline!见到你真好!”Alice的智能通信设备可以从Alice那里获得这种反应,并在通信会话的持续时间期间将其存储为对Caroline的增加的亲和力,而不是用于未来的通信会话。因此,智能导演可以为Alice个性化影片决策,并因此可以提供指令来将摄像机更多地聚焦在Caroline而不是其他人或对象上。
在特定实施例中,一个人的参与程度可以被考虑到由智能导演做出的决策中。在特定实施例中,如果相关用户已经选择加入共享他们的社交网络数据,则与智能通信设备相关联的一个或更多个处理器可以为发送设备所处的环境中的每个人或对象(以下称为“主体(subject)”)计算参与度度量。假设接收用户已经选择加入允许设备访问她的社交网络数据,则参与度度量可以近似接收用户对相关主体的兴趣水平。对象的示例包括电视、宠物、玩具、艺术品等。通常,对象可能具有非常低的参与度,因为参与用户可能主要对与其他人通信感兴趣,而不是查看或收听对象。接收用户对给定主体i的参与度度量I可以通过使用公式Ix=Ax+By+…Cz来计算,其中A、B、......C是与主体相关联的特征,并且x、y、......z是可以被分配给每个相应特征的权重。作为示例而非限制,特征A可以是智能视频组件133或智能音频组件131所描述的主体分类,或者是两者的组合。如果主体是人类,A可以被赋予特征值1。如果主体是非人类(例如,宠物或电视),A可以被赋予值0。分配给A的权重x可以是任何合适的权重。例如,权重可以是在0和1之间的某个值。一般来说,特征越重要,权重可能越高。很可能主体分类会是一个重要的特征,因为接收用户可能几乎总是对与人类通信比与非人类通信更感兴趣。因此,相对于其他权重,x可以被分配较大的权重。例如,x可以被分配0.75的权重。
在特定实施例中,参与度度量计算中的唯一特征可以是主体的分类。因此,在特定实施例中,智能导演用来计算参与度度量的公式可以是Ii=Ax。作为示例而非限制,用户Ally可能正在使用智能通信设备与她的妈妈Betsy进行视频聊天。Ally可以是发送用户,并且Betsy可以是接收用户。请注意,两个用户都是发送和接收用户(因为信息是在音频-视频通信会话期间发送和接收的),但是为了讨论的目的,Ally可以是发送用户,并且Betsy可以是接收用户。可能还有一只狗和Ally在一起。这只狗可能在四处走动,吠叫或发出其他声音。智能导演可以确定两个参与度度量:一个针对Ally,另一个针对Ally的狗。为了做出决定,智能导演可以首先使用视觉数据511或音频数据512对每个主体进行分类,并且可以将Ally分类为人类,并且将Ally的狗分类为非人类。然后,智能导演可以计算出Ally的参与度度量为0.75(假设x=0.75),并且狗的参与度度量可以是0(因为对于狗,A将被分配0)。因此,智能导演可以提供指令,让摄像机和麦克风聚焦在Ally身上,而忽略这只狗,即使它在吠叫和做其他运动。注意,在特定实施例中,如果参与者的动作认为推翻智能导演的决策是合适的,则可以推翻该决策。例如,如果参与者开始看着狗并对着狗笑,因为狗正在做一些有趣的事情(例如,表演一个技巧),则智能导演可以提供指令来从Ally移开并朝向狗平移。
在特定实施例中,其他特征可以包括智能通信设备130和主体之间的距离(较小的距离被分配较大的特征值)、主体相对于智能通信设备130的位置(位于设备130前面的声音被分配较大的权重)、社交图距离亲和力分数,假定相关用户已经选择加入在视频聊天两端的用户之间共享他们的社交网络数据(更大的亲和力分数被赋予更大的权重)、在音频-视频通信会话期间人在环境中存在的时间量、在音频-视频通信会话期间人说的词语的数量、参与者与智能通信设备进行目光接触的时间长度以及上下文线索。例如,如果房间里的大多数人都朝房间的右边看,这可能表明房间的那个部分正在发生有趣的事情。如果在房间的那一部分有一个主体,这个主体可能也很有趣。因此,可以针对该主体相应地调整参与度度量。在这方面要问的一个二元问题(binary question)可以是“环境中至少一半的人的目光是指向主体的吗?”如果答案是肯定的,那么智能导演可以将该特征指定为1。如果接收用户已经选择加入使用面部表情来增强用户体验的系统,同时特定主体在视野中,上下文线索的另一个示例可以是接收用户的面部表情(如前所讨论的)。作为另一个示例而非限制,两个用户Ally和Betsy正在用智能通信设备130进行视频聊天。Ally可以是发送用户,并且Betsy可以是接收用户。假设Betsy先前已经(例如,经由隐私设置界面)同意系统在AV通信会话期间使用她的面部表情来增强她的用户体验。智能视频组件132可以登记Betsy的面部表情,或者可以简单地登记当在Betsy的智能通信设备上呈现各种主体时Betsy在看哪里。例如,Ally和Betsy可能在对话,并且Ally的丈夫可能进入环境并打断对话问Ally一个问题。当Ally的丈夫正在说话时,Betsy可能会将目光从智能通信设备130移开,以检查她的电话或处理一些其他任务。这种转移视线的动作可能表明Betsy对Ally的丈夫要说的话并不特别感兴趣。因此,这可以是对系统的指示,以衰减来自Ally的丈夫的音频,并将摄像机保持集中于Ally,除非Ally的丈夫实际上正在参与对话,这可以由其他度量来确定,例如Ally在她的丈夫说话时是否看着她的丈夫、Ally的丈夫说话的量、他说话的音量、Ally的丈夫和智能通信设备130之间的距离或任何其他合适的度量。
作为如何计算参与度度量的另一个示例,考虑在第一环境中有两个主体的AV通信会话:参与者Alex和正在播放俄亥俄州和密歇根州之间NCAA篮球赛的电视。在第二环境中的是参与者Becky。假设Alex和Becky先前都(例如,经由隐私设置界面)独立地同意系统使用他们的社交网络数据来增强他们在AV通信会话期间的用户体验。智能导演可以计算近似Becky对第一环境的两个主体的兴趣的两个参与度度量:Alex的第一参与度度量和电视的第二参与度度量。参与度度量计算可以考虑三个特征:(1)主体的类别;(2)Becky与主体之间的社交图亲和力;以及(3)主体相对于智能通信设备130的位置。上述特征的权重分别为0.75、0.50和0.25。出于本示例计算的目的,假设:(1)Alex和Becky处于恋爱中;(2)Becky的社交图表明她在密歇根上大学;以及(3)Alex比电视机更靠近智能通信设备130。Becky对Alex的兴趣的参与度度量可以表示为IB=Ax+By+Cz,并且Becky对电视感兴趣的参与度度量可以表示为IH=Ax+By+Cz。因此,Becky对Alex的兴趣可以是IA=(1)(0.75)+(1)(0.50)+(1)(0.25)=1.5。这可能是因为Alex被归类为人类,因此智能导演可能将特征“A”的分数指定为1。此外,由于Becky和Alex处于恋爱中,他们可能对彼此有很强的社交图亲和力,所以“B”也可能得到1分。并且由于Alex位于智能通信设备130附近(例如,在阈值距离内),所以“C”也可以获得1分。对于电视机,参与度度量可以计算为IT=(0)(0.75)+(1)(0.50)+(0)(0.25)=0.5IH=(0)(.75)+(1)(0.50)+(0)(0.25)=0.5。这可能是因为电视没有被归类为人类,所以A可能被分配为“0”。由于Becky上了密歇根大学,并且电视上播放着一场密歇根比赛,所以Becky可能对密歇根篮球赛有很强的亲和力(例如,超过阈值的亲和力)。因此,可以将B指定为“1”。智能导演可能已经通过图像/音频识别或通过访问在线电视指南确定电视上正在播放密歇根篮球赛。请注意,只有在设备所有者授权智能通信设备代表所有者访问互联网的情况下,智能导演才可以确定密歇根篮球赛正在进行。最后,由于电视机位于阈值距离之外,因此可以将C指定为“0”。因此,Alex的参与度度量可以高于电视机的参与度度量。因此,智能导演可以提供指令来将摄像机集中在Alex,并跟随Alex在房间内走动,以及相对于Alex的声音衰减电视声音。
在特定实施例中,智能导演可以基于包括在与接收用户相关联的社交图中的信息来增加主体的参与度度量。如下所述,社交图可以包括节点和连接节点的边。连接两个节点的每条边可以表示两个节点之间的关系。例如,如果第一用户Alex在Baylor大学上大学,则社交图可以具有对应于Alex(或对应于在线社交网络上Alex的简档)的第一节点和对应于Baylor大学(或对应于Baylor大学的在线资源)的第二节点。社交图还可以在第一节点和第二节点之间具有边连接。边连接可以具有边类型。边类型可以是“出席”。此外,如果Alex已经在关于Baylor大学的在线社交网络上执行了其他动作,则Alex的节点和Baylor大学的节点之间可能存在其他边。例如,Alex可能点赞了(like)在线社交网络上的Baylor大学实体页面。这可能已经在第一节点和第二节点之间生成了另一个具有“赞”边类型的边连接。观看与Baylor大学相关联的视频、发表评论、加入群组以及其他类似的动作都可以在Alex的节点和Baylor大学的节点之间添加边连接。如下所述,这些动作还可以增加Alex和Baylor大学之间的亲和力系数。假设Alex先前已经(例如,经由隐私设置界面)同意系统使用他的社交网络数据来增强他在AV通信会话期间的用户体验。智能导演可以根据Alex的隐私设置来访问社交图(如下面更详细讨论的),并且可以基于用户和给定实体之间的亲和力或边来增加参与度度量。继续上面的示例,Alex可能正在参与和另一个用户(例如图4的人420)视频聊天。电视410可能正在播放Baylor足球赛。智能音频组件131可能已经通过识别声音(例如,电视可以播放话语“欢迎回到Baylor足球”)或者通过访问电视指南和电视的当前频道,或者通过任何其他合适的手段,确定电视410上正在播放Baylor足球赛。智能音频组件131可以访问Alex的社交图,并且可以确定Alex和Baylor大学之间(具体地说,对于Baylor足球)存在高亲和力系数。基于该确定,智能导演可以增加电视的参与度度量,因为Alex更有可能对观看足球赛感兴趣。
在特定实施例中,人可以与“锚点”相关联。锚点可以是一个人身体上的一个点,这个人不会偏离该点。作为示例而不是作为限制,如果一个人站着,这个人的锚点可能位于脚部,或较低的躯干。这是因为锚点不太可能移动,即使这个人可能移动她的手臂,或者弯曲腰部,或者移动她的头。锚点用于确定为了跟随一个主体而平移摄像机的程度。通常不希望摄像机镜头有太多的移动。观看的参与者可能想要很少的移动或平滑的移动。通过将摄像机镜头固定在人身体上不太可能移动的位置,智能导演可以确保摄像机镜头尽可能少地移动。为了更全面地理解这一点,想象一下如果锚点在这个人的手上。每当这个人移动她的手,摄像机镜头就会跟着移动。这对于观看的参与者来说可能是非常讨厌的。因此,锚点可以在人的身体上较低部位,例如脚部或臀部。如果摄像机集中在某个特定主体,智能导演可以指示摄像机仅在锚点移动时移动。每个主体都可以有锚点。锚点可以在2D姿势数据被发送给智能导演之前或之后从2D姿势数据中确定。
在特定实施例中,AV通信会话的上下文可以包括在当前描述性模型中。上下文可以是关于AV通信会话的任何信息,例如日期、时间或围绕AV通信会话的日期和时间的事件。智能通信设备130可以访问任何相关用户的隐私设置,并确定是否有任何用户选择加入与智能通信设备130共享他们的社交网络数据。如果是这样,智能导演132可以使用这样的信息来增强用户在AV通信会话期间的体验。作为示例而非限制,AV通信会话可以发生在参与者的生日那天。一位名叫Jordan的参与者可能在AV通信会话的那天年满28岁。智能通信设备130可以通过社交网络系统接口组件135访问该信息。智能导演可以决定在AV通信会话期间指示摄像机跟随Jordan或者更频繁地将场景切换到Jordan,因为其他参与者(例如,祖父母、朋友)可能比Jordan环境中的其他参与者更有兴趣在Jordan生日那天与Jordan交流和见面。
在特定实施例中,智能导演可以使用当前描述性模型中的信息来识别一个或更多个视觉目标531、一个或更多个音频目标532或一种或更多种风格533。视觉目标531可以是智能导演认为值得跟随的任何合适的主体(如本文所讨论的)。作为示例而非限制,来自上述示例的Jordan可以是视觉目标。在AV通信会话期间,视觉目标可以在人与人之间快速变化。例如,每个说话的人在他或她说话时都可以是视觉目标。在特定实施例中,视觉目标不需要紧密耦合到音频目标533。智能通信设备130可以从视频中去耦合音频。这可以允许接收用户观看一个对象并收听不同的声源。作为示例而非限制,上述示例中的接收用户可以收听发生在图4的切片B中的对话(假设参与对话的所有用户先前已经选择加入允许智能通信设备130放大他们的对话),但是可以观看切片H中电视410上的比赛。用户可以选择通过任何合适的用户设置配置(包括语音命令)来观看此内容。智能通信设备130还可以推断用户希望观看一个对象并收听不同的声源。这可以使用任何合适的手段来实现,包括用户偏好设置。例如,可以提供视频图标和音频图标。用户可以选择视频并轻击主体作为视频目标。用户然后可以选择音频并轻击不同的主体作为音频目标。这对于想要查看特定主体(例如,新生婴儿)但与不同主体(例如,新生婴儿的父母)交谈的用户来说可能很好。在特定实施例中,智能导演可以决定根据特定风格来指示摄像机和麦克风。风格可以很简单,比如快速的摄像机移动和切换相对于慢速的摄像机移动和切换。快速移动时,摄像机可以快速移动,并对不同的移动和声音做出非常快速的响应。慢速移动时,摄像机可以采取更悠闲的方式,并在主体之间缓慢移动。在特定的实施例中,风格可以选自特定的好莱坞导演。例如,智能导演可能做出模仿Quentin Tarantino、Stanley Kubrick或Wes Anderson的导演风格的决策。
通常,智能通信设备130不会存储在给定的AV通信会话期间收集的信息,以用于未来的通信会话或用于任何其他目的。这可以有助于保护参与者的隐私并防止不必要的数据共享。在特定实施例中,用户或用户组可能希望将其信息本地地存储在设备130上,并在未来的通信会话期间使用。存储信息以备将来使用可以节省计算资源,还可以提供增强的用户体验。在特定实施例中,设备130可以基于环境中已经发生的过去的AV通信会话来生成历史描述性模型。智能导演在做决策时可以访问历史描述性模型。历史描述性模型可以由在先前AV通信会话期间生成的先前描述性模型形成。这可以节省计算资源,因为智能导演可以简单地访问历史描述性模型来做出决策。这可能意味着当前的描述性模型可能包括从先前描述性模型中提取的一些描述性元素。例如,代替为每个AV通信会话确定房间的尺寸估计,当前描述性模型可以使用来自先前AV通信会话的尺寸。这可以节省时间,因为访问存储的信息(例如,房间尺寸)可以比计算新信息更快。
在特定实施例中,智能导演可以基于由接收参与者或发送参与者输入的一个或更多个手动输入550来做出影片决策。在特定实施例中,由参与者输入的手动输入可以推翻由智能导演做出的任何决策。在特定实施例中,参与者可以输入到系统中的输入可以包括智能通信设备的显示屏的取向(例如,纵向或横向)、轻击跟随命令以及各种用户偏好。根据显示屏的取向,智能导演可以做出不同的影片决策。例如,如果显示屏以横向模式定向,智能导演可以指示摄像机在主体的面部前方留下空间,使得主体位于显示屏的后三分之一(back third)。如果显示屏以纵向模式定向,智能导演可以指示摄像机将主体的面部定位在显示屏的顶部三分之一(top third)。这些只是示例;本公开设想了至少部分地基于显示屏取向的任何合适的决策。假设主体先前已经选择加入允许设备130在他在环境中移动时向他拉近并与他一起平移,则用户也可以轻击该主体以跟随该主体。智能通信设备的默认模式可以是群组观看模式,其中大多数主体在显示屏的观看空间内。如果参与者轻击特定主体,显示屏可以向该主体拉近,使得参与者再次看到该主体的特写镜头(close-up),假设该主体先前已经选择加入该特征。参与者也可以设置各种隐私偏好。例如,参与者可以指定智能通信设备从不发送参与者浴室的视觉数据(该视觉数据可以被智能通信设备看到)。作为另一个示例,参与者可以指定智能导演从不使用社交网络数据或通过任何其他方式来识别她。参与者可以选择阻止社交网络系统接口135访问社交图上与用户相关的信息。作为另一个示例而非限制,用户可以通过在线社交网络设置智能通信设备将遵循的隐私偏好。例如,用户可以通过在线社交网络指定她不希望任何智能通信设备访问她的社交图信息。用户然后可以去她朋友家,她朋友家有智能通信设备,并且他们可以参与与另一个参与者的AV通信会话。智能通信设备可以识别用户并在在线社交网络上访问她的隐私设置,以确定它是否具有访问用户的社交图的许可。如果未授予许可,智能通信设备将不会访问用户的社交网络信息。
一旦智能导演530已经访问了描述性模型520中的信息,它可以生成供摄像机和麦克风遵循的计划540。该计划可以包括摄像机指令541和麦克风指令542。摄像机指令可以是用于摄像机的任何合适的指令,例如向主体拉近、拉远、平移、在特定位置处使摄像机居中、切换到环境中的不同场景、平滑的移动或不平稳的移动或任何其他合适的动作的指令。麦克风指令可以是任何合适的麦克风指令,包括相对于其他声音衰减特定声音、相对于其他声音放大特定声音的指令,或者任何其他合适的指令。
图6示出了与示例智能通信设备相关联的视觉数据的示例框图。视觉数据可以包括2D姿势数据610和一种或更多种类型的后处理数据620。2D姿势数据610可以是表示人在环境中的二维位置的数据。对于环境中的每个人,它可以包括对应于人的多个表面点的一组点。例如,该组点可以指示人的主要身体部位。例如,2D姿势数据可以包括以下身体部位中的每一个的19个x,y坐标:头顶、下巴、左耳、右耳、左眼、右眼、鼻子、左肩、右肩、左臀、右臀、左肘、右肘、左手、右手、左膝、右膝、左脚和右脚。这组点可以构成本文所说的“人体骨骼”。在图7的边界框720中示出了人体骨骼的两个示例。除了该组点之外,2D姿势数据还可以包括包围该组点的边界框。边界框可以足够大,以包含点组中的所有点。关于2D姿势数据的更多信息可以在2018年3月15日提交的题为“Object Instance Segmentation”的第15/922,734号美国申请中找到,该申请通过引用结合于此。在特定实施例中,智能计算设备130(或者,与在线社交网络系统相关联的远程服务器)上的一个或更多个处理器可以处理2D姿势数据以供智能导演使用。三种类型的处理包括背景/前景检测621、重新识别622和重叠的人623。下面参照图7讨论完成背景/前景检测的过程。下面参照图8讨论完成重新识别的过程。下面参照图9和图10讨论处理重叠的人的过程。
图7示出了通过智能通信设备执行前景/背景建模的示例可视化700。示例可视化700可以包括智能计算设备可以位于其中的环境的表示。环境的表示可以包括背景对象710以及位于边界框720中的人的表示。背景对象可以包括家具、墙、书架、桌子、椅子、地毯、天花板、吊灯和保持在环境中不移动的任何其他对象。智能导演可能需要区分前景和背景,以便做出适当的影片决策。传统的背景建模可以使用周期性的颜色和像素信息来确定环境中什么是背景,环境中什么是前景。如果一些像素周期性地移动(例如改变颜色或强度),则可以确定这些像素是前景的一部分。如果一些像素在阈值时间段内保持不变,则传统方法可以确定这些像素是背景的一部分。然而,当应该是前景像素的像素由于对象不移动而很长一段时间保持不变,从而“淡入”背景时,这种方法会导致问题。传统方法可能会将应该是前景的像素误认为背景。例如,如果一个人移动到环境中,传统方法可能最初将这个人的对应像素分类为前景。这是合适的。但是这个人可能会躺在沙发上小睡三个小时。最终,这个人将保持静止足够长的时间,以至于传统方法将对应于这个人的像素分类为背景。这是一个错误,并且会导致智能导演做出错误的决策。如果一个人在视频聊天期间保持几分钟不动,可能会出现类似的问题。这也会导致智能导演做出错误的决策。例如,智能导演可能没有认识到长期静止的人仍在参与AV通信会话,并且可能错误地提供平移远离这个人的指令。
为了避免上述情况,智能导演可以将背景建模与2D姿势数据相结合。背景生成器可以收集除了人们所处位置之外的环境的所有部分的背景数据。智能导演可以向背景生成器提供环境中每个人的位置。智能导演可以从2D姿势数据中获得该信息。智能导演或另一组件可以生成包围每个人的2D姿势数据的边界框(例如,边界框720)。可以为环境中的每个个体创建边界框720。智能导演可以通过测量每个对象的移动来区分有生命的对象(例如,人、动物)和无生命的对象(例如,照片、衣架、壁画)。一般来说,有生命的对象会比无生命的对象移动得多。智能导演可以监控每个对象的移动,并且如果对象移动超过阈值量,则该对象可以被分类为有生命的。或者在特定实施例中,可以被分类为人,只要其相关联的2D姿势数据与人的2D姿势数据一致。即使对象只是移动了一点点,这也可以足以把对象归类为人。例如,如果有人睡在沙发上,他唯一的动作可能是他呼吸时他的胸部的起伏。智能导演可以检测到这一点,并且可以确定该对象是人。智能导演可以提供指令来收集和更新环境中除边界框区域之外的所有点的背景数据。因此,边界框区域的旧背景信息保持不变。这就是为什么图7中的边界框720没有显示背景——这是为了说明没有收集到关于边界框内部区域的新背景信息——来自先前帧的旧数据仍然可以保留。背景700可以用静态来初始化。静态可以包括具有非均匀值的像素,例如对于RGB图像,这意味着非均匀(红、绿、蓝)值。本公开考虑了像素间和像素内的不均匀性。作为示例而非限制,本公开设想了RGB值为(0,50,150)、(0,50,150)或(50,50,50)、(100,100,100)的两个相邻像素。在其他实施例中,颜色空间可以是灰度图或HSV等。然而,为了附图的简单起见,边界框720显示白色像素。在特定实施例中,每个像素对应于环境中的特定位置。每个像素可以具有不同于每个其他像素的x,y坐标值。例如,环境渲染左下角处的像素的x,y坐标值可以是(0,0)。每个像素也可以具有特定的RGB颜色值。例如,白色像素可以具有255,255,255的RGB颜色值。黑色像素可以具有0,0,0的RGB颜色值。绿色像素可以具有0,255,0的RGB颜色值。橙色像素可以具有255,128,0的RGB颜色值。
在特定实施例中,收集背景数据可以意味着与背景元素(例如,椅子、天花板、地板、吊灯等)相关联的像素的RGB颜色值被记录并被标记为背景。在特定实施例中,可以另外收集深度信息。因此,每个像素可以具有RGB值以及(用于深度的)D值。这可以帮助智能导演确定哪些像素代表前景,以及哪些像素代表背景,假设对应于更靠近设备的对象的像素更有可能是前景,而更远离设备的对象更有可能是背景。以这种方式收集背景视觉数据可能有两个目的。首先,为了照明和颜色校正的目的,可以将RGB颜色值与环境的历史RGB颜色值进行比较。例如,如果RGB颜色值指示房间中有橙色色调,则智能导演可以提供指令来对接收智能通信设备上的经渲染的图像进行颜色校正。其次,被标记为背景数据的视觉数据将被用于区分前景(例如,人)和背景。当环境中的人在环境中四处移动时,边界框720可以随着人一起移动,并且前景的标签可以保持和边界框720一起,直到人移出环境。因此,当一个人移出图像的一个区域时,背景生成器可以开始收集关于最近空出的区域的背景信息。在特定实施例中,该组坐标点被周期性地更新(例如,每秒30次),使得可以使用2D姿势数据来跟踪人的运动。这可能会导致该组点的位置随着人在房间中的移动而改变。边界框720也可以随着人体骨骼在房间内移动。尽管本公开讨论了在RGB颜色空间内操作,但是本公开包括任何合适的颜色空间。
在特定实施例中,背景生成器可以跟踪像素的颜色和/或强度随时间的变化。如果移动(旋转或平移)智能通信设备,摄像机图像中的像素可能不再与背景/前景模型中存储的信息具有1:1的对应关系。因此,背景生成器可以检测相应像素的像素颜色和/或强度的大的变化。这可能会带来问题,因为背景和前景实际上并没有改变——只有感知到的房间照明因智能通信设备的移动而改变。在另一种情况下,当与已经存储在背景/前景模型中的像素相比时,打开或关闭房间灯可能导致摄像机图像的进入像素的较大差异。因此,所有像素可能被认为是“移动的”,并被标记为前景。为了克服这些问题,在特定实施例中,智能通信设备130可以使用安装在设备上的传感器来检测这些事件(设备旋转/平移或大的照明变化)。在特定实施例中,设备130可以简单地通过检测所有或几乎所有像素从一帧到下一帧已经改变来检测设备旋转/平移或大的照明变化。作为示例而非限制,在AV通信会话期间的第一时刻,40%的像素可以被标记为前景,并且60%的像素可以被标记为背景。在AV通信会话期间的第二时刻,设备130可以检测到100%的像素可以被标记为前景。如果没有移动设备130或没有大的照明变化(例如,打开或关闭房间中的灯),前景像素中的这种大的变化是极不可能发生的。因此,每当阈值数量或比例的像素从背景移动到前景时,设备130可以确定全局事件已经发生(例如,设备130已经移动,环境中的照明显著改变)。
当检测到全局事件时,可以出现两个步骤。首先,智能导演132可以访问存储单元以确定在全局事件发生之前捕获的显示快照。显示快照可以示出正在接收智能通信设备130上显示的环境部分。其次,智能通信设备130可以触发背景/前景建模过程的重置。这将允许背景生成器重新学习显示快照中包含的环境部分。这可以节省时间,因为智能导演132可能不需要重新学习摄像机捕获的所有内容,只需要重新学习在接收设备130上显示的部分。此后,可以将进入的摄像机像素与新学习的背景/前景模型进行比较。作为示例而非限制,在AV通信会话期间的第一时刻,智能导演132可以提供向特定参与者拉近的指令。在该第一时间,显示屏可以显示参与者的拉近视图。注意,这可能是数码变焦(digital zoom);发送设备的摄像机实际上可以比接收设备上显示的捕获的更多。在第一时间,显示快照可以是正在接收设备上显示的内容(例如,参与者的拉近视图)。它可能只包括发送设备的摄像机捕获的区域的50%。在第二时刻,智能导演可以检测到全局事件,因为像素的阈值百分比已经改变(例如,100%)。智能导演132可以访问在全局事件之前(例如,在该示例中的第一时刻)捕获的显示快照。智能导演132然后可以重置前景/背景建模,并提供指令以开始学习显示快照内的区域。一旦前景/背景建模基本完成,就可以针对前景和背景建模环境的其余部分。
在特定实施例中,在AV通信会话期间,参与者可以轻击显示屏以指示该参与者想要向AV通信会话中的另一个参与者或对象(例如,宠物)拉近。作为响应,智能导演可以提供指令来裁剪掉一些已经被标记为背景的像素。参与者可能对被标记为背景的像素不太感兴趣,因此智能导演更有可能提供裁剪掉背景像素的指令。
图8示出了通过智能通信设备重新识别人的示例可视化。可视化可以包括具有示例躯干区域820的示例人810、示例颜色直方图830、示例位置和轨迹框840以及示例比例框850。在特定实施例中,在音频通信会话期间的第一时间,与智能通信设备或与远程服务器相关联的处理器可以确定第一参与者位于智能通信设备的环境内。例如,处理器可以确定参与者810在环境中。处理器可以定位第一身体区域(例如,躯干区域820)。处理器还可以为第一身体区域生成第一颜色直方图。颜色直方图可以是图像中颜色分布的表示。对于数字图像,颜色直方图表示在固定的颜色范围列表中的每一个颜色范围中具有颜色的像素的数量,这些颜色范围跨越图像的颜色空间,即所有可能颜色的集合。例如,颜色直方图可以是颜色直方图830。颜色直方图可以指示身体区域中有多少红、绿、蓝(RGB)像素。颜色直方图可以被分成几个像素桶,其中每一列表示跨越RGB颜色范围(例如,0-255)的一部分的像素。例如,直方图531中标记为1-10的列可以各自表示不同颜色范围(例如,0-25、26-50等)中的蓝色像素。处理器可以确定每个像素的值,并将其分配给适当的列。如直方图830所示,这可以针对每个RBG通道单独进行。每个参与者可以具有唯一但非身份识别的颜色直方图,并且智能导演可以通过参考他们各自的颜色直方图来跟踪参与者。在特定实施例中,智能导演可以不通过名字来识别参与者,而是可以简单地使用每个参与者的颜色直方图来跟踪参与者。这样,智能导演就不会将一个参与者误认为同一AV通信会话中的另一个参与者。
在特定实施例中,处理器可以定位第二参与者的与第一身体区域相同的第二身体区域(例如,躯干区域)。处理器可以生成第二身体区域的第二颜色直方图,其中第二颜色直方图表示第二身体区域的一种或更多种颜色的第二分布。处理器然后可以将第一颜色直方图与第二颜色直方图进行比较。由于对于两个不同的人,没有两个颜色直方图是完全相同的,所以如果处理器确定两个颜色直方图是相同的,则处理器可以确定两个颜色直方图代表同一个人。在特定实施例中,处理器可以以规则的间隔为所有参与者生成新的颜色直方图(例如,每个参与者每秒10个颜色直方图)。
在特定实施例中,处理器还可以确定与参与者相关联的一个或更多个比例。每个参与者可以相对于设备130所处环境中的其他用户具有独特的身体比例。因此,处理器可以使用这些身体比例以类似于使用颜色直方图的方式来跟踪参与者。比例框840中提供了示例身体比例。本公开设想了任何合适的身体比例。另外,处理器可以确定参与者的当前位置和当前轨迹。这些度量可以用于跟踪参与者。例如,如果第一参与者在第一时间位于位置x,并且正在向左移动,那么紧接着在第一个时间帧之后,同一参与者几乎不可能位于位置x的右侧。如果处理器紧接着在第一时间帧之后检测到位置x右侧的第二参与者,则它可以确定第二参与者不同于第一参与者。
在特定实施例中,设备130可以执行非身份识别的面部识别来跟踪环境中的参与者。这可以被称为匿名本地面部识别——因为参与者实际上没有被确认身份,也没有数据被传输到远程服务器。作为示例而非限制,设备130可以确定两个参与者位于该环境中。设备130可以不通过名字来识别这些参与者,而是可以使用假名来跟踪他们。例如,它可以将第一参与者标记为“用户A”,并将第二参与者标记为“用户B”。用户A和用户B可以各自具有他们自己的说话和移动的习惯和风格,这可以导致智能导演132为每个用户做出不同的影片决策。因此,跟踪哪个参与者是用户A和哪个参与者是用户B可能是重要的。如果用户A越过用户B的路径,智能导演132可能错误地交换这两个参与者的标签。为了纠正这一点,智能导演132可以访问面部识别引擎来确定哪个参与者是用户A,哪个是用户B。这可能需要设备130在AV通信会话开始时本地存储他们的面部轮廓(facial profile)。如果参与者之一短暂离开环境,然后重新进入环境(例如,在离开五分钟后重新进入),则可以应用上述功能。系统可以快速识别出参与者先前已经被标记(例如,根据他们的颜色直方图、面部轮廓和/或比例,系统可以确定该参与者是“用户A”),并且可以检索与该参与者相关联的先前存储的数据。在特定实施例中,在任何参与者已经离开AV通信会话达阈值时间量(例如,已经离开房间超过五分钟)之后,可以擦除为该参与者存储的数据。
在特定实施例中,处理器可以将权重分配给以下元素中的每一个:颜色直方图、比例度量以及当前位置和轨迹度量。这些元素可以根据系统管理者的要求被不同地加权。权重和元素可以用于计算每个参与者的重新识别分数。重新识别分数可以是参与者是先前确定的特定参与者的可能性。例如,系统可以识别第一参与者并将她标记为参与者A。不久之后,系统可以识别第二参与者并将她标记为参与者B。然后,系统可以比较参与者A和参与者B的重新识别分数,并且如果它们在阈值范围内,则处理器可以确定参与者B实际上就是参与者A(即,他们是同一个人)。
图9示出了由两个重叠的人引起的问题的示例可视化。图9可以包括其中有两个人的边界框:一个男人和一个女人。2D姿势数据可能无法区分两个位置如此接近的不同的人。因为女人和男人在同一个空间,所以2D姿势数据可能给两个人分配同一边界框。这可能会有问题,因为智能导演会认为只有一个人在边界框内。这可能导致智能导演将标签分配给错误的身体部位(例如,如图9所示)。这可能会导致智能导演做出不适当的决策。这个问题的解决方案如图11所示。
图10A和图10B示出了由两个重叠的人引起的另一个问题的示例可视化。在这种情况下,两个人仅部分重叠,因此他们的边界框1010和1020仅部分重叠(与图9所示的共享同一边界框相反)。图10A和图10B左边的女人可以对应于边界框1010。右边的男人可以对应于边界框1020。在最简单的情况下,每个人将对应于他们自己的边界框,并且没有边界框会重叠。因此,每个边界框将具有对应于边界框内的人体骨骼的两只眼睛、两只耳朵、两个手臂、两条腿等。在该更复杂的场景中,两个人是重叠的。这可能导致一些不规则性,然而这些不规则性可能需要由智能导演132来处理。作为示例而非限制,边界框1020可能仅包含一只眼睛1022,并且边界框1010可能包含三只眼睛1011、1012和1021。另外,边界框1020可能包含两个手臂1023和1014,但是只有其中一个手臂可能适当地对应于与边界框1020相对应的人体骨骼(例如,右边的人)。为了将身体部位归属于适当的人体骨骼,智能导演132可以采用下面参考图11和图15讨论的过程。此外,智能导演可以使用一个或更多个统计模型来进行适当的关联。作为示例而非限制,智能导演132可以确定人体骨骼拥有三只眼睛在统计上是不可能的。因此,它可以确定眼睛1011、1012和1021中的一个可能没有正确地对应于边界框1010的人体骨骼。智能导演132可以测量每只眼睛1011、1012和1021之间的距离。可以确定眼睛1011和1012比眼睛1021更靠近眼睛1011或1012。在统计学意义上,基于眼睛1011和1012的相对距离,它们更可能属于同一个人,而眼睛1021属于不同的人。因此,可以确定眼睛1011和1012属于一个人,而眼睛1021属于其边界框与边界框1010重叠的另一个人。在特定实施例中,面部检测还可以用于消除重叠的人的歧义。尽管本公开描述了以特定方式将身体部位与人体骨骼相关联,但是本公开设想了以任何特定方式将身体部位与人体骨骼相关联。
图11示出了通过智能通信设备消除重叠的人的歧义的示例可视化。为了消除重叠并因此共享同一边界框的用户的歧义,处理器可以从对应于环境中的人的多个表面点的一组坐标点(例如,2D姿势数据)中识别对应于人的面部特征的坐标点。作为示例而非限制,人可以是人1110和/或人1120。面部特征可以是人的左眼。处理器然后可以为人的面部生成面部结构1130。面部结构1030可以尝试映射人的面部的面部特征。它可以覆盖人的多个面部特征。面部结构1130也可能需要基本上匹配预定的面部结构。这是因为几乎所有的面部都有处于相同相对位置的特征:鼻子在眼睛之间并在眼睛下面,耳朵在眼睛外面并稍微在眼睛下面。如果处理器能够将与预定面部结构匹配的面部结构映射到2D姿势数据中的面部点上,则在确定存在与面部结构相关联的单个人时会更有信心。一旦面部结构已经被映射,处理器可以为这个人生成身体骨骼结构1140。身体骨骼结构可能需要基本上匹配预定的身体骨骼结构,因为大多数人的身体可能具有相似的身体结构:头部以下的躯干、躯干周围的手臂和腿。如果所生成的骨骼身体结构与预定结构基本不匹配,则智能导演可以降低所生成的身体骨骼结构对应于单个人的可能性。在特定实施例中,身体骨骼结构也可以在至少一个维度上与面部结构对齐(例如,垂直地,如面部结构1130和身体结构1140所示)。如果是这种情况,它可能会增加生成的身体骨骼结构对应于单个人的可能性。
在特定实施例中,如果所生成的身体骨骼结构对应于单个人的可能性超过阈值,则处理器可以将所生成的身体骨骼结构和面部结构与环境中的特定人相关联。处理器可以不通过名字来识别人,而是可以确定2D姿势数据中的一组坐标点对应于单个人。基于该确定,智能导演可以基于所生成的身体骨骼结构和面部结构来确定用于摄像机、麦克风、扬声器或显示屏的一个或更多个指令。作为示例而非限制,智能导演可以提供指令来靠近地拉近到由面部结构确定的特定面部。这可以允许显示屏显示靠近地裁剪的面部,而不是两张面部,如果智能导演仅仅依赖于2D姿势数据而没有将任何面部或身体骨骼结构映射到2D姿势数据,就会出现两张面部的情况。图12示出了基于环境的描述性模型来确定影片决策的示例方法1200。该方法可以在步骤1210开始,其中计算设备可以访问来自一个或更多个不同输入源的输入数据,输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图。在步骤1220,计算设备可以基于输入数据并服从设备130所有者和所有相关用户的隐私设置,生成当前音频-视频通信会话的当前描述性模型,该模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境,(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。在步骤1230,计算设备可以基于一个或更多个描述性特征为当前音频-视频通信会话生成一个或更多个指令。在步骤1240,计算设备可以向与一个或更多个摄像机和一个或更多个麦克风相关联的计算设备发送一个或更多个指令。
图13示出了用于在音频-视频通信会话期间确定前景和背景描述的示例方法。在步骤1310,计算设备可以访问前景视觉数据,该前景视觉数据包括对应于环境中的人的多个表面点的一组坐标点。在步骤1320,计算设备可以为该组坐标点生成边界框,其中该边界框包括该组坐标点中的每个坐标点。在步骤1330,计算设备可以提供指令来收集环境中在边界框之外的区域的背景视觉数据。在步骤1340,计算设备可以向与该计算设备相关联的智能导演提供前景视觉数据和背景视觉数据。
图14示出了用于在音频-视频通信会话期间重新识别人的示例方法。步骤1410至1430可以在第一时间执行,并且步骤1440至1380可以在第一时间之后的第二时间执行。在步骤1410,计算设备可以确定第一参与者位于与音频-视频通信会话相关联的环境中。在步骤1420,计算设备可以定位第一参与者的第一身体区域。在步骤1430,计算设备可以生成第一身体区域的第一(并且在特定实施例中,非身份识别的)颜色直方图,其中第一非身份识别的颜色直方图表示第一身体区域的一种或更多种颜色的第一分布。在步骤1440,计算设备可以确定第二参与者位于该环境中。在步骤1450,计算设备可以定位第二参与者的与第一身体区域相同的第二身体区域。在步骤1460,计算设备可以生成第二身体区域的第二(并且在特定实施例中,非身份识别的)颜色直方图,其中第二颜色直方图表示第二身体区域的一种或更多种颜色的第二分布。在步骤1470,计算设备可以确定第一颜色直方图与第二颜色直方图相同。在步骤1480,计算设备可以基于第一颜色直方图与第二颜色直方图相同的确定,确定第一参与者与第二参与者相同。
图15示出了用于在音频-视频通信会话期间消除重叠的人的歧义的示例方法。在步骤1510,计算设备可以从对应于环境中的人的多个表面点的一组坐标点中识别对应于人的面部特征的坐标点。在步骤1520,计算设备可以生成人的面部的面部结构,其中面部结构覆盖人的多个面部特征,并且基本上匹配预定的面部结构。在步骤1530,计算设备可以生成这个人的身体骨骼结构,其中该身体骨骼结构基本上匹配预定的身体骨骼结构,并且在二维坐标平面的至少一个维度上基本上与所生成的面部结构对齐。在步骤1540,计算设备可以将所生成的身体骨骼结构和面部结构与环境中的人相关联。在步骤1550,计算设备可以基于所生成的身体骨骼结构和面部结构来确定用于摄像机、麦克风、扬声器或显示屏的一个或更多个指令。
在适当的情况下,特定实施例可以重复图12-图15的方法的一个或更多个步骤。尽管本公开将图12-图15的方法的特定步骤描述并示出为以特定顺序发生,但是本公开设想了图12-图15的方法的任何合适的步骤以任何合适的顺序发生。此外,尽管本公开描述并示出了包括图12-图15的方法的特定步骤的示例方法,但是本公开设想了用于执行本文讨论的实施例的任何合适的方法包括任何合适的步骤,在适当的情况下,其可以包括图12-图15的方法的所有步骤、一些步骤或者不包括其中的任何步骤。此外,尽管本公开描述并示出了执行图12-图15的方法的特定步骤的特定组件、设备或系统,但是本公开设想了执行图12-图15的方法的任何适当步骤的任何适当组件、设备或系统的任何适当组合。
图16示出了与社交网络系统相关联的示例网络环境1600。网络环境1600包括通过网络1610连接到彼此的客户端系统1630、社交网络系统1660和第三方系统1670。尽管图16示出了客户端系统1630、社交网络系统1660、第三方系统1670和网络1610的特定布置,但是本公开设想了客户端系统1630、社交网络系统1660、第三方系统1670和网络1610的任何合适的布置。作为示例而不是作为限制,客户端系统1630、社交网络系统1660和第三方系统1670中的两个或更多个可以直接连接到彼此,绕过网络1610。作为另一示例,客户端系统1630、社交网络系统1660和第三方系统1670中的两个或更多个可以全部或部分地在物理上或逻辑上彼此位于同一位置。此外,尽管图16示出了特定数量的客户端系统1630、社交网络系统1660、第三方系统1670和网络1610,但是本公开设想了任何合适数量的客户端系统1630、社交网络系统1660、第三方系统1670和网络1610。作为示例而不是作为限制,网络环境1600可以包括多个客户端系统1630、社交网络系统1660、第三方系统1670和网络1610。
本公开设想了任何合适的网络1610。作为示例而不是作为限制,网络1610的一个或更多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网、或这些中的两个或更多个的组合。网络1610可以包括一个或更多个网络1610。
链路1650可以将客户端系统1630、社交网络系统1660和第三方系统1670连接到通信网络1610或连接到彼此。本公开设想了任何合适的链路1650。在特定实施例中,一个或更多个链路1650包括一个或更多个有线(例如数字用户线路(DSL)或基于电缆的数据服务接口规范(DOCSIS))链路、无线(例如Wi-Fi或全球互通微波接入(WiMAX))链路、或光(例如同步光网络(SONET)或同步数字体系(SDH))链路。在特定实施例中,一个或更多个链路1650各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一链路1650、或两个或更多个这种链路1650的组合。链路1650不需要在整个网络环境1600中是相同的。一个或更多个第一链路1650可以在一个或更多个方面上不同于一个或更多个第二链路1650。
在特定实施例中,客户端系统1630可以是包括硬件、软件或嵌入式逻辑组件、或两个或更多个这样的组件的组合,并且能够执行由客户端系统1630实现或支持的适当功能的电子设备。作为示例而不是作为限制,客户端系统1630可以包括计算机系统,例如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、电子书阅读器、GPS设备、摄像机、个人数字助理(PDA)、手持电子设备、蜂窝电话、智能手机、增强/虚拟现实设备、其他合适的电子设备、或其任何合适的组合。本公开设想了任何合适的客户端系统1630。客户端系统1630可以使在客户端系统1630处的网络用户能够访问网络1610。客户端系统1630可以使它的用户能够与在其他客户端系统1630处的其他用户进行通信。
在特定实施例中,客户端系统1630可以包括web浏览器1632,例如MICROSOFTINTERNET EXPLORER、GOOGLE CHROME或MOZILLA FIREFOX,并且可以具有一个或更多个附加件、插件或其他扩展件,例如TOOLBAR或YAHOO TOOLBAR。在客户端系统1630处的用户可以输入统一资源定位符(URL)或将web浏览器1632引导到特定的服务器(例如服务器1662或与第三方系统1670相关联的服务器)的其他地址,并且web浏览器1632可以生成超文本传输协议(HTTP)请求并将HTTP请求传递到服务器。服务器可以接受HTTP请求,并响应于HTTP请求而向客户端系统1630传递一个或更多个超文本标记语言(HTML)文件。客户端系统1630可以基于来自服务器的HTML文件来显现网页用于呈现给用户。本公开设想了任何合适的网页文件。作为示例而不是作为限制,可以根据特定的需要从HTML文件、可扩展超文本标记语言(XHTML)文件或可扩展标记语言(XML)文件来显现网页。这样的页面还可以执行脚本,例如且没有限制,用JAVASCRIPT、JAVA、MICROSOFT SILVERLIGHT编写的脚本、标记语言和脚本(例如AJAX(异步JAVASCRIPT和XML))的组合等。在本文,在适当的情况下,对网页的引用包括一个或更多个相应的网页文件(浏览器可以使用这些网页文件来显现网页),反之亦然。
在特定实施例中,社交网络系统1660可以是可以托管在线社交网络的网络可寻址计算系统。社交网络系统1660可以生成、存储、接收并发送社交网络数据(例如,用户简档数据、概念简档数据、社交图信息或与在线社交网络相关的其他合适的数据)。社交网络系统1660可以由网络环境1600的其他组件直接地或经由网络1610来访问。作为示例而不是作为限制,客户端系统1630可以使用web浏览器1632或与社交网络系统1660相关联的原生(native)应用(例如,移动社交网络应用、消息传送应用、另一合适的应用或其任何组合)直接地或经由网络1610来访问社交网络系统1660。在特定实施例中,社交网络系统1660可以包括一个或更多个服务器1662。每个服务器1662可以是单一服务器(unitary server)或跨越多台计算机或多个数据中心的分布式服务器。服务器1662可以具有各种类型,例如且没有限制,web服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器、代理服务器、适合于执行本文描述的功能或过程的另一服务器、或者其任何组合。在特定实施例中,每个服务器1662可以包括硬件、软件或嵌入式逻辑组件、或用于执行由服务器1662实现或支持的适当功能的两个或更多个这样的组件的组合。在特定实施例中,社交网络系统1660可以包括一个或更多个数据储存器1664。数据储存器1664可以用于存储各种类型的信息。在特定实施例中,可以根据特定的数据结构来组织存储在数据储存器1664中的信息。在特定实施例中,每个数据储存器1664可以是关系数据库、纵列(columnar)数据库、相关性数据库或其他合适的数据库。尽管本公开描述或示出了特定类型的数据库,但是本公开设想了任何合适类型的数据库。特定实施例可以提供使客户端系统1630、社交网络系统1660或第三方系统1670能够管理、检索、修改、添加或删除存储在数据储存器1664中的信息的接口。
在特定实施例中,社交网络系统1660可以在一个或更多个数据储存器1664中存储一个或更多个社交图。在特定实施例中,社交图可以包括多个节点——其可以包括多个用户节点(各自对应于特定用户)或多个概念节点(各自对应于特定概念)——以及连接节点的多条边。社交网络系统1660可以向在线社交网络的用户提供与其他用户通信和互动的能力。在特定实施例中,用户可以经由社交网络系统1660加入在线社交网络,且然后将关连(例如,关系)添加到社交网络系统1660中的他们想要关连到的多个其他用户。在本文,术语“朋友”可以指社交网络系统1660的任何其他用户,用户经由社交网络系统1660与任何其他用户形成关连(connection)、关联(association)或关系。
在特定实施例中,社交网络系统1660可以向用户提供对由社交网络系统1660支持的各种类型的项目或对象采取动作的能力。作为示例而不是作为限制,项目和对象可以包括社交网络系统1660的用户可以属于的组或社交网络、用户可能感兴趣的事件或日历条目、用户可以使用的基于计算机的应用、允许用户经由服务来购买或销售商品的交易、用户可以执行的与广告的互动、或其他合适的项目或对象。用户可以与能够在社交网络系统1660中或者由第三方系统1670的外部系统表示的任何事物进行互动,第三方系统1670与社交网络系统1660分离并且经由网络1610耦合到社交网络系统1660。
在特定实施例中,社交网络系统1660能够链接各种实体。作为示例而不是作为限制,社交网络系统1660可以使用户能够彼此互动以及从第三方系统1670或其他实体接收内容,或者允许用户通过应用编程接口(API)或其他通信渠道与这些实体互动。
在特定实施例中,第三方系统1670可以包括一种或更多种类型的服务器、一个或更多个数据储存器、一个或更多个接口(包括但不限于API)、一个或更多个web服务、一个或更多个内容源、一个或更多个网络或任何其他合适的部件(例如,服务器可以与这些部件通信)。第三方系统1670可以由与操作社交网络系统1660的实体不同的实体进行操作。然而,在特定实施例中,社交网络系统1660和第三方系统1670可以结合彼此来操作以向社交网络系统1660或第三方系统1670的用户提供社交网络服务。在这个意义上,社交网络系统1660可以提供平台或骨干网,其他系统(例如第三方系统1670)可以使用该平台或骨干网来在整个互联网上向用户提供社交网络服务和功能。
在特定实施例中,第三方系统1670可以包括第三方内容对象提供者。第三方内容对象提供者可以包括可以被传递到客户端系统1630的内容对象的一个或更多个源。作为示例而不是作为限制,诸如,内容对象可以包括关于用户感兴趣的事情或活动的信息,例如电影放映时间、电影评论、餐馆评论、餐馆菜单、产品信息和评论或其他合适的信息。作为另一示例而不是作为限制,内容对象可以包括激励内容对象(例如优惠券、折扣券、礼品券或其他合适的激励对象)。
在特定实施例中,社交网络系统1660还包括用户生成的内容对象,其可以增强用户与社交网络系统1660的互动。用户生成的内容可以包括用户可以添加、上传、发送或“发布”到社交网络系统1660的任何内容。作为示例而不是作为限制,用户将帖子从客户端系统1630传送到社交网络系统1660。帖子可以包括数据,例如状态更新或其他文本数据、位置信息、照片、视频、链接、音乐或其他类似数据或媒体。内容还可以由第三方通过“通信渠道”(例如动态消息或流)来添加到社交网络系统1660。
在特定实施例中,社交网络系统1660可以包括各种服务器、子系统、程序、模块、日志和数据储存器。在特定实施例中,社交网络系统1660可以包括下列项中的一个或更多个:web服务器、动作记录器、API请求服务器、相关性和排名引擎、内容对象分类器、通知控制器、动作日志、第三方内容对象暴露日志、推理模块、授权/隐私服务器、搜索模块、广告定位模块(advertisement-targeting module)、用户界面模块、用户简档储存器、关连储存器(connection store)、第三方内容储存器或位置储存器。社交网络系统1660还可以包括合适的组件,例如网络接口、安全机构、负载平衡器、故障转移服务器、管理和网络操作控制台、其他合适的组件、或其任何合适的组合。在特定实施例中,社交网络系统1660可以包括用于存储用户简档的一个或更多个用户简档储存器。用户简档可以包括例如,传记信息、人口统计信息、行为信息、社交信息或其他类型的描述性信息(例如工作经历、教育历史、爱好或偏好、兴趣、亲和力或位置)。兴趣信息可以包括与一个或更多个类别相关的兴趣。类别可以是一般的或特定的。作为示例而不是作为限制,如果用户“赞”关于一种品牌的鞋的文章,则该类别可以是品牌,或者“鞋”或“衣服”的一般类别。关连储存器可以用于存储关于用户的关连信息。关连信息可以指示具有相似或共同的工作经历、组成员资格、爱好、教育历史或者以任何方式相关或共享共同属性的用户。关连信息还可以包括在不同用户和内容(内部和外部)之间的用户定义的关连。web服务器可以用于经由网络1610将社交网络系统1660链接到一个或更多个客户端系统1630或一个或更多个第三方系统1670。web服务器可以包括邮件服务器或用于在社交网络系统1660和一个或更多个客户端系统1630之间接收并按规定路线发送消息的其他消息传送功能。API请求服务器可以允许第三方系统1670通过调用一个或更多个API来访问来自社交网络系统1660的信息。动作记录器可以用于从web服务器接收关于用户在社交网络系统1660上或之外的动作的通信。结合动作日志,可以维护用户暴露于第三方内容对象的第三方内容对象日志。通知控制器可以向客户端系统1630提供关于内容对象的信息。信息可以作为通知被推送到客户端系统1630,或者信息可以响应于从客户端系统1630接收的请求而从客户端系统1630中被拉取。授权服务器可以用于实施社交网络系统1660的用户的一个或更多个隐私设置。用户的隐私设置确定与用户相关联的特定信息可以如何被分享。授权服务器可以例如通过设置适当的隐私设置来允许用户选择加入或选择退出使他们的动作由社交网络系统1660记录或者与其他系统(例如,第三方系统1670)分享。第三方内容对象储存器可以用于存储从第三方(例如第三方系统1670)接收的内容对象。位置储存器可以用于存储从与用户相关联的客户端系统1630接收的位置信息。广告定价模块可以组合社交信息、当前时间、位置信息或其他合适的信息以用通知的形式向用户提供相关广告。
图17示出了示例社交图1700。在特定实施例中,社交网络系统1660可以在一个或更多个数据储存器中存储一个或更多个社交图1700。在特定实施例中,社交图1700可以包括多个节点——其可以包括多个用户节点1702或多个概念节点1704——以及连接这些节点的多条边1706。每个节点可以与唯一的实体(即,用户或概念)相关联,每个实体可以具有唯一的标识符(ID),如唯一的号码或用户名。出于教导的目的,图16所示的示例社交图1700以二维视觉地图表示被示出。在特定实施例中,社交网络系统1660、客户端系统1630或第三方系统1670可以访问社交图1700和相关社交图信息以用于合适的应用。社交图1700的节点和边可以作为数据对象被存储在例如数据储存器(例如社交图数据库)中。这种数据储存器可以包括社交图1700的节点或边的一个或更多个可搜索或可查询的索引。
在特定实施例中,用户节点1702可以对应于社交网络系统1660的用户。作为示例而不是作为限制,用户可以是与社交网络系统1660或通过社交网络系统1660互动或通信的个人(人类用户)、实体(例如,企业、公司或第三方应用)或(例如,个人或实体的)团体。在特定实施例中,当用户向社交网络系统1660注册账户时,社交网络系统1660可以创建对应于用户的用户节点1702,并将用户节点1702存储在一个或更多个数据储存器中。本文描述的用户和用户节点1702在适当的情况下可以指注册的用户和与注册的用户相关联的用户节点1702。另外或作为备选方案,在适当的情况下,本文描述的用户和用户节点1702可以指没有向社交网络系统1660注册的用户。在特定实施例中,用户节点1702可以与由用户提供的信息或由各种系统(包括社交网络系统1660)收集的信息相关联。作为示例而不是作为限制,用户可以提供他或她的姓名、简档图片、联系信息、出生日期、性别、婚姻状况、家庭状况、职业、教育背景、偏好、兴趣或其他人口统计信息。在特定实施例中,用户节点1702可以与对应于与用户相关联的信息的一个或更多个数据对象相关联。在特定实施例中,用户节点1702可以对应于一个或更多个网页。
在特定实施例中,概念节点1704可以对应于概念。作为示例而不是作为限制,概念可以对应于地点(例如,电影院、餐馆、地标或城市);网站(例如,与社交网络系统1660相关联的网站或与web应用服务器相关联的第三方网站);实体(例如,个人、企业、团体、运动队或名人);资源(例如,音频文件、视频文件、数字照片、文本文件、结构化文档或应用),其可以位于社交网络系统1660内或外部服务器(例如web应用服务器)上;不动产或知识产权(例如,雕塑、绘画、电影、游戏、歌曲、想法、照片或书面作品);游戏;活动;想法或理论;在增强/虚拟现实环境中的对象;另一个合适的概念;或者两个或更多个这样的概念。概念节点1704可以与由用户提供的概念的信息或由各种系统(包括社交网络系统1660)收集的信息相关联。作为示例而不是作为限制,概念的信息可以包括名称或标题;一个或更多个图像(例如,书籍的封面的图像);位置(例如,地址或地理位置);网站(其可以与URL相关联);联系信息(例如,电话号码或电子邮件地址);其他合适的概念信息;或者这样的信息的任何合适的组合。在特定实施例中,概念节点1704可以与一个或更多个数据对象相关联,一个或更多个数据对象对应于与概念节点1704相关联的信息。在特定实施例中,概念节点1704可以对应于一个或更多个网页。
在特定实施例中,社交图1700中的节点可以表示网页(其可以被称为“简档页面”)或者由网页表示。简档页面可以由社交网络系统1660托管或是社交网络系统1660可访问的。简档页面也可以在与第三方系统1670相关联的第三方网站上被托管。作为示例而不是作为限制,对应于特定外部网页的简档页面可以是特定外部网页,并且简档页面可以对应于特定概念节点1704。简档页面可以由其他用户的全部或选定子集可查看。作为示例而不是作为限制,用户节点1702可以具有相应的用户简档页面,其中相应的用户可以添加内容、作出声明或以其他方式表达他或她自己。作为另一示例而不是作为限制,概念节点1704可以具有相应的概念简档页面,其中一个或更多个用户可以添加内容、做出声明或表达他们自己,特别是关于对应于概念节点1704的概念。
在特定实施例中,概念节点1704可以表示由第三方系统1670托管的第三方网页或资源。第三方网页或资源除了其它元素以外还可以包括表示动作或活动的内容、可选择的图标或其他图标或其他可交互对象(其可以例如用JavaScript、AJAX或PHP代码实现)。作为示例而不是作为限制,第三方网页可以包括可选择的图标(例如“赞”、“签到(check-in)”、“吃”、“推荐”)或其他合适的动作或活动。查看第三方网页的用户可以通过选择图标之一(例如,“签到”)来执行动作,使得客户端系统1630向社交网络系统1660发送指示用户动作的消息。响应于该消息,社交网络系统1660可以在对应于用户的用户节点1702和对应于第三方网页或资源的概念节点1704之间创建边(例如,签到类型边),并将边1706存储在一个或更多个数据储存器中。
在特定实施例中,社交图1700中的一对节点可以通过一条或更多条边1706连接到彼此。连接一对节点的边1706可以表示在该对节点之间的关系。在特定实施例中,边1706可以包括或表示对应于在一对节点之间的关系的一个或更多个数据对象或属性。作为示例而不是作为限制,第一用户可以指示第二用户是第一用户的“朋友”。响应于该指示,社交网络系统1660可以向第二用户发送“朋友请求”。如果第二用户确认“朋友请求”,则社交网络系统1660可以在社交图1700中创建将第一用户的用户节点1702连接到第二用户的用户节点1702的边1706,并将边1706作为社交图信息存储在一个或更多个数据储存器1664中。在图16的示例中,社交图1700包括指示在用户“A”和用户“B”的用户节点1702之间的朋友关系的边1706,以及指示在用户“C”和用户“B”的用户节点1702之间的朋友关系的边。尽管本公开描述或示出了连接特定用户节点1702的具有特定属性的特定边1706,但是本公开设想了连接用户节点1702的具有任何适当属性的任何适当边1706。作为示例而不是作为限制,边1706可以表示友谊、家庭关系、商业或雇佣关系、粉丝关系(包括例如,赞等)、关注者(follower)关系、访问者关系(包括例如,访问、查看、签到、分享等)、订购者关系、上级/下级关系、互惠关系、非互惠关系、另一种合适类型的关系、或两种或更多种这样的关系。此外,尽管本公开一般将节点描述为被连接,但是本公开也将用户或概念描述为被连接。在本文,对被连接的用户或概念的引用在适当的情况下可以指在社交图1700中由一条或更多条边1706连接的对应于那些用户或概念的节点。分别由两个节点表示的两个对象之间的分离度(degree of separation)是连接社交图1700中的两个节点的最短路径中的边数。作为示例而非限制,在社交图1700中,用户“C”的用户节点1702经由多条路径连接到用户“A”的用户节点1702,例如,直接通过用户“B”的用户节点1702的第一路径,通过公司“Acme”的概念节点1704和用户“D”的用户节点1702的第二路径,以及通过代表学校“斯坦福”、用户“G”、公司“Acme”和用户“D”的用户节点1702和概念节点1704的第三路径。用户“C”和用户“A”具有2的分离度,因为连接它们相应节点的最短路径(即,第一路径)包括两条边1706。
在特定实施例中,在用户节点1702和概念节点1704之间的边1706可以表示由与用户节点1702相关联的用户朝着与概念节点1704相关联的概念执行的特定动作或活动。作为示例而不是作为限制,如图17所示,用户可以“赞”、“出席”、“播放”、“收听”、“烹饪”、“工作于”或“观看”概念,其中每个可以对应于边类型或子类型。对应于概念节点1704的概念简档页面可以包括例如可选择的“签到”图标(例如,可点击的“签到”图标)或可选择的“添加到收藏夹”图标。类似地,在用户点击这些图标之后,社交网络系统1660可以响应于对应于相应动作的用户动作来创建“收藏夹”边或“签到”边。作为另一示例而不是作为限制,用户(用户“C”)可以使用特定的应用(声田(SPOTIFY),其为在线音乐应用)来收听特定的歌曲(“想象(Imagine)”)。在这种情况下,社交网络系统1660可以在对应于用户的用户节点1702和对应于歌曲和应用的概念节点1704之间创建“收听”边1706和“使用”边(如图16所示),以指示用户收听了歌曲并使用了应用。此外,社交网络系统1660可以在对应于歌曲和应用的概念节点1704之间创建“播放”边1706(如图16所示),以指示特定应用播放了特定歌曲。在这种情况下,“播放”边1706对应于由外部应用(声田)对外部音频文件(歌曲“想象”)执行的动作。尽管本公开描述了连接用户节点1702和概念节点1704的具有特定属性的特定边1706,但是本公开设想了连接用户节点1702和概念节点1704的具有任何适当属性的任何适当边1706。此外,尽管本公开描述了表示单个关系的在用户节点1702和概念节点1704之间的边,但是本公开设想了表示一个或更多个关系的在用户节点1702和概念节点1704之间的边。作为示例而不是作为限制,边1706可以表示用户喜欢并使用了特定概念。可选地,另一个边1706可以表示用户节点1702和概念节点1704(如图16所示,用户“E”的用户节点1702和“声田”的概念节点1704之间)之间的每种类型的关系(或多个单一关系)。
在特定实施例中,社交网络系统1660可以在社交图1700中的用户节点1702和概念节点1704之间创建边1706。作为示例而不是作为限制,(例如,通过使用由用户的客户端系统1630托管的web浏览器或专用应用)查看概念简档页面的用户可以通过点击或选择“赞”图标来指示他或她喜欢由概念节点1704表示的概念,这可以使用户的客户端系统1630向社交网络系统1660发送指示用户喜欢与概念简档页面相关联的概念的消息。响应于该消息,社交网络系统1660可以在与用户相关联的用户节点1702和概念节点1704之间创建边1706,如由在用户节点和概念节点1704之间的“赞”边1706所示的。在特定实施例中,社交网络系统1660可以将边1706存储在一个或更多个数据储存器中。在特定实施例中,边1706可以由社交网络系统1660响应于特定用户动作而自动形成。作为示例而不是作为限制,如果第一用户上传图片、观看电影或收听歌曲,则可以在对应于第一用户的用户节点1702和对应于那些概念的概念节点1704之间形成边1706。尽管本公开描述了以特定方式形成特定边1706,但是本公开设想了以任何合适的方式形成任何合适的边1706。
在特定实施例中,社交网络系统1660可以确定各种社交图实体对于彼此的社交图亲和力(affinity)(在本文可以称为“亲和力”)。亲和力可以表示在与线社交网络关联的特定对象(诸如用户、概念、内容、动作、广告)、与在线社交网络关联的其他对象、或其任何合适的组合之间的关系强度或感兴趣程度。还可以针对与第三方系统1670或其他合适的系统相关联的对象来确定亲和力。可以为每个用户、主题或内容类型建立对社交图实体的总体亲和力。基于对与社交图实体相关联的动作或关系的持续监控,总体亲和力可以改变。尽管本公开描述了以特定方式确定特定亲和力,但是本公开设想了以任何合适的方式确定任何合适的亲和力。
在特定实施例中,社交网络系统1660可以使用亲和力系数(在本文可以称为“系数”)来度量或量化社交图亲和力。系数可以表示或量化与在线社交网络相关联的特定对象之间的关系强度。系数还可以表示基于用户对特定动作的兴趣来度量用户将执行该动作的预测概率的概率或函数。以这种方式,可以基于用户的先前动作来预测用户的未来动作,其中可以至少部分地基于用户的动作的历史来计算系数。系数可以用于预测可位于在线社交网络内部或外部的任何数量的动作。作为示例而不是作为限制,这些动作可以包括各种类型的通信,例如发送消息、发布内容或对内容进行评论;各种类型的观察动作(例如访问或查看简档页面、媒体或其他合适的内容);关于两个或更多个社交图实体的各种类型的一致性信息(例如在同一群组中、在同一照片中被标记、在同一位置处签到或参加同一事件);或其他合适的动作。尽管本公开描述了以特定方式度量亲和力,但是本公开设想了以任何合适的方式度量亲和力。
在特定实施例中,社交网络系统1660可以使用各种因素来计算系数。这些因素可以包括例如,用户动作、对象之间的关系类型、位置信息、其他合适的因素或其任意组合。在特定实施例中,当计算系数时,不同的因素可以被不同地加权。每个因素的权重可以是静态的,或者可以根据例如用户、关系类型、动作类型、用户的位置等来改变权重。可以根据因素的权重来组合这些因素的等级(rating),以确定用户的总系数。作为示例而不是作为限制,特定用户动作可以被分配等级和权重,而与特定用户动作相关联的关系被分配等级和相关权重(例如,因此权重总计为100%)。为了计算用户对特定对象的系数,分配给用户动作的等级可以包括例如,总系数的60%,而用户和该对象之间的关系可以包括总系数的40%。在特定实施例中,当确定用于计算系数的各种因素的权重时,社交网络系统1660可以考虑各种变量,例如自信息被访问以来的时间、衰减因子、访问的频率、与信息的关系或与信息被访问了的对象的关系、与连接到对象的社交图实体的关系、用户动作的短期或长期平均值、用户反馈、其他合适的变量、或它们的任意组合。作为示例而不是作为限制,系数可以包括衰减因子,该衰减因子导致由特定动作提供的信号强度随时间衰减,使得在计算系数时更近的(more recent)动作更相关。等级和权重可以基于系数所基于的动作的持续跟踪而被持续更新。可以采用任何类型的过程或算法来对每个因素的等级和分配给这些因素的权重进行分配、组合、求平均等。在特定实施例中,社交网络系统1660可以使用根据历史动作和过去的用户响应训练的机器学习算法,或者通过将用户暴露于各种选项并测量响应而从用户获得的数据,来确定系数。尽管本公开描述了以特定方式计算系数,但是本公开设想了以任何合适的方式计算系数。
在特定实施例中,社交网络系统1660可以基于用户的动作来计算系数。社交网络系统1660可以监控在线社交网络上、第三方系统1670上、其他合适的系统上、或它们的任意组合上的这样的动作。可以跟踪或监控任何合适类型的用户动作。典型的用户操作包括查看简档页面、创建或发布内容、与内容交互、在图像中标记或被标记在图像中、加入群组、列出并确认事件出席情况、在不同地点签到、点赞特定页面、创建页面以及执行有助于社交动作的其他任务。在特定实施例中,社交网络系统1660可以基于用户对特定类型内容的动作来计算系数。内容可以与在线社交网络、第三方系统1670或另一合适的系统相关联。内容可以包括用户简档页面、帖子、新闻动态(news stories)、标题、即时消息、聊天室会话、电子邮件、广告、图片、视频、音乐、其他合适的对象或其任意组合。社交网络系统1660可以分析用户的动作,以确定这些动作中的一个或更多个是否指示对主题、内容、其他用户等的亲和力。作为示例而不是作为限制,如果用户频繁发布与“咖啡”或其变型相关的内容,则社交网络系统1660可以确定用户相对于概念“咖啡”具有高的系数。特定动作或动作类型可以被分配比其他动作更高的权重和/或等级,这可能影响计算的总系数。作为示例而不是作为限制,如果第一用户向第二用户发送电子邮件,则该动作的权重或等级可能高于第一用户简单地查看第二用户的用户简档页面的情况。
在特定实施例中,社交网络系统1660可以基于特定对象之间的关系的类型来计算系数。参考社交图1700,当计算系数时,社交网络系统1660可以分析连接特定用户节点1702和概念节点1704的边1706的数量和/或类型。作为示例而不是作为限制,通过配偶型边(表示两个用户结婚了)连接的用户节点1702可以被分配比通过朋友型边连接的用户节点1702更高的系数。换句话说,根据分配给特定用户的动作和关系的权重,可以确定对于关于用户的配偶的内容的总体亲和力比对于关于用户的朋友的内容的总体亲和力更高。在特定实施例中,用户与另一对象的关系可以影响关于计算该对象的系数的用户动作的权重和/或等级。作为示例而不是作为限制,如果用户在第一张照片中被标记,但仅仅赞第二张照片,则社交网络系统1660可以确定用户关于第一张照片具有比第二张照片更高的系数,因为具有与内容的标记型(tagged-in-type)关系可以被分配比具有与内容的点赞型(like-type)关系更高的权重和/或等级。在特定实施例中,社交网络系统1660可以基于一个或更多个第二用户与特定对象所具有的关系来计算第一用户的系数。换句话说,其他用户与对象的关连和系数可能影响第一用户关于该对象的系数。作为示例而不是作为限制,如果第一用户关连到一个或更多个第二用户或者对于一个或更多个第二用户具有高的系数,并且那些第二用户关连到特定对象或者对于特定对象具有高的系数,则社交网络系统1660可以确定第一用户对于该特定对象同样应该具有相对高的系数。在特定实施例中,系数可以基于特定对象之间的分离度。较低的系数可以表示第一用户将分享对在社交图1700中间接地关连到第一用户的用户的内容对象有兴趣的可能性降低。作为示例而不是作为限制,在社交图1700中更靠近(即,分离度更少)的社交图实体可以比在社交图1700中更远离的实体具有更高的系数。
在特定实施例中,社交网络系统1660可以基于位置信息来计算系数。在地理上彼此更靠近的对象可以被认为比更远的对象彼此更相关或更感兴趣。在特定实施例中,用户对特定对象的系数可以基于对象的位置与和用户相关联的当前位置(或用户的客户端系统1630的位置)的接近度。第一用户可能对更靠近第一用户的其他用户或概念更感兴趣。作为示例而不是作为限制,如果用户距机场一英里且距加油站两英里,则社交网络系统1660可以基于机场与用户的接近度来确定用户对机场具有比加油站更高的系数。
在特定实施例中,社交网络系统1660可以基于系数信息来执行关于用户的特定动作。系数可以用于基于用户对特定动作的兴趣来预测用户是否将执行该动作。当生成或向用户呈现任何类型的对象(例如广告、搜索结果、新闻动态、媒体、消息、通知或其他合适的对象)时,可以使用系数。该系数也可以被用来适当地对这些对象进行排名(rank)和排序(order)。以这种方式,社交网络系统1660可以提供与用户的兴趣和当前环境相关的信息,增加了他们将找到这样的感兴趣的信息的可能性。在特定实施例中,社交网络系统1660可以基于系数信息来生成内容。可以基于特定于用户的系数来提供或选择内容对象。作为示例而不是作为限制,系数可以用于为用户生成媒体,其中可以向用户呈现用户关于媒体对象具有高的总系数的媒体。作为另一示例而不是作为限制,该系数可以用于为用户生成广告,其中可以向用户呈现其关于广告对象具有高总体系数的广告。在特定实施例中,社交网络系统1660可以基于系数信息来生成搜索结果。可以基于与查询用户的搜索结果相关联的系数来对特定用户的搜索结果进行评分或排名。作为示例而不是作为限制,对应于具有较高系数的对象的搜索结果在搜索结果页面上的排名可以高于对应于具有较低系数的对象的结果。
在特定实施例中,社交网络系统1660可以响应于来自特定系统或过程的系数请求来计算系数。为了预测用户在给定情况下可能采取动作(或者可能是动作的对象)的可能性,任何过程都可以请求关于用户的计算出的系数。请求还可以包括用于计算系数的各种因素使用的一组权重。该请求可以来自在线社交网络上运行的进程(process)、来自第三方系统1670(例如,经由API或其他通信渠道)、或者来自另一个合适的系统。响应于该请求,社交网络系统1660可以计算系数(或者如果先前已经计算并存储了系数信息,则访问系数信息)。在特定实施例中,社交网络系统1660可以度量关于特定过程的亲和力。不同的过程(在线社交网络的内部和外部)可以请求关于特定对象或对象集的系数。社交网络系统1660可以提供与请求了亲和力的度量的特定过程相关的亲和力的度量。以这种方式,每个过程接收针对不同上下文调整的亲和力度量,其中该过程将使用亲和力度量。
结合社交图亲和力和亲和力系数,特定实施例可以利用在2006年8月11日提交的第11/503093号美国专利申请、2010年12月22日提交的第12/977027号美国专利申请、2010年12月23日提交的第12/978265号美国专利申请和2012年10月01日提交的第13/632869号美国专利申请(其中的每一个都通过引用并入)中公开的一个或更多个系统、部件、元件、功能、方法、操作或步骤。
隐私
在特定实施例中,计算系统的一个或更多个对象(例如,内容或其他类型的对象)可以与一个或更多个隐私设置相关联。一个或更多个对象可以存储在任何合适的计算系统或应用上,或者以其他方式与任何合适的计算系统或应用相关联,该计算系统或应用诸如例如是社交网络系统1660、客户端系统1630、第三方系统1670、社交网络应用、消息传递应用、照片共享应用或者任何其他合适的计算系统或应用。尽管本文讨论的示例是在在线社交网络的上下文中,但是这些隐私设置可以应用于任何其他合适的计算系统。对象的隐私设置(或“访问设置”)可以以任何合适的方式——例如与对象相关联地、在授权服务器上用索引、以另一种合适的方式、或其任何合适的组合——被存储。对象的隐私设置可以指定如何可以在在线社交网络中访问、存储或以其他方式使用(例如,查看、共享、修改、复制、执行、显现或识别)该对象(或与该对象相关联的特定信息)。在对象的隐私设置允许特定用户或其他实体访问该对象时,该对象可以被描述为相对于该用户或其他实体是“可见的”。作为示例而不是作为限制,在线社交网络的用户可以指定关于用户简档页面的隐私设置,该隐私设置识别可以访问在用户简档页面上的工作经历信息的一组用户,因而排除其他用户访问该信息。
在特定实施例中,对象的隐私设置可以指定不应当被允许访问与对象相关联的某些信息的用户或其他实体的“黑名单(blocked list)”。在特定实施例中,黑名单可以包括第三方实体。黑名单可以指定一个或更多个用户或实体,对象对这些用户或实体是不可见的。作为示例而不是作为限制,用户可以指定不可以访问与用户相关联的相册的用户集合,因而排除那些用户访问相册(同时也可能允许不在指定用户集合内的某些用户访问相册)。在特定实施例中,隐私设置可以与特定社交图元素相关联。社交图元素(例如节点或边)的隐私设置可以指定可以如何使用在线社交网络来访问社交图元素、与社交图元素相关联的信息、或与社交图元素相关联的对象。作为示例而不是作为限制,对应于特定照片的特定概念节点1704可以具有指定照片仅可以由在照片中标记的用户以及在照片中标记的用户的朋友访问的隐私设置。在特定实施例中,隐私设置可以允许用户选择加入或选择退出使他们的内容、信息或动作被社交网络系统1660存储/记录或者与其他系统(例如,第三方系统1670)分享。尽管本公开描述了以特定方式使用特定隐私设置,但是本公开设想了以任何合适的方式使用任何合适的隐私设置。
在特定实施例中,隐私设置可以基于社交图1700的一个或更多个节点或边。可以为社交图1700的一条或更多条边1706或边类型、或者关于社交图1700的一个或更多个节点1702、1704或节点类型,指定隐私设置。应用于连接两个节点的特定边1706的隐私设置可以控制对应于这两个节点的两个实体之间的关系对于在线社交网络的其他用户是否可见。类似地,应用于特定节点的隐私设置可以控制对应于该节点的用户或概念对于在线社交网络的其他用户是否可见。作为示例而不是作为限制,第一用户可以向社交网络系统1660共享对象。该对象可以与通过边1706关连到第一用户的用户节点1702的概念节点1704相关联。第一用户可以指定应用于关连到对象的概念节点1704的特定边1706的隐私设置,或者可以指定应用于关连到概念节点1704的所有边1706的隐私设置。作为另一个示例而不是作为限制,第一用户可以共享特定对象类型的对象集合(例如,图像集合)。第一用户可以针对与第一用户相关联的该特定对象类型的所有对象将隐私设置指定为具有特定的隐私设置(例如,指定由第一用户发布的所有图像仅对第一用户的朋友和/或在图像中标记的用户可见)。
在特定实施例中,社交网络系统1660可以(例如,在网页、模块、一个或更多个对话框或任何其他合适的界面内)向第一用户呈现“隐私向导(privacy wizard)”,以帮助第一用户指定一个或更多个隐私设置。隐私向导可以显示指令、合适的隐私相关信息、当前隐私设置、用于接受来自第一用户的一个或更多个输入(其指定隐私设置的改变或确认)的一个或更多个输入字段、或其任何合适的组合。在特定实施例中,社交网络系统1660可以向第一用户提供“仪表板(dashboard)”功能,该功能可以向第一用户显示第一用户的当前隐私设置。仪表板功能可以在任何适当的时间显示给第一用户(例如,在来自调用仪表板功能的第一用户的输入之后,在特定事件或触发动作发生之后)。仪表板功能可以允许第一用户以任何合适的方式在任何时间修改第一用户的一个或更多个当前隐私设置(例如,将第一用户重定向到隐私向导)。
与对象相关联的隐私设置可以指定允许访问或拒绝访问的任何合适的粒度(granularity)。作为示例而不是作为限制,可以为特定用户(例如,只有我、我的室友、我的老板)、在特定分离度内的用户(例如,朋友、朋友的朋友)、用户团体(例如,游戏俱乐部、我的家人)、用户网络(例如,特定雇主的雇员、特定大学的学生或校友)、所有用户(“公众”)、无用户(“私人的”)、第三方系统1670的用户、特定应用(例如,第三方应用、外部网站)、其他合适的实体、或其任何合适的组合来指定访问或拒绝访问。尽管本公开描述了允许访问或拒绝访问的特定粒度,但是本公开设想了允许访问或拒绝访问的任何合适粒度。
在特定实施例中,一个或更多个服务器1662可以是用于实施隐私设置的授权/隐私服务器。响应于来自用户(或其他实体)的对存储在数据储存器1664中的特定对象的请求,社交网络系统1660可以向数据储存器1664发送对该对象的请求。请求可以识别与该请求相关联的用户,并且对象只有在授权服务器基于与该对象相关联的隐私设置确定该用户被授权访问该对象时才可以被发送给该用户(或者该用户的客户端系统1630)。如果请求用户未被授权访问该对象,则授权服务器可以阻止所请求的对象从数据储存器1664中被检索,或者可以阻止所请求的对象被发送给用户。在搜索-查询上下文中,只有当查询用户被授权访问对象时,例如,如果对象的隐私设置允许其被显露给查询用户、被查询用户发现或以其他方式对查询用户可见,才可以提供对象作为搜索结果。在特定实施例中,对象可以表示通过用户的动态消息对用户可见的内容。作为示例而不是作为限制,一个或更多个对象对于用户的“热门话题(Trending)”页面可以是可见的。在特定实施例中,对象可以对应于特定用户。对象可以是与特定用户相关联的内容,或者可以是特定用户的账户或存储在社交网络系统1660或其他计算系统上的信息。作为示例而不是作为限制,第一用户可以通过在线社交网络的“你可能认识的人(People You May Know)”功能或者通过查看第一用户的朋友列表来查看在线社交网络的一个或更多个第二用户。作为示例而不是作为限制,第一用户可以指定他们不希望在他们的动态消息或朋友列表中看到与特定第二用户相关联的对象。如果对象的隐私设置不允许其被显露给用户、被用户发现或对用户可见,则该对象可以从搜索结果中排除。尽管本公开描述了以特定方式实施隐私设置,但是本公开设想了以任何合适的方式实施隐私设置。
在特定实施例中,与用户相关联的相同类型的不同对象可以具有不同的隐私设置。与用户相关联的不同类型的对象可以具有不同类型的隐私设置。作为示例而不是作为限制,第一用户可以指定第一用户的状态更新是公开的,但是第一用户分享的任何图像仅对在线社交网络上第一用户的朋友可见。作为另一个示例而不是作为限制,用户可以为不同类型的实体(如个人用户、朋友的朋友、关注者、用户团体或公司实体)指定不同的隐私设置。作为另一个示例而不是作为限制,第一用户可以指定可以查看由第一用户发布的视频的一组用户,同时防止视频对第一用户的雇主可见。在特定实施例中,可以为不同的用户组或用户人口统计提供不同的隐私设置。作为示例而不是作为限制,第一用户可以指定与第一用户在同一所大学上学的其他用户可以查看第一用户的照片,但是作为第一用户的家庭成员的其他用户不能查看那些相同的照片。
在特定实施例中,社交网络系统1660可以为特定对象类型的每个对象提供一个或更多个默认隐私设置。被设置为默认的对象的隐私设置可以由与该对象相关联的用户来改变。作为示例而不是作为限制,由第一用户发布的所有图像可以具有默认隐私设置,即仅对于第一用户的朋友可见,并且对于特定图像,第一用户可以改变图像的隐私设置,以对于朋友和朋友的朋友可见。
在特定实施例中,隐私设置可以允许第一用户指定(例如,通过选择退出,通过不选择加入)社交网络系统1660是否可以出于任何目的接收、收集、记录或存储与用户相关联的特定对象或信息。在特定实施例中,隐私设置可以允许第一用户指定特定应用或过程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息被特定应用或过程访问、存储或使用。社交网络系统1660可以访问这样的信息以便向第一用户提供特定的功能或服务,而社交网络系统1660不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前,社交网络系统1660可以提示用户提供指定哪些应用或过程(如果有的话)可以在允许任何这样的动作之前访问、存储或使用对象或信息的隐私设置。作为示例而非限制,第一用户可以经由与在线社交网络相关的应用(例如,消息传送app)向第二用户发送消息,并且可以指定这样的消息不应被社交网络系统1660存储的隐私设置。
在特定实施例中,用户可以指定社交网络系统1660是否可以访问、存储或使用与第一用户相关联的特定类型的对象或信息。作为示例而不是作为限制,第一用户可以指定由第一用户通过社交网络系统1660发送的图像不可以被社交网络系统1660存储。作为另一个示例而不是作为限制,第一用户可以指定从第一用户发送给特定第二用户的消息不可以被社交网络系统1660存储。作为又一个示例而不是作为限制,第一用户可以指定经由特定应用发送的所有对象可以被社交网络系统1660保存。
在特定实施例中,隐私设置可以允许第一用户指定是否可以从特定客户端系统1630或第三方系统1670访问与第一用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出从特定设备(例如,用户智能电话上的电话簿)、从特定应用(例如,消息传递app)或从特定系统(例如,电子邮件服务器)访问对象或信息。社交网络系统1660可以提供关于每个设备、系统或应用的默认隐私设置,和/或可以提示第一用户为每个上下文指定特定的隐私设置。作为示例而不是作为限制,第一用户可以利用社交网络系统1660的位置服务特征来提供用户附近的餐馆或其他地方的推荐。第一用户的默认隐私设置可以指定社交网络系统1660可以使用从第一用户的客户端设备1630提供的位置信息来提供基于位置的服务,但是社交网络系统1660不可以存储第一用户的位置信息或将其提供给任何第三方系统1670。第一用户然后可以更新隐私设置,以允许第三方图像共享应用使用位置信息来对照片进行地理标记。
情绪或情感信息的隐私设置
在特定实施例中,隐私设置可以允许用户指定是否可以确定与用户相关联的情绪或情感信息,以及特定应用或过程是否可以访问、存储或使用这样的信息。隐私设置可以允许用户选择加入或选择退出由特定应用或过程访问、存储或使用情绪或情感信息。社交网络系统1660可以基于例如用户提供的输入和与特定对象的交互来预测或确定与用户相关联的情绪或情感,所述特定对象例如是用户查看的页面或内容、用户上传的帖子或其他内容以及与在线社交网络的其他内容的交互。在特定实施例中,社交网络系统1660可以使用用户先前的活动和计算的情绪或情感来确定当前的情绪或情感。希望启用该功能的用户可以在其隐私设置中指示他们选择加入社交网络系统1660接收确定情绪或情感所需的输入。作为示例而非限制,社交网络系统1660可以确定默认隐私设置是不接收确定情绪或情感所需的任何信息,直到从用户得到社交网络系统1660可以这样做的明确指示。相反,如果用户没有选择加入社交网络系统1660接收这些输入(或者肯定地选择退出社交网络系统1660接收这些输入),则可以阻止社交网络系统1660接收、收集、记录或存储这些输入或与这些输入相关联的任何信息。在特定实施例中,社交网络系统1660可以使用预测的情绪或情感来向用户提供推荐或广告。在特定实施例中,如果用户希望将该功能用于特定目的或应用,则用户可以指定附加的隐私设置,以选择加入将情绪或情感信息用于特定目的或应用。作为示例而非限制,社交网络系统1660可以使用用户的情绪或情感来向用户提供动态消息项目、页面、朋友或广告。用户可以在其隐私设置中指定社交网络系统1660可以确定用户的情绪或情感。然后,可以要求用户提供额外的隐私设置,以指示用户的情绪或情感可以用于的目的。用户可以指示社交网络系统1660可以使用他或她的情绪或情感来提供动态消息内容和推荐页面,但是不用于推荐朋友或广告。社交网络系统1660然后可以仅基于用户情绪或情感提供动态消息内容或页面,并且不可以将该信息用于任何其他目的,即使隐私设置没有明确禁止。
用于用户认证和体验个性化信息的隐私设置
在特定实施例中,社交网络系统1660可以具有可将用户的个人或生物识别信息(biometric information)用作输入以用于用户认证或体验个性化目的的功能。用户可以选择利用这些功能来增强他们在在线社交网络上的体验。作为示例而非限制,用户可以向社交网络系统1660提供个人信息或生物识别信息。用户的隐私设置可以指定这样的信息仅可以用于特定的过程(例如认证),并且进一步指定这样的信息不可以与任何第三方系统1670共享或者不可以用于与社交网络系统1660相关联的其他过程或应用。作为另一个示例而不是作为限制,社交网络系统1660可以为用户提供向在线社交网络提供声纹记录的功能。作为示例而不是作为限制,如果用户希望利用在线社交网络的这一功能,则用户可以提供他或她自己声音的声音记录,以提供在线社交网络上的状态更新。声音输入的记录可以与用户的声纹进行比较,以确定用户说了什么词语。用户的隐私设置可以指定这种声音记录可以仅用于声音输入目的(例如,认证用户、发送声音消息、改进声音识别以便使用在线社交网络的声音操作特征),并且还指定这种声音记录不可以与任何第三方系统1670共享,或者不可以被与社交网络系统1660相关联的其他过程或应用使用。作为另一个示例而不是作为限制,社交网络系统1660可以为用户提供向在线社交网络提供参考图像(例如,面部轮廓、视网膜扫描)的功能。在线社交网络可以将参考图像与稍后接收的图像输入进行比较(例如,用于认证用户,在照片中标记用户)。用户的隐私设置可以指定这种声音记录仅可用于有限的目的(例如,认证、在照片中标记用户),并且还指定这种声音记录不能与任何第三方系统1670共享,或者不能被与社交网络系统1660相关联的其他过程或应用使用。
用户发起的对隐私设置的改变
在特定实施例中,对隐私设置的改变可以追溯生效,影响改变之前共享的对象和内容的可见性。作为示例而非限制,第一用户可以共享第一图像并指定第一图像对所有其他用户公开。稍后,第一用户可以指定由第一用户共享的任何图像应该仅对第一用户组可见。社交网络系统1660可以确定该隐私设置也适用于第一图像,并且使得第一图像仅对第一用户组可见。在特定实施例中,隐私设置的改变可以仅向前生效。继续上面的例子,如果第一用户改变隐私设置,然后共享第二图像,则第二图像可以仅对第一用户组可见,但是第一图像可以保持对所有用户可见。在特定实施例中,响应于改变隐私设置的用户动作,社交网络系统1660可以进一步提示用户指示用户是否想要追溯地应用隐私设置的改变。在特定实施例中,用户对隐私设置的改变可以是特定于一个对象的一次性改变。在特定实施例中,用户对隐私的改变可以是与用户相关联的所有对象的全局改变。
在特定实施例中,社交网络系统1660可以确定第一用户可能想要响应于与第一用户相关联的触发动作来改变一个或更多个隐私设置。触发动作可以是在线社交网络上的任何合适的动作。作为示例而非限制,触发动作可以是在线社交网络的第一用户和第二用户之间的关系的改变(例如,将用户“删除好友(un-firending)”,改变用户之间的关系状态)。在特定实施例中,在确定触发动作已经发生后,社交网络系统1660可以提示第一用户改变关于与第一用户相关联的对象的可见性的隐私设置。该提示可以将第一用户重定向到用于编辑关于与触发动作相关联的一个或更多个实体的隐私设置的工作流过程。与第一用户相关联的隐私设置可以仅响应于来自第一用户的明确输入而改变,并且不可以在没有第一用户的批准的情况下被改变。作为示例而非限制,工作流过程可以包括向第一用户提供关于第二用户或一组用户的当前隐私设置(例如,从特定对象中去除第一用户或第二用户的标签,改变关于第二用户或一组用户的特定对象的可见性),以及从第一用户接收指示以基于本文描述的任何方法改变隐私设置,或者保持现有的隐私设置。
在特定实施例中,用户可能需要在允许用户在在线社交网络上执行特定动作之前提供隐私设置的验证,或者在改变特定隐私设置之前提供验证。当执行特定动作或改变特定隐私设置时,可以向用户呈现提示,以提醒用户他或她的当前隐私设置,并要求用户验证关于特定动作的隐私设置。此外,在进行特定动作之前,用户可能需要提供确认、双重确认、认证或其他合适类型的验证,并且在提供这种验证之前,该动作可能不会完成。作为示例而非限制,用户的默认隐私设置可以指示一个人的关系状态对所有用户可见(即,“公开”)。然而,如果用户改变他或她的关系状态,社交网络系统1660可以确定这样的动作可能是敏感的,并且可以提示用户确认他或她的关系状态在继续之前应该保持公开。作为另一个示例而非限制,用户的隐私设置可以指定用户的帖子仅对用户的朋友可见。然而,如果用户将他或她的帖子的隐私设置改变为公开,则社交网络系统1660可以向用户提示帖子仅对朋友可见的用户的当前隐私设置的提醒,以及该改变将使用户的所有过去的帖子对公众可见的警告。然后,在继续改变隐私设置之前,用户可能需要提供第二次验证、输入认证凭证或提供其他类型的验证。在特定实施例中,用户可能需要定期提供隐私设置的验证。根据经过的时间或用户动作的数量,可以周期性地向用户发送提示或提醒。作为示例而非限制,社交网络系统1660可以每六个月或每十张照片帖子后向用户发送提醒以确认他或她的隐私设置。在特定实施例中,隐私设置还可以允许用户基于每个请求来控制对对象或信息的访问。作为示例而非限制,每当第三方系统1670试图访问与用户相关联的信息时,社交网络系统1660可以通知用户,并要求用户在继续之前提供应该允许访问的验证。
图18示出了示例计算机系统1800。在特定实施例中,一个或更多个计算机系统1800执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在特定实施例中,一个或更多个计算机系统1800提供本文描述或示出的功能。在特定实施例中,在一个或更多个计算机系统1800上运行的软件执行本文描述或示出的一个或更多个方法的一个或更多个步骤,或者提供本文描述或示出的功能。特定实施例包括一个或更多个计算机系统1800的一个或更多个部分。在本文,在适当的情况下,对计算机系统的引用可以包括计算设备,反之亦然。此外,在适当的情况下,对计算机系统的引用可以包括一个或更多个计算机系统。
本公开设想了任何合适数量的计算机系统1800。本公开设想了计算机系统1800采取任何合适的物理形式。作为示例而不是作为限制,计算机系统1800可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(例如,模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网状网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统、增强/虚拟现实设备、或者这些系统的两个或更多个的组合。在适当的情况下,计算机系统1800可以包括一个或更多个计算机系统1800;是整体式的或分布式的;跨越多个位置;跨越多台机器;跨越多个数据中心;或者驻留在云中,云可以包括在一个或更多个网络中的一个或更多个云组件。在适当的情况下,一个或更多个计算机系统1800可以在没有实质性空间或时间限制的情况下执行本文描述或示出的一个或更多个方法的一个或更多个步骤。作为示例而不是作为限制,一个或更多个计算机系统1800可以实时地或以批处理模式来执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在适当的情况下,一个或更多个计算机系统1800可以在不同的时间或在不同的位置处执行本文描述或示出的一个或更多个方法的一个或更多个步骤。
在特定实施例中,计算机系统1800包括处理器1802、存储器1804、存储装置1806、输入/输出(I/O)接口1808、通信接口1810和总线1812。尽管本公开描述并示出了具有在特定布置中的特定数量的特定组件的特定计算机系统,但是本公开设想了具有在任何合适布置中的任何合适数量的任何合适组件的任何合适的计算机系统。
在特定实施例中,处理器1802包括用于执行指令(例如构成计算机程序的那些指令)的硬件。作为示例而不是作为限制,为了执行指令,处理器1802可以从内部寄存器、内部高速缓存、存储器1804或存储装置1806中检索(或取回)指令;将他们解码并执行它们;以及然后将一个或更多个结果写到内部寄存器、内部高速缓存、存储器1804或存储装置1806。在特定实施例中,处理器1802可以包括用于数据、指令或地址的一个或更多个内部高速缓存。在适当的情况下,本公开设想了处理器1802包括任何合适数量的任何合适的内部高速缓存。作为示例而不是作为限制,处理器1802可以包括一个或更多个指令高速缓存、一个或更多个数据高速缓存、以及一个或更多个转译后备缓冲器(TLB)。在指令高速缓存中的指令可以是在存储器1804或存储装置1806中的指令的副本,并且指令高速缓存可以加速处理器1802对那些指令的检索。在数据高速缓存中的数据可以是:在存储器1804或存储装置1806中的数据的副本,用于使在处理器1802处执行的指令进行操作;在处理器1802处执行的先前指令的结果,用于由在处理器1802处执行的后续指令访问或者用于写到存储器1804或存储装置1806;或其他合适的数据。数据高速缓存可以加速由处理器1802进行的读或写操作。TLB可以加速关于处理器1802的虚拟地址转译。在特定实施例中,处理器1802可以包括用于数据、指令或地址的一个或更多个内部寄存器。在适当的情况下,本公开设想了处理器1802包括任何合适数量的任何合适的内部寄存器。在适当的情况下,处理器1802可以包括一个或更多个算术逻辑单元(ALU);是多核处理器;或者包括一个或更多个处理器1802。尽管本公开描述并示出了特定的处理器,但是本公开设想了任何合适的处理器。
在特定实施例中,存储器1804包括用于存储用于使处理器1802执行的指令或用于使处理器1802操作的数据的主存储器。作为示例而不是作为限制,计算机系统1800可以将指令从存储装置1806或另一个源(例如,另一个计算机系统1800)加载到存储器1804。处理器1802然后可以将指令从存储器1804加载到内部寄存器或内部高速缓存。为了执行指令,处理器1802可以从内部寄存器或内部高速缓存中检索指令并将它们解码。在指令的执行期间或之后,处理器1802可以将一个或更多个结果(其可以是中间结果或最终结果)写到内部寄存器或内部高速缓存。处理器1802然后可以将这些结果中的一个或更多个写到存储器1804。在特定实施例中,处理器1802仅执行在一个或更多个内部寄存器或内部高速缓存中或在存储器1804(而不是存储装置1806其他地方)中的指令,并且仅对在一个或更多个内部寄存器或内部高速缓存中或在存储器1804(而不是存储装置1806或其他地方)中的数据进行操作。一个或更多个存储器总线(其可以各自包括地址总线和数据总线)可以将处理器1802耦合到存储器1804。如下所述,总线1812可以包括一个或更多个存储器总线。在特定实施例中,一个或更多个存储器管理单元(MMU)驻留在处理器1802和存储器1804之间,并且便于由处理器1802请求的对存储器1804的访问。在特定实施例中,存储器1804包括随机存取存储器(RAM)。在适当的情况下,该RAM可以是易失性存储器。在适当的情况下,该RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。此外,在适当的情况下,该RAM可以是单端口RAM或多端口RAM。本公开设想了任何合适的RAM。在适当的情况下,存储器1804可以包括一个或更多个存储器1804。尽管本公开描述并示出了特定的存储器,但是本公开设想了任何合适的存储器。
在特定实施例中,存储装置1806包括用于数据或指令的大容量存储装置。作为示例而不是作为限制,存储装置1806可以包括硬盘驱动器(HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器、或这些中的两个或更多个的组合。在适当的情况下,存储装置1806可以包括可移动或不可移动(或固定)介质。在适当的情况下,存储装置1806可以在计算机系统1800的内部或外部。在特定实施例中,存储装置1806是非易失性固态存储器。在特定实施例中,存储装置1806包括只读存储器(ROM)。在适当的情况下,该ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可变ROM(EAROM)、或闪存、或这些中的两个或更多个的组合。本公开设想了采用任何合适的物理形式的大容量存储装置1806。在适当的情况下,存储装置1806可以包括便于在处理器1802和存储装置1806之间的通信的一个或更多个存储装置控制单元。在适当的情况下,存储装置1806可以包括一个或更多个存储装置1806。尽管本公开描述并示出了特定的存储装置,但是本公开设想了任何合适的存储装置。
在特定实施例中,I/O接口1808包括为在计算机系统1800和一个或更多个I/O设备之间的通信提供一个或更多个接口的硬件、软件或两者。在适当的情况下,计算机系统1800可以包括这些I/O设备中的一个或更多个。这些I/O设备中的一个或更多个可以实现在人和计算机系统1800之间的通信。作为示例而不是作为限制,I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态摄像机、触笔、平板计算机、触摸屏、跟踪球、视频摄像机、另一个合适的I/O设备、或这些中的两个或更多个的组合。I/O设备可以包括一个或更多个传感器。本公开设想了任何合适的I/O设备以及用于它们的任何合适的I/O接口1808。在适当的情况下,I/O接口1808可以包括使处理器1802能够驱动这些I/O设备中的一个或更多个的一个或更多个设备或软件驱动器。在适当的情况下,I/O接口1808可以包括一个或更多个I/O接口1808。尽管本公开描述并示出了特定的I/O接口,但是本公开设想了任何合适的I/O接口。
在特定实施例中,通信接口1810包括提供用于在计算机系统1800和一个或更多个其他计算机系统1800或一个或更多个网络之间的通信(例如,基于分组的通信)的一个或更多个接口的硬件、软件或两者。作为示例而非限制,通信接口1810可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或者用于与无线网络(例如WI-FI网络)通信的无线NIC(WNIC)或无线适配器。本公开设想了任何合适的网络和用于它的任何合适的通信接口1810。作为示例而不是作为限制,计算机系统1800可以与自组织网络、个域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)或互联网的一个或更多个部分、或这些中的两个或更多个的组合进行通信。这些网络中的一个或更多个的一个或更多个部分可以是有线的或无线的。作为示例,计算机系统1800可以与无线PAN(WPAN)(例如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如,全球移动通信系统(GSM)网络)、或其他合适的无线网络、或这些中的两个或更多个的组合进行通信。在适当的情况下,计算机系统1800可以包括用于这些网络中的任一个的任何合适的通信接口1810。在适当的情况下,通信接口1810可以包括一个或更多个通信接口1810。尽管本公开描述并示出了特定的通信接口,但是本公开设想了任何合适的通信接口。
在特定实施例中,总线1812包括将计算机系统1800的组件耦合到彼此的硬件、软件或两者。作为示例而不是作为限制,总线1812可以包括加速图形端口(AGP)或其他图形总线、扩展工业标准体系结构(EISA)总线、前端总线(FSB)、HYPERTRANSPORT(HT)互连、工业标准体系结构(ISA)总线、INFINIBAND互连、低引脚数(LPC)总线、存储器总线,微通道体系结构(MCA)总线、外围部件互连(PCI)总线、PCI-Express(扩展)(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线、或任何其他合适的总线、或这些中的两个或更多个的组合。在适当的情况下,总线1812可以包括一个或更多个总线1812。尽管本公开描述并示出了特定总线,但是本公开设想了任何合适的总线或互连。
在本文,在适当的情况下,一个或更多个计算机可读非暂时性存储介质可以包括一个或更多个基于半导体的或其他集成电路(IC)(例如,现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、安全数字(SECURE DIGITAL)卡或驱动器、任何其他合适的计算机可读非暂时性存储介质、或这些中的两个或更多个的任何合适组合。在适当的情况下,计算机可读非暂时性存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。
本文中,除非另有明确指示或通过上下文另有指示,否则“或”是包括一切的而非排他性的。因此在本文,除非另有明确指示或通过上下文另有指示,否则“A或B”意指“A、B或两者”。此外,除非另有明确指示或通过上下文另有指示,否则“和”既是联合的又是各自的。因此在本文,除非另有明确指示或通过上下文另有指示,否则“A和B”意指“A和B,联合地或各自地”。
本公开的范围包括本领域中的普通技术人员将理解的对本文描述或示出的示例实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于本文描述或示出的示例实施例。此外,尽管本公开将本文的相应实施例描述并示为包括特定的组件、元件、特征、功能、操作或步骤,但是这些实施例中的任何一个可以包括本领域中的普通技术人员将理解的在本文任何地方描述或示出的任何组件、元件、特征、功能、操作或步骤的任何组合或置换。此外,在所附权利要求中对适合于、被布置成、能够、被配置成、实现来、可操作来、或操作来执行特定功能的装置或系统或装置或系统的组件的引用包括该装置、系统、组件,无论它或那个特定功能是否被激活、开启或解锁,只要该装置、系统或组件是这样被调整、被布置、使能够、被配置、被实现、可操作的、或操作的。此外,尽管本公开将特定实施例描述或示为提供特定优点,但是特定实施例可以提供这些优点中的一些、全部或不提供这些优点。

Claims (35)

1.一种方法,包括:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
2.根据权利要求1所述的方法,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
3.根据权利要求1所述的方法,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。
4.根据权利要求3所述的方法,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
5.根据权利要求1所述的方法,还包括基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
6.根据权利要求1所述的方法,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。
7.根据权利要求1所述的方法,其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。
8.一个或更多个计算机可读非暂时性存储介质,其体现软件,所述软件在被执行时可操作来:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
9.根据权利要求8所述的介质,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
10.根据权利要求8所述的介质,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。
11.根据权利要求10所述的介质,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
12.根据权利要求8所述的介质,其中,所述软件在被执行时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
13.根据权利要求8所述的介质,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。
14.根据权利要求8所述的介质,其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。
15.一种系统,包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个所述处理器,并且包括指令,所述指令当由一个或更多个所述处理器执行时可操作来使所述系统:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
16.根据权利要求15所述的系统,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
17.根据权利要求15所述的系统,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。
18.根据权利要求17所述的系统,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
19.根据权利要求15所述的系统,其中,所述处理器在执行所述指令时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
20.根据权利要求15所述的系统,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。
21.一种方法,包括:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
22.根据权利要求21所述的方法,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
23.根据权利要求21或22所述的方法,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力;
可选地,其中所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
24.根据权利要求21至23中任一项所述的方法,还包括基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
25.根据权利要求21至24中任一项所述的方法,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令;和/或
其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。
26.一个或更多个计算机可读非暂时性存储介质,其体现软件,所述软件在被执行时可操作来:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
27.根据权利要求26所述的介质,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
28.根据权利要求26或27所述的介质,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力;
可选地,其中所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
29.根据权利要求26至28中任一项所述的介质,其中,所述软件在被执行时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
30.根据权利要求26至29中任一项所述的介质,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令;和/或
其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。
31.一种系统,包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个所述处理器,并且包括指令,所述指令当由一个或更多个所述处理器执行时可操作来使所述系统:
访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;
基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;
基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和
向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。
32.根据权利要求31所述的系统,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:
所述环境中的一面或更多面墙中的每一面墙的位置;
所述环境中的一个或更多个门中的每一个门的位置;
所述环境的类别;和
所述环境中的一个或更多个对象中的每一个对象的位置。
33.根据权利要求31或32所述的系统,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:
所述当前音频-视频通信会话的参与度度量;和
所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力;
可选地,其中所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。
34.根据权利要求31至33中任一项所述的系统,其中,所述处理器在执行所述指令时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。
35.根据权利要求31至34中任一项所述的系统,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令,和/或
其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。
CN201980039417.XA 2018-04-10 2019-04-09 一种涉及视频会议的方法、系统及存储介质 Active CN112292866B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862655751P 2018-04-10 2018-04-10
US62/655,751 2018-04-10
US16/153,613 US10659731B2 (en) 2018-04-10 2018-10-05 Automated cinematic decisions based on descriptive models
US16/153,613 2018-10-05
PCT/US2019/026685 WO2019199905A1 (en) 2018-04-10 2019-04-09 Automated decisions based on descriptive models

Publications (2)

Publication Number Publication Date
CN112292866A true CN112292866A (zh) 2021-01-29
CN112292866B CN112292866B (zh) 2022-11-15

Family

ID=68097256

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201980039430.5A Pending CN112335256A (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策
CN201980039140.0A Pending CN112272954A (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策
CN201980039417.XA Active CN112292866B (zh) 2018-04-10 2019-04-09 一种涉及视频会议的方法、系统及存储介质
CN201980039429.2A Active CN112292865B (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策的方法和系统

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201980039430.5A Pending CN112335256A (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策
CN201980039140.0A Pending CN112272954A (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201980039429.2A Active CN112292865B (zh) 2018-04-10 2019-04-09 基于描述性模型的自动决策的方法和系统

Country Status (6)

Country Link
US (4) US10511808B2 (zh)
EP (4) EP3777217A1 (zh)
JP (1) JP2021518593A (zh)
KR (1) KR102630902B1 (zh)
CN (4) CN112335256A (zh)
WO (4) WO2019199890A1 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110022454B (zh) * 2018-01-10 2021-02-23 华为技术有限公司 一种在视频会议中识别身份的方法及相关设备
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11010436B1 (en) 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
FR3080926B1 (fr) * 2018-05-04 2020-04-24 Spoon Procede de commande d'une pluralite d'effecteurs d'un robot
US10554931B1 (en) * 2018-10-01 2020-02-04 At&T Intellectual Property I, L.P. Method and apparatus for contextual inclusion of objects in a conference
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
US11341186B2 (en) * 2019-06-19 2022-05-24 International Business Machines Corporation Cognitive video and audio search aggregation
JP7358116B2 (ja) * 2019-08-21 2023-10-10 キヤノン株式会社 撮像装置、制御装置、プログラム、記憶媒体及び制御方法
US11861674B1 (en) 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
CN111147740B (zh) * 2019-12-27 2021-07-13 青岛海信智慧家居系统股份有限公司 一种控制智能摄像头的方法及装置
US11159767B1 (en) 2020-04-07 2021-10-26 Facebook Technologies, Llc Proactive in-call content recommendations for assistant systems
CN111556277B (zh) * 2020-05-19 2022-07-26 安徽听见科技有限公司 视频会议参会人标识处理方法、装置、设备及存储介质
US11367306B1 (en) * 2020-06-23 2022-06-21 Amazon Technologies, Inc. System to determine user engagement with autonomous mobile device
US11658835B2 (en) 2020-06-29 2023-05-23 Meta Platforms, Inc. Using a single request for multi-person calling in assistant systems
CN111739168B (zh) * 2020-06-30 2021-01-29 华东交通大学 一种样本相似度抑制的大尺度三维人脸合成方法
CN114245000A (zh) * 2020-09-09 2022-03-25 北京小米移动软件有限公司 拍摄方法和装置、电子设备、存储介质
US11580832B2 (en) * 2020-10-23 2023-02-14 Himax Technologies Limited Motion detection system and method
TWI751866B (zh) 2020-12-29 2022-01-01 仁寶電腦工業股份有限公司 影音通訊系統及其控制方法
US11563706B2 (en) 2020-12-29 2023-01-24 Meta Platforms, Inc. Generating context-aware rendering of media contents for assistant systems
US11809480B1 (en) 2020-12-31 2023-11-07 Meta Platforms, Inc. Generating dynamic knowledge graph of media contents for assistant systems
US11417061B1 (en) * 2021-01-27 2022-08-16 Amazon Technologies, Inc. Three-dimensional mesh generation
CN112801020B (zh) * 2021-02-09 2022-10-14 福州大学 基于背景灰度化的行人再识别方法及系统
US12118790B2 (en) 2021-04-21 2024-10-15 Meta Platforms, Inc. Auto-capture of interesting moments by assistant systems
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
US12100164B2 (en) * 2021-06-07 2024-09-24 VergeSense, Inc. Methods and system for object path detection in a workplace
US11900678B2 (en) * 2021-06-08 2024-02-13 Patricia Hall System for tracking, locating and calculating the position of an object in a game involving moving objects
US11707663B1 (en) * 2021-06-08 2023-07-25 Matthew Hall System for tracking, locating and predicting the position of a ball in a game of baseball or similar
CN116092174A (zh) * 2021-10-31 2023-05-09 鸿富锦精密电子(烟台)有限公司 姿势识别方法、设备及存储介质
US12045568B1 (en) 2021-11-12 2024-07-23 Meta Platforms, Inc. Span pointer networks for non-autoregressive task-oriented semantic parsing for assistant systems
US11770422B2 (en) 2021-12-18 2023-09-26 Zoom Video Communications, Inc. Real-time engagement analytics for communication sessions
US12041347B2 (en) * 2022-02-23 2024-07-16 Huddly As Autonomous video conferencing system with virtual director assistance
WO2023186301A1 (en) * 2022-03-30 2023-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods therein, in a communications network
US20240257553A1 (en) * 2023-01-27 2024-08-01 Huddly As Systems and methods for correlating individuals across outputs of a multi-camera system and framing interactions between meeting participants
US11983329B1 (en) 2022-12-05 2024-05-14 Meta Platforms, Inc. Detecting head gestures using inertial measurement unit signals
US12112001B1 (en) 2023-03-14 2024-10-08 Meta Platforms, Inc. Preventing false activations based on don/doff detection for assistant systems

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072332A (zh) * 2007-06-04 2007-11-14 深圳市融合视讯科技有限公司 一种自动跟踪活动目标进行拍摄的方法
US20110181683A1 (en) * 2010-01-25 2011-07-28 Nam Sangwu Video communication method and digital television using the same
CN102625077A (zh) * 2011-01-27 2012-08-01 深圳市合智创盈电子有限公司 一种会议记录方法、会议摄像装置、客户机及系统
US20120281057A1 (en) * 2011-05-03 2012-11-08 Mitel Networks Corporation Collaboration appliance and methods thereof
US20140132638A1 (en) * 2012-11-14 2014-05-15 Michael Matas Image Panning and Zooming Effect
CN105812717A (zh) * 2016-04-21 2016-07-27 邦彦技术股份有限公司 多媒体会议控制方法及服务器
EP3063730A1 (en) * 2013-09-18 2016-09-07 Intel Corporation Automated image cropping and sharing
US20160308920A1 (en) * 2015-04-16 2016-10-20 Microsoft Technology Licensing, Llc Visual Configuration for Communication Session Participants
US20170337692A1 (en) * 2015-01-27 2017-11-23 Apical Ltd Method, system and computer program product for automatically altering a video stream

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS504876B1 (zh) * 1970-02-26 1975-02-25
US5845009A (en) 1997-03-21 1998-12-01 Autodesk, Inc. Object tracking system using statistical modeling and geometric relationship
AU6265499A (en) 1998-09-24 2000-04-10 Trustees Of Columbia University In The City Of New York, The System and method for semantic video object segmentation
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US20020176001A1 (en) * 2001-05-11 2002-11-28 Miroslav Trajkovic Object tracking based on color distribution
US20030007703A1 (en) * 2001-07-03 2003-01-09 Roylance Eugene A. Configurable image processing logic for use in image processing devices
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US20050248584A1 (en) * 2004-05-10 2005-11-10 Koji Takeo Imaging system and image processing apparatus
US10078693B2 (en) * 2006-06-16 2018-09-18 International Business Machines Corporation People searches by multisensor event correlation
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
CN100531373C (zh) * 2007-06-05 2009-08-19 西安理工大学 基于双摄像头联动结构的视频运动目标特写跟踪监视方法
JP2009141555A (ja) * 2007-12-05 2009-06-25 Fujifilm Corp 音声入力機能付き撮像装置及びその音声記録方法
JP5004876B2 (ja) * 2008-06-03 2012-08-22 キヤノン株式会社 撮像装置
TWI382762B (zh) * 2008-11-17 2013-01-11 Ind Tech Res Inst 移動物體的追蹤方法
KR20110128322A (ko) * 2009-03-03 2011-11-29 디지맥 코포레이션 공공 디스플레이들로부터의 내로우캐스팅과, 관련 처리방식들
US9013750B2 (en) * 2009-06-25 2015-04-21 Canon Kabushiki Kaisha Image processing for processing image data in correspondence with each pixel of an image
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8819172B2 (en) * 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8864581B2 (en) * 2010-01-29 2014-10-21 Microsoft Corporation Visual based identitiy tracking
US20110211737A1 (en) * 2010-03-01 2011-09-01 Microsoft Corporation Event Matching in Social Networks
US8660355B2 (en) * 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
US8523667B2 (en) * 2010-03-29 2013-09-03 Microsoft Corporation Parental control settings based on body dimensions
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
KR101355974B1 (ko) * 2010-08-24 2014-01-29 한국전자통신연구원 복수의 객체를 추적하는 객체 추적 방법 및 장치
US8884980B2 (en) * 2010-09-24 2014-11-11 Taaz, Inc. System and method for changing hair color in digital images
US9355305B2 (en) 2010-10-08 2016-05-31 Panasonic Corporation Posture estimation device and posture estimation method
JP5784299B2 (ja) * 2010-11-01 2015-09-24 オリンパス株式会社 データ処理装置および画像処理装置
US9153031B2 (en) 2011-06-22 2015-10-06 Microsoft Technology Licensing, Llc Modifying video regions using mobile device input
US8773499B2 (en) * 2011-06-24 2014-07-08 Microsoft Corporation Automatic video framing
CN102436662B (zh) * 2011-11-29 2013-07-03 南京信息工程大学 一种非重叠视域多摄像机网络中的人体目标跟踪方法
US20130169742A1 (en) * 2011-12-28 2013-07-04 Google Inc. Video conferencing with unlimited dynamic active participants
CN102609684B (zh) * 2012-01-16 2013-12-18 宁波江丰生物信息技术有限公司 人体姿势检测方法及装置
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
JP6028453B2 (ja) * 2012-08-24 2016-11-16 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
US8890923B2 (en) * 2012-09-04 2014-11-18 Cisco Technology, Inc. Generating and rendering synthesized views with multiple video streams in telepresence video conference sessions
CN105357575A (zh) * 2014-08-20 2016-02-24 中兴通讯股份有限公司 一种视频图像处理装置和方法
US9350924B2 (en) * 2014-08-25 2016-05-24 John G. Posa Portable electronic devices with integrated image/video compositing
EP3195201A4 (en) 2014-08-28 2018-01-10 Qualcomm Incorporated Temporal saliency map
CN105554595A (zh) * 2014-10-28 2016-05-04 上海足源科技发展有限公司 一种视频摘要智能提取与分析系统
US9584763B2 (en) * 2014-11-06 2017-02-28 Cisco Technology, Inc. Automatic switching between dynamic and preset camera views in a video conference endpoint
CA2874715C (en) * 2014-12-15 2022-03-15 Ibm Canada Limited - Ibm Canada Limitee Dynamic video and sound adjustment in a video conference
US20160182814A1 (en) * 2014-12-19 2016-06-23 Microsoft Technology Licensing, Llc Automatic camera adjustment to follow a target
CN104573652B (zh) * 2015-01-04 2017-12-22 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
JP6589321B2 (ja) * 2015-03-24 2019-10-16 富士通株式会社 システム、検索方法およびプログラム
US10139790B2 (en) * 2015-06-10 2018-11-27 Vivint, Inc. Powered faceplate integration
JP6580380B2 (ja) * 2015-06-12 2019-09-25 オリンパス株式会社 画像処理装置および画像処理方法
US9973711B2 (en) * 2015-06-29 2018-05-15 Amazon Technologies, Inc. Content-based zooming and panning for video curation
WO2017143392A1 (en) * 2016-02-22 2017-08-31 GenMe Inc. A video background replacement system
CN105933650A (zh) * 2016-04-25 2016-09-07 北京旷视科技有限公司 视频监控系统及方法
US10075672B2 (en) * 2016-12-20 2018-09-11 Facebook, Inc. Optimizing video conferencing using contextual information
US9942518B1 (en) * 2017-02-28 2018-04-10 Cisco Technology, Inc. Group and conversational framing for speaker tracking in a video conference system
CN106951868B (zh) * 2017-03-22 2018-08-24 海南职业技术学院 一种基于身形特征的步态识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072332A (zh) * 2007-06-04 2007-11-14 深圳市融合视讯科技有限公司 一种自动跟踪活动目标进行拍摄的方法
US20110181683A1 (en) * 2010-01-25 2011-07-28 Nam Sangwu Video communication method and digital television using the same
CN102625077A (zh) * 2011-01-27 2012-08-01 深圳市合智创盈电子有限公司 一种会议记录方法、会议摄像装置、客户机及系统
US20120281057A1 (en) * 2011-05-03 2012-11-08 Mitel Networks Corporation Collaboration appliance and methods thereof
US20140132638A1 (en) * 2012-11-14 2014-05-15 Michael Matas Image Panning and Zooming Effect
EP3063730A1 (en) * 2013-09-18 2016-09-07 Intel Corporation Automated image cropping and sharing
US20170337692A1 (en) * 2015-01-27 2017-11-23 Apical Ltd Method, system and computer program product for automatically altering a video stream
US20160308920A1 (en) * 2015-04-16 2016-10-20 Microsoft Technology Licensing, Llc Visual Configuration for Communication Session Participants
CN105812717A (zh) * 2016-04-21 2016-07-27 邦彦技术股份有限公司 多媒体会议控制方法及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵熙等: "基于双麦克风声源定位的视频跟踪", 《现代电子技术》 *

Also Published As

Publication number Publication date
EP3777213A1 (en) 2021-02-17
US20190313013A1 (en) 2019-10-10
US20190313058A1 (en) 2019-10-10
US10523864B2 (en) 2019-12-31
US10659731B2 (en) 2020-05-19
EP3777216A1 (en) 2021-02-17
WO2019199902A1 (en) 2019-10-17
WO2019199904A1 (en) 2019-10-17
CN112292865A (zh) 2021-01-29
WO2019199905A1 (en) 2019-10-17
EP3777217A1 (en) 2021-02-17
JP2021518593A (ja) 2021-08-02
CN112292866B (zh) 2022-11-15
WO2019199890A1 (en) 2019-10-17
CN112335256A (zh) 2021-02-05
US10979669B2 (en) 2021-04-13
US20190313056A1 (en) 2019-10-10
KR20200143435A (ko) 2020-12-23
CN112272954A (zh) 2021-01-26
US10511808B2 (en) 2019-12-17
KR102630902B1 (ko) 2024-02-01
EP3777214A1 (en) 2021-02-17
CN112292865B (zh) 2023-05-26
US20190311480A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
CN112292866B (zh) 一种涉及视频会议的方法、系统及存储介质
US10838689B2 (en) Audio selection based on user engagement
US10719989B2 (en) Suggestion of content within augmented-reality environments
CN112639682A (zh) 在增强现实环境中的多设备地图构建和协作
US10425579B2 (en) Social camera for auto group selfies
US11647147B2 (en) User-specific customization of video conferences using multimodal biometric characterization
US20220345537A1 (en) Systems and Methods for Providing User Experiences on AR/VR Systems
US20190208115A1 (en) Identifying User Intent for Auto Selfies
CN113544633A (zh) 用于改善交互和协作的虚拟空间、混合现实空间和组合的混合现实空间
US11172189B1 (en) User detection for projection-based augmented reality system
US11006097B1 (en) Modeling for projection-based augmented reality system
US20240233363A9 (en) High accuracy people identification over time by leveraging re-identification
US20180287980A1 (en) Systems and Methods for Blocking Content Redistribution
US11196985B1 (en) Surface adaptation for projection-based augmented reality system
US11070792B1 (en) Surface selection for projection-based augmented reality system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: Yuan platform Co.

Address before: California, USA

Applicant before: Facebook, Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant