CN114631323A - 区划适应性视频生成 - Google Patents

区划适应性视频生成 Download PDF

Info

Publication number
CN114631323A
CN114631323A CN201980101989.6A CN201980101989A CN114631323A CN 114631323 A CN114631323 A CN 114631323A CN 201980101989 A CN201980101989 A CN 201980101989A CN 114631323 A CN114631323 A CN 114631323A
Authority
CN
China
Prior art keywords
presenter
zone
camera
environment
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980101989.6A
Other languages
English (en)
Inventor
J·R·G·斯洛瓦克
S·杰恩
S·J·R·道威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barco NV
Original Assignee
Barco NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barco NV filed Critical Barco NV
Publication of CN114631323A publication Critical patent/CN114631323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2665Gathering content from different sources, e.g. Internet and satellite
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种用于自动地生成呈现的输出视频的系统和方法,该呈现由至少一个呈现者给出、包括所显示内容并在环境中执行,该系统包括:多个区划,其被限定在该环境内;至少一个摄影机,其中该摄影机被配置成捕获由该环境中的该呈现者给出的该呈现的影像帧;用于检测该至少一个呈现者何时改变区划的装置;配置,其将拍摄参数的集合与每个区划相关联,该拍摄参数的集合用于在该至少一个呈现者在该区划中时控制该至少一个摄影机,其中该系统被进一步配置成当该至少一个呈现者改变区划时,基于与该至少一个呈现者所在的该区划相关联的该配置改变这些拍摄参数,以便使用不同拍摄参数提供输出视频至用户。

Description

区划适应性视频生成
发明领域
本公开涉集一种用于自动地生成由至少一个呈现者给出的呈现的输出视频的系统和方法。
发明背景
高端呈现(例如,公司业绩、科学会议上的主题发言、政治事件)常常被捕获并串流传输至远程观众。归因于其重要性,此类事件通常由在场景之后的由摄影机操作者以及视频导演(除其他人外)组成的技术组员执行。摄影机操作者应用(例如,呈现者、内容、观众的)适当成帧而视频导演决定摄影机中的哪一者应被发送至被串流传输出至远程观众的输出视频混合。明显地,这些角色中的一些可被组合于一个人。最终目标是在同时观察最重要信息时生成在美观性上合意的视频混合。然而,使在场景之后的一个或多个操作者控制摄影机并执行从一个摄影机至其他摄影机的切换是昂贵的且不会缩放至更低端呈现(例如,在会议、演讲/远程教示…处的专题讨论环节(break-out session))。
低端呈现/演讲通常在无技术组员支持情况下被捕获并串流传输/记录。作为结果,这些视频通常是静态的,由单一摄影机从预期最有意义的视角捕获。这导致较少动态/参与体验,并且在一些情形中不良呈现者成帧以及不良内容可视性(例如,难以读取白板上的图画或书写)。这可干扰远程用户/观众,并且对于演讲呈现,远程用户可能错过大量重要信息。
已进行自动地捕获此类呈现的尝试。然而,虽然人类操作者完全理解场景,但对于计算机,仍常常缺乏这种理解水平。作为结果,系统可能未必总是聚焦于场景中的正确的人(例如,其可能混淆公告或显示器上可视化的随机的人),其可以可视化背景中的杂乱等。
因此存在对该技术的改良的需求。
发明概要
为了克服先前技术的问题,因此提供一种用于自动地生成呈现的输出视频的系统,该呈现由至少一个呈现者给出、包括所显示内容并在环境中执行,该系统包括:多个区划,其被限定在环境内;至少一个摄影机,其中该摄影机被配置成捕获由环境中的呈现者给出的呈现的影像帧;用于检测至少一个呈现者何时改变区划的装置;配置,其将拍摄参数的集合与每个区划相关联,该拍摄参数的集合用于在该至少一个呈现者在该区划中时控制该至少一个摄影机,其中该系统被进一步配置成当该至少一个呈现者改变区划时,基于与该至少一个呈现者所在的区划相关联的配置改变拍摄参数,以便使用不同拍摄参数提供输出视频至用户。
系统自动地生成所需输出,而不需要具有控制摄影机的一群人。用户始终使用最佳拍摄参数可视化最适当内容。
有利地,拍摄参数包括用于控制摄影机的设定或其还可确定在一定时间量内,摄影机X是活跃的,随后在N秒之后,摄影机Y变为是活跃的等。
因此,输出视频将不断地改变,这确保观看者在观看输出视频的同时保持警觉和感兴趣。
拍摄参数还可确定呈现者应在影像中何处,且拍摄场景的摄影机自动地调整自身以通过改变其PTZ参数提供呈现者的最佳镜头。拍摄参数随后还将确定可随摄影机的缩放参数改变的场大小(长镜头、全镜头、中镜头、特写等)以及摄影机角度(通过改变PTZ摄影机的平移或倾斜移动)。
因此,观看者将始终体验最适当输出视频。
有利地,该配置进一步将输出布局与每个区划相关联,其中输出布局确定包括与该区划相关联的至少一个摄影机所捕获的影像帧中的至少一者的输出视频与所显示内容的组成,并且其中系统被进一步配置成当至少一个呈现者改变区划时,基于与该呈现者所在的区划相关联的配置改变输出布局,以便生成具有不同输出布局的输出视频。
当至少一个呈现者改变区划时输出布局自动地改变,这确保观看者始终看到有用内容以改良用户体验。当呈现者例如进入膝上型计算机区划时,膝上型计算机的内容可与在膝上型计算机之后的呈现者一起示出。
此类系统具有以下优点:
-系统稳定性:即使系统检测到公告/显示器/…上或在场景之后的人,但通过限定区划,仅仅在区划中的人将被认为重要的。
-可预测性:教师确定当靠近膝上型计算机或白板时,学生将始终对讨论的内容具有良好视野。必要时,区划可被物理地标记在地面上以及用于教师的视觉辅助。
-简单性:不需要附加传感器(例如,深度摄影机、蓝牙传感器…),这是由于系统正使用也用于可视化的摄影机。
-该系统还可替换静态系统(以提供更多动态)或由人指导的系统(以减少劳动/成本的投入)。
优选地,该配置进一步使与一个或多个呈现者相关联的限定用于每个区划的拍摄参数和/或输出布局的优先排序规则的集合相关联。
当多个呈现者正给出呈现时,系统需要了解如何拍摄多个呈现者,以及哪个呈现者得到优先权。该优先权可基于呈现者所在的区划。
优选地,用于检测至少一个呈现者何时改变区划的装置包括用于检测至少一个人的装置以及用于检测至少一个呈现者在所给出的影像帧处在哪个区划中的装置。
这是检测呈现者何时改变区划的可靠方式。
有利地,所给出的影像帧对应于以间隔(优选为规则间隔)获取的多个影像帧中的影像帧,间隔优选地对应于摄影机的获取速率的倍数。
通过例如仅仅分析2至10每秒帧数,计算负载减少,同时当呈现者改变区划时系统仍充分快速反应。
优选地,区划是二维的,优选为多边形。
多边形容易绘制。当系统知晓环境的几何结构时多边形可使用绘制工具而且自动地来绘制。
甚至更优选地,区划是三维的,优选为多面体。
使用三维区划进一步具有其可被较佳地映射至真实世界(其为3D)中的对应区划(例如,地面区)的优点。在地面归因于诸如椅子的障碍物而在所获取影像中不可见的情形中,系统仍能够确定呈现者是否在区划中。
有利地,系统包括至少两个区划,其中一者为被限定在所显示内容附近的白板区划,而一者为被限定在环境的其余部分中的主要区划。
该设定是反映呈现的最自然设定。
优点是系统进一步包括被限定在呈现者的膝上型计算机附近的膝上型计算机区划。
优选地,至少一个摄影机的组合的视场一直包括整个环境。
这确保所有摄影机的组合始终监视整个环境,且因此确保其能够检测呈现者何时改变区划。
优选地,系统包括两个摄影机,其中一者被配置成提供白板区划中的呈现者的视野,而一者被配置成提供主要区划中的呈现者的视野。
这确保至用户的每个区划中的呈现者的最佳视野。
有利地,摄影机中的至少一者为PTZ摄影机或网络摄影机等。
甚至更优选地,至少两个摄影机为PTZ摄影机,而第三摄影机被配置成具有包括环境并用于配置区划的视场。
使用PTZ摄影机具有以下优点:摄影机的各个自由度(诸如平移、倾斜和缩放)可被容易地控制。
优点是使用配置执行区划的配置。优选地,配置为配置界面。
优选地,系统被配置成用于实时串流传输和/或用于记录。
用户可实时观看输出视频串流,或用户脱机存取视频也是可能的。
有利地,输出视频串流通过因特网实时发送至远程用户。
优选地,系统进一步包括用于与远程观看者通信的装置,以及被配置成示出实时辅助呈现的远程观看者的至少一个监视器。
远程用户籍此可实时辅助呈现且甚至与如在真实教室、呈现环境或会议中的至少一个呈现者互动。
优点是在环境中进一步提供麦克风和/或扩音器。例如,这使得用户能够在呈现期间问问题并从至少一个呈现者直接得到答案。
还提供一种用于自动地生成呈现的输出视频的方法,该呈现由至少一个呈现者给出、包括所显示内容并在具有至少一个摄影机的环境中执行,该方法包括以下步骤:确定该环境中的多个区划;对于每个区划配置用于在至少一个呈现者在该区划中时控制至少一个摄影机的拍摄参数的集合;使用至少一个摄影机捕获呈现的影像帧;检测至少一个呈现者何时改变环境内的区划;当呈现者改变区划时遵循与至少一个呈现者所在的区划相关联的配置改变拍摄参数,以便使用不同拍摄参数提供输出视频至用户。
该方法确保观看者看到在呈现者在环境内移动时变化的输出视频。最适当设定始终应用于捕获场景且观看者被提供有就好像由一群专业导演捕获的视频。
有利地,该方法进一步包括以下步骤:对于每个区划配置输出布局,其中该输出布局确定包括与区划相关联的摄影机的所捕获影像帧中的至少一者的输出视频与所显示内容的组成;以及当呈现者改变区划时,遵循与至少一个呈现者所在的区划相关联的配置改变输出视频的输出布局,以便提供输出视频以及变化的输出布局至用户。
优点是该输出布局自动地改变,使得用户被提供有具有变化布局的视频就好像人正基于呈现者在环境中何处混合不同影像源,以将最适当内容提供给用户。
优选地,该方法进一步包括确定与多个呈现者中的呈现者相关联的限定用于每个区划的拍摄参数和/或输出布局的优先排序规则的集合的步骤。
这确保系统知晓当多个呈现者在环境中时执行什么。
优选地,区划是二维的,优选为多边形和/或三维的,优选为多面体。
有利地,检测至少一个呈现者何时改变区划的步骤包括以下步骤:检测所给出的影像帧中的至少一个人以及检测该至少一个呈现者在所给出的影像帧中哪个区划中。该方法在确定呈现者何时改变区划时是稳定的,并藉此提供变化至输出视频。
优选地,该方法进一步包括以下步骤:将个人表示为具有多个身体要点的人物线条图,以及提取所检测身体要点的坐标。
有利地,该方法进一步包括比较所检测身体要点的坐标与区划的坐标的步骤。
优选地,该方法进一步包括比较表示脚的身体要点的坐标与区划的坐标,若脚不可用,则比较可用的最低身体要点的坐标与区划的坐标的步骤。
该方法确保呈现者甚至在环境存储器在障碍情况下始终被检测到。
优点是该方法进一步包括追踪至少一个呈现者的步骤。在已检测到呈现者之后,有可能追踪呈现者。
优选地,追踪至少一个呈现者的步骤使用多个摄影机来执行。
还提供用于配置上述系统的用户接口,其中用户接口包括用于在环境中所给出的摄影机视图上绘制多个区划(多边形)的绘制工具;配置文件,该配置文件包括将拍摄规则的集合与每个区划相关联的查找表。
优选地,该配置文件还包括将输出布局与每个区划相关联的查找表。
优选地,该接口进一步包括确定与每个区划的多个呈现者中的呈现者相关联的优先排序规则的集合的配置文件。
还提供一种包括软件的计算机程序产品,该软件在一个或多个处理引擎上执行,以执行上述方法中的任一者。
还提供一种存储该计算机程序产品的非瞬态信号存储介质。
还提供一种用于如上所描述并包括以上非瞬态信号存储介质的系统的控制器。
附图简述
本公开的设备、系统和方法的这些及其他特征、方面和优点将从以下描述、所附权利要求书以及随附图变得更好理解,其中:
图1示出了其中呈现者进行演讲的虚拟教室的设置。
图2示出了与图1中相同的虚拟教室,但具有被限定在环境中的多个区划。
图3示出了与图1和2中相同的虚拟教室,其中呈现者是使用(骨架样)身体要点表示。
图4示出了与在先附图相同的虚拟教室,其中区划是三维的。
图5示出了具有输出布局的输出视频的帧,该输出布局具有膝上型计算机区划中的用户的视图以及在白板上示出的数字内容。
图6示出了示出白板之前的呈现者的输出视频的帧。
图7示出了解说当呈现者进入膝上型计算机区划时系统如何操作的流程图。
实施方式
用于描述特定实施例的术语并非旨在限定本发明。如本文中所使用,除非上下文另有清楚地指示,否则单数形式“一”和“该”意欲也包括复数形式。术语“和/或”包括相关所列项目中的一者或多者的任何和所有组合。将理解,术语“包括”和/或“包含”指定所陈述特征的存在,但并不排除一个或多个其他特征的存在或添加。将进一步理解,除非另外规定,否则当方法的特定步骤被称作在另一步骤之后时,该步骤可直接在该另一步骤之后或在进行该特定步骤之前可进行一个或多个中间步骤。同样地,将理解,除非另外规定,否则当描述结构或组件之间的连接时,可直接或通过中间结构或组件建立该连接。
将关于特定实施例并参考某些附图描述本发明但本发明不限于此但仅仅由权利要求书限制。所描述的附图仅为示意性的且为非限制性的。在附图中,一些组件的大小可能出于解说性的目的而被夸大的且未按比例绘制。当术语“包括”用于本申请说明书及权利要求书时,不排除其他要素或步骤。
此外,说明书和权利要求书中的术语第一、第二、第三及其类似术语用于区别类似要素且未描述顺序或时间次序。应理解,如此使用的术语在适当情况下可互换,且本文所描述的本发明的实施例能够以本文所描述或解说的顺序之外的其他顺序操作。
术语“约”或“近似”及其类似者是同义的且被用来指示由该术语修饰的值具有与其相关联的理解范围,其中该范围可为+20%、+15%、+10%、+5%或+1%。术语“实质上”用于指示结果(例如,测量值)接近于目标值,其中接近可意味着例如结果在值的80%内、值的90%内、值的95%内或值的99%内。
定义:
配置配置为限定每个区划中的系统的行为的参数的集合。配置还可呈配置文件形式。配置可被硬译码在系统中,但其还可由用户定义在用户接口或配置接口上。
所显示内容被显示的内容可为数字(诸如幻灯片)但其还可由非数字白板(或粉笔/黑板)提供。所显示内容还可由实验(诸如由呈现者进行的化学反应或物理实验)提供。
环境环境是由系统将被安装于其中的实体空间中的装置以及基础架构限定。房间的尺寸或实体布局可界定环境,或者摄影机的视场也可界定环境。区划随后被限定在该环境内。基础架构可进一步包括白板。然而,也可能替代白板,在环境内使用化学实验室或实验桌以显示内容(诸如化学反应或物理实验)。
拍摄参数拍摄参数包括用于控制摄影机的设定。这些可遵从某些拍摄规则。对于PTZ摄影机,拍摄参数确定摄影机应使用的哪些PTZ参数。拍摄参数可进一步确定在一定时间量内,摄影机X是活跃的,随后在N秒之后,摄影机Y变为是活跃的等。拍摄参数还可确定呈现者应在影像中何处,且拍摄场景的摄影机自动地调整自身以由改变其PTZ参数提供呈现者的最佳镜头。拍摄参数随后还将确定可随摄影机的缩放参数改变的场大小(长镜头、全镜头、中镜头、特写等)以及摄影机角度(由改变PTZ摄影机的平移或倾斜移动)。自动追踪还可被视为拍摄参数且当呈现者在某一区划中时被启动。
拍摄规则用于捕获场景并生成在美观性上合意的视频混合的艺术实践的集合。举例而言,摄影的典型最佳实践是用于确定将影像中的对象/人定位于何处的三分律的使用。拍摄规则可使用拍摄参数实施于系统中。
原始位置原始位置对应于在摄影机不活跃时摄影机所在的位置。其还可对应于其中摄影机中的至少一者用于设置系统(诸如限定区划)的默认位置。
输出视频输出视频为从系统输出并向用户示出的视频。输出视频因此为一序列帧,其中这些帧示出由至少一个摄影机捕获的影像帧(潜在在不同缩放层级之间不同)中的至少一者以及所显示内容。输出视频可示出于实时串流传输中或可被记录以供后续使用,或两者。
输出布局输出布局确定包括由至少一个摄影机捕获的影像帧中的至少一者的每个输出视频帧与所显示内容的组成。
呈现呈现可为任何类型的呈现,诸如教学呈现/演讲、公司呈现、会议呈现、会议呈现等。还可进一步包括诸如化学反应或物理实验等的实验的呈现。
优先排序规则当多个呈现者在环境中时,系统被配置成能够追踪所有呈现者。然而,系统应了解在哪个呈现者在哪个情形中示出。因此,优先排序规则的集合可被附加地限定在系统的配置中,以便确定哪个呈现者应示出在输出视频帧中以及使用哪些拍摄参数和/或使用哪个输出布局。
PTZ摄影机能够通常通过机械(平移和倾斜)以及光学(缩放)调整进行P(平移)、T(倾斜)以及Z(缩放)的摄影机。
用户接口或配置接口用户接口为其中用户可插入或修改确定不同区划中的系统的行为的参数的接口。举例而言,还可包括用于在摄影机视图上绘制区划的绘制工具。
虚拟教室学生远程地(例如因特网)参加演讲所在的教示环境。教师通常在经特定设计的房间中以促进远程教示(例如,使所有学生可视化的显示器,以及诸如数字白板的演讲相关基础架构)。
白板白板在整个应用程序中被限定为可示出非数字内容或数字内容的显示器。对于非数字内容,呈现者甚至可使用黑板与粉笔或白板与白板标志器以呈现内容。当显示数字内容时,白板可由监视器或TV屏幕(LCD、(O)LED、电浆等)、较大触控屏幕(20至108")提供,或甚至可由数字内容由投射器投射于其上的白色墙壁或白色屏幕提供。
区划区划为被限定在环境内的区。当摄影机在其原始位置中时,优选地使用重迭于摄影机影像上的绘制工具来限定。区划优选为多边形。区划还可为三维的,在该情形中区划是多面体。对于每个区划,系统就拍摄参数和混合而言具有不同行为。系统行为可预定义于配置文件或用户接口中。
参考附图,本发明更充分地描述于下文中,其中示出本发明的实施例。在附图中,可能为了清楚起见而夸大系统、组件、层和区的绝对和相对大小。可参考本发明的可能理想化实施例和中间结构的示意性和/或横截面图解来描述实施例。在描述和附图中,通篇类似数字指类似组件。相对术语及其衍生词应被视为指如随后描述或示出于以下讨论中的附图中的定向。这些相对术语是为了便于描述且除非另外陈述,否则不需要以特定定向来建构或操作系统。
图1解说呈现在环境100中的显示器120上示出的内容的呈现者110。至少一个摄影机131、132、133被配置成捕获环境100中的呈现。呈现的内容可在呈现期间由呈现者概述于(非数字)白板上,或可用数字方式提供于较大显示器上。举例而言,显示器可为大监视器或TV屏幕(LCD、等离子、(O)LED),或甚至可主控不同应用程序的大触控屏幕。这些应用程序中的一者为白板app。另一应用程序可为PowerPointTM以示出幻灯片。还有可能投射幻灯片于墙壁或投射屏幕上。在该情形中,呈现者可使用膝上型计算机140以示出白板120上的呈现的内容。
呈现可在演讲、会议、网络研讨会、公司会议等的框架中给出。呈现可被记录以供未来使用,或可为实时串流。若其为实时串流,则远程的多个观看者可虚拟参加呈现。多个观看者还可看起来在虚拟教室中在多个监视器170上并与呈现者互动。在环境中还可存在多于一个呈现者。
为了向观看者提供实时串流的最佳用户体验或用于记录,至少一个摄影机131、132、133被配置成捕获呈现,使得使用适于场景的摄影机设定来捕获最适当内容。因此,一方面,系统不仅通过选择最适当摄影机和最适当成帧提供自动捕获系统,而且系统还通过选择最适当布局提供输出视频的实时混合。
因此,多个区划150被限定在环境100内。为提供虚拟导演能力和自动蒙太奇(混合)两者,对于每个区划,定义摄影机设定的不同行为和/或输出视频帧的输出布局。
图2示出包括三个区划151、152和153的环境150的实例。图2的环境包括主要区划151、膝上型计算机区划152和白板区划153。取决于呈现者所在的区划,视频帧的摄影机设定和/或输出布局被适配以向用户/观看者提供最适当布局和视图。
在例如主要区划151中,呈现者可正移动并提供解释。在该情形中,至少一个摄影机可被配置成提供呈现者的总视图。为了保持观看者的注意,还可由一序列摄影机捕获场景,即每隔几秒不同摄影机被用来向用户提供不同视图(例如,具有不同缩放)以添加一些动态并增加观看者参与度。
在膝上型计算机区划152中,呈现者可例如改变幻灯片,或呈现者还可直接编辑内容(例如书写和编译计算机源代码),在该情形中,呈现/膝上型计算机的仅仅数字内容可被示出于输出视频中,或关于呈现者的特写视图与数字内容的组合中。
当呈现者在白板区划153中时,呈现者可绘制并解释直接在白板上的可视元素(例如公式、图表),在该情形中系统可被配置成示出白板和呈现者的特写。若白板为呈现者在上面书写的非数字白板,则当内容另外可不为其很好见到时,观看者可受益于该特写。这还应用于数字白板,且应用于呈现者可直接书写于其上的较大触控屏幕。区划取决于其中实施系统的环境。实际上,其中安装系统的环境取决于所使用基础架构,例如,可能不存在白板但改为化学实验室装置,其中固定摄影机视图需要被触发(类似于上文描述为白板区划的所需特性的内容)。此外,区划的大小将取决于实体空间的尺寸,且具体而言为房间架构。
因此,用户可根据环境而且根据他的偏好配置不同区划。作为配置接口的部分,例如可提供绘制工具。该绘制工具允许在环境的给定摄影机视图上绘制一个或多个区或区划。优选地,区是多边形,这是因为其更易于绘制以及限定环境内的此类形状,然而任何形状是可能的。
举例而言,使用区划具有在显示器、公告上或背景中示出的人可由系统忽略的益处。使用区划还具有使得系统能够支持多个呈现者的益处。
区划也可是三维的,在该情形中区划限定空间容积,即追踪区。使用三维区划情况下,系统变得甚至更稳定。也可使用身体要点,且附加类型镜头(即“多人”镜头(诸如中镜头或特写))可被限定在“拍摄规则”的集合中。举例而言,该镜头可例如将最左边人置放于宽度的1/3处并将最右边人置放于2/3处。其他“拍摄规则”当然也可被用作限定多人镜头。使用三维区划还具有其可进一步将追踪限于仅仅该区(并避免示出不应示出的区划,例如,背景干扰)的益处。使用三维区划进一步具有其提供较佳映射至三维世界的优点。举例而言,区划可描述真实世界中的地面区,或容积(例如当地面由于视野中的桌、椅或其他对象而不完全可见时)。为了限定三维区划,可使用定义可发现真实世界中的每个点所在之处的三维坐标系统。在其被限定且已知摄影机的视角(和潜在其他特性)后,有可能“投射”真实世界中的三维区划至(二维)摄影机影像中的像素。因此,环境可首先映射至三维坐标空间(其中用户可限定区划)中。不需要具有环境的完美3D模型且可执行中间近似。随后,其可被附加地映射至摄影机像素。图4解说延伸至墙壁的3维区划,即空间区。
区划还可由使用影像识别技术(诸如对象检测)自动地绘制。使用本领域技术人员已知的此类技术,可自动地识别膝上型计算机,还可自动地识别白板。使用房间中摄影机和墙壁的位置(其还可被自动地识别),有可能自动地绘制区划。
还有可能使用自动技术以及手动技术两者的组合以绘制环境中的区划。
假设系统包括三个摄影机,其中摄影机131和132具有教师的正视图而摄影机133具有侧视图(与被提供在图上的视图相同的视图),摄影机133还可被用于绘制并配置区划。区的坐标因此为系统知晓。
在图2中,具有教师的正视图的摄影机131、132接近于显示器170而提供,使得观看者170(或学生)具有呈现者110直接观看其的印象,以便改良用户体验。
系统进一步包括用于检测呈现者在哪个区划中的装置。目的是检测呈现者何时改变区划,以便一旦改变发生便改变拍摄参数或输出布局。换言之,目的是确定与先前影像帧相比呈现者是否在不同区划中。
给定现有摄影机的高帧速率情况下,不必分析每个影像帧。举例而言,若视频(由摄影机发送至系统)的帧速率为30每秒帧数,则分析仅仅10每秒帧数或甚至5每秒帧数(或甚至更少)将是足够的。不需要具有由系统分析的每个帧之间的规则区间,但规则帧速率更易于实施。
根据呈现者所在的区划,应用最适当设定。用于检测呈现者在哪个区划中的方式可使用雷达、深度或红外线摄影机通过定位提供。呈现者可穿戴便于定位的标记或设备。还可使用蓝牙/Wi-Fi定位。然而,这些技术中的一些可能不足够准确。此外,需要附加硬件。
因此,也易于使用系统实施的准确方法是对由摄影机中的至少一者获取的影像使用图像处理技术。此类图像处理技术包括个人追踪。(http://witrack.csail.mit.edu/witrack2-paper.pdf,https://pdfs.semanticscholar.org/41fd/50e0461dde3c6dfdae32607ea71de238113c.pdf,https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5713487/)
在图3的实例中,使用用于个人检测的现有技术分析来自摄影机133的视频串流(在该实例中)。使用图像处理技术,个人被表示为具有多个身体要点(还称作身体关节)的人物线条图210,如图3中所示。个人210的所检测身体关节的坐标由算法提供。这些坐标可例如以相对于给定摄影机的视频帧的x、y格式表达,其中x为在水平方向上的0与1之间的值且y为在垂直方向上的0与1之间的值。其他表示也是可能的。使用在前一步骤中所限定的多边形区/区划的坐标,以及个人的关节的坐标,有可能确定个人(即呈现者)是否“在区划内部”。
第一,识别呈现者的脚在哪个区划中是有利的。因此,比较呈现者的脚与每个区划的坐标。若摄影机以呈现者的脚不可见的方式安装,则系统可使用由系统检测到的最低身体关节,诸如呈现者的膝部(而非脚)且确定其是否处于多边形区中的一者内。
不同技术可以用于检测2D点是否处于多边形内,例如从以下链接见到:
https://www.tutorialspoint.com/Check-if-a-given-point-lies-inside-a-Polygon
http://alienryderflex.com/polygon/
相同技术适用于三维:
在3D中,首先需要3D中的身体坐标(一些方法存在,诸如https://github.com/CMU-Perceptual-Computing-Lab/openpose)。在提取坐标后,不同技术存在以计算点是否处于三维容积中,诸如以下中所描述:
https://www.mathworks.com/matlabcentral/fileexchange/37856-inpolyhedron-are-points-inside-a-triangulated-volume
优选地,检测呈现者在哪个区划中的装置可被进一步配置成检测多个呈现者。
举例而言,为能够同时追踪多个呈现者,系统可附加地需要能够检测影像帧中的人并找到其在先前影像帧中的对应物。这可通过使用以下各项的教导来执行:
-例如https://towardsdatascience.com/people-tracking-using-deep-learning-5c90d43774,或
-https://towardsdatascience.com/cvpr-2019-efficient-online-multi-person-2d-pose-tracking-with-recurrent-spatio-temporal-affinity-25c4914e5f6
-https://medium.com/datadriveninvestor/multiple-object-tracking-using-person-re-identification-f9b7360cda1a
举例而言,若在来自给定摄影机的先前影像帧中存在2个人,且在当前帧存在3个人,则使用此类追踪能力提供决定这些3个人当中的谁还存在于先前影像帧中(以及何处)的可能性。
先前影像帧不需要为相邻帧但可为“早期的”。举例而言,具有30每秒帧数的视频帧速率的摄影机可以仅仅2每秒帧数的频率分析(换言之,所有其他28每秒帧数并不针对人分析)。
系统的配置可进一步包括参数的集合以在多个呈现者的情形中确定系统特性。作为实例,当两个呈现者在两个不同区划中时,优先权规则的集合可被实施以指示系统的控制,即应使用哪个摄影机,使用哪些参数,哪个呈现者何时在哪个区划中等。举例而言,让我们假定一个人在白板区划中且另一呈现者在主要呈现者区划中。输出布局可含有在白板前方的呈现者的固定镜头(具有良好成帧以使得白板可读)且在使用若另一呈现者在主要呈现者区划中漫步则自动地跟随该呈现者的摄影机情形中含有另一呈现者的中镜头。优先排序的另一实例可为若多于一个人在主要区划中,则例如使其中的全部可视化。举例而言,若个人在不同区划中,则将优先权给予白板区划,随后给予膝上型计算机区划,随后给予主要区划。
因此,举例而言,若两个呈现者在不同区划中,则:
1.区划A中的一个呈现者以及区划B中的一个呈现者->区划A可具有优于区划B的优先权,因此区划A中的呈现者被可视化且另一呈现者并不被可视化。若在区划A中将存在更多呈现者,则其全部被可视化,但区划B中的一者仍未被可视化。
2.另一变体配置可为输出混合示出紧邻区划B中的呈现者的不同镜头的区划A中的所有呈现者的某一镜头。
除了个人检测之外,还有可能提供个人追踪。
举例而言,可使用个人追踪的第一情形是当应用“拍摄规则”时。举例而言,摄影机当前在原始位置中并检测个人在区划A中。接下来,指示放大并可视化中镜头中的个人。此时,由于摄影机放大,因此其丢失概览且可不再“看到”区划。作为结果,当分析新的影像帧时,若检测到多于一个人,则必须弄清这些人中的哪一者对应于摄影机在前一帧中追踪的个人。这不仅在多人用例中相关。若存在上面具有个人的纸板,或可见于屏幕上的个人,则由于摄影机不具有概览,因此不能选择在区划中的个人以忽略背景中的其他人。因此,必须比较检测到的人与被识别为先前影像帧中的呈现者的人。通常,在类似位置(相对于影像帧)处的要点所针对的个人将被认为匹配个人。克服这些问题中的一些的一种方式是找到将来自原始位置的区划“外插”至其他PTZ参数的方式。换言之,即使当不在原始位置中时,摄影机仍被配置成估计个人是否在区划中。由于在放大视图中,并非所有身体要点可被检测到,如此这些要点的一些外插/估计将是必要的,因此实施附加逻辑。
可由系统使用追踪的第二不同场景在多呈现者情形中。即使当在原始位置中时,存在其中区划A中的个人移动至区划B且区划B中的个人移动至相同影像帧中的区划A的边缘情形。若系统仅仅执行个人检测,则将假定无一者相较于先前帧而改变(因为仍存在区划A中的一个人以及区划B中的一个人)。为克服这一点,系统再次被配置成匹配两组影像帧之间的身体要点(“个人追踪”)。
将澄清“个人追踪”与“摄影机追踪”是不同的。与其中摄影机移动以根据拍摄规则保持个人(或多个人)在视野中的“摄影机追踪”相反,当使用“个人追踪”时,摄影机不必移动。这当然可仅仅随来自个人追踪逻辑的输入一起发生。
优选地,每个摄影机具有原始和/或重设位置,这是以一种方式来限定,该方式使得摄影机的整个追踪区覆盖在该位置中。优选地,用于限定区划的绘制工具用于该位置。
当摄影机非实时(并不用于输出视频串流)时,其转至原始位置。优选地,至少一个摄影机一直在原始/重设位置中以有效监控场景。
当摄影机在原始位置中时,其被配置成执行以下动作:
-追踪所有人-检测摄影机的当前影像帧N中的人以及找到其在先前影像帧M中的对应物,
-确定人是否为影像帧N和M的区划的部分,
○若个人脚的平均x和y坐标在该区划中,则个人可被认为是区划的部分。○其他策略包括(但不限于):
■若个人被认为是帧M中的区划A的部分,则仅当两脚皆在区划B中时个人才可被认为是新区划B(不同于A)的部分。
■其他替代方案包括考虑除脚以外的身体关节以限定个人位置,或诸如个人重心的其他坐标…
-若存在关于存在于某一区划中的人的变化(例如,相较于影像帧M,在帧N中个人已进入或离开区划),则触发事件。
-事件含有关于新状态的信息,具体而言,每区划存在的人的数目(例如,“膝上型计算机区划中1人,其他区划中无人”或“主要呈现者区划中2人,其他区划中无人”)
-虚拟导演系统收听这些事件,且决定输出视频混合是否需要改变。
○第一,虚拟导演系统捕获将使用的区划配置。区划可具有不同优先权,意义在于若个人存在于区划A中,则存在于其他区划中的人并不明确地可视化且仅仅与区划A相关联的配置(及对应布局)被考虑。在下一步骤中假定区划A实际上对应于将使用的配置。
○给定将使用的配置,虚拟导演系统确定来自实时摄影机的当前镜头是否与该配置相容。
■若是,则严格地不需要动作。
■若当前实时镜头并不相容,则虚拟导演促使变化:
●第一,在由给定区划配置提供的可用选项的集合当中,虚拟导演(例如,随机地)选择摄影机和镜头以供用于实时视频输出中。
●若用于摄影机的所需动作要调整至预配置PTZ设定(例如,如通过配置接口所定义),则该摄影机可直接采用所需镜头。
●否则:
○若所选摄影机当前在原始位置中,且用于区划A的多边形区划被限定用于该摄影机和位置,则虚拟导演可直接发送所需镜头信息至摄影机并请求其变成实时。举例而言,命令可是使该区划中的所有人从髋向上(若可能)可视化。由于摄影机在原始位置中,且具有被限定的区划A,因此其检测该区划中的所有人且能够识别将可视化的人。
○若所选摄影机当前不在原始位置中或不具有被限定的区划A,则附加信息可需要被发送以识别将可视化的人(例如,当多个人存在时)。该信息可呈空间坐标形式(例如使用校准技术以使得可见于一个摄影机中的人可映射至其在另一摄影机中的对应物,例如参看https://www.epfl.ch/labs/cvlab/research/research-surv/research-body-surv-index-php/),呈个人相关特征形式(例如个人的色彩直方图、衣服属性,例如如2006年第1528页至1535页数位对象标识符:10.1109/CVPR.2006.223的美国纽约NY,2006年关于计算机视觉和图案识别(CVPR'06)的IEEE计算机协会会议N.Gheissari等人的“PersonReidentification Using Spatiotemporal Appearance”公开案中所描述),或允许个人重新识别的任何其他形式。
因此,如上文所描述,用户通常将区划配置于一个特定摄影机视图(原始位置)中,即,在给定P(平移)、T(倾斜)以及Z(缩放)参数处。当摄影机适应不同镜头类型(例如,特写、中镜头)以用于为远程参与者生成合意的动态体验时,关于经配置多边形坐标的信息不即刻可用于这些不同PTZ值。在该情形中,可考虑各种策略:
1.使用摄影机校准技术以根据多边形坐标从PTZ值集合至不同PTZ值集合的相对值导出转换功能。此类校准技术可使用例如被发现为环境背景纹理的部分的SIFT、ORB或其他类型的特征。通过在PTZ参数变化的同时追踪这些特征点,可建立所需转换功能。
2.作为替代办法,当摄影机不在区划被限定在其中的其原始位置处时,系统可依赖于不同摄影机。这假定相同区划被限定在多个摄影机中,且摄影机在其当前未被用作输出布局的部分时去往其原始位置。
明显地,该问题不发生在无机械平移、倾斜和缩放的静态摄影机的情形中,如在此类情形中整个视野始终可用。
第二问题是区划的部分可被遮挡用于给定摄影机。此处直接解决方案是要限定不同摄影机中的区划,且若可能,则精细调节摄影机的实体位置以最小化遮挡。
如上文所描述,配置接口可用于根据环境的几何结构/配置而且根据用户偏好配置环境内的不同区划。
配置接口还可用来配置系统行为,以从至少一个呈现者的侧面增加稳定性和可预测性。将通常在系统在第一时间被安装在部位上时操作该接口。操作接口的个人可为技术工程师、呈现者自身或任何其他个人。
配置包括通过从配置接口内的API呼叫触发的参数的集合,其中区划被限定在系统内。配置将包括(1)与被限定用于给定摄影机的每个区划相关联的区划坐标(即多边形坐标),以及(2)关于所需布局的细节。举例而言,与(2)相关的,在膝上型计算机区划中,配置可仅仅允许使用摄影机602的呈现者的中镜头。在不同区划中,配置可允许其他类型的镜头以及将使用的其他摄影机
系统包括至少一个摄影机。摄影机可具有任何类型,诸如网络摄影机、PTZ摄影机等。若使用多个摄影机,则至少一个摄影机可被配置成具有呈现者的正视图。一个摄影机可被配置成提供侧视图。一个摄影机或摄影机的组合可用来确定呈现者在哪个区划中。
存在不同可能性。举例而言,仅仅一个摄影机用于检测教师何时进入/退出区划。该摄影机视图不必包括于输出/布局中,其可仅仅在其他摄影机(和内容)用于输出布局时用于检测。另一可能性是不同摄影机具有不同视角,使得一个摄影机可能够较佳检测个人何时进入主要区划,而另一摄影机较佳能够检测个人何时进入白板区划。在该情形中,检测跨越摄影机而分布。再次,输出视频的输出布局中所示的内容也可以是不同的。系统可被配置成示出这些摄影机中的一者的视图,而且示出不同影像(诸如又一个摄影机、内容,而且在无一者将被示出的时刻的标识或默认图像)。
有利地,用户配置系统的行为用于每个区划。每个系统中的系统行为将确定至少一个摄影机如何操作和/或输出视频如何安装/与不同输入混合以提供所需输出布局。
考虑演讲的框架中的呈现,其中远程学生虚拟地辅助由教师/呈现者提供的演讲,系统配置可以为如下,考虑如上所解说的三个摄影机131、132、133:
-当教师在主要区划151中时:
ο被发送至远程学生的视频示出来自摄影机131、132和133的镜头。举例而言,10秒摄影机131,此后15秒摄影机132。系统决定每个摄影机需要示出多长,以及每个摄影机的平移-倾斜-缩放参数(例如,中镜头/特写/等)。
-当教师在膝上型计算机区划152中时:
ο被发送至远程学生的视频示出紧邻使用摄影机132的教师的中镜头的膝上型计算机屏幕的内容,如图5中所示。
-当教师在白板区划153中时:
ο被发送至远程学生的视频示出在配置期间在由用户限定的固定PTZ设定下的来自摄影机131的串流,如图6中所示。
-当教师不在这些区中的一者中时:
被发送至学生的视频可为示出例如大学标识的幻灯片。
图7解说示出当呈现者进入膝上型计算机区划时系统如何表现的流程图。在图7的实例中的系统类似于参看图1至图4描述的系统(即系统包括三个摄影机),白板、膝上型计算机和三个区划被限定在环境内:白板区划、主要区划和膝上型计算机区划。
控制系统包括个人检测模块630、区划检测模块631、摄影机控制模块和视频混合器模块。
优选地,个人检测模块630被配置成接收来自至少一个摄影机的视频串流并输出至少一个人的身体坐标。
区划检测模块631优选地被配置成接收至少一个人的身体坐标并确定至少一个人在哪个区划中。
摄影机控制模块632被配置成与区划检测模块631通信。基于来自区划检测模块631的输出63以及系统的配置,摄影机控制模块632被配置成通过发送命令64至适当摄影机602(如系统配置中所限定)操作至少一个摄影机。
最终,视频混合器模块633被配置成基于区划检测模块631的输出65以及配置生成具有输出布局的输出视频串流67。其被配置成接收来自至少一个摄影机的视频串流66a以及优选地来自呈现者的膝上型计算机的表示向观看者示出的内容的视频串流66b。基于呈现者所在的区划,视频混合器模块633使用该用户接口或配置接口生成具有(如在配置中(例如在由用户在安装期间填写的配置文件中)预定义)适当输出布局的输出视频串流67。输出视频串流67被实时发送(例如通过因特网)至虚拟观看者,和/或输出视频串流67还可被存储供未来使用以及观看。
呈现者为进行例如关于程序设计语言的演讲的教师。呈现可预先以幻灯片形式准备。在本实例中,呈现者/教师可直接从他的膝上型计算机教示并向学生示出如何使用程序设计语言,如使用图7上的影像605所解说的。在该情形中,有利的是从呈现者膝上型计算机输出包括膝上型计算机的内容(即与呈现者的膝上型计算机的屏幕上所示的内容相同)的视频串流605。
当教师进入膝上型计算机区划时,以下动作发生,以提供所需布局至远程用户610的膝上型计算机上。
在该实例中,摄影机603被用来限定环境内的区划。摄影机603在本实例中还用作检测个人在哪个区划中的装置,如上文所描述。
摄影机601和602两者均被用于使用不同视野拍摄呈现者。在本实例中,摄影机602被选择在实时输出中,该控制系统可(在某一时间(例如20秒)之后)选择摄影机601采用呈现者的镜头。在采用镜头之后,命令可被发送至视频混合器模块633以切换实时输出中的源。另外,若呈现者离开膝上型计算机区划,则可在其他区划的情形中更明确地使用摄影机601。
在本实例中,摄影机601和602为PTZ摄影机。
1.视频串流61从摄影机603(例如通过以太网络/IP上的HDMI或RTSP)捕获。
2.个人检测模块630被配置成接收视频串流61并输出呈现者的身体坐标62。
3.使用区划检测模块631和呈现者的身体坐标62,系统确定呈现者在哪个区划中。在当前实例中,系统确定教师在膝上型计算机(LAPTOP)区划中。
4.基于呈现者所在的区划63,摄影机控制模块632可确定控制哪个摄影机以及确定操作其的方式(如配置文件中所定义)。
5.摄影机控制模块632随后发送控制命令至摄影机602。在本实例中,摄影机控制模块632指导摄影机602开始使用中镜头拍摄呈现者。摄影机602的PTZ参数被调整以达成教师606的中镜头,归功于视频串流66c发送回至摄影机控制模块632。因此,个人检测和追踪是对视频串流66c执行的,以弄清个人是否仍在视图中并潜在地移动摄影机以根据拍摄规则维持个人的良好视图。
达成这一点的一种方法是:
i.在拍摄规则下比较呈现者的身体坐标的位置与如配置文件中对于中镜头所定义的所要位置,
ii.必要时调整PTZ参数并返回至i直至已到达所要的位置为止。
6.视频混合器模块633随后接收命令以生成包括在配置文件中所定义的输出布局的输出视频串流607。在本实例中,输出布局包括来自摄影机602的视频串流66a以及来自膝上型计算机605的视频串流66b,使得输出视频串流607在输出布局中示出膝上型计算机的内容605以及在呈现者的膝上型计算机之后的呈现者606。
7.视频混合器模块633连接至摄影机602和膝上型计算机604以捕获视频串流66a和66b(例如,通过以太网络/IP上的HDMI或RTSP)
8.视频混合器模块633组合两个视频串流以生成输出视频串流67并发送结果至远程学生610(例如,使用WebRTC 620)。
上文所描述的系统可实施于被配置成运行个人检测模块、区划检测模块、摄影机控制模块和视频混合器模块的主要控制单元上。主要控制单元接收用作所显示内容的来自摄影机601、602和603的视频串流以及来自膝上型计算机的视频串流。主要控制单元可连接至因特网且随后被配置成发送输出视频串流至用户。存储器还可用于存储输出视频以供未来使用。
个人检测模块和区划检测模块还可组合在同一模块中,该同一模块被配置成确定呈现者何时改变区划并基于该事件触发事件(输出视频串流的变化)。
因此,如上文所描述,对于每个区划(呈现者所在区划),提供系统的不同行为。举例而言,区划确定(1)输出的布局(即,仅仅一个视频串流、并排的两个串流……),以及(2)由调整摄影机参数允许系统改变布局中的源中的每一者的方式。
摄影机还可在呈现者在某一区划内移动的同时使用自动追踪,举例而言,自动追踪可在呈现者在主要区划中时启用。
如上文所描述,用于检测呈现者在哪个区划中的方式可以多个方式实施。用于检测呈现者在哪个区划中的方式还可描述为用于检测呈现者何时进入区划的方式,因为这是呈现者所在区划的变化,该变化触发新的事件,以及摄影机的新的控制,以及系统的新的行为。
重要的是牢记关于摄影机的操作的以下考虑因素。
在图1至图4以及图7的实例中,系统包括三个摄影机,其中一个摄影机被配置成检测呈现者在哪个区划,且两个摄影机用于提供呈现者的不同视野或场景。有可能使用多于或少于三个摄影机。有可能用于检测呈现者在哪个区划中的方式由多于一个摄影机提供,且可由也为活跃的摄影机(拍摄呈现者)执行。
摄影机可为任何类型,只要摄影机被配置成提供其视频串流至控制系统。该摄影机可为网络摄影机、PTZ摄影机、ePTZ摄影机或VPTZ摄影机,
当PTZ摄影机皆用于检测呈现者何时进入区划以及用于观测被发送至远程学生(或通常远程参与者)的输出时,附加困难可出现。
系统因此不仅被配置成提供输出视频串流用于实时视频串流传输,而且其应用于其中记录输出视频的情况。
还值得注意的是麦克风可被提供于环境中以用于记录呈现者。此外,扬声器还可并入于环境中以实现呈现者与远程用户之间的互动。
根据本发明的方法可由控制单元执行,诸如控制单元或处理设备或与本发明的实施例一起使用的任何控制单元,包括微控制器,作为独立设备或嵌入于投影器中或作为投影器的光学子系统的部分。本发明可使用被调适以实施功能的处理引擎。处理引擎优选地具有诸如由一个或多个微处理器、FPGA或中央处理单元(central processing unit;CPU)和/或图形处理单元(Graphics Processing Unit;GPU)提供的处理能力),且处理能力被调适以实施使用软件(即一个或多个计算机程序)而规划的各别功能。引用软件可涵盖呈任何语言形式的可由处理器通过经编译或解译语言直接地或间接地执行任何类型的程序。本发明的方法中的任一者的实施可由逻辑电路、电子硬件、处理器或电路系统(其可涵盖任何种类逻辑或模拟电路、任何程度整合,且不限于通用处理器、数字信号处理器、ASIC、FPGA、离散组件或晶体管逻辑闸及类似者)执行。
此类控制单元或处理设备可具有存储器(诸如非瞬态计算机可读媒体、RAM和/或ROM)、操作系统、任选地诸如固定格式显示器的显示器、用于数据键入设备(诸如键盘)的端口、指针设备(诸如“鼠标”)、与其他设备通信的串行或并列端口、网络卡以及连接至网络中的任一者的连接件。
软件可体现于被调适以实施本发明的方法中的任一者的功能的计算机程序产品中,例如如当软件装载至控制器上并在诸如微处理器、ASIC、FPGA等的一个或多个处理引擎上执行时下文详细列举的功能。因此,与本发明的实施例中的任一者一起使用的处理设备控制单元可并入能够运行呈计算机软件形式的一个或多个计算机应用程序的计算机系统。
上文关于本发明的实施例描述的方法可由运行于计算机系统上装载于存储器中并在诸如由美国微软公司供应的WindowsTM、Linux、安卓或类似者的操作系统上或结合该操作系统运行的一个或多个计算机应用程序来执行。计算机系统可包括主存储器,优选地随机存取存储器(random-access memory;RAM),且还可包括非瞬态硬盘驱动机和/或可卸除式非瞬态存储器,和/或非瞬态固态存储器。非瞬态可卸除式存储器可为诸如紧密光盘(CD-ROM或DVD-ROM)的光盘,磁带,其由合适的读取器读取并由合适的读取器写入。可卸除式非瞬态存储器可为其中存储有计算机软件和/或数据的计算机可读媒体。非易失性存储存储器可以用于存储若计算机系统断电,则不应丢失的持久性信息。应用程序可使用信息并将其存储于非易失性存储器中。
在解译所附申请权利要求书时,应理解除非另外具体解说,否则词语“包括”不排除除给定权利要求中列举的组件或动作外的其他组件或动作的存在;在组件之前的词语“一”不排除多个此类组件的存在;权利要求中的任何参考符号不限制其范畴;若干“方式”可由相同或不同项或实施结构或菜单示;所揭露设备或其部分中的任一者可组合在一起或分成其他部分。在一个权利要求引用另一权利要求的情况下,这可指示由组合其各别特征而实现的协同优点。但在相互不同的权利要求中叙述某些措施的纯粹实情并不指示还不能有利地使用这些措施的组合。因此,本发明实施例可包括申请权利要求书的所有工作组合,其中除非上下文明确地排除,否则各权利要求原则上可引用任何先前权利要求。
虽然上文已参考特定实施例描述本发明,但这是为了解说且并不限制本发明。本领域技术人员应了解在不脱离本发明的范畴情况下所揭露特征的各种修改和不同组合是可能的。

Claims (35)

1.一种用于自动地生成呈现的输出视频的系统,所述呈现由至少一个呈现者给出、包括所显示内容并在环境中执行,所述系统包括:
-多个区划,其被限定在所述环境内,
-至少一个摄影机,其中所述摄影机被配置成捕获由所述环境中的所述呈现者给出的所述呈现的影像帧,
-用于检测所述至少一个呈现者何时改变区划的装置,
-配置,其将拍摄参数的集合与每个区划相关联,所述拍摄参数的集合用于在所述至少一个呈现者在所述区划中时控制所述至少一个摄影机,
其中所述系统被进一步配置成当所述至少一个呈现者改变区划时,基于与所述至少一个呈现者所在的所述区划相关联的所述配置改变所述拍摄参数,以便使用不同拍摄参数提供输出视频至用户。
2.根据权利要求1所述的系统,其中所述配置进一步将输出布局与每个区划相关联,其中所述输出布局确定包括与所述区划相关联的至少一个摄影机的所捕获影像帧中的至少一者的所述输出视频与所述所显示内容的组成,并且其中所述系统被进一步配置成当所述至少一个呈现者改变区划时,基于与所述呈现者所在的所述区划相关联的所述配置改变所述输出布局,以便生成具有不同输出布局的输出视频。
3.根据权利要求1或2所述的系统,其中所述配置进一步使与多个呈现者中的呈现者相关联的限定用于每个区划的拍摄参数和/或输出布局的优先排序规则的集合相关联。
4.根据前述权利要求的任一项所述的系统,其中用于检测所述至少一个呈现者何时改变区划的装置包括:用于检测至少一个人的装置以及用于检测在所给出的影像帧处所述至少一个呈现者在哪个区划中的装置。
5.根据权利要求4所述的系统,其中所述所给出的影像帧对应于以间隔(优选为规则间隔)获取的多个影像帧中的影像帧,所述间隔优选地对应于摄影机的获取速率的倍数。
6.根据前述权利要求的任一项所述的系统,其中所述区划是二维的,优选为多边形。
7.根据权利要求1至5中的任一项所述的系统,其中所述区划是三维的,优选为多面体。
8.根据前述权利要求的任一项所述的系统,其中所述系统包括至少两个区划,其中一者为被限定在所述所显示内容附近的白板区划,而一者为被限定在所述环境的其余部分中的主要区划。
9.根据权利要求8所述的系统,其中所述系统进一步包括被限定在所述呈现者的所述膝上型计算机附近的膝上型计算机区划。
10.根据前述权利要求的任一项所述的系统,其中所述至少一个摄影机的组合的视场一直包括整个环境。
11.根据前述权利要求的任一项所述的系统,所述系统进一步包括两个摄影机,其中一者被配置成提供所述白板区划中的呈现者的视野,而一者被配置成提供所述主要区划中的呈现者的视野。
12.根据前述权利要求的任一项所述的系统,其中所述摄影机中的至少一者为PTZ摄影机或网络摄影机等。
13.根据权利要求11所述的系统,其中至少两个摄影机为PTZ摄影机,而第三摄影机被配置成具有包括所述环境并用于配置所述区划的视场。
14.根据前述权利要求的任一项所述的系统,其中所述区划的配置使用该配置执行。
15.根据前述权利要求的任一项所述的系统,其中所述配置为配置界面。
16.根据前述权利要求的任一项所述的系统,其中所述系统被配置成用于实时串流传输和/或用于记录。
17.根据权利要求16所述的系统,其中所述输出视频串流通过因特网实时发送至远程用户。
18.根据权利要求17所述的系统,其中所述系统进一步包括用于与远程观看者通信的装置,以及被配置成示出实时辅助呈现的所述远程观看者的至少一个监视器。
19.根据前述权利要求的任一项所述的系统,其中麦克风和/或扩音器被进一步提供在所述环境中。
20.一种用于自动地生成呈现的输出视频的方法,所述呈现由至少一个呈现者给出、包括所显示内容并在具有至少一个摄影机的环境中执行,所述方法包括以下步骤:
-确定所述环境中的多个区划;
-对于每个区划配置用于在至少一个呈现者在所述区划中时控制所述至少一个摄影机的拍摄参数的集合;
-使用所述至少一个摄影机捕获所述呈现的影像帧;
-检测所述至少一个呈现者何时改变所述环境内的区划;
-当所述呈现者改变区划时遵循与至少一个呈现者所在的区划相关联的配置改变所述拍摄参数,以便使用不同拍摄参数提供输出视频至用户。
21.根据权利要求20所述的方法,进一步包括以下步骤:
-对于每个区划配置输出布局,其中所述输出布局确定包括与所述区划相关联的摄影机的所捕获影像帧中的至少一者的所述输出视频与所述所显示内容的组成;以及
-当所述呈现者改变区划时遵循与所述至少一个呈现者所在的区划相关联的所述配置改变所述输出视频的所述输出布局,以便提供所述输出视频以及变化的输出布局至所述用户。
22.根据权利要求20或21所述的方法,进一步包括以下步骤:确定与多个呈现者中的呈现者相关联的限定用于每个区划的拍摄参数和/或输出布局的优先排序规则的集合。
23.根据权利要求20或21所述的方法,所述区划是二维的,优选为多边形和/或三维的,优选为多面体。
24.根据权利要求20或21所述的方法,检测所述至少一个呈现者何时改变区划的步骤包括以下步骤:检测所给出的影像帧中的至少一个人以及检测所述至少一个呈现者在所述所给出的影像帧中哪个区划中。
25.根据权利要求24所述的方法,进一步包括以下步骤:将个人表示为具有多个身体要点的人物线条图,以及提取所检测身体要点的坐标。
26.根据权利要求25所述的方法,进一步包括以下步骤:比较所检测身体要点的坐标与所述区划的坐标。
27.根据权利要求26所述的方法,进一步包括以下步骤:比较表示脚的所述身体要点的坐标与所述区划的坐标,若所述脚不可用,则比较可用的最低身体要点的坐标与所述区划的坐标。
28.根据权利要求25至27中的任一项所述的方法,进一步包括以下步骤:追踪所述至少一个呈现者。
29.根据权利要求28所述的方法,追踪所述至少一个呈现者的步骤使用多个摄影机来执行。
30.一种用于配置权利要求1至19中的任一项所述的系统的接口,其中用户接口包括:
-用于在所述环境中所给出的摄影机视图上绘制多个区划(多边形)的绘制工具;
-配置文件,所述配置文件包括将拍摄规则的集合与每个区划相关联的查找表。
31.根据权利要求30的接口,所述用户接口进一步包括配置文件,所述配置文件包括将输出布局与每个区划相关联的查找表。
32.根据权利要求30或31中所述的接口,进一步包括确定与每个区划的多个呈现者中的呈现者相关联的优先排序规则的集合的配置文件。
33.一种包括在一个或多个处理引擎上被执行的软件的计算机程序产品,所述软件执行权利要求20至29中的任何方法。
34.一种非瞬态信号存储介质,所述非瞬态信号存储介质存储权利要求33所述的计算机程序产品。
35.一种用于根据权利要求1至19中的任一项所述的系统的控制器,包括权利要求34所述的非瞬态信号存储介质。
CN201980101989.6A 2019-11-05 2019-11-05 区划适应性视频生成 Pending CN114631323A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/080292 WO2021089130A1 (en) 2019-11-05 2019-11-05 Zone-adaptive video generation

Publications (1)

Publication Number Publication Date
CN114631323A true CN114631323A (zh) 2022-06-14

Family

ID=68501600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980101989.6A Pending CN114631323A (zh) 2019-11-05 2019-11-05 区划适应性视频生成

Country Status (5)

Country Link
US (2) US11831974B2 (zh)
EP (1) EP4055813A1 (zh)
CN (1) CN114631323A (zh)
TW (1) TW202135516A (zh)
WO (1) WO2021089130A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230120735A1 (en) * 2021-10-15 2023-04-20 Motorola Mobility Llc Dynamic presentation surface and presenter imaging for a transmitting device in a video communication session
LU501985B1 (en) 2022-05-02 2023-11-06 Barco Nv 3D virtual director

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790124A (en) * 1995-11-20 1998-08-04 Silicon Graphics, Inc. System and method for allowing a performer to control and interact with an on-stage display device
US20070081080A1 (en) * 2005-10-12 2007-04-12 Photo Control Corporation Presentation video control system
CN101341753A (zh) * 2004-06-01 2009-01-07 L-3通信公司 用于广域安全监控、传感器管理及情况认知的方法和系统
US20130024819A1 (en) * 2011-07-18 2013-01-24 Fuji Xerox Co., Ltd. Systems and methods for gesture-based creation of interactive hotspots in a real world environment
KR20130106483A (ko) * 2012-03-20 2013-09-30 주식회사 다림비젼 실물화상기
CN108886583A (zh) * 2016-04-11 2018-11-23 思碧迪欧有限公司 用于通过数据网络向多个用户提供虚拟的摇摄-倾斜-缩放,ptz,视频功能的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009266A (ja) * 2014-06-23 2016-01-18 コニカミノルタ株式会社 撮影システム、撮影の方法、およびコンピュータープログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790124A (en) * 1995-11-20 1998-08-04 Silicon Graphics, Inc. System and method for allowing a performer to control and interact with an on-stage display device
CN101341753A (zh) * 2004-06-01 2009-01-07 L-3通信公司 用于广域安全监控、传感器管理及情况认知的方法和系统
US20070081080A1 (en) * 2005-10-12 2007-04-12 Photo Control Corporation Presentation video control system
US20130024819A1 (en) * 2011-07-18 2013-01-24 Fuji Xerox Co., Ltd. Systems and methods for gesture-based creation of interactive hotspots in a real world environment
KR20130106483A (ko) * 2012-03-20 2013-09-30 주식회사 다림비젼 실물화상기
CN108886583A (zh) * 2016-04-11 2018-11-23 思碧迪欧有限公司 用于通过数据网络向多个用户提供虚拟的摇摄-倾斜-缩放,ptz,视频功能的系统和方法

Also Published As

Publication number Publication date
US11831974B2 (en) 2023-11-28
WO2021089130A1 (en) 2021-05-14
US20240107150A1 (en) 2024-03-28
US20230164422A1 (en) 2023-05-25
EP4055813A1 (en) 2022-09-14
TW202135516A (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
KR101665229B1 (ko) 증강된 가상 현실을 사용하는, 원격 참여자들 간의 개선된 통신의 제어
US9584766B2 (en) Integrated interactive space
US20240107150A1 (en) Zone-adaptive video generation
Amores et al. Showme: A remote collaboration system that supports immersive gestural communication
US8996974B2 (en) Enhancing video presentation systems
US20060114251A1 (en) Methods for simulating movement of a computer user through a remote environment
WO2020228768A1 (zh) 一种3d智能教育监控方法、系统和存储介质
US20240070973A1 (en) Augmented reality wall with combined viewer and camera tracking
de Haan et al. Spatial navigation for context-aware video surveillance
Winkler et al. Automatic camera control for tracking a presenter during a talk
Lampi et al. An automatic cameraman in a lecture recording system
Ogi et al. Usage of video avatar technology for immersive communication
WO2019241712A1 (en) Augmented reality wall with combined viewer and camera tracking
JP2004289779A (ja) 移動体撮像方法、移動体撮像システム
Zhang et al. Hybrid speaker tracking in an automated lecture room
Lindeman Tell me about antarctica: Guidelines for in situ capture and viewing of 360-degree video highlighting antarctic science
KR102619761B1 (ko) 텔레프리젠테이션 화상 회의 시스템을 위한 서버
CN111355883B (zh) 为超宽和360相机提供凝视和感知的系统和方法
Engelbert et al. The use and benefit of a Xbox Kinect based tracking system in a lecture recording service
LU501985B1 (en) 3D virtual director
DeHart Directing audience attention: cinematic composition in 360 natural history films
KR20170090186A (ko) 증강현실 환경에서의 막대형 물체를 캡처하기 위한 장치 및 그 방법
Hough Towards achieving convincing live interaction in a mixed reality environment for television studios
WO2024019713A1 (en) Copresence system
CN117321987A (zh) 沉浸式观看体验

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination