ES2906619T3 - Composición y escalamiento de subescenas separadas angularmente - Google Patents

Composición y escalamiento de subescenas separadas angularmente Download PDF

Info

Publication number
ES2906619T3
ES2906619T3 ES16774312T ES16774312T ES2906619T3 ES 2906619 T3 ES2906619 T3 ES 2906619T3 ES 16774312 T ES16774312 T ES 16774312T ES 16774312 T ES16774312 T ES 16774312T ES 2906619 T3 ES2906619 T3 ES 2906619T3
Authority
ES
Spain
Prior art keywords
video signal
scene
ssn
subscene
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16774312T
Other languages
English (en)
Inventor
Mark Steven Schnittman
Maksim Makeev
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Owl Labs Inc
Original Assignee
Owl Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Owl Labs Inc filed Critical Owl Labs Inc
Application granted granted Critical
Publication of ES2906619T3 publication Critical patent/ES2906619T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/20Control channels or signalling for resource management
    • H04W72/21Control channels or signalling for resource management in the uplink direction of a wireless link, i.e. towards the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Abstract

Un método de composición y salida de una señal de video, que comprende: grabar una señal de video panorámica que tiene una relación de aspecto de sustancialmente 2,4:1 o mayor, capturada desde una cámara ancha (100) que tiene un campo de visión angular horizontal de sustancialmente 90 grados o mayor; submuestrear al menos dos señales de video de la subescena (SS1, SS2, ... SSn) en los respectivos rumbos de interés (B1, B2, ... Bn) de la cámara ancha (100); componer al menos dos señales de video de la subescena (SS1, SS2, ... SSn) una al lado de la otra para formar una señal de video de la escena del escenario (STG) que tiene una relación de aspecto de sustancialmente 2:1 o menos, en donde más del 80 % del área de la señal de video de la escena del escenario se submuestrea de la señal de video panorámica; emitir la señal de video de la escena del escenario formateada como una señal de video de una única cámara; submuestrear al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional en un respectivo rumbo de interés (B1, B2, ... Bn) de la señal de video panorámica; y componer al menos dos señales de video de la subescena junto con al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional para formar una señal de video de la escena del escenario que tiene una relación de aspecto de sustancialmente 2:1 o menos que incluye una pluralidad de señales de video de la subescena (SS1, SS2, ... SSn) una al lado de la otra, en donde componer al menos las dos señales de video de la subescena (SS1, SS2, ... SSn) junto con la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional para formar una señal de video de la escena del escenario (STG) comprende: hacer la transición de la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional a la señal de video de la escena del escenario (STG) al reducir el ancho de al menos una de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) por una cantidad correspondiente al ancho de la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional, en donde a cada señal de video de la subescena (SS1, SS2, ... SSn) se le asigna un ancho mínimo respectivo, cada señal de video de la subescena (SS1, SS2, ... SSn) se compone una al lado de la otra sustancialmente a no menos que el ancho mínimo respectivo correspondiente para formar la señal de video de la escena del escenario (STG), y cuando una suma de los anchos mínimos respectivos de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) junto con la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional excede un ancho de la señal de video de la escena del escenario (STG), al menos una de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) hace la transición para eliminarse de la señal de video de la escena del escenario (STG), en donde el ancho mínimo asignado a cada una de las señales de video de la subescena (SS1, SS2, .... SSn) es uno de los límites del ancho de la cara determinados visualmente de un participante (M1, ... Mn) en un respectivo rumbo de interés (B1, B2, ... Bn) o una aproximación acústica determinada acústicamente relacionada con la resolución angular de un sensor acústico o una serie de micrófonos acústicos (4), en donde el sensor acústico o la serie de micrófonos acústicos se dispone junto con la cámara ancha (100).

Description

DESCRIPCIÓN
Composición y escalamiento de subescenas separadas angularmente
Campo de la invención
Los aspectos se refieren a aparatos y métodos para capturar y enfatizar imágenes.
Antecedentes
El documento US 2006/0164552 A1 se refiere a incrustar una imagen panorámica en un flujo de video. El documento US 2004/0263636 A1 se refiere a un sistema y un método para reuniones distribuidas. El documento US 2007/0297682 A1 se refiere a una identificación de personas mediante el uso de múltiples tipos de entrada. El documento US 2004/0254982 A1 se refiere a un sistema de recepción para un sistema de videoconferencia. Las reuniones remotas, los chats de video y las teleconferencias multiusuarios a menudo se llevan a cabo con varios participantes juntos en una sala de reuniones conectada a al menos un usuario remoto.
En el caso de un software de videoconferencia en modo de persona a persona, solo está disponible una cámara local, a menudo de un campo de visión horizontal limitado (por ejemplo, 70 grados). Ya sea que esta única cámara se coloque frontal a un participante o en la cabecera de una mesa dirigida a todos los participantes, es difícil para la parte remota seguir el audio, el lenguaje del cuerpo y las señales no verbales dadas por los participantes en la sala de reuniones que están distantes de la única cámara o que están en ángulos agudos a la cámara (por ejemplo, ver el perfil de una persona en lugar de la cara).
En el caso de un software de videoconferencia en modo multipersona, la disponibilidad de las cámaras de dos o más dispositivos móviles (ordenador portátil, tableta o teléfono móvil) ubicados en la misma sala de reuniones añade algunos problemas diferentes. Cuantos más participantes de la sala de reuniones hayan iniciado sesión en la conferencia, mayor será la retroalimentación de audio y la diafonía. Las perspectivas de la cámara pueden estar tan remotas de los participantes o tan sesgadas como en el caso de una única cámara. Los participantes locales pueden tender a interactuar con los otros participantes a través de sus dispositivos móviles, a pesar de estar en la misma habitación (por lo que heredan de esta manera las mismas debilidades en el lenguaje del cuerpo y las señales no verbales que la parte remota).
No existe una técnica comercial o experimental conocida para componer, seguir y/o mostrar subescenas y/o subescenas de interés separadas angularmente dentro de una escena ancha (por ejemplo, una escena ancha de dos o más participantes de la reunión) de manera que haga la configuración muy fácil para los participantes de la misma sala, o la experiencia automática y sin inconvenientes desde el punto de vista de los participantes remotos. Resumen
La presente invención proporciona un método para componer y emitir una señal de video, que comprende: grabar una señal de video panorámica que tiene una relación de aspecto de sustancialmente 2,4:1 o mayor, capturada desde una cámara ancha que tiene un campo de visión angular horizontal de sustancialmente 90 grados o mayor; submuestrear al menos dos señales de video de la subescena en los respectivos rumbos de interés de la cámara ancha; componer al menos las dos señales de video de la subescena una al lado de la otra para formar una señal de video de la escena del escenario que tiene una relación de aspecto de sustancialmente 2:1 o menos, en donde más del 80 % del área de la señal de video de la escena del escenario se submuestrea de la señal de video panorámica; emitir la señal de video de la escena del escenario formateada como una señal de video de una única cámara; submuestrear al menos una señal de video de la subescena adicional en un rumbo de interés respectivo de la señal de video panorámica; y componer al menos las dos señales de video de la subescena junto con al menos una señal de video de la subescena adicional para formar una señal de video de la escena del escenario que tiene una relación de aspecto de sustancialmente 2:1 o menos que incluye una pluralidad de señales de video de la subescena una al lado de la otra, en donde la composición de al menos las dos señales de video de la subescena junto con la al menos una señal de video de la subescena adicional para formar una señal de video de la escena del escenario comprende: hacer la transición de la al menos una señal de video de la subescena adicional en la señal de video de la escena del escenario al reducir un ancho de al menos una de las al menos dos señales de video de la subescena por una cantidad correspondiente al ancho de la al menos una señal de video de la subescena adicional, en donde cada señal de video de la subescena se asigna a un ancho mínimo respectivo, cada señal de video de la subescena se compone una al lado de la otra en sustancialmente no menos que el ancho mínimo respectivo correspondiente para formar la señal de video de la escena del escenario, y cuando una suma de los anchos mínimos respectivos de las al menos dos señales de video de la subescena junto con la al menos una señal de video de la subescena adicional excede un ancho de la señal de video de la escena del escenario, al menos una de las al menos dos señales de video de la subescena hace la transición para eliminarse de la señal de video de la escena del escenario, en donde el ancho mínimo asignado a cada una de las señales de video de la subescena es uno de un límite del ancho de la cara determinado visualmente de un participante en un rumbo de interés respectivo o una aproximación acústica determinada acústicamente relacionada con la resolución angular de un sensor acústico o una serie de micrófonos acústicos, en donde el sensor acústico o la serie de micrófonos acústicos se dispone junto con la cámara ancha.
Breve descripción de los dibujos
Las Figuras 1A y 1B son representaciones de bloques esquemáticos de modalidades de dispositivos adecuados para componer, seguir y/o mostrar subescenas separadas angularmente y/o subescenas de interés dentro de escenas anchas recopiladas por los dispositivos 100.
Las Figuras 2A a 2L son representaciones esquemáticas de modalidades de disposiciones de la cámara de reunión 14 o torre de cámara 14 para los dispositivos 100 de las Figuras 1A y 1B y adecuadas para recopilar escenas anchas y/o panorámicas.
Las Figuras 3A y 3B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión y una señal de imagen panorámica de la cámara de reunión, respectivamente, que muestra tres participantes.
Las Figuras 4A y 4B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión que muestra una mesa de conferencias y una señal de imagen panorámica de la cámara de reunión, respectivamente, que muestra tres participantes e incluye una representación de una identificación de una configuración del ancho de la cara o la subescena.
Las Figuras 5A y 5B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión que muestra una mesa de conferencias y una señal de imagen panorámica de la cámara de reunión, respectivamente, que muestra tres participantes e incluye una representación de una identificación de una configuración del ancho de hombros o la subescena.
Las Figuras 6A y 6B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión que muestra una mesa de conferencias y una señal de imagen panorámica de la cámara de reunión, respectivamente, que muestra tres participantes y una pizarra blanca, e incluye una representación de una identificación de una subescena más ancha.
Las Figuras 7A y B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión que muestra una mesa de conferencias de diez asientos y una señal de imagen panorámica de la cámara de reunión, respectivamente, que muestra cinco participantes e incluye una representación de una identificación de un ancho mínimo visual y rumbo y un ancho mínimo acústico y rumbo.
La Figura 8A muestra una vista esquemática de una señal de video de la cámara de reunión, anchos mínimos y extracción de señales de video de la subescena y una señal de video panorámica a componerse en una señal de video de la escena del escenario.
La Figura 8B muestra una vista esquemática de las señales de video de la subescena y una señal de video panorámica a componerse en una señal de video de la escena del escenario, y las Figuras 8C a 8E muestran tres posibles salidas compuestas o señales de video de la escena del escenario.
La Figura 9A muestra una vista esquemática de una señal de video de la cámara de reunión, anchos mínimos y extracción de señales de video de la subescena alternativas y una señal de video panorámica alternativa a componerse en una señal de video de la escena del escenario.
La Figura 9B muestra una vista esquemática de las señales de video de la subescena alternativas y una señal de video panorámica alternativa a componerse en una señal de video de la escena del escenario, y las Figuras 9C a 9E muestran tres posibles salidas compuestas alternativas o señales de video de la escena del escenario.
La Figura 9F muestra una vista esquemática de una señal de video panorámica ajustada de modo que la imagen de una mesa de conferencias se disponga en una vista más natural y menos discordante.
Las Figuras 10A y 10B muestran vistas esquemáticas de una posible señal de video de la escena del escenario o salida compuesta.
Las Figuras 11A y 11B muestran vistas esquemáticas de dos formas alternativas en que el software de videoconferencia puede mostrar la salida compuesta o la señal de video de la escena del escenario.
La Figura 12 muestra un diagrama de flujo que incluye etapas para componer señales de video (señal de video) de la escena del escenario.
La Figura 13 muestra un diagrama de flujo detallado que incluye las etapas para componer la creación de las subescenas (señales de video de la subescena) en base a rumbos de interés.
La Figura 14 muestra un diagrama de flujo detallado que incluye las etapas para componer las subescenas en una señal de video de la escena del escenario.
La Figura 15 muestra un diagrama de flujo detallado que incluye las etapas para emitir una señal de video de la escena del escenario compuesta como una señal de una única cámara.
La Figura 16 muestra un diagrama de flujo detallado que incluye un primer modo de realizar las etapas para localizar y/o rumbos de interés y/o establecer anchos de subescenas.
La Figura 17 muestra un diagrama de flujo detallado que incluye un segundo modo de realizar las etapas para localizar y/o rumbos de interés y/o establecer anchos de subescenas.
La Figura 18 muestra un diagrama de flujo detallado que incluye un tercer modo de realizar las etapas para localizar y/o rumbos de interés y/o establecer anchos de subescenas.
Las Figuras 19-21 muestran la operación de una modalidad que incluye una cámara de reunión conectada a una PC local que tiene un cliente de videoconferencia que recibe la señal de una única cámara, que se corresponde sustancialmente con las Figuras 3A-5B, la PC a su vez conectada a Internet, y dos PC remotas o similares que también reciben la señal de una única cámara dentro de la pantalla de videoconferencia.
La Figura 22 muestra una variación del sistema de las Figuras 19-21, en el que el cliente de videoconferencia usa vistas de video solapadas en lugar de vistas vecinas discretas.
La Figura 23 muestra una variación del sistema de las Figuras 19-21, que corresponden sustancialmente a las Figuras 6A-6B, que incluye una vista de cámara de alta resolución para una pizarra blanca.
La Figura 24 muestra una variación del sistema de las Figuras 19-21 que incluye una vista de documento de texto de alta resolución (por ejemplo, editor de texto, procesamiento de textos, presentación u hoja de cálculo). La Figura 25 es una vista esquemática de un arreglo en el que se instancia un cliente de videoconferencia para cada subescena, mediante el uso de una configuración similar a la de la Figura 1B.
La Figura 26 es una vista esquemática de algunos símbolos e iconografía ilustrativos y usados a través de las Figuras 1-26.
Descripción detallada
Cámara de reunión
Las Figuras 1A y 1B son representaciones de bloques esquemáticos de modalidades de dispositivos adecuados para componer, seguir y/o mostrar subescenas separadas angularmente y/o subescenas de interés dentro de escenas anchas recopiladas por los dispositivos, cámaras de reunión 100.
La Figura 1A muestra un dispositivo construido para comunicarse como una cámara de reunión 100 o una "cámara web" de reunión, por ejemplo, como un periférico USB conectado a un host o concentrador USB de un ordenador portátil, tableta o dispositivo móvil 40 conectado; y para proporcionar una única imagen de video de una relación de aspecto, cantidad de píxeles y proporción comúnmente usada por el chat de video comercial o el software de videoconferencia tal como "Google Hangouts", "Skype" o "Facetime". El dispositivo 100 incluye una "cámara ancha" 2, 3 o 5, por ejemplo, una cámara capaz de capturar más de un asistente y dirigida a inspeccionar una reunión de asistentes o participantes M1, M2...Mn. La cámara 2, 3 o 5 puede incluir una lente o generador de imágenes digitales, o 2 o más lentes o generadores de imágenes digitales (por ejemplo, integrados en software o de cualquier otra manera). Se debe señalar que en dependencia de la ubicación del dispositivo 100 dentro de una reunión, el campo de visión de la cámara ancha 2, 3 o 5 puede no ser mayor de 70 grados. Sin embargo, en una o más modalidades, la cámara ancha 2, 3, 5 es útil en el centro de la reunión y, en este caso, la cámara ancha puede tener un ángulo de visión horizontal sustancialmente de 90 grados, o más de 140 grados (no necesariamente de manera contigua), o hasta 360 grados.
En salas de conferencias grandes (por ejemplo, salas de conferencias diseñadas para acomodar a 8 personas o más) puede ser útil tener varios dispositivos de cámara de gran angular que graben campos de visión anchos (por ejemplo, sustancialmente 90 grados o más) y unan de forma conjunta una escena muy ancha para capturar el ángulo más agradable; por ejemplo, una cámara de gran angular en el extremo más alejado de una mesa larga (10'-20') puede dar como resultado una vista distante insatisfactoria del orador SPKR pero tener varias cámaras distribuidas en una mesa (por ejemplo, 1 por cada 5 asientos) puede producir al menos una vista satisfactoria o agradable. La cámara 2, 3, 5 puede visualizar o grabar una escena panorámica (por ejemplo, de relación de aspecto de 2,4:1 a 10:1, por ejemplo, proporción horizontal a vertical H:V ) y/o hacer esta señal disponible a través de la conexión USB.
Como se discutió con respecto a las Figuras 2A-2L, la altura de la cámara ancha 2, 3, 5 desde la base de la cámara de reunión 100 es preferentemente de más de 8 pulgadas, de modo que la cámara 2, 3, 5 puede elevarse más que las pantallas típicas de los ordenadores portátiles en una reunión, y de esta manera tener una vista sin obstrucciones y/o aproximadamente a la altura de los ojos para los asistentes a la reunión M1, M2...Mn. Una serie de micrófonos 4 incluye al menos dos micrófonos y puede obtener rumbos de interés para sonidos o habla cercanos mediante la formación de haz, tiempo relativo de vuelo, localización o diferencial de resistencia de la señal recibida como se conoce en la técnica. La serie de micrófonos 4 puede incluir una pluralidad de pares de micrófonos dirigidos para cubrir al menos sustancialmente el mismo intervalo angular que el campo de visión de la cámara ancha 2. La serie de micrófonos 4 opcionalmente se dispone junto con la cámara ancha 2, 3, 5 a una altura de más de 8 pulgadas, de nuevo de modo que exista una "línea de visión" directa entre la serie 4 y los asistentes M1, M2...Mn mientras hablan, sin obstrucción mediante las típicas pantallas de los ordenadores portátiles. Una CPU y/o GPU (y circuitos asociados, tal como un circuito de cámara) 6, para procesar eventos informáticos y gráficos, se conectan a cada cámara ancha 2, 3, 5 y serie de micrófonos 4. La ROM y la RAM 8 se conectan a la CPU y la GPU 6 para retener y recibir el código ejecutable. Se proporcionan interfaces de red y pilas 10 para USB, Ethernet y/o WiFi, conectados a la CPU 6. Uno o más buses seriales interconectan estos componentes electrónicos y se alimentan por DC, AC o energía de batería.
El circuito de cámara de la cámara 2, 3, 5 puede emitir un flujo de video o imagen procesada o representada como una señal de imagen de una única cámara, señal o flujo de video de 1,25: 1 a 2,4: 1 o proporción horizontal a vertical "H:V" o relación de aspecto de 2,5: 1 (por ejemplo, incluidas las proporciones 4:3, 16:10, 16:9) en orientación horizontal y/o, como se señaló, con una lente adecuada y/o un circuito de unión, una imagen panorámica o flujo de video como una señal de imagen de una única cámara sustancialmente de 2,4:1 o mayor. La cámara para reuniones 100 de la Figura 1A normalmente puede conectarse como un periférico USB a un ordenador portátil, tableta o dispositivo móvil 40 (que tenga una pantalla, interfaz de red, procesador informático, memoria, cámara y secciones de micrófono, interconectados por al menos un bus) en el que se aloja el software de video chat, videoconferencia o teleconferencia multiusuario, y que puede conectarse para teleconferencia a clientes remotos 50 a través de Internet 60.
La Figura 1B es una variación de la Figura 1A en la que tanto el dispositivo 100 de la Figura 1A como el dispositivo de teleconferencia 40 se integran. La salida de un circuito de cámara como una señal de imagen de una única cámara, señal de video o flujo de video está directamente disponible para la CPU, la GPU, los circuitos asociados y la memoria 5, 6, y el software de teleconferencia se aloja en su lugar por la CPU, la GPU y los circuitos asociados y la memoria 5, 6. El dispositivo 100 puede conectarse directamente (por ejemplo, a través de WiFi o Ethernet) para teleconferencias con clientes remotos 50 a través de Internet 60 o INET. Una pantalla 12 proporciona una interfaz del usuario para operar el software de teleconferencia y mostrar las vistas y gráficos de teleconferencia discutidos en la presente descripción a los asistentes a la reunión M1, M2... M3. El dispositivo o la cámara de reunión 100 de la Figura 1A puede conectarse alternativamente directamente a Internet 60, lo que permite de esta manera que el video se grabe directamente en un servidor remoto, o que los clientes remotos 50 accedan a dicho servidor en vivo.
Las Figuras 2A a 2L son representaciones esquemáticas de modalidades de arreglos de la cámara de reunión 14 o torre de cámara 14 para los dispositivos o cámaras de reunión 100 de las Figuras 1A y 1B, y adecuadas para recopilar escenas anchas y/o panorámicas. La "torre de cámara" 14 y "cámara de reunión" 14 pueden usarse en la presente descripción sustancialmente de manera intercambiable, aunque una cámara de reunión no necesita ser una torre de cámara. La altura de la cámara ancha 2, 3, 5 desde la base del dispositivo 100 en las Figuras 2A-2L es preferentemente de más de 8 pulgadas y menos de 15 pulgadas.
En el arreglo de la torre de cámara 14 de la Figura 2A, múltiples cámaras se disponen periféricamente al nivel de la cámara de la torre de cámara 14 (8 a 15 pulgadas), separadas equiangularmente. El número de cámaras se determina por el campo de visión de las cámaras y el ángulo que se va a abarcar, y en el caso de formar una vista panorámica unida, el ángulo acumulativo abarcado debe solaparse entre las cámaras individuales. En el caso, por ejemplo, de la Figura 2A, cuatro cámaras 2a, 2b, 2c, 2d (etiquetadas 2a-2d) cada una con un campo de visión de 100-110 grados (mostrado en líneas discontinuas) se disponen a 90 grados entre sí, para proporcionar una vista acumulativa o una vista unida o unible de 360 grados sobre la torre de cámara 14.
En el caso, por ejemplo, de la Figura 2B, tres cámaras 2a, 2b, 2c (etiquetadas 2a-2c) cada una con un campo de visión de 130 grados o superior (mostrado en líneas discontinuas) se disponen a 120 grados entre sí, de nuevo para proporcionar una vista acumulativa o unible de 360 grados sobre la torre 14. El campo de visión vertical de las cámaras 2a-2d es menor que el campo de visión horizontal, por ejemplo, menor de 80 grados. Las imágenes, el video o las subescenas de cada cámara 2a-2d pueden procesarse para identificar los rumbos o las subescenas de interés antes o después de la corrección óptica conocida, tal como la unión, la deformación o la compensación de distorsión, pero típicamente se corregirían antes de la salida.
En el arreglo de la torre de cámara 14 de la Figura 2C, una única cámara de ojo de pez o casi ojo de pez 3a, dirigida hacia arriba, se dispone encima del nivel de la cámara de la torre de cámara 14 (8 a 15 pulgadas). En este caso, la lente de la cámara de ojo de pez se dispone con una vista horizontal continua de 360 y un campo de visión vertical de aproximadamente 215 (por ejemplo, 190-230) grados (mostrado en líneas discontinuas). Alternativamente, una lente o una única cámara catadióptrica de "imagen cilíndrica" 3b, por ejemplo, que tiene una carcasa cilíndrica transparente, un espejo parabólico superior, un poste central negro, una configuración de lente telecéntrica como se muestra en la Figura 2D, se dispone con una vista horizontal continua de 360 grados, con un campo de visión vertical de aproximadamente 40-80 grados, centrado aproximadamente en el horizonte. En el caso de cada una de las cámaras de imagen cilíndricas y de ojo de pez, el campo de visión vertical, colocado entre 8-15 pulgadas por encima de una mesa de reuniones, se extiende más abajo del horizonte, lo que permite que los asistentes M1, M2... Mn alrededor de una mesa de reuniones puedan fotografiarse al nivel de la cintura o más abajo. Las imágenes, el video o las subescenas de cada cámara 3a o 3b pueden procesarse para identificar rumbos o subescenas de interés antes o después de la corrección óptica conocida por lentes de ojo de pez o catadióptricos, tal como la deformación o la compensación de distorsión, pero típicamente se corregirían antes de la salida.
En el arreglo de la torre de cámara 14 de la Figura 2L, múltiples cámaras se disponen periféricamente al nivel de la cámara de la torre de cámara 14 (8 a 15 pulgadas), separadas equiangularmente. En este caso, el número de cámaras no pretende formar una vista panorámica unida completamente contigua, y el ángulo acumulativo abarcado no se solapa entre las cámaras individuales. En el caso de, por ejemplo, la Figura 2L, dos cámaras 2a, 2b, cada una con un campo de visión de 130 grados o superior (mostrado en líneas discontinuas) se disponen a 90 grados entre sí, para proporcionar una vista separada incluida de aproximadamente 260 grados o superior en ambos lados de la torre de cámara 14. Este arreglo sería útil en el caso de mesas de conferencias CT más largas. En el caso, por ejemplo, de la Figura 2E, las dos cámaras 2a-2b son panorámicas y/o giratorias alrededor de un eje vertical para cubrir los rumbos de interés B1, B2...Bn discutidos en la presente descripción. Las imágenes, el video o las subescenas de cada cámara 2a-2b pueden escanearse o analizarse como se discute en la presente descripción antes o después de la corrección óptica.
En las Figuras 2F y 2G, se muestran arreglos del extremo o cabecera de la mesa, es decir, cada una de las torres de cámara 14 mostradas en las Figuras 2F y 2G pretenden colocarse ventajosamente en la cabecera de una mesa de conferencias CT. Como se muestra en las Figuras 3A-6A, a menudo se coloca una gran pantalla de panel plano FP para presentaciones y videoconferencias en la cabecera o al extremo de una mesa de conferencias CT, y los arreglos de las Figuras 2F y 2G se colocan alternativamente directamente frontal y cerca del panel plano FP. En el arreglo de la torre de cámara 14 de la Figura 2F, dos cámaras con un campo de visión de aproximadamente 130 grados se colocan a 120 grados entre sí, lo que cubre dos lados de una larga mesa de conferencias CT. Una pantalla y una interfaz táctil 12 se dirige hacia abajo de la mesa (particularmente útil en el caso de que no haya un panel plano FP en la pared) y muestra un cliente para el software de videoconferencia. Esta pantalla 12 puede ser una tableta o dispositivo móvil conectado, conectable o extraíble. En el arreglo de la torre de cámara de la Figura 2G, una cámara de alta resolución 7, opcionalmente de inclinación (opcionalmente conectada a su propio software o instancia de cliente de teleconferencia independiente) puede dirigirse a un objeto de interés (tal como una pizarra blanca WB o una página o papel en la superficie de la mesa CT), y dos cámaras panorámicas/o de inclinación 5a, 5b independientemente de, por ejemplo, un campo de visión de 100-110 grados se dirigen o pueden dirigirse para cubrir los rumbos de interés.
Las imágenes, el video o las subescenas de cada cámara 2a, 2b, 5a, 5b, 7 pueden escanearse o analizarse como se discute en la presente descripción antes o después de la corrección óptica. La Figura 2H muestra una variación en la que dos unidades idénticas, cada una tiene dos cámaras 2a-2b o 2c-2d de 100-130 grados dispuestas a una separación de 90 grados, pueden usarse independientemente como unidades de vista de >180 grados en la(s) cabecera(s) o extremo(s) de una mesa CT, pero también opcionalmente combinarse espalda con espalda para crear una unidad sustancialmente idéntica a la de la Figura 2A que tiene cuatro cámaras 2a-2d que abarcan toda una habitación y se colocan bien en el medio de un mesa de conferencias CT. Cada una de las unidades de torre 14, 14 de la Figura 2H se proporcionaría con una interfaz de red y/o una interfaz física para formar la unidad combinada. Las dos unidades pueden, además o alternativamente, disponerse libremente o disponerse en conjunto, como se discute con respecto a las Figuras 2K, 6A, 6B y 14 más abajo.
En la Figura 2J, una lente o cámara de ojo de pez 3a (intercambiable física y/o conceptualmente con una lente catadióptrica 3b) similar a la cámara de la Figura 2c, se dispone encima del nivel de la cámara de la torre de cámara 14 (8 a 15 pulgadas). Una cámara giratoria, de alta resolución y opcionalmente de inclinación 7 (opcionalmente conectada a su propio software o instancia de cliente de teleconferencia independiente) puede dirigirse a un objeto de interés (tal como una pizarra blanca WB o una página o papel en la superficie de la mesa CT). Como se muestra en las Figuras 6A, 6B y 14, este arreglo funciona ventajosamente cuando un primer cliente de teleconferencia (en la Figura 14 en o conectado a la "Pantalla (Local) de la Sala de Reuniones) recibe las subescenas compuestas de la cámara de escena SC 3a, 3b como una imagen de una única cámara o Salida Compuesta CO, por ejemplo, a través de la primera interfaz o canal de red física o virtual 10a, y un segundo cliente de teleconferencia (en la Figura 14, residente dentro del dispositivo 100 y conectado a Internet a través de la segunda interfaz o canal de red física o virtual 10b) recibe la imagen de alta resolución independiente de la cámara 7.
La Figura 2K muestra un arreglo similar, de manera similar en la que los canales de videoconferencia separados para las imágenes de las cámaras 3a, 3b y 7 pueden ser ventajosos, pero en el arreglo de la Figura 2K, cada cámara 3a, 3b frente a la 7 tiene su propia torre 14 y opcionalmente se conecta a la torre restante 14 a través de la interfaz 15 (que puede ser por cable o inalámbrica). En el arreglo de la Figura 2K, la torre panorámica 14 con la cámara de escena SC 3a, 3b puede colocarse en el centro de la mesa de conferencias CT de la reunión, y la torre 14 dirigida de alta resolución puede colocarse en la cabecera de la mesa CT, o en cualquier lugar donde una imagen del cliente separada, de alta resolución y dirigida o un flujo de video sería de interés. Las imágenes, el video o las subescenas de cada cámara 3a, 7 pueden escanearse o analizarse como se discute en la presente descripción antes o después de la corrección óptica.
Uso de la cámara de reunión
Con referencia a las Figuras 3A, 3B y 12, de acuerdo con una modalidad del presente método de composición y emisión de escenas fotográficas, se coloca un dispositivo o cámara de reunión 100 (o 200) encima, por ejemplo, de una mesa de conferencias CT circular o cuadrada. El dispositivo 100 puede ubicarse de acuerdo con la conveniencia o intención de los participantes de la reunión M1, M2, M3... Mn.
En cualquier reunión típica, los participantes M1, M2...Mn se distribuirán angularmente con respecto al dispositivo 100. Si el dispositivo 100 se coloca en el centro de los participantes M1, M2... Mn, los participantes pueden capturarse, como se discute en la presente descripción, con una cámara panorámica. Por el contrario, si el dispositivo 100 se coloca a un lado de los participantes (por ejemplo, en un extremo de la mesa o se monta en un panel plano FP), entonces una cámara ancha (por ejemplo, 90 grados o más) puede ser suficiente para abarcar los participantes m1, M2...Mn.
Como se muestra en la Figura 3A, los participantes M1, M2...Mn tendrán cada uno un respectivo rumbo B1, B2...Bn desde el dispositivo 100, por ejemplo, medido con fines ilustrativos desde un origen OR. Cada rumbo B1, B2...Bn puede ser un intervalo de ángulos o un ángulo nominal. Como se muestra en la Figura 3B, una escena panorámica o ancha SC de ojo de pez "desenrollada", proyectada o deformada incluye imágenes de cada participante M1, M2...Mn, dispuestas en el respectivo rumbo B1, B2...Bn esperado. Particularmente en el caso de mesas CT rectangulares y/o un arreglo del dispositivo 100 a un lado de la mesa CT, las imágenes de cada participante M1, M2...Mn pueden escorzarse o distorsionarse en perspectiva de acuerdo con el ángulo de orientación del participante (representado aproximadamente en la Figura 3B y a través de los dibujos con una dirección de escorzo esperada). La corrección de perspectiva y/o geometría visual, como se conoce bien por un experto en la técnica, puede aplicarse a imágenes, subescenas o la escena SC escorzada o de perspectiva distorsionada, pero puede no ser necesaria.
Detección de la cara y ensanchamiento
Como un ejemplo, las bibliotecas y API modernas de detección de la cara (por ejemplo, FaceDetector de Android. clase Face, clase CIDetector y objeto CIFaceFeature de Objective C, clase CascadeClassifier de OpenCV mediante el uso de cascadas Haar, entre más de 50 API y SDK disponibles) que usan algoritmos comunes generalmente devuelve la distancia interpupilar, así como también posiciones de características faciales y pose facial en el espacio. Un piso aproximado para una estimación del ancho de la cara puede ser aproximadamente dos veces la distancia/ángulo interpupilar, con un techo aproximado de tres veces la distancia/ángulo interpupilar si las orejas del participante Mn se van a incluir en el intervalo. Un suelo aproximado para la estimación del ancho de un retrato (es decir, la cabeza más algo del ancho de los hombros) puede ser dos veces el ancho/ángulo de la cara, con un techo aproximado de cuatro veces el ancho/ángulo de la cara. Como alternativa, puede usarse un ángulo fijo u otra configuración más directa del ancho de la subescena.
Las Figuras 4A-4B y 5A-5B muestran una identificación ilustrativa de dos etapas y/o separada tanto del ancho de la cara como del ancho de los hombros (cualquiera de los cuales puede ser un ancho mínimo como se discute en la presente descripción para establecer un ancho de subescena inicial). Como se muestra en la Figura 4A y 4B, un ancho de la cara FW1, FW2...FWn establecido de acuerdo con la distancia interpupilar u otro análisis dimensional de las características faciales (característica, clase, color, segmento, parche, textura, clasificador entrenado u otra característica) se obtiene de la escena panorámica SC. Por el contrario, en las Figuras 5A, 5B, 6A y 6B, se establece un ancho de hombros SW1, SW2...SWn de acuerdo con el mismo análisis, escalado aproximadamente por 3 o 4 veces, o de acuerdo con una resolución o ancho acústico predeterminado.
Composición de subescenas separadas angularmente
Las Figuras 7A y B muestran una vista de arriba hacia abajo de un caso de uso de la cámara de reunión 100 que muestra una mesa de conferencias CT de aproximadamente diez asientos y una señal SC de imagen panorámica de la cámara de reunión, respectivamente, que muestra cinco participantes M1, M2, M3, M4 y M5, e incluye una representación de una identificación de un ancho mínimo visual Mín.2 y el correspondiente rumbo de interés B5 del intervalo angular y un ancho mínimo acústico Mín.5 y el rumbo de interés B2 del vector correspondiente.
En la Figura 7A, la cámara de reunión 100 se ubica en el centro de la mesa de conferencias CT larga para 10 personas. Como tal, los participantes M1, M2, M3 hacia el centro de la mesa CT son los menos escorzados y ocupan la mayor área de la imagen y vista angular de la cámara 100, mientras que los participantes M5 y M4 hacia el extremo de la mesa CT son los más escorzados y ocupan el menor área de la imagen.
En la Figura 7B, la señal SC de video de la escena general es, por ejemplo, una señal de video de 360 grados, que incluye a todos los participantes M1...M5. La mesa de reuniones CT aparece en la escena SC con una forma de "W" distorsionada característica de las vistas panorámicas, mientras que los participantes M1...M5 aparecen en diferentes tamaños y con diferentes aspectos escorzados (representados simple y esquemáticamente con cuerpos rectangulares y cabezas ovaladas) en dependencia de su posición y distancia de la cámara de reunión 100. Como se muestra en las Figuras 7A y 7B, cada participante M1...M5 puede representarse en la memoria 8 por un respectivo rumbo B1...B5, determinado por localización acústica o visual o sensor de sonido, movimiento o características. Como se representa en las Figuras 7A y 7B, el participante M2 puede haberse localizado mediante la detección de una cara (y tiene un rumbo B2 similar a un vector correspondiente y un ancho mínimo Min.2 grabado en la memoria, determinado proporcional al ancho de la cara derivado de una heurística detección de la cara), y el participante M5 puede haberse localizado por la formación del haz, la resistencia relativa de la señal y/o el tiempo de vuelo de las señales de audio similares al habla (y tiene un rumbo B5 similar al sector correspondiente y un ancho mínimo Min.5 grabado en la memoria, determinado proporcional a una resolución aproximada de la serie acústica 4). La Figura 8A muestra una vista esquemática de una señal de video de la cámara de reunión 100, anchos mínimos Min.n, extracción de señales de video de la subescena SS2, SS5 y una señal de video panorámica SC.R para componerse en una señal de video de la escena del escenario STG, CO. La porción superior de la Figura 8A reproduce esencialmente la Figura 7B. Como se muestra en la Figura 8A, la señal SC de video de la escena general de la Figura 7B puede submuestrearse de acuerdo con los rumbos de interés (limitado en este ejemplo al rumbo B2 y B5) y anchos (limitado en este ejemplo al ancho Min.2 y Min.5). La señal de video de la subescena SS2 es al menos tan ancha como (determinado visualmente) el límite de ancho de la cara Min.2, pero puede volverse más ancha o escalarse más ancha con relación al ancho, la altura y/o el área disponible del escenario STG o la relación de aspecto de la salida compuesta CO y el área disponible. La señal de video de la subescena SS5 es al menos tan ancha como la aproximación acústica Min.5 (determinada acústicamente), pero puede volverse o escalarse más ancha y limitarse de manera similar. La escena panorámica reducida SC.R en esta captura es una versión recortada de la parte superior y la parte inferior de la escena general SC, en este caso recortada a una relación de aspecto de 10:1. Alternativamente, la escena panorámica reducida SC.R puede derivarse de la señal de video de la escena panorámica general SC por escala proporcional o anamórfica (por ejemplo, las secciones de la parte superior y la parte inferior permanecen, pero se comprimen más que las porciones intermedias). En cualquier caso, en el ejemplo de las Figuras 8A y 8B, tres fuentes de señal de video diferentes SS2, SS5 y SC.R están disponibles para componerse en un escenario STG o salida compuesta CO.
La Figura 8B reproduce esencialmente la porción inferior de la Figura 8A y muestra una vista esquemática de las señales de video de la subescena SS2, SS5 y una señal de video panorámica SC.R para componerse en una señal de video de la escena del escenario STG o Co . Las Figuras 8C a 8E muestran tres posibles salidas compuestas o señales de video de la escena del escenario STG o CO.
En la salida compuesta CO o la señal de video de la escena del escenario STG que se muestra en la Figura 8C, la señal de video panorámica reducida SC.R se compone completamente sobre la parte superior del escenario STG, que ocupa en este caso menos de 1/5 o 20% del área del escenario. La subescena SS5 se compone para ocupar al menos su área mínima, no se escala en general, pero se ensancha para llenar aproximadamente A del ancho del escenario. La subescena SS2 también se compone para ocupar al menos su área mínima (considerablemente menor), no se escala en general y también se ensancha para llenar aproximadamente A del ancho del escenario. En esta salida compuesta CO, se le dan a las dos subescenas aproximadamente la misma área, pero los participantes tienen diferentes tamaños aparentes correspondientes a su distancia de la cámara 100. Tenga en cuenta, también, que el orden en el sentido de las manecillas del reloj o de izquierda a derecha de las dos subescenas como se componen es el mismo que el orden de los participantes dentro de la sala o los rumbos de interés de la cámara 100 (y como aparecen en la vista panorámica reducida SC.R). Además, cualquiera de las transiciones discutidas en la presente descripción puede usarse en componer las señales de video de la subescena SS2, SS5 en la señal de video del escenario STG. Por ejemplo, ambas subescenas pueden simplemente llenar instantáneamente el escenario STG; o una puede deslizarse desde su dirección de escenario de izquierda-derecha correspondiente para llenar todo el escenario, luego reducirse progresivamente por el otro deslizándose desde su dirección de escenario de izquierda-derecha correspondiente, o similar, en cada caso la ventana de subescena, cuadro, contorno o similar muestra su flujo de video a través de toda la transición.
En la salida compuesta CO o la señal de video de la escena del escenario STG mostrada en la Figura 8D, la señal de video panorámica reducida SC.R se compone de manera similar en la escena STG, pero cada una de las señales SS5 y SS2 se han escalado o ampliado proporcionalmente de manera que los participantes M5, M2 ocupan más del escenario STG. El ancho mínimo de cada señal SS5 y SS2 también se representa ampliado, con las señales SS5 y SS2 que aún ocupan no menos de sus respectivos anchos mínimos, pero cada una se ensancha para llenar aproximadamente A del escenario (en el caso de SS5, el ancho mínimo ocupa A del escenario). Los participantes M5, M3 tienen un tamaño sustancialmente equivalente sobre el escenario STG o dentro de la señal de salida compuesta CO.
En la salida compuesta CO o la señal de video de la escena del escenario STG mostrada en la Figura 8E, la señal de video panorámica reducida SC.R se compone de manera similar en la escena STG, pero cada una de las señales SS5 y s S2 se han escalado o ampliado circunstancialmente. Las señales de la subescena SS5 y SS2 aún ocupan no menos de sus anchos mínimos respectivos, pero cada una se ensancha para llenar diferentes cantidades del escenario. En este caso, la señal de la subescena SS5 no se ha escalado o ampliado, pero tiene un ancho mínimo más ancho así como también ocupa más de 2/3 del escenario SG. Por otro lado, el ancho mínimo de la señal SS2 se representa ampliado, lo que ocupa aproximadamente 3 veces su ancho mínimo. Una situación en la que surgirían las proporciones relativas y el estado de la Figura 8E puede ser en la que no pueda realizarse una localización visual sobre el participante M5, lo que da un rumbo de interés ancho e incierto (nivel de confianza bajo) y un ancho mínimo ancho; y además, donde el participante M5 continúa hablando durante un largo período de tiempo, lo que aumenta opcionalmente la parte de la subescena SS5 del escenario STG. Al mismo tiempo, el participante M2 puede tener una detección del ancho de la cara altamente confiable, lo que permite escalar y/o ensanchar la subescena SS2 para consumir más que su ancho mínimo.
La Figura 9A también muestra una vista esquemática de una señal de video de la cámara de reunión 100, anchos mínimos Min.n, y extracción de señales de video de la subescena SSn alternativas y una señal de video panorámica SC.R alternativa para componerse en una señal de video de la escena del escenario. La porción superior de la Figura 9A reproduce esencialmente la Figura 7B, excepto que el participante M1 se haya convertido en el último orador, con una subescena SS1 correspondiente que tiene un ancho mínimo correspondiente Min.1. Como se muestra en la Figura 9A, la señal de video de la escena general SC de la Figura 7B puede submuestrearse de acuerdo con los rumbos de interés (ahora rumbos B1, B2 y B5) y anchos (ahora anchos Min.1, Min.2 y Min.5). Las señales de video de la subescena SS1, SS2 y SS5 son al menos tan anchas como (visualmente, acústicamente o determinado por sensor) sus anchos mínimos respectivos Min. 1, Min.2 y Min.5, pero pueden volverse más anchas o escalarse más anchas con relación al ancho, la altura y/o el área disponible del escenario STG o la relación de aspecto de la salida compuesta CO y el área disponible. La escena panorámica reducida SC.R en esta captura es una versión recortada de la parte superior, la parte inferior y lateral de la escena general SC, en este caso recortada para abarcar solo los oradores más relevantes/recientes M1, M2 y M5, con una relación de aspecto de aproximadamente 7,5:1. En el ejemplo de las Figura 9A y 9B, cuatro fuentes de señal de video diferentes SS1, SS2, SS5 y SC.R están disponibles para componerse en un escenario STG o salida compuesta CO.
La Figura 9B reproduce esencialmente la porción inferior de la Figura 9A y muestra una vista esquemática de señales de video de la subescena y una señal de video panorámica que se van a componer en una señal de video de la escena del escenario. Las Figuras. 9C a 9E muestran tres posibles salidas compuestas o señales de video de la escena del escenario.
En la salida compuesta CO o la señal de video de la escena del escenario STG mostrada en la Figura 9C, la señal de video panorámica reducida SC.R se compone casi por completo sobre la parte superior del escenario STG, que ocupa en este caso menos de 1/4 del área del escenario. La subescena SS5 se compone nuevamente para ocupar al menos su área mínima, no se escala en general, pero se ensancha para llenar aproximadamente 1/3 del ancho del escenario. Las subescenas SS2 y SS1 también se componen para ocupar al menos sus áreas mínimas menores, no se escalan en general y también se ensanchan para llenar aproximadamente 1/3 del ancho del escenario cada una. En esta salida compuesta CO, las tres subescenas tienen aproximadamente la misma área, pero los participantes tienen diferentes tamaños aparentes que corresponden a su distancia de la cámara 100. El orden de izquierda a derecha o en el sentido de las manecillas del reloj de las dos subescenas compuestas o en transición sigue siendo el mismo que el orden de los participantes dentro de la sala o los rumbos de interés de la cámara 100 (y como aparecen en la vista panorámica reducida SC.R). Además, cualquiera de las transiciones discutidas en la presente descripción puede usarse en componer las señales de video de la subescena SS1, SS2, SS5 en la señal de video del escenario STG. En particular, las transiciones son menos discordantes como transiciones deslizantes que se acercan en o desde el mismo orden de izquierda a derecha que la vista panorámica reducida SC.R (por ejemplo, si M1 y M2 ya estaban en el escenario, M5 debería deslizarse desde la derecha del escenario; si M1 y m 5 ya estaban en el escenario, M2 debería deslizarse desde la parte superior o desde la parte inferior entre ellos; y si M2 y M5 ya estaban en el escenario, M1 debería deslizarse desde la izquierda del escenario, para preservar el orden de M1, M2, M5 de la vista panorámica SC.R).
En la salida compuesta CO o la señal de video de la escena del escenario STG mostrada en la Figura 9D, la señal de video panorámica reducida SC.R se compone de manera similar en la escena STG, pero cada una de las señales SS1, SS2 y SS5 se han escalado o ampliado proporcionalmente de manera que los participantes M1, M2, M5 ocupan más del escenario STG. El ancho mínimo de cada señal SS1, SS2, SS5 también se representa ampliado, con las señales SS1, SS2, SS5 que aún ocupan no menos de su respectivo ancho mínimo ampliado, pero la subescena SS5 se ensancha para llenar un poco más que su ancho mínimo ampliado en el escenario, con SS5 que ocupa el 60 por ciento del ancho del escenario, SS2 que ocupa solo el 15 por ciento y SS3 que ocupa el 25 por ciento restante Los participantes M1, M2, M5 tienen una altura o tamaño de cara sustancialmente equivalente en el escenario STG o dentro de la señal de salida compuesta CO, aunque el participante M2 y la subescena SS2 pueden recortarse sustancialmente para mostrar solo un poco más que el ancho de la cabeza y/o el cuerpo.
En la salida compuesta CO o la señal de video de la escena del escenario STG mostrada en la Figura 9E, la señal de video panorámica reducida SC.R se compone de manera similar en la escena STG, pero cada una de las señales SS1, SS2, SS5 se ha escalado o ampliado circunstancialmente. Las señales de la subescena SS1, SS2, SS5 aún ocupan no menos de sus anchos mínimos respectivos, pero cada una se ensancha para llenar diferentes cantidades del escenario. En este caso, ninguna de las señales de la subescena SS1, SS2, SS5 se ha escalado o ampliado, pero la subescena SS1, con el orador M1 más reciente o relevante, ha ocupado más de A del escenario SG. Por otro lado, cada una de las subescenas SS2 y SS5 ocupan una parte más pequeña o reducida del escenario STG, pero con el ancho mínimo de la subescena SS5, que causa que cualquier reducción adicional en la parte del escenario STG se tome de la subescena SS2 o SS1. Una situación en la que surgirían las proporciones relativas y el estado de la Figura 9E puede ser en la que puede realizarse una localización visual sobre el participante M1, pero donde el participante M1 continúa hablando durante un largo período de tiempo, que aumenta opcionalmente la parte de la subescena SS1 del escenario STG versus las otras dos subescenas.
En la escena panorámica SC o la escena panorámica reducida SC.R representada en la Figura 9F, la cámara de reunión 1000 no se ha colocado en el centro de la mesa CT, sino hacia un extremo de la mesa CT (por ejemplo, como se muestra por la posición de la línea discontinua a la derecha de la Figura 7A), con un panel plano FP que muestra a un participante remoto de la reunión. En este caso, la mesa de conferencia CT vuelve a aparecer como una forma de "W" altamente distorsionada. Como se muestra en la parte superior de la Figura 9F, si la cámara de reunión 100 o una dirección de índice u origen OR de la escena panorámica Sc se orienta de manera que los límites de la escena panorámica SC de alta relación de aspecto "dividen" la mesa de conferencia CT, es bastante difícil referenciar las posiciones de las personas alrededor de la mesa CT. Sin embargo, la cámara de reunión 100 o la dirección de índice u origen OR de la escena panorámica debe disponerse de modo que la mesa CT sea contigua y/o todas las personas se coloquen hacia un lado, la escena es más natural. De acuerdo con las presentes modalidades, el procesador 6 puede realizar un análisis de imagen para cambiar la posición de índice o la posición de origen de la imagen panorámica. En un ejemplo, una posición de índice o posición de origen de la imagen panorámica puede "girarse" de modo que se maximice en área una única segmentación contigua de los parches de las imágenes correspondientes a las áreas de la mesa (por ejemplo, la mesa no se divide). En otro ejemplo, una posición de índice o posición de origen de la imagen panorámica puede "girarse" de modo que los dos reconocimientos de la cara más cercanos o más grandes estén más distantes entre sí (por ejemplo, la mesa no se divide). En un tercer ejemplo, En otro ejemplo, una posición de índice o posición de origen de la imagen panorámica puede "girarse" de modo que la segmentación de altura más baja de los parches de las imágenes correspondientes a las áreas de la mesa se ubique en el borde panorámico (por ejemplo, la forma de "W " se gira para colocar el borde de la mesa más cerca de la cámara de reunión 100 en el borde panorámico).
La Figura 10A muestra una vista esquemática de una posible salida compuesta CO o señal de video de la escena del escenario STG, y reproduce sustancialmente la señal de salida compuesta CO o señal de video del escenario STG de la Figura 9D, con una señal panorámica reducida compuesta para ocupar menos de 1V de la parte superior del escenario STG, y tres señales de video de la subescena diferentes compuestas para ocupar diferentes cantidades del resto del escenario STG. La Figura 10B muestra una vista esquemática alternativa de una posible salida compuesta o señal de video de la escena del escenario, con tres señales de video de la subescena diferentes adyacentes entre sí compuestas para ocupar diferentes cantidades del escenario STG o señal de salida compuesta CO.
Las Figuras 11A y 11B muestran vistas esquemáticas de dos formas alternativas en que el software de videoconferencia puede mostrar la salida compuesta o la señal de video de la escena del escenario. En la Figura 11A y la Figura 11b , la señal de salida compuesta CO se recibe (por ejemplo, a través del puerto USB) como una señal de una única cámara con acompañamiento de audio (opcionalmente mezclado y/o formado por haces para enfatizar la voz del orador actual), y se integra en la aplicación de videoconferencia como una señal de una única cámara. Como se muestra en la Figura 11A, a cada señal de una única cámara se le da una ventana separada, y una señal seleccionada o activa o de primer plano, tal como se reproduce la señal de salida compuesta CO como una miniatura. Por el contrario, en el ejemplo mostrado en la Figura 11B, a una señal de una única cámara seleccionada se le da tanta área en la pantalla como sea pragmática, y la señal seleccionada o activa o de primer plano, tal como la señal de salida compuesta CO, se presenta como una miniatura sombreada o miniatura atenuada. Identificación y composición de subescenas
Como se muestra en la Figura 12, pueden crearse y seguirse nuevas subescenas SS1, SS2...SSn en dependencia de la escena, por ejemplo, tras reconocimientos dentro de la señal de video panorámica SC, en la etapa S10. Subsecuentemente, en la etapa S30, las subescenas SS1, SS2...SSn pueden componerse de acuerdo con los rumbos de interés, condiciones y reconocimientos discutidos en la presente descripción. La salida compuesta o escena del escenario STG, CO puede entonces emitirse en la etapa S50.
En detalle adicional, como se muestra en la Figura 13, y como se muestra en las Figuras 3A a 7B inclusive, en la etapa S12 el dispositivo 100 captura al menos un campo de visión angular de 90 grados de la escena de gran angular SC (por ejemplo, un ángulo entre 90-360 grados) de una o más cámaras al menos parcialmente panorámicas 2 o 2a...2n.
El procesamiento subsecuente para el seguimiento y la identificación de la subescena puede llevarse a cabo en una escena SC nativa, distorsionada o no unida, o puede llevarse a cabo en una escena SC desenrollada, con distorsión corregida o unida.
En la etapa S14, nuevos rumbos de interés B1, B2... Bn se obtienen a partir de la visión de gran angular SC mediante el uso de una o más técnicas de formación de haces, reconocimiento, identificación, vectorización u autoguiado.
En la etapa S16, uno o más rumbos nuevos se ensanchan desde un intervalo angular inicial (por ejemplo, 0-5 grados) hasta un intervalo angular suficiente para abarcar la cabeza de una persona típica y/o los hombros de una persona típica u otro ancho predeterminado (por ejemplo, medido en píxeles o intervalo angular). Tenga en cuenta que el orden de análisis puede invertirse, por ejemplo, primero puede detectarse una cara y luego puede determinarse un rumbo hacia la cara. El ensanchamiento puede tener lugar en una, dos o más etapas, con dos señalados en la presente descripción como un ejemplo; y el "ensanchamiento" no requiere un proceso de ensanchamiento progresivo, por ejemplo, el "ensanchamiento" puede significar establecer directamente un intervalo angular en base a una detección, reconocimiento, umbral o valor. Pueden usarse diferentes métodos para establecer el intervalo angular de una subescena. En algunos casos, tal como cuando dos o más caras están muy próximas entre sí, puede elegirse el "ensanchamiento" para incluir todas estas caras, aunque solo una esté en el rumbo de interés B1 preciso.
En la etapa S16, (y como se muestra en la Figura 5A y 5B), una subescena SS1, SS2...SSn de ancho de hombros puede establecerse o ajustarse como en la etapa S18 de acuerdo con la distancia interpupilar o la medida tomada de otras características faciales, cabeza, torso u otras visibles (característica, clase, color, segmento, parche, textura, clasificador entrenado u otra característica) pueden obtenerse de la escena SC. El ancho de la subescena SS1, SS2...SSn puede establecerse de acuerdo con un ancho de hombros (alternativamente de acuerdo con el ancho de la cara FW), o alternativamente como un ancho predeterminado relacionado con la resolución angular de la serie de micrófonos acústicos 4.
Alternativamente, en la etapa S16, puede establecerse un límite superior e/o inferior en el ancho de la subescena para cada uno o todos los rumbos de interés, o ajustarse en la etapa S18 como, por ejemplo, un pico, un promedio o un ancho de hombros representativo SW y ancho de la cara FW, respectivamente. Se debe señalar que las notaciones FW y SW se usan de manera intercambiable en la presente descripción como un "ancho de la cara" FW o "ancho de hombros" SW (es decir, un tramo de una cara u hombros para capturarse angularmente como una subescena) y una subescena SS del ancho de la cara o ancho de hombros resultante que representa el ancho de la cara FW o el ancho de hombros SW (es decir, un bloque de píxeles o subescena de ancho correspondiente identificado, obtenido, ajustado, seleccionado o capturado de la escena ancha SC).
En la etapa S16, o además o alternativamente en las etapas S16-S18, se obtiene una primera subescena discreta de al menos 20 grados de campo de visión angular (por ejemplo, FW1 y/o SW1) a partir de la escena de gran angular SC en un primer rumbo de interés B1, B2...Bn. Además o alternativamente a una configuración de campo de visión angular de al menos 20 grados (por ejemplo, FW1 y/o SW1), la primera subescena discreta FW1 y/o SW1 puede obtenerse de la escena de gran angular SC como un campo de visión angular que abarque al menos de 2 a 12 veces una distancia interpupilar (por ejemplo, específica a M1 o representativa de M1, M2...Mn), o además o alternativamente, un campo de visión angular escalado para capturar un ancho entre una distancia interpupilar (por ejemplo, específico a M1 o representativo de M1, M2...Mn) y un ancho de hombros (por ejemplo, específico a M1 o representativo de M1, M2...Mn). Una captura de subescena de un ancho de hombros SWn más ancho puede grabar un ancho de la cara FWn más estrecho para posterior referencia.
Si está disponible un segundo rumbo de interés B1, B2...Bn, en la etapa S16, o además o alternativamente en las etapas S16-S18, se obtiene una segunda subescena discreta (por ejemplo, FW2 y/o SS2) de manera(s) similar(es) desde la vista de gran angular SC en un segundo rumbo de interés, por ejemplo, B2. Si están disponibles los sucesivos rumbos de interés B3...Bn, se obtienen subescenas discretas sucesivas (por ejemplo, FW3...n y/o SS3...n) de manera similar(es) desde la vista de gran angular SC en los sucesivos rumbos de interés B3...Bn.
Los rumbos de interés primero y segundo B1, B2 (y los subsecuentes rumbos de interés B3...Bn), ya sea que se obtengan mediante la unión de diferentes imágenes de cámara o de una única cámara panorámica, pueden tener un origen angular sustancialmente común al primer rumbo de interés porque se obtienen del mismo dispositivo 100. Opcionalmente, pueden obtenerse uno o más rumbos de interés Bn adicionales de un origen angular diferente desde una cámara separada 5 o 7 del dispositivo 100, o desde una cámara en un dispositivo conectado (por ejemplo, un ordenador portátil, tableta o dispositivo móvil 40 conectado de la Figura 1A; o una cámara satelital 7 conectada en la torre satelital 14b de la Figura 2K).
Como se señaló, las subescenas SS establecidas, obtenidas o ensanchadas que representan los anchos FW o SW pueden ajustarse en la etapa S18, por ejemplo, (i) para que tengan un tamaño equivalente o que coincida con otras subescenas; (ii) para dividirse uniformemente o ser divisible con respecto a la relación de aspecto de la imagen de salida o la señal de flujo (por ejemplo, dividida en 2, 3 o 4 segmentos), opcionalmente no más abajo del piso de ancho o por encima del techo señalado previamente; (iii) para evitar solaparse con otras subescenas en puntos de interés cercanos; y/o (iv) para coincidir el brillo, el contraste u otras propiedades de video con otras subescenas. En la etapa S20 (que puede incluir las etapas de las Figuras 16-18 Modos Uno, Dos o Tres, en combinaciones razonables y operativas), los datos y/o metadatos relacionados con los rumbos de interés B1, B2...Bn identificados y las subescenas FW1, FW2...FWn y/o SS1, SS2...SSn pueden grabarse con fines de seguimiento. Por ejemplo, puede grabarse la ubicación relativa desde el origen OR (por ejemplo, determinada por sensores o cálculos), anchos, altura y/o cualquier parámetro ajustado señalado anteriormente.
Alternativamente, en la etapa S20, los datos característicos, predictivos o de seguimiento asociados con las subescenas pueden grabarse, por ejemplo, añadirse a una subescena, rumbo u otra base de datos de seguimiento de características en la etapa S20. Por ejemplo, las subescenas FW1, FW2...FWn y/o SS1, SS2...SSn pueden ser imágenes momentáneas, bloques de imagen o bloques de video, identificados dentro de una escena de imagen o video SC. En el caso del video, en dependencia del enfoque de compresión/descompresión para el video, los datos predictivos pueden asociarse con una escena o subescena y pueden grabarse como datos o metadatos asociados con una subescena, pero tenderán a ser parte de agregar nueva(s) subescena(s) para el seguimiento.
Tras la grabación del seguimiento u otros datos de interés, el procesamiento vuelve a la rutina principal.
Composición de subescenas por circunstancia
En la etapa S30 de la Figura 12, el procesador 6 puede componer subescenas SSn por las circunstancias (por ejemplo, por datos, banderas, marcas codificadas, configuraciones u otros parámetros de acción grabados como datos de seguimiento o como datos de escena, por ejemplo, en la etapa S20), es decir, combina la primera, opcionalmente la segunda y opcionalmente subsecuentes subescenas SSn discretas correspondientes a diferentes anchos FW1, FW2...FWn y/o SW1, SW2... SWn en una escena compuesta o imagen de una única cámara o señal de video STG o CO. En la presente descripción, la imagen de una única cámara o la señal de video STG, CO pueden referirse a un solo cuadro de video o un solo cuadro de video compuesto, que representa una señal de video o imagen de periférico USB (u otro bus periférico o red) o flujo correspondiente a una única cámara USB (u otro bus periférico o red).
En la etapa S32, el dispositivo 100, sus circuitos y/o su código ejecutable pueden identificar subescenas SSn relevantes para disponerse en una imagen combinada compuesta o flujo de video STG o CO. "Relevante" puede determinarse de acuerdo con los criterios discutidos con respecto a la identificación en la etapa S14 y/o actualización y seguimiento en la etapa S20. Por ejemplo, una subescena relevante sería la del orador más reciente; y una segunda subescena relevante puede ser la del segundo orador más reciente. Los dos oradores más recientes pueden ser los más relevantes hasta que un tercer orador se vuelva más relevante al hablar. Una modalidad en la presente descripción acomoda tres oradores dentro de las subescenas dentro de la escena compuesta, cada uno con un segmento igualmente ancho o un segmento lo suficientemente ancho para contener su cabeza y/u hombros. Sin embargo, también pueden acomodarse fácilmente dos oradores o cuatro oradores o más, en partes respectivamente más anchas o más estrechas del ancho de pantalla compuesto.
Podrían acomodarse razonablemente hasta ocho oradores al seleccionar subescenas SSn que encapsulan una cara solo en altura y ancho (por ejemplo, cuatro en una hilera superior, cuatro en una hilera inferior de la escena compuesta); y los arreglos de cuatro a ocho oradores pueden acomodarse mediante la pantalla y/o ventana apropiada (subescenas correspondientes a las ventanas), el almacenamiento intermedio y la composición (por ejemplo presentar subescenas como un mazo de cartas con solapamiento, o como anillos de visión escozados con oradores más relevantes más grandes y frontales y oradores menos relevantes más pequeños y posteriores). Con referencia a las Figuras 6A y 6B, las escenas SSn también pueden incluir contenido de pizarra blanca WB siempre que el sistema determine que WB es la escena más relevante para mostrar (por ejemplo, cuando una cámara secundaria 7 capta la imagen como se representa en la Figura 6A) La pizarra blanca o la escena de pizarra blanca WB pueden presentarse de forma destacada, al tomar la mayor parte o la mayor porción de la escena, mientras que los oradores M1, M2...Mn o SPKR pueden presentarse opcionalmente imagen en imagen con el contenido de la pizarra blanca WB.
En la etapa S34, el conjunto de subescenas SS1, SS2...SSn relevante se compara con las subescenas SSn previamente relevantes. Las etapas S34 y S32 pueden realizarse en orden inverso. La comparación determina si las subescenas SSn previamente relevantes están disponibles, si deben permanecer en el escenario STG o CO, deben eliminarse del escenario STG o CO, deben recomponerse en un tamaño o perspectiva más pequeño o más grande, o de cualquier otra manera necesitan cambiarse de una escena o escenario sTg o CO previamente compuesto. Si deben mostrarse nuevas subescenas SSn, es posible que haya demasiadas subescenas SSn candidatas para el cambio de escena. En la etapa S36, por ejemplo, puede comprobarse un umbral para el cambio de escena (esta etapa puede realizarse antes o entre las etapas S32 y S34). Por ejemplo, cuando un número de subescenas SSn discretas se vuelve mayor que un número de umbral (por ejemplo, 3), puede ser preferible emitir la escena de gran angular completa SC o una escena panorámica reducida SC.R (por ejemplo, tal como está, o segmentada y apilada para ajustarse dentro de la relación de aspecto de una cámara de un dispositivo periférico USB). Alternativamente, puede ser mejor presentar una escena de una única cámara en lugar de la escena compuesta de múltiples subescenas SSn o como la Salida Compuesta CO.
En la etapa S38, el dispositivo 100, sus circuitos y/o su código ejecutable pueden establecer miembros de subescena SS1, SS2...SSn y una orden para que haga la transición y/o se compongan la Salida Compuesta CO. En otras palabras, al haber determinado los miembros candidatos para el complemento de subescena SS1, SS2...SSn a emitirse como el escenario STG o CO, y si se cumplen o exceden cualquiera de las reglas o los umbrales para el cambio de escena, el orden de las escenas SSn y las transiciones mediante las cuales se añaden, eliminan, cambian o reorganizan pueden determinarse en la etapa S38. Se debe señalar que la etapa S38 es más o menos significativa en dependencia de las etapas anteriores y el historial del orador SPKR o M1, M2...Mn. Si dos o tres oradores M1, M2... Mn o SPKR se identifican y se muestran simultáneamente cuando el dispositivo 100 comienza a operar, la etapa S38 inicia con un borrón y cuenta nueva y sigue las reglas de relevancia predeterminadas (por ejemplo, presenta los oradores SPKR en el sentido de las manecillas del reloj; inicia con no más de tres oradores en la salida compuesta CO). Si los mismos tres oradores M1, M2...Mn permanecen relevantes, los miembros, el orden y la composición de la subescena pueden no cambiar en la etapa S38.
Como se señaló previamente, las identificaciones discutidas con referencia a la etapa S18 y las predicciones/actualizaciones discutidas con referencia a la etapa S20 pueden causar cambios en la Salida Compuesto CO en las etapas S32-S40. En la etapa S40, se determinan la transición y las composiciones a realizar.
Por ejemplo, el dispositivo 100 puede obtener de la escena panorámica o de gran angular SC una subescena SSn discreta subsecuente (por ejemplo, una tercera, cuarta o más) en un rumbo de interés subsecuente. En las etapas S32-S38, la subescena SSn subsecuente puede establecerse para componerse o combinarse en la escena compuesta o Salida Compuesta CO. Además, en las etapas S32-S38, otra subescena SSn distinta de la subescena subsecuente (por ejemplo, una subescena anterior o menos relevante) puede establecerse para eliminarse (mediante una transición compuesta) de la escena compuesta (luego compuesta y emitida como escena compuesta o Salida Compuesta CO formateada como una escena de una única cámara en la etapa S50).
Como ejemplo adicional o alternativo, el dispositivo 100 puede, en las etapas S32-S38, de acuerdo con la configuración de un criterio o criterios adicionales como se discute con referencia a las etapas S18 y/o S20 (por ejemplo, tiempo de habla, frecuencia de habla, audio frecuencia de la tos/estornudo/timbre, amplitud del sonido, coincidencia del ángulo del habla y reconocimiento de la cara), establecer una subescena SSn para componerse o combinarse en o eliminarse de la escena compuesta o Salida Compuesta CO. En las etapas S32-S38, solo las subescenas SSn subsecuentes que satisfacen los criterios de adición pueden establecerse para combinarse en la escena compuesta CO. En la etapa S40, se determinan las etapas de transición y composición a realizar. A continuación, la escena del escenario se compone y se emite como la Salida Compuesta CO formateada como una escena de una única cámara en la etapa S50.
Como ejemplo adicional o alternativo, el dispositivo 100 puede, en las etapas S32-S38, establecer una subescena SSn como una subescena protegida, protegida de eliminación en base a un criterio o criterios de retención como se discute con referencia a las etapas S18 y/o S20 (por ejemplo, tiempo de audio/habla, frecuencia de audio/habla, tiempo desde la última vez que se habló, etiquetado para retención). En las etapas S32-S38, retirar una subescena SSn distinta de la subescena subsecuente no establece una subescena protegida para eliminarse de la escena compuesta. En la etapa S40, se determinan la transición y las composiciones a realizar. A continuación, la escena compuesta se compone y se emite como la Salida Compuesta CO formateada como una escena de una única cámara en la etapa S50.
Como un ejemplo adicional o alternativo, el dispositivo 100 puede, en las etapas S32-S38, establecer una operación de énfasis de subescena SSn como se discute con referencia a las etapas S18 y/o S20 (por ejemplo, escala, parpadeo, genio, rebote, clasificación de cartas, ordenado, acorralado) en base a un criterio o criterios de énfasis (por ejemplo, orador repetido, presentador designado, orador más reciente, orador más fuerte, objeto que se gira en las manos/cambios de escena, actividad de escena de alta frecuencia en el dominio de frecuencia, mano levantada). En las etapas S32-S38, al menos de una de las subescenas SSn discretas puede establecerse para enfatizarse de acuerdo con la operación de énfasis de la subescena en base a un criterio o criterios de énfasis respectivos o correspondientes. En la etapa S40, se determinan la transición y las composiciones a realizar. A continuación, la escena compuesta se compone y se emite como la Salida Compuesta CO formateada como una escena de una única cámara en la etapa S50.
Como un ejemplo adicional o alternativo, el dispositivo 100 puede, en las etapas S32-S38, establecer una operación de recordatorio o notificación de participante de subescena como se discute con referencia a las etapas S18 y/o S20 (por ejemplo, parpadear una luz a la persona al lado de la subescena) en base a un sensor o criterio o criterios detectados (por ejemplo, demasiado silencioso, toque remoto). En las etapas S32-S38, puede establecerse una marca codificada de recordatorio local para que se active de acuerdo con la operación de notificación o recordatorio en base a un criterio o criterios detectados respectivos o correspondientes. En la etapa S40, se determinan la transición y las composiciones a realizar. A continuación, la escena compuesta se compone y se emite como la Salida Compuesta CO formateada como una escena de una única cámara en la etapa S50.
En la etapa S40, el dispositivo 100, sus circuitos y/o su código ejecutable generan la transición y la composición para representar cambios en el complemento de la subescena de la imagen compuesta de manera suave. Al seguir la composición de la Salida Compuesta CO de seguimiento u otros datos de interés, el procesamiento vuelve a la rutina principal.
Salida compuesta
En los etapas S52-S56 de la Figura 15, (opcionalmente en orden inverso) la escena compuesta STG o CO se formatea, es decir, se compone, para enviarse o recibirse como una escena de la única cámara; y/o las transiciones se representan o componen en búfer, pantalla o cuadro (en este caso, "búfer", "pantalla" o "cuadro" correspondiente a la salida de la vista de la única cámara). El dispositivo 100, sus circuitos y/o su código ejecutable pueden usar una ventana de composición o un administrador de pantalla, opcionalmente con aceleración de GPU, para proporcionar un búfer fuera de la pantalla para cada subescena y componer los búfer, junto con gráficos periféricos y gráficos de transición, en una imagen de una única cámara que representa una vista de una única cámara, y escribe el resultado en la salida o en la memoria de visualización. La ventana de composición o el circuito del administrador de subpantallas pueden realizar mezclas, desvanecimientos, escalas, rotaciones, duplicaciones, doblamientos, contorsiones, barajos, desenfoques u otro procesamiento en ventanas almacenadas en búfer, o representar sombras paralelas y animaciones tales como conmutación de volteo, conmutación de pila, conmutación de recubrimiento, conmutación de anillos, agrupación, mosaico y similares. El administrador de ventanas de composición puede proporcionar transiciones visuales en donde una subescena que entra en la escena compuesta puede componerse para añadirse, eliminarse o conmutarse con un efecto de transición. Las subescenas pueden aparecer o desaparecer gradualmente, encogerse o aumentarse visiblemente, irradiarse suavemente hacia adentro o hacia fuera. Todas las escenas que se componen o hacen la transición pueden ser escenas de video, por ejemplo, cada una de las cuales incluye un flujo de video en curo submuestreado de la escena panorámica SC.
En la etapa S52, las transiciones o la composición se representan (según sea necesario, de forma repetida, progresiva o continuamente) en la memoria de cuadro, búfer o video (señalar que las transiciones y la composición pueden aplicarse a cuadros individuales o flujos de video, y pueden ser procesos en cursos a través de muchos cuadros de video de la escena completa STG, CO y subescenas SS1, SS2...SSn de componentes individuales. En la etapa S54, el dispositivo 100, sus circuitos y/o su código ejecutable pueden seleccionar y hacer la transición de flujo(s) de audio. De forma similar al administrador de composición de ventana, escena, video o subescena, el(los) flujo(s) de audio puede enfatizarse o desenfatizarse, particularmente en el caso de una serie de formación de haces 4, para enfatizar las subescenas que se componen. De manera similar, puede realizarse la sincronización de audio con la escena de video compuesta.
En la etapa S56, el dispositivo 100, sus circuitos y/o su código ejecutable emiten la simulación de video y audio de una única cámara como la Salida de Composición CO. Como se señaló, esta salida es de una relación de aspecto y un recuento de píxeles que simulan una única, por ejemplo vista de cámara web de un dispositivo USB periférico, por ejemplo, una relación de aspecto menor de 2:1 y, típicamente, una relación de aspecto menor de 1,78:1, y puede usarse por software de teleconferencia grupal como una entrada de cámara web externa. Al representar la entrada de la cámara web como una vista mostrada, el software de teleconferencia tratará la Salida de Composición CO como cualquier otra cámara USB, y todos los clientes que interactúen con el dispositivo host 40 (o la versión del dispositivo 100 conectado directamente de la Figura 1B) presentarán la Salida de Composición CO en todas las vistas principales y en miniatura correspondientes al dispositivo host (o versión del dispositivo 100 directamente conectado de la Figura 1B).
Ejemplos de composición de subescena
Como se discute con referencia a las Figuras 12-16, la cámara de reunión 100 y el procesador 6 pueden componer (en la etapa S30) y emitir (en la etapa S50) una señal de video de una única cámara STG, CO. El procesador 6, conectado operativamente a la ROM/RAM 8, puede grabar una señal de video panorámica SC (en la etapa S12) que tiene una relación de aspecto sustancialmente de 2,4:1 o mayor, capturada desde una cámara ancha 2, 3, 5 que tiene un campo de visión angular horizontal de sustancialmente 90 grados o mayor. En una versión opcional, la señal de video panorámica tiene una relación de aspecto de sustancialmente 8:1 o mayor, capturada desde una cámara ancha que tiene un campo de visión angular horizontal de sustancialmente 360 grados.
El procesador 6 puede submuestrear (por ejemplo, en las etapas S32-S40) al menos dos señales de video de subescena SS1, SS2...SSn (por ejemplo, en las Figuras 8C-8E y 9C-9E, SS2 y SS5) en los respectivos rumbos de interés B1, B2...Bn desde la cámara ancha 100 (por ejemplo, en la etapa S14). El procesador 6 puede componer (al búfer, cuadro o memoria de video, en las etapas S32-S40) dos o más señales de video de la subescena SS1, SS2...SSn (por ejemplo, en las Figuras 8C-8E y 9C-9E, SS2 y SS5) una al lado de la otra para formar una señal de video de la escena del escenario CO, STG (en las etapas S52-S56) que tiene una relación de aspecto sustancialmente de 2:1 o menos. Opcionalmente, para llenar densamente la mayor cantidad posible de señal de video de una única cámara (lo que conduce a vistas más grandes de los participantes), sustancialmente el 80% o más del área de la señal de video de la escena del escenario CO, STG puede submuestrearse de la señal de video panorámica SC. El procesador 6, conectado operativamente a la interfaz USB/LAN 10, puede emitir la señal de video de la escena del escenario CO, STG formateada como una señal de video de una única cámara (como en las etapas S52-S56).
Óptimamente, el procesador 6 submuestrea una señal de video de la subescena SS1, SS2...SS3 adicional (por ejemplo, tercera, cuarta o subsecuente) (por ejemplo, en las Figuras 9C-9E, SS1) en un respectivo rumbo de interés B1, B2...Bn de la señal de video panorámica SC (y/u opcionalmente de búfer, cuadro o memoria de video, por ejemplo, en GPU 6 y/o ROM/RAM 8, y/o directamente desde la cámara ancha 2, 3, 5). El procesador puede luego componer las dos o más señales de video de la subescena SS1, SS2...SS3 (por ejemplo, en las Figuras 9C-9E, SS2 y s S5) compuestas inicialmente en el escenario STG, CO junto con una o más señales de video de la subescena SS1, SS2...SSn adicionales (por ejemplo, en las Figuras 9C-9E, SS1) para formar una señal de video de la escena del escenario STG, CO que tiene una relación de aspecto sustancialmente de 2:1 o menos, e incluye una pluralidad de señales de video de la subescena una al lado de la otra (por ejemplo, dos, tres, cuatro o más señales de video de la subescena SS1, SS2...SSn compuestas en una hilera o en una cuadrícula). Se debe señalar que el procesador 6 puede establecer o almacenar en la memoria uno o más criterios adicionales para uno o más rumbos de interés o unas señales de video de la subescena SS1, SS2... SSn. En este caso, por ejemplo, solo aquellas señales de video de la subescena SS1, SS2...SSn adicionales que satisfacen un criterio adicional (por ejemplo, calidad suficiente, iluminación suficiente, o similar) pueden hacer la transición en la señal de video de la escena del escenario STG, CO.
Además o alternativamente, la señal de video de la subescena SS1, SS2...SSn adicional puede componerse por el procesador 6 en la señal de video de la escena del escenario STG, CO al reemplazar una o más de las señales de video de la subescena SS1, SS2...SSn que ya puede componerse en el escenario STG, CO para formar una señal de video de la escena del escenario STG, CO, que todavía tiene una relación de aspecto de sustancialmente 2:1 o menos. A cada señal de video de la subescena SS1, SS2...SSn que se va a componer puede asignársele un ancho mínimo Min.1, Min.2...Min.n, y al completar cada transición respectiva a la señal de video de la escena del escenario STG, CO, cada señal de video de la subescena SS1, SS2...SSn puede componerse una al lado de la otra en sustancialmente no menos de su ancho mínimo Min.1, Min.2...Min.n para formar la señal de video de la escena del escenario STG, CO.
En algunos casos, por ejemplo, en la etapa S16-S18, el procesador 6 puede aumentar el ancho compuesto de cada respectiva señal de video de la subescena SS1, SS2...SSn que hace la transición para aumentar a lo largo de la transición hasta que el ancho compuesto sea sustancialmente igual o mayor que el correspondiente ancho mínimo Min.1, Min.2...Min.n respectivo. Además o alternativamente, cada señal de video de la subescena SS1, SS2...SSn puede componerse por el procesador 6 una al lado de la otra sustancialmente no menos que su ancho mínimo Min.1, Min.2...Min.n, y cada SS1, SS2...SSn en un ancho respectivo en el que la suma de todas las señales de video de la subescena SS1, SS2...SSn compuestas es sustancialmente igual al ancho de la señal de video de la escena del escenario o la salida compuesta STG, CO.
Adicionalmente, o como alternativa, el ancho de las señales de video de la subescena SS1, SS2...SSn dentro de la señal de video de la escena del escenario STG, CO se componen por el procesador 6 para cambiar (por ejemplo, como en la etapa S16-S18) de acuerdo con uno o más criterios de actividad (por ejemplo, movimiento visual, movimiento detectado, detección acústica del habla o similares) detectados en uno o más rumbos de interés B1, B2...Bn correspondientes a una señal de video de la subescena SS1, SS2...SSn, mientras que el ancho de la señal de video de la escena del escenario o la salida compuesta STG, CO se mantiene constante.
Opcionalmente, el procesador 6 puede componer una o más señales de video de la subescena SS1, SS2...SSn (por ejemplo, en las Figuras 9C-9E, SS2 y SS5) junto con una o más señales de video de la subescena SS1, SS2...SSn adicionales (por ejemplo, en las Figuras 9C-9E, SS1) para formar una señal de video de la escena del escenario al hacer la transición una o más señales de video de la subescena SS1, SS2...SSn adicionales (por ejemplo, en las Figuras 9C-9E, SS1) en la señal de video de la escena del escenario STG, CO al reducir un ancho de una o dos o más señales de video de la subescena SS1, SS2...SSn (por ejemplo, en las Figuras 9C-9E, SS2 y SS5) por una cantidad correspondiente al ancho de una o más señales de video de la subescena SS1, SS2...SSn añadidas o subsecuentes (por ejemplo, en las Figuras 9C-9E, SS1).
En algunos casos, el procesador 6 puede asignar a cada señal de video de la subescena SS1, SS2...SSn un ancho mínimo Min.1, Min.2...Min.n respectivo, y puede componer cada señal de video de la subescena SS1, SS2...SSn una al lado de la otra en sustancialmente no menos que el ancho mínimo respectivo correspondiente Min. 1, Min.2...Min.n para formar la señal de video de la escena del escenario o la salida compuesta STG, CO. Cuando una suma de los anchos mínimos respectivos Min.1, Min.2...Min.n de las dos o más señales de video de la subescena SS1, SS2...SSn, junto con una o más señales de video de la subescena SS1, SS2...SSn adicionales excede un ancho de la señal de video de la escena del escenario STG, CO, una o más de las dos señales de video de la subescena SS1, SS2...SSn pueden hacerse la transición por el procesador 6 para eliminarse de la señal de video de la escena del escenario o salida compuesta STG, CO.
En otra alternativa, el procesador 9 puede seleccionar al menos una de dos o más señales de video de la subescena SS1, SS2...SSn para hacerle la transición para eliminarla de la señal de video de la escena del escenario STG, CO para corresponder a un respectivo rumbo de interés B1. B2...Bn en el que uno o más criterios de actividad (por ejemplo, movimiento visual, movimiento detectado, detección acústica del habla, tiempo desde el último habla o similar) se cumplieron menos recientemente.
En muchos casos, y como se muestra en la Figura 8B-8E y 9B-9E, el procesador 6 puede conservar un orden de izquierda a derecha (de arriba hacia abajo, en el sentido de las manecillas del reloj) con respecto a la cámara ancha 2, 3, 5 entre los respectivos rumbos de interés B1, B2...Bn de las dos o más señales de video de la subescena SS1, 552.. .55n (por ejemplo, en las Figuras 9C-9E, SS2 y SS5) y la una o más señales de video de la subescena SS1, 552.. .55n adicionales (por ejemplo, en las Figuras 9C-9E, SS1) ya que las dos o más señales de video de la subescena SS1, SS2...SSn se componen junto con al menos una señal de video de la subescena SS1, SS2...SSn subsecuente para formar la señal de video de la escena del escenario o la salida compuesta STG, CO.
Además o alternativamente, el procesador 6 puede seleccionar cada respectivo rumbo de interés B1, B2...Bn de la señal de video panorámica SC dependiente de uno o más criterios de selección (por ejemplo, movimiento visual, movimiento detectado, detección acústica de habla, tiempo desde el último habla o similar) detectados en el respectivo rumbo de interés B1, B2...Bn con respecto a la cámara ancha 2, 3, 5. Después de que uno o más criterios de selección ya no sean ciertos, el procesador 6 puede hacer la transición de la correspondiente señal de video de la subescena SS1, SS2...SSn para eliminarla de la señal de video de la escena del escenario o salida compuesta STG, CO. Los criterios de selección pueden incluir la presencia de unos criterios de actividad cumplido en el respectivo rumbo de interés B1, B2...Bn. El procesador 9 puede contar el tiempo desde que se cumplieron uno o más criterios de actividad en el respectivo rumbo de interés B1, B2...Bn,. Un período de tiempo predeterminado después de que se cumplieron uno o más criterios de actividad en el respectivo rumbo de interés B1, B2...Bn, el procesador 6 puede hacer la transición de la señal de la subescena SS1, SS2... SSn respectiva para eliminarla de la señal de video de la escena del escenario STG.
Con respecto a la señal de video panorámica reducida SC.R mostrada en las Figuras 8A-8C, 9A-9C, 10A, 1B, 11A, 11B y 22, el procesador 6 puede submuestrear una señal de video panorámica reducida SC.R de una relación de aspecto sustancialmente de 8:1 o mayor a partir de la señal de video panorámica SC. El procesador 6 puede luego componer dos o más señales de video de la subescena (por ejemplo, en las Figuras 8C-8E y 9C-9E, SS2 y SS5) junto con la señal de video panorámica reducida SC.R para formar una señal de video de la escena del escenario STG, CO que tiene una relación de aspecto de sustancialmente 2:1 o menos, que incluye una pluralidad de señales de video de la subescena una al lado de la otra (por ejemplo, en las Figuras 8C-8E, SS2 y SS5, y en las Figuras 9C-9E, SS1, SS2 y SS5) y la señal de video panorámica Sc.R.
En este caso, el procesador 6 puede combinar las dos o más señales de video de la subescena (por ejemplo, en las Figuras 8C-8E, SS2 y SS5, y en las Figuras 9C-9E, SS1, SS2 y SS5) junto con la señal de video panorámica reducida SC.R para formar una señal de video de la escena del escenario que tiene una relación de aspecto de sustancialmente 2:1 o menos que incluye una pluralidad de señales de video de la subescena una al lado de la otra (por ejemplo, en las Figuras 8C-8E, SS2 y SS5, y en las Figuras 9C-9E, SS1, SS2 y SS5) y la señal de video panorámica SC.R por encima de la pluralidad de señales de video de la subescena una al lado de la otra, la señal de video panorámica no es más de 1/5 del área de la señal de video de la escena del escenario o de la salida compuesta STG o CO y se extiende sustancialmente a lo ancho de la señal de video de la escena del escenario o de la salida compuesta STG o CO.
En una alternativa, como se muestra en la Figura 24, el procesador 6 puede submuestrear o proporcionarse con una submuestra de una señal de video de texto TD1 de un documento de texto (por ejemplo, de un editor de texto, procesador de textos, hoja de cálculo, presentación o cualquier otro documento que representa texto). El procesador 6 puede luego hacer la transición de la señal de video de texto TD1 o una versión representada o reducida de la misma TD1.R a la señal de video de la escena del escenario STG, CO al reemplazar al menos una de las dos o más señales de video de la subescena con la señal de video de texto TD1 o equivalente TD1.R.
Opcionalmente, el procesador 6 puede establecer una o más de las dos señales de video de la subescena como una señal de video de la subescena protegida SS1, SS2...SSn protegida contra la transición en base a uno o más criterios de retención (por ejemplo, movimiento visual, movimiento detectado, detección acústica de habla, tiempo desde el último habla o similar). En este caso, el procesador 6 puede hacer la transición de una o más señales de video de la subescena SS1, SS2...SSn adicionales a la señal de video de la escena del escenario al reemplazar al menos una de las dos o más señales de video de la subescena SS1, SS2...SSn, pero en particular hacer la transición de una señal de video de la subescena SS1, SS2...SSn distinta de la subescena protegida.
Alternativamente, el procesador 6 puede establecer una operación de énfasis de subescena (por ejemplo, parpadeo, resaltado, delineado, superposición de íconos, etc.) en base a uno o más criterios de énfasis (por ejemplo, movimiento visual, movimiento detectado, detección acústica del habla, tiempo desde el último habla o similar). En este caso, una o más señales de video de la subescena se enfatizan de acuerdo con la operación de énfasis de subescena y en base a unos criterios de énfasis correspondientes.
En una variación adicional, el procesador 6 puede establecer una operación de notificación de participantes de subescena en base a un criterio detectado de un sensor (por ejemplo, detección de ondas de sonido, vibraciones, radiación electromagnética, calor, radiación UV, radio, microondas, propiedad eléctrica o profundidad/intervalo detectado por un sensor, tal como un elemento RF, un elemento infrarrojo pasivo o un elemento de telemetría). El procesador 6 puede activar una o más marcas codificadas de recordatorio local de acuerdo con la operación de notificación, en base a unos criterios detectados correspondientes.
Ejemplos de rumbos de interés
Por ejemplo, los rumbos de interés pueden ser el(los) rumbo(s) correspondiente(s) a una o más señales de audio o detección, por ejemplo, un participante M1, M2...Mn que habla, reconocido angularmente, vectorizado o identificado por una serie de micrófonos 4, por ejemplo, por formación de haces, localización o resistencia comparativa de la señal recibida, o tiempo de vuelo comparativo mediante el uso de al menos dos micrófonos. El análisis de umbral o de dominio de frecuencia puede usarse para decidir si una señal de audio es lo suficientemente fuerte o lo suficientemente distinta, y el filtrado puede realizarse mediante el uso de al menos tres micrófonos para descartar pares inconsistentes, rutas múltiples y/o redundancias. Tres micrófonos tienen la ventaja de formar tres pares para comparar.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que se detecta movimiento en la escena, se reconocen angularmente, se vectorizan o identifican por característica, imagen, patrón, clase y/o circuitos de detección de movimiento o código ejecutable que escanean imágenes o video en movimiento o RGBD de la cámara 2.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que se detectan estructuras faciales en la escena, se reconocen angularmente, se vectorizan o se identifican mediante circuitos de detección facial o código ejecutable que escanea imágenes o video en movimiento o señal RGBD de la cámara 2. Las estructuras esqueléticas también pueden detectarse de esta manera.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que se detectan estructuras sustancialmente contiguas de color, textura y/o patrón en la escena, se reconocen angularmente, vectorizan o identifican por detección de bordes, detección de esquinas, detección o segmentación de manchas, detección extrema y/o circuitos de detección de características o código ejecutable que escanea imágenes o video en movimiento o señal RGBD de la cámara 2. El reconocimiento puede referirse a parches de imágenes, colores, texturas o patrones grabados, aprendidos o entrenados previamente.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que una diferencia con el entorno conocido se detecta en la escena, se reconocen angularmente, vectorizan o identifican por diferenciación y/o circuitos de detección de cambios o código ejecutable que escanea imágenes o video en movimiento o señal RGBD de la cámara 2. Por ejemplo, el dispositivo 100 puede mantener uno o más mapas visuales de una sala de reuniones vacía en la que se ubica y detecta cuándo una entidad suficientemente obstructiva, tal como una persona, oscurece las características o áreas conocidas en el mapa.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que se identifican formas regulares tal como rectángulos, que incluyen formas de 'pizarra blanca', formas de puertas o formas de respaldos de sillas, se reconocen angularmente, vectorizan, o identifican por características, imagen, patrón, clase y/o circuitos de detección de movimiento o código ejecutable que escanea imágenes o video en movimiento o RGBD desde la cámara 2.
Como otro ejemplo, además o como alternativa, los rumbos de interés pueden ser aquellos rumbos en los que las personas mediante el uso del dispositivo 100 colocan objetos de referencia o características reconocibles como puntos de referencias artificiales, que incluyen emisores o transductores acústicos activos o pasivos, y/o marcadores de referencia ópticos o visuales activos o pasivos, y/o RFID o detectables electromagnéticamente de cualquier otra manera, estos se reconocen angularmente, vectorizan o identifican mediante una o más técnicas mencionadas anteriormente.
Si no se obtienen rumbos de interés iniciales o nuevos de esta manera (por ejemplo, porque ningún participante M1, M2...Mn habla todavía), puede establecerse una vista predeterminada en lugar de una escena compuesta para la salida como una escena de una única cámara. Por ejemplo, como una vista predeterminada, una escena panorámica completa (por ejemplo, proporción horizontal a vertical H:V de 2:1 a 10:1) puede fragmentarse y disponerse en la proporción de una única cámara de salida (por ejemplo, generalmente de 1,25:1 a 2,4:1 o relación de aspecto H:V 2.5:1 o proporción horizontal a vertical en orientación horizontal, aunque también son posibles las correspondientes proporciones de orientación vertical 'giradas'). Como otra vista predeterminada de ejemplo antes de que se obtenga inicialmente un rumbo de interés, puede seguirse una "ventana" correspondiente a la proporción de la escena de salida, por ejemplo, a una velocidad fija a través de la escena SC, por ejemplo, como una cámara panorámica lentamente. Como otro ejemplo, la vista predeterminada puede componerse de un "primer plano" (más un 5-20% de ancho adicional en el margen) de cada asistente de reunión M1, M2... Mn, con el margen ajustado para optimizar el área de visualización disponible.
Ejemplos de relaciones de aspecto
Mientras los aspectos de las modalidades y la invención pueden ser útiles con cualquier intervalo angular o relación de aspecto, los beneficios son opcionalmente mayores cuando las subescenas se forman a partir de una cámara que proporciona una señal de video panorámica que tiene una relación de aspecto sustancialmente de 2,4:1 o mayor (la relación de aspecto que expresa las dimensiones de cuadro o píxel), y se componen en una señal de video del escenario de múltiples participantes que tiene una relación de aspecto general de sustancialmente 2: 1 o menos (por ejemplo, tal como 16:9:, 16:10 o 4:3) como se encuentra en la mayoría de los ordenadores portátiles o pantallas de televisión (generalmente 1,78: 1 o menos), y adicionalmente, opcionalmente, si las subescenas de la señal de video del escenario llenan más del 80 % del cuadro general compuesto, y/o si las subescenas de la señal de video del escenario y cualquier forma de miniatura compuesta adicionalmente de la señal de video panorámica llenan más del 90 % del cuadro general compuesto. De esta forma, cada participante mostrado llena la pantalla casi tanto como sea factible.
La relación correspondiente entre los ángulos de visión vertical y horizontal puede determinarse como una relación de a = 2 arctan (d/2f), donde d es la dimensión vertical u horizontal del sensor y f es una distancia focal efectiva de la lente. Diferentes cámaras de gran angular para reuniones pueden tener un campo de visión de 90 grados, 120 grados o 180 grados desde una sola lente, pero cada una puede emitir una imagen de 1080p (por ejemplo, una imagen de 1920x1080) de una relación de aspecto de 1,78:1 o una imagen mucho más ancha de una relación de aspecto de 3,5:1 u otra relación de aspecto. Al observar escenas de reuniones, las relaciones de aspecto menores (por ejemplo, 2:1 o menor) combinadas con cámaras anchas de 120 grados o 180 grados pueden mostrar más techo, pared o mesa de lo que se desea. En consecuencia, mientras que la relación de aspecto de la señal de video de la escena o panorámica SC y los ángulos de visión FOV de una cámara 100 pueden ser independientes, es opcionalmente ventajoso de las presentes modalidades que coincida una cámara 100 más ancha (90 grados o superior) con una señal de video de relación de aspecto (por ejemplo, 2,4:1 o superior), más ancha y además, opcionalmente, con la cámara más ancha (por ejemplo, vista panorámica de 360 grados) que coincida con las relaciones de aspecto más anchas (por ejemplo, 8:1 o mayor).
Ejemplos de seguimiento de subescenas o rumbos
El proceso llevado a cabo por los dispositivos de las Figuras 1A y 1B, como se muestra en las Figuras 12-18, particularmente 16-18, puede incluir el seguimiento de las subescenas FW, SS en los rumbos de interés B1, B2, ... Bn dentro de una señal de video ancha SC. Como se muestra en la Figura 16, el procesador 6, conectado operativamente al sensor acústico o serie de micrófonos 4 (con circuitos formadores de haz opcionales), así como también a la cámara ancha 2, 3, 5, monitorea en la etapa S202 el intervalo angular sustancialmente común, que es opcionalmente o preferentemente sustancialmente de 90 grados o mayor.
El procesador 6 puede ejecutar código o incluir o conectarse operativamente a circuitos que identifican un primer rumbo de interés B1, B2, ...Bn a lo largo de una localización (por ejemplo, una medida que representa una posición en coordenadas cartesianas o polares, o una dirección, o similar) de uno o ambos reconocimientos acústicos (por ejemplo, frecuencia, patrón u otro reconocimiento de voz) o un reconocimiento visual (por ejemplo, detección de movimiento, detección de la cara, detección de esqueleto, segmentación o detección de manchas de color) dentro del intervalo angular de la cámara ancha 2, 3, 5 en la etapa S204 y la etapa S206. Como en la etapa S10, y en las etapas S12 y S14, se submuestrea una señal de video de la subescena s S de la cámara ancha 2, 3, 5 (por ejemplo, ya sea recién muestreada del elemento de imagen de la cámara ancha 2, 3, 5 o submuestreada de la escena panorámica SC capturada en la etapa S12) a lo largo del rumbo de interés B1, B2...Bn identificado en la etapa S14. Un ancho (por ejemplo, ancho mínimo Min.1, Min.2...Min.n, o ancho de visualización de subescena DWid.1, DWid.2...DWid.n) de la señal de video de la subescena SS puede establecerse por el procesador 6 de acuerdo con una característica de la señal, uno o ambos, del reconocimiento acústico y el reconocimiento visual/visual en la etapa S210. La característica de la señal puede representar la calidad o el nivel de confianza de cualquiera de los diversos reconocimientos acústicos o visuales. Como se usa en la presente, "reconocimiento acústico" puede incluir cualquier reconocimiento (por ejemplo, satisfacer un umbral para una medida, que coincida con un descriptor o similar) en base a ondas sonoras o vibraciones, que incluye el análisis de frecuencia de formas de onda tal como el análisis Doppler, mientras que "reconocimiento visual" puede incluir cualquier reconocimiento (por ejemplo, satisfacer un umbral para una medición, que coincida con un descriptor, o similar) correspondiente a la radiación electromagnética, tal como el calor o la radiación UV, radio o microondas, reconocimiento de propiedad eléctrica o profundidad/intervalo detectado por un sensor tal como un elemento RF, un elemento infrarrojo pasivo o un elemento de telemetría.
Por ejemplo, los rumbos de interés B1, B2...Bn identificados en la etapa S14 pueden determinarse mediante combinaciones de tales reconocimientos acústicos y visuales en diferentes órdenes, algunos de los cuales se muestran cómo Modo Uno, Dos o Tres (que pueden combinarse razonablemente y lógicamente entre sí) en las Figuras 16-18. En un orden, por ejemplo, como en la etapa S220 de la Figura 18, se graban primero las marcaciones de los reconocimientos acústicos (aunque este orden puede repetirse y/o cambiarse). Opcionalmente, tales rumbos B1, B2...Bn pueden ser un ángulo, un ángulo con una tolerancia o un rumbo de intervalo angular o aproximado (tal como el rumbo B5 en la Figura 7A). Como se muestra en la etapa S228-S232 de la Figura 18, los rumbos de reconocimiento acústico grabados pueden refinarse (reducirse o reevaluarse) en base a un reconocimiento visual (por ejemplo, un reconocimiento de la cara) si un reconocimiento visual suficientemente confiable está sustancialmente dentro de un intervalo angular de umbral de un reconocimiento acústico grabado. En el mismo modo o combinado con otro modo, por ejemplo, como en la etapa S218 de la Figura 17, cualquier reconocimiento acústico que no se asocie con un reconocimiento visual puede permanecer como un candidato de rumbo de interés B1, B2...Bn.
Opcionalmente, como en la etapa S210 de la Figura 16, la característica de la señal es representativa de un nivel de confianza de uno o ambos del reconocimiento acústico y el reconocimiento visual. El "nivel de confianza" no necesita cumplir con una definición probabilística formal, pero puede significar cualquier medida comparativa que establezca un grado de confiabilidad (por ejemplo, cruzar un umbral de amplitud, calidad de señal, relación señal/ruido o equivalente, o criterios de éxito). Además o alternativamente, como en la etapa S210 de la Figura 16, la característica de la señal puede ser representativa del ancho de una característica reconocida dentro de uno o ambos del reconocimiento acústico (por ejemplo, un intervalo angular dentro del cual puede originarse un sonido) o el reconocimiento visual (por ejemplo, distancia interpupilar, ancho de la cara, ancho del cuerpo). Por ejemplo, la característica de la señal puede corresponder a un ancho aproximado de una cara humana reconocida a lo largo de un rumbo de interés B1, B2... Bn (por ejemplo, determinado por un reconocimiento visual). Un ancho de una primera señal de video de la subescena SS1, SS2...SSn puede establecerse de acuerdo con una característica de la señal del reconocimiento visual.
En algunos casos, por ejemplo, como en la etapa S228 de la Figura 18, si no se establece un ancho (por ejemplo, no puede establecerse de manera confiable, o similar, en el caso de una incapacidad para reconocer una característica que define el ancho) de acuerdo con una característica de la señal del reconocimiento visual, como en la etapa S230 de la Figura 18, puede establecerse un ancho predeterminado a lo largo de una localización de un reconocimiento acústico detectado dentro del intervalo angular. Por ejemplo, como en la etapa S228 y S232 de la Figura 18, si no puede reconocerse ninguna cara mediante el análisis de imágenes a lo largo de un rumbo de interés B1, B2..Bn evaluado para tener una señal acústica indicativa del habla humana, un ancho predeterminado (por ejemplo, una subescena que tiene un ancho equivalente de 1/10 a 1V del ancho de toda la escena SC) puede mantenerse o establecerse, por ejemplo, como en la etapa S230 a lo largo del rumbo acústico para definir una subescena SS. Por ejemplo, la Figura 7A muestra un escenario de asistente y orador en el que la cara del asistente M5 se dirige hacia el asistente M4 y M5 habla. En este caso, la serie de micrófonos acústicos 4 de la cámara de reunión 100 puede ser capaz de localizar al orador M5 a lo largo de un rumbo de interés B5 (aquí, el rumbo de interés B5 representado como un intervalo de rumbo en lugar de un vector), pero el análisis de imágenes de la escena panorámica SC de la señal de video de la cámara ancha 2, 3, 5 puede no ser capaz de resolver una cara u otro reconocimiento visual. En tal caso, el ancho predeterminado Min.5 puede establecerse como un ancho mínimo para definir, limitar o representar inicialmente una subescena SS5 a lo largo del rumbo de interés B5.
En otra modalidad, puede identificarse un rumbo de interés B1, B2... Bn dirigido hacia un reconocimiento acústico detectado dentro del intervalo angular de la cámara de reunión 100. En este caso, el procesador 6 puede identificar un reconocimiento visual cerca del reconocimiento acústico como en la etapa S209, opcional, de la Figura 16 (por ejemplo, dentro, solapado o cerca del rumbo de interés B1, B2...Bn, por ejemplo, dentro de 5-20 grados del arco del rumbo de interés B1, B2...Bn). En este caso, el ancho de la primera señal de video de la subescena SS1, SS2...SSn puede establecerse de acuerdo con una característica de la señal del reconocimiento visual que estuvo, o está, cerca o de cualquier otra manera coincide con el reconocimiento acústico. Esto puede ocurrir cuando, por ejemplo, un rumbo de interés B1, B2...Bn se identifica primero con la serie de micrófonos acústicos 4, y posterior se valida o verifica con un reconocimiento facial suficientemente cercano o de cualquier otra manera coincidente mediante el uso de la imagen de video de la cámara ancha 100.
En una variación, como se describió con referencia a las Figuras 17 y 16, el sistema que incluye la cámara de reunión o ancha 100 puede fabricar un mapa espacial como en la etapa S218 de la Figura 17 mediante el uso de reconocimientos visuales o reconocimientos acústicos potenciales, luego, como en la etapa S209 de la Figura 16, confiar en este mapa espacial para posterior validar, reconocimientos asociados, coincidentes, cercanos o "ajustados a" mediante el mismo, uno diferente u otro enfoque de reconocimiento. Por ejemplo, en algunos casos, la escena panorámica general SC puede ser demasiado grande para escanear de manera efectiva en base a un cuadro por cuadro para el reconocimiento facial o similar. En este caso, debido a que las personas no se mueven notablemente de un lugar a otro en una situación de reunión donde se usa la cámara 100, y especialmente después de ocupar sus asientos para la reunión, solo puede escanearse una parte de la escena panorámica general SC, por ejemplo, por cuadro de video.
Por ejemplo, como en la etapa S212 de la Figura 17, para seguir las subescenas SS1, SS2...SSn en los rumbos de interés B1, B2...Bn dentro de una señal de video ancha, el procesador 6 puede escanear una ventana de submuestreo a través de una señal de video en movimiento SC correspondiente a un campo de visión de la cámara ancha 100 de sustancialmente 90 grados o mayor. El procesador 6 o el circuito asociado al mismo puede identificar rumbos de interés B1, B2...Bn candidatos dentro de la ventana de submuestreo, al satisfacer sustancialmente un umbral para definir una calidad de señal adecuada para un rumbo de interés B1, B2...Bn candidato, por ejemplo, como en la etapa S214 de la Figura 17. Cada rumbo de interés B1, B2...Bn puede corresponder a una localización de un reconocimiento visual detectado dentro de la ventana de submuestreo, por ejemplo, como en la etapa S216 de la Figura 17. Como en la etapa S218 de la Figura 17, los rumbos B1, B2...Bn candidatos pueden grabarse en un mapa espacial (por ejemplo, una estructura de memoria o base de datos que realiza un seguimiento de la posición, ubicación y/o dirección de los rumbos candidatos). De esta manera, por ejemplo, los reconocimientos faciales u otros reconocimientos visuales (por ejemplo, movimiento) pueden almacenarse en el mapa espacial, incluso si aún no ha ocurrido una detección acústica en ese rumbo. Subsecuentemente, el intervalo angular de la cámara ancha 100 puede monitorearse por el procesador 6 con el sensor acústico o la serie de micrófonos 4 para un reconocimiento acústico (que puede usarse para validar los rumbos de interés B1, B2...Bn candidatos).
Con referencia a la Figura 7A, por ejemplo, el procesador 6 de la cámara de reunión 100 puede escanear una ventana submuestreada diferente de toda la escena panorámica SC para reconocimientos visuales (por ejemplo, cara, color, movimiento o similares). En dependencia de la iluminación, el movimiento, la orientación de las caras y similares, en la Figura 7, los posibles rumbos de interés pueden almacenarse en el mapa espacial, correspondientes a una detección facial, de movimiento o similar de los asistentes M1...M5. Sin embargo, en el escenario mostrado en la Figura 7A, un posible rumbo de interés hacia el asistente Map.1, si corresponde a un asistente que no habla, puede no validarse posterior por una señal acústica (y este asistente nunca puede capturarse en una subescena, pero solo dentro de la escena panorámica). Una vez que un asistente M1...M5 ha hablado o habla, los rumbos de interés potenciales que incluyen o hacia estos asistentes pueden validarse y grabarse como rumbos de interés B1, B2...B5.
Opcionalmente, como en la etapa S209 de la Figura 16, cuando se detecta un reconocimiento acústico cerca de (sustancialmente adyacente, próximo o dentro de /- 5-20 grados del arco) un rumbo candidato grabado en el mapa espacial, el procesador 6 puede ajustar un rumbo de interés B1, B2...Bn para corresponder a ese rumbo candidato sustancialmente. La etapa S209 de la Figura 16 indica que un rumbo de interés coincide con una contraparte del mapa espacial, y la "coincidencia" puede incluir asociar, reemplazar o cambiar un valor de rumbo de interés. Por ejemplo, debido a que un reconocimiento facial o de movimiento dentro de la ventana y/o la escena panorámica SC puede tener una mejor resolución pero una detección más infrecuente o menos confiable que la de una serie acústica o de micrófonos 4, el rumbo de interés B1, B2...Bn detectado resultante de un reconocimiento acústico puede cambiarse, grabarse como, o de cualquier otra manera corregirse o ajustarse de acuerdo con el reconocimiento visual. En este caso, en lugar de submuestrear la señal de video de la subescena SS1, SS2...SSn a lo largo del aparente rumbo de interés B1, B2...Bn derivado del reconocimiento acústico, el procesador 6 puede submuestrear la señal de video de la subescena a lo largo del rumbo de interés B1, B2...Bn que sigue la operación panorámica, por ejemplo, desde la cámara ancha 100 y/o la escena panorámica SC después de que el rumbo de interés B1, B2...Bn acústico se haya corregido mediante el uso de los reconocimientos visuales mapeados previamente. En este caso, como en la etapa S210 de la Figura 16, el ancho de la señal de video de la subescena SS puede establecerse de acuerdo con un ancho de la cara o ancho del movimiento detectado, o alternativamente, de acuerdo con una característica de la señal (por ejemplo, ancho predeterminado, resolución de la serie 4, nivel de confianza, ancho de una característica reconocida dentro de uno o ambos del reconocimiento acústico o el reconocimiento visual, un ancho aproximado de una cara humana reconocida a lo largo del rumbo de interés) del reconocimiento acústico. Como en la etapa S210 de la Figura 16, o la etapa S230 de la Figura 18, si no se establece un ancho de subescena SS de acuerdo con una característica de la señal del reconocimiento visual, tal como un ancho de la cara o un intervalo de movimiento, un ancho predeterminado (por ejemplo, tal como el ancho predeterminado Min.5 como en la Figura 7A) puede establecerse de acuerdo con un reconocimiento acústico.
En el ejemplo de la Figura 18, la cámara de reunión 100 y el procesador 6 pueden seguir subescenas en los rumbos de interés B1, B2...Bn al grabar una señal de video en movimiento correspondiente a un campo de visión FOV de la cámara ancha 100 de sustancialmente 90 grados o mayor. El procesador, en la etapa S220, puede monitorear un intervalo angular correspondiente al campo de visión FOV de la cámara ancha 100 con una serie de sensores acústicos 4 para un reconocimiento acústico, y cuando se detecta un reconocimiento acústico en el intervalo en la etapa S222, en la etapa S224, puede identificar un rumbo de interés B1, B2...Bn dirigido hacia un reconocimiento acústico detectado dentro del intervalo angular. El procesador 6 o los circuitos asociados pueden ubicar luego en la etapa S226 una ventana de submuestreo en la señal de video en movimiento de la escena panorámica SC de acuerdo con un intervalo correspondiente del rumbo de interés B1, B2... Bn (por ejemplo, similar al intervalo del rumbo de interés B5 de la Figura 7A). El procesador puede entonces, si se detecta un reconocimiento visual dentro del intervalo como en la etapa S228, localizar un reconocimiento visual detectado dentro de la ventana de submuestreo. Subsecuentemente, el procesador 6 puede submuestrear una señal de video de la subescena SS capturada desde la cámara ancha 100 (directamente desde la cámara 100 o desde una grabación de escena panorámica SC) opcionalmente centrada sustancialmente en el reconocimiento visual. Como en la etapa S232, el procesador 6 puede entonces establecer el ancho de la señal de video de la subescena SS de acuerdo con una característica de la señal del reconocimiento visual. En aquellos casos donde no es posible, adecuado, no se detecta o selecciona ningún reconocimiento visual, como en la etapa S228 de la Figura 18, el procesador 6 puede mantener o seleccionar un ancho mínimo acústico, como en la etapa S230 de la Figura 18.
Alternativamente, la cámara de reunión 100 y el procesador 6 pueden seguir las subescenas en los rumbos de interés B1, B2...Bn dentro de una señal de video ancha tal como una escena panorámica SC, como en la Figura 16­ 18, por ejemplo, en la etapa S212 de la Figura 17, que monitorea un intervalo angular con una serie de sensores acústicos 4 y una cámara ancha 2, 3, 5 que observa un campo de visión de sustancialmente 90 grados o mayor. El procesador 6 puede identificar una pluralidad de rumbos de interés B1, B2... Bn cada uno dirigido hacia una localización (acústica o visual o basada en sensores, como en la etapa S216) dentro del intervalo angular, y como los rumbos de interés B1, B2...Bn, los reconocimientos correspondientes, las localizaciones correspondientes o los datos representativos de los mismos son almacenados sucesivamente como en la etapa S218 de la Figura 17, puede mantener un mapa espacial de las características grabadas correspondientes a los rumbos de interés B1, B2...Bn. Subsecuentemente, por ejemplo, como en la etapa S210 de la Figura 16, el procesador 6 puede submuestrear una señal de video de la subescena SS1, SS2... SSn de la cámara ancha 100 sustancialmente a lo largo de al menos un rumbo de interés B1, B2...Bn, y establecer un ancho de la señal de video de la subescena SS1, SS2...SSn de acuerdo con una característica grabada correspondiente a al menos un rumbo de interés B1, B2...Bn.
Ejemplos de seguimiento predictivo
En la descripción anterior de estructuras, aparatos, métodos y técnicas para la identificación de nuevos rumbos de interés, se describen diversas detecciones, reconocimientos, activaciones u otras causas para identificar tales nuevos rumbos de interés. La siguiente descripción discute la actualización, el seguimiento o la predicción de cambios en el rumbo, la dirección, la ubicación, la pose, el ancho u otras características de los rumbos de interés y las subescenas, y esta actualización, seguimiento y predicción puede aplicarse a la descripción anterior también. Se debe señalar que la descripción de los métodos para la identificación de nuevos rumbos de interés y la actualización o predicción de cambios en los rumbos o subescenas se relacionan, en que la readquisición de un rumbo de interés o subescena se facilita mediante el seguimiento o predicción. Los métodos y técnicas discutidos en la presente descripción para identificar nuevos rumbos de interés en la etapa S14 pueden usarse para escanear, identificar, actualizar, seguir, grabar o readquirir rumbos y/o subescenas en la(s) etapa(s) S20, S32, S54, o S56, y viceversa. Los datos de video predictivo pueden grabarse por subescena, por ejemplo, datos codificados de acuerdo con o relacionados con HEVC, H.264, MPEG-4 predictivo, otros segmentos B, segmentos P y segmentos I de MPEG (o cuadro, o macrobloques); otros intra e inter cuadros, imágenes, macrobloques o segmentos; H.264 u otros SIframes/slices, SPframes/slices (Conmutar P) y/o estimación de movimiento multicuadro; superbloque VP9 o VP10, bloque, macrobloque o supercuadro, predicción intra e inter cuadro, predicción compuesta, compensación de movimiento, predicción de vector de movimiento y/o segmentación.
Pueden grabarse otros datos predictivos o de seguimiento, como indicó anteriormente, independiente de un estándar de video o SPI de compensación de movimiento, por ejemplo, un vector de movimiento derivado del movimiento de audio con relación a la serie de micrófonos, o un vector de movimiento derivado de métodos directos o basados en píxeles (por ejemplo, coincidencia de bloques, correlación de fase, correlación de dominio de frecuencia, recursividad de píxeles, flujo óptico) y/o métodos indirectos o basados en características (detección de características tal como la detección de esquinas con una función estadística tal como RANSAC aplicada sobre una subescena o área de escena).
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas de relevancia o datos o información representativa de los mismos, por ejemplo, parámetros de audio derivados tales como amplitud, frecuencia de declaraciones, duración de declaraciones, asistentes relacionados M1, M2...Mn (dos subescenas con tráfico de ida y vuelta), asistente principal o moderador M.Principal (una subescena que regularmente intercala audio brevemente), una frase de señal reconocida (por ejemplo, aplausos, "mantener la cámara en mi" y otra frase y reconocimiento de habla. Estos parámetros o marcas codificadas pueden grabarse independientemente de la etapa de seguimiento o en un momento diferente que durante la etapa de seguimiento. El seguimiento por subescena también puede grabar, identificar o puntuar marcas codificadas de error o irrelevancia, por ejemplo, audio representativo de toses o estornudos; movimiento regular o periódico o video que represente maquinaria, viento o luz parpadeante; movimiento transitorio o movimiento a una frecuencia suficientemente alta para ser transitorio.
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para establecer y/o proteger una subescena contra la eliminación o datos o información representativa de los mismos, por ejemplo, en base a un criterio o criterios de retención (por ejemplo, tiempo de audio/habla, frecuencia de audio/habla, tiempo desde la última vez que se habló, etiquetado para retención). En el procesamiento subsecuente para la composición, el retirar una subescena distinta de una subescena nueva o subsecuente no elimina una subescena protegida de la escena compuesta. En otras palabras, las subescenas protegidas tendrían menor prioridad para su eliminación de la escena compuesta.
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para establecer un criterio o criterios adicionales o datos o información representativa de los mismos (por ejemplo, tiempo de habla, frecuencia de habla, frecuencia de audio de la tos/estornudo/timbre, amplitud del sonido, coincidencia del ángulo del habla y reconocimiento de la cara), En el procesamiento para la compilación, solo las subescenas subsecuentes que satisfacen los criterios adicionales se combinan en la escena compuesta. Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para establecer una operación de énfasis de subescena, por ejemplo, como audio, CGI, imagen, video o efectos de composición o datos o información representativa de los mismos, (por ejemplo, escalar una subescena para que sea más grande, parpadear o pulsar un borde de una subescena, intercalar una nueva subescena con un efecto de genio (que crece de pequeño a grande), enfatizar o intercalar una subescena con un efecto de rebote, disponer una o más subescenas con un efecto de clasificación o barajado de cartas, ordenar subescenas con un efecto de solapamiento, arrinconar una subescena con una apariencia de esquina gráfica "doblada") en base a un criterio o criterios de énfasis (por ejemplo, orador repetido, presentador designado, orador más reciente, orador más fuerte, detección de movimiento de un objeto que gira en las manos/cambios de escena, actividad de escena de alta frecuencia en el dominio de la frecuencia, reconocimiento esquelético o de movimiento de la mano levantada). En el procesamiento de compilación, al menos de una de las subescenas discretas se enfatiza de acuerdo con la operación de énfasis de la subescena en base a un criterio de énfasis respectivo o correspondiente.
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para establecer una notificación de participante de subescena o una operación de recordatorio o datos o información representativa de los mismos (por ejemplo, parpadear una luz en el dispositivo 100 en el asistente M1, M2...Mn, opcionalmente una luz en el mismo lado que la subescena) en base a un sensor o criterio detectado (por ejemplo, demasiado silencioso, toque remoto de las redes sociales). En el procesamiento de compilación o de cualquier otra manera, se activa una marca codificada o marcas codificadas de recordatorio local de acuerdo con la operación de notificación o recordatorio en base a un criterio detectado respectivo o correspondiente.
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para predecir o establecer un vector de cambio para cada sector angular respectivo FW1, FW2...FWn o SW1, SW2...SWn o datos o información representativa de los mismos, por ejemplo, en base a un cambio en la velocidad o dirección de una característica grabada (por ejemplo, mancha de color, cara, audio, como se discute en la presente descripción con respecto a las etapas S 14 o S20) de cada reconocimiento o localización, y/o para actualizar una dirección de los respectivos sectores angulares FW1, FW2...FWn o SW1, SW2...SWn en base a la predicción o configuración.
Además o como alternativa, la actualización o el seguimiento por subescena puede grabar, identificar o puntuar marcas codificadas para predecir o establecer un área de búsqueda para la recaptura o readquisición de un reconocimiento o localización perdidos o datos o información representativa de los mismos, por ejemplo en base a una posición más reciente de una característica grabada (por ejemplo, mancha de color, cara, audio) de cada reconocimiento o localización, y/o para actualizar una dirección de sectores angulares respectivos en base a la predicción o configuración. La característica grabada puede ser al menos una mancha de color, una segmentación o un objeto de mancha representativo de la piel y/o la ropa.
Además o como alternativa, la actualización o el seguimiento por subescena puede mantener un mapa cartesiano o, en particular u opcionalmente, un mapa polar (por ejemplo, en base a rumbos B1, B2... Bn o ángulos desde el origen OR dentro de la escena SC e intervalos angulares tales como subescenas SS1, SS2...SSn correspondientes a sectores angulares FW/SW dentro de la escena SC) de características grabadas, cada característica grabada tiene al menos un parámetro representativo de un rumbo B1, B2...Bn de la característica grabada.
En consecuencia, además o alternativamente, la modalidad del dispositivo 100, sus circuitos y/o el código ejecutable almacenado y ejecutado dentro de la ROM/RAM 8 y/o la CPU/g Pu 6 pueden seguir subescenas de interés SS1, SS2...SSn correspondiente a los anchos FW y/o sW dentro de una escena de gran angular SC al monitorear un intervalo angular objetivo (por ejemplo, un intervalo horizontal de cámaras 2n, 3n, 5 o 7 que forman la escena SC, o un subconjunto de esta) con una serie de sensores acústicos 4 y una serie de sensores ópticos 2, 3, 5 y/o 7. El dispositivo 100, sus circuitos y/o su código ejecutable pueden escanear el intervalo angular objetivo SC por criterios de reconocimiento (por ejemplo, sonidos, caras), por ejemplo, como se discute en la presente descripción con respecto a las etapas S14 (identificación de nuevo rumbo de interés) y/o la etapa S20 (seguimiento e información característica para rumbos/subescenas) de la Figura 8. El dispositivo 100, sus circuitos y/o su código ejecutable pueden identificar un primer rumbo de interés B1 en base a un primer reconocimiento (por ejemplo, detección, identificación, activación u otra causalidad) y localización (por ejemplo, ángulo, vector, pose, o ubicación) por al menos uno de la serie de sensores acústicos 4 y la serie de sensores ópticos 2, 3, 5 y/o 7. El dispositivo 100, sus circuitos y/o su código ejecutable pueden identificar un segundo rumbo de interés B2 (y opcionalmente un tercero y subsecuentes rumbos de interés B3...Bn) en base a un segundo reconocimiento y localización (y opcionalmente un tercero y subsecuentes reconocimientos y localizaciones) por al menos uno de la serie de sensores acústicos 4 y la serie de sensores ópticos 2, 3, 5 y/o 7.
El dispositivo 100, sus circuitos y/o su código ejecutable pueden establecer un sector angular respectivo (por ejemplo, FW, SW u otro) para cada rumbo de interés B1, B2...Bn al expandir, ensanchar, establecer o restablecer un subescena angular (por ejemplo, una pequeña ira angular inicial o una subescena basada en la cara FW) que incluye el respectivo rumbo de interés B1, B2...Bn hasta un umbral (por ejemplo, umbral de ancho como se discute con referencia a las etapas S16- S18 de la Figura 13) en base al menos a que se cumple unos criterios de reconocimiento (por ejemplo, el tramo angular como se estable o reestablece es más ancho que la distancia interpupilar, dos veces este o más; el tramo angular como se estable o reestablece es más ancho que el contraste de la pared de la cabeza, la distancia, borde, diferencia o transición de movimiento).
El dispositivo 100, sus circuitos y/o su código ejecutable pueden actualizar o seguir (estos términos se usan indistintamente en la presente descripción) una dirección o rumbo B1, B2...Bn de los respectivos sectores angulares FW1, FW2...FWn y/o SW1, SW2... SWn en base a un cambio en dirección o rumbo B1, B2...Bn de una característica grabada (por ejemplo, mancha de color, cara, audio) dentro o representativa de cada reconocimiento y/o localización. Opcionalmente, como se discute en la presente descripción, el dispositivo 100, sus circuitos y/o su código ejecutable pueden actualizar o seguir cada respectivo sector angular FW1, FW2... FWn y/o SW1, SW2... SWn para seguir cambios angulares en el primer, segundo y/o tercer y/o subsecuentes rumbos de interés B1, B2...Bn.
Ejemplos de salida compuesta (w/ videoconferencia)
En las Figuras 8A-8D, 10A-10B y 19-24, la "Salida Compuesta CO", es decir, las subescenas combinadas o compuestas como una vista de cámara compuesta y representada/compuesta, se muestra con las líneas guía tanto para la vista principal de Pantalla remota RD1 (que representa la escena recibida de la Pantalla Local LD de la Sala de Reuniones), así como también la interfaz de red 10 o 10a, que representa que el cliente de teleconferencia de la Pantalla (Local) LD de la Sala de Reuniones trata "transparentemente" la señal de video recibida del dispositivo periférico USB 100 como una vista de una única cámara y pasa la salida compuesta CO a los clientes remotos o Pantallas Remotas RD1 y RD2. Se debe señalar que todas las vistas en miniatura también pueden mostrar la Salida Compuesta CO. Generalmente, las Figuras 19, 20 y 22 corresponden al arreglo de los asistentes mostrados en las Figuras 3A-5B, con un asistente adicional que se une en la Figura 21 en el asiento vacío que se muestra en las Figuras 3A-5B.
Entre las transiciones ilustrativas, la señal de video panorámica reducida SC.R (al tomar aproximadamente el 25 % de la pantalla vertical) puede mostrar una pieza "ampliada" de la señal de video de la escena panorámica SC (por ejemplo, como se muestra en las Figuras 9A-9E). El nivel de ampliación puede determinarse por el número de píxeles contenidos en aproximadamente el 25 %. Cuando una persona/objeto M1, M2...Mn se vuelve relevante, una subescena SS1, SS2...SSn correspondiente hace la transición (por ejemplo, al componer un panel de video deslizante) en la escena del escenario STG o la salida compuesta CO, que mantiene su posición en el sentido de las manecillas del reloj o de izquierda a derecha entre los participantes M1, M2...Mn. Simultáneamente, el procesador, mediante el uso de la memoria GPU 6 o ROM/RAM 8, puede desplazar lentamente la señal de video panorámica reducida SC.R hacia la izquierda o hacia la derecha para mostrar un actual rumbo de interés B1, B2...Bn en el centro de la pantalla. Puede resaltarse el actual rumbo de interés. A medida que se identifican nuevas subescenas relevantes SS1, SS2...SSn, la señal de video panorámica reducida SC.R puede girar o hacer una panorámica de modo que una subescena más reciente SS1, SS2...SSn se resalte y se ubique en el centro de la señal de video panorámica reducida SC.R. Con esta configuración, durante el transcurso de una reunión, la señal de video panorámica reducida SC.R se vuelve a representar continuamente y se hace panorámica virtualmente para mostrar partes relevantes de la sala.
Como se muestra en la Figura 19, en una pantalla de videoconferencia típica, la pantalla de cada asistente muestra una vista principal y una pluralidad de vistas en miniatura, cada una determinada sustancialmente por la señal de salida de una cámara web. La vista principal es típicamente uno de los asistentes remotos y las vistas en miniatura representan a otros asistentes. En dependencia del sistema de chat o videoconferencia, puede seleccionarse una vista principal para mostrar un orador activo entre los asistentes, o puede conmutarse a otro asistente, que incluye la escena local en algunos casos, a menudo mediante la selección de la miniatura. En algunos sistemas, la miniatura de la escena local siempre permanece dentro de la pantalla general de modo que cada asistente pueda posicionarse con respecto a la cámara para presentar una escena útil (este ejemplo se muestra en la Figura 19).
Como se muestra en la Figura 19, las modalidades de acuerdo con la invención proporcionan, en lugar de una escena de una única cámara, una vista de escenario compuesta de múltiples asistentes. Por ejemplo, en la Figura 19, los potenciales rumbos de interés B1, B2 y B3 para los asistentes M1, M2 y M2 (representados por las figuras de iconos M1, M2 y M3) están disponibles para la cámara de reunión 100. Como se describió en la presente descripción, debido a que hay tres posibles asistentes M1, M2, M3 localizados o de cualquier otra manera identificados y un SPKR habla, el escenario STG (equivalente a la salida compuesta CO) puede poblarse inicialmente con un número predeterminado (en este caso, dos) de subescenas relevantes, que incluyen la del orador activo SPKR, el asistente M2 en la Figura 19.
Las pantallas de tres participantes se muestran en la Figura 19: una pantalla local LD, por ejemplo, un ordenador personal conectado a la cámara de reunión 100 y a Internet INET; un primer ordenador personal ("PC") o tableta muestra una pantalla remota RD1 de un primer asistente remoto A.hex, y una segunda PC o tableta muestra RD2 de un segundo asistente remoto A.diamante. Como se esperaría en un contexto de videoconferencia, la pantalla local LD muestra de manera más destacada un orador remoto seleccionado por el operador o el software de videoconferencia de la pantalla local de la PC (en la Figura 19, A.hex), mientras que las dos pantallas remotas RD1, RD2 muestran las vistas seleccionadas por los operadores remotos o el software (por ejemplo, la vista del orador activo, la vista compuesta CO de la cámara de reunión 100).
Mientras el arreglo de los asistentes dentro de las vistas principal y de miniatura depende en cierta medida de las selecciones del usuario e incluso de las selecciones automatizadas dentro de un sistema de videoconferencia o chat de video, en el ejemplo en la Figura 19, la pantalla local LD muestra, como sería una vista principal típica en la que se muestra el último asistente remoto seleccionado (por ejemplo, A.hex, el asistente que trabaja con una PC u ordenador portátil que tiene pantalla remota RD1), y una hilera de miniaturas en la que se representan esencialmente todos los asistentes (que incluye una vista de escenario compuesta de la cámara de reunión local 100). Las pantallas remotas RD1 y r D2 muestran cada una, por el contrario, una vista principal que incluye la vista de escenario compuesta CO, STG (por ejemplo, porque el orador SPKR habla actualmente) con una hilera de miniaturas que incluye nuevamente las vistas restantes de los asistentes.
La Figura 19 hace la suposición de que el asistente M3 ya ha hablado, o se seleccionó previamente como un ocupante predeterminado del escenario STG, y ya ocupa la subescena más relevante (por ejemplo, fue la subescena relevante más recientemente). Como se muestra en la Figura 19, una subescena SS1 correspondiente al orador M2 (icono figura M2, y en Pantalla Remota 2, silueta M2 con la boca abierta) se compone de la vista de una única cámara con una transición deslizante (representada por la flecha de bloque). Una transición deslizante preferida comienza con un ancho cero o insignificante, con el medio, es decir, rumbo de interés B1, B2... Bn de la correspondiente subescena SS1, SS2... SSn deslizándose en el escenario, luego crece el ancho de la correspondiente subescena SS1, SS2...SSn compuesta hasta que alcanza al menos un ancho mínimo, y puede continuar aumentando el ancho de la correspondiente subescena SS1, SS2...SSn compuesta hasta que se llena todo el escenario. Debido a que la composición (transición intermedia) y la escena compuesta se proporcionan como una vista de cámara para el cliente de teleconferencia de la Pantalla (Local) LD de la Sala de Reuniones, la composición y las escenas compuestas pueden ser sustancialmente de manera simultánea (es decir, presentadas como una vista actual) presentadas en las vistas principal y en miniatura de la pantalla LD del cliente local, así como también las dos pantallas de los clientes remotos RD1, RD2.
En la Figura 20, subsecuente a la Figura 19, el asistente M1 se convierte en el orador más reciente y/o más relevante (por ejemplo, la situación anterior era la de la Figura 19, donde el asistente M2 era el orador más reciente y/o más relevante). Las subescenas SS3 y SS2 para los asistentes M3 y M2 permanecen relevantes de acuerdo con los criterios de seguimiento e identificación, y pueden recomponerse a un ancho más pequeño según sea necesario (ya sea escalando o recortando, opcionalmente restringido por las limitaciones de ancho de 2-12 veces la distancia interpupilar y de cualquier otra manera como se discute en la presente descripción). La subescena SS2 se compone de manera similar a un tamaño compatible y luego se compone en el escenario STG con una transición de diapositiva (representada nuevamente por la flecha de bloque). Como se indica en la presente descripción con respecto a la Figura 9, las Figuras 10a-10b y las Figuras 11A-11B, debido a que el nuevo orador SPKR es el asistente M1, que está a la derecha (desde una perspectiva de arriba hacia abajo, en el sentido de las manecillas del reloj) del rumbo del asistente M2 que ya se muestra, es opcional hacer la transición de la subescena SS1 sobre el escenario de una manera que conserve la lateralidad manual u orden (M3, M2, M1) de izquierda a derecha, en este caso una transición desde la derecha.
En la Figura 21, subsecuente a la Figura 20, el nuevo asistente M4 que llega a la sala se convierte en el orador más reciente y más relevante. Las subescenas SS2 y SS1 para los oradores M2 y M1 permanecen relevantes de acuerdo con los criterios de seguimiento e identificación, y permanecen compuestas al ancho "3 en 1". La subescena correspondiente al orador M3 se "envejece" y ya no es tan relevante como la de los oradores más recientes (aunque en la presente descripción se describen muchas otras prioridades y relevancias). La subescena SS4 correspondiente al orador M4 se compone a un tamaño compatible y luego se compone a la salida de la cámara con una transición de volteo (representada nuevamente por la flecha de bloque), la subescena SS3 se voltea como una eliminación. Esto también puede ser una diapositiva o una transición alternativa. Aunque no se muestra, como alternativa, porque el nuevo orador SPKR es el asistente M4, que está a la izquierda (desde una perspectiva de arriba hacia abajo, en el sentido de las manecillas del reloj) del rumbo de los asistentes M2 y M1 ya mostrados, es opcional hacer la transición de la subescena SS4 en el escenario de una manera que preserva la lateralidad manual u orden (M4, M2, M1) de izquierda a derecha, en este caso una transición desde la izquierda. En este caso, cada una de las subescenas SS2, SS1 puede hacer una transición de un lugar hacia la derecha, y la subescena M3 puede salir (deslizar la transición alejándose) del escenario a la derecha.
Como se señala en la presente descripción, las Figuras 19-21 muestran ejemplos de modos de videoconferencia local y remota, como un ejemplo, en dispositivos móviles, en los que las escenas compuestas mostradas, y/o seguidas, compuestas se han recibido y se muestran como una escena de una única cámara. Estos se refieren y describen en contexto en párrafos anteriores.
Mientras la información general es similar, la Figura 22 presenta una forma de visualización de videoconferencia que es una variación en la forma de la Figura 19. En particular, mientras que en la Figura 19 las vistas en miniatura no solapan la vista principal, y una vista en miniatura que coincide con la vista principal se retiene dentro de la hilera de miniaturas, en la forma de la Figura 22 las miniaturas solapan la vista principal (por ejemplo se componen para solaparse con la vista principal), y la vista principal actual se desenfatiza en la hilera de miniaturas (por ejemplo, al atenuar o similar).
La Figura 23 muestra una variación de las Figuras 19-22 en la que un cuarto cliente correspondiente a una cámara 7 de alta resolución, de primer plano o simplemente separada tiene su propio cliente conectado al grupo de teleconferencia a través de la interfaz de red 10b, mientras que se presenta a la Pantalla (Local) LD de la Sala de Reuniones una Salida Compuesta CO y sus transiciones a través de la interfaz de red 10a.
La Figura 24 muestra una variación de las Figuras 19-22 en la que un cliente de revisión de código o documento que tiene una ventana de revisión de texto se conecta a la cámara de reunión 100 a través de una conexión inalámbrica local (aunque en una variación, el cliente de revisión de código o documento podría conectarse a través de Internet desde una estación remota). En un ejemplo, un primer dispositivo o cliente (PC o tableta) ejecuta el cliente de videoconferencia o chat que muestra a los asistentes en una vista panorámica, y un segundo cliente o dispositivo (PC o tableta) ejecuta el cliente de revisión de documentos o código y se lo proporciona a la cámara de reunión 100 como una señal de video de la misma forma que una cámara web. La cámara de reunión 100 compone la señal de video/ventana del documento del cliente de revisión de documentos o código al escenario STG o CO como una subescena SSn de cuadro completo y, opcionalmente, también compone la escena panorámica local que incluye a los asistentes de la reunión, por ejemplo, encima del escenario STG o CO. De esta manera, el texto mostrado dentro de la señal de video está disponible para todos los participantes en lugar de las subescenas de los asistentes individuales, pero los asistentes aún pueden señalarse con referencia a la vista panorámica SC. Aunque no se muestra, el dispositivo de la cámara de reunión 100 puede crear, instanciar o ejecutar alternativamente un segundo cliente de videoconferencia para alojar la vista del documento. Alternativamente, una cámara 7 de alta resolución, de primer plano o simplemente separada tiene su propio cliente conectado al grupo de teleconferencia a través de la interfaz de red 10b, mientras que una Salida Compuesta CO y sus transiciones se presentan a la pantalla (Local) de la Sala de Reuniones a través de la interfaz de red 10a.
En al menos una modalidad, los asistentes a la reunión M1, M2...Mn pueden mostrarse en la señal de video de la escena del escenario o en la salida compuesta STG, CO en todo momento. Como se muestra en la Figura 25, por ejemplo, en base al menos a las detecciones del ancho de la cara, el procesador 6 podría recortar las caras como subescenas de solo cara SS1, SS2... SSn y alinearlas a lo largo de la parte superior o parte inferior de la señal de video de la escena del escenario o salida compuesta STG, CO. En este caso, puede ser conveniente que los participantes que usan dispositivos tales como el dispositivo remoto RD1 puedan hacer clic o tocar (en el caso de una pantalla táctil) una subescena SS1, SS2, SSn de solo caras recortada para comunicarse con la pantalla local LD para crear una señal de video de la escena del escenario STG concentrándose en esa persona. En una solución de ejemplo, mediante el uso de una configuración similar a la Figura 1B y conectada directamente a Internet INET, la cámara de reunión 100 puede crear o instanciar un número apropiado de clientes de videoconferencia virtual y/o asignar una cámara virtual a cada uno.
La Figura 26 muestra alguna iconografía y símbolos usados a través de las Figuras 1-26. En particular, una flecha que se extiende desde el centro de una lente de una cámara puede corresponder a un rumbo de interés B1, B2...Bn, ya sea que la flecha se etiquete o no en las diversas vistas. Las líneas discontinuas que se extienden en un ángulo abierto similar a una "V" desde una lente de cámara pueden corresponder a un campo de visión de la lente, ya sea que las líneas discontinuas se etiquetan o no en las diversas vistas. Una representación de "figura de palo" de un boceto de una persona, que tiene una cabeza ovalada con un cuerpo cuadrado o trapezoidal, puede corresponder a un participante de la reunión, ya sea que la persona dibujada se etiquete o no en las diversas vistas. Una representación de una boca abierta en la persona dibujada puede representar un orador SPKR actual, ya sea que la persona dibujada con la boca abierta se etiquete o no en las diversas vistas. Una flecha ancha que se extiende de izquierda a derecha, de derecha a izquierda, de la parte superior a la parte inferior o en forma de espiral puede indicar una transición en curso o la composición de una transición, ya sea que la flecha se etiquete o no en las diversas vistas.
En la presente descripción, "cámara de gran angular" y "escena ancha" es en dependencia del campo de visión y la distancia del sujeto, e incluye cualquier cámara que tenga un campo de visión lo suficientemente ancho para capturar, en una reunión, a dos personas diferentes que no están hombro con hombro.
"Campo de visión" es el campo de visión horizontal de una cámara, a menos que se especifique un campo de visión vertical. Como se usa en la presente descripción, "escena" significa una imagen de una escena (ya sea fija o en movimiento) capturada por una cámara. En general, aunque no sin excepción, una "escena" panorámica SC es una de las imágenes o flujos o señales de video más grandes que maneja el sistema, ya sea que esa señal se capture por una única cámara o se une por varias cámaras. Las más comúnmente referidas escenas "SC" referidas en la presente descripción incluyen una escena SC que es una escena panorámica SC capturada por una cámara acoplada a una lente de ojo de pez, una cámara acoplada a una óptica panorámica o una distribución equiangular de cámaras solapadas. La óptica panorámica puede proporcionar sustancialmente directamente una escena panorámica a una cámara; en el caso de una lente de ojo de pez, la escena panorámica SC puede ser una banda de horizonte en la que el perímetro o la banda de horizonte de la vista de ojo de pez se ha aislado y deformado en una imagen rectangular larga de alta relación de aspecto; y en el caso de cámaras solapadas, la escena panorámica puede unirse y recortarse (y potencialmente deformarse) de las vistas solapadas individuales. "Subescena" significa una subporción de una escena, por ejemplo, un bloque de píxeles contiguo y generalmente rectangular más pequeño que la escena completa. Una escena panorámica puede recortarse a menos de 360 grados y seguir refiriéndose como la escena general SC dentro de la cual se manejan las subescenas.
Como se usa en la presente, una "relación de aspecto" se discute como una relación horizontal: vertica1H:V, donde una relación de aspecto "mayor" aumenta la proporción horizontal con respecto a la vertical (ancha y corta). Una relación de aspecto mayor de 1:1 (por ejemplo, 1,1:1, 2:1, 10:1) se considera "forma de paisaje" y, para los fines de esta descripción, un aspecto igual o menor de 1: 1 se considera "forma de retrato" (por ejemplo, 1:1,1, 1:2, 1:3). Una señal de video de una "única cámara" se formatea como una señal de video correspondiente a una cámara, por ejemplo, tal como UVC, también conocida como "Definición de Clase de Dispositivo USB para Dispositivos de Video" 1.1 o 1.5 por el Foro de implementadores de USB (consulte, es decir, http://www.usb.org/developers/docs/devclass_docs/USB_Video_Class_1_5.zip USB_Video_Class_1_1_090711.zip en la misma URL). Cualquiera de las señales discutidas dentro de UVC puede ser una "señal de video de una única cámara", ya sea que la señal se transporte, lleve, transmita o canalice a través de USB o no.
Una "pantalla" significa cualquier pantalla de visualización directa o pantalla proyectada. Una "cámara" significa un reproductor de imágenes digitales, que puede ser una cámara c Cd o CMOS, una cámara termográfica o una cámara RGBD de profundidad o de tiempo de vuelo. La cámara puede ser una cámara virtual formada por dos o más vistas de cámara unidas, y/o de aspecto ancho, panorámica, gran angular, ojo de pez o catadióptrica.
Un "participante" es una persona, dispositivo o ubicación conectado a la sesión de videoconferencia grupal y que muestra una vista desde una cámara web; mientras que en la mayoría de los casos un "asistente" es un participante, pero también está dentro de la misma sala que una cámara de reunión 100. Un "orador" es un asistente que habla o ha hablado lo suficientemente recientemente para que la cámara de reunión 100 o el servidor remoto relacionado lo identifique; pero en algunas descripciones también puede ser un participante que habla o ha hablado lo suficientemente recientemente para que el cliente de videoconferencia o el servidor remoto relacionado lo identifique.
"Composición" en general significa composición digital como se conoce en la técnica, es decir, ensamblaje digital de múltiples señales de video (y/o imágenes u otros objetos de medios) para fabricar una señal de video final, que incluye técnicas tales como composición y combinación alfa, anti-solapamiento, composición basada en nodos, cuadros clave, composición basada en capas, diseños o composiciones anidadas, composición de imágenes profundas (mediante el uso de color, opacidad y profundidad mediante el uso de datos profundos, ya sea basado en funciones o basado en muestras). La composición es un proceso en curso que incluye movimiento y/o animación de subescenas, cada una de las cuales contiene flujos de video, por ejemplo, diferentes cuadros, ventanas y subescenas en una escena del escenario general pueden mostrar cada una un flujo de video en curso diferente a medida que se mueven, o hacen la transición, combinan o componen de cualquier otra manera como una escena del escenario general. La composición como se usa en la presente puede usar un administrador de ventanas de composición con uno o más búfer fuera de pantalla para una o más ventanas o un administrador de ventanas de apilamiento. Cualquier búfer fuera de pantalla o contenido de memoria de visualización puede almacenarse en búfer doble o triple o almacenarse en búfer de cualquier otra manera. La composición también puede incluir el procesamiento en una o ambas ventanas de memoria de visualización o almacenada en búfer, tal como aplicar efectos animados 2D y 3D, combinación, desvanecimiento, escalado, zoom, giro, duplicación, doblado, contorsión, barajado, desenfoque, adición de sombras paralelas, brillos, vistas previas y animación. Puede incluir aplicarlos a elementos gráficos orientados a vectores o píxeles o elementos gráficos orientados a vóxeles. La composición puede incluir la representación de vistas previas emergentes al tocar, pasar el mouse, pasar el mouse o hacer clic, conmutar de ventana al reorganizar varias ventanas contra un fondo para permitir la selección al tocar, pasar el mouse, pasar el mouse o hacer clic, así como también conmutación de volteo, conmutación de recubrimiento, conmutación de anillo, conmutación Exposé y similares. Como se discute en la presente descripción, pueden usarse diversas transiciones visuales en el escenario- desvanecimiento, deslizamiento, crecimiento o reducción, así como también combinaciones de estos. "Transición", como se usa en la presente, incluye las etapas de composición necesarias.
Las etapas de un método o algoritmo descrito en relación con las modalidades descritas en la presente descripción pueden llevarse a la práctica directamente en el hardware, en un módulo de software ejecutado por un procesador, o en una combinación de los dos. Un módulo de software puede encontrarse en la memoria RAM, la memoria flash, la memoria ROM, la memoria EPROM, la memoria EEPROM, los registros, el disco duro, un disco extraíble, un CD-ROM, o en cualquier otra forma de medio de almacenamiento conocido en la técnica. Un medio de almacenamiento ilustrativo puede acoplarse al procesador de manera que el procesador pueda leer la información desde, y escribir la información en, el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede integrarse al procesador. El procesador y el medio de almacenamiento pueden encontrarse en un ASIC. El ASIC puede encontrarse en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden encontrarse como componentes discretos en un terminal de usuario.
Todos los procesos descritos anteriormente pueden llevarse a la práctica y automatizarse completamente a través de módulos de código de software ejecutados por uno o más ordenadores o procesadores de propósito general o de propósito especial. Los módulos de código pueden almacenarse en cualquier tipo de medio legible por ordenador u otro dispositivo de almacenamiento de ordenador o colección de dispositivos de almacenamiento. Algunos o todos los métodos pueden llevarse a la práctica alternativamente en hardware informático especializado.
Todos los métodos y tareas descritos en la presente descripción pueden realizarse y automatizarse completamente mediante un sistema informático. El sistema informático puede, en algunos casos, incluir múltiples ordenadores o dispositivos informáticos distintos (por ejemplo, servidores físicos, estaciones de trabajo, series de almacenamiento, etc.) que se comunican e interactúan a través de una red para realizar las funciones descritas. Cada uno de estos dispositivos informáticos típicamente incluye un procesador (o múltiples procesadores o circuitos o colección de circuitos, por ejemplo, un módulo) que ejecuta instrucciones o módulos de programa almacenados en una memoria u otro medio de almacenamiento legible por ordenador no transitorio. Las diversas funciones descritas en la presente descripción pueden llevarse a la práctica en tales instrucciones de programa, aunque algunas o todas las funciones descritas pueden implementarse alternativamente en circuitos específicos de la aplicación (por ejemplo, los ASIC o FPGA) del sistema informático. Cuando el sistema informático incluye múltiples dispositivos informáticos, estos dispositivos pueden, pero no necesariamente, ubicarse en el mismo lugar. Los resultados de los métodos y tareas descritos pueden almacenarse de forma persistente al transformar los dispositivos físicos de almacenamiento, tales como chips de memoria de estado sólido y/o discos magnéticos, en un estado diferente.

Claims (1)

  1. REIVINDICACIONES
    Un método de composición y salida de una señal de video, que comprende:
    grabar una señal de video panorámica que tiene una relación de aspecto de sustancialmente 2,4:1 o mayor, capturada desde una cámara ancha (100) que tiene un campo de visión angular horizontal de sustancialmente 90 grados o mayor;
    submuestrear al menos dos señales de video de la subescena (SS1, SS2, ... SSn) en los respectivos rumbos de interés (B1, B2, ... Bn) de la cámara ancha (100);
    componer al menos dos señales de video de la subescena (SS1, SS2, ... SSn) una al lado de la otra para formar una señal de video de la escena del escenario (STG) que tiene una relación de aspecto de sustancialmente 2:1 o menos, en donde más del 80 % del área de la señal de video de la escena del escenario se submuestrea de la señal de video panorámica;
    emitir la señal de video de la escena del escenario formateada como una señal de video de una única cámara;
    submuestrear al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional en un respectivo rumbo de interés (B1, B2, ... Bn) de la señal de video panorámica; y
    componer al menos dos señales de video de la subescena junto con al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional para formar una señal de video de la escena del escenario que tiene una relación de aspecto de sustancialmente 2:1 o menos que incluye una pluralidad de señales de video de la subescena (SS1, SS2, ... SSn) una al lado de la otra, en donde componer al menos las dos señales de video de la subescena (SS1, SS2, ... SSn) junto con la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional para formar una señal de video de la escena del escenario (STG) comprende:
    hacer la transición de la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional a la señal de video de la escena del escenario (STG) al reducir el ancho de al menos una de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) por una cantidad correspondiente al ancho de la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional,
    en donde a cada señal de video de la subescena (SS1, SS2, ... SSn) se le asigna un ancho mínimo respectivo, cada señal de video de la subescena (SS1, SS2, ... SSn) se compone una al lado de la otra sustancialmente a no menos que el ancho mínimo respectivo correspondiente para formar la señal de video de la escena del escenario (STG), y cuando una suma de los anchos mínimos respectivos de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) junto con la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional excede un ancho de la señal de video de la escena del escenario (STG), al menos una de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) hace la transición para eliminarse de la señal de video de la escena del escenario (STG),
    en donde el ancho mínimo asignado a cada una de las señales de video de la subescena (SS1, SS2, .... SSn) es uno de los límites del ancho de la cara determinados visualmente de un participante (M1, ... Mn) en un respectivo rumbo de interés (B1, B2, ... Bn) o una aproximación acústica determinada acústicamente relacionada con la resolución angular de un sensor acústico o una serie de micrófonos acústicos (4), en donde el sensor acústico o la serie de micrófonos acústicos se dispone junto con la cámara ancha (100).
    El método de acuerdo con la reivindicación 1, en donde además al menos una de las dos señales de video de la subescena (SS1, SS2, ... SSn) que hace la transición para eliminarse de la señal de video de la escena del escenario (STG) corresponde a un respectivo rumbo de interés (B1, B2, ... Bn) en el que se cumplió menos recientemente unos criterios de actividad.
    El método de acuerdo con la reivindicación 1, en donde un orden de izquierda a derecha con respecto a la cámara ancha entre los respectivos rumbos de interés (B1, B2, ... Bn) de las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) y la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional se conserva ya que las al menos dos señales de video de la subescena (SS1, SS2, ... SSn) se combinan junto con la al menos una señal de video de la subescena (SS1, SS2, ... SSn) adicional para formar la señal de video de la escena del escenario (STG).
ES16774312T 2015-04-01 2016-04-01 Composición y escalamiento de subescenas separadas angularmente Active ES2906619T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562141822P 2015-04-01 2015-04-01
PCT/US2016/025557 WO2016161288A1 (en) 2015-04-01 2016-04-01 Compositing and scaling angularly separated sub-scenes

Publications (1)

Publication Number Publication Date
ES2906619T3 true ES2906619T3 (es) 2022-04-19

Family

ID=57007667

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16774312T Active ES2906619T3 (es) 2015-04-01 2016-04-01 Composición y escalamiento de subescenas separadas angularmente

Country Status (10)

Country Link
US (3) US10991108B2 (es)
EP (2) EP3995892A1 (es)
JP (2) JP6966421B2 (es)
CN (2) CN114422738A (es)
AU (3) AU2016242980B2 (es)
CA (1) CA2981522A1 (es)
ES (1) ES2906619T3 (es)
IL (3) IL282492B2 (es)
SG (1) SG11201708060YA (es)
WO (1) WO2016161288A1 (es)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422738A (zh) 2015-04-01 2022-04-29 猫头鹰实验室股份有限公司 合成并缩放角度分离的子场景
US20170006219A1 (en) 2015-06-30 2017-01-05 Gopro, Inc. Image stitching in a multi-camera array
CA2994239A1 (en) * 2015-07-31 2017-02-09 Hsni, Llc Virtual three dimensional video creation and management system and method
US9992502B2 (en) 2016-01-29 2018-06-05 Gopro, Inc. Apparatus and methods for video compression using multi-resolution scalable coding
US10291910B2 (en) 2016-02-12 2019-05-14 Gopro, Inc. Systems and methods for spatially adaptive video encoding
US10484621B2 (en) 2016-02-29 2019-11-19 Gopro, Inc. Systems and methods for compressing video content
USD809044S1 (en) 2016-03-01 2018-01-30 Owl Labs, Inc. Web camera
JP2019514078A (ja) * 2016-03-10 2019-05-30 ヴィズビット インコーポレイテッド 時間多重化プログラム可能な視野撮像
US10645362B2 (en) * 2016-04-11 2020-05-05 Gopro, Inc. Systems, methods and apparatus for compressing video content
US10163030B2 (en) 2016-05-20 2018-12-25 Gopro, Inc. On-camera image processing based on image activity data
US10462466B2 (en) 2016-06-20 2019-10-29 Gopro, Inc. Systems and methods for spatially selective video coding
US9638800B1 (en) 2016-11-22 2017-05-02 4Sense, Inc. Passive tracking system
US9720086B1 (en) 2016-11-22 2017-08-01 4Sense, Inc. Thermal- and modulated-light-based passive tracking system
US9798933B1 (en) 2016-12-12 2017-10-24 Logitech Europe, S.A. Video conferencing system and related methods
US10198862B2 (en) 2017-01-23 2019-02-05 Gopro, Inc. Methods and apparatus for providing rotated spherical viewpoints
EP3616196A4 (en) 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS
CN108882018B (zh) 2017-05-09 2020-10-20 阿里巴巴(中国)有限公司 虚拟场景中的视频播放、数据提供方法、客户端及服务器
WO2018222827A1 (en) 2017-06-02 2018-12-06 Owl Labs, Inc. Wide angle lens and camera system for peripheral field of view imaging
JP7210188B2 (ja) * 2017-08-31 2023-01-23 キヤノン株式会社 情報処理システム、制御装置及び情報処理方法
US20190215464A1 (en) * 2018-01-11 2019-07-11 Blue Jeans Network, Inc. Systems and methods for decomposing a video stream into face streams
CN110351607B (zh) 2018-04-04 2022-01-14 阿里巴巴(中国)有限公司 一种全景视频场景切换的方法、计算机存储介质及客户端
CN109308686B (zh) * 2018-08-16 2022-06-24 北京市商汤科技开发有限公司 一种鱼眼图像处理方法及装置、设备和存储介质
WO2020142589A1 (en) * 2019-01-04 2020-07-09 Gopro, Inc. Face detection in spherical images
US10992902B2 (en) * 2019-03-21 2021-04-27 Disney Enterprises, Inc. Aspect ratio conversion with machine learning
JP2020202503A (ja) * 2019-06-11 2020-12-17 キヤノン株式会社 撮像装置、コンピュータプログラムおよび記憶媒体
CN110428184A (zh) * 2019-08-06 2019-11-08 深圳前海微众银行股份有限公司 待办事项分发方法、装置、设备及计算机可读存储介质
US11095467B2 (en) 2019-08-16 2021-08-17 Logitech Europe S.A. Video conference system
US11038704B2 (en) 2019-08-16 2021-06-15 Logitech Europe S.A. Video conference system
US11258982B2 (en) 2019-08-16 2022-02-22 Logitech Europe S.A. Video conference system
US11088861B2 (en) 2019-08-16 2021-08-10 Logitech Europe S.A. Video conference system
US10778941B1 (en) 2019-09-27 2020-09-15 Plantronics, Inc. System and method of dynamic, natural camera transitions in an electronic camera
US11012249B2 (en) 2019-10-15 2021-05-18 Microsoft Technology Licensing, Llc Content feature based video stream subscriptions
TWI749391B (zh) 2019-10-30 2021-12-11 緯創資通股份有限公司 視訊會議系統以及視訊會議方法
US11579913B2 (en) * 2019-12-18 2023-02-14 Vmware, Inc. System and method for optimizing network topology in a virtual computing environment
US11095867B1 (en) 2020-02-13 2021-08-17 Fujifilm Business Innovation Corp. Saliency prediction using part affinity fields in videos
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
CN111462023B (zh) * 2020-03-31 2023-05-23 上海大学 一种图像纹理线条矢量化系统和方法
WO2022031872A1 (en) * 2020-08-04 2022-02-10 Owl Labs Inc. Designated view within a multi-view composited webcam signal
CN114079733A (zh) * 2020-08-12 2022-02-22 茂傑国际股份有限公司 多功能摄影装置
WO2022032729A1 (zh) * 2020-08-14 2022-02-17 广东思锐光学股份有限公司 一种具有内置变形镜头的移动终端
TWI750967B (zh) * 2020-08-19 2021-12-21 信驊科技股份有限公司 適用於具廣角網路攝影機之視訊會議系統之影像顯示方法
CN114079745A (zh) 2020-08-19 2022-02-22 信骅科技股份有限公司 适用于具广角网络摄影机的视频会议系统的图像显示方法
JP2023541551A (ja) * 2020-08-24 2023-10-03 アウル ラブス、インク. 複数のカメラからのウェブカム信号のマージ
CN111970474B (zh) * 2020-08-28 2022-06-21 北京容联易通信息技术有限公司 一种多路视频的智能混屏方法和系统
JP2022040434A (ja) * 2020-08-31 2022-03-11 株式会社リコー 通信端末、画像通信システム、画像表示方法およびプログラム
US11082661B1 (en) * 2020-09-25 2021-08-03 Microsoft Technology Licensing, Llc Virtual conference view for video calling
US11882163B2 (en) * 2020-09-29 2024-01-23 Gn Audio A/S System and method for visual and auditory communication using cloud communication
CN112802248A (zh) * 2020-12-25 2021-05-14 贵州宇特智能科技有限公司 一种人脸识别门禁设备及门禁控制系统
CN114764890A (zh) * 2020-12-30 2022-07-19 富泰华工业(深圳)有限公司 人行通道环境评估方法、装置及电子设备
US20220353096A1 (en) * 2021-04-28 2022-11-03 Zoom Video Communications, Inc. Conference Gallery View Intelligence System
US11736660B2 (en) 2021-04-28 2023-08-22 Zoom Video Communications, Inc. Conference gallery view intelligence system
US11843898B2 (en) 2021-09-10 2023-12-12 Zoom Video Communications, Inc. User interface tile arrangement based on relative locations of conference participants
US11882383B2 (en) 2022-01-26 2024-01-23 Zoom Video Communications, Inc. Multi-camera video stream selection for in-person conference participants
WO2023191814A1 (en) * 2022-04-01 2023-10-05 Hewlett-Packard Development Company, L.P. Audience configurations of audiovisual signals
WO2024028843A2 (en) * 2022-08-05 2024-02-08 Huddly As Systems and methods for framing meeting environments and participants
CN115314684B (zh) * 2022-10-10 2022-12-27 中国科学院计算机网络信息中心 一种铁路桥梁的巡检方法、系统、设备及可读存储介质
CN115633248B (zh) * 2022-12-22 2023-03-31 浙江宇视科技有限公司 多场景协同检测方法与系统

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05122689A (ja) 1991-10-25 1993-05-18 Seiko Epson Corp テレビ会議システム
JPH10145763A (ja) * 1996-11-15 1998-05-29 Mitsubishi Electric Corp 会議システム
JPH11331827A (ja) 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
US7206460B2 (en) * 2001-11-01 2007-04-17 General Electric Company Method for contrast matching of multiple images of the same object or scene to a common reference image
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US20040008423A1 (en) * 2002-01-28 2004-01-15 Driscoll Edward C. Visual teleconferencing apparatus
US7298392B2 (en) 2003-06-26 2007-11-20 Microsoft Corp. Omni-directional camera design for video conferencing
US7852369B2 (en) * 2002-06-27 2010-12-14 Microsoft Corp. Integrated design for omni-directional camera and microphone array
JP2004248125A (ja) * 2003-02-17 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
US20040254982A1 (en) 2003-06-12 2004-12-16 Hoffman Robert G. Receiving system for video conferencing system
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US20050099492A1 (en) * 2003-10-30 2005-05-12 Ati Technologies Inc. Activity controlled multimedia conferencing
JP2005341015A (ja) * 2004-05-25 2005-12-08 Hitachi Hybrid Network Co Ltd 議事録作成支援機能を有するテレビ会議システム
US7768544B2 (en) * 2005-01-21 2010-08-03 Cutler Ross G Embedding a panoramic image in a video stream
JP4257308B2 (ja) * 2005-03-25 2009-04-22 株式会社東芝 利用者識別装置、利用者識別方法および利用者識別プログラム
JP4675208B2 (ja) * 2005-10-26 2011-04-20 株式会社ティアンドデイ 無線通信装置および無線通信システム
JP2007158860A (ja) * 2005-12-06 2007-06-21 Canon Inc 撮影システム、撮影装置、画像切替装置、およびデータ保持装置
US7932919B2 (en) 2006-04-21 2011-04-26 Dell Products L.P. Virtual ring camera
US8024189B2 (en) 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
JP4228010B2 (ja) * 2006-09-29 2009-02-25 Necエンジニアリング株式会社 テレビ会議装置
US8289363B2 (en) 2006-12-28 2012-10-16 Mark Buckler Video conferencing
US8526632B2 (en) * 2007-06-28 2013-09-03 Microsoft Corporation Microphone array for a camera speakerphone
CN101080000A (zh) * 2007-07-17 2007-11-28 华为技术有限公司 视频会议中显示发言人的方法、系统、服务器和终端
US8237769B2 (en) * 2007-09-21 2012-08-07 Motorola Mobility Llc System and method of videotelephony with detection of a visual token in the videotelephony image for electronic control of the field of view
US8180112B2 (en) * 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
US9584710B2 (en) 2008-02-28 2017-02-28 Avigilon Analytics Corporation Intelligent high resolution video system
JP5092888B2 (ja) * 2008-05-16 2012-12-05 ソニー株式会社 画像処理装置および画像処理方法
US8358328B2 (en) * 2008-11-20 2013-01-22 Cisco Technology, Inc. Multiple video camera processing for teleconferencing
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
US8233026B2 (en) * 2008-12-23 2012-07-31 Apple Inc. Scalable video encoding in a multi-view camera system
JP4908543B2 (ja) * 2009-04-06 2012-04-04 株式会社リコー 会議画像再生システムおよび会議画像再生方法
KR100953509B1 (ko) * 2009-05-28 2010-04-20 (주)해든브릿지 다자간 영상 통신 방법.
JP5279654B2 (ja) * 2009-08-06 2013-09-04 キヤノン株式会社 画像追尾装置、画像追尾方法、及びコンピュータプログラム
US9154730B2 (en) * 2009-10-16 2015-10-06 Hewlett-Packard Development Company, L.P. System and method for determining the active talkers in a video conference
JP2012099906A (ja) 2010-10-29 2012-05-24 Jvc Kenwood Corp サムネイル表示装置
US9055189B2 (en) 2010-12-16 2015-06-09 Microsoft Technology Licensing, Llc Virtual circular conferencing experience using unified communication technology
JP2013115527A (ja) * 2011-11-28 2013-06-10 Hitachi Consumer Electronics Co Ltd テレビ会議システム及びテレビ会議方法
US9369667B2 (en) * 2012-04-11 2016-06-14 Jie Diao Conveying gaze information in virtual conference
US20140114664A1 (en) 2012-10-20 2014-04-24 Microsoft Corporation Active Participant History in a Video Conferencing System
KR102045893B1 (ko) * 2013-02-06 2019-11-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
CN103996205B (zh) * 2013-02-15 2019-01-08 三星电子株式会社 一种电子设备和操作电子设备的方法
US9756288B2 (en) 2013-04-10 2017-09-05 Thomson Licensing Tiering and manipulation of peer's heads in a telepresence system
US10674075B2 (en) 2013-04-30 2020-06-02 Sony Corporation Image processing device, image processing method, and program
KR102056193B1 (ko) * 2014-01-22 2019-12-16 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9521170B2 (en) * 2014-04-22 2016-12-13 Minerva Project, Inc. Participation queue system and method for online video conferencing
US9686605B2 (en) 2014-05-20 2017-06-20 Cisco Technology, Inc. Precise tracking of sound angle of arrival at a microphone array under air temperature variation
CN114422738A (zh) 2015-04-01 2022-04-29 猫头鹰实验室股份有限公司 合成并缩放角度分离的子场景

Also Published As

Publication number Publication date
EP3278180B1 (en) 2021-11-24
US10991108B2 (en) 2021-04-27
IL254812B (en) 2021-05-31
JP2018521593A (ja) 2018-08-02
CN107980221B (zh) 2021-10-29
US20160295128A1 (en) 2016-10-06
CN114422738A (zh) 2022-04-29
AU2016242980A1 (en) 2018-02-08
WO2016161288A1 (en) 2016-10-06
JP6966421B2 (ja) 2021-11-17
US20160292884A1 (en) 2016-10-06
CA2981522A1 (en) 2016-10-06
SG11201708060YA (en) 2017-10-30
US10636154B2 (en) 2020-04-28
IL282492B2 (en) 2023-09-01
AU2022202258A1 (en) 2022-04-21
EP3278180A4 (en) 2018-12-26
IL282492A (en) 2021-06-30
AU2019261804B2 (en) 2022-01-06
IL282492B1 (en) 2023-05-01
EP3278180A1 (en) 2018-02-07
US20210082131A1 (en) 2021-03-18
CN107980221A (zh) 2018-05-01
IL302194A (en) 2023-06-01
JP2022017369A (ja) 2022-01-25
AU2016242980B2 (en) 2019-08-08
AU2019261804A1 (en) 2019-11-28
EP3995892A1 (en) 2022-05-11
IL254812A0 (en) 2017-12-31

Similar Documents

Publication Publication Date Title
ES2906619T3 (es) Composición y escalamiento de subescenas separadas angularmente
US20220070371A1 (en) Merging webcam signals from multiple cameras
US11729342B2 (en) Designated view within a multi-view composited webcam signal
US9860486B2 (en) Communication apparatus, communication method, and communication system
ES2301256T3 (es) Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias.
US20170324932A1 (en) Camera system for video conference endpoints
US20100118112A1 (en) Group table top videoconferencing device
US11445110B2 (en) Image capture device with a spherical capture mode and a non-spherical capture mode
JP6946684B2 (ja) 電子情報ボードシステム、画像処理装置、及びプログラム
US20210235024A1 (en) Detecting and tracking a subject of interest in a teleconference
JPWO2013014872A1 (ja) 画像変換装置、カメラ、映像システム、画像変換方法およびプログラムを記録した記録媒体
EP4106326A1 (en) Multi-camera automatic framing
TWI755938B (zh) 影像擷取系統
WO2024028843A2 (en) Systems and methods for framing meeting environments and participants