ES2675513T3 - Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información - Google Patents
Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información Download PDFInfo
- Publication number
- ES2675513T3 ES2675513T3 ES12881218.7T ES12881218T ES2675513T3 ES 2675513 T3 ES2675513 T3 ES 2675513T3 ES 12881218 T ES12881218 T ES 12881218T ES 2675513 T3 ES2675513 T3 ES 2675513T3
- Authority
- ES
- Spain
- Prior art keywords
- video
- represented
- interference
- depth information
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/21—Collision detection, intersection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
Un dispositivo de procesamiento de vídeo (101) para formar un compuesto de un primer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes y un segundo vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes, en el que el primer vídeo 2,5D representa un primer objeto (14) proyectado sobre una superficie de proyección (12) y va acompañado por la primera información de profundidad del primer objeto (14), y el segundo vídeo 2,5D representa un segundo objeto (14) proyectado sobre la superficie de proyección (12) y va acompañado por la segunda información de profundidad del segundo objeto (14), comprendiendo el dispositivo de procesamiento de vídeo (101): un generador de vídeo (105) configurado para generar un tercer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes que representan el primer objeto (14) y el segundo objeto (14) formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D; un determinador de interferencia configurado para determinar si el primer objeto (14) como se representa en el tercer vídeo 2,5D y el segundo objeto (14) como se representa en el tercer vídeo 2,5D satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de profundidad y la segunda información de profundidad; y un corrector (106) configurado para corregir el segundo vídeo 2,5D aplicando una transformación de deformación que deforma una forma de una trayectoria que indica el movimiento del segundo objeto (14) con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
Description
DESCRIPCIÓN
Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información 5
Campo técnico
La presente descripción se refiere a un dispositivo de procesamiento de vídeo, un método de procesamiento de vídeo y un medio de registro de información no transitorio para garantizar que los objetos no satisfagan las 10 condiciones de interferencia cuando los objetos acompañados de información de profundidad y representados en múltiples vídeos se compilan en un vídeo.
Técnica antecedente
15 La tecnología para crear imágenes acompañadas de información de profundidad adquiriendo la distancia (profundidad o distancia z) entre un objeto fotografiado y una cámara se conoce desde antes. Dichas imágenes a menudo se denominan imágenes de 2,5 dimensiones (por ejemplo, véase la Bibliografía no perteneciente a patente 1).
20 Por otro lado, se ha propuesto la tecnología para separar regiones donde se representan fondos prácticamente estáticos y regiones donde se representan objetos en movimiento, a partir de vídeos que representan estados en los que cambian la posición, forma, color, y/o similares, de un objeto (por ejemplo, véase la Bibliografía de patente 1).
Combinando dichas tecnologías, es posible generar vídeos de 2,5 dimensiones en los que se distinguen la 25 profundidad de fondo y la profundidad del objeto, después de separar el fondo y los objetos que se mueven delante de los mismos. En marcos que comprenden las imágenes de 2,5 dimensiones, se representa la superficie del objeto (superficie frontal del objeto) como se observa desde la cámara, y en píxeles incluidos en la región de representación donde se representa el objeto, se asocian el color de la parte de superficie del objeto correspondiente a esos píxeles, junto con la profundidad de esa parte de superficie (profundidad de superficie 30 anterior.
Este tipo de vídeo de 2,5 dimensiones se puede obtener usando la detección mediante un sensor de profundidad simultáneamente fotografiando el mundo real mediante una cámara CCD, o fotografiando el mundo real con una cámara estéreo para estereopsis, encontrando la paralaje para cada píxel correspondiente y calculando la 35 profundidad desde esa paralaje. Aquí, en un vídeo de 2,5 dimensiones realizado al filmar el mundo real, el estado de la superficie del objeto (superficie posterior del objeto) que no está representado en el fotograma no se fotografía, y se desconoce la información sobre la profundidad de la superficie posterior.
Además, después de crear un vídeo que expresa un estado que toma en consideración y causa el movimiento y/o 40 similar de un objeto en un espacio virtual, añadiendo solamente la profundidad de superficie anterior en cada píxel del vídeo, es posible para obtener un vídeo de 2,5 dimensiones. Que este tipo de transformación se logre es conveniente por razones tales como la consistencia del formato, manteniéndose el vídeo de 2,5 dimensiones y siendo la edición de vídeos cada vez más fácil.
45 En el campo de los gráficos tridimensionales, la tecnología de determinación de conflictos se usa ampliamente para evitar que las regiones ocupadas por objetos se invadan entre sí de manera que los objetos que se mueven en el espacio virtual no interfieran, y para evitar situaciones en las que uno penetra en el otro. Conflicto como se denomina aquí naturalmente incluye contacto superficial entre objetos, y también incluye casos en los que las regiones ocupadas entre sí se superponen y casos en los que la distancia entre dos objetos es más cercana que un 50 valor umbral dado aunque los dos estén realmente separados, teniendo de este modo un significado más amplio que la definición cotidiana.
La Bibliografía no perteneciente a patente 2 describe un método para detectar colisiones que pueden producirse en un único vídeo bidimensional. El método descrito comprende un algoritmo de prevención de colisiones para la 55 simulación del comportamiento de multitudes. Dichos métodos no incorporan ni simulan información de profundidad y son diferentes de las simulaciones destinadas a la detección de colisiones en vídeos tridimensionales.
La Bibliografía no perteneciente a patente 3 describe un método para evitar colisiones en un único espacio 2,5D en el que se evita el cálculo tridimensional representando objetos usando un mapa de sombra 2,5D. El método descrito
se refiere al cálculo de sombras para entornos grandes que incluyen miles de objetos dinámicos. Las colisiones se pueden evitar deformando la trayectoria (y, por lo tanto, la sombra) de cada objeto.
Lista de citas
5
Bibliografía de patentes
Bibliografía de patente 1: Publicación Kokai de solicitud de patente japonesa sin examinar N.° 2009-080660. Bibliografía de patente 2: Publicación de Solicitud de Patente de Estados Unidos N.° US2006/149546.
10
Bibliografía no perteneciente a patente
Bibliografía no perteneciente a patente 1: Artículo sobre "2,5D" en la versión inglesa del diccionario en línea gratuito Wikipedia, en
http://en.wikipedia.org/wiki/2,5D, adquirido el 18 de julio de 2012.
http://en.wikipedia.org/wiki/2,5D, adquirido el 18 de julio de 2012.
15 Bibliografía no perteneciente a patente 2: Simulating the Collision Avoidance Behaviour of Pedestrians.
Artículo de investigación de Franck Fuetey, adquirido el 9 de febrero de 2015.
Bibliografía no perteneciente a patente 3: Real-Time Shadows for animated crowds in virtual cities. Artículo de S. Kockara et al, adquirido el 10 de julio de 2015.
20 Resumen de la invención
Problema técnico
Aquí, cuando se compilan múltiples objetos representados en diferentes vídeos de 2,5 dimensiones en un solo 25 vídeo, si se representan múltiples objetos superpuestos en la misma región, el objeto al que se debe dar prioridad en la representación se determina basándose en el tamaño de la profundidad. Sin embargo, comenzar con objetos que interfieren entre sí, tal como invadiéndose mutuamente o penetrando uno en el otro, no es natural en un vídeo final. Por lo tanto, es necesario considerar las condiciones de interferencia para cada posición de los objetos.
30 Por consiguiente, al compilar vídeos múltiples, se han buscado medidas para asegurar que los objetos no satisfagan las condiciones de interferencia entre sí, mediante la implementación de una transformación deformante que transforma las trayectorias en las que los objetos representados en los vídeos se mueven en el espacio tridimensional.
35 Considerando lo anterior, es un objetivo de la presente descripción proporcionar un dispositivo de procesamiento de vídeo, un método de procesamiento de vídeo y un medio de registro de información no transitorio para garantizar que los objetos no satisfagan las condiciones de interferencia cuando los objetos acompañados de información de profundidad y representados en múltiples vídeos se compilan en un vídeo.
40 Solución al problema
El dispositivo de procesamiento de vídeo de acuerdo con la presente descripción es un dispositivo de procesamiento de vídeo para formar un compuesto de un primer vídeo 2,5d y un segundo vídeo 2,5D, en el que el primer vídeo representa un primer objeto proyectado sobre una superficie de proyección y va acompañado por la primera 45 información de profundidad del primer objeto, y el segundo vídeo representa un segundo objeto proyectado sobre la superficie de proyección y va acompañado por la segunda información de profundidad del segundo objeto, comprendiendo el dispositivo de procesamiento de vídeo:
un generador de vídeo configurado para generar un tercer vídeo 2,5D que representa el primer objeto y el 50 segundo objeto formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;
un determinador de interferencia configurado para determinar si el primer objeto como se representa en el tercer vídeo 2,5D y el segundo objeto como se representa en el tercer vídeo 2,5D satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de profundidad y la segunda información de profundidad; y
55 un corrector configurado para corregir el segundo vídeo 2,5D aplicando una transformación de deformación
que deforma una forma de una trayectoria que indica el movimiento del segundo objeto en el espacio tridimensional con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto
de tal forma que la transformación deformante se aplica a través de parámetros de transformación que indican una ubicación de corrección y una cantidad de corrección de la forma de la trayectoria, y los parámetros de transformación se actualizan de manera que la condición de interferencia actualizada no se satisfaga.
5 Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto de tal manera que la condición de interferencia se satisfaga si el primer objeto y el segundo objeto entran en conflicto.
Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto 10 de tal manera que:
el determinante de interferencia calcula una cantidad de conflicto que indica el grado de conflicto entre el segundo objeto y el primer objeto
Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto 15 de tal manera que el corrector corrige una posición de uno o más objetos distintos del primer objeto de manera que la cantidad de conflicto sea cero, en un fotograma donde la cantidad de conflicto es mayor, y actualiza los parámetros de transformación repitiendo la corrección de la posición del uno o más objetos, propagando la cantidad de corrección de la posición a un fotograma adyacente mientras se reduce la cantidad de corrección.
20 Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto de tal forma que la transformación deformante provoca un tamaño de un vector ortogonal al vector de velocidad del segundo objeto y correspondiente a una dirección que dobla la orientación del vector de velocidad del segundo objeto para cambiar mientras mantiene un tamaño de un vector de velocidad con respecto a la trayectoria.
25 Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto de tal forma que la cantidad de conflicto es una suma estimada de los volúmenes en los que una forma del primer objeto estimada basándose en la información de profundidad del primer objeto en cada fotograma y una forma del segundo objeto estimada en base a la información de profundidad del segundo objeto se superponen.
30 Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto de tal forma que la cantidad de conflicto es la suma de las áreas en las que un área en la que el primer objeto debe representarse en cada fotograma y un área en la que el segundo objeto debe representarse se superponen.
Además, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción puede estar compuesto 35 de tal forma que para uno o más objetos cuya trayectoria se corrige, se aplica una transformación ortogonal a las posiciones de una dirección horizontal, una dirección vertical y una información de profundidad de un punto representativo de uno o más objetos, y se aplica una transformación similar en una dirección horizontal y una dirección vertical en una imagen en la que se representan uno o más objetos, en función de las posiciones posteriores a la transformación ortogonal.
40
El método de procesamiento de vídeo de acuerdo con la presente descripción es un método de procesamiento de vídeo para formar un compuesto de un primer vídeo 2,5D y un segundo vídeo 2,5D, en el que el primer vídeo 2,5D representa un primer objeto proyectado sobre una superficie de proyección y va acompañado por la primera información de profundidad del primer objeto, y el segundo vídeo 2,5D representa un segundo objeto proyectado 45 sobre la superficie de proyección y va acompañado por la segunda información de profundidad del segundo objeto, comprendiendo el método de procesamiento de vídeo:
un procedimiento de generación de vídeo para generar un tercer vídeo 2,5D que representa el primer objeto y el segundo objeto formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;
50 un procedimiento de determinación de interferencia para determinar si el primer objeto como se representa
en el tercer vídeo 2,5D y el segundo objeto como se representa en el tercer vídeo 2,5D satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de profundidad y la segunda información de profundidad; y
un procedimiento de corrección para corregir el segundo vídeo 2,5D aplicando una transformación de 55 deformación que deforma una forma de una trayectoria que indica el movimiento del segundo objeto en el
espacio tridimensional con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
El medio de registro de información legible por ordenador no transitorio de acuerdo con la presente descripción es
un medio de registro de información legible por ordenador no transitorio en el que se registra un programa para formar un compuesto de un primer vídeo 2,5D y un segundo vídeo 2,5D, en el que el primer vídeo 2,5D representa un primer objeto proyectado sobre la superficie de proyección y va acompañado por la primera información de profundidad del primer objeto, y el segundo vídeo 2,5D representa un segundo objeto proyectado sobre la superficie 5 de proyección y va acompañado por la segunda información de profundidad del segundo objeto, haciendo el programa que un ordenador funcione como:
Un generador de vídeo configurado para generar un tercer vídeo 2,5D que representa el primer objeto y el segundo objeto formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;
10 un determinador de interferencia configurado para determinar si el primer objeto como se representa en el
tercer vídeo 2,5D y el segundo objeto como se representa en el tercer vídeo 2,5D satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de profundidad y la segunda información de profundidad; y
un corrector configurado para corregir el segundo vídeo 2,5D aplicando una transformación de deformación 15 que deforma una forma de una trayectoria que indica el movimiento del segundo objeto en el espacio
tridimensional con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
El programa descrito anteriormente puede grabarse en un medio de registro de información no transitorio legible por ordenador tal como un disco compacto, disco flexible, disco duro, disco magneto-óptico, disco de vídeo digital, cinta 20 magnética, memoria de semiconductor, y/o similares. El medio de registro de información no transitorio se puede distribuir y vender independientemente de un ordenador.
Además, el programa descrito anteriormente puede distribuirse y venderse a través de un medio de transmisión tal como una red de comunicación informática y/o similares, independientemente de un ordenador en el que se ejecuta 25 el programa.
Efectos ventajosos de la invención
Con la presente descripción es posible proporcionar un dispositivo de procesamiento de vídeo, un método de 30 procesamiento de vídeo y un medio de registro de información no transitorio para garantizar que los objetos no satisfagan las condiciones de interferencia cuando los objetos acompañados de información de profundidad y representados en múltiples vídeos se compilan en un vídeo.
Breve descripción de los dibujos
35
la Figura 1 es un dibujo explicativo que muestra la relación entre un objeto representado en un vídeo de 2,5
dimensiones y los elementos del mismo;
la Figura 2A es una vista en sección transversal de un objeto;
la Figura 2B es una vista en sección transversal que muestra la superficie anterior del objeto;
40 la Figura 2C es una vista en sección transversal de un objeto cuya forma de superficie posterior se estima
haciendo que el espesor sea constante;
la Figura 2D es una vista en sección transversal de un objeto cuya forma de superficie posterior se estima al encontrar una profundidad de superficie anterior representativa del objeto y ajustando el valor encontrado añadiendo espesor a éste como la profundidad de superficie posterior;
45 la Figura 2E es una vista en sección transversal de un objeto cuya forma de superficie posterior se estima
que es una superficie esférica;
la Figura 3 es un dibujo explicativo que muestra una composición resumida de los elementos que acompañan a la determinación de conflictos, en un dispositivo de procesamiento de vídeo; la Figura 4 es un diagrama de flujo que muestra el flujo del proceso de determinación de conflictos;
50 la Figura 5A es un dibujo explicativo que muestra el estado de la pantalla antes del inicio del arrastre;
la Figura 5B es un dibujo explicativo que muestra el estado de la pantalla en el momento en que se inicia el arrastre;
la Figura 5C es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo durante el arrastre;
55 la Figura 5D es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo cuando
la imagen se ha soltado;
la Figura 6 es un dibujo explicativo que muestra la composición resumida de la parte de acuerdo con un proceso de arrastrar y soltar del dispositivo de procesamiento de vídeo;
la Figura 7 es un diagrama de flujo que muestra el flujo de control del proceso de arrastrar y soltar;
la Figura 8 es un diagrama de flujo que muestra el flujo de control de un proceso de ajuste automático; la Figura 9A es un dibujo explicativo que muestra el estado de la pantalla antes del inicio del arrastre; la Figura 9B es un dibujo explicativo que muestra el estado de la pantalla en el momento en que se inicia el arrastre;
5 la Figura 9C es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo durante
el arrastre;
la Figura 9D es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo cuando la imagen se ha soltado;
la Figura 9E es un dibujo explicativo que muestra el estado en el que se realizó una corrección automática a
10 la posición de caída después de la caída;
la Figura 10 es un diagrama de flujo que muestra el flujo de control de un proceso de visualización de resaltado en la región desprendible;
la Figura 11A es un dibujo explicativo que muestra el estado de una trayectoria pos[X,i](t) y una trayectoria pos[Y,j](t);
15 la Figura 11B es un dibujo explicativo que muestra el estado de la trayectoria pos[X,i](t) y la trayectoria
pos[W,j](t);
la Figura 12A es un dibujo explicativo que muestra el estado de una trayectoria que se deforma gradualmente a través de la repetición de un proceso;
la Figura 12B es un dibujo explicativo que muestra el estado de una trayectoria que se deforma
20 gradualmente a través de la repetición de un proceso;
la Figura 12C es un dibujo explicativo que muestra el estado de una trayectoria que se deforma gradualmente a través de la repetición de un proceso;
la Figura 12D es un dibujo explicativo que muestra el estado de una trayectoria que se deforma gradualmente a través de la repetición de un proceso;
25 la Figura 13 es un dibujo explicativo que muestra el estado de ajuste de un vector normal primario en una
parte específica de una trayectoria para evitar un conflicto.
Descripción de las realizaciones
30 A continuación, se describen las realizaciones preferidas de la presente descripción. Las realizaciones preferidas son para propósitos explicativos y no limitan el alcance de la presente descripción como se define en las reivindicaciones adjuntas. Por consiguiente, un experto en la técnica podría aplicar una realización en la que diversos elementos o todos los elementos en el presente documento están sustituidos por equivalentes de los mismos, pero dichas realizaciones también se incluyen dentro del alcance de la presente descripción.
35
El dispositivo de procesamiento de vídeo de acuerdo con las realizaciones preferidas y los ejemplos que se describen a continuación se realiza mediante un ordenador que ejecuta un programa. El programa se lee en un dispositivo de memoria temporal tal como una RAM (memoria de acceso aleatorio) y/o similares, desde un dispositivo de memoria no transitorio tal como una ROM (memoria de solo lectura), un disco duro y/o similares. Una
40 CPU (unidad central de procesamiento) interpreta sucesivamente los programas leídos en la rAm, lee y escribe datos entre diversos dispositivos de memoria y lleva a cabo procesos de cálculo en los datos. Además, la CPU controla la interacción con los dispositivos de entrada y salida, tales como el teclado, el ratón, el panel táctil, la pantalla y la interfaz de red, y/o similares, bajo el control del programa.
45 Sin embargo, el dispositivo de procesamiento de vídeo de acuerdo con la presente descripción no está limitado a ser realizado por un ordenador que ejecuta un programa. Por ejemplo, es posible realizar las mismas funciones utilizando un circuito electrónico especial para el procesamiento de imágenes, una FPGA (matriz de puertas programables de campo), DSP (procesador de señales digitales) y/o similares.
50 En el campo de los gráficos tridimensionales, la interferencia entre objetos se denomina conflicto. En el lenguaje cotidiano, un conflicto significa objetos que colisionan violentamente, haciendo contacto las superficies mutuas y en algunos casos deformándose las formas de los objetos, pero cuando se habla de interferencia de objetos o conflicto de objetos, el significado incluirá cuando las superficies hacen contacto, casos donde las regiones dentro del espacio tridimensional ocupado por un objeto son invadidas y penetradas, y casos en los que incluso a través de los
55 objetos que están separados, la distancia es suficientemente cercana, y/o similares. En las realizaciones y ejemplos a continuación, la frase "conflicto" se usa en lugar del término "interferencia" para facilitar la comprensión.
(Relación entre un vídeo de 2,5 dimensiones y objetos)
A continuación, la notación para expresar un objeto representado en un vídeo de 2,5 dimensiones se organiza para facilitar la comprensión. La Figura 1 es un dibujo explicativo que muestra la relación entre un objeto representado en un vídeo de 2,5 dimensiones y los elementos del mismo. La explicación a continuación hace referencia a este dibujo.
5 En la explicación a continuación, la frase "vídeo de 2,5 dimensiones" se abrevia apropiadamente como "vídeo" para facilitar la comprensión.
Un fotograma reproducido en un tiempo transcurrido t desde el punto de inicio de reproducción (clásicamente, esto se expresa por número de fotogramas) entre los fotogramas incluidos en un vídeo dado X se indica como X(t).
10
En el sistema de coordenadas de píxeles fijado para cada fotograma, en el fotograma X(t), el píxel situado en el valor de coordenadas x en la dirección horizontal y el valor de coordenadas y en la dirección vertical se indica como X(t)[x,y].
15 Que el valor de coordenadas x en la dirección horizontal y el valor de coordenadas y en la dirección vertical sean valores eficaces en cada fotograma del vídeo X se indica como [x,y]eX. Es decir, [x,y] significa la posición de un píxel.
La Figura 1 ilustra un estado en el que la condición de un objeto posicionado en el espacio virtual se representa en 20 un fotograma del vídeo se ve directamente desde el lateral, usando tecnología de gráficos tridimensionales, pero es posible concebir condiciones similares existentes incluso cuando el mundo real es fotografiado con una cámara.
Como se muestra en el dibujo, cuando desde un punto de filmación 11 en el espacio una media línea 13 hacia el píxel X(t)[x,y] en el fotograma X(t) posicionado en una superficie de proyección 12 se encuentra un punto de conflicto 25 15 de la superficie de un objeto 14, el estado del punto de conflicto encontrado 15 se representa en el píxel (X)t[x,y]. Esta es una proyección de perspectiva típica.
Como se ha descrito anteriormente, este dibujo es el estado de filmación visto directamente desde el lateral. Por consiguiente, en este dibujo, la superficie de proyección 12 se expresa por una línea recta.
30
El punto de filmación 11 corresponde a la posición de la cámara o la posición de observación, y la distancia entre el punto de filmación 11 y la superficie de proyección 12 se determina por la longitud focal de la lente y las unidades de longitud de píxel. Además, la dirección de filmación 16 es la dirección de una línea perpendicular desde el punto de filmación 11 hacia la superficie de proyección 12.
35
A continuación, el color del píxel X(t)[x,y] y la profundidad de superficie anterior se indican como X(t)[x,y].color y X(t)[x,y].fore.
X(t)[x,y].color se determina basándose en el color y el estado de la escritura en el punto de conflicto 15, y la 40 distancia entre el punto de filmación 11 y el punto de conflicto 15, y/o similares. X(t)[x,y].color expresa un valor de coordenadas en cada espacio de color, tal como RGB, CYMK, HSV y/o similares, y se formula la conversión del valor de coordenadas entre espacios de color. Además, también sería correcto añadir un valor a que indique transparencia a X(t)[x,y].color.
45 X(t)[x,y].fore expresa la distancia de profundidad entre la parte correspondiente al punto de conflicto 15 del objeto 14 representado en el píxel X(t)[x,y], y el punto de filmación 11. Como la distancia de profundidad, es típico utilizar una longitud 17 de un componente en la dirección de filmación 16 de un vector desde el punto de filmación 11 al punto de conflicto 15 (correspondiente a la denominada "distancia Z"), pero como una aproximación del mismo, sería correcto utilizar la distancia desde el punto de filmación 11 al punto de conflicto 15.
50
La distancia de profundidad se puede expresar en diversos sistemas de unidades. Cuando un píxel comprende un cuadrado, si la longitud del lado del píxel se toma como la unidad, es posible normalizar la profundidad en múltiples vídeos. A continuación, la explicación supone que la profundidad se ha normalizado.
55 En general, en el vídeo X se representa un fondo además de los objetos en movimiento. Se puede pensar que el fondo es un objeto sustancialmente inmóvil.
Si se analiza cada fotograma del vídeo usando la tecnología descrita en la Bibliografía de patente 1 y/o similares, es posible identificar si se representa un fondo o se representa un objeto en movimiento en el píxel X(t)[x,y].
A continuación, se considerará un caso en el que se han asignado números de identificación a objetos identificados para facilitar la comprensión. El número de identificación del objeto que expresa el fondo es 0, y los números de identificación de otros objetos se asignan como 1,2, 3....
Además, el número de identificación de un objeto del que se representa una parte en el píxel X(t)[x,y] se indica como X(t)[x,y].id, y el valor máximo de los números de identificación de objetos que aparecen en el vídeo X se indica como X.maxid.
10 Si los números de identificación de objetos que aparecen en el vídeo X son 0, 1,2, 3, ..., N, después X.maxid = N.
En el vídeo X, si solo se extraen los píxeles X(t)[x,y] que satisfacen la condición X(t)[x,y].id # 0, se puede obtener información solamente sobre los objetos (información que excluye el fondo). Además, para obtener un vídeo de solo el i-ésimo objeto, sería correcto extraer solo los píxeles X(t)[x,y] que satisfagan la condición X(t)[x,y].id = i. Estos 15 corresponden a vídeos para la composición de clave cromática usando fondo azul en tecnología de vídeo convencional.
Como resultado de llevar a cabo la extracción descrita anteriormente, en píxeles que han dejado de ser objetivos de procesamiento, se supondrá que se ha dado un valor negativo como número de identificación para facilitar la 20 comprensión. Es decir, si X(t)[x,y].id <0, el píxel X(t)[x,y] se interpretará como un píxel transparente. Aquí, "transparente" significa que corresponde al fondo azul en la composición de clave cromática.
Basándose en esta interpretación, es posible pensar en un valor negativo que se ajusta como X(t)[x,y].id cuando [x,y] e X no está establecido. A continuación, la explicación continuará para el caso en que los valores negativos se 25 ajustan como .id para píxeles que no son objetivos de procesamiento y "píxeles" en posiciones fuera del fotograma del vídeo, para facilitar la comprensión.
(Diversos tipos de conversiones para vídeos de 2,5 dimensiones)
30 A continuación, se describen métodos de conversión para crear un vídeo diferente a partir de un vídeo dado. Entre este tipo de método de conversión se encuentran los siguientes:
(1) Traslación arriba, abajo, izquierda o derecha a lo largo de un fotograma del vídeo;
(2) Escalamiento del vídeo;
35 (3) Traslación en la dirección de profundidad del vídeo;
(4) Rotación del vídeo en torno al eje horizontal, el eje vertical o el eje de profundidad;
(5) Desplazamiento del vídeo en la dirección de tiempo;
(6) Selección de solo objetos específicos del vídeo;
(7) Formación de un compuesto superponiendo un vídeo diferente en un vídeo dado.
40
Estos se explican en orden a continuación.
En primer lugar, se considera la traslación hacia arriba, abajo, izquierda o derecha a lo largo de un fotograma del vídeo. Si se obtiene un vídeo Y al trasladar el vídeo X por p en la dirección horizontal y q en la dirección vertical 45 dentro del fotograma, entonces:
Y(t)[x+p,y+q] = X(t)[x,y],
y
50
Y(t)[x,y] = X(t)[x-p, y-q].
Aquí, para las igualdades descritas anteriormente, los valores asignados a cada píxel tal como .color y .fore y/o similares, todos tienen un significado equivalente.
55
A continuación, el vídeo obtenido al trasladar el vídeo X por p en la dirección horizontal y por q en la dirección vertical dentro del fotograma se indica como move(p,q,X).
A continuación, se considera el escalamiento del vídeo. En una proyección transparente, la representación como c
veces más grande significa que la profundidad se ha convertido en 1/c veces y los puntos de fondo se han vuelto más cercanos. Por consiguiente, si el vídeo Y es la ampliación del vídeo x c veces dentro del fotograma, para otro que no sea el .fore asignado a cada píxel,
5
Y(t)[cxx, cxy] = X(t)[x,y],
es decir,
Y(t)[x,y] = X(t)[x/c, y/c].
10
Además, por lo tanto, para .fore asignado a cada píxel,
Y(t)[c Xx, cxy].fore = X(t)[x,y].fore/c,
15 es decir,
Y(t)[x,y].fore = X(t)[x/c, y/c].fore/c.
A continuación, el vídeo obtenido al ampliar el vídeo X c veces dentro del fotograma se indica como scale(c,X).
20
A continuación, se considera la traslación del vídeo en la dirección de profundidad. Cuando el vídeo Y se obtiene por objetos tomados en el vídeo X que se hace más distante por la dirección de profundidad r, la distancia de profundidad de X(t)[x,y] cambia de X(t)[x,y].fore a X(t)[x,y].fore + r. Es decir, la distancia de profundidad se convierte en (X(t)[x,y].fore + r)/X(t)[x,y].fore = k veces.
25
En la proyección transparente, si la distancia a un punto de filmación se convierte en k veces, el tamaño representado en la superficie de proyección se amplía o se reduce a 1/k veces. Por consiguiente, para otro que no sea el .fore asignado a cada píxel,
30
Y(t)[x/k, y/k] = X(t)[x,y]
y para .fore,
35
Y(t)[x/k, y/k], fore = X(t)[x,y].fore + r.
A continuación, el vídeo obtenido trasladando el vídeo X por r en la dirección de profundidad se indica como push(r,X).
Además, se considera la rotación del vídeo en torno al eje horizontal, el eje vertical o el eje de profundidad. Si el 40 vídeo Y se obtiene rotando el vídeo X en 0 en torno al eje horizontal, los elementos diferentes de .fore se convierten en:
Y(t)[x,y] = X(t)[x, X(t)[x,y].forc x eos 0 - y *sen 0],
45 y para .fore,
Y(t)[x,y].forc = X(t)[x,y].forc *sen 0 + y x eos 0
se establece.
50
De forma similar, si el vídeo Y se obtiene rotando el vídeo X en y en torno al eje vertical, los elementos distintos de .fore se convierten en:
Y(t)[x,y] = X(t)[X(t)[x,y].forc * eos 0 - x x sen 0, y],
y para .fore,
se establece.
5
Además, cuando el vídeo Y se obtiene rotando el vídeo X en ^ en torno al eje de profundidad,
Y(t)[x,y] = X(t)[x x COS \)/- y x sen y, x * sen \|/ + y x eos \|/]
10 se establece.
A continuación, los vídeos obtenidos por las respectivas rotaciones se indican como rothor(0,X), rotver(^,X) y rotdep(Y, X).
15 Cuando se realizan estas transformaciones, los valores de coordenadas de los píxeles no son valores enteros y, a veces, se produce un agujero en los valores de coordenadas. En dichos casos, los valores de .color y .fore y/o similares asignados a cada píxel se interpolan y se realiza anti-solapamiento, y para .id, es posible adoptar un método tal como utilizar un valor en el punto de cuadrícula más cercano a esa coordenada, o encontrar en qué posición el límite donde .id cambia se coloca a través de interpolación y determinar .id basándose en ese límite.
20
Los píxeles que están fuera del alcance del fotograma del vídeo debido a una traslación y/o similar pueden considerarse píxeles transparentes, por lo que sería correcto establecer .id en un valor negativo como anteriormente.
A continuación, se consideran las traslaciones del vídeo en la dirección del tiempo. Si el vídeo Y se encuentra 25 desplazando el vídeo X por d en el tiempo,
Y(t)[x,y] = X(t-d)[x,y]
30
35
se establece.
A continuación, el vídeo en el que el tiempo del vídeo X se desplaza por d se indica como shift(d,X).
Además, se considera un proceso para seleccionar únicamente un objeto específico de un vídeo. Si un vídeo y representa solo un objeto con el i-ésimo número de identificación en el vídeo X, para elementos distintos de .id,
Y(t)[x,y] = X(t)[x,y], ifX(t)[x,y].id = i
se establece. Además, para .id, si 40
45
Y(t)[x,y].id = 1, ifX(t)[x,y].id = i e i > 0;
Y(t)[x,y].id = 0. ifX(t)[x,y].id = i e i = 0; Y(t)[x,y].id = -U de otro modo
entonces es posible minimizar en la medida de lo posible el valor máximo Y.maxid de los números de identificación en el vídeo Y.
50 A continuación, un vídeo que representa solo el objeto que tiene el número de identificación i representado en el vídeo X se indica como select(i,X).
Finalmente, se considera el proceso de superponer un vídeo diferente en un vídeo dado. Si no hay conflicto entre los objetos representados en los vídeos X e Y, superponiendo un objeto distinto del fondo del vídeo Y en el vídeo X 55 (sería correcto incluir el fondo, y también sería correcto incluir solo los objetos distintos del fondo), se obtiene un
vídeo Z en el que los objetos representados en el vídeo X y los objetos representados en el vídeo Y se compilan en uno.
En el vídeo Z, para otro distinto de .id,
5
Z(t)[x,y] = X(t)[x,y], ifY(t)[x,y].id < 0; Z(t)[x,y] = X(t)[x,y], ifX(t)[x,y].fore < Y(t)[x,y].fore;
10
Z(t)[x,y] = Y (t)[x,y] , de otro modo
se establece. Además, para .id, si
15
Z(t)[x,y].id = X(t)[x,y].id, if Y(t)[x,y].id < 0;
Z(t)[x,y].id = X(t)[x,y].id, if X(t)[x,y].fore < Y(t)[x,y].fore;
20
Z(t)[x,y].id = Y(t)[x,y].id + X.maxid,
de otro modo
entonces es posible evitar la superposición de números de identificación de objetos.
Además, de los números enteros 1, 2, ..., Z.maxid, si hay uno que no aparece como un valor de Z(t)[x,y].id, es 25 posible minimizar Z.maxid desplazando el .id de los objetos posteriores.
A continuación, el vídeo obtenido al superponer objetos distintos del fondo del vídeo Y en el vídeo X se indica como superimpose(Y,X).
30 Cuando los procesos descritos anteriormente move, scale, push, rothor, rotver, rotdep, select, superimpose, y/o similares, se realizan por ordenador, es posible usar una función de calculadora poseída por una CPU (unidad central de procesamiento), y el cálculo de alta velocidad también es posible usando un procesador para el procesamiento de gráficos, y/o similares.
35 En scale y push, el escalamiento y la traslación en la dirección de profundidad se consideran centradas en el origen, y en rothor, rotver y rotdep, la suposición es que el eje de rotación pasa a través del origen.
Por consiguiente, cuando el deseo es lograr el escalamiento o la traslación en la dirección de profundidad centrada en una posición arbitraria [p,q] dentro del vídeo X, sería correcto trasladar primero [p,q] arriba, abajo, izquierda o 40 derecha al origen, luego realizar el escalamiento o la traslación en la dirección de profundidad y luego realizar la traslación inversa arriba, abajo, izquierda o derecha. Es decir, sería correcto usar:
move(p,q, scale(c, move(-p, -q, X)));
45 move(p,q, push(r, move(-p, -q, X))).
Cuando la posición del eje de rotación se ha de desplazar hacia arriba, abajo, izquierda o derecha o en la dirección de profundidad, el eje de rotación se traslada primero en la dirección arriba, abajo, izquierda o derecha o en la dirección de profundidad para pasar por el origen, la rotación se lleva a cabo, y después de esto se lleva a cabo una 50 traslación inversa en la dirección arriba, abajo, izquierda o derecha o en la dirección de profundidad.
Además de esto, en una transformación tal como una escala o empuje y/o similar cuando se traduce la profundidad, sería correcto corregir el brillo o la intensidad y/o similares de .color de acuerdo con el grado de los mismos.
55 La normalización del vídeo también se puede llevar a cabo basándose en los ajustes y/o similares en el momento de la filmación, pero también es posible establecer esto de acuerdo con los deseos del usuario o se puede lograr automáticamente.
En el caso de las configuraciones por parte del usuario, primero la altura o el ancho del vídeo simplemente se escala en base a las instrucciones del usuario y/o similares, y al ajustar la resolución, el tamaño de los objetos representados en la imagen se convierte en el deseado. Con "scale", la distancia de profundidad de los píxeles 5 correspondientes se multiplica por un coeficiente correspondiente a la relación de ampliación, pero cuando se normaliza, la distancia de profundidad de los píxeles correspondientes se utiliza sin cambios.
A continuación, el usuario selecciona un coeficiente y la distancia de profundidad de cada píxel se multiplica por este coeficiente.
10
Cuando se intenta generar un vídeo Z en el que el objeto i y el objeto j se representan juntos bajo la situación en la que se representa un objeto i en el vídeo X y se representa un objeto j en el vídeo Y, a menudo es preferible que el tamaño del objeto i y el tamaño del objeto j sean sustancialmente equivalentes, y que la profundidad del objeto i y la profundidad del objeto j sean sustancialmente equivalentes. Cuando se establecen dichos requisitos previos, es 15 posible la normalización automática.
Es decir, el vídeo Y simplemente se escala para que el área promedio y la altura promedio y/o similares de la región en la que se representa el objeto j en el vídeo Y coincida con los valores correspondientes del objeto i en el vídeo X, de manera que se obtenga el vídeo Z. Es decir, para todos los valores, incluido .fore,
20
Z(t)[x,y] = Y(t)[x/c, y/c].
Además, la profundidad en el vídeo Z se multiplica por un coeficiente para que la profundidad promedio del objeto j en el vídeo Z y la profundidad promedio del objeto i en el vídeo X coincidan, obteniendo de ese modo un vídeo W. 25 Es decir, para otro distinto de .fore,
W(t)[x,y] = Z(t)[x,y],
y para .fore,
30
W(t)[x,y].forc = k x Z(t)[x,y].forc.
Si c y k se ajustan automáticamente de manera que se satisfagan las condiciones anteriores, el vídeo W se obtiene normalizando el vídeo Y de modo que el objeto j corresponda con el objeto i. Naturalmente, como se ha descrito 35 anteriormente, sería correcto lograr la normalización configurando c y k de acuerdo con los deseos del usuario.
Anteriormente, se describieron la notación de diversas cantidades características de los vídeos y diversos tipos de transformaciones, pero estas anotaciones y transformaciones están destinadas a facilitar la comprensión. En particular, es posible expresar .color, .fore, .id y/o similares a través de otros formatos. Incluso cuando se utilizan 40 métodos o transformaciones equivalentes a esto en diversos formatos utilizados en el procesamiento de vídeo, naturalmente esto se incluye dentro del alcance técnico de la presente descripción.
Descripción de una realización preferida
45 Las coordenadas de un punto representativo en el espacio tridimensional para el objeto i representado en el vídeo X pueden indicarse como (xc(X,t,i), yc(X,t,i), zc(X,t,i)), como se describe a continuación. Esto se puede ver como un vector de posición tridimensional pos[X,i](t) que cambia con el tiempo.
En los ejemplos a continuación, cuando el objeto j representado en el vídeo Y se superpone al vídeo X, cuando el 50 objeto j entra en conflicto con un objeto representado en el vídeo X, se obtiene un vídeo W por traslación del vídeo S en las direcciones arriba, abajo, izquierda o derecha o en la dirección de profundidad, o girando el vídeo Y, o haciendo un cambio de hora, y este vídeo W se superpone entonces en el vídeo X.
Debido a que la traslación y la rotación y/o similares, son transformaciones congruentes, cuando solo se usan tales 55 transformaciones, el vector de posición pos[Y,j](t) y el vector de posición pos[W,j](t) que son las trayectorias del objeto j, pueden tener diferentes posiciones y orientaciones, pero la forma es la misma. Es decir, se aplica una transformación no deformante que no deforma la trayectoria, por lo que la trayectoria pos[Y,j](t) y la trayectoria pos[W,j](t) son congruentes.
La Figura 11A es un dibujo explicativo que muestra la condición de la trayectoria pos[X,i](t) y la trayectoria pos[Y,j](t).
La Figura 11B es un dibujo explicativo que muestra la condición de la trayectoria pos[X,i](t) y la trayectoria 5 pos[W,j](t).
En estos dibujos, la posición de cada trayectoria en la posición horizontal se muestra en el eje horizontal y el paso del tiempo se muestra en el eje vertical. Además, a lo largo de cada trayectoria, se forman rectángulos estrechos que indican la extensión de ese objeto en la dirección horizontal.
10
La trayectoria pos[W,j](t) en la Figura 11B es la trayectoria pos[Y,j](t) en la Figura 11A movida en la dirección horizontal, y las formas de los dos son congruentes.
Si el objeto i en el vídeo X y el objeto j en el vídeo Y entran en conflicto en el tiempo T, como se muestra en la Figura 15 11A, la trayectoria pos[X,i](t) y la trayectoria pos[Y,j](t) se tocan en el tiempo T, y los rectángulos que representan la extensión de los objetos en la dirección horizontal se superponen.
Por otro lado, no se produce ningún conflicto entre el objeto i del vídeo X y el objeto j del vídeo W. Por consiguiente, como se muestra en la Figura 11B, los rectángulos que representan la extensión de los objetos en la dirección 20 horizontal no se superponen.
Sin embargo, con su tipo de transformación congruente, hay casos en los que los conflictos son inevitables. Por lo tanto, con esta realización preferida, el corrector 106 evita conflictos entre objetos al aplicar sobre el vídeo una transformación de deformación que deforma la trayectoria del objeto.
25
A continuación, se explica un método en el que la trayectoria pos[X,i](t) del objeto i representado en el vídeo X que tiene un fondo no se deforma, pero la trayectoria pos[Y,j](t) del objeto j representado en el vídeo Y superpuesto en el vídeo X se deforma.
30 Primero, el vector de posición pos[Y,j](t) que indica que la trayectoria se deforma para convertirse en el vector de posición morph(t).
A continuación, los diversos valores de coordenadas del vector de posición se indican adjuntando .x, .y y .z.
35 Mediante la deformación de la trayectoria, la profundidad se convierte en morph(t).z/pos[Y,j](t).z veces. Esto significa que en el tiempo t, el objeto j se amplía a pos[Y,j](t).z/morph(t).z veces dentro del fotograma del vídeo Y.
Además, en el tiempo t el objeto j se mueve en la dirección horizontal y la dirección vertical. Las cantidades de estos movimientos son respectivamente (morph(t).x - pos[Y,j](t).x) x pos[Y,j](t).z/morph(t).z, (morph(t).y - pos[Y,j](t).y) x 40 pos[Y,j](t).z/morph(t).z.
Por consiguiente, cuando la trayectoria se deforma, combinando la selección del objeto, la traslación y el escalamiento, es posible obtener un vídeo en el que la trayectoria de un objeto dado se deforme.
45 Si la deformación de una trayectoria se lleva a cabo para evitar un conflicto entre objetos, al superponer el vídeo con la trayectoria deformada, es posible generar un vídeo en el que los objetos representados en vídeos múltiples se representan en un estado en movimiento sin entrar en conflicto.
A continuación, se describen diversos métodos de deformación de trayectorias.
50
En un primer método, en un tiempo t en el que se establece overlap(X,Y,t,x,y) >0, un proceso de deformación de la trayectoria del objeto j de manera que la posición pos[Y,j](t) de un punto representativo del objeto j = Y(t)[x,y].id contenido en el vídeo Y se traslada en una dirección alejada de la posición pos[X,i](t) de un punto representativo del objeto i = X(t)[x,y].id contenido en el vídeo X, o en una dirección del vector normal primario a la trayectoria pos[Y,j](t), 55 se repite para que el cambio en el grado de deformación antes y después del tiempo se vuelva más pequeño, y para que overlap(X,Y,t,x,y) = 0 se establezca en todo momento.
Las Figuras 12A a 12D son dibujos explicativos que muestran el estado en el que la trayectoria se deforma gradualmente repitiendo el proceso. La explicación a continuación hace referencia a estos dibujos.
En la Figura 12A, similar a la Figura 11A, la trayectoria pos[X,i](t) y la trayectoria pos[Y,j](t) se tocan en el tiempo T.
En la Figura 12B, la posición del objeto j en el tiempo T se corrige para que no se produzca ningún conflicto.
5
Debido a que esta cantidad de corrección era grande, en la Figura 12C, las posiciones del objeto j en los tiempos T-
1 y T+1 antes y después del tiempo T se corrigen en una cantidad menor que la cantidad de corrección en la Figura 12B.
10 Debido a que esta cantidad de corrección era grande, en la Figura 12D, las posiciones del objeto j en los tiempos T-
2 y T+2 antes y después de la corrección previa se corrigen adicionalmente en una cantidad menor que la cantidad de corrección en la Figura 12C.
Con esto, la corrección es suficiente y la trayectoria mostrada en la Figura 12D corresponde a la trayectoria morph(t) 15 finalmente obtenida.
La cantidad de corrección propagada a fotogramas adyacentes se reduce elevando la cantidad de corrección para el propio fotograma a una potencia constante no inferior a 0 pero inferior a 1, y si la cantidad de corrección es inferior a un valor umbral prescrito, sería correcto detener la propagación.
20
Al deformar la trayectoria, sería correcto no propagar las correcciones antes y después del tiempo como se ha descrito anteriormente, sino lograr una corrección uniforme mediante la utilización de interpolación de splines.
Además, con este método, si aún se produce un conflicto después de realizar el tipo de corrección y propagación de 25 la cantidad de corrección que se ha descrito anteriormente en el momento en que la cantidad de conflicto es mayor, es posible hacer la cantidad de corrección y la frecuencia de corrección lo más pequeña posible repitiendo el mismo proceso.
Un segundo método es un método que, al deformar la trayectoria pos[Y,j](t) en el tiempo t, hace que solo cambie el 30 tamaño del vector normal primario (un vector ortogonal al vector de velocidad y correspondiente a una dirección que dobla la orientación del vector de velocidad) sin cambiar el tamaño del vector tangente con respecto a la trayectoria (correspondiente al vector de velocidad) y minimiza a 0 collision(Y,X) mientras que también minimiza la suma de los cambios en el tamaño del vector normal primario (típicamente la suma de cuadrados).
35 La Figura 13 es un dibujo explicativo que muestra el estado en el que se ajusta el vector normal primario en partes específicas de la trayectoria. Este dibujo muestra las formas de la trayectoria sin cambios.
En este dibujo, la trayectoria pos[X,i](t) entra en conflicto con la trayectoria pos[Y,j](t) en el tiempo T. Por lo tanto, en la zona ajustada T-a a T+a antes y después del tiempo T, la curva de la trayectoria pos[Y,j](t) se ajusta de manera 40 que no se produzca un conflicto, y se obtiene una trayectoria postcorrección morph(t).
Las formas de la trayectoria pos[Y,j](t) y la trayectoria morph(t) después del tiempo T+a son congruentes.
En el primer método, el cálculo es sencillo pero la divergencia entre la trayectoria y el movimiento del objeto j que se 45 expresa por el vídeo se vuelve grande, y en este tiempo, hay momentos en los que parece que el objeto j está haciendo repentinamente un "Moonwalk".
Puede determinarse si el objeto j realiza movimientos no naturales según si el tamaño y la orientación del vector tangente con respecto a la trayectoria del objeto j, el tamaño del vector normal primario (este es un valor 50 correspondiente a la curvatura de la trayectoria) y el cambio en la orientación exceden los valores umbral prescritos.
Cuando se determina que el movimiento del objeto no es natural debido a la deformación de la trayectoria, si se emite una advertencia a tal efecto, la comodidad del usuario es alta.
55 En la repetición, del proceso de deformación de la trayectoria, sería correcto establecer de antemano un límite superior a la cantidad de deformación de la trayectoria. En este caso, el movimiento del objeto no se vuelve antinatural, pero existe la posibilidad de que no sea posible evitar los conflictos.
Con el segundo método, los cálculos son más complejos, pero la dirección de movimiento del objeto j cambia solo
ligeramente y el tamaño de la velocidad de movimiento no cambia, por lo que no se produce un "moonwalk".
Cuando se representa un fondo en el vídeo X junto con el objeto i, cuando se provoca que la trayectoria del objeto i cambie, hay casos en los que se producen huecos sin información de píxeles entre el fondo y el objeto i. Por lo 5 tanto, con esta realización preferida, solamente se deforma la trayectoria del objeto j representado en el vídeo Y.
Sin embargo, cuando el fondo no está contenido dentro del vídeo X, cuando el objeto i y el objeto j entran en conflicto, sería correcto deformar ambas trayectorias. Con el primer método, sería correcto hacer que el objeto i y el objeto j se muevan en direcciones que se alejan mutuamente, y con el segundo método, sería correcto minimizar 10 tanto la cantidad de cambio en el vector normal primario de la trayectoria del objeto i como la cantidad de cambio en el vector normal primario de la trayectoria del objeto j.
En estos métodos, es posible evitar el movimiento antinatural del objeto y aumentar la comodidad del usuario estableciendo un límite superior en la cantidad de cambio en el vector normal primario, o producir una advertencia 15 cuando la cantidad de cambio en el vector normal primario excede un valor umbral prescrito.
En esta configuración, incluso cuando un conflicto es inevitable con una simple traslación, rotación, escalamiento y similares de los objetos representados en los vídeos, es posible evitar un conflicto deformando la trayectoria.
20 En esta realización preferida y los ejemplos descritos a continuación, se describen métodos para evitar conflictos de objetos. Sin embargo, también es posible imponer la condición limitante de que el contacto entre las superficies de los objetos se produzca en un punto deseado en el tiempo.
Es decir, al imponer la restricción de que en el punto de tiempo deseado hay superposición en la zona de ocupación 25 desde la profundidad de superficie anterior hasta la profundidad de superficie posterior de los dos objetos en una posición donde los dos objetos se representan superponiéndose, y la superposición es 0, el movimiento del objeto y la deformación de las trayectorias se logra de manera que la restricción se cumple.
Además, sería correcto causar la deformación de ambas trayectorias de los objetos i y j representados en ambos 30 vídeos X e Y. En este caso, sería correcto lograr la deformación para minimizar la cantidad de conflicto compilando y tratando los parámetros de deformación para el objeto i y los parámetros de deformación para el objeto j.
Descripción de los ejemplos
35 A continuación, se presentan algunos ejemplos con fines ilustrativos. En la medida en que se usen transformaciones no deformantes en los siguientes ejemplos, no entran dentro del alcance de las reivindicaciones.
Primer ejemplo
40 Este ejemplo se usa para determinar si un objeto i que tiene un número de identificación i en el vídeo X y un objeto j que tiene un número de identificación j en el vídeo Y entran en conflicto cuando el vídeo Y se superpone al vídeo X.
Se consideran las siguientes condiciones como un caso en el que un conflicto entre el objeto i y el objeto j se puede determinar con relativa facilidad.
45
Primero, hay un caso en el que hay un instante durante el cual la superficie anterior del objeto i (la superficie representada en el vídeo X) y la superficie anterior del objeto j (la superficie representada en el vídeo Y) ocupan la misma posición tridimensional. Es decir, para cualquier t, x e y, si
50 X(t)[x,y].id = i;
y
Y(t)[x,y].id=j;
la posición [x,y] está contenida duplicada en el área donde debería representarse el objeto i y el área donde debería representarse el objeto j.
En esta posición [x,y], si
X(t)[x,y].fore = Y(t)[x,y].fore
se establece, se determina que el objeto i y el objeto j entran en conflicto.
5
Con este método, la suposición es que los objetos i y j son objetos en forma de lámina sin nada en la superficie posterior, que no poseen profundidad y que comprenden solo la forma de la superficie anterior.
Para que las superficies anteriores de los objetos i y j tengan la misma profundidad en una posición proyectada 10 sobre un píxel dado X(t)[x,y] significa que las superficies anteriores de los objetos i y j se superponen en esa posición. Por lo tanto, en este caso, es posible determinar que los dos entran en conflicto.
También es posible extender este estándar de determinación en la dirección del tiempo. A continuación, la suposición es para un caso en el que el tiempo transcurrido t se expresa mediante el número de fotogramas, es 15 decir, que el fotograma en el tiempo t + 1 sigue al fotograma en el tiempo t.
En cualquier t, x e y, si
20
X(t)[x,y].id = X(t+l)[x,y].id = i; Y(t)[x,y].id = Y(t+l)[x,y].id=j; X(t)[x,y].fore < Y(t)[x,y].fore;
25 y
X(t+l)[x,y].fore > Y(t+l)[x,y].fore
se establecen, se puede pensar que desde el tiempo t hasta el tiempo t+1, el objeto j ha venido desde detrás del 30 objeto i al frente. Además, si
35
X(t)[x,y].id = X(t+ l)[x,y].id = i; Y(t)[x,y].id = Y(t+l)[x,y].id=j; X(t)[x,y].fore > Y(t)[x,y].fore;
y
X(t+l)[x,y].fore < Y(t+l)[x,y].fore
se establecen, se puede pensar que desde el tiempo t hasta el tiempo t+1, el objeto i ha venido desde detrás del objeto j al frente.
45 Por lo tanto, cuando se produce este tipo de "deslizamiento", se determina que se ha producido un conflicto de objetos.
Con una determinación de conflicto para los objetos i y j en estas condiciones, la suposición es que los objetos i y j están compuestos por las formas de solo las superficies anteriores de los mismos. Cuando los objetos son objetos 50 delgados en forma de placa, se puede pensar que el espesor de los objetos es cero y que coinciden la superficie anterior del objeto y la superficie posterior del objeto. Por consiguiente, mediante la determinación de conflicto lograda a través de este tipo de método, es posible una determinación fácil y rápida.
La Figura 2A es una vista en sección transversal del objeto 14 mostrado en la Figura 1, y la Figura 2B es una vista 55 en sección transversal que muestra la superficie anterior del objeto 14. La explicación a continuación hace referencia a estos dibujos.
Como se muestra en la Figura 2A, el objeto 14 tiene profundidad y la sección transversal de la misma tiene una
extensión.
Sin embargo, cuando el objeto 14 se expresa a través de la información contenida en un vídeo de 2,5 dimensiones, como se muestra en la Figura 2B, la forma del mismo es un objeto plano que comprende solo la superficie anterior 5 del objeto 14. Como este dibujo es una vista en sección transversal, un objeto plano se expresa mediante una línea curva.
Por consiguiente, para lograr una determinación de conflicto entre objetos con mayor precisión, es necesario establecer o estimar la forma de la superficie posterior del objeto 14 a partir de la información sobre el objeto plano 10 como se muestra en la Figura 2B.
Aquí, la profundidad con respecto a la superficie anterior del objeto 14 se obtiene a partir de información incidente al vídeo de 2,5 dimensiones, por lo que para conocer la profundidad del objeto 14, sería correcto obtener la profundidad con respecto a la superficie posterior del objeto 14.
15
A continuación, la profundidad con respecto a la superficie posterior de un objeto representado en el píxel X(t)[x,y] en el tiempo t en el vídeo X se indica como X(t)[x,y].back, y se describe un método para obtener esta profundidad de superficie posterior.
20 En un primer método, el usuario establece por adelantado la distancia entre la superficie anterior y la superficie posterior para cada objeto.
25
Es decir, si la distancia (espesor) entre la superficie anterior y la superficie posterior se establece como una constante thick(i) para un objeto i en el vídeo X, entonces el resultado es:
X(t)[x,y].back = X(t)[x,y].fore + thick(X(t)[x,y].id).
La Figura 2C es una vista en sección transversal de un objeto para el cual se estima la forma de la superficie posterior tomando el espesor como una constante. Como se muestra en el dibujo, la superficie posterior del objeto 30 14 es la forma de la superficie anterior del objeto 14 que ha sufrido una traslación en la dirección de filmación 16.
Además, existe un método para determinar una profundidad representativa de superficie anterior para el objeto i y tomar como profundidad de superficie posterior un valor encontrado al añadir a esto el valor de thick(i).
35 Lo siguiente puede concebirse como una profundidad de superficie anterior representativa repfore(X,t,i) del objeto i en un tiempo dado t:
(1) Utilizando el valor máximo de la profundidad de superficie anterior del objeto i:
40
repfore(X,t,i) - maxx,y;x(t)[x,y].id=i X(t)[x,y].fore
(2) Utilizando el valor promedio de la profundidad de superficie anterior del objeto i:
repfore(X,t,i) - avgx,y;x(i)[x,y].id=i X(t)[x,y].fore 45
Aquí, max y avg significan el valor máximo y el valor promedio de los valores de la parte principal cuando, en la parte del subíndice, las variables dispuestas delante del punto y coma cambian dentro del intervalo que satisface las condiciones dispuestas después del punto y coma. Cuando se usa "constantemente satisfecho" como condición, solo las variables se indican como el subíndice.
50
Es decir, esto significa enumerar combinaciones de x, y que satisfacen X(t)[x,y].id = i en X, t e i dados en los puntos (1) y (2) descritos anteriormente, encontrando el valor de X(t)[x,y].fore para cada una de esas combinaciones y encontrando el valor máximo o el valor promedio de las mismas.
55 Si se usa repfore(X,t,i) establecido de este modo, la profundidad de superficie posterior del píxel X(t)[x,y] cuando se representa el objeto i en el píxel X(t)[x,y] (i=X(t)[x,y].id) puede establecerse de tal forma que:
X(t)[x,y].back = repfore(X,t,i) + thick(i).
o,
5
X(t)[x,y].back = max[repfore(X,t,i) + thick(i), X(t)[x,y].fore] Aquí, max[...] significa el valor máximo de los valores dispuestos entre corchetes.
La Figura 2D es una vista en sección transversal de un objeto para el cual se estima la forma de la superficie posterior del objeto encontrando una profundidad de superficie anterior representativa del objeto y añadiendo 10 espesor para encontrar la profundidad de superficie posterior. Como se muestra en el dibujo, la superficie posterior del objeto 14 es un plano perpendicular a la dirección de filmación 16, y el objeto 14 se asemeja a una forma columnar que se extiende en la dirección de filmación 16.
Además, existe un método para aproximar la superficie posterior estableciendo un punto representativo del objeto i 15 en el tiempo t, y creando una superficie esférica centrada en ese punto representativo.
Primero, el número de píxeles area(X,t,i) de la región donde se representa el objeto i en el tiempo t en el vídeo X se encuentra de la siguiente manera:
20 area(X,t,i) - E x,y;X(t)[x,y].id=i 1
Aquí, el subíndice de I tiene el mismo significado que con max y avg.
Una coordenada horizontal xc(X,t,i) y una coordenada vertical yc(X,t,i) del punto representativo del objeto i en el 25 tiempo t se establecen de la siguiente manera:
xc(X,t,i) 2x.y:Xá)|x.y|.id i x/area(X,t,i)í
30
yc(X,t,i) = £x,y;x(t)[x,y].id=i y/area(X,t,i),
Además, una anchura w(X,t,i) y una altura h(X,t,i) de la región en la que se representa el objeto i en el tiempo t en el vídeo X se establecen de la siguiente manera:
35
w(X,t,Í) HiaXx,y;X(t)[x,y].id=i X - mÍtlx,y;X(t)|x,y].id=i XJ
h(X,t,i) = maxx,y;x(t)[x,y].id=i y - minx,y;x(t)[x,y].id=i y.
40
Existen varios métodos para establecer el diámetro D(X,t,i) de la superficie esférica, tales como los que se muestran a continuación:
D(X,t,i) = max [w(X,t,i), h(X,t,i)];
45
D(X,t,i) = area(X,t,i)1/2;
50
D(X,t,i) = avgtarea(X,t,i)3/2/area(X,t,i)
Aquí, avgt area(X,t,i) significa el promedio de tiempo para la región en la que se representa el objeto i en el vídeo X. Por consiguiente, avgt area(X,t,i)3/2 corresponde al valor aproximado del volumen que ocupa el objeto i, y cuando se divide por el area(X,t,i), se obtiene un valor aproximado de la longitud de la profundidad.
55 Ahora, una vez que se establece el diámetro D(X,t,i), se puede establecer la coordenada de profundidad zc(X,t,i) del punto representativo de la siguiente manera:
zc(X,t,i) = X(t)[xc(X,t,i), yc(X,t,i)].fore + D(X,t,i)/2
5
10
Además, sería correcto simplemente establecer esto de la siguiente manera:
zc(X,t,i) = X(t)[xc(X,t,i), yc(X,t,i)].fore.
Con lo cual, si la profundidad de superficie posterior del píxel X(t)[x,y] cuando el objeto i se representa en el píxel X(t)[x,y] (i=X(t)[x,y].id) se establece por:
X(t)[x,y].back = max [zc(X,t,i) + [max [(D(X,t,i)/2) - (x-xc(X,t,i))2 - (y-
yc(X,t,i))2],0]1/2, X(t)[x,y] .fore],
la superficie esférica se puede aproximar mejor, y si 15 X(t)[x,y].back = max [zc(X,t,i) + D, X(t)[x,y].fore]
se establece, un cilindro puede aproximarse mejor.
La Figura 2E es un dibujo en sección transversal de un objeto con una forma cuya superficie posterior se supone 20 que es una superficie esférica. En el ejemplo mostrado en este dibujo, la superficie posterior del objeto 14 es una superficie esférica centrada en un punto representativo 21, pero desde la superficie anterior del objeto 14 con respecto a la superficie esférica, la forma se asemeja más a la forma de un cilindro que se extiende en la dirección de filmación 16.
25 Hasta este punto, se han descrito métodos para establecer y estimar la profundidad de superficie posterior de un objeto en movimiento, pero sería correcto pensar en la profundidad de superficie posterior como « para objetos correspondientes al fondo. Es decir, cuando
30
se establece, entonces
X(t)[x,y].back = x.
35 La zona de ocupación en la dirección de profundidad ocupada en el píxel X(t)[x,y] por el objeto X(t)[x,y].id representado en el píxel X(t)[x,y] en el vídeo X en el tiempo t se extiende desde la profundidad de superficie anterior X(t)[x,y].fore a la profundidad de superficie posterior X(t)[x,y].back.
X(t)[x,y].id = 0
Si hay superposición en la zona de ocupación desde la profundidad de superficie anterior a la profundidad de 40 superficie posterior de dos objetos representados en la misma posición de píxel, esos dos objetos están en conflicto.
Por consiguiente, para cualquier t, x, y:
X(t)[x,y].id = i; 45
Y(t)[x,y].id = j,
y si se da alguna de las cuatro relaciones:
50 (1) X(t)[x,y].fore < Y(t)[x,y].fore < X(t)[x,y].back;
(2) X(t)[x,y].fore < Y(t)[x,y].back < X(t)[x,y].back;
(3) Y(t)[x,y].fore < X(t)[x,y].fore < Y(t)[x,y].back;
(4) Y(t)[x,y] .fore < X(t)[x,y].back < Y(t)[x,y].back.
55 se establece, cuando el vídeo X y el vídeo Y se superponen, es posible determinar que el objeto i representado en el vídeo X y el objeto j representado en el vídeo Y entran en conflicto.
A continuación, la cantidad de superposición en las dos zonas de ocupación se indica como overlap(X,Y,t,x,y). Si no se cumple ninguno de los puntos (1) a (4) anteriores, overlap(X,Y,t,x,y) = 0, y si overlap(X,Y,t,x,y) > 0, los objetos i y j entran en conflicto.
Específicamente, en el caso del punto (1) anterior,
overlap(X,Y,t,x,y) = min [X(t)[x,y].back, Y(t)[x,y].back] - Y(t)[x,y].fore, en el caso de (2) anteriormente overlap(X,Y,t,x,y) = Y(t)[x,y].back - max [X(t)[x,y].fore, Y(t)[x,y].fore], en el caso de (3) anteriormente,
10 overlap(X,Y,t,x,y) = min [X(t)[x,y].back, Y(t)[x,y].back] - X(t)[x,y].fore, y en el caso de (4) anteriormente,
overlap(X,Y,t,x,y) = X(t)[x,y].back - max [X(t)[x,y].fore, Y(t)[x,y].fore].
Aquí, min [...] es lo opuesto de max [...] y devuelve el valor mínimo de los valores entre corchetes.
15 Cuando se establece cualquiera de los puntos (1) a (4) anteriores y overlap(X,Y,t,x,y) = 0, es posible pensar que los objetos i y j no están separados sino que están en contacto entre sí. Por consiguiente, es posible distinguir entre un conflicto en el que los dos se invaden mutuamente entre sí y un conflicto en el que las superficies se tocan.
Además, sería correcto en la determinación de conflictos no usar la propia zona de ocupación descrita 20 anteriormente, sino averiguar si existe una superposición ampliando ligeramente la zona de ocupación añadiendo un margen al límite superior y el límite inferior de la misma. En este caso, al hacer que se añada un margen a la determinación de conflictos de los objetos i y j, se determina que los objetos i y j están en conflicto (o en peligro) si no se separan por una cierta distancia.
25 Por otro lado, si el margen descrito anteriormente es negativo, es posible permitir conflictos con una ligera invasión. Esto es adecuado cuando el objeto es elástico y se asumen indentaciones, y/o similares.
La Figura 3 es un dibujo explicativo que muestra la composición resumida de elementos para llevar a cabo una determinación de conflictos, en el dispositivo de procesamiento de vídeo de acuerdo con este ejemplo preferido.
30
Como se muestra en este dibujo, los elementos para llevar a cabo una determinación de conflictos en el dispositivo de procesamiento de vídeo 101 comprenden un adquirente de profundidad de superficie posterior 102 y un determinador de conflictos 103.
35 El dispositivo de procesamiento de vídeo 101 toma el primer vídeo X y el segundo vídeo Y como objetivos de procesamiento. Por ejemplo,
(a) como primer vídeo X, se utiliza una imagen de 2,5 dimensiones filmando a un bailarín que baila en el mundo real,
40 (b1) como el segundo vídeo Y, se utiliza un vídeo que expresa un personaje que baila sin fondo, y
(b2) como el segundo vídeo Y, se utiliza un vídeo filmado para expresar otro usuario bailando y luego el otro usuario ha realizado la edición y eliminado toda la información de fondo para que el otro usuario esté bailando sin fondo.
45 El dispositivo de procesamiento de vídeo 101 en este ejemplo finalmente compila un tercer vídeo en el que un bailarín baila junto con un personaje u otro usuario.
En consecuencia, en primer lugar, el dispositivo de procesamiento de vídeo 101 determina un conflicto entre el primer objeto i representado en el primer vídeo X y el segundo objeto j representado en el segundo vídeo Y que 50 debería superponerse en el primer vídeo X. El dispositivo de procesamiento de vídeo 101 se realiza típicamente ejecutando un programa en un ordenador.
Aquí, el primer vídeo X va acompañado de una primera profundidad de superficie anterior del primer objeto i en el lado representado en el primer vídeo X, y el segundo vídeo Y va acompañado de una segunda profundidad de 55 superficie anterior del segundo objeto j en el lado representado por el segundo vídeo Y.
Usando la notación anterior, si el primer objeto i se representa en un píxel en la posición [x,y] en el fotograma X(t) en el tiempo t contenido en el primer vídeo X, entonces X(t)[x,y].id = i y la primera profundidad de superficie anterior es X(t)[x,y].fore.
El primer vídeo X puede comprender un objeto en movimiento solo o puede incluir fondo. En el primer caso, un objeto con i >0 se utiliza como el primer objeto, y en el último caso, un objeto con i >0 se utiliza como el primer objeto.
Además, si el segundo objeto j se representa en un píxel en la posición [x,y] en un fotograma Y(t) en el tiempo t contenido en el segundo vídeo Y, entonces Y(t)[x,y].id = j y la segunda profundidad de superficie anterior es Y(t)[x,y].fore.
10 Los objetos que son el objetivo de la determinación de conflictos en el segundo vídeo Y no incluyen el fondo. Es decir, como el segundo objeto, se utilizan objetos con j >0.
En primer lugar, el adquiriente de profundidad de superficie posterior 102 adquiere la primera profundidad de superficie posterior del primer objeto i en el lado no representado en el primer vídeo X, y la segunda profundidad de 15 superficie posterior del segundo objeto j en el lado no representado en el segundo vídeo Y.
Si se utiliza la notación descrita anteriormente, el adquirente de superficie posterior 102 encuentra la primera profundidad de superficie posterior X(t)[x,y].back a través del método descrito anteriormente para el tiempo t y la posición [x,y] que satisface X(t)[x,y].id = i. Además, el adquirente de superficie posterior 102 encuentra la segunda 20 profundidad de superficie posterior Y(t)[x,y].back a través del método descrito anteriormente para el tiempo t y la posición [x,y] que satisface Y(t)[x,y].id = j.
Por otro lado, el determinador de conflictos 103 funciona como un determinante de interferencias para determinar la interferencia entre objetos. Además, el determinador de conflictos 103 determina que el primer objeto y el segundo 25 objeto entran en conflicto si la primera área de dibujo donde debería representarse el primer objeto i y la segunda área de dibujo donde debería representarse el segundo objeto j se superponen como resultado de la superposición del primer vídeo X y el segundo vídeo Y, y la primera zona de ocupación desde la primera profundidad de superficie anterior hasta la primera profundidad de superficie posterior del primer objeto i y la segunda zona de ocupación desde la segunda profundidad de superficie anterior hasta la segunda profundidad de superficie posterior del 30 segundo objeto j que se superponen en un área de superposición donde la primera área de dibujo y la segunda área de dibujo se superponen.
Si se usa la notación descrita anteriormente, la primera área de dibujo en un tiempo dado t es el conjunto de posiciones [x,y] que satisface X(t)[x,y].id = i, y la segunda área de dibujo en un tiempo dado t es el conjunto de 35 posiciones [x,y] que satisface Y(t)[x,y].id = j. Si la parte común de estos conjuntos no es el conjunto vacío, entonces la primera área de dibujo y la segunda área de dibujo se superponen en el tiempo t, y la parte común de estos conjuntos corresponde al área de superposición en el tiempo t.
Para una posición [x,y] que es un elemento del área de superposición en el tiempo t, claramente:
40
X(t)[x,y].id = i;
Y(t)[x,y].id = j
45 se establecen.
En esta posición [x,y], el primer objeto i ocupa la primera zona de ocupación de X(t)[x,y].fore a X(t)[x,y].back, como la profundidad. Además, el primer objeto j ocupa la segunda zona de ocupación de Y(t)[x,y].fore a Y(t)[x,y].back.
50 Cuando la primera zona de ocupación y la segunda zona de ocupación se superponen, es decir, cuando la segunda profundidad de superficie anterior o la segunda profundidad de superficie posterior se incluye en la primera zona de ocupación o la primera profundidad de superficie anterior o la primera profundidad de superficie posterior se incluye en la segunda zona de ocupación, se determina que el primer objeto i y el segundo objeto j entran en conflicto en el tiempo t y la posición [x,y].
55
En la explicación descrita anteriormente, si la primera área de dibujo en la que se representa el primer objeto i y la segunda área de dibujo en la que se representa el segundo objeto j se solapan en el fotograma en el tiempo t, se logra una determinación de conflictos para el primer el objeto i y el segundo objeto j en el fotograma en el tiempo t usando información sobre la profundidad de superficie posterior.
En consecuencia, para confirmar que no existe un conflicto en un vídeo en su conjunto, sería bueno realizar la determinación de conflictos descrita anteriormente estableciendo tiempos sucesivos para todos los fotogramas en el primer vídeo X y el segundo vídeo Y.
La Figura 4 es un diagrama de flujo que muestra el flujo del proceso de determinación de conflictos de acuerdo con este ejemplo. A continuación, el proceso de determinación de conflictos ejecutado por el dispositivo de procesamiento de vídeo 101 de acuerdo con este ejemplo se describe con referencia a este dibujo.
10 En primer lugar, el dispositivo de procesamiento de vídeo 101 recibe el primer vídeo X y el segundo vídeo Y que son objetivos de determinación de conflictos (etapas S151). Los objetos se representan en el primer vídeo X y el segundo vídeo Y, y se adjunta la información de profundidad del objeto.
A continuación, se repite un proceso de escaneo de fotogramas del primer vídeo X y el segundo vídeo Y en orden 15 desde el inicio (etapa S152).
Es decir, en el fotograma que se está escaneando actualmente, se hace una determinación de si un área en la que se representa un objeto en el primer vídeo X y un área en la que se representa un objeto en el segundo vídeo Y se superponen (etapa S153). Si no hay superposición (etapa S153: No), el proceso avanza a la etapa S157 y el 20 proceso se repite.
Si hay superposición (etapa S153: Sí), se adquiere información de profundidad sobre el objeto en el primer vídeo X para el que hay superposición en esa región de dibujo (correspondiente al "primer objeto" descrito anteriormente), e información de profundidad sobre el objeto en el segundo vídeo Y (correspondiente al "segundo objeto" descrito 25 anteriormente) (etapa S154).
Además, se realiza una determinación de si existe una superposición en las zonas de ocupación de los objetos obtenidos a partir de la información de profundidad (etapa S155). Si no hay solapamiento, el proceso avanza a la etapa S157 y el proceso se repite.
30
Si hay una superposición (etapa S155: Sí), se produce un resultado de determinación al efecto de que el objeto representado en el primer vídeo X y el objeto representado en el segundo vídeo Y entran en conflicto (etapa S156), y el proceso luego concluye.
35 Cuando concluye la repetición de las etapas S152 a S157, se produce un resultado de determinación al efecto de que el objeto representado en el primer vídeo X y el objeto representado en el segundo vídeo Y no entran en conflicto (etapa S158), y el proceso luego concluye.
En la descripción anterior, para facilitar el entendimiento de que la suposición es solo un primer objeto se representa 40 en el primer vídeo X y solo un segundo objeto se representa en el segundo vídeo Y, pero cuando hay múltiples objetos, sería correcto repetir el mismo proceso para cada objeto.
Además, en la descripción anterior, se realiza una determinación de superposición de zonas de ocupación basándose en información de profundidad y superposición de áreas de dibujo para cada fotograma, pero cuando hay 45 numerosos fotogramas, es posible realizar un muestreo adecuado.
Por ejemplo, si se utiliza un método en el que inicialmente es posible determinar si la primera área de dibujo y la segunda área de dibujo se superponen seleccionando fotogramas mientras se salta con un espacio equivalente, y cuando hay una superposición, para detener el muestreo de los fotogramas antes y después, es posible ahorrar el 50 tiempo de cálculo necesario para hacer una determinación de conflictos para los vídeos en su conjunto.
En general, cuando no se determina que "en cualquier momento y en cualquier posición, cualquiera de los objetos representados en el primer vídeo X y cualquiera de los objetos representados en el segundo vídeo Y entran en conflicto", es decir, cuando no se generan conflictos en absoluto, no surge contradicción en la relación frontal y 55 posterior de los objetos, incluso si el segundo vídeo Y se superpone al primer vídeo X. Por consiguiente, es posible encontrar el tercer vídeo superimpose(Y, X) con el segundo vídeo Y superpuesto en el primer vídeo X.
Por otro lado, cuando se determina que "en cualquier momento y en cualquier posición, cualquiera de los objetos representados en el primer vídeo X y cualquiera de los objetos representados en el segundo vídeo Y entran en
conflicto", no es posible superponer el primer vídeo X y el segundo vídeo Y. Por consiguiente, es necesario un esquema tal como el que se describe a continuación.
Segundo ejemplo
5
Este ejemplo diseña una interfaz de usuario cuando se superpone desplazando el segundo vídeo Y al primer vídeo X a través de una operación de arrastrar y soltar y/o similar usando un ratón.
Con este ejemplo preferido, para facilitar la comprensión se asumirá un caso en el que a través de la operación de 10 arrastrar y soltar del usuario, se especifica una cantidad de traslación hacia arriba, abajo, izquierda o derecha para desplazar y superponer el segundo vídeo Y en el primer vídeo X. Sin embargo, el sistema de operación de esta realización preferida no está necesariamente limitado a arrastrar y soltar, ya que también es posible reemplazar la función arrastrar y soltar a través de la utilización de diversas operaciones de entrada especificadas, tales como una acción de deslizamiento en una pantalla táctil, o dos veces repitiendo una operación de clic, y/o similares.
15
La Figura 5A es un dibujo explicativo que muestra el estado de la pantalla antes de iniciarse el arrastre, la Figura 5B es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo en que se inicia el arrastre, la Figura 5C es un dibujo explicativo que muestra el estado de la pantalla en un punto en el tiempo durante el arrastre, y la Figura 5D es un dibujo explicativo que muestra el estado de la pantalla en un punto en el momento en que se 20 realiza la caída.
Además, la Figura 6 es un dibujo explicativo que muestra la composición resumida de partes del dispositivo de procesamiento de vídeo 101 relacionado con el proceso de arrastrar y soltar. La Figura 7 es un diagrama de flujo que muestra el flujo de control del proceso de arrastrar y soltar ejecutado por el dispositivo de procesamiento de 25 vídeo 101 de acuerdo con este ejemplo. La explicación a continuación hace referencia a estos dibujos.
En el proceso de arrastrar y soltar de acuerdo con este ejemplo, en el dispositivo de procesamiento de vídeo 101, un ajuste de cantidad de deslizamiento 104 y un generador de vídeo 105 actúan basándose en la operación de arrastrar y soltar del usuario.
30
El dispositivo de procesamiento de vídeo 101, al deslizar y superponer el segundo vídeo Y sobre el primer vídeo X, está dotado de un determinante de interferencias para determinar si las condiciones de posición se satisfacen, de manera que la relación posicional de los objetos satisfaga las condiciones de posición prescritas.
35 Sin embargo, en este ejemplo, para utilizar un conflicto de objetos que no se produce como una condición de posición, el determinador de conflictos descrito anteriormente 103 se utiliza como el determinante de interferencia, y se usa el resultado de la determinación del mismo. En este dibujo, el adquirente de profundidad de superficie posterior 102 frente al determinador de conflictos 103 se omite del dibujo.
40 Como se describe a continuación, como condición de posición, además de los objetos que no interfieran, es decir, que no se satisfagan las condiciones de interferencia, es posible establecer otras condiciones, por ejemplo, que los objetos prescritos estén inmediatamente adyacentes, y/o similares. Para los resultados de la determinación del determinador de conflictos descrito anteriormente 103, es posible usar también una determinación de las condiciones de posición que haga referencia a relaciones de posición distintas de la interferencia de objetos.
45
Además, un corrector 106 que se muestra en el dibujo es un elemento que se puede omitir, y el siguiente ejemplo explica las funciones del mismo.
En primer lugar, el dispositivo de procesamiento de vídeo 101 muestra en la pantalla un fotograma representativo del 50 primer vídeo X y un fotograma representativo del segundo vídeo Y (etapa S181). Por ejemplo, como se muestra en la Figura 5A, una ventana 411 del primer vídeo X, una ventana 412 del segundo vídeo Y, y un cursor 413 se muestran en una pantalla 401.
En este dibujo, el primer vídeo X es un vídeo con un fondo y el borde de la ventana 411 se representa mediante una 55 línea continua. Por otro lado, el segundo vídeo Y es un vídeo sin fondo. La periferia de la ventana 412 se representa con un color transparente y el borde de la misma se representa por una línea de puntos. El borde de la ventana 412 no necesita necesariamente mostrarse en la pantalla 401. En este caso, el usuario ve una visualización en la pantalla 401 como si el objeto sin fondo solo fuera representado en el segundo vídeo Y.
A continuación, el dispositivo de procesamiento de vídeo 101 recibe una acción de clic (inicio de arrastre) en la ventana 412 del segundo vídeo Y del usuario (etapa S182). Aquí, como se muestra en la Figura 5B, el usuario ha usado el ratón para hacer que el cursor 413 se mueva y hace clic en una posición [s,t] en el segundo vídeo Y.
5 Además, el dispositivo de procesamiento de vídeo mueve la posición de visualización de la ventana 412 del segundo vídeo Y de acuerdo con esto (etapa S184) mientras que el arrastre por parte del usuario continúa (etapa S183: Sí). Por ejemplo, cuando el usuario hace que el cursor 413 se mueva mientras se mantiene el clic, como se muestra en la Figura 5C, se hace que la ventana 412 en su conjunto se mueva de tal manera que el cursor 413 indique la posición [s,t] en el segundo vídeo Y.
10
Cuando el usuario ha hecho que el cursor 413 se mueva hasta una posición [u,v] en el primer vídeo X, como se muestra en la Figura 5D, y detiene el clic, la ventana 412 se suelta en la ventana 411.
Después de lo cual, la posición [u,v] en el primer vídeo X y la posición [s,t] en el segundo vídeo Y se superponen. 15 Por consiguiente, se puede pensar que el usuario ha superpuesto el segundo vídeo Y sobre el primer vídeo X realizando una transformación que hace que el segundo vídeo Y se mueva por u-s en la dirección horizontal y por v-t en la dirección vertical.
De esta manera, cuando el arrastre por parte del usuario finaliza (etapa S183: No), el graduador de cantidad de 20 desplazamiento 104 del dispositivo de procesamiento de vídeo 101 establece la dirección horizontal u-s y la dirección vertical v-t como la cantidad de desplazamiento (etapa S185). Es decir, el dispositivo de procesamiento de vídeo 101 interpreta el cambio a medida que el usuario superpone el vídeo move(u-s, v-t, Y) obtenido moviendo el segundo vídeo hacia arriba, abajo, izquierda o derecha en paralelo con el fotograma, sobre el primer vídeo X.
25 Por lo tanto, el dispositivo de procesamiento de vídeo 101, usando el determinador de conflictos 103, determina si el objeto representado en el primer vídeo X y el objeto representado en el vídeo intermedio move(u-s, v-t, Y) entran en conflicto al desplazar el segundo vídeo Y en cualquier tiempo de fotograma o cualquier posición en el fotograma, o si no se produce un conflicto (etapa S186).
30 Cuando el resultado de la operación de soltar mostrada en la Figura 5C es que no se produce un conflicto (etapa S186: No), el generador de vídeo 105 del dispositivo de procesamiento de vídeo 101 produce el tercer vídeo superimpose(move(u-s, v-t, Y), X) a través de la composición, y el proceso concluye.
A través de este tipo de composición, es posible que el usuario obtenga un tercer vídeo en el que los objetos 35 representados en el vídeo Y se colocan de manera que no entren en conflicto con los objetos del vídeo X. En el tercer vídeo, dado que no se producen conflictos con objetos representados en el vídeo Y, es posible evitar representaciones antinaturales tales como objetos que se ingieren entre sí.
Por otro lado, cuando se produce un conflicto incluso cuando se hace la operación de soltar mostrada en la Figura 40 5C (etapa S186: Sí), el dispositivo de procesamiento de vídeo 101 produce una advertencia tal como audio, vibración, una visualización en pantalla y similares (etapa S188), el proceso concluye y no se produce un nuevo vídeo. Es decir, si los comandos del usuario son apropiados, se genera el tercer vídeo, pero si los comandos son inapropiados, solo se genera una advertencia y el tercer vídeo no se genera.
45 Las diversas transformaciones descritas anteriormente se llevan a cabo en unidades de fotograma. Por consiguiente, cuando se lleva a cabo una transformación en un vídeo determinado para obtener un vídeo diferente, después de los procesos de transformación realizados tales como move y/o similares en cada fotograma, sería correcto ejecutar un proceso de cálculo diferente tal como una determinación de conflictos y/o similares, y sería correcto utilizar una evaluación de extensión impulsada por la demanda para llevar a cabo los procesos de 50 transformación.
Si los procesos de transformación se llevan a cabo impulsados por la demanda, incluidos los ejemplos de aquí en adelante, es necesario realizar una determinación de superposición y/o similares para un fotograma dado, e inicialmente la transformación se logra para ese fotograma. Por consiguiente, para obtener una conclusión de que no 55 se producen conflictos, es necesaria una transformación para todos los fotogramas, pero cuando se identifica un conflicto en un fotograma en el vídeo, el proceso de transformación no se ejecuta para fotogramas posteriores.
Además, con el método para especificar la cantidad de desplazamiento a través de arrastrar y soltar, la cantidad de desplazamiento se expresa según cuánto se ha desplazado la posición de la ventana caída 412 del segundo vídeo Y
respecto a la posición de la ventana 411 del primer vídeo X. Sin embargo, debido a que la cantidad de desplazamiento es una cantidad aplicada al segundo vídeo Y, al ingresar la cantidad de desplazamiento, no se requiere una comparación con el primer vídeo X. Por consiguiente, sería correcto que el usuario use el teclado e ingrese directamente un valor numérico, o use un método para ingresar visualmente la cantidad de desplazamiento 5 usando un ratón y/o similares.
A continuación, se describe un método para realizar el ajuste automático en lugar de simplemente emitir una advertencia cuando las instrucciones del usuario son inapropiadas.
10 Tercer ejemplo
Con este ejemplo, cuando un objeto del primer vídeo X y un objeto del segundo vídeo Y entran en conflicto debido a la cantidad de traslación del segundo vídeo Y especificado por el usuario, ese conflicto se evita y el ajuste automático se lleva a cabo de manera que el objeto del segundo vídeo Y se posicione para tocar el suelo o el techo 15 del primer vídeo X.
Con este ajuste automático, se repite una prueba de si se produce un conflicto al trasladar el segundo vídeo Y hacia arriba, abajo, izquierda o derecha al menos una vez, y en muchas condiciones se ejecuta repetidamente varias veces. Este proceso se realiza por el corrector 106 del dispositivo de procesamiento de vídeo 101. La Figura 8 es un 20 diagrama de flujo que muestra el flujo de control del proceso de ajuste automático de acuerdo con este ejemplo. La explicación a continuación hace referencia a este dibujo.
La cantidad de traslación hacia arriba, abajo, izquierda o derecha en una prueba se indica como Ap en la dirección horizontal y Aq en la dirección vertical. Cuando se usan constantes para Ap y Aq, el segundo vídeo Y se ajusta 25 mientras se desplaza en una dirección preestablecida.
Para facilitar la comprensión, de forma similar a las Figuras 5A a 5D, el caso se considerará cuando un usuario haga clic en una posición [s,t] en el segundo vídeo Y, arrastre a una posición [u,v] en el primer vídeo X mientras se mantiene el clic y luego detiene el clic y suelta.
30
En este caso, el dispositivo de procesamiento de vídeo 101 del ejemplo realiza el siguiente proceso.
Primero, el graduador de cantidad de desplazamiento 104 del dispositivo de procesamiento de vídeo 101 establece respectivamente el valor inicial de la variable p como u y el valor inicial de la variable q como v (etapa S191). A 35 través de esto, el valor inicial de la cantidad de desplazamiento en la dirección horizontal se establece como p-s = us y el valor inicial de la cantidad de desplazamiento en la dirección vertical se establece como q-t = v-t, y el graduador de cantidad de desplazamiento 104 funciona como un graduador de valor inicial.
A continuación, el determinador de conflictos 103 del dispositivo de procesamiento de vídeo 101 determina si se 40 establece la condición de posición "no se produce un conflicto de objetos entre el primer vídeo X y el vídeo intermedio move(p-s, q-t, Y) que es el segundo el vídeo Y desplazado en una cantidad de desplazamiento establecida" (etapa S192).
Si esto se establece (etapa S192: Sí), el generador de vídeo 105 produce el tercer vídeo superimpose(move(p-s, q- 45 t,Y),X) a través de la composición (etapa S913), y este proceso concluye.
Por otro lado, si no se establece esta condición, el corrector 106 aumenta el valor de la variable p por Ap y aumenta el valor de la variable q por Aq (etapa S194). A través de esto, la cantidad de desplazamiento se actualiza ligeramente.
50
Además, cuando se satisface una condición de abandono, tal como cuando la cantidad de traslación (p-s, q-t) del vídeo Y llega a ser demasiado grande, o cuando el número de repeticiones excede un valor umbral prescrito, y/o similar (etapa S195: Sí), se determina que no se puede evitar un conflicto, y se emite una advertencia (etapa S196) y este proceso concluye.
55
Por otro lado, cuando la condición de abandono no se satisface y la repetición continúa (etapa S195: No), el control del dispositivo de procesamiento de vídeo 101 vuelve a la etapa S192.
En los sistemas de coordenadas de numerosos vídeos, la dirección de aumento del valor de coordenadas en la
dirección vertical corresponde a la dirección descendente en la pantalla. En el posicionamiento moviendo el objeto representado en el segundo vídeo Y en la dirección descendente de la pantalla, sería correcto establecer (Ap,Aq) = (0,1).
5 Además, como resultado de que (Ap,Aq) = (0,1) se establezca inicialmente y se ejecute el proceso de ajuste automático descrito anteriormente, cuando la determinación es que un conflicto es inevitable, sería correcto restablecer (Ap,Aq) = (0,-1) y ejecutar de nuevo el mismo proceso de ajuste automático.
Esto corresponde a la primera búsqueda de una cantidad de traslación en la que pueda evitarse un conflicto 10 mientras se mueve de arriba a abajo, y si no se puede encontrar, entonces a buscar una cantidad de traslación en la que pueda evitarse un conflicto mientras se mueve de abajo a arriba.
En la explicación descrita anteriormente, el determinador de conflictos 103 se utilizó simplemente como el determinador de interferencia. Esto corresponde a la imposición de la condición de posición de los conflictos de 15 objeto que no se producen para la relación de posición entre los objetos. Sin embargo, si se usan resultados de determinación del determinador de conflictos 103, es posible utilizar otras condiciones como condiciones de posición en el determinador de interferencia.
Por ejemplo, es posible cambiar la condición de posición a ""no se producen conflictos de objetos entre el primer 20 vídeo X y el vídeo move(p-s, q-t, Y)" y "se produce un conflicto de objetos entre el primer vídeo X y el vídeo move(p- s, q+1-t, Y)"". Al hacer este cambio, el objeto representado en el segundo vídeo Y se coloca de manera que virtualmente toque el suelo al superponer el objeto representado en el segundo vídeo Y sobre el primer vídeo X.
Además, también es posible cambiar la condición de posición a ""no se producen conflictos de objetos entre el 25 primer vídeo X y el vídeo move(p-s, q-t, Y)" y "se produce un conflicto de objetos entre el primer vídeo X y el vídeo move(p+Ap-s, q+Aq-t, Y)"'.
En este caso, cuando se encuentra una cantidad de traslación en una dirección dada, el ajuste se realiza para avanzar en la medida de lo posible y se repite la prueba. Por ejemplo, cuando se mueve de arriba hacia abajo, el 30 objeto del segundo vídeo Y se mueve hasta tocar el suelo del primer vídeo X, y cuando se mueve de abajo a arriba, el objeto del segundo vídeo Y se mueve hasta tocar el techo del primer vídeo X.
En los casos en que el suelo se representa en el primer vídeo X, se representa un objeto que se mueve en un plano horizontal en el segundo vídeo Y y la orientación de la cámara en el primer vídeo X con respecto al suelo y la 35 orientación de la cámara en el segundo vídeo Y con respecto a la horizontal coinciden sustancialmente y/o similares, si se lleva a cabo el proceso descrito anteriormente, cuando el objeto representado en el segundo vídeo Y se superpone en el primer vídeo X, el objeto representado en el segundo vídeo Y toca sustancialmente el suelo o está posicionado para flotar separado del suelo.
40 Hay casos en los que un objeto representado en el primer vídeo X está parado, tal como el suelo, el techo, la pared y/o similares. Por ejemplo, hay casos en los que un usuario ha especificado un objeto en un fotograma determinado de antemano, casos en los que se entiende el historial de edición anterior por el usuario, y casos en que cada fotograma del primer vídeo X se comprende a través del contraste.
45 En este caso, establecer las condiciones de posición como se ha descrito anteriormente significa que el objeto compuesto establece el rango móvil que se puede ocupar en el espacio tridimensional. Es decir, es posible lograr la composición de vídeo en la que se imponen las condiciones para el rango móvil del objeto en el espacio tridimensional, tal como "el objeto puede flotar en el espacio si no hay conflicto", "el objeto toca el piso o el suelo", "el objeto toca el techo" y/o similares.
50
Como se ha descrito anteriormente, (Ap,Aq) es un vector que expresa el desplazamiento de la posición de dibujo del objeto representado en el segundo vídeo Y, y ajustando la orientación del mismo, es posible cambiar apropiadamente la dirección del movimiento y la cantidad de movimiento.
55 En la situación descrita anteriormente, moviendo el segundo vídeo Y a lo largo de una dirección establecida de antemano y superponiendo la imagen en el primer vídeo X, se genera un nuevo vídeo de tal forma que los objetos representados en el primer vídeo X y el segundo vídeo Y no entren en conflicto, y se asume un movimiento paralelo solo en la dirección ascendente o descendente del vídeo Y.
Sin embargo, después de que se haya realizado el movimiento descrito anteriormente, sería correcto corregir la cantidad de desplazamiento para minimizar la diferencia entre la cantidad de desplazamiento y el valor inicial establecido por el usuario, al mismo tiempo que se satisfacen las condiciones de posición. En este caso, se usa la cantidad de desplazamiento más cercana a la designación del usuario.
5
Además, dado que la dirección de (Ap,Aq), es posible utilizar la diferencia vectorial entre un punto representativo del primer objeto y un punto representativo del segundo objeto. En este caso, se realiza una traslación de manera que el segundo objeto se mueva en una dirección que se aproxima al primer objeto o en una dirección que se aleja del primer objeto.
10
Procediendo adicionalmente con estos métodos, sería correcto utilizar un método que establezca apropiadamente una función de evaluación y evitar conflictos de objetos al minimizar esta función. Esto se puede concebir como la minimización de la "cantidad de conflicto" cuando los objetos entran en conflicto.
15 Cuando se considera la magnitud de conflicto del vídeo X y el vídeo Y como la suma de las áreas de zonas de conflicto donde se representan los objetos en conflicto en el vídeo X y el vídeo Y, la cantidad de conflicto se puede calcular a través de:
20
25
COÜÍSÍOn(Y,X) 2t,x,y;X(t)[x,y].id>0, Y(t)[x,y].id>0, overlap(X,Y,t,x,y)X) 1
Además, cuando la cantidad estimada de la suma de volúmenes donde los objetos en conflicto se superponen en el espacio tridimensional se toma como la cantidad de conflicto, es posible utilizar:
COllÍSÍOn(Y,X) — £t,x,y;X(t)[x,y].id>0, Y(t)[x,y].id>0, overlap(X,Y,t,x,y)>0 OVerlcip(X,Y,t,X,y).
La cantidad de conflicto calculada de esta manera se toma como la función de evaluación.
Para minimizar la cantidad de conflicto, sería correcto actualizar repetidamente el valor de la variable que indica el grado de desplazamiento del vídeo Y, tal como p y q y/o similares ajustando la dirección de actualización (Ap,Aq) de 30 la variable desajustada a través de un camino aleatorio, el método de descenso más pronunciado o el método de gradiente conjugado, preparando (1,0), (0,10), (-1,0), (0,-1) y/o similares de antemano como candidatos para (Ap,Aq), encontrando el cambio en la cantidad de conflicto al utilizar estos y seleccionando aquello para lo cual la cantidad del conflicto desciende en mayor medida.
35 Por ejemplo, cuando se lleva a cabo la traslación, es posible encontrar las cantidades de traslación p-s y q-t para evitar conflictos entre objetos si s, t, u y v se establecen como se ha descrito anteriormente, los valores iniciales de las variables p y q se toman como u y v, se encuentra que p y q minimizan collision(move(p-s, q-t, Y),X) y la collision(move(p-s, q-t, Y),X)=0 se establece en el punto final al que ha llegado.
40 Adicionalmente, además de las traslaciones arriba, abajo, izquierda y derecha, sería correcto combinar arbitrariamente la traslación en la dirección de profundidad, rotación, escala y desfase de tiempo.
Por ejemplo, cuando se combinan las traslaciones arriba, abajo, izquierda o derecha y en la dirección de profundidad, s, t, u y v se configuran como se ha descrito anteriormente, u, v y 0 se toman como valores iniciales de 45 p, q y r, y se encuentra que p, q y r minimizan la collision(push(r, move(p-s, q-t, Y)),X).
Cuando se combinan las rotaciones en torno al eje horizontal y el eje vertical y las traslaciones, s, t, u y v se configuran como se ha descrito anteriormente, u, v, 0 y 0 se toman como los valores iniciales de p, q, 0 y y, y se encuentra que p, q, 0 y y minimizan collision(rotver(y, rothor(0, move(p-s, q-t, Y))), X).
50
Cuando se producen traslaciones o rotaciones extremas, se hace necesaria una representación convencional de la superficie posterior del objeto. Sin embargo, si el vídeo Y es un vídeo de 2.5 dimensiones, no hay información sobre la superficie posterior del objeto. Por lo tanto, los límites superiores y los límites inferiores se establecen por adelantado para las cantidades de traslación p-s, q-t y r y las cantidades de rotación 0, ^, ^ y/o similares, y a través 55 de esto es posible evitar que el movimiento de un objeto en el vídeo Y se vea de forma no natural.
Además, para reducir la cantidad de desplazamiento en la medida de lo posible, también hay un método para tomar como función de evaluación el resultado de añadir la cantidad de conflicto descrita anteriormente a un valor encontrado multiplicando una constante entera prescrita por el valor cuadrado o el valor absoluto de un parámetro
de transformación de las cantidades de traslación p-s, q-t o r o las cantidades de rotación 0, q>, y/o similares, y continuar actualizando el parámetro de transformación. Cuando el valor inicial del parámetro de transformación se ajusta a un valor especificado por el usuario, si el desplazamiento en el parámetro de transformación se combina con la función de evaluación, es posible encontrar la cantidad de desplazamiento más cercana al valor especificado 5 por el usuario.
Además, a continuación se considera una situación en la que la cantidad de traslación en la dirección de profundidad se ajusta por orden del usuario.
10 En primer lugar, con la cantidad de traslación en la dirección de profundidad tomada como 0, en el método descrito anteriormente, p y q se seleccionan de manera que el objeto toque el suelo. Como resultado, se obtuvo un vídeo con el vídeo move(p-s, q-t, Y) superpuesto en el primer vídeo X.
A continuación, el usuario especifica una cantidad de traslación r en la dirección de profundidad a través del manejo 15 de la rueda del ratón y/o similares.
Después, la actualización de la variable (p,q) se repite usando (Ap,Aq) igual que en la situación descrita anteriormente hasta que se satisface la condición "objetos que no entran en conflicto entre el primer vídeo X y el vídeo push(r, move(p-s, q-t, Y))" y "objetos que entran en conflicto entre el primer vídeo X y el vídeo push(r, move(p- 20 s, q+1-t, Y))".
Al utilizar estas situaciones, es posible generar un vídeo en el cual el movimiento de profundidad es solo la cantidad de traslación especificada por el usuario y el objeto continúa hasta tocar el suelo.
25 Cuando se ajusta automáticamente, es posible utilizar primero una situación en la que se genera el tercer vídeo Z formando un compuesto del primer vídeo X y el segundo vídeo Y (o un vídeo en el cual el segundo vídeo Y se desplaza de acuerdo con los comandos de usuario). En esta situación, cuando se produce la composición, si cada píxel en el tercer vídeo Z se deriva de uno de los objetos y se representa un objeto dado ocultando un objeto diferente, el valor de píxel en la zona oculta del objeto oculto y la información de profundidad se almacenan por 30 separado.
El tercer vídeo Z se corrige mientras se hace referencia a esta información almacenada para que no se produzcan conflictos de objetos. Al hacer esta corrección, hay momentos en los que cambia la dirección de profundidad del objeto. En este caso, sería correcto hacer referencia a la información de píxeles en el segundo vídeo original Y a fin 35 de preservar en la medida de lo posible la resolución de la apariencia externa del objeto porque el escalamiento se lleva a cabo cuando el objeto se representa dentro del fotograma.
Estas situaciones, cuando se comparan con los métodos descritos anteriormente, simplemente sustituyen el orden del proceso de cálculo como una situación en la que el método de almacenamiento de información difiere, y el 40 principio de acción del mismo puede verse como sustancialmente idéntico.
Además, se considera que la cantidad de conflicto muestra la cantidad de penetración entre los objetos, por lo que es posible lograr la composición de un vídeo al imponer la condición de que "un cierto grado de penetración entre los objetos es bueno".
45
Incluso si se utilizan los diversos métodos descritos anteriormente, hay ocasiones en que es inevitable un conflicto de objetos. En tales casos, son necesarios esquemas tales como los explicados a continuación.
Cuarto ejemplo
50
Con los ejemplos descritos anteriormente, cuando el usuario especificó la cantidad de traslación hacia arriba, abajo, izquierda o derecha para un objeto en el vídeo Y y trató de superponerlo en el vídeo X, si surgía un conflicto de objetos, la explicación fue para una situación para producir una advertencia (segundo ejemplo) y una situación para ajustar automáticamente la cantidad de traslación (tercer ejemplo).
55
Este ejemplo se puede aplicar a ambos del ejemplo descrito anteriormente, y muestra un área donde el usuario puede soltar un objeto, es decir, un área que comprende una posición de caída donde se genera un vídeo en el que los objetos no entran en conflicto a través de una operación de soltar por parte del usuario, de una manera fácil de entender antes de la operación de soltar por parte del usuario.
La Figura 9A es un dibujo explicativo que muestra la condición de la pantalla antes de que se inicie una caída, la Figura 9B es un dibujo explicativo que muestra la condición de la pantalla en el punto en el tiempo en que se inicia una caída, la Figura 9C es un dibujo explicativo que muestra la condición de la pantalla en un punto en el tiempo 5 durante una caída, y la Figura 9D es un dibujo explicativo que muestra la condición de la pantalla en el momento en tiempo en que se realiza la caída. La explicación a continuación hace referencia a estos dibujos.
La Figura 10 es un diagrama de flujo que muestra el flujo de control de un proceso de visualización resaltado para un área desprendible. La explicación a continuación hace referencia a este dibujo.
10
Primero, una disposición F que tiene un índice candidato para cantidades de desplazamiento arbitrarias utilizables cuando el desplazamiento del segundo vídeo Y en la dirección horizontal y la dirección vertical se prepara en la RAM (etapa S501). A continuación, se supone que [ps, qt] se prepara como el índice, y que ps y qt son valores negativos. Es decir, ps puede ser un número entero entre el valor encontrado al anular el signo de la anchura del segundo 15 vídeo Y y la suma de la anchura del primer vídeo X y la anchura del segundo vídeo Y, y qt puede ser un número entero entre el valor encontrado al negar el signo de la altura del segundo vídeo Y y la suma de la altura del primer vídeo X y la altura del segundo vídeo Y.
Además, para los candidatos [ps, qt] para la cantidad de desplazamiento utilizable para el segundo vídeo Y (etapa 20 S501), se logra una determinación de conflictos para un objeto entre el primer vídeo X y el vídeo intermedio move(ps, qt, Y) que es el segundo vídeo Y desplazado (etapa S502), y se repite un proceso de sustitución de resultados de la determinación de conflictos en los elementos F[ps,qt] de la matriz F (etapa S503) (etapa S504).
A continuación, de forma similar al ejemplo descrito anteriormente, la ventana 411 del primer vídeo X y la ventana 25 412 del segundo vídeo Y se muestran en la pantalla (etapa S506) y se recibe el comienzo de un arrastre (etapa S507).
Aquí, el arrastre se inicia cuando el usuario hace clic en una posición [s,t] dentro del segundo vídeo Y usando un ratón.
30
Suponiendo que la posición [s,t] en el segundo vídeo Y se deja soltar en una posición [p,q] dentro del primer vídeo X, el vídeo intermedio encontrado al desplazar el segundo vídeo Y se convierte en move(p-s, q-t, Y).
Por consiguiente, sería correcto referirse al elemento F[p-s, q-t] de la matriz para determinar si los objetos entran en 35 conflicto entre el primer vídeo X y el vídeo intermedio move[p-s, q-t, Y].
El dispositivo de procesamiento de vídeo 101, para cada posición [p,q] dentro del primer vídeo X (etapa S508), repite (etapa S510) un proceso para hacer que el color (cualquiera de la saturación del color, brillo o matiz, o una combinación de estos) de los píxeles en cada posición [p, q] dentro del primer vídeo X cambie (etapa S509) de 40 acuerdo con el valor de F[p-s, q-t].
A través de esto, el usuario puede distinguir entre las áreas donde las caídas son posibles y las áreas donde las caídas no son posibles, y una de las áreas se muestra resaltada.
45 Los métodos para llevar a cabo una visualización resaltada incluyen "hacer que el color de los píxeles que se van a resaltar cambie y hacer que el color de otros píxeles no cambie" o "no hacer que el color de los píxeles a resaltar cambie de color y hacer que el color de otros píxeles cambie".
Siguiendo esto en el ejemplo descrito anteriormente, sería correcto avanzar a la etapa S183.
50
La explicación a continuación cita un ejemplo. Antes de iniciar el arrastre, el primer vídeo X se representa sin cambios en la ventana 411, como se muestra en la Figura 9A.
En el instante en que se inicia un arrastre, el dispositivo de procesamiento de vídeo calcula el área que se puede 55 soltar. Además, el área desprendible dentro de la ventana 411 se muestra resaltada, como se muestra en la Figura 9B. En este dibujo, el resaltado se ilustra con sombreado.
Si el usuario arrastra el cursor 413 hasta dentro del área desprendible, como se muestra en la Figura 9C, y luego lleva a cabo un proceso de soltar como se muestra en la Figura 9D, se obtiene un tercer vídeo en el que los objetos
no entran en conflicto.
Con el método descrito anteriormente, es posible hacer que se mejore la velocidad de experiencia de la visualización resaltada después de un clic, y es posible realizar un redibujado a alta velocidad cuando se vuelve a hacer clic (no 5 se muestra).
Sin embargo, cuando se puede realizar una velocidad de cálculo suficiente, cuando el usuario inicie una operación de arrastre, sería correcto realizar una determinación de conflictos y realizar el resaltado para una posición arbitraria [p,q] dentro del primer vídeo X después haber establecido [s,t], basándose en la cantidad de cambio [p-s, q-t].
10
De esta manera, con este método, cuando el usuario comienza a arrastrar el segundo vídeo Y, es fácil entender dónde se puede realizar una operación de soltar en el primer vídeo X para obtener un nuevo vídeo.
El ajuste automático de la cantidad de traslación en el tercer ejemplo corresponde a corregir la posición de caída 15 dentro del área desprendible cuando se hace una caída fuera del área desprendible.
En este ejemplo, cuando este ejemplo se utiliza después de determinar si son posibles caídas para todas las posiciones dentro del fotograma del primer vídeo X, cuando se hace una caída fuera del área desprendible, simplemente corrigiendo la posición de caída en "un punto más cercano a esa posición de caída dentro del área 20 desprendible" o "el punto central del área desprendible" y/o similares, es posible realizar un ajuste automático de la cantidad de traslación hacia arriba, abajo, izquierda o derecha.
Corregir la posición de caída con respecto al límite que delinea el área desprendible y distinta del área desprendible significa que hay un instante en el que un objeto en el primer vídeo y un objeto en el segundo vídeo se tocan 25 mutuamente.
Por consiguiente, es concebible que para hacer que el objeto toque el suelo en la medida de lo posible, sería correcto corregir la posición de caída hasta el límite inferior del área desprendible.
30 La Figura 9E es un dibujo explicativo que muestra la condición cuando se lleva a cabo la corrección automática de la posición de caída después de una caída. Como se muestra en este dibujo, la posición [s,t] dentro de la ventana 412 se corrige de modo que se superpone en el límite inferior del área desprendible, debajo de la posición [u,v] dentro de la ventana 411.
35 Con este ejemplo, es fácil para el usuario entender las posiciones desprendibles, e incluso cuando se realiza una caída en una posición no desprendible, la posición de caída puede corregirse fácilmente usando la información ya calculada.
Quinto ejemplo
40
Cuando el objeto j representado en el vídeo Y es un objeto que baila en una superficie plana y se incluye un suelo en el fondo en el vídeo X, es deseable que el objeto j se superponga para bailar sobre el suelo del vídeo X. En este ejemplo se aprecia esto.
45 Con la realización preferida descrita anteriormente, la explicación fue para la condición en la que coinciden la inclinación de una cámara con respecto al suelo en el vídeo X y la inclinación de la cámara con respecto a un plano en el vídeo Y, pero en esta realización preferida, este tipo de coincidencia no se requiere necesariamente.
En primer lugar, como un punto representativo del objeto j representado en el vídeo Y, se selecciona un punto que 50 se muestra más abajo en la pantalla. Cuando el objeto j es un personaje que baila, el punto representativo seleccionado de esta manera corresponde a los pies del personaje.
La posición de píxel [xb(Y,t,j), yb(Y,t,j)] del punto representativo puede calcularse, por ejemplo, de la siguiente manera:
yb(Y,t,j) = min x.y:Yü,|x.y|,dy
xb(Y,t,j) mÍnx,y;Y(t)[x,yb(Y,to)].id=j X.
Aquí, si el punto más bajo del objeto j hace contacto con el suelo del vídeo X, entonces:
X(t)[xb(Y ,t,j), xb(Y,t,j)].id = 0;
5 Y (t)[xb(Y ,t,j), xb(Y ,t,j)] .id = j;
X(t)[xb(Y ,t,j), xb(Y,t,j)].fore = Y(t)[xb(Y,t,j), xb(Y,t,j)].fore
debería establecerse.
10
Por consiguiente, si la cantidad de traslación en las direcciones arriba, abajo, izquierda y derecha y también la dirección de profundidad del vídeo Y y la cantidad de rotación en torno a los diversos ejes se determina de manera que, además de minimizar collision(Y,X ) a 0, la suma de las diferencias (típicamente, suma de cuadrados) de X(t)[xb(Y,t,j), xb(Y,t,j)].fore e Y(t)[xb(Y,tj), xb(Y,t,j)].fore también se minimiza, el objeto j representado en el vídeo Y 15 toca la superficie del piso representada en el vídeo X.
Cuando el objeto j salta del suelo en el medio de un baile, es imposible que X(t)[xb(Y,t,j), xb(Y,tj)].fore e Y(t)[xb(Y,t,j), xb(Y,t,j)].fore coincidan perfectamente, pero al lograr la minimización, es posible evitar la condición de separarse del piso en instantes en los que no salta.
20
Además, a través de la minimización, es posible hacer que el comportamiento del objeto j se superponga al vídeo X natural en la medida de lo posible haciendo que el suelo sobre el que está el objeto j en el vídeo Y y el suelo en el vídeo X coincidan en la medida de lo posible.
25 Sexto ejemplo
Con el ejemplo descrito anteriormente, en las diversas transformaciones del vídeo de 2,5 dimensiones, se realizó un proceso de cálculo independiente para cada posición y cada fragmento de información de profundidad dentro de un único objeto, y se hicieron cálculos para reflejar esto en la medida de lo posible. En este ejemplo, la carga de cálculo 30 se reduce adicionalmente al realizar aproximaciones usando puntos representativos de objetos.
Es decir, en este ejemplo, se calculan las coordenadas (xc(X,t,i), yc(X,t,i)) en el vídeo X del punto representativo del objeto i en el tiempo t en el vídeo X y la coordenada de profundidad zc(X,t,i) del punto representativo.
35 El objeto i se mueve como un grupo en su totalidad, por lo que las coordenadas de profundidad de las diversas partes del objeto i se pueden aproximar mediante zc(X,t,i). Por consiguiente, cuando la profundidad del punto representativo cambia de zc(X,t,i) a zc(X,t,i)+r, la profundidad en cada posición se aproxima a [zc(X,t,i)+r / zc(X,t,i)] veces. Este tipo de aproximación es eficaz para las traslaciones en la dirección de profundidad, y las rotaciones en torno al eje horizontal o al eje vertical, del vídeo.
40
Específicamente, el destino del movimiento de solo el punto representativo del objeto i que es el objetivo de traslación o rotación en torno al eje horizontal o al eje vertical se encuentra a través de los mismos cálculos que en los ejemplos descritos anteriormente. Además, escalando y posicionando el vídeo de acuerdo con los cambios en la profundidad del punto representativo centrado en este destino de movimiento, el cálculo descrito anteriormente se 45 simplifica.
Con la transformación en este ejemplo, se supone que la forma del objeto i es un objeto en el que se representa una imagen en la superficie de una lámina perpendicular a la dirección de profundidad, e incluso cuando se realiza una traslación en la dirección de profundidad o una rotación en torno al eje horizontal o el eje vertical, esto corresponde 50 al movimiento de la lámina perpendicularmente a la dirección de la profundidad.
Con una traslación en la dirección de profundidad, la lámina permanece perpendicular a la dirección de profundidad. En este ejemplo, al establecer un límite superior al ángulo de rotación en torno al eje horizontal o al eje vertical, se hace que la posición de la lámina cambie a través de la rotación con un ángulo o una rotación de hasta un cierto 55 número de grados, pero se piensa que la orientación de la lámina permanece perpendicular a la dirección de la profundidad.
A continuación, se describe el cálculo de transformación específico.
El vídeo obtenido moviendo el objeto i representado en el vídeo X por r en la dirección de profundidad se obtiene realizando los siguientes procesos.
5 (a) Solo el objeto i se selecciona del vídeo X,
(b) se realiza una traslación a lo largo del fotograma con (xc(X,t,i), yc(X,t,i)) como el origen,
(c) el vídeo se escala a zc(X,t,i) / [zc(X,t,i)+r] veces, y
(d) se hace una traslación a lo largo del fotograma de manera que el origen se convierta en (xc(X,t,i), yc(X,t,i)).
10
Por consiguiente, cuando la transformación de mover el objeto i representado en el vídeo X por r en la dirección de profundidad se indica como push'(i,r,X), el resultado es:
15
20
push'(i,r,X) = move(xc(X,t,i), yc(X,t,i), scale (zc(X,t,i)/ [zc(X,t,i)+r], move(- xc(X,t,i), -yc(X,t,i), select(i,X)))).
Además, cuando el objeto i representado en el vídeo X gira en 0 en torno al eje horizontal, las coordenadas en el vídeo del punto representativo del objeto se mueven desde (xc(X,t,i), zc(X,t,i)) a (xc(X,t,i), xc(X,t,i) x cos 0 - yc(X,t,i) x sen 0), y la profundidad se mueve desde zc(X,t,i) a zc(X,t,i) x sen 0 + yc(X,t,i) x cos 0. Es decir, sería correcto realizar los siguientes procesos.
(a) Seleccionar solo el objeto i del vídeo X,
(b) mover (xc(X,t,i), yc(X,t,i)) a (xc(X,t,i), xc(X,t,i) x cos 0 - yc(X,t,i) x sen 0) a lo largo del fotograma, y
(c) escalar el vídeo hasta zc(X,t,i)/ [zc(X,t,i) x en 0 + yc(X,t,i) x cos 0] veces.
25 Por consiguiente, cuando la transformación de la rotación del objeto i representado en el vídeo X por 0 en torno al eje horizontal se indica como rothor'(i, 0, X), entonces:
rothor'(i, 0, X) =scalc(zc(X,t,i)/ [zc(X,t,i) * sen 0 + yc(X,t,i) x cos 0], movc (0,
zc(X,t,i) x cos 0 - yc(X,t,i) x sen 0 - yc(X,t,i), sclcct (i,X))).
30 Una transformación rotver'(i, 0, X) para girar el objeto i representado en el vídeo X por ^ en torno al eje vertical se define de manera similar. Es decir,
rothor'(i, (J), X) =scale(zc(X,t,i)/ [zc(X,t,i) * sen 0 + xc(X,t,i) x cos 0], movc (zc(X,t,í) X eos 0 - XC(X,tJ) x sen 0 - XC(X,t,Í),0 sclcct (Í,X))).
35 Con este ejemplo, una transformación de un único objeto representado en el vídeo se expresa a través de una combinación de los cálculos de movimiento, selección y escalamiento que tienen una carga de cálculo ligera, por lo que es posible acelerar el procesamiento.
Séptimo ejemplo
40
Con el ejemplo descrito anteriormente, el tiempo del vídeo X experimentó la transformación de desplazamiento shift(d,X) por d, pero es posible concebir una transformación en la cual el vídeo X se repite lentamente o se avanza rápido.
45 Si el vídeo Y es el vídeo X en avanzado rápido en a veces, entonces:
Y(t)[x,y] = X(t/a)[x,y]
se establece. A continuación, esta transformación se indica como fastforward(a,X).
Debido a que el objeto i representado en el vídeo X y el objeto j representado en el vídeo Y repiten ambos una acción dada, cuando el deseo es componer un vídeo Z de tal forma que el objeto i y el objeto j aparecen
alternativamente en una ubicación designada dentro del vídeo, es posible usar una combinación de desplazamiento y avance rápido.
Por ejemplo, se considera el caso en el que el deseo es formar un compuesto del vídeo X, en el que una persona 5 (objeto i) que está haciendo la acción de moler torta de arroz en un mortero, y el vídeo Y, en el que una persona (objeto j) está haciendo la acción de amasar a mano torta de arroz en el mismo mortero, y generar un vídeo que expresa el estado de la persona A y la persona B que hacen conjuntamente arroz.
Cuando el aspecto dentro y alrededor del mortero, y la posición y orientación de la cámara que realizó la filmación, 10 son comunes en el vídeo X y el vídeo Y, sería correcto encontrar parámetros para el desplazamiento y el avance rápido para minimizar la función de evaluación que expresa la cantidad de conflictos.
Además, cuando se desea determinar a partir del vídeo si es posible colocar muebles y productos electrónicos dentro de una casa, es posible aplicar este tipo de transformación.
15
Por ejemplo, cuando se desea determinar a partir del vídeo si es posible colocar una lavadora cuya puerta se abre y se cierra dentro de un cuarto de lavado de una casa, sería correcto realizar el siguiente tipo de proceso.
Es decir, un fabricante de productos eléctricos o un proveedor de productos eléctricos proporciona en la web un 20 vídeo X en el que la situación de la puerta de la lavadora que se abre y se cierra periódicamente se filma desde la parte delantera.
Por otro lado, un usuario que considera la compra de la lavadora prepara un vídeo Y en el que se filma desde el frente la situación de una puerta con respecto a la habitación en la que se instalaría la lavadora abriendo y cerrando. 25
Después de lograr la normalización de manera que la distancia desde la cámara a la lavadora en el vídeo X y la distancia desde la cámara a la ubicación candidata para la instalación de la lavadora en el vídeo Y coincidan sustancialmente, el usuario arrastra y suelta el objeto de la lavadora en el vídeo X a la ubicación candidata de instalación en el vídeo Y.
30
Además, se encuentra la cantidad de conflicto de los objetos en los vídeos X e Y. Si no hay conflicto, es posible estimar que la lavadora se puede instalar en la ubicación deseada. Además, incluso cuando hay un conflicto, si es posible encontrar parámetros para el desplazamiento y el avance rápido a fin de minimizar la cantidad de conflictos y hacer que no haya conflictos, naturalmente es posible estimar que la lavadora se puede instalar en la ubicación 35 deseada.
Cuando el usuario filma el interior de la habitación, la dirección de filmación es a veces limitada. En tal caso, sería correcto proporcionar vídeos en los que la lavadora cuya puerta se abre y se cierra periódicamente se filma desde varias direcciones, tales como situaciones en las que la filmación es desde el frente y también situaciones en las que 40 la filmación es desde el lado izquierdo y situaciones en las que la filmación es desde el lado derecho, y para que el usuario seleccione la filmación de vídeo desde la misma dirección en la que el usuario filmó la habitación.
Octavo ejemplo
45 En los ejemplos descritos anteriormente, es posible componer un vídeo de modo que no se produzcan conflictos en los que los objetos penetren mutuamente entre sí, y también es posible formar un compuesto de vídeos de tal forma que las superficies de los objetos se toquen en un instante deseado o la parte inferior de un objeto toque el suelo. A continuación, se describen aplicaciones específicas de los ejemplos descritos anteriormente.
50 El primer ejemplo de aplicación es permitir a los expositores preparar fácilmente vídeos que muestren la situación de los productos en mercados electrónicos tales como subastas de Internet y/o similares.
Es decir, el operador de un mercado electrónico proporciona materiales de vídeo para que los usuarios puedan usarlos libremente, además de proporcionar herramientas de edición para diversos tipos de vídeos. Este material de 55 vídeo puede prepararse por expositores o postores en el mercado electrónico, o un sistema de distribución de vídeo puede prepararse por separado para que los vídeos públicamente utilizados sean cargados y puedan ser examinados por otros usuarios, y los vídeos acumulados en este sistema de distribución de vídeos pueden ser reutilizados.
Sería correcto para los expositores filmar con anticipación vídeos que expresen fondos, tal como en las habitaciones de una casa del expositor y/o similares, y al hacerlo, preparar una mesa decorada o una pantalla plegable y/o similares para que el producto se pueda presentar de forma atractiva, y también sería correcto que los productos en la habitación se mantengan ordenados y en orden, y se limpien, para que no se pueda interpretar información 5 privada. Además, el vídeo de fondo puede seleccionarse del material de vídeo.
A continuación, cuando el expositor desea exhibir un nuevo producto, es posible realizar la filmación en una ubicación preferida dentro de la habitación sin tener que ordenar y organizar los productos o realizar la limpieza.
10 A continuación, el expositor arrastra y suelta el vídeo del nuevo producto que se filmó en la toma de vídeo de fondo por adelantado. Con lo cual, es posible componer un vídeo que muestra una situación en la cual el producto no entra en conflicto con los productos (la pantalla plegable y/o similares) de la imagen de fondo y toca el suelo (la superficie de la mesa decorada y/o similares) de la imagen de fondo, a través de evitar conflictos descritos anteriormente y el ajuste automático de posición.
15
La composición del vídeo del producto en el vídeo de fondo puede ser hecha tanto por postores como por expositores. Por ejemplo, si se exhibe un vestido de fiesta, se puede proporcionar un vídeo del producto que muestre una situación en la que la modelo del expositor y/o similar, esté usando ese vestido, caminando y dando la vuelta.
20
El postor podría filmar por su cuenta un vídeo de fondo filmando el interior de un salón de actos donde se hay una fiesta a la que desean asistir con el vestido, o podría seleccionarse de entre los materiales de vídeo. Además, el postor forma un compuesto de un vídeo de producto del vestido usado por la modelo, en el vídeo de fondo del salón de fiestas.
25
Al aplicar el ejemplo descrito anteriormente, la modelo se mueve sobre el suelo, pero el vídeo se compone para que no haya conflictos con otras personas, muebles o instalaciones dentro del salón.
Al examinar este vídeo, el postor puede verificar con anticipación si el vestido que se exhibe como producto coincide 30 con la atmósfera del salón de fiestas, antes de pujar.
Un segundo ejemplo de aplicación utiliza además los materiales de vídeo.
Por ejemplo, si se proporciona un vídeo de fondo que muestra una situación en la que un artista famoso está 35 bailando música como material de vídeo, un usuario puede componer un vídeo que muestra una situación en la que el usuario está bailando junto con el cantante famoso, filmando y componiendo un vídeo del usuario bailando.
Además, cuando se proporciona un vídeo de fondo que muestra una situación en la que un carrusel se mueve con asientos vacíos como material de vídeo, es posible componer un vídeo que muestra una situación con el usuario que 40 monta en el carrusel, filmando un vídeo del usuario que monta una bicicleta, un vagón y/o similar, u otro vehículo que se mueve sustancialmente a lo largo de la misma trayectoria que el tiovivo y realiza la composición del vídeo mientras impone la condición restrictiva de que "el usuario está tocando continuamente el tiovivo".
Además, cuando un usuario forma un compuesto de un vídeo balanceando su brazo o una raqueta con fuerza hacia 45 abajo con un vídeo de fondo en el que una pelota golpea ferozmente el suelo, si se impone la condición restrictiva de que la mano del usuario o la raqueta y la pelota hacen contacto en el instante en que el usuario balancea su brazo hacia abajo, es posible generar un vídeo que muestre al usuario golpeando una pelota de voleibol o golpeando una pelota de tenis.
50 Además, se pueden componer múltiples materiales de vídeo filmando a una sola persona practicando esgrima o kendo, y si se impone la condición de que los objetos entren en contacto con el tiempo en el instante en que el jugador que se filmó realiza un movimiento decisivo, se puede componer un vídeo que parece como si un partido estuviera en curso.
55 Aplicabilidad industrial
Con la presente descripción es posible proporcionar un dispositivo de procesamiento de vídeo, un método de procesamiento de vídeo y un medio de registro de información no transitorio para garantizar que los objetos no satisfagan las condiciones de interferencia cuando los objetos acompañados de información de profundidad y
representados en múltiples vídeos se compilan en un vídeo. Lista de signos de referencia
- 5
- 11 Punto de filmación
- 12 Superficie de proyección
- 13 Media línea
- 14 Objeto
- 15 Punto de conflicto
- 10
- 17 Distancia Z
- 21 Punto representativo
- 101 Dispositivo de procesamiento de vídeo
- 102 Adquirente de profundidad de superficie posterior
- 103 Determinador de conflictos
- 15
- 104 Graduador de cantidad de cambio
- 105 Generador de vídeo
- 106 Corrector
- 401 Pantalla
- 411 Ventana
- 20
- 412 Ventana
- 413 Cursor
Claims (9)
- REIVINDICACIONES1. Un dispositivo de procesamiento de vídeo (101) para formar un compuesto de un primer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes y un segundo vídeo 2,5D que comprende una pluralidad5 de fotogramas de imágenes, en el que el primer vídeo 2,5D representa un primer objeto (14) proyectado sobre una superficie de proyección (12) y va acompañado por la primera información de profundidad del primer objeto (14), y el segundo vídeo 2,5D representa un segundo objeto (14) proyectado sobre la superficie de proyección (12) y va acompañado por la segunda información de profundidad del segundo objeto (14), comprendiendo el dispositivo de procesamiento de vídeo (101):10un generador de vídeo (105) configurado para generar un tercer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes que representan el primer objeto (14) y el segundo objeto (14) formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;un determinador de interferencia configurado para determinar si el primer objeto (14) como se representa en 15 el tercer vídeo 2,5D y el segundo objeto (14) como se representa en el tercer vídeo 2,5D satisfacen unacondición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de profundidad y la segunda información de profundidad; yun corrector (106) configurado para corregir el segundo vídeo 2,5D aplicando una transformación de deformación que deforma una forma de una trayectoria que indica el movimiento del segundo objeto (14) 20 con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
- 2. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 1, caracterizado por que:el determinador de interferencia obtiene fotogramas del segundo vídeo 2,5D, lo que da como resultado que 25 se satisfaga la condición de interferencia en el tercer vídeo 2,5D; yel corrector (106) modifica la posición en la que se representa el segundo objeto (14) en al menos cada fotograma de los fotogramas obtenidos sin modificar la segunda información de profundidad de manera que el primer objeto (14) y el segundo objeto (14) no satisfagan la condición de interferencia.30 3. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 1, caracterizado porque:el determinante de interferencia calcula una cantidad de interferencia que indica un grado de una interferencia entre el primer objeto (14) y el segundo objeto (14);35 el corrector (106) actualiza los parámetros de transformación que indican una ubicación de corrección y unacantidad de corrección de una forma de una trayectoria que indica el movimiento del segundo objeto (14) con el paso del tiempo; yla transformación deforma la forma de la trayectoria a través de los parámetros de información actualizados.40 4. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que losparámetros de transformación se actualizan de manera que no se satisfaga la condición de interferencia.
- 5. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que la condición de interferencia se satisface si el primer objeto (14) y el segundo objeto (14) interfieren.45
- 6. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que el corrector (106) corrige una posición del segundo objeto (14) de manera que la cantidad de interferencia sea cero, en un fotograma donde la cantidad de interferencia es mayor, y actualiza los parámetros de transformación repitiendo la corrección de la posición del segundo objeto (14), propagando la cantidad de corrección de la posición a un50 fotograma adyacente mientras se reduce la cantidad de corrección.
- 7. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que la transformación deformante provoca un tamaño de un vector ortogonal al vector de velocidad del segundo objeto y correspondiente a una dirección que dobla la orientación del vector de velocidad del segundo objeto para cambiar55 mientras mantiene un tamaño de un vector de velocidad con respecto a la trayectoria.
- 8. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que la cantidad de interferencia es una suma estimada de los volúmenes en los que una forma del primer objeto (14) estimada basándose en la información de profundidad del primer objeto (14) en cada fotograma y una forma delsegundo objeto (14) estimada en base a la información de profundidad del segundo objeto (14) se superponen.
- 9. El dispositivo de procesamiento de vídeo (101) de acuerdo con la reivindicación 3, en el que la cantidad de interferencia es la suma de las áreas en las que un área en la que el primer objeto (14) debe5 representarse en cada fotograma y un área en la que el segundo objeto (14 ) debe representarse se superponen.
- 10. Un método de procesamiento de vídeo para formar un compuesto de un primer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes y un segundo vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes, en el que el primer vídeo 2,5d representa un primer objeto (14) proyectado sobre una10 superficie de proyección y va acompañado por la primera información de profundidad del primer objeto (14), y el segundo vídeo 2,5D representa un segundo objeto (14) proyectado sobre la superficie de proyección y va acompañado por la segunda información de profundidad del segundo objeto (14), comprendiendo el método de procesamiento de vídeo:15 un procedimiento de generación de vídeo para generar un tercer vídeo 2,5D que comprende una pluralidadde fotogramas de imágenes que representan el primer objeto (14) y el segundo objeto (14) formando un compuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;un procedimiento de determinación de interferencia para determinar si el primer objeto (14) como se representa en el tercer vídeo 2,5D y el segundo objeto (14) como se representa en el tercer vídeo 2,5D 20 satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primerainformación de profundidad y la segunda información de profundidad; yun procedimiento de corrección para corregir el segundo vídeo 2,5D aplicando una transformación de deformación que deforma una forma de una trayectoria que indica el movimiento del segundo objeto (14) con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.25
- 11. Un producto de programa informático para formar un compuesto de un primer vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes y un segundo vídeo 2,5D que comprende una pluralidad de fotogramas de imágenes, en el que el primer vídeo 2,5d representa un primer objeto (14) proyectado sobre una superficie de proyección y va acompañado por la primera información de profundidad del primer objeto (14), y el30 segundo vídeo 2,5D representa un segundo objeto (14) proyectado sobre la superficie de proyección y va acompañado por la segunda información de profundidad del segundo objeto (14), haciendo el producto de programa informático que un ordenador funcione como:un generador de vídeo (105) configurado para generar un tercer vídeo 2,5D que comprende una pluralidad 35 de fotogramas de imágenes que representan el primer objeto (14) y el segundo objeto (14) formando uncompuesto del primer vídeo 2,5D y el segundo vídeo 2,5D;un determinador de interferencia configurado para determinar si el primer objeto (14) como se representa en el tercer vídeo 2,5D y el segundo objeto (14) como se representa en el tercer vídeo 2,5D satisfacen una condición de interferencia en el tercer vídeo 2,5D, haciendo referencia a la primera información de 40 profundidad y la segunda información de profundidad; yun corrector (106) configurado para corregir el segundo vídeo 2,5D aplicando una transformación de deformación que deforma una forma de una trayectoria que indica el movimiento del segundo objeto (14) con el paso del tiempo, cuando se determina que se cumple la condición de interferencia.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012161924 | 2012-07-20 | ||
JP2012161924 | 2012-07-20 | ||
PCT/JP2012/072989 WO2014013628A1 (ja) | 2012-07-20 | 2012-09-07 | 動画処理装置、動画処理方法、ならびに、情報記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2675513T3 true ES2675513T3 (es) | 2018-07-11 |
Family
ID=49948477
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12881432.4T Active ES2676719T3 (es) | 2012-07-20 | 2012-09-07 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento y medio de grabación de información |
ES12881218.7T Active ES2675513T3 (es) | 2012-07-20 | 2012-09-07 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información |
ES12881371.4T Active ES2675514T3 (es) | 2012-07-20 | 2012-10-01 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información |
ES12881482.9T Active ES2673545T3 (es) | 2012-07-20 | 2012-10-01 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12881432.4T Active ES2676719T3 (es) | 2012-07-20 | 2012-09-07 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento y medio de grabación de información |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12881371.4T Active ES2675514T3 (es) | 2012-07-20 | 2012-10-01 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información |
ES12881482.9T Active ES2673545T3 (es) | 2012-07-20 | 2012-10-01 | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información |
Country Status (5)
Country | Link |
---|---|
US (4) | US9819878B2 (es) |
EP (4) | EP2779107B1 (es) |
JP (1) | JP5451955B1 (es) |
ES (4) | ES2676719T3 (es) |
WO (4) | WO2014013627A1 (es) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450352B2 (en) | 2018-05-29 | 2022-09-20 | Sony Corporation | Image processing apparatus and image processing method |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9429912B2 (en) * | 2012-08-17 | 2016-08-30 | Microsoft Technology Licensing, Llc | Mixed reality holographic object development |
US9823824B2 (en) * | 2013-08-19 | 2017-11-21 | Kodak Alaris Inc. | Context sensitive adaptable user interface |
US10311595B2 (en) * | 2013-11-19 | 2019-06-04 | Canon Kabushiki Kaisha | Image processing device and its control method, imaging apparatus, and storage medium |
JP6427332B2 (ja) * | 2014-04-08 | 2018-11-21 | 株式会社ミツトヨ | 画像測定機 |
JP2015207802A (ja) * | 2014-04-17 | 2015-11-19 | ソニー株式会社 | 画像処理装置および画像処理方法 |
EP3073726B1 (en) * | 2015-03-24 | 2017-03-01 | Axis AB | Method for configuring a camera |
US10600169B2 (en) * | 2015-03-26 | 2020-03-24 | Sony Corporation | Image processing system and image processing method |
US20170068863A1 (en) * | 2015-09-04 | 2017-03-09 | Qualcomm Incorporated | Occupancy detection using computer vision |
CN105243268B (zh) * | 2015-09-18 | 2018-06-22 | 网易(杭州)网络有限公司 | 一种游戏地图定位方法、装置及用户终端 |
GB2550854B (en) | 2016-05-25 | 2019-06-26 | Ge Aviat Systems Ltd | Aircraft time synchronization system |
CN106095294B (zh) * | 2016-06-08 | 2019-03-05 | 福建天泉教育科技有限公司 | 不同平台之间同步笔画的方法及其系统 |
JP6488329B2 (ja) * | 2016-09-29 | 2019-03-20 | 株式会社リクルート | 順番管理システム、順番管理装置、およびプログラム |
US10609332B1 (en) | 2018-12-21 | 2020-03-31 | Microsoft Technology Licensing, Llc | Video conferencing supporting a composite video stream |
CN112232170B (zh) * | 2020-10-10 | 2024-08-02 | 浙江大华技术股份有限公司 | 对象行为的确定方法及装置、存储介质、电子装置 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5087981A (en) * | 1990-01-02 | 1992-02-11 | Eastman Kodak Company | Error diffusion of overlapping dots |
JP3244798B2 (ja) * | 1992-09-08 | 2002-01-07 | 株式会社東芝 | 動画像処理装置 |
JPH07322137A (ja) * | 1994-05-30 | 1995-12-08 | Nec Eng Ltd | 映像信号合成装置 |
US6151009A (en) * | 1996-08-21 | 2000-11-21 | Carnegie Mellon University | Method and apparatus for merging real and synthetic images |
US6456289B1 (en) * | 1999-04-23 | 2002-09-24 | Georgia Tech Research Corporation | Animation system and method for a animating object fracture |
US6738066B1 (en) * | 1999-07-30 | 2004-05-18 | Electric Plant, Inc. | System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display |
DE10106023A1 (de) * | 2001-02-09 | 2002-08-29 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zur Kollisionserkennung von Objekten |
US6791549B2 (en) | 2001-12-21 | 2004-09-14 | Vrcontext S.A. | Systems and methods for simulating frames of complex virtual environments |
JP2004145448A (ja) | 2002-10-22 | 2004-05-20 | Toshiba Corp | 端末装置、サーバ装置および画像加工方法 |
US7982738B2 (en) * | 2004-12-01 | 2011-07-19 | Microsoft Corporation | Interactive montages of sprites for indexing and summarizing video |
US7788071B2 (en) * | 2004-12-03 | 2010-08-31 | Telekinesys Research Limited | Physics simulation apparatus and method |
JP4335160B2 (ja) * | 2005-03-02 | 2009-09-30 | 任天堂株式会社 | 衝突判定プログラムおよび衝突判定装置 |
CN101228549B (zh) * | 2005-03-31 | 2012-10-17 | 本田技研工业株式会社 | 文件管理系统、文件管理方法 |
JP4345737B2 (ja) * | 2005-11-14 | 2009-10-14 | セイコーエプソン株式会社 | デジタルコンテンツ作成システム、デジタルコンテンツ作成方法およびプログラム |
JP4754364B2 (ja) * | 2006-01-20 | 2011-08-24 | 三菱電機株式会社 | 画像重ね合わせ装置 |
KR100718157B1 (ko) * | 2006-03-08 | 2007-05-14 | 삼성전자주식회사 | 충돌 감지 장치 및 방법 |
US8016653B2 (en) * | 2007-02-01 | 2011-09-13 | Sportvision, Inc. | Three dimensional virtual rendering of a live event |
TW200844899A (en) * | 2007-05-04 | 2008-11-16 | Sunplus Mmobile Inc | An interactive image and graphical system and method that is capable of detecting collisions of graphical objects |
JP4998787B2 (ja) | 2007-09-26 | 2012-08-15 | 楽天株式会社 | 物体領域抽出処理プログラム、物体領域抽出装置、および物体領域抽出方法 |
JP5253936B2 (ja) * | 2008-09-08 | 2013-07-31 | 株式会社エヌ・ティ・ティ・ドコモ | 情報処理装置及びプログラム |
US8730245B2 (en) * | 2008-12-01 | 2014-05-20 | Naturalmotion Ltd. | Defining an animation of a virtual object within a virtual world |
GB0901351D0 (en) * | 2009-01-28 | 2009-03-11 | Univ Dundee | System and method for arranging items for display |
TWI378718B (en) * | 2009-06-05 | 2012-12-01 | Univ Nat Taiwan | Method for scaling video content according to bandwidth rate |
DE102009037835B4 (de) * | 2009-08-18 | 2012-12-06 | Metaio Gmbh | Verfahren zur Darstellung von virtueller Information in einer realen Umgebung |
US8749588B2 (en) * | 2009-09-15 | 2014-06-10 | HNTB Holdings, Ltd. | Positioning labels in an engineering drawing |
US20110199302A1 (en) | 2010-02-16 | 2011-08-18 | Microsoft Corporation | Capturing screen objects using a collision volume |
US20110316972A1 (en) * | 2010-06-29 | 2011-12-29 | Broadcom Corporation | Displaying graphics with three dimensional video |
US20120044259A1 (en) * | 2010-08-17 | 2012-02-23 | Apple Inc. | Depth management for displayed graphical elements |
US8860766B2 (en) * | 2010-09-30 | 2014-10-14 | Nvidia Corporation | System, method, and computer program product for determining one or more contact points between a pair of objects |
JP5643617B2 (ja) | 2010-11-18 | 2014-12-17 | 任天堂株式会社 | 画像処理プログラム、画像処理装置、画像処理方法、画像処理システム |
US8401225B2 (en) * | 2011-01-31 | 2013-03-19 | Microsoft Corporation | Moving object segmentation using depth images |
JP5602040B2 (ja) | 2011-02-03 | 2014-10-08 | ミツカワ株式会社 | 積層体布帛 |
JP5678710B2 (ja) * | 2011-02-14 | 2015-03-04 | ソニー株式会社 | 画像処理装置、および画像処理方法、並びにプログラム |
JP5708196B2 (ja) * | 2011-04-21 | 2015-04-30 | セイコーエプソン株式会社 | 衝突検出システム、ロボットシステム、衝突検出方法及びプログラム |
US10109097B2 (en) | 2011-08-01 | 2018-10-23 | Autodesk, Inc. | Dynamic collision avoidance for crowd simulation over structured paths that intersect at waypoints |
US20130215230A1 (en) * | 2012-02-22 | 2013-08-22 | Matt Miesnieks | Augmented Reality System Using a Portable Device |
US9183676B2 (en) * | 2012-04-27 | 2015-11-10 | Microsoft Technology Licensing, Llc | Displaying a collision between real and virtual objects |
US9147221B2 (en) * | 2012-05-23 | 2015-09-29 | Qualcomm Incorporated | Image-driven view management for annotations |
US9741145B2 (en) | 2012-06-29 | 2017-08-22 | Disney Enterprises, Inc. | Augmented reality simulation continuum |
JP2014238731A (ja) * | 2013-06-07 | 2014-12-18 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置、画像処理システム、および画像処理方法 |
-
2012
- 2012-09-07 ES ES12881432.4T patent/ES2676719T3/es active Active
- 2012-09-07 ES ES12881218.7T patent/ES2675513T3/es active Active
- 2012-09-07 WO PCT/JP2012/072988 patent/WO2014013627A1/ja active Application Filing
- 2012-09-07 WO PCT/JP2012/072989 patent/WO2014013628A1/ja active Application Filing
- 2012-09-07 EP EP12881218.7A patent/EP2779107B1/en active Active
- 2012-09-07 US US14/361,332 patent/US9819878B2/en active Active
- 2012-09-07 EP EP12881432.4A patent/EP2775452B1/en active Active
- 2012-09-07 JP JP2013552056A patent/JP5451955B1/ja active Active
- 2012-09-07 US US14/360,840 patent/US9876965B2/en active Active
- 2012-10-01 ES ES12881371.4T patent/ES2675514T3/es active Active
- 2012-10-01 US US14/361,477 patent/US9723225B2/en active Active
- 2012-10-01 EP EP12881371.4A patent/EP2775454B1/en active Active
- 2012-10-01 US US14/361,028 patent/US9374535B2/en active Active
- 2012-10-01 EP EP12881482.9A patent/EP2775455B1/en active Active
- 2012-10-01 WO PCT/JP2012/075416 patent/WO2014013629A1/ja active Application Filing
- 2012-10-01 ES ES12881482.9T patent/ES2673545T3/es active Active
- 2012-10-01 WO PCT/JP2012/075417 patent/WO2014013630A1/ja active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450352B2 (en) | 2018-05-29 | 2022-09-20 | Sony Corporation | Image processing apparatus and image processing method |
Also Published As
Publication number | Publication date |
---|---|
WO2014013627A1 (ja) | 2014-01-23 |
ES2675514T3 (es) | 2018-07-11 |
EP2775452A1 (en) | 2014-09-10 |
JP5451955B1 (ja) | 2014-03-26 |
EP2775454A1 (en) | 2014-09-10 |
EP2775452B1 (en) | 2018-05-02 |
EP2779107A4 (en) | 2015-03-11 |
US20140321736A1 (en) | 2014-10-30 |
ES2676719T3 (es) | 2018-07-24 |
WO2014013628A1 (ja) | 2014-01-23 |
JPWO2014013628A1 (ja) | 2016-06-30 |
EP2779107A1 (en) | 2014-09-17 |
EP2775455A1 (en) | 2014-09-10 |
WO2014013630A1 (ja) | 2014-01-23 |
US9723225B2 (en) | 2017-08-01 |
EP2775454A4 (en) | 2015-04-01 |
EP2775454B1 (en) | 2018-05-09 |
EP2775452A4 (en) | 2015-03-04 |
EP2775455B1 (en) | 2018-05-09 |
ES2673545T3 (es) | 2018-06-22 |
EP2779107B1 (en) | 2018-05-16 |
WO2014013629A1 (ja) | 2014-01-23 |
US20150201132A1 (en) | 2015-07-16 |
US9876965B2 (en) | 2018-01-23 |
EP2775455A4 (en) | 2015-04-22 |
US20140340477A1 (en) | 2014-11-20 |
US20140347560A1 (en) | 2014-11-27 |
US9819878B2 (en) | 2017-11-14 |
US9374535B2 (en) | 2016-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2675513T3 (es) | Dispositivo de procesamiento de imágenes en movimiento, método de procesamiento de imágenes en movimiento, y medio de registro de información | |
JP6501017B2 (ja) | 画像処理装置、プログラム、画像処理方法および画像処理システム | |
Zhang et al. | Physically-based rendering for indoor scene understanding using convolutional neural networks | |
ES2553258T3 (es) | Método para la estimación de una pose de un modelo de objeto articulado | |
JP7089495B2 (ja) | 拡張現実アプリケーション用システム及び方法 | |
US20240062413A1 (en) | Methods and Devices for Detecting and Identifying Features in an AR/VR Scene | |
US20150042640A1 (en) | Floating 3d image in midair | |
US20100194863A1 (en) | Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images | |
TW201505420A (zh) | 內容感知顯示適應方法 | |
CN106843790B (zh) | 一种信息展示系统和方法 | |
WO2018096775A1 (ja) | 画像処理装置、画像処理方法、プログラム | |
KR102009400B1 (ko) | 실감형 영상 콘텐츠 제공 방법 및 이를 이용한 서버 | |
JP2021527252A (ja) | 自動化された表面選択設置およびコンテンツ配向設置を用いた拡張現実ビューア | |
JP4513423B2 (ja) | 仮想三次元座標ポリゴンによるオブジェクト画像の表示制御方法及びこれを用いた画像表示装置 | |
JP5254505B1 (ja) | 動画処理装置、動画処理方法、ならびに、情報記録媒体 | |
US9959637B2 (en) | Method and apparatus for processing border of computer figure to be merged into background image | |
JP5270052B1 (ja) | 動画処理装置、動画処理方法、ならびに、情報記録媒体 | |
JP6526605B2 (ja) | 仮想カメラ画像生成装置 | |
JP5270051B1 (ja) | 動画処理装置、動画処理方法、ならびに、情報記録媒体 |