ES2931984T3 - Procesamiento híbrido en profundidad - Google Patents

Procesamiento híbrido en profundidad Download PDF

Info

Publication number
ES2931984T3
ES2931984T3 ES19769944T ES19769944T ES2931984T3 ES 2931984 T3 ES2931984 T3 ES 2931984T3 ES 19769944 T ES19769944 T ES 19769944T ES 19769944 T ES19769944 T ES 19769944T ES 2931984 T3 ES2931984 T3 ES 2931984T3
Authority
ES
Spain
Prior art keywords
image
depth map
image sensor
map
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19769944T
Other languages
English (en)
Inventor
Gluskin Micha Galor
Lee-Kang Liu
Jisoo Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2931984T3 publication Critical patent/ES2931984T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/218Image signal generators using stereoscopic image cameras using a single 2D image sensor using spatial multiplexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/232Image signal generators using stereoscopic image cameras using a single 2D image sensor using fly-eye lenses, e.g. arrangements of circular lenses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/672Focus control based on electronic image sensor signals based on the phase difference signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/703SSIS architectures incorporating pixels for producing signals other than image signals
    • H04N25/704Pixels specially adapted for focusing, e.g. phase difference pixel sets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Focusing (AREA)
  • Measurement Of Optical Distance (AREA)
  • Automatic Focus Adjustment (AREA)

Abstract

La presente descripción se refiere a sistemas y métodos para el procesamiento de mapas de profundidad híbridos. Un dispositivo de ejemplo incluye un primer sensor que tiene una pluralidad de píxeles de enfoque configurados para capturar imágenes desde al menos una primera perspectiva y una segunda perspectiva, donde una diferencia entre la primera y la segunda perspectiva está asociada con una primera dirección. El dispositivo incluye además un segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección. El dispositivo puede configurarse para recibir una primera imagen del primer sensor de imagen, incluyendo la primera imagen los datos de la primera imagen capturados desde la primera perspectiva y los datos de la segunda imagen capturados desde la segunda perspectiva. El dispositivo puede configurarse además para recibir una segunda imagen del segundo sensor de imagen, (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procesamiento híbrido en profundidad
Campo técnico
Esta divulgación se refiere, en general, a dispositivos y procedimientos para procesar imágenes y, más particularmente, a procesar imágenes capturadas por múltiples dispositivos de cámara que tienen sensores de imagen capaces de capturar datos de imagen desde dos o más perspectivas, por ejemplo, usando una pluralidad de píxeles de enfoque.
Antecedentes de la invención
Los sensores de imagen pueden ser capaces de generar imágenes capturadas desde dos o más perspectivas. Por ejemplo, dichos sensores de imagen pueden incluir una pluralidad de píxeles de enfoque capaces de capturar datos de imagen desde dos o más perspectivas. Como ejemplo, un sensor de imagen de fotodiodo dual (2PD) puede incluir varios píxeles 2PD, en el que cada píxel 2PD incluye dos fotodiodos adyacentes, y cada fotodiodo de un píxel 2PD captura datos de imagen desde una perspectiva diferente. Por ejemplo, un primer fotodiodo y un segundo fotodiodo de un píxel 2PD pueden ser un fotodiodo izquierdo y un fotodiodo derecho que capturan imágenes desde una perspectiva izquierda y una perspectiva derecha respectivas. Los valores o medidas para los datos de imagen proporcionados por dichos píxeles de enfoque pueden incluir una medida de luminancia o brillo (intensidad) desde la primera perspectiva y una medida de luminancia o brillo desde la segunda perspectiva. Para operaciones de enfoque automático (Af ) u operaciones relacionadas con la profundidad (como detección de profundidad, mapeo de profundidad, efectos bokeh en tiempo real, etc.), la diferencia en las mediciones entre las perspectivas de los píxeles de enfoque (junto con la diferencia en las dos perspectivas) de los píxeles del sensor de imagen se puede utilizar para determinar una diferencia de fase o un valor utilizado para determinar la profundidad de un objeto.
Solicitud de patente de Estados Unidos US 2016/0037152 A1 divulga un aparato de fotografía de imágenes que incluye una primera unidad de fotografía configurada para fotografiar una imagen usando un sensor de imagen de diferencia de fase, una segunda unidad de fotografía configurada para espaciarse en un lado de la primera unidad de fotografía, un controlador configurado para generar un primer mapa de profundidad por usando una primera imagen fotografiada por la primera unidad de fotografía y generar un segundo mapa de profundidad usando una segunda imagen fotografiada por la segunda unidad de fotografía, y un procesador de imágenes configurado para generar una imagen tridimensional (3D) usando el primer mapa de profundidad y el segundo mapa de profundidad. Solicitud de patente europea EP 3358 820 A1divulga una cámara, en la que se utilizan píxeles de detección de diferencia de fase para enfocar. Estos píxeles se utilizan en dos direcciones diferentes para explotar las disparidades horizontales y verticales.
Sumario
La presente divulgación proporciona un dispositivo de acuerdo con la reivindicación 1, un procedimiento para el procesamiento mapa híbrido de profundidad de acuerdo con la reivindicación 9 y un medio de almacenamiento legible por ordenador no transitorio de acuerdo con la reivindicación 15. La realización preferente son objeto de las reivindicaciones dependientes.
Los aspectos de la presente divulgación se relacionan con sistemas y procedimientos para el procesamiento del mapa híbrido de profundidad. En una implementación de ejemplo, se divulga. El dispositivo de ejemplo puede incluir un primer sensor de imagen que incluye una pluralidad de píxeles de enfoque, los píxeles de enfoque configurados para capturar imágenes desde al menos una primera perspectiva y una segunda perspectiva, una diferencia entre la primera y segunda perspectivas asociadas con una primera dirección, un segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección, una memoria y un procesador acoplado a la memoria. El procesador se configura para recibir una primera imagen del primer sensor de imagen, en la que la primera imagen incluye los datos de la primera imagen capturados desde la primera perspectiva y datos de la segunda imagen capturados desde la segunda perspectiva, recibir una segunda imagen del segundo sensor de imagen y generar un mapa híbrido de profundidad basado al menos en parte en la primera imagen y la segunda imagen.
En otro ejemplo, se divulga un procedimiento para el procesamiento de mapas híbridos de profundidad. El procedimiento de ejemplo puede incluir recibir una primera imagen de un primer sensor de imagen, el primer sensor de imagen asociado con una primera dirección, recibir una segunda imagen de un segundo sensor de imagen, el segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección, determinando un primer mapa de profundidad en base a la primera imagen, determinando un segundo mapa de profundidad en base a una disparidad entre píxeles respectivos de la primera imagen y la segunda imagen, y generando un mapa híbrido de profundidad en base a al menos en parte en la primer mapa de profundidad y el segundo mapa de profundidad.
En otro ejemplo, se divulga un medio no transitorio legible por ordenador. El medio legible por ordenador no transitorio puede almacenar instrucciones que, cuando se ejecutan por un procesador, hacen que un dispositivo de procesamiento de imágenes reciba una primera imagen de un primer sensor de imagen, el primer sensor de imagen asociado con una primera dirección, recibe una segunda imagen usando un segundo sensor de imagen, el segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección, determinar un primer mapa de profundidad en base a la primera imagen, determinar un segundo mapa de profundidad en base a una disparidad entre píxeles respectivos de la primera imagen y la segunda imagen, y generar un mapa híbrido de profundidad en base al menos en parte en el primer mapa de profundidad y el segundo mapa de profundidad.
En otro ejemplo, se divulga un dispositivo de procesamiento de imágenes. El dispositivo incluye medios para recibir una primera imagen de un primer sensor de imagen, el primer sensor de imagen asociado a una primera dirección, medios para recibir una segunda imagen de un segundo sensor de imagen, el segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección, medios para determinar un primer mapa de profundidad en base a la primera imagen, medios para determinar un segundo mapa de profundidad en base a una disparidad entre píxeles respectivos de la primera imagen y la segunda imagen, y medios para generar un mapa híbrido de profundidad en base al menos en parte en el primer mapa de profundidad y el segundo mapa de profundidad.
Breve descripción de las figuras
Los aspectos de la presente divulgación se ilustran a modo de ejemplo, y no a modo de limitación, en las figuras de los dibujos acompañantes y en las que los números de referencia similares se refieren a elementos similares.
La Figura 1 es un diagrama de bloques de un dispositivo de procesamiento de imágenes de ejemplo, de acuerdo con algunas implementaciones de ejemplo.
La Figura 2 representa una escena de ejemplo que puede capturarse de acuerdo con algunas implementaciones de ejemplo.
La Figura 3 muestra un gráfico de ejemplo de una métrica de suma de diferencias absolutas (SAD) para una parte de una imagen capturada utilizando un sensor de imagen de ejemplo.
La Figura 4 representa una configuración de sensor de imagen convencional.
La Figura 5 representa una configuración de sensor de imagen, de acuerdo con algunas implementaciones de ejemplo.
La Figura 6 muestra un sistema de ejemplo para generar mapas híbridos de profundidad, de acuerdo con algunas implementaciones de ejemplo.
La Figura 7 es un diagrama de flujo ilustrativo que representa una operación de ejemplo para el procesamiento de mapas híbridos de profundidad, de acuerdo con algunas implementaciones de ejemplo.
Descripción detallada
Los aspectos de la presente divulgación pueden usarse para mejorar las operaciones de procesamiento de imágenes. Algunas cámaras pueden incluir uno o más sensores de imagen que pueden capturar datos de imagen desde dos o más perspectivas, como una primera perspectiva y una segunda perspectiva. Por ejemplo, las dos perspectivas pueden ser adyacentes en una dirección horizontal, de modo que la primera perspectiva sea una perspectiva izquierda y la segunda perspectiva sea una perspectiva derecha. Dichos sensores de imagen pueden capturar datos de imagen desde dos o más perspectivas utilizando varios píxeles de enfoque. Los píxeles de enfoque pueden incluir uno o más píxeles que incluyen múltiples fotodiodos, como píxeles de fotodiodo dual (2PD), donde cada píxel 2PD incluye un primer fotodiodo y un segundo fotodiodo adyacente. Además, los píxeles de enfoque pueden incluir uno o más píxeles que se han enmascarado direccionalmente para limitar la perspectiva desde la cual se capturan los datos de imagen, como enmascarar el lado izquierdo de algunos píxeles de enfoque y el lado derecho de algunos otros píxeles de enfoque (como los píxeles pueden denominarse píxeles "enmascarados direccionalmente"). Además, los píxeles de enfoque pueden incluir píxeles que tienen una lente en el chip (OCL), como una microlente, que puede limitar la perspectiva desde la que cada píxel de enfoque puede capturar datos de imagen. Por lo tanto, un primer sensor de imagen puede incluir primeros píxeles de enfoque que pueden medir un brillo desde la primera perspectiva, y segundos píxeles de enfoque pueden medir un brillo desde la segunda perspectiva. El primer sensor de imagen puede capturar los datos de la primera imagen desde una primera perspectiva. Los datos de la primera imagen incluyen mediciones de los primeros píxeles de enfoque en el primer sensor de imagen. El primer sensor de imagen también puede capturar datos de la segunda imagen desde una segunda perspectiva. Los datos de la segunda imagen incluyen mediciones de los segundos píxeles de enfoque en el primer sensor de imagen.
Los datos de imagen capturada desde diferentes perspectivas pueden usarse para funciones de procesamiento de imágenes relacionadas con la profundidad, como el enfoque automático de detección de fase (PDAf ), efectos bokeh en tiempo real, etc. Se puede generar un mapa de profundidad a partir de los datos de imagen capturada desde diferentes perspectivas. El mapa de profundidad puede incluir estimaciones de distancias de objetos desde el primer sensor de imagen. Las distancias pueden ser en base a la disparidad entre las medidas de los primeros píxeles de enfoque y los segundos píxeles de enfoque. Tales disparidades pueden corresponder a la diferencia de perspectiva entre las medidas de los primeros píxeles de enfoque y las de los segundos píxeles de enfoque. En algunas implementaciones, se puede usar una métrica de suma de diferencias absolutas (SAD) para determinar la disparidad.
Sin embargo, los mapas de profundidad determinados utilizando un primer sensor de imagen de este tipo pueden no determinar con precisión las profundidades para algunos tipos de imágenes capturadas. Por ejemplo, cuando los píxeles de enfoque primero y segundo capturan datos de imagen desde una perspectiva izquierda y una perspectiva derecha, las profundidades pueden no determinarse con precisión cuando los píxeles de enfoque izquierdos capturan datos similares a los píxeles de enfoque derechos. Por ejemplo, considere un objeto recto y horizontal, como el techo de un edificio; dicho objeto puede parecer muy similar a los píxeles de enfoque izquierdo y derecho, y esta similitud de la imagen capturada por los píxeles de enfoque izquierdo y la imagen capturada por los píxeles de enfoque correctos pueden dar como resultado una medición imprecisa de la disparidad entre la perspectiva izquierda y la perspectiva derecha. Debido a que las imágenes de dichos objetos pueden parecer similares a partir de un rango de desplazamientos horizontales o disparidades potenciales, puede ser difícil determinar qué desplazamiento corresponde a la disparidad real y, por lo tanto, a la profundidad real del objeto. Se puede decir que tales regiones carecen de bordes horizontales.
En algunas implementaciones de ejemplo, un segundo sensor de imagen puede capturar imágenes además de las imágenes capturadas por el primer sensor de imagen. El segundo sensor de imagen puede separarse del primer sensor de imagen por una distancia y en una dirección ortogonal a la dirección de la diferencia entre las dos perspectivas de los píxeles de enfoque del primer sensor de imagen. Por ejemplo, si el primer sensor de imagen captura datos de imagen desde una perspectiva izquierda y una perspectiva derecha, entonces el segundo sensor de imagen puede separarse en una dirección vertical. Puede usarse una disparidad entre las imágenes capturadas por el primer sensor de imagen y por el segundo sensor de imagen para determinar un segundo mapa de profundidad. El segundo mapa de profundidad se puede utilizar para determinar con mayor precisión las profundidades de las regiones que carecen de bordes horizontales. En algunas implementaciones de ejemplo, se puede determinar una profundidad híbrida en base al primer mapa de profundidad generado exclusivamente usando el primer sensor de imagen y el segundo mapa de profundidad generado usando el primer sensor de imagen y el segundo sensor de imagen. Por ejemplo, el primer sensor de imagen puede determinar profundidades con mayor precisión para regiones que incluyen bordes horizontales, mientras que la disparidad entre el primer sensor de imagen y el segundo sensor de imagen puede determinar profundidades con mayor precisión para regiones que incluyen bordes verticales. Estos y otros detalles de las implementaciones de ejemplo, que proporcionan una o más soluciones técnicas a los problemas antes mencionados, se describen con más detalle a continuación.
En la siguiente descripción, se exponen numerosos detalles específicos, tales como ejemplos de componentes, circuitos y procesos específicos para proporcionar una comprensión completa de la presente divulgación. El término "acoplado", tal como se usa en la presente memoria, significa conectado directamente o conectado a través de uno o más componentes o circuitos intermedios. Asimismo, en la siguiente descripción y con fines explicativos, se establece una nomenclatura específica para facilitar una comprensión completa de la presente divulgación. Sin embargo, será evidente para un experto en la técnica que estos detalles específicos pueden no ser necesarios para poner en práctica las enseñanzas divulgadas en la presente memoria. En otros casos, los circuitos y dispositivos bien conocidos se muestran en forma de diagrama de bloques para evitar oscurecer las enseñanzas de la presente divulgación. Algunas partes de las descripciones detalladas que siguen se presentan en términos de procedimientos, bloques lógicos, procesamientos y otras representaciones simbólicas de operaciones sobre bits de datos dentro de la memoria del ordenador. En la presente divulgación, un procedimiento, bloque lógico, proceso o similar, se concibe como una secuencia autoconsistente de etapas o instrucciones que conducen a un resultado deseado. Las etapas son las que requieren manipulaciones físicas de cantidades físicas. Normalmente, aunque no necesariamente, estas cantidades adoptan la forma de señales eléctricas o magnéticas capaces de almacenarse, transferirse, combinarse, compararse y de cualquier otra manera manipularse en un sistema informático.
Sin embargo, hay que tener en cuenta que todos estos y otros términos similares deben asociarse a las cantidades físicas apropiadas y son simplemente etiquetas convenientes aplicadas a estas cantidades. A menos que se indique específicamente lo contrario como se desprende de las siguientes discusiones, se aprecia que a lo largo de la presente solicitud, las discusiones que utilizan términos como "acceder", "recibir", "enviar", "usar", "seleccionar", "determinar", "normalizar", "multiplicar", "promediar", "supervisar", "comparar", "aplicar", "actualizar", "medir", "derivar", "establecer" o similares, se refieren a las acciones y procesos de un sistema informático, o dispositivo informático electrónico similar, que manipula y transforma datos representados como cantidades físicas (electrónicas) dentro de los registros y memorias del sistema informático en otros datos representados de manera similar como cantidades físicas dentro de las memorias o registros del sistema informático u otro tipo de almacenamiento de información, dispositivos de transmisión o visualización.
En las figuras, se puede describir un solo bloque realizando una función o funciones; sin embargo, en la práctica real, la función o funciones realizadas por ese bloque pueden realizarse en un solo componente o en múltiples componentes y/o pueden realizarse utilizando hardware, software o una combinación de hardware y software. Para ilustrar claramente esta intercambiabilidad de hardware y software, a continuación, se describen varios componentes, bloques, módulos, circuitos y etapas ilustrativas en términos generales de su funcionalidad. Si tal funcionalidad se implementa como hardware o software depende de la aplicación particular y las restricciones de diseño impuestas en el sistema en general. Los expertos en la técnica pueden implementar la funcionalidad descrita de diversos modos para cada aplicación particular, pero dichas decisiones de implementación no deben interpretarse como que provocan una desviación del ámbito de la presente divulgación. Asimismo, los dispositivos de ejemplo pueden incluir componentes distintos a los que se muestran, incluidos componentes bien conocidos, como un procesador, memoria y similares.
Los aspectos de la presente divulgación son aplicables a cualquier dispositivo de procesamiento de imágenes adecuado (como cámaras, teléfonos inteligentes, tabletas, ordenadores portátiles u otros dispositivos) que procesan imágenes de dos o más sensores de imágenes, uno o más de los cuales incluye una cantidad de píxeles de enfoque, y por lo tanto no se limitan a dispositivos específicos.
El término "dispositivo" no se limita a uno o un número específico de objetos físicos (como un teléfono inteligente, un controlador, un sistema de procesamiento, etc.). Como se usa en la presente memoria, un dispositivo puede ser cualquier dispositivo electrónico con una o más partes que pueden implementar al menos algunas partes de esta divulgación. Si bien la descripción y los ejemplos siguientes utilizan el término "dispositivo" para describir varios aspectos de esta divulgación, el término "dispositivo" no se limita a una configuración, tipo o número de objetos específicos. Además, el término "sistema" no se limita a múltiples componentes o realizaciones específicas. Por ejemplo, un sistema puede implementarse en una o más placas de circuito impreso u otros sustratos y puede tener componentes móviles o estáticos. Si bien la descripción y los ejemplos siguientes utilizan el término "sistema" para describir varios aspectos de esta divulgación, el término "sistema" no se limita a una configuración, tipo o número de objetos específicos.
Como se indicó anteriormente, los sensores de imagen pueden capturar imágenes que incluyen datos de imagen desde dos o más perspectivas. Por ejemplo, tales sensores de imagen pueden incluir una pluralidad de píxeles de enfoque para capturar datos de imagen desde dos o más perspectivas. Dichos píxeles de enfoque pueden proporcionarse como píxeles enmascarados direccionalmente, usando una lente en el chip como una microlente, o como píxeles 2PD que incluyen dos fotodiodos (un primer fotodiodo y un segundo fotodiodo). En algunos ejemplos, las dos perspectivas pueden ser una perspectiva izquierda y una perspectiva derecha. Se puede determinar una imagen de primera fase usando datos de imagen capturados desde la primera perspectiva. Por ejemplo, los píxeles de enfoque configurados para capturar datos de imagen desde la perspectiva izquierda pueden usarse para determinar la imagen de la primera fase. Se puede determinar una imagen de segunda fase usando datos de imagen capturados desde la segunda perspectiva. Por ejemplo, los píxeles de enfoque configurados para capturar datos de imagen desde la perspectiva correcta pueden usarse para determinar la imagen de segunda fase.
Las diferentes perspectivas entre la imagen de la primera fase y la imagen de la segunda fase pueden dar como resultado una disparidad entre las imágenes de las dos fases. La disparidad se puede determinar y usar para operaciones de procesamiento de imágenes relacionadas con la profundidad, como para generar mapas de profundidad, para operaciones de enfoque automático de detección de fase (PDAF), etc. Sin embargo, como se discutió anteriormente, puede ser difícil determinar con precisión la disparidad para escenas que carecen de algunos tipos de bordes. Por ejemplo, si un primer sensor de imagen incluye píxeles de enfoque que capturan datos de imagen desde una perspectiva izquierda y una perspectiva derecha, los bordes horizontales de la escena pueden ser fáciles de detectar debido a la disparidad entre las dos perspectivas, pero las regiones de la escena que carecen de bordes horizontales pueden ser difíciles de detectar. Por ejemplo, en una región de una escena que carece de bordes horizontales, como una región que incluye la línea del techo horizontal de un edificio o la parte superior horizontal del cabello de una persona, las imágenes de la izquierda capturadas por los píxeles de enfoque izquierdo y las imágenes de la derecha capturadas por el enfoque derecho los píxeles pueden ser similares para un rango de desplazamientos horizontales. Por lo tanto, puede ser difícil determinar con precisión cuál de los desplazamientos horizontales corresponde mejor a la disparidad real entre las imágenes de la izquierda y las imágenes de la derecha. Más generalmente, un sensor de imagen de este tipo puede tener dificultades para determinar las profundidades de las regiones que carecen de bordes que corresponden a la dirección de la diferencia entre las dos perspectivas de los píxeles de enfoque. Por lo tanto, sería deseable mejorar la detección de profundidades para regiones que carecen de bordes correspondientes a la dirección de la diferencia en dos perspectivas de los píxeles de enfoque de un sensor de imagen.
Algunas implementaciones de ejemplo pueden permitir una detección de profundidad mejorada aprovechando la ubicación de un segundo sensor de imagen en relación con un primer sensor de imagen. El primer sensor de imagen puede ser capaz de capturar imágenes con datos de imagen desde múltiples perspectivas. Por ejemplo, el primer sensor de imagen puede capturar imágenes desde al menos una primera perspectiva y una segunda perspectiva, donde una diferencia entre la primera perspectiva y la segunda perspectiva se asocia con una primera dirección. El segundo sensor de imagen puede separarse del primer sensor de imagen en una dirección ortogonal a la primera dirección. Por ejemplo, el primer sensor de imagen puede ser un sensor de imagen que incluye píxeles de enfoque que pueden capturar datos de imagen desde al menos una perspectiva izquierda y una perspectiva derecha. Así, la diferencia entre la perspectiva izquierda y la perspectiva derecha se asocia a una dirección horizontal. Entonces, el segundo sensor de imagen puede separarse del primer sensor de imagen en una dirección vertical. Por ejemplo, el segundo sensor de imagen puede ubicarse a una distancia por encima o por debajo del primer sensor de imagen. Se puede usar una primera disparidad entre los datos de imagen desde las diferentes perspectivas para una imagen capturada del primer sensor de imagen para determinar las profundidades de las regiones de una escena que incluye los bordes correspondientes a la primera dirección. Puede usarse una segunda disparidad entre las imágenes capturadas por el primer sensor de imagen y por el segundo sensor de imagen para determinar las profundidades de las regiones de la escena que incluyen los bordes correspondientes a la segunda dirección. Por ejemplo, si la primera dirección es una dirección horizontal, y el primer sensor de imagen y el segundo sensor de imagen se separan en una dirección vertical, la primera disparidad puede usarse para determinar las profundidades correspondientes a los bordes horizontales, y la segunda disparidad puede usarse para determinar las profundidades correspondientes a los bordes verticales.
La Figura 1 es un diagrama de bloques de un dispositivo de ejemplo 100, que puede usarse con las implementaciones de ejemplo. En algunas implementaciones, el dispositivo 100 puede incluir o acoplarse a un módulo de doble cámara 110, un procesador 120, una memoria 130 que almacena instrucciones 131 y un controlador de cámara 140. El dispositivo 100 puede incluir o acoplarse opcionalmente a una pantalla, uno o más componentes de entrada/salida (E/S), una fuente de potencia o una interfaz de red, que puede incluir varios transceptores y un procesador de banda base (no mostrado para sencillez). El dispositivo 100 también puede incluir o acoplarse a cámaras adicionales distintas del módulo de doble cámara 110.
El módulo de doble cámara 110 puede ser capaz de capturar cuadros de imagen individuales (como imágenes fijas) y/o capturar video (como una sucesión de cuadros de imagen capturados). El módulo de doble cámara 110 puede incluir un primer sensor de imagen 111 y un segundo sensor de imagen 112. El primer sensor de imagen 111 puede incorporarse en una primera cámara del módulo de doble cámara 110, mientras que el segundo sensor de imagen 112 puede incorporarse en una segunda cámara del módulo de doble cámara 110 (no mostrado por simplicidad). El módulo de doble cámara 110 puede incluir sensores de imagen adicionales. El primer sensor de imagen 111 puede ser un sensor de imagen que incluye una pluralidad de píxeles de enfoque, configurado para capturar imágenes usando información desde dos o más perspectivas. La diferencia entre dos de las perspectivas puede asociarse a una primera dirección. El segundo sensor de imagen 112 también puede configurarse para capturar imágenes usando información desde dos o más perspectivas. El segundo sensor de imagen 112 puede separarse del primer sensor de imagen 111 en una segunda dirección ortogonal a la primera dirección. En algunas implementaciones, el primer sensor de imagen 111 puede configurarse para capturar imágenes de gran angular, y el segundo sensor de imagen 112 puede configurarse para capturar imágenes de teleobjetivo. Tenga en cuenta que, si bien el módulo de doble cámara 110 se describe como un módulo de doble cámara, en algunas implementaciones, el primer sensor de imagen 111 y el segundo sensor de imagen 112 pueden ubicarse dentro de cámaras separadas acopladas o incorporadas dentro del dispositivo 100.
La memoria 130 puede ser un medio legible por ordenador no transeúnte o no transitorio que almacene instrucciones ejecutables por ordenador 131 para realizar la totalidad o una parte de una o más operaciones descritas en esta divulgación.
El procesador 120 puede ser uno o más procesadores adecuados capaces de ejecutar guiones o instrucciones de uno o más programas de software (como las instrucciones 131) almacenados en la memoria 130. En algunos aspectos, el procesador 120 puede ser uno o más procesadores de propósito general que ejecutan instrucciones 131 para hacer que el dispositivo 100 realice cualquier número de funciones u operaciones. En aspectos adicionales o alternativos, el procesador 120 puede incluir circuitos integrados u otro hardware para realizar funciones u operaciones sin el uso de software. Aunque se muestra que se acoplan entre sí a través del procesador 120 en el dispositivo de ejemplo 100, el procesador 120, la memoria 130 y el controlador de cámara 140 pueden acoplarse entre sí en varias disposiciones. Por ejemplo, el procesador 120, la memoria 130 y el controlador de cámara 140 pueden acoplarse entre sí a través de uno o más buses locales (no mostrados por simplicidad).
El controlador de cámara 140 puede incluir un procesador de señal de imagen (ISP) 141, que puede ser uno o más procesadores de señal de imagen para procesar cuadros de imagen capturados o video proporcionado por el módulo de doble cámara 110. El ISP 141 puede configurarse para procesar imágenes, como imágenes capturadas por el primer sensor de imagen 111 y el segundo sensor de imagen 112. En algunas implementaciones de ejemplo, el controlador de cámara 140 también puede controlar las operaciones del módulo de doble cámara 110 al capturar imágenes usando el primer sensor de imagen 111 y el segundo sensor de imagen 112.
En algunos aspectos, el ISP 141 puede ejecutar instrucciones desde una memoria (como las instrucciones 131 de la memoria 130 o las instrucciones almacenadas en una memoria separada incluida o acoplada al ISP 141) para procesar cuadros de imagen o video capturado por el módulo de doble cámara 110 y/o controlar el módulo de doble cámara 110. En algunos otros aspectos, el ISP 141 puede incluir hardware específico para procesar cuadros de imagen o video capturado por el módulo de doble cámara 110 y/o controlar el módulo de doble cámara 110. El ISP 141 puede, alternativa o adicionalmente, incluir una combinación de hardware específico y la capacidad de ejecutar instrucciones de software para procesar cuadros de imagen o video capturado por el módulo de doble cámara 110 y/o controlar el módulo de doble cámara 110.
En los siguientes ejemplos, se describe que el dispositivo 100 realiza uno o más de los procedimientos descritos. Sin embargo, se puede usar cualquier dispositivo adecuado, y el dispositivo 100 se usa solo con fines ilustrativos, y la presente divulgación, por lo tanto, no debe limitarse a un dispositivo específico. El dispositivo 100 puede incluir cualquier número de cámaras/sensores de imagen. Por ejemplo, el dispositivo 100 puede incluir un módulo de doble cámara, o el dispositivo 100 puede no incluir cámaras ni sensores de imagen. En este último ejemplo, el dispositivo 100 puede recibir las imágenes a procesar desde una fuente remota.
La Figura 2 muestra una escena de ejemplo 200 que incluye regiones que carecen de bordes horizontales y regiones que carecen de bordes verticales. Como se discutió anteriormente, es posible que algunos sensores de imagen no puedan determinar con precisión las profundidades de las regiones de una escena que carecen de bordes horizontales. La región 210 de la Figura 2, que muestra una porción horizontal de la línea del techo de un edificio, es un ejemplo de dicha región que carece de bordes horizontales y, en cambio, contiene principalmente bordes verticales. Para un sensor de imagen configurado para capturar datos de imagen desde una perspectiva izquierda y una perspectiva derecha, las profundidades para la región 210 pueden ser difíciles de determinar con precisión. Como se discutió anteriormente, esto se debe a que los datos de imagen desde la perspectiva izquierda parecen muy similares a los datos de imagen desde la perspectiva derecha para un rango de desplazamientos horizontales. De manera similar, es posible que algunos otros sensores de imagen no puedan determinar con precisión las profundidades de las regiones de una escena que carecen de bordes verticales. La región 220 de la Figura 2, que muestra una porción vertical de una pared de un edificio, es un ejemplo de dicha región que carece de bordes verticales y, en cambio, contiene principalmente bordes horizontales. Para un sensor de imagen configurado para capturar datos de imagen desde una perspectiva superior y una perspectiva inferior, las profundidades de la región 220 pueden ser difíciles de determinar con precisión. Esto puede deberse a que los datos de imagen de la perspectiva superior parecen muy similares a los datos de imagen de la perspectiva inferior para un rango de desplazamientos verticales.
La Figura 3 representa un gráfico 300 de una métrica SAD de ejemplo para la imagen de fase, con el SAD representado (en el eje y) frente a la diferencia de fase (en el eje x). La métrica SAD puede representar una suma de diferencias absolutas entre la imagen de fase y otra imagen de fase correspondiente a la misma escena, pero desde una perspectiva diferente. Por ejemplo, la métrica SAD puede representar una suma de diferencias absolutas entre los datos de imagen de un primer conjunto de píxeles de enfoque de un sensor de imagen, correspondiente a una primera perspectiva, y los datos de imagen de un segundo conjunto de píxeles de enfoque del sensor de imagen, correspondiente a una segunda perspectiva. La diferencia de fase (en el eje x) puede corresponder a una distancia candidata a los objetos en la escena y, por lo tanto, determinar la distancia a los objetos en la escena corresponde a determinar la diferencia de fase en la que se minimiza el SAD. La diferencia de fase también se puede describir como un cambio de una imagen de fase con respecto a la otra imagen de fase. Por ejemplo, si las perspectivas primera y segunda son perspectivas izquierda y derecha, la diferencia de fase en el eje x puede corresponder a un cambio horizontal, con la métrica SAD en cada cambio horizontal que se muestra en el eje y.
La diferencia de fase correspondiente al SAD más pequeño ("diferencia de fase mínima") corresponde así a la mejor estimación de la distancia o profundidad de los objetos en la escena capturada en las imágenes de dos fases. Más particularmente, la diferencia de fase mínima corresponde a la disparidad estimada entre las dos imágenes de fase, que, en combinación con la configuración conocida del sensor de imagen, especifica la profundidad estimada. Con respecto a la Figura 3, el valor mínimo del SAD en el gráfico 300 se representa en 310 y se produce con una diferencia de fase de poco más de 4. La diferencia de fase mínima para el gráfico 300 en la Figura 3 se muestra como "PD" equivalente aproximadamente a 4,0299. La diferencia de fase mínima puede usarse para una variedad de operaciones de procesamiento de imágenes. Por ejemplo, la diferencia de fase mínima puede usarse para determinar una distancia focal durante PDAF. De manera similar, la diferencia de fase mínima puede corresponder a un plano de enfoque para operaciones de procesamiento de imágenes que incorporan mapas de profundidad o detección de profundidad, como efectos bokeh en tiempo real.
Además de usarse para determinar la diferencia de fase mínima, la métrica SAD puede usarse para determinar un valor de confianza en la diferencia de fase mínima determinada. Se puede utilizar una variedad de técnicas para determinar los valores de confianza. En algunas implementaciones de ejemplo, las propiedades locales de la métrica SAD cerca de la diferencia de fase mínima determinada pueden usarse para determinar los valores de confianza. En un ejemplo, un SAD mínimo determinado a partir de una métrica SAD con grandes pendientes cerca del mínimo (lo que produce un mínimo distinto) puede tener un valor de confianza más alto que un SAD mínimo determinado a partir de una métrica SAD con pendientes menos profundas cerca del mínimo. En un ejemplo, el valor de confianza puede corresponder a una relación entre el valor promedio de la métrica SAD sobre un rango de diferencias de fase y el valor mínimo determinado de la métrica SAD. Por lo tanto, cuanto menor sea el valor mínimo de la métrica SAD en relación con el valor promedio, más distinto será el mínimo y mayor será el valor de confianza. Con respecto a la Figura 3, dicho valor de confianza puede corresponder a una relación entre el valor promedio de SAD 330 y el valor mínimo de SAD 320.
En algunas implementaciones de ejemplo, se puede determinar una métrica SAD, una diferencia de fase mínima y un valor de confianza para cada mosaico de una imagen, donde la imagen se segmenta en una pluralidad de mosaicos. En algunas implementaciones de ejemplo, se puede determinar un valor de confianza y una profundidad estimada para cada píxel de la imagen. Por ejemplo, cada píxel en un mosaico puede asociarse con la profundidad estimada (correspondiente a la diferencia de fase mínima determinada) y el valor de confianza para la diferencia de fase mínima determinada para el mosaico. El conjunto de valores de confianza que incluye un valor de confianza determinado para cada píxel (como por ejemplo para cada mosaico) en la imagen puede denominarse colectivamente como un mapa de confianza. El mapa de confianza puede denominarse mapa de confianza por píxel para los valores de confianza determinados para cada píxel. El mapa de confianza puede denominarse mapa de confianza por mosaico para los valores de confianza determinados para cada mosaico.
Tenga en cuenta que los mosaicos pueden ser de cualquier tamaño adecuado. En un ejemplo, la imagen se puede considerar como un único mosaico y, por lo tanto, el mapa de confianza por mosaico puede incluir un único valor de confianza para la imagen. En otras implementaciones, la imagen puede considerarse como una pluralidad de mosaicos, y el mapa de confianza por mosaico puede incluir un valor de confianza para cada mosaico de la pluralidad de mosaicos. Los mosaicos pueden, por ejemplo, ser del mismo tamaño y pueden ser cuadrados o rectangulares. En algunas implementaciones, los mosaicos pueden no superponerse, de modo que cada píxel de una imagen sea parte de un solo mosaico. En algunas otras implementaciones, algunos mosaicos pueden superponerse, de modo que algunos píxeles pueden ser parte de más de un mosaico.
Como se mencionó anteriormente, los bordes en una escena capturada en una orientación específica relativa al sensor de imagen pueden ser difíciles de detectar debido a las disparidades entre las imágenes de fase del sensor de imagen. Estos problemas pueden surgir en función de la orientación de las disparidades con respecto a la orientación de los píxeles de enfoque del sensor de imagen.
La Figura 4 muestra una configuración de sensor de imagen convencional 400. Por ejemplo, la configuración del sensor de imagen 400 puede ser para un módulo de doble cámara incorporado o acoplado a un dispositivo de procesamiento de imágenes. La configuración del sensor de imagen 400 puede incluir un primer sensor de imagen 410 y un segundo sensor de imagen 420 orientados de manera que el borde más largo del primer sensor de imagen 410 sea paralelo al borde más largo del segundo sensor de imagen 420. En otras palabras, cuando se captura una imagen de una escena en una orientación "horizontal" (en contraposición a una orientación "retrato"), el primer sensor de imagen 410 se ubica en una dirección horizontal desde el segundo sensor de imagen 420. Por ejemplo, el segundo sensor de imagen 420 puede describirse como separado del primer sensor de imagen 310 en una dirección horizontal por una distancia de separación 430. El primer sensor de imagen 410 puede incluir una pluralidad de píxeles de enfoque. Por ejemplo, los píxeles de enfoque pueden incluir una pluralidad de píxeles 2PD, como un píxel 4152PD que se determina usando un fotodiodo izquierdo 415L y un fotodiodo derecho 415R. Tenga en cuenta que mientras el primer sensor de imagen 410 se muestra como un sensor de imagen 2PD, el primer sensor de imagen también puede ser uno de una variedad de sensores de imagen que incluyen píxeles de enfoque configurados para capturar imágenes desde dos o más perspectivas asociadas con la primera dirección. Tenga en cuenta además que mientras cada píxel en el primer sensor de imagen 410 se muestra como un píxel de enfoque, los píxeles de enfoque también pueden dispersarse, de modo que solo un subconjunto de los píxeles del sensor de imagen son píxeles de enfoque. Además, tenga en cuenta que, aunque el segundo sensor de imagen 420 no se representa incluyendo píxeles de enfoque, el segundo sensor de imagen también puede incluir píxeles de enfoque. Como se discutió anteriormente, determinar las profundidades para escenas que carecen de bordes verticales puede ser difícil usando la configuración de sensor de imagen convencional 400 cuando la distancia de separación 430 está en una dirección horizontal. Por ejemplo, la medida del fotodiodo izquierdo 415L puede ser similar a la medida del fotodiodo derecho correspondiente 415R para un rango de desplazamientos horizontales si la escena capturada por el primer sensor de imagen 410 carece de bordes horizontales.
La Figura 5 muestra una configuración de sensor de imagen de ejemplo 500, de acuerdo con algunas implementaciones de ejemplo. Por ejemplo, la configuración del sensor de imagen 500 puede ser para un módulo de doble cámara incorporado o acoplado a un dispositivo de procesamiento de imágenes, como el dispositivo 100. Como se discutió anteriormente, las configuraciones de sensores de imágenes convencionales pueden no detectar con precisión las profundidades en escenas que carecen de bordes correspondientes a la dirección de la diferencia entre dos perspectivas de los píxeles de enfoque del primer sensor de imagen. Por ejemplo, el primer sensor de imagen 510 puede incluir una pluralidad de píxeles de enfoque. En un ejemplo, el primer sensor de imagen 510 puede ser un sensor de imagen 2PD que tiene píxeles de enfoque en forma de píxeles 2PD. Por ejemplo, el primer sensor de imagen 510 puede incluir fotodiodos izquierdo y derecho para cada píxel de enfoque, como el fotodiodo izquierdo 515L y el fotodiodo derecho 515R del píxel de enfoque 515. Por lo tanto, la diferencia entre las perspectivas de los píxeles de enfoque del primer sensor de imagen 510 puede asociarse con una dirección horizontal. En consecuencia, el primer sensor de imagen 510 puede tener dificultades para detectar profundidades en escenas que carecen de bordes horizontales. Las implementaciones de ejemplo pueden mejorar la detección de profundidad en tales escenas proporcionando el segundo sensor de imagen 520 a una distancia 530 del primer sensor de imagen 510 en una dirección ortogonal a la dirección en la que los fotodiodos izquierdo y derecho se separan en el primer sensor de imagen 510. Así, mientras que la diferencia entre las perspectivas de los píxeles de enfoque del primer sensor de imagen 510 puede asociarse con una dirección horizontal, el segundo sensor de imagen 520 puede separarse por la distancia 530 del primer sensor de imagen 510 en una dirección vertical. Esto puede permitir que las disparidades de las escenas que carecen de bordes horizontales se detecten mejor al comparar los píxeles capturados desde el primer sensor de imagen 510 con los píxeles correspondientes capturados desde el segundo sensor de imagen 520. Por ejemplo, además de determinar una disparidad en base a los datos de imagen capturados por el fotodiodo izquierdo 515L y el fotodiodo derecho 515R, las disparidades pueden determinarse adicionalmente en función de la comparación de los píxeles correspondientes de las imágenes capturadas por el primer sensor de imagen 510 con los píxeles respectivos de las imágenes capturadas por el segundo sensor de imagen 520. Por ejemplo, se pueden determinar disparidades entre los datos de imagen capturados en el píxel de enfoque 515 y el píxel 525. En otro ejemplo, se pueden determinar disparidades entre las regiones correspondientes de las imágenes capturadas por el primer sensor de imagen 510 y el segundo sensor de imagen 520, por ejemplo, cuando el primer sensor de imagen 510 y el segundo sensor de imagen 520 capturan imágenes que tienen diferentes resoluciones. Tenga en cuenta que, para algunas implementaciones, las imágenes capturadas por el píxel de enfoque 515 pueden referirse a datos de imagen del fotodiodo izquierdo 515L o del fotodiodo derecho 515R. Por lo tanto, se puede determinar un mapa híbrido de profundidad que no solo puede detectar profundidades en regiones que carecen de bordes horizontales, sino también en regiones que carecen de bordes verticales, por ejemplo, en regiones como la región 210 y también en regiones como la región 220 de la Figura 2-en comparación con las configuraciones de sensores de imagen convencionales.
Tenga en cuenta que mientras el segundo sensor de imagen 520 se muestra ubicado a una distancia vertical 530 por debajo del primer sensor de imagen 510 en la Figura 4, el segundo sensor de imagen 520 puede ubicarse encima del primer sensor de imagen 510. Además, mientras que los fotodiodos de los píxeles de enfoque del primer sensor de imagen 510 se muestran adyacentes en una dirección horizontal, en algunas otras implementaciones de ejemplo, los fotodiodos de los píxeles de enfoque del primer sensor de imagen pueden estar adyacentes verticalmente o en otra dirección. Si los fotodiodos son adyacentes en dirección vertical, el segundo sensor de imagen puede separarse del primer sensor de imagen en dirección horizontal. De manera similar, si los fotodiodos de los píxeles de enfoque del primer sensor de imagen son adyacentes en otra dirección, el segundo sensor de imagen puede separarse del primer sensor de imagen en una dirección ortogonal a esa dirección.
Además, aunque se muestra que cada uno de los píxeles del primer sensor de imagen 510 son píxeles de enfoque, en otras implementaciones, solo una parte de los píxeles del primer sensor de imagen pueden ser píxeles de enfoque, es decir, los píxeles de enfoque pueden estar escasamente distribuidos en el primer sensor de imagen. De manera similar, aunque se muestra que los píxeles del segundo sensor de imagen 520 no son píxeles de enfoque, en otras implementaciones el segundo sensor de imagen también puede tener píxeles de enfoque, que pueden determinarse, por ejemplo, usando dos fotodiodos, como los fotodiodos izquierdo y derecho, o fotodiodos arriba y abajo. En algunas implementaciones de ejemplo, el primer sensor de imagen 510 puede ser un sensor de imagen de gran angular y el segundo sensor de imagen 520 puede ser un sensor de imagen de teleobjetivo. En un ejemplo, el sensor de imagen de gran angular incluye píxeles de enfoque y el sensor de imagen de teleobjetivo no.
Mientras que los píxeles de enfoque de los sensores de imagen en la configuración 500 se representan como píxeles 2Pd , dicha representación es solo por simplicidad. En otras implementaciones, como se discutió anteriormente, los píxeles de enfoque pueden incluir píxeles enmascarados direccionalmente, píxeles que tienen un OCL como una microlente, etc. Así, por ejemplo, en lugar de que los fotodiodos izquierdo y derecho 515L y 515R capturen datos de imagen respectivos desde las perspectivas izquierda y derecha, en algunas otras implementaciones, los píxeles de enfoque pueden incluir píxeles enmascarados direccionalmente, o píxeles que tienen un OCL para capturar los datos de imagen desde las perspectivas izquierda y derecha.
La Figura 6 muestra un diagrama de bloques de un sistema 600 para generar mapas híbridos de profundidad en base a imágenes capturadas desde un primer sensor de imagen y un segundo sensor de imagen, de acuerdo con algunas implementaciones. Por ejemplo, los bloques en el sistema 600 pueden realizarse por el controlador de cámara 140 o ISP 141 del dispositivo 100 de la Figura 1 y pueden ser partes de una canalización de procesamiento de imágenes. Con respecto a la Figura 6, se pueden recibir los datos de la primera imagen 610. Por ejemplo, los datos de la primera imagen 610 pueden incluir datos de crominancia y luminancia de un primer sensor de imagen. Por ejemplo, el primer sensor de imagen puede ser un sensor de imagen 111 mostrado en la Figura 1 y puede incluir píxeles de enfoque configurados para capturar datos de imagen desde al menos dos perspectivas, una diferencia entre las dos perspectivas asociada con una primera dirección. En un ejemplo, el primer sensor de imagen puede ser un sensor de imagen 2PD como el primer sensor de imagen 510 de la Figura 5. La primera dirección puede ser una dirección horizontal, por ejemplo, como se muestra en los fotodiodos 515L y 515R del píxel de enfoque 515 del primer sensor de imagen 510. Los datos de la primera imagen 610 recibidos del primer sensor de imagen pueden incluir datos tales como datos de crominancia y luminancia para cada una de las dos imágenes de fase capturadas por el primer sensor de imagen.
También pueden recibirse datos de la segunda imagen 620. Por ejemplo, los datos de la segunda imagen 620 pueden incluir datos de crominancia y luminancia de un segundo sensor de imagen. Por ejemplo, el segundo sensor de imagen puede ser un sensor de imagen 112 de la Figura 1 o el segundo sensor de imagen 520 de la Figura 5. Como se discutió anteriormente, el segundo sensor de imagen puede separarse del primer sensor de imagen en una dirección ortogonal a la primera dirección. Los datos de la segunda imagen 620 recibidos desde el segundo sensor de imagen pueden incluir datos de imagen tales como datos de crominancia y luminancia. Si el segundo sensor de imagen también incluye píxeles de enfoque configurados para capturar datos de imagen desde al menos dos perspectivas, los datos de imagen capturados por el segundo sensor de imagen pueden incluir además datos de imagen para cada una de las imágenes de dos fases capturadas por el segundo sensor de imagen.
Los datos de la primera imagen 610 pueden entonces procesarse por la determinación de la profundidad de PD 630. La determinación de profundidad de PD 630 puede determinar un primer mapa de profundidad en base a las disparidades entre la imagen de primera fase y la imagen de segunda fase capturadas por el primer sensor de imagen 610. Si el segundo sensor de imagen 620 también incluye píxeles de enfoque configurados para capturar datos de imagen desde al menos dos perspectivas, entonces la determinación de profundidad de PD 630 también puede determinar un mapa de profundidad en base a las disparidades entre la imagen de primera fase y la imagen de segunda fase capturadas por el segundo sensor de imagen 620. Como se discutió anteriormente, determinar el primer mapa de profundidad puede incluir determinar una métrica SAD para cada una de una pluralidad de mosaicos de las imágenes de primera y segunda fase, de modo que la métrica SAD para un mosaico particular sea en base a una suma de diferencias absolutas entre píxeles de la imagen de la primera fase y los píxeles correspondientes de las imágenes de la segunda fase. Además, la determinación de profundidad de PD 630 puede determinar un valor de confianza asociado con cada píxel del primer mapa de profundidad, como se discutió anteriormente, de modo que el valor de confianza para un píxel en particular corresponda al valor de confianza para el valor mínimo de la métrica SAD para el mosaico al que pertenece el píxel. Por ejemplo, el valor de confianza puede ser en base a la distinción del valor SAD mínimo, tal como una relación entre el valor promedio de la métrica SAD sobre un rango de diferencias de fase y el valor mínimo determinado de la métrica SAD.
Los datos de la primera imagen 610 y los datos de la segunda imagen 620 también pueden procesarse por la determinación de profundidad de doble cámara 640, que puede determinar un segundo mapa de profundidad en base a las disparidades entre los píxeles de los datos de la primera imagen 610 y los píxeles correspondientes de los datos de la segunda imagen 620. Determinar el segundo mapa de profundidad puede incluir determinar una métrica SAD para cada una de una pluralidad de mosaicos de la primera y la segunda imagen, de modo que la métrica SAD para un mosaico particular en base a una suma de diferencias absolutas entre los píxeles de la primera imagen y los correspondientes píxeles de la segunda imagen. Además, la determinación de profundidad de doble cámara 640 puede determinar un valor de confianza asociado con cada píxel del segundo mapa de profundidad, como se discutió anteriormente, de modo que el valor de confianza para un píxel particular corresponda al valor de confianza para el valor mínimo de la métrica SAD para el mosaico al que pertenece el píxel. Por ejemplo, el valor de confianza puede ser en base a la distinción del valor SAD mínimo, como una relación entre el valor promedio de la métrica sAd en un rango de diferencias de fase y el valor mínimo determinado de la métrica SAD.
Cada uno de los mapas de profundidad determinados por la determinación de profundidad de PD 630 y la determinación de profundidad de doble cámara 640 pueden procesarse adicionalmente mediante el procesamiento híbrido en profundidad 650, que puede generar un mapa híbrido de profundidad. Más particularmente, el procesamiento híbrido en profundidad 650 puede seleccionar profundidades del mapa o mapas de profundidad de la determinación de profundidad PD 630 (por ejemplo, el primer mapa de profundidad o si el segundo sensor de imagen 620 también incluye píxeles de enfoque, entonces el primer mapa de profundidad y el segundo mapa de profundidad mapa de profundidad) o desde el mapa de profundidad determinado por la determinación de profundidad de doble cámara 640 (por ejemplo, el segundo mapa de profundidad), por ejemplo usando la selección de profundidad 651. Luego, las profundidades seleccionadas pueden combinarse en un mapa híbrido de profundidad, por ejemplo, utilizando la fusión de imágenes 652.
En algunas implementaciones, las profundidades pueden seleccionarse en base a la confianza. Más particularmente, como se discutió anteriormente, cada mapa de profundidad determinado por la determinación de profundidad de PD 630 (como un mapa de profundidad determinado usando los datos de la primera imagen 610, y si el segundo sensor de imagen también incluye píxeles de enfoque, opcionalmente también un mapa de profundidad determinado a partir de los datos de la segunda imagen 620) y cada mapa de profundidad determinado por la determinación de profundidad de doble cámara 640 se puede asociar con un mapa de confianza correspondiente, que también se puede proporcionar al procesamiento híbrido en profundidad 650. Las profundidades que tengan el valor de confianza más alto pueden entonces seleccionarse para su inclusión en el mapa híbrido de profundidad. En algunos ejemplos, las profundidades se pueden seleccionar por píxel, de modo que, para cada píxel, se elige una profundidad de entre los mapas de profundidad proporcionados por la determinación de profundidad de DP 630 y la determinación de profundidad de doble cámara 640 en base a cuál de los correspondientes mapas de confianza de píxel tiene un valor de confianza más alto para ese píxel. En algunas otras implementaciones, la selección de las profundidades puede ser por mosaico, de modo que, para todos los píxeles en el mosaico, la profundidad se selecciona entre los mapas de profundidad en base a cuál de los mapas de confianza correspondientes por mosaico tiene el mayor valor de confianza para ese mosaico.
En algunas otras implementaciones, en lugar de simplemente seleccionar una de las profundidades para cada píxel o mosaico, el procesamiento híbrido en profundidad 650 puede seleccionar una contribución proporcional de cada una de las profundidades en base a las medidas de confianza. Más particularmente, a las profundidades que tienen un alto grado de confianza se les puede asignar más peso en el mapa híbrido de profundidad en comparación con las profundidades que tienen grados de confianza más bajos. Las profundidades pueden entonces representarse en el mapa híbrido de profundidad en proporción relativa a sus pesos asignados. Además, las ponderaciones se pueden normalizar, de modo que las ponderaciones sumen la unidad (o 100 %), y cada ponderación se selecciona para que sea un número entre cero y la unidad; por lo tanto, cada ponderación puede representar una contribución porcentual al mapa híbrido de profundidad. Por lo tanto, si los mapas de profundidad tienen valores de confianza similares en un píxel o mosaico dado, entonces el píxel o mosaico dado del mapa híbrido de profundidad puede reflejar contribuciones similares de cada uno de los mapas de profundidad. Por el contrario, si un mapa de profundidad tiene un valor de confianza más bajo en el píxel o mosaico dado, entonces su contribución puede ser menor.
Después de seleccionar las profundidades, o las profundidades y los pesos correspondientes, se puede generar el mapa híbrido de profundidad. En algunas implementaciones, el mapa híbrido de profundidad puede incluir cada una de las profundidades seleccionadas. En algunas otras implementaciones, la profundidad híbrida puede generarse para incluir las profundidades de acuerdo con sus pesos asignados, como se discutió anteriormente. Si las profundidades se determinan por mosaico, los mosaicos seleccionados pueden combinarse para generar el mapa híbrido de profundidad.
La Figura 6 muestra mapas de profundidad que se generarán como un paso intermedio para determinar el mapa híbrido de profundidad, por ejemplo, la determinación de profundidad de PD 630 y la determinación de profundidad de doble cámara 640 cada uno determina uno o más mapas de profundidad, que el procesamiento híbrido en profundidad 650 puede usar para determinar o generar el mapa híbrido de profundidad. En algunas otras implementaciones, los datos de la primera imagen 610 y los datos de la segunda imagen 620 pueden procesarse directamente por un procesador híbrido de profundidad, que puede generar un mapa híbrido de profundidad sin generar mapas de profundidad intermedios en base a los datos de imagen. Más particularmente, los datos de crominancia y luminancia pueden proporcionarse correspondientes a las imágenes capturadas por cada uno del primer sensor de imagen 610 y el segundo sensor de imagen 620, y los datos correspondientes de los píxeles de enfoque del primer sensor de imagen 610 (y opcionalmente también el segundo sensor de imagen 620 si también incluye píxeles de enfoque) se puede proporcionar al módulo de procesamiento híbrido en profundidad. En algunas implementaciones de ejemplo, el módulo de procesamiento híbrido en profundidad puede utilizar enfoques de aprendizaje automático, como redes neuronales, para generar el mapa híbrido de profundidad. El módulo de procesamiento híbrido en profundidad puede haber sido previamente entrenado usando técnicas conocidas para optimizar dicha determinación de profundidad.
Además, mientras la Figura 6 muestra tanto el primer sensor de imagen 610 como el segundo sensor de imagen 620 para capturar datos de imagen, y para generar mapas de profundidad utilizando tanto la determinación de profundidad de PD 630 como la determinación de profundidad de doble cámara 640, en algunas otras implementaciones, un dispositivo de ejemplo puede prescindir de una o más operaciones de captura de imágenes o determinación de mapas de profundidad, por ejemplo, en base a un mapa de confianza determinado. Por ejemplo, en una implementación, si cada píxel o mosaico de un mapa de confianza respectivo por píxel o por mosaico generado por la determinación de profundidad de PD 630 es mayor que un valor de umbral se puede determinar que no se requiere procesamiento híbrido en profundidad para determinar un mapa de profundidad suficientemente preciso. Si cada píxel o mosaico está por encima del umbral para dicho primer mapa de profundidad determinado por la determinación de profundidad de PD 630, entonces el dispositivo de ejemplo puede renunciar a uno o más de capturar la segunda imagen usando el segundo sensor de imagen, recibir los datos de la segunda imagen 620, determinar un mapa de profundidad para la segunda imagen usando la determinación de profundidad PD 630, o determinando el segundo mapa de profundidad usando la determinación de profundidad de doble cámara 640.
Además, en otra implementación, si cada píxel o mosaico de un respectivo mapa de confianza por píxel o por mosaico no es mayor que el valor umbral, se puede determinar que se requiere un procesamiento híbrido en profundidad para determinar un mapa de profundidad suficientemente preciso. Si cada píxel o mosaico no está por encima del umbral para dicho primer mapa de profundidad determinado por la determinación de profundidad de PD 630, entonces el dispositivo de ejemplo puede recibir los datos de la segunda imagen 620, opcionalmente determinar un mapa de profundidad para la segunda imagen usando la determinación de profundidad de PD 630, determinar el segundo mapa de profundidad usando la determinación de profundidad de doble cámara 640, y generar el mapa híbrido de profundidad usando el procesamiento híbrido en profundidad 650.
La Figura 7 es un diagrama de flujo ilustrativo que representa una operación de ejemplo 700 para el procesamiento de mapas híbridos de profundidad, de acuerdo con las implementaciones de ejemplo. La operación de ejemplo 700 se puede realizar usando cualquier dispositivo de procesamiento de imágenes adecuado, como el dispositivo 100, o usando un sistema de procesamiento de imágenes adecuado como el sistema 600. Sin embargo, se pueden usar otros dispositivos o sistemas, y la presente divulgación no debe limitarse a los ejemplos o la descripción de la implementación usando el dispositivo de procesamiento de imágenes 100 o el sistema 600.
Con respecto a la Figura 7, un dispositivo 100 puede recibir una primera imagen de un primer sensor de imagen, el primer sensor de imagen asociado con una primera dirección (702). Por ejemplo, la primera imagen puede capturarse por un sensor de imagen adecuado, como el sensor de imagen 111 de la Figura 1, o el primer sensor de imagen 510 de la Figura 5, que puede incluir una pluralidad de píxeles de enfoque, donde los píxeles de enfoque se configuran para capturar datos de imagen desde al menos una primera perspectiva y una segunda perspectiva, de modo que una diferencia entre la primera perspectiva y la segunda perspectiva se asocia con la primera dirección. En un ejemplo, el primer sensor de imagen puede ser un sensor de imagen de fotodiodo dual (2PD) que tiene un primer número de píxeles 2PD, cada uno de los cuales se determina utilizando dos fotodiodos, donde dos fotodiodos de cada píxel 2PD son adyacentes en la primera dirección. Por ejemplo, la primera dirección puede ser una dirección horizontal, de modo que las dos perspectivas incluyan una perspectiva izquierda y una perspectiva derecha.
El dispositivo 100 también puede recibir una segunda imagen usando un segundo sensor de imagen, donde el segundo sensor de imagen se separa del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección (704). La segunda imagen puede capturarse por un sensor de imagen adecuado, como el sensor de imagen 112 de la Figura 1, o el segundo sensor de imagen 520 de la Figura 5. El segundo sensor de imagen también puede incluir una pluralidad de píxeles de enfoque, de modo que una diferencia entre la primera perspectiva y la segunda perspectiva se asocie con la primera dirección. En algunas implementaciones, la segunda dirección puede ser una dirección vertical, de modo que el segundo sensor de imagen se ubique por encima o por debajo del primer sensor de imagen.
El dispositivo 100 puede determinar un primer mapa de profundidad en base a la primera imagen (706). Por ejemplo, el dispositivo 100 puede determinar el primer mapa de profundidad utilizando el ISP 141 o ejecutando instrucciones desde la memoria, como las instrucciones 131 desde la memoria 130. Además, el primer mapa de profundidad puede determinarse usando la determinación de profundidad PD 630 de la Figura 6. El primer mapa de profundidad puede determinarse en base a al menos en parte en los píxeles de enfoque del primer sensor de imagen. Por ejemplo, el primer mapa de profundidad puede ser en base a una disparidad entre una imagen de primera fase respectiva y una imagen de segunda fase capturada utilizando datos de la primera perspectiva y la segunda perspectiva respectivas. En algunos aspectos, la determinación del primer mapa de profundidad también puede incluir la determinación de un primer mapa de confianza correspondiente al primer mapa de profundidad. El primer mapa de confianza puede basarse, al menos en parte, en una primera métrica de suma de diferencias absolutas (sAd ) para la primera imagen. Además, el primer mapa de confianza puede ser un mapa de confianza por mosaico o un mapa de confianza por píxel.
El dispositivo 100 puede entonces determinar un segundo mapa de profundidad en base a una disparidad entre los píxeles respectivos de la primera imagen y la segunda imagen (708). Por ejemplo, el dispositivo 100 puede determinar el segundo mapa de profundidad utilizando el ISP 141 o ejecutando instrucciones desde la memoria, como las instrucciones 131 desde la memoria 130. Además, el segundo mapa de profundidad puede determinarse usando la determinación de profundidad de doble cámara 640 de la Figura 6. En algunos aspectos, la determinación del primer mapa de profundidad también puede incluir la determinación de un segundo mapa de confianza correspondiente al primer mapa de profundidad. El segundo mapa de confianza puede basarse, al menos en parte, en una segunda métrica de suma de diferencias absolutas (SAd ) para la segunda imagen. Además, el segundo mapa de confianza puede ser un mapa de confianza por mosaico o un mapa de confianza por píxel.
El dispositivo 100 puede entonces generar un mapa híbrido de profundidad basado al menos en parte en el primer mapa de profundidad y el segundo mapa de profundidad (710). Por ejemplo, el dispositivo 100 puede generar el mapa híbrido de profundidad utilizando el ISP 141 o ejecutando instrucciones desde la memoria, como las instrucciones 131 desde la memoria 130. Además, el mapa híbrido de profundidad puede determinarse usando el procesamiento híbrido en profundidad 650 de la FIG. 6. En algunos aspectos, las profundidades del mapa híbrido de profundidad pueden generarse basándose al menos en parte en una comparación de píxeles del primer mapa de confianza y los píxeles correspondientes del segundo mapa de confianza. La generación del mapa híbrido de profundidad puede incluir además seleccionar, como cada píxel del mapa híbrido de profundidad, un píxel correspondiente del primer mapa de profundidad o un píxel correspondiente del segundo mapa de profundidad, teniendo el píxel seleccionado un valor de confianza más alto.
Las técnicas descritas en la presente memoria pueden implementarse en hardware, software, firmware o cualquier combinación de los mismos, a menos que se describan específicamente como implementadas de una manera específica. Todas las características descritas como módulos o componentes también pueden implementarse juntas en un dispositivo lógico integrado o por separado como dispositivos lógicos discretos pero interoperables. Si se implementan en software, las técnicas se pueden realizar, al menos en parte, mediante un medio de almacenamiento legible por un procesador no transitorio (como la memoria 130 en el dispositivo de procesamiento de imágenes de ejemplo 100 de la Figura 1) que comprende instrucciones que, cuando se ejecutan por el procesador 120 (o el procesador de gráficos 121), hacen que el dispositivo 100 realice uno o más de los procedimientos descritos anteriormente. El medio de almacenamiento de datos legibles por el procesador no transitorio puede formar parte de un producto de programa informático, que puede incluir materiales de embalaje.
El medio de almacenamiento legible por el procesador no transitorio puede comprender memoria de acceso aleatorio (RAM) tal como memoria de acceso aleatorio dinámica sincrónica (SDRAM), memoria de solo lectura (ROM), memoria de acceso aleatorio no volátil (NVRAM), memoria de acceso aleatorio programable y borrable eléctricamente (SDRAM) solo memoria (EEPROM), memoria FLASH, otros medios de almacenamiento conocidos y similares. Las técnicas adicionalmente, o alternativamente, pueden realizarse al menos en parte mediante un medio de comunicación legible por procesador que transporta o comunica código en forma de instrucciones o estructuras de datos y que se puede acceder, leer y/o ejecutar por un ordenador u otro procesador.
Los diversos bloques, módulos, circuitos e instrucciones lógicos ilustrativos descritos en relación con las realizaciones divulgadas en la presente memoria pueden ejecutarse por uno o más procesadores, como el procesador 120 o el procesador de gráficos 121 en el dispositivo de procesamiento de imágenes de ejemplo 100 de la Figura 1. Tal(es) procesador(es) puede(n) incluir, pero no se limitan a, uno o varios procesadores de señales digitales (DSP), microprocesadores de propósito general, circuitos integrados de aplicación específica (ASIC), procesadores de conjuntos de instrucciones de aplicación específica (ASIP), matrices de puertas programables en campo (FPGA) u otros circuitos lógicos integrados o discretos equivalentes. El término "procesador", como se usa en la presente memoria, puede referirse a cualquiera de las estructuras anteriores o a cualquier otra estructura adecuada para la implementación de las técnicas descritas en la presente memoria. Además, en algunos aspectos, la funcionalidad descrita en la presente memoria se puede proporcionar dentro de módulos de software dedicados o módulos de hardware configurados como se describe en la presente memoria. Asimismo, las técnicas se podrían implementar completamente en uno o más circuitos o elementos lógicos. Un procesador de propósito general puede ser un microprocesador, pero como alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estado convencional. Un procesador puede implementarse también como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP, o cualquier otra dicha configuración.

Claims (15)

REIVINDICACIONES
1. Un dispositivo, que comprende:
un primer sensor de imagen (111; 510) que incluye una pluralidad de píxeles de enfoque (515), los píxeles de enfoque configurados para capturar imágenes desde al menos una primera perspectiva y una segunda perspectiva, una diferencia entre la primera y segunda perspectivas asociadas con una primera dirección;
un segundo sensor de imagen (112; 520) separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección;
una memoria (130); y
un procesador (120; 141) acoplado a la memoria y configurado para:
recibir (702) una primera imagen (610) del primer sensor de imagen, comprendiendo la primera imagen los datos de la primera imagen capturados desde la primera perspectiva y los datos de la segunda imagen capturados desde la segunda perspectiva;
recibir (704) una segunda imagen (620) del segundo sensor de imagen; y
generar un mapa híbrido de profundidad en base a al menos en parte en la primera imagen y la segunda imagen.
2. El dispositivo de la reivindicación 1, en el que el procesador (120; 141) se configura para generar el mapa híbrido de profundidad usando una red neuronal, la red neuronal entrenada para recibir datos de imagen de la primera y segunda imágenes y para generar el mapa híbrido de profundidad.
3. El dispositivo de la reivindicación 1, en el que el procesador (120; 141) se configura para generar el mapa híbrido de profundidad mediante:
determinar (706) un primer mapa de profundidad en base a una primera disparidad entre los datos de la primera imagen capturados desde la primera perspectiva y los datos de la segunda imagen capturados desde la segunda perspectiva;
determinar (708) un segundo mapa de profundidad en base a una segunda disparidad entre píxeles respectivos de la primera imagen y la segunda imagen; y
generar (710) un mapa híbrido de profundidad basado al menos en parte en el primer mapa de profundidad y el segundo mapa de profundidad.
4. El dispositivo de la reivindicación 3, en el que el procesador (120; 141) se configura además para: determinar un primer mapa de confianza correspondiente al primer mapa de profundidad; y
determinar un segundo mapa de confianza correspondiente al segundo mapa de profundidad;
en el que el mapa híbrido de profundidad se genera en base al menos en parte al primer mapa de confianza y al segundo mapa de confianza.
5. El dispositivo de la reivindicación 4, en el que las profundidades del mapa híbrido de profundidad se determinan basándose al menos en parte en una comparación de píxeles del primer mapa de confianza y los píxeles correspondientes del segundo mapa de confianza; o
en el que el primer mapa de confianza se basa al menos en parte en una primera suma de la métrica de diferencias absolutas, SAD para la primera imagen, y en el que el segundo mapa de profundidad se basa al menos en parte en una segunda métrica sAd , la segunda métrica sAd se basa en las diferencias entre los píxeles correspondientes de la primera imagen y la segunda imagen.
6. El dispositivo de la reivindicación 4, en el que el procesador (120; 141) se configura además para generar el mapa híbrido de profundidad seleccionando, como cada píxel del mapa híbrido de profundidad, un píxel correspondiente del primer mapa de profundidad o un píxel correspondiente del segundo mapa de profundidad, teniendo el píxel seleccionado un mayor valor de confianza.
7. El dispositivo de la reivindicación 1, en el que el primer sensor de imagen (111; 510) es un sensor de imagen de fotodiodo dual, 2PD, cada píxel de enfoque (515) del primer sensor de imagen incluye un primer fotodiodo (515L) y un segundo fotodiodo (515R), el primer y segundo fotodiodos adyacentes en la primera dirección; en el que la primera dirección es en particular una dirección horizontal y la segunda dirección es en particular una dirección vertical.
8. El dispositivo de la reivindicación 1, en el que el segundo sensor de imagen (112; 520) es un sensor 2PD, cada píxel de enfoque (525) del segundo sensor de imagen incluye un tercer fotodiodo y un cuarto fotodiodo, el tercer y cuarto fotodiodos adyacentes en la primera dirección.
9. Un procedimiento para el procesamiento de mapas híbridos de profundidad, comprendiendo el procedimiento:
recibir (702) una primera imagen de (610) un primer sensor de imagen (111; 510) que incluye una pluralidad de píxeles de enfoque (515), los píxeles de enfoque configurados para capturar imágenes desde al menos una primera perspectiva y una segunda perspectiva, una diferencia entre la primera y segunda perspectivas asociadas a una primera dirección;
recibir (704) una segunda imagen (620) de un segundo sensor de imagen (112; 520), el segundo sensor de imagen separado del primer sensor de imagen en una segunda dirección ortogonal a la primera dirección;
determinar (706) un primer mapa de profundidad en base a la primera imagen;
determinar (708) un segundo mapa de profundidad en base a una disparidad entre píxeles respectivos de la primera imagen y la segunda imagen; y
generar (710) un mapa híbrido de profundidad basado al menos en parte en el primer mapa de profundidad y el segundo mapa de profundidad.
10. El procedimiento de la reivindicación 9, en el que la segunda dirección es una dirección vertical y la primera dirección es una dirección horizontal.
11. El procedimiento de la reivindicación 9, en el que el primer sensor de imagen (111; 510) es un sensor de imagen de fotodiodo dual, 2PD, y los píxeles de enfoque comprenden píxeles 2PD que se determinan usando dos fotodiodos adyacentes en la primera dirección.
12. El procedimiento de la reivindicación 9, en el que determinar (706) el primer mapa de profundidad comprende determinar el primer mapa de profundidad en base a al menos en parte los datos de la primera imagen capturados desde la primera perspectiva y los datos de la segunda imagen capturados desde la segunda perspectiva.
13. El procedimiento de la reivindicación 12, en el que:
determinar (706) el primer mapa de profundidad comprende además determinar un primer mapa de confianza correspondiente al primer mapa de profundidad;
determinar (708) el segundo mapa de profundidad comprende además determinar un segundo mapa de confianza correspondiente al segundo mapa de profundidad; y
el mapa híbrido de profundidad se genera en base al menos en parte al primer mapa de confianza y al segundo mapa de confianza.
14. El procedimiento de la reivindicación 13, en el que las profundidades del mapa híbrido de profundidad se generan basándose al menos en parte en una comparación de píxeles del primer mapa de confianza y los píxeles correspondientes del segundo mapa de confianza; o
en el que el primer mapa de confianza se basa, al menos en parte, en una primera suma de la métrica de diferencias absolutas, SAD para los datos de la primera imagen y los datos de la segunda imagen, y el segundo mapa de confianza se basa, al menos en parte, en una segunda métrica SAD, la segunda métrica SAD se basa en las diferencias entre los píxeles correspondientes de la primera imagen y la segunda imagen; o
en el que generar (710) el mapa híbrido de profundidad comprende seleccionar, como cada píxel del mapa híbrido de profundidad, un píxel correspondiente del primer mapa de profundidad o un píxel correspondiente del segundo mapa de profundidad, teniendo el píxel seleccionado un valor de confianza más alto.
15. Un medio de almacenamiento no transitorio legible por ordenador, que almacena instrucciones que, cuando se ejecutan por uno o más procesadores de un dispositivo como el definido en la reivindicación 1, hacen que el dispositivo de procesamiento de imágenes realice el procedimiento de cualquiera de las reivindicaciones 9 a 14.
ES19769944T 2018-09-27 2019-08-30 Procesamiento híbrido en profundidad Active ES2931984T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/144,038 US10410368B1 (en) 2018-09-27 2018-09-27 Hybrid depth processing
PCT/US2019/048996 WO2020068362A1 (en) 2018-09-27 2019-08-30 Hybrid depth processing

Publications (1)

Publication Number Publication Date
ES2931984T3 true ES2931984T3 (es) 2023-01-05

Family

ID=67845333

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19769944T Active ES2931984T3 (es) 2018-09-27 2019-08-30 Procesamiento híbrido en profundidad

Country Status (5)

Country Link
US (1) US10410368B1 (es)
EP (1) EP3857874B1 (es)
CN (1) CN112753217B (es)
ES (1) ES2931984T3 (es)
WO (1) WO2020068362A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917628B2 (en) * 2018-04-02 2021-02-09 Mediatek Inc. IR pattern characteristics for active stereo matching
CN111193918B (zh) * 2018-11-14 2021-12-28 宏达国际电子股份有限公司 影像处理系统及影像处理方法
EP3674973A1 (en) * 2018-12-28 2020-07-01 Samsung Electronics Co., Ltd. Method and apparatus with liveness detection and object recognition
US11330246B2 (en) * 2019-11-21 2022-05-10 Microsoft Technology Licensing, Llc Imaging system configured to use time-of-flight imaging and stereo imaging
KR20210108082A (ko) * 2020-02-25 2021-09-02 삼성전자주식회사 위상 차를 이용하는 라이브니스 검출 방법 및 장치
WO2022245855A1 (en) * 2021-05-18 2022-11-24 Snap Inc. Varied depth determination using stereo vision and phase detection auto focus (pdaf)

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7751700B2 (en) * 2006-03-01 2010-07-06 Nikon Corporation Focus adjustment device, imaging device and focus adjustment method
WO2009133960A1 (en) * 2008-04-30 2009-11-05 Canon Kabushiki Kaisha Image sensing apparatus
JP5434761B2 (ja) * 2010-04-08 2014-03-05 株式会社ニコン 撮像デバイスおよび撮像装置
US9485495B2 (en) * 2010-08-09 2016-11-01 Qualcomm Incorporated Autofocus for stereo images
US9300946B2 (en) * 2011-07-08 2016-03-29 Personify, Inc. System and method for generating a depth map and fusing images from a camera array
US9554115B2 (en) 2012-02-27 2017-01-24 Semiconductor Components Industries, Llc Imaging pixels with depth sensing capabilities
US10178373B2 (en) * 2013-08-16 2019-01-08 Qualcomm Incorporated Stereo yaw correction using autofocus feedback
TW201514599A (zh) * 2013-10-07 2015-04-16 Novatek Microelectronics Corp 影像感測器及影像擷取系統
KR102172992B1 (ko) * 2014-07-31 2020-11-02 삼성전자주식회사 이미지 촬영 장치 및 이미지 촬영 방법
KR102272254B1 (ko) * 2015-02-13 2021-07-06 삼성전자주식회사 위상 검출 픽셀을 이용하여 깊이 맵을 생성하기 위한 영상 생성 장치
US9515105B2 (en) * 2015-02-18 2016-12-06 Semiconductor Components Industries, Llc Dual photodiode image pixels with preferential blooming path
US10091436B2 (en) 2015-05-13 2018-10-02 Samsung Electronics Co., Ltd. Electronic device for processing image and method for controlling the same
US9235899B1 (en) 2015-06-12 2016-01-12 Google Inc. Simulating an infrared emitter array in a video monitoring camera to construct a lookup table for depth determination
US9426450B1 (en) * 2015-08-18 2016-08-23 Intel Corporation Depth sensing auto focus multiple camera system
EP3358820B1 (en) * 2015-09-30 2021-06-09 Nikon Corporation Imaging device, image processing device and display device
US9848118B2 (en) 2016-03-11 2017-12-19 Intel Corporation Phase detection autofocus using opposing filter masks
US10070042B2 (en) * 2016-12-19 2018-09-04 Intel Corporation Method and system of self-calibration for phase detection autofocus

Also Published As

Publication number Publication date
US10410368B1 (en) 2019-09-10
EP3857874A1 (en) 2021-08-04
CN112753217A (zh) 2021-05-04
CN112753217B (zh) 2022-04-12
EP3857874B1 (en) 2022-11-09
WO2020068362A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
ES2931984T3 (es) Procesamiento híbrido en profundidad
EP3248374B1 (en) Method and apparatus for multiple technology depth map acquisition and fusion
CN107945105B (zh) 背景虚化处理方法、装置及设备
US10043290B2 (en) Image processing to enhance distance calculation accuracy
TWI543608B (zh) 相機模組的阻擋偵測方法以及具備多相機模組之電子裝置
KR102143456B1 (ko) 심도 정보 취득 방법 및 장치, 그리고 이미지 수집 디바이스
JP6590792B2 (ja) 3d映像を補正する方法、装置及び表示システム
WO2019105261A1 (zh) 背景虚化处理方法、装置及设备
KR20200031689A (ko) 이미지 처리 방법, 장치 및 기기
CN103067656B (zh) 摄像装置以及摄像方法
CN106033614B (zh) 一种强视差下的移动相机运动目标检测方法
WO2019105254A1 (zh) 背景虚化处理方法、装置及设备
US10904512B2 (en) Combined stereoscopic and phase detection depth mapping in a dual aperture camera
WO2019105260A1 (zh) 景深获取方法、装置及设备
US20170155889A1 (en) Image capturing device, depth information generation method and auto-calibration method thereof
US11245878B2 (en) Quad color filter array image sensor with aperture simulation and phase detection
CN107211095B (zh) 处理图像的方法和设备
TWI538476B (zh) 立體攝影系統及其方法
CN106352847B (zh) 基于相位差的距离测量装置及距离测量方法
TW201644271A (zh) 測試系統及測試方法
WO2018161322A1 (zh) 基于深度的图像处理方法、处理装置和电子装置
CN117356102A (zh) 多相机系统中辅助相机的镜头定位
Hsu et al. Depth measurement based on pixel number variation and Speeded Up Robust Features
CN104977795A (zh) 立体摄影系统及其方法
CN106324976A (zh) 测试系统及测试方法